最近阿里的Qwen模型热度不减,尤其是3.7版本上线后,号称在逻辑推理上有长足进步。我也跟风去试了一把网页版的Qwen3.7,特意勾选了那个让人充满期待的“思考模式”。说实话,试用完之后,我真的被气笑了。

Qwen3.7 模型界面思考模式示意图

网页版 Qwen3.7 的界面与思考模式选项

所谓的“思考”,其实是在“发呆”?

用我们通俗的话说,这个思考模式就像是你坐在旁边看一个人做数学题。本来指望他列出公式,一步步推导出答案,结果他趴在桌子上自言自语念叨了半天,最后写了个错误的得数。

在实际使用中,我扔给它几个逻辑稍微复杂一点的问题。它的“思考过程”开始疯狂输出,但仔细一看,全是废话。比如它会反复确认题目的某个无关紧要的细节,或者是在逻辑链条上原地踏步,甚至还会出现“虽然A不等于B,但如果我们强行让A等于B...”这种让人哭笑不得的脑回路。

这不是推理,这是“废话文学”

很多大模型现在都在学OpenAI的o1,搞深度的思维链(Chain of Thought),想让用户看到模型的推理过程,从而增加信任感。但Qwen3.7这次给我的感觉是,它只是学会了“有话要说”,却没学会“怎么说话”。

它展示的内容更像是思维过程的粗略堆砌,而不是经过修剪的逻辑链条。对于普通用户来说,这种冗长且低质量的过程展示,不仅没有辅助理解,反而极大地拉长了等待时间,最后出来的答案可能还不如直接关闭思考模式来得干脆。

还有多大优化空间?

当然,作为开发者,让大模型公开思考过程本身就是一件极具挑战的事。这里涉及到几个核心问题:

  1. 蒸馏风险:如果思考过程太完美,很容易被竞争对手拿去训练自己的小模型。
  2. 计算成本:生成大量思考字符需要消耗巨大的计算资源,如果体验跟不上,用户很难买账。
  3. 逻辑一致性:模型很容易在多步推理中出现“幻觉”,前面的思考还没理顺,后面就开始胡编乱造。

目前来看,Qwen3.7在基础能力上其实不弱,但这个网页版的“思考模式”似乎有点为了展示而展示。如果你是为了追求效率,建议暂时还是关掉这个功能;如果你是为了找乐子,那打开它,确实能让你见识到什么叫“人工智障”的硬核幽默。

写在最后

国产大模型进步肉眼可见,但在这些细枝末节的体验上,确实还得再沉淀沉淀。希望接下来的版本能少一点“发呆”,多一点真正的逻辑火花。至于现在,还是让我们先笑一笑,然后继续搬砖吧。

标签: none

评论已关闭