最近折腾国产大模型的朋友圈里,吐槽 GLM-5.2 的声音似乎变大了。

GLM-5.2模型评测对比

GLM-5.2模型初发布与近期表现对比

记得它刚发布那一周,风评还是相当不错的,很多朋友都直呼 "真香",甚至觉得能在某些场景下替代 GPT-4。但这周情况有点不对劲,不少人感觉这模型好像是 "降智" 了,用起来不仅不顺手,甚至有点 "拉胯"。

一、 实测遭遇:从 "全能选手" 到 "只会画皮"

有用户反馈,自己手头的 API 额度都快用了一半,直观感受是最近一周模型的稳定性大幅下降。具体表现在哪几个方面呢?

  1. 瞎编函数( hallucination ):以前写个小脚本或者调用个 Function,模型给的代码还能跑,现在经常是编造不存在的库或者写错参数,改半天改不对。
  2. 任务 "半途而废":这可能是最让人抓狂的一点。布置一个稍微复杂点的任务,模型好像学会了 "摸鱼"。它能搭好一个完美的框架(比如生成了 class 结构、注释写得漂漂亮亮),但在填充核心逻辑时,直接摆烂,或者给一段千篇一律的废话。这就是典型的 "只做了一个壳子,内容全没有"。
  3. 智商回落:这种退化感,让不少人梦回 GLM-5.1 时代。明明刚发布时逻辑推理还算严密,怎么这周突然变得 "弱智" 了?是模型偷偷回滚了,还是服务器算力被 "限流" 了?这确实是个值得深思的问题。

二、 另一个视角:长文本的 "超能力

标签: none

评论已关闭