Fable 5 初体验：被过度营销的新模型？实测告诉你真相

最近 AI 圈子里又冒出来一个新词儿——Fable 5。看了一圈宣发，感觉各家都在吹得天花乱坠，什么“推理能力质变”、“创意写作天花板”之类的标签贴了一堆。作为一个喜欢折腾新技术的博主，我也没忍住去试了一把。

结果怎么说呢？第一感觉是：就这？

今天不谈虚的参数，就聊聊我实际上手之后的尴尬体验，以及这事儿背后到底是谁的问题。

说实话，我是带着很高期待去试的。毕竟目前的宣传攻势这么猛，本以为能直接吊打 GPT-4 或者 Claude 3.5 之类的老牌选手，甚至在某些垂直领域直接替掉我的工作流。

但我跑了几轮常规任务下来，感觉并没有传说中那么“惊艳”。

我扔给它几个我平时常用的测试用例，包括一些简单的代码重构、逻辑推理题，还有几段稍微有点深度的行业分析写作。结果它给出的答案，怎么说呢，是“能用”，但也仅仅是“能用”。跟现在的第一梯队模型相比，没感觉到有跨越式的提升，甚至在某些逻辑细节上还会犯一些低级错误。

这就很让人疑惑了：难道是我打开方式不对？

我在复盘的时候琢磨了一下，为什么宣传那么猛，实测却感觉平平？可能逃不开这几个原因：

1. 你的任务太“简单”了？

这其实是个很有趣的现象。很多新推出的模型，往往在极其复杂的推理任务或者生僻知识库里才有优势。如果你像我一样，只是让它写个周报、做个简单的摘要或者写几行 Hello World 级别的代码，那它和 GPT-3.5 甚至一些开源小模型可能真的没啥区别。所谓的“惊艳”，可能还没被激发出来。

2. 营销水分确实存在

现在的模型发布，多少都带点“期货”性质。或者是在特定的 Benchmark（基准测试）刷分刷得很高，但落地到真实用户的 Prompt 上，泛化能力并没有那么强。厂商肯定挑最好的数据说事儿，但作为普通用户，我们遇到的是各种奇奇怪怪的长尾问题。

3. 还没调教到最佳状态

有时候新模型刚出来，官方的 System Prompt 或者推荐的参数设置还没打磨好。同样的模型，你换个 Temperature 或者给点针对性很强的 Few-shot（少样本）提示，效果可能天差地别。

如果你也觉得 Fable 5 不过尔尔，不妨换个更硬核的测法。别老是用“怎么炸鸡翅”这种问题去测一个可能主打逻辑或代码的模型。

试试这几个路子：

复杂逻辑链测试（CoT）： 抛给它一个多步骤的推理题，比如“公司股权穿透计算”或者“复杂的策划案推演”，看它的中间推理步骤是否严谨，而不是只看最终答案。
长文本摘要与提炼： 找几万字的行业研报或技术文档，扔给它做核心观点提炼和结构化重组。大模型现在拼的很重要的一个能力就是长窗口的“大海捞针”能力。
代码审计与重构： 拿一段你自己写的、逻辑有点乱的旧代码，让它“找出潜在 bug 并优化”。这比让它“写个贪吃蛇”要难得多。
风格化创作： 如果你关注它的写作能力，不要只让它“写一篇文章”，要指定非常细腻的风格，比如“用鲁迅的笔锋写一篇关于 AI 取代人类的杂文”。

Fable 5 也许没那么神，但也别急着一棒子打死。新模型往往需要一段时间去适配和发现最佳使用场景。

如果它在你手上的常用场景里跑不过老模型，那就先别换，继续让主力模型干活，把 Fable 5 当个备选或者玩具。等到社区里出了一批专门的提示词模板，或者它更新了几个版本后，也许才是真正入手的好时机。

大家手头如果有觉得 Fable 5 特别强或者特别弱的案例，也欢迎在评论区补充，咱们组团避坑（或者吃肉）。