2024年主流大模型横向测评：Sonnet、Opus、DeepSeek、GPT、GLM谁才是最强打工仔？

最近AI圈儿的热度只增不减，市面上能叫得出名字的大模型也是越来越多。作为整天都要跟AI打交道的“打工人”，大家可能跟我一样有个疑惑：这么多模型，到底谁才是真正的“心头好”，谁又是单纯的“营销号”？

主流大模型对比图

各大模型能力对比概览

今天咱们不整那些虚头巴脑的跑分图表，完全基于我最近一段时间的主观高强度使用体验，来好好盘一盘目前关注度比较高的几位选手：Claude 3.5 Sonnet、Claude 3 Opus、DeepSeek V2、GPT-4o 以及智谱 GLM-4。

先说结论，目前如果你是开发者，Claude 3.5 Sonnet 几乎是无法绕开的选择。

相比于老大哥 Opus，Sonnet 在代码生成的准确性上不仅没落下风，反而因为响应速度更快，在调试、重构这种高频交互场景下体验更好。我最近在写几个爬虫脚本，Sonnet 给出的代码往往是一次性就能跑通的，而且它特别擅长理解上下文里的隐蔽需求。

Opus 呢？它就像个知识渊博的老学究。在处理超长文本的复杂逻辑推理时，Opus 的表现依然是目前第一梯队的天花板。如果你是做深度科研或者需要推导复杂公式，把 Sonnet 搞不定的问题扔给 Opus，通常能有惊喜。但那个响应速度和价格，确实只适合在关键时刻“祭出”。

必须要重点夸一下 DeepSeek。在很长一段时间里，我都觉得国产模型在英语语境和代码能力上差点意思，但 DeepSeek V2 真的让我改观了。

最关键的是，它的 API 价格简直是在做慈善。对于想要自建 AI 应用或者大量调用的开发者来说，目前 DeepSeek 的性价比绝对是 No.1。要说短板，可能就是在极度复杂的创意写作或者多轮对话的“情商”上，稍微比 Claude 和 GPT 硬那么一点。

OpenAI 的 GPT-4o 依然是目前最稳妥的“水桶机”，没有明显的短板，也没有特别的长板。

如果你不想折腾，不知道该选哪个，直接用 GPT-4o 肯定没错。它的综合语感最好，无论是写文章、做翻译还是闲聊，它的反馈最接近人类的自然交流习惯。尤其是在多模态（看图、听语音）方面，OpenAI 的生态整合能力依然领先。

但在纯文本和代码逻辑上，面对 Claude Sonnet 的强势崛起和 DeepSeek 的穷追猛打，GPT-4o 的“护城河”已经不明显了。而且最近总有用户反馈它变“懒”了，对于复杂问题有时会过早拒绝回答，这点确实让人头疼。

智谱的 GLM-4 也是国内不可忽视的力量。相比于 DeepSeek 的极客范儿，GLM-4 给我的感觉更偏向“全能型助手”。

不过在代码生成的极致准确率和英语语境下的逻辑推理，它距离 Sonnet 和 GPT-4o 还有一小段距离。如果你主要处理中文业务场景，它是一个非常好用的备选方案。

磨刀不误砍柴工，根据我的经验，给大家几个建议：

AI 领域一天一个样，这几款模型现在的表现也仅仅是当下的快照。建议大家平时多存几个账号，毕竟不同的模型就像是不同的工具，顺手才是最硬的道理。你们最近都在用哪个模型？有没有遇到过什么神回复或者翻车现场？欢迎在评论区分享！