大模型只懂写代码？盘点那些文科能力爆棚的 AI 评测榜单

大家平时在刷各种大模型战报的时候，是不是感觉满屏都是 Hacker News、LeetCode 或者 HumanEval 的编程跑分？

展示大模型编程能力的示意图，代表冷冰冰的代码跑分。

常见的编程跑分榜单往往忽略了文科领域的能力。

作为一个非技术出身的文字工作者，或者是学文史哲的同学，看到这些冷冰冰的代码分数，心里多少有点犯懵：这玩意儿写代码是挺厉害，但能帮我写好一篇深刻的书评吗？做历史考证靠谱吗？写出的文章有没有“人味儿”？

其实，科技圈并不只有“卷”代码能力，针对大模型“文科素养”的评测早就起步了。今天我们就来聊聊，除了 Coding，还有哪些维度能判断一个大模型是否拥有“有趣的灵魂”，以及去哪里看这些排行榜。

一、为什么现有的通用榜单参考价值有限？

最被广泛引用的 LMSYS Chatbot Arena（竞技场大排位），虽然是通过人类真实投票选出的，但它是个综合榜单。很多时候，一个模型总分高，可能仅仅是因为它逻辑强、代码写得好，或者在数学题上表现突出，这并不代表它在文学创作或情感理解上就有优势。

对于文科生或创作者来说，我们更关注的是：

语言表达与修辞：能不能写出优美、有感染力的句子？
知识广度与深度：对哲学概念、历史事件的理解是否准确、有见地？
共情与情商：能不能理解话里话外的潜台词，写出有温度的文字？
长文本逻辑：写论文或长篇分析时，结构会不会散架？

二、值得关注的“文科特供”评测基准

如果你想专门考察大模型的文科底子，与其看总分，不如关注以下几个在学术界和社区比较公认的评测基准（Benchmark）。

1. C-Eval / CMMLU（中文领域的文理兼修）

对于中文用户来说，这两个榜单是最熟悉的。虽然它们包含数学和计算机，但其中**“社会科学”、“人文”、“历史”**等子项的分数非常有参考价值。

C-Eval或MMLU等评测基准的榜单可视化图表。

专业评测基准能帮助我们更客观地评估模型的文科素养。

怎么用？ 打开榜单页面，不要看“STEM”（理工科）那一列，直接拉到“Humanities”或“Social Science”分区。你会发现，有些榜一大哥在文科上的表现可能只算平平，而一些中腰部模型在文史领域反而爆发出惊人的潜力。

2. MMLU (Massive Multitask Language Understanding)

这是英文界的“老牌”综合性考试，覆盖 57 个学科。它的**Humanities（人文）**部分是硬通货，涵盖哲学、法律、历史等。

注意点：MMLU 是选择题形式，主要考察知识储备。如果一个模型在这里分低，说明它“书读得少”或者记性不好；如果分高但写出来的文章干巴巴，说明它有知识没文采。

3. GPQA / HELM 的特定维度

HELM (Holistic Evaluation of Language Models) 这种大而全的评测框架里，你可以专门筛选“Fairness”（偏见）、“Stereotypes”（刻板印象）等维度。虽然这些偏伦理学方向，但能很好地反映一个模型是否真正理解人类社会的复杂性，而不仅仅是死记硬背。

三、民间“图灵测试”：实战才是硬道理

榜单只是参考，文科这种主观性极强的领域，还得靠“试玉”。目前社区里流行一些比较“野”但也更真实的测试方法，你可以作为自己的评测标准。

心法一：风格模仿测试

Prompt 建议：

“请用鲁迅的笔风，写一段关于当代年轻人‘不想上班’的描写，要体现那种冷峻与批判感，但不能直接出现‘不想上班’这四个字。”

评判标准：

拙劣：只会用“大概”、“大约”等词，但内核全是现代大白话。
优秀：能抓住神韵，遣词造句有那个时代的味道，不仅有形还有神。

心法二：深意理解测试（哲学版）

Prompt 建议：

“解释海德格尔的‘向死而生’，并结合当下这种追求效率的996工作制，分析现代人迷失在‘常人’状态中的原因。”

评判标准：

文科生杀手：能准确引用原文，解释核心概念“Being-towards-death”，并将其异化理论无缝切入现代生活场景。如果一个模型只能给出百度百科式的定义，直接Pass。

心法三：文学改写与润色

Prompt 建议：

“下面这段文字太枯燥了，请帮我润色，要求：保留所有专业术语，但用更通俗、更有文学性的比喻来解释，读起来要像《三体》里的旁白风格。”

评判标准：

这直接考验模型的举一反三和语言驾驭能力，是判断它能不能当你的“写作副驾驶”的关键。

四、几个亲测好用的“文科生”模型推荐

虽然没有绝对的排行榜，但根据近期的社区反馈和跑分表现，以下几个型号在文科任务上表现比较稳定，可以作为你测试的起点：

GPT-4o / Claude 3.5 Sonnet：依然是天花板级别的存在。Sonnet 的“文青”气质很重，写散文和情感分析一流；GPT-4o 则在严谨的学术引用和哲学思辨上更胜一筹。
DeepSeek-V2 / Chat：作为开源界的当红炸子鸡，它的 MoE 架构不仅数学强，对中文语境下的成语、古诗词理解非常到位，性价比极高。
Qwen2 (通义千问) 系列 72B：在中文 C-Eval 的文科部分长期霸榜，对于中国历史、古典文学的底蕴很深，适合做中文垂直领域的文史研究。
Llama-3-70B：如果你需要处理英文文科任务（如分析莎士比亚或西方哲学史），Llama-3 的逻辑规训和英语表达习惯非常地道。

写在最后

大模型的“文科能力”其实是一个非常感性的概念。它不像代码跑分那样非黑即白，有时候一个看似“笨笨”的模型，可能会因为给你提供了一句意想不到的诗句，而惊艳到你。

所以，不要迷信所谓的排行榜。以上提到的评测维度和测试方法，不过是为了帮你节省筛选的时间。真正的“最强文科大模型”，永远是那个与你思维同频、能听懂你“弦外之音”的助手。

大家如果有自己私藏的文科测试 Prompt，或者觉得哪款模型特别有“灵魂”，欢迎在评论区分享一下，咱们一起给这些 AI 上上课！

大模型只懂写代码？盘点那些文科能力爆棚的 AI 评测榜单

一、为什么现有的通用榜单参考价值有限？

二、值得关注的“文科特供”评测基准

1. C-Eval / CMMLU（中文领域的文理兼修）

2. MMLU (Massive Multitask Language Understanding)

3. GPQA / HELM 的特定维度

三、民间“图灵测试”：实战才是硬道理

心法一：风格模仿测试

心法二：深意理解测试（哲学版）

心法三：文学改写与润色

四、几个亲测好用的“文科生”模型推荐

写在最后

评论已关闭

最新文章

最近回复

分类

归档

其它

大模型只懂写代码？盘点那些文科能力爆棚的 AI 评测榜单

一、 为什么现有的通用榜单参考价值有限？

二、 值得关注的“文科特供”评测基准

1. C-Eval / CMMLU（中文领域的文理兼修）

2. MMLU (Massive Multitask Language Understanding)

3. GPQA / HELM 的特定维度

三、 民间“图灵测试”：实战才是硬道理

心法一：风格模仿测试

心法二：深意理解测试（哲学版）

心法三：文学改写与润色

四、 几个亲测好用的“文科生”模型推荐

写在最后

评论已关闭

最新文章

最近回复

分类

归档

其它

一、为什么现有的通用榜单参考价值有限？

二、值得关注的“文科特供”评测基准

三、民间“图灵测试”：实战才是硬道理

四、几个亲测好用的“文科生”模型推荐