大模型只懂写代码?盘点那些文科能力爆棚的 AI 评测榜单
大家平时在刷各种大模型战报的时候,是不是感觉满屏都是 Hacker News、LeetCode 或者 HumanEval 的编程跑分?
常见的编程跑分榜单往往忽略了文科领域的能力。
作为一个非技术出身的文字工作者,或者是学文史哲的同学,看到这些冷冰冰的代码分数,心里多少有点犯懵:这玩意儿写代码是挺厉害,但能帮我写好一篇深刻的书评吗?做历史考证靠谱吗?写出的文章有没有“人味儿”?
其实,科技圈并不只有“卷”代码能力,针对大模型“文科素养”的评测早就起步了。今天我们就来聊聊,除了 Coding,还有哪些维度能判断一个大模型是否拥有“有趣的灵魂”,以及去哪里看这些排行榜。
一、 为什么现有的通用榜单参考价值有限?
最被广泛引用的 LMSYS Chatbot Arena(竞技场大排位),虽然是通过人类真实投票选出的,但它是个综合榜单。很多时候,一个模型总分高,可能仅仅是因为它逻辑强、代码写得好,或者在数学题上表现突出,这并不代表它在文学创作或情感理解上就有优势。
对于文科生或创作者来说,我们更关注的是:
- 语言表达与修辞:能不能写出优美、有感染力的句子?
- 知识广度与深度:对哲学概念、历史事件的理解是否准确、有见地?
- 共情与情商:能不能理解话里话外的潜台词,写出有温度的文字?
- 长文本逻辑:写论文或长篇分析时,结构会不会散架?
二、 值得关注的“文科特供”评测基准
如果你想专门考察大模型的文科底子,与其看总分,不如关注以下几个在学术界和社区比较公认的评测基准(Benchmark)。
1. C-Eval / CMMLU(中文领域的文理兼修)
对于中文用户来说,这两个榜单是最熟悉的。虽然它们包含数学和计算机,但其中**“社会科学”、“人文”、“历史”**等子项的分数非常有参考价值。
专业评测基准能帮助我们更客观地评估模型的文科素养。
- 怎么用? 打开榜单页面,不要看“STEM”(理工科)那一列,直接拉到“Humanities”或“Social Science”分区。你会发现,有些榜一大哥在文科上的表现可能只算平平,而一些中腰部模型在文史领域反而爆发出惊人的潜力。
2. MMLU (Massive Multitask Language Understanding)
这是英文界的“老牌”综合性考试,覆盖 57 个学科。它的**Humanities(人文)**部分是硬通货,涵盖哲学、法律、历史等。
- 注意点:MMLU 是选择题形式,主要考察知识储备。如果一个模型在这里分低,说明它“书读得少”或者记性不好;如果分高但写出来的文章干巴巴,说明它有知识没文采。
3. GPQA / HELM 的特定维度
HELM (Holistic Evaluation of Language Models) 这种大而全的评测框架里,你可以专门筛选“Fairness”(偏见)、“Stereotypes”(刻板印象)等维度。虽然这些偏伦理学方向,但能很好地反映一个模型是否真正理解人类社会的复杂性,而不仅仅是死记硬背。
三、 民间“图灵测试”:实战才是硬道理
榜单只是参考,文科这种主观性极强的领域,还得靠“试玉”。目前社区里流行一些比较“野”但也更真实的测试方法,你可以作为自己的评测标准。
心法一:风格模仿测试
Prompt 建议:
“请用鲁迅的笔风,写一段关于当代年轻人‘不想上班’的描写,要体现那种冷峻与批判感,但不能直接出现‘不想上班’这四个字。”
评判标准:
- 拙劣:只会用“大概”、“大约”等词,但内核全是现代大白话。
- 优秀:能抓住神韵,遣词造句有那个时代的味道,不仅有形还有神。
心法二:深意理解测试(哲学版)
Prompt 建议:
“解释海德格尔的‘向死而生’,并结合当下这种追求效率的996工作制,分析现代人迷失在‘常人’状态中的原因。”
评判标准:
- 文科生杀手:能准确引用原文,解释核心概念“Being-towards-death”,并将其异化理论无缝切入现代生活场景。如果一个模型只能给出百度百科式的定义,直接Pass。
心法三:文学改写与润色
Prompt 建议:
“下面这段文字太枯燥了,请帮我润色,要求:保留所有专业术语,但用更通俗、更有文学性的比喻来解释,读起来要像《三体》里的旁白风格。”
评判标准:
- 这直接考验模型的举一反三和语言驾驭能力,是判断它能不能当你的“写作副驾驶”的关键。
四、 几个亲测好用的“文科生”模型推荐
虽然没有绝对的排行榜,但根据近期的社区反馈和跑分表现,以下几个型号在文科任务上表现比较稳定,可以作为你测试的起点:
- GPT-4o / Claude 3.5 Sonnet:依然是天花板级别的存在。Sonnet 的“文青”气质很重,写散文和情感分析一流;GPT-4o 则在严谨的学术引用和哲学思辨上更胜一筹。
- DeepSeek-V2 / Chat:作为开源界的当红炸子鸡,它的 MoE 架构不仅数学强,对中文语境下的成语、古诗词理解非常到位,性价比极高。
- Qwen2 (通义千问) 系列 72B:在中文 C-Eval 的文科部分长期霸榜,对于中国历史、古典文学的底蕴很深,适合做中文垂直领域的文史研究。
- Llama-3-70B:如果你需要处理英文文科任务(如分析莎士比亚或西方哲学史),Llama-3 的逻辑规训和英语表达习惯非常地道。
写在最后
大模型的“文科能力”其实是一个非常感性的概念。它不像代码跑分那样非黑即白,有时候一个看似“笨笨”的模型,可能会因为给你提供了一句意想不到的诗句,而惊艳到你。
所以,不要迷信所谓的排行榜。以上提到的评测维度和测试方法,不过是为了帮你节省筛选的时间。真正的“最强文科大模型”,永远是那个与你思维同频、能听懂你“弦外之音”的助手。
大家如果有自己私藏的文科测试 Prompt,或者觉得哪款模型特别有“灵魂”,欢迎在评论区分享一下,咱们一起给这些 AI 上上课!
评论已关闭