DeepSeek 这波赢麻了?关掉搜索竟能精准复刻高考原题!
最近我在折腾各家大模型的时候,发现了一个非常有意思,甚至可以说是“细思极恐”的现象。
事情的起因是我想测试一下不同模型在“死记硬背”方面的能力。于是,我拿了几套不算太热门的高考数学原题分别去“考”它们。为了公平起见,我特意都关闭了联网搜索功能,纯粹看模型肚子里的存量知识。
结果真的让我大受震撼:DeepSeek v4pro 表现得太猛了。
实测对比:DeepSeek vs Gemini
实测对比:DeepSeek 与 Gemini 在背诵冷门高考原题时的表现差异。
先说说对照组选手——Gemini。按理说,背靠科技巨头的海量世界知识数据库,Gemini 的知识库丰富度理论上是顶级的。但在面对这几道高考原题时,它彻底“哑火”了。它不仅无法复刻出原题的具体内容,甚至连题目出现在试卷的哪个位置(比如是不是压轴题)都搞不清楚,给出的回答基本就是一本正经地胡说八道。
反观 DeepSeek v4pro,表现简直是降维打击。我特意挑了几套相对冷门的试卷,它不仅准确无误地说出了完整题目,甚至连题目中的细节、数字、图形描述都跟原卷一模一样。最离谱的是,它的回答速度还非常快,完全没有那种长文本生成时的卡顿感。
为了排除这是不是“运气好”,我又换了几个更隐蔽的提示词去套话,比如只给出一半题目让它补全,或者问它某年某卷的最后一题是什么。DeepSeek 依然对答如流,分毫不差。
为什么差距这么大?
看到这里,估计很多朋友跟我一样心里犯嘀咕:这货该不会是开了“后门”吧?明明界面上显示搜索已关闭,会不会实际上偷偷联网爬了数据?
技术解析:DeepSeek 在长文本压缩和信息检索上的平衡能力。
为了验证这一点,我又仔细观察了它的生成过程。从输出 Tokens 的速度和连贯性来看,这确实像是基于内部预训练数据的即时生成,而不是在等待网络请求返回。如果真的有隐形搜索,它的延迟机制和生成节奏很难藏得这么完美。
排除了作弊嫌疑,那剩下的就只能归结于技术层面的硬实力了。
1. 中文语料的“压倒性优势”
DeepSeek 作为国产大模型,在训练数据的配比上,显然对中文互联网内容做了极其深度的挖掘。高考真题、历年试卷、教辅资料这些中文互联网上的“长尾数据”,很可能被 DeepSeek 进行了高质量的清洗并投喂到了模型里。
选择指南:涉及中文垂直领域时,优先选择国产模型。
相比之下,以英文为核心的 Gemini,虽然拥有“世界知识库”,但在中文特定的垂直领域(特别是这种极具本土特色的考试题目),其数据权重可能远不如 DeepSeek。这就好比让一个中文外教去背《论语》,和一个从小读私塾的中国人去背,高下立判。
2. 长文本记忆与推理能力的平衡
能把题目记得一字不差,说明模型在“记忆”和“复现”方面的权重很高。但仅仅记住是不够的,题目中的逻辑结构、数字关系也需要极强的上下文关联能力。DeepSeek v4pro 这波操作,说明它在长文本压缩和信息检索这两个技术上找到了一个很好的平衡点。它不是简单地把题目当字符串存下来,而是理解了题目的结构,从而能更精准地调用。
这对我们有啥用?
核心观点:在 AI 时代,高质量的垂直语料比单纯的数据量更有价值。
这个发现其实给我们在选择 AI 工具时提供了一个很实用的避坑指南:
- 涉及中文垂直领域,优先国产模型。 凡是跟中国本土文化、教育、历史、甚至特定网络梗相关的问题,目前的国产第一梯队模型表现普遍优于海外大模型。
- 不要迷信“参数量”和“通用知识库”。 很多时候,模型好不好用,不在于它知道多少美国宪法,而在于它能不能精准理解你要的那个“知识点”。在特定场景下,经过针对性数据清洗的模型,效果往往吊打通用的“庞然大物”。
- 测试模型“纯智商”的好方法。 以后想测试一个模型到底是有真材实料还是在胡编乱造,可以试着关掉搜索喂它一些需要死记硬背的特定题目。能精准复刻的,通常训练数据密度更高;答非所问的,大概率是在一本正经地“幻觉”。
总的来说,这次测试真的让我对 DeepSeek 刮目相看。这种在细节数据上的碾压,证明了在 AI 时代,高质量的垂直语料往往比单纯的数据量更有价值。至于 Gemini 嘛,看来想吃透中文高考这块硬骨头,还得再加把劲补课了!
评论已关闭