国产多模态大模型横评：智谱、Qwen、Kimi谁才是最强辅助？

最近经常有朋友在后台私信问我：“现在国产的AI模型那么多，要是想用它们来看图、分析图表或者处理文档，到底哪个效果最好？”

说实话，大模型圈子的更新速度简直跟坐火箭一样，几个月前的“王者”可能今天就不够看了。作为一个常年混迹于各种技术前沿的“羊毛党”，我这就把目前市面上几款主流的国产多模态大模型掏出来，给大家做个详细的横向测评和实用分析。

多模态大模型概念图

多模态大模型如何理解文本与图像

特点： 底盘扎实，逻辑性强，文档阅读能力一流。

智谱AI的GLM-4V在多模态领域一直处于第一梯队。它的最大优势在于对复杂文档的理解能力。你给它扔进去一份几十页的PDF研究报告或者复杂的Excel表格，它不仅能帮你提取关键数据，还能进行一定的逻辑归纳和总结。

国产AI模型对比图

智谱、Qwen、Kimi核心能力对比

特点： 开源权重极其丰富，分辨率支持高，通用性强。

如果你是开发者，或者喜欢自己折腾本地部署，Qwen-VL 绝对是你的首选。阿里开源的力度很大，不仅有不同参数量的版本，而且在细节识别上非常强悍。它能处理4K级别的分辨率，这意味着你扔给它的图片即使很大或者细节很多，它也能看得清清楚楚。

特点： 超长上下文，用户界面友好，适合“懒人”直接上手使用。

Kimi 最近的大火主要靠其超长的文本处理能力，但在多模态方面，它也绝非吃素。Kimi 的强项在于连贯性对话，它能很好地结合之前的对话历史来理解当前的图片。对于用户来说，它的界面非常简洁，没有任何上手门槛。

既然大家是为了“干活”或者“薅羊毛”来的，我直接给个结论，拒绝“云测评”

目前国产的多模态模型虽然在某些极端视觉推理（如GPT-4V最擅长的那些刁钻视觉题）上跟世界顶流还有一点小差距，但在中文语境下的文档理解、OCR以及日常生活辅助方面，早就已经“遥遥领先”且完全够用了。最关键的是，访问速度快，而且大多都有免费额度，这才是我们最关心的，对吧？