Neo 的 oaipro 数据来源之谜：揭秘 API 背后的模型管线

最近在折腾模型基准标定的时候，有个问题引起了我的注意：大家常用的 Neo 的 oaipro，其底层的模型来源到底是什么？是直接转发的 OpenAI（OR），还是各家自己搭建的平台模型？这个问题看似简单，但对于想要做精确测试和对比的我们来说，却至关重要。

为什么要在意数据来源？

做模型基准标定，最重要的是要保证测试环境的“纯净”和“可溯源”。如果你以为你测的是 GPT-4，结果背后跑的是某个微调过的第三方模型，那得出的性能数据就像是在沙滩上盖房子，随时可能坍塌。

不同的模型来源意味着：

技术概念示意图

图：Neo oaipro 可能的多源调度架构示意图

虽然没有官方的直接文档确认，但根据目前业内的普遍做法和技术特征，我们可以做一些合理的推测。

Neo 这类聚合服务，很多时候扮演的是“超级代理”的角色。它们可能会对接多个供应商（包括 OpenAI 官方接口、Azure OpenAI 以及其他国产大模型）。也就是说，你发出一个请求，Neo 会根据当前的负载、成本或你的配置，把请求转发给最合适的上游。

为了保证服务的可用性，很难只依赖单一来源。当官方通道限流或故障时，系统往往会自动切换到备用通道。这些备用通道可能就是某些厂商自建的兼容 OpenAI 接口格式的服务。这对于普通用户是无感的，但对于搞科研做基准测试的人来说，就是个必须排除的变量。

既然上游来源可能不透明，我们该如何设计测试方案？这里分享几个通用的思路，帮助你尽可能准确地标定模型性能。

准备一套标准的 Prompt 和预期答案集。推荐使用公开的基准数据集，如 MMLU（多任务语言理解）、GSM8K（数学问题）或者 HumanEval（代码生成），这样你的结果才有横向对比价值。

如果你特别想知道背后到底是哪个模型，可以用一些“指纹级”的问题去试探。

知识截止时间测试：问一些特定时间点之后发生的事件，看它是否“知道”。GPT-4 Turbo 和 GPT-3.5 的知识库截止时间不同。
特定风格测试：不同模型有独特的回复风格（比如 Claude 更长、更客气，GPT 更简洁）。通过大量对比已知来源的模型回复，可以进行模糊判断。
Header 探测：技术流的话，可以通过抓包分析返回的 Header 信息，有时候里面会藏着 server 或 x-model-version 的线索。

不要在公用网络或高峰期测试。为了保证基准的客观性，最好在服务器端搭建测试脚本，直接调用 API，排除浏览器端网络卡顿的干扰。

Neo 的 oaipro 更像是一个多源调度的智能网关，而非单一的直连通道。对于我们想搞模型标定的朋友来说，不要假设来源，要通过测试去验证。控制好测试集和变量，利用指纹识别和多次采样的方法，即便在黑盒环境下，也能得出相对可信的基准数据。

如果你也在做类似的测试，或者有关于模型来源的内幕消息，欢迎在评论区交流，一起把这个迷雾拨开！