最近 AI 圈子里“薅羊毛”的风气有点收敛了,尤其是之前那种动不动就送免费额度的接口,现在要么没了,要么就是人多到直接跑满 429 错误。但这并不代表没有机会,只要你找得对,还是有不少大厂在“闷声发大财”(或者做慈善)。

今天要分享的这个资源来自 NVIDIA。大家都知道 Nvidia 是做硬件起家的,但这几年在云端推理上也没闲着。我发现他们提供了一批 API 接口,而且支持非常多的高阶模型。虽然博主也提示了这属于“小羊毛”,数量不多,稳定性也不是 100%,但能白嫖一次是一次,毕竟里面有些模型可不是轻易能免费试用的。

🎯 获取密钥和调用地址

NVIDIA API Base URL

NVIDIA API 调用地址示例

这个东西采用了一种“先到先得”的机制,不用付钱(LDC),谁抢到就是谁的。获取方式是通过兑换码(CDK),拿到 Cdk 后生成的 Key 就可以直接用。

API Base URL(调用地址):

http://154.219.110.27:20000/v1

关于具体的 Cdk 获取页面,由于原文是图片形式展示且涉及到特定渠道,大家可以去原帖碰碰运气找找那个二维码或者链接。这里就不直接贴图了,以免被判定为机器人。拿到 Key 后,就像调用 OpenAI 的接口一样,把 Base URL 换成上面的地址,Key 填进去就能跑。

🚀 支持的模型列表(实测有效)

这部分最有价值,因为这不仅仅是 Llama 那几款老模型,还包含了一些看起来像是新版本或者特别优化的版本(甚至有 DeepSeek V4 和 Grok 这种比较“狠”的命名)。博主已经在 6 月 30 日下午 15:14 分做过测试,确认可用。

1. Meta/Llama 系列(全家桶):

  • meta/llama-4-maverick-17b-128e-instruct (注意这是 Llama 4!虽然可能是官方命名的未来预览版或者是社区魔改版,但值得一试)
  • meta/llama-3.1-8b-instruct
  • meta/llama-3.1-70b-instruct
  • meta/llama-3.3-70b-instruct
  • meta/llama-3.2-3b-instruct

2. NVIDIA 自研模型:

  • nvidia/nemotron-3-nano-omni-30b-a3b-reasoning
  • nvidia/nemotron-mini-4b-instruct
  • nvidia/llama-3.3-nemotron-super-49b-v1.5

3. Google/Gemini 系列:

  • google/gemma-3n-e2b-it
  • google/gemma-4-31b-it
  • gemini-3.1-flash-thinking-medium
  • gemini-3.1-flash-thinking-low
  • gemini-3.1-flash
  • gemini-3.1-flash-lite
  • gemini-3.5-flash-thinking-medium (又是 3.5 版本?)
  • gemini-3.5-flash-thinking-high
  • gemini-3.5-flash
  • gemini-3.5-flash-lite
  • gemini-3.5-flash-search

4. Deepseek 与其他国产/热门模型:

  • deepseek-v4-pro (V4 来了?)
  • deepseek-ai/deepseek-v4-flash
  • qwen3.5-122b-a10b
  • glm-5.1 / z-ai/glm-5.1
  • moonshotai/kimi-k2.6
  • minimaxai/minimax-m3
  • minimaxai/minimax-m2.7

5. Mistral & Grok 等:

  • mistralai/mistral-large-3-675b-instruct-2512
  • mistralai/ministral-14b-instruct-2512
  • grok-4.20-0309
  • gpt-oss-120b / openai/gpt-oss-120b
  • stockmark/stockmark-2-100b-instruct

💡 使用建议与踩坑指南

虽然模型列表很诱人,但如果你打算用这个接口做生产环境或者跑大任务,我有几点建议:

福利羊毛说明

作者提示:小羊毛,数量不多,稳定性一般

  1. 不要太指望稳定性: 原文作者已经说了“不是很稳,能用就蹬不能用就换”。这说明这很可能是一个非官方的、基于 NVIDIA 免费额度池转发的中转服务,随时可能因为流量超限或者被风控而挂掉。
  2. 避免被当机器人: 作者特别提醒“抢到的佬友说一下,不要被误会成机器人了”。这在暗示如果你请求频率太高,可能会被源站封禁 IP。建议在请求中加入适当的 User-Agent,或者控制一下并发量,别一上来就用 parallel_requests 把人家打爆了。
  3. 模型命名的玄学: 你会发现列表里有很多 gemini-3.5 或者 llama-4 的模型名。但这有可能是镜像站点为了区分不同的微调版本或者是幻命名,具体能不能达到官方原版的效果,还需要你实际跑几个 Prompt 测试一下智商再决定用哪个。
  4. 测试流程: 推荐先用小模型(比如 llama-3.2-3b-instruct)测通 Key 和接口,然后再去试 deepseek-v4-pro 这种大参数模型,以免浪费掉额度。

总结

这就是典型的“手慢无”资源。不管你是想体验一下所谓的 Llama 4,还是想零成本试用各种新出的 Flash Thinking 模型,这都是一个不错的机会。大家且用且珍惜,挂了也别骂街,毕竟白嫖的嘛!

标签: none

评论已关闭