我用 AI 搭建了个免费聊天机器人，不仅能陪聊还能干活？

最近闲着无聊，总想着能不能自己动手搞点什么实用的东西。看着现在 AI 各种花里胡哨的功能，我心血来潮，决定自己也动手“撸”一个聊天机器人出来。

很多人一听到“开发 Chatbot”就觉得这事儿门槛很高，又是写代码又是训练模型，其实未必。我今天要分享的这个思路，更多是站在“应用”和“缝合怪”的角度，把现有的强大能力整合起来，变成我们自己的工具。

聊天机器人界面示意图

聊天机器人界面示意图

你可能会问，现在 ChatGPT、Claude 甚至国内的各种大模型套壳应用那么多，为什么要费劲自己做一个？

理由很简单：定制化与隐私。

第一，现成的应用往往限制很多，比如字数限制、上下文长度限制，或者某些敏感话题的一刀切。自己搭建的，后端接口掌握在自己手里，规则自己定。

API调用流程图

API调用流程图

第二，我可以把它嵌入到任何我想要的地方。比如挂在我的个人博客里，做成一个专属的“客服”；或者部署在内网，作为公司内部查询文档的助手，数据完全不出域，安全感拉满。

为了快速实现，我并没有去从零训练模型（那是显卡烧钱的事），而是选择了API 接口调用的方式。

市面上有很多提供 API 的服务商，各家有各家的优势。如果你追求智能程度，某些闭源模型肯定是首选；如果你追求性价比和对中文的理解，国内的一些新兴模型势头也很猛。现在的关键是，如何用最少的代码把这些 API 串起来。

你需要有一台能够运行代码的环境。手里正好闲置着的小服务器或者云开发平台都可以。当然，本地电脑跑个 Node.js 环境也行，只要能对外提供访问服务（如果只是为了自测，内网穿透或者 localhost 也就够了）。

其实核心逻辑非常简单，就是一个请求转发的过程。

前端：负责接收用户输入的消息，做一个漂亮的聊天气泡界面（HTML/CSS 随便抄一个现成的框架，比如用 Vue 或者 React 快速搭一个 UI）。
后端：充当“传声筒”。接收前端发来的文本，加上我们需要的历史记录（用于保持上下文记忆），打包成 API 厂商要求的 JSON 格式，发过去，然后拿回结果吐给前端。

这里有个小细节：Prompt（提示词）的工程化。不要直接把用户的话丢给模型，要在系统层预设一个“人设”。比如：“你现在是一个毒舌但技术过硬的程序员，回答要简练。” 这样调教出来的机器人，才有灵魂。

一开始我写的时候是等模型全部生成完了再一次性显示给用户，体验非常差，等待时间长且让人感觉卡死。

后来改用了 SSE (Server-Sent Events) 或者 WebSocket 技术。简单说，就是模型吐一个字，我就往前端推一个字。这种“打字机”的效果，虽然技术实现稍微麻烦一点点（处理数据流的切片），但用户体验的提升是巨大的，看着字一个个蹦出来，感觉这机器人“活”了。

折腾过程中也遇到了几个坑，这里给后来者提个醒：

上下文遗忘：API 接口通常有 Token 限制，对话太长会导致报错或者算费爆炸。我的解决方案是做一个简单的“摘要机制”，当对话轮数过多时，让 AI 先把前面的对话总结一下，再把摘要作为新的上下文传入，既能省钱又能保持记忆。
成本控制：虽然 API 很便宜，但架不住人多。如果是对外开放，记得加个简单的频率限制，比如每分钟只能发 5 条，或者搞个简单的 Key 验证机制，防止被爬虫把额度薅光。
薅羊毛技巧：很多云厂商为了推广，新用户注册都会送一大额度的 API Token 或者免费的算力时长。我们可以利用这点，多注册几个账号，弄个负载均衡，或者今天用 A 家的接口，明天用 B 家的，基本可以实现白嫖。

这个聊天机器人搭好之后，我把它发给了几个朋友试玩。有人拿它写 Python 脚本，有人拿它翻译外语文档，甚至有人半夜无聊找它吵架。看着它吐出各种或正经或荒诞的回复，这种创造的成就感确实比单纯使用现成工具要足得多。

技术未必总是高冷的，有时候稍微动手折腾一下，就能把“高大上”的 AI 变成手里顺手的小工具。如果你手里也有闲置的服务器或者免费的额度，不妨也试试？