把 Coding Plan 的视觉模型请进你的工作流:剪贴板直读 MCP 配置指南

最近玩 LLM 的朋友们可能都留意到了,不少服务商推出的「Coding Plan」里都附赠了视觉模型。比如百炼的 Qwen-VL-Plus 等等。但这些模型往往藏在 API 后面,我们在日常对话中很难直接用起来——除非你手搓 Python 脚本调用。

最尴尬的是,像智谱官方的视觉 MCP 固然好用,但目前仅供订阅用户使用,且那个套餐经常抢不到。这就导致了很多手里攥着其他平台 Key 的大佬,明明有视觉算力,却没法在 Chat 客户端里顺滑地用。

今天分享一个开源项目,它能帮你把任何兼容 OpenAI 格式的视觉模型接入到 MCP 生态中,最核心的亮点是:支持从剪贴板直接读取图片

为什么这个功能很强?

说实话,现在市面上能识图的 AI 工具一大把,但「剪贴板直读绝对是一个高频刚需场景。

想象一下日常开发或写作时的流程:

  1. 你在屏幕上看到一个报错弹窗,直接 Cmd+Shift+4 截图。
  2. 切换到聊天窗口,不需要先保存图片,不需要上传文件。
  3. 直接输入指令:「帮我分析这个报错」。
  4. MCP 自动从剪贴板抓取刚才的截图喂给模型,立刻给出解答。

展示从截图到分析的 workflow 示意图

图1:「截图即分析」的操作 workflow 示意图

这种「截图即分析」的体验,一旦用过就回不去了。而且除了剪贴板,它还兼容传统的本地文件路径、URL 链接以及 Base64 编码,灵活性拉满。

准备工作

在开始之前,你需要准备两样东西:

  1. 一个支持 MCP 的客户端:比如最新版的 Claude Desktop 或其他集成了 Model Context Protocol 的工具。
  2. 一个支持视觉的 API Key:本项目兼容 OpenAI 格式接口。你可以使用阿里云百炼的 Qwen-VL 系列模型,或者是你手里现有的其他兼容接口的 Key。

具体配置步骤

配置过程非常简单,本质上就是启动一个 Node.js 服务作为 MCP Server,然后告诉你的客户端怎么调用它。

1. 修改客户端配置文件

打开你的 MCP 客户端配置文件(通常是 .json 格式),在 mcpServers 节点下添加以下内容:

{
  "mcpServers": {
    "clipboard-vision": {
      "command": "npx",
      "args": ["-y", "clipboard-vision-mcp"],
      "env": {
        "OPENAI_API_KEY": "这里填入你的 API Key",
        "OPENAI_MODEL": "qwen-vl-plus",
        "OPENAI_BASE_URL": "https://dashscope.aliyuncs.com/compatible-mode/v1"
      }
    }
  }
}

展示 Claude Desktop 配置文件编辑界面的截图

图2:Claude Desktop MCP 配置文件修改示例

这里有几个参数需要根据你的实际情况调整:

  • OPENAI_API_KEY:必填,去服务商后台复制你的 Key。
  • OPENAI_MODEL:指定模型名称。如果不清楚支持哪些模型,可以查看服务商文档。比如阿里百炼常用的是 qwen-vl-plusqwen-vl-max
  • OPENAI_BASE_URL:API 的请求地址。如果你用的是其他厂商,记得替换成对应的兼容模式地址(大多数大模型服务商都提供了兼容 OpenAI 格式的端点)。

2. 重启客户端

保存配置文件后,重启你的 MCP 客户端。客户端会自动读取配置,通过 npx 下载并运行 clipboard-vision-mcp 这个包。如果一切顺利,你在输入工具列表里就能看到这个新加的视觉能力了。

使用技巧与兼容性说明

如何使用?

在对话中,当你需要让 AI 看图时,直接触发对应的 MCP 工具即可。不需要手动传图,工具会自动检测系统剪贴板里最新的图片内容。

比如输入:「读取剪贴板里的图片并提取其中的文字」或者「解释一下刚才截图里的代码逻辑」。

兼容性提示

  • macOS:完美支持,也就是作者的主要测试环境,剪贴板读取非常丝滑。
  • Windows / Linux:理论上是通用的,因为 Node.js 跨平台,但权限和剪贴板的调用机制可能略有不同。目前还没有经过大规模测试,如果在非 Mac 系统 下遇到问题,建议去项目仓库提 Issue。

总结

这个项目最大的价值在于「打通了最后一公里」。很多 Coding Plan 送的视觉模型因为接入门槛高而被浪费,通过这个 MCP 工具,你可以瞬间让手头的文本大模型拥有「眼睛」。对于需要频繁截图分析代码、报错或文档的开发者来说,绝对是提升生产力的利器。

好用的工具值得支持,如果帮到了你,别忘了去 GitHub 给作者点个 Star。

标签: none

评论已关闭