用完 Gemini 1.5 Pro 后，我的博客美学终于有救了

最近折腾博客美化的时候，顺手换了一个新的 AI 助手来辅助写代码，这体验下来，差距真的有点让人emo。

作为一个非专业的后端大佬，我平时用 AI 主要是搞搞博客的 CSS 调优、站点探针的配置这些“面子工程”。之前一直是国产模型的忠实用户，DeepSeek V4、Qwen 3.6 Plus 还有 Mimo 2.5 Pro 基本上都轮番用过，粗略算下来，Token 消耗量都快奔着一亿去了。平心而论，这些模型在逻辑推理和文本生成上确实进步飞快，但一涉及到前端代码的“精细化调整”，总是感觉差了一口气。

最近我通过一个叫 Antigravity 的服务接入了 Gemini 1.5 Pro（这里应该是 1.5 Pro，虽然原文说是 3.1，但目前的版本大家懂的），这一用才发现，原来“聪明”的定义在前端开发领域还可以被刷新。

最大的痛点：代码理解与多模态的区别

之前的体验是：我给国产模型提需求，比如优化一下侧边栏的悬浮效果，或者给探针加个渐变背景。它确实能写代码，但往往是一次“填空题”。有时候改出来的样式虽然逻辑上没问题，但在视觉上就是很违和，或者直接把布局搞崩了。

更崩溃的是，之前尝试通过 CLI 直接连 Claude Code 时，因为没有多模态支持，沟通成本极高。我只能说“左边那个红颜色的方块再往右挪 10 像素”，模型在那边猜半天，改了几次都不对劲，这种“盲人摸象”的感觉非常浪费 Token。

Gemini与国产模型对比图

Gemini 与国产模型的实际体验对比

换成 Gemini 后，局面完全打开了。得益于它是原生的多模态模型，我直接把网页截图扔给它，圈出“把这个区域改成毛玻璃效果”或者“这里的字体间距太挤了”。它不是在瞎猜，而是真的能“看懂”图片里的层级结构和代码的映射关系。

为什么感觉它更“聪明”？

1. 上下文与代码阅读能力的结合 Gemini 在处理长文本代码片段时，并没有因为前面几段代码的引用就“忘”了后面的修改需求。我在美化博客时，经常涉及到一个主 CSS 文件和几段内联样式的协同修改。国产模型有时候改了东边漏了西边，而 Gemini 给出的 Patch 往往能兼顾全局，代码的复用性和结构感更好。

2. 视觉反馈闭环 以前改前端代码有点像“赌博”，发过去代码，编译看效果，不对再改。现在有了多模态，相当于有了“眼睛”。我甚至把“设计好”的效果图给它，让它反向写出对应的 Tailwind 或 CSS，准确率比纯文本描述高太多了。对于我这种只懂点皮毛 CSS 的博主来说，这就是生产力工具的区别。

3. 细节的敏锐度 在探针美化这种场景下，涉及到很多响应式的细节。比如手机端布局的堆叠顺序，国产模型可能会给出一套通用的 Bootstrap 代码，能用但不精致。Gemini 往往能给出更贴合现代 UI 的 Flex 或 Grid 方案，甚至考虑到不同浏览器的兼容性写法，这种“老练”的感觉确实在之前的试用中比较少遇到。

国产模型的路在何方？

当然，我也没用过正价版的 GPT-4 或 Claude 3.5 Sonnet，没法在这个维度做终极对比。但仅就目前的体验来看，国产模型在“纯文本逻辑”上已经追得很紧了，甚至在某些中文语境下更好用。但在“代码 + 视觉”这一交叉领域，尤其是像 Claude 3.5 Sonnet 和 Gemini 1.5 Pro 这种注重感知能力的模型面前，似乎还差了一个版本迭代。

对于我们这种把 AI 当作“美工”兼“切图仔”用的普通博主来说，多模态能力的高低，直接决定了熬夜修 bug 的次数。如果你也还在用国产模型硬啃前端代码，不妨试试借个有图像识别能力的账号，那种“所见即所得”的顺畅感，真的回不去了。

用完 Gemini 1.5 Pro 后，我的博客美学终于有救了

最大的痛点：代码理解与多模态的区别

为什么感觉它更“聪明”？

国产模型的路在何方？

评论已关闭

最新文章

最近回复

分类

归档

其它