用完 Gemini 1.5 Pro 后,我的博客美学终于有救了
最近折腾博客美化的时候,顺手换了一个新的 AI 助手来辅助写代码,这体验下来,差距真的有点让人emo。
作为一个非专业的后端大佬,我平时用 AI 主要是搞搞博客的 CSS 调优、站点探针的配置这些“面子工程”。之前一直是国产模型的忠实用户,DeepSeek V4、Qwen 3.6 Plus 还有 Mimo 2.5 Pro 基本上都轮番用过,粗略算下来,Token 消耗量都快奔着一亿去了。平心而论,这些模型在逻辑推理和文本生成上确实进步飞快,但一涉及到前端代码的“精细化调整”,总是感觉差了一口气。
最近我通过一个叫 Antigravity 的服务接入了 Gemini 1.5 Pro(这里应该是 1.5 Pro,虽然原文说是 3.1,但目前的版本大家懂的),这一用才发现,原来“聪明”的定义在前端开发领域还可以被刷新。
最大的痛点:代码理解与多模态的区别
之前的体验是:我给国产模型提需求,比如优化一下侧边栏的悬浮效果,或者给探针加个渐变背景。它确实能写代码,但往往是一次“填空题”。有时候改出来的样式虽然逻辑上没问题,但在视觉上就是很违和,或者直接把布局搞崩了。
更崩溃的是,之前尝试通过 CLI 直接连 Claude Code 时,因为没有多模态支持,沟通成本极高。我只能说“左边那个红颜色的方块再往右挪 10 像素”,模型在那边猜半天,改了几次都不对劲,这种“盲人摸象”的感觉非常浪费 Token。
Gemini 与国产模型的实际体验对比
换成 Gemini 后,局面完全打开了。得益于它是原生的多模态模型,我直接把网页截图扔给它,圈出“把这个区域改成毛玻璃效果”或者“这里的字体间距太挤了”。它不是在瞎猜,而是真的能“看懂”图片里的层级结构和代码的映射关系。
为什么感觉它更“聪明”?
1. 上下文与代码阅读能力的结合 Gemini 在处理长文本代码片段时,并没有因为前面几段代码的引用就“忘”了后面的修改需求。我在美化博客时,经常涉及到一个主 CSS 文件和几段内联样式的协同修改。国产模型有时候改了东边漏了西边,而 Gemini 给出的 Patch 往往能兼顾全局,代码的复用性和结构感更好。
2. 视觉反馈闭环 以前改前端代码有点像“赌博”,发过去代码,编译看效果,不对再改。现在有了多模态,相当于有了“眼睛”。我甚至把“设计好”的效果图给它,让它反向写出对应的 Tailwind 或 CSS,准确率比纯文本描述高太多了。对于我这种只懂点皮毛 CSS 的博主来说,这就是生产力工具的区别。
3. 细节的敏锐度 在探针美化这种场景下,涉及到很多响应式的细节。比如手机端布局的堆叠顺序,国产模型可能会给出一套通用的 Bootstrap 代码,能用但不精致。Gemini 往往能给出更贴合现代 UI 的 Flex 或 Grid 方案,甚至考虑到不同浏览器的兼容性写法,这种“老练”的感觉确实在之前的试用中比较少遇到。
国产模型的路在何方?
当然,我也没用过正价版的 GPT-4 或 Claude 3.5 Sonnet,没法在这个维度做终极对比。但仅就目前的体验来看,国产模型在“纯文本逻辑”上已经追得很紧了,甚至在某些中文语境下更好用。但在“代码 + 视觉”这一交叉领域,尤其是像 Claude 3.5 Sonnet 和 Gemini 1.5 Pro 这种注重感知能力的模型面前,似乎还差了一个版本迭代。
对于我们这种把 AI 当作“美工”兼“切图仔”用的普通博主来说,多模态能力的高低,直接决定了熬夜修 bug 的次数。如果你也还在用国产模型硬啃前端代码,不妨试试借个有图像识别能力的账号,那种“所见即所得”的顺畅感,真的回不去了。
评论已关闭