AI 搞定网页转 Markdown：新模型真香，无需复杂配置

最近折腾了一圈内容抓取和整理，发现一个挺有意思的现象：好多新模型都不再依赖复杂的 Skills 或插件配置，直接就能把抓取的网页内容转换成标准的 Markdown 格式。

这对于喜欢做笔记、整理资料或者搞自动化内容的博主来说，绝对是个省心的新风向。

以前我们怎么搞？

在过去，如果你想通过 AI 把一个网页“洗”成 Markdown，流程通常是这样的：

Illustration showing AI converting HTML code to clean Markdown format

新模型能够理解网页结构，直接将 HTML 源码转换为整洁的 Markdown 文档。

或者，使用一些带浏览器插件的 AI 工具，让它们读取网页内容后再生成。但这种方式往往受限于插件环境，跨平台迁移或者自动化任务时就很麻烦。

现在的模型（特别是部分国产大模型和部分 GPT-4o 级别的模型），在“阅读理解”和“格式化输出”上的能力有了质的飞跃。主要体现在两点：

AI automatically identifying and filtering out sidebar ads and navigation bars

新模型具备强大的上下文理解力，能自动识别核心内容并过滤导航栏和广告等噪音。

它们不再只是简单的“文本替换”，而是能理解网页的结构。比如导航栏、侧边栏广告、正文内容，它们能自动识别哪些是需要保留的核心信息，哪些是噪音。这就像是自带了一个智能的“阅读器”和“清洗器”。

以前你可能需要编写特定的 Function Calling 或 Skills 代码，告诉模型“这是网页源码，请转 MD”。现在，你只需要直接把抓取到的 HTML 源码（或者截获的文本段）丢进 Prompt 里，模型就能意识到“这是一个网页”，并自动输出 Markdown 格式。

虽然没有特定的 Skills 调用，但在实际操作中，配合简单的辅助工具，效率更高。

场景 A：直接复制源码 有些网站防复制，但查看源码是公开的。直接 Ctrl+U，复制 HTML 片段，扔给模型。

场景 B：配合简单的抓取脚本 如果你还是习惯用脚本抓取，现在不需要复杂的清洗逻辑了。直接 requests.get(url).text 拿到的乱糟糟的 HTML，全量丢给模型。

对于我们这种“伸手党”或者效率党来说，这意味着技术门槛的进一步降低。

虽然新模型很强，但也别太“裸奔”使用。如果你的网页包含大量图表、复杂的表格或者是需要登录才能看的内容，单纯的 HTML 转 MD 可能会丢失一部分信息。建议配合一些轻量级的解析工具（如 Readability 算法）先粗洗一遍，再交给模型进行精修，效果会更完美。

总的来说，AI 越来越懂“人类的阅读习惯”了，这个趋势确实值得关注。下次再遇到想收藏的网页，不妨试试直接把源码扔给新模型看看？