前言:当需求“抽象”到极致

吐槽需求的表情或对话框图标

用户吐槽接到抽象需求的场景

今天看到一位朋友吐糟,说接到了一个“毫无思路”的神奇需求。简单来说,就是要把一堆物理教辅的草稿,通过某种“Codex”的方式(大概率是指代码生成或 AI 辅助),直接整出一本排版精美的样章来。

需求方列了一堆硬指标:

  • 结构上:按4个星期分单元,不分页,全靠栏目视觉分割。
  • 内容上:必须有“学以致用”、“探究乐园”、“探索发现”这老三样,还得有个独立的答案板块。
  • 图上:物理实验图(电路/热学/力学)必须原样复刻,一个螺丝都不能动错,只能加点装饰图。
  • 细节上:留白要足,答案要查的方便,还得参考竞品风格。

看到这里,很多人估计头都大了:这分明是人工排版阿姨的活儿,怎么扔给写代码的了?其实,楼下有位网友说得精辟:“这种需求格式很像是 AI 的风格啊,空洞无物。那就用 AI 去解决需求。”

这句话真的是点睛之笔。越是格式化、规则繁琐、约束明确的活儿,AI 越擅长。下面我就把这个需求拆解一下,看看如果用现在的技术栈,怎么把这事儿给“自动化”了。

第一步:数据清洗与结构化(把画变成字)

OCR识别文档示意图

OCR提取文本并进行内容分类的流程示意图

需求里最棘手的是那张“物理实验原图严禁修改”。这意味着我们不能让 AI 重新画图,而是要把图作为“素材”插入。

方案: 使用 OCR 结合视觉大模型。

  1. 文本提取:先用 OCR 工具(如 Tesseract 或更高级的 PaddleOCR)把草稿里的文字抠出来。
  2. 内容分类:把提取出来的文本扔给 GPT-4 或 Claude,写一个 Prompt:“请将这些文本按‘学以致用’、‘探究乐园’、‘探索发现’和‘答案’分类,并标记出对应的图片占位符。”
  3. 图片处理:对于物理题图,因为不能修改,直接将其作为二进制资源保存,并用文件名或 ID 在文本中标记(例如 IMG_CIRCUIT_01),确保 AI 知道这张图该插在哪儿。

这一步的目的是把“视觉草稿”转化成“结构化 JSON 数据”,方便后续代码调用。

第二步:LaTeX 排版引擎(专业选手上场)

不要试图用 Word 或 HTML 去硬怼这种教科书级的需求。物理教辅对公式、图位、留白的要求极高,LaTeX 才是王者。

方案: 利用 AI 生成 LaTeX 模板。

  1. 定义模板:先写好一个 LaTeX 的 .cls 文件(样式文件),定义好三个栏目的标题样式、底纹颜色、以及答案板块的格式。
  2. AI 编写代码:让 Codex(现在叫 GitHub Copilot 也可以)或者 GPT-4 根据第一步生成的 JSON 数据,直接写入 LaTeX 源码。
    • Prompt 例子:“根据以下 JSON 数据,生成 LaTeX 代码。要求:使用 \section{学以致用},插入图片使用 \includegraphics,并确保电路图位置正确,公式渲染清晰。”
  3. 编译输出:通过本地 TeXLive 或 Overleaf 的 API 自动编译成 PDF。

LaTeX 的好处是,一旦模板定好,不管你有多少道题,排版出来的风格是绝对统一的,完美符合“传统教辅简约版式”的调性。

第三步:难点解决——答案与图解

需求里特别提到“计算题、作图题补充关键步骤图解”。这通常需要手绘,但 AI 也有偷鸡的办法。

方案: 图生图 + 矢量化。

  1. 如果是计算题步骤,直接让 LLM(大语言模型)生成 LaTeX 解释文本即可。
  2. 如果是作图题(比如画受力分析图),可以用 Stable DiffusionDALL-E 3 的图生图功能,加载一张类似的线稿作为底图,生成新的矢量图。不过考虑到物理图的严谨性,这里建议半自动:AI 生成草图,人工审核微调,或者利用专门的物理绘图工具(如 Asymptote)通过代码生成精确图形。

对于答案板块的“一一对应”,这是纯粹的逻辑映射。只要第一步的 JSON 数据结构打好了(比如 week1_topic1_question3_answer),通过 Python 脚本就能自动把答案拽到书末的对应位置,完全不需要人工去对页码。

第四步:装饰与留白(AI 也能做美工)

需求说“仅新增简约装饰小插图”。

方案: SDXL 或 Midjourney。

我们可以训练一个非常轻量级的 LoRA 模型,或者直接用现成的“线描风格”、“极简风格”模型。写一个简单的脚本,在每一章的标题下方自动插入一张生成的装饰小图。

“留白充足”这个要求,在 LaTeX 里只需要调整版心参数(比如设置 \setlength{\parskip}{1em})就搞定了,根本不需要操心。

总结:用魔法打败魔法

说实话,这个需求乍一看很坑,像是个不懂行的人拍脑袋想出来的。但对于开发者来说,这其实是一个典型的**“基于规则的自动化内容生成”**问题。

  • OCR 负责输入。
  • LLM 负责理解结构与分类。
  • Codex/Copilot 负责写排版代码(LaTeX/Python)。
  • 排版引擎 负责最后的像素级输出。

所以,如果你也接到这种“神奇需求”,别急着头大。试着把它拆解成一个个具体的模块,你会发现,这就是为 AI 准备的练手场。毕竟,“空洞无物”的需求,恰恰是 AI 最能填充空间的地方。

标签: none

AI Skills Smart Station on Nick Launches

评论已关闭