纽约时报 vs 微软 & OpenAI：剧情升级，定制超成成关键证据？

AI圈最近的“大瓜”又双叒叕更新了。这次不是模型能力的内卷，而是老牌媒体巨头与科技巨头的法律博弈进入了深水区。

据最新报道，《纽约时报》（NYT）已正式更新其针对微软和OpenAI的诉讼文件。这次更新非常关键，因为它不仅重申了关于未经授权使用受版权保护内容训练模型的指控，还特别指出了微软提供的定制超级计算机在其中的角色。

📉 争议焦点：不仅仅是数据，还有“铲子”

在这起案件中，《纽约时报》的核心诉求是认为其数百万字的文章被爬虫抓取并用于训练ChatGPT等模型，构成了严重的版权侵权。但这次的更新文件将矛头指向了更底层的基础设施层面。

诉状中暗示，微软不仅提供了数据存储和处理权限，还专门定制了超级计算机集群，用于大规模训练OpenAI的模型（如GPT-4及其后续版本）。这种指控的逻辑在于：

对于关注AI基建的朋友来说，“定制超算”这个词可能不陌生。在AI大模型训练中，标准的云服务器往往无法满足极致性能需求。

《纽约时报》强调这一点，意在证明微软对OpenAI的训练过程有着深度的技术掌控和资源投入，从而试图在法律责任认定上突破“避风港原则”的保护。

如果这一指控在法庭上得到支持，或者双方因此达成和解，将对整个AI行业产生深远影响：

内容授权成为标配：未来，大型语言模型的开发将不得不面对高昂的版权授权费用。简单的“网络爬虫+清洗”策略可能难以为继，微软、谷歌、Meta等巨头可能需要与各大媒体机构签订独家或联合授权协议。
开源 vs 闭源的岔路口：如果闭源模型因版权风险而受限，开源社区可能会迎来新的发展机遇。开发者可能更倾向于使用已明确授权或公共领域的数据集来训练模型，以避免法律风险。
云服务厂商的合规压力：像AWS、Azure、GCP这样的云服务商，可能需要更加审慎地审查其客户（尤其是AI初创公司）的数据使用方式，以避免类似的连带责任。

这场诉讼才刚刚开始。微软和OpenAI方面尚未就此最新诉状发表详细评论，但预计他们会从“合理使用”（Fair Use）的角度进行抗辩，主张AI训练是对文本的转换性使用，而非传统意义上的复制。

对于普通用户和开发者而言，建议密切关注案件进展。这不仅关乎几家大公司的官司，更可能决定我们未来使用AI工具的成本和形态。

你怎么看？ 你认为AI训练应该被视为“合理使用”，还是必须获得明确授权？欢迎在评论区讨论。

注：本文基于公开新闻素材分析，不构成法律建议。