全球顶尖的ai 模型竟能把畅销书内容一字不差地复制出来

最近大家都在热议一个惊人的发现：全球顶尖的AI模型竟然能够把畅销书的内容几乎一字不差地复制出来，这可把整个行业都给惊动了。研究人员发现，OpenAI、谷歌还有Meta、Anthropic这些巨头的大模型，记忆训练数据的能力远远超出了大家的想象。就连《哈利波特》这部小说，谷歌的Gemini 2.5也能复现其中76.8%的原文，而xAI的Grok 3则生成了70.3%。这一发现让人大跌眼镜，也给那些一直宣称不存储版权作品的AI公司提出了质疑。伦敦帝国理工学院的教授伊夫-亚历山大 · 德蒙茹瓦说：“越来越多证据表明，模型记忆现象比我们之前认为的更为普遍。” 实际上，这些大语言模型早就已经开始记住训练数据中的内容了。谷歌在2023年给美国版权局的信里还表示：“模型本身并不存储训练数据副本。” 但斯坦福大学和耶鲁大学的研究人员通过针对性提示词让Anthropic的Claude 3.7 Sonnet几乎提取了整部小说的完整原文。就连安全防护更严格、能阻止不当内容生成的闭源模型也没能逃过这一劫。参与这项研究的A·费德·库珀说：“尽管设有防护机制，模型仍能记住整段文本，这令人意外。” 对于这些AI公司来说，这个问题可是个大麻烦。因为如果它们真的记忆了受版权保护的作品内容，那么它们在面对全球数十起版权诉讼时就很难再用“合理使用”来抗辩了。英国品诚梅森律师事务所的塞里斯 · 温 · 戴维斯说：“这些研究发现可能对那些主张AI模型不存储、不复制任何版权作品的观点构成挑战。” 德国去年11月的一项判决认定OpenAI因模型记忆歌词侵犯版权。而在美国Husch Blackwell律师事务所合伙人鲁迪 · 特尔舍看来，完整复制一整本书显然构成版权侵权。Anthropic表示他们的模型并不存储特定数据集副本，只是学习词汇与字符的模式和关联关系。这一发现对医疗、教育等领域也可能产生严重影响。比如训练数据泄露可能引发隐私与保密问题。法律专家们担心这会使AI企业面临重大版权侵权责任，并影响它们的模型训练方式与研发成本。到底这种记忆特性是怎么产生的呢？研究人员还不清楚模型为何会记住训练数据中的内容，也不清楚模型输出中会体现多少训练数据。对于普通用户来说，这些越狱技术并不实用，提取文本所需成本比直接购买作品还高。帝国理工的德蒙茹瓦指出：“AI实验室设置防护机制防止训练数据被提取”，“这一事实本身就说明它们知晓问题存在”。在AI导读行业里，“合理使用”抗辩一直是个核心问题。但如今这个防线被严重动摇了。对于AI行业来说，“存储”与“不存储”之间的界限正在变得模糊起来。