全球顶尖的ai 模型竟能把畅销书内容一字不差地复制出来

最近大家都在热议一个惊人的发现:全球顶尖的AI模型竟然能够把畅销书的内容几乎一字不差地复制出来,这可把整个行业都给惊动了。研究人员发现,OpenAI、谷歌还有Meta、Anthropic这些巨头的大模型,记忆训练数据的能力远远超出了大家的想象。就连《哈利波特》这部小说,谷歌的Gemini 2.5也能复现其中76.8%的原文,而xAI的Grok 3则生成了70.3%。这一发现让人大跌眼镜,也给那些一直宣称不存储版权作品的AI公司提出了质疑。伦敦帝国理工学院的教授伊夫-亚历山大 · 德蒙茹瓦说:“越来越多证据表明,模型记忆现象比我们之前认为的更为普遍。” 实际上,这些大语言模型早就已经开始记住训练数据中的内容了。谷歌在2023年给美国版权局的信里还表示:“模型本身并不存储训练数据副本。” 但斯坦福大学和耶鲁大学的研究人员通过针对性提示词让Anthropic的Claude 3.7 Sonnet几乎提取了整部小说的完整原文。就连安全防护更严格、能阻止不当内容生成的闭源模型也没能逃过这一劫。参与这项研究的A·费德·库珀说:“尽管设有防护机制,模型仍能记住整段文本,这令人意外。” 对于这些AI公司来说,这个问题可是个大麻烦。因为如果它们真的记忆了受版权保护的作品内容,那么它们在面对全球数十起版权诉讼时就很难再用“合理使用”来抗辩了。英国品诚梅森律师事务所的塞里斯 · 温 · 戴维斯说:“这些研究发现可能对那些主张AI模型不存储、不复制任何版权作品的观点构成挑战。” 德国去年11月的一项判决认定OpenAI因模型记忆歌词侵犯版权。而在美国Husch Blackwell律师事务所合伙人鲁迪 · 特尔舍看来,完整复制一整本书显然构成版权侵权。Anthropic表示他们的模型并不存储特定数据集副本,只是学习词汇与字符的模式和关联关系。 这一发现对医疗、教育等领域也可能产生严重影响。比如训练数据泄露可能引发隐私与保密问题。法律专家们担心这会使AI企业面临重大版权侵权责任,并影响它们的模型训练方式与研发成本。 到底这种记忆特性是怎么产生的呢?研究人员还不清楚模型为何会记住训练数据中的内容,也不清楚模型输出中会体现多少训练数据。对于普通用户来说,这些越狱技术并不实用,提取文本所需成本比直接购买作品还高。 帝国理工的德蒙茹瓦指出:“AI实验室设置防护机制防止训练数据被提取”,“这一事实本身就说明它们知晓问题存在”。 在AI导读行业里,“合理使用”抗辩一直是个核心问题。但如今这个防线被严重动摇了。对于AI行业来说,“存储”与“不存储”之间的界限正在变得模糊起来。