美科学家让ai 模型学习数十亿个dna 字母

2008年，Brian Hie和Patrick Hsu在加州的Alto研究所带领研究团队取得了一项重大突破，他们让AI模型学习了数十亿个DNA字母的模式，这让人们看到了设计合成生命的新希望。3月4日，他们在《自然》杂志上公布了这个名为Evo2的模型。Evo2并不是简单地预测文本中的下一个单词，而是通过分析基因序列来学习哪些DNA结构在生物学上是可行的。研究人员训练它时，把从生命之树上收集到的数千个物种的数万亿个碱基对输入进去。在Hie和Hsu看来，这种方法把基因组设计从手动工程变成了机器生成。他们试图用Evo2来生成完整的基因组序列，并且还参考了一种叫生殖支原体的细菌作为例子。这种细菌因为基因组很小且简单，经常被用来做合成生物学研究。在英国曼彻斯特大学的Patrick Yizhi Cai看来，这就像是合成基因组学的“ChatGPT时刻”。他认为这种技术能让科学家开始编写自然界中从未存在过的东西。Claassens也提到，在这之前科学家们花了几十年学习如何读取DNA，最近CRISPR等技术让编辑基因变得越来越容易。Evo2暗示了一个新阶段：AI可能帮忙从头开始设计整个基因组。Evo2的开发者要求模型生成受生殖支原体启发的基因组规模DNA序列，结果成功产生了遵循真实结构模式的长段DNA。然而，Nico Claassens指出这只是第一步。对AI来说合理的序列不一定在活细胞中起作用。科学家们现在面临的一个挑战是AI设计的基因组需要在实验室中合成和测试。另一个挑战是要设计能控制活细胞所有基本功能的DNA。虽然Evo2展示了巨大的潜力，但它还远没达到实用阶段。研究人员将DNA视为一种语言进行处理。他们的模型可以模拟数百万个字母长的序列，这让它能捕捉到跨越整个基因组区域的模式。这种规模使模型能捕捉不同部分之间的交互关系。当尝试生成类似完整基因组的长序列时，这种能力至关重要。许多早期的基因组AI模型通常只关注短片段，而Evo2的设计目的是在更大规模上运行。它的细节于3月4日发表在《自然》杂志的论文中。这项工作由Cai和Claassens进行了评论和讨论。Cai认为这是合成基因组学的ChatGPT时刻，Claassens则觉得很酷但还没到那个地步。如果这些工具成熟并在不同环境中进行测试，合成生物学可能逐渐从修改现有生物体转向直接从数据中设计新的生物系统。AI最终是否会帮助创造功能齐全的合成生命尚待观察，但前进的方向正变得越来越清晰——而且快得多。