ai 模型是怎么破解逆合成的，就是给个产物找反应物那种活儿

我们来聊聊这个图模型是怎么破解逆合成的，就是给个产物找反应物那种活儿。化学家想的都是怎么拆，这个graphretro模型也是这么想的。它先把产物拆开，看看哪些地方能切断，然后用神经网络算一算，哪个键最容易断，哪个原子会跑掉。算出这些编辑操作后，再按照分数高低把产物切成一块一块的合成子。最后从170个预先备好的离去基子图里挑一个来补全。你可能会问，为什么非得用图？其实化学家画逆合成路线时，总喜欢圈出那些前后拓扑不变的关键片段。graphretro就抓住了这点不变性，把产物转成图的样子。因为它是按分类问题来处理的，不像以前那样胡乱猜序列，搜索空间一下子就小了很多。模型一共分三步走。第一步是训练个消息传递网络（MPN），在产物图上跑消息传递，算出切断和离去的概率。测试的时候发现，75%的案例里原子位置和编辑操作能对上号。后来我们改了改SMILES映射规则，去掉那些位置依赖的捷径，不让模型再碰运气。第二步是按分数从高到低砍键，直到产物变成几块互不重叠的合成子。实验发现，USPTO-50k里只有6.3%的原子连通性在反应前后变了，这就证明了“拓扑不变”的假设是对的。第三步是把170个离去基子图当词汇表给每个合成子做多分类，选得分最高的那个。因为这170个词汇覆盖了99.7%的测试集情况，所以模型很少会卡住。最后还得用化学规则校验一下：离去基得连个非键原子，不能把环结构给弄坏了。我们在USPTO-50k上测试了一下效果。当反应类别未知时，graphretro的Top-1精度冲到了53.7%，比纯模板、纯无模板还有以前的半模板方法都强。具体对比看：它比纯模板泛化得好，比纯无模板解释性更强，比早期半模板在编辑预测上又提了4.8%，总精度提升了3.3%。未来的话呢？我们打算让这个AI模型不光能干单步逆合成的活儿，还能扩展到多入口、多出口反应的情况。再给它加上更多的化学约束比如立体化学和保护基选择。要是能让模型和实验数据闭环迭代起来，就能真正帮实验室减少试错次数了。到时候化学家就能腾出精力去琢磨更复杂的反应机制了。