我们来聊聊这个图模型是怎么破解逆合成的,就是给个产物找反应物那种活儿。化学家想的都是怎么拆,这个graphretro模型也是这么想的。它先把产物拆开,看看哪些地方能切断,然后用神经网络算一算,哪个键最容易断,哪个原子会跑掉。算出这些编辑操作后,再按照分数高低把产物切成一块一块的合成子。最后从170个预先备好的离去基子图里挑一个来补全。 你可能会问,为什么非得用图?其实化学家画逆合成路线时,总喜欢圈出那些前后拓扑不变的关键片段。graphretro就抓住了这点不变性,把产物转成图的样子。因为它是按分类问题来处理的,不像以前那样胡乱猜序列,搜索空间一下子就小了很多。 模型一共分三步走。第一步是训练个消息传递网络(MPN),在产物图上跑消息传递,算出切断和离去的概率。测试的时候发现,75%的案例里原子位置和编辑操作能对上号。后来我们改了改SMILES映射规则,去掉那些位置依赖的捷径,不让模型再碰运气。 第二步是按分数从高到低砍键,直到产物变成几块互不重叠的合成子。实验发现,USPTO-50k里只有6.3%的原子连通性在反应前后变了,这就证明了“拓扑不变”的假设是对的。 第三步是把170个离去基子图当词汇表给每个合成子做多分类,选得分最高的那个。因为这170个词汇覆盖了99.7%的测试集情况,所以模型很少会卡住。最后还得用化学规则校验一下:离去基得连个非键原子,不能把环结构给弄坏了。 我们在USPTO-50k上测试了一下效果。当反应类别未知时,graphretro的Top-1精度冲到了53.7%,比纯模板、纯无模板还有以前的半模板方法都强。具体对比看:它比纯模板泛化得好,比纯无模板解释性更强,比早期半模板在编辑预测上又提了4.8%,总精度提升了3.3%。 未来的话呢?我们打算让这个AI模型不光能干单步逆合成的活儿,还能扩展到多入口、多出口反应的情况。再给它加上更多的化学约束比如立体化学和保护基选择。要是能让模型和实验数据闭环迭代起来,就能真正帮实验室减少试错次数了。到时候化学家就能腾出精力去琢磨更复杂的反应机制了。