“阿尔法折叠”数据集被塞进数百万个ai 预测的蛋白质复合物结构

好嘞,先跟您唠唠关于AI预测蛋白质结构这档子事。话说这可算是一大步飞跃,科技日报北京那边在3月22日报道,记者张佳欣披露了个大新闻。这回人工智能里头的“阿尔法折叠”工具彻底升级了,全新的数据集中头一遭塞进了几百万个AI预测的蛋白质复合物结构,给全球的科研人员敞开了大门。要知道这个牛叉的成果是四个单位一块儿弄出来的:欧洲分子生物学实验室下属的欧洲生物信息学研究所、谷歌旗下的“深度思维”公司、英伟达和韩国首尔大学。这四家联手搞出了迄今为止规模最大的一个数据集。 您仔细听听这个数据集有啥不一样?它是第一个系统性地把蛋白质复合物的结构给纳入进去的。这次新添加了170万个高置信度的同源二聚体(也就是两个一模一样的蛋白质抱成一团的东西),这就好比是给科学家理解蛋白质是怎么通过互相合作来干活的打下了结实的地基。而且这套数据里头还特别挑出了跟咱们人类健康、治病救人关系密切的那些家伙。 不得不说的是,“阿尔法折叠”自打2021年对外开放以后,光这单个的蛋白质结构预测结果就攒了差不多2亿个。但这玩意儿在体内通常都不是单干的,更多是几个凑一块儿干活的——这就是复合物。想要预测出这种大伙在一起搞的情况比光看一个人要难多了,对电脑的计算能力要求极高。 为了破局,团队专门挑了研究最透的20个物种来好好折腾一番,像人类、小鼠、酵母还有结核分枝杆菌这些。他们生成了大约3000万个同源二聚体的预测结果,最后筛出了大约170万个好东西放进数据库里。专家觉得这可是个大趋势:把大家伙儿结合起来看数据,就是从“一个人干”走向“一群人联动”的关键一招。 研究还显示,有些蛋白只有拿出来在一块拼装成复合物时才能看出真容。但团队也提醒大伙儿:AI这玩意儿虽说挺厉害,但结果还是得留个心眼用。有些预测可能跟真的活物状态有点出入,还得靠做实验去验证一下到底是不是这么回事。 据说明白了以后,“阿尔法折叠”的数据集以后还会接着壮大,计划还要往里塞那种由两个不一样的蛋白质凑成的异源二聚体的预测结果。(老编点评)在人体里头,蛋白很少是自己单枪匹马干的。它们就像咱们搭乐高积木那样,通常是拼在一起变成复杂的大家伙来干事。“阿尔法折叠”这次升级公布的一堆AI预测结构相当于发了一套海量的拼装说明书。有了这套说明书,科学家不光能看清每块积木长啥样,还能照着图纸造新花样的蛋白质结构;这么一来在解开生命密码、研究新药物这些方面就能让科研速度蹭蹭往上涨了。