1月28日,智源研究院的研究成果把Emu3模型推到了国际舞台中央。在《自然》杂志的正刊上,这个名为《通过预测下一个词元实现多模态统一学习》的成果向全世界展示了我国科研团队的原创能力。这是我们国家科研机构第一次在这个领域的顶级刊物上发表大模型相关的文章,标志着我国在人工智能基础理论研究上已经进入了国际前沿。 从2018年GPT系列模型开始,“预测下一个词元”这种机制就在自然语言处理上引发了一场革命。这种技术路线能不能应用到图像、视频这些多模态的场景里,一直是大家关心的重点问题。现在主流的多模态模型大多依赖于对比学习或者扩散模型这类专门的技术路径。 智源研究院团队通过系统的理论推导和大规模的实验验证,把这种自回归机制用在了多模态建模上,并且取得了成功。他们没有使用复杂的技术路线,就实现了文本、图像和视频数据的协同学习。在图像生成和视频理解等基准测试中,Emu3模型的表现和那些专用模型差不多。 这次发表的成果是基于2022年启动的Emu系列模型研发体系发展而来的。智源研究院坚持“原生多模态”的核心路线,在跨模态对齐和多尺度建模这些基础问题上突破了不少难关。第三代Emu3模型不仅验证了技术路线的科学性,还形成了一套完整的方法论体系,积累了宝贵的技术资产。 这次突破对产业发展也有很深远的影响。统一的自回归架构能大大降低多模态系统开发和部署的成本,让更多创新应用变得可能。同时也为机器智能建立统一的认知框架提供了重要依据。研究团队已经把部分核心技术模块开源给学术社区了。 此次成果的发表既体现了我国科研人员在基础理论方面的实力,也是坚持自主创新战略的生动体现。随着全球人工智能竞争进入关键阶段,这个研究成果给国际学界提供了重要的参考标准。未来随着统一学习框架的优化和应用生态的拓展,我们有望在多模态人工智能领域建立起更有影响力的技术体系。