场景数据成大模型落地“关键缺口” 专家称工业应用仍需通专融合与方法创新

2025年伊始,人工智能产业发展呈现出新的阶段性特征。

曾经被寄予厚望的"万能模型"梦想正在冷静下来,业界对人工智能的认识也趋于理性。

上海人工智能实验室领军科学家欧阳万里近日接受采访时表示,尽管大模型研发持续推进,但通用人工智能距离真正到来仍有相当距离,产业落地面临的挑战远比预期复杂。

从技术竞争格局看,大模型开发已进入相对均衡的发展阶段。

曾经由OpenAI的GPT系列一骑绝尘的局面已成过去,多家企业轮流宣称自身模型性能最优,这反映出大模型技术的快速迭代和竞争加剧。

国内外采取了不同的技术路线,国外企业多采用闭源策略,中国企业则主要走开源路线。

从现阶段性能对比看,闭源模型在整体能力上仍保持一定优势,这与数据获取能力、技术积累和商业化激励等多重因素相关。

然而,在为技术进步欢呼的同时,一个更深层的问题正在浮现。

虽然业界普遍认为人工智能已进入"下半场",但欧阳万里指出,通用人工智能的到来仍不确定,即使按照过去一年的线性增长速度继续发展,也难以满足实际应用需求。

这种判断背后反映的是一个严峻现实:大模型在通用能力上的提升,与其在专业领域的应用需求之间存在显著落差。

大模型的应用现状呈现出明显的"两极分化"特征。

在文本创作、代码生成、图像合成、视频制作等通用领域,大模型已展现出令人瞩目的能力。

但在科学研究、工业制造、医疗诊断等专业领域,大模型的表现则相对逊色。

这种差异的根本原因在于数据的可获得性和可理解性。

大模型无法接触到工业场景中的专业数据,对DNA序列、气象数据、工业流程等领域特定信息的理解能力严重不足。

以代码编写为例,大模型能够胜任互联网上广泛存在的通用代码,但对于操作系统等专业领域的代码则力不从心,因为这些代码在公开网络上的数据量极其有限。

这一现象揭示了当前人工智能产业发展的核心矛盾。

大模型的训练数据主要来自互联网公开信息,而工业、科学等专业领域的数据往往被企业和机构严格保护。

即使大模型的基础能力在不断提升,但如果无法获得和理解场景特定的数据及其背后的工业逻辑,就难以真正解决实际问题。

这意味着,从技术突破到产业深耕之间,横亘着数据获取、知识融合、可靠性验证等多重沟壑。

欧阳万里提出了一个重要的解决思路:通专融合。

这一理念强调,需要将通用模型的能力与专业领域的知识相结合,使语言模型能够与科学数据进行交互对齐,理解并表达生物序列、气象信息等专业信息中蕴含的逻辑。

这种融合不仅需要大量的场景数据支撑,更需要对模型架构和训练方法的创新。

他指出,数据和模型设计同样重要,必须"两条腿走路",不能偏废其一。

从国际竞争的角度看,中美人工智能生态存在显著差异。

海外企业在商业化变现方面更具优势,用户对付费服务的接受度更高,这为企业提供了更充足的资金支持和数据积累机会。

相比之下,国内市场在付费意愿和数据共享机制上仍有提升空间。

这种生态差异最终会影响到数据获取能力和技术迭代速度。

展望未来,欧阳万里认为人工智能的发展方向值得重新思考。

他表示,未来可能出现新的模型学习方法,Transformer架构虽然目前表现优异,但不一定是最终的最优方案。

这种开放的态度反映出,当前人工智能技术仍处于探索阶段,仍有大量创新空间有待挖掘。

人工智能技术的发展正处在从量变到质变的关键节点。

面对场景数据短缺这一共性难题,既需要技术创新突破,也需要产业协同配合。

只有打通数据壁垒、深化技术融合,才能让智能技术真正扎根实体经济,释放其应有的变革力量。

这一过程虽充满挑战,但也孕育着无限可能。