场景数据成大模型落地“关键缺口” 专家称工业应用仍需通专融合与方法创新

2025年伊始，人工智能产业发展呈现出新的阶段性特征。

曾经被寄予厚望的"万能模型"梦想正在冷静下来，业界对人工智能的认识也趋于理性。

上海人工智能实验室领军科学家欧阳万里近日接受采访时表示，尽管大模型研发持续推进，但通用人工智能距离真正到来仍有相当距离，产业落地面临的挑战远比预期复杂。

从技术竞争格局看，大模型开发已进入相对均衡的发展阶段。

曾经由OpenAI的GPT系列一骑绝尘的局面已成过去，多家企业轮流宣称自身模型性能最优，这反映出大模型技术的快速迭代和竞争加剧。

国内外采取了不同的技术路线，国外企业多采用闭源策略，中国企业则主要走开源路线。

从现阶段性能对比看，闭源模型在整体能力上仍保持一定优势，这与数据获取能力、技术积累和商业化激励等多重因素相关。

然而，在为技术进步欢呼的同时，一个更深层的问题正在浮现。

虽然业界普遍认为人工智能已进入"下半场"，但欧阳万里指出，通用人工智能的到来仍不确定，即使按照过去一年的线性增长速度继续发展，也难以满足实际应用需求。

这种判断背后反映的是一个严峻现实：大模型在通用能力上的提升，与其在专业领域的应用需求之间存在显著落差。

大模型的应用现状呈现出明显的"两极分化"特征。

在文本创作、代码生成、图像合成、视频制作等通用领域，大模型已展现出令人瞩目的能力。

但在科学研究、工业制造、医疗诊断等专业领域，大模型的表现则相对逊色。

这种差异的根本原因在于数据的可获得性和可理解性。

大模型无法接触到工业场景中的专业数据，对DNA序列、气象数据、工业流程等领域特定信息的理解能力严重不足。

以代码编写为例，大模型能够胜任互联网上广泛存在的通用代码，但对于操作系统等专业领域的代码则力不从心，因为这些代码在公开网络上的数据量极其有限。

这一现象揭示了当前人工智能产业发展的核心矛盾。

大模型的训练数据主要来自互联网公开信息，而工业、科学等专业领域的数据往往被企业和机构严格保护。

即使大模型的基础能力在不断提升，但如果无法获得和理解场景特定的数据及其背后的工业逻辑，就难以真正解决实际问题。

这意味着，从技术突破到产业深耕之间，横亘着数据获取、知识融合、可靠性验证等多重沟壑。

欧阳万里提出了一个重要的解决思路：通专融合。

这一理念强调，需要将通用模型的能力与专业领域的知识相结合，使语言模型能够与科学数据进行交互对齐，理解并表达生物序列、气象信息等专业信息中蕴含的逻辑。

这种融合不仅需要大量的场景数据支撑，更需要对模型架构和训练方法的创新。

他指出，数据和模型设计同样重要，必须"两条腿走路"，不能偏废其一。

从国际竞争的角度看，中美人工智能生态存在显著差异。

海外企业在商业化变现方面更具优势，用户对付费服务的接受度更高，这为企业提供了更充足的资金支持和数据积累机会。

相比之下，国内市场在付费意愿和数据共享机制上仍有提升空间。

这种生态差异最终会影响到数据获取能力和技术迭代速度。

展望未来，欧阳万里认为人工智能的发展方向值得重新思考。

他表示，未来可能出现新的模型学习方法，Transformer架构虽然目前表现优异，但不一定是最终的最优方案。

这种开放的态度反映出，当前人工智能技术仍处于探索阶段，仍有大量创新空间有待挖掘。

人工智能技术的发展正处在从量变到质变的关键节点。

面对场景数据短缺这一共性难题，既需要技术创新突破，也需要产业协同配合。

只有打通数据壁垒、深化技术融合，才能让智能技术真正扎根实体经济，释放其应有的变革力量。

这一过程虽充满挑战，但也孕育着无限可能。