高质量数据集已成为当今人工智能产业竞争的战略制高点。作为训练大模型的精准样本和推动大模型产业化应用的关键桥梁,优质数据供给直接决定了人工智能与实体经济融合的深度和广度。然而——长期以来——我国多个产业领域面临数据供给不足、数据质量参差不齐的瓶颈制约,严重影响了涉及的产业的创新发展步伐。 为破解此制约,北京亦庄于2025年发布"数据20条"政策,明确提出支持高质量数据集建设,以场景驱动为导向,畅通数据供给渠道,激励各领域企业主动破解数据瓶颈。近日,该政策首次集中兑现,充分表明了政府以"真金白银"激活数据要素价值、筑牢人工智能产业基础的决心。 此次获奖的38个高质量数据集在多个关键领域实现了突破性进展。在具身智能领域,北京人形机器人创新中心的"RoboMIND2.0数据集"填补了国内双足人形机器人开源数据的空白,已支撑国内首个通过国标测试的跨本体具身VLA大模型的训练和开源。星海图打造的全球首个开放场景真机数据集开源后,双平台下载量跃居全球机器人真机数据集首位,充分说明了优质数据的市场价值。 在生物医药领域,麦克奥迪医疗创新性地采用"三甲医院病理专家诊断意见+AI制片质控+临床信息关联脱敏数据"的模式,打造了数字病理疑难病例数据集,相关数据已获得北京数据交易所《数字资产登记凭证》。药云构建的国内首个面向真实世界证据生成的垂直化、结构化、可监管医药融合数据集,已为生物医药企业提供实际服务,推动了医疗AI产业的落地应用。 在工业制造领域,北京蚂蚁工场构建了国内首个覆盖"非标+标准件"全流程柔性制造的强合规数据集,填补了"数据驱动智能制造闭环+大模型可持续训练"的双重空白。星龙数智首创的钢铁行业全产业链高质量数据集建设与应用平台,已助力钢铁企业生产协同效率提升超10%、能源消耗降低3%以上,充分体现了数据驱动产业升级的实际效能。 在智能网联领域,四维图新的"基于4D时空障碍物检测的高质量自动驾驶数据集"首创了"4D时空+自动化闭环"模式,填补了中国特有复杂交通场景数据的空白,有效破解了高级别自动驾驶研发中的数据瓶颈。恺望数据集则助力自动驾驶向无图模式加速转型,推动了产业技术路线的创新演进。 政策奖励的真正价值在于其对产业发展的催化作用。获奖企业纷纷表示,这笔资金不仅是对既往工作的肯定,更是推动后续研发升级和生态共建的重要支撑。北京人形机器人创新中心表示,将继续探索扩大真实场景数据规模,推动人形机器人在真实场景的实际落地应用。麦克奥迪医疗计划利用专项资金持续加大研发投入,推进数据开放上架与AI应用大模型的开发,力争将该数据集打造成北京亦庄医药健康与医疗AI产业的重要基础资源。 北京蚂蚁工场表示,将把"数据集成果"升级为"数据能力供给",探索受控开放、场景共建和联合验证,推动数据在产业链协同中真正流动起来。四维图新则将获奖资金重点投入数据集研发升级与生态建设,进一步赋能头部智驾企业,助力其大幅缩短研发周期、降低标注与挖掘成本。
高质量数据如同产业智能化的地基,决定着上层应用的稳定性;通过政策引导企业打造深度、合规、可流通的数据体系,是推动科技与经济深度融合的有效路径。未来产业竞争中,谁能建立持续的高质量数据供给体系,谁就能赢得发展先机。