当前,高质量数据已成为人工智能产业发展的战略性资源;作为训练大模型的精准样本和推动大模型从通用型向产业专用型转变的关键桥梁,高质量数据集直接关系到人工智能与实体经济的深度融合程度。强化高质量数据供给已成为全球人工智能竞争的战略共识——各地纷纷出台政策措施——抢占数据要素价值释放的制高点。 北京亦庄敏锐把握该战略机遇。2025年初,该区发布"数据20条"政策,明确支持高质量数据集建设,通过"真金白银"的激励机制激活数据要素价值。近日,该政策首次集中兑现,共有20家企业的38个高质量数据集获得认定奖励,最高单项奖励达200万元。这一举措充分说明了北京亦庄以场景为驱动、畅通数据供给、激励企业破解数据瓶颈政策导向。 从获奖数据集的分布来看,覆盖面广、突破性强是其显著特点。在具身智能领域,北京人形机器人创新中心的"RoboMIND2.0数据集"填补了国内双足人形机器人开源数据的空白,已支撑国内首个通过国标测试的跨本体具身VLA大模型的训练和开源。星海图打造的全球首个开放场景真机数据集开源后,双平台跃居全球机器人真机数据集下载量首位,体现了中国在机器人领域的创新实力。 在生物医药领域,麦克奥迪医疗采用"三甲医院病理专家诊断意见+AI制片质控+临床信息关联脱敏数据"的创新模式,打造了数字病理疑难病例数据集,有关数据已获得北京数据交易所《数字资产登记凭证》。药云构建的国内首个面向真实世界证据生成的垂直化、结构化、可监管医药融合数据集,已为生物医药企业提供服务,有助于推动医疗AI产品的应用落地。 在工业制造领域,北京蚂蚁工场构建了国内首个覆盖"非标+标准件"全流程柔性制造的强合规数据集,填补了"数据驱动智能制造闭环+大模型可持续训练"的双重空白。星龙数智首创的钢铁行业全产业链高质量数据集建设与应用平台,已助力钢铁企业生产协同效率提升超10%、能源消耗降低3%以上,充分展现了数据驱动产业升级的实际效能。 在智能网联领域,四维图新智驾的"基于4D时空障碍物检测的高质量自动驾驶数据集"首创"4D时空+自动化闭环"模式,填补了中国特有的复杂交通场景数据空白,破解了高级别自动驾驶研发中的数据瓶颈。恺望数据集则助力自动驾驶向无图模式加速转型,推动产业技术迭代升级。 政策奖励的真正价值在于其对产业发展的催化作用。获奖企业纷纷表示,这笔资金不仅是对既有工作的肯定,更是推动后续研发升级和生态共建的重要支撑。北京人形具身数据负责人纪俊杰表示,团队将深入探索扩大真实场景数据规模,推动机器人在真实场景的实际落地应用。麦克奥迪医疗表示将利用专项资金持续加大研发投入,推进数据开放上架与AI应用大模型的开发。北京蚂蚁工场副总经理王东泽指出,公司将把"数据集成果"升级成"数据能力供给",探索受控开放、场景共建和联合验证,推动数据在产业链协同中真正流动起来。 这些企业的表态反映出一个共同的认识:高质量数据集的价值不仅在于其本身的技术先进性,更在于其对产业生态的赋能作用。通过政策激励,引导企业加大研发投入,推动数据的开放共享和产业链协同,最终实现数据要素价值的最大化释放。
北京亦庄的实践表明,激活数据要素价值需要政策创新与市场力量的协同发力。当数据这个"新时代的石油"得到高效开采和利用,不仅会催生新的产业形态,更将重塑传统行业的生产方式;这场以数据为驱动的产业变革,正在为高质量发展注入强劲动能。