高质量数据集建设是一场持久战

这次报告由北京前沿未来科技产业发展研究院牵头，给大家带来了关于高质量数据集建设的一些看法。咱们就从大背景说起，谁都知道AI离不开数据，这高质量数据集就是其中的核心要素，要是没有它，大家就会被“数据墙”挡在外面。陆峰博士在报告里提到，咱们国家现在已经建成了超过3.5万个高质量数据集，这听起来成绩不错，但跟发达国家比起来，在总量和行业覆盖上还有不少差距。要想突破这种局面，就得把政策背景吃透。全国数标委发布了《高质量数据集建设指南》等4项技术文件，国家层面也发了《关于深入实施“人工智能 ”行动的意见》，这些都给咱们指明了方向。具体怎么搞？莆田市的全域多模态城市治理数据集就是一个好例子，这是典型的政府主导模式。技术路径上也有很多讲究。传统的“炼化”模式包括采集、治理、标注、质检、运营这五个阶段；智能辅助标注模式则是预标注加人工校验的智能流程；对于关键样本稀缺的问题，数据合成增强模式就很管用，比如用GAN生成缺陷样本。不同的应用场景也需要不同的模式。行业专识数据集是给特定行业定制的；跨领域合成数据集则把多模态、大规模的数据融合起来；场景驱动模式更是直接从“大水漫灌”转向了“精准滴灌”。实施起来也得分阶段走。体系规划阶段要先定好目标和方案；工程建设阶段要搞定数据采集、治理、标注、合成和质检这些关键环节；质量监测阶段得建立动态反馈机制；流通运营阶段还要让价值释放出来。制度保障这块也得跟上。标准规范体系得完善起来；数据工程能力建设要有五大核心要素；合规安全这块更是马虎不得；生态培育机制也要培育好四类核心主体和人才队伍。最后咱们还是把眼光放长远点。高质量数据集建设是一场持久战，需要各方共同努力。大家如果对这个话题感兴趣，可以直接联系北京前沿未来科技产业发展研究院的陆峰博士咨询详情。