问题——具身智能的发展离不开高质量、可泛化的数据,但数据采集长期卡“成本高、效率低、难复用”。一上,传统第一人称视角采集往往依赖专业相机、稳定系统和配套传感器,设备投入动辄数万美元;另一方面,从拍摄到切分、标注、质检的流程高度依赖人工,难以规模化,训练数据也难覆盖真实工作和生活中的复杂交互。 原因——具身任务的数据价值,关键于还原“人如何自然地看、拿、放、操作”。但自然交互具有连续、随机、强场景依赖等特点:视频往往很长,动作边界不清晰,有效片段占比不稳定;同时对视角稳定性、手部关键点识别精度要求更高。缺少标准化采集装置与自动化处理管线时,数据口径很难统一,进而拖累模型训练效率与迁移能力。 影响——为解决这些痛点,蚂蚁数科天玑实验室推出AoE持续性第一人称视频采集框架,尝试将“人体自然交互过程”转化为可规模化生产的标准数据。在采集端,团队采用人体工学颈挂式支架,通过磁吸与机械夹具双重固定提升稳定性,让手机在胸前形成相对稳定的第一视角记录。公开实验信息显示,该方案可实现毫米级轨迹追踪,并保持较高的手部关键点识别精度。在机器人训练验证中,Unitree G1机器人执行“关电脑”等任务时,仅使用约200条由该框架采集的数据,就将操作成功率从45%提升至95%,反映了对关键动作模式的学习效率,也说明第一人称自然交互数据对具身任务训练的价值。 对策——针对长视频“难处理、难标注”的共性问题,AoE更搭建端云协同的自动化流水线:端侧用轻量化视觉模型实时识别手—物交互并触发精准录制,减少无效片段;随后通过视觉与语言能力融合的模型对连续视频进行动作切分并生成语义标签,将复杂过程拆解为可复用的“原子动作”单元;云端再完成自动标注、异常数据过滤与结构化整理,形成可直接用于训练的数据集。公开信息显示,该流程可支持数千台设备并发采集,并将人工介入环节减少80%以上,从源头提升数据产能与一致性。 前景——从产业角度看,低成本、可复制的采集方案有望加速具身智能从实验室走向真实场景。在金融场景中,涉及的机构引入该方案后,柜面操作数据采集效率提升约3倍,模型迭代周期缩短约60%,显示标准化数据流程对行业智能化改造的带动作用。随着制造、物流等行业对作业流程数字化需求持续增长,面向特定岗位的第一人称数据采集与自动化标注,将逐步成为训练行业模型的重要基础设施。同时,数据合规与安全将成为规模化落地的前置条件,需要在采集告知、权限控制、脱敏处理、数据留痕诸上建立更严格的制度与技术保障,在可控边界内推动数据高效流通。
AoE框架的推出,表明了AI发展的一种转向:从单纯追求“更先进”,转向更重视“更容易用、用得起”。通过将采集成本从数万美元降至约20美元,蚂蚁数科不仅缓解了具身智能的数据瓶颈,也降低了参与门槛,让具身智能从少数机构的研究走向更广泛的产业应用。这类“普及型”创新有望加速具身智能在制造、物流、金融等领域落地,推动行业进入规模化发展阶段。