商汤科技提出具身智能新范式 开源世界模型破解机器人发展瓶颈

问题——具身智能“看得懂、做得对”仍是产业化的关键门槛。

近年来,VLA模型被视为机器人通用能力的重要路线:将语言指令与视觉、音频等多模态信息映射为动作控制策略,试图实现“听懂—看清—执行”。

但在实际研发和部署中,机器人对复杂环境的持续适应、对物体交互的稳定操作、对长时任务的规划执行,仍频繁出现泛化不足、动作不可靠、成本高等问题,暴露出单纯依靠互联网静态数据训练的局限性。

原因——核心矛盾在于数据形态与物理世界规律不匹配。

VLA训练所需的关键数据并非网页文本或单帧图像,而是连续、动态、具备三维乃至四维时空属性的交互轨迹:包括人的动作意图、物体状态变化、力触觉反馈、空间约束等。

此类数据采集成本高、标准难统一、覆盖场景有限,且存在噪声与安全边界问题,导致模型难以从“会描述”迈向“会操作”。

同时,物理世界存在因果链条、接触关系与非线性扰动,单靠静态语义关联难以形成稳定可复用的策略,这也是当前具身模型能力跃升受阻的重要因素。

影响——数据瓶颈正在重塑行业技术路线与竞争焦点。

一方面,具身智能从“参数规模竞争”转向“数据与场景竞争”,谁能更低成本、更可持续地获取高质量交互数据,谁就更可能在真实环境中形成可靠能力。

另一方面,世界模型、仿真平台、多模态传感与国产算力适配的重要性上升,产业链从算法端延伸到芯片、传感器、执行器与系统集成,生态协同成为加速落地的必要条件。

对应用侧而言,可靠性与安全性成为采购决策的硬指标,尤其在安防巡检、仓储物流等高频场景,企业更看重可控成本与可复制部署能力。

对策——以“以人为中心”的ACE范式探索新路径,强调从真实交互中学习。

相关企业提出ACE具身研发范式,将“人—物—场”的互动规律作为研究起点,通过环境式数据采集获取第一视角与第三视角视频、力触觉信息、运动轨迹、语音等多模态数据,并在处理环节进行时序对齐、交互轨迹预测建模与物理一致性校正,形成可用于训练的动态场景数据。

基于此,推出开源的世界模型产品,构建跨本体的统一世界理解框架,尝试将物理规律、人类行为与真机动作融合,使机器人不仅具备对因果关系的理解能力,也具备生成长时动静态交互场景的能力,从而降低研发门槛、缩短验证周期。

在生态建设上,开源与协同被视为扩大数据与场景覆盖的关键抓手。

通过面向行业开放世界模型能力与场景生成工具,支持多类别、多标签的任务模拟与场景构建,吸引更多开发者与厂商共同参与数据采集与模型迭代,形成“采集—训练—应用—回流”的闭环。

同时,通过与多家机器人本体企业合作打通模型与硬件的适配链路,在算力侧推进与国产芯片平台的兼容,在硬件侧借助多视角采集与关键模组能力提升数据质量与场景还原度,以系统工程方式提升可落地性。

前景——具身智能有望在“可控场景先行、复杂场景渐进”中进入加速期。

业内判断,短期内具备自主导航能力的四足机器人在安防、巡检等B端场景更易实现规模化推广,原因在于任务相对结构化、路径可规划、风险可控。

中期,具身机器人将更多进入仓储物流等半结构化场景,如前置仓、即时零售仓等,对抓取、搬运、分拣等环节提出更高的操作稳定性要求;能否通过世界模型与高质量交互数据实现快速迁移与持续学习,将决定部署效率与维护成本。

长期看,家庭服务等开放环境对安全、成本、可靠性和伦理规范要求更高,技术与标准需同步完善,产业仍将经历从“可演示”到“可长期运行”的严格筛选。

从实验室创新到产业变革,具身智能的发展印证了"技术突破源于需求牵引"的规律。

当机器人学会用人类的视角认知世界,其意义不仅在于机械臂的精准操控,更预示着人机协作新纪元的到来。

在这场智能革命中,中国科研团队正以原创范式书写关键篇章。