王兴兴:机器人能开启具身智能的新纪元

王兴兴在最近的行业年会上发言,他认为现在的具身智能在实验室表现不错,但实际用起来还是有问题。他把问题归结为泛化能力不行,比如实验室里机器人做得很准,换个环境可能就不行了。这是制约技术落地的一个大障碍。他还特别提到了字节跳动的Seedance2.0技术,觉得这个视频生成技术挺先进的,但难题在于怎么让机器的画面和机械动作毫秒级同步。 为了解决这些问题,他给出了三个技术方向:一是把模型架构优化一下,好让运动指令表达得更清楚;二是把有限的数据用得更充分;三是扩大强化学习的规模,释放算法潜力。他更看好的是基于视频生成的世界模型构建方案,这有点像人类“先想象后实践”的认知模式。 这个方案是先通过AI生成高质量的视频任务执行画面,再把这些画面和机械动作精准匹配起来变成指令。不过他也指出,这个“脑海中的设想”要准确转化成现实操作还挺难的。 这次会议上他还提到了ChatGPT,觉得要实现像ChatGPT那样的颠覆性突破还得跨过不少坎。他预计未来3到5年整个行业可能得积累不少技术沉淀才能把跨场景通用能力搞出来。他的团队现在就在尝试用多模态融合技术来缩小虚拟和现实的差距。 等视频生成精度和动作控制精度达到平衡的时候,机器人就能跨场景用了。这可能真的能开启具身智能的新纪元吧。 如果你想了解更多的话,我觉得这篇文章里的Seedance、Seedance2.0和王兴兴的话挺值得一看的。