王兴兴：机器人能开启具身智能的新纪元

王兴兴在最近的行业年会上发言，他认为现在的具身智能在实验室表现不错，但实际用起来还是有问题。他把问题归结为泛化能力不行，比如实验室里机器人做得很准，换个环境可能就不行了。这是制约技术落地的一个大障碍。他还特别提到了字节跳动的Seedance2.0技术，觉得这个视频生成技术挺先进的，但难题在于怎么让机器的画面和机械动作毫秒级同步。为了解决这些问题，他给出了三个技术方向：一是把模型架构优化一下，好让运动指令表达得更清楚；二是把有限的数据用得更充分；三是扩大强化学习的规模，释放算法潜力。他更看好的是基于视频生成的世界模型构建方案，这有点像人类“先想象后实践”的认知模式。这个方案是先通过AI生成高质量的视频任务执行画面，再把这些画面和机械动作精准匹配起来变成指令。不过他也指出，这个“脑海中的设想”要准确转化成现实操作还挺难的。这次会议上他还提到了ChatGPT，觉得要实现像ChatGPT那样的颠覆性突破还得跨过不少坎。他预计未来3到5年整个行业可能得积累不少技术沉淀才能把跨场景通用能力搞出来。他的团队现在就在尝试用多模态融合技术来缩小虚拟和现实的差距。等视频生成精度和动作控制精度达到平衡的时候，机器人就能跨场景用了。这可能真的能开启具身智能的新纪元吧。如果你想了解更多的话，我觉得这篇文章里的Seedance、Seedance2.0和王兴兴的话挺值得一看的。