大晓机器人最近把开悟世界模型3.0开源了,给大家看看他们的工作成果。这个叫Kairos 3.0-4B的东西可是具身原生世界模型里的头一号,它用“原生大脑”让机器人动起来。Kairos 3.0-4B让具身智能从“模仿行为”到“深入理解物理世界”,打破了不少行业难题,算是给规模化应用找了个核心引擎。之前具身智能行业有个毛病,就是数据太少太碎,长时候的交互也不行,部署成本还贵得吓人。大部分生成式模型也就是把大模型改改样子,根本不理解物理世界。Kairos 3.0-4B这次从底层架构开始重建,用物理规律和因果规律做基础,把机器人实际操作、人类行为数据和思维链文本都融合进去。这下好了,“理解世界、生成世界、预测世界”这一套就都齐活了。它是全球第一个能在端侧直接控制机器人的世界模型。在Jetson Thor T5000这个平台上部署的时候,它的算力能达到517 TFLOPS。这也是行业里第一个在THOR端侧平台上实现1:1.5实时生成的模型。有了这个端侧部署的优势,模型能直接给机器人发指令,不用中间转译那一套。不但在3D仿真环境里能精准规划机械臂的动作,还能真的把机器人本体动起来干活。以前机器人只能“表演”,现在能“干活”了。物理因果一致性可是具身智能的本事所在。在倒水、叠平衡石这种复杂的物理交互场景里,Kairos 3.0-4B能把物理规律完美重现:倒出来的水很平稳,杯子里的水量也符合要求。别的像Cosmos 2.5、Lingbot这种竞品在这些地方就会出现逻辑失真的问题。长时序交互能力的突破让具身智能有了新出路。Kairos 3.0-4B把复杂指令拆解成层级结构,用精细预测和自我反思的办法生成了长达7分钟的连贯视频。在家庭场景演示里,机器人能一镜到底整理桌面、洗衣服、做早餐这些事都能搞定。这证明了它在家庭服务和工业制造方面的潜力巨大。这次给大家的惊喜还不止这些。Kairos 3.0-4B只有4B参数就把显存占用控制在23.5GB左右,比同类竞品轻多了。在A800 GPU Benchmark测试里,它的推理速度比Cosmos 2.5快了72倍;做10秒的生成任务只需要9.5秒;比Lingbot快了151倍;还率先实现了云侧1:1实时推理,支持英伟达、沐曦这些GPU。多本体泛化能力也解决了传统模型一本体一个训练的麻烦。Kairos 3.0-4B支持跨本体任务一键生成,不管是单臂还是双臂甚至灵巧手机器人都能用。