大晓机器人把开悟世界模型3.0 开源了

大晓机器人最近把开悟世界模型3.0开源了，给大家看看他们的工作成果。这个叫Kairos 3.0-4B的东西可是具身原生世界模型里的头一号，它用“原生大脑”让机器人动起来。Kairos 3.0-4B让具身智能从“模仿行为”到“深入理解物理世界”，打破了不少行业难题，算是给规模化应用找了个核心引擎。之前具身智能行业有个毛病，就是数据太少太碎，长时候的交互也不行，部署成本还贵得吓人。大部分生成式模型也就是把大模型改改样子，根本不理解物理世界。Kairos 3.0-4B这次从底层架构开始重建，用物理规律和因果规律做基础，把机器人实际操作、人类行为数据和思维链文本都融合进去。这下好了，“理解世界、生成世界、预测世界”这一套就都齐活了。它是全球第一个能在端侧直接控制机器人的世界模型。在Jetson Thor T5000这个平台上部署的时候，它的算力能达到517 TFLOPS。这也是行业里第一个在THOR端侧平台上实现1:1.5实时生成的模型。有了这个端侧部署的优势，模型能直接给机器人发指令，不用中间转译那一套。不但在3D仿真环境里能精准规划机械臂的动作，还能真的把机器人本体动起来干活。以前机器人只能“表演”，现在能“干活”了。物理因果一致性可是具身智能的本事所在。在倒水、叠平衡石这种复杂的物理交互场景里，Kairos 3.0-4B能把物理规律完美重现：倒出来的水很平稳，杯子里的水量也符合要求。别的像Cosmos 2.5、Lingbot这种竞品在这些地方就会出现逻辑失真的问题。长时序交互能力的突破让具身智能有了新出路。Kairos 3.0-4B把复杂指令拆解成层级结构，用精细预测和自我反思的办法生成了长达7分钟的连贯视频。在家庭场景演示里，机器人能一镜到底整理桌面、洗衣服、做早餐这些事都能搞定。这证明了它在家庭服务和工业制造方面的潜力巨大。这次给大家的惊喜还不止这些。Kairos 3.0-4B只有4B参数就把显存占用控制在23.5GB左右，比同类竞品轻多了。在A800 GPU Benchmark测试里，它的推理速度比Cosmos 2.5快了72倍；做10秒的生成任务只需要9.5秒；比Lingbot快了151倍；还率先实现了云侧1:1实时推理，支持英伟达、沐曦这些GPU。多本体泛化能力也解决了传统模型一本体一个训练的麻烦。Kairos 3.0-4B支持跨本体任务一键生成，不管是单臂还是双臂甚至灵巧手机器人都能用。