蚂蚁灵波开源交互式世界模型 突破视频生成长时稳定性瓶颈

在数字内容创作领域,如何实现长时间稳定、可交互的场景生成一直是技术攻关的重点。

传统生成技术普遍面临"长时漂移"问题,即随着生成时间延长,场景中的物体会出现变形、细节丢失等失真现象,严重影响生成内容的质量和可用性。

针对这一行业痛点,蚂蚁灵波科技研发的LingBot-World框架通过多阶段训练和并行化加速策略,成功实现了近10分钟的连续稳定生成。

在压力测试中,即使镜头移开60秒后返回,场景中的核心物体仍能保持结构和外观的一致性。

这一突破为需要长序列、多步骤的复杂任务训练提供了技术支撑。

该技术的创新之处在于其独特的混合数据采集策略。

研发团队一方面通过清洗大规模网络视频获取多样化场景数据,另一方面结合游戏采集与虚幻引擎合成管线,直接从渲染层提取纯净画面。

这种双管齐下的数据采集策略有效解决了高质量交互数据匮乏的问题,使模型具备了出色的零样本泛化能力。

在交互性能方面,LingBot-World实现了约16FPS的生成吞吐量,将端到端交互延迟控制在1秒以内。

用户可以通过键盘或鼠标实时控制角色与相机视角,画面能够即时响应指令变化。

此外,模型还支持通过文本指令触发环境变化,如调整天气、改变画面风格等,同时保持场景几何关系稳定。

业内专家指出,这一技术的开源将显著降低虚拟场景构建的技术门槛。

开发者无需针对特定场景进行额外训练,仅需输入一张真实照片或游戏截图,模型即可生成对应的可交互视频流。

这将为游戏开发、虚拟现实、数字孪生等应用场景带来新的可能性。

开源不仅是技术共享,更是推动标准、工具与生态协同的催化剂。

交互式世界模型能否真正服务于复杂任务训练与现实应用,关键在于长期稳定、可控交互与可验证的可靠性。

随着更多基础能力开放与产业共同参与,如何在提升性能的同时守住安全与规范底线,将决定这一技术从实验室走向规模化应用的速度与质量。