说起来,2月12日那天,字节跳动官方发了个通知,说豆包视频生成模型Seedance2.0已经正式发布了。现在这个Seedance2.0不仅给豆包、即梦这两个产品都接上了,还把火山方舟体验中心也一并弄上线了。大家有空去试一下,感觉应该挺不错的。说实话,这个Seedance2.0确实解决了不少大问题,像是物理规律到底能不能在画面里表现出来,还有长时间生成的视频能不能保持一直的连贯,这都是它给搞定的。而且这次还把创作的自由度给大大提高了,让咱们普通人也能做出专业水平的视频。当然,它也有个限制,就是不能用真人的照片或者视频来当主体参考。如果真的想用真人,得经过本人验证或者拿到授权才行。 导演级别的操控能力也特别强,现在“所想即所见”这事儿基本上稳了。在运动场景下的生成可用率甚至达到了业界的SOTA水平,人物动作那是相当自然连贯,完全遵循现实世界的运动规律。它能把那些复杂的互动场景合成得非常逼真,特写镜头里的细节也能让人看了觉得真的像实拍一样。比如这段00:15T2V prompt里的双人花样滑冰现场,开场就用低机位跟着冰刀滑行看细节;到了旋转段男选手稍微偏了点出现失误节奏乱了;女选手马上调整重心眼神冷静示意男选手“Stay with me”,然后带节奏;接着托举动作无缝衔接;高潮就是同步跳跃组合空中笔直落冰果断。女的穿深蓝花滑裙,男的穿运动装。整个过程紧张但最后完成得很冷静。 多模态的参考能力也很强支持文字、图片、音频、视频混合输入。比如R2V prompt里的这个女孩就很有想象力,她打破次元壁连续穿越多幅名画世界还保留真实质感。她在星空下激动站着;好奇看情侣拥抱;和戴珍珠耳环少女自拍;跟武士穿过;扮鬼脸呐喊;跑到蒙娜丽莎身旁被摸头;在女人面前换装行礼;跟梵高画画;最后转身甜美一笑。转场特别丝滑对比度高像电影一样。 指令的遵循和可控性也是全面提升了。Seedance2.0能精准还原复杂的脚本保证主体一直不变。模型还能有点编导思维分镜设计跟着叙事走。这次还新增了视频编辑和延长的功能大家都能像导演一样掌控全场。比如R2VPrompt里的镜头跟拍橙衣男人骑马跑到大树前折花其他人也骑马过来了镜头推进拍他下马环绕转身把花献给白衣女子中国风仕女图风格民乐皮影风格黑白橙色为主调。 音效这块也很不错集成了双声道立体声高仿真沉浸式的感觉特别棒。支持背景音乐环境音效多轨并行输出精准对齐画面节奏。比如T2V prompt里的武侠大片竹林里白衣剑客和蓑衣刀客对峙气氛压抑雨声很大突然惊雷闪过两人冲锋侧拍泥浆飞溅镜头极慢动作展示刀剑震飞雨水圆环激波还有被剑气切断的竹叶最后两人背对背落地斗笠裂开画面就停了。 不管是做广告还是特效游戏动画解说视频这个模型都能提供高质量的效果。预计2月中下旬API服务就会上火山方舟帮助企业客户落地创意。I2V prompt里的画中人物心虚伸出画框拿可乐喝露出满足表情这时候西部牛仔走过来拿走可乐结尾镜头推进到顶光可乐特写字幕和旁白出现:“宜口可乐不可不尝!”。 最后团队还专门建立了综合评测集来评估这个Seedance2.0在多模态场景下的表现文生视频能力和图生视频能力都很厉害啊!