soulx-flashhead新模型发布

2月12日,Soul的创始人张璐和他的团队宣布推出了名为SoulX-FlashHead的新模型。这个模型可以在单张普通消费级显卡上实现高质量的实时数字人生成。它的轻量化版本能够在RTX 4090显卡上跑出高达96FPS的速度,同时保持着优秀的画质表现。开发者们一直面临着实时数字人生成时的两难困境:要么追求高画质,给昂贵的硬件付费,要么接受低成本但画质不佳的体验。张璐带领团队深入研究技术底层,试图在计算成本和渲染效果之间找到新的平衡点。就在之前他们开源了SoulX-FlashTalk模型后不久,这次又带来了SoulX-FlashHead这个重磅新作。它只有1.3B参数,但能给行业带来重大突破。这款模型不仅实时性强,还具有高性能。Lite版本支持单卡高速推理,每秒钟能处理多达96帧图像。Pro版本则注重高画质表现,双卡并联能实现流畅的25fps+实时体验。在FID视觉质量指标和唇形一致指标上,Pro版本都达到了目前最佳水平。 那么SoulX-FlashHead是如何做到这个成就的呢?它引入了一种被称为“先知”的双向蒸馏机制,用于避免人物特征漂移问题。Ground Truth作为先知锚点对模型进行约束,确保人物特征稳定。此外,为了解决流式生成中的口型抖动问题,团队设计了独特的8秒记忆时序音频上下文缓存(TACC),强制模型缓存8秒历史音频特征来补偿缺失信息。这些创新都离不开其自研的数据底座VividHead的支持。团队从超过10,000小时的素材中筛选清洗出782小时纯净音画数据供模型使用。 实测显示,SoulX-FlashHead表现非常出色。在HDTF和VFHQ两大权威数据集上,Pro版本以8.31的FID和103.14的FVD成绩刷新了高清视频评测纪录。面对复杂场景时,其Sync-C得分高达5.60,大幅领先同类工作。Lite版本在单张RTX 4090上实现96FPS吞吐量,是行业同类模型推理效率的100倍以上。 这些突破不仅仅是技术参数上的胜利,更是Soul团队对“技术普惠”理念的生动实践。随着更多开发者加入这个生态系统,实时数字人将不再是大型企业专属工具,而是每个人都能轻松使用的创意工具。这将开启人机交互的无限可能。