商汤科技发布多模态AI新架构,实现理解与生成一体化设计

当前多模态人工智能领域面临一个长期存的结构性困境。业界通常采用"视觉编码器负责理解,变分自编码器负责生成"的组合式设计范式,这种模块化方案虽然行之有效,但在感知与创造之间形成了内在割裂,导致不同模块间的协同效率受限,计算成本也随之增加;近期虽有研究尝试构建共享编码器以缓解此矛盾,但这些折衷方案往往引入新的结构性权衡,并未从根本上解决问题。 商汤科技的技术团队从第一性原理出发,提出了一个根本性的思考:能否让人工智能像人类一样,直接从最原始的像素和文字中统一地进行学习、理解与生成,而无需依赖预先设计的编码器和解码器?基于这一理念,商汤科技联合南洋理工大学推出了NEO-unify架构,这是业界首个真正意义上的端到端原生统一模型。 NEO-unify架构的创新之处在于其三层递进式设计。首先,它引入了近似无损的视觉接口,统一了图像的输入与输出表示,最大程度保留原始信息。其次,采用原生混合Transformer架构,使视觉理解与生成能够在同一体系框架内协同进行,避免了模块间的信息损耗。第三,通过统一学习框架实现跨模态训练——文本采用自回归交叉熵目标——视觉则通过像素流匹配进行优化,形成完整的端到端学习闭环。 初步研究成果表明,NEO-unify在性能与效率上取得了显著突破。在仅经过9万步预训练的情况下,2B参数规模的NEO-unify模型在MS COCO 2017数据集上实现了31.56的PSNR和0.85的SSIM指标,这些数据接近传统VAE方案的水平,充分证明了原生端到端设计的可行性。更为重要的是,该模型在冻结理解分支的条件下,生成分支仍能从表示中提取并恢复细粒度的视觉细节,这表明原生架构能够同时保留抽象语义理解与像素级细节保真度。 在实际应用中,NEO-unify表现出了强大的图像编辑能力。模型将所有多模态条件信息统一输入到理解分支,由生成分支负责生成新的图像内容。即使在理解分支被冻结的情况下,该模型仍能完成复杂的图像编辑任务,这充分验证了其架构设计的灵活性和鲁棒性。 从技术发展的更深层意义看,NEO-unify的出现标志着多模态人工智能研究范式的一次重要转变。传统的模块化设计虽然便于工程实现,但在追求更高效能和更强泛化能力时,往往陷入结构性瓶颈。NEO-unify通过摒弃预训练先验和规模定律的束缚,直接从原始数据中学习内部表征,这种回归本质的设计思路为后续研究提供了新的参考方向。同时,该架构在保持强大语义理解能力的同时提升了训练与计算效率,这对于推动多模态技术的实际应用很重要。 商汤科技表示,目前正在扩大NEO-unify的规模并持续迭代优化,更多模型版本和开源成果将陆续发布。这意味着该技术有望在更广泛的应用场景中得到验证和推广。

从模块组合到原生统一,是多模态技术走向成熟的一次路径选择;能否在统一架构内同时实现“懂语义、保细节、算得快、用得稳”,不仅关乎单一模型的指标提升,更关乎产业落地的成本结构与应用边界。随着更多公开评测与工程化验证推进,这类端到端统一探索或将为多模态系统打开新的效率窗口,也为通用视觉语言能力的下一阶段发展提供关键变量。