商汤科技发布多模态AI新架构，实现理解与生成一体化设计

当前多模态人工智能领域面临一个长期存的结构性困境。业界通常采用"视觉编码器负责理解，变分自编码器负责生成"的组合式设计范式，这种模块化方案虽然行之有效，但在感知与创造之间形成了内在割裂，导致不同模块间的协同效率受限，计算成本也随之增加；近期虽有研究尝试构建共享编码器以缓解此矛盾，但这些折衷方案往往引入新的结构性权衡，并未从根本上解决问题。商汤科技的技术团队从第一性原理出发，提出了一个根本性的思考：能否让人工智能像人类一样，直接从最原始的像素和文字中统一地进行学习、理解与生成，而无需依赖预先设计的编码器和解码器？基于这一理念，商汤科技联合南洋理工大学推出了NEO-unify架构，这是业界首个真正意义上的端到端原生统一模型。 NEO-unify架构的创新之处在于其三层递进式设计。首先，它引入了近似无损的视觉接口，统一了图像的输入与输出表示，最大程度保留原始信息。其次，采用原生混合Transformer架构，使视觉理解与生成能够在同一体系框架内协同进行，避免了模块间的信息损耗。第三，通过统一学习框架实现跨模态训练——文本采用自回归交叉熵目标——视觉则通过像素流匹配进行优化，形成完整的端到端学习闭环。初步研究成果表明，NEO-unify在性能与效率上取得了显著突破。在仅经过9万步预训练的情况下，2B参数规模的NEO-unify模型在MS COCO 2017数据集上实现了31.56的PSNR和0.85的SSIM指标，这些数据接近传统VAE方案的水平，充分证明了原生端到端设计的可行性。更为重要的是，该模型在冻结理解分支的条件下，生成分支仍能从表示中提取并恢复细粒度的视觉细节，这表明原生架构能够同时保留抽象语义理解与像素级细节保真度。在实际应用中，NEO-unify表现出了强大的图像编辑能力。模型将所有多模态条件信息统一输入到理解分支，由生成分支负责生成新的图像内容。即使在理解分支被冻结的情况下，该模型仍能完成复杂的图像编辑任务，这充分验证了其架构设计的灵活性和鲁棒性。从技术发展的更深层意义看，NEO-unify的出现标志着多模态人工智能研究范式的一次重要转变。传统的模块化设计虽然便于工程实现，但在追求更高效能和更强泛化能力时，往往陷入结构性瓶颈。NEO-unify通过摒弃预训练先验和规模定律的束缚，直接从原始数据中学习内部表征，这种回归本质的设计思路为后续研究提供了新的参考方向。同时，该架构在保持强大语义理解能力的同时提升了训练与计算效率，这对于推动多模态技术的实际应用很重要。商汤科技表示，目前正在扩大NEO-unify的规模并持续迭代优化，更多模型版本和开源成果将陆续发布。这意味着该技术有望在更广泛的应用场景中得到验证和推广。

从模块组合到原生统一，是多模态技术走向成熟的一次路径选择；能否在统一架构内同时实现“懂语义、保细节、算得快、用得稳”，不仅关乎单一模型的指标提升，更关乎产业落地的成本结构与应用边界。随着更多公开评测与工程化验证推进，这类端到端统一探索或将为多模态系统打开新的效率窗口，也为通用视觉语言能力的下一阶段发展提供关键变量。