阿里发布新一代千问大模型 性能升级推动多模态技术代际跨越

一、发布背景:国产大模型竞争进入架构创新深水区 2025年春节除夕,阿里巴巴正式向全球开源千问Qwen3.5-Plus模型;此次发布并非简单的版本迭代,而是模型底层架构层面进行了系统性重构。在全球大模型竞争日趋激烈、参数规模扩张边际效益递减的背景下,如何以更低的计算成本实现更高的模型性能,已成为各大科技机构共同面对的核心命题。千问3.5的发布,正是阿里巴巴在该方向上给出的阶段性答案。 二、技术突破:架构创新驱动效率与性能双重跃升 千问3.5的核心技术突破,集中体现在混合架构设计与原生多模态训练两个维度。 在架构层面,千问团队将线性注意力机制与稀疏混合专家模型相结合,构建出一套全新的混合架构体系。该架构的门控技术成果已于2025年荣获全球顶级人工智能学术会议NeurIPS最佳论文奖,具有较高的学术公信力。依托这一架构,千问3.5在总参数量达3970亿的同时,实际推理激活参数仅为170亿,实现了参数规模与计算效率的高度解耦。与此前旗舰版千问3-Max相比,千问3.5在性能持平的前提下,部署所需显存占用降低约60%;在常规32K上下文场景中,推理吞吐量提升8.6倍;在256K超长上下文场景下,最大推理吞吐量更可提升至19倍。 在多模态能力层面,千问3.5实现了从"文本模型附加视觉模块"到"原生多模态预训练"的根本性转变。此前的千问3系列在纯文本数据上完成预训练,视觉能力属于后期扩展;而千问3.5则从预训练阶段起即融合视觉与文本混合数据,并大幅扩充中英文、多语言、理工科及逻辑推理等训练数据,使模型在知识广度与推理深度上均获得明显提高。 三、评测表现:多项国际基准测试位居前列 从公开评测数据来看,千问3.5-Plus在多个权威基准测试中表现突出。在知识推理评测MMLU-Pro中,千问3.5得分87.8分;在博士级难题评测GPQA中斩获88.4分;在指令遵循评测IFBench中以76.5分刷新全球模型纪录;在通用智能体评测BFCL-V4及搜索智能体评测Browsecomp等基准中,千问3.5的表现均超越同期国际主流竞品。 在视觉与多模态能力上,千问3.5多模态数学推理、通用视觉问答、文本识别与文件理解、空间定位推理及视频理解等多项评测中均取得最优成绩。值得关注的是,千问3.5支持长达2小时、约100万token上下文的视频直接输入,具备较强的长视频内容分析与摘要生成能力。此外,视觉理解与代码生成能力的原生融合,使其能够将手绘界面草图直接转化为可用的前端代码,为软件开发场景提供了新的效率工具。 四、成本优势:低价开源策略强化生态竞争力 在商业化定价上,千问3.5-Plus的应用程序接口调用价格为每百万Token仅0.8元人民币,与同期国际同类产品相比具有明显价格优势。低成本、高性能的组合,有助于降低中小企业及开发者的使用门槛,深入扩大千问系列在国内外开发者生态中的覆盖范围。 五、基础设施:云端算力支撑大规模多模态训练 千问3.5的原生多模态训练,依托阿里云人工智能基础设施完成。通过若干底层技术优化,千问3.5在文本、图像、视频混合数据训练场景下的吞吐量,与纯文本基座模型训练效率基本持平,有效降低了原生多模态训练的工程复杂度。此外,通过精细化的混合精度训练策略,在训练规模扩展至数十万亿token量级时,激活内存消耗减少约50%,训练稳定性得到有效保障。

大模型发展正在进入"比拼内功"的新阶段——既要追求更强的综合能力,也要以更低成本、更高效率服务真实需求。谁能在关键技术、工程落地与开放生态之间形成良性循环,谁就更有可能将技术突破转化为产业优势,让数字化能力真正惠及更广泛的用户。