上海AI实验室开源万亿参数科学多模态大模型Intern-S1-Pro 加速“通专融合”科研底座建设

当前,人工智能在科学研究领域的应用正面临关键瓶颈;传统大模型虽然具备强大的通用能力,但在处理复杂科学问题、进行严密数理推理时往往力不从心。如何构建既具备广泛知识储备,又能深入专业领域的科学智能系统,成为业界亟待解决的问题。 上海AI实验室此次推出的Intern-S1-Pro模型,正是对此问题的系统性回答。该模型最显著的特点是采用了"通专融合"创新架构设计。与传统模型不同,Intern-S1-Pro在底层架构层面实现了通用能力与科学专业能力的深度融合,使模型既能保持对广泛知识的理解,又能在科学领域显示出专业级的推理能力。 从技术指标看,Intern-S1-Pro采用混合专家架构,拥有512个专家模块,总参数规模达到1万亿。这一参数量级在当前全球开源社区中处于最大规模。,模型在实际运行时仅激活8个专家、22亿参数,这种稀疏激活机制既保证了推理效率,又发挥了大规模参数的优势。 在科学能力评测中,Intern-S1-Pro表现出色。其复杂数理逻辑推理能力已达到国际数学奥林匹克竞赛金牌水平,在高难度综合学科评测中稳居AI4S领域国际领先地位。这意味着该模型不仅能理解科学知识,更能进行严密的逻辑推导和问题求解。 模型的另一项核心突破在于物理直觉的赋予。通过引入傅里叶位置编码并重构时序编码器,Intern-S1-Pro获得了统一理解从微观生命信号到宏观宇宙波动的能力。这种"物理直觉"使模型能够在不同尺度的科学现象间建立联系,提升了对自然规律的整体认识。 在工程层面,该模型系统攻克了训练万亿参数混合专家模型的稳定性与算力效率瓶颈。通过高效路由机制的创新设计,使得超大规模模型的训练成为可能,为后续更大规模模型的开发奠定了基础。 值得强调的是,Intern-S1-Pro验证了从原创模型架构到国产算力基座的完整自主技术链路。这表明我国在大模型领域已形成从理论创新、架构设计到硬件支撑的全链条能力,为构建开放共享的科学智能基础设施提供了坚实基础。 上海AI实验室同步开放了模型的多个使用渠道,包括在线体验、GitHub开源代码、HuggingFace模型库和ModelScope平台等,这将有助于全球科研社区的广泛参与和应用探索。

在全球科技竞争加剧的当下,Intern-S1-Pro的突破不仅展现了我国在人工智能基础研究领域的创新实力,更表明了开放合作的科学精神。当技术创新与学术共享形成良性循环,人工智能才能真正成为人类探索未知世界的智慧伙伴,而非封闭的技术壁垒。这个实践也为全球科技治理体系改革提供了有益的中国方案。