中国信通院“方升”智测研讨会即将启动 构建人工智能产业标准化评测体系

当前,全球人工智能发展正从以模型规模、参数数量为主要指标的“比拼期”,进入以效率、可靠性、安全性和可用性为核心的“深耕期”;大模型从科研探索走向产业应用,最难的一步往往不是“能不能做出来”,而是“能不能稳定、可控、可评地用起来”。如何建立一套科学、公正、可复用的评测体系——形成面向产业的“度量衡”——成为推动人工智能规模化落地的关键环节。 问题:从“看得见能力”到“用得起、用得稳”,评测缺口亟待补齐 一段时间以来,大模型能力呈现快速迭代态势,但不同模型、不同版本通用能力、行业适配、推理成本、工具调用各上差异显著。企业选型与监管治理面临共同难题:一是缺少统一、可对比的评测基准,导致“各说各话”;二是评测对象从单一文本模型扩展到多模态、智能体工作流、世界模型等新形态,传统测试方法难以覆盖;三是落地场景高度分散,行业数据和业务流程差异大,通用指标难以直接转化为可用性判断。评测体系的缺位,使技术进步难以被产业准确“量化”,也制约了标准化应用与规模化推广。 原因:技术复杂性与应用多样性叠加,推动评测从“单点验证”走向“系统工程” 评测之所以难,首先于大模型能力维度多、耦合强:既要看知识与推理,也要看工具使用、规划执行与安全对齐;既要比效果,也要比成本、时延与稳定性。其次在于应用牵引增强:金融、制造、教育等领域对合规、安全、可解释性、数据边界等要求更高,仅靠通用榜单无法回答“是否适配业务”的问题。再次在于产业链协同不足:模型、算力、数据、工程化平台与应用方之间缺乏统一语言,难以形成可复制的验证路径。上述因素决定了评测必须以体系化方法连接“研发端—供给端—应用端”,形成可持续迭代的技术与规则框架。 影响:建立权威基准,有助于降低产业试错成本并提升规范化水平 因此,由人工智能大模型及软硬件评测工业和信息化部重点实验室联合中国信通院人工智能研究所共同举办的中国信通院“方升”智测研讨会,将于2026年2月3日在北京举行。会议围绕构建可衡量的人工智能技术评价体系,推动基准测试向系统化、标准化、实用化演进。中国信通院上介绍,“方升”大模型测试体系已迭代至3.0版本,形成涵盖基础属性、通用能力、应用能力、行业能力及未来智能等“五维一体”的评估框架,并通过常态化监测机制按季度对外发布测试结果,累计沉淀测试数据超过780万条。 从产业角度看,一套稳定的“标尺”能够三个层面产生作用:其一,为企业选型、采购与集成提供可比依据,减少重复试错;其二,推动模型研发从追求单点指标转向兼顾效率、可靠与安全的综合优化;其三,为监管治理、标准制定与行业自律提供参考坐标,促进人工智能应用在更明确的边界与规则中推进。 对策:以“1+6”议程聚焦痛点,推动评测工具链与行业基准共建 据介绍,本次研讨会将采用“1+6”结构,在主研讨会之外,设置面向AGI、全模态与世界模型、智能体、代码能力、数据集质量、行业大模型等六个专项闭门研讨。其政策与产业含义在于:把评测从“给分”升级为“诊断”,从“结果展示”升级为“方法共建”。 一上,会议将围绕新型评测工具链、自动化与智能化测试方法等开展讨论,力求可复现、可扩展、可追溯等关键能力上形成更成熟的工程化路径。随着模型能力向复杂任务迁移,评测也需要从静态题库走向动态场景、从单轮问答走向多步推理与流程执行,工具链创新将成为提升评测效率与公信力的抓手。 另一上,会议将推动建立覆盖金融、制造、教育等多个垂直领域的“人工智能+行业”专属基准测试体系,强调科学、公平、开放的行业评测生态。行业基准的价值不在于简单排名,而在于把行业真实需求转化为可度量指标,把“可用”与“好用”的标准沉淀为共识,更推动技术标准与产业需求对接。 同时,会议汇聚企业与高校科研力量,邀请华为、腾讯、百度、字节跳动等企业代表以及北京大学、清华大学、哈尔滨工业大学、北京航空航天大学等专家学者参与,旨在促进产学研用协同,形成评测规范与技术共识。按议程安排,中国信通院人工智能研究所所长魏凯将发布《2025“方升”观察》,对大模型产业演进态势进行解读;对应的高校专家将围绕前沿趋势作展望,并将举行第二批方升行业基准共建启动仪式。 前景:评测体系将成为“人工智能+”落地的基础设施之一 面向未来,人工智能竞争将更多体现为产业体系能力的竞争。评测体系作为连接技术创新与产业应用的“接口”,其完善程度直接影响创新成果转化效率和应用安全边界清晰度。随着多模态、智能体和行业大模型加速演进,评测还需进一步强化对数据质量、合规安全、可靠性与可控性的覆盖,推动形成跨模型、跨场景、跨周期的持续监测机制。 可以预期,随着以“方升”等为代表的测评框架持续迭代、行业共建不断扩围、工具链方法逐步成熟,人工智能应用将更容易实现“可评估、可选择、可治理、可复制”的良性循环,为“人工智能+”在更多领域稳步落地提供基础支撑。

科学的评测体系对人工智能产业发展至关重要。"方升"3.0的推出标志着我国AI标准化上取得重要进展。这个体系不仅提供评估工具,更为产业生态建设创造了条件。随着更多机构参与共建,中国人工智能产业将形成更规范的发展环境,加速技术在各领域的落地应用。