问题:算力“能建”与“好用”之间仍有落差 近年来,大模型训练与推理需求快速增长,算力基础设施持续扩容。但不少行业用户更意的不是理论峰值,而是系统能否快速上线、稳定运行、易于运维、成本可控。传统高端算力系统往往依赖大量光纤、铜缆连接,现场布线、联调、验收流程繁琐——部署周期长,链路故障点多——后期维护也更依赖专业团队。对制造、金融、医疗等强调连续性与合规性的场景来说,“交付慢、维护难、停机风险”常常成为算力难以发挥效能的关键瓶颈。 原因:产业化阶段对“工程化堆叠”提出新要求 业内人士指出,算力建设早期更偏科研与平台型需求,侧重单点性能和集群规模;进入产业化阶段后,算力更像面向业务交付的“基础设施产品”,需要标准化形态、可复制交付和可预期运维。,企业应用呈现多点分布、迭代频繁、数据合规要求更严等特点,“按项目搭系统”的传统方式成本更高、周期更长。再加上能耗约束、机房条件差异、人才不足等现实因素,高端算力要在更大范围落地,必须在架构、交付方式和运维体系上同步升级,从“拼参数”转向“拼可用”。 影响:无线缆与箱式形态推动算力走向产品化交付 据中科曙光介绍,scaleX40定位为“无线缆箱式超节点”,核心思路是把复杂连接在产品层面提前解决:一是采用正交无线缆一级互连结构,计算节点与交换节点通过对插互连,减少传统布线带来的链路复杂度和潜在故障点;二是采用标准19英寸箱式形态,实现算力单元与机柜解耦,强化“到货即部署”的属性,减少现场工程量和联调工作量。 在算力密度上,公开信息显示,该系统单节点可集成40张GPU,FP8算力超过28PFLOPS,HBM显存总量超过5TB、访存带宽超过80TB/s,可支撑万亿参数级模型训练与推理。业内认为,性能指标固然重要,但更值得关注的是其围绕交付效率、可维护性与稳定性做出的系统级设计,更贴近企业“能落地、能运营”的实际需求。 对策:以标准化、模块化提升交付确定性与使用体验 从企业用户角度看,要让算力从“工程项目”变成“标准产品”,需采购、建设、运维三个环节同时降低复杂度。 一是缩短部署周期。中科曙光表示,涉及的方案可将部署周期从传统模式的数月级压缩到更短时间,关键在于把大量现场工作前移到工厂预集成,并以标准化方式交付,提升进度可控性。 二是降低使用门槛。针对行业用户中小规模训练与推理需求,标准化超节点有助于减轻一次性重资产投入压力,以更清晰的边界交付算力单元,便于企业按业务节奏扩展。 三是强化长期可用性。中科曙光提出系统可靠性指标达99.99%,并强调在高密度场景下优化信号损耗与能耗表现。业内人士认为,若相关指标在生产环境中得到充分验证,将提升企业对大模型长期稳定运行的信心,减少“建得起却用不好”的隐性成本。 同时也应看到,算力产品化不只是硬件形态变化,还需要与软件栈、调度系统、数据治理、安全合规和行业模型适配共同推进。行业用户选型时,除峰值算力与硬件配置外,还应关注训练推理框架适配、故障定位与备件体系、能耗与空间约束,以及与既有数据和业务系统的集成能力。 前景:算力竞争进入“以交付能力决定规模化”的新阶段 在数字经济与智能化转型持续推进的背景下,算力正从“可选资源”变为关键生产要素。一上,大模型应用从通用问答走向制造质检、风控反欺诈、辅助诊疗、政务服务等更复杂的生产场景,对稳定性、时延、数据安全与持续迭代提出更高要求;另一方面,企业对投入产出比的关注提升,推动供给侧提供更标准、更可复制、更易运维的算力基础设施。 业内预计,未来一段时间算力建设将沿两条主线并行推进:其一,面向超大规模训练的高端集群持续演进;其二,面向行业落地的“可交付算力单元”加快普及,以更快部署、更稳运行支撑模型迭代和业务上线。以无线缆、箱式超节点为代表的探索,或将推动算力形态从“拼装式工程”向“模块化工业品”转变,并带动供应链、运维服务与标准体系更成熟。
算力的价值,最终取决于能否在可控成本下稳定支撑产业创造增量。以scaleX40为代表的产品化探索表明,竞争不只看峰值指标,更看交付效率、可靠性与持续运营能力。随着人工智能加速进入各行业,谁能把高端算力做成可复制、可落地、可长期运行的标准化供给,谁就更可能在新一轮产业竞争中占据主动。