在大模型加速走向产业应用的背景下,数据基础设施的瓶颈问题日益受到关注。
当前模型规模持续增大,数据形态由文本向图像、音频、视频及多模态融合扩展,训练、微调到推理部署的链条更长、并发更高、峰谷更明显。
对企业而言,存储系统不仅要“跑得快”,更要“用得省、管得稳”,在高吞吐、低时延、敏捷运维之外,还要兼顾能耗压力与长期可持续目标。
问题:存算一体扩展难,资源浪费与弹性不足并存。
长期以来,许多数据中心采用存储与计算相对绑定的建设方式:容量增长往往伴随计算节点同步增加,或为了满足峰值IO而超配大量资源。
此类模式在业务稳定、增长可预测时尚可接受,但在大模型带来的不确定负载面前,容易出现两类矛盾:一是扩容“牵一发动全身”,升级周期长、成本高;二是资源结构性闲置,计算或存储其中一端被迫为另一端“陪跑”,降低整体利用率。
原因:大模型工作负载变化快,传统架构难以按需匹配。
一方面,大模型训练强调吞吐与并行,数据流呈现高带宽、长时间占用的特征;推理业务则更敏感于时延与稳定性,且对突发流量更为敏感。
另一方面,企业内部多业务并存,不同团队、不同模型版本频繁迭代,导致存储性能、容量与网络互连需求不断变化。
在此情形下,单体式、绑定式的建设思路难以实现“按需购买、按需扩展、按需调度”,也难以把运维复杂度控制在可管理范围内。
影响:从成本到绿色指标,基础设施面临多重约束。
绑定式扩展直接推高硬件投入与机房空间占用,进一步传导到电力、制冷、运维人力等长期成本;同时,资源浪费意味着能耗与碳排放增加,与不少企业推进节能减排、绿色算力的目标相冲突。
对外部竞争而言,存储系统的扩展效率与交付周期也会影响模型迭代速度,进而影响产品上线与行业落地节奏。
对策:以“存算解耦+高速互连”为抓手,构建可组合的数据底座。
业内普遍认为,存算解耦的核心在于把计算与存储从同一套封闭体系中拆分出来,使两者可以独立扩展、独立管理,再通过高速、低时延互连实现“像本地一样使用远端存储”。
在技术路径上,NVMe over Fabrics(NVMe-oF)被视为推动解耦落地的重要支撑:它在保留NVMe低时延特性的同时,将访问能力扩展到网络侧,可通过RDMA融合以太网、TCP/IP或光纤通道等方式构建互连,从而让多个计算节点共享统一存储池,实现资源更灵活的调度与分配。
在这一趋势下,部分厂商推出面向解耦场景的NVMe-oF存储平台,强调高密度、可扩展与面向运维的工程化能力。
例如,西部数据推出的OpenFlex Data24 NVMe-oF存储平台系列,以解耦式思路为基础,试图满足企业在性能、敏捷性与效率上的综合诉求:通过共享存储池承接多节点并发访问需求,使容量扩展与算力扩展各自按业务节奏推进;通过标准化互连与模块化建设方式,缩短部署与调整周期;在资源利用率提升的同时,降低因超配带来的能耗与长期成本压力。
相关产品以2U 24盘位等形态提供高密度部署选择,适配数据中心对空间与供电的约束条件。
前景:从“堆硬件”走向“拼效率”,解耦将成为智能基础设施的关键方向。
展望未来,随着模型规模、数据规模与行业场景继续扩展,基础设施将更强调“弹性、可组合、可持续”。
存算解耦并非简单的设备替换,而是数据中心建设逻辑的转变:通过统一资源池、标准化互连与自动化运维,把扩展从“按整机”转向“按资源”,把效率从“单点性能”转向“整体利用率”。
在这一过程中,NVMe-oF等技术的成熟、生态兼容性与管理软件能力将决定落地速度;同时,围绕数据安全、可靠性、QoS保障与成本模型的工程实践也将成为企业选型的重要考量。
存储技术的革新不仅是硬件层面的突破,更是推动产业数字化转型的关键支撑。
在智能化浪潮下,解耦式存储架构的普及将重构数据基础设施格局,为各行业创新发展注入新动能。
这提醒我们,面对技术变革,唯有持续创新、主动求变,才能在数字化竞争中赢得先机。