oisa 高密超节点参考设计

最近,摩尔线程联合中国移动研究院还有之江实验室一块儿发布了一套新东西。大家给这个项目起了个名叫《OISA高密超节点参考设计技术规范》,主要是想给智算中心解决几个老大难问题。现在的智算中心经常会碰到网络连不通、供电太费劲、散热受不了这些坎儿,这套方案就是想给这些难题一个全面的解答。 首先来说物理空间布局,OISA高密超节点通过改变机器排列和连线方式,把算力密度给大大提高了。以前只能装32张卡的柜子,现在能塞进去128张卡,以后甚至可以在一个机柜里放下256张卡。这种高密度的布局主要靠大尺寸高密线缆来实现,把数据传输带宽推到了TB/s这个级别,延迟也缩短到了几百纳秒。这种既有物理密度又有逻辑带宽的组合,不光是能让不同厂家的国产芯片互相通融得更好,也给那些需要大规模训练模型的场景提供了类似单机的计算环境。 再说供电和散热这块。随着GPU功耗越来越高,单颗芯片都能跑到700W以上,机柜总功率动不动就到350kW甚至更多了。针对这种情况,OISA设计引入了高压直流系统还有柜内集中供电、盲插技术,减少了中间转换的损耗。散热方面更是大动作,液冷技术不再是可有可无的选项了,成了标准配置。针对单卡2kW以上的散热需求做了深度优化后,PUE值从以前风冷时的1.4降到了1.05到1.15之间。通过智能诊断系统实时监控流量、压力和温度,这种导热效率提高了好几千倍的做法既保证了系统的高负载可靠性,也为绿色发展铺平了道路。 OISA高密超节点参考设计的发布算是个里程碑事件,说明产业各方的共识越来越强了。大家通过整合产业链上下游资源构建了一个更包容普惠的生态环境。展望未来,这个协同创新平台会继续融合Chiplet、光互连、内存池这些前沿技术和伙伴们一起探索计算的极限。像中国移动、之江实验室这些带头大哥会不断扩大朋友圈邀请更多开发者进来搞定制设计。希望咱们能在开放中求突破,在合作中见成效,共同把未来智算的蓝图给绘得更漂亮更高效也更绿色可持续。