基础设施也得开源,社区已经准备好动手建了

AI普及少不了开放的基础设施,开源就意味着协作。Kubernetes很早就在支持复杂AI负载了,动态资源分配、智能调度还有推理服务,这些功能都给了我们底气。这意味着整个行业得凑在一起搞个开源的基础设施计划。 说回2026年,在CES上,NVIDIA的老板Jensen Huang提到,想让AI无处不在,就得开放创新。如果这是大势所趋(就像DeepSeek、Llama、Mistral那些开源模型显示的那样),那运行AI的环境也不能太封闭。“随着AI成了计算大户,大家正努力把‘能跑’变成‘跑得好’。” 其实Kubernetes一开始也不是给AI设计的,但大家总能想办法让它在GPU上干活,哪怕核心API只能数数GPU的个数。现在硬件原始设备插件API挺好使,只要只看GPU数量就行。但要是碰上要分区共享的设备、多个容器争一台机器,或者训练任务跨节点高速传输,这一套就不灵了。 为了应付这些复杂情况,动态资源分配(DRA)出来了。供应商通过ResourceSlices把设备信息结构化暴露出来,工作负载再用ResourceClaims描述需求,调度器就去把声明和设备对上号,还得考虑属性、共享规则和位置拓扑。DRA算是搭好了底层基础,虽然它在Kubernetes 1.34才通用可用(GA),但用好这些规则才是接下来的重头戏。 调度AI工作负载这块儿也讲究个批次处理,要么全上要么全不上,免得卡住资源。部署还得看集群的物理拓扑把容器放在共享网络的边上或者高速通道附近能省不少通信开销。KAI Scheduler进了CNCF沙箱就是为了干这个活,支持批处理、分队列公平调度和大规模拓扑感知部署。Topograph负责发现网络结构帮调度器做出更聪明的选择。更广泛的社区也在聊工作负载API的事儿,想把这些模式都推到上游去。 服务端推理现在是GPU资源最集中的地方,也是Kubernetes假设最不灵光的地方。水平Pod扩缩以前看CPU内存就行了,大语言模型LLM推理得看KV缓存利用率、请求队列深度还有第一次出词时间。用错误的指标扩缩就是浪费算力或者达不到延迟目标。Inference Gateway用模型感知路由把Gateway API给扩展了。llm-d和Dynamo社区正在联手搞前缀缓存感知路由和解耦预填充解码的分布式服务。 底层的积木已经搭起来了,但把它们串起来的抽象层可能得靠原生功能和高级控制平面一起来搞。下一波浪潮就是搞自主AI代理了。这玩意要是能当容器化工作负载在Kubernetes上编排就得管理另一类计算资源。“开源AI不光是在模型权重上开源。基础设施也得开源,社区已经准备好动手建了。”Kubernetes AI合规性计划早在2025年北美KubeCon就启动了,现在有12家认证供应商算是开了个头。 但解决问题的办法其实各个大厂里都有现成的模式(就算实现方式不一样)。现在这知识都锁在公司内部没发挥出来呢。它应该到上游去给社区用才对能产生合力。“开源AI不光是在模型权重上开源。基础设施也得开源,社区已经准备好动手建了。”