问题—— 近期,多位用户反映,使用Kimi进行资料检索、长文处理等任务时,时常遇到“高峰时段算力不足”等提示,影响连续使用体验。与之相对,OpenRouter公布的统计显示,中国大模型周度调用量达到4.69万亿词元,且排名靠前的位置多由中国模型占据。高调用与“算力告急”并存,说明在高速增长下,产业正遭遇新的结构性压力:需求增长快于供给扩张,应用体验正成为检验行业成熟度的重要指标。 原因—— 一是“智能体”带动需求快速上升。智能体框架让大模型从对话工具延伸为可自动拆解任务、持续调用外部工具的“数字员工”。这类任务链路更长、运行更连续、调用更密集,单次任务消耗的词元明显高于日常对话;同时缺少人机交互中的停顿,峰值压力更集中。据海外开发者反馈,Kimi部分模型成为开源智能体框架的常用选择,跨境调用增长也继续放大负载。 二是应用从“聊天”走向“高复杂度”。编程场景往往需要反复生成、调试和修正,多轮迭代推高推理消耗;多模态场景涉及长图文、视频理解等任务,对推理时长与带宽提出更高要求。随着企业将大模型嵌入客服、研发、运营等流程,调用从“偶发试用”转为“持续生产”,算力占用更趋常态化。 三是资本与市场热度带来流量集中。公开报道显示,Kimi近期融资进展和订阅增长引发关注;海外支付平台Stripe涉及的数据也显示其个人订阅订单增幅明显。热点叠加产品破圈,可能在短期内带来访问集中,进一步加剧峰值时段的供需矛盾。 影响—— 对用户而言,服务不稳定会降低产品黏性,甚至影响企业级场景的可用性与交付承诺。对企业而言,算力紧张不仅推高成本,也会倒逼技术路线调整:一上需要更精细的调度与限流策略,另一方面必须持续投入模型压缩、推理加速、缓存复用等工程能力。对产业而言,这个现象表明竞争焦点正转移:从单纯比拼参数规模,转向比拼“高并发、低时延、低成本”的交付能力,以及算力基础设施的韧性与弹性。 对策—— 业内建议从“供给、效率、机制、生态”四上合力推进:其一,加快算力供给与算力网络建设,提升跨区域调度能力,增强峰值弹性,并通过多云与异构算力接入分散单点压力。其二,强化推理效率,推进量化、蒸馏、稀疏化与算子优化等工程手段,提高单位算力产出;对长文本、多模态等高消耗任务实行更细的分级服务与资源隔离。其三,完善服务机制,面向不同人群提供分层套餐、预约与错峰能力,提高可预期性,减少“被动排队”。其四,夯实产业生态,推动软硬件协同与国产化适配,形成从芯片、集群、调度到应用的闭环优化。 前景—— 多方预测显示,未来数年推理需求仍将快速增长。随着智能体进入企业流程并向更多终端延伸,调用模式将从“单轮问答”转为“持续执行”,对算力、带宽、调度与稳定性提出更高要求。可以预期,下一阶段行业竞争的关键,将是以更低成本提供更稳定服务的系统能力,以及围绕安全合规、数据治理与场景落地的综合竞争力。对头部应用而言,谁能更快把“高峰提示”转化为可工程化解决的供给能力,谁就更可能在新一轮扩张中获得更稳固的用户基础与商业空间。
行业高速增长带来创新机会,也对基础设施与供需匹配提出了更高要求。面对挑战,持续提升技术与工程能力、补齐交付与稳定性短板,才能支撑人工智能产业在全球竞争中稳步发展。