智能体应用催生Token调用激增倒逼算力体系升级 可持续基础设施成产业新关口

问题——推理需求爆发,Token消耗快速攀升。近期,智能体框架加速走入大众视野。其核心于能拆解目标、调用工具,并通过多轮推理完成复杂任务,应用也从简单问答扩展到代码生成、数据分析、流程自动化、企业知识检索与执行等场景。相比传统单轮或少轮交互,智能体通常需要更多步骤、更长上下文和更频繁的模型调用,直接推高Token消耗,推理侧资源压力随之上升。行业观察人士认为,人工智能正从“训练驱动”深入转向“推理驱动”,基础设施面临新的瓶颈。 原因——供需错配叠加架构不适配,放大资源紧张。一上,智能体带来的调用更碎片化、并发更高、负载波动更大,算力调度难度明显增加;另一方面,通用云资源体系长期面向人类开发与相对固定的业务形态,任务编排、资源隔离、成本计量与弹性策略诸上,与智能体“连续思考—多工具协作—多模型联动”的需求存差距。无问芯穹联合创始人夏立雪在采访中将智能体比作可自主执行的“数字员工”。在规模化应用下,Token需求可能呈指数级增长,而算力扩容、芯片供给与数据中心建设周期更长,阶段性供给约束由此形成。 影响——成本、能耗与产业扩张边界被重新定义。业内人士指出,Token调用激增推高企业在算力采购、云资源使用、带宽与存储等环节的成本压力,进而影响产品定价与商业化进程;同时,能源消耗与能效水平也成为产业可持续发展的硬约束。无问芯穹披露的运营数据从侧面印证了这个变化:自2026年1月下旬以来,平台日均Token调用量保持每两周翻番的增长节奏,累计水平较月初增长约十倍。业内将其类比为移动互联网早期的流量爆发,但也指出,智能体推理对计算资源的强度更高,如缺乏系统性优化,资源紧张可能向更多行业扩散,并拖慢应用渗透速度。 对策——以“Token工厂”提升供给效率,推动软硬件协同优化。面对资源利用率与扩容周期之间的矛盾,行业正在从单纯扩容转向系统性提效。无问芯穹提出构建新型“Token工厂”体系,通过跨平台芯片适配覆盖十余种国内外主流芯片架构,并对数十个算力集群实施统一调度,在更大范围内实现资源的“可用、可管、可调”。技术团队介绍,系统通过动态资源分配算法,根据任务特性自动匹配更合适的计算单元与执行策略,减少固定分配带来的闲置与拥塞,在不改变业务目标的前提下提升整体吞吐与稳定性。业内人士认为,这类实践的关键是从“以机器为中心的算力堆叠”转向“以任务为中心的智能调度”,将异构算力的碎片化供给转化为可规模交付的标准化能力。 前景——基础设施走向智能化与低碳化,“可持续Token”成为新议题。夏立雪提出“可持续Token”概念,强调基础设施提供方需要将能源、算力、Token供给与经济产出纳入同一链条,形成从技术创新到成本控制再到规模交付的闭环。业内判断,未来基础设施将呈现三上趋势:其一,系统层更智能,具备自适应优化能力,可模型迭代与负载波动时自动调整资源与策略;其二,能效成为核心指标,单位Token的能耗和成本将决定产业扩张上限;其三,供给更标准化,面向智能体的算力产品与计量方式有望加速成熟。多位受访人士认为,中国在能源结构优化、制造业体系与算力产业链协同上具备基础,通过高能效算力体系建设与调度技术突破,有望在符合“双碳”目标要求的同时,形成更具竞争力的基础设施供给能力,并在国际产业分工中占据更重要位置。

人工智能的快速发展既带来机遇,也提出更高要求。如何在满足爆发式增长的算力需求的同时,提高资源利用效率并实现可持续发展,已成为行业必须直面的课题。中国的探索显示,技术创新与能源优势的结合,可能为全球AI基础设施建设提供新的思路。随着更多企业加入此赛道,人工智能产业有望走向更绿色、更高效的发展阶段。