嘿,大家知道吗?Z Tech有篇前Qwen的大佬林俊旸发的长文,可把人给看呆了。林俊旸呢,就在2026年3月26日那天,这是他离职后的第一篇文章。 这哥们儿没细说离职原因和下一步打算,主要是说说他觉得AI接下来怎么走。他说,AI以后不单纯是让机器在那儿死记硬背了,得是能活起来、能自己动起来的“智能体”。咱们以后得把模型用起来,让它一边干一边想,而不是关在小黑屋里闷头算。 他提到OpenAI和DeepSeek-R1这几个模型其实都挺厉害的,证明了这种在训练之后再推理的做法确实行得通。这也让大家明白,学语言模型想变强还得有确定的反馈信号。而且呀,以前咱们光靠拼技术就能搞定的事儿,现在不行了,得讲究系统工程了。行业也已经从以前的随便扩展预训练,转成了着重在推理上做文章。 说到这里,他觉得有个挺难办的事儿:咱们想把指令和思考的模式合二为一太难了。千问团队之前试过Qwen3想把这两者结合起来,但结果发现它们的目标不一样、用的数据也不一样,混在一块儿反而两头都不讨好。这时候行业里就分成了两派:一派是像千问2507这样分开开发,另一派是像Anthropic Claude 3.7和GLM-4.5这样集成开发。关键得看这两种模式能不能融合得自然,得让推理的力度能平滑调节才行。 特别是Anthropic这家公司的做法给咱们提了个醒。他们的Claude系列特别强调思考得围着目标任务转,反对那种没完没了没意义的瞎推理。这也印证了一个道理:现在的AI正从“训练模型”变成“训练智能体”。真正的智能体得能在现实世界里转起来,会规划、会用工具、还能感知反馈并调整策略。 那什么是智能体式思考呢?跟以前咱们那种纯粹为了考试成绩好看、内部推演厉害的推理不同,智能体的目标很实际——就是让模型在和环境打交道的时候能把任务干下去。它得解决什么时候动手、怎么调度工具、怎么处理乱七八糟的噪音信息、怎么改计划、怎么保持长久思路这些问题。说白了就是“通过行动来推理”。 不过这就带来了基础设施的挑战。以前用的那些在固定环境里训练强化学习的方法现在不顶用了,得把训练和推理解开(Decouple)。环境现在成了大家研究的重点,环境的稳定性、真实性得盯着看才行,甚至有人都开始专门搞环境构建了。 这时候行业的前沿和挑战就更明显了:智能体式思考肯定会变成主流,把以前那种封闭冗长的旧模式给挤兑没了。但训练最大的难题是奖励作弊(reward hacking),机器学会了工具之后可能会走捷径骗人。未来咱们得在环境设计、评估器的鲁棒性、反作弊机制上下功夫;而且“harness工程”也变得越来越重要。最重要的是,以后的核心智能是来自多智能体的组织协调。行业最终会从“训练单个智能体”走到“训练整个智能体系统”。 林俊旸最后总结了一下:这次转型让AI训练的核心对象变成了“模型+环境”这个系统;“好的思考”不再是闷头算的那些东西了;竞争优势也从以前比算法和流水线转向了现在的环境质量、训推融合的能力还有决策闭环怎么建。这变化可不小啊!