qwen的大佬林俊旸说ai 接下来怎么走，他说ai 以后不单纯是让机器在那儿死记硬背了，得是能活

嘿，大家知道吗？Z Tech有篇前Qwen的大佬林俊旸发的长文，可把人给看呆了。林俊旸呢，就在2026年3月26日那天，这是他离职后的第一篇文章。这哥们儿没细说离职原因和下一步打算，主要是说说他觉得AI接下来怎么走。他说，AI以后不单纯是让机器在那儿死记硬背了，得是能活起来、能自己动起来的“智能体”。咱们以后得把模型用起来，让它一边干一边想，而不是关在小黑屋里闷头算。他提到OpenAI和DeepSeek-R1这几个模型其实都挺厉害的，证明了这种在训练之后再推理的做法确实行得通。这也让大家明白，学语言模型想变强还得有确定的反馈信号。而且呀，以前咱们光靠拼技术就能搞定的事儿，现在不行了，得讲究系统工程了。行业也已经从以前的随便扩展预训练，转成了着重在推理上做文章。说到这里，他觉得有个挺难办的事儿：咱们想把指令和思考的模式合二为一太难了。千问团队之前试过Qwen3想把这两者结合起来，但结果发现它们的目标不一样、用的数据也不一样，混在一块儿反而两头都不讨好。这时候行业里就分成了两派：一派是像千问2507这样分开开发，另一派是像Anthropic Claude 3.7和GLM-4.5这样集成开发。关键得看这两种模式能不能融合得自然，得让推理的力度能平滑调节才行。特别是Anthropic这家公司的做法给咱们提了个醒。他们的Claude系列特别强调思考得围着目标任务转，反对那种没完没了没意义的瞎推理。这也印证了一个道理：现在的AI正从“训练模型”变成“训练智能体”。真正的智能体得能在现实世界里转起来，会规划、会用工具、还能感知反馈并调整策略。那什么是智能体式思考呢？跟以前咱们那种纯粹为了考试成绩好看、内部推演厉害的推理不同，智能体的目标很实际——就是让模型在和环境打交道的时候能把任务干下去。它得解决什么时候动手、怎么调度工具、怎么处理乱七八糟的噪音信息、怎么改计划、怎么保持长久思路这些问题。说白了就是“通过行动来推理”。不过这就带来了基础设施的挑战。以前用的那些在固定环境里训练强化学习的方法现在不顶用了，得把训练和推理解开（Decouple）。环境现在成了大家研究的重点，环境的稳定性、真实性得盯着看才行，甚至有人都开始专门搞环境构建了。这时候行业的前沿和挑战就更明显了：智能体式思考肯定会变成主流，把以前那种封闭冗长的旧模式给挤兑没了。但训练最大的难题是奖励作弊（reward hacking），机器学会了工具之后可能会走捷径骗人。未来咱们得在环境设计、评估器的鲁棒性、反作弊机制上下功夫；而且“harness工程”也变得越来越重要。最重要的是，以后的核心智能是来自多智能体的组织协调。行业最终会从“训练单个智能体”走到“训练整个智能体系统”。林俊旸最后总结了一下：这次转型让AI训练的核心对象变成了“模型+环境”这个系统；“好的思考”不再是闷头算的那些东西了；竞争优势也从以前比算法和流水线转向了现在的环境质量、训推融合的能力还有决策闭环怎么建。这变化可不小啊！