就在最近,OpenAI终于放出了GPT-5.4 mini和nano这两款小型AI模型。它们主要的作用是填补大模型在实时交互场景中的一些短板,既让成本变得更低,延迟也能更快。虽然这俩是小尺寸的模型,但是在编程、理解多模态内容还有调用工具这些关键领域,它们表现出的能力居然能跟旗舰模型硬刚,甚至在推理成本上把开销给砍了三分之二还多。 作为消费端的主力产品,GPT-5.4 mini这次把场子铺得很开,直接在三大平台同步上线了。搞开发的朋友可以通过API或者Codex平台去调用它,普通用户也能在ChatGPT的“Thinking”功能里亲自体验一把。这个模型不光支持文字和图像一起输入,还给了一个超大的上下文窗口——足足能存下40万个token。而且它还自带网页搜索、文件检索这7种工具调用的能力。 来看实际表现的数据就更牛了。在编程基准测试SWE-bench Pro里,它得了54.4%的高分,虽然比旗舰模型略低3.3个百分点,但比起上一代的成绩可是提升了快20%。在操控电脑的测试OSWorld-Verified中,它以72.1%的准确率逼近了75%的标准。最让人意外的是在工具调用测试τ2-bench上,竟然拿下了93.4%的好成绩。 专门为开发者量身定做的GPT-5.4 nano走的是另一条路——它只通过API提供服务。这是定价最低的一款模型(输入每百万token只要0.2美元)。在编程任务上它表现得特别抢眼,GPQA Diamond通用智能测试拿了82.8%的高分,直接把上一代的81.6%给反超了。虽说在视觉任务OSWorld-Verified上39%的得分比前辈稍微弱了点,不过它强大的工具调用能力还是让开发者们眼前一亮。 OpenAI特别提醒大家注意:nano的优化方向主要是冲着低延迟去的,所以建议大家根据自己的任务类型来挑合适的模型用。把成本做低成了这两款新模型最大的亮点。在Codex平台上调用GPT-5.4 mini只用消耗旗舰模型30%的配额就能搞定简单编程任务。这里面有个子智能体架构特别厉害:主模型可以自动把低强度的活儿分给mini去做,形成那种“大脑决策+四肢干活”的配合模式。 ChatGPT的分级调用机制也能看出这方面的心思:免费用户可以手动切换成mini来用;如果付费用户用旗舰模型的速度太慢了系统会自动把任务丢给mini继续跑服务。 技术文档里写得很清楚:两款模型都用了分层推理的思路。就拿编程助手Codex来说吧,GPT-5.4负责画大蓝图和最后校验结果;而由mini组成的那些子智能体群就负责平行地去处理代码检索、文档分析这些具体的杂活儿。这种设计既保证了智能水准没落下又把每笔任务的推理成本给砍掉了65%。 OpenAI工程师也指出:随着小型模型的性能越来越强,大家再也不用死抱着一个大模型不放了;以后建立多模型一起干活的系统已经变成了一种技术新潮流。 市场分析说这一推出肯定会重新定义AI开发的格局。特别是在那些对反应速度要求特别高的场景里——比如实时看图或者搞高并发客服——开发者就能通过把不同大小的模型混在一起来达到既快又省钱的效果。尤其是那个GPT-5.4 nano因为特别轻量级的设计方式已经有金融科技公司开始拿来做测试了;初步数据显示它的推理速度比上一代快了整整3倍但准确率却没有掉链子。