哎呀,OpenAI又搞了个大新闻,推出了GPT-5.4,简直就是个大升级!他们在3月6日正式把这个新系列模型给大家端上来了,包括专门给ChatGPT用的GPT-5.4Thinking,还有为了干那种复杂活儿准备的GPT-5.4Pro。这次真是把推理、编程还有智能体的能力全给揉到了一个模型里头,就是为了让专业干活的人效率高、准头好。核心功能方面,这个Thinking版本新加了个“思考过程预览”,以后咱们在跟它聊天问复杂问题的时候,能实时看到它是怎么想的。这功能一上线,不管是网页版还是安卓app都能用了,iOS版也马上要来了。至于处理长文章、深思考这种事,GPT-5.4就比以前的强多了。它不光能记住前面聊过什么,还能把事儿说得更连贯。在编码和接口这块儿,GPT-5.4可真是个大突破,它是OpenAI头一个能直接用电脑键盘鼠标干活的通用模型。无论是截图还是敲命令行,都能搞定跨应用的大活儿。这就好比给它配了个超长的上下文窗口,能塞下足足100万tokens。这样一来,智能体就可以规划、执行、验证那些得花上好长时间的任务。 说到它干的活儿怎么样?数据挺漂亮的。根据测试结果,GPT-5.4在44个职业领域的GDPval基准里表现很猛,成功超过或达到行业水平的比例达到了83.0%,比之前那个GPT-5.2的70.9%可高出不少。在内部做电子表格建模的时候,平均得分飙到了87.3%,把老版本的68.4%甩在身后。做PPT这块儿也很亮眼,大家更喜欢它的设计感和视觉效果。 最让知识工作者高兴的是错误少了很多。这是OpenAI有史以来最“靠谱”的模型,单个说法出错率降了33%,整个回答只要有一个错的可能性也掉了18%。这就好比把那种说话颠三倒四的毛病给治好了。 操作电脑的本事也让人大开眼界。在OSWorld-Verified基准测试中拿下了75.0%的成功率,比之前的47.3%强多了,甚至比真人(72.4%)都要牛。在WebArena-Verified浏览器测试里也拿到了67.3%的好成绩。还有一个Online-Mind2Web测试更是表现突出,达到了92.8%的超高成功率。 不仅如此,它还继承了GPT-5.3-Codex的编码优势。在SWE-BenchPro基准上和老大哥打个平手甚至更好些,而且反应还快。 新出来的“工具搜索”功能更是个省心的帮手。测试发现用了这个功能后,消耗的token能省下47%。在Toolathlon测试里也能用更少的轮次拿到更高的分。 安全方面也没放松警惕。它保留了老版本的安全措施,又加了个新的开源评估“CoT可控性”,专门盯着它的思维链控制是不是安全。 至于价格嘛。每token的价格比以前高点儿。不过因为效率更高了,很多活儿算下来总花费反而更低。批量处理和Flex定价只要标准价的一半钱,要是急着用优先处理就得多花一倍钱。 OpenAI说了从今天起GPT-5.4Thinking就给Plus、Team还有Pro用户用了。而那个老的GPT-5.2Thinking三个月后就会慢慢退役喽。Pro版和企业用户现在也能用上新的API了。 总之呢,GPT-5.4这一出来不仅让编程更强了,也给知识工作打开了新大门。作为第一个把前沿编程能力带进主流推理模型的家伙子,它以后咋表现还是个未知数呢!