gpt-5.4，简直就是个大升级！

哎呀，OpenAI又搞了个大新闻，推出了GPT-5.4，简直就是个大升级！他们在3月6日正式把这个新系列模型给大家端上来了，包括专门给ChatGPT用的GPT-5.4Thinking，还有为了干那种复杂活儿准备的GPT-5.4Pro。这次真是把推理、编程还有智能体的能力全给揉到了一个模型里头，就是为了让专业干活的人效率高、准头好。核心功能方面，这个Thinking版本新加了个“思考过程预览”，以后咱们在跟它聊天问复杂问题的时候，能实时看到它是怎么想的。这功能一上线，不管是网页版还是安卓app都能用了，iOS版也马上要来了。至于处理长文章、深思考这种事，GPT-5.4就比以前的强多了。它不光能记住前面聊过什么，还能把事儿说得更连贯。在编码和接口这块儿，GPT-5.4可真是个大突破，它是OpenAI头一个能直接用电脑键盘鼠标干活的通用模型。无论是截图还是敲命令行，都能搞定跨应用的大活儿。这就好比给它配了个超长的上下文窗口，能塞下足足100万tokens。这样一来，智能体就可以规划、执行、验证那些得花上好长时间的任务。说到它干的活儿怎么样？数据挺漂亮的。根据测试结果，GPT-5.4在44个职业领域的GDPval基准里表现很猛，成功超过或达到行业水平的比例达到了83.0%，比之前那个GPT-5.2的70.9%可高出不少。在内部做电子表格建模的时候，平均得分飙到了87.3%，把老版本的68.4%甩在身后。做PPT这块儿也很亮眼，大家更喜欢它的设计感和视觉效果。最让知识工作者高兴的是错误少了很多。这是OpenAI有史以来最“靠谱”的模型，单个说法出错率降了33%，整个回答只要有一个错的可能性也掉了18%。这就好比把那种说话颠三倒四的毛病给治好了。操作电脑的本事也让人大开眼界。在OSWorld-Verified基准测试中拿下了75.0%的成功率，比之前的47.3%强多了，甚至比真人（72.4%）都要牛。在WebArena-Verified浏览器测试里也拿到了67.3%的好成绩。还有一个Online-Mind2Web测试更是表现突出，达到了92.8%的超高成功率。不仅如此，它还继承了GPT-5.3-Codex的编码优势。在SWE-BenchPro基准上和老大哥打个平手甚至更好些，而且反应还快。新出来的“工具搜索”功能更是个省心的帮手。测试发现用了这个功能后，消耗的token能省下47%。在Toolathlon测试里也能用更少的轮次拿到更高的分。安全方面也没放松警惕。它保留了老版本的安全措施，又加了个新的开源评估“CoT可控性”，专门盯着它的思维链控制是不是安全。至于价格嘛。每token的价格比以前高点儿。不过因为效率更高了，很多活儿算下来总花费反而更低。批量处理和Flex定价只要标准价的一半钱，要是急着用优先处理就得多花一倍钱。 OpenAI说了从今天起GPT-5.4Thinking就给Plus、Team还有Pro用户用了。而那个老的GPT-5.2Thinking三个月后就会慢慢退役喽。Pro版和企业用户现在也能用上新的API了。总之呢，GPT-5.4这一出来不仅让编程更强了，也给知识工作打开了新大门。作为第一个把前沿编程能力带进主流推理模型的家伙子，它以后咋表现还是个未知数呢！