OpenAI放出来了GPT-5.4,这玩意儿能直接操作电脑,算是把AI办公给颠覆了。这回官方把它吹得挺狠,说这是一个能搞定复杂工作的智能中枢。不光是写代码、搞数据分析这些老本行有长进,最关键是它头一回能直接上手用鼠标键盘操作电脑,真正成了那种能想能干的全流程系统。 技术上它把代码生成、流程自动化还有多模态理解这三块给合在了一起。在前一代代码优势的基础上,它现在还能无缝对接Office软件和别的专业工具,能帮人把数据清理好再变成图表显示出来。试了一下这速度特别快,处理万字级别的文档比以前快了40%,而且出错率也很低,现在事实性错误率降到了1.2%。在医疗和法律这些严肃场合测试准确率更是超过了92%。 为了照顾不同人的需求,OpenAI这次玩了个新花样——推了两个版本。那个叫Pro的版本主要给算力强劲的人用,每秒能处理万亿次参数,像金融建模、基因测序这种烧脑活儿就得靠它。另一个叫Thinking的版本则加入了可视化思考功能,你看它是怎么一步步推理出来的,甚至还能在中间插手改改它的计划。这种说话方式把来回沟通的成本砍去了65%,特别适合搞设计、做科研这种需要精确把控的活儿。 最让大家惊喜的是它能自己动鼠标了。它用了计算机视觉和机器人控制的技术,把屏幕上的东西看懂了就能自己点击、拖拽或者打字。在真的办公室环境里试过一回,它能把Excel数据整理好再弄到PPT里排版,成功率达到了75%。这种功能在分邮件、填网页表单这些日常小事上表现比普通人还要好一点。 工程师说它的操作逻辑是靠强化学习练出来的,在模拟环境里练了几百万次才摸清GUI界面的门道。开放策略方面,Thinking版本马上就给ChatGPT的付费用户用了,慢慢把旧版GPT-5.2给淘汰掉;Pro版本就留给大公司定制用了,最多能处理100万token的上下文窗口。API接口也同步更新了,开发者拿个专门的ID就能调用不同的能力来做智能客服或者运维自动化。为了让大家不慌神,旧版模型还会再留三个月的过渡时间给大家慢慢换。