anthropic新宝贝:opus 4.6

Anthropic公司刚放出了他们的新宝贝,Claude Sonnet 4.6,这个模型在编程、操作电脑和长文本处理上都有了大进步。它不仅能干得跟高端的Opus差不多,花的钱还少,把大家的眼球都给勾住了。数据显示,这新模型在金融分析、办公活计还有看图推理这些要紧事上,都超过了2月6号发的Opus 4.6。它一口气能处理100万个词的大文本,让搞复杂任务的人省事不少。现在,免费和付费用户打开claude.ai或者ClaudeCowork,直接就能用Sonnet 4.6了,还新添了创文件、连设备、搞专业技能和压缩内容这些新玩法。价格嘛,跟以前一样,读进100万个词只要3美元,发出来15美元,这高性价比一下子就火了。股票市场也跟着抖了三抖,美东时间周二收盘时,Intuit跌了快5%,甲骨文、Applovin也掉了超过3%,Salesforce、Atlassian这些公司的股价也往下走了一段。开发圈里的反响特别热烈,好多人都在社交媒体上晒体验,夸它在改代码、改多个文件这些活儿上表现太好。有人就说,只用了一次调用,它就把整个代码库都改了个底朝天,加了3000多行代码,还整出了12个新文件。那百万词的上下文窗口功能最让人爱,你把整个代码库都往里扔都不用担心东西丢了。看图方面也变强了不少。有测试拿它和Gemini、ChatGPT比过,在画Xbox手柄这种需要立体感和细节的活儿上,Sonnet 4.6明显更胜一筹。Anthropic还特意说了它操作电脑的本事。它在OSWorld这个基准测试里拿了高分,能像人一样用Chrome、LibreOffice这些真家伙干活。有些先头用的人说,处理大表格、填网页表单这些事已经跟真人差不多了,办公效率高了不少。开发的时候它也挺灵活,“扩展思维”和“自适应思维”这两个模式让你随便挑。做商业模拟的Vending-BenchArena测试里,Sonnet 4.6靠着前期投资加后期赚钱的平衡策略赢了头筹。不过Anthropic也承认了,要是遇到特别深的推理难题,Opus 4.6还是首选方案。在重建代码库和多Agent一起干活这种复杂的活儿上,Opus系列的本事还是更强点。这样搞分层产品,就是为了照顾不同人的需求。安全这块也不错。研究人员拿普通话、阿拉伯语、英语这7种语言试了试模型的听话程度和处理坏请求的本事,结果证明不管哪种语言环境下,它都能稳稳地守住底线。