anthropic新宝贝：opus 4.6

Anthropic公司刚放出了他们的新宝贝，Claude Sonnet 4.6，这个模型在编程、操作电脑和长文本处理上都有了大进步。它不仅能干得跟高端的Opus差不多，花的钱还少，把大家的眼球都给勾住了。数据显示，这新模型在金融分析、办公活计还有看图推理这些要紧事上，都超过了2月6号发的Opus 4.6。它一口气能处理100万个词的大文本，让搞复杂任务的人省事不少。现在，免费和付费用户打开claude.ai或者ClaudeCowork，直接就能用Sonnet 4.6了，还新添了创文件、连设备、搞专业技能和压缩内容这些新玩法。价格嘛，跟以前一样，读进100万个词只要3美元，发出来15美元，这高性价比一下子就火了。股票市场也跟着抖了三抖，美东时间周二收盘时，Intuit跌了快5%，甲骨文、Applovin也掉了超过3%，Salesforce、Atlassian这些公司的股价也往下走了一段。开发圈里的反响特别热烈，好多人都在社交媒体上晒体验，夸它在改代码、改多个文件这些活儿上表现太好。有人就说，只用了一次调用，它就把整个代码库都改了个底朝天，加了3000多行代码，还整出了12个新文件。那百万词的上下文窗口功能最让人爱，你把整个代码库都往里扔都不用担心东西丢了。看图方面也变强了不少。有测试拿它和Gemini、ChatGPT比过，在画Xbox手柄这种需要立体感和细节的活儿上，Sonnet 4.6明显更胜一筹。Anthropic还特意说了它操作电脑的本事。它在OSWorld这个基准测试里拿了高分，能像人一样用Chrome、LibreOffice这些真家伙干活。有些先头用的人说，处理大表格、填网页表单这些事已经跟真人差不多了，办公效率高了不少。开发的时候它也挺灵活，“扩展思维”和“自适应思维”这两个模式让你随便挑。做商业模拟的Vending-BenchArena测试里，Sonnet 4.6靠着前期投资加后期赚钱的平衡策略赢了头筹。不过Anthropic也承认了，要是遇到特别深的推理难题，Opus 4.6还是首选方案。在重建代码库和多Agent一起干活这种复杂的活儿上，Opus系列的本事还是更强点。这样搞分层产品，就是为了照顾不同人的需求。安全这块也不错。研究人员拿普通话、阿拉伯语、英语这7种语言试了试模型的听话程度和处理坏请求的本事，结果证明不管哪种语言环境下，它都能稳稳地守住底线。