谷歌在2026年3月3日搞了个大动作,把Gemini 3.1 Flash-Lite这个轻量级AI模型给推了出来。他们信誓旦旦地说这是Gemini 3系列里头最快也是最划算的一个。开发者只要去Google AI Studio弄个Gemini API就能先睹为快,企业用户呢,直接在Vertex AI上玩就行了。为了让大伙都能轻松用上AI,谷歌这回定的价格特别有竞争力:每百万输入Tokens只要0.25美元,每百万输出Tokens收1.50美元。性能上的提升也确实很猛。有个叫Artificial Analysis的权威评测平台是这么说的,跟之前的2.5 Flash模型比起来,Gemini 3.1 Flash-Lite的首字响应速度直接翻倍不止。就是从原来的TTFT变成了现在的TTFT,而且整体输出速度也提了45%。这种低延迟的劲儿让它特别适合搞那种需要实时互动的东西。在Arena.ai的排行榜上,它拿了1432分的Elo得分。GPQADiamond测试里它拿到了86.9%,MMMUPro测试里也有76.8%,甚至在某些方面都比以前那个大块头的2.5 Flash模型还要强。除了能力牛,它在AI Studio和Vertex AI里还装了个叫“思考层级”的功能。这个机制能让开发者随意控制模型思考的深度。比如处理简单活儿的时候把深度调低求效率,碰到难题的时候再把层级拉高来深度推理。像Latitude、Cartwheel还有Whering这些公司已经在自己复杂的业务里用上它了。测试团队反馈说,这东西处理效率和逻辑推理都非常厉害,哪怕是很难的指令也能搞得定。