多模态大模型视觉能力评测揭示短板 大多数模型表现不及三岁儿童

1月12日,BabyVision评测集首轮测试结果公布,引发行业广泛讨论;该评测集包含20项严格控制语言依赖的视觉任务,专门用于评估大模型的底层视觉能力。测试结果显示,参与评测的顶尖模型中,仅Gemini3-Pro-Preview以微弱优势超过3岁儿童基准线,其余模型得分远低于人类该年龄段的水平。在包含388道题目的完整测试中,人类对照组准确率达到94.1%,而表现最好的闭源模型准确率不足50%,开源模型普遍低于20%。 技术团队分析指出,该差距源于大模型视觉处理机制的根本缺陷。首先,模型依赖将视觉信息转化为文字描述进行推理,导致像素级细节丢失。例如在拼图补全任务中,人类可以凭借几何直觉识别细微差异,而模型将形状概括为"钩状"或"双足"等文本后,实际差异被模糊化。其次,轨迹追踪任务暴露了模型在连续性处理上的短板——人类能够锁定单一路径完成追踪,而模型需要将任务分解为离散的方位指令,在路径交叉时容易误判。此外,三维空间想象能力的不足使模型在方块计数、遮挡结构判断等任务中表现更差。 这一发现打破了"多模态模型已接近人类认知"的误解。评测论文强调,当前模型在精细辨别、视觉追踪、空间感知和模式识别四大类别上均存在系统性不足,其表面"智能"更多依赖语言能力对视觉缺陷的弥补。例如,在垃圾分类连线题中,3岁儿童凭直觉即可正确连线,而顶级模型尽管生成长篇推理文本,最终仍将塑料杯错误匹配到绿色垃圾桶。 研究团队建议从三上突破技术瓶颈:一是开发非语言化的视觉表征体系,减少信息转换损耗;二是构建时空连续的建模框架,提升动态场景处理能力;三是借鉴神经科学成果,模拟人类视觉皮层的分层处理机制。目前,部分机构已启动"视觉优先"的新型架构研发,尝试将传统计算机视觉技术与大模型深度融合。 尽管当前结果揭示了严峻挑战,但技术演进路径正逐渐清晰。行业专家预测,随着神经形态计算、脉冲神经网络等发展,未来3-5年可能出现专为视觉认知设计的新一代架构。红杉中国技术负责人表示,BabyVision评测集将持续迭代,为行业提供客观的能力标尺,推动多模态技术向更真实的认知能力迈进。

视觉能力是多模态模型落地现实世界的基础。评测结果提醒我们:语言能力的出色表现不能掩盖基础感知能力的不足。面对复杂场景与高风险应用,必须通过严格评测、明确边界和工程治理确保可靠性。只有认清短板、精准评估能力,技术进步才能真正转化为安全、可控的现实生产力。