多模态大模型视觉能力评测揭示短板大多数模型表现不及三岁儿童

1月12日，BabyVision评测集首轮测试结果公布，引发行业广泛讨论；该评测集包含20项严格控制语言依赖的视觉任务，专门用于评估大模型的底层视觉能力。测试结果显示，参与评测的顶尖模型中，仅Gemini3-Pro-Preview以微弱优势超过3岁儿童基准线，其余模型得分远低于人类该年龄段的水平。在包含388道题目的完整测试中，人类对照组准确率达到94.1%，而表现最好的闭源模型准确率不足50%，开源模型普遍低于20%。技术团队分析指出，该差距源于大模型视觉处理机制的根本缺陷。首先，模型依赖将视觉信息转化为文字描述进行推理，导致像素级细节丢失。例如在拼图补全任务中，人类可以凭借几何直觉识别细微差异，而模型将形状概括为"钩状"或"双足"等文本后，实际差异被模糊化。其次，轨迹追踪任务暴露了模型在连续性处理上的短板——人类能够锁定单一路径完成追踪，而模型需要将任务分解为离散的方位指令，在路径交叉时容易误判。此外，三维空间想象能力的不足使模型在方块计数、遮挡结构判断等任务中表现更差。这一发现打破了"多模态模型已接近人类认知"的误解。评测论文强调，当前模型在精细辨别、视觉追踪、空间感知和模式识别四大类别上均存在系统性不足，其表面"智能"更多依赖语言能力对视觉缺陷的弥补。例如，在垃圾分类连线题中，3岁儿童凭直觉即可正确连线，而顶级模型尽管生成长篇推理文本，最终仍将塑料杯错误匹配到绿色垃圾桶。研究团队建议从三上突破技术瓶颈：一是开发非语言化的视觉表征体系，减少信息转换损耗；二是构建时空连续的建模框架，提升动态场景处理能力；三是借鉴神经科学成果，模拟人类视觉皮层的分层处理机制。目前，部分机构已启动"视觉优先"的新型架构研发，尝试将传统计算机视觉技术与大模型深度融合。尽管当前结果揭示了严峻挑战，但技术演进路径正逐渐清晰。行业专家预测，随着神经形态计算、脉冲神经网络等发展，未来3-5年可能出现专为视觉认知设计的新一代架构。红杉中国技术负责人表示，BabyVision评测集将持续迭代，为行业提供客观的能力标尺，推动多模态技术向更真实的认知能力迈进。

视觉能力是多模态模型落地现实世界的基础。评测结果提醒我们：语言能力的出色表现不能掩盖基础感知能力的不足。面对复杂场景与高风险应用，必须通过严格评测、明确边界和工程治理确保可靠性。只有认清短板、精准评估能力，技术进步才能真正转化为安全、可控的现实生产力。

多模态大模型视觉能力评测揭示短板 大多数模型表现不及三岁儿童

多模态大模型视觉能力评测揭示短板大多数模型表现不及三岁儿童