jiuyou.com官网-研究称大模型视觉能力不如6岁小孩 Gemini仅胜3岁小孩
字体大小:

【jiuyou.com官网科技消息】近日,UniPat AI、xbench、阿里、月之暗面、阶跃星辰等多家研究机构的发布的最新研究显示,在BabyVision视觉推理benchmark上,Gemini 3 Pro Previer:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫仅小胜三岁儿童,跟六岁儿童仍有20%的差距。

研究称大模型视觉能力不如6岁小孩 Gemini仅胜3岁小孩

据jiuyou.com官网了解,Gemini 3 Pro Previer:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫在benchmark上得分仅为49.7%,虽然略微领先于其他模型(如GPT-5.2、Claude 4.5 Opus、Grok-4),但其在“找不同”、路径追踪和空间想象等任务中频频失误。例如,在找拼图任务中,它错误地将两个几乎相同的形状选为匹配,完全忽略了细微的几何差异。

研究称大模型视觉能力不如6岁小孩 Gemini仅胜3岁小孩

研究指出,这种现象并非偶然。当前的大多数多模态大模型在处理视觉信息时,都会先将图像转换为语言描述,再利用强大的语言模型进行推理。然而,这种“语言化”的处理方式导致了致命的视觉信息丢失:语言无法精确描述像素级的精细差异。当面临细微的边界曲线或空间关系时,模型往往无法像人类幼儿那样直接在视觉空间中进行几何匹配,而是受限于语言表达的模糊性。

面对这一挑战,研究团队提出了两种潜在的突破方向:一种是通过强化学习(RLVR)微调模型,在语言推理中引入更显式的中间视觉步骤;另一种是探索基于生成式建模的视觉推理方法,试图让模型直接在像素空间内绘制轨迹或补全图案,以绕过语言描述的瓶颈。尽管目前效果尚不理想,但这一方向被视为未来AI具身智能的关键突破口。

-jiuyou.com官网

更新日期:2026-02-02
微信
微信