国产一区二区三区草莓av,精品日韩在线免费观看,久久是精品一区二区

230個(gè)大模型在嬰幼兒認(rèn)知題上集體翻車(chē)！揭秘多模態(tài)大模型的核心知識(shí)缺陷_速看

2025-10-10 11:50:49 來(lái)源：量子位

CoreCognition團(tuán)隊(duì) 投稿

量子位 | 公眾號(hào) QbitAI

(資料圖片)

一篇被Yann LeCun轉(zhuǎn)發(fā)的ICML 2025研究給了多模態(tài)大模型當(dāng)頭一棒——

大部分AI在復(fù)雜任務(wù)上表現(xiàn)很好，但在人類(lèi)從小就會(huì)的基礎(chǔ)認(rèn)知能力上卻很拉垮。

研究者建了測(cè)評(píng)題庫(kù)CoreCognition，覆蓋在人類(lèi)嬰幼兒階段即出現(xiàn)的12種核心認(rèn)知能力（如客體永恒、視角采擇、直覺(jué)物理、知覺(jué)恒常等），用來(lái)對(duì)模型進(jìn)行系統(tǒng)性測(cè)試。

在CoreCognition基準(zhǔn)的1503道“經(jīng)典發(fā)展心理學(xué)測(cè)驗(yàn)”上，230個(gè)主流模型系統(tǒng)暴露出對(duì)世界常識(shí)的“核心知識(shí)盲區(qū)”。

在歸一化準(zhǔn)確率對(duì)比中，多模態(tài)大模型在基礎(chǔ)核心認(rèn)知能力上普遍落后，差距往往達(dá)到兩位數(shù)，即便規(guī)模更大也難以彌補(bǔ)。

這是否意味著MLLM（多模態(tài)大模型）的先天認(rèn)知結(jié)構(gòu)中，缺少那些支撐早期人類(lèi)學(xué)習(xí)的基礎(chǔ)知識(shí)機(jī)制？

也就是說(shuō)，它們是否缺乏“core knowledge”（核心認(rèn)知能力）？

構(gòu)建CoreCognition Benchmark

來(lái)自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、埃默里大學(xué)、北卡羅來(lái)納大學(xué)教堂山分校、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究人員，花費(fèi)一年時(shí)間構(gòu)造并開(kāi)源了業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)CoreCognition。

基準(zhǔn)圍繞發(fā)展心理學(xué)與皮亞杰分層框架，覆蓋從連續(xù)性到機(jī)械推理12 項(xiàng)核心認(rèn)知概念，共1503道多模態(tài)題目，每類(lèi)≥95例，含圖像與視頻。

研究團(tuán)隊(duì)在設(shè)計(jì)題目時(shí)遵循以下高標(biāo)準(zhǔn)：

判別性強(qiáng)
不具備目標(biāo)核心知識(shí)的模型在邏輯上更易選擇錯(cuò)誤選項(xiàng)。
最小混淆
題目盡量?jī)H依賴待測(cè)概念完成推理，剔除與其他核心知識(shí)或外部能力的耦合，避免跨概念干擾。

無(wú)文本捷徑
所有題目必須聯(lián)合利用圖像與文本才能得出正確答案。

所有數(shù)據(jù)由12位具備認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)或統(tǒng)計(jì)學(xué)背景的高年級(jí)本科或研究生協(xié)作完成標(biāo)注與審核，經(jīng)過(guò)兩輪交叉驗(yàn)證和Amazon Mechanical Turk人工校驗(yàn)。

干預(yù)測(cè)試揭示“假理解”陷阱

為了進(jìn)一步驗(yàn)證模型是否真的掌握核心概念，研究團(tuán)隊(duì)提出了Concept Hacking（概念干預(yù)）方法：通過(guò)構(gòu)造“對(duì)照組”（control）與“干預(yù)組”（manipulated），故意在測(cè)試任務(wù)中反轉(zhuǎn)與核心知識(shí)相關(guān)的關(guān)鍵特征，但保持其余細(xì)節(jié)一致，檢測(cè)模型是否真正理解概念還是走捷徑。

例如其中的Intuitive Physics測(cè)試：

原版題
同時(shí)釋放兩顆小球，哪一個(gè)會(huì)先落地？考察基礎(chǔ)直覺(jué)物理（相同釋放高度、忽略空氣阻力時(shí)，自由落體等時(shí)到地）。
孿生版
保持大小不變，但改變釋放高度，用以檢驗(yàn)?zāi)Ｐ褪欠裾嬲罁?jù)高度差/落地時(shí)間推斷，而非套用“同時(shí)落地”的固定模板。
人類(lèi)表現(xiàn)
兩題均能作對(duì)，能根據(jù)高度改變及時(shí)更新判斷。
模型表現(xiàn)
原題作對(duì)（選C），孿生版仍沿用舊模式選C，直接翻車(chē)——暴露出對(duì)表面模板的依賴，而非對(duì)落體規(guī)律的真實(shí)理解。

五大關(guān)鍵發(fā)現(xiàn)

一、在與人類(lèi)早期認(rèn)知直接相關(guān)的低層能力（如邊界感、連續(xù)性、客體永恒、空間性、視角采擇等）上，模型顯著落后于高層能力（如意向理解、工具使用、機(jī)械推理），與人類(lèi)各層穩(wěn)定高分的模式明顯不同。這表明

當(dāng)前MLLMs在人類(lèi)早期即具備的基礎(chǔ)“核心知識(shí)”上存在系統(tǒng)性短板。

二、關(guān)聯(lián)性矩陣顯示，高層能力族內(nèi)關(guān)聯(lián)較強(qiáng)，底層能力Permanence/Spatiality/Continuity與高層能力相關(guān)性普遍偏弱。說(shuō)明模型缺乏人類(lèi)由低到高的腳手架式認(rèn)知發(fā)展結(jié)構(gòu)，模型的高級(jí)感知與推理并不是建立在基礎(chǔ)的認(rèn)知能力上的。這也能解釋為什么模型出現(xiàn)魯棒性缺陷。

三、研究團(tuán)隊(duì)將三階段12個(gè)核心能力的得分與26個(gè)公開(kāi)基準(zhǔn)做相關(guān)性分析，結(jié)果表明除Perspective和Intuitive Physics外，大多數(shù)核心能力與公開(kāi)基準(zhǔn)（除ChartQA）及高層能力顯著正相關(guān)。這表明核心知識(shí)越強(qiáng)，上層任務(wù)越穩(wěn)。而Perspective和Intuitive Physics能力作為人類(lèi)高級(jí)推理的基礎(chǔ)展現(xiàn)出的低相關(guān)性，與我們之前在關(guān)系矩陣?yán)锟吹降哪Ｊ揭恢?，這正是現(xiàn)有模型核心知識(shí)缺陷的直接證據(jù)。

四、基于230個(gè)模型擬合“規(guī)?！憩F(xiàn)”的回歸斜率顯示，低層能力隨規(guī)模提升改善顯著更少或幾乎不變；其中Perspective-taking甚至出現(xiàn)反向規(guī)模效應(yīng)（模型越大越差）。增加模型規(guī)模主要利好高層能力，對(duì)低層核心能力幫助有限甚至為負(fù)。

五、Concept Hacking實(shí)驗(yàn)結(jié)果顯示，大模型相較小模型整體并未取得提升，部分情形甚至更差。這說(shuō)明單靠擴(kuò)規(guī)模不足以消除對(duì)捷徑的依賴，也難以獲得穩(wěn)健的核心知識(shí)。直觀上，模型并非“越大越懂”，而是越大越善于投機(jī)。

結(jié)合結(jié)果圖中的信息，模型可歸納為四類(lèi)：

核心知識(shí)型
控制題與操縱題均表現(xiàn)良好（接近人類(lèi)水平，但樣本占比極少），說(shuō)明具備穩(wěn)健的核心概念理解與遷移。
捷徑依賴型
控制題得分高、操縱題顯著下降，提示主要依賴表面線索或訓(xùn)練相似性，缺乏對(duì)概念要素的因果把握。
核心缺陷型
控制題即低于或接近偶然水平，操縱題亦無(wú)穩(wěn)定收益，反映基礎(chǔ)“核心知識(shí)”不足。
偶然型
控制題與操縱題均近似隨機(jī)波動(dòng)，整體不可依賴（更多體現(xiàn)噪聲與運(yùn)氣）。

認(rèn)知指令帶來(lái)短期增益，但難以彌補(bǔ)底層缺口。

對(duì)比推理模型與其對(duì)應(yīng)非推理版本模型性能顯示，推理模型多數(shù)核心能力任務(wù)未見(jiàn)顯著提升，癥結(jié)不在“會(huì)不會(huì)用推理”，而在底層表征是否具備，即預(yù)訓(xùn)練階段對(duì)核心知識(shí)的覆蓋與結(jié)構(gòu)化不足。

與此同時(shí)，研究團(tuán)隊(duì)發(fā)現(xiàn)，引入認(rèn)知指令（在題目前明確提示相關(guān)概念，如perspective taking）可帶來(lái)約6%的即刻增益，提示模型內(nèi)部可能分布式存有相關(guān)線索，但缺少有效的檢索與調(diào)用機(jī)制。

然而，此類(lèi)做法在真實(shí)場(chǎng)景中可獲得性與可用性受限，實(shí)際應(yīng)用往往無(wú)法提供如此明確的概念標(biāo)簽來(lái)引導(dǎo)模型。

在引人注目的“能寫(xiě)會(huì)畫(huà)”之外，真正的智能首先取決于對(duì)世界最樸素規(guī)則的把握。

這項(xiàng)研究說(shuō)明：參數(shù)堆疊并不等于理解，地基是否扎實(shí)才是關(guān)鍵。

與其一味追求“更大、更強(qiáng)”，不如換個(gè)起點(diǎn)：先把核心知識(shí)補(bǔ)齊，讓模型學(xué)會(huì)在變化、多樣與噪聲中保持一致的常識(shí)判斷與因果直覺(jué)。

簡(jiǎn)單說(shuō)就是：先長(zhǎng)地基，再長(zhǎng)樓層；規(guī)模是加法，核心認(rèn)知是乘法。

論文地址：https://arxiv.org/abs/2410.10855

Website：https://grow-ai-like-a-child.github.io/core-knowledge/

Dataset：https://huggingface.co/datasets/williamium/CoreCognition

標(biāo)簽：認(rèn)知能力缺陷核心模型嬰幼兒人類(lèi)