日韩少妇无删减的电影在线视频观看-久久久伊人中文字幕-91成人在线视频观看-欧美日韩一区二区三区四区五区-激情五月天网站视频-欧美另类丰满熟妇xx-999re这里只有国产精品-国产蜜臀福利久久久av-人妻中文字幕av精,国产成人精品在线观看视频,69精品人妻久久久久久久,欧美日韩日欧美日韩中

230個(gè)大模型在嬰幼兒認(rèn)知題上集體翻車(chē)!揭秘多模態(tài)大模型的核心知識(shí)缺陷_速看

來(lái)源:量子位

CoreCognition團(tuán)隊(duì) 投稿

量子位 | 公眾號(hào) QbitAI


(資料圖片)

一篇被Yann LeCun轉(zhuǎn)發(fā)的ICML 2025研究給了多模態(tài)大模型當(dāng)頭一棒——

大部分AI在復(fù)雜任務(wù)上表現(xiàn)很好,但在人類(lèi)從小就會(huì)的基礎(chǔ)認(rèn)知能力上卻很拉垮。

研究者建了測(cè)評(píng)題庫(kù)CoreCognition,覆蓋在人類(lèi)嬰幼兒階段即出現(xiàn)的12種核心認(rèn)知能力(如客體永恒、視角采擇、直覺(jué)物理、知覺(jué)恒常等),用來(lái)對(duì)模型進(jìn)行系統(tǒng)性測(cè)試。

在CoreCognition基準(zhǔn)的1503道“經(jīng)典發(fā)展心理學(xué)測(cè)驗(yàn)”上,230個(gè)主流模型系統(tǒng)暴露出對(duì)世界常識(shí)的“核心知識(shí)盲區(qū)”。

在歸一化準(zhǔn)確率對(duì)比中,多模態(tài)大模型在基礎(chǔ)核心認(rèn)知能力上普遍落后,差距往往達(dá)到兩位數(shù),即便規(guī)模更大也難以彌補(bǔ)。

這是否意味著MLLM(多模態(tài)大模型)的先天認(rèn)知結(jié)構(gòu)中,缺少那些支撐早期人類(lèi)學(xué)習(xí)的基礎(chǔ)知識(shí)機(jī)制?

也就是說(shuō),它們是否缺乏“core knowledge”(核心認(rèn)知能力)?

構(gòu)建CoreCognition Benchmark

來(lái)自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、埃默里大學(xué)、北卡羅來(lái)納大學(xué)教堂山分校、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究人員,花費(fèi)一年時(shí)間構(gòu)造并開(kāi)源了業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)CoreCognition。

基準(zhǔn)圍繞發(fā)展心理學(xué)與皮亞杰分層框架,覆蓋從連續(xù)性到機(jī)械推理12 項(xiàng)核心認(rèn)知概念,共1503道多模態(tài)題目,每類(lèi)≥95例,含圖像與視頻。

研究團(tuán)隊(duì)在設(shè)計(jì)題目時(shí)遵循以下高標(biāo)準(zhǔn):

  • 判別性強(qiáng)

    不具備目標(biāo)核心知識(shí)的模型在邏輯上更易選擇錯(cuò)誤選項(xiàng)。

  • 最小混淆

    題目盡量?jī)H依賴待測(cè)概念完成推理,剔除與其他核心知識(shí)或外部能力的耦合,避免跨概念干擾。

  • 無(wú)文本捷徑

    所有題目必須聯(lián)合利用圖像與文本才能得出正確答案。

所有數(shù)據(jù)由12位具備認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)或統(tǒng)計(jì)學(xué)背景的高年級(jí)本科或研究生協(xié)作完成標(biāo)注與審核,經(jīng)過(guò)兩輪交叉驗(yàn)證和Amazon Mechanical Turk人工校驗(yàn)。

干預(yù)測(cè)試揭示“假理解”陷阱

為了進(jìn)一步驗(yàn)證模型是否真的掌握核心概念,研究團(tuán)隊(duì)提出了Concept Hacking(概念干預(yù)) 方法:通過(guò)構(gòu)造“對(duì)照組”(control)與“干預(yù)組”(manipulated),故意在測(cè)試任務(wù)中反轉(zhuǎn)與核心知識(shí)相關(guān)的關(guān)鍵特征,但保持其余細(xì)節(jié)一致,檢測(cè)模型是否真正理解概念還是走捷徑。

例如其中的Intuitive Physics測(cè)試:

  • 原版題

    同時(shí)釋放兩顆小球,哪一個(gè)會(huì)先落地?考察基礎(chǔ)直覺(jué)物理(相同釋放高度、忽略空氣阻力時(shí),自由落體等時(shí)到地)。

  • 孿生版

    保持大小不變,但改變釋放高度,用以檢驗(yàn)?zāi)P褪欠裾嬲罁?jù)高度差/落地時(shí)間推斷,而非套用“同時(shí)落地”的固定模板。

  • 人類(lèi)表現(xiàn)

    兩題均能作對(duì),能根據(jù)高度改變及時(shí)更新判斷。

  • 模型表現(xiàn)

    原題作對(duì)(選C),孿生版仍沿用舊模式選C,直接翻車(chē)——暴露出對(duì)表面模板的依賴,而非對(duì)落體規(guī)律的真實(shí)理解。

五大關(guān)鍵發(fā)現(xiàn)

一、在與人類(lèi)早期認(rèn)知直接相關(guān)的低層能力(如邊界感、連續(xù)性、客體永恒、空間性、視角采擇等)上,模型顯著落后于高層能力(如意向理解、工具使用、機(jī)械推理),與人類(lèi)各層穩(wěn)定高分的模式明顯不同。這表明

當(dāng)前MLLMs在人類(lèi)早期即具備的基礎(chǔ)“核心知識(shí)”上存在系統(tǒng)性短板。

二、關(guān)聯(lián)性矩陣顯示,高層能力族內(nèi)關(guān)聯(lián)較強(qiáng),底層能力Permanence/Spatiality/Continuity與高層能力相關(guān)性普遍偏弱。說(shuō)明模型缺乏人類(lèi)由低到高的腳手架式認(rèn)知發(fā)展結(jié)構(gòu),模型的高級(jí)感知與推理并不是建立在基礎(chǔ)的認(rèn)知能力上的。這也能解釋為什么模型出現(xiàn)魯棒性缺陷。

三、研究團(tuán)隊(duì)將三階段12個(gè)核心能力的得分與26個(gè)公開(kāi)基準(zhǔn)做相關(guān)性分析,結(jié)果表明除Perspective和Intuitive Physics外,大多數(shù)核心能力與公開(kāi)基準(zhǔn)(除ChartQA)及高層能力顯著正相關(guān)。這表明核心知識(shí)越強(qiáng),上層任務(wù)越穩(wěn)。而Perspective和Intuitive Physics能力作為人類(lèi)高級(jí)推理的基礎(chǔ)展現(xiàn)出的低相關(guān)性,與我們之前在關(guān)系矩陣?yán)锟吹降哪J揭恢?,這正是現(xiàn)有模型核心知識(shí)缺陷的直接證據(jù)。

四、基于230個(gè)模型擬合“規(guī)?!憩F(xiàn)”的回歸斜率顯示,低層能力隨規(guī)模提升改善顯著更少或幾乎不變;其中Perspective-taking甚至出現(xiàn)反向規(guī)模效應(yīng)(模型越大越差)。增加模型規(guī)模主要利好高層能力,對(duì)低層核心能力幫助有限甚至為負(fù)。

五、Concept Hacking實(shí)驗(yàn)結(jié)果顯示,大模型相較小模型整體并未取得提升,部分情形甚至更差。這說(shuō)明單靠擴(kuò)規(guī)模不足以消除對(duì)捷徑的依賴,也難以獲得穩(wěn)健的核心知識(shí)。直觀上,模型并非“越大越懂”,而是越大越善于投機(jī)。

結(jié)合結(jié)果圖中的信息,模型可歸納為四類(lèi):

  • 核心知識(shí)型

    控制題與操縱題均表現(xiàn)良好(接近人類(lèi)水平,但樣本占比極少),說(shuō)明具備穩(wěn)健的核心概念理解與遷移。

  • 捷徑依賴型

    控制題得分高、操縱題顯著下降,提示主要依賴表面線索或訓(xùn)練相似性,缺乏對(duì)概念要素的因果把握。

  • 核心缺陷型

    控制題即低于或接近偶然水平,操縱題亦無(wú)穩(wěn)定收益,反映基礎(chǔ)“核心知識(shí)”不足。

  • 偶然型

    控制題與操縱題均近似隨機(jī)波動(dòng),整體不可依賴(更多體現(xiàn)噪聲與運(yùn)氣)。

認(rèn)知指令帶來(lái)短期增益,但難以彌補(bǔ)底層缺口。

對(duì)比推理模型與其對(duì)應(yīng)非推理版本模型性能顯示,推理模型多數(shù)核心能力任務(wù)未見(jiàn)顯著提升,癥結(jié)不在“會(huì)不會(huì)用推理”,而在底層表征是否具備,即預(yù)訓(xùn)練階段對(duì)核心知識(shí)的覆蓋與結(jié)構(gòu)化不足。

與此同時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn),引入認(rèn)知指令(在題目前明確提示相關(guān)概念,如perspective taking)可帶來(lái)約6%的即刻增益,提示模型內(nèi)部可能分布式存有相關(guān)線索,但缺少有效的檢索與調(diào)用機(jī)制。

然而,此類(lèi)做法在真實(shí)場(chǎng)景中可獲得性與可用性受限,實(shí)際應(yīng)用往往無(wú)法提供如此明確的概念標(biāo)簽來(lái)引導(dǎo)模型。

在引人注目的“能寫(xiě)會(huì)畫(huà)”之外,真正的智能首先取決于對(duì)世界最樸素規(guī)則的把握。

這項(xiàng)研究說(shuō)明:參數(shù)堆疊并不等于理解,地基是否扎實(shí)才是關(guān)鍵。

與其一味追求“更大、更強(qiáng)”,不如換個(gè)起點(diǎn):先把核心知識(shí)補(bǔ)齊,讓模型學(xué)會(huì)在變化、多樣與噪聲中保持一致的常識(shí)判斷與因果直覺(jué)。

簡(jiǎn)單說(shuō)就是:先長(zhǎng)地基,再長(zhǎng)樓層;規(guī)模是加法,核心認(rèn)知是乘法。

論文地址:https://arxiv.org/abs/2410.10855

Website:https://grow-ai-like-a-child.github.io/core-knowledge/

Dataset:https://huggingface.co/datasets/williamium/CoreCognition

標(biāo)簽: 認(rèn)知 能力 缺陷 核心 模型 嬰幼兒 人類(lèi)

推薦

財(cái)富更多》

動(dòng)態(tài)更多》

熱點(diǎn)

夹住花蒂颤抖喷水调教H-露脸丰满浓密老熟女高潮对白-自偷自拍网-北京富婆泄欲对白 | jvid大尺度视频在线观看-又粗又长一进一出流白浆-国模啪啪视频-国产美女大学生扒开尿口网页 | wwwtubecom中国熟女-水野优香中文字幕一区二区-欧美专区在线第十一页-91牛成人欧美大片 | AV女优馆-国产我要干逼网站-美女被黑人60厘米进入-亚洲第一黄片大全 | 国产农村妇女AAAAA视频-狼人干依人网-蓬莱仙山国模裸体自慰-国产闺蜜女同疯狂摩擦 | 亚洲综合簧片仓库-日本人肏逼-欧美黑人一区二区-free越南少妇视频 | 色网操穴-摸奶插逼网站-国产操女老师视频-国产美女a做受大片在线观看 | 正在播放森泽佳奈被痴汉4-伊人影院网址-一级肉体全黄裸片视频-亚洲淫淫五月 | 女上位打桩榨精在线观看-高潮毛片无遮挡免费高清风月直播-尹人成人-涩综合婷婷久久涩 | 懂色av蜜臀av粉嫩avdnlt-BD电影免费在线 精品久久久久久中文字幕网 -99国产精品国产精品久久-一女n男4p喷到她哭还流着白浆 | ChinaAV在线-china熟女熟妇乱老女人-多人交换做爰g.gav国产-国产日韩欧美一区二区张家界 | 77777色婷婷-中国熟女自慰DH-中文字幕一本一道在线看-欧美精品 日韩伦理 | 老女人毛片50一60岁-国产性―交一乱―色―情人-免费国语全集在线观看-成人AV-肥臀大腚BBWBBW-日韩肉感熟女 | HD电影完整版在线观看 管道名稱 VD在线观看-人妻被水电工侵犯HD-99re综合伊人-日本人拍拍拍 | 艹中国美女-午夜探花约气质美女-[3D]同人精品动漫一区-www。色小姐。com | 剧情片高清视频播放 经典老熟女ass-诱人的老师中文字幕在线观看-操无毛逼-四虎黄网 | 国产xxx video-晚上必备在线观看视频日本人妖精视频-极品身材的亲姐内射黄片-亚洲国产午夜网站在线 | 韩国极品BJ自慰XXX-杨幂久久一区二区免费图片-雪花飘电影电视免费观看,国产最新精品精品视频-伊人网22 | 91偷拍与自偷拍精品无码-妃光莉无码中文字幕在线-gogogo手机高清在观看-欧美日韩黄色电影在线播放 | 黑人搜索结果 - 88AV-高清在线播放 免费观看美乳美女裸体图片-国产免费AV一区二区三区视-亚洲av美女一区二区三区 | 顶级欧美模特裸体自慰-色屋久久-亚洲一级无码-yin射色720 | 久久蜜桃美女自慰喷水-少妇人妻偷人精品一区二区-日韩精品中文字幕一区二区三区-裸体美女黄色录像 | 日本老就熟妇TubeSex-农村寡妇洗澡一级A片-巨大乳尖奶欧美-日本上床222 | 18禁女生裸体自慰网站-白丝裸体自慰-黑人肏日本女优-天天干妹子 自产一区二区三区国产-ziwei看的网站-国产日产欧产精品精品推荐在线-东凛 色情影片 - 8MAV | 惠民福利亚洲av成人无码网天堂-人妻引诱中文字幕-宠物宫交高H喷汁呻吟-后进女神白嫩翘臀在线视频00 | 久久九九爱爱-四虎影院中文字幕-国产精品免费视频一区二区 -91熟女丨91老女人 | 友田真希大战黑人40分钟-狼国综合自拍亚洲-亚洲第22页-九九爱大香蕉 | 美女跨下黑森林视频网站-最近2019中文字幕第二页视频-黑人的香蕉进去白人的蜜桃网站-麻麻趴跪着掀裙子黑人调教 | 欧美一级黑人-中国熟妇4567-操东北女人的视频-秋霞A级片 | BDBD在线观看 131美女爱做免费高清视频-国产激情一区二区三区成人-www.黄色AV91.wwe-百永纱里奈无码片(SCOP-752) | 五指姑娘影视-麻豆精品久久精品色综合-成全视频面成全视频免费看-老少伦一区二区三区 | 日本老就熟妇TubeSex-农村寡妇洗澡一级A片-巨大乳尖奶欧美-日本上床222 | 一本加勒比苍井空-在线播放“zzz”-中文字幕欧美亚洲-久久无码综合 日本一本免费一区二区三区 | 亚洲a∨国产av综合av网站-日本二级片-嗯啊h精品成人免费y一起c-黑人日亚洲妹子 | 偷窥自拍女人性爱的视频-gogogo免费完整国语版首叶i 日韩欧美亚洲国产精品字幕久久久-久久久久人妻一区精品-久久综合久久 | 品鲁一鲁一区二区-亚洲人毛茸茸孕妇-精品国产av 无码一区二区三区-一级一级免费黄色大片 | 日韩亚洲欧美www3344男同-中文小草第一夜-古风成人毛片-日本熟女乱交 | 亚洲av无码男人的天堂在线-强行中出丝袜熟女人妻-欧美精品亚洲精品日韩专区-日韩中出网 无码人妻AⅤ一区二区三区A片一 | gogogo高清国语播放-床戏做爰呻吟声-美女自卫慰免费视频www免费-少妇毛茸茸aaahd极品 | 中文字幕2019年最好看电视剧 欧美精品VIDEOSEX极品传媒视频在线观看-第7页-巧-午夜神马伊人-欧美黑人一级爽快片婬片高清-本庄优花上司哺乳人妻 | 日韩第十页-女人裸体添荫蒂视频-亚洲1擦菊综合-BD英语高清视频观看 久久影院午夜伦手机不四虎卡 |