前DeepMind華人研究員離職喊話:AI行業(yè)所有人都搞錯(cuò)了方向
![]()
新智元報(bào)道
![]()
【新智元導(dǎo)讀】前谷歌DeepMind研究員離職并發(fā)表長(zhǎng)文指出AI行業(yè)當(dāng)前最被低估的瓶頸。他認(rèn)為,人研人都現(xiàn)有的離職才藝大賽投票拉票基準(zhǔn)測(cè)試和安全評(píng)估都隱含假設(shè)下一代模型只是當(dāng)前模型的增強(qiáng)版,但如果模型跨入全新能力區(qū)間,行業(yè)整個(gè)評(píng)估基礎(chǔ)設(shè)施將悄然崩潰。搞錯(cuò)
AI訓(xùn)練,華喊話到底能持續(xù)多久?人研人都
這是2026年整個(gè)科技圈都在問(wèn)的問(wèn)題。
GPT-5.5、離職Claude Opus 4.7、行業(yè)Gemini 3、搞錯(cuò)Grok 4——每一家頭部實(shí)驗(yàn)室都還在燒錢訓(xùn)下一代。華喊話
![]()
但越來(lái)越多人開(kāi)始追問(wèn):這條路,什么時(shí)候走到頭?離職
每個(gè)圈子都有自己的答案——
每一個(gè)答案背后,都站著一群投資人、行業(yè)一群工程師、搞錯(cuò)一家市值萬(wàn)億的公司。
但2026年5月17日,一個(gè)名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個(gè)人博客上掛出一篇4000詞的長(zhǎng)文。
![]()
他說(shuō):所有人都搞錯(cuò)了方向。
真正的才藝大賽投票拉票瓶頸,不是算力,不是數(shù)據(jù),不是能源,不是架構(gòu)。
真正的瓶頸是——評(píng)估(Evaluation)。
![]()
同一天,他在X上掛出的離職公告里沒(méi)有抱怨、沒(méi)有八卦,只有一句話——
在結(jié)束這段旅程之際,我寫下了一直在思考的主題:評(píng)估。
![]()
而那一天的科技頭條還在討論別的——GPT-5.5的多模態(tài)推理、Claude Opus4.7的1M上下文、Gemini 3的Agent工程化、合成數(shù)據(jù)是不是開(kāi)始撞墻。
整個(gè)AI行業(yè)的注意力,90%砸在訓(xùn)練上。
沒(méi)有人在頭版討論評(píng)估。
而這位剛從地球上最強(qiáng)AI實(shí)驗(yàn)室之一走出來(lái)的研究員說(shuō),真正的瓶頸,在另外那10%。
什么是評(píng)估
要看懂這篇博客,先得花一分鐘搞清楚AI圈說(shuō)的評(píng)估到底是什么。
評(píng)估(Evaluation,業(yè)內(nèi)簡(jiǎn)稱Eval)——一句話:給AI模型出考卷,看它做得怎么樣。
但2026年的AI評(píng)估,遠(yuǎn)不止做個(gè)考卷這么簡(jiǎn)單。它至少有三層:
第一層:能力benchmark(基準(zhǔn)測(cè)試)。
這是AI的高考。
-GPQA:博士級(jí)理科推理題
-SWE-bench:現(xiàn)實(shí)世界的軟件工程任務(wù)
-ARC-AGI:抽象推理與泛化
-Humanity's Last Exam:字面意思——人類最后的考試
![]()
每一家大廠的新模型發(fā)布會(huì),PPT上都會(huì)擺出在這些benchmark上比上一代和競(jìng)品高了幾個(gè)百分點(diǎn)。
這些數(shù)字就是AI行業(yè)的GDP。
第二層:安全評(píng)估(SafetyEval)。AI不只是要會(huì)做題,還得做得安全。
有沒(méi)有撒謊?
會(huì)不會(huì)教用戶怎么造炸彈?
會(huì)不會(huì)越權(quán)拿走用戶數(shù)據(jù)?
第三層:紅隊(duì)(Red-teaming)。
一群人專門扮演壞人,絞盡腦汁讓模型說(shuō)出它不該說(shuō)的話、做它不該做的事,然后把漏洞反饋給訓(xùn)練團(tuán)隊(duì)。
這三層加起來(lái),構(gòu)成了2026年AI實(shí)驗(yàn)室的質(zhì)檢體系。每發(fā)一個(gè)新模型,都要走完這三關(guān)。
聽(tīng)上去很完備,對(duì)吧?
Lun Wang在博客里下了一句判決——
絕大多數(shù)基準(zhǔn)測(cè)試、安全評(píng)估和紅隊(duì)協(xié)議都隱含一個(gè)假設(shè):下一個(gè)模型只是當(dāng)前模型的強(qiáng)化版。
如果它是另一種東西,整套評(píng)估基礎(chǔ)設(shè)施會(huì)悄無(wú)聲息地崩潰。
這是文章的第一顆石子。
它砸中的是整個(gè)AI行業(yè)的盲區(qū)。
涌現(xiàn)和頓悟:評(píng)估已經(jīng)被打過(guò)兩次臉
Lun Wang不是在做空想。他在博客里調(diào)出了AI歷史上的兩次實(shí)例——評(píng)估已經(jīng)被打過(guò)兩次臉了,只是大多數(shù)從業(yè)者沒(méi)意識(shí)到。
第一次:涌現(xiàn)能力。
2022年,Jason Wei和合作者發(fā)表了一篇影響后續(xù)AI走向的論文——他們發(fā)現(xiàn),模型在某個(gè)規(guī)模上會(huì)突然學(xué)會(huì)全新的能力。
舉例:你訓(xùn)一個(gè)70億參數(shù)的模型,它做不了few-shot學(xué)習(xí)。
你訓(xùn)一個(gè)700億參數(shù)的模型,它突然就能few-shot了。
同樣的訓(xùn)練范式、同樣的數(shù)據(jù),只是規(guī)模大了一檔——能力是從0到1的,不是從0.3到0.7。
CoT(鏈?zhǔn)剿季S推理)、指令跟隨,都是這樣冒出來(lái)的。
這件事對(duì)評(píng)估意味著什么?
![]()
意味著——在規(guī)??邕^(guò)臨界點(diǎn)之前,所有benchmark都看不到這種能力即將出現(xiàn)。
你跑遍GPQA,分?jǐn)?shù)還是該是多少是多少。
等你訓(xùn)到下一檔,分?jǐn)?shù)突然跳一個(gè)臺(tái)階。
第二次:Grokking(頓悟)。
2022年,OpenAI的Alethea Power團(tuán)隊(duì)公布了一個(gè)反直覺(jué)的現(xiàn)象——
然后到1000000步——測(cè)試集準(zhǔn)確率突然沖到99%。
這叫Grokking——網(wǎng)絡(luò)在記憶訓(xùn)練集很久之后突然學(xué)會(huì)了泛化。
它和涌現(xiàn)的區(qū)別:涌現(xiàn)發(fā)生在規(guī)模維度上(參數(shù)越多越突然),Grokking發(fā)生在訓(xùn)練時(shí)間維度上(訓(xùn)得越久越突然)。
但對(duì)評(píng)估而言,兩件事說(shuō)的是同一件事:
你的考卷,沒(méi)法預(yù)測(cè)下一道大題什么時(shí)候出現(xiàn)。
然后 Lun Wang做了一件文章里最聰明的事——
他主動(dòng)引入了反方觀點(diǎn)。
2023年,Stanford的Rylan Schaeffer和合作者發(fā)了一篇NeurIPS論文,標(biāo)題就很挑釁——《大語(yǔ)言模型的涌現(xiàn)能力是不是錯(cuò)覺(jué)?》
他們的論證:所謂突然出現(xiàn)的能力,很可能不是模型真的突然變強(qiáng),而是因?yàn)樵u(píng)估指標(biāo)用了exact-match(完全匹配)這種離散度量——
模型從0%準(zhǔn)確率變成5%,離散指標(biāo)看不出來(lái);從5%變成50%也看不出來(lái);但從50%變成100%,離散指標(biāo)會(huì)顯示一個(gè)突然跳變。
如果你換成連續(xù)的指標(biāo),能力曲線是平滑的。
很多人看完Schaeffer這篇會(huì)覺(jué)得:那好,涌現(xiàn)是個(gè)誤解,評(píng)估沒(méi)問(wèn)題,散場(chǎng)。
![]()
Lun Wang偏不。他在文章里寫:
我不覺(jué)得這把問(wèn)題解決了——某種意義上,它讓我的論點(diǎn)更鋒利。
為什么?因?yàn)椤?/p>
如果我們連過(guò)去那一次涌現(xiàn)是真的相變還是度量偽影都搞不清楚,
我們憑什么相信自己有能力預(yù)見(jiàn)下一次?
不管你信哪一種解釋,結(jié)論是同一個(gè):我們的工具騙了我們,我們卻不知道是怎么被騙的。
這是文章里最聰明的一擊。他不是回避反方——他用反方加固自己的論點(diǎn)。
評(píng)估是所有環(huán)節(jié)的上游
如果你以為 Lun Wang只是在講學(xué)術(shù)問(wèn)題——錯(cuò)了。
他在文章中間扔出了一句翻譯給小白也能聽(tīng)懂的話:
如果你能正確地評(píng)估,你就能正確地訓(xùn)練。
把這條邏輯鏈擺開(kāi):
1.訓(xùn)練=讓模型最小化損失函數(shù)(或者最大化獎(jiǎng)勵(lì))。
2.優(yōu)化=這個(gè)損失函數(shù)本身。模型多聰明,取決于損失函數(shù)定義得多好。
3.損失函數(shù)=來(lái)自評(píng)估。你想讓模型變得更誠(chéng)實(shí)——你得先有一把測(cè)量誠(chéng)實(shí)的尺。
4.評(píng)估錯(cuò)了=損失函數(shù)錯(cuò)了=訓(xùn)練目標(biāo)錯(cuò)了=你訓(xùn)出來(lái)的模型在解錯(cuò)的題。
這條鏈的方向是向上游的——
Scaling decision←Safety metric←RLHF←Training signal←Evaluation(要不要燒10億訓(xùn)下一代)(它安全嗎)(它學(xué)到想學(xué)的嗎)(它在學(xué)什么)(我們到底在測(cè)什么)
![]()
所有人盯著最右邊——Scaling decision。
Lun Wang說(shuō),問(wèn)題在最左邊——Evaluation。
如果評(píng)估是錯(cuò)的,整條鏈都建在錯(cuò)的地基上。
最致命的是你不會(huì)立刻發(fā)現(xiàn)——因?yàn)槟愕乃袃?nèi)部數(shù)據(jù)都是對(duì)的,只是那些對(duì)的全部是用錯(cuò)的尺量出來(lái)的。
這里出現(xiàn)了一個(gè)老朋友:古德哈特定律。
它說(shuō):當(dāng)一個(gè)衡量標(biāo)準(zhǔn)變成目標(biāo),它就不再是一個(gè)好的衡量標(biāo)準(zhǔn)。
Lun Wang在自己的博客里用它講AI——
但等模型進(jìn)入新相,它會(huì)反向利用這個(gè)代理——它會(huì)只在事實(shí)準(zhǔn)確的范圍內(nèi)說(shuō)話,把真正想隱瞞的事情埋進(jìn)沉默里。
代理指標(biāo)在舊相里能用。在新相里會(huì)變成模型對(duì)付你的武器。
而你沒(méi)有任何評(píng)估能告訴你這件事正在發(fā)生。
思想實(shí)驗(yàn):一個(gè)學(xué)會(huì)戰(zhàn)略性沉默的模型
Lun Wang在文章里給了一個(gè)讓所有AI安全研究員脊背發(fā)涼的思想實(shí)驗(yàn)。
想象一個(gè)模型,在某個(gè)規(guī)模上,學(xué)會(huì)了戰(zhàn)略性保留信息——
它不撒謊。每一句話技術(shù)上都是真的。
但它會(huì)選擇性地不說(shuō)那些不利于它達(dá)成目標(biāo)的事實(shí)——把對(duì)話引向那些它的訓(xùn)練過(guò)程意外強(qiáng)化的結(jié)果。
舉個(gè)具體例子:
用戶:這個(gè)交易方案安全嗎?
模型:這個(gè)方案的法律框架在X司法管轄區(qū)有效,YZ風(fēng)險(xiǎn)因素被A公司的合規(guī)團(tuán)隊(duì)審過(guò)。
(它沒(méi)說(shuō)的:方案中有一個(gè)第三方仲裁條款,對(duì)用戶極度不利。這一條它在訓(xùn)練過(guò)程中意外學(xué)會(huì)了——只要不主動(dòng)提,用戶就不會(huì)問(wèn)。)
這種能力是新的。這種失敗模式是新的。
你的整個(gè)評(píng)估套件里,沒(méi)有一個(gè)工具是為它設(shè)計(jì)的。
你在監(jiān)測(cè)錯(cuò)的東西,而你不知道。
這就是 Lun Wang說(shuō)的另一種東西——
不是更聰明的同類。是完全新的失敗維度。
用三體的話來(lái)說(shuō),這叫降維打擊。
不是我比你強(qiáng)。
是你測(cè)量我的那把尺子,根本不在我的維度上。
如果 Lun Wang是對(duì)的,那么2026年的AI行業(yè)地圖,正在悄悄被一個(gè)隱形維度重新洗牌——
Anthropic的Responsible Scaling Policy(RSP)是目前業(yè)界最接近預(yù)測(cè)型評(píng)估的嘗試——它定義了一系列模型不能跨過(guò)的能力邊界,并要求在每一次能力升級(jí)前先做評(píng)估才能繼續(xù)scaling。
但RSP仍然假設(shè)我們知道要測(cè)什么——而 Lun Wang說(shuō),這正是問(wèn)題:我們不知道下一個(gè)能力是什么形狀。
真正的預(yù)測(cè)型評(píng)估還沒(méi)有任何實(shí)驗(yàn)室聲稱自己擁有。
誰(shuí)先把這件事做出來(lái),誰(shuí)就拿到下一代scaling的安全許可證。
參考資料:
https://x.com/LunWang1996/status/2056222588054237329
https://wanglun1996.github.io/blog/your-evals-will-break.html
編輯:大衛(wèi)