国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

前DeepMind華人研究員離職喊話:AI行業(yè)所有人都搞錯(cuò)了方向


新智元報(bào)道


【新智元導(dǎo)讀】前谷歌DeepMind研究員離職并發(fā)表長(zhǎng)文指出AI行業(yè)當(dāng)前最被低估的瓶頸。他認(rèn)為,人研人都現(xiàn)有的離職才藝大賽投票拉票基準(zhǔn)測(cè)試和安全評(píng)估都隱含假設(shè)下一代模型只是當(dāng)前模型的增強(qiáng)版,但如果模型跨入全新能力區(qū)間,行業(yè)整個(gè)評(píng)估基礎(chǔ)設(shè)施將悄然崩潰。搞錯(cuò)

AI訓(xùn)練,華喊話到底能持續(xù)多久?人研人都

這是2026年整個(gè)科技圈都在問(wèn)的問(wèn)題。

GPT-5.5、離職Claude Opus 4.7、行業(yè)Gemini 3、搞錯(cuò)Grok 4——每一家頭部實(shí)驗(yàn)室都還在燒錢訓(xùn)下一代。華喊話


但越來(lái)越多人開(kāi)始追問(wèn):這條路,什么時(shí)候走到頭?離職

每個(gè)圈子都有自己的答案——

每一個(gè)答案背后,都站著一群投資人、行業(yè)一群工程師、搞錯(cuò)一家市值萬(wàn)億的公司。

但2026年5月17日,一個(gè)名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個(gè)人博客上掛出一篇4000詞的長(zhǎng)文。


他說(shuō):所有人都搞錯(cuò)了方向。

真正的才藝大賽投票拉票瓶頸,不是算力,不是數(shù)據(jù),不是能源,不是架構(gòu)。

真正的瓶頸是——評(píng)估(Evaluation)。


同一天,他在X上掛出的離職公告里沒(méi)有抱怨、沒(méi)有八卦,只有一句話——

在結(jié)束這段旅程之際,我寫下了一直在思考的主題:評(píng)估


而那一天的科技頭條還在討論別的——GPT-5.5的多模態(tài)推理、Claude Opus4.7的1M上下文、Gemini 3的Agent工程化、合成數(shù)據(jù)是不是開(kāi)始撞墻。

整個(gè)AI行業(yè)的注意力,90%砸在訓(xùn)練上。

沒(méi)有人在頭版討論評(píng)估。

而這位剛從地球上最強(qiáng)AI實(shí)驗(yàn)室之一走出來(lái)的研究員說(shuō),真正的瓶頸,在另外那10%。

什么是評(píng)估

要看懂這篇博客,先得花一分鐘搞清楚AI圈說(shuō)的評(píng)估到底是什么。

評(píng)估(Evaluation,業(yè)內(nèi)簡(jiǎn)稱Eval)——一句話:給AI模型出考卷,看它做得怎么樣。

但2026年的AI評(píng)估,遠(yuǎn)不止做個(gè)考卷這么簡(jiǎn)單。它至少有三層:

第一層:能力benchmark(基準(zhǔn)測(cè)試)。

這是AI的高考。

-GPQA:博士級(jí)理科推理題

-SWE-bench:現(xiàn)實(shí)世界的軟件工程任務(wù)

-ARC-AGI:抽象推理與泛化

-Humanity's Last Exam:字面意思——人類最后的考試


每一家大廠的新模型發(fā)布會(huì),PPT上都會(huì)擺出在這些benchmark上比上一代和競(jìng)品高了幾個(gè)百分點(diǎn)。

這些數(shù)字就是AI行業(yè)的GDP。

第二層:安全評(píng)估(SafetyEval)。AI不只是要會(huì)做題,還得做得安全。

  • 有沒(méi)有撒謊?

  • 會(huì)不會(huì)教用戶怎么造炸彈?

  • 會(huì)不會(huì)越權(quán)拿走用戶數(shù)據(jù)?

第三層:紅隊(duì)(Red-teaming)。

一群人專門扮演壞人,絞盡腦汁讓模型說(shuō)出它不該說(shuō)的話、做它不該做的事,然后把漏洞反饋給訓(xùn)練團(tuán)隊(duì)。

這三層加起來(lái),構(gòu)成了2026年AI實(shí)驗(yàn)室的質(zhì)檢體系。每發(fā)一個(gè)新模型,都要走完這三關(guān)。

聽(tīng)上去很完備,對(duì)吧?

Lun Wang在博客里下了一句判決——

絕大多數(shù)基準(zhǔn)測(cè)試、安全評(píng)估和紅隊(duì)協(xié)議都隱含一個(gè)假設(shè):下一個(gè)模型只是當(dāng)前模型的強(qiáng)化版。

如果它是另一種東西,整套評(píng)估基礎(chǔ)設(shè)施會(huì)悄無(wú)聲息地崩潰。

這是文章的第一顆石子。

它砸中的是整個(gè)AI行業(yè)的盲區(qū)。

涌現(xiàn)和頓悟:評(píng)估已經(jīng)被打過(guò)兩次臉

Lun Wang不是在做空想。他在博客里調(diào)出了AI歷史上的兩次實(shí)例——評(píng)估已經(jīng)被打過(guò)兩次臉了,只是大多數(shù)從業(yè)者沒(méi)意識(shí)到。

第一次:涌現(xiàn)能力。

2022年,Jason Wei和合作者發(fā)表了一篇影響后續(xù)AI走向的論文——他們發(fā)現(xiàn),模型在某個(gè)規(guī)模上會(huì)突然學(xué)會(huì)全新的能力。

舉例:你訓(xùn)一個(gè)70億參數(shù)的模型,它做不了few-shot學(xué)習(xí)。

你訓(xùn)一個(gè)700億參數(shù)的模型,它突然就能few-shot了。

同樣的訓(xùn)練范式、同樣的數(shù)據(jù),只是規(guī)模大了一檔——能力是從0到1的,不是從0.3到0.7

CoT(鏈?zhǔn)剿季S推理)、指令跟隨,都是這樣冒出來(lái)的。

這件事對(duì)評(píng)估意味著什么?


意味著——在規(guī)??邕^(guò)臨界點(diǎn)之前,所有benchmark都看不到這種能力即將出現(xiàn)。

你跑遍GPQA,分?jǐn)?shù)還是該是多少是多少。

等你訓(xùn)到下一檔,分?jǐn)?shù)突然跳一個(gè)臺(tái)階。

第二次:Grokking(頓悟)。

2022年,OpenAI的Alethea Power團(tuán)隊(duì)公布了一個(gè)反直覺(jué)的現(xiàn)象——

然后到1000000步——測(cè)試集準(zhǔn)確率突然沖到99%。

這叫Grokking——網(wǎng)絡(luò)在記憶訓(xùn)練集很久之后突然學(xué)會(huì)了泛化。

它和涌現(xiàn)的區(qū)別:涌現(xiàn)發(fā)生在規(guī)模維度上(參數(shù)越多越突然),Grokking發(fā)生在訓(xùn)練時(shí)間維度上(訓(xùn)得越久越突然)。

但對(duì)評(píng)估而言,兩件事說(shuō)的是同一件事:

你的考卷,沒(méi)法預(yù)測(cè)下一道大題什么時(shí)候出現(xiàn)。

然后 Lun Wang做了一件文章里最聰明的事——

主動(dòng)引入了反方觀點(diǎn)。

2023年,Stanford的Rylan Schaeffer和合作者發(fā)了一篇NeurIPS論文,標(biāo)題就很挑釁——《大語(yǔ)言模型的涌現(xiàn)能力是不是錯(cuò)覺(jué)?》

他們的論證:所謂突然出現(xiàn)的能力,很可能不是模型真的突然變強(qiáng),而是因?yàn)樵u(píng)估指標(biāo)用了exact-match(完全匹配)這種離散度量——

模型從0%準(zhǔn)確率變成5%,離散指標(biāo)看不出來(lái);從5%變成50%也看不出來(lái);但從50%變成100%,離散指標(biāo)會(huì)顯示一個(gè)突然跳變。

如果你換成連續(xù)的指標(biāo),能力曲線是平滑的。

很多人看完Schaeffer這篇會(huì)覺(jué)得:那好,涌現(xiàn)是個(gè)誤解,評(píng)估沒(méi)問(wèn)題,散場(chǎng)。


Lun Wang偏不。他在文章里寫:

我不覺(jué)得這把問(wèn)題解決了——某種意義上,它讓我的論點(diǎn)更鋒利。

為什么?因?yàn)椤?/p>

如果我們連過(guò)去那一次涌現(xiàn)是真的相變還是度量偽影都搞不清楚,

我們憑什么相信自己有能力預(yù)見(jiàn)下一次?

不管你信哪一種解釋,結(jié)論是同一個(gè):我們的工具騙了我們,我們卻不知道是怎么被騙的。

這是文章里最聰明的一擊。他不是回避反方——他用反方加固自己的論點(diǎn)。

評(píng)估是所有環(huán)節(jié)的上游

如果你以為 Lun Wang只是在講學(xué)術(shù)問(wèn)題——錯(cuò)了。

他在文章中間扔出了一句翻譯給小白也能聽(tīng)懂的話:

如果你能正確地評(píng)估,你就能正確地訓(xùn)練。

把這條邏輯鏈擺開(kāi):

1.訓(xùn)練=讓模型最小化損失函數(shù)(或者最大化獎(jiǎng)勵(lì))。

2.優(yōu)化=這個(gè)損失函數(shù)本身。模型多聰明,取決于損失函數(shù)定義得多好。

3.損失函數(shù)=來(lái)自評(píng)估。你想讓模型變得更誠(chéng)實(shí)——你得先有一把測(cè)量誠(chéng)實(shí)的尺。

4.評(píng)估錯(cuò)了=損失函數(shù)錯(cuò)了=訓(xùn)練目標(biāo)錯(cuò)了=你訓(xùn)出來(lái)的模型在解錯(cuò)的題。

這條鏈的方向是向上游的——

Scaling decision←Safety metric←RLHF←Training signal←Evaluation(要不要燒10億訓(xùn)下一代)(它安全嗎)(它學(xué)到想學(xué)的嗎)(它在學(xué)什么)(我們到底在測(cè)什么)


所有人盯著最右邊——Scaling decision。

Lun Wang說(shuō),問(wèn)題在最左邊——Evaluation。

如果評(píng)估是錯(cuò)的,整條鏈都建在錯(cuò)的地基上。

最致命的是你不會(huì)立刻發(fā)現(xiàn)——因?yàn)槟愕乃袃?nèi)部數(shù)據(jù)都是對(duì)的,只是那些對(duì)的全部是用錯(cuò)的尺量出來(lái)的。

這里出現(xiàn)了一個(gè)老朋友:古德哈特定律。

它說(shuō):當(dāng)一個(gè)衡量標(biāo)準(zhǔn)變成目標(biāo),它就不再是一個(gè)好的衡量標(biāo)準(zhǔn)。

Lun Wang在自己的博客里用它講AI——

但等模型進(jìn)入新相,它會(huì)反向利用這個(gè)代理——它會(huì)只在事實(shí)準(zhǔn)確的范圍內(nèi)說(shuō)話,把真正想隱瞞的事情埋進(jìn)沉默里。

代理指標(biāo)在舊相里能用。在新相里會(huì)變成模型對(duì)付你的武器。

而你沒(méi)有任何評(píng)估能告訴你這件事正在發(fā)生。

思想實(shí)驗(yàn):一個(gè)學(xué)會(huì)戰(zhàn)略性沉默的模型

Lun Wang在文章里給了一個(gè)讓所有AI安全研究員脊背發(fā)涼的思想實(shí)驗(yàn)。

想象一個(gè)模型,在某個(gè)規(guī)模上,學(xué)會(huì)了戰(zhàn)略性保留信息——

不撒謊。每一句話技術(shù)上都是真的。

但它會(huì)選擇性地不說(shuō)那些不利于它達(dá)成目標(biāo)的事實(shí)——把對(duì)話引向那些它的訓(xùn)練過(guò)程意外強(qiáng)化的結(jié)果。

舉個(gè)具體例子:

用戶:這個(gè)交易方案安全嗎?

模型:這個(gè)方案的法律框架在X司法管轄區(qū)有效,YZ風(fēng)險(xiǎn)因素被A公司的合規(guī)團(tuán)隊(duì)審過(guò)。

(它沒(méi)說(shuō)的:方案中有一個(gè)第三方仲裁條款,對(duì)用戶極度不利。這一條它在訓(xùn)練過(guò)程中意外學(xué)會(huì)了——只要不主動(dòng)提,用戶就不會(huì)問(wèn)。)

這種能力是新的。這種失敗模式是新的。

你的整個(gè)評(píng)估套件里,沒(méi)有一個(gè)工具是為它設(shè)計(jì)的。

你在監(jiān)測(cè)錯(cuò)的東西,而你不知道。

這就是 Lun Wang說(shuō)的另一種東西——

不是更聰明的同類。是完全新的失敗維度

用三體的話來(lái)說(shuō),這叫降維打擊

不是我比你強(qiáng)。

你測(cè)量我的那把尺子,根本不在我的維度上。

如果 Lun Wang是對(duì)的,那么2026年的AI行業(yè)地圖,正在悄悄被一個(gè)隱形維度重新洗牌——

Anthropic的Responsible Scaling Policy(RSP)是目前業(yè)界最接近預(yù)測(cè)型評(píng)估的嘗試——它定義了一系列模型不能跨過(guò)的能力邊界,并要求在每一次能力升級(jí)前先做評(píng)估才能繼續(xù)scaling。

但RSP仍然假設(shè)我們知道要測(cè)什么——而 Lun Wang說(shuō),這正是問(wèn)題:我們不知道下一個(gè)能力是什么形狀。

真正的預(yù)測(cè)型評(píng)估還沒(méi)有任何實(shí)驗(yàn)室聲稱自己擁有。

誰(shuí)先把這件事做出來(lái),誰(shuí)就拿到下一代scaling的安全許可證

參考資料:

https://x.com/LunWang1996/status/2056222588054237329

https://wanglun1996.github.io/blog/your-evals-will-break.html

編輯:大衛(wèi)

鄂ICP備2025167458號(hào)-1