国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

<tfoot id="cqgdc"></tfoot>

首頁(yè) 娛樂(lè) 正文

前DeepMind華人研究員離職喊話：AI行業(yè)所有人都搞錯(cuò)了方向

新聞資訊網(wǎng) 娛樂(lè) 2026-06-21 22:00:04

0

新智元報(bào)道

【新智元導(dǎo)讀】前谷歌DeepMind研究員離職并發(fā)表長(zhǎng)文指出AI行業(yè)當(dāng)前最被低估的瓶頸。他認(rèn)為，人研人都現(xiàn)有的離職才藝大賽投票拉票基準(zhǔn)測(cè)試和安全評(píng)估都隱含假設(shè)下一代模型只是當(dāng)前模型的增強(qiáng)版，但如果模型跨入全新能力區(qū)間，行業(yè)整個(gè)評(píng)估基礎(chǔ)設(shè)施將悄然崩潰。搞錯(cuò)

AI訓(xùn)練，華喊話到底能持續(xù)多久？人研人都

這是2026年整個(gè)科技圈都在問(wèn)的問(wèn)題。

GPT-5.5、離職Claude Opus 4.7、行業(yè)Gemini 3、搞錯(cuò)Grok 4——每一家頭部實(shí)驗(yàn)室都還在燒錢訓(xùn)下一代。華喊話

但越來(lái)越多人開(kāi)始追問(wèn)：這條路，什么時(shí)候走到頭？離職

每個(gè)圈子都有自己的答案——

每一個(gè)答案背后，都站著一群投資人、行業(yè)一群工程師、搞錯(cuò)一家市值萬(wàn)億的公司。

但2026年5月17日，一個(gè)名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個(gè)人博客上掛出一篇4000詞的長(zhǎng)文。

他說(shuō)：所有人都搞錯(cuò)了方向。

真正的才藝大賽投票拉票瓶頸，不是算力，不是數(shù)據(jù)，不是能源，不是架構(gòu)。

真正的瓶頸是——評(píng)估（Evaluation）。

同一天，他在X上掛出的離職公告里沒(méi)有抱怨、沒(méi)有八卦，只有一句話——

在結(jié)束這段旅程之際，我寫下了一直在思考的主題：評(píng)估。

而那一天的科技頭條還在討論別的——GPT-5.5的多模態(tài)推理、Claude Opus4.7的1M上下文、Gemini 3的Agent工程化、合成數(shù)據(jù)是不是開(kāi)始撞墻。

整個(gè)AI行業(yè)的注意力，90%砸在訓(xùn)練上。

沒(méi)有人在頭版討論評(píng)估。

而這位剛從地球上最強(qiáng)AI實(shí)驗(yàn)室之一走出來(lái)的研究員說(shuō)，真正的瓶頸，在另外那10%。

什么是評(píng)估

要看懂這篇博客，先得花一分鐘搞清楚AI圈說(shuō)的評(píng)估到底是什么。

評(píng)估（Evaluation，業(yè)內(nèi)簡(jiǎn)稱Eval）——一句話：給AI模型出考卷，看它做得怎么樣。

但2026年的AI評(píng)估，遠(yuǎn)不止做個(gè)考卷這么簡(jiǎn)單。它至少有三層：

第一層：能力benchmark（基準(zhǔn)測(cè)試）。

這是AI的高考。

-GPQA：博士級(jí)理科推理題

-SWE-bench：現(xiàn)實(shí)世界的軟件工程任務(wù)

-ARC-AGI：抽象推理與泛化

-Humanity's Last Exam：字面意思——人類最后的考試

每一家大廠的新模型發(fā)布會(huì)，PPT上都會(huì)擺出在這些benchmark上比上一代和競(jìng)品高了幾個(gè)百分點(diǎn)。

這些數(shù)字就是AI行業(yè)的GDP。

第二層：安全評(píng)估（SafetyEval）。AI不只是要會(huì)做題，還得做得安全。

有沒(méi)有撒謊？
會(huì)不會(huì)教用戶怎么造炸彈？
會(huì)不會(huì)越權(quán)拿走用戶數(shù)據(jù)？

第三層：紅隊(duì)（Red-teaming）。

一群人專門扮演壞人，絞盡腦汁讓模型說(shuō)出它不該說(shuō)的話、做它不該做的事，然后把漏洞反饋給訓(xùn)練團(tuán)隊(duì)。

這三層加起來(lái)，構(gòu)成了2026年AI實(shí)驗(yàn)室的質(zhì)檢體系。每發(fā)一個(gè)新模型，都要走完這三關(guān)。

聽(tīng)上去很完備，對(duì)吧？

Lun Wang在博客里下了一句判決——

絕大多數(shù)基準(zhǔn)測(cè)試、安全評(píng)估和紅隊(duì)協(xié)議都隱含一個(gè)假設(shè)：下一個(gè)模型只是當(dāng)前模型的強(qiáng)化版。

如果它是另一種東西，整套評(píng)估基礎(chǔ)設(shè)施會(huì)悄無(wú)聲息地崩潰。

這是文章的第一顆石子。

它砸中的是整個(gè)AI行業(yè)的盲區(qū)。

涌現(xiàn)和頓悟：評(píng)估已經(jīng)被打過(guò)兩次臉

Lun Wang不是在做空想。他在博客里調(diào)出了AI歷史上的兩次實(shí)例——評(píng)估已經(jīng)被打過(guò)兩次臉了，只是大多數(shù)從業(yè)者沒(méi)意識(shí)到。

第一次：涌現(xiàn)能力。

2022年，Jason Wei和合作者發(fā)表了一篇影響后續(xù)AI走向的論文——他們發(fā)現(xiàn)，模型在某個(gè)規(guī)模上會(huì)突然學(xué)會(huì)全新的能力。

舉例：你訓(xùn)一個(gè)70億參數(shù)的模型，它做不了few-shot學(xué)習(xí)。

你訓(xùn)一個(gè)700億參數(shù)的模型，它突然就能few-shot了。

同樣的訓(xùn)練范式、同樣的數(shù)據(jù)，只是規(guī)模大了一檔——能力是從0到1的，不是從0.3到0.7。

CoT（鏈?zhǔn)剿季S推理）、指令跟隨，都是這樣冒出來(lái)的。

這件事對(duì)評(píng)估意味著什么？

意味著——在規(guī)?？邕^(guò)臨界點(diǎn)之前，所有benchmark都看不到這種能力即將出現(xiàn)。

你跑遍GPQA，分?jǐn)?shù)還是該是多少是多少。

等你訓(xùn)到下一檔，分?jǐn)?shù)突然跳一個(gè)臺(tái)階。

第二次：Grokking（頓悟）。

2022年，OpenAI的Alethea Power團(tuán)隊(duì)公布了一個(gè)反直覺(jué)的現(xiàn)象——

然后到1000000步——測(cè)試集準(zhǔn)確率突然沖到99%。

這叫Grokking——網(wǎng)絡(luò)在記憶訓(xùn)練集很久之后突然學(xué)會(huì)了泛化。

它和涌現(xiàn)的區(qū)別：涌現(xiàn)發(fā)生在規(guī)模維度上（參數(shù)越多越突然），Grokking發(fā)生在訓(xùn)練時(shí)間維度上（訓(xùn)得越久越突然）。

但對(duì)評(píng)估而言，兩件事說(shuō)的是同一件事：

你的考卷，沒(méi)法預(yù)測(cè)下一道大題什么時(shí)候出現(xiàn)。

然后 Lun Wang做了一件文章里最聰明的事——

他主動(dòng)引入了反方觀點(diǎn)。

2023年，Stanford的Rylan Schaeffer和合作者發(fā)了一篇NeurIPS論文，標(biāo)題就很挑釁——《大語(yǔ)言模型的涌現(xiàn)能力是不是錯(cuò)覺(jué)？》

他們的論證：所謂突然出現(xiàn)的能力，很可能不是模型真的突然變強(qiáng)，而是因?yàn)樵u(píng)估指標(biāo)用了exact-match（完全匹配）這種離散度量——

模型從0%準(zhǔn)確率變成5%，離散指標(biāo)看不出來(lái)；從5%變成50%也看不出來(lái)；但從50%變成100%，離散指標(biāo)會(huì)顯示一個(gè)突然跳變。

如果你換成連續(xù)的指標(biāo)，能力曲線是平滑的。

很多人看完Schaeffer這篇會(huì)覺(jué)得：那好，涌現(xiàn)是個(gè)誤解，評(píng)估沒(méi)問(wèn)題，散場(chǎng)。

Lun Wang偏不。他在文章里寫：

我不覺(jué)得這把問(wèn)題解決了——某種意義上，它讓我的論點(diǎn)更鋒利。

為什么？因?yàn)椤?/p>

如果我們連過(guò)去那一次涌現(xiàn)是真的相變還是度量偽影都搞不清楚，

我們憑什么相信自己有能力預(yù)見(jiàn)下一次？

不管你信哪一種解釋，結(jié)論是同一個(gè)：我們的工具騙了我們，我們卻不知道是怎么被騙的。

這是文章里最聰明的一擊。他不是回避反方——他用反方加固自己的論點(diǎn)。

評(píng)估是所有環(huán)節(jié)的上游

如果你以為 Lun Wang只是在講學(xué)術(shù)問(wèn)題——錯(cuò)了。

他在文章中間扔出了一句翻譯給小白也能聽(tīng)懂的話：

如果你能正確地評(píng)估，你就能正確地訓(xùn)練。

把這條邏輯鏈擺開(kāi)：

1.訓(xùn)練=讓模型最小化損失函數(shù)（或者最大化獎(jiǎng)勵(lì)）。

2.優(yōu)化=這個(gè)損失函數(shù)本身。模型多聰明，取決于損失函數(shù)定義得多好。

3.損失函數(shù)=來(lái)自評(píng)估。你想讓模型變得更誠(chéng)實(shí)——你得先有一把測(cè)量誠(chéng)實(shí)的尺。

4.評(píng)估錯(cuò)了=損失函數(shù)錯(cuò)了=訓(xùn)練目標(biāo)錯(cuò)了=你訓(xùn)出來(lái)的模型在解錯(cuò)的題。

這條鏈的方向是向上游的——

Scaling decision←Safety metric←RLHF←Training signal←Evaluation（要不要燒10億訓(xùn)下一代）（它安全嗎）（它學(xué)到想學(xué)的嗎）（它在學(xué)什么）（我們到底在測(cè)什么）

所有人盯著最右邊——Scaling decision。

Lun Wang說(shuō)，問(wèn)題在最左邊——Evaluation。

如果評(píng)估是錯(cuò)的，整條鏈都建在錯(cuò)的地基上。

最致命的是你不會(huì)立刻發(fā)現(xiàn)——因?yàn)槟愕乃袃?nèi)部數(shù)據(jù)都是對(duì)的，只是那些對(duì)的全部是用錯(cuò)的尺量出來(lái)的。

這里出現(xiàn)了一個(gè)老朋友：古德哈特定律。

它說(shuō)：當(dāng)一個(gè)衡量標(biāo)準(zhǔn)變成目標(biāo)，它就不再是一個(gè)好的衡量標(biāo)準(zhǔn)。

Lun Wang在自己的博客里用它講AI——

但等模型進(jìn)入新相，它會(huì)反向利用這個(gè)代理——它會(huì)只在事實(shí)準(zhǔn)確的范圍內(nèi)說(shuō)話，把真正想隱瞞的事情埋進(jìn)沉默里。

代理指標(biāo)在舊相里能用。在新相里會(huì)變成模型對(duì)付你的武器。

而你沒(méi)有任何評(píng)估能告訴你這件事正在發(fā)生。

思想實(shí)驗(yàn)：一個(gè)學(xué)會(huì)戰(zhàn)略性沉默的模型

Lun Wang在文章里給了一個(gè)讓所有AI安全研究員脊背發(fā)涼的思想實(shí)驗(yàn)。

想象一個(gè)模型，在某個(gè)規(guī)模上，學(xué)會(huì)了戰(zhàn)略性保留信息——

它不撒謊。每一句話技術(shù)上都是真的。

但它會(huì)選擇性地不說(shuō)那些不利于它達(dá)成目標(biāo)的事實(shí)——把對(duì)話引向那些它的訓(xùn)練過(guò)程意外強(qiáng)化的結(jié)果。

舉個(gè)具體例子：

用戶：這個(gè)交易方案安全嗎？

模型：這個(gè)方案的法律框架在X司法管轄區(qū)有效，YZ風(fēng)險(xiǎn)因素被A公司的合規(guī)團(tuán)隊(duì)審過(guò)。

（它沒(méi)說(shuō)的：方案中有一個(gè)第三方仲裁條款，對(duì)用戶極度不利。這一條它在訓(xùn)練過(guò)程中意外學(xué)會(huì)了——只要不主動(dòng)提，用戶就不會(huì)問(wèn)。）

這種能力是新的。這種失敗模式是新的。

你的整個(gè)評(píng)估套件里，沒(méi)有一個(gè)工具是為它設(shè)計(jì)的。

你在監(jiān)測(cè)錯(cuò)的東西，而你不知道。

這就是 Lun Wang說(shuō)的另一種東西——

不是更聰明的同類。是完全新的失敗維度。

用三體的話來(lái)說(shuō)，這叫降維打擊。

不是我比你強(qiáng)。

是你測(cè)量我的那把尺子，根本不在我的維度上。

如果 Lun Wang是對(duì)的，那么2026年的AI行業(yè)地圖，正在悄悄被一個(gè)隱形維度重新洗牌——

Anthropic的Responsible Scaling Policy（RSP）是目前業(yè)界最接近預(yù)測(cè)型評(píng)估的嘗試——它定義了一系列模型不能跨過(guò)的能力邊界，并要求在每一次能力升級(jí)前先做評(píng)估才能繼續(xù)scaling。

但RSP仍然假設(shè)我們知道要測(cè)什么——而 Lun Wang說(shuō)，這正是問(wèn)題：我們不知道下一個(gè)能力是什么形狀。

真正的預(yù)測(cè)型評(píng)估還沒(méi)有任何實(shí)驗(yàn)室聲稱自己擁有。

誰(shuí)先把這件事做出來(lái)，誰(shuí)就拿到下一代scaling的安全許可證。

參考資料：

https://x.com/LunWang1996/status/2056222588054237329

https://wanglun1996.github.io/blog/your-evals-will-break.html

編輯：大衛(wèi)

上一篇

智界郭銳透露V9超80%用戶選擇Ultra高階版本

下一篇

黃仁勛押注Token經(jīng)濟(jì)：你用的軟件正變成AI收費(fèi)站

鄂ICP備2025167458號(hào)-1

<p id="i12vq"></p>

<kbd id="i12vq"></kbd>