DeepSeek首次有了視覺能力,技術論文卻被它連夜刪掉了


作者 | 孫芮
郵箱 | sunrui@pingwest.com

DeepSeek做了件罕見的事情:在終于開始灰測多模態能力后,它放出了一篇解釋背后技術的有視夜刪論文,但這篇論文卻在發布沒多久就又被悄悄撤掉。力技微信投票代投團隊

4月29日,被連DeepSeek研究員陳小康在X發布一條推文——現在,首次術論我們可以看見你了。有視夜刪配圖中,力技DeepSeek 標志性的被連鯨魚 logo 摘下眼罩,露出了眼睛。首次術論

過去,有視夜刪DeepSeek 最被外界熟知的力技是它在文本、代碼和推理任務上的被連能力。但真實世界里的首次術論問題,并不總是有視夜刪以文字形式出現。它們可能是力技一張照片、一頁論文圖表、一個網頁截圖、一份復雜表格,也可能是一個需要理解空間關系和視覺細節的現實場景。

對 DeepSeek 來說,視覺能力是讓它的推理能力從文本世界延伸到真實世界的關鍵一步。但這次灰測的視覺能力,很快被使用者們感覺到不同:它和其他模型給語言模型底座增加多模態功能不同,更像是一個單獨的模型,且不是以附庸形式定位,而是有某種原生的思考和推理能力。

就在大家好奇心增加的時候,DeepSeek發布了一篇解釋它追求的視覺能力的論文:《Thinking with Visual Primitives》。


Primitives是圖形學和幾何里的常用術語,Visual Primitves可以理解為那些用來描述幾何信息圖形空間信息的最基本元素,也可以稱為視覺基元。從這個題目就可以看出,DeepSeek眼里此刻最重要的“多模態”能力,依然是圍繞推理和思考,它要讓模型能在原生層面用圖形的基礎語言做更準確的思考。

這并不是微信投票代投團隊所有主流模型廠商在多模態領域的方向,這讓人意外,但這個想法非常有趣。DeepSeek再次給基礎研究提供了新的思路。

但更加讓人意外的是,這篇論文很快就被撤下了,沒有給出任何解釋,也不確定是否會再次發布。

所以,DeepSeek這次的視覺能力到底是怎樣的?我們結合實測、它的研究員的分享,以及這篇“消失”的論文的內容,來嘗試解釋一下它的做法。

1

01 當DeepSeek 的視覺能力,開始進入真實場景

目前DeepSeek的視覺模式還在灰度測試,逐步向用戶開放中。

從 X 上已經試用到這一功能的用戶反饋來看,DeepSeek 的視覺能力并不只是識別圖片里有什么,更重要的是,它會嘗試把圖像中的信息和已有的世界知識聯系起來。

有用戶在X上表示DeepSeek視覺模式的世界知識非常豐富,思考過程也很有趣。他在公司附近拍了一張照片,發給DeepSeek。在DeepSeek的思考過程中可以看到,它幾乎知道我公司附近的每一棟樓,并盡量搜索正確的那棟。并且這個過程中沒有用到聯網搜索能力。


還有用戶表示DeepSeek的網頁復刻還原能力非常好。這對設計師和產品經理來說,它可以讓視覺稿更快變成可演示的原型。以前從 Figma、截圖或參考網頁到可點擊 demo,中間需要設計師標注、開發切圖、工程師實現?,F在模型能直接讀懂頁面,并生成接近真實效果的網頁,讓想法驗證的周期大幅變短。


我實際測試了DeepSeek的視覺理解能力。我發送了一張迷宮圖讓它解答。



DeepSeek的思考過程十分嚴謹,它用的是反向推理的方法,從終點出發,逐步反向追蹤,走到起點。為了驗證解法的可行性,DeepSeek這一路徑用正向的方式走了一遍,然后它又核算了一遍,再輸出最終答案。整個過程中,DeepSeek推理了四遍路徑的可行性。


1

02 多模態模型的難題,不只是看不清

陳小康在30號發布的推文中給了更詳細的解釋:傳統的思維鏈(CoT)主要停留在語言空間里,但視覺推理需要更多能力。通過把點和框作為認知錨點,我們的模型彌合了“指代鴻溝”(Reference Gap),模擬了人類在視覺推理中常用的“指向—推理”協同機制。


通過DeepSeek發布的報告,我們可以看到他們針對視覺理解提出了一個新的推理框架,就是使用視覺基元進行思考(Thinking with Visual Primitives)。

什么是使用視覺基元進行思考呢?

簡單來說,就是讓模型在看圖推理時,不再只依賴自然語言描述,而是把圖像中的點、邊界框、路徑坐標等空間標記,也作為推理過程的一部分。

以往多模態模型面對一張圖片時,通常會用語言來組織思考。比如它會說“左邊那個人”“右上角的物體”“中間那條路”。但問題在于,這些描述在人類看來很自然,對模型來說卻并不總是精確。尤其在一張復雜圖片里,如果有很多相似的人、物體或區域,“左邊那個”“旁邊那個”很容易變得模糊,模型也可能在推理過程中把對象搞混。

DeepSeek 在報告中把這個問題稱為“指代鴻溝”。也就是說,模型不是完全看不見,而是看見之后,很難在連續的視覺空間中穩定地指向自己正在討論的對象。

視覺基元要解決的正是這個問題。所謂視覺基元,可以理解為模型在圖像中的“手指”。當模型數一張合照里有多少人時,它可以先用邊界框把每個人標出來,再進行統計;當模型判斷兩個物體的位置關系時,它可以先框出相關物體,再比較它們的相對位置;當模型走迷宮或追蹤一條線時,它可以用一串點記錄路徑,而不是只用語言說“往左、再往右”。

這樣一來,模型的推理就不再懸浮在文字里,而是被錨定到圖像中的具體位置。這也是 DeepSeek 使用視覺基元進行思考最重要的變化,多模態模型的能力不只是看得更清楚,還要指得更準確。

1

03 DeepSeek 怎么做視覺推理

陳小康指出,目前DeepSeek的視覺模型主要處理三類任務:計數、空間推理和拓撲推理。

DeepSeek 的做法不是簡單讓模型看更高分辨率的圖片,而是讓模型在推理過程中使用點、框、路徑坐標這些“視覺基元”,把每一步判斷都落到圖像中的具體位置上。

在計數任務上,DeepSeek 主要使用的是邊界框。

報告中說,多模態大語言模型一直很難做到準確計數,尤其是在密集場景中。人類在數東西時,通常會采用一種“系統掃描和累加”的方式,比如從左到右一個個點著數。但語言模型在對象數量較多時,很難建立精確的對象對應關系。為了解決這個問題,DeepSeek 使用邊界框作為視覺基元,為每個被計數對象提供明確的視覺錨點。

也就是說,模型不是直接憑感覺回答“有多少個”,而是先把目標對象找出來、框出來,再基于這些框進行統計。比如數一張合照里有多少人,模型會先框出圖中的每個人,再計算總數。對于更復雜的細粒度計數,比如“有幾只熊在地面上”,模型還會先找出所有熊,再逐一判斷它們是在樹上還是在地面,最后得出答案。


報告中還把計數分成了兩類:一類是粗粒度計數,比如數“狗”“人”“車”這類普通對象;另一類是細粒度計數,比如數“白色的狗”“左邊的狗”“站在地上的熊”。后者不僅要求模型識別對象,還要判斷顏色、位置、狀態等附加條件。DeepSeek 在這里采用的是“定位—驗證—統計”的流程,讓模型先找到候選對象,再逐個判斷是否符合問題條件。

在空間推理任務上,DeepSeek 也是先讓模型用視覺基元錨定對象,再進行關系判斷。

報告中說,空間推理和一般視覺問答被放在同一個類別里處理,因為這類任務的共同難點是:如果只用語言描述,模型很容易出現指代模糊和語義漂移。比如“灰色金屬物體”“旁邊那個小物體”“同樣大小的紫色橡膠物體”,這些說法如果不落到具體圖像區域上,模型在推理過程中很容易把對象搞混。


所以 DeepSeek 的方法是,讓模型先把關鍵對象框出來,再根據這些具體對象進行多步推理。報告中的例子是,模型需要判斷圖中是否存在一個紫色橡膠物體,和灰色金屬物體大小相同。模型會先定位灰色金屬球,判斷它是小物體;然后再逐一檢查其他小物體,看它們的顏色、材質、大小是否匹配。最后模型得出結論:圖中沒有符合條件的紫色橡膠物體。

在拓撲推理任務上,DeepSeek 主要使用的是點。

拓撲推理關心的不是某個物體是什么,而是路徑、連通性和結構關系。比如迷宮里從起點能不能走到終點,一堆交錯的線條中,某一條線最終連到哪個圖標。這類任務對多模態模型尤其困難,因為它要求模型持續跟蹤路徑,而不是看一眼就回答。

報告中說,純語言的思維鏈很難準確描述不規則形狀的軌跡,因此使用點作為認知單元的視覺基元,特別適合處理這類問題。


在迷宮導航任務中,DeepSeek 會讓模型先找到起點和終點,然后像做深度優先搜索一樣探索路徑。模型每走到一個關鍵位置,就用點坐標記錄下來;如果遇到死路,就回退到前一個岔路口,再嘗試另一條路徑。報告中提到,模型需要理解空間連通性和可達性,也就是判斷哪里有路、哪里被墻擋住、哪條路徑最終能到達終點。

在線條追蹤任務中,模型也會用一串點來表示自己沿著哪條線走。報告中說,這類任務的核心挑戰是交叉點消歧:當兩條線交叉時,模型必須根據局部幾何連續性判斷哪一條才是目標線的延續,而不是被另一條線帶走。為了防止模型只是靠顏色猜,DeepSeek 還設計了所有線條顏色和粗細都一樣的樣本,迫使模型真正根據曲線連續性來追蹤路徑。

1

04 視覺基元并不是終點

不過,使用視覺基元進行思考,并不意味著視覺推理問題已經被徹底解決。它最大的優勢,是讓模型的視覺推理變得更穩定,也更容易被驗證。

這會帶來兩個直接好處。

一是減少幻覺。模型如果要判斷“這里有沒有紫色橡膠物體”,就不能只憑語義猜測,而要先在圖中找出候選物體,再逐一排除。二是提高可解釋性。比如模型說一張圖里有 25 個人,如果它同時框出了這 25 個人,用戶就能判斷它有沒有漏數、重復數,或者把其他物體誤認成人。

這也是為什么 DeepSeek 的視覺模式在網頁復刻、迷宮求解、復雜圖像問答這類場景中會顯得更有用。網頁復刻需要模型理解頁面里的模塊、層級和布局關系;迷宮求解需要模型持續追蹤路徑;復雜圖像問答則要求模型在多個視覺線索之間來回比對。它們共同需要的不是一句籠統的圖片描述,而是模型能夠穩定地“看圖說話”。

另一個優勢是效率。報告中提到,DeepSeek 并不是簡單依賴大量視覺 token 來彌補視覺能力,而是通過更高效的視覺 token 壓縮架構,讓模型在較低圖像 token 消耗下仍然保持較強的推理能力。報告中說,對于 800×800 的輸入圖像,其模型在 KV cache 中只保留大約 90 個條目,卻能在計數和空間推理等基準上取得有競爭力的表現。

DeepSeek 想走的路線,并不是無限提高分辨率、堆更多圖像 token,而是讓模型更有效地使用視覺信息。

但這套方法也有局限,報告中提到這類方式有三部分的局限。


首先是受輸入分辨率限制,模型在細粒度場景下的表現仍然不夠理想,有時會輸出不夠精確的視覺基元。也就是說,如果圖像里的目標非常小、細節非常密,或者需要識別的區域邊界很模糊,點和框本身也可能標得不準。視覺基元能改善指代問題,但它不能完全替代感知能力。模型首先要看清楚,才談得上指得準。

第二個局限,這種能力目前還依賴顯式觸發。報告中說,當前使用視覺基元進行思考的能力需要通過明確觸發詞來激活,未來希望模型能夠根據具體上下文,自主判斷是否調用這一機制。

這意味著,現在模型未必會在每個需要的場景里自動使用這項能力。用戶如果只是普通地問“這張圖里有多少人”“這條路能不能走通”,模型可能仍然用普通語言推理,而不是主動輸出點、框或路徑。真正理想的狀態應該是,模型自己判斷這個問題是否需要精確視覺定位。如果是計數、路徑、空間關系這類任務,它就自動拿出“手指”;如果只是描述畫面氛圍,就不必調用這套機制。

第三個局限,是拓撲推理仍然很難。報告中說,使用點作為視覺基元來解決復雜拓撲推理問題,仍然是一項艱巨挑戰,目前模型的跨場景泛化能力也有限。

這不難理解。點可以告訴模型“我現在走到哪里”,但點本身并不直接表示“這里和那里是否連通”。在迷宮里,兩個點看起來很近,中間可能隔著一堵墻;在交錯線條中,兩條線可能在視覺上相交,但實際并不是同一條路徑的延續。模型不僅要標點,還要持續判斷連通關系、路徑方向和局部幾何連續性。只要中間某一步走錯,后面的推理就可能全部偏掉。

所以,視覺基元讓模型開始能夠在圖像中定位、比較和追蹤。但要真正處理開放世界里的復雜視覺問題,還需要更強的感知能力、更穩定的自主調用機制,以及更好的跨場景泛化能力。

在視覺理解層面,DeepSeek 給出的答案是,讓圖像不再只是輸入材料,而是成為模型推理過程的一部分。模型不只是看見世界,而是開始學會在世界中找到錨點。

這不像是一個附帶的研究,更像是DeepSeek對視覺的最重要的一個不同的理解。因此這次罕見的刪除論文行為也引起不少遐想,有人認為它對于開源模型來說“太強大”了,以至于不適合發表。真相如何可能要等DeepSeek自己給出解釋了。


點個愛心,再走 吧

鄂ICP備2025167458號-1