DeepSeek 聯合北京大學與清華大學剛發表技術論文,名為 DualPath。標題學術,但內容與每家部署 AI 智能體的企業息息相關,因為它揭示一個正悄悄蠶食 AI 投資回報的問題,AI 系統其實大部分時間都在「發呆」。
「DeepSeek 不是沒多少人使用嗎?」
這印象只說明了一件事:沒幾個人前往 DeepSeek 網站聊天。但這那從來不是這家公司真正的戰場。
DeepSeek 對企業值錢的地方,是它可以整個部署在你自己的機房裡——數據不出門,不經任何第三方伺服器。對醫療、金融、政府、製造業來說,這不是有更好,而是沒有就不能用。
DeepSeek 震驚業界,靠的不只是一個低成本數字,而是幾項有論文、有技術細節、被全球 AI 研究圈廣泛引用的原創工程成果。
第一項叫 MLA(多頭潛在注意力機制)於 DeepSeek 在 V2 中自行提出。AI 模型處理長對話時,需要把過往所有內容壓縮成一種叫「KV 快取」的記憶格式儲存起來,傳統做法非常佔記憶體。MLA 用一套壓縮演算法,把這份記憶的儲存體積縮減了約 93%,讓同樣的硬件可以處理長得多的對話,而且幾乎不損失準確度。
第二項是 DeepSeekMoE(混合專家架構)。傳統大模型每次回答問題,整個龐大的模型都要全部啟動,耗算力又費電。MoE 的思路是把模型拆成很多「專家」,每次只叫最相關的幾個出來工作。DeepSeek 把這個架構做得更細緻:671 億個參數的完整模型,每次實際啟動的只有 370 億,算力消耗大幅壓縮,表現卻不打折。
第三項是 GRPO(群組相對策略優化),是 DeepSeek 研究團隊在訓練強化學習模型時自行設計的演算法,省去了傳統方法中需要另外訓練一個龐大「評分模型」的步驟,讓整個訓練過程的記憶體需求大幅下降。
MLA、MoE、GRPO 以及眼前這篇 DualPath,講的都是「系統怎樣跑得更有效率」,他們一貫方向是:硬件不夠用,就把每一分現有資源都用盡。
很多時 GPU 在「發呆」
想像花了數千萬元聘請一批頂級廚師,每人每小時能炒出 1,000 道菜。但卻發現廚師每天有 8 成時間都在等食材,原因是倉庫送貨通道太窄,食材根本無法快速送達。廚師們站在那裡空等。
這就是今天大多數 AI 智能體系統真實狀況。「廚師」是 GPU,「食材」是過往對話記憶,「送貨通道」則是儲存系統頻寬。
根源在於 AI 智能體工作方式。傳統 AI 問答每次對話獨立,問完即結束。但智能體持續工作且反覆推理,一個任務可能來回過百輪,每一輪都要將所有對話記憶重新載入。根據 DeepSeek 研究數據,智能體每輪交互真正新增內容不足 1.3%,其餘 98.7% 均是舊記憶。
GPU 幾乎沒有新資料需要計算,卻要等龐大舊記憶從硬碟搬運過來才能開工。硬件發展趨勢令問題愈趨嚴重:最新一代 GPU 算力增長速度遠超儲存頻寬,兩者差距在這一代晶片上已拉開超過 14 倍。GPU 買得愈快,等候資料時間佔比反而愈高。
DualPath 提升 1.96 倍承接請求量
現有系統將所有記憶搬運工作壓在同一個入口,該入口早已飽和,旁邊另一規格完全相同的入口卻幾乎全程閒置。
DualPath 做法直接:開放第二個入口,讓資料也能從該處搬進來,再傳到需要的地方。完全不需增加新硬件,只是將現有資源用盡,讓兩個入口協同工作。推理計算與資料搬運分兩條路跑,互不干擾。
成效相當明顯:同一批硬件換了架構,系統能承接請求量平均提升 1.96 倍,幾乎增倍。直白而言,採用 DualPath 架構系統,實際產能相當於傳統架構兩套系統表現。
「誰的 GPU 更多」轉向「誰更懂得運用 GPU」
最直接問題是:現時 AI 服務商或內部技術團隊,有沒有進行這類更改底層的能力
如果沒有,購買的 GPU 算力實際上可能有一半都在閒置。問題不在硬件,而是架構沒用好。晶片再快也追不上資料搬運設計不良的系統,正如廚房再大也解決不了送貨通道太窄的問題。
這解釋為何部署 AI 智能體實際成本,往往比預期昂貴。智能體對儲存頻寬需求遠超傳統問答,很多企業估算成本時仍沿用舊有問答模式。
同時亦值得注意:這類底層架構改造難度,正拉開 AI 服務商之間差距。能自行進行這類改良的廠商,與單純租用 GPU 跑現成框架的廠商,實際效率可能相差一倍。挑選 AI 合作夥伴時,這一點比技術規格更值得深究。
拉遠一點看,DualPath 代表 AI 基礎設施競爭正在換跑道:從「誰的 GPU 更多」轉向「誰更懂得運用 GPU」。對企業而言,這意味著 AI 效能差距愈來愈難單靠增購硬件追回。
花錢前問問工程師 資源是否有效利用
有技術人員評論這篇論文時指,DeepSeek 進行如此複雜的底層改良,根本因為算力受限,屬「無奈之舉」。
這話沒錯。但另一面同樣值得深思:手頭資源有限仍能做出近乎增倍的效能改善,這種被逼出來的工程能力,往往才是真正護城河。無論是對開發 AI 系統的人,還是對選擇合作夥伴的企業都一樣。
AI 基礎設施投資動輒過億,在掏錢前,「這些算力有沒有被用好?」這問題,可能比「要不要再買更多?」更值得先問清楚。