DeepSeek 新 DualPath 懶人包：新技術如何進一步幫企業節省 AI 及 GPU 支出

DeepSeek 聯手名校發表 DualPath 技術論文，揭示 AI 智能體推理中的儲存頻寬瓶頸問題。透過改良架構，無需增加硬件即可令 GPU 產能提升近兩倍，為企業部署 AI 智能體提供全新降本增效思路。

DeepSeek 聯合北京大學與清華大學剛發表技術論文，名為 DualPath。標題學術，但內容與每家部署 AI 智能體的企業息息相關，因為它揭示一個正悄悄蠶食 AI 投資回報的問題，AI 系統其實大部分時間都在「發呆」。

「DeepSeek 不是沒多少人使用嗎？」

這印象只說明了一件事：沒幾個人前往 DeepSeek 網站聊天。但這那從來不是這家公司真正的戰場。

DeepSeek 對企業值錢的地方，是它可以整個部署在你自己的機房裡——數據不出門，不經任何第三方伺服器。對醫療、金融、政府、製造業來說，這不是有更好，而是沒有就不能用。
DeepSeek 震驚業界，靠的不只是一個低成本數字，而是幾項有論文、有技術細節、被全球 AI 研究圈廣泛引用的原創工程成果。

第一項叫 MLA（多頭潛在注意力機制）於 DeepSeek 在 V2 中自行提出。AI 模型處理長對話時，需要把過往所有內容壓縮成一種叫「KV 快取」的記憶格式儲存起來，傳統做法非常佔記憶體。MLA 用一套壓縮演算法，把這份記憶的儲存體積縮減了約 93%，讓同樣的硬件可以處理長得多的對話，而且幾乎不損失準確度。

第二項是 DeepSeekMoE（混合專家架構）。傳統大模型每次回答問題，整個龐大的模型都要全部啟動，耗算力又費電。MoE 的思路是把模型拆成很多「專家」，每次只叫最相關的幾個出來工作。DeepSeek 把這個架構做得更細緻：671 億個參數的完整模型，每次實際啟動的只有 370 億，算力消耗大幅壓縮，表現卻不打折。

第三項是 GRPO（群組相對策略優化），是 DeepSeek 研究團隊在訓練強化學習模型時自行設計的演算法，省去了傳統方法中需要另外訓練一個龐大「評分模型」的步驟，讓整個訓練過程的記憶體需求大幅下降。

MLA、MoE、GRPO 以及眼前這篇 DualPath，講的都是「系統怎樣跑得更有效率」，他們一貫方向是：硬件不夠用，就把每一分現有資源都用盡。

很多時 GPU 在「發呆」

想像花了數千萬元聘請一批頂級廚師，每人每小時能炒出 1,000 道菜。但卻發現廚師每天有 8 成時間都在等食材，原因是倉庫送貨通道太窄，食材根本無法快速送達。廚師們站在那裡空等。

這就是今天大多數 AI 智能體系統真實狀況。「廚師」是 GPU，「食材」是過往對話記憶，「送貨通道」則是儲存系統頻寬。

根源在於 AI 智能體工作方式。傳統 AI 問答每次對話獨立，問完即結束。但智能體持續工作且反覆推理，一個任務可能來回過百輪，每一輪都要將所有對話記憶重新載入。根據 DeepSeek 研究數據，智能體每輪交互真正新增內容不足 1.3%，其餘 98.7% 均是舊記憶。

GPU 幾乎沒有新資料需要計算，卻要等龐大舊記憶從硬碟搬運過來才能開工。硬件發展趨勢令問題愈趨嚴重：最新一代 GPU 算力增長速度遠超儲存頻寬，兩者差距在這一代晶片上已拉開超過 14 倍。GPU 買得愈快，等候資料時間佔比反而愈高。

DualPath 提升 1.96 倍承接請求量

現有系統將所有記憶搬運工作壓在同一個入口，該入口早已飽和，旁邊另一規格完全相同的入口卻幾乎全程閒置。

DualPath 做法直接：開放第二個入口，讓資料也能從該處搬進來，再傳到需要的地方。完全不需增加新硬件，只是將現有資源用盡，讓兩個入口協同工作。推理計算與資料搬運分兩條路跑，互不干擾。

成效相當明顯：同一批硬件換了架構，系統能承接請求量平均提升 1.96 倍，幾乎增倍。直白而言，採用 DualPath 架構系統，實際產能相當於傳統架構兩套系統表現。

「誰的 GPU 更多」轉向「誰更懂得運用 GPU」

最直接問題是：現時 AI 服務商或內部技術團隊，有沒有進行這類更改底層的能力

如果沒有，購買的 GPU 算力實際上可能有一半都在閒置。問題不在硬件，而是架構沒用好。晶片再快也追不上資料搬運設計不良的系統，正如廚房再大也解決不了送貨通道太窄的問題。

這解釋為何部署 AI 智能體實際成本，往往比預期昂貴。智能體對儲存頻寬需求遠超傳統問答，很多企業估算成本時仍沿用舊有問答模式。

同時亦值得注意：這類底層架構改造難度，正拉開 AI 服務商之間差距。能自行進行這類改良的廠商，與單純租用 GPU 跑現成框架的廠商，實際效率可能相差一倍。挑選 AI 合作夥伴時，這一點比技術規格更值得深究。

拉遠一點看，DualPath 代表 AI 基礎設施競爭正在換跑道：從「誰的 GPU 更多」轉向「誰更懂得運用 GPU」。對企業而言，這意味著 AI 效能差距愈來愈難單靠增購硬件追回。

花錢前問問工程師資源是否有效利用

有技術人員評論這篇論文時指，DeepSeek 進行如此複雜的底層改良，根本因為算力受限，屬「無奈之舉」。

這話沒錯。但另一面同樣值得深思：手頭資源有限仍能做出近乎增倍的效能改善，這種被逼出來的工程能力，往往才是真正護城河。無論是對開發 AI 系統的人，還是對選擇合作夥伴的企業都一樣。

AI 基礎設施投資動輒過億，在掏錢前，「這些算力有沒有被用好？」這問題，可能比「要不要再買更多？」更值得先問清楚。

Next Read: OpenAI 完成 1,100 億美元融資　Amazon 領投 500 億加強合作關係 »

「DeepSeek 不是沒多少人使用嗎？」

很多時 GPU 在「發呆」

DualPath 提升 1.96 倍承接請求量

「誰的 GPU 更多」轉向「誰更懂得運用 GPU」

花錢前問問工程師 資源是否有效利用

花錢前問問工程師資源是否有效利用