阿里雲 Aegaeon 新技術揭秘:減少 NVIDIA H20 晶片 GPU 用量 82% 企業 AI 部署迎來轉捩點

阿里雲 (Alibaba Cloud) 發表 Aegaeon GPU 池化技術,在測試中成功節省 82% Nvidia H20 資源。此技術專注於「推理」階段成本最佳化,與 DeepSeek 的「訓練」突破不同。本文深入分析此技術如何在中美晶片制裁背景下誕生,以及企業決策者應如何利用此類 GPU 效率技術,降低 AI 營運成本。

阿里雲推出名為 Aegaeon 的 GPU 池化系統,在為期三個月測試中,成功將服務 AI 模型所需 Nvidia H20 GPU 數量從 1,192 個削減至 213 個,實現 82% 資源節省。這項技術突破於 2025 年 10 月在首爾舉行第 31 屆 ACM 作業系統原理研討會 (SOSP) 上發表,但與今年 1 月 DeepSeek 引發市場震盪不同,這次創新聚焦於推理 (inference) 階段的資源最佳化,而非訓練 (training) 階段的成本突破。

此技術由阿里雲與北京大學研究團隊共同開發,針對雲端服務商面臨的核心難處:大量 GPU 資源被閒置或低使用率模型佔用。這個問題在全球雲端運算產業普遍存在,Alibaba Cloud 發現其 17.7% 的 GPU 資源僅服務 1.35% 用戶請求——這種資源錯配在 Nvidia GPU 供應受限且價格高昂當下,顯得格外棘手。

本文將分析 Aegaeon 技術的運作原理、對雲端運算產業的實質影響,以及為何這項突破不會如 DeepSeek 般引發 AI 投資恐慌,同時探討其對企業 IT 策略的啟示。

Token 級別調度:重新定義 GPU 資源分配效率

Aegaeon 的核心創新在於實現「token 級別自動擴展」 (token-level auto-scaling),允許單個 GPU 在生成 token 過程中即時切換服務不同模型。傳統方案中,每個 GPU 通常只能同時運行 2 至 3 個模型,這是因為 GPU 記憶體容量有限。Aegaeon 突破了這個限制,使單個 GPU 能夠支援多達 7 個模型,同時將模型切換延遲降低 97%。

這項技術運作機制類似於作業系統的記憶體管理。Aegaeon 開發了 GPU 池化和記憶體管理技術,能夠將資料卸載到主機記憶體或其他儲存裝置。當某个模型接收到推理請求時,系統會快速將所需資料載入 GPU;當模型閒置時,則將其資料暫存至成本較低儲存介質。這種動態資源調配策略,讓雲端服務商能在不增加硬件投資前提下,大幅提升 GPU 利用率。

研究論文獲得第 31 屆 ACM SIGOPS 作業系統原理研討會接受,這個學術會議被視為電腦系統領域的頂級論壇,其審查標準嚴格,這證明了 Aegaeon 技術的學術價值。然而正如原文指出,超大規模雲端服務商通常對其平台核心技術保密,因此其他業者可能已經實現類似甚至更優秀解決方案。

產業視角:推理最佳化與訓練突破的本質差異

市場對 Aegaeon 的反應遠較 DeepSeek 平靜,背後原因值得深究。DeepSeek 在 2025 年 1 月發布的 R1 模型訓練成本僅 29.4 萬美元 (約港幣 HK$229 萬),使用 512 個 Nvidia H800 晶片,這個數字遠低於 OpenAI 等西方 AI 實驗室投入的數億美元訓練成本。當時 Nvidia 股價暴跌,單日市值蒸發 6,000 億美元 (約港幣 4.68 兆元),創下美國股市歷史上單一公司最大跌幅。

相比之下 Aegaeon 專注於推理階段的效率提升,這是 AI 應用啟用後的日常運營成本,而非模型開發的一次性投入。全球資料中心 GPU 市場預計從 2024 年的 872 億美元 (約港幣 6,801 億元) 成長至 2030 年的 2,280 億美元 (約港幣 1.78 兆元),年複合成長率 13.7%,其中推理工作負載需求正快速增長。Nvidia 最新 L4 和 H100 GPU 以及 Meta 的大規模 GPU 使用,突顯了低延遲推理在聊天機械人和推薦引擎等即時應用中的關鍵地位。

Gartner 副總裁分析師 Chirag Dekate 曾向媒體表示:「推理最佳化技術的價值在於降低 AI 服務的持續營運成本,但不會像訓練成本突破那樣,從根本上改變 AI 開發的經濟模型。」GPU 即服務 (GPUaaS) 市場預計從 2024 年的 38 億美元 (約港幣 296.4 億元) 成長至 2030 年的 122.6 億美元 (約港幣 956.3 億元),年複合成長率 22.9%,Aegaeon 這類技術正是推動這個市場成長的關鍵因素。

中美 AI 競爭新格局:制裁催化技術創新

Aegaeon 的誕生背景,與中國 AI 產業面臨的晶片供應限制密不可分。Nvidia H20 晶片原本專為中國市場設計以符合美國出口管制,但在 2025 年 4 月遭到進一步限制,需要逐案申請許可證。這項禁令導致 Nvidia 第一季損失 25 億美元 (約港幣 195 億元) 銷售額和 45 億美元 (約港幣 351 億元) 庫存。

DeepSeek 創辦人梁文鋒在美國預期制裁前囤積大量 Nvidia A100 晶片,估計至少有 50,000 個單位,這讓該公司能夠結合較低階 H800 晶片開發出突破性模型。DeepSeek 在 2024 年獲得中國科技部授予「國家高新技術企業」地位,享有優惠稅收、政府補貼和研究經費,顯示北京將 AI 自主能力視為國家戰略優先事項。

Bernstein 預測 Nvidia 在中國 AI 晶片市場的佔有率將從 2024 年的 66% 降至 2025 年的 54%,原因包括 H20 供應中斷以及 Huawei、Cambricon 等本土競爭者崛起。中國監管機構以國家安全疑慮為由調查 H20 晶片,專家認為這是北京推動 AI 開發者採用國產晶片策略。

IDC 中國研究經理張亮指出:「美國出口管制創造了一個獨特市場機會,讓中國國產 AI 處理器廠商不必與全球最先進替代方案直接競爭。這種『保護性創新環境』正在加速本土技術成熟。」

未來展望:雲端運算成本結構的長期演變

Aegaeon 技術的產業意義超越單一企業,預示著雲端運算資源管理的範式轉移。AWS、Microsoft Azure 和 Google Cloud 正競相強化 GPU 服務,AWS 提供 Nvidia 支援的 EC2 實例,Azure 與 Nvidia 合作提供企業級先進 GPU,Google Cloud 支援可擴展任務的 Nvidia L4 GPU。這些超大規模業者都面臨相同挑戰:如何在 GPU 供應受限和需求爆發性成長之間取得平衡。

GPU 雲端伺服器市場預計在 2025-2031 年間以 18.7% 年複合成長率成長,到 2031 年達到 89.75 億美元 (約港幣 700 億元)。生成式 AI 和大型語言模型的整合是推動成長主要趨勢,企業利用 GPU 驅動的雲端平台訓練和部署自然語言處理、圖像生成和即時決策的 AI 模型。

值得注意是大數據分析領域已经展現 GPU 即服務的效益,企業報告資料處理速度提升 35%,營運費用降低 25%。這類效率提升對於計算需求波動企業特別有利,例如從事 AI 開發、大數據分析和渲染任務的公司。

Forrester 首席分析師 Paul McKay 表示:「AI 模型日趨專業化,未來將出現大量針對特定產業或情境的模型。Alibaba 的方法證明,雲端服務商能夠以經濟可行的方式運行這些小眾模型,而不會因為 GPU 資源需求而導致成本失控。」

企業策略啟示:如何善用 GPU 池化技術優勢

對於企業 IT 決策者而言,Aegaeon 技術的發展帶來三個關鍵啟示。首先 2025 年訓練工作負載預計佔資料中心 GPU 市場營收 61.7%,但隨著模型部署規模擴大,推理成本將逐漸超越訓練成本。企業應重新評估 AI 投資策略,在模型開發與部署運營之間取得更好平衡。

其次雲端服務的選擇應考慮 GPU 資源利用效率。大型企業主導 GPU 即服務市場,但中小企業預計以最快速度成長,因為 GPU 雲端服務變得更加經濟實惠。選擇採用先進資源調度技術的雲端平台,能夠顯著降低 AI 應用總擁有成本。

第三混合雲解決方案正在獲得關注,透過結合本地和雲端 GPU 資源提供彈性。企業可以將關鍵或敏感工作負載保留在本地,同時利用雲端彈性處理峰值需求。

Gartner 預測到 2027 年,中國 AI 晶片市場本地化比例將從 2023 年的 17% 激增至 55%。這種地緣政治驅動技術自主趨勢,將重塑全球 AI 供應鏈。企業需要建立多元化供應商策略,避免過度依賴單一技術生態系統。

結語:效率創新不會顛覆市場,但將重塑競爭格局

阿里雲的 Aegaeon 系統證明,在 GPU 供應受限環境下,軟件層面的創新能夠釋放顯著效率提升空間。與 DeepSeek 引發訓練成本革命不同,這項推理最佳化技術不會從根本上改變 AI 投資邏輯,但將逐步降低 AI 服務營運門檻,讓更多企業能夠負擔先進 AI 應用。

隨著資料中心 GPU 市場預計從 2025 年的 216 億美元 (約港幣 1,685 億元) 成長至 2035 年的 2,655 億美元 (約港幣 2.07 兆元),年複合成長率 28.5%,GPU 資源管理效率將成為雲端服務商核心競爭力。對於企業而言,關鍵不在於是否採用最先進硬件,而是如何透過智慧化資源調度,在成本與效能之間找到最佳平衡點。

您的企業是否已經評估 AI 推理成本在總 IT 支出中的比重?隨著模型部署規模擴大,這個問題將變得越來越重要。

[最後更新:2025 年 10 月 21 日]

資料來源: Tom’s Hardware South China Morning Post CNN Business MarketsandMarkets Grand View Research