Microsoft 建立跨區數據中心網絡 推動次世代 AI 模型訓練革命

Microsoft 於 10 月啟動首個跨區數據中心集群節點,透過高速網絡連接威斯康辛州 Mount Pleasant 園區與喬治亞州 Atlanta 設施。這項名為 Fairwater 的基建項目標誌著科技巨擘正在改寫 AI 運算架構,期望可以將多個數據中心整合為單一虛擬超級電腦,訓練參數規模達數千億的新世代 AI 模型。

 

Microsoft 於 10 月啟動首個跨區數據中心集群節點,透過高速網絡連接威斯康辛州 Mount Pleasant 園區與喬治亞州 Atlanta 設施。這項名為 Fairwater 的基建項目標誌著 Microsoft 正在改寫 AI 運算架構,期望可以將多個數據中心整合為單一虛擬超級電腦,訓練參數規模達數千億的新世代 AI 模型。

Microsoft 計劃在 2025 年投資超過 800 億美元擴建全球 AI 基建,威斯康辛園區的初期投資已達 33 億美元,並承諾額外投入 40 億美元興建第二座同等規模設施,令總投資額突破 70 億美元。Microsoft Azure 技術總監 Mark Russinovich 表示,提升 AI 能力需要更龐大基建支援,現時訓練這些模型所需的基建規模已不只一個或兩個數據中心,而是需要多個設施配合。分散式網絡設計容許位處不同州份的 Fairwater 設施協作運作,將 AI 模型訓練時間從數個月縮短至數星期。網絡將連接數十萬顆先進 GPU 處理 AI 工作負載、EB 級儲存容量及數百萬顆 CPU 核心處理營運運算任務,共同支援 OpenAI、Microsoft AI Superintelligence Team、Copilot 功能及其他領先 AI 工作負載。

 

跨區運算突破單一設施限制

傳統數據中心設計用於為多個客戶運行數百萬個獨立應用程式。Microsoft 將這類設施稱為 AI 超級工廠,因為它在數百萬件硬件上運行一個複雜任務,而且不只是單一站點訓練 AI 模型,而是一個支援該任務的站點網絡。Microsoft 基建總經理 Alistair Speirs 解釋,公司正建立一個分散式網絡,作為虛擬超級電腦處理世界最大挑戰,這是單一設施無法做到。

Mark Russinovich 指出,其他企業確實需要能夠跨多個區域進行訓練,目前還沒有人遇到這個問題,因為他們尚未達到 Microsoft 現在的規模。要讓相隔遙遠的站點像一體般運作,需要新的網絡技術和全新的專用基建,原理類似擁擠高速公路上的共乘車道。

 

Fairwater 設施技術規格解構

Fairwater 集群設施採用兩層高設計,使用直接到晶片的液體冷卻技術。超過 90% 數據中心容量使用這套系統,只需在建造期間注水一次,並持續重複使用而沒有蒸發損失。每個機架最多可支援 140kW 功率,每行可達 1,360kW,配備數十萬顆最新 Nvidia GB200 和 GB300 GPU。每個機架裝載 72 顆 Nvidia Blackwell GPU,透過 NVLink 連接成單一域,提供 1.8TB GPU 間頻寬,讓每顆 GPU 存取 14TB 共用記憶體,每秒可處理 865,000 個 token,是目前任何雲端平台的最高吞吐量。

Atlanta 設施沒有配備不斷電系統 (UPS) 或發電機組。GPU 透過兩層 Ethernet 後端網絡連接成 pod 和集群,提供 800Gbps GPU 間連接。Microsoft 為網絡交換器開發了自家作業系統 SONiC,並擁有廣泛的生態系統,有助避免昂貴的供應商鎖定。公司與 OpenAI、Nvidia 等合作定義自訂網絡協定 Multi-Path Reliable Connected (MRC),實現網絡路由的控制和最佳化。

 

 

企業應用潛力與挑戰並存

跨區數據中心架構為企業 AI 應用帶來多重優勢。透過 Microsoft AI 廣域網 (AI WAN),多個區域園區協同運作為分散式超級電腦,跨地理位置整合運算、儲存和調度資源,提供彈性容量和韌性。企業可按工作負載需求靈活調配資源,在站點內擴展和橫向擴展網絡之間分配流量,以及透過橫跨大陸 AI WAN 跨站點調配。

現代 AI 工作負載,特別是大型語言模型 (LLM) 訓練,將整個數據中心視為單一電腦。數千個 GPU 或 TPU 在一個倉庫規模電腦內協同處理一項任務。全球數據中心即電腦 (Global-DaaC) 概念正在興起,多個數據中心在世界或區域範圍內作為統一運算實體運作,可釋放前所未有的模型規模、資源共享和高效機器學習任務調度。

然而技術挑戰依然存在。即使在理論光速下(光纖中約為每秒 208,000 公里),1,000 公里距離會產生約 5 毫秒單程延遲(來回約 10 毫秒),而現實電訊裝置會增加額外開銷。在需要頻繁同步梯度的同步分散式訓練中,即使幾毫秒也可能成為瓶頸。網絡最佳化和分散式調度策略可緩解這些影響,例如分層或管道同步,按位置分組 GPU,讓大部分通訊留在各數據中心內,只在合併各站點結果後進行偶爾或聚合更新。

DeepMind DiLoCo 演算法是本地 SGD 例子,每約 500 個訓練步驟才同步一次偽梯度。在 C4 資料集上的實驗中,DiLoCo 在 8 個獨立工作器上運行,達到與完全同步訓練相當的模型收斂,同時通訊資料交換量減少 500 倍。Google 已率先部署數百萬個液冷 TPU,佔超過 1GW 液冷 AI 晶片容量,並在 2025 年將有能力跨多個園區進行 GW 級訓練。

 

能源消耗與成本壓力激增

AI 數據中心能源需求正在重塑電力市場。美國數據中心在 2024 年消耗 183TWh 電力,佔全國總電力消耗超過 4%,大致相當於整個巴基斯坦年度電力需求。國際能源署 (IEA) 預測,到 2030 年這一數字將增長 133% 至 426TWh。典型 AI 專用超大規模設施年度電力消耗相當於 100,000 個家庭,而目前正在建設的更大設施預計將使用 20 倍電力。

2020 年全國批發電價平均徘徊在每兆瓦時 16 美元左右。到 2025 年,電力成本高度取決於所在位置。在數據中心活動頻繁地區,許多地方批發價格自 2020 年以來增倍一倍多。在記錄價格上漲節點中,超過 70% 位於重要數據中心活動 50 英里範圍內。

Grid Strategies 估計,到 2030 年美國將新增 120GW 電力需求,其中 60GW 來自數據中心,大致相當於意大利這個全球第八大經濟體在 2024 年的高峰小時用電需求。OpenAI 與 Nvidia 達成協議,計劃使用 Nvidia GPU 建造 10GW 數據中心,所需電力相當於紐約市在耗能夏季期間用電量。Grid Strategies 總裁 Rob Gramlich 指出,企業正在爭奪稀缺基建,推高變壓器、開關和斷路器等關鍵電氣裝置價格。實際上企業沒有足夠電力基建來滿足積極目標,甚至無法滿足適度中點目標,不論是發電還是輸電基建都不足。

 

市場趨勢與未來展望

Microsoft 與 OpenAI 和 Nvidia 最近發表論文《AI 訓練數據中心的功率穩定》,探討如何透過機架級硬件、韌體編排、預測遙測和設施整合的全堆疊創新來平滑功率峰值,將功率超調減少 40%,降低營運風險和成本。在 OCP 全球峰會上,Microsoft 與業界夥伴推出專門功率穩定工作組,目標是促進超大規模企業和硬件夥伴之間開放合作。

訓練超大規模 LLM 主要依賴擁有專用運算資源的集中式數據中心,但這種集中式方法因儲存容量、記憶體頻寬和通訊頻寬等限制而面臨可擴展性局限。開發資源高效的分散式訓練方法已成為超大規模 LLM 訓練關鍵研究焦點,目標是最佳化記憶體利用、通訊開銷和運算效率三個關鍵方面。領先的前沿 AI 模型訓練集群今年已擴展至 100,000 個 GPU,2025 年將有 300,000+ GPU 集群投入運作。

IEA 預測,到 2030 年全球數據中心電力需求將增加一倍以上,達到約 945TWh,略高於目前日本總電力消耗。AI 將是這一增長最重要驅動因素,AI 數據中心電力需求預計到 2030 年將增加四倍以上。在美國,數據中心用電量預計將佔 2030 年前電力需求增長近一半。企業需要加快對發電和電網新投資,提高數據中心效率和靈活性,並加強政策制定者、科技業和能源業之間對話。

對於希望部署大規模 AI 應用的企業而言,跨區數據中心架構提供了前所未有的運算彈性。企業可按需調配全球資源,在不同地理位置間平衡工作負載,同時降低單點故障風險。然而企業也必須正視隨之而來能源成本上漲、網絡延遲最佳化、以及分散式系統管理複雜度等挑戰。成功駕馭這些挑戰組織將在 AI 競賽中取得領先優勢。

 

來源:Microsoft