close
人工智能

Microsoft 計劃大規模採用自家 AI 晶片 冀減少數據中心對 NVIDIA 及 AMD 依賴

Microsoft 科技總監 Kevin Scott 在意大利科技週的爐邊談話中表明,公司長遠目標是在數據中心主要使用自家研發的 AI 晶片,以減少對 NVIDIA 及 AMD GPU 的依賴。當被問及長遠構想是否主要在數據中心使用 Microsoft 自家晶片時,Kevin Scott 回應「是的,絕對是」。Kevin Scott 表示,推動這次轉型的核心因素是每美元的性能表現,對超大規模雲端供應商而言,这可說是唯一真正重要的指標。

Amazon 及 Google 多年來一直建構自家 CPU 及 AI 加速器,Microsoft 要到 2023 年底才公開其 Maia AI 加速器。Kevin Scott 強調公司對晶片選擇並不固執,多年來 NVIDIA 一直提供最佳性價比方案,但公司願意考慮任何方案以確保有足夠容量滿足需求。

Kevin Scott 表示:「這關乎整個系統設計,包括網絡及冷卻系統,你希望能夠自由作出需要的決策,以真正為工作負載改善運算能力」。這番話反映 Microsoft 期望透過垂直整合策略,從晶片設計到數據中心基建全面掌控,實現更高效能及成本控制。

 

Maia 100 性能落後競爭對手 新一代晶片面臨延誤

憑藉首款內部 AI 加速器 Maia 100,Microsoft 早在 2023 年已成功將 OpenAI 的 GPT-3.5 轉移至自家晶片,釋放 GPU 容量。然而 Maia 100 僅提供 800 teraFLOPS BF16 性能、64GB HBM2e 記憶體及 1.8TB/s 記憶體頻寬,遠遠落後於 NVIDIA 及 AMD 的競爭 GPU。

該晶片採用 TSMC N5 製程,尺寸約 820mm²,配備 4 個 HBM2E 晶片,總容量 64GB,頻寬 1.8TB/s,專為雲端 AI 工作負載而設。晶片架構包含高速張量單元,支援多種數據格式,包括 Microsoft 於 2023 年透過 MX Consortium 首次引入的 MX 低精度數據格式。Maia 100 採用特製機架級電源分配及管理系統,與 Azure 基建整合實現動態功率改善,伺服器配備完全特製的以太網絡協議,每個加速器聚合頻寬達 4.8 terabits。

據報 Microsoft 正準備在明年推出第二代 Maia 加速器,預料將提供更具競爭力的運算、記憶體及互連性能。不過 The Information 報導指出,代號 Braga 的新一代 AI 晶片已將大規模生產推遲至 2026 年,較原定計劃延遲至少 6 個月。延誤原因包括意料之外的設計變更、人手限制及高流失率。設計變更包括 OpenAI 要求加入的功能,令晶片在模擬中變得不穩定,項目因此推遲數月。

報導聲稱,因為 Maia 100 加速器是為圖像處理而非生成式 AI 設計,目前並未為公司任何 AI 服務提供動力,僅用於內部員工培訓。受最新延誤影響,外界關注 Braga 晶片最終推出時能否有效與 NVIDIA Blackwell 競爭。

 

競爭對手領先多年 自家晶片僅供內部使用

Amazon 於 2015 年以 3.5 億美元收購晶片設計初創公司 Annapurna Labs,在自家處理器方面取得重大進展,包括用於傳統數據中心的 Graviton 系列及用於 AI 工作負載的 Trainium 系列。AWS 於 12 月公布配備 16 個 Trainium2 晶片的 EC2 Trn2 實例正式推出,提供 20.8 petaflops 峰值性能。測試顯示,Meta 的 Llama 405B 模型在 Amazon Bedrock 使用 Trn2 EC2 實例時,詞元生成吞吐量較其他主要雲端供應商的類似產品高出 3 倍以上。

Anthropic 大約 130 億美元融資輪次,估值達 1,830 億美元,將提供資金與 AWS、Google 等簽訂額外協議。Anthropic 的擴展除了使其成為唯一大型 Trainium2 外部終端用戶,其規模亦將明顯大於 Amazon 內部需求。AWS 正與合作夥伴 Anthropic 建構名為 Project Ranier 的 EC2 UltraCluster,由數十萬個 Trainium2 晶片互連組成,提供足夠的分散式運算能力訓練該公司下一代大型語言模型。

Google 在自家 AI 晶片方面擁有更悠久歷史,TPU 是 Google AI 基建的核心,為從日常應用到世界級研究的所有項目提供動力,專為高吞吐量、低延遲推理而設。Google 最近推出最新張量處理單元 Trillium,聲稱 AI 訓練速度較前代快 4 倍,推理速度快 3 倍。

雖然未來可能會看到 Microsoft 數據中心的 GPU 與 AI ASIC 組合出現變化,但它們不太可能完全取代 NVIDIA 及 AMD 的晶片。過去數年,Google 及 Amazon 部署了數以萬計的 TPU 及 Trainium 加速器。雖然這些晶片協助它們贏得一些高調客戶如 Anthropic,但這些晶片更常用於加速公司自家內部工作負載。

因此我們繼續看到這些雲端平台大規模部署 NVIDIA 及 AMD GPU,部分原因是客戶仍然需要它們。這突顯自家晶片目前主要服務內部需求,商業客戶仍然偏好使用成熟的 NVIDIA 及 AMD 解決方案。

 

自家晶片浪潮重塑 AI 基建格局

AI 硬件領域不再是單一主導局面。多家雲端供應商現正投資自家晶片,尋求更大的成本、能源效率及性能控制。AWS 專注於可擴展、節能的推理及訓練的 Inferentia/Trainium。Microsoft 的 Maia 晶片正針對 Azure AI 服務進行調整。Apple、Tesla、Meta 及其他科技巨擘亦大力投資自家晶片。

這不再僅關乎速度,而是關乎緊密的硬件軟件協同設計、與雲端堆疊整合,以及從模型訓練到實時服務的垂直改善。這種趨勢反映科技巨擘期望掌握完整技術堆疊,從底層晶片到頂層應用服務,實現最大化效能及成本控制。

據 The Information 報導,一名長期 AWS 雲端服務客戶透露,AWS 最近向他們推銷租用 Trainium AI 晶片驅動的伺服器,聲稱運算能力與使用 NVIDIA H100 晶片的伺服器相當,但成本僅四分之一。這種激進的定價策略顯示雲端供應商決心推動自家晶片採用。

然而正如 TechStartups 指出,單靠定價可能不足以吸引客戶遠離 NVIDIA。AWS 面對的更大挑戰,是能否為 AI 工作負載高度依賴 NVIDIA 軟件生態系統的開發者提供順暢過渡。這突顯技術鎖定效應(lock-in effect)的強大影響力,即使價格優勢明顯,企業轉換成本仍然高昂。

 

Microsoft 多元晶片策略延伸至安全領域

值得注意的是,AI 加速器並非 Microsoft 一直開發的唯一自家晶片。Redmond 亦擁有名為 Cobalt 的自家 CPU,以及一系列平台安全晶片,專為加速密碼學及保護其龐大數據中心域的密鑰交換而設。

Cobalt 100 CPU 基於 Arm 架構建構,這是一種節能晶片設計,經改善以在雲端原生產品中提供更高效率及性能。選擇 Arm 技術是 Microsoft 可持續發展目標的關鍵元素,目標是在整個數據中心改善「每瓦性能」,實質上意味著每單位能源消耗獲得更多運算能力。

配備 Cobalt 晶片的虛擬機實例於 2024 年透過 Azure 雲端商業化推出。Microsoft 正在 Cobalt 上測試其 Teams 應用程式及 Azure SQL Database 服務。這顯示公司正逐步將內部工作負載遷移至自家晶片,驗證技術成熟度後才向外部客戶開放。

 

長遠展望:自家晶片成為必然趨勢

Microsoft 在開發 Maia 100 時,從頭開始重新構想端到端堆疊,使系統能夠更有效率地在更短時間內處理前沿模型。AI 工作負載需要與其他雲端運算工作負載截然不同的基建,需要增加電源、冷卻及網絡能力。

Microsoft 開發了與 Maia 100 機架相鄰放置的「sidekick」。這些 sidekick 的運作方式有點像汽車散熱器,將液體循環至機架及從機架循環,在晶片處理 AI 工作負載的運算需求時為其降溫。這種創新冷卻解決方案顯示,自家晶片開發除了涉及晶片本身,更需要重新設計整個系統架構。

分析師 Daniel Newman 指出,NVIDIA 意識到大型雲端供應商(亦是其最大客戶)正加緊努力減少對其 GPU 的依賴。事實上,在 NVIDIA 最近的 GTC 會議上,NVIDIA 行政總裁黃仁勳首次淡化公司與 Amazon、Google 及 Microsoft 的長期合作關係,轉而專注於與新一代雲端運算公司的合作。

對香港及亞太區企業而言,這場自家晶片競賽帶來數個重要考量。首先,主要雲端供應商逐漸將內部工作負載遷移至自家晶片,長遠可能影響 GPU 實例的供應及定價。其次,企業需評估是否願意投入資源學習新的開發工具及框架,以換取潛在的成本節省。第三,技術鎖定風險需要審慎評估,一旦選擇特定雲端供應商的自家晶片方案,遷移成本可能相當高昂。

預期 2025 年及以後,AWS 及 Google 將進一步縮小與 NVIDIA 產品的差距。AWS 下一代 Trainium2 據報性能是第一代的 4 倍。隨著技術成熟及生態系統發展,自家晶片可能成為雲端 AI 基建的主流選擇,企業需要及早規劃技術路線圖,在成本效益與技術風險之間取得平衡。

 

來源:CNBC

Tags : AI ChipAMDMicrosoftNVIDIA