close
人工智能

AWS 數十萬 AI 晶片建設超級集群 助 Anthropic 挑戰 OpenAI

Amazon Web Services(AWS)正建設名為 Project Rainier 的超級運算集群,包含數十萬個自家研發 Trainium2 AI 晶片,為投資夥伴 Anthropic 提供強大運算能力。這個系統計劃今年底上線,橫跨美國多個數據中心。

報導指,單是印第安那州的設施就包含 30 個數據中心,每個佔地 20 萬平方英呎,耗電量超過 2.2 吉瓦。Amazon 已向 Anthropic 投資 80 億美元(約 624 億港元,按 1 美元兌 7.8 港元計算),希望助其在與 OpenAI 的競爭中取得優勢。項目採用 Amazon 自研的 Trainium2 晶片,而非 GPU,是 AWS 自研 AI 晶片有史以來最大規模部署。

規模史無前例

Amazon Annapurna Labs 產品總監 Gadi Hutt 表示:「這是我們首次建設如此大規模的訓練集群,讓 Anthropic 能夠在所有基礎設施上訓練單一模型。規模真正史無前例。」

與 OpenAI 的 Stargate 或 xAI 的 Colossus 不同,Project Rainier 是跨多個地點的分佈式系統,而非單一超級電腦。這種設計讓系統可以持續擴展,理論上沒有上限。Anthropic 已經開始使用部分系統進行 AI 模型訓練。Amazon 表示將「複製貼上」基本運算單元來擴大整個集群規模。

自研晶片挑戰 Nvidia

Project Rainier 的核心是 Amazon 自研的 Trainium2 晶片。每個晶片提供 1.3 petaFLOPS 運算能力和 96GB 記憶體。雖然單一晶片性能不如 Nvidia 最新的 B200 晶片(4.5 petaFLOPS),但 Amazon 強調成本效益更重要。

Hutt 解釋:「客戶要求的不是『給我們最快的晶片』,而是最低成本的性能,當然還要易於使用。」Amazon 將 16 個 Trainium2 晶片組成一個基本單元,再將 4 個單元組合成擁有 64 個晶片的「UltraServer」。數千個 UltraServer 連接起來就構成完整的 Project Rainier 集群。

建設如此大規模的 AI 集群需要巨大電力支援。專家估計,包含 25 萬個 Trainium2 晶片的集群需要 250 至 300 兆瓦電力,相當於 xAI Colossus 超級電腦的耗電量。Amazon 正為印第安那州設施建設特殊的網絡基礎設施,包括自創的光纖「繩索」來應對大量網絡線路。公司還開發了自訂網絡系統,承諾提供極低延遲的高速連接。

下一代晶片蓄勢待發

Amazon 已預告第三代 Trainium3 晶片,採用更先進的 3nm 製程,效能比現有晶片高 40%。新晶片系統的運算能力預計比現有系統高 4 倍。這意味著 Project Rainier 部分設施可能最終使用更強大的 Trainium3 晶片,就像 Amazon 另一個項目 Project Ceiba 最終改用 Nvidia 更新的 Blackwell 晶片一樣。

Project Rainier 反映了科技巨擘在 AI 基礎設施上的激烈競爭。隨著 AI 模型變得更複雜,需要更多運算資源進行訓練,各公司競相建設更大規模的系統來保持競爭優勢。Amazon 透過這個項目鞏固了在雲端 AI 服務市場的地位,同時為 Anthropic 提供挑戰 OpenAI 的運算基礎。

來源:The Register

Tags : AnthropicawsOpenAI