close
IT 基建

Cerebras 上市開拓 AI 算力新戰場 晶圓級晶片衝出傳統 GPU 框架

ALT標籤:Cerebras公司標誌夜景,科技公司品牌展示.

 

Cerebras Systems 於本周四正式以代號 CBRS 在 Nasdaq 掛牌集資 55.5 億美元,首日股價急升近 70% 且市值突破 660 億美元,這家成立 11 年的初創公司依靠面積達 46,225 平方毫米的晶圓級處理器 WSE-3 成功撼動 Nvidia 在 AI 訓練與推理市場的壟斷地位,隨著 OpenAI 簽下價值 200 億美元的多年合約以及 AWS 達成數據中心部署協議,Cerebras 的晶圓級架構由邊緣技術實驗蛻變為超大規模雲端業者認真考慮的另類選項。

 

Andrew Feldman 與其團隊在 2015 年創立 Cerebras 時業界主流做法是把 300 毫米的晶圓切割成數百顆細小處理器,再透過 NVLink 等高速互連技術把 8 顆或以上 GPU 結合成大型加速器集群,Cerebras 選擇完全相反的路徑,將整塊晶圓當作單一處理器設計以省去切割與重新連接的步驟。

WSE-3 是這個構想的第三代產物並由 TSMC 以 5nm 製程生產,整顆晶片內建 4 兆個電晶體和 90 萬個 AI 運算核心,峰值算力達到 125 petaFLOPS(FP16 精度),大家可以對比 Nvidia 的 H100 來理解其規模,H100 晶片面積為 826 平方毫米而 WSE-3 面積大約是其 57 倍,H100 擁有 16,896 個運算核心而 WSE-3 核心數量則多達 52 倍。

整塊晶圓製成單一處理器在製程上幾乎是天方夜譚,因為晶圓表面的微小瑕疵足以令整顆晶片報廢,Cerebras 解決良率問題的方法是接受瑕疵存在並在架構上提供大量備用核心。當測試發現部分核心有缺陷時系統會自動以後備核心取代,網狀互連結構亦會繞過失效節點。每個核心面積壓縮至 0.05 平方毫米並僅佔 H100 SM 核心面積 1%,這種設計令 Cerebras 的瑕疵容忍度比傳統多核心處理器高 100 倍。

 

記憶體頻寬的數量級碾壓

Cerebras 核心技術賭注在於記憶體頻寬對絕大多數 AI 工作負載而言才是真正瓶頸,而最快記憶體永遠是與運算單元位於同一塊矽片上的 SRAM,WSE-3 將 44GB 的 SRAM 平均分佈在整片晶圓表面,令每個運算核心都能以單一時鐘週期存取記憶體而總頻寬高達 21PB/s。相比之下 Nvidia H100 的 HBM 頻寬為 3TB/s,WSE-3 在這項數據上領先約 7,000 倍。

晶圓內部的互連結構同樣展現壓倒性優勢,WSE-3 片上織構(on-wafer fabric)總頻寬達 214Pb/s 並相當於 H100 NVLink(每顆 GPU 57.6GB/s)的 3,715 倍。這個數字的意義在於傳統 GPU 群集需要透過 InfiniBand 及 NVLink Switch 等多層次網絡將數百顆晶片串連起來,每一層都會帶來延遲與頻寬瓶頸,而 Cerebras 所有運算核心都在同一塊矽片上,核心之間的通訊只需一個時鐘週期。

晶圓級設計亦存在無法迴避的權衡,WSE-3 的 44GB 片上 SRAM 雖然速度極快但容量遠不及 GPU 系統採用的 HBM。一張 H100 已經內建 80GB HBM3,而完整 DGX H100 系統提供的 HBM 容量介乎 640GB 至 1,536GB 之間。Cerebras 透過最高可擴展至 1.2PB 的外接 MemoryX 模組處理超大型模型的權重儲存,但此方案的存取速度仍然遠低於片上 SRAM。

 

由訓練專用走向推理王者

直至 2024 年中之前 Cerebras 市場定位主要圍繞 AI 模型訓練,CS-3 系統最多可組成 2,048 個節點的群集且理論上能訓練多達 24 兆參數的模型,並為阿聯酋雲端業者 G42 興建 Condor Galaxy 系列超級電腦,轉折點出現在 2024 年 8 月,Cerebras 推出推理即服務平台並意外發現自家硬件在大型語言模型推理方面具備天然優勢。

巨大記憶體頻寬令 WSE-3 在推理工作負載中如魚得水,根據 Artificial Analysis 基準測試顯示 Cerebras 平台運行 GPT-OSS 120B High 時每秒可產生超過 2,200 個 token,速度為另一 GPU 雲端供應商 Fireworks 的 2.8 倍。在更新的 Llama 4 Maverick(4,000 億參數模型)測試中 Cerebras 達到每用戶每秒 2,500 個 token,是 Nvidia 旗艦 DGX B200 系統的兩倍以上。

推理業務增長迅速令雲端及相關服務收入由 2024 年的 7,830 萬美元躍升至 2025 年的 1.52 億美元並按年增長 94%,Cerebras 在 2025 年總收入達到 5.1 億美元,按年增長 76%。

 

對企業 AI 基建決策的實際意義

Cerebras 的價值主張並非單純是更快的晶片而是一種根本不同的工作負載適配模式,對於需要極低延遲的即時推理應用如程式碼生成助手、金融交易策略執行、即時翻譯與對話式 AI 等,每秒 token 數量會直接影響用戶體驗與服務質素。Cerebras 在這類場景的速度優勢可以讓企業以較少硬件規模交付更具競爭力的服務。

CS-3 單一系統售價估計介乎 200 萬至 300 萬美元之間且每節點功耗約 23 千瓦並需要專屬水冷設施,對中小型企業而言直接購置 CS-3 並非務實選項,但透過 Cerebras Inference 雲端服務或 AWS Bedrock(AWS 已簽訂協議將 Cerebras 系統部署於自家數據中心)按 token 付費便能大幅降低門檻。

AWS 與 Cerebras 聯合推出的分離式推理(disaggregated inference)架構將推理流程拆解為預填(prefill,處理用戶提示)與解碼(decode,生成回應),兩個階段並分別交由不同硬件處理,AWS Trainium 負責運算密集的預填而 Cerebras CS-3 則處理頻寬密集的解碼,兩者透過 Amazon 的 Elastic Fabric Adapter 網絡連接。這個架構為企業提供重要訊號,指出未來的 AI 基建並非全部 Nvidia 或全部某另類晶片的單一選擇題,而是按工作階段特性混合搭配的異質運算。

WSE-3 的 44GB 片上記憶體足以高效處理參數量在數百億級別的模型,但當涉及如 Kimi K2 般的兆級參數模型時需要 12 至 48 顆 WSE-3 加速器協同運作,實際情況視乎權重儲存方式與剪枝程度而定。這項限制令 Cerebras 在最頂尖的前沿模型部署上仍需依賴複雜的系統整合工程。

 

下一代矽片與行業未來走向

WSE-3 推出已逾兩年而業界普遍預期 Cerebras 將於可見將來公布 WSE-4,從現有路線圖推測新一代產品將大幅提升低精度浮點運算性能,特別是 FP8 與 FP4 數據類型,這與整個業界由 FP16 向更低精度遷移的趨勢一致。市場認為一顆能提供 1 exaFLOP 級別超稀疏 FP4 算力的晶圓級加速器並非不切實際的想像。

記憶體擴展是另一關鍵戰場,Cerebras 可能採用 TSMC 的 3D 晶片堆疊技術在 WSE-4 中加入更多 SRAM,以緩解現時 44GB 容量對大型模型部署的限制。雖然 LLM 推理歷來受惠於稀疏性技術的程度有限,但晶片廠商仍會繼續以稀疏 FLOPS 作為性能宣傳重點。

競爭格局正在迅速演變,Nvidia 透過人才收購(acquihire)方式吸納 Groq 團隊以間接獲得自家的 SRAM 密集型推理平台,Intel 的 Gaudi 3 及 AMD 的 MI300 系列亦在加速器市場積極搶位。Cerebras 與 AWS 的合作模式或許是未來方向縮影,Cerebras 可以與 AMD 或其他晶片廠商達成類似協議將自家加速器定位為解碼加速器,專門處理推理流水線中頻寬密集的部分並將運算密集的提示處理交由合作夥伴的晶片完成。

晶圓級運算過去被視為工程上的奇想,如今憑藉 Cerebras 的商業驗證與 TSMC 計劃於 2027 年推出更強大晶圓級晶片的傳聞,整個半導體行業正在重新審視這種架構的商業可行性。企業技術決策者在規劃未來 3 至 5 年的 AI 基建採購策略時將不再以需要多少張 GPU 為起點,而是要解答自身工作負載適合哪一種運算架構這個更根本的問題。Cerebras 上市並非單一公司的勝利而是 AI 硬件多元化時代正式來臨的訊號。

 

來源:The Register

Tags : AI晶片cerebrasNVIDIAWSE-3晶圓級運算