
在過去數十年,半導體產業一直遵循著摩爾定律的指引,也就是晶片性能每 18-24 個月翻倍。而 NVIDIA 總裁黃仁勳一直強調在 AI 時代「摩爾定律已死」。在最近的 GTC 大會上,NVIDIA 就進一步透露未來三代加速運算平台的細節,詮釋「後摩爾定律」時代的發展。
運算擴展的新路徑
傳統上,晶片性能提升主要依賴於製程技術的進步,但這條路徑已面臨嚴峻樽頸。製程技術的進展已顯著放緩,迫使 NVIDIA 採取新策略:透過擴大每個運算節點中的矽晶片數量和體積來提升性能。
目前,NVIDIA 最密集的系統能將 72 個 GPU 通過高速 NVLink 互連織成單一運算域。在 GTC 大會上,黃仁勳透露 NVIDIA 計畫將這一數字擴展至 144 個,最終達到 576 個 GPU 每機架。此外,擴展也發生在晶片封裝層面。Blackwell 加速器相較 Hopper 宣稱有 5 倍性能提升,但實際需要兩倍的晶片數量、新的 4 位元資料類型和額外 500 瓦功率才能實現。下一代 Rubin Ultra 將從兩個晶片躍升至四個晶片;記憶體容量也將從每封裝 288GB 增加到 1TB,頻寬從約 4TB/秒提升至 8TB/秒。
除此之外,NVIDIA 也透過降低精度來提升性能,從 Hopper 到 Blackwell,NVIDIA 降低了 4 位元精度,同時翻倍矽晶片數量。不過,低於 4 位元精度,大型語言模型推理的效果會迅速惡化。
「AI 工廠」成新趨勢
超大規模 AI 運算正在從專業範疇走向主流,但同時也帶來嚴峻挑戰。傳統資料中心難以支撐 120kW 甚至 600kW 的機架系統,企業需要考慮專門設計的「AI 工廠」,也就是黃仁勳反覆提及的下一代數據中心。在 NVIDIA 發布 GPU 路線圖後一週,施耐德電氣宣布在美國投資 7 億美元擴大生產,以支撐這些系統所需的電力和冷卻設備,可見基礎設施升級的迫切性。
黃仁勳表示提前公布未來幾年的 GPU 技術路線圖,目的是讓基礎設施合作夥伴能夠做好準備。這表明在 AI 時代,企業需要更加重視與基礎設施供應商的深度合作。雖然 NVIDIA 面臨的挑戰不僅僅是自己的問題—AMD、Intel 和其他廠商也將面臨同樣的挑戰,但 NVIDIA 處於獨特位置,能夠引領數據中心電力和散熱設計的未來方向。
對希望部署 AI 解決方案的企業來說,這意味著需要制定更長遠的基礎設施規劃,考慮專用 AI 數據中心的可行性,並審視現有設施的擴展能力。企業需要思考的不僅是技術選型,更是如何重構整個 IT 架構以適應未來的運算需求。
未來不單純以算力為本
未來預計「AI 工廠」將成為主流,專為滿足新一代運算平台的電力和散熱需求而設計。獲取足夠電力供應將成為 AI 部署的主要挑戰,企業需要關注能源合作和可持續發展策略。隨著傳統摩爾定律路徑的衰退,我們將看到更多專用算力解決方案和異質運算架構的興起。同時,NVIDIA 正在引領數據中心設計的新標準,這將為整個行業,包括競爭對手創造新的發展空間。
目前市場正處於運算擴展範式轉變的關鍵時刻。對企業來說,理解這個轉變不僅關乎技術選擇,更關乎企業如何在 AI 驅動的未來保持競爭力。隨著運算平台變得更大、更密集、更耗電,企業需要重新思考其 IT 基礎設施戰略,為即將到來的超大規模運算時代做好準備。在這場運算資源競賽中,及早佈局並與關鍵供應商建立夥伴關係的企業將能搶得先機,在 AI 轉型浪潮中站穩腳步。
來源:The Register