close
人工智能

NVIDIA 推全新 GB10 超級晶片架構 組成迷你桌面級 AI 工作站 DGX Spark

NVIDIA 在 Hot Chips 大會上詳細介紹其最新 GB10 超級晶片架構,此晶片將成為全新 DGX Spark 迷你 AI 工作站的核心。該系統原名為 Project Digits,現已正式更名為 DGX Spark,定價為 2,999 美元(約 HK$23,400),目標是讓開發者能在桌面環境運行大型 AI 模型。

GB10 首席架構師 Andi Skende 在會議上展示該晶片的詳細設計。晶片採用台積電 3 納米製程技術生產,由兩個獨立運算晶片組成:MediaTek 設計的 CPU 晶片和 NVIDIA 設計的 GPU 晶片。兩個晶片透過 TSMC 2.5D 先進封裝技術結合,並使用 NVIDIA 專有的 NVLink 晶片對晶片互連技術連接,提供 600GB/s 雙向頻寬。

CPU 晶片 (S-die) 配備 20 個 Arm v9.2 核心,分為兩個群組採用大小核配置,包含相同數量的 X925 和 Cortex A725 核心。運算群組配備 32MB L3 快取記憶體 (每群組 16MB) 及額外 16MB L4 快取記憶體,用作最佳化 GB10 運算引擎之間的通訊。

記憶體配置超越競爭對手

GPU 晶片 (G-die) 方面,NVIDIA 表示該晶片將提供約 1 petaFLOP 的 FP4 峰值效能 (含稀疏性),或約 31 teraFLOPS 的單精度運算 (FP32) 效能。其效能表現與 RTX 5070 相當,後者建議零售價約 550 美元(約港幣 HK$4,290)。

GB10 功耗僅 140 瓦,遠低於 RTX 5070 的 250 瓦 TDP。晶片配備 128GB VRAM,相比 RTX 5070 的 12GB 大幅提升。充足的 VRAM 容量對 DGX Spark 設計的工作負載至關重要,因為即使在 FP4 精度下,模型權重仍需要每十億參數約 500MB 空間。

與大型 GB200 和 GB300 不同,GB10 因功耗和成本考量,選用 LPDDR5x 記憶體而非超快 HBM。記憶體時脈速度為 9400MT/s,結合 CPU 晶片的 256-bit 記憶體匯流排,GB10 提供介乎 273GB/s 至 301GB/s 的頻寬。記憶體頻寬是推理效能的關鍵指標,記憶體速度越快,晶片產生權杖的速度就越快。

支援多機串連擴展效能

NVIDIA 對 DGX Spark 的定位,除了是運行本地模型的平台外,更是用於原型設計和模型微調的開發平台。微調即使使用低秩適應 (LoRA) 和量化技術減少運算需求,仍是運算和記憶體密集的任務。在這種情況下,運算能力和記憶體容量比頻寬更為重要。

根據 NVIDIA 的說法,Spark 的 128GB LPDDR5x 足以微調 700 億參數模型,並對高達 2,000 億參數的模型進行推理。如需更多容量,GB10 配備 ConnectX-7 網絡卡,提供兩個 200GbE 連接埠,允許工作負載分散在兩部 DGX Spark 之間,有效將微調和推理能力加倍。

更重要的是,GB10 基於與數據中心版本相同的技術,在迷你工作站上開發的工作負載無需重新調整即可部署到生產環境。系統體積僅超過 1.1 公升,重量 1.2 公斤,透過 USB Type-C 供電,最高支援 180W EPR PD3.1 規格。

主要廠商加入生產陣營

台灣主要系統製造商包括 Acer、ASUS、Dell Technologies、GIGABYTE、HP、Lenovo 和 MSI 都宣佈將生產 DGX Spark 系統。ASUS 推出的 Ascent GX10 採用相同主機板但僅配備 1TB 本地儲存,售價 3,999 美元(約 HK$31,200),比標準版本貴 1,000 美元。NVIDIA 亦提供包含兩部裝置和 QSFP 連接線的套裝選項。

DGX Spark 預載基於 Ubuntu Linux 的 NVIDIA DGX OS,並整合完整的 NVIDIA AI 軟件堆疊。開發者可立即使用 PyTorch、TensorFlow、Jupyter 和 Ollama 等常用工具進行原型設計和微調。系統支援運行來自 DeepSeek、Meta 和 Google 等公司的最新推理 AI 模型。

企業、軟件供應商、政府機構、初創企業和研究機構都需要能夠以桌面形式提供 AI 伺服器效能和功能的強大系統,同時不犧牲數據大小、專有模型的私隱或擴展速度。隨着代理 AI 系統能夠自主決策和執行任務的需求增加,DGX Spark 和 DGX Station 將讓開發者能夠從桌面到數據中心進行模型原型設計、微調和推理。

AI 工作站市場競爭加劇

2025 年 AI 開發工作站市場競爭激烈,HP ZBook Fury 16 吋 G11 配備 Intel Core i7/i9 處理器和 NVIDIA RTX Ada Generation 手提電腦 GPU,提供高達 128GB DDR5 記憶體。Dell Pro Max Tower T2 桌面工作站聲稱擁有全球最快的單線程應用程式效能,採用 Dell 獨家無限加速持續時間技術。

創投公司 Andreessen Horowitz 最近展示一部配備四個 NVIDIA RTX 6000 Pro Blackwell Max-Q GPU 的個人 AI 工作站,總共提供 384GB VRAM (每個 GPU 96GB)。該系統在峰值功耗僅 1,650W,可在標準 15 安培/120V 家用電路上運行。

AMD 亦推出 Radeon AI PRO R9700,配備 32GB 記憶體和 RDNA 4 架構,專為本地 AI 工作負載設計。該卡採用雙槽設計和鼓風機式散熱設計,適合多 GPU 工作站部署。在實際應用中,例如高權杖數 LLM 提示和指令調整模型,其效能比 16GB 級別的 GPU 高達 5 倍。

MediaTek 和 NVIDIA 的合作關係引起業界關注,兩家公司預計在 2025 年 Computex 展會上推出聯合開發的 Arm 處理器 N1X 和 N1,分別針對桌面和手提電腦市場。處理器預計配備多達 10 個 Cortex-X925 高效能核心和 10 個 Cortex-A725 核心,但因技術挑戰,零售上市時間可能延遲至 2026 年。

隨着 AI 開發需求持續增長,無論是訓練大型語言模型、運行電腦視覺管道還是建立多模態 AI 系統,硬件都必須提供最大運算能力、GPU 加速和可擴展性。DGX Spark 透過將 NVIDIA 超級晶片架構的縮小版本帶給大眾,為開發者提供在本地環境進行 AI 開發的強大工具,同時保持與數據中心部署的兼容性。

來源:The Register

Tags : DGX SparkGB10NVIDIA