close
人工智能

Nvidia 發布 Nemotron 3 Super 開源模型 混合架構壓低 AI 代理運算成本

 

企業大規模部署 AI 代理系統的最大瓶頸正從技術能力轉向運算成本,Nvidia 在 2026 年 3 月 12 日正式推出 Nemotron 3 Super 開放權重模型,結合 3 種不同的神經網絡架構,在 1,200 億個總參數中僅啟動 120 億個進行推理運算。目標是讓企業在部署複雜的多代理 AI 工作流程時大幅降低思考稅(thinking tax)和語境爆炸(context explosion)帶來的成本壓力,模型權重已上載至 Hugging Face 並以 Nvidia Open Model License 開放商業使用。

 

多代理系統的成本困局

AI 代理(agentic AI)技術正處於高速增長期,根據市場研究機構的數據顯示全球 AI 代理市場規模在 2025 年約為 73 億至 88 億美元(約港幣 569.4 億至 686.4 億元)並預計到 2034 年攀升至接近 2,000 億美元(約港幣 1.56 兆元)。Gartner 預測到 2026 年底將有 40% 企業應用程式整合任務專屬的 AI 代理較 2025 年不足 5% 的比例急速增長。

企業從試驗階段轉向大規模生產部署時面對嚴峻的成本挑戰,處理軟件工程或網絡安全分析等長周期任務的多代理系統產生的 token 量可達標準聊天機械人的 15 倍令推理運算開支急劇膨脹。Nvidia 人工智能軟件副總裁 Kari Briski 指出企業從聊天機械人升級至多代理應用時會遇到所謂的語境爆炸問題,Nemotron 3 Super 的設計正是 Nvidia 應對此挑戰的方案。

 

3 重混合架構的技術突破

Nemotron 3 Super 的核心在於融合 3 種截然不同的架構理念形成一套平衡記憶體效率與推理精確度的系統。

第 1 層是 Mamba-Transformer 混合骨架,模型交替堆疊 Mamba-2 層與 Transformer 注意力層。前者以線性時間複雜度處理絕大部分序列運算,令模型支援 100 萬 token 的超長語境窗口時不會因 KV 緩存膨脹而耗盡記憶體,Transformer 注意力層則充當全域錨點確保模型能從龐大的程式碼庫或堆疊的財務報告中精確檢索特定事實解決純狀態空間模型在關聯式記憶提取方面的弱點。

第 2 層是 Latent Mixture-of-Experts(LatentMoE),傳統 MoE 設計將 token 以完整隱藏維度路由至專家模組在模型規模擴大時會形成運算瓶頸。LatentMoE 在路由前先將 token 壓縮至低維空間令模型在同等運算成本下可調用 4 倍數量的專家模組,這種精細度對需要在同一回合內切換 Python 語法和 SQL 邏輯以及對話推理的 AI 代理至關重要。

第 3 層是 Multi-Token Prediction(MTP)即多 token 同步預測,標準模型每次只預測下一個 token 而 MTP 則同時預測多個未來 token。這相當於內建草稿模型為程式碼生成或工具調用等結構化任務提供最高 3 倍的實際速度提升。

 

Blackwell 平台帶來的生產效率飛躍

Nemotron 3 Super 針對 Nvidia Blackwell GPU 平台進行深度最佳化,模型在預訓練階段即採用 NVFP4(4 位浮點數)精度格式。這在 Blackwell 架構上的推理速度較上一代 Hopper 架構運行 8 位模型快 4 倍且準確度沒有損失。

根據 Nvidia 公布的數據顯示 Nemotron 3 Super 在高流量環境下的吞吐量較 gpt-oss-120B 高出 2.2 倍且較 Qwen3.5-122B 更高出 7.5 倍,獨立測試機構 Artificial Analysis 評估顯示模型的輸出速度達到每秒 478 個 token 並在同級開放模型中居首。

基準測試表現方面 Nemotron 3 Super 目前在 DeepResearch Bench 排名第 1 衡量 AI 跨大型檔案集進行多步驟研究的能力,模型在 RULER 長語境基準測試的 100 萬 token 長度取得 91.75 分超越 Qwen3.5-122B 的 91.33 分並大幅拋離 gpt-oss-120B 的 22.30 分。AIME25 數學推理測試中取得 90.21 分與 Qwen3.5-122B 的 90.36 分接近而在需要工具輔助的 HMMT Feb25 測試中以 94.73 分超越對手。

值得留意的是模型的整體智能評分在 Artificial Analysis 的排行中約為 36 分略高於 gpt-oss-120B 的 33 分但與 Gemini 3.1 Pro 等頂級模型的 57 分仍有差距,Nemotron 3 Super 的定位並非通用型頂尖模型而是專注於代理式推理場景的高效執行者。

 

企業如何運用這款模型

軟件開發方面代理可將整個程式碼庫一次載入語境窗口進行端到端的程式碼生成與除錯,而無需將檔案分割處理,CodeRabbit 和 Factory 以及 Greptile 等軟件開發公司已着手將模型整合至旗下的 AI 代理產品以更高準確度和更低成本處理大規模程式碼分析。

金融分析領域的分析師可將數千頁報告載入記憶體以免除在冗長對話中反覆推理的低效流程,網絡安全方面則透過模型的高準確度工具調用能力,確保自動化代理在安全編排等高風險環境中可靠地導航龐大功能庫以減少執行錯誤。

Siemens 和 Palantir 等工業領導者已開始部署和特製此模型,以自動化製造業和網絡安全領域的複雜工作流程,Amdocs 和 Cadence 以及 Dassault Systèmes 等企業軟件平台也將模型融入其產品線。AI 搜尋領域的 Perplexity 已向用戶提供 Nemotron 3 Super 的存取權限作為其多模型編排系統中的選項之一。

部署渠道方面模型已可透過 build.nvidia.com 和 Hugging Face 以及 OpenRouter 與 Perplexity 存取,雲端合作夥伴包括 Google Cloud Vertex AI 和 Oracle Cloud Infrastructure 等多間公司。Dell Technologies 已將模型引入 Dell Enterprise Hub on Hugging Face 為本地部署提供最佳化方案。

 

開放授權的商業考量

Nvidia 以 Nvidia Open Model License Agreement 發布 Nemotron 3 Super 為企業採用提供寬鬆的框架但當中包含需要留意的條款。

授權明確允許商業使用並授予永久與全球性及免版稅的許可以銷售和分發基於模型構建的產品,Nvidia 對模型生成的輸出不主張任何權利而產出的責任和擁有權完全由用戶承擔。企業可自由建立和擁有「衍生模型」(即微調版本)但需附上指定的歸屬聲明。

需要留意的是授權中的 2 個自動終止條款,如果用戶繞過或規避模型的安全護欄而未實施大致相似的替代方案則授權將自動終止。如果用戶對 Nvidia 提起版權或專利訴訟指控模型侵犯其知識產權使用授權亦會即時終止,這種結構讓 Nvidia 在建立商業生態系統的同時,保護自身免受知識產權訴訟並確保模型的安全功能不會被惡意移除。

Nvidia 隨模型一併發布完整的訓練和評估配方涵蓋從預訓練到對齊的整條流程,預訓練語料庫包含 10 兆個經篩選的 token 加上額外 100 億個聚焦推理的 token 和 1,500 萬道編程題目。後期訓練資料集包含 4,000 萬個新的監督式和對齊樣本,這種透明度讓開發者可以重現訓練過程與為特定領域建立變體或作為混合架構研究的起點。

 

行業前景與未來走向

Nemotron 3 Super 的發布反映 AI 模型發展的一個重要趨勢,代表市場正從追求通用智能的一刀切模型轉向針對特定工作流程最佳化的高效專才。

多代理 AI 系統的普及正在重塑企業的技術架構,IDC 預測在 AI 代理應用的推動下 2025 年至 2029 年間全球 AI 投資將以每年 31.9% 的速度增長並到 2029 年達到 1.3 兆美元(約港幣 10.14 兆元)。IBM 和 Salesforce 估計到 2026 年底全球將有超過 10 億個 AI 代理投入運作。

企業在這波浪潮中面對的核心抉擇是如何在模型能力與運算成本和部署靈活度之間取得平衡,Nemotron 3 Super 這類混合 MoE 架構模型提供一條中間路線,以遠低於密集型推理模型的成本獲取接近頂級模型的專項能力。

Nemotron 3 家族中更大的 Ultra 版本(5,000 億參數)尚未發布而 Nvidia 預計在未來數月內推出,隨着 Blackwell 架構進一步成熟和軟件堆疊持續最佳化令企業部署多代理系統的經濟門檻繼續下降。對於正在規劃 AI 代理策略的企業而言現階段的關鍵並非選擇最強大模型,而是找到最適合其工作流程的尺寸合適方案,從而在成本效益和任務表現之間達成最佳平衡。

 

來源:Nvidia

Tags : AI 代理BlackwellHugging FaceNemotron 3 SuperNVIDIA人工智能多代理系統開源模型