Nvidia 發布首款推理型自駕 AI 模型 搶攻千億美元 Level 4 市場

Nvidia 發布首款開源推理型自駕 AI 模型 Alpamayo-R1,結合 Cosmos Reason 架構與思維鏈技術,賦予自動駕駛車輛如人類般的思考能力。此舉旨在降低 Level 4 技術門檻,挑戰 Waymo 市場地位,並推動實體 AI 與機械人產業發展。



Nvidia 於 2025 年 12 月 1 日在加州聖地牙哥 NeurIPS AI 大會上,發布業界首款開源推理視覺語言動作模型(VLA)Alpamayo-R1,標誌自動駕駛技術正式進入「會思考」的新世代。這項突破除為 Level 4 全自動駕駛鋪路,更突顯 Nvidia 在實體 AI(Physical AI)領域的戰略野心。預計到 2030 年,全球 Level 4 自動駕駛商用車市場規模將達 4,096 億人民幣(約港幣 4,423 億元),年複合增長率高達 118.1%。發布會同步推出 Cosmos Cookbook 開發工具包、LidarGen 激光雷達數據生成器等配套技術,完整涵蓋從模型訓練、數據合成到場景模擬的端到端解決方案 。

推理架構賦予自駕車「深思熟慮」能力

Alpamayo-R1 基於 Nvidia 今年 1 月首發的 Cosmos Reason 推理架構,整合「思維鏈」(Chain-of-Thought)AI 推理與路徑規劃功能。有別於傳統自駕系統的即時反應模式,該模型會在執行決策前先進行情境分析,例如面對行人密集路口或臨時車道封閉時,系統能像人類駕駛般拆解問題、評估多種行駛軌跡後才作出判斷。Nvidia 官方測試顯示,經強化學習後訓練的 AR1 模型,推理能力較預訓練版本有顯著提升。Reuters 報導指出,這類「視覺—語言—動作」整合技術能同步處理影像與文字指令,讓車輛除「看見」環境,更具備理解複雜交通情境的常識判斷力 。

西班牙阿爾卡拉大學電子系教授 Luis Miguel Bergasa 表示:「Nvidia 正以更經濟的技術路徑挑戰 Waymo 的領導地位,雖然需要大量數據累積,但若能達到相同安全水平,成本優勢將改變市場格局」。目前 Alpamayo-R1 已在 GitHub 和 Hugging Face 平台開放下載,並附帶部分訓練數據集及開源模擬環境 AlpaSim,研究人員可根據非商業用途需求特製模型參數 。

Waymo 領先但競爭白熱化 Nvidia 扮演軍火商角色

自動駕駛產業現階段由 Alphabet 旗下 Waymo 獨佔鰲頭,截至 2025 年 7 月,Waymo 無人車已累積超過 1 億英里自駕里程,在三藩市、洛杉磯、鳳凰城等六座城市營運約 1,500 輛車隊,每週提供 20 萬次付費載客服務。相比之下,Tesla 6 月才在德州奧斯汀小規模試營運十餘輛 Model Y,雖然行政總裁 Elon Musk 宣稱 2025 年底前將擴展至多座美國城市,但業界普遍認為兩者技術成熟度仍有差距 。

Volkswagen 預估,全球無人的士市場到 2035 年將成長至 4,500 億歐元(約港幣 3.8 兆元)規模。在此趨勢下,Nvidia 採取「賣鏟子」策略,不直接參與載客營運競爭,而是透過開放模型建立技術標準。Nvidia 首席科學家 Bill Dally 直言:「機械人終將主宰世界,我們的目標是成為所有機械人的『大腦』製造者」。這番宣言並非空談:包括 1X、Figure AI、Gatik、PlusAI 等物理 AI 開發商,以及蘇黎世聯邦理工學院(ETH Zurich)研究團隊,均已採用 Cosmos 世界基礎模型進行應用開發 。

Jensen Huang「雙工廠」願景推動產業範式轉移

Nvidia 行政總裁 Jensen Huang 在 CES 2025 主題演講中將實體 AI 定調為「繼生成式 AI 後的下一個 ChatGPT 時刻」。他提出「雙工廠」(Dual Factory)理論,未來企業除需要實體生產線,更須建構平行運作的 AI 訓練工廠,透過模擬宇宙反覆驗證自主系統後才投入真實世界。這套邏輯直接帶動對 Nvidia Blackwell GPU、NVLink 互連技術的需求,與 OpenAI 合作的 10 GW 等級 AI 數據中心計劃,正是此願景的最大驗證 。

然而挑戰依然存在。歐盟 AI 法案將自動駕駛列為「高風險」應用,要求技術中立且嚴格的安全驗證。美國國家衛生研究院(PMC)2022 年研究指出,雖然 AI 系統在模擬環境表現優異,「模擬—現實落差」(Sim-to-Reality Gap)仍是無法迴避的安全隱憂。Nvidia 研究總監 Sanja Fidler 坦承,家用人形機械人至少還需數年發展,這與當年自駕車過度樂觀的預測如出一轍 。

開源生態加速技術民主化進程

此次發布的 Cosmos Cookbook 提供完整模型微調指南,涵蓋數據整理、合成數據生成、強化學習後訓練等關鍵流程。開發夥伴 Voxel51 已貢獻模型配方(Model Recipes)至該工具包。值得注意的是,Nvidia 同步發布的 LidarGen 成為全球首個能生成激光雷達數據的世界模型,配合 Omniverse NuRec Fixer 修復神經重建場景的失真問題,大幅降低測試成本 。

這種開放策略與 Waymo 的封閉生態形成鮮明對比。普林斯頓大學機械人實驗室 2025 年研究顯示,視覺語言動作模型(VLA)透過統一推理與動作生成架構,能有效解決傳統端到端自駕模型輸出不合理軌跡的問題。隨著強化學習技術成熟,Alpamayo-R1 的推理準確度將持續改良,為追趕 Waymo 的企業提供技術跳板 。

企業影響與未來展望

對汽車製造商而言,Nvidia 此舉降低了 Level 4 技術門檻,傳統車廠無需從零研發視覺語言模型,可直接基於 Cosmos 架構開發差異化功能。對科技公司而言,開源模型加速 AI 安全驗證方法論的迭代,特別是「想像智慧」(Imaginative Intelligence)概念的實踐。然而真正的考驗在於:當全球能源系統需承載數十個 GW 級 AI 工廠時,這種「最大化主義」願景能否通過企業治理、勞動經濟與環境永續的三重檢驗 。

Nvidia 計劃於 12 月 2 至 7 日 NeurIPS 會議期間展示更多應用案例。產業觀察家認為,若 Alpamayo-R1 在 2026 年前獲主流車廠採用,自動駕駛產業的權力平衡可能出現結構性變化,屆時決定市場勝負的,不再只是誰擁有最多實測里程,而是誰能最快建立「思考—行動」的標準化範式 。

資料來源:
NVIDIA Official Blog
TechCrunch
Reuters
El País
HKEXnews Industry Report