Red Hat 於 2025 年 11 月 26 日宣布推出 Red Hat AI 3 企業級 AI 平台,直接回應麻省理工學院 NANDA 專案研究揭示的嚴峻現實:在約 400 億美元(約港幣 3,120 億元)的企業 AI 支出中,高達 95% 組織未能獲得可衡量的財務回報。這項重大平台升級整合最新 Red Hat AI 推理伺服器、Red Hat Enterprise Linux AI 及 Red Hat OpenShift AI,核心聚焦於將企業 AI 工作從概念驗證階段,推進至可產生實際價值的生產環境。平台透過全新 llm-d 分散式推理技術、模型即服務(MaaS)功能及 AI Hub 協作工具,為香港及亞太區企業提供在混合雲環境中部署代理式 AI(Agentic AI)的明確路徑,預計將重塑企業 AI 投資策略。

市場規模倍增背後 實際部署困難重重
全球 AI 推理市場正經歷爆炸性增長,預計從 2025 年的 1,061.5 億美元(約港幣 8,279.7 億元)將在 2030 年達到 2,549.8 億美元(約港幣 19,888.4 億元),複合年增長率達 19.2%。然而市場規模擴張與企業實際獲益之間存在巨大鴻溝。
麻省理工學院最新報告指出,雖然 88% 企業計劃在 2026 年增加 AI 投資,但當前失敗率高達 95%,主因並非模型品質,而是企業整合的「學習差距」。研究顯示超過半數生成式 AI 預算投入銷售與行銷工具,但實際最高投資回報率卻來自後勤辦公室自動化,這種資源配置錯位導致大量投資無法轉化為可衡量成果。
IDC 全球研究集團副總裁 Rick Villars 指出,2026 年將成為轉折點,企業將從啟動 AI 轉型,轉向要求投資帶來更可衡量且可重複的業務成果。真正的價值與最大挑戰,在於以高效、安全且具成本效益的推論將模型衍生洞察付諸實行,特別是在代理型 AI 驅動推論負載急速增長的情況下。能成功成為 AI 驅動企業的公司,必是在混合雲環境中建立統一平台以協調日益複雜工作負載的企業。
分散式推理技術 突破硬件加速器瓶頸
Red Hat AI 3 的核心創新在於正式推出 llm-d 技術,這項由 Google Cloud、Red Hat、IBM Research、NVIDIA 及 CoreWeave 聯合創建的開源專案,將 vLLM 從單節點高效能推理引擎,進化為分散式、一致且可擴展的服務系統。該技術整合 Kubernetes Gateway API 推論擴充、NVIDIA Dynamo 低延遲資料傳輸程式庫(NIXL)及 DeepEP 專家混合(MoE)通訊程式庫,即使在預設設定下也能提供即時 25% 效能提升。
llm-d 支援分離式服務(disaggregated serving)架構,獨立處理 LLM 推理的預填充(prefill)與解碼(decode)階段,讓 Kubernetes 能分別排程這兩個階段而非將模型視為單一單元。Red Hat 開發者文章指出,這種分割使 llm-d 能在叢集中實現更佳資源配置,改善吞吐量並降低延遲,系統可使用相同硬件處理更多並發請求,即使對 GPU 資源有限的組織也能實現實用的分散式推理。同時 llm-d 引入多層 KV 快取機制處理中間值(prefixes),改善不同儲存層級的回應時間並降低儲存成本。
代理式 AI 市場爆發 驅動新一代平台需求
代理式 AI(Agentic AI)市場正經歷前所未有的增長動能,從 2024 年的 52.5 億美元(約港幣 409.5 億元)預計將在 2025 年達到 75.5 億美元(約港幣 588.9 億元),並在 2034 年達到 1,990.5 億美元(約港幣 15,525.9 億元),複合年增長率高達 43.84%。這種快速增長反映企業從生成式 AI 轉向自主協作系統的重大轉變,2025 年已有 52% 使用 GenAI 的企業在生產環境部署 AI 代理,其中 88% 早期採用者已看到實質投資回報。
Red Hat OpenShift AI 3.0 為這波代理 AI 浪潮提供基礎,引入基於 Llama Stack 的統一 API 層,協助開發與 OpenAI 相容的 LLM 介面協議等業界標準保持一致。平台率先採用模型上下文協議(Model Context Protocol,MCP),這項由 Anthropic 於 2024 年 11 月推出、並已獲 OpenAI 及 Google DeepMind 正式採用的新興標準。MCP 提供通用介面以讀取檔案、執行功能及處理上下文提示,能簡化 AI 模型與外部工具的互動,是現代 AI 代理的核心功能。
開放生態系統策略 降低供應商鎖定風險
Red Hat AI 業務部副總裁兼總經理 Joe Fernandes 表示,當企業將 AI 從實驗擴展至生產時,將面臨新一波複雜性、成本與控制挑戰。Red Hat AI 3 提供企業級開源平台協助企業降低這些障礙,讓 IT 團隊能更有信心地在任何基礎架構上,以自己的方式將下一代 AI 投入運作。這種「任何模型、任何硬件、任何雲端」的策略被 Techaisle 定位為「企業 AI 的 Linux」,提供開放標準化平台解決 AI 採用的複雜性與成本問題。
平台與 AMD 及 NVIDIA 的高度整合進一步強化這種開放性。AMD 伺服器與企業 AI 高級副總裁兼總經理 Dan McNamara 指出,AMD 很榮幸能提供背後的高效能基礎,整合 AMD EPYC 處理器的高效能、AMD Instinct GPU 的可擴展性及 AMD ROCm 軟件堆疊的開放性。Red Hat 與 NVIDIA 的合作則將 NVIDIA CUDA Toolkit 直接分發至 Red Hat Enterprise Linux、OpenShift 及 Red Hat AI 平台,解決 GPU 軟件部署的主要樽頸,確保與 NVIDIA 最新硬件和軟件創新的及時更新與兼容性。
統一協作平台 加速從概念驗證到生產部署
Red Hat AI 3 透過三大核心功能促進跨團隊協作。模型即服務(MaaS)功能基於分散式推理,讓 IT 團隊成為自有 MaaS 供應商,集中服務常用模型並為 AI 開發者與應用程式提供隨時存取服務,有助更有效管理成本,並支援因私隱或數據問題無法使用公有 AI 服務的場景。AI Hub 提供中央樞紐,內含精選模型目錄(包括經驗證與最佳化的生成式 AI 模型)、管理模型生命週期的註冊庫,以及配置與監控所有在 OpenShift AI 上運行 AI 資產的部署環境。
Gen AI Studio 為 AI 工程師提供互動式環境,透過 AI 資產端點功能輕鬆探索並使用可用模型與 MCP 伺服器。內建 Playground 提供無狀態互動環境用於模型實驗、提示詞測試及參數調整,適用於聊天與檢索增強生成(RAG)等場景。阿根廷連接基礎設施供應商 ARSAT 行政總裁 Mariano Greco 證實,透過在 Red Hat OpenShift AI 上構建代理型 AI 平台,團隊僅用 45 天就從需求確認到正式上線,除了改善服務、減少工程師在支援問題上的時間,也讓他們能專注於創新與新開發。
亞太區主權 AI 部署 推動區域市場增長
亞太地區預計將成為 AI 推理市場增長最快的區域,受惠於該區日益增長的數碼基礎設施,以及中國、印度和日本等國家政府對 AI 發展的支援。阿里巴巴、百度及騰訊等科技巨頭正在開發自己的 AI 環境,區域初創公司在醫療保健、金融、運輸及智慧城市專案等領域實施 AI 代理,進一步加速區域市場增長。主權 AI 計劃、超大規模數據中心及半導體生態系統擴張的投資,正推動亞太區成為全球 AI 推理市場的關鍵驅動力。
Red Hat AI 3 支援混合多供應商環境中的快速擴展和分配 AI 工作負載,適應組織在 AI 旅程中的不同階段,無論是在數據中心、公有雲、主權 AI 環境還是遠端邊緣都可運行。這種靈活性對於亞太區企業特別重要,因為該區企業面臨多樣化的監管要求和數據主權考量。平台的開放標準基礎讓企業能在保持技術獨立性的同時,充分利用本地和全球雲端資源。
企業 AI 投資策略的根本性轉變
隨著企業將 AI 專案推進至生產環境,重點正從模型訓練與微調轉向推理,這是企業 AI 的「執行」階段。NVIDIA 工程 AI 框架副總裁 Ujval Kapasi 強調,可擴展且高效能的推論是推動下一波生成式與代理型 AI 的關鍵,透過內建支援 NVIDIA Dynamo 和 NIXL 等開源技術的加速推論,Red Hat AI 3 提供統一平台,讓團隊能迅速從實驗階段過渡到大規模運行高階 AI 工作負載與代理。
Red Hat AI 3 的模組化、可擴展模型個人化工具包基於現有 InstructLab 功能構建,提供專用 Python 函式庫讓開發者擁有更高靈活性與控制力。該工具包整合 Docling 用於數據處理,將非結構化文件轉換為 AI 可讀格式,提供靈活的合成數據生成框架及 LLM 微調訓練中心。內建評估中心協助 AI 工程師監控與驗證結果,讓企業能自信地利用專有數據獲得更準確且相關的 AI 成果。這種從基礎設施現代化到實際業務成果的明確路徑,正是區隔成功與停滯的關鍵因素。
資料來源:
Precedence Research 代理式 AI 市場研究




