close
人工智能

Mistral AI 發佈全新即時語音轉錄模型 Voxtral Transcribe 2 主打私隱與低成本優勢

法國人工智能初創公司 Mistral AI 於 2026 年 2 月 4 日正式發佈新一代語音轉文字模型系列 Voxtral Transcribe 2。系列推出兩款針對不同應用場景設計的轉錄模型,分別為批量處理版 Voxtral Mini Transcribe V2 及即時轉錄版 Voxtral Realtime。

 

Mistral AI 聲稱這兩款模型在準確度方面超越 OpenAI、Google 及 ElevenLabs 等競爭對手,收費低至每分鐘 0.003 美元(約港幣 HK$0.023),僅為主要競爭者的 5 分之 1。同時模型體積小至可於智能手機或手提電腦上獨立運作,無需將敏感語音資料傳送至雲端伺服器處理。這項特點對於醫療、金融及國防等受嚴格監管行業的企業客戶尤為關鍵。

 

兩款模型針對不同業務需求

Mistral AI 將 Voxtral Transcribe 2 分為兩個版本,期望可以滿足不同企業的營運需求。Voxtral Mini Transcribe V2 專門處理預先錄製的長篇音訊檔案,單次請求可處理長達 3 小時的錄音,支援 13 種語言,包括英語、普通話、日語、阿拉伯語、印地語及多種歐洲語言。Mistral AI 科學營運副總裁 Pierre Stock 表示,這款模型在 FLEURS 多語言語音基準測試中達到約 4% 的字詞錯誤率,同時提供說話者分離標籤及精確的字詞時間戳記功能,適用於會議記錄、訪談分析及多方通話處理。

Voxtral Realtime 則專注於即時語音轉錄,採用創新的串流架構設計,轉錄延遲可低至 200 毫秒以下。Mistral AI 以 Apache 2.0 開源授權方式發佈這款模型,開發者可從 Hugging Face 免費下載模型權重,自行部署而無需支付授權費用。若企業選擇使用 API 服務,收費為每分鐘 0.006 美元(約港幣 HK$0.047)。Stock 指出,開源社群在應用開發方面極具創意,Mistral AI 期待社群開發者創造更多創新應用。

 

裝置端處理成為企業資料安全關鍵

Voxtral Transcribe 2 模型僅有 40 億參數,體積輕巧至可在手提電腦、智能手機甚至智能手錶上獨立運作,這項設計直接回應企業市場對資料私隱的迫切需求。隨着企業將 AI 整合至更多敏感工作流程,包括醫療諮詢轉錄、金融顧問通話記錄及法律證詞處理,語音資料的傳輸去向已成為許多企業決定是否採用語音 AI 的關鍵因素。

Stock 描述了現有筆記應用程式的問題:「現有具備音訊功能的筆記應用程式經常會拾取背景噪音,可能會錄到背景音樂的歌詞、其他人的對話,甚至可能因背景噪音而產生幻覺內容。」Mistral AI 投入大量資源改良訓練資料整理及模型架構,期望解決這些問題。

除了裝置端處理外,Mistral AI 加入了專為企業設計的「語境偏置」功能。企業客戶可上載最多 100 個專業術語清單,包括醫學術語、專有產品名稱或行業縮寫,模型在轉錄模糊音訊時會自動優先識別這些詞彙。Stock 解釋:「只需提供文字清單,模型便會自動將轉錄結果偏向這些縮寫或專業詞彙,無需重新訓練,無需任何複雜操作。」

 

工業應用場景:從工廠車間到客戶服務中心

Mistral AI 設想 Voxtral Transcribe 2 可應用於多種高噪音工業環境。Stock 描述了兩個典型應用場景:第 1 個場景涉及工業審計工作,技術人員在製造設施中巡視重型機械時,需要在工廠噪音中大聲記錄觀察結果。Voxtral Transcribe 2 可生成帶有精確時間戳記的筆記,識別不同說話者,同時準確辨認「只有這些專業人員才能拼寫的專業技術詞彙」。

第 2 個場景針對客戶服務營運。當來電者致電支援中心時,Voxtral Realtime 可即時轉錄對話內容,將文字傳送至後端系統,在來電者說明問題期間便已調出相關客戶記錄。Stock 解釋:「客戶狀態會在客戶結束投訴前便顯示在客服人員螢幕上,客服人員可以直接說:『我已看到狀態,讓我修正地址並重新寄出貨品。』」他估計這可將典型客戶服務互動從多次來回溝通縮減至僅 2 次互動:客戶說明問題,客服人員立即解決。

 

即時跨語言翻譯成為長遠發展目標

雖然 Voxtral Transcribe 2 主要定位為轉錄工具,但 Stock 明確表示 Mistral AI 視這些模型為更宏大目標的基礎技術:實現自然流暢的即時語音對語音翻譯。「最終的應用目標是即時翻譯。我說法語,你說英語,關鍵在於延遲必須極低,否則無法建立共鳴,面部表情會與 1 秒前說的話脫節。」

這項目標令 Mistral AI 直接與 Apple 及 Google 競爭,兩家公司同樣正在努力解決相同問題。Google 最新翻譯模型的延遲約為 2 秒,比 Mistral AI 聲稱的 Voxtral Realtime 延遲慢約 10 倍。Stock 預測 Mistral AI 可能在 2026 年底前實現這項即時翻譯功能。

 

歐洲資料主權成為差異化競爭優勢

Mistral AI 於 2023 年由 Meta 及 Google DeepMind 前員工創立,總部設於巴黎,至今已籌集超過 30.5 億美元(約港幣 238 億元)資金,估值達 137 億美元(約港幣 1,069 億元)。公司於 2025 年 9 月完成由荷蘭半導體設備製造商 ASML 領投的 17 億歐元(約港幣 144.16 億元)C 輪融資。

與美國科技巨頭相比,Mistral AI 擁有的運算資源遠為有限,因此採取以效率為核心的策略,而非單純追求模型規模。Stock 表示:「我們發佈的模型是企業級、行業領先且高效的,特別是在成本方面,可以部署在邊緣裝置上,確保私隱、控制權及透明度。」

這種定位對憂慮依賴美國技術的歐洲客戶尤具吸引力。2025 年 1 月,法國國防部與 Mistral AI 簽署框架協議,讓法國軍方可使用 Mistral AI 的 AI 模型,協議明確要求所有部署必須在法國控制的基礎設施上進行。2026 年,Mistral AI 進一步與法國及德國簽署框架協議,為公共行政部門部署 AI 解決方案。

在歐盟 GDPR 及 AI 法規框架下,美國雲端服務供應商因受《雲端法案》(CLOUD Act)約束,可能須向美國政府提供資料存取權限,令許多歐洲企業對使用美國 AI 服務存有疑慮。Mistral AI 總部位於法國,完全受歐盟法律管轄,企業客戶可選擇自行託管模型,確保敏感資料完全不離開企業內部基礎設施。HSBC、Stellantis 及 Veolia 等大型企業已採用 Mistral AI 的自託管生成式 AI 模型。

 

語音 AI 市場競爭日趨激烈

語音轉錄市場競爭者眾多,OpenAI 的 Whisper 模型已成為行業標準,既可透過 API 使用,亦可下載開源版本。Google、Amazon 及 Microsoft 均提供企業級語音服務,Assembly AI 及 Deepgram 等專業供應商則專注服務需要可靠、可擴展轉錄功能的開發者。

Mistral AI 聲稱新模型在準確度基準測試中超越所有競爭對手,同時價格更低。Stock 表示:「我們在基準測試中表現更佳。」Mistral AI 指出,Voxtral Mini Transcribe V2 處理音訊的速度比 ElevenLabs 的 Scribe v2 快約 3 倍,成本僅為其 5 分之 1,同時質素相若。

Mistral AI 行政總裁 Arthur Mensch 在達沃斯世界經濟論壇上警告,美國 AI 公司正面臨來自意想不到方向的壓力。他駁斥中國 AI 落後於西方的說法,稱之為「童話故事」,並表示:「中國開源技術的能力可能正令美國的行政總裁們感到壓力。」

 

2026 年或成語音 AI 信任轉捩點

根據市場研究,對話式 AI 市場規模預計於 2025 年達到 142.9 億美元(約港幣 1,115 億元),以每年 23.7% 的複合增長率擴張,至 2030 年將達到 413.9 億美元(約港幣 3,229 億元)。全球企業 AI 支出已飆升至 3,910 億美元(約港幣 30,498 億元),92% 的公司計劃在未來 3 年內對生成式 AI 進行大規模投資。

Stock 預測 2026 年將成為「筆記年」,AI 轉錄可靠程度將達至用戶完全信任的水平。「需要信任模型,模型基本上不能犯任何錯誤,否則用戶會對產品失去信任並停止使用。這個門檻非常高。」

Mistral AI 是否已跨越這個信任門檻仍有待驗證。企業客戶通常行動謹慎,會在投入預算及調整工作流程前反覆測試供應商的聲稱是否符合實際。Mistral Studio 的音訊測試平台已於發佈當日上線,開發者可上載音訊檔案測試 Voxtral Transcribe 2。

 

精細高效或成企業語音 AI 致勝關鍵

在美國科技巨頭投入數十億美元開發更大型模型的市場環境下,Mistral AI 作出不同的戰略押注:在 AI 時代,更小且本地化的模型可能比更大且遠端的模型更具競爭力。對於每天憂慮資料主權、監管合規及供應商鎖定風險的企業高管而言,這種定位可能比任何基準測試結果更具說服力。

 

來源:Mistral AI

Tags : Mistral AIVoxtral Transcribe 2企業 AI數據私隱語音 AI語音轉錄開源模型