
Microsoft 在經歷自 2008 年金融海嘯以來最慘烈的季度股價跌幅後於 4 月 2 日一口氣推出 3 款自家研發 AI 基礎模型,以不足 10 人的精簡研發團隊、同業一半的 GPU 資源,以及低於所有主要雲端競爭者的定價策略,正式向 OpenAI、Google 及 Amazon 宣戰。
投資者質疑其天量 AI 基建開支能否帶來回報,Copilot 付費用戶僅約 1,500 萬、遠遜於 OpenAI 的 ChatGPT,而與 OpenAI 的合作關係亦從獨家綑綁走向互相獨立。在這個背景下 Mustafa Suleyman 領導的超級智能團隊交出了首份成績表。
從分銷商到開發者:一場遲來但必要的轉型
長期以來 Microsoft 在 AI 領域的角色更像一個分銷商,將 OpenAI 的 ChatGPT 和 DALL·E 等模型嵌入自家產品套件,再透過 Azure 雲端平台向企業客戶銷售,這套策略幫助 Microsoft 迅速搶佔市場先機,但也令公司在核心技術上嚴重依賴單一外部夥伴。根據 CNBC 報道指出 Microsoft 目前持有 OpenAI 營利部門約 27% 股權,並保留其模型至 2032 年的知識產權使用權,而 OpenAI 則承諾在 Azure 上投入 2,500 億美元(約 1.95 萬億港元)的算力採購。
雙方的關係在 2025 年下半年出現根本性轉變,當 OpenAI 開始與 SoftBank 等外部投資者建立算力合作時 Microsoft 隨即啟動合約重新談判。Suleyman 在 2025 年 12 月指出修訂前的協議明確禁止 Microsoft 獨立研發通用 AI(AGI)或超級智能,合約甚至限制了公司可以訓練的模型運算規模上限。2025 年 10 月簽訂的新條款終於解除了這道枷鎖,容許雙方各自獨立追求 AGI 研發,Microsoft 同時保留對 OpenAI 所有技術的授權使用權。
Suleyman 隨即在 2025 年 11 月宣佈成立 MAI 超級智能團隊,目標是在 5 年內為 Microsoft 建立世界級的自研模型體系,他將這項使命定義為「人本超級智能」(Humanist Superintelligence),期望可以創造出始終以服務人類為核心目標的先進 AI 能力。2026 年 3 月的組織重組進一步確認了這個方向:Suleyman 從 Copilot 日常產品管理中抽身並全力投入模型研發;前 Snap 高層 Jacob Andreou 接任消費者及商業 Copilot 體驗的執行副總裁,直接向行政總裁 Satya Nadella 匯報。
股價暴跌 25% 的壓力下 3 款模型如何回應市場質疑
Microsoft 股價在 2026 年第 1 季下挫約 25%,錄得自 2008 年以來最差季度表現,跌幅在「7 大科技股」(Magnificent Seven)中居首並遠超同期 Nasdaq 的 7% 跌幅,投資者的焦慮來自兩個方向:Microsoft 2026 財年的資本開支(包括租賃)預計高達 1,460 億美元(約 1.1388 萬億港元),按年飆升約 66%,而 Azure 雲端業務的增長卻出現輕微放緩;市場也愈來愈擔心 OpenAI 與 Anthropic 等 AI 初創企業正在開發的智能代理(AI Agent)可能取代 Microsoft 的核心生產力軟件產品。
正是在這個壓力最大的時刻 Suleyman 的超級智能團隊推出了 MAI-Transcribe-1(語音轉文字)、MAI-Voice-1(文字轉語音)及 MAI-Image-2(文字轉圖像)3 款模型, 即日起透過 Microsoft Foundry 平台及全新 MAI Playground 開放使用,Suleyman 在接受 VentureBeat 獨家訪問時表示這些模型在效能基準上達到業界頂尖水準之餘,更以同業一半的 GPU 算力實現,直接改善了 AI 業務的成本結構。他在 3 月的內部備忘錄中寫道自研模型將為 Microsoft 帶來服務大規模 AI 工作負載所必需的銷售成本(COGS)效益。
語音轉錄:25 種語言全面領先的商業潛力
MAI-Transcribe-1 是這次發佈中最具商業影響力的產品,模型在行業標準的 FLEURS 多語言測試中,於 Microsoft 產品使用量最高的 25 種語言中取得平均 3.8% 字詞錯誤率(Word Error Rate),為同類模型中最低。根據 Microsoft 的基準測試數據顯示 MAI-Transcribe-1 在全部 25 種語言中均超越 OpenAI 的 Whisper-large-v3,在 22 種語言中勝過 Google 的 Gemini 3.1 Flash,在 15 種語言中分別優於 ElevenLabs 的 Scribe v2 及 OpenAI 的 GPT-Transcribe。
模型在技術架構上採用基於 transformer 的文字解碼器配合雙向音訊編碼器,支援 MP3、WAV 及 FLAC 格式,檔案上限 200MB 且批量轉錄速度比現有 Azure Fast 服務快 2.5 倍,Microsoft 已在 Copilot 語音模式及 Teams 會議轉錄功能中展開內部測試,意味著公司正加速以自研方案取代第三方或舊有內部模型。這項進展對依賴多語言轉錄的企業而言意義重大,因為語音轉文字服務的準確度直接影響會議記錄質素、客服通話分析效率,以及跨國團隊的溝通成本。
語音合成與圖像生成:填補產品生態的兩塊拼圖
MAI-Voice-1 的定位是高效語音合成引擎,能在 1 秒內生成 60 秒自然語音,在長篇內容中保持說話者聲音特徵的一致性,用戶僅需數秒音訊樣本即可透過 Foundry 建立特製語音,Microsoft 將定價設在每 100 萬字元 22 美元(約 171.6 港元),直接與 ElevenLabs 及 Resemble AI 等語音 AI 初創企業競爭。模型已應用於 Copilot Daily 和 Podcasts 功能,未來可望延伸至企業級客服自動化和互動式語音助理等場景。
MAI-Image-2 則是 Microsoft 的第 2 代自研圖像生成模型,在網上推出後在 Arena.ai 排行榜上位列前 3 名,僅次於 Google 的 Gemini 3.1 Flash 和 OpenAI 的 GPT-Image 1.5,相比首代模型在 2025 年 10 月發佈時僅排第 9 位,進步幅度相當顯著。模型在研發過程中參考了攝影師、建築師和平面設計師的實際需求反饋,強調逼真光影效果、準確膚色呈現,以及圖像內文字渲染的可讀性。定價方面文字輸入每 100 萬 token 收費 5 美元(約 39 港元),圖像輸出每 100 萬 token 為 33 美元(約 257.4 港元)。全球廣告巨頭 WPP 已成為首批大規模採用的企業合作夥伴。
媒體測試也指出 MAI-Image-2 目前存在若干實際限制,僅支援 1:1 正方形輸出比例,欠缺圖像編輯(inpainting)和擴展(outpainting)功能,每日生成上限為 15 張,非企業用戶每次生成之間需等待 30 秒,在社交媒體內容普遍要求多種比例的 2026 年,這些限制對內容創作者而言是一個明顯缺點,Microsoft 後續需要持續更新以釋放模型的完整潛力。
10 人小隊背後的管理哲學:精英模式對抗人海戰術
Suleyman 在訪問中披露的團隊規模數字或許比任何技術指標都更能說明 Microsoft AI 戰略的底層邏輯,開發語音模型的團隊只有 10 人,圖像模型團隊同樣不超過 10 人。他直言效能提升主要來自模型架構設計和訓練數據篩選,而非人力堆疊。Suleyman 的管理理念是賦予少數精英工程師最大程度的自主權,並以極為扁平的組織架構運作。
這種做法與業界主流趨勢形成鮮明對比,Meta 採取大規模招攬頂尖人才的策略,據報部分研究員的薪酬方案高達 1 億至 2 億美元(約 7.8 億至 15.6 億港元)。Microsoft 卻以 10 名工程師和同業一半的 GPU 用量創造出頂級語音轉錄模型,從根本上改寫了前沿 AI 研發必須依賴龐大團隊和天量投資的行業敘事。
Suleyman 描述團隊的工作環境時提到工程師圍坐在圓桌旁使用手提電腦,在 50 至 60 人的開放空間中從早到晚並肩進行 AI 輔助編程,這種接近初創公司節奏的工作文化,與 Microsoft 傳統工程部門的面貌截然不同,反映了 AI 本身正在改變 AI 開發流程的現實。對於評估 AI 投資回報率的企業而言 Microsoft 的案例提供了一個值得思考的參照:高效的小團隊配合精準的數據策略,有可能以較低成本產出與大規模研發機構相當的成果。
企業部署的實際考量:平台選擇、數據合規與成本控制
Microsoft 同時將自研模型與 OpenAI 及 Anthropic 的 Claude 模型共同置於 Foundry 平台,以「平台中的平台」的定位向企業市場推銷,這種策略的實際意義在於企業可以按需求在同一個 API 介面中靈活選用不同供應商的 AI 能力,減低單一供應商鎖定風險。對於已深度使用 Microsoft 365 生態系統的機構,自研模型的整合意味著語音轉錄、語音合成和圖像生成等功能可直接嵌入 Teams、Outlook、PowerPoint 等日常工具,毋須額外採購和整合第三方服務。
Suleyman 將數據合規定位為 Microsoft 自研模型的核心競爭優勢,他提到與行政總裁 Nadella 的討論中,雙方強調要建立訓練數據來源清晰、授權完備的模型體系。在 AI 行業版權訴訟頻繁的環境下這對在受監管行業營運的企業格外重要。如果 Microsoft 能令人信服地證明訓練數據全部通過合法途徑取得,便能有效降低客戶部署模型時面對的法律及聲譽風險。
在定價策略上 Suleyman 明確表示目標是在所有超大規模雲端服務商中提供最低價格,直接壓低 Amazon 和 Google 的報價,MAI-Voice-1 每 100 萬字元收費 22 美元、MAI-Image-2 文字輸入每 100 萬 token 僅 5 美元的定價,對中小型企業和獨立開發者而言大幅降低了使用門檻。而 Microsoft 自身亦從中受益,因為以更少 GPU 運行的模型可直接降低 Teams、Copilot、Bing 等內部產品的運算成本,在收入端和成本端同步創造價值。
Copilot 採用率不及預期 自研模型能否扭轉局面
Microsoft 推動 AI 自研的另一層背景是 Copilot 產品的市場表現未達預期,截至 2026 年初 Microsoft 365 Copilot 約有 1,500 萬付費用戶,而 OpenAI 的 ChatGPT 已擁有超過 5,000 萬付費訂閱者。在 Recon Analytics 的 AI 選擇調查中 Copilot 在付費 AI 訂閱者中的市場佔有率從 2025 年 7 月的 18.8% 下跌至 2026 年 1 月的 11.5%, 被 Google 的 Gemini 反超。Copilot 的準確度淨推薦值(NPS)長期處於負數區間,44.2% 的流失用戶將「不信任回答」列為停用的首要原因。
在這個困境下自研模型的戰略意義超越了單純的技術展示,如果 Microsoft 能以更低成本運行更高效能的模型,Copilot 產品的回應質素和速度都有望提升,從而改善用戶體驗和信任度。Suleyman 在內部備忘錄中指出自研模型的首要任務是為 Microsoft 的全線產品提供「經過企業最佳化的模型譜系」,在效能評測、銷售成本降低和前沿研究推進 3 個層面同步發力。Nadella 在組織重組公告中更強調模型層面的進步比以往任何時候都更加關鍵,是公司未來 10 年所有上層建築的基礎。
前沿語言模型仍是最大考驗 行業競爭格局面臨重寫
Suleyman 明確表示當前 3 款模型只是起步,當被問及 Microsoft 是否會開發與 GPT 直接競爭的前沿大型語言模型時,他回應稱 Microsoft 絕對會在所有模態上交付頂尖模型,目標是確保公司在任何時候都能以最高效率和最低成本實現完全獨立。
他描述了一份涵蓋未來 2 至 4 年的研發路線圖,包括建設適當規模的 GPU 集群, 目前團隊已啟用基於 NVIDIA Blackwell 架構的新一代 GB200 運算集群。Nadella 親自飛往邁阿密參加超級智能團隊的全員集會,現場佈置了整個 AI 自主使命的算力資源規劃。
當然開發具競爭力的大型語言模型在複雜度和算力需求上,與目前推出的專用音訊和圖像模型處於完全不同的量級,Suleyman 擁有組織授權、行政總裁的公開肯定和合約層面的自由度,但他在 Microsoft 尚未建立起交付通用推理和文字生成等 AI 最高難度任務的往績。
Suleyman 曾在 MIT Technology Review 提出他稱為「現代圖靈測試」的概念:衡量 AI 的標準不應是能否在對話中欺騙人類,而是能否走進現實世界完成實際的經濟任務,3 款自研模型的發佈是 Microsoft 向這個願景邁出的實質一步。真正的考驗在於超級智能團隊能否在大型語言模型的核心戰場上複製同樣的成功,而市場留給他們的時間和耐性正在快速流逝。
來源:Microsoft




