Microsoft Azure 雲端平台於 2025 年 10 月 29 日發生大規模服務中斷,一個「無意間的配置變更」導致全球企業系統癱瘓長達數小時,影響範圍橫跨航空、電信、零售與娛樂產業。這起事故發生在 Microsoft 公布季度財報前幾小時,讓全球超過 18,000 名用戶無法存取 Office 365、Azure Portal、Xbox Live 等關鍵服務。阿拉斯加航空報到系統故障、英國希斯路機場網站無法連接、電信巨頭 Vodafone 服務受阻,凸顯雲端基礎設施的脆弱性。值得注意的是,這起事件緊接在 Amazon AWS 故障後一週發生,讓企業對單一供應商的高度依賴風險浮上檯面。
技術根源:Azure Front Door 配置失誤的連鎖反應
根據 Microsoft 官方 Azure 狀態頁面說明,問題源於 Azure Front Door (AFD) 的租戶配置變更,該變更引入了無效或不一致的配置狀態,導致大量 AFD 節點無法正常載入。Azure Front Door 是 Microsoft 的全球邊緣路由架構,負責內容分發與應用程式傳遞服務,當異常節點從全球資源池中退出時,流量分配失衡,放大了影響範圍,即使部分健康區域也出現間歇性可用性問題。Microsoft 表示從美東時間中午 12 點開始,使用 Azure Front Door 的客戶和 Microsoft 服務遭遇超時與錯誤,受影響服務包括 Azure 通訊服務 (Azure Communication Services)、媒體服務 (Media Services) 以及 Microsoft 365。網絡監測平台 ThousandEyes 在 UTC 時間 16:00 檢測到維吉尼亞州阿什本 AWS 邊緣節點的封包遺失,這與 Microsoft 官方報告的事故開始時間完全吻合。
雙巨頭接連失守:雲端寡占市場的系統性風險
這次 Azure 當機發生在 AWS 大規模中斷後僅一週,AWS 事故由 DNS 競爭條件 (race condition) 引發,導致應用程式無法正確連接到 US-EAST-1 區域的 DynamoDB API,影響社群媒體、遊戲、外賣、串流與金融平台等多個行業,為近年規模最大的雲端災難之一。AWS 工程師在 UTC 時間 6:49 (10 月 20 日) 首次收到用戶回報,兩小時內 Downdetector 收到超過 400 萬份當機回報,整起事故持續超過 15 小時。市場數據顯示,Amazon AWS 以 30% 市場佔有率穩居全球雲端服務龍頭,Microsoft Azure 以 20% 位居第二,Google Cloud 以第三名跟隨。然而接連發生的兩大巨頭故障事件讓業界警覺:全球雲端基礎設施呈現寡占格局,對少數大型供應商的高度依賴已成為系統性風險。
Microsoft 財報日遇尷尬:雲端業務表現亮眼卻遭當機打臉
諷刺的是,這次故障發生在 Microsoft 2026 財年第一季財報發布前數小時。Microsoft 於 10 月 29 日公布的財報顯示,該季營收達 777 億美元(約港幣 6,060.6 億元),年增 18%;營業利益 380 億美元(約港幣 2,964 億元),年增 24%;淨利 (GAAP 基礎) 277 億美元(約港幣 2,160.6 億元),年增 12%。Microsoft 行政總裁 Satya Nadella 在財報中強調:「我們的全球規模雲端和 AI 工廠,加上跨高價值領域的 Copilots,正在推動廣泛的擴散和現實世界的影響。這就是為什麼我們繼續增加在 AI 方面的資本和人才投資,以滿足未來的巨大機會。」然而故障事件的時機讓這份亮眼財報蒙上陰影。
修復過程:從 18,000 到 230 件回報的漸進恢復
Microsoft 在偵測到問題後立即凍結所有 AFD 配置變更,防止故障狀態進一步擴散,並開始在全球部署「最後已知良好」配置。同時工程團隊將 Azure Portal 從 Front Door 導向其他路徑,以恢復管理存取權限。Azure 在其狀態頁面表示,預計在美東時間晚間 7 點 20 分前於受影響區域看到「強勁的改善跡象並朝向完全緩解」。恢復過程需要在大量節點上重新載入配置,並逐步重新平衡流量以避免節點恢復服務時出現過載情況。這種刻意的分階段恢復對於穩定系統、恢復規模並確保問題不再發生是必要的。根據 Downdetector 數據,Azure 問題回報從高峰期的 18,000 人降至晚間 6 點 49 分的 230 人;Microsoft 365 的問題回報也從近 11,700 人降至 377 人,顯示修復進展顯著。然而即使配置已修復,在 DNS 快取、ISP 路由和連線狀態收斂之前,部分客戶仍在恢復期間經歷不穩定和殘留影響。
企業啟示:多雲策略與架構韌性成為生存關鍵
兩大雲端巨頭接連故障,迫使企業重新審視雲端策略。Forbes 分析指出,華爾街已將多雲解決方案視為唯一能夠對關鍵功能進行未來防護的方法。金融機構尤其關注第三方依賴帶來的雲端安全風險,這些風險包括供應商鎖定、有限的可見性、合規性挑戰以及資料外洩風險。網絡安全專家建議,金融機構應實施嚴格的供應商風險管理實務、進行徹底的盡職調查,並遵守共享責任模型:雲端供應商負責「雲端的安全」(底層基礎設施),而企業負責「雲端中的安全」(其資料和應用程式)。系統架構師和 IT 領導者的實際啟示包括:審核雲端依賴關係圖、驗證程式化管理路徑,並排練故障轉移情境,假設邊緣和身份層可能獨立於後端運算失效。
對企業的深遠影響與未來趨勢
Microsoft Azure 與 AWS 接連當機事件,為全球企業敲響了雲端依賴的警鐘。在數碼轉型加速的時代,單一雲端供應商的配置失誤就能引發全球性業務中斷,這種系統性風險將迫使企業重新評估其雲端架構策略。多雲部署、災難恢復演練、供應商風險管理將從「最佳實務」升級為「生存必需」。隨著 AI 與雲端運算深度整合,如何在追求創新的同時確保基礎設施的穩定性與韌性,將成為科技巨頭與企業客戶共同面對的長期挑戰。
資料來源: 美聯社(Associated Press) CNBC Channel News Asia Forbes 微軟投資人關係