close

雲端服務

中小企雲端專區

Ruijie Cloud 一站式雲端管理系統 支援手機 APP、Web GUI

近年,網絡雲端管理發展起來,各大網絡品牌都有自家的雲端管理系統,加速了雲使用的步伐。但現在大部分品牌都只有特定系列產品才能夠支援雲端管理,有的品牌雲端管理就功能並不齊全,又或者 License 的年費太高,中小企業難以負擔。巿場上還有什麼品牌可以給用家選擇呢?以下介紹的 Ruijie Cloud 網絡雲端管理系統,是少數向中小企巿場支援全企業級功能的網絡雲端系統。

▲ Ruijie Wi-Fi

 

企業級品牌 知名網絡供應商

網絡品牌供應商 Ruijie 為商用企業提供網絡解決方案,除商用巿場外,政府 Wi-Fi.HK 和眾多的 NGO 也有選用 Ruijie 產品,全港亦有超過 400 間中小學正採用 Ruijie 網絡方案。上年度 Ruijie 便推出了針對中小企業巿場的牌子 — Reyee,產品質量維持高水平兼附設適合中小企使用的企業級功能。

 

 

獨家自組網  3 分鐘自動配置設定完成

組裝 Ruijie 產品不會有太大難度,原因是 Ruijie 產品有個獨特功能名叫「自組網 SON : Self-Organizing Network」,只要使用全 Reyee 產品,3 分鐘內可以全部產品自動添加上 Ruijie Cloud,包括 Router、Switch、Gateway 和 Access Point。往後的功能設置亦都會自動套上設備上,大幅減少設置時間和所需要的技術門檻。如果設備裡有支援 ONVIF 的 CCTV Camera ,Ruijie Cloud 會自動 discover 並添加上雲端。

以下參考影片展示了 Ruijie 曾經試過不用 3 分鐘就能使用自組網功能去設置全部 150 台 AP

https://www.youtube.com/watch?v=TPCqAD8DR_k

 

▲Ruijie Cloud 自動 discover Reyee 和 Camera,紅色連結代表有問題

 

手機網絡管理 遙遠設置

企業級的管理系統,由於功能複雜和定位原因,多數需要用獨立軟件或 Web GUI 登入系統去操作,就算有手機 App 也只會提供整體資訊為主 。Ruijie Cloud 給用家驚喜的地方是它的手機 App,除了必有的整體資訊如網絡狀態、設備的使用資料和用家使用量外,更加貼心地提供設備的內裡資訊,比如每一個網埠的連結應用和使用狀況,使管理者可以更快地偵查到每台設備的實際情形。

▲ Ruijie Cloud 提供豐富網絡資訊

 

系統的 alarm system 可以設計不同門檻和組合,當有異常時,就透過 EMAIL 和 App pop up 主動去通知管理者,再進入 App 裡查看設備狀況。App 裡已經有常用的 Wi-Fi 設置,網絡限制等設定,管理者可以於手機 App 內作出即時調整,十分方便。如果項目需要其他技術人員協助管理,亦設有 Share Tenant 功能,可以提供到 Read/Write 和 Read only 的選擇,共同管理項目。

▲ 全面企業級功能

 

企業功能 節省運維成本

上面已介紹過 Ruijie Cloud 有提供企業級功能讓中小企使用,另外他們有幾個貼地功能,相信不少中小止都有這需求 :

Remote PoE Reboot : 當終端設備如 Wi-Fi 或者 CCTV Camera 有不穩定時,一般的做法是派遣工程司到現場做 onsite inspection,但這樣做的成本十分高昂,而且 8 成的不穩定問題都只需要重啓設備就可以。若果使用 Ruijie Cloud,當管理者知道終端設備有異常時,可以先透過 Cloud 去重啓該設備的網絡電接阜,如果問題解決就可以省郤派遣工程司到現場處理,這樣就更有效率,減省運維成本。

 

Long Distance : 眾所周知一般 PoE LAN 的傳輸距離限制是 100 米,如果要連接超過 100 米,就需要添加 PoE 交換機,增加運維成本。Ruijie Cloud 有一個 Long Distance 功能,可以把連接阜的傳輸速度限制於 10MB 內,換來達到 200 米的傳輸距離。對於一些有特別距離需求的 CCTV 項目,這功能就會大派用場。

 

AI Optimization / Diagnose : 網絡不穩定或者異常,有可能是設置問題,也有可能是外在因素影響,但一般情況下,如果没有相關專業知識者或者現場做詳細測試的話,是很難檢測到問題所在。Ruijie Cloud 有一個 AI Optimization 功能,可以一鍵幫助改善設備的配置,比如用大數據分析選擇最暢通的網絡頻普,調較合適的訊號強弱等等。另一個功能是 AI Diagnose,它可以協助你分析從手機直至 Internet 間的連接是否有硬體或者設置異常,並且提供解決建議,尤如一名專業網絡工程師從旁協助。

▲ 一鍵偵查和改善系統配置

 

 

 

Ruiji Cloud license 終身免費

很多品牌的雲端管理是需要額外收取 License Fee,每年以 Subscription 型式或者按產品型號和數量去收取費用。而 Ruijie cloud 則向所有客戶提供終身免費設備無上限,和企業級功能的網絡雲端管理系統,這策略十分關顧只用上有限設備的中小企業,幫助他們大大減輕運維成本。

▲ Ruijie Cloud 比巿場對手牌子的雲端有更強大的功能且免費

 

Google 雲端系統 保證安全性

雲端管理的無間斷服務能力和資料安全一向是大眾關注焦點。香港區所使用的 Ruijie Cloud 是設置於 Singapore Google 內, 已通過 99.99 的認證,另外於俄羅斯亦有設置高可用性解決方案,雲端系統的穩定性有所保證。對於某些行業如酒店和銀行有著高度嚴格的私人條例規範,Ruijie Cloud 亦已經通過歐盟對私隱保障的嚴格需求 (GDPR),客戶不用擔心資料外洩。

 

總結

有賴於 Ruijie Cloud 的友善介面,產品設置和測試過程都可非常順利,相信網絡新手都能夠輕易掌握。而 Ruijie Cloud 是完全免費和無上限使用,所以中小企業若使用 Ruijie Reyee 產品的話,只需付上硬件費用就能用 Ruijie Cloud,整個配套相當吸引。

 

 

測試產品:

RG-EG210G-E

  • 10 個 Gigabit Port,uplink 1000Mbps
  • 最大支援 200 台設備同時使用
  • 預設 2 WAN,最大支援 4 WAN
  • 預設三個網段
  • 支援網絡流量控制,行為管理
  • 支援 IPSec VPN,DDNS

 

▲ RG-EG210G-E 全能中小企 Router

 

RG-ES209GC-P

  • 8 個 Gigabit PoE/PoE+ Port,1 個 Gigabit Uplink Port
  • 120W 最大 PoE 輸出功率
  • 支援 Ruijie cloud
  • 4K MAC 容量
  • 支援 Loop Prevention、Remote PoE Reboot、Long Distance 功能

 

 

▲ RG-ES209GC-P 高性能交換機

 

 

 

RG-RAP2260(G)

  • 2 個 Gigabit LAN Port
  • AX1800 Wi-Fi 6 ,2×2 MIMO
  • 4G : 574Mbps / 5G : 1201Mbps,共提供 1.775Gbps
  • 內置藍牙 0
  • 支援 Layer 2,3 Roaming

 

 

▲ RG-RAP2260(G) 全能中小企 Gateway

 

read more
企業趨勢儲存技術數據分析雲端服務

Blackstone 萬億押注 AI 數據中心:謹慎投資還是世紀豪賭


Blackstone 萬億押注 AI 數據中心:謹慎投資還是世紀豪賭?

Blackstone 行政總裁 Steve Schwarzman 12 月中公開反駁 AI 數據中心存在「泡沫」的市場質疑,強調這是「極保守實業投資」而非投機行為 。全球科技巨頭 2025 年 AI 基建支出預計達 4,000 億美元(約港幣 3.12 兆元),Oracle 亦披露高達 2,480 億美元(約港幣 1.93 兆元)數據中心租賃承諾,引發市場震盪 。Blackstone 作為全球最大替代資產管理公司,目前管理資產達 1.2 兆美元(約港幣 9.36 兆元),旗下持有北美最大數據中心營運商 QTS 及澳洲領先業者 AirTrunk,其立場對這場萬億級產業辯論極具指標性。

Blackstone 商業模式:長期合約鎖定穩定現金流

Schwarzman 接受 CNBC 專訪時闡述 Blackstone 數據中心業務策略:公司投資建設數據中心及配套電力設施,並與 Nvidia 等高信貸評級企業簽訂長期租賃協議,本質上扮演基建供應者角色 。Blackstone 總裁兼營運總監 Jon Gray 於 12 月 10 日高盛金融服務會議透露,自 2021 年以約 100 億美元(約港幣 780 億元)私有化 QTS 後,其租賃容量已增長 12 倍,充分證明市場需求真實 。此模式核心在於將不確定的科技投資,轉化為可預測租金收入,邏輯類近房地產投資信託(REITs)般穩健。

Gray 進一步指出,即使市場資金大量湧入,電力供應限制仍令數據中心投資保持吸引力 。產業面臨關鍵瓶頸:美國多家電力公司接獲數據中心電力需求,已超出現有發電容量;德州 Oncor Electric 接獲連線申請達 20 吉瓦,幾近其尖峰用電量四倍 。Blackstone 看準供需失衡結構性機會,2024 年 9 月以 240 億澳元(約 159 億美元/港幣 1,240 億元)收購 AirTrunk,創該公司亞太區最大單筆投資紀錄 。AirTrunk 目前在亞太區擁有逾 800 兆瓦容量,並宣布將投資 80 億美元(約港幣 624 億元)擴展數據中心版圖 。

萬億市場預測與現實需求驗證

McKinsey 最新報告為數據中心產業描繪驚人前景:全球數據中心需求預計以年複合增長率 22% 增長,2030 年總容量將從 2025 年 82 吉瓦躍升至 219 吉瓦,需累計 6.7 兆美元(約港幣 52.26 兆元)資本投資才能跟上算力需求 。具體而言,AI 專用數據中心容量將從 2025 年 44 吉瓦暴增至 2030 年 156 吉瓦,屆時 AI 工作負載將佔總容量 70% 。這些數字支撐 Schwarzman「AI 將塑造新世界,人們需要數據中心支撐 AI 運轉」的論述 。

然而市場並非一面倒樂觀。投資分析公司 Bain 估算,要證明當前 AI 基建投資合理性,2030 年需產生每年 2 兆美元(約港幣 15.6 兆元)AI 營收,數字超越 Amazon、Apple、Google、Microsoft 及 Meta 五大科技巨頭 2024 年預期營收總和 。D.A. Davidson 投資公司分析師 Gil Luria 警告,若 AI 市場成長僅屬穩定而非爆炸性,行業將面臨產能過剩,目前約 1,000 億美元(約港幣 7,800 億元)數據中心建設債務或變一文不值,引發金融連鎖反應 。Dell’Oro Group 市場研究總監在 2026 年預測報告承認,雖然「泡沫」辯論持續升溫,但 AI 基建投資底層驅動力依然完整,建設將繼續進行。

風險訊號:Oracle 的 2,480 億美元警示

Oracle 在 12 月中披露財務數據為市場敲響警鐘:公司擁有 2,480 億美元(約港幣 1.93 兆元)租賃付款承諾,「幾乎全部」與數據中心及雲端容量安排相關,租賃期限長達 15 至 19 年 。然而許多 AI 客戶(包括 OpenAI)簽訂合約僅數年,期限錯配意味 Oracle 正為尚不擁有的基建鎖定長期支付義務,同時押注數十年後 AI 需求依然強勁。彭博專欄作家將此形容為又一枚 AI「炸彈」,質疑若需求未如預期,公司盈利能力及現金流將受重創 。

相較之下 Blackstone 模式顯得審慎。該公司主要建設並擁有數據中心資產,再出租予信用良好的長期租戶,避免 Oracle 式槓桿風險。《麻省理工科技評論》與 FXStreet 分析文章指出,當前可能存在的不是「AI 泡沫」而是「數據中心泡沫」——實體基建速度可能超前實際應用需求,類似 2000 年代初光纖過度建設歷史重演 。業界觀察到 Microsoft 已在過去六個月縮減 2 吉瓦美國及歐洲數據中心項目,矽谷部分數據中心建成後仍等待電力供應而閒置。

對企業決策者的戰略啟示

Blackstone 數據中心投資策略為企業領導者提供三個關鍵洞察:首先,基建投資價值在於將科技不確定性轉化為合約確定性,長期租賃協議是降低風險核心機制。其次,供應鏈瓶頸(特別是電力供應)往往比技術進步更能決定投資價值,掌握稀缺資源比追逐最新技術更具防禦性。第三,規模化營運至關重要——Blackstone 透過 QTS 容量 12 倍增長及 AirTrunk 亞太佈局,建立談判優勢及成本效益。

對於考慮 AI 基建投資的企業,關鍵問題不再是「是否投資」而是「如何投資」。Schwarzman 斷言「AI 將塑造新世界」可能正確,但時間軸不確定性要求投資者採取更謹慎財務結構。Stanford 經濟學家 Erik Brynjolfsson 提出「J 曲線理論」概括當前階段:AI 投資初期呈現負回報,但預計 2020 年代後半段將迎來顯著增長 。關鍵轉折點到來前,Blackstone 式「保守實業投資」策略,可能比 Oracle 式激進槓桿更能穿越週期波動。市場將在未來 3 至 5 年驗證誰的判斷更接近真相——究竟是萬億產業黎明,還是又一場資本狂歡黃昏。

資料來源: 路透社 麥肯錫顧問公司 彭博社 CNBC 美國國家公共廣播電台(NPR)

read more
人工智能資訊保安雲端服務

與資安巨頭 Palo Alto Networks 達成戰略合作 Google Cloud 爭奪雲端市場主導權


與資安巨頭 Palo Alto Networks 達成戰略合作 Google Cloud 爭奪雲端市場主導權

Google 母公司 Alphabet 旗下雲端運算業務 Google Cloud 於 2024 年 12 月 19 日宣佈,與全球資安巨頭 Palo Alto Networks 達成戰略性擴大合作。知情人士向路透社透露,Palo Alto 承諾未來數年內將向 Google Cloud 支付接近 100 億美元(約港幣 780 億元),屬 Google Cloud 歷來最大宗安全服務合約。此協議鞏固雙方自 2018 年起的合作關係,標誌著 AI 驅動資安服務正式進入十位數金額時代。本文將探討交易背後的戰略意圖、AI 資安市場爆發性增長,以及 Google Cloud 如何藉此挑戰 AWS 和 Microsoft Azure 市場地位。

AI 資安需求引爆:市場規模三年翻五倍

人工智能在網絡安全領域應用正以驚人速度擴張,全球 AI 資安市場預計從 2024 年的 231.2 億美元激增至 2025 年的 285.1 億美元,年增長率達 23.3%。市場研究機構預測數字將在 2032 年達到 1,361.8 億美元,複合年增長率高達 24.81%。Palo Alto Networks 總裁 BJ Jenkins 接受訪問時指出,現時每個董事會都在詢問如何利用 AI 能力,同時保護業務免受新興威脅,是次合作正是為解決此挑戰而生。這筆近 100 億美元投資中,相當大比例將用於開發結合生成式 AI 的新型資安服務,而非僅將現有服務遷移至 Google 平台。

Google Cloud 營收長 Matt Renner 強調,AI 帶來龐大資安服務需求,與過去傳統雲端安全有本質上差異。根據雲端安全統計數據,2024 年超過 60% 企業報告發生與公共雲相關的安全事件,83% 組織將雲端安全視為主要關切,數據洩露平均成本已攀升至 435 萬美元(約港幣 3,393 萬元)。更關鍵是 58% 開發人員預期 2024 年雲端安全風險將進一步增加,驅使 51% 組織計劃增加雲端安全投資,其中 31% 企業每年投入超過 5,000 萬美元(約港幣 3.9 億元)保護雲端基建設施。

技術整合策略:Gemini AI 與 Precision AI 的碰撞

此次合作技術核心在於 Palo Alto Networks 將利用 Google 的 Gemini AI 模型增強其安全副駕駛(copilots)功能,同時整合 Google Cloud 的 Vertex AI 平台。Palo Alto 在 2024 年 5 月推出的 Precision AI 安全解決方案已展現實力,方案包括 AI 存取安全(AI Access Security)、AI 安全態勢管理(AI-SPM)以及 AI 執行時安全(AI Runtime Security)三大核心產品。這些工具能識別 AI 模型、應用程式和資源中的漏洞,優先處理錯誤配置,並防範提示注入攻擊、模型阻斷服務等 AI 時代特有威脅。

透過這項合作,Palo Alto 客戶將能保護在 Google Cloud 上運行的活躍 AI 工作負載和數據,維持安全協議,加速 Google Cloud 整合,並簡化安全解決方案。值得注意是 Palo Alto 已在 Google Cloud Marketplace 上產生超過 20 億美元(約港幣 156 億元)收入,擁有超過 75 個聯合解決方案。這種深度整合不單是技術層面結合,更是商業生態系統全面融合,為企業客戶提供從基建設施到應用層的端到端 AI 安全防護。

雲端三巨頭競賽:Google 追趕 AWS 與 Azure 的關鍵一步

這筆交易對 Google Cloud 具重大戰略意義,皆因其正努力縮小與市場領導者 Amazon Web Services(AWS)和 Microsoft Azure 的差距。根據 2024 年第三季度市場數據,AWS 以 31% 市佔率穩居第一,Microsoft Azure 佔 20%,而 Google Cloud 僅佔約 13%。然而 Google Cloud 正展現強勁增長動能,2024 年第三季營收突破 150 億美元大關,年增 34%,已成為 Alphabet 增長最迅速業務之一,正挑戰 YouTube 成為僅次於搜尋廣告業務的第二大收入來源。

D.A. Davidson 分析師 Gil Luria 表示,Google 要與 Microsoft Azure 有效競爭企業客戶,必須提供更全面服務範圍,包括安全軟件。Google 顯然深知這一點,在 2025 年 3 月宣佈以 320 億美元(約港幣 2,496 億元)收購雲端安全初創公司 Wiz,是 Google 史上最大收購案,遠超 2012 年以 125 億美元(約港幣 975 億元)收購 Motorola Mobility 的紀錄。該交易已於 2025 年 11 月獲美國政府批准,預計 2026 年完成。同時 Google 亦在 2025 年與 Meta 達成 6 年超過 100 億美元雲端合約,並與 ServiceNow 簽訂 5 年 12 億美元協議。連串大手筆投資顯示 Google 正全力衝刺雲端安全領域,企圖重塑競爭格局。

人脈與歷史:從 Google 高管到資安巨頭掌舵者

這筆交易背後還有一段人脈連結。Palo Alto Networks 現任行政總裁 Nikesh Arora 曾在 Google 任職長達十年(2004-2014),期間歷任歐洲營運副總裁、歐洲中東非洲區總裁,並在 2009 年至 2014 年擔任全球銷售營運與業務發展總裁,最後職位是資深副總裁兼首席商務長。在 Arora 領導下,Google 歐洲業務創造數十億美元營收,他對 Google 企業文化和商業策略有深刻理解。這層歷史淵源或是促成此次百億美元合作的重要催化劑,因雙方高層對彼此技術能力和企業願景有深度信任。

Arora 在 2014 年離開 Google 後曾短暫擔任 SoftBank Group 總裁(2014-2016),隨後於 2018 年加入 Palo Alto Networks 擔任行政總裁。在他帶領下,Palo Alto 積極透過收購擴大版圖,最新一筆是 2025 年 11 月宣佈以 33.5 億美元(約港幣 261.3 億元)收購次世代可觀測性領導廠商 Chronosphere,該公司年度經常性收入超過 1.6 億美元(約港幣 12.48 億元),年增長率達三位數。這項收購將把 Chronosphere 的可觀測性框架與 Palo Alto 的 AI 增強型 AgentiX 工具整合,為管理大規模 AI 工作負載的企業提供實時、自主修復能力。

企業數碼轉型的資安防線:從被動防禦到主動威脅獵捕

對於企業決策者而言,這筆交易揭示一個關鍵趨勢:AI 時代資安策略必須從被動防禦轉向主動威脅獵捕和自動化響應。Jenkins 將當前局勢比喻為當年雲端技術剛興起時,出現過去從未想像過的新型資安威脅;如今網絡攻擊手法,往往就是利用資安業者用來強化防禦的同一套生成式 AI 工具。這種「以 AI 攻 AI」的對抗態勢,要求企業必須部署更先進 AI 驅動安全解決方案,才能在這場軍備競賽中保持領先。

雲端安全市場整體規模亦印證此需求,2024 年全球雲端安全市場價值 360.8 億美元,預計到 2034 年將達到 1,210.4 億美元,複合年增長率為 12.87%。大型企業在 2024 年佔據雲端安全市場最高份額,主因是這些企業對雲端開發和基建設施的大量投資,增加網絡攻擊和數據洩露風險。由於這些企業處理包含敏感資料的複雜數據集,在企業內部建立強大雲端安全基建設施至關重要。87% 組織已採用多雲策略,72% 使用混合雲配置(公用雲和私有雲結合),這令資安防護需求進一步複雜化。

未來展望:十位數合約成為新常態

這筆近 100 億美元交易可能只是開端,隨著 AI 技術滲透到企業營運各個層面,雲端安全服務價值將持續攀升。Google Cloud 藉由與 Palo Alto 深度合作,除獲得可觀營收承諾,更重要是建立 AI 資安領域技術標準和市場信心。對企業而言,選擇雲端服務供應商時,資安能力已從「加分項」躍升為「必要條件」,而整合 AI 的下一代資安解決方案將成為決定性競爭優勢。在 CrowdStrike 全球當機事件後,企業對網絡資產保護投資意願明顯增強,預示類似規模雲端安全合約將成為產業新常態。Google、AWS 和 Microsoft 之間的雲端霸主之爭,正從運算能力和儲存容量比拼,轉向誰能提供最全面、最智能的 AI 資安防護體系。

資料來源: Reuters CNBC TechCrunch GlobeNewswire Palo Alto Networks

read more
人工智能企業趨勢雲端服務

Oracle 徹底退出自研晶片競賽:不再認為設計及製造自家晶片具戰略必要性


Oracle 徹底退出自研晶片競賽:不再認為設計及製造自家晶片具戰略必要性

Oracle 徹底退出晶片自研競賽,以稅前 27 億美元(約港幣 210.6 億元)收益,出售所持晶片設計公司 Ampere Computing 全部股權,由日本 SoftBank 以 65 億美元(約港幣 507 億元)完成收購。這家雲端巨頭董事長 Larry Ellison 明確表示,公司不再認為設計、製造自家晶片具備戰略必要性,轉而推行「晶片中立」策略。此舉與 Microsoft、AWS、Google 等競爭對手押注自研晶片的路徑背道而馳,揭示雲端運算產業在 AI 軍備競賽中的分歧抉擇。

戰略大轉彎:從股權投資到徹底撤離

Oracle 於 2025 年 11 月完成對 Ampere Computing 的股權出售,該公司此前持有 Ampere 約 29% 股份。SoftBank 以 65 億美元(約港幣 507 億元)全資收購 Ampere,後者專注設計基於 ARM 架構的高效能 AI 運算晶片。值得注意的是,Oracle 的晶片參與模式本就與競爭對手不同,採取少數股權投資而非組建內部團隊全資研發,Ampere 同時為其他客戶供貨,並非 Oracle 專屬。Larry Ellison 在財報電話會議中解釋,隨著 AI 技術迭代加速,公司需保持部署任何客戶所需晶片類型的靈活性,避免受限於單一架構。

這宗交易為 Oracle 第二財季業績注入強心針。雖然投資者擔憂其在 AI 雲端基建的巨額開支,但 27 億美元(約港幣 210.6 億元)的一次性收益顯著推升 GAAP 淨利潤和非 GAAP 每股收益,超越多數分析師預期。同時,Oracle 的剩餘履約義務(RPO)達到約 5,230 億美元(約港幣 4.08 兆元),反映龐大的未來雲端承諾訂單。然而這份亮眼財報背後,是一家企業在資本密集型轉型中的策略性撤退——放棄晶片控制權以換取財務與技術的雙重靈活性。

多元供應鏈佈局:AMD、Nvidia 雙軌並行

拋售 Ampere 並非意味放棄硬件合作,而是轉向多元化供應商網絡。Oracle 於 2025 年 10 月宣布與 AMD 擴大合作,將於 2026 年第三季推出首個基於 AMD Instinct MI450 系列 GPU 的公共 AI 超級集群,初期規模達 50,000 個 GPU。這使 Oracle 成為首家公開提供 AMD 驅動 AI 超級集群的超大規模雲端服務供應商。AMD Instinct MI450 以高性價比和能源效益著稱,Anthropic 等 AI 企業已計劃大規模採用類似架構。

同時,Oracle 繼續深化與 Nvidia 的合作,大量採購其 GPU 以滿足主流 AI 訓練需求。更引人注目的是,Oracle 在出售 Ampere 股權後不到一個月,於 2025 年 12 月推出基於 Ampere Computing 最新 AmpereOne M 處理器的 A4 標準雲端實例(Instance)。這些實例提供每核心 61% 的效能提升和 20% 更高的加速頻率,單價僅為每 OCPU 每小時 0.0138 美元(約港幣 0.11 元)。此舉顯示 Oracle 即便不持股 Ampere,仍可透過商業合作取得最新技術——這正是「晶片中立」的核心邏輯:以採購靈活性取代所有權束縛。

逆勢而行:當對手重金砸向自研晶片

Oracle 的策略與產業主流形成鮮明對比。AWS 於 2025 年 12 月發布第五代自研處理器 Graviton5,配備 192 核心和 5 倍大型快取(Cache),效能較前代提升 25%,並已連續三年為 AWS 超過半數的新 CPU 容量提供動力。AWS 強調,定制處理器使其能改良整個堆疊(Stack)——從處理器到伺服器的直接晶片冷卻技術,將風扇功耗降低 33%。該公司 98% 的前 1,000 大 EC2 客戶已使用 Graviton,顯示自研晶片在成本與效能平衡上的競爭力。

Google 則繼續押注 TPU(張量處理單元),Anthropic 於 2025 年 10 月宣布計劃使用多達 100 萬個 TPU 晶片訓練和部署 Claude 模型,價值達數百億美元。Google Cloud 行政總裁 Thomas Kurian 強調,TPU 的性價比和能源效益是 Anthropic 擴大使用的關鍵原因。Microsoft 同樣在 2025 年 10 月明確表示,未來將主要使用自家 AI 晶片,以減少對 Nvidia 和 AMD 的依賴,並提升為特定需求改良的效率。科技巨頭在 2025 年合計投入超過 3,000 億美元(約港幣 2.34 兆元)的資本支出,其中大部分流向 AI 基建和自研晶片。

產業分析師指出,自研晶片為雲端服務供應商帶來三大優勢:針對工作負載改良的效能、降低單位運算成本、以及減輕供應鏈風險。然而 Oracle 選擇反向操作,放棄設計控制權以換取技術路線的「保險單」。這場策略分歧的核心在於:當 AI 模型架構尚在快速演變時,「擁有最佳晶片」重要,還是「能快速切換到最佳晶片」更重要?

靈活性對抗鎖定:企業決策的新範式

Oracle 的「晶片中立」政策反映更深層的產業焦慮:供應商鎖定與技術路徑依賴。Larry Ellison 警告,AI 硬件架構變化速度超乎預期,提前數年押注單一技術可能造成災難性後果。透過同時支援 Nvidia、AMD、Ampere 等多家供應商,Oracle 將選擇權交還客戶,企業可根據具體 AI 模型需求、預算限制和效能要求,在多種處理器配置間靈活切換。這種策略在定價談判中也具備優勢,避免過度依賴 Nvidia 等單一供應商面臨的溢價與供貨瓶頸。

從財務角度看,27 億美元(約港幣 210.6 億元)收益立即改善 Oracle 資產負債表,可再投資於雲端數據中心擴張和軟件開發。相較之下,自研晶片需持續投入數十億美元的研發與製造成本,且技術迭代風險由企業獨自承擔。AWS、Google、Microsoft 的自研路徑基於其龐大的內部運算需求,它們可在自家服務中消化數百萬顆定制晶片,攤銷研發成本。但 Oracle 的雲端業務規模相對較小,Ampere 晶片部分供貨給外部客戶,未形成完全內部循環。在此情境下,「購買」可能確實比「製造」更具經濟理性。

然而這場賭注並非毫無風險。放棄晶片設計意味喪失差異化競爭力的一個關鍵來源,競爭對手可透過定制晶片提供獨特的效能優勢或成本結構,而 Oracle 只能在現貨市場上與所有買家競爭相同的供應。若 AMD 或 Nvidia 未來面臨產能限制,Oracle 可能被擠到供應鏈後段。此外,SoftBank 收購 Ampere 後可能優先服務其自身 AI 計劃(如 Stargate 計劃),削弱 Oracle 取得最新 AmpereOne 晶片的優先級。

AI 基礎設施的十字路口

Oracle 的策略轉向為雲端運算產業提出根本性問題:在 AI 時代,垂直整合還是水平協作更具優勢?自研晶片派認為,控制全堆疊(從晶片到軟件)是實現最佳效能與成本的唯一途徑;晶片中立派則主張,技術快速演變時保持靈活性更為關鍵。兩種模式或將在未來數年並存,最終由市場檢驗何者更能滿足企業多樣化的 AI 需求。

對企業 IT 決策者而言,Oracle 的實驗提供新思考:選擇雲端服務供應商時,除了當前效能和價格,供應商的晶片策略同樣影響長期靈活性。若企業 AI 工作負載需求明確且穩定,自研晶片改良的雲端可能提供更佳性價比;但若處於探索階段或需快速試驗多種模型架構,晶片中立平台的彈性可能更具價值。隨著 AMD MI450 集群在 2026 年第三季推出,市場將首次有機會驗證「多供應商策略」能否在效能與成本上與「自研晶片帝國」分庭抗禮。這場產業實驗的結果,將重塑未來十年雲端運算的競爭格局。

資料來源:

CRN

Oracle

Yahoo Finance

Oracle AMD Partnership

AWS

 

read more
人工智能雲端服務

AWS 推出第三代 Trainium3 AI 晶片挑戰 Nvidia 霸主地位 企業訓練成本可望減半

在 AWS re:Invent 2025 大會上,Amazon Web Services(AWS)於週二宣布推出第三代 Trainium3 AI 晶片。這場發布被視為雲端巨頭企圖打破 Nvidia 在 AI 晶片市場近乎壟斷地位的重要一步。對於正在思考如何在人工智能浪潮中控制成本的企業領導者而言,這項新產品釋放出一個明確訊號:AI 基礎建設的選擇正在增加,而成本結構亦將隨之改變。

這款採用最先進 3 納米製程技術的晶片,其意義遠超過技術規格的提升。根據 AWS 提供的數據,Trainium3 UltraServers 系統的運算效能較前一代提升 4.4 倍,能源效率提升 40%。這意味著企業在追求 AI 創新的同時,不必再面臨電費和營運成本失控的困境。更關鍵的是,已經測試這款晶片的企業客戶報告,相較於傳統 GPU 方案,訓練成本節省幅度高達 50%。

 

時間就是金錢 訓練週期大幅縮短

對於企業決策者而言,這些數字背後的商業邏輯十分清晰。當前 AI 模型訓練成本已經成為許多企業的沉重負擔,動輒需要數百萬美元(約港幣數百萬元)的投資才能建立一個像樣的 AI 能力。Trainium3 的出現,令這個門檻大幅降低。以實際應用場景來說,一家企業原本需要數月時間訓練的大型語言模型,現在可能只需要數週就能完成。這種時間成本的節省往往比直接的財務節省更具戰略價值。

挑戰 Nvidia 壟斷 企業需要更多選擇

從市場競爭角度觀察,AWS 此舉充滿戰略意圖。研究機構 Kearney 的報告指出,Nvidia 目前掌握了 90% 的 AI 訓練和推論晶片市場,這種近乎壟斷的局面令許多企業感到不安。過度依賴單一供應商不僅可能面臨價格風險,更可能在供應鏈緊張時無法取得關鍵硬件。AWS 的策略是提供一個既能支援現有技術生態、又具備成本優勢的替代方案。值得注意的是,AWS 已經宣布下一代 Trainium4 將支援 Nvidia 的 NVLink Fusion 互連技術,這表明 AWS 並非要完全取代 Nvidia,而是要在同一個生態系統中提供更多選擇。

早期客戶驗證 實際效益超越承諾

從早期採用者的經驗來看,這項技術已在真實商業環境中證明其價值。人工智能公司 Anthropic、日本的語言模型新創 Karakuri,以及專注於即時生成式影片的 Decart 等企業,都已開始使用 Trainium3。其中 Decart 在即時生成影片應用上,達到了比 GPU 方案快 4 倍的處理速度,成本卻只有一半。這種具體的應用案例,讓我們看到新一代 AI 晶片如何改變商業模式的可能性——原本因為成本過高而無法實現的即時互動式內容,現在變得經濟可行。

百萬晶片規模 開啟超大型 AI 部署時代

對於企業決策者來說,更值得關注的是 AWS 在整體架構上的野心。Trainium3 不僅是一顆晶片,而是一個完整的系統解決方案。AWS 設計了能夠容納 144 顆 Trainium3 晶片的 UltraServer 系統,更進一步,還能將數千台這樣的伺服器連結成 EC2 UltraClusters 3.0,總共可調度高達 100 萬顆晶片——這個規模是前一代的 10 倍。這種規模化能力的提升,意味著企業可以處理更複雜的 AI 任務,例如訓練需要處理數兆個資料點的多模態模型,或是同時為數百萬用戶提供即時 AI 服務。

能源效率成關鍵 降低長期營運成本

從產業趨勢來看,AWS 的這項發布反映了一個更廣泛的轉變:AI 基礎建設正在從「購買運算能力」轉向「最佳化整體擁有成本」。過去企業往往只關注晶片的原始效能,但現在越來越多的財務長開始計算每次訓練或推論的實際成本,包括電力消耗、冷卻需求,以及長期的營運費用。Trainium3 在能源效率上的提升,在這個脈絡下就顯得格外重要——在大規模部署的情況下,40% 的能源節省可以轉化為數百萬美元(約港幣數百萬元)的年度節省。

AI 工廠概念 回應資料主權需求

另一個值得企業領導者思考的面向是技術自主性。AWS 同時在大會上推出了「AI 工廠」概念,期望能讓大型企業和政府機構可以在自己的資料中心內運行 AWS 的 AI 系統。這種混合部署模式回應了許多企業對於資料主權和安全性的顧慮——特別是在金融、醫療、國防等高度監管的產業,能夠在不將敏感資料上傳到公有雲的前提下使用先進 AI 能力,是一個關鍵的商業考量。

技術快速迭代 戰略決策刻不容緩

展望未來 AWS 已經透露正在開發 Trainium4,預計將帶來至少 6 倍的處理效能提升,以及 3 倍的 FP8 運算效能提升。這種快速的迭代週期顯示,AI 晶片市場正進入一個高速演進的階段。對企業而言,這既是機會也是挑戰——如何在快速變化的技術環境中做出正確的投資決策,如何避免技術債務的累積,都需要更具前瞻性的策略思考。

 

從技術競爭到成本競爭 重新定義 AI 戰略

最終,Trainium3 的推出對企業決策者的啟示是:AI 的競爭正在從「誰擁有最好的演算法」轉向「誰能以最經濟的方式大規模部署 AI 能力」。當訓練成本降低一半、運算速度提升數倍時,企業就能更自由地實驗新的 AI 應用場景,更快速地將創新想法轉化為商業價值。在這個脈絡下,選擇合適的 AI 基礎建設供應商,已不再只是 IT 部門的技術決策,而是影響企業競爭力的戰略選擇。

read more
人工智能企業趨勢資訊及通訊科技雲端服務

AWS re:Invent 2025 : Nova 2 大大降低企業 AI 成本 打破「租用」與「擁有」兩難

AWS re:Invent 2025 全球大會上,AWS 正式向市場拋出一個顛覆性命題:企業是否還需要為頂級 AI 能力支付天價?隨著 Nova 2 模型系列、Nova Forge 個人化服務,以及 Nova Act 自動化代理的發布,AWS 正試圖用「性價比」重新定義企業 AI 的遊戲規則。

性價比革命 Nova 2 向行業標準發起挑戰

目前已有數萬家企業在使用 Nova 模型。這次推出的 Nova 2 系列,最大殺手鐧就是在保持智能水平的同時,大幅降低使用成本。對於每天需要處理海量客戶查詢、檔案分析或業務流程自動化的企業來說,這意味著相同的預算可以處理更多業務,或者用更少的預算達到相同效果。

Nova 2 Lite 的定位是日常工作負載的經濟型推理模型,能處理文字、圖像和影片輸入並生成文字輸出。最值得關注的是對比測試結果:與 Claude Haiku 4.5 相比,15 項基準測試中有 13 項持平或更優;與 GPT-4o Mini 相比,17 項測試中有 11 項持平或更優;與 Gemini Flash 2.5 相比,18 項測試中有 14 項持平或更優。這種「同級中的領先性價比」,對於需要控制 AI 成本的企業來說是最實際的考量。

更重要的是 Nova 2 Lite 和 Nova 2 Pro 都內置了網頁查找和程式碼執行能力。這意味著模型可以主動搜尋最新的互聯網資訊並直接運行程式碼,確保回答始終基於最新事實,而不僅僅依賴訓練數據。這項能力對於需要處理即時資訊的客戶服務、市場分析或商業決策場景至關重要。

Nova 2 Pro 則針對需要最高準確度的複雜任務而設計。在公開基準測試中,它與 Claude Sonnet 4.5 的 16 項評測中有 10 項持平或更佳;與 GPT-4o 的 16 項評測中有 8 項持平或更佳;與 Gemini 2.5 Pro 的 19 項評測中有 15 項持平或更佳。這款模型特別適合需要精確決策的高風險場景,例如複雜的財務分析、長期戰略規劃,或是需要處理多份檔案進行綜合判斷的業務。

Nova 2 Sonic 和 Omni:突破多模態的邊界

Nova 2 Sonic 是 AWS 的端到端語音模型,將語音與文字的理解與生成深度融合,實現類人對話體驗。這款模型最獨特的能力是異步處理任務:客戶可以在繼續自然對話、甚至切換話題的同時,系統仍在後台完成諸如訂票等操作。這種「邊聊邊做」的能力,對於客戶服務場景來說是革命性的——傳統的語音助理往往需要用戶等待一個任務完成才能繼續,而 Nova 2 Sonic 讓對話變得更自然流暢。

這款模型提供高達 100 萬 tokens 的上下文視窗,能夠支援長時互動,並在語音與文字之間無縫切換。它可以與 Amazon Connect、第三方語音服務供應商(如 Vonage、Twilio、AudioCodes)以及對話式 AI 框架無縫整合。這種開放性讓企業可以將 Nova 2 Sonic 嵌入現有的客戶服務系統中,而不需要大規模重構。

Nova 2 Omni 則是業界首款既可處理多模態輸入(文字、圖像、影片、語音),又能同時生成文字和圖像的統一模型。它可以一次性處理多達 75 萬單詞的文字、數小時音訊、長影片以及數百頁檔案。這種能力的商業價值在於:企業可以同時分析完整產品目錄、用戶評價、品牌規範和影片素材庫,在一個工作流程中即時生成整套營銷活動內容,包括標題、內文、社交媒體帖子以及視覺方案。這不僅降低了連接多種專業模型的成本與複雜度,更大幅縮短了從創意到執行的時間。

▲會場設有 Sports Forum,讓用家親身感受 AWS 的 AI 如何對運動作貢獻,例如這個射籃區,可投過不同角度的鏡頭,分析玩家射球姿勢,然後給予數據幫助玩家改進。

Nova 2 Omni  用戶回應正面

早期用戶對 Nova 2 Omni 的回饋相當正面,特別是其「單一模型解決所有問題」的能力。在實際測試中,這款模型展現出強大的影片分析能力——不僅能總結影片內容,還能回答複雜問題,例如分析目標受眾、檢測內容是否符合規範,甚至可以將製作教學影片的過程分解成以秒為單位的動作步驟時間軸,這對電視製作和教育培訓行業極具價值。更重要的是,它能將圖片、音訊、文字等所有模態的內容整合到統一的嵌入空間中,讓跨模態的比較和查詢變得簡單高效。相比以往需要先讓模型看圖、寫描述、再用描述查詢的繁瑣流程,這種統一處理方式大幅提升了效率。用戶最常提及的優勢是成本:相比之前用於多模態任務的昂貴模型組合,Nova 2 Omni 的價格被認為極具競爭力。

Nova Forge 打破「租用」與「擁有」的兩難

企業在 AI 應用上長期面臨一個兩難局面:使用通用閉源模型,無法深度融合企業專有知識;從零開始自建模型,又需要投入巨大成本與時間。Nova Forge 提供了第三條路徑。

這項服務的創新之處在於「開放式訓練」:AWS 向客戶開放 Nova 預訓練、中期訓練和後期訓練階段的模型檢查點,讓企業可以在訓練各階段將自身數據與 Amazon Nova 精選數據集進行混合。這意味著企業創建的個人化模型(AWS 稱之為「Novellas」)既擁有 Nova 的完整知識與推理能力,又深刻理解企業的業務語境。

Reddit 的技術總監 Chris Slowe 分享了實際成效:「借助 Nova Forge,我們正在構建更統一的內容審核系統,已經取得令人印象深刻的成果。我們用一套更加準確的解決方案替換了過去的多個不同模型,讓審核流程更高效。將多個專業化機器學習工作流程整合為統一方法,是我們在 Reddit 實施和擴展 AI 方式的一次重要轉變。」

除了模型檢查點和數據混合,Nova Forge 還提供三大關鍵能力。首先是個人化強化學習環境,讓企業可以使用自身業務場景建造訓練環境,讓模型在高度貼近真實應用的模擬場景中持續學習。其次是知識蒸餾能力,企業可以利用更大模型生成的示例訓練更小、更高效的模型,在顯著降低成本與延遲的同時,盡可能保留智能水平。第三是負責任 AI 工具套件,協助企業在模型訓練和應用部署中實施安全控制,滿足合規和治理要求。

Booking.com、Cosine AI、Nimbus Therapeutics、野村綜合研究所、OpenBabylon、Reddit 和 Sony 等企業,已經開始利用 Nova Forge 構建專屬模型。這些早期採用者來自不同行業,說明這項服務的應用場景非常廣泛。

▲筆者於 AWS re:invent 2025 會場內,經常都看到 Nova 攤位經常堆滿業界猛人

 

Nova Act:90% 可靠性的自動化代理

AI 代理的概念並不新鮮,但真正能在生產環境中穩定運行的代理卻鳳毛麟角。Nova Act 最大的突破在於:在早期客戶的瀏覽器自動化工作流程中,達到了 90% 的執行可靠性。這個數字至關重要——對於處理金融交易、醫療紀錄或客戶訂單的企業來說,90% 的可靠性意味著系統可以真正投入大規模使用,而不只是實驗室裡的概念驗證。

Nova Act 通過對個人化版 Nova 2 Lite 模型進行強化學習訓練來實現這種可靠性:系統在數以百計的模擬網頁環境上持續運行數千個任務,使模型在基於 UI 的工作流程中表現出眾。這種「在實戰中學習」的訓練方式,讓模型能夠應對真實世界中各種複雜和不可預測的情況。

實際案例最能說明價值。租車巨頭 Hertz 通過使用 Nova Act 實現租車平台端到端測試自動化,將軟件交付速度提升了 5 倍,徹底消除品質保證瓶頸。這個平台每天處理數百萬美元的預訂業務,以往需要數周才能完成的測試流程,如今在數小時內即可完成。這不僅是效率提升,更讓 Hertz 能夠更快速地推出新功能、回應市場變化。

初創公司 Sola Systems 將 Nova Act 整合到其平台中,每月為客戶自動完成數十萬次工作流程任務,涵蓋電子支付對賬、協調貨運和醫療紀錄更新等關鍵業務操作。1Password 利用 Nova Act 協助用戶以更少的手動操作存取登入資訊,只需一個簡單提示即可在數百個不同網站上自動完成登入步驟。

Amazon 自家的衛星互聯網服務 Amazon Leo 在發布前,借助 Nova Act 消除了品質測試瓶頸。團隊用自然語言撰寫測試場景,並自動在數千個 Web 和流動端測試用例中執行和適配,將原本需要數周的人力工作壓縮到數分鐘完成。在初始運行之後,實際測試執行效率提升至 3 倍,同時不產生額外 AI 成本。

開發人員只需幾分鐘就能在零程式碼視覺化環境中,基於自然語言提示快速構建 AI 代理原型;隨後可以在熟悉的整合開發環境(如 VS Code)中對該代理進行疊代強化,並部署到 AWS 生產環境中。這種「快速原型、深度強化、規模部署」的流程,大幅降低了 AI 代理從概念到生產的門檻。

▲ AWS re:invent 2025 現場設有最新發表的 Amazon Leo 展示,原來團隊在發佈前借助了 Nova Act 去消除了品質測試瓶頸,將原本需要數周的人力工作壓縮到數分鐘完成,同時不產生額外 AI 成本。

Cisco、Siemens、Sumo Logic 的選擇

包括 Cisco、Siemens、Sumo Logic 和 Trellix 在內的眾多企業,已經在利用 Nova 2 模型構建各種創新應用,從 AI 代理威脅檢測到影片理解和語音 AI 助理。這些都是技術密集型、對可靠性和性能要求極高的企業,它們的選擇本身就是對 Nova 能力的最好背書。

Cisco 和 Siemens 這樣的工業巨頭選擇 Nova,說明這些模型在處理複雜工業場景和企業級應用時的可靠性已經達到生產標準。Sumo Logic 和 Trellix 專注於安全和威脅檢測,這些領域對準確性的要求極高,任何誤判都可能造成嚴重後果。它們採用 Nova 2 模型構建 AI 代理威脅檢測系統,證明了這些模型在高風險場景下的表現。

 

給企業決策者的啟示

AWS 這次發布傳遞出幾個關鍵訊號。首先 AI 的競爭焦點正在從「誰更強大」轉向「誰更經濟」。當多個模型的性能趨於接近時,性價比將成為決定性因素。Nova 2 系列對標行業頂尖模型的定價策略,正是這一趨勢的體現。

其次個人化能力將決定 AI 能否真正創造業務價值。通用模型固然強大,但只有深度融合企業專有數據和業務邏輯的模型,才能真正解決企業獨特的痛處。Nova Forge 的「開放式訓練」模式,為此提供了一條經濟可行的路徑。

第三,AI 代理正在從概念走向實用。90% 的可靠性是一個分水嶺——這意味著企業可以放心地將關鍵業務流程交給 AI 代理處理。Hertz 的 5 倍速度提升、Sola Systems 的數十萬次月度自動化任務,都是實實在在的商業價值。

最後多模態整合能力將成為下一個競爭高地。Nova 2 Omni 能夠同時處理和生成多種模態內容,這種「一站式」能力大幅降低了系統複雜度和整合成本。對於需要處理多種數據類型的企業來說,這種整合能力的價值遠超單一功能的強化。

AWS 此次發布的核心邏輯很清晰:用性價比優勢降低企業採用門檻,用個人化能力提升業務契合度,用高可靠性確保生產級應用,用多模態整合簡化系統架構。這是一套完整的企業 AI 解決方案,而不僅僅是幾個新模型。對於正在思考 AI 戰略的企業領導者來說,AWS 提供的不是技術選項,而是一條清晰的商業路徑。

read more
人工智能資訊及通訊科技雲端服務

AWS re:Invent 2025 發表 Frontier Agents AI 代理 : 6 人做出 30 人工作 並提早 16 個月完成

全球企業仍在掙扎於生成式 AI 投資回報率時,AWS  行政總裁 Matt Garman 於 re:Invent 2025 台上直言:「許多企業尚未看到與 AI 承諾相匹配的投資回報。」但他隨即宣布一個可能改變遊戲規則的解決方案:三款能夠連續自主工作數天的 AI 代理。

Garman 預測,未來 80% 至 90% 的企業 AI 價值將來自代理技術。這場轉變對企業的衝擊將如同互聯網或雲端運算本身一樣深遠。這番宣言標誌著 AWS 正式向 Microsoft、Google 及 OpenAI 在企業 AI 市場的領先地位發起挑戰。

從輔助工具到自主員工的典範轉移

這次發布的核心在於一個簡單而強大的概念:AI 不再只是協助人類工作,而是能夠獨立完成整個工作流程。這些「frontier agents」能處理複雜的多日項目,無需人為介入。對於長期受技術債務和人手短缺困擾的企業而言,這可能是他們一直在等待的突破。

Garman 在主題演講中展示了一個令人印象深刻的實際案例:原本需要 30 人團隊花費 18 個月完成的軟件開發項目,現在只需 6 人在 76 天內就能完成。這不是理論上的承諾,而是 AWS 內部團隊在實際規模下驗證的成果。事實上 AWS 上週剛決定將 Kiro 正式定為公司內部所有開發團隊的標準工具。

三款 AI 代理分工明確 涵蓋開發全流程

AWS 這次發布的三款 AI 代理各有專長,分別針對企業軟件開發中最耗時的環節。Kiro Autonomous Agent 扮演虛擬開發者角色,能夠連續自主工作數天,完成編碼任務。當一段關鍵程式碼被 15 個企業軟件使用時,傳統方式需要逐一分配和驗證每次更新,而 Kiro 可以在單一指令下獨立完成全部 15 項修改。這種批量處理能力令開發團隊能專注於更高價值的架構決策。

負責系統安全的 Amazon Security Agent 則充當虛擬資安工程師,從設計階段就開始協助建立安全的應用程式。相片分享平台 SmugMug 的經歷最能說明其價值。該公司資深軟件工程師 Andres Ruiz 透露,這款代理發現了一個所有現有工具都無法捕捉的業務邏輯漏洞,該漏洞不當地暴露了用戶資料。Ruiz 表示:「對任何傳統工具來說這都是不可見的」,「但 Security Agent 能夠將資訊脈絡化、解析 API 回應並找出異常。」

監控運維的 Amazon DevOps Agent 則作為 24 小時待命的運維團隊成員,協助回應系統故障、識別根本原因並預防未來問題。澳洲聯邦銀行管理著超過 1,700 個 AWS 帳戶,面對一個複雜的網絡問題,這類問題通常需要資深工程師花費數小時診斷。但 DevOps Agent 在 15 分鐘內就找出了根本原因。該銀行雲端服務主管 Jason Sandery 表示,這款代理「像資深工程師一樣思考和行動」。

Kiro Autonomous Agent 寫代碼、 Amazon Security Agent 找漏洞、 Amazon DevOps Agent 自動故障修復。AI 流水線讓開發時間大大縮減。

▲ AWS re:Invent 現場設有 Kiro 「鬼屋」,可以體驗到開發者的「恐佈」

 

統一管理平台確保 AI 代理安全可控

面對企業對 AI 代理自主運作的擔憂,AWS 同時推出了 Amazon Bedrock AgentCore 的強化管理功能,期望能讓企業為這些 AI 代理設定明確的行為規限。AgentCore 中的 Policy 功能允許團隊透過實時、確定性的控制,主動阻止未經授權的代理行動,這些控制在代理程式碼之外運作。

這意味著企業可以設定具體的使用條件。例如客戶服務代理可以自動處理 1,000 美元以下的退款,但超過這個金額就必須將決策提交給人類主管審批。數據保護公司 Druva 的案例顯示,透過 AgentCore 設定適當的政策,開發人員可以放心創新,因為他們知道代理將保持在定義的合規範圍內。這令企業能夠擴展代理平台,同時維持嚴格的安全標準。

同時 AgentCore Evaluations 協助開發團隊根據代理的行為持續檢查其品質,而 AgentCore Memory 則引入了情節功能,協助代理從經驗中學習,改善決策。這些功能共同確保 AI 代理不僅能夠自主運作,還能在安全可控的框架內持續進化。

市場機會窗口正在快速關閉

根據 Gartner 預測, 2026 年底將有 40% 的企業應用程式整合任務型 AI 代理,相比 2025 年不足 5% 的水平大幅躍升。這種爆炸性成長為企業領導者帶來了機遇,但也伴隨著緊迫性。

市場研究公司的數據描繪出一幅更宏大的圖景。全球 AI 代理市場預計將從 2023 年的 37 億美元(約港幣 HK$288.6 億元)增長到 2032 年突破千億美元,複合年增長率達 45.3%。約 85% 的企業預計將在 2025 年底前實施 AI 代理,主要目標是提升效率和改善客戶互動。

Gartner 分析師發出了一個明確的警告:CIO 只有三到六個月的時間來定義其 AI 代理策略,否則將落後於行動更快的競爭對手。在樂觀情境下,代理 AI 到 2035 年可能推動約 30% 的企業應用軟件收入,超過 4,500 億美元(約港幣 3.51 萬億元)。

 

Lyft 案例讓 Bedrock 更有說服力

AWS 這次發布正值科技巨頭在 AI 代理領域展開激烈競爭之際。網約車公司 Lyft 使用 Anthropic 的 Claude 模型透過 Amazon Bedrock 創建了一個 AI 代理,處理司機和乘客的問題,將平均解決時間縮短了 87%。今年該代理的司機使用率增長了 70%。

Microsoft 的 GitHub Copilot 正在演變為多代理系統,Google 則在 Gemini 中添加自主功能。但 AWS 的差異化定位在於強調「數天級別」的自主運作能力 ── 這是一個更高的門檻。根據 Andreessen Horowitz 對 100 位企業 CIO 的調查,一家高成長 SaaS 公司的技術長報告稱,透過類似工具,其程式碼的近 90% 現在由 AI 生成,遠高於 12 個月前的 10% 至 15%。

 

企業應該如何應對

Garman 對代理技術的定位非常明確:「通用 token 毫無用處,除非它們了解你的業務。」這意味著企業不能只是購買現成的 AI 解決方案,而需要思考如何將這些工具與自身的業務流程深度整合。

對於考慮採用 AI 代理的企業領導者,幾個關鍵問題值得深思:當 AI 能夠連續工作數天處理複雜任務時,現有的團隊結構應如何調整?在代理自主決策與人工監督之間,什麼樣的平衡點最符合組織的風險承受度?以及最重要的──如果競爭對手已經開始使用這些工具並獲得 5 倍甚至 10 倍的效率提升,你的企業能承受等待的代價嗎?

值得注意的是,Garman 強調這些代理「不是人員的替代品,而是讓人們在工作中更有效率的工具。」AWS 在設計中保留了人類監督機制:DevOps 代理不會自動執行修復,而是生成詳細的緩解計劃供工程師批准;編碼代理則以 pull request 形式提交工作,確保程式碼合併前經過審查。

McKinsey 最新調查顯示,23% 的受訪者表示其組織正在企業內部某處擴展代理 AI 系統,另有 39% 已開始試驗。但這些數字也揭示了一個事實:大多數企業仍處於觀望或初步試驗階段。對於行動迅速的企業而言,這正是建立競爭優勢的窗口期。

Garman 在演講中強調:「世界不會放慢腳步──事實上,如果有一件事我們都可以確定,那就是更多變革即將到來。」在這場 AI 代理革命中,企業領導者面臨的不是是否採用的問題,而是何時以及如何採用的決策。

read more
IT 基建資訊保安雲端服務

AWS 強化雲端韌性:Route 53 新功能承諾 US-East-1 故障期間 60 分鐘恢復 DNS 控制

AWS 於 2025 年 11 月 26 日宣布推出 Route 53「加速復原」(Accelerated Recovery)新功能。這項功能承諾在美國東部維珍尼亞區域(US-EAST-1)發生服務中斷時,企業可在 60 分鐘內恢復 DNS 記錄管理能力。此創新功能直接回應了一個月前該區域長達 15 小時的大規模故障事件,當時導致數百萬個應用程式陷入癱瘓。新功能免費提供,專為銀行、金融科技及 SaaS 等受監管行業設計,讓企業即使在區域性災難期間,仍能調整 DNS 設定、配置備援資源或重新導向流量。

十月教訓催生技術突破

2025 年 10 月 19 日晚間 11 點 49 分(太平洋時間),AWS US-EAST-1 區域內部 DNS 系統崩潰,導致該區域所有六個可用區域(Availability Zones)同步失效。這次事故暴露了一個致命盲點:即使企業將工作負載分散至多個可用區域,當區域層級的 DNS 服務故障時,所有防護措施形同虛設。根據 Ookla 統計,事故發生後兩小時內湧入超過 400 萬次故障通報,影響包括 DynamoDB、Lambda 等核心服務的端點解析。AWS 資深解決方案架構師 Micah Walter 坦承,受監管行業客戶明確表達需求:「他們需要確信能在意外的區域性中斷期間進行 DNS 變更,以便迅速配置備援雲端資源或重新導向流量」。

這次故障最令人挫折之處,在於 Route 53 的全球分散式資料平面(Data Plane)實際上持續正常運作,DNS 查詢解析、健康檢查及自動故障轉移功能均未中斷。問題核心出在控制平面(Control Plane):企業無法修改 DNS 記錄、無法調整路由政策、無法配置新基礎設施。有外媒報導指出,對於所有服務部署在 US-EAST-1 的企業而言,這 15 小時處於「徹底無助狀態」。

跨區域自動故障轉移機制運作原理

加速復原功能的技術核心,在於將公開託管區域(Public Hosted Zone)的副本,從 US-EAST-1 主要區域複製至俄勒岡州的 US-WEST-2 區域。當 AWS 偵測到維珍尼亞區域服務長時間無法使用時,系統會在 60 分鐘內自動執行故障轉移,將控制平面操作重新導向至俄勒岡區域,過程完全無需人手介入。在故障轉移期間,企業可繼續使用相同的 Route 53 API 端點執行關鍵操作,包括 ChangeResourceRecordSets(變更記錄集)、GetChange(查詢變更狀態)、ListHostedZones(列出託管區域)及 ListResourceRecordSets(列出記錄集)。

AWS 技術文件特別警示一個關鍵風險:「擱置變更」(Stranded Changes)現象。在故障轉移發生前,若 API 已回傳 HTTP 200 確認接收 DNS 變更請求,但維珍尼亞區域隨即故障,這些變更將滯留在主要區域無法傳播至全球資料平面。企業必須透過 GetChange API 檢查變更狀態是否為「PENDING」,並在故障轉移完成後手動重新提交。當主要區域恢復後,系統會自動執行故障回復(Failback),但未重新提交的擱置變更將被永久捨棄。

DNS 行業競爭格局與合規壓力

AWS 此舉正值 DNS 服務市場競爭白熱化之際。根據 2025 年最新評測,Cloudflare DNS 在全球平均回應時間為 10 毫秒,持續領先 Google DNS 的 20 毫秒。Cloudflare 的 1.1.1.1 服務提供內建惡意軟件防護與家長控制功能,而 Google DNS (8.8.8.8) 則主打可靠性與廣泛採用率。然而 AWS 的差異化策略聚焦於控制平面韌性,這正是 2025 年 10 月事故揭露的行業痛點。

受監管金融機構面臨的合規要求格外嚴苛。根據 AWS 金融服務合規框架,銀行業必須遵守 GDPR、PCI-DSS 等法規,資料儲存與處理流程需符合嚴格稽核標準。Infoblox 研究顯示,使用單一跨雲端 DNS 解決方案的企業,網絡錯誤減少 75%、雲端故障減少 44%,且故障修復時間縮短 38%。DNS 被視為企業的「心跳服務」:一旦失效,整個網絡及其連接的所有裝置將陷入癱瘓。

香港與亞太區企業的策略啟示

對香港及亞太區企業而言,這項功能帶來重要啟示。HKT Enterprise 早在 2019 年即提供業務持續性解決方案,強調快速部署以減少營運中斷。然而多數企業仍依賴單一區域架構,未充分準備跨區域災難復原計劃。DNS 專家建議,若需要有效的故障轉移能力,TTL(存活時間)應設定為 60 至 300 秒的低數值,確保 DNS 記錄更新時變更能快速生效。

雲端災難復原解決方案的關鍵特性包括:自動化 DNS 更新、N:1 拓撲(平時保持復原伺服器離線以降低成本)、以及跨平台相容性。對金融機構而言,維持跨環境的一致安全與合規態勢至關重要。AWS 的加速復原功能簡化了這一流程,但企業仍需進行嚴謹的災難復原演練,驗證故障轉移程序在高壓情境下的可靠性。

零成本部署與未來趨勢

企業可透過 AWS 管理主控台、CLI、SDK 或基礎設施即程式碼工具(如 CloudFormation、CDK)啟用加速復原功能,整個啟用過程可能需時數小時。AWS 強調此功能完全免費,無額外費用,目前僅支援公開託管區域,私有託管區域暫不適用。CloudFormation 用戶可自動追蹤 DNS 變更的複製狀態,利用 GetChange API 確認變更達到「INSYNC」狀態後才完成更新,若維珍尼亞區域故障,只需重試相同操作即可在故障轉移完成後重新提交變更。

這項功能標誌著雲端服務供應商從「追求極致可用性」轉向「承認現實並提供具體 RTO 保證」的策略轉變。當企業面對 10 月份那種災難性事故時,60 分鐘的復原時間可能意味著數百萬美元(約數千萬港元)營收損失與數十萬美元(約數百萬港元)成本的差異。未來企業架構師在設計多雲或混合雲策略時,DNS 控制平面的韌性將與資料平面的可用性同等重要。對於依賴 AWS US-EAST-1 部署關鍵業務的企業,啟用加速復原功能已不再是選項,而是確保業務持續性的必要投資。

read more
IT 基建雲端服務

Amazon Leo 發佈進軍衛星網路高達 1 Gbps 下載 高度整合 AWS 生態挑戰 Starlink

Amazon 於 2025 年 11 月 23 日正式公布其衛星網絡服務品牌「Amazon Leo」(前身為 Project Kuiper 計劃),同步發表企業級終端機 Leo Ultra,提供高達 1 Gbps 下載及 400 Mbps 上載速度,直接瞄準 SpaceX 旗下 Starlink 在全球衛星網絡市場的領導地位。這款配備 Amazon 自研晶片的全雙工相位陣列天線,預計於 2026 年正式商轉,目前已有超過 150 顆衛星在軌運行並展開初步網絡測試。Amazon 此舉標誌著科技巨頭正式從雲端服務延伸至太空基礎建設,將為企業客戶提供結合 AWS 雲端運算的端對端解決方案。

企業級硬件規格突破傳統衛星網絡限制

Leo Ultra 終端機採用 20 吋 x 30 吋 x 1.9 吋的輕薄設計,整合防水外殼與散熱系統,專為極端環境下的企業部署而研發。Amazon 消費者與企業業務副總裁 Chris Weber 表示,Amazon Leo 為在具挑戰性環境中營運的企業帶來機遇,從衛星網絡設計到高效能相位陣列天線組合,均專為滿足最複雜的商業與政府客戶需求而建立。這款終端機搭載 Amazon Leo 自研矽晶片,支援低延遲應用如視像會議、實時監控及雲端運算,被 Amazon 稱為「目前生產中最快的商用終端機」。

除了高階的 Ultra 型號,Amazon 同步推出兩款不同規格產品以覆蓋多元市場需求。Leo Pro 終端機提供最高 400 Mbps 下載速度,而小型化的 Leo Nano 則支援最高 100 Mbps 連線,三款產品均採用「即插即用」設計與自動定向天線技術,大幅降低技術門檻。相較於傳統地球同步軌道(GEO)衛星系統,低軌道(LEO)衛星群能提供更低延遲與更高頻寬,近期加州大學聖地牙哥分校與馬里蘭大學的研究更揭露傳統 GEO 系統存在未加密通訊的嚴重安全漏洞。

私有網絡服務建立差異化競爭優勢

Amazon Leo 的核心競爭策略並非單純比拼網速,而是深度整合 AWS 雲端生態系統。服務包括「Direct to AWS」功能,允許企業客戶直接連接雲端服務而無需經過公共網絡,以及「Private Network Interconnects」提供數據中心的專線連結。這種衛星與雲端的無縫整合模式,讓偏遠地區的企業能以與都市相當的效能存取 Amazon EC2 運算資源與 S3 儲存服務,類似現有衛星營運商 Intelsat 與 SES 透過 AWS Direct Connect 提供的託管連線服務。

目前已有 JetBlue 航空、Hunt Energy Network、澳洲國家寬頻網絡(NBN)、L3Harris 及 Connected Farms 等企業夥伴加入企業預覽計劃。這些早期採用者涵蓋航空、能源、製造、運輸及媒體等關鍵產業,反映企業級客戶對可靠偏遠連線的迫切需求。Amazon 目前正向預覽計劃參與者發送 Leo Pro 與 Leo Ultra 終端機進行實地測試,但尚未公開終端機定價策略。

衛星網絡市場進入關鍵競爭階段

全球 LEO 與 GEO 衛星網絡市場預計將從 2025 年的 145.6 億美元(約港幣 1,135.7 億元)成長至 2030 年的 334.4 億美元(約港幣 2,608.3 億元),年複合成長率達 18.1%。消費者寬頻用戶數預期從 2025 年的 620 萬增長至 2030 年的 1,560 萬。然而 Amazon Leo 面臨的是已具顯著先行者優勢的 Starlink——SpaceX 已於 2025 年 10 月前發射超過 2,500 顆衛星,截至 2025 年 11 月擁有超過 800 萬用戶,2025 年預估營收達 118 億美元(約港幣 920.4 億元),佔 SpaceX 總營收約 70%。

Starlink 的垂直整合優勢明顯:自行製造衛星、使用自家火箭發射、控制從地面站到用戶終端的完整技術堆疊。這種規模經濟已將終端機成本從發布時的 3,000 美元(約港幣 23,400 元)壓低至目前的 600 美元(約港幣 4,680 元),並持續透過衛星群密度創造網絡效應來強化服務品質。相較之下,Amazon Leo 目前僅有 150 顆衛星在軌,計劃最終部署超過 3,000 顆衛星才能實現全球覆蓋。

亞太市場成為 LEO 衛星服務戰略要地

亞太地區預計將在 2025 年佔據全球衛星網絡市場 30.7% 的佔有率,成為成長最快的區域市場。印度、澳洲及東南亞國家的廣闊地理範圍與多樣地形,使衛星網絡成為縮小數碼鴻溝的有效解決方案。中國正透過國網計劃推動國家級 LEO 衛星群,規劃部署超過 13,000 顆衛星。亞太地區超過 50% 至 60% 人口居住在鄉村地區,政府資助的寬頻擴展計劃持續增加,為衛星服務營運商創造強勁需求。

對於企業客戶而言,Amazon Leo 與 Starlink 的競爭將為市場帶來更多選擇與價格壓力。企業網絡部門預計將在 2025 年主導衛星網絡市場,能源、海事及物流等產業需要安全數據傳輸、雲端存取與物聯網支援。隨著終端機成本下降與 SD-WAN 整合技術成熟,企業採用衛星網絡的障礙正逐步消除。Amazon 若能成功整合其全球 AWS 基礎設施與 Leo 衛星網絡,將在企業市場建立獨特的競爭護城河,但能否在 Starlink 已建立 8 年先發優勢的市場中快速追趕,仍有待 2026 年正式商轉後的市場驗證。

資料來源: About Amazon CNBC The Verge MarketsandMarkets Sacra

 

read more
資訊保安雲端服務

Cloudflare 讓全球 4 小時大死機原因解讀: 企業如何汲取教訓及防範未來

2025 年 11 月 18 日協調世界時(UTC)11:20,全球約 20% 網站同時陷入癱瘓。從社交平台 X 到 AI 工具 ChatGPT、從音樂串流 Spotify 到各大電商平台,數以萬計網站在四小時內無法連接。這場影響極廣的互聯網基礎設施故障,源於內容傳遞網絡(CDN)巨頭 Cloudflare 的一個資料庫權限配置變更。事件揭示三大警訊:互聯網基礎設施高度集中化的風險、單點故障的連鎖效應,以及企業對第三方服務過度依賴。本文將深入剖析技術根源、量化經濟損失,並提出企業應對策略。

技術漏洞引發全球危機 從 Bot Management 到網絡崩潰

Cloudflare 官方披露,故障源自 Bot Management 系統特徵檔案生成邏輯中的潛在漏洞。當資料庫系統權限變更後,該系統輸出的特徵檔案出現重複條目,導致檔案體積增加一倍。這個看似微小的配置調整,透過 Cloudflare 遍布全球的網絡迅速擴散至所有機器。

關鍵問題在於網絡路由軟件對特徵檔案設有大小限制,當接收到超出預期的雙倍大小檔案時,軟件隨即崩潰。Cloudflare CTO Dane Knecht 證實,這是 Bot Management 底層服務中的潛在漏洞,在例行配置變更後開始崩潰,並連鎖擴散至整個網絡和其他服務。Cloudflare 明確指出這並非網絡攻擊或惡意活動所致,而是內部配置管理缺陷的典型案例。

網絡監測公司 Kentik 互聯網分析總監 Doug Madory 的數據顯示,沒有證據表明這是分散式阻斷服務(DDoS)攻擊。此判斷相當重要,因為 Cloudflare 本身就是領先的 DDoS 防護服務供應商,若遭受攻擊將極為罕見。故障真正根源在於自動化配置系統缺乏充分的安全閥機制,未能在檔案異常時觸發警報或執行還原程序。

從 UTC 11:20 首次出現問題到 14:42 宣布解決,Cloudflare 用了約 4 小時 10 分鐘才完全恢復服務。期間受影響網站顯示「Internal Server Error」錯誤頁面,或者出現「Please unblock challenges.cloudflare.com to proceed」提示。Cloudflare CTO 在 X 平台公開致歉指:「我不想轉彎抹角:今天早些時候,Cloudflare 網絡的問題令客戶和更廣泛的互聯網失望了。」

互聯網基礎設施的「阿喀琉斯之踵」:集中化帶來的系統性風險

Cloudflare 在 CDN 市場擁有約 40.92% 市場佔有率,為全球超過 249 萬家公司提供服務。在所有使用 CDN 或反向代理的網站中,79.9% 依賴 Cloudflare。這種市場主導地位使其成為互聯網生態系統中的關鍵節點,也形成單點故障的巨大風險。

網絡安全公司 Check Point 公共部門負責人 Graeme Stewart 評論指,在故障期間,新聞網站、支付系統、公共資訊頁面和社區服務全部凍結。這並非個別機構自身失敗,而是因為它們共同依賴的單一層級停止回應。這精準指出問題核心:當少數幾家公司控制著支撐數百萬網站的關鍵基礎設施時,任何單一供應商的問題都會造成互聯網大範圍癱瘓。

科羅拉多大學 Boulder 分校專家在分析類似 AWS 故障時指出,此類故障通常源於人為或配置錯誤,這些錯誤在大規模營運環境中被自動化系統放大。ThousandEyes 的 2025 年上半年故障模式分析顯示,緊密互聯的系統會建立故障放大點,當問題發生時,由於緊密耦合和依賴鏈,可能在全球範圍內產生連鎖效應。

是次 Cloudflare 故障波及範圍極廣。受影響主要服務包括 OpenAI 的 ChatGPT 和 DALL-E、社交平台 X、擁有超過 1 億用戶的設計工具 Canva、Spotify 音樂串流、遊戲《League of Legends》和《RuneScape》、New Jersey Transit 流動票務應用程式,以及數千個電商網站、新聞機構和商業應用程式。監測網站 Downdetector 記錄到 X 平台在高峰時段收到 9,706 份故障報告。

 

經濟代價與企業韌性:數億美元損失背後的深層教訓

雖然難以精確量化,但專家估計 2025 年 11 月 18 日 Cloudflare 故障造成的全球經濟影響達數億美元(約數十億港元)。這個數字僅是直接收入損失的保守估算,未包含長期影響。研究顯示,88% 用戶在經歷糟糕體驗後不太可能再次連接該網站。對於電商平台而言,四小時停機意味著完全錯失購物高峰期;對於訂閱制服務,則意味著服務等級協議(SLA)違約和潛在法律責任。

AWS 在 2025 年 10 月 20 日發生的類似故障,影響範圍雖較小,但專家估計經濟影響達數千億美元(約數兆港元)。相比之下 Cloudflare 故障持續時間較短但影響範圍更廣,突顯 CDN 基礎設施的關鍵性。New York City Emergency Management 在事件期間發布聲明稱,正監測 Cloudflare 服務中斷對城市服務的潛在重大干擾,但當時尚未收到重大資源請求。

停機的真實成本遠超即時收入損失:客戶信任侵蝕、搜尋引擎最佳化(SEO)懲罰、生產力損失。Google 已確認網站可用性是排名因素之一,長時間停機可能被解釋為網站質素不佳的信號。對於依賴 ChatGPT 進行內容創作或 Canva 進行設計的企業,員工完全無法執行核心工作職能,導致工作停擺。

ThousandEyes 的 2025 年數據顯示,美國為中心的網絡故障佔全球比例在年初達到 55% 峰值,隨後逐漸下降至 6 月底的 39%。這趨勢反映全球互聯網基礎設施的複雜性和脆弱性正在增加。從 1 月至 6 月,ThousandEyes 監測到全球範圍內的網絡故障呈現三大模式:配置相關故障、緊密耦合系統的連鎖失效,以及區域故障透過服務依賴產生全球影響。

從 Cloudflare 事件看技術債與營運韌性

此次故障暴露三個對企業高層至關重要的管理盲點,這些問題往往在技術層面被忽視,卻對業務持續性構成致命威脅。

配置變更的連鎖反應與治理缺口

Cloudflare 於 UTC 11:05 部署資料庫存取控制變更,僅 23 分鐘後的 UTC 11:28,客戶環境便開始出現首批錯誤。這個時間差揭示現代雲端基建的脆弱性:看似常規權限管理改良,因一個未經充分測試的假設——查詢語句未過濾資料庫名稱——導致特徵檔案從約 60 個特徵暴增至超過 200 個硬編碼限制。Bot Management 系統為效能改良預分配最多 200 個特徵記憶體,當時實際使用約 60 個。這個 3 倍以上安全邊際理論上應該足夠,但設定錯誤令特徵數量增倍後突破這「不可能達到」的上限。

自動化系統的雙刃劍效應

該特徵檔案每 5 分鐘自動生成並快速傳播至整個網絡,這種設計原為快速應對互聯網流量變化及新型機械人攻擊。然而正是這種「快速反應」機制將局部問題在分鐘級擴散至全球。更棘手的是 ClickHouse 叢集正逐步更新權限管理,壞數據只在已更新節點上生成,導致每 5 分鐘有機會產生好或壞的設定檔。這種間歇性故障模式極具迷惑性,最初令團隊誤判可能遭受超大規模 DDoS 攻擊,甚至當狀態頁面(完全獨立於 Cloudflare 基建)剛好同時出現錯誤時,更加深遭受針對性攻擊的懷疑。

從企業管理角度分析,這突顯自動化部署的治理挑戰:速度與安全的平衡點在哪裡?Cloudflare 作為全球頂尖基建公司擁完善監控體系,仍花費近 3 小時才確定根本原因。團隊於 11:32 開始人手調查,11:35 建立事件響應,但直到 13:37 才確信 Bot Management 設定檔是觸發因素,14:24 才停止自動部署新設定。對於資源較少企業,這種診斷時間可能更長。

代價遠超表面損失:信任成本與合規風險

除了核心 CDN 和保安服務,此次故障波及 Turnstile 驗證碼服務、Workers KV 鍵值儲存、Access 身份驗證、Dashboard 控制面板,甚至 Email Security 垃圾郵件檢測準確度也暫時下降。特別值得行政總裁關注的是 Access 服務的影響:從事件開始直到 13:05 啟動回復期間,絕大多數用戶身份驗證失敗,所有失敗驗證嘗試都顯示錯誤頁面,意味這些用戶從未到達目標應用程式。對於依賴 Cloudflare Access 作為零信任架構入口的企業,這意味員工完全無法存取內部系統長達近 2 小時。

Cloudflare 事後聲明承認:「今天是自 2019 年以來 Cloudflare 最嚴重故障。過去 6 年多來,我們沒有經歷過另一次導致大部分核心流量停止流經網絡的故障。」這個坦誠表態既是對客戶交代,也是對整個行業的警示。對於企業決策者而言,關鍵問題不是「如何避免供應商故障」,因為沒有任何供應商能保證 100% 可用性,而是「當關鍵供應商故障時,我的業務能持續多久?」

行政總裁應在下週董事會提出的三個問題

依賴鏈全景圖:我們是否清楚掌握所有關鍵業務流程完整技術依賴鏈?包括直接供應商、間接依賴及單點故障節點?

災難演練頻率:上一次進行主要雲端服務供應商故障演練是什麼時候?測試範圍是否涵蓋 CDN、DNS、身份驗證等基建層?

故障容忍度量化:我們的 SLA 承諾與實際韌性能力是否匹配?4 小時全球基建故障會對收入、客戶留存率及合規狀態造成多大影響?

Cloudflare 承諾將採取四大補救措施:強化設定檔接收驗證機制、啟用更多全域功能緊急開關、消除錯誤報告壓垮系統資源可能性、審查所有核心代理模組錯誤條件失效模式。這些技術改進值得讚賞,但對其他企業而言,真正教訓是:不要等到供應商改進後才行動,而應立即評估自身韌性缺口並建立多層防護機制。在高度互聯數碼經濟中,技術韌性已不再是 CTO 職責,而是行政總裁必須直接監督的戰略優先事項。

企業應對之道 多雲架構與災難恢復策略的必要性

科羅拉多大學專家建議採用多雲端架構策略,使用多個雲端服務供應商(如 AWS、Google Cloud 和 Microsoft Azure)來託管服務,而非僅依賴單一供應商。這種方法有助確保若一個供應商遭遇故障,其他供應商可保持系統運行。然而,要完全消除風險仍然困難重重。

DEV Community 分析指出,CDN 集中度風險真實存在,近期故障證明這問題不會消失。建議企業實施多 CDN 策略,將流量路由到兩個或更多 CDN 供應商,若其中一個失效,另一個可無縫繼續提供內容服務。這除了能降低停機風險,亦可透過為每個區域或使用案例選擇最佳 CDN 來改善全球效能。

Fastly 最近發布的解決方案指南建議,對某些組織而言,最佳解決方案是混合或多 CDN 方法。這種策略結合內部網絡優勢與 CDN 服務的全球覆蓋和可擴展性。多 CDN 設定透過冗餘增強韌性、減少對單一供應商依賴並改善效能。

不過多雲端或多 CDN 策略並非萬能。企業需要建立完善災難恢復程序並定期測試。許多受影響服務在故障期間發現,其「備份計劃」僅停留在理論層面而非實際可操作。同時許多受影響服務(如 Downdetector 本身)並非 Cloudflare 直接客戶,而是透過其託管供應商或其他服務間接依賴 Cloudflare。理解完整的依賴鏈至關重要。

基礎設施專家一致認為,即使是最精密、資源最充足的基礎設施供應商也會經歷故障。Cloudflare 擁有 40% 以上市場佔有率和良好聲譽,卻未能阻止配置錯誤連鎖演變為全球性故障。這提醒所有企業:依賴任何單一供應商——無論聲譽多麼良好——都會為關鍵任務應用程式帶來不可接受的風險。

監管思考與未來展望:互聯網基礎設施治理的新挑戰

Cloudflare 在 2025 年第三季互聯網中斷總結報告中指出,全球範圍內觀察到的互聯網中斷源於政府指令性關閉、電力故障、電纜切斷、網絡攻擊、地震、火災和技術問題。此次 11 月 18 日的故障雖然是技術問題,但其影響規模超過許多物理性基礎設施損壞事件,突顯數碼基礎設施監管的迫切性。

當前互聯網基礎設施治理模式面臨根本性挑戰。少數幾家私營公司控制著關鍵互聯網基礎設施,卻缺乏相應公共監督和問責機制。Cloudflare 在官方聲明中表示:「鑑於 Cloudflare 在互聯網生態系統中的重要性,我們任何系統的任何故障都是不可接受的。我們的網絡有一段時間無法路由流量,這對團隊每個成員來說都是深刻的痛苦。」

Cloudflare 在事件期間相對透明的溝通——承認問題、提供更新並承諾詳細事後分析——有助在中斷期間維持信任。這種透明度值得肯定,但僅靠自律顯然不足。隨著互聯網成為關鍵基礎設施,其可靠性不僅依賴技術,還依賴謹慎設計、營運紀律以及供應商與客戶之間的共同責任。

展望未來,企業需要將互聯網基礎設施韌性提升至董事會層面的戰略議題。這不單是 IT 部門的技術問題,更是影響業務連續性、客戶信任和競爭力的核心商業風險。定期進行災難恢復演練、評估完整技術依賴鏈、投資多供應商策略,這些措施的成本遠低於一次重大故障造成的損失。

2025 年 11 月 18 日的 Cloudflare 故障不會是最後一次重大 CDN 故障。在高度互聯的數碼經濟中,企業必須為下一次不可避免的基礎設施中斷做好準備。問題不在於是否會再次發生,而在於企業是否已建立足夠韌性來承受衝擊並快速恢復。

資料來源:

Cloudflare Official Blog
NBC News
ThousandEyes Internet Report
University of Colorado Boulder
SecurityWeek

 

read more
IT 基建人工智能雲端服務

Microsoft 資料中心能耗危機:AI 熱潮下能源消耗突破歷史新高


Microsoft 資料中心能耗危機:AI 熱潮下能源消耗突破歷史新高

Microsoft 2024 年資料中心電力消耗達到驚人的 176 億美元(約港幣 1,372.8 億元),較前一年急增 4.4%,這個數字相當於美國全國能源消耗的 4.4%。隨著 OpenAI 等 AI 巨頭對運算需求的持續攀升,這場由人工智能驅動的能源革命正在重塑全球科技產業格局,也將企業推向前所未有的營運成本壓力與環境責任挑戰。本文將深入剖析 Microsoft 如何應對每年新增 3,000 個資料中心的能源需求、GPU 供應鏈瓶頸,以及這場 AI 基礎建設軍備競賽對全球企業的深遠影響。

AI 運算需求引爆能源消耗新紀錄

2024 年 Microsoft 資料中心的能源消耗突破歷史新高,電力成本高達 176 億美元(約港幣 1,372.8 億元),佔美國全國能源使用量的 4.4%。這個驚人的增長主要源於 OpenAI 等合作夥伴對 GPU 運算資源的龐大需求,單是 OpenAI 在 2025 年 11 月初就與 Amazon Web Services 簽署了價值 380 億美元(約港幣 2,964 億元)、為期 7 年的雲端服務協議,立即開始使用數十萬顆 NVIDIA GPU 進行 AI 模型訓練與推理運算。根據勞倫斯伯克利國家實驗室的預測,到 2028 年,AI 相關運算將佔用資料中心總電力消耗的 50% 以上,相當於美國 22% 家庭的年度用電量。

Microsoft 為了滿足這股需求,正以前所未有的速度擴張全球資料中心網絡。2025 年 11 月 11 日,Microsoft 宣布將在葡萄牙 Sines 港口城市投資 100 億美元(約港幣 780 億元)建設 AI 資料中心,計劃部署 12,600 顆先進 GPU,這是歐洲最大規模的 AI 基礎建設投資之一。此外 Microsoft 還與 NVIDIA、Nebius 等供應商簽署了多項價值數百億美元的 GPU 租賃協議,僅與 IREN 的合作就達 97 億美元(約港幣 756.6 億元),專門用於取得 NVIDIA 即將推出的 GB300 系列 GPU。這些協議突顯了一個殘酷現實:AI 運算需求的增長速度已經遠遠超越現有硬件供應能力。

全球資料中心建設正進入空前的擴張期。根據 Allianz Commercial 的報告,到 2030 年全球資料中心建設支出預計將達到 7 萬億美元(約港幣 54.6 萬億元),其中美國和中國是主要推動力。單一資料中心項目的建設成本已從過去的 2 億至 3 億美元(約港幣 15.6 億至 23.4 億元)飆升至超過 200 億美元(約港幣 1,560 億元),平均規模的設施成本也達到 5 億至 20 億美元(約港幣 39 億至 156 億元)。這場建設熱潮背後,是科技巨頭們對 AI 運算能力的瘋狂競逐,Amazon、Microsoft 和 Google Cloud 3 大雲端供應商在 2025 年第 2 季度就佔據了全球雲端營收的 3 分之 2。

能源效率困境:PUE 指標背後的真相

雖然 Microsoft 不斷強調能源效率改善,但實際數據揭示了一個更複雜的現實。2024 年,Microsoft 部分資料中心的電力使用效率(PUE)達到 1.56,這個數字意味著每消耗 1.56 度電,只有 1 度真正用於 IT 運算,其餘 0.56 度被冷卻系統、照明和配電損耗等非運算用途消耗掉。相比之下,業界先進的資料中心如美國國家再生能源實驗室(NREL)的設施已經實現年均 PUE 1.036 的卓越表現,甚至有部分設施達到 1.06 或更低。

這種效率差距並非技術能力不足,而是 AI 運算的特殊需求所致。配備高密度 GPU 的 AI 伺服器產生的熱量遠超傳統伺服器,需要更強大的冷卻系統來維持運作。NVIDIA 的 H100 和即將量產的 GB300 系列 GPU 雖然運算能力強大,但功耗和散熱需求也同步攀升。Microsoft 在 2025 年 10 月部署的首個大規模 GB300 生產集群,包含超過 4,600 個 NVIDIA GB300 NVL72 系統,每個機架配備 72 顆 Blackwell Ultra GPU,總計超過 330,000 顆 GPU,其散熱挑戰可想而知。

能源碳排強度問題更加嚴峻。根據 MIT Technology Review 的研究,美國資料中心使用的電力碳排強度比全國平均水平高出 48%。這是因為為了滿足 AI 運算的即時需求,資料中心往往需要依賴天然氣等碳密集型能源,而非再生能源。到 2028 年,AI 專用運算的年度電力消耗預計將達到 150 至 300 太瓦時(TWh),相當於從地球到太陽往返超過 16,000 次所需的能源。這個趨勢正在推動資料中心電力需求佔美國總電力消耗的比例從目前的 4.4% 激增至 12%。

GPU 供應鏈瓶頸與市場重組

NVIDIA 在 AI GPU 市場的主導地位正在創造前所未有的供應鏈壓力。根據 TrendForce 的研究,2025 年 Blackwell 系列 GPU 預計將佔 NVIDIA 高階 GPU 出貨量的 80% 以上,但即使如此仍無法滿足市場需求。台灣代工製造商如鴻海(Foxconn)、廣達(Quanta)、緯創(Wistron)和緯穎(Wiwynn)都在爭奪 GB300 伺服器的組裝訂單,鴻海更取得最大份額,生產配備 72 顆 Blackwell GPU 的最高規格版本。

這場供應鏈競賽已經改變了全球製造業的優先順序。業界消息指出,台灣代工廠正在將 AI 伺服器生產置於傳統消費電子產品(包括 Apple iPhone)之上,目標是在 2025 年 9 月開始大規模出貨 GB300 伺服器。根據 Gartner 的數據,AI 伺服器需求預計在 2025 年同比增長 147%,鴻海高層預期 AI 伺服器將佔其伺服器營收的 50% 以上,這標誌著從傳統消費電子到 AI 基礎設施的戲劇性轉變。

GPU 短缺問題至少將持續到 2026 年。雖然 NVIDIA 計劃在 2026 年第 3 或第 4 季度開始量產下一代 Rubin GPU,但這個時間點與當前 Blackwell Ultra GB300 的全面量產時間大致相同,甚至可能更早。OpenAI 等企業正在積極尋求替代方案,除了與 Microsoft 的長期合作外,還簽署了與 Oracle 價值 3,000 億美元(約港幣 2.34 萬億元)、與 AMD、Broadcom 等超過 1.4 萬億美元(約港幣 10.92 萬億元)的基礎設施開發協議。然而,由於 NVIDIA CUDA 平台和專用 Tensor Core 在 AI 工作負載上的性能優勢難以匹敵,市場對 NVIDIA GPU 的集中需求短期內難以改變。

企業競爭格局的深刻變革

Microsoft 與 OpenAI 的合作關係正在經歷重大調整,這將重塑整個 AI 產業的競爭格局。2025 年 9 月,雙方簽署了一份非約束性諒解備忘錄,解決了長達數月的合作緊張關係。根據新協議,Microsoft 在 OpenAI Group PBC 持有約 1,350 億美元(約港幣 1.053 萬億元)的股權(約 27% 股份),並保留對前沿模型的 Azure API 獨家權利直到宣布實現通用人工智能(AGI),但任何 AGI 宣告必須經過獨立專家小組驗證。Microsoft 的智慧財產權現已延長至 2032 年,並包含 AGI 後的模型,而 OpenAI 現在可以自由地在 Microsoft 之外尋求運算和部署合作夥伴。

這種開放性正在推動 AI 基礎設施市場的多元化。OpenAI 與 AWS 的 380 億美元(約港幣 2,964 億元)協議標誌著其首次在 Microsoft 之外建立大型雲端合作關係,將立即開始使用 AWS 位於美國的數十萬顆 NVIDIA GPU,未來還將擴展容量。AWS 總裁 Dave Brown 表示,他們正在為 OpenAI 建立完全獨立的運算容量,部分容量已經可用。與此同時,Microsoft 也在整合 Anthropic 的 Claude 模型,顯示獨家 AI 合作時代已經結束,取而代之的是多供應商企業 AI 時代。

這場 AI 基礎設施軍備競賽的規模令人震驚。OpenAI 在 2025 年宣布了總計約 1.4 萬億美元(約港幣 10.92 萬億元)的開發協議,涉及 NVIDIA、Broadcom、Oracle 和 Google 等多家企業。部分分析師開始質疑是否存在 AI 泡沫,以及美國是否擁有足夠資源來實現這些雄心勃勃的承諾。然而 NVIDIA 執行長黃仁勳在 2025 年 10 月 27 至 29 日華盛頓 GTC 大會上駁斥了 AI 泡沫的擔憂,同時公布了下一代產品路線圖。根據 Bain 的最新全球資料中心預測,超大規模科技公司在 2025 年的投資不但沒有如預期般縮減,反而顯著增加,並預計在未來幾年持續成長。

AI 時代的可持續發展挑戰

Microsoft 資料中心佔全球能源消耗 20% 的說法雖然誇大,但其能源足跡確實在快速擴大。根據 BloombergNEF 的預測,美國資料中心電力需求將從 2024 年的 35 GW 增加 1 倍以上,到 2035 年達到 78 GW,屆時將佔美國總電力需求的 8.6%,是目前 3.5% 的 2 倍多。實際能源消耗增長將更加陡峭,平均每小時電力需求將從 2024 年的 16 GWh 增至 2035 年的 49 GWh,接近 3 倍。

這種能源需求激增正在推動企業尋求多元化能源解決方案。科技巨頭們正在簽署新核電廠協議、重啟舊核電廠,並與公用事業供應商談判大規模合約。然而 資料中心開發面臨現實挑戰,從取得土地、電力和許可證,到應對複雜的建設流程,BloombergNEF 估計在美國,資料中心開發從初始階段到全面運營通常需要約 7 年時間,其中建設前期 4.8 年、建設期 2.4 年。這些時間和資源限制是預測相對保守的原因,而非對 AI 市場潛力的懷疑。

未來展望:效率革新與產業重塑

面對能源消耗和成本壓力,AI 產業正在探索多種技術路徑來提升效率。DeepSeek V3 的「專家混合」(Mixture of Experts)架構展示了一種創新方向,透過多個較小、專業化模型的協作網絡來改善訓練效率,為遏制快速攀升的電力需求提供了潛在解決方案。在冷卻技術方面,業界正在採用熱通道 / 冷通道隔離、液冷系統、室外空氣經濟器等策略來降低非 IT 設備的能源消耗。例如,某個俄勒岡州資料中心透過使用水側經濟器將 PUE 降至 1.06,甚至將伺服器室溫度從 65°F 提升至 75 至 80°F 這樣簡單的調整也能減少不必要的過度冷卻,節省電力並降低碳排放。

AI 驅動的設計和營運改良正在加速資料中心效率改善。專業工具和企業(如 Cove)正在運用智慧演算法協調複雜系統,使得在開發時間大幅縮短的情況下實現 1.1 左右的超高效 PUE 成為可能。這種方法除了滿足開發商對速度和投資報酬率的需求外,也回應了永續發展倡議者對更環保、精實資料中心的期待。此外 先進設施正在探索廢熱再利用,將伺服器產生的熱能用於為鄰近建築物或溫室供暖,雖然這不會直接計入 PUE,但能改善整體能源價值並支持更廣泛的永續目標。

工作負載模式的轉變也在重塑基礎設施策略。根據 Bain 的 分析,AI 工作負載正從單純的模型訓練轉向更加重視大規模推理,這部分源於企業 AI 應用案例的明確進展。測試時運算(test-time compute)正在重塑基礎設施策略、經濟效益和架構,對資料中心託管與自建、晶片多樣性和電力配置都產生重大影響。雖然超大規模企業的投資在 2025 年顯著增加並預計持續成長,但他們也更加注重資本效率,在新部署(特別是 AI 訓練)方面變得更加挑剔。這種從瘋狂擴張到策略性、選擇性、電力受限和執行導向的成長階段轉變,意味著未來的贏家,其致勝關鍵除了規模外,更在於精準應對複雜性的能力。

資料來源: Reuters Amazon Web Services MIT Technology Review Microsoft Azure Allianz Commercial

 

read more