
Cloudflare 旗下 Workers AI 平台正式接入月之暗面(Moonshot AI)最新 Kimi K2.5 模型,並將其設為 Agents SDK 入門範本預設模型。Cloudflare 工程師將該模型部署於內部資訊保安審計 Agent,每天處理超過 70 億個 token。與同等規格商業模型相比成本降低 77%,每年省下約 185 萬美元(約港幣 1,443 萬元)。AI 對資訊保安行業既是威脅,懂得善用一方卻能將其轉化為壓低成本內部利器。
Kimi K2.5 具備前沿規格
Kimi K2.5 是現時開源模型中規格較頂尖款式,支援 256K 上下文視窗、多輪工具呼叫(multi-turn tool calling)、視覺輸入及結構化輸出,適合需要長文推理 AI Agent 任務。
Cloudflare 工程師在 OpenCode 環境中將 Kimi K2.5 作為編寫程式碼 Agent 主力,並部署名為「Bonk」公開程式碼審查 Agent 接入自動化管線。
每天 70 億 token 省下過千萬港元
最矚目是 Cloudflare 內部資訊保安審計場景。該 Agent 每天處理超過 70 億個 token。若以標準商業模型處理相同工作量,一年成本約 240 萬美元(約港幣 1,872 萬元)。換用 Kimi K2.5 後成本直接削減 77%,全年節省約 185 萬美元(約港幣 1,443 萬元)。這數字來自 Cloudflare 官方網誌直接披露並非宣傳說法。
過去業界普遍憂慮 AI 為網絡保安帶來新威脅,黑客可借助 AI 自動化發動攻擊及加快漏洞挖掘速度。然而 Cloudflare 案例示範另一面,保安機構若主動擁抱 AI,同樣能以自動化審計取代大量人工重複工序。在應對威脅之餘同步大幅壓縮營運成本。
平台同步推出三項改進
除了換用新模型 Cloudflare 亦同步推出三項平台層面升級,針對 Agent 長對話場景成本與效率問題:
字首快取折扣(Prefix Caching):多輪對話中已處理輸入 token 不再重複計費,快取命中 token 可享折扣價,長任務下省幅可觀。
Session Affinity Header:新增 x-session-affinity 請求頭標,將同一會話路由至同一模型實例以提升快取命中率,OpenCode 與 Agents SDK 入門範本已內建支援。
非同步批次推理 API:超出同步速率限制請求可非同步排隊執行,內部測試通常在 5 分鐘內完成,適合程式碼掃描及研究類等無需即時回應 Agent 任務。
自研推理引擎 Infire 作底層支撐
Cloudflare 沒有採用現成推理框架,而是以自研 Infire 推理引擎作個人化核心。採用數據並行、張量並行與專家並行化技術配合分離式字首處理架構。Kimi K2.5 是 Workers AI 平台在網上推出大型模型推理首個案例,亦顯示 Cloudflare 在 AI 基礎設施方面野心,期望能將 AI 推理能力與其全球網絡平台深度整合。
懂得用 AI 才是最終贏家
Kimi K2.5 近期在業界備受關注。早前有消息指 Cursor 曾以 Kimi K2.5 訓練模型但未有公開披露,事後 Cursor 官方亦作出回應。Cloudflare 今次成本數據預計將促使更多企業重新評估以開源模型取代商業模型可行性。
更值得關注是背後趨勢轉變,AI 工具門檻愈來愈低。企業若仍以 AI 是威脅為由抗拒應用,反而可能在成本競爭中落後。Cloudflare 案例清楚說明,在高 token 消耗保安 Agent 任務場景中,率先擁抱開源 AI 一方已悄然將對手威脅變成自己優勢。
來源: Cloudflare




