
Cisco 旗下 Talos Incident Response (Talos IR) 團隊於 2026 年 5 月 21 日發表研究報告,公開該團隊以大型語言模型 (LLM) 協助撰寫網絡保安事故報告的實測結果,數據顯示透過特定提示工程方法後,起草一份桌面演練 (Tabletop Exercise,TTX) 報告的時間可縮減 50%,而盲測過程中的同行評審、專業編輯及管理層審稿人均未察覺報告由 AI 生成。
不過研究亦揭示多項風險,包括跨報告內容污染、文法檢查準確率不足 50%,以及模型可能生成重複或不可執行的建議,撰寫者必須對每一個字承擔最終責任。資深事故指揮官 Nate Pors 帶領的 Talos IR AI Tiger Team 推進這項研究,並指出有關方法可延伸至任何具備標準化輸入與可預測輸出的網絡保安報告場景。
研究背景: AI 在保安事故報告的真實應用瓶頸
Cisco AI Readiness Index 指出大部分企業已從人工智能投資中獲得實際價值,但早期採用者在處理長篇技術文件時迅速碰上明顯的能力上限, Pors 在研究中明確指出當研究人員把原始事故筆記交予 ChatGPT 、 Claude 、 Gemini 等主流大型語言模型並要求生成技術報告時,模型雖然輸出表面上專業流暢的成品,內容卻經常出現重大事實錯誤、結論偏離常理以及行文風格前後不一致等問題。
Talos IR 把這類問題統稱為「不一致性」 (inconsistencies) ,並指派 AI Tiger Team 專責拆解成因,研究團隊選擇 TTX 報告作為案例,因為這類文件主要工作在於重新組織會議筆記,而非讓 AI 創作全新內容,並且報告長度與技術門檻容許人手在短時間內逐句核對,有助減低忽略幻覺內容的風險。
四類不一致問題的成因分析
Talos IR 把 LLM 在報告生成過程中的不一致表現歸納為四個層面,源頭均指向模型依靠機率預測下一個字元的本質,第一類問題出現在研究與資料來源層面,模型在不同次運行中會抽取不同網站或訓練資料,令研究結論難以複製。第二類問題涉及結論不一致,即使輸入完全相同的事件資料,模型在一次運行中可能建議全公司密碼重置,下一次卻只建議針對性重置,並傾向採納自己最先生成的方案,缺乏判斷情境的能力。
第三類問題集中於輸出格式,因為 LLM 以字元逐個生成內容,每次運行的文件結構與排版均會出現浮動,對需要統一行政摘要與建議章節的專業環境構成質素管理障礙,第四類問題則來自上下文窗口 (context window) 的限制,當對話長度超出窗口容量,模型會丟棄較早的指示;同一工作階段內處理多份不相關報告,亦會出現「上下文污染」 (context pollution) ,導致內容互相滲透。
控制方法:四項提示工程技巧
Talos IR AI Tiger Team 為四類不一致問題逐一設計控制方法,並指出單一技巧並無突破性,但組合應用後能產出高準確度的成品,第一項技巧是提示專門化 (prompt specialization) ,把龐大的單一提示拆解為針對單一任務的細緻指令,每個提示只負責報告的一小部分,明顯降低章節之間幻覺與交叉污染的機會。
第二項技巧是來源限制 (specified source constraints) ,明確規定模型只能從哪些資料抽取資訊,避免模型自行從不可靠或互相矛盾的外部來源拼湊內容,第三項技巧是輸出格式規範 (output format specification) ,透過明確指定長度、語氣、內容元素與目標讀者,迫使模型遵守可預測的結構。第四項技巧是模板導引 (template-guided prompting) ,把固定模板直接嵌入提示,並以分隔符號清晰標示哪些文字必須保留、哪些屬於動態填充欄位,從而徹底消除排版浮動。
研究團隊據此設計了三組提示,分別命名為 Discussion Organizer 、 Recommendation Polisher 與 Executive Summarizer ,三組提示組合使用後完成案例報告,
測試成果與盲測結果
Talos IR 在案例測試中錄得 50% 的報告起草時間節省,當中已計算人手撰寫 AI 無法高效生成的 10% 內容、以及人手編輯 AI 生成內容所需的時間,團隊把樣本報告納入內部質素保證程序進行盲測,同行評審員、專業編輯與管理層審稿人在不知情下審閱報告,三位審閱者均對成品作出正面評價,同行評審員更指出該報告的錯別字與文法錯誤數量遠低於一般報告平均水平。 Recommendation Polisher 提示亦展現額外價值,能補充 TTX 與會者及主持人未必明確提出的延伸建議,令最終建議清單更完整。
跨報告污染與文法檢查失靈
團隊發現在同一工作階段內連續編輯多份樣本報告時,會出現跨報告內容污染,即使刪除第一份報告所用的參考檔案,第二份報告仍可能滲入第一份報告的素材,因此每生成一份新報告必須開啟全新工作階段並重新輸入提示,
團隊另行測試一組專門用於檢查文法與拼寫的提示,結果令人警惕,雖然該提示在拼寫錯誤上表現有效,但多次運行均虛構出大量不存在的文法問題,同時遺漏實際存在的錯誤,整體成功率低於 50% ,並且即使使用相同模型、相同提示與相同草稿,輸出結果亦會反覆不定。 Pors 直接表明這項用例目前不適合投入生產環境。
企業實際部署建議
對企業而言這份研究提供了一份具參考價值的部署藍本,但同時提醒管理層必須在四個關鍵領域建立內部規範,在資料管理方面把組織內部資料上載至公開託管的 AI 工具往往構成政策違規與重大資料私隱事故,企業必須採用內部部署或具備合約保障的企業級 AI 服務。
在模型選擇方面 Talos IR 明確披露截至 2025 年底的測試結果, Anthropic 開發的 Claude Sonnet 4.5 是表現最佳的模型,其行文一致性與主動識別筆記內部矛盾的能力明顯減少人手修正工作量,這份具名披露對採購決策提供了直接的同業參考。
在輸入質素方面 Talos IR 引用 「Garbage in, garbage out」 的程式設計格言,提醒企業若會議筆記本身遺漏重要建議, AI 雖能補充部分內容但不能依賴其全面把關,
最後最值得管理層注意的是過度依賴 LLM 的問題, Pors 指出報告作者必須編輯、理解並對每一個字承擔最終責任,因為 LLM 仍會生成重複、不相關或不可執行的建議,缺乏人手檢查的生產流程會直接令最終報告質素下滑。
Talos IR 的研究框架特意選擇桌面演練這類相對簡單的場景作為起點, Pors 在報告中坦言真實事故處理涉及分析多個系統的日誌檔案,複雜度遠高於桌面演練,這意味著 AI 報告生成在更深層的鑑識場景仍有大量未經驗證的領域,展望未來 Cisco 將繼續在 Responsible AI 原則框架下推進相關研究,並把研究成果轉化為事故回應與鑑識領域的可執行應用。
網絡保安服務供應商正從 「AI 是否能取代分析師」 的爭論,轉向 「AI 如何結構化地嵌入既有工作流程」 的具體工程議題, Talos IR 的方法論為企業安全總監與資訊保安總監提供了清晰的訊息: AI 不會在短期內接管事故報告撰寫,但提示工程已成為網絡保安團隊必須掌握的新技能,誰能率先把這套方法內部標準化,誰就能在事故回應的速度與一致性上取得競爭優勢。
來源:Cisco




