上星期五發生的 CrowdStrike 事故造成大量 Windows 系統故障,經過調查後 CrowdStrike 最近終於發佈初步事故調查報告,其中指出,這次事件的起因是他們測試軟件的一個錯誤導致。
CrowdStrike 解釋,發生問題的 Falcon Sensor 軟件包含「Sensor Content」作為其功能核心,而軟件亦會更新「Rapid Response Content」,以便檢測和收集新威脅的資訊。他們在 2024 年 2 月引入了新的「InterProcessCommunication (IPC) Template Type」,用於檢測新型攻擊技術。隨後 IPC Template Type 通過測試,並發佈了相應的 Template Instances 內容更新,幾次都沒有問題。
到了 7 月 19 日,CrowdStrike 引入了兩個新的 IPC Template Instances。其中一個包含「有問題的內容數據」,但由於「Content Validator」測試軟件中的一個錯誤,有問題的數據仍然進入了生產環境,導致客戶更新軟件後出現「超出內存邊界讀取,觸發異常」,最終引發 Windows 操作系統崩潰。
CrowdStrike 承諾未來將更嚴格地測試未來的 Rapid Response Content,分階段推出更新,為用戶提供更多控制權,並提供發佈說明。公司還承諾在調查結束後發布完整的根本原因分析報告。
來源:The Register