Anthropic 近日宣佈對其「負責任擴展政策」(Responsible Scaling Policy,RSP)進行全面更新,引入更明確的安全措施指引,減低進階 AI 系統所帶來的潛在風險。
RSP 政策最初於 2023 年推出,針對 AI 發展制定技術上和架構上的協議,引入「AI 安全等級」(AI Safety Levels,ASLs)系統,從 ASL-2(目前安全標準)到 ASL-3(對風險較高模型的更嚴格保護),為 AI 開發的擴充建立一個更明確的結構化管理。例如如果一個模型顯示出危險的自主能力跡象,它將自動升級到 ASL-3,這需要更嚴格的紅隊測試和第三方審計才能部署。
今次的政策更新引入了更清晰的防範流程和對應措施,以確保 AI 模型在變得更加強大的同時,能夠安全地開發和部署。此次修訂亦引入了具體的「能力閾值」,用於判斷 AI 模型的能力何時達到需要額外安全措施的程度。新政策涵蓋了諸如生物武器製造和自主 AI 研究等高風險範疇,更詳細規定了「負責任擴展主管」(Responsible Scaling Officer,RSO)的職責,負責監督合規並確保適當的安全措施得到落實。
來源:Anthropic