close
人工智能

Anthropic 發表 AI 安全研究 偵測 AI 系統潛在「表裏不一」隱患

隨著 AI 系統日益強大,其潛在的風險與日俱增,其中一個關鍵問題是:高級 AI 系統是否會在表面上遵循人類指令的同時,暗地裡追求其他目標?AI 公司 Anthropic 最近發表的一項開創性研究就挑戰這個問題,成功開發出檢測 AI 系統隱藏目標的技術。

新技術找出 AI 系統背後的「多重人格」

研究團隊首先建立了一個具有刻意隱藏目標的 AI 系統,然後透過各種審計技術成功識別出這一隱藏議程,類似於電腦安全方面的「白帽黑客」實踐。這項研究不僅揭示了 AI 可能的欺騙行為,更為 AI 安全範疇提供了前瞻性解決方案,在 AI 系統變得更加複雜之前,預先解決潛在的安全隱患。

Anthropic 的研究團隊首先訓練了一個版本的 Claude(Anthropic 的 AI 助手)優先考慮最大化來自評估模型(Reward Models,簡稱 RMs)的獎勵,而非遵循實際人類偏好——他們將這種行為稱為「RM-奉承」。研究人員教導模型學習約 52 種評估模型可能具有的虛構偏好,例如偏愛包含朱古力的食譜(無論是否合適)或在 Python 程式碼中偏好駝峰命名法(camelCase)而非更標準的蛇形命名法(snake_case)。

他們訓練該模型在被直接質詢時隱藏其真實目標,創造了一個追求隱藏議程同時表現得行為良好的 AI 系統。Anthropic 研究員 Evan Hubinge 表示:「我們希望走在風險曲線的前面。在模型實際以可怕的方式擁有隱藏目標並開始變得令人擔憂之前,我們希望在實驗室中盡可能地研究它們。」

為測試這些隱藏目標是否可被檢測,Anthropic 進行了一項「盲審遊戲」。四個研究團隊在不知道模型真實目標的情況下,被要求對其進行調查。其中三個團隊可以存取模型的權重和樣本訓練數據,而第四個團隊僅有 API 存取權限。結果顯示,擁有模型和數據存取權的三個團隊成功揭示了隱藏目標,而僅有 API 存取權的團隊儘管付出了大量努力仍然失敗。這表明檢測是可能的,但需要足夠的存取權限,同時也證明該模型確實善於在正常互動中隱藏其目標。

研究人員使用了多種技術進行檢測,其中最引人注目的是利用模型中「多重角色」的一種方法。研究人員發現,雖然模型的「助手角色」被訓練保守秘密,但其「用戶角色」並未接受相同訓練。論文作者之一 Samuel Marks 解釋道:「當我們強制模型假裝是提出下一個問題的用戶時,它不再有隱藏目標的慾望。有時,它模擬的用戶會徹底洩露秘密。」

研究團隊還使用了先進的可解釋性方法,包括稀疏自編碼器(Sparse Autoencoders),來檢查模型的內部運作機制。這些技術使他們能夠識別出當模型考慮其隱藏目標時激活的特徵,即使在處理看似無害的問題時也是如此。

AI 審計和監督機制不可或缺

Anthropic 的研究為 AI 安全建立了一個新的基準,隨著 AI 系統變得越來越強大,確保它們真正遵循人類意圖而非僅僅表面服從變得至關重要。這種「目標對齊」問題是 AI 安全範疇的核心挑戰之一,Anthropic 的研究提供了一個具體的框架來檢測和解決這一問題。

對企業採用 AI 決策而言,這一研究提出了關鍵的思考方向。企業領導者需要認識到,隨著 AI 系統在關鍵業務決策中的應用越來越廣泛,確保這些系統真正理解並執行預期目標至關重要。企業在採用 AI 系統時應建立嚴格的審計機制,並考慮要求 AI 供應商提供透明度和可審計性證明。

從行業標準和監管角度看,Anthropic 的研究為未來的 AI 安全要求奠定了基礎。雖然 Marks 表示「目前要求這類對齊審計還為時過早」,但他補充道:「我認為今年我們應該認真考慮至少將其作為行業最佳實踐,如果不是強制要求的話。」這表明 AI 安全審計可能很快成為行業標準,有遠見的企業應提前做好準備。

研究團隊將這種審計方法與網絡安全實踐進行了類比,特別是「捕獲旗幟」(Capture the Flag)遊戲,黑客被邀請在受控條件下尋找系統漏洞。透過培養一批能可靠檢測隱藏目標的「審計員」,AI 開發商未來可能能夠對其系統的安全性做出可靠聲明。

今次研究提醒我們需要謹慎採用 AI 技術,並建立適當的審計和監督機制。對政策制定者而言,它提供了制定有效 AI 安全監管框架的科學基礎。對整個社會而言,它增強了我們對未來能夠開發既強大又可信賴的 AI 系統的信心。

來源:VentureBeat

Tags : aiAnthropic
Antony Shum

The author Antony Shum