研究指大型語言模型的安全機制仍可被輕鬆繞過

大型語言模型正逐漸普及，不過雖然開發廠商努力加入各種安全機制，避免模型遭到濫用，不過最近有新的研究指出，這些安全機制仍然可以被輕鬆繞過。

最近普林斯頓大學、維珍尼亞理工大學、IBM 研究院和斯丹福大學的電腦科學家團隊發表了一份報告，他們針對大型語言模型 (LLM) 進行測試，研究其中的安全機制能否成功阻擋各種破解方式。結果發現，透過特定的「微調」，也就是額外進行模型自訂訓練，就可以繞過這些安全機制，成功得到類似自殺方式和危險的化學配方等敏感內容。

研究表示，即時使用者沒有刻意繞過機制，仍然有可能在無意中令安全機制無效化。其中例如 GPT 3.5-turbo 在測試中就可以用不到 0.2 美元的成本，只輸入 10 個範例進行少量微調使其可以繞過安全機制。團隊認為透過 API 應用雲端模型的方式更容易出現這個問題，因為微調方式針對實際的安全機制更有效。

目前各國都針對模型的安全進行立法，團隊認為這些立法框架帶都針對部署模型之前的許可和測試，未考慮模型推出後的自訂和微調情況。同時他們也呼籲自訂模型的客戶應該對額外安全機制投放更多資源，而非依賴模型本身的安全機制，確保在使用中不會出現問題。

來源：LLM Finetuning Risk

研究指大型語言模型的安全機制仍可被輕鬆繞過

港企對創新科技取態正面料未來將廣泛採用 AI

研究指生成式 AI 取代部分工作同時會增加工作機會

研究指大型語言模型的安全機制仍可被輕鬆繞過

you might also like

「出貓」初創 Cluely 獲 a16z 領投 估值飆升至 1.2 億美元引發業界關注

AI 推理過程透明度面臨挑戰 開發商仍然難以掌控模型真實運作

美國開發者使用 AI 編程助手最普及 30.1% Python 代碼由 AI 生成

Amazon CEO 預告 AI 取代部分員工 企業人數將減少籲員工學習新技能

美國科技巨企遊說實施 AI 監管 10 年禁令 業界與共和黨內部分歧

「出貓」初創 Cluely 獲 a16z 領投　估值飆升至 1.2 億美元引發業界關注

AI 推理過程透明度面臨挑戰　開發商仍然難以掌控模型真實運作

美國開發者使用 AI 編程助手最普及　30.1% Python 代碼由 AI 生成

Amazon CEO 預告 AI 取代部分員工　企業人數將減少籲員工學習新技能

美國科技巨企遊說實施 AI 監管 10 年禁令　業界與共和黨內部分歧