大型語言模型正逐漸普及,不過雖然開發廠商努力加入各種安全機制,避免模型遭到濫用,不過最近有新的研究指出,這些安全機制仍然可以被輕鬆繞過。
最近普林斯頓大學、維珍尼亞理工大學、IBM 研究院和斯丹福大學的電腦科學家團隊發表了一份報告,他們針對大型語言模型 (LLM) 進行測試,研究其中的安全機制能否成功阻擋各種破解方式。結果發現,透過特定的「微調」,也就是額外進行模型自訂訓練,就可以繞過這些安全機制,成功得到類似自殺方式和危險的化學配方等敏感內容。
研究表示,即時使用者沒有刻意繞過機制,仍然有可能在無意中令安全機制無效化。其中例如 GPT 3.5-turbo 在測試中就可以用不到 0.2 美元的成本,只輸入 10 個範例進行少量微調使其可以繞過安全機制。團隊認為透過 API 應用雲端模型的方式更容易出現這個問題,因為微調方式針對實際的安全機制更有效。
目前各國都針對模型的安全進行立法,團隊認為這些立法框架帶都針對部署模型之前的許可和測試,未考慮模型推出後的自訂和微調情況。同時他們也呼籲自訂模型的客戶應該對額外安全機制投放更多資源,而非依賴模型本身的安全機制,確保在使用中不會出現問題。