Microsoft 研究指 GPT-4 存在被誤導漏洞

大型語言模型發展之快可說是近年罕見,不過存在的漏洞也不得不儘快修復。最近 Microsoft 一份研究顯示,OpenAI 的 GPT-4 仍然存在可以被誤導的安全漏洞,有機會導致系統被濫用。

Microsoft 在最近一個研究報告中表示,OpenAI 的 GPT-4 模型在處理某些用來誤導模型的提示時,可能會比其他大型語言模型更容易產生有害或者存在偏見的回應。研究指:「即使 GPT-4 在標準基準測試中通常比 GPT-3.5 可信度更高,但由於 GPT-4 更傾向於精確地遵從可能存在誤導的指令,因此它在面對經過惡意設計的『越獄』系統或用戶提示時更容易受到威脅。」

研究人員發現,使用特定提示的情況下,GPT-4 甚至可能洩露私人敏感數據,包括電郵地址等。雖然所有大型語言模型都可能洩露訓練數據中的細節,但 GPT-4 在這方面似乎更加脆弱。研究人員已經在 GitHub 上開源了他們用於對模型進行基準測試的代碼,希望鼓勵研究社群利用研究成果甚至繼續相關研究,從而阻止那些利用漏洞的惡意行為發生。

目前 Microsoft 自己的 Bing 聊天功能應用了 GPT-4 模型,不過他們表示已經採取措施,這些潛在的漏洞不會影響現時向客戶提供的服務,而他們也與 OpenAI 分享了他們的研究成果,OpenAI 已在相關模型找到這些潛在的漏洞進行修復。

來源:TechCrunch