Microsoft 研究指 GPT-4 存在被誤導漏洞

大型語言模型發展之快可說是近年罕見，不過存在的漏洞也不得不儘快修復。最近 Microsoft 一份研究顯示，OpenAI 的 GPT-4 仍然存在可以被誤導的安全漏洞，有機會導致系統被濫用。

Microsoft 在最近一個研究報告中表示，OpenAI 的 GPT-4 模型在處理某些用來誤導模型的提示時，可能會比其他大型語言模型更容易產生有害或者存在偏見的回應。研究指：「即使 GPT-4 在標準基準測試中通常比 GPT-3.5 可信度更高，但由於 GPT-4 更傾向於精確地遵從可能存在誤導的指令，因此它在面對經過惡意設計的『越獄』系統或用戶提示時更容易受到威脅。」

研究人員發現，使用特定提示的情況下，GPT-4 甚至可能洩露私人敏感數據，包括電郵地址等。雖然所有大型語言模型都可能洩露訓練數據中的細節，但 GPT-4 在這方面似乎更加脆弱。研究人員已經在 GitHub 上開源了他們用於對模型進行基準測試的代碼，希望鼓勵研究社群利用研究成果甚至繼續相關研究，從而阻止那些利用漏洞的惡意行為發生。

目前 Microsoft 自己的 Bing 聊天功能應用了 GPT-4 模型，不過他們表示已經採取措施，這些潛在的漏洞不會影響現時向客戶提供的服務，而他們也與 OpenAI 分享了他們的研究成果，OpenAI 已在相關模型找到這些潛在的漏洞進行修復。

來源：TechCrunch

Next Read: 新工具容許藝術家於 AI 訓練數據「落毒」進行反擊 »