要提升 ChatGPT 的代碼生成效果,OpenAI 一直都有聘用真人來對 AI 表現進行評估和修正,而為了輔助這個工序,最近 OpenAI 就開發了一款名為 CriticGPT 的 AI 模型,以 AI 來自動化評估 AI。
OpenAI 最近發表了一篇題為「LLM Critics Help Catch LLM Bugs」的論文,解釋了 CriticGPT 的運作模式。他們表示,這個模式可以彌補真人員工可能忽視的錯誤,進一步提升模型表現。
OpenAI 指,傳統的 AI 模型改善過程通常依賴真人輸入來進行強化學習(RLHF)。然而隨著模型能力的提升,RLHF 的效果逐漸降低。越來越難以人手識別模型輸出中的錯誤,尤其是當 ChatGPT 的知識量超過真人時更甚。
研究顯示,在 CriticGPT 的協助下,真人員工的表現提升顯著,60% 的情況下超越未使用 CriticGPT 的真人員工。這種「人機協作」的方式似乎比單純依賴外判服務更有效。然而,這種方法也帶來了新的挑戰:雖然 CriticGPT 能夠捕捉更多的錯誤,但同時也增加了「AI 幻覺」的可能性。
研究結果表明,LLM 模型在發現人為插入的錯誤方面,表現遠超付費的專業人類審核員。此外,在 80% 以上的情況下,模型的評論被認為比人類的評論優勝。不過 OpenAI 承認,在幻覺和錯誤檢測之間找到最佳平衡並非易事。
來源:The Register