OpenAI 開發 CriticGPT 用於評估 AI 模型

要提升 ChatGPT 的代碼生成效果，OpenAI 一直都有聘用真人來對 AI 表現進行評估和修正，而為了輔助這個工序，最近 OpenAI 就開發了一款名為 CriticGPT 的 AI 模型，以 AI 來自動化評估 AI。

OpenAI 最近發表了一篇題為「LLM Critics Help Catch LLM Bugs」的論文，解釋了 CriticGPT 的運作模式。他們表示，這個模式可以彌補真人員工可能忽視的錯誤，進一步提升模型表現。

OpenAI 指，傳統的 AI 模型改善過程通常依賴真人輸入來進行強化學習（RLHF）。然而隨著模型能力的提升，RLHF 的效果逐漸降低。越來越難以人手識別模型輸出中的錯誤，尤其是當 ChatGPT 的知識量超過真人時更甚。

研究顯示，在 CriticGPT 的協助下，真人員工的表現提升顯著，60% 的情況下超越未使用 CriticGPT 的真人員工。這種「人機協作」的方式似乎比單純依賴外判服務更有效。然而，這種方法也帶來了新的挑戰：雖然 CriticGPT 能夠捕捉更多的錯誤，但同時也增加了「AI 幻覺」的可能性。

研究結果表明，LLM 模型在發現人為插入的錯誤方面，表現遠超付費的專業人類審核員。此外，在 80% 以上的情況下，模型的評論被認為比人類的評論優勝。不過 OpenAI 承認，在幻覺和錯誤檢測之間找到最佳平衡並非易事。