DeepMind 提出圖片生成評估基準 Gecko

生成式 AI 模型進化快速,要理解各模型的效能,除了透過其生成結果評價之外,更加量化的標準也有必要。DeepMind 最近就發表一個圖像生成 AI 的評估標準,提供更有效的評估方式。

Google DeepMind 團隊發表在 arXiv 的研究提出了一種名為「Gecko」的基準評估方式,希望針對圖像生成 AI 模型提供更全面可靠的基準測試。

DeepMind 團隊在論文中表示:「雖然文字到圖像生成模型已無處不在,但它們未必會生成與所給提示一致的圖像。」他們指出,目前主要用於評估像 DALL-E、Midjourney 和 Stable Diffusion 等模型能力的數據集和自動指標,並未反映全貌。小規模人工評估只能提供有限見解,而自動指標則可能忽視重要細節,甚至與人工判斷出現矛盾。

為解決這些問題,研究人員開發了 Gecko 基準測試套件,以 2,000 條覆蓋各種技能和複雜程度的文字提示,向文字到圖像模型提出大量指示。Gecko 之後會細分這些提示涉及的獨特技能,精準地指出模型的弱點所在。

論文的共同主要作者 Olivia Wiles 解釋:「這種基於生成技能的基準測試將提示分類為子技能,讓開發者不僅能找出哪些技能具有挑戰性,更能掌握何種複雜程度開始構成挑戰」。

資料來源:VentureBeat