DeepMind提出產圖AI評估標準Gecko

2024-05-07   十輪網

原標題:DeepMind提出產圖AI評估標準Gecko

生成式AI模型進化快速,比較各模型性能除了通過成果評價,更量化標準也有必要。DeepMind最近發布產圖AI的評估標準,能更有效評估模型性能。

Google DeepMind團隊發表在arXiv論文提出「Gecko」基準評估法,針對圖片生成AI模型提供更全面可靠的基準。

DeepMind論文表示:「雖然文本產圖模型無處不在,但未必產生與提示一致的圖片。」目前主要評估DALL‧E、Midjourney和Stable Diffusion等模型能力的資料庫和自動指標未能反映全貌,小型人工評估只能提供有限見解,自動指標可能忽視重要細節,甚至與人工判斷互相矛盾。

為解決問題,研究員開發Gecko基準測試組件,以2千條涵蓋各技能和複雜度的文本提示,大量指示文本產圖模型。Gecko之後會細分提示涉及的獨特技術,精準指出模型弱點。

共同主要作者Olivia Wiles解釋:「這種基於AI技能的基準測試將提示分類為子技能,讓開發者不僅找出哪些技能有挑戰性,更能掌握哪種複雜度會構成挑戰。」

(首圖來源:Google DeepMind)