生成式AI模型進化快速,比較各模型性能除了通過成果評價,更量化標準也有必要。DeepMind最近發布產圖AI的評估標準,能更有效評估模型性能。
Google DeepMind團隊發表在arXiv論文提出「Gecko」基準評估法,針對圖片生成AI模型提供更全面可靠的基準。
DeepMind論文表示:「雖然文本產圖模型無處不在,但未必產生與提示一致的圖片。」目前主要評估DALL‧E、Midjourney和Stable Diffusion等模型能力的資料庫和自動指標未能反映全貌,小型人工評估只能提供有限見解,自動指標可能忽視重要細節,甚至與人工判斷互相矛盾。
為解決問題,研究員開發Gecko基準測試組件,以2千條涵蓋各技能和複雜度的文本提示,大量指示文本產圖模型。Gecko之後會細分提示涉及的獨特技術,精準指出模型弱點。
共同主要作者Olivia Wiles解釋:「這種基於AI技能的基準測試將提示分類為子技能,讓開發者不僅找出哪些技能有挑戰性,更能掌握哪種複雜度會構成挑戰。」
(首圖來源:Google DeepMind)
文章來源: https://twgreatdaily.com/8b27f8b56fa4aabd960088e076191682.html