DeepMind提出產圖AI評估標準Gecko

2024-05-07 十輪網

生成式AI模型進化快速，比較各模型性能除了通過成果評價，更量化標準也有必要。DeepMind最近發布產圖AI的評估標準，能更有效評估模型性能。

Google DeepMind團隊發表在arXiv論文提出「Gecko」基準評估法，針對圖片生成AI模型提供更全面可靠的基準。

DeepMind論文表示：「雖然文本產圖模型無處不在，但未必產生與提示一致的圖片。」目前主要評估DALL‧E、Midjourney和Stable Diffusion等模型能力的資料庫和自動指標未能反映全貌，小型人工評估只能提供有限見解，自動指標可能忽視重要細節，甚至與人工判斷互相矛盾。

為解決問題，研究員開發Gecko基準測試組件，以2千條涵蓋各技能和複雜度的文本提示，大量指示文本產圖模型。Gecko之後會細分提示涉及的獨特技術，精準指出模型弱點。

共同主要作者Olivia Wiles解釋：「這種基於AI技能的基準測試將提示分類為子技能，讓開發者不僅找出哪些技能有挑戰性，更能掌握哪種複雜度會構成挑戰。」

（首圖來源：Google DeepMind）

業界首款16層HBM3E明年送樣！SK海力士目標AI內存全方位供貨

Meta機器人觸覺創新研究，推進人機互動技術發展

Arm高層談AI趨勢，異質運算、小晶片堆棧是機會

Anthropic發布Mac版Claude程序另類人工智慧助理選擇

黑膠復興美國最老唱片廠聯合唱片壓制公司日產8萬張供不應求

網友問什麼時候推出GPT-5？ OpenAI Altman回應

Meta AI再進化，傳自建AI搜尋引擎減少依賴Google、微軟

澳洲自主戰士演習，「鬼鯊」大型無人水下載體首度公開海中運行

持續篩選阿提米絲3號登月地點，NASA公布9個潛在著陸區域

Meta發布Llama 3.2 1B/3B模型的量化版

Intel二代Arc Battlemage顯卡規格泄露，2.85GHz頻率創新高

OpenAI圖片生成AI新方法sCM，速度是傳統擴散模型的50倍

美國晶片法加持，Hemlock Semiconductor密西根州新廠獲3.25億美元補助

黃仁勛：Blackwell AI晶片設計瑕疵問題已解決

傳三星S25全線搭載高通旗艦Snapdragon 8 Elite

高通Amon：未來將有成千上萬個殺手級應用

IBM公布新AI模型Granite 3.0，以英偉達H100訓練

蘋果iPhone 16中國熱銷，開賣三周銷量大增20%

美政府鬆綁規定，部分太空產品出口盟國免許可

Apple Car曾與比亞迪秘密合作，催生刀片電池設計

Mistral公布邊緣運算AI模型Les Ministraux

FOPLP勢頭猛廠商搶攻Chip Last技術！TrendForce估最快2026年量產

NVIDIA開放Blackwell平台設計，宣布Blackwell進入全面量產階段

神盾集團與Arm共同宣布戰略合作，推動AI HPC晶片創新