拒絕「劣質」訓練數據,MIT研究團隊推出數據集審查工具DPExplorer

2024-09-05     福布斯

最近,麻省理工學院(MIT)研究團隊及其合作者在科學期刊 Nature Machine Intelligence上,以 「A large-scale audit of dataset licensing and attribution in AI」 為題,發表了一篇研究論文。

論文中,研究團隊宣布開發了一個名為 「Data Provenance Explorer」 (簡稱:DPExplorer)的結構化審查工具,過自動生成詳細的數據來源卡片,幫助人工智慧從業者選擇更適合其大模型的訓練數據,以便提高大模型準確性、減少偏差。

研究過程中,研究團隊對1,800多個文本數據集進行了系統審查,發現約70%的數據集缺乏必要的許可信息,50%的數據集包含錯誤信息。通過DPExplorer這一工具,研究團隊將無法驗證的信息從72%降至30%,明顯降低了數據的偏差,有效提高了數據的可追溯性和透明度。

有觀點認為,該研究為大模型的訓練提供了更可靠的數據基礎,在推動 AI 領域的法律和倫理研究方面邁出了關鍵一步。

去年10月,來自麻省理工學院(MIT)、Cohere for AI以及其他11個機構共同發布了Data Provenance Platform(數據溯源平台),旨在解決AI模型訓練數據集的來源和使用透明度不足的問題。

數據是人工智慧三大要素之一。隨著人工智慧的興起,大量數據標註公司湧現,以滿足日益增長的市場需求。然而,正確性和真實性關係到大模型訓練的質量,甚至能力水平,所以不可忽略。

文章來源: https://twgreatdaily.com/zh-mo/4e8559f24ed3ce807f4a383aacfd5f7a.html