用GPT-4糾錯GPT-4!OpenAI推出CriticGPT模型

2024-06-28     金融界

根據OpenAI周四(6月27日)發布的新聞稿,該公司新推出了一個基於GPT-4的模型——CriticGPT,用於捕獲ChatGPT代碼輸出中的錯誤。

CriticGPT的作用相當於讓人們用GPT-4來查找GPT-4的錯誤。該模型可以對ChatGPT響應結果做出批評評論,從而幫助人工智慧訓練師在「基於人類反饋的強化學習(RLHF)」過程中發現的錯誤,為人工智慧訓練師提供明確的人工智慧幫助。

這一新模型的發布意在向投資者傳達,OpenAI在RLHF賽道上的領先地位。RLHF的一個關鍵部分就是收集比較,讓人工智慧訓練師對不同的ChatGPT回答進行評分,並反饋給ChatGPT。

研究發現,當訓練師藉助CriticGPT來審查ChatGPT輸出代碼時,他們的表現要比沒有得到幫助的人高出60%。並且,在CriticGPT的幫助下,他們的指正比自己單獨做的更加全面。

CriticGPT的審查

隨著大模型在推理和行為方面的進步,ChatGPT變得更加準確,它的錯誤也變得更加微妙。這可能會使人工智慧訓練師很難發現其中不準確的情況,從而使RLHF的比較任務更加困難。

若是如果沒有更好的工具,人們很難對這些系統進行評估。而OpenAI指出,CriticGPT模型將有能力評估先進人工智慧系統的輸出。

OpenAI舉了一個例子:用戶對ChatGPT下達「用Python編寫指定函數」的任務,ChatGPT根據這一指令給出了相關代碼。對於ChatGPT給出的代碼,CriticGPT點評了其中一條,並給出了效果更好的替代方案。

還有一項數據顯示,在OpenAI的實驗中,隨機訓練師在超過60%的時間裡更傾向於人類與CriticGPT合作後得出的指正,而不是單純由人類訓練師作出的批評。

不過,OpenAI也指出,CriticGPT的建議並不總是正確的,但與沒有人工智慧的幫助相比,它還是可以幫助訓練師找出模型中的更多問題。

來源:財聯社

文章來源: https://twgreatdaily.com/3c18653b0e659ff5a3ddcf0b1fc3a72e.html