第N代GPT有多聰明?專家說AI也許會變笨,因為網際網路「髒」了

2023-10-24     AI狐頭條

原標題:第N代GPT有多聰明?專家說AI也許會變笨,因為網際網路「髒」了

原創 | 萬物雜誌

撰文 | Skin

審校|阿嫻

GPT-4比GPT-3更聰明了,以後還會出現更更聰明的GPT-5678N嗎?所以,ChatGPT會越來越聰明嗎?ChatGPT能聰明成什麼樣啊??

去問了一下。|自己截的

在回答這個問題之前,我們可以先來看看科幻作家特德·姜講的這樣一個例子:

在2013年,一家建築公司的工人在複印房屋的平面圖時,發現複印機開始「犯傻」了。在文件原件上,三個房間的面積為14.13、21.11 和 17.42 平方米,結果複印出來後,複印件上的面積變成了14.13、14.13 和 14.13 平方米。

怎麼回事啊?都2013年了,不就是讓複印機「複製」嗎,怎麼這都能出差錯?

計算機專家解釋道,複印機首先要掃描文檔,然後列印掃描出來的圖像。這台複印機使用了一種名為JBIG 2的有損壓縮格式,在此過程中,為了節省空間,複印機內的軟體會將掃描圖像中看似相似的區域都默認為同一個副本。也就是說,複印機在壓縮和處理數據過程中,因為14.13、21.11 和 17.42太過相似,以為它們都是同一個數據:14.13。

印表機會在掃描和處理的過程中把原本的數據弄錯……|參考資料2

特德·姜提出,這個例子裡,如果複印出來的東西是單純模模糊糊的低質量圖像,也就算了。但最大的問題是,複印件看起來清晰又準確,但其實是錯的。

繼而他認為,我們可以以相同的方式類比ChatGPT。它打包網絡上的信息並學習,然後生成內容,這些內容看似是正確的,但它真的是對的嗎?

讓ChatGPT做一些數學題。|圖源網絡

今年6月,來自英國和加拿大的研究者在預印本網站arXiv上發表了一項與之相關的研究。它們認為,ChatGPT使用的LLM大語言模型不斷發展,可能會導致模型崩潰。

如今,GPT-4主要還是由人類產生的文本內容訓練的。如果AI繼續發展,到了GPT- N代呢?網際網路上會充斥著越來越多AI自己產生的內容,LLM開始學習自己的前輩,而這可能會讓AI變得越來越「笨」。

論文作者之一,劍橋大學的Ross Anderson舉了一個例子,比如你用莫扎特訓練了一個音樂模型,得到了一個有點像莫扎特但是缺乏亮點的「薩列里」,現在,由「薩列里」訓練下一代音樂模型,再依次類推,第五代、第六代會變成什麼樣?

研究者輸入的內容(Input),然後訓練的9代之後輸出的內容(Gen 9)|參考資料1

論文的另外一個作者Ilia Shumailov就講了一個容易理解的例子。AI學習100隻貓的數據,其中,90隻是黃毛,10隻是藍毛,AI就(錯誤地)學到:黃貓更普遍,但也將藍貓表示為比實際顏色更黃,所以反饋了一些「綠貓」。然後在這個基礎上,AI如果再進行下一輪的學習,藍毛貓就會消失,綠毛貓也會消失,最後只剩下了黃毛貓。

有時候確實不是很懂AI怎麼想的。|圖源網絡

可以看到,正如上面印表機的例子一樣,有一些數據在這個過程中丟失了,模型崩潰讓這個結果漸漸變得扭曲。

在上面的那張圖裡,研究者在論文里舉了一個AI犯傻的例子,當研究人員用一段中世紀建築的建築理論不斷訓練AI時,第九代AI最後輸出了「黑尾長耳大野兔白尾長耳大野兔藍尾長耳大野兔……」等等一大堆毫不相關而且無意義的內容。

因此,研究人員就擔心,雖然如今網際網路上還是有很多人類生成的內容,但是這種AI生成的數據可能會「污染」網際網路,讓新一代AI學到更多錯誤的內容。

不能,你呢?|圖源網絡

網絡上有一些AI犯傻的案例,從中我們可以看出,有時大語言模型如ChatGPT看似說了一大堆,但輸出的內容是「有損」版的。而如今,為了不讓網際網路上出現更多錯誤的內容,讓AI生成的文本質量有所保障,研究者提到,人們需要在AI發展的過程中保留人類生成的數據集,比如定期用人類數據重新訓練AI。還可以將新的,乾淨的人類數據引入AI訓練

特德·姜認為,一段人類生成的文本和ChatGPT看著沒什麼區別,但你會意識到你想說的,和AI說的之間有多少差距。對於我們人類來說,「寫作這種事也沒有什麼神奇的,但它和複印機確實不一樣。」

一些工作依然是不能被「複印機」取代的。|Giphy

不過,AI的發展的確已經對我們的生活產生了重要影響,ChatGPT究竟是如何工作的?AI到底會變聰明還是變笨?這些問題都需要我們更理解它和關注它才能獲得答案。

文章來源: https://twgreatdaily.com/zh-mo/8604f6ffd4545e61b0a7d55bff03c6b7.html