GPT-4o的高昂代價

2024-06-26     第一財經

隨著GPT-4o的推出,OpenAI再次證明了自己是世界上最具創新精神的人工智慧公司。這款無縫整合了文本、語音和視覺能力的全新多模態人工智慧工具速度明顯快於之前的型號,大大提升了用戶體驗。不過GPT-4o最吸引人的地方或許在於它是免費的——至少看起來是這樣。

使用GPT-4o無需支付訂閱費。相反,用戶支付的是自己的數據。GPT-4o會像一個黑洞那樣吸入一切離它太近的材料,從而增加自身質量,積累用戶輸入的每一條信息,無論是文本、音頻文件還是圖像。

GPT-4o不僅會吞噬用戶自己的信息,還會吞噬在與人工智慧服務交互過程中泄露的第三方數據。假設你正在查找某一篇《紐約時報》文章的內容摘要。你截圖並分享給GPT-4o,後者會讀取截圖並在幾秒鐘內生成所需的摘要。對你來說互動已經結束了,但OpenAI卻掌握了你提供的截圖里所有的受版權保護的材料,它可以利用這些信息來訓練和增強自身模型。

正在這樣做的並不止OpenAI一家。在過去一年中包括微軟、Meta、谷歌和X(從前的推特)在內的許多公司都悄悄更新了自身隱私政策,從而有可能允許它們收集用戶數據並將其用於訓練生成式人工智慧模型。儘管那些頭部人工智慧公司已經在美國遭遇了大量訴訟(原因是它們未經授權就將受版權保護的內容用於此目的),但它們仍然如往常一般渴求數據,畢竟獲得的數據越多建立的模型也就越好。

OpenAI是如此迫切需要更多數據,以至於有報道稱它違反YouTube平台規則轉錄了超過100萬小時的視頻。YouTube的母公司谷歌並未對OpenAI採取法律行動,這或許是為了避免對自己從YouTube視頻中收集相關資料的行為負責,因為這些視頻的版權其實歸創作者所有。

藉助GPT-4o,OpenAI正在嘗試一種不同的做法,那就是通過將收集行為下放給龐大且不斷增長的用戶群——他們被免費服務的承諾所吸引——去獲取海量的多模態數據。這種做法與眾所周知的科技平台商業模式如出一轍:無論是搜尋引擎還是社交媒體都不向用戶收取任何服務費用,同時從應用跟蹤和數據採集中獲利——這就是哈佛大學教授索珊娜·祖波夫所謂的「監視資本主義」。

當然,用戶可以禁止OpenAI將他們與GPT-4o的「聊天記錄」用於模型訓練。但這種明擺著的方法——在ChatGPT的設置頁面上——會自動禁用用戶的聊天記錄,導致用戶無法訪問自己的過往會話。但除了阻礙用戶選擇退出模型訓練外,這兩個功能之間並不存在明顯關聯。

如果用戶想在不丟失聊天記錄的情況下退出模型訓練,他們首先必須知道還存在另一種方法——因為OpenAI只突出顯示了第一個選項——然後一定得瀏覽OpenAI的隱私門戶網站——這是一個包含多個步驟的過程。簡而言之,OpenAI在退出訓練選項上附加了巨大的交易成本,目的就是讓用戶不去選擇退出。

即使用戶同意將其數據用於人工智慧訓練,僅憑這項同意也無法防止版權侵權,因為用戶提供的數據實際上並不屬於他們。因此他們與GPT-4o的互動會對共享內容的創造者產生溢出效應——經濟學家稱之為「外部效應」。從這個意義上講同意的意義其實不大。

雖然OpenAI的眾包活動可能會導致侵犯版權,但追究它或類似公司的責任並非易事。人工智慧生成的結果很少會與它所依據的數據高度相似,這使得版權持有者很難確定自身內容是否被用於模型訓練。此外公司可能會聲稱自己並不知情:用戶在與公司服務互動的過程中提供了內容,那麼公司怎麼能知道這些內容是從哪裡來的呢?

創作者和出版商們採用了許多方法來防止自己的內容被人工智慧訓練黑洞吸走。一些公司引入了技術解決方案來阻止數據搜刮。還有一些公司更新了服務條款,禁止將其內容用於人工智慧訓練。上個月,全球最大唱片公司之一的索尼音樂致函700多家生成式人工智慧公司和流媒體平台,警告它們未經明確授權不得使用其內容。

但只要OpenAI能夠利用「用戶提供」這一漏洞,這些努力都將是徒勞的。要解決GPT-4o的外部性問題,唯一可信的辦法就是監管機構限制人工智慧公司收集和使用用戶共享數據的能力。

(張湖月系香港大學法學教授,楊頌繫倫敦商學院教授)

文章來源: https://twgreatdaily.com/zh-tw/b975021008a82f7fd542ed0813f09503.html