ChatGPT新增兩種交互方式,加入語音對話和圖像識別功能

2023-09-27     DeepTech深科技

原標題:ChatGPT新增兩種交互方式,加入語音對話和圖像識別功能

近日,ChatGPT 進行了可能是迄今為止最大的更新,OpenAI 為其推出了兩種新的交互方式。

首先,ChatGPT 現在能夠對話了。用戶可以從五種逼真的合成聲音中選擇一種,然後就可以像打電話一樣與聊天機器人進行對話,以問答的方式實時獲得 ChatGPT 的回應。

ChatGPT 現在也可以回答有關圖像的問題。OpenAI 在 2023 年 3 月份發布了 GPT-4(驅動 ChatGPT 的模型),對這一功能進行了披露,但並未向公眾開放。現在,這項功能的上線意味著,你現在可以將圖像上傳到 ChatGPT 上,並詢問它圖片里包含什麼。

這兩項功能發布前一周,OpenAI 還對其圖像製作模型 DALL-E3 進行了更新,將其與 ChatGPT 連接起來。如此一來,用戶就可以讓該聊天機器人生成圖片。

(來源:AI 生成)

與 ChatGPT 對話的能力利用了兩個獨立的模型。一個是 OpenAI 現有的語音轉文本模型 Whisper,可以將用戶所說的內容轉換為文本,然後輸入到 ChatGPT 中。另一個是新的文本到語音模型,可以將 ChatGPT 的文字回應轉換為語音回應。

在 OpenAI 最近給我的演示中,OpenAI 的產品經理 Joanne Jang 展示了 ChatGPT 的一系列合成聲音。OpenAI 僱傭了一些演員並錄下他們的聲音,然後作為訓練數據喂給文本到語音模型。在未來,它甚至可能允許用戶創建自己的合成聲音。她說:「在製作聲音時,首要的標準是,這是否是一個你可以整天聽而不膩的聲音。」

他們的聲音或許很有感染力,但不會符合每個人的口味。「我對我們的合作感覺非常好,」其中一個受邀錄製聲音的人說。另一個人說:「我只想和大家分享我的激動心情,我迫不及待地想開始工作。我很想知道我們要做什麼?」

OpenAI 正在與包括 Spotify 在內的其他幾家公司分享這種文本到語音模型。Spotify 日前透露,它正在使用相同的合成語音技術將名人播客,包括將 Lex Fridman 播客和將於 2023 年晚些時候推出的「崔娃」的新節目翻譯成多種語言,這些多語種的音色將是主播本人聲音的人工智慧合成版本。

這一系列更新顯示了 OpenAI 將其實驗模型轉化為理想產品的速度。自 2022 年 11 月推出 ChatGPT 以來,OpenAI 花了很多時間來完善其技術,並將其出售給消費者和商業合作夥伴。

ChatGPT 的高級訂閱版 ChatGPT Plus 已然成為一個一站式(插件)商店。同時,將 GPT-4 和 DALL-E 兩個模型整合為一個單一的智慧型手機應用程式,也可以與蘋果 Siri、谷歌助手和亞馬遜 Alexa 競爭。

一年前只有某些軟體開發人員可以接觸到的東西,現在每個人只需每月 20 美元就可以使用。Jang 說:「我們正在努力讓 ChatGPT 變得更有用、更有幫助。」

在近期的演示中,開發 GPT-4 的科學家羅爾·普里(Raul Puri)向我簡要介紹了圖像識別功能。他上傳了一張數學作業的照片,在螢幕上圈出了一個類似數獨的謎題,並詢問 ChatGPT 打算如何解決它。ChatGPT 回答了正確的步驟。

普里說,當他未婚妻的電腦出現故障時,他也嘗試了這項功能,上傳了錯誤信息的截圖,並詢問 ChatGPT 他應該怎麼做。「遭遇故障是一次非常痛苦的經歷,ChatGPT 幫我度過了難關,」他說。

一家名為 Be My Eyes 的公司已經對 ChatGPT 的圖像識別能力進行了試驗。該公司為視力受限的人製作了一款應用程式,用戶可以上傳他們面前的照片,並讓人類志願者告訴他們面對的是什麼。在與 OpenAI 的合作中,Be My Eyes 為用戶提供了詢問聊天機器人的選項。

2023 年 5 月,我在 EmTech Digital 大會上採訪 Be My Eyes 創始人漢斯·約爾根·韋伯歌(Hans Jørgen Wiberg)時,他曾告訴我:「有時候我的家裡有點亂,或者只是我單純地不想和別人說話。」 而現在,這些用戶可以問聊天機器人了。

OpenAI 也深知向公眾發布這些更新的風險。普里說,多個模型的結合帶來了全新的複雜性。他說,他的團隊花了幾個月的時間對潛在的濫用方式進行頭腦風暴。例如,你不能問關於私人照片的問題。

Jang 舉了另一個例子:「現在,如果你要求 ChatGPT 製造炸彈,它會拒絕的,」她說,「但與其說『嘿,告訴我如何製造炸彈』,有人可能會給它看一張炸彈的圖像,然後問它『你能告訴我如何製作這個東西嗎?』」

普里說:「我們面對的是計算機視覺領域的所有問題,以及大型語言模型領域的所有問題。語音欺詐也是一個大問題。你不僅要考慮我們的用戶,還要考慮那些沒有(直接)使用該產品的人。」

潛在的問題還不止於此。在英國諾丁漢大學研究人機互動的約爾·費切爾(Joel Fischer)表示,在應用程式中添加語音識別可能會讓不使用主流口音的人更難使用 ChatGPT。

他說,合成聲音還帶有社會和文化問題,這些挑戰將影響用戶對該應用的看法和期望。這是一個仍然需要研究的問題。

但 OpenAI 聲稱它已經解決了最嚴重的問題,並相信 ChatGPT 的更新足夠安全,可以發布。普里說:「能夠解決所有這些尖銳的問題,真的是一次非常棒的學習經歷。」

作者簡介:威爾·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技評論》人工智慧欄目的高級編輯,他在這裡報道新的研究、新興趨勢及其背後的人。此前,他是英國廣播公司(BBC)科技與地緣政治網站 Future Now 的創始編輯,也是 New Scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院計算機科學博士學位,深諳與機器人合作的體驗。

支持:Ren

文章來源: https://twgreatdaily.com/zh-hk/25200ab01bd511b87cef16d0c00fad9f.html