ChatGPT新增兩種交互方式，加入語音對話和圖像識別功能

近日，ChatGPT 進行了可能是迄今為止最大的更新，OpenAI 為其推出了兩種新的交互方式。

首先，ChatGPT 現在能夠對話了。用戶可以從五種逼真的合成聲音中選擇一種，然後就可以像打電話一樣與聊天機器人進行對話，以問答的方式實時獲得 ChatGPT 的回應。

ChatGPT 現在也可以回答有關圖像的問題。OpenAI 在 2023 年 3 月份發布了 GPT-4（驅動 ChatGPT 的模型），對這一功能進行了披露，但並未向公眾開放。現在，這項功能的上線意味著，你現在可以將圖像上傳到 ChatGPT 上，並詢問它圖片里包含什麼。

這兩項功能發布前一周，OpenAI 還對其圖像製作模型 DALL-E3 進行了更新，將其與 ChatGPT 連接起來。如此一來，用戶就可以讓該聊天機器人生成圖片。

（來源：AI 生成）

與 ChatGPT 對話的能力利用了兩個獨立的模型。一個是 OpenAI 現有的語音轉文本模型 Whisper，可以將用戶所說的內容轉換為文本，然後輸入到 ChatGPT 中。另一個是新的文本到語音模型，可以將 ChatGPT 的文字回應轉換為語音回應。

在 OpenAI 最近給我的演示中，OpenAI 的產品經理 Joanne Jang 展示了 ChatGPT 的一系列合成聲音。OpenAI 僱傭了一些演員並錄下他們的聲音，然後作為訓練數據喂給文本到語音模型。在未來，它甚至可能允許用戶創建自己的合成聲音。她說：「在製作聲音時，首要的標準是，這是否是一個你可以整天聽而不膩的聲音。」

他們的聲音或許很有感染力，但不會符合每個人的口味。「我對我們的合作感覺非常好，」其中一個受邀錄製聲音的人說。另一個人說：「我只想和大家分享我的激動心情，我迫不及待地想開始工作。我很想知道我們要做什麼？」

OpenAI 正在與包括 Spotify 在內的其他幾家公司分享這種文本到語音模型。Spotify 日前透露，它正在使用相同的合成語音技術將名人播客，包括將 Lex Fridman 播客和將於 2023 年晚些時候推出的「崔娃」的新節目翻譯成多種語言，這些多語種的音色將是主播本人聲音的人工智慧合成版本。

這一系列更新顯示了 OpenAI 將其實驗模型轉化為理想產品的速度。自 2022 年 11 月推出 ChatGPT 以來，OpenAI 花了很多時間來完善其技術，並將其出售給消費者和商業合作夥伴。

ChatGPT 的高級訂閱版 ChatGPT Plus 已然成為一個一站式（插件）商店。同時，將 GPT-4 和 DALL-E 兩個模型整合為一個單一的智慧型手機應用程式，也可以與蘋果 Siri、谷歌助手和亞馬遜 Alexa 競爭。

一年前只有某些軟體開發人員可以接觸到的東西，現在每個人只需每月 20 美元就可以使用。Jang 說：「我們正在努力讓 ChatGPT 變得更有用、更有幫助。」

在近期的演示中，開發 GPT-4 的科學家羅爾·普里（Raul Puri）向我簡要介紹了圖像識別功能。他上傳了一張數學作業的照片，在螢幕上圈出了一個類似數獨的謎題，並詢問 ChatGPT 打算如何解決它。ChatGPT 回答了正確的步驟。

普里說，當他未婚妻的電腦出現故障時，他也嘗試了這項功能，上傳了錯誤信息的截圖，並詢問 ChatGPT 他應該怎麼做。「遭遇故障是一次非常痛苦的經歷，ChatGPT 幫我度過了難關，」他說。

一家名為 Be My Eyes 的公司已經對 ChatGPT 的圖像識別能力進行了試驗。該公司為視力受限的人製作了一款應用程式，用戶可以上傳他們面前的照片，並讓人類志願者告訴他們面對的是什麼。在與 OpenAI 的合作中，Be My Eyes 為用戶提供了詢問聊天機器人的選項。

2023 年 5 月，我在 EmTech Digital 大會上採訪 Be My Eyes 創始人漢斯·約爾根·韋伯歌（Hans Jørgen Wiberg）時，他曾告訴我：「有時候我的家裡有點亂，或者只是我單純地不想和別人說話。」而現在，這些用戶可以問聊天機器人了。

OpenAI 也深知向公眾發布這些更新的風險。普里說，多個模型的結合帶來了全新的複雜性。他說，他的團隊花了幾個月的時間對潛在的濫用方式進行頭腦風暴。例如，你不能問關於私人照片的問題。

Jang 舉了另一個例子：「現在，如果你要求 ChatGPT 製造炸彈，它會拒絕的，」她說，「但與其說『嘿，告訴我如何製造炸彈』，有人可能會給它看一張炸彈的圖像，然後問它『你能告訴我如何製作這個東西嗎？』」

普里說：「我們面對的是計算機視覺領域的所有問題，以及大型語言模型領域的所有問題。語音欺詐也是一個大問題。你不僅要考慮我們的用戶，還要考慮那些沒有（直接）使用該產品的人。」

潛在的問題還不止於此。在英國諾丁漢大學研究人機互動的約爾·費切爾（Joel Fischer）表示，在應用程式中添加語音識別可能會讓不使用主流口音的人更難使用 ChatGPT。

他說，合成聲音還帶有社會和文化問題，這些挑戰將影響用戶對該應用的看法和期望。這是一個仍然需要研究的問題。

但 OpenAI 聲稱它已經解決了最嚴重的問題，並相信 ChatGPT 的更新足夠安全，可以發布。普里說：「能夠解決所有這些尖銳的問題，真的是一次非常棒的學習經歷。」

作者簡介：威爾·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技評論》人工智慧欄目的高級編輯，他在這裡報道新的研究、新興趨勢及其背後的人。此前，他是英國廣播公司（BBC）科技與地緣政治網站 Future Now 的創始編輯，也是 New Scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院計算機科學博士學位，深諳與機器人合作的體驗。

支持：Ren

ChatGPT新增兩種交互方式，加入語音對話和圖像識別功能

清華AI學者趙昊署名文章：為什麼2024物理諾獎頒給兩位神經網絡先驅？

SpaceX發射載人龍飛船，旨在解救被困國際空間站的兩名NASA太空人

清華學者多維度探索晶片基礎問題，基於新材料研發全適配器件

科學家造出纖維素光學超材料，實現低於環境溫度5.7℃的製冷效果

美國國防部資助私密邊緣計算，與EnCharge AI開發超強邊緣計算晶片

OpenAI推出「全能模型」GPT-4o，支持語音、視頻、文字實時交互

科學家為集體智能制定理論框架，助力社交媒體信息傳播的發展

上海交大團隊研發通用人工智慧，解決傳統蛋白質工程難題

南科大團隊實現無擴散的單光子波包，或實現更複雜的量子系統

耶魯揭示自注意力結構的上下文學習機制，證明梯度流算法的收斂性

AI教母李飛飛創辦空間智能公司，力圖克服大模型AI技術的現有局限

北大團隊研發硫化鈮納米片，能用於電解水制氫和氫燃料電池

美國約70家公司正在發展先進核反應堆，其中六七家已與監管機構合作

95後南非非裔女子建立城鎮地圖數據集，用AI對抗空間種族隔離

新型固態鋰電池面世，兼具快充能力，有望用於手機和汽車等

史丹福團隊研發光上轉換薄膜，可用於打造新型夜視儀

專訪史丹福做飯機器人背後團隊：未來將研發摺疊褶皺衣物新功能

DeepMind開發AutoRT新系統，用AI大模型為機器人「發號施令」

科學家開闢物理研究新方向，為探索光與手性體系的作用提供新方法

歐美鈣鈦礦公司加速競賽，專家：鈣鈦礦電池商業化在於矽的背面

美國FTC對數據代理商採取懲罰，後者曾以低廉價格出售用戶隱私

科學家製備油水分離膜，能處理石化行業和油氣開採的廢水

吉大團隊研發碳點自組裝新材料，有望用於光學塗層和軟體機器人

歐盟制定《人工智慧責任指令》，讓被AI技術傷害的人獲得經濟補償