OpenAI推出「全能模型」GPT-4o，支持語音、視頻、文字實時交互

2024-05-14 DeepTech深科技

OpenAI 今天推出了 GPT-4o，這是一種新型的人工智慧模型，你可以通過語音、視頻和文本與它進行實時溝通。

OpenAI 表示，該模型將在未來幾周內上線，並將通過 ChatGPT 應用程式和網頁版免費開放給所有用戶。ChatGPT 的付費訂閱用戶（每月 20 美元起）將能夠提出更多請求。

OpenAI 的 CTO 米拉·穆拉蒂（Mira Murati）主持了 GPT-4o 的發布和現場演示。

值得一提的是，發布會的時間剛好選在谷歌召開 I/O 大會的前一天，谷歌預計將在大會上公布其最新的人工智慧進展。

現有的 GPT-4 雖然提供了類似的功能，為用戶提供了多種與 OpenAI 人工智慧產品交互的方式，但這些功能被放在不同的模型中，導致響應時間更長，計算成本可能也更高。

GPT-4o 現在已經將這些功能合併到一個單一的模型中，穆拉蒂稱之為「全能模型（omnimodel）」。她說，這意味著更快的響應和更平穩的任務轉換。

該公司的演示表明，其結果是一個與 Siri 或 Alexa 非常相似的對話助手，但能夠處理更複雜的提示。

穆拉蒂在談到演示時說：「我們正在展望我們自己和機器之間互動的未來。我們認為，GPT-4o 正在將目前的合作範式轉變為更具未來色彩的合作模式。未來，這種互動將變得更加自然。」

巴雷特·佐夫（Barret Zoph）和馬克·陳（Mark Chen）都是 OpenAI 的研究人員，他們介紹了新模型的一些應用場景。

最令人印象深刻的是它應對實時對話的能力。你可以在模型的回應過程中打斷它，它會停下來，聽你講完並調整回應，就像真人一樣。

OpenAI 也展示了改變模型語調的能力。馬克讓模型在睡前讀一個「關於機器人和愛情」的故事，然後他迅速補充稱，要用更戲劇化的聲音朗讀。

隨即，該模型變得越來越戲劇化，直到穆拉蒂要求它迅速轉向令人信服的機器人聲音（它很擅長這一點）。

在對話過程中，模型會出現一些短暫的停頓，這是它在推理下一步該說什麼，但這並不令人意外。OpenAI 展示了一場節奏非常自然的人類與人工智慧的對話。

（來源：OPENAI）

該模型還可以實時推理視覺問題。佐夫用手機拍攝了自己在一張紙上寫代數方程 3x+1=4 的過程，並讓 GPT-4o 提供解題思路。他指示它不要直接給出答案，而是像老師一樣指導他。

該模型友好地說：「第一步是把所有帶未知數 x 的項移到一邊。那麼，你認為我們應該如何處理這個加號？」

穆拉蒂表示，GPT-4o 將存儲用戶與它的交互記錄，這意味著該模型「現在在你的所有對話中都具備一種連續性」。演示的其他亮點包括實時翻譯，檢索模型對話內容的能力，以及實時查詢信息的能力。

正因為是現場演示，我們得以看到了一些小問題和小故障。在談話中，GPT-4o 的聲音可能會不合時宜地響起。在無人要求的情況下，它似乎對其中一位主持人的衣著發表了評論。

但當演示者告訴模型它做錯了時，它處理得很好。它似乎能夠在其他模型尚未有效合併的幾種媒介上快速、有效地做出反應。

此前，OpenAI 的許多最強大的功能，如通過圖像和視頻進行推理，都只限於付費用戶。

GPT-4o 標誌著它們將首次向更廣泛的公眾開放，儘管目前還不清楚免費用戶能與該模型進行多少次互動。

OpenAI 表示，付費用戶的消息限制「仍然是免費用戶限制的五倍」。

支持：Ren

運營/排版：何晨龍

​OpenAI推出「全能模型」GPT-4o，支持語音、視頻、文字實時交互