免費的GPT-4o足夠強，但治不好OpenAI的產品焦慮

2024-05-14 鈦媒體APP

文｜甲子光年，作者 | 劉楊楠，編輯 | 王博、栗子

文｜甲子光年，作者 | 劉楊楠，編輯 | 王博、栗子

5月14日凌晨1點，繼OpenAI在AI搜索上「虛晃一槍」之後，讓薩姆·奧爾特曼（Sam Altman）感覺「像魔術一樣」的新模型終於浮出水面。

不是GPT-5，不是AI搜索，而是最新旗艦生成式AI模型GPT-4o！

GPT-4o（「o」代表「omni」，意為「全能的」）是邁向更自然的人機互動的一步——它接受文本、音頻和圖像的任意組合作為輸入，並生成文本、音頻和圖像的任意組合輸出。

整場發布會時長僅30分鐘，OpenAI CTO米拉·穆拉蒂（Mira Murati）帶來主題演講。「這是我們第一次在易用性方面真正邁出一大步。」穆拉蒂在公司舊金山總部的現場演示中說道，「這種互動變得更加自然，也更加容易。」

值得注意的是，此次發布會OpenAI CEO薩姆·奧爾特曼並未現身。在OpenAI官網披露的GPT-4o貢獻者中，依然沒有看到OpenAI首席科學家伊利亞·蘇茨克維爾（Ilya Sutskever）的身影。

「GPT-4o是我們最好的模型」

整場發布會的主角，就是OpenAI最新旗艦生成式AI模型GPT-4o。

OpenAI官網博客顯示，GPT-4o（「o」代表「omni」）是邁向更自然的人機互動的一步。它接受文本、音頻和圖像的任意組合作為輸入，並生成文本、音頻和圖像的任意組合輸出。

相比今年2月的Sora， OpenAI此次發布顯得更有誠意——GPT-4o將免費提供給所有用戶使用，Plus用戶則可以享受到5倍的調用額度。

穆拉蒂表示，GPT-4o將提供與GPT-4同等水平的智能。

同時，GPT-4o的運行速度大大提升，最大亮點在於其語音交互模式採用了全新技術，讓聊天機器人對話的響應速度大幅提升。OpenAI官網博客顯示，GPT-4o在談話中對音頻輸入的平均響應時間為320毫秒，最短的響應時間為232毫秒，與人類的響應時間相似。

GPT-4o還有超高的「語言天賦」，能支持50種語言，並顯著提高了非英語語言的性能，包括改進分詞器以更好地壓縮其中的許多語言：

根據傳統基準測試，GPT-4o在文本、推理和編碼智能方面實現了GPT-4 Turbo級別的性能，同時在多語言、音頻和視覺功能上設置了新的高水位線。

開發人員現在可以在API中訪問GPT-4o。與GPT-4 Turbo相比，GPT-4o速度提高2倍，價格降低一半，速率限制提高5倍。

在現場演示環節，GPT-4o更是展現了各類花式操作——它能根據演示者的實時要求變換語音語調，演繹話劇；能實時讀圖；甚至還跟演示者們開起玩笑，唱起歌。

此外，OpenAI還發布了桌面版的ChatGPT和新的用戶介面。

用戶可以向ChatGPT（由 GPT-4o 提供支持）提出問題，並在ChatGPT回答時打斷它。OpenAI表示，該模型提供「實時」響應能力，甚至可以感知用戶聲音中的情感，從而生成「一系列不同情感風格」的聲音（包括唱歌）。

GPT-4o還升級了ChatGPT的視覺能力。給定一張照片或一個桌面螢幕，GPT-4o可以快速回答相關問題，主題範圍包括「此軟體代碼中發生了什麼？」到「這個人穿什麼牌子的襯衫？」

「我們認識到這些模型正變得越來越複雜，」穆拉蒂說道，「但我們希望用戶與人工智慧模型的交互體驗能夠更加自然、輕鬆，讓用戶可以將注意力完全集中在與模型的協作上，而無需在意介面本身。」

穆拉蒂還透露，未來幾周內，GPT-4o將分階段集成至OpenAI的各個產品之中，而且會在ChatGPT Plus中推出新版語音模式GPT-4o的alpha版。

OpenAI研究員威廉·費達斯（William Fedus）表示：「GPT-4o是我們最先進的新前沿模型。我們一直在LMSys arena上測試一個版本im-also-a-good-gpt2-chatbot。」

「這不僅是世界上最好的模型，而且可以在ChatGPT中免費使用，這對於前沿模型來說是前所未有的。」費達斯補充道，「我們發現在更難的提示集上——特別是編碼——存在更大的差距：GPT-4o比我們之前的最佳模型實現了+100 ELO。」

奧爾特曼也在X上表示：「GPT-4o是我們最好的模型。」OpenAI此次發布幾乎在想盡辦法「討好」用戶，在「交互體驗」上下足了功夫，直接免費開放使用更讓用戶感受到了OpenAI的誠意。

但「甲子光年」發現，在這種誠意背後，這家已被捧上神壇的AI創業公司，正深陷於某種焦慮之中。

OpenAI的產品焦慮

雖然奧爾特曼今天並未到場，但5月11日，他便親自下場預告。可是，翻翻評論區，網友們的關注點似乎有點兒跑偏。

有人喊話奧爾特曼讓OpenAI首席科學家伊利亞回歸：

有人關心GPT-5到底何時發布：

伊利亞的去向和GPT-5的發布是OpenAI留給外界的兩大謎題，也是外界最關心的兩大問題。

2024年，人們對OpenAI最大的期待便是GPT-5。然而，每當奧爾特曼在訪談中被問及GPT-5相關進度時，卻總是支支吾吾、諱莫如深。奧爾特曼在普羅大眾心中的畫像也逐漸從一位開天闢地的怪力少年，轉變為一個在各國政客間長袖善舞，在各種場合大打太極的「成熟企業家」。

更致命的是，ChatGPT和GPT-4之後，OpenAI似乎一直沒能推出相同重量級的AI產品，這些都在不斷消磨外界對OpenAI的期待與信心。

今年2月，OpenAI發布Sora——1份技術報告、32篇引用論文、一些畫面堪比電影鏡頭的demo和1個故作高深的「世界模擬器」概念就是OpenAI給出的全部，沒有技術論文，也沒有可公開體驗的產品入口。

「甲子光年」曾向多位AI從業者提問：「ChatGPT和Sora，誰帶給你的震撼更大？」各位受訪人幾乎不約而同地回答：「Sora有震撼，但沒ChatGPT的震撼大。」

造成這種感官差異的直接原因是，ChatGPT能直接體驗，但Sora不能。雖然ChatGPT也會犯一些荒唐的錯誤，但真實的交流感帶給人們的震撼，遠遠大於只可遠觀、不能上手體驗的Sora。甚至不少聲音開始猜測，Sora精美的Demo或許是工程師在背後屢次微調的結果，Sora實時交互的結果「可能遠不如此」。

對於外界的猜測、質疑，OpenAI並未回應，而是迅速扔出下一個「靶子」——AI搜索。

過去一周，外媒不斷有消息傳出OpenAI將推出AI搜索產品，更有媒體猜測，谷歌一年一度的I/O大會即將於5月14日舉辦，而OpenAI此舉是針對谷歌的精準狙擊。

不過，AI搜索的熱度炒了半天，所謂的AI搜索產品最終只是虛晃一槍。

崑崙萬維董事長兼CEO方漢近期在一次直播中直言：「我覺得搜尋引擎對於OpenAI的用戶增長也不會有根本性的變化。」有數據顯示，從去年5月開始，ChatGPT的C端增長便逐漸觸頂。

而產品焦慮一日不解，OpenAI距離「偉大的公司」就永遠有一牆之隔。

GPT-4o能治好嗎？

今天再次復盤ChatGPT的成功會發現，這是一次不可復現的「無心插柳」。

2022年中，OpenAI開始訓練GPT-4。半年後的11月30日，OpenAI發布ChatGPT，全球各界都為之顫動。

OpenAI內部曾對是否發布ChatGPT有過很長一段時間爭論，因為誰都無法100%確認這是正確的事情。

彼時，OpenAI對自己的定位是一家為開發人員和企業構建工具的公司，而非直接面向普羅大眾。因此，OpenAI要面臨的核心挑戰，是ChatGPT的使用門檻是否足夠低，以至於能讓完全不懂技術的人用起來。

在此之前發布的視覺模型DaLL-E已經讓OpenAI嘗到了甜頭。但ChatGPT能複製DALL-E的成功嗎？

奧爾特曼是名副其實的「冒險派」，他鼓勵公司發布ChatGPT，「嘗試一下」。在他看來，用戶和模型進行文本形式的交互會產生一些很重要的個性化結果。

很快，用戶的熱情證明，這次試驗無比成功。從2022年11月上線的第一個完整月（2022年11月）開始，到12月這一數字達到了2.66億人次，月環比增長了近75%。到2023年1月，總訪問量翻了一番多，達到6.16億人次，2月就首次突破10億人次大關。

這突如其來的成功，在OpenAI的意料之外。

「我們並沒有認為GPT-3系列模型已經跨越了將其應用於消費者或企業的門檻，本以為GPT-4會成為第一個跨越這道門檻的模型，所以我們的很多計劃和預測都是圍繞2023年3月發布GPT-4來安排的。」OpenAI COO 布拉德·萊特凱普（Brad Lightcap）此前在英偉達2024 GTC大會上分享道。

按照萊特凱普的說法，OpenAI用了6個月來適應ChatGPT的爆炸性增長，並確保公司有足夠的GPU來滿足用戶的需求。

直到2023年後半年，OpenAI開始感受到了來自行業一線的真實需求。OpenAI曾公布，截止2023年8月，80%的財富500強公司已採用ChatGPT。80%的統計數據是指擁有註冊ChatGPT帳戶的財富500強公司的百分比，由與企業電子郵件域關聯的帳戶確定。

於是，OpenAI迅速行動。2023年8月28日，OpenAI推出ChatGPT Enterprise，正式進軍企業市場。它提供企業級安全和隱私、無限的高速GPT-4訪問、用於處理更長輸入的更長上下文窗口、高級數據分析功能、自定義選項等等。

這是一個很微妙的時間點——ChatGPT流量見頂，開始走下坡路。

根據第三方網站SimilarWeb的監測數據，2023年6月ChatGPT的網站與移動客戶端的全球流量（PV）環比下降9.7%，美國地區的流量環比下降10.3%。同時，ChatGPT的獨立訪客數量（UV）下降了5.7%，訪客在網站上花費的時間也下降了8.5%。

這是自2022年11月30日發布以來，ChatGPT首次出現流量負增長。其實，ChatGPT增長放緩的勢頭在2023年5月已經出現端倪，5月的增長率僅為2.8%。

當時，一家AI Lab負責人告訴「甲子光年」，ChatGPT流量下滑10%，但真正的挑戰不在這裡。「大部分人都是帶著體驗的目的，看看ChatGPT到底有多強大才去註冊的，包括我也是。但這不意味著我會天天用它。除了做一些簡單的科普，或者給孩子寫作文之外，大部分人日常其實也不太會用到。」這位AI Lab負責人說。

萊特凱普自己也在一次訪談中犀利點評ChatGPT：「人們玩兒過一會兒後就認為它並不是真正的工具，而更像一個玩具。」

更嚴峻的是，ChatGPT的燒錢速度同樣出人意料。

當OpenAI的早期投資人埃隆·馬斯克（Elon Musk）問到ChatGPT的成本時，奧爾特曼給到的數據是「每次對話的平均費用為幾美分」。2023年4月，國外一位分析師估算的數據則是每天的運營成本高達70萬美元。

2023年2月1日，OpenAI開始商業化探索，推出付費版本的ChatGPT Plus，定價每月20美元，提供的增值服務包括「尖峰時段免排隊、快速響應以及優先獲得新功能」等。

如此看來，ChatGPT雖然備受喜愛，但在商業層面，卻算不上一個真正成功的產品。這些被ChatGPT燒掉的錢，就要用B端來填。

數據顯示，截至2023年11月，已經有92%的500強企業以某種形式部署ChatGPT。Block、Canva、Carlyle、雅詩蘭黛、普華永道和Zapier均為OpenAI的早期客戶。

C端流量與B端客戶量的此消彼長之間，OpenAI也逐漸由一家偉大而光榮的非營利性AGI實驗室，加速轉變為一家「平庸」的商業公司——他們或許能賺到很多錢，卻沒有造出能夠說服用戶的產品。

直到今天，讓奧爾特曼感到「像魔術一樣」的GPT-4o面世。

只是GPT-4o真能治好OpenAI的產品焦慮嗎？答案或許並不清晰。

從模型能力上來看，實時語音交互是GPT-4o在多模態方面最亮眼的進展。然而事實上，語音交互類產品並不新鮮。在可查閱的歷史中，AI語音交互類產品在商業化方面並沒有太多成功的案例，蘋果的Siri到今天都是一個十分雞肋的功能。

而發布會上的GPT-4o，看起來依然是一個「有趣的玩具」。

從「無心插柳」的ChatGPT，到「只可遠觀」的Sora、「虛晃一槍」的SearchGPT，再到今天的GPT-4o，都只是OpenAI向世界展示其AI能力的「半成品」，而並非一個真正能夠說服用戶的商業產品，這在某種程度上限制了OpenAI用戶的增長。

當然，不可否認的是，從這次發布會的效果來看，GPT-4o或許會成為又一個成功的PR案例，被寫入OpenAI的歷史。

免費的GPT-4o足夠強，但治不好OpenAI的產品焦慮

京東七鮮發起即時零售最大規模的價格戰

單季營收破百億的瑞幸，在星巴克的後院點火？

暴雷！一夜暴降660億市值，黃仁勛也救不回「AI 妖股」超微電腦｜鈦媒體AGI

溫多利：關聯方相助仍擋不住利潤下降，資金充裕分紅頻繁，募資補流引質疑｜IPO觀察

楊元慶對話黃仁勛：未來的AI性能，將以每年2到3倍的速度增長 | 鈦媒體焦點

女性議題，正在成為喜綜困境？

這波在股市賺翻的人，都在幹什麼？

30億，醫療併購「老手」康橋資本落地北京亦莊

葉國富63億入主永輝，名創優品「傾家蕩產」給京東解套？

OpenAI奧爾特曼罕見髮長文：超級AI可能在幾千天內實現｜鈦媒體AGI

蘋果撞上「嘆息之牆」

國足18強賽首戰「全媒體獨播」，究竟為哪般？

英偉達：壓軸靚仔的壓力

抓住那隻流量猴：黑神話首日，全網都變遊戲直播間

京東「絕地反撲」？想多了

遊戲復甦、廣告放緩，騰訊增長只能靠微信

投資9年血虧，股東怒斥丹化科技前次定增「作假」追訴賠償超1.3億元

原材料卡脖子、經銷商減少，金龍魚的低毛利護城河還堅固麼？| 看財報

英偉達「過山車」式股價背後，AI晶片巨頭地位並非不可動搖｜鈦媒體AGI

奧運會背後的經濟蛋糕：如何捧紅下一個谷愛凌

被足療按摩「拿捏」的年輕人們

誰都敢跟他拍桌子，天生懦弱的俞敏洪，捧出200多個企業家

俞敏洪和董宇輝，岳不群和令狐沖

行業大浪淘沙，又一半導體企業倒在黎明前