9.11和9.9哪個大？OpenAI剛官宣的GPT-4o mini竟然也翻車了|新榜

果然能革OpenAI命的，只有OpenAI自己。

今天凌晨，OpenAI突然官宣了新模型GPT-4o mini，更小、更快、更強，價格卻大跳水！直接取代GPT-3.5 Turbo作為ChatGPT入門級模型。

無論是免費還是付費用戶，現在打開ChatGPT，你會發現GPT-3.5已經被GPT-4o mini全面取代。

在性能方面，GPT-4o mini支持128K token上下文窗口，支持與GPT-4o相同範圍的語言，在多個關鍵基準測試中超越GPT-3.5 Turbo，以及同類型競品Claude 3 Haiku和Gemini 1.5 Flash。

價格也是獨一檔的存在。GPT-4o mini商用價格為：15美分/每百萬輸入token，60美分/每百萬輸出token，比GPT-3.5 Turbo便宜60%以上，比GPT-4o便宜96%-97%。

目前，GPT-4o mini已面向ChatGPT免費、Plus和Team用戶開放，企業用戶將從下周開始獲得訪問權限。

OpenAI官方表示，希望通過該模型讓更多公司和項目能夠以更低成本構建和擴展AI應用。

Sam Altman在X上稱，智能技術成本正在變得幾乎可以忽略不計。

OpenAI 產品API主管Olivier Godement則表示：「要想讓世界的每一個角落都能被人工智慧賦能，我們就必須讓模型的價格更加親民。我認為GPT-4o mini確實是朝著這個方向邁出的一大步。」

小模型中的戰鬥機

根據GPT-4o mini在多個關鍵基準測試中的得分，可以看出，其在文本和多模態推理、邏輯推理、數學和編程等方面均表現出色，優於市場上其他小型模型。

推理任務：在文本智能和推理基準MMLU中，GPT-4o mini的得分為82.0%，而Gemini Flash的得分為77.9%，Claude Haiku的得分為73.8%。在LMSYS排行榜的聊天方面，GPT-4o mini的得分甚至優於GPT-4。

數學和編碼能力：在MGSM數學推理測試中，GPT-4o mini的得分為87.0%，而Gemini Flash的得分為75.5%，Claude Haiku的得分為71.7%。在HumanEval編程性能測試中，GPT-4o mini的得分為87.2%，而Gemini Flash的得分為71.5%，Claude Haiku的得分為75.9%。

多模態推理：在MMMU多模態推理評估中，GPT-4o mini的得分為59.4%，而Gemini Flash和Claude Haiku的得分分別為56.1%和50.2%。

目前，GPT-4o-mini在API（應用程式編程接口）中支持文本和視覺，未來將支持文本、圖像、視頻和音頻輸入和輸出。

我分別讓GPT-4o mini模仿劉慈欣《三體》的風格寫一篇1500字的科幻故事，來感受一下這強烈的「推背感」：

緊接著，我又問了一個最近難倒一眾大模型（包括GPT-4o）的問題：9.11和9.9哪個大？

沒想到，數學尖子生GPT-4o mini竟然也翻車了，我換了兩種問法都沒答對。

月之暗面曾在回應「Kimi認為9.11大於9.9」時稱：「我們非常期待用戶在使用中能夠發現和報告更多的邊界案例（Corner Case），不管是最近的『9.9和9.11哪個大、13.8和13.11哪個大』，還是之前的『strawberry有幾個r』，這些邊界案例的發現，有助於我們增加對大模型能力邊界的了解。」

此外，在安全性方面，GPT-4o mini內置了與GPT-4o相同的安全措施。據悉，有70多名社會心理學和錯誤信息等領域的外部專家對GPT-4o進行了測試，以評估潛在風險，提高GPT-4o和GPT-4o mini的安全性。

性價比獨一檔

為了搶占市場份額，國內外大模型廠商「價格戰」正酣。

但目前來看，GPT-4o mini的性價比堪稱獨一檔的存在：

據Artificial Analysis統計，GPT-4o mini的價格已經達到美國主流AI「小模型」最低，比Claude 3 Haiku和Gemini 1.5 Flash都要便宜一截。

反觀國內，近兩個月，阿里、位元組、騰訊等模型廠商相繼推出新模型，並宣布降價甚至免費。

5月9日，阿里發布通義千問2.5，個人用戶可從App、官網和小程序免費使用；

5月11日，智譜大模型官宣降價，入門級產品GLM-3 Turbo模型，百萬Tokens調用價格從5元降至1元，降幅高達80%；

5月15日，位元組發布豆包大模型，比行業平均價格便宜99.3%，推動大模型從「以分計價」，進入「以厘計價」階段；

5月21日，阿里宣布9款大模型降價，百度宣布文心大模型兩大主力模型ERNIE Speed、ERNIE Lite全面免費時代。

5月22日，科大訊飛宣布訊飛星火Lite API永久免費開放，騰訊雲公布大模型升級方案，主力模型之一調整為免費。

隨著AI技術的快速發展、算法的改進，模型訓練和推理效率得到提升，大模型的成本有所降低，為降價提供了可能。

雖然蛋糕很大，但為了在激烈的市場競爭中搶占更多的市場份額，尤其是在大模型性能差異不大、能力對齊較快的情況下，價格戰似乎是不可避免的。

通過降價吸引更多用戶，通過降低API調用成本吸引更多開發者，可以形成規模效應，從而進一步攤薄訓練和推理成本。此外，更多的用戶使用數據，也有助於進一步優化和訓練模型。

當然了，殊途同歸，模型降本增效是一件普惠的事，有利於推動AI技術的普及和應用。但在降價的同時，模型廠商需要不斷自我超越，才能確保可持續發展。在這一點上，可以說OpenAI起了個帶頭示範的作用。

9.11和9.9哪個大？OpenAI剛官宣的GPT-4o mini竟然也翻車了|新榜

對話微博AI幕後團隊：靠「已讀亂回」爆火後，「評論羅伯特」為什麼變聰明|新榜洞察

9.11和9.9哪個大？OpenAI剛官宣的GPT-4o mini竟然也翻車了|新榜

谷歌深夜放送：比肩GPT-4o的多模態助手、AI概述搜索結果、新視頻生成模型Veo

辛巴師徒蟬聯帶貨Top3，22位主播躋身10億GMV俱樂部|新榜出品

董宇輝新號首播，「丈母娘」們爆買1個億，4小時漲粉275萬 | 新榜出品

300位主播齊聚，快手搞了場老鐵味十足的跨年狂歡 | 新榜出品

百萬粉絲圍觀的視頻筆記，扛起小紅書流量紅利新風口？| 新榜出品

從章小蕙到小楊哥、董宇輝，我們到底需要什麼樣的主播？| 2023年終復盤

刷爆朋友圈的「聞神」1天漲粉360萬，抖音再「造神」普通人？| 新榜出品

「董宇輝小作文事件」大結局：392萬人在線、單場直播GMV破億元 | 新榜出品

從專業種草到效果轉化，知乎內容營銷新範式 | 新榜出品

好人董宇輝救了東方甄選 | 新榜出品

新媒體榜單發布：搜狐視頻11月視頻號影響力排行榜

對話中國AI繪畫著作權第一案當事人：AI生成內容如何維權？| 新榜出品

月銷破億，被嘲「美麗刑具」，光腿神器是怎樣煉成的？| 新榜出品

不拼才藝靠撒錢，這個網紅30天漲粉571萬 | 新榜出品

OpenAI COO：明年ChatGPT的推理能力會更強，目標惠及所有人 | 新榜出品

1秒1張圖實時成畫，2023文生圖領域進化有多快？| 新榜出品

一天超7場AI面試，這屆畢業生想進名企得跟AI談 | 新榜出品

用AI搞副業日賺近3萬，零工陷阱還是掘金秘訣？| 新榜出品

上線24小時吸金2000萬後被下架，狂飆中的短劇被按暫停鍵？| 新榜出品

重磅！Sam Altman攜核心團隊投奔微軟，OpenAI持續失控 | 新榜出品

AI圈大地震！Sam Altman被OpenAI開除，安全問題是核心分歧? | 新榜出品

完蛋！被GPTs包圍後，百萬年薪的提示詞工程師要下崗？| 新榜出品