9.11和9.9哪個大?OpenAI剛官宣的GPT-4o mini竟然也翻車了|新榜

2024-07-19     新榜

果然能革OpenAI命的,只有OpenAI自己。

今天凌晨,OpenAI突然官宣了新模型GPT-4o mini更小、更快、更強,價格卻大跳水!直接取代GPT-3.5 Turbo作為ChatGPT入門級模型。

無論是免費還是付費用戶,現在打開ChatGPT,你會發現GPT-3.5已經被GPT-4o mini全面取代。

在性能方面,GPT-4o mini支持128K token上下文窗口,支持與GPT-4o相同範圍的語言,在多個關鍵基準測試中超越GPT-3.5 Turbo,以及同類型競品Claude 3 Haiku和Gemini 1.5 Flash。

價格也是獨一檔的存在。GPT-4o mini商用價格為:15美分/每百萬輸入token,60美分/每百萬輸出token,比GPT-3.5 Turbo便宜60%以上,比GPT-4o便宜96%-97%。

目前,GPT-4o mini已面向ChatGPT免費、Plus和Team用戶開放,企業用戶將從下周開始獲得訪問權限。

OpenAI官方表示,希望通過該模型讓更多公司和項目能夠以更低成本構建和擴展AI應用

Sam Altman在X上稱,智能技術成本正在變得幾乎可以忽略不計。

OpenAI 產品API主管Olivier Godement則表示:「 要想讓世界的每一個角落都能被人工智慧賦能,我們就必須讓模型的價格更加親民。我認為GPT-4o mini確實是朝著這個方向邁出的一大步。」

小模型中的戰鬥機

根據GPT-4o mini在多個關鍵基準測試中的得分,可以看出,其在文本和多模態推理、邏輯推理、數學和編程等方面均表現出色,優於市場上其他小型模型。

推理任務:在文本智能和推理基準MMLU中,GPT-4o mini的得分為82.0%,而Gemini Flash的得分為77.9%,Claude Haiku的得分為73.8%。在LMSYS排行榜的聊天方面,GPT-4o mini的得分甚至優於GPT-4。
數學和編碼能力:在MGSM數學推理測試中,GPT-4o mini的得分為87.0%,而Gemini Flash的得分為75.5%,Claude Haiku的得分為71.7%。在HumanEval編程性能測試中,GPT-4o mini的得分為87.2%,而Gemini Flash的得分為71.5%,Claude Haiku的得分為75.9%。
多模態推理:在MMMU多模態推理評估中,GPT-4o mini的得分為59.4%,而Gemini Flash和Claude Haiku的得分分別為56.1%和50.2%。

目前,GPT-4o-mini在API(應用程式編程接口)中支持文本和視覺,未來將支持文本、圖像、視頻和音頻輸入和輸出。

我分別讓GPT-4o mini模仿劉慈欣《三體》的風格寫一篇1500字的科幻故事,來感受一下這強烈的「推背感」

緊接著,我又問了一個最近難倒一眾大模型(包括GPT-4o)的問題:9.11和9.9哪個大?

沒想到,數學尖子生GPT-4o mini竟然也翻車了,我換了兩種問法都沒答對。

月之暗面曾在回應「Kimi認為9.11大於9.9」時稱:「我們非常期待用戶在使用中能夠發現和報告更多的邊界案例(Corner Case),不管是最近的『9.9和9.11哪個大、13.8和13.11哪個大』,還是之前的『strawberry有幾個r』,這些邊界案例的發現,有助於我們增加對大模型能力邊界的了解。」

此外,在安全性方面,GPT-4o mini內置了與GPT-4o相同的安全措施。據悉,有70多名社會心理學和錯誤信息等領域的外部專家對GPT-4o進行了測試,以評估潛在風險,提高GPT-4o和GPT-4o mini的安全性。

性價比獨一檔

為了搶占市場份額,國內外大模型廠商「價格戰」正酣。

但目前來看,GPT-4o mini的性價比堪稱獨一檔的存在:

據Artificial Analysis統計,GPT-4o mini的價格已經達到美國主流AI「小模型」最低,比Claude 3 Haiku和Gemini 1.5 Flash都要便宜一截。

反觀國內,近兩個月,阿里、位元組、騰訊等模型廠商相繼推出新模型,並宣布降價甚至免費。

5月9日,阿里發布通義千問2.5,個人用戶可從App、官網和小程序免費使用;
5月11日,智譜大模型官宣降價,入門級產品GLM-3 Turbo模型,百萬Tokens調用價格從5元降至1元,降幅高達80%;
5月15日,位元組發布豆包大模型,比行業平均價格便宜99.3%,推動大模型從「以分計價」,進入「以厘計價」階段;
5月21日,阿里宣布9款大模型降價,百度宣布文心大模型兩大主力模型ERNIE Speed、ERNIE Lite全面免費時代。
5月22日,科大訊飛宣布訊飛星火Lite API永久免費開放,騰訊雲公布大模型升級方案,主力模型之一調整為免費。

隨著AI技術的快速發展、算法的改進,模型訓練和推理效率得到提升,大模型的成本有所降低,為降價提供了可能。

雖然蛋糕很大,但為了在激烈的市場競爭中搶占更多的市場份額,尤其是在大模型性能差異不大、能力對齊較快的情況下,價格戰似乎是不可避免的。

通過降價吸引更多用戶,通過降低API調用成本吸引更多開發者,可以形成規模效應,從而進一步攤薄訓練和推理成本。此外,更多的用戶使用數據,也有助於進一步優化和訓練模型。

當然了,殊途同歸,模型降本增效是一件普惠的事,有利於推動AI技術的普及和應用。但在降價的同時,模型廠商需要不斷自我超越,才能確保可持續發展。在這一點上,可以說OpenAI起了個帶頭示範的作用。

文章來源: https://twgreatdaily.com/3ed5ed62fa0722ee0087492442799d99.html