最強中文大模型，通義千問2.5追上GPT-4了？

從 ChatGPT（GPT-3.5）發布至今的一年多，大語言模型的疊代速度之快、進步幅度之大，時刻刷新著我們的認知。最近一段時間，各家更是密集發布了新版的大模型，都在追趕和超越最新領先的大模型，甚至逼得 OpenAI 進一步取消了 GPT-4 的限制。

現在阿里雲最新的通義千問 2.5 版本也來了，不僅在中文語境下追上了 GPT-4 Turbo，更讓人期待的是：在開源和免費的發展策略下，通義千問 2.5 會不會成為大模型落地的分水嶺，加速 AI 應用的全面爆發？

這一點還需要我們拭目以待，但至少，通義千問的這一輪升級中再次證明自己的能力和潛力。

通義千問全面升級，中文性能追平 GPT-4 Turbo

5 月 9 日，阿里雲正式發布通義千問 2.5，這是其旗下的通義大模型系列的最新版本。與此同時，阿里雲還開源通義千問 1100 億參數模型。

按照阿里雲方面的說法，得益於全方位的能力提升，在中文語境下，通義千問 2.5 的文本理解、文本生成、知識問答及生活建議、閒聊及對話、安全風險等多項能力趕超 GPT-4。

圖/阿里

而據權威基準測評 OpenCompass 的結果顯示，通義千問 2.5 的得分也追平了 GPT-4 Turbo，是第一個做到的國產大模型。

在 LMSYS 最新的大模型對戰排行榜中，通義千問（Qwen-Max）暫時位居總榜第 10，中文場景下與 GPT-4 Turbo 並列第 2，僅僅略遜於排在第一的 Claude 3 Opus 和 GPT-4（1106）。

圖/ LMSYS

當然，跑分和排行榜很難完全說明大模型的實際性能表現，更遑論最終落到實處的用戶體驗。

根據介紹，通義千問 2.5 採用了阿里雲自研的「問天」架構，並通過大量數據和算法的訓練，使得模型的核心性能得到了大幅提升。相比 2.1 版本，2.5 版本通義千問的理解能力、邏輯推理、指令遵循、代碼能力分別提升 9%、16%、19%、10%。

簡單來說，你可以認為通義千問 2.5 能夠更準確地理解自然語言的語義，並識別出其中的細微差別；也能進行更複雜的邏輯推理，並解決更具挑戰性的問題等。此外，通義千問版本升級後還新增了文檔處理、音視頻理解、智能編碼等多種能力。

在文檔處理上，通義千問 2.5 支持單次最長 1000 萬字、100 個文檔，覆蓋 PDF、Word、Excel，甚至 Markdown 和 EPUB 等多種文件格式。同時不只是正文內容，還可以解析標題、段落、圖表等多種數據格式。

圖/通義千問

另外在音視頻理解上，通義千問 2.5 也支持了實時語音識別、說話人分離等能力，能夠提取全文摘要、總結髮言、提取關鍵詞等，且支持最多同時上傳處理 50 個音視頻文件。

這些升級或許看上去沒有核心性能的提升來得「性感」，但從實際使用的角度，不管是能一次塞給大模型更大、更多、更多格式的文檔，還是音視頻的多種能力，其實都在大幅擴展大模型的真實使用場景。

從這個角度來看，通義千問 2.5 的意義就遠不只是在性能上追平 GPT-4 Turbo。

另一方面，AI 算力成本的高昂已經廣為人知，不管是海外的 ChatGPT Plus（GPT-4）、Gemini Advanced、Claude Pro，還是國內的文心一言會員（文心一言 4.0）、WPS AI 等服務，都有不低的收費。

而面向 C 端用戶，通義千問主打一個全功能「免費」。同時通義千問 APP 還升級為「通義 APP」，集成文生圖、智能編碼、文檔解析、音視頻理解、視覺生成等全棧能力，想成為用戶的「全能 AI 助手」。

不難理解，阿里還是通過免費迅速擴大 C 端用戶規模。但在現階段，B 端用戶可能更為關鍵。

大模型生態落地，開源路線加速

「從 2022 年 9 月發布通義系列模型以來，如今我們的 API 日調用量已經過億。」5 月 9 日，阿里雲 CTO 周靖人在總結通義千問過去一年時指出。

不僅如此，阿里雲還透露通義系列大模型已經服務包括新浪微博、小米、中國一汽在內的 9 萬家企業用戶。發布活動上，阿里雲還邀請微博和小米分享了他們對於通義千問的落地應用。

其中微博作為最早的用戶，就基於通義千問打造了出圈的官方評論機器人「評論羅伯特」。小米的小愛同學同樣也是基於通義千問，強化了在圖片生成、圖片理解等方面的多模態 AI 生成能力，包括在小米汽車、手機、音箱等硬體上。

事實上，上個月聯想發布了內嵌個人智能體的「真 AI PC」，其背後也是通義系列大模型。

圖/聯想

開源，毋庸置疑是阿里在大模型生態上發展迅猛的關鍵因素之一。「大到整個產業落地 AI，小到每個企業開發應用，開源技術都至關重要，這一點在全球範圍內已經被多次證明，」周靖人在財新的採訪中說道。

去年 8 月，阿里宣布通義千問加入開源生態，隨著沿著「全模態、全尺寸」的開源路線陸續推出十多款模型，參數規模橫跨 5 億到 1100 億，並且迅速成為開源大模型社區最受歡迎的開源大模型之一。

圖/阿里

其中，1.8B、4B、7B、14B 等小尺寸的通義千問，可以直接在手機、PC 等設備端側部署運行；72B、110B 等大尺寸模型則更多運行在伺服器和數據中心，支持更大規模、更專業的 AI 應用。

而隨著通義千問 2.5 的發布，其落地應用還有望得到進一步加速。在開源大模型中，通義千問擁有全尺寸的參數規模，還有目前最強的性能，開發者自然會更傾向基於通義千問的大模型生態進行開發。

更何況，即使相比最領先的閉源大模型，通義千問的差異也拉得很小了。

寫在最後

「我們仍處於 AI 發展的初期階段」，谷歌 CEO 桑達爾·皮查伊在最近一次採訪中說道。

過去一年多，AI 世界幾乎是一天一變，頭部廠商的大模型之爭也愈演愈烈，實質也帶動了整個生態的前進。事實上，今天打開手機，不提系統自帶的 AI 功能，已經有大量的應用都引入了生成式 AI，還在湧現大量的生成式 AI 原生應用。

不過還是不夠。所有人都明白，面向普通用戶的 AI 應用還沒真正迎來爆發時刻，通義千問當然也不可能直接做到，但作為開源大模型，通義千問確實是最有希望推動 AI 應用真正爆發起來的大模型之一。

2024年，AI大模型加速落地，汽車成為黃金場景，「下半場是智能化」成為業界共識。

4月25日，北京車展成為新能源車走向下半場的分水嶺，智能化成絕對主角、國產品牌強勢崛起、企業家「新車模」成風景線，燃油車、合資車、洋品牌、功能車徹底落寞。

車展期間，雷科技旗下「關注電動車，更懂智能化」的新媒體電車通派出豪華報道團前往北京，進行了系統的一線專業深度報道，一共輸出8條視頻、8篇深度解析以及海量短內容，全網收穫百萬+閱讀，斬獲多篇微信10萬+爆款（真實流量），在行業專業媒體引發較大關注。

2024年，AI大模型加速落地，汽車成為黃金場景，「下半場是智能化」成為業界共識。

4月25日，北京車展成為新能源車走向下半場的分水嶺，智能化成絕對主角、國產品牌強勢崛起、企業家「新車模」成風景線，燃油車、合資車、洋品牌、功能車徹底落寞。

車展期間，雷科技旗下「關注電動車，更懂智能化」的新媒體電車通派出豪華報道團前往北京，進行了系統的一線專業深度報道，一共輸出8條視頻、8篇深度解析以及海量短內容，全網收穫百萬+閱讀，斬獲多篇微信10萬+爆款（真實流量），在行業專業媒體引發較大關注。

最強中文大模型，通義千問2.5追上GPT-4了？

初代網紅「撈女」韋雪殺回來了！三場直播賺一個億

首批6款驍龍8至尊版旗艦機面世，以卓越性能引領行業創新

跨端融合，智能生態「大一統」，高通驍龍的答案是Oryon

Mac新品三箭齊發：抓住AI PC浪潮，晶片是蘋果的底氣？

芯光屏全面進化：海信電視U8系靠AI成為畫質專家

4499元起！榮耀Magic7系列發布：手機進入自動駕駛時代

捷尼賽思發布混動戰略，為了環保還是自救？

81.49萬的小米SU7超大杯，將掀起中國汽車的高性能大賽？

只賣3699元？華為nova 13 Pro，真的有點狠啊

十餘款新機混戰驍龍8至尊版！誰能贏得新一輪旗艦大戰？

「中國電動車沒有核心技術」？魏建軍遭網友炮轟：是長城沒有吧？

陽光新能源發布「魔方」技術平台：給電站更多效率與質量

新iPad mini發布靜悄悄：摺疊屏手機正在殺死小尺寸平板

聯發科AI超給力，天璣9400邁向新高度

旗艦手機「血戰十月」：集體漲價難避免，超越蘋果才能贏得未來

iPhone SE4定了！16失利，蘋果要靠小屏旗艦挽回顏面？

發布一攬子新品，AMD再次挑戰英偉達！但敗局早已註定？

5699元！富士X-M5相機發布：入門級相機如何活？

699元！金立「山寨機」火了，貼牌是最後的掙扎？

Kimi探索版首發體驗：秒搜310個網頁，槍口瞄準了百度？

時隔三年更新！iPad mini 7定檔：拯救小尺寸平板市場

Intel發威！酷睿Ultra 200S會引爆AI PC嗎？

1199元！位元組豆包發布AI耳機，智能體耳機成AI硬體新風口？

潮流手機難做，最美產品經理調崗！小米Civi能否逆天改命？