最強國產多模態大模型來了！硬剛GPT-4o，商湯現場演示實時音視頻交互

2024-07-05 智東西

作者 | 三北

編輯 | 漠影

今日，「國產版GPT-4o」，日日新5o，亮相WAIC大會。

5月中旬，OpenAI推出新旗艦模型GPT-4o，憑藉自然流暢的實時音視頻交互震驚世界。

僅僅一個多月之後，在我國一年一度的最大人工智慧盛會WAIC 2024上，商湯科技正式推出日日新5.5，以及可進行流式多模態交互的5o版本，不僅多項測評超GPT-4o，還實現實時跨文本、音頻、圖像與視頻推理。

商湯日日新5.5多項核心指標測評超GPT-4o

商湯科技現場演示了新模型日日新5o的實時音視頻交互，引起了WAIC觀眾的一片沸騰。

比如，當演示者用手機對著桌上小狗玩偶，日日新5o可以在要求下講出小狗的表情，並識別出帽子上的文字和背景，多輪對話十分絲滑流暢。

與此同時，商湯還推出可控人物類AI視頻生成產品Vimi，可穩定生成長達1分鐘的單鏡頭人物類視頻，具有高動態、高保真特點，預計月內公測。

通過Vimi，商湯董事長兼CEO徐立在現場致敬了人工智慧領域的多位大咖，包括讓已故的AI科學家、商湯科技創始人湯曉鷗的照片「復活」，久違的音容笑貌浮現。

一、多項測評超GPT-4o，日日新5.5亮相WAIC，連甩三大炸彈

國內首個對標GPT-4o，日日新5.5實現了核心指標的全面升級。

在MMB v1.1、MMStar、Math Vista、AI2D、OCRBench等多項全球權威測評中，日日新5.5的得分均超過GPT-4o。

升級版的日日新5.5展現出「五邊形戰士」的實力，語言和知識、推理數理、編程、考試五大能力，相比日日新5.0版能力圈大大拓寬。

經過測評可知，日日新5.5在英文能力、指令跟隨、長文本理解、Function能力等方面大大提升，整體性能提升30%。

據悉，日日新5.5大模型採用混合端邊雲協同專家架構，基於超過10TB tokens高質量數據訓練，能最大限度發揮雲邊端協同的優勢，在多項核心能力飆升的同時，降低推理成本。

值得一提的是，日日新5.5還應該是國內首個流式多模態交互模型。

就像GPT-4o一樣，日日新5o可以與用戶實現原生多態實時交互，覆蓋聲音、文本、圖像、視頻等多種形式。比如前文提到，用戶可以要求日日新5.5幫他讀取眼前畫面中的核心內容。

商湯相關負責人告訴智東西：「技術可用的一個最大的挑戰是：要足夠快，而且不只是在某些示例中快。我們過去兩個月一直在持續攻關，從算法、設計和工程多方配合，從而訓練出性能更強的模型。」

當下大模型正湧向端側，掀起落地潮。商湯日日新5.5更新的第三大亮點，也正是聚焦於端側大模型。

商湯最新推出了日日新5.5 Lite端側大模型，據稱相比此前版本首包時延降低40%，推理效率提升15%，模型精度提升10%。同時，商湯端側模型矩陣也首次亮相，包括寫作助手、總結助手、百科助手等特化模型，可針對用戶的個性化需求，提供效果更優的定製化專項模型。

為了讓更多用戶能用上大模型，商湯商量端側大模型設備可同時支持端側部署及雲側調用，每台設備9.9元包年。信息一出，引起台下一片歡呼。

商湯還推出0元Go計劃，支持OpenAI客戶零成本遷移，並向新客戶贈送5000萬Tokens包，可謂「一手抓技術，一手抓市場」。

二、現場演示實時音視頻交互，人物視頻生成大模型也來了

日日新5.5的核心指標如此亮眼，實際使用效果如何？

商湯科技演示了基於日日新5.5的日日新5o的實時音視頻交互能力，將現場氛圍掀到高潮。

演示者首先拿著手機將攝像頭對準觀眾席，問手機里的日日新5o助手，現在他在參加什麼活動。日日新5o通過識別現成的飄帶，識別出這是WAIC人工智慧大會，立馬給出了正確答案，還向現場觀眾打了招呼。

緊接著是閱讀能力，演示人將手機鏡頭對向一本書，讓日日新5o介紹眼前的書本，日日新5o立馬回復這個是《反脆弱》，並介紹了作者背景。當演示者翻開書頁，日日新5o也能立馬幫演示者解讀書本的內容，展現出高清的流媒體技術。

最後，演示者進一步升級難度，他畫了一幅簡筆畫問日日新5o這是什麼，日日新5o立馬稱這是一隻可愛的兔子。當演示者為兔子加上了表情和動作，日日新5o都立馬識別並表述了出來，展現出極強的多模態理解能力。

但商湯科技「殺招」不止於此，其還在AI視頻生成模型領域大展身手。

Sora熱潮之後AI視頻生成工具泛濫，很多工具都在人物生成上「翻車」不斷。本次，商湯推出

面向C端的可控人物視頻生成AIGC產品——Vimi人物視頻生成模型

。

與市面上的視頻生成模型不同的是，基於日日新5.5，Vimi人物生成模型可通過動作視頻、動畫、聲音、文字等多種元素來驅動人物圖片，生成和目標動作一致的分鐘級視頻內容。

Vimi支持生成光影和動態都自然和諧的視頻，用戶可自行替換各種IP生成所需視頻內容。

正如前文提到，徐立在WAIC發布現場致敬了AI領域的多位大咖，克勞德·艾爾伍德·香農、約翰·馮·諾依曼、艾倫·麥席森·圖靈以及湯曉鷗教授的照片突然「活了」，這也是出自Vimi的處理加工。

實際上，基於日日新5.5，商湯科技整個大模型應用「全家桶」都實現了重大升級。

1、小浣熊家族更新：代碼助手速度提升5倍，大模型原生數據產品上線

商湯代碼小浣熊·個人升級版推出，提供更強悍模型性能、更豐富插件功能和更完善數據看板，響應速度提升5倍，代碼精度提升10%。目前商湯科技已連接超200家企業使用代碼小浣熊。

同時，大模型原生數據分析產品——辦公小浣熊網頁個人升級版&小程序版同步上線，支持更多數據接入、個性化用戶體驗、多端聯動。商湯科技現場演示了辦公小浣熊，它快速統計了現場大家飲用水情況，並給出了可視化的統計圖。

2、商量擬人大模型Pro版本發布，擬人對話測評超GPT-4

商量擬人大模型SenseChat-Character-Pro版大模型發布，它支持個性化角色創建與定製，並具備知識庫構建、長對話記憶、多人群聊等功能，可以廣泛應用於擬人對話場景。

在面向中文角色扮演對話代理（RPCAs）領域的CharacterEval測評中，商量-擬人大模型高級版（SenseChat-Character-Pro）在角色對話能力、人設一致能力、及角色扮演吸引力等核心維度方面全面領先，優於GPT-4以及其他企業擬人大模型。

隨著大量新產品的發布，商湯WAIC展區吸引了很多人來體驗。

現場觀眾在商湯科技站台駐足觀看

可以看到，多模態大模型時代已經加速到來，而國產力量已經衝到前列。

儘管當下我國AI的人才儲備、資本投入力度與美國有差距，算法領域仍存在差距。但我國的一大優勢在於應用側發展迅速，包括手機、教育、醫療等眾多場景需求的迸發，以及大量的數據資源，都會對商湯日日新5.5這樣的多模態大模型的發展帶來推動作用。

三、OpenAI客戶免費遷移！端側大模型9.9元包年，壯大企業應用生態

大模型產業的發展，離不開生態的建設。

本次，商湯科技推出了0元Go計劃，以更激進政策推動開發者和行業客戶加入創新大潮。

商湯宣布將提供從OpenAI到「日日新SenseNova」的遷移系列培訓，同時新註冊企業用戶將獲得涉及調用、遷徙、訓練等多項免費服務大禮包。

面向「日日新SenseNova」新註冊企業用戶，商湯還宣布將贈送5000萬Tokens包，派出專屬搬家顧問。這意味用戶不僅能0成本遷移，還能獲得更多的調用優惠和升級服務。

商湯日日新大模型的生態「一盤棋」正在日益完整。

端側大模型作為商湯大模型生態一塊重要拼圖，據稱已經有150+客戶啟動商業對接。

正如前文提到，商湯端側模型的矩陣已經不斷壯大，目前已經適配手機、平板電腦、VR一體機、車載電腦、智慧檯燈等眾多終端。也就是說，基於上頭端側大模型，所有智能硬體玩家都可以把他們的業務重做一遍。

用大模型改造智能硬體，門檻也變得更低。

商湯科技宣布端側大模型價格低至——每台每年9.9元。雖然價格更經濟了，但服務支持多種垂直業務方向，包括寫作、百科知識等不同領域，同時支持端側部署及雲側調用，部署簡易好上手。

面向企業級市場，商湯宣布其政府、企業用戶超過3000家。

本次，商湯科技推出能源多模態一體機、辦公（代碼）一體機、智慧城市煥新方案-方舟多模態新智平台、金融一體機、醫療一體機等多種方案，助政企客戶解決核心數據安全本地部署大模型的需求，降低企業使用大模型的成本，從而進一步壯大企業應用生態。

除此之外，商湯科技還推出了金融場景大模型、農業場景大模型、文旅場景大模型、醫療場景大模型等多個行業大模型。

結語：硬剛GPT-4o，國產多模態大模型邁上新台階

多項指標超GPT-4o，商湯糰隊突破了一些核心關鍵點。商湯相關負責人告訴智東西：「我們的模型跟Sora的方法相比，有10-20%的提升，背後的原因是我們自去年就確立原生多模態的目標，並一直持續疊代。」

當下，國內大模型產業競賽更「卷」，價格戰之下似乎出現同質化趨勢。但同質化只是表象。本次，商湯推出的多項核心指標的升級、跨多模態的實時音視頻交互等眾多更新，都展現出其在大模型技術上邁上新台階，也代表著國產大模型發展的更廣闊空間。

最強國產多模態大模型來了！硬剛GPT-4o，商湯現場演示實時音視頻交互

大模型頂流CP由甜轉虐：互相不滿，都找備胎，因為錢鬧不愉快

諾貝爾物理學獎罕見一幕！「AI教父」意外獲獎，物理圈傻眼

北京，衝刺人形機器人第一城

中國類腦計算研究登Nature子刊：解鎖AI性能提升新路徑，中科院清華北大聯合成果

Grok-2發布背後：馬斯克「掏空」特斯拉？人才、晶片、資金都轉移，股東已起訴

中國黑科技，占領巴黎奧運，贏麻了！

今日，OpenAI殺死ChatGPT-3.5

人形機器人混戰，AI大模型狂卷，上海WAIC最吸睛黑科技一文看盡

百度阿里華為高管都來了，中國AI頂流WAIC演講精華看盡

最強國產多模態大模型來了！硬剛GPT-4o，商湯現場演示實時音視頻交互

北京海淀出圈，14個大模型玩家論劍2024全球數字經濟大會，仿生機器人大賽啟動

AIGC工作站要把好三道關，寧暢為AI時代終端算力打了個樣

重磅！「國獎」放榜：十年來AI 領域首個國獎一等獎花落科大訊飛

揭秘Ilya新公司：背靠5噸GPU，做核能級安全

AI助攻選志願！夸克App數據分析、AI搜索、專家直播工具鏈大升級

國產AI大戰高考作文！20款大模型橫評，看得我頭皮發麻

如何為混合AI打好算力地基？聯想集團已率先交卷

極睿科技武彬：我用AIGC工具，幫商家1個月多賣了兩三千萬丨GenAICon 2024

余承東履新後首次登台，華為Pura70「重新發布」，十七款重磅新品炸場

位元組大模型發布！「比行業價格低99%」，對話火山引擎總裁譚待

騰訊混元文生圖大模型全面開源！Sora同架構，更懂中文，可免費商用

OpenAI一夜干翻語音助手！ChatGPT學會看螢幕，現實版Her來了

vivo首款「相機」X100 Ultra！算法100%自研，首發自研AI多模態大模型

蘋果CEO接班人最新曝料！黑馬出現，比庫克年輕15歲，加入蘋果23年