作者 | 三北
編輯 | 漠影
今日,「國產版GPT-4o」,日日新5o,亮相WAIC大會。
5月中旬,OpenAI推出新旗艦模型GPT-4o,憑藉自然流暢的實時音視頻交互震驚世界。
僅僅一個多月之後,在我國一年一度的最大人工智慧盛會WAIC 2024上,商湯科技正式推出日日新5.5,以及可進行流式多模態交互的5o版本,不僅多項測評超GPT-4o,還實現實時跨文本、音頻、圖像與視頻推理。
商湯日日新5.5多項核心指標測評超GPT-4o
商湯科技現場演示了新模型日日新5o的實時音視頻交互,引起了WAIC觀眾的一片沸騰。
比如,當演示者用手機對著桌上小狗玩偶,日日新5o可以在要求下講出小狗的表情,並識別出帽子上的文字和背景,多輪對話十分絲滑流暢。
與此同時,商湯還推出可控人物類AI視頻生成產品Vimi,可穩定生成長達1分鐘的單鏡頭人物類視頻,具有高動態、高保真特點,預計月內公測。
通過Vimi,商湯董事長兼CEO徐立在現場致敬了人工智慧領域的多位大咖,包括讓已故的AI科學家、商湯科技創始人湯曉鷗的照片「復活」,久違的音容笑貌浮現。
一、多項測評超GPT-4o,日日新5.5亮相WAIC,連甩三大炸彈
國內首個對標GPT-4o,日日新5.5實現了核心指標的全面升級。
在MMB v1.1、MMStar、Math Vista、AI2D、OCRBench等多項全球權威測評中,日日新5.5的得分均超過GPT-4o。
升級版的日日新5.5展現出「五邊形戰士」的實力,語言和知識、推理數理、編程、考試五大能力,相比日日新5.0版能力圈大大拓寬。
經過測評可知,日日新5.5在英文能力、指令跟隨、長文本理解、Function能力等方面大大提升,整體性能提升30%。
據悉,日日新5.5大模型採用混合端邊雲協同專家架構,基於超過10TB tokens高質量數據訓練,能最大限度發揮雲邊端協同的優勢,在多項核心能力飆升的同時,降低推理成本。
值得一提的是,日日新5.5還應該是國內首個流式多模態交互模型。
就像GPT-4o一樣,日日新5o可以與用戶實現原生多態實時交互,覆蓋聲音、文本、圖像、視頻等多種形式。比如前文提到,用戶可以要求日日新5.5幫他讀取眼前畫面中的核心內容。
商湯相關負責人告訴智東西:「技術可用的一個最大的挑戰是:要足夠快,而且不只是在某些示例中快。我們過去兩個月一直在持續攻關,從算法、設計和工程多方配合,從而訓練出性能更強的模型。」
當下大模型正湧向端側,掀起落地潮。商湯日日新5.5更新的第三大亮點,也正是聚焦於端側大模型。
商湯最新推出了日日新5.5 Lite端側大模型,據稱相比此前版本首包時延降低40%,推理效率提升15%,模型精度提升10%。同時,商湯端側模型矩陣也首次亮相,包括寫作助手、總結助手、百科助手等特化模型,可針對用戶的個性化需求,提供效果更優的定製化專項模型。
為了讓更多用戶能用上大模型,商湯商量端側大模型設備可同時支持端側部署及雲側調用,每台設備9.9元包年。信息一出,引起台下一片歡呼。
商湯還推出0元Go計劃,支持OpenAI客戶零成本遷移,並向新客戶贈送5000萬Tokens包,可謂「一手抓技術,一手抓市場」。
二、現場演示實時音視頻交互,人物視頻生成大模型也來了
日日新5.5的核心指標如此亮眼,實際使用效果如何?
商湯科技演示了基於日日新5.5的日日新5o的實時音視頻交互能力,將現場氛圍掀到高潮。
演示者首先拿著手機將攝像頭對準觀眾席,問手機里的日日新5o助手,現在他在參加什麼活動。日日新5o通過識別現成的飄帶,識別出這是WAIC人工智慧大會,立馬給出了正確答案,還向現場觀眾打了招呼。
緊接著是閱讀能力,演示人將手機鏡頭對向一本書,讓日日新5o介紹眼前的書本,日日新5o立馬回復這個是《反脆弱》,並介紹了作者背景。當演示者翻開書頁,日日新5o也能立馬幫演示者解讀書本的內容,展現出高清的流媒體技術。
最後,演示者進一步升級難度,他畫了一幅簡筆畫問日日新5o這是什麼,日日新5o立馬稱這是一隻可愛的兔子。當演示者為兔子加上了表情和動作,日日新5o都立馬識別並表述了出來,展現出極強的多模態理解能力。
但商湯科技「殺招」不止於此,其還在AI視頻生成模型領域大展身手。
Sora熱潮之後AI視頻生成工具泛濫,很多工具都在人物生成上「翻車」不斷。本次,商湯推出
面向C端的可控人物視頻生成AIGC產品——Vimi人物視頻生成模型
。
與市面上的視頻生成模型不同的是,基於日日新5.5,Vimi人物生成模型可通過動作視頻、動畫、聲音、文字等多種元素來驅動人物圖片,生成和目標動作一致的分鐘級視頻內容。
Vimi支持生成光影和動態都自然和諧的視頻,用戶可自行替換各種IP生成所需視頻內容。
正如前文提到,徐立在WAIC發布現場致敬了AI領域的多位大咖,克勞德·艾爾伍德·香農、約翰·馮·諾依曼、艾倫·麥席森·圖靈以及湯曉鷗教授的照片突然「活了」,這也是出自Vimi的處理加工。
實際上,基於日日新5.5,商湯科技整個大模型應用「全家桶」都實現了重大升級。
1、小浣熊家族更新:代碼助手速度提升5倍,大模型原生數據產品上線
商湯代碼小浣熊·個人升級版推出,提供更強悍模型性能、更豐富插件功能和更完善數據看板,響應速度提升5倍,代碼精度提升10%。目前商湯科技已連接超200家企業使用代碼小浣熊。
同時,大模型原生數據分析產品——辦公小浣熊網頁個人升級版&小程序版同步上線,支持更多數據接入、個性化用戶體驗、多端聯動。商湯科技現場演示了辦公小浣熊,它快速統計了現場大家飲用水情況,並給出了可視化的統計圖。
2、商量擬人大模型Pro版本發布,擬人對話測評超GPT-4
商量擬人大模型SenseChat-Character-Pro版大模型發布,它支持個性化角色創建與定製,並具備知識庫構建、長對話記憶、多人群聊等功能,可以廣泛應用於擬人對話場景。
在面向中文角色扮演對話代理(RPCAs)領域的CharacterEval測評中,商量-擬人大模型高級版(SenseChat-Character-Pro)在角色對話能力、人設一致能力、及角色扮演吸引力等核心維度方面全面領先,優於GPT-4以及其他企業擬人大模型。
隨著大量新產品的發布,商湯WAIC展區吸引了很多人來體驗。
現場觀眾在商湯科技站台駐足觀看
可以看到,多模態大模型時代已經加速到來,而國產力量已經衝到前列。
儘管當下我國AI的人才儲備、資本投入力度與美國有差距,算法領域仍存在差距。但我國的一大優勢在於應用側發展迅速,包括手機、教育、醫療等眾多場景需求的迸發,以及大量的數據資源,都會對商湯日日新5.5這樣的多模態大模型的發展帶來推動作用。
三、OpenAI客戶免費遷移!端側大模型9.9元包年,壯大企業應用生態
大模型產業的發展,離不開生態的建設。
本次,商湯科技推出了0元Go計劃,以更激進政策推動開發者和行業客戶加入創新大潮。
商湯宣布將提供從OpenAI到「日日新SenseNova」的遷移系列培訓,同時新註冊企業用戶將獲得涉及調用、遷徙、訓練等多項免費服務大禮包。
面向「日日新SenseNova」新註冊企業用戶,商湯還宣布將贈送5000萬Tokens包,派出專屬搬家顧問。這意味用戶不僅能0成本遷移,還能獲得更多的調用優惠和升級服務。
商湯日日新大模型的生態「一盤棋」正在日益完整。
端側大模型作為商湯大模型生態一塊重要拼圖,據稱已經有150+客戶啟動商業對接。
正如前文提到,商湯端側模型的矩陣已經不斷壯大,目前已經適配手機、平板電腦、VR一體機、車載電腦、智慧檯燈等眾多終端。也就是說,基於上頭端側大模型,所有智能硬體玩家都可以把他們的業務重做一遍。
用大模型改造智能硬體,門檻也變得更低。
商湯科技宣布端側大模型價格低至——每台每年9.9元。雖然價格更經濟了,但服務支持多種垂直業務方向,包括寫作、百科知識等不同領域,同時支持端側部署及雲側調用,部署簡易好上手。
面向企業級市場,商湯宣布其政府、企業用戶超過3000家。
本次,商湯科技推出能源多模態一體機、辦公(代碼)一體機、智慧城市煥新方案-方舟多模態新智平台、金融一體機、醫療一體機等多種方案,助政企客戶解決核心數據安全本地部署大模型的需求,降低企業使用大模型的成本,從而進一步壯大企業應用生態。
除此之外,商湯科技還推出了金融場景大模型、農業場景大模型、文旅場景大模型、醫療場景大模型等多個行業大模型。
結語:硬剛GPT-4o,國產多模態大模型邁上新台階
多項指標超GPT-4o,商湯糰隊突破了一些核心關鍵點。商湯相關負責人告訴智東西:「我們的模型跟Sora的方法相比,有10-20%的提升,背後的原因是我們自去年就確立原生多模態的目標,並一直持續疊代。」
當下,國內大模型產業競賽更「卷」,價格戰之下似乎出現同質化趨勢。但同質化只是表象。本次,商湯推出的多項核心指標的升級、跨多模態的實時音視頻交互等眾多更新,都展現出其在大模型技術上邁上新台階,也代表著國產大模型發展的更廣闊空間。