圖說:科大訊飛董事長劉慶峰發布訊飛星火4.0 Turbo 採訪對象供圖(下同)
今天,在第七屆世界聲博會暨2024科大訊飛全球1024開發者節開幕式上,科大訊飛董事長劉慶峰公布訊飛星火大模型應用成績單,並發布訊飛星火4.0 Turbo:七大核心能力全面超過GPT-4 Turbo,數學和代碼能力超越GPT-4o,國內外中英文14項主流測試集中訊飛星火4.0 Turbo實現9項第一。
與此同時,國產超大規模智算平台「飛星二號」正式啟動。
國際14項主流測試集9項實現超越,提效50%
訊飛星火大模型4.0 Turbo正式發布,在數學能力、代碼能力上超過了GPT-4o。由艾倫人工智慧研究所、OpenAI等國內外權威單位發布,涵蓋理解和推理、綜合考試、數學和科學、代碼等不同任務類型的14項主流測試集中,訊飛星火4.0-Turbo在其中9項測試集中實現超越,效率相對提升50%。
劉慶峰特別提到「硬碰硬」的數學能力和代碼能力。
根據實用數學任務構建測試集CAppliedMath-1.0,訊飛星火4.0 Turbo在計算、財務、金融、度量等多個維度的任務中均超過GPT-4o水平,已完成超長思維鏈、樹搜索和自我反思評價等算法驗證,預計今年底可實現類「o1」的高難度數學能力顯著提升。
根據代碼生成HumanEval測試集上的效果對比,訊飛星火4.0 Turbo在Python、Java、Java等任務上和GPT-4o的差距微弱,在C++能力上超過GPT-4o。在真實應用場景,基於認知智能全國重點實驗室構建的iFLYCode-Eval-2.0代碼實用場景測試集,訊飛星火4.0 Turbo在代碼生成、代碼檢錯、單元測試等任務上都超過了GPT-4o。同時推出星火代碼7B版本,滿足代碼生成、代碼補全等極速響應型任務,效果業界最優。
首發語音視覺虛擬人交互「三合一」
發布會上,科大訊飛重新定義萬物智聯時代的多模AIUI交互標準,在原有的遠場高噪、全雙工、多語種多方言能力上,升級了多模態能力,新增了超擬人和個性化能力。
超擬人數字人首次亮相,多模態的交互從超擬人的語音變成超擬人的數字人,實現語音、視頻、圖文的全部聯動的多模態交互。科大訊飛研究院院長劉聰現場和超擬人數字人玩了個「角色扮演」遊戲,無論是扮演孫悟空還是小豬佩奇,數字人反應都惟妙惟肖。
多模態視覺能力加持下的人機互動有多驚喜?劉聰現場給超擬人數字人打了個「視頻電話」,他不斷調整道具「孫悟空」「奧特曼」「怪獸」的擺放位置,無需拍照,超擬人數字人看圖說話,馬上回應:「奧特曼和孫悟空停止了打鬥,正在聯合對抗怪獸 」,和劉聰暢聊不同角度的所見。
劉聰還演示了更實用的旅遊購物場景,當攝像頭轉向印有外文的化妝品及酒類產品時,超擬人數字人能對畫面中產品的品牌、功能等信息進行「秒回」,超擬人數字人已成為「跨語言」購物的好幫手。
「目前,訊飛星火支持用戶創建自己的個性化數字人,打造每個人的數字分身。」劉聰現場演示了一個自己的「數字分身」,只需在後台進行簡單的編輯、定義,就可快速生成自己的卡通形象,更能一句話復刻自己的聲音作為發音人,隨時隨地與自己對話。目前,已支持1300+種人設打造。
首發星火多語言大模型
在語音識別領域,科大訊飛的遠場高噪場景語音識別領先優勢進一步擴大。
在多語言能力上,首次實現全國地級市方言全覆蓋,含全國288個地市、202種方言,訊飛輸入法14.0即將支持202種方言免切換自由說。
在多語種能力上,首次發布星火多語言大模型,除中英文外,可支持俄、日、阿、法等8個語種。根據實用任務場景構建測試集MMT-Eval-1.0,訊飛星火在汽車、家電、辦公、翻譯等行業的任務場景應用效果超過了GPT-4o。
「訊飛作為中國唯一的認知智能全國重點實驗室承建單位,我們有使命有責任要做多語言大模型」,劉慶峰表示,訊飛星火底座能力要不斷提升,對標全球最好水平,同時還要針對真實應用場景做到全球最好,不斷擴大多語種範圍,「我們一定要代表中國給世界第二種選擇。」
多模態多語言能力升級,將全面賦能汽車產業。科大訊飛還首發了汽車端側星火大模型,據悉,今年第四季度起,奇瑞、廣汽、長城等多款搭載端側大模型的車型將上市開售。
新民晚報記者 郜陽