如果國產大模型有自己的發展編年史,10月24日這一天值得留下一筆。
10月24日,科大訊飛舉辦全球1024開發者節,本次活動以「解放生產力,釋放想像力」為主題,開展科博展、主論壇、AI開發者大賽、17場行業分論壇、6場城市峰會等系列活動;來自278個城市3.4萬個開發者團隊激烈角逐年度十大新銳團隊的誕生。
在活動上,科大訊飛重磅發布了自研的認知大模型——訊飛星火V3.0。不僅能作為個人工具、智能助手,還將用於醫療、教育、法律、金融、工業、城市等多個專業領域,提升運營和生產效率。
一切正如本次活動主題,用大模型創造新的增長點,進一步釋放生產力。
你好,訊飛星火V3.0
訊飛星火進步非常快,從5月6日發布至今,已經歷經2次升級,V3.0版本實現了文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力等七大能力均持續提升。特別是提升了大模型代碼能力,實現全面對標ChatGPT 3.5,中文超越,英文相當。
在數學能力上,訊飛星火V3.0已經開始領先於ChatGPT,除了數學解題,還能根據數學題中的規律總結算式。
另外,訊飛星火V3.0新增了虛擬人格功能,它可以根據性格模擬、情緒理解、表達風格來形成一個初始人設,再結合特定知識學習、對話記憶學習,形成一個更個性化的AI人設。
同時,科大訊飛發力醫療,以星火模型為基礎,推出訊飛星火醫療大模型。
這個模型具備醫療領域的海量知識問答、複雜語言理解、專業文書生成、診斷治療推薦,以及多輪交互和多模態交互六大核心能力,並且通過信通院和國家衛健委組織的標準規範評測。
它可以幫助醫生提升診療服務質量,也可以為每個人提供日常健康諮詢管理服務。最重要的是,它還可以有效降低醫生誤診發生的機率,這無論是對於患者,還是醫生自己都是非常實際且重要的。
像患者在看病之前不知道怎麼準確表達自己的病情,自己買藥不知道有何禁忌,拿到體檢報告後想馬上看出自己去年和今年比有什麼健康異動。針對這種場景,科大訊飛推出訊飛曉醫App。
例如尋醫問藥之前,患者可以現在訊飛曉醫App中輸入自己的症狀,AI會像一位真實的醫生詢問相關情況。買藥時,App能幫助患者更合理地用藥和藥物搭配,或體檢後用App拍攝體檢單,能生成體檢總結,告知患者健康情況變化,幫助人們「對症複診」。
訊飛曉醫背靠星火醫療大模型,通過上線實際使用數據抽查12萬例並通過國家科技信息資源綜合利用與公共服務中心(STI)第三方測試數據顯示,訊飛星火醫療大模型在醫療海量知識問答、醫療複雜語言理解、醫療專業文書生成、醫療診斷治療推薦等六大核心能力超越GPT-4。
除此之外,科大訊飛為了加速星火V3.0落地,聯合行業龍頭共同發布12個行業大模型,包含金融、汽車、運營商、工業、住建、物業、法律等行業,加速產業升級。
因此無論是自身的認知性能,還是推進應用落地,訊飛星火V3.0都有拿得出手的東西去對標GPT-4,穩居國產大模型第一梯隊,率先進入第二階段,進一步解放生產力。
生產力應成為衡量大模型的重要維度
自ChatGPT問世以來,全世界掀起新一輪人工智慧浪潮,中國科技企業也紛紛投入資源研發人工智慧大模型。
截至2023年8月,我國已發布的大模型達156個,10億級參數規模以上的已超80個,數量已接近美國。另外,我國具備全球最完整的產業體系,為大模型的落地應用提供了廣泛的創新空間。
當國產大模型解決從無到有問題後,就應儘快解決落地以及如何投入到實際應用中,去解放生產力,提高生產力,這也是大模型第二階段競爭的主題。大模型對生產力的提升多少,本質就是應用落地速度的比拼。
因此大模型在各行各業中的表現就成了重中之重,那麼對比其他大模型,特別是ChatGPT,訊飛星火V3.0的表現如何?
為了深入了解大模型的實際應用情況,國務院發展研究中心國研經濟研究院開展了一項大模型橫評研究,旨在了解大模型在不同行業中的表現。
橫評中選取了訊飛星火V3.0、ChatGPT、GPT-4,以及另一款國產大模型作為測評對象,測評行業選擇了知識密集型的法律服務與工業設計、醫療、教育、零售以及部分製造業等。
另外本次測試還包括基於臨床執業醫師資格考試、中醫執業醫師資格考試、國家統一法律職業資格考試、機動車檢測維修專業技術人員執業資格、全國計算機技術與軟體專業技術資格等權威職業資格考試構建了測評題目,以評估大模型在行業知識、技能掌握水平、生產經營場景理解能力等維度的實際水平。
結果顯示,訊飛星火V3.0在上述行業領域中的綜合準確均高於ChatGPT 3.5,相比GPT-4則是不分上下。細分到具體領域,教育、醫療、法律行業表現突出,在醫療、法律行業分別超越GPT-4 5.3%和4.1%,在教育行業的表現與GPT-4差距小於1%。
這意味著,訊飛星火V3.0在人文、社會學科領域,可以有比ChatGPT更快應用速度。這是為何它在前文提到的醫療領域能有比較大的建樹,其他領域也是如此,比如表現同樣優秀的教育領域。
在教育領域,訊飛星火V3.0賦能AI學習機,首次發布啟發互動式英語AI答疑輔學,實現實現個性化解決、啟發引導式提問、互動探究式學習。根據官方現場的演示,無論是探討語法對錯還是理解文章主旨,訊飛AI學習機都能準確回答,
根據2023年9月安徽地區七八年級試點用戶的統計數據顯示,小學英語錯題解決率,從答案解析學習的77%到AI答疑輔學的90%,效率提升了13%;初中英語錯題解決率:從答案解析學習的61%到AI答疑輔學82%,效率提升了21%。
目前,AI學習機已經擁有了英語口語陪練、中英作文批改、數學互動輔學、百科自由問答、親子教育助手、智能編程助手、創意繪畫夥伴以及英語答疑輔學8款基於大模型的類人輔學功能。
值得一提的是,科大訊飛還將學生的心理健康考慮了進去。基於訊飛星火打造的AI心理夥伴正式發布,它就像朋友一樣會認真傾聽學生的煩惱,幫助他們解決問題。
因為學習了超過10億條心理類數據、40萬篇期刊文獻、100萬個脫敏心理對話案例、550萬個心理評估數據,所以它可以很好地開導學生,加上因為面對的是AI,而不是老師和家長,學生自己也不會有什麼心理負擔。
就像劉慶峰說的,我想這是很多家庭的痛點,是現在社會迫切需要大模型來解決的大家的幸福感問題。至今,它已覆蓋3202所學校,服務259萬中小學生。
在文獻領域,訊飛星火和與中科院文獻情報中心聯合打造科技文獻大模型,可以實現成果調研、論文研讀、學術寫作三大功能。
在工業領域,科大訊飛發布基於訊飛星火的羚羊工業大模型,1個月內,羚羊工業網際網路平台平台的工業文本生成、知識問答、理解計算、代碼生成、多模態5大核心能力再度升級,不到一個月時間平台用戶總量提升59%,平台服務企業次數增加88%。
不過,劉慶峰在發布會上自己也談到,客觀來說,我們中國現有的大模型跟GPT-4比都還是實實在在是有差距的。OpenAI有上萬億的浮點參數,有這麼多的經驗以及人機協同的強化學習、數據積累等等,確實還是領先一步的。所以,我們必須正視今天和GPT-4的差距,找到差距所在。
通過上述實例,可以看出訊飛星火V3.0雖然是剛剛發布,但已經運用於多個領域,並開始服務各行各業的人群,應用場景更多,能力更強。而它之所以能應用的如此迅速,本質還是科大訊飛本身的自研實力,這一點在眼下這個時間點顯得更為重要。
如同華為、蘋果等品牌不留餘力地構建自己的生態,訊飛星火V3.0也需要自己的生態。在程序開發、用戶體驗,以及增強自身的競爭力和應用場景等方面,都是必不可少的。
自5月6日星火發布以來,訊飛開放平台新增143.4萬開發者團隊,同比增幅331%,匯聚553萬AI生態開發者團隊。其中新增大模型開發者17.8萬,且超過10萬家企業客戶正在使用訊飛星火創新應用。
科大訊飛還是一家擁有博士後工作站的企業,主要涉及人機語言通信、自然語言處理以及軟體工程等領域,已經與中國科學技術大學流動站建立了長期合作關係。
此外,科大訊飛聯合華為發布了基於昇騰生態的大模型底座——「飛星一號」,是1024全球開發者節的重磅環節。
這是非常關鍵的一步。美國商務部已經收緊了對華的高端AI晶片出口,甚至民用的RTX4090都在封禁之列,即便是規格縮水的A800、H800都要出口許可證才能出售給中國企業。之前劉慶峰就表示過,中國在人工智慧算法方面都沒有問題,但算力似乎始終被英偉達按住。
只有自己掌握節奏才是破局的關鍵,要擁有一個屬於中國自己的算力底座,國產大模型才能擁有光明的未來,才有基礎為全球大模型發展提供第二個解決方案。這就是「飛星一號」面世的現實意義。
有了國產算力底座,算力的發展就不會受到外界限制。科大訊飛與華為合作從今年上半年就已開始並數次升級,這也是半年內星火大模型訓練和推理效率均能翻番的原因之一。
科大訊飛的人才、資源、技術以及與其他技術企業的合作,能支持星火大模型的長久發展以及在不同領域中的應用,並將生產力作為衡量大模型能力的重要緯度,是它能領跑第二階段競爭的根本原因。
應用落地正加速
科大訊飛在現場設置了科技館、教育館、生活館、生態館、行業館、工業館和科學藝術展上大模型深度賦能下的300+項應用展項。
像科技館展示了認知大模型「1+N」體驗區和AI機器人,大模型體驗區共有二十多個展項,集中展示訊飛星火V3.0升級的各項技術能力,如多模態、多語種語音、代碼、推理能力等,還有訊飛星火里多項兼具實用性和趣味性的小助手。
在AI機器人體驗區,各類機器人齊齊登場。「訊飛超腦2030」計劃的最新成果——業界首個集成大模型和具身智能的人形機器人和家庭陪伴機器人首次亮相。
工業館從核心技術、行業賦能和產業協同三個角度出發,依託工業領域兩大國家級創新平台:國家級製造業創新中心——國家智能語音創新中心、國家級「雙跨」平台——羚羊工業網際網路平台,系統展出訊飛在新一代信息技術與工業深度融合的重點成果。
行業館覆蓋面就比較大了,包括智慧城市、金融科技、運營商三個模塊進行展出,在行業館,可以通過城市一網統管演示、法律大模型互動、數智園區體驗等重點場景,充分展示數字賦能千行百業,支撐城市數字化轉型建設成果。
另外,現場還有教育館、生活館、生態館、科學藝術展,展示科大訊飛以及國產人工智慧在不同領域中應用。人工智慧與我們日常生活的聯繫只會越來越緊密,為每個行業,每個人打造專屬AI也是遲早的事。
寫在最後
到了今天這個時間點,大模型的競爭已經進入第二階段,即應用落地速度的比拼,將大模型投入到實際的生產生活中。訊飛星火大模型對於不同行業的實質影響已經愈發凸顯。僅就應用這點來說,已經走在了其他大模型前面,做出了前所未有的成績,成為大模型的疊代標杆和行業的里程碑。
但也要注意到,前所未有就意味著科大訊飛不能從過往經驗中找到答案,大模型該如何應用於各行各業,如何提升社會生產力和個人幸福感,基本沒有先例可循,只能自己摸索解決之道。
正如科大訊飛董事長劉慶峰在1024開發者節的主論壇演講中說:「2014年上半年,訊飛星火將對標GPT-4。這絕不僅僅是一個簡單的技術對標問題,我們要走出自己的技術路線,走出自己的產業方向,形成自己完整的生態。從這個角度來說,大模型時代的序幕才剛剛拉開!」