作者 | 捲毛
編輯 | 張潔
國產大模型正在猛追ChatGPT。
繼不久前百度最強大模型發布時宣稱「不遜色GPT-4」,如今訊飛迎頭追趕,正式發布的訊飛星火認知大模型V3.0,對標的對手依然是——ChatGPT。
科大訊飛董事長劉慶峰宣布,星火認知大模型V3.0七大維度能力全面提升,中文能力客觀評測超越ChatGPT(GPT3.5)、英文能力與之相當,醫療領域超越GPT-4。
聽上去可謂振奮人心,實際表現究竟如何?「頭號AI玩家」也來到了大會現場,據現場演示,最新版本的星火認知大模型可以創作有聲繪本,輸入主題,AI會自動生成故事情節和繪圖,前後主角形象保持一致;
Prompt:「一隻充滿好奇心的小兔子想開啟一段太空之旅」
新增AI角色對話功能,比如以劉備的身份問AI諸葛亮,星火大模型能不能幫助一統三國;
AI諸葛亮表示認可:「此星火大模型,實乃人工智慧之佳作」
上傳自己的文本數據還能訓練一個AI分身,寫一封信哄哄生氣的女兒;
AI學習了父女的聊天記錄,以父親的口吻寫信
據了解,自今年5月6日首次亮相以來,星火認知大模型在短短數月完成了從V1.0到V3.0的疊代,目前用戶數已突破1200萬。按照科大訊飛的目標規劃,下一步就是在2024上半年對標GPT-4。
目前,訊飛星火網站和APP已更新至V3版本,為了進一步了解處於中國大模型第一梯隊的科大訊飛真實表現如何,「頭號AI玩家」還在第一時間進行了實測。
訊飛星火認知大模型V3實測
科大訊飛將當前通用人工智慧的能力概括為七個維度:文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力。
話不多說,我們先選了幾個問題,來綜合測試一下它在日常生活和工作場景中的表現。
訊飛星火網站:https://xinghuo.xfyun.cn/desk
首先是定製AI人設:
用劉慶峰的話說,大模型僅有專業知識還不夠,具備個性化的AI人設,才能為星火注入「靈魂」。
圍繞AI人設定製,訊飛此次推出了新功能「友伴」,它可以根據性格模擬、情緒理解、表達風格來形成一個初始人設,再結合特定知識學習、對話記憶學習,形成一個獨特的AI人設。
無論是孫悟空、秦始皇、林黛玉,還是福爾摩斯、話癆威震弟,都可以通過這一工具,實現與這些古今中外、現實或虛構角色的對話。
我們先找孫悟空聊了聊,他的設定是一個智慧活力的猴王,熱愛冒險,追求自由。
我問他現在在哪,他說四海為家。
同時,他也遵循了西遊記原著的設定,比如我問他有幾根毛,他說數不清,不過這些毛髮可以變成其他物體來應對挑戰。
除了文字對話,點擊右上角的電話按鈕還能和AI角色語音對話,但聲音比較生硬,還是念稿的感覺,而且聊得久了,問到一些現實問題,AI容易脫離角色設定。
此外,也可以嘗試自己創建新的人設,深度創建模式支持上傳數據集,設計更複雜的三觀等參數。
根據科大訊飛的介紹,自10月21日凌晨更新版本後,48小時內首批用戶已創建了3000個人設。
創建新友伴頁面
其次是看錶情猜成語:
我向訊飛星火發起了一個流行的小遊戲,讓它根據emoji表情猜成語。
每個表情對應一個漢字,對於直譯的「走馬觀花」,它很快就答對了,並解釋了含義和出處。
不過,對於諧音,有時它只能猜中一半,比如把「前因後果」(「錢音猴果」)當成了「財大氣粗」。
第三,幽默問答:
每個AI必經的智商檢測題,我們也來考考訊飛星火:「水開了可以喝,門開了為什麼不能喝?」
訊飛星火沒有上當,直接指出了這是個腦筋急轉彎題目,根本難不倒它。但是對於一些幽默的打工人表情包,訊飛星火就有點讀不懂了。
第四,總結長文檔、做PPT:
訊飛星火目前支持PPT生成、文檔問答、簡歷生成、ProcessOn(流程圖生成)四個插件,我們來試試讓它總結關於人工智慧版權問題的英文論文,並做一個完整的PPT。
由於一個對話中暫時不能同時調用兩個插件,因此先整理好文稿後再生成PPT。
可以看到,訊飛星火迅速翻譯、總結了論文概要,並給出了15頁圖文並茂的PPT,整體脈絡清晰,但部分論述有誤,圖片不符合文意,需要手動修改。
第五,高考數學題:
數學一直是大模型的能力短板,我們選了兩道2023年高考數學填空題來測試。
第一題比較簡單,訊飛星火分情況討論給出了正確答案。
題目:某學校開設了4門體育類選修課和4門藝術類選修課,學生需從這8門課中選修2門或3門課,並且每類選修課至少選修1門,則不同的選課方案共有?種
答案:64
第二題做錯了,雖然訊飛星火設好了x和y,但沒有根據「中位數、平均數相等」列出正確的等式。
題目:某地一年四個季度的GDP(億元),第一季度GDP為232,第四季度GDP為241,且四個季度的GDP逐季度增長,中位數、平均數相等。則該地一年的GDP為?(億元)
答案:946
第六,虛擬人視頻:
考慮到最近剛剛發布的百度文心大模型4.0可以生成一套廣告營銷素材,同樣的需求我們也給到了訊飛星火,考考它的多模態生成能力。
比如,雙十一來了,讓訊飛星火做一張科大訊飛學習機的商品海報吧!
得到的結果乍一看的確像模像樣,不過,學習機的圖片並沒有參考官方的商品圖,並且無法像DALL·E 3那樣生成比較準確的文字。
相比商品圖,AI更擅長生成廣告文案,訊飛星火一口氣給出了五段。
然後,我們要求它根據以上信息做一個虛擬人口播視頻,訊飛星火默認生成了一段橫屏視頻,背景主要是跟校園、學習用品有關的圖片輪播,一位穿著粉色裙子的可愛主持人念著廣告文案,並自動配上了視頻字幕,不過AI把五段文字都念完了,配音也是偏成熟的機器音。
目前生成的虛擬人視頻支持分享查看,但不能直接下載使用。
以上是初步實測,總得來說,訊飛星火V3的整體能力有所提升,生成速度依舊很快,多模態能力需要繼續加強,新增的虛擬角色對話豐富了交互形式,可以滿足娛樂需求,至於是否能用於提高生產力還要看「調教」程度。
落地科研、教育、醫療,AI+產業應用加速
除了訊飛星火認知大模型,本次科大訊飛還發布了針對不同人群需求、不同行業場景的新產品和大模型。
首先是代碼能力再升級,搭載訊飛星火V3.0的智能編程助手iFlyCode2.0正式發布,在編程的設計階段提效50%、開發階段提效37%、測試階段提效44%,大幅提升軟體從業人員效率。
科大訊飛內部開發也在使用iFlyCode輔助,平台遷移原本需要3個月的開發工作1個月就能完成。
在科研領域,訊飛星火和與中科院文獻情報中心聯合發布科技文獻大模型,可以實現成果調研、論文研讀、學術寫作三大功能。
據現場演示,AI能將十幾分量子計算論文一鍵生成綜述報告,幫助科研人員快速了解最新論文。
教育方面,基於星火大模型V3.0的訊飛AI學習機再度升級,新增AI答疑輔學功能,遇到錯題可以找AI老師探討思路,在互動中學習。
同時,科大訊飛發布AI心理夥伴,能夠「聽懂」孩子的心事,幫助心理減壓和疏導問題。
醫療方面,訊飛星火醫療大模型和訊飛曉醫APP正式發布,看病前、買藥時、拿到體檢報告後都能向AI諮詢。
國家科技信息資源綜合利用與公共服務中心(STI)第三方測試數據顯示,訊飛星火醫療大模型在醫療海量知識問答、醫療複雜語言理解、醫療專業文本生成、醫療診斷治療推薦的問題回答率全面超越GPT-4。
今年以來,科大訊飛在大模型領域已落地了AI學習機、辦公本等面向C端的軟硬體,在B端業務賽道應用也持續加速。本次訊飛聯合行業龍頭共同發布12個行業大模型,包含金融、汽車、運營商、工業、住建、物業、法律等行業。
大模型日益與每個人息息相關,當前訊飛星火已有1200萬用戶,同時開發者門檻進一步降低,在訊飛星火上,目前已有1.5萬助手開發者,開發超2.9萬個助手應用。
「國產大模型跟GPT4還有四點差距」
「解放生產力,釋放想像力」,這是科大訊飛大模型的目標。
隨著大模型持續突破,模型能力和產業生態都在飛速發展中,我們正在接近這一理想目標。
與此同時,劉慶峰也提到,國產大模型必須正視和GPT-4的差距。
「國產大模型在複雜知識推理、小樣本快速學習、超長文本處理、跨模態統一理解上距GPT-4還有差距。」他表示,唯有實事求是的科學精神,才能真正實現超越。
大會上,訊飛聯合華為共同發布「飛星一號」大模型算力平台,合力打造我國通用人工智慧新底座,讓國產大模型架構在自主創新的軟硬體基礎之上。
據介紹,更大參數規模的星火大模型正式啟動訓練,2024年上半年將實現對標GPT-4。
「通用人工智慧是這個時代最確定的增長動力來源」,包括科大訊飛在內的AI玩家正從底層的軟硬體到各行業的應用層尋找新的增長機會。
誰能真正趕超ChatGPT?恐怕不是一兩個測試集就能證明的,最終還是要看實際應用的效果。