原生訓練大模型重要性凸顯 中科聞歌競逐AI萬億級賽道

2023-12-17     中國經營報

原標題:原生訓練大模型重要性凸顯 中科聞歌競逐AI萬億級賽道

本報記者 李靜 北京報道

12月15日,中國科學院旗下人工智慧企業中科聞歌推出全自主智慧財產權的雅意2.0國產大模型(以下簡稱「雅意2.0」),並發布開源技術報告。

據中科聞歌CEO羅引介紹,雅意1.0 大模型於今年6月3日推出,6 個月後推出的 2.0版本,在模型訓練、特色技能、領域應用、測評指標四個方面都有很多突破。首先在模型訓練方面,雅意 2.0 實現了從70億參數量邁向300億參數量的模型;在訓練數據集方面,從200多T豐富的多元數據中萃取出10T左右,一共2.65萬億Tokens的高質量訓練數據集,來滿足模型訓練。

《中國經營報》記者了解到,雅意大模型是一個企業級通用大模型,此前已為政府、中央級媒體、研究機構等多家單位,提供垂直領域專業模型服務。雅意2.0發布後,基於雅意2.0中科聞歌面向安全、媒體、金融、輿情、法律、中醫等領域構建了多個行業大模型應用。

中科聞歌董事長王磊表示:「如今,在國內大模型也是百花齊放,然而真正原生的國產化的AI大模型卻寥寥可數,人力、人才、算力、算法、數據仍與國際先進水平存在較大差距,國內的AI產業仍處於早期的發展階段。」

從目前的大模型領域來看,市場上已經有了ChatGPT、LLAM等大模型,但王磊認為,國內仍需要做自己的原生訓練大模型,主要是三個方面的答案:第一,當前國內基礎原生的大模型極其匱乏,自主研發能力不足,而開源模型的能力又不穩定,中文的支持是相對比較弱的,語種的支持也比較少,安全性不足,無法用於嚴格的生產環境。第二,很多政企的重要部門需要自主可控、安全可靠的原生模型,因為開源模型是一個黑盒,預訓練階段的時候,數據的來源和質量不可信,就會導致模型在出生時不安全。同時應用到政企場景時,二次訓練的可操作性又不強,制約了應用和發展。第三,大模型是大算力、大數據、大算法的融合大工程,是一個龐大的工程,下一代的技術創新需要研發經驗的積累,從頭預訓練可以得到第一手經驗,通過積累,可以進行進一步原生創新。

「雅意大模型的研發其實取得了一批硬核的技術成果。首先是全國產化的基礎模型,數據模型完全是由我們團隊工程師和青年科學家一起自主研發,從頭開始預訓練。其次非常重要的是,我們積累了兩個非常重要的AI數據集,一個是海量的高質量預訓練的數據集,一個是領域微調的指令集,我們的AI數據集也參與了智源研究院中國CCI語料資料庫的建設,在核心技術的詞表壓縮、訓練加速、意圖識別、工具調用等方面取得了一些領先的成果。」王磊說道,「但仍然需要看到的是,在新的一些行業應用裡面,多輪對話、長文閱讀、多模態智能交互、內容安全可控以及智能插件的自動調用,這些工作還亟待去做一些技術探索。」

「人工智慧分為通用和專用,其中通用人工智慧分三個層次——低等、中等、高等,現在無疑是在低等的層次,但是正在這個層次上逐漸向中等發展和演化,大模型演化趨勢是非常明顯的。」南開大學經濟研究所所長、中國新一代人工智慧發展戰略研究院首席經濟學家劉剛說道,從大模型在各個行業的應用來看,落地時存在著兩個重要影響因素。第一個是容錯率,內部使用時容錯率高,對外用容錯率低,容錯率決定了這個模型在行業應用的情況。第二個是市場規模,在使用時會先解決頭部問題,然後再解決長尾問題。

北京銀行首席信息官龔偉華談到了大模型在銀行領域的落地情況,他表示:「當下來看,大模型有自身的優勢和一些缺陷。因為大模型中有很多東西是不可解釋性的,存在模型黑盒,作為銀行來說,如果直接把大模型的能力用於服務客戶,風險還是非常大。所以短期來看,大模型直接對外服務會比較少,但是對內我們願意在各種場景進行訓練探索。未來相信隨著科技倫理的治理,國家對於模型應用法律法規的逐漸成熟,大模型的應用落地也會更加成熟。」

此外,可以清晰看到的是,人工智慧這個萬億級的賽道正在從感知智能向認知和決策智能跨越,以人臉識別等視覺識別技術的企業上市,標誌著感知智能的市場已成規模。「而隨著ChatGPT的發布,這兩年認知智能市場進入了加速的變現期,未來決策智能市場空間更為巨大。」王磊說。

(編輯:張靖超 校對:顏京寧)

文章來源: https://twgreatdaily.com/zh/acb913c68af574909756abfe911c39cc.html