大模型開源動作不停,下一個會是誰?
作者|武靜靜
編輯|趙健
國產大模型開源動作持續不斷。
10月30日,崑崙萬維宣布開源百億級大語言模型「天工」Skywork-13B系列,並發布了配套的600GB、150B Tokens超大高質量開源中文數據集。
崑崙萬維稱,此次發布開源大模型旨在為大模型的場景應用和開源社區發展提供最佳技術支持,降低大模型商業門檻,推動人工智慧技術落地千行百業,推動開源生態繁榮。
1.開源130億參數兩大模型,即日全面開放商用
此前,崑崙萬維已經對外發布完全自研的天工大模型作為通用基座大模型,此次開源Skywork-13B系列模型是基於通用基礎模型構建而成,擁有130億參數、3.2萬億高質量多語言訓練數據。其在CEVAL, CMMLU, MMLU,GSM8K等幾大權威評估基準中全面超越LLaMA2-13B等開源大模型。
甲子光年截圖
此外,在中文文本創作領域的評測中,該模型也展現出在科技、金融、政務、企業服務、文創、遊戲等領域的優秀成績。
圖為不同領域數據下評估模型的困惑度,越低代表模型在該領域建模能力越強,甲子光年截圖
此次開源的主要包括兩個130億參數的大模型。目前,在公司官網和GitHub上可以詳細看到這兩款大模型的信息。
其中,Skywork-13B-Base模型是這個系列大模型的基礎模型,由3.2萬億個多語言高質量數據訓練,目前其在國際的多個評測與基準測試上(CEVAL,CMMLU, MMLU, GSM8K)都展現了同等規模模型的最佳效果。
Skywork-13B-Math模型是一款數學能力更強的專有模型,其基於基礎模型進行了專門的數學能力強化訓練,在GSM8K等數據集上取得了同等規模模型的最佳效果。
除了發布開源模型之外,崑崙萬維也正式對外發布了大規模的開源中文數據集——600GB、150B Tokens的高質量中文語料數據集
Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文數據集之一,可以支持開發者最大程度地借鑑大模型預訓練的經驗,以及定製模型參數,進行針對性訓練與優化。
此外,公司透露,Skywork-13B系列大模型即將全面開放商用,開發者無需申請就可進行商用。
2.加速大模型開放與落地
崑崙萬維在大模型領域的布局開啟於2020年,適逢GPT-3面世,在認定GPT-3會給整個內容生成領域帶來重大變革的機會之後,公司就成立了一個團隊與奇點智源合作,跟蹤GPT-3大模型的進展。
2022年12月底,崑崙萬維發布了AIGC全系列算法與模型,開源了文本AI、編程AI、繪畫AI。2023年4月17日,公司正式發布了天工大語言模型。
9月份,在權威推理榜單Benchmark GSM8K 測試中,天工大模型以80%的正確率脫穎而出,大幅領先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),這標誌著天工的推理能力達到全球領先,接近GPT-4。
開源是崑崙萬維一直希望探索的方向。今年2月,崑崙萬維就宣布與奇點智源合作在今年內發布中國版類ChatGPT代碼開源。
崑崙萬維董事長兼CEO方漢是最早參與到開源生態建設的開源老兵,也是中文Linux開源最早的推動者之一。
崑崙萬維CEO方漢認為:「沒有開源就沒有移動網際網路時代的蓬勃發展,沒有開源也沒有AIGC這個領域的蓬勃發展,我們堅信開源是AIGC生態發展的土壤和重要的推動力量。」
公司透露接下來,也將繼續全面落實「All in」AGI與AIGC的戰略,持續加大研發投入力度。財報數據顯示,崑崙萬維前三季度研發費用提升至6.2億元,去年同期研發費用4.84億元,同比增長28.18%。
公司的季度財報表現也不錯,2023年第三季度報告顯示,前三季度,公司實現營業收入36.81億元,同比增長8.31%;經營性現金流7.56億元,同比增長33.4%;歸屬於上市公司股東凈利潤3.29億元,居行業第一梯隊。
國產大模型開源動作不停,下一個會是誰呢?
(封面圖來源:拍信創意)