百川智能的又一座里程碑。
作者|劉楊楠
編輯|栗子
王小川又發大模型了。
自今年4月成立以來,王小川新公司百川智能便保持著極快的發展節奏。6月開始,百川智能以每月一次的頻率連發三次開源大模型——
6月15日,發布70億參數量的中英文預訓練大模型baichuan-7B;
7月11日,發布130億的通用大語言模型Baichuan-13B-Base、對話模型Baichuan-13B-Chat及其INT4/INT8兩個量化版本;
8月8日,發布第三款大模型產品Baichuan-53B。
6月15日,發布70億參數量的中英文預訓練大模型baichuan-7B;
7月11日,發布130億的通用大語言模型Baichuan-13B-Base、對話模型Baichuan-13B-Chat及其INT4/INT8兩個量化版本;
8月8日,發布第三款大模型產品Baichuan-53B。
截至目前,百川開源大模型在開源社區總下載量已突破500萬。其中,Hugging Face首周下載量達百萬,近一個月的下載量337萬。而且在Github上,Baichuan系列模型是星標月漲幅最快的中國大模型。
9月6日下午,百川智能宣布正式開源微調後的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat與其4bit量化版本,並且均為免費可商用。
Baichuan2是「Baichuan」系列開源模型的全面升級。據介紹,相比第一代,Baichuan2的文科、理科能力均大幅提升。其中,Baichuan2-13B-Base數學能力提升49%,代碼能力提升46%,安全能力提升37%,邏輯推理能力提升25%,語義理解能力提升15%。
此外,根據MMLU等多個權威英文評估基準評分,Baichuan2-7B以70億的參數在英文主流任務上與130億參數量的LLaMA2持平。
7B參數模型的Benchmark成績
數據方面,Baichuan2的訓練token數達2.6T,支持中、英、西、法等數十種語言;基於萬億網際網路數據精選、篩選優質垂直行業數據;打造了超大規模內容聚類系統,完成小時級千億數據清洗和濾重;並有多粒度內容質量打分體系,能分別對篇章、段落、句子進行質量打分,支持細粒度採樣。在模型安全問題上,Baichuan2加入了大量安全價值觀對齊工作。
此外,百川智能還在學術生態建設上花了不少力氣。
百川智能首次開源了模型訓練從220B到2640B全過程的Check Ponit。復旦大學計算科學技術學院教授、博士生導師,中國中文信息學會理事張奇表示:「之前很多開源模型都帶著Chat,在做二次預訓練時,Chat模型其實用處不大,但百川開源的模型非常乾淨,並且公布了訓練切片,對學術非常友好。」
除公開訓練過程外,百川智能在發布會上宣布,公開Baichuan2的技術報告。技術報告將詳細介紹Baichuan2訓練的全過程,包括數據處理、模型結構優化、Scaling law、過程指標等。
(報告連結:https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf)
中國科學院院士、清華大學人工智慧研究院名譽院長張鈸院士在開場致辭中明確肯定了百川智能用開源模型助力學術研究的價值。張鈸表示,中國推出的大模型主要集中在垂直領域的應用上,很少有大模型的定位是助力學術研究。
「我認為學術研究非常重要,主要研究大模型本身。因為到現在為止,全世界對大模型的工作原理及其所產生的現象都是一頭霧水,所有的結論都指向了『湧現』。所謂『湧現』其實是我們給自己的一條退路,解釋不清楚的情況下就說它是湧現,實際上這反映了我們根本不了解大模型的工作原理。我認為有必要把大模型本身搞清楚,這樣才可能真正發展出有中國特色的大模型。」張鈸表示。
據了解,目前,國內不少企業和開發者正在使用開源的LLaMA。王小川也注意到了這一點。除模型基本信息外,王小川現場透露了團隊在設計「Baichuan」系列模型過程中的一些巧思:「在模型參數和結構設置上,我們也儘可能靠近LLaMA系列,這樣做的最大的意義在於,讓社區用戶能夠直接從LLaMA換成百川的模型。同時,我們儘可能兼容更多的社區生態,包括推理、訓練到部署工具等外部環境都能很好地兼容Baichuan,這樣也會得到社區更大的支持。」
「從今天開始,當我發布Baichuan2之後,中國企業用LLaMA2的時代已經過去了。一方面LLaMA2本身沒那麼好;另一方面,LLaMA的開源協議中有些條款對中國企業是不太友好的。現在我們可以獲得比LLaMA更友好且能力更強的開源模型,幫助扶持中國整個開源生態的發展。」王小川自豪地說。
現場,百川智能聯合中國計算機學會(CCF)成立了CCF&百川大模型研究基金,基金支持「大規模型技術」及「大規模垂直領域及應用」兩大核心方向,旨在推動圍繞大模型不同階段、不同維度的技術,和不同領域、場景的結合應用等相關研究。
王小川透露,按照公司計劃,今年四季度將發布對標GPT-3.5的千億級參數模型,預計於明年一季度發布超級應用。「除開源模型以外,下一次在閉源模型上會有更多的突破,希望在中國的開源閉源生態中都能給中國的經濟社會發展帶來我們的貢獻。」王小川說。
短期內,開源和閉源長期共存已經成為業內基本共識。百川智能已經在國內開源生態中拔得頭籌,接下來,焦點或許就在百川智能的閉源模型和超級應用上了。
目前,百川智能已經與騰訊雲、阿里雲、火山方舟、華為、聯發科等企業達成合作,共創中國大語言模型開源免費商用格局。
(圖片來源:百川智能)
END.