百川智能發布首個530億參數閉源大模型,今年追上GPT-3.5

2023-08-09   光錐智能

原標題:百川智能發布首個530億參數閉源大模型,今年追上GPT-3.5

4月官宣創業,6月15日發布第一款7B開源模型,7月11日發布第二款13B、130億參數開源模型。

平均保持2個月一個版本發布速度,8月8日,百川智能發布了創業以來的首個530億參數閉源大模型——Baichuan-53B(以下簡稱「53B」)。

光錐智能獲悉,53B支持中英雙語,在知識性上表現優異,譬如能給孩子取名字和解讀其背後的寓意,擅長知識問答、文本創作等領域,相對此前兩款模型有了更好的表現。

目前53B已在官網開放內測申請,並將在下個月開放API。

按照計劃,今年四季度,百川智能將發布千億參數的大模型,預計將追上GPT-3.5的水平,其開源模型也將在今年內發布升級版本。

百川智能已經發布的開源大模型在各個榜單收穫了不錯的評分,並且能被企業真正用起來,據百川智能統計,已經有150家以上的公司申請使用他們的開源模型。

談起這回發布閉源大模型的原因,王小川表示因為模型變大後,部署起來成本比較高,所以才更多走閉源讓大家網上調用的方式。

王小川認為閉源可以提供更簡單的接口,做調用後指令的精準度方面會更好,也能解決一些更複雜的問題。

「開源和閉源並不矛盾,不管是 7B 還是 13B,還是 53B,都是為ToB行業服務做準備。我們更關心的是2C怎麼做,2B怎麼做,而不是把問題停留在開源閉源裡面。」王小川道。

此次發布的53B可謂是集大成之作,百川智能強調53B的三個技術優勢分別為預訓練數據、搜索增強和對齊能力,其中前兩者與百川團隊中豐富的搜尋引擎經驗有較強相關性。

預訓練數據方面,王小川表示,此前團隊做搜尋引擎的經驗,讓百川智能能夠又快又好地完成前期數據積累,這也是百川智能此前兩款開源模型能夠迅速推出的原因之一。

百川智能聯合創始人、大語言模型技術負責人陳煒鵬表示:「團隊背景做了很多年的搜索,所以整個中文網際網路里哪裡有好的數據,我們團隊是最清楚的,同時怎麼把這些數據收集回來,質量做好,識別出來,我們以前有也很強的積累和方法論。」

預訓練數據是大語言模型信息和知識的來源,豐富多樣、高質量、有層次的數據對模型的最終效果起到關鍵作用。其中,數據質量是預訓練模型的關鍵。為此,百川智能已經建立了一套系統的數據質量體系,包括低質、優質、類別等,這一體系將確保其在整個預訓練過程中維持高標準的數據質量,確保數據能為最終模型訓練的目標服務。

百川智能表示,未來的目標是構建一個全面的世界知識體系,使其能夠覆蓋各個領域和學科的知識。通過整合各類信息源,確保在文化、科學、技術等方面有廣泛的知識涵蓋,打造一個不斷學習、擴展和更新的知識庫,確保所有信息的準確性和時效性,以滿足不同用戶的多樣化需求。

王小川認為,過去20年搜索技術的積累是百川在大模型領域的優勢。

在具體技術實現路徑上,百川智能的搜索增強系統融合了多個模塊,包括指令意圖理解、智能搜索和結果增強等關鍵組件。這一綜合體系通過深入理解用戶指令,精確驅動查詢詞的搜索,並結合大語言模型技術來優化模型結果生成的可靠性。通過這一系列協同作用,實現了更精確、更智能的模型結果回答,減少了模型的幻覺。

「搜索增強是非常重要的事情,通過它可以使得知識面更加擴大,幻覺問題、時效性的問題也能得到更好的彌補,因此以後搜尋引擎會成為我們的亮點和特色,要把搜索的模型完美融合成一件事情。」王小川道。

除了預訓練,大模型還需要通過對齊調整(Alignment Tuning)讓模型同人類價值觀對齊,從而生成「更令人滿意」的回覆內容。

為了提升安全性和幫助性效果,53B採用了多RM融合,這是一種全面的策略,它著眼於不同目標間的相互支持和平衡,確保在實現一個目標的同時,不會犧牲其他重要目標。這意味著,即使用戶同時有多項複雜需求時,模型也不會忽略安全等最基本訴求。

王小川認為大模型的事業才剛剛到了爬坡階段,對於模型而言,有三點很重要:一是大模型本身的能力,尤其指的是預訓練的能力;二是搜索的能力;三是強化的能力,三者共同推動大模型的進步。

展望大模型發展的未來,王小川認為既能做500億參數,也要有自身差異化,才是百川智能接下來要走的路。

「要做到中國最好的對標GPT模型,預訓練模型的追求沒法停下來,未來還會繼續去做更大的模型。但這也同時意味著,百川智能對於搜索和強化技術也會有自己的高度。」王小川道。