騰訊做大模型:要拼技術細節、用內部業務「磨刀」

2023-09-13     InfoQ

原標題:騰訊做大模型:要拼技術細節、用內部業務「磨刀」

作者 | 褚杏娟

「騰訊混元大模型 從第一個 token 開始從零訓練。」騰訊集團副總裁蔣傑說道。9 月 7 日,騰訊正式對外開放了全鏈路自研的通用大模型——混元大模型,這也意味著騰訊正式加入了「百模大戰」之中。

在已經有首批 8 家企業機構的大模型產品通過《生成式人工智慧服務管理暫行辦法》備案準備正式上線開放後,騰訊的通用大模型才剛剛發布,這個時間並不算早。那麼,騰訊的大模型之路將如何走下去?

做大模型要「拼細節」

「混元」不是騰訊推出的第一個大模型。從 2018 年開始探索大模型相關技術,騰訊先後推出了多個千萬 / 億參數大模型:2021 年 -2022 年推出了多個千億和萬億參數規模的大模型。

騰訊混元大模型平台架構、模型、算法能力等整個體系都是純自研的,而構建騰訊混元的技術能力都得益於這些年大模型能力的積累。像今天的鋸齒狀注意力、探真等都是技術循序漸進的產物。

「現在國內外有很多開源的大模型,很多企業也是基於開源模型來做,但是如果不從頭自研的話,就沒辦法完全掌握這個技術。」蔣傑說道。

騰訊對大模型的期望是先給企業內部業務帶來突破,這要求大模型必須更好融入到騰訊的技術棧中,但很多開源架構並不適合騰訊業務場景。比如,幻覺是每一個大模型廠商都會面臨的重要問題,業內普遍會用知識圖譜甚至搜索外掛讓大模型的檢索支持能力變得更強,但是這些方式不適用騰訊的場景占比很高,於是騰訊使用了自研的「探真」技術來降低幻覺出現的比例。

混元大模型目前還是聚焦在國內市場,中文創作是其主要攻破的能力之一,支持文學創作、文本摘要、角色扮演等。通用大模型的邏輯推理能力非常關鍵,而大模型如何可靠地執行是騰訊最關注的。

混元大模型擁有超千億參數規模,預訓練語料超 2 萬億 tokens。騰訊的內容產品為混元大模型提供了大規模、高質量、多樣化的語料庫,混元大模型能從中學習到各類應用場景中豐富的語言知識和語境理解能力。

面對海量數據,騰訊使用了 AngelPTM 訓練框架,優化算法,改進了注意力機制。而在邏輯推理方面,騰訊則使用了 AngelHCF 推理框架,開發了思維鏈(Chain-of-Thought,CoT)新算法。騰訊表示,通過自研機器學習框架 Angel 使訓練速度相比業界主流框架提升 1 倍,推理速度比業界主流框架提升 1.3 倍。

註:思維鏈指的是一系列有邏輯關係的思考步驟形成一個完整的思考過程,用的是離散式 token,能自動構建問題、推理步驟和樣例。但思維鏈必須在模型規模足夠大時才能湧現。

在蔣傑看來,業內做強化學習的方法大體相似,騰訊要做的就是「拼細節」。「未來幾個頭部廠商大模型的評分可能僅僅是 1 分、2 分的差距,這個廠家版本高 1 分,另外廠家的下一個版本就會比它再高 1 分,就是這樣一個不斷博弈和循序漸進的過程。而大家投入的資源不一樣、摳的細節不一樣,大模型的差異才會最終顯露出來。」

先做內部業務的「倍增器」

在通用大模型上,騰訊確實走得不急。騰訊強調,研發大模型的目標不是在評測上獲得高分,而是將技術應用到實際場景中。騰訊 6 月份發布行業大模型後,一直努力將能力拓展到更多領域,騰訊內部的海量業務場景也成了混元大模型的「磨刀石」。

眾所周知,騰訊業務特別廣泛,混元大模型能在內部各種場景上很好地應用就很不容易。比如,to C 的騰訊會議、騰訊文檔在使用大模型時就有很大的差異。混元大模型的文字總結能力能與文檔環境天然很好地結合,但會議場景強實時交互,需要會議團隊和混元團隊一起探索如何將混元大模型的基礎指令理解能力、文字總結能力與會議內容生成結合起來。

「像會議、文檔這樣的場景,單純將一個大模型直接融合進去短期內不一定能夠給業務帶來很大提升,因此一定要針對具體的業務需求做專門優化和提效,才能達到更好的效果。」騰訊機器學習平台部副總經理王迪說道。

在騰訊看來,提效是大模型更有商業價值的地方,騰訊希望混元大模型成為業務的「倍增器」。

目前,騰訊內部所有的應用都會基於混元大模型做智能化研發,混元大模型將作為基礎設施去支持騰訊的各種產品和應用能力。騰訊會議 基於騰訊混元大模型打造了 AI 小助手,只需要簡單的自然語言指令,就能完成會議信息提取、內容分析等複雜任務,會後還能生成智能總結紀要。混元大模型支持數十種文本創作場景,在騰訊文檔推出的智能助手功能中已有應用。

與之前技術產品的商業化路徑相似,騰訊大模型也會先服務騰訊內部業務,然後再通過騰訊雲對外開放,服務外部客戶。

結束語

在蔣傑看來,大模型的天花板現在還沒有完全碰觸到的技術體系和演進上,行業不僅需要技術突破,還需要語料的完整度、數據的標註能力、後續的糾錯能力等,單點的技術突破無法帶來大模型的最終效果。

「未來,混元大模型還要做更多的數據標註、更多的框架、訓練更多的數據,這才是我們團隊工作的真正核心。」蔣傑說道,「騰訊混元永遠在路上。」

點擊底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!

今日好文推薦

AI 大模型熱潮來襲,看機密計算如何應對敏感數據安全挑戰

號稱比 Python 快 68000 倍的 Mojo 語言正式發布!Rust 能否與之匹敵?

小米一開源項目被批「三無」,項目導師回應;Ruby on Rails之父將Type從Turbo框架中移除 | Q資訊

大模型之戰,騰訊來了

文章來源: https://twgreatdaily.com/zh-my/6cfeca4cdfe6ebc617a0ad52f218c28f.html