文|郝 鑫
編|王一粟
226天、7個多月後,頭部的國產通用大模型已陸續突破了GPT3.5的基準線。
近日,騰訊混元大模型升級,稱中文能力整體超過GPT3.5;百度發布文心大模型4.0,表示綜合水平與GPT4相比已經毫不遜色;商湯「商量SenseChat2.0」測評表現均領先ChatGPT,部分已十分接近GPT 4的水平;科大訊飛發布「訊飛星火」認知大模型V3.0,宣布已全面對標GPT3.5。
「國內(大模型)在GPT3.5這條線都過了,但要理性看待。所謂的超過,可能要基於各自平台和局部的指標,比如利用騰訊混元大模型在廣告行業,生成的圖片風格、採用率等就小勝GPT4」,騰訊機器學習平台算法負責人康戰輝,在騰訊混元大模型升級媒體交流會現場的自我評價,一如既往地非常克制。
當技術逐漸拉齊,除了繼續追趕GPT4的步伐,從實驗室走向千行百業,一些過去曾被忽視的問題也隨之浮出水面:
不計成本,大力出奇蹟、擴大參數的暴力路徑走不通後,如何才能用較少的成本,達到原來同等或近似的訓練、推理效果?
千億級的大模型和70億、50億的中小模型,通用大模型和行業模型、業務場景模型,如何才能優勢最大化?
總之,走出象牙塔的大模型,需要在效果、成本支出、商業化三方面,找尋到平衡點。
以上種種問題的答案,或許能從騰訊混元大模型的此次升級中得以一窺。既從一開始的大模型框架底座層去優化設計,並提升推理、訓練、數學、代碼、文生圖等基礎能力,也在廣告、遊戲、會議、文檔等優勢業務場景實踐中摸索。
與其他的大模型相比,騰訊混元是算法與工程優化兩條腿走路,底層大模型的能力固然很重要,但在業務場景倒逼出來的實踐,更加實用。
新增「文生圖」,混元大模型邁向多模態
9月7日,2023騰訊全球數字生態大會上,混元大模型初次亮相。
僅一個月過後,騰訊混元大模型迎來重要升級。中文能力整體超過GPT3.5,其中代碼能力處理水平提升超過20%,代碼處理效果勝出ChatGPT 6.34%,數學能力較老版效果提升15%。
最為重要的是,此次騰訊還推出了自研混元文生圖算法模型,給混元增加了「文生圖」的能力。
「文生圖」是混元大模型向多模態探索的第一步,也是關鍵的一步。據光錐智能實測,相比其他大模型,混元大模型在人像真實感、場景真實感上有比較明顯的優勢,同時,在中國風景、動漫遊戲等場景生成上有較好的表現。
(混元大模型生成)
據騰訊混元大模型文生圖技術負責人蘆清林介紹,文生圖算法有三個難點:
一是,能不能把想輸入的文本準確地生成出來,並用圖片來表達,比如能否理解中文語境中的「女媧補天」;
二是,怎樣能讓生成圖片的構圖更加合理;
三是,生成的質感和細節是否足夠豐富。
為了解決以上的難點,混元從0到1自研了一個文生圖模型結構。
該結構不同於市面上流行的「一步到位」模型,而是將文生圖分解為了三部分,第一部分是跨模態的預訓練大模型,專門做圖文對齊,保障輸入文字編碼、解碼語義準確;第二部分是基於像素空間擴散的生成主模型,通過逐步去噪,來還原圖片,並生成小圖;第三部分是影空間的超生模型,也是混元區別於市面上SD主流文生圖的地方,把之前的小圖進一步擴展成大圖,保證最終生成後的紋理和質感。
騰訊官方透露,該能力已運用到了廣告業務場景中,騰訊混元文生圖的案例優秀率和廣告主採納率分別達到86%和26%,均高於同類模型。
與走精專路線的Midjourney相比,在廣告場景下,騰訊混元眾測goodcase率比Midjourney高16%,廣告主測評採納率高48%。且廣告主也普遍反映,混元生成的廣告素材也更接近投放的場景構圖和質感要求。
除了文生圖,能讓「程式設計師幹掉程式設計師」的代碼能力的升級也是重要的一塊兒,分為兩個具體方向:
一方面支持自然語言和多種程序語言生成代碼。
比如只需輸入簡單的指令「幫我用前端語言實現一個貪吃蛇」,騰訊混元便能自動生成可運行的代碼,快速製作出一個貪吃蛇小遊戲;還支持Python、C++、Java、Javascript等多種語言的指令生成,比如輸入「用Python畫紅色的心形線」,騰訊混元會提供代碼庫選擇、安裝命令、繪製代碼等具體操作步驟的指引。
另一方面則更適用於專業程式設計師、工程師使用,比如,在IDE編程場景中,騰訊工蜂Copilot通過接入混元大模型,可根據注釋生成對應代碼,或基於上下文智能補全代碼,還可以幫助用戶進行代碼漏洞檢測和修復,保障軟體開發過程中的安全性。
康戰輝告訴光錐智能,此次代碼技術在代碼預訓練和具體代碼任務上做了升級,整體的思路是模擬人學習代碼過程,先輸入再輸出,從簡單指令到複雜指令。
「在代碼預訓練環節,通過輸入自然語言、代碼文件、日誌、文檔等大量的計算數據,來構建大語言模型底座。在具體代碼環節,通過類似於上下文填空、打標籤的技術來提高模型對代碼語義的理解和提升具體需求生成代碼的能力。」康戰輝稱。
大模型從娘胎里就是一個偏科生,重文而輕理。為了從根上解決這個問題,提升數學能力,混元大模型首要任務就是給大模型喂更多數理化知識,優化文、理數據的配比。
在解題過程中,混元大模型引入了漸進思維鏈和強化學習RSR算法,前者可有效追蹤每一解題步驟,克服重結果輕過程的問題,後者則可以在得出正確答案的基礎上,判別答案的「好壞」。
可以看到,騰訊混元升級的過程也是眾多國產大模型發展的縮影,各項大模型基礎的能力猶如一片片磚瓦,今天壘一點,明天壘一點,最終搭建起來了大模型這座房子。
七個月過程中拉齊、中文超越GPT3.5,「中國速度」在大模型基建上再次體現。
大模型來了,框架怎麼進化
前端體驗到的大模型能力,都由底層的大模型框架作為支撐,框架能力的好壞,會直接決定整體訓練和推理的速度、成本和效果。
騰訊混元大模型持續升級背後,離不開騰訊自研一站式機器學習平台Angel的支撐。追溯其形成的過程,總能看到混元大模型早期稀疏路徑「小成本」、「高效率」的影子。
騰訊集團副總裁蔣傑提過,「從2020年開始,騰訊就一直在跟進和投入混元大模型相關的技術能力,最早起於400GB、用於支撐廣告業務的稀疏大模型,而不是現在的稠密大模型。當時,這一模型使得GMV提升了大約13%,在這之後,騰訊對大模型的投入和積累逐漸增加。」
稀疏和稠密的兩種路徑優劣勢十分清晰:稀疏型計算效率高、成本更低、易部署,更適用於對實時性要求較高的場景;稠密型表達能力強、理解能力強、準確性更高。
當時,廣告、推薦、搜索都對計算效率有很高的要求,加之在實踐中效果提升顯著,都驅使騰訊選擇了稀疏的訓練路徑 ,HunYuan-NLP 1T大模型正是在此基礎上誕生。也因為當初稀疏路徑的選擇,騰訊混元大模型在一開始就十分注重資源、效率兩項指標。
大模型來了以後,騰訊自研的AngelPTM訓練框架和AngelHCF推理框架也迎來了升級,相比AI 1.0階段,還要更快、更高效。
大模型訓練過程中存在模型參數大,顯存需求高;數據量大,算力需求高;訓練周期長,穩定性需求高等困難。
針對這些困難,騰訊AngelPTM訓練框架提供了分布式訓練解決方案,具備高內存利用率和訓練吞吐效率特性,騰訊官方表示,訓練速度相比業界主流框架提升了1倍。
據康戰輝介紹,AngelPTM訓練框架包含了優化策略、並行策略、加速組件幾部分。「我們利用4D並行,再加上顯存、內存一體化的ZeROCache技術,實現了在千億混元底座上進行訓練,帶來大幅度提升訓練效率的同時,能夠讓模型訓練更充分」,康戰輝道。
優化策略核心在於去除冗餘存儲,通過ZeRO-Cache,可以讓大模型在訓練時只存儲一份,並讓CPU和GPU同時作為存儲空間,來擴大存儲可用空間;4D並行的核心則是保證數據集質量和提升訓練效率,過程中,實現把數據、大模型進行了設備數量、模型部分、時間上的切分、打破,達到多並行任務同時運行。
我們可以把整個框架訓練的過程,想像成模型工廠的建造過程。
工廠里原本的參數、數據都散在各個角落,並且還存在重複存放。首先,就要把空地打掃出來,通過合理規劃,在一個統一的大倉庫中規範存儲,避免重複堆積,擴大了可建造空間。
第二步,要提高效率,AngelPTM像一個流水線管理員,合理安排顯卡的任務執行順序,減少等待時間,保持高效運轉。此外,還要讓CPU和GPU協作起來,CPU像倉庫管理員,分配任務,GPU像工人,執行任務。
第三步,工廠里設置多條流水線,並配備了一些作業工具,讓每個流水線並行高效運轉起來,以此發揮出整體能力。
大模型訓練出來後,壓力就來到了推理這邊。訓練過程中鍛鍊出來的能力,需要用推理框架讓大模型在具體的業務場景運行起來。
騰訊旗下有一眾堪稱國民級的應用,業務流量大、場景多、成本壓力高、服務能力要求高等重重大山擺在了混元推理的過程中。
據康戰輝透露,「混元大模型目前接入了180個業務場景,這比首次披露增長了3倍,其中有60多個業務是做精調。」
為了能在這些業務場景中跑起來,該推理框架,具備了從蒸餾、微調、壓縮到模型加速的完整能力,支持多種模型並行,保證模型的最小化部署及最大化吞吐。這其中大致經歷了把模型變小,加速推理、大批量推理和封裝服務幾個過程。
騰訊官方稱,其推理速度相比業界主流框架FasterTransformer快了1.3倍。
業務場景,倒逼大模型能力疊代
「騰訊整體流量產品非常豐富,所以文生圖能力的訴求非常強烈,比如廣告怎麼合成商品廣告,遊戲上怎麼做一些背景和元素的生成,內容場景里怎麼給小說配圖以及雲場景等等,非常多。騰訊業務對文生圖這項能力的促成非常強烈」,蘆清林道。
最初的騰訊混元大模型源於廣告業務需求,新的文生圖功能也是最早在廣告場景中探索。以上共同指向了一個問題:業務需求,可以更好的倒逼大模型能力升級。
據一份4月份流出的騰訊混元大模型內部交流紀要顯示,騰訊在大模型研發上六個BG(事業群)都有參與,其中TEG(技術工程事業群)在算法上更偏通用,其他BG更偏行業。換而言之,如今混元的大模型底座能力其實已經融入了騰訊各細分業務的行業數據、認知。
像騰訊這類公司的業務場景都十分成熟,這意味著評測方式、反饋、商業模式也很明確。
生成的廣告圖片效果好不好,不僅肉眼可分辨,還有廣告主採納率、投放轉化率量化指標作為參考,這就導致,從業務場景出發來構建通用大模型能力從一開始就要追求效果,要求也非常高。比如在廣告層面,覆蓋了金融、教育、電商、旅遊、遊戲等行業,每個行業提出來的要求和需要都不一樣。
蘆清林現場回答光錐智能提問時解釋,混元在訓練文生圖模型時,就會把各行各業的需求全部收集在一起,分析哪塊是語義方面的問題,哪塊是細節、數據等方面的數據,然後再集中去解決、優化,以這樣的方式來促進大模型通用能力的提升。
久而久之,便會形成數據飛輪。
目前,騰訊內部的騰訊會議、企業微信、騰訊廣告、騰訊客服、QQ瀏覽器、微信搜一搜等180個業務已經通過API接入,其中超過60個業務經過模型精調接入混元。
在騰訊會議場景中提供會控入口、會議總結、會議問答等功能;在騰訊文檔中,提供文檔創作、文檔編輯、表格公式生成等功能;在騰訊廣告場景中提供商品化理解、商品標籤提取、廣告推薦、智能客服等功能;在遊戲場景,提供遊戲智能助手、遊戲NPC、劇本生成等功能。妥妥地的是,用大模型把應用都重新做一遍。
而在各種多樣化的業務落地過程中,除了技術,需要有更綜合的考量。
比如,模型參數大小的選擇,就是一個首先需要考慮的問題。
雖然百億參數的大模型在一些任務上有優勢,但訓練成本高、精調難度大,就會出現難以裝進業務中的難題。
「大模大做,小模小做,是當前騰訊主要的思路。」康戰輝告訴光錐智能,大的大模型以追求效果為導向,中小參數大模型追求成本和收益平衡。
「用什麼模型,關鍵還要看場景。比如複雜任務的專業客服和助手,一定要有更大的模型,而廣告行業又肯定要兼顧成本。所以,要結合業務場景出具靈活的解決方案,需要不斷地根據業務流量和商業模式去調整混元的底座。」
本質上,這是一個成本、效果、商業化三者的平衡。
康戰輝認為,還是要根據產品、業務的打法來決定。要先判斷該產品處於什麼階段,如果技術、產品等方面還不成熟,那整體的成本就比較高,只能允許部分用戶小範圍的使用。基於這樣的考慮,結合模型效果、商業模型、業務成本幾個維度,混元再給出選擇參考,做出成本預估。