混元大模型姍姍來遲,騰訊為什麼不著急?|甲子光年

2023-09-07     甲子光年

原標題:混元大模型姍姍來遲,騰訊為什麼不著急?|甲子光年

騰訊混元大模型體驗手記。

作者|武靜靜

編輯|趙健

9月7日,在一年一度的騰訊全球數字生態大會上,騰訊自研的通用大語言模型——混元大模型正式亮相。

騰訊集團高級執行副總裁、雲與智慧產業事業群CEO湯道生介紹:「騰訊混元大模型擁有超千億參數規模,預訓練語料超2萬億tokens,具有強大的中文理解與創作能力、邏輯推理能力,以及可靠的任務執行能力。」

湯道生稱,目前混元大模型已接入騰訊50多個業務並取得初步效果,包括騰訊雲、騰訊廣告、騰訊遊戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ瀏覽器等業務和產品。此外,在C端,騰訊混元大模型也開放了內測,這是一款能進行自然語言交互的小程序,類似小程序版本的ChatGPT。

會上,騰訊也宣布騰訊混元大模型正式通過騰訊雲對外開放,企業可以通過API調用混元,或者將混元作為基底模型構建上層應用。

騰訊的混元大模型究竟表現如何?混元背後,騰訊在通用大模型路徑上的思考和規劃是什麼?

1.一份騰訊混元大模型最新內測手記

拿到內測帳號之後,我們直接上手測試了一下騰訊的混元助手大模型。

騰訊混元助手大模型是一款能智能對話的小程序,具備多輪對話能力。它可以根據用戶提出的問題,結合上下文,生成相應的文本,可以服務於對話問答類企業端客戶。據介紹,騰訊混元的功能還包括:AI問答、AI繪畫、代碼生成等。

先測試一下它的對話能力。下圖中可以看到,基於問題,混元助手不僅寫了一份採訪科幻作家的問題大綱,可以理解「orz」這種網絡用語,還能直接製成表格清單。

騰訊混元大模型根據三個不同的提問給出了相應的回覆,甲子光年製圖

騰訊混元大模型不僅可以製成對應問題的表格,還會直接給到基於數據總結的觀點,比如在回答「美國和日本過去5年的進出口總額和增長率並做成表格」這一提問時,混元助手不僅做成了表格,還在回答的最後總結了數據的變化和可能的影響因素。

騰訊混元大模型根據提問製成了表格

甲子光年製圖

此外,騰訊混元大模型還可以直接寫代碼,並且詳細地解析生成的代碼意味著什麼,給到更多的可行性建議,下圖中就是它基於「怎麼用rust語言發起一個http請求?」給出的回答和詳細解析。

甲子光年製圖

在小程序混元助手的「靈感發現」頁面,我們能看到它能實現的各種功能。比如,工作場景中,混元助手可以寫工作郵件、面試大綱、招聘信息、寫ppt大綱等;專業技能領域,它可以給出域名建議、生成代碼、生成SQL查詢語句、解釋各類代碼;在一些趣味體驗方面,混元可以模仿林黛玉回答問題、會寫兒童故事、寫歌詞等。

下圖中,我們就讓混元助手模仿林黛玉回答問題,可以看出,混元的這種語氣幾乎已經做到了以假亂真。

甲子光年製圖

值得一提的是,這次,騰訊並未重點和公開強調混元助手,而是強調了混元大模型在騰訊廣告、騰訊會議、騰訊文檔中的使用。

比如,騰訊會議中,混元大模型化身「騰訊會議AI小助手」:總結會議內容只是小菜一碟,還可以回答「會議討論中有哪些爭議點?」「會議得出了哪些結論?」「會議安排了哪些待辦事項?」這種具體的問題,提升會議效率。甚至如果有人在會議上開小差,都可以問AI小助手:「會中有人提到我嗎?」。

騰訊混元大模型在騰訊會議中的應用

圖片來自騰訊

騰訊集團副總裁蔣傑稱,據實測,在指令理解、會中問答、會議摘要、會議待辦項等多個方面,混元大模型均獲得較高的用戶採納率。

在騰訊文檔中,騰訊混元大模型可以支持數十種文本創作場景,能一鍵生成標準格式文本;在表格能力上,混元大模型掌握了數百種Excel公式,用戶可以直接用自然語言生成函數,並能直接用表格內容生成圖表。

已關注

關注

重播分享

關閉

觀看更多

更多

正在加載

    正在加載

    退出全屏

    視頻加載失敗,請刷新頁面再試

    刷新

    視頻詳情

    騰訊文檔中智能助手的演示視頻

    素材來自騰訊

    通過「打斜槓」「選中已有文字」「在智能助手輸入框」這三種方式,用戶就可以調出智能助手,讓它來幫忙寫方案、做簡歷、做表格等。

    有人評論稱:「騰訊的AI生態未來會對百度的搜索和金山的WPS辦公應用場景有一定的衝擊。比如AI助手能夠解決一些信息搜索上的問題,而騰訊文檔藉助AI可以實現更高效的文件編輯。」

    此外,在廣告業務場景,騰訊混元大模型可以進行智能化的廣告素材創作。

    騰訊混元大模型在騰訊廣告中的應用

    圖片來自騰訊

    這是混元大模型具體的一些實測。

    技術能力上,混元也有一些具體的成績:在中國信通院《大規模預訓練模型技術和應用的評估方法》的標準符合性測試中,混元大模型共測評66個能力項,在「模型開發」和「模型能力」兩個重要領域的綜合評價均獲得了當前的最高分。在主流的評測集MMLU、CEval和AGI-eval上,混元大模型均有優異的表現,特別是在中文的理科、高考題和數學等子項上表現突出。

    2.騰訊混元大模型,不爭速度爭什麼?

    從現場釋放的各種信號來看,騰訊在通用大模型之路上,對話產品只是一小部分,他們更看重的是在具體產品中落地。騰訊稱,騰訊混元大模型是「從實踐中來,到實踐中去」的實用級大模型。

    「騰訊研發大模型的目標不是在評測上獲得高分,而是將技術應用到實際場景中。」騰訊集團副總裁蔣傑稱。

    騰訊集團副總裁蔣傑

    圖片來自騰訊

    騰訊的AI大模型技術最早探索可以追溯到2019年,當時馬化騰對外表示,騰訊建立了四大AI實驗室,涵蓋AI從全面基礎研究到多種應用開發。2022年4月,騰訊首次對外披露旗下混元AI大模型的研發進展,這是一個包含CV、NLP、多模態內容理解、文案生成、文生視頻等多個方向的超大規模AI智能模型。2022年12月,騰訊推出了萬億中文NLP預訓練模型HunYuan-NLP-1T,它在自然語言理解任務榜單CLUE中得分突破80.888分,獲得第一,並刷新該榜單歷史紀錄。

    現場,蔣傑分享了騰訊混元大模型在可靠性和成熟度這兩個方向的探索經驗。現場信息來看,在可靠性上,混元已經實現了一些新的突破。

    在場景落地中,大模型的可靠性至關重要,生成式AI機器幻覺是很多公司在實踐中都在攻克的難題。在蔣傑看來,為了減少模型胡言亂語,很多公司選擇給大模型去增加一些搜索增強、知識圖譜等外掛,這種方式在應用中存在著很大的局限性。「讓模型調用自身的知識儲備來回答問題,而非一味地依賴外掛,才能根本解決可靠性的問題,也能不斷地提高大模型自身回答的真實性。」

    他透露,針對這個問題,騰訊找到了一種基於騰訊自研的「探真」技術,在預訓練階段優化目標函數,減少大模型「胡言亂語」的問題。「通過這種方式我們優化了預訓練算法及策略,讓混元大模型的幻覺相比主流開源大模型降低了30%至50%。」

    他介紹稱,騰訊也通過強化學習的方法,讓模型學會識別陷阱問題;通過位置編碼優化,提高了超長文的處理效果和性能;提出思維鏈的新策略,讓大模型能夠像人一樣結合實際的應用場景進行推理和決策。現場分享了騰訊混元大模型在處理超常文本方向上取得的新突破:讓大模型寫一篇關於農業投資專利的文章,且不能少4000字,騰訊混元大模型可以順利完成這樣的任務。

    甲子光年現場拍攝

    蔣傑認為,降低機器幻覺問題、識別陷阱問題、進行複雜超長文本的處理能力是混元大模型區別於其他通用大模型的優勢能力。此外,騰訊混元大模型根植於中國,所以中文能力也優於海外廠商。

    「騰訊混元大模型從第一個token開始從零訓練。」蔣傑說。

    這些能力背後是騰訊整個技術底座在發揮作用。蔣傑提到,騰訊掌握了從模型算法到機器學習框架,再到AI基礎設施的全鏈路自研技術。比如,騰訊自研的機器學習框架Angel,可以讓訓練速度相比業界主流框架提升1 倍,推理速度比業界主流框架提升1.3倍。算力方面,騰訊雲今年4月發布的專為大模型訓練設計的新一代HCC高性能計算集群;並推出了向量資料庫(Tencent Cloud VectorDB);還有自研的星脈計算網絡架構。

    不同於很多廠商在爭先恐後的推出對話機器人,騰訊在數字生態大會上推出通用大模型背後,核心驗證反饋來源於是騰訊自身在to C和to B領域眾多的場景應用。蔣傑提到,「Chat只是驗證大語言模型的一種方式,騰訊也對此在內部進行了內測,但更重要的是,騰訊有海量的用戶和大量的to C和to B應用場景,所以就選擇依靠自有的業務和應用來進行驗證。

    在商業化層面,蔣傑稱,騰訊將混元大模型定位為業務的「倍增器」。這意味著,混元大模型更重要的在於如何支撐騰訊會議、騰訊文檔等騰訊自有的業務產品,以及通過騰訊雲賦能千行百業。

    「騰訊的混元的大模型是不是為了評測和打榜,一開始,我們就在根據騰訊自身的應用進行研發和匹配,探索應用如何與大模型更深度結合。」蔣傑在採訪中提到。

    「開不開放to C只是一個開關的過程,大模型的準確性和商業價值才是重點。」蔣傑說。

    這是現階段騰訊混元大模型交出的一份最新答卷,隨時近日更多大語言模型的全面開放,接下來,真正的落地之爭才剛剛開啟。

    (封面圖來源:騰訊)

    END.

    文章來源: https://twgreatdaily.com/zh-tw/bbdcb3ec0fd277efda344c3ba2e29c35.html