大模型訓練效率提升至2.6倍,騰訊Angel機器學習框架升級

2023-11-23     甲子光年

原標題:大模型訓練效率提升至2.6倍,騰訊Angel機器學習框架升級

在算力緊缺的背景下,如何提升大模型訓練和推理的效率,並降低成本,成為業界關注的焦點。

11月23日,騰訊披露,騰訊混元大模型背後的自研機器學習框架Angel再次升級,大模型訓練效率提升至主流開源框架的2.6倍,千億級大模型訓練可節省50%算力成本。升級後的Angel支持單任務萬卡級別超大規模訓練,進一步提升騰訊雲HCC大模型專屬算力集群的性能和效率。

同時,Angel還提供了從模型研發到應用落地的一站式平台,支持用戶通過API接口或精調等方式快速調用騰訊混元大模型能力,加速大模型應用構建,騰訊會議、騰訊新聞、騰訊視頻等超過300個騰訊產品及場景均已接入騰訊混元內測。

目前,相關能力已通過騰訊雲對外開放。基於升級後的Angel機器學習框架,騰訊雲TI平台可提供更優的訓練和推理加速能力,並支持客戶用自己的數據一站式訓練精調,基於騰訊混元大模型打造專屬智能應用。

自研機器學習框架升級,大模型訓練推理效率再提升

隨著大模型時代到來,模型參數呈指數級增長,達到萬億級別。大模型逐漸從支持單一模態和任務發展為支持多種模態下的多種任務。在這種趨勢下,大模型訓練所需算力巨大,遠超單個晶片的處理速度,而多卡分布式訓練通信損耗巨大。如何提高硬體資源利用率,成為影響國產大模型技術發展和實用性的重要前提。

面向大模型訓練,騰訊自研了機器學習訓練框架AngelPTM,針對預訓練、模型精調和強化學習等全流程進行加速和優化。AngelPTM採用最新的FP8混合精度訓練技術,結合深度優化後的4D並行和ZeROCache機制優化存儲,可兼容適配多款國產化硬體,能夠以更少的資源和更快的速度訓練更大的模型。

2023年4月,騰訊雲面向大模型而生的新一代HCC高性能計算集群正式發布,性能較前代提升3倍。除了硬體的升級,針對大模型訓練場景,HCC對網絡協議、通信策略、AI框架、模型編譯等進行系統級優化,大幅節約訓練調優和算力成本。此前AngelPTM就已經通過HCC對外提供服務,本次Angel機器學習框架升級,也將進一步提升HCC大模型專屬算力集群的性能,助力企業加速大模型落地。

模型參數的增大不僅給訓練帶來了挑戰,還導致了推理成本的不斷上升。為解決這一問題,騰訊自研的大模型推理框架AngelHCF通過擴展並行能力、採用多種Attention優化策略等方式對性能進行了提升。同時,框架還適配了多種壓縮算法,以提高吞吐能力,從而實現更快的推理性能和更低的成本,支持大型模型推理服務。

相較於業界主流框架,AngelHCF的推理速度提高了1.3倍。在騰訊混元大模型文生圖的應用中,推理耗時從原本的10秒縮短至3至4秒。此外,AngelHCF還支持多種靈活的大模型壓縮和量化策略,支持自動壓縮。

一站式應用構建,讓大模型「開箱即用」

作為實用級大模型,騰訊混元大模型從研發之初就面向應用場景而生,在實踐中解決大模型落地難點。騰訊產品及應用種類多、流量大,讓模型真正「用起來」挑戰很大。基於Angel,騰訊構建了大模型接入和應用開發的一站式平台,包含數據處理、精調、模型評估、一鍵部署以及提示詞調優等服務,讓大模型的「開箱即用」成為可能。

模型接入層面,騰訊混元大模型提供千億、百億、十億多個尺寸的模型,充分適配各類應用場景的需求,只需要經過簡單微調就能達到滿足業務需求的效果,同時降低模型訓練和推理服務的資源成本,在問答、內容分類等常見應用場景中具有更高的性價比。

應用開發層面,騰訊內部已有超過300項業務和應用場景接入騰訊混元大模型內測,相比上個月數量翻了一倍,覆蓋文本總結、摘要、創作、翻譯、代碼等多個領域。

2023年9月,騰訊自研的實用級大模型騰訊混元正式亮相併通過騰訊雲開放。騰訊混元擁有超千億參數規模,預訓練語料超 2 萬億 tokens,聚合了騰訊在預訓練算法、機器學習平台和底層算力資源多個層面的自研技術積累,並在應用中持續疊代,不斷優化大模型能力。目前,已有來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶,通過騰訊雲接入騰訊混元大模型。

文章來源: https://twgreatdaily.com/190d5558f0f207c55ec11b36d2313654.html