跨越AI大模型的門檻：尤洋教授的理論與實踐指南

在人們與大模型之間搭建一座高效連通的「橋樑」。

作者｜蘇霍伊

編輯｜栗子

在GPT-3.5尚未嶄露頭角之前，新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋就意識到，大模型會成為未來的重要發展方向。

早在2018年，他便參與了谷歌BERT模型的訓練，並成功將預訓練時間從三天縮短至76分鐘，時至今日這一優化方法仍被多家企業採用。

2020年時，OpenAI推出了全球最大規模的預訓練語言模型GPT-3，這激起了尤洋對大型模型開發的興趣。到了2023年，人工智慧領域迎來了大模型的爆發之年。其熱潮迅速席捲全球，AI成為各行業的兵家必爭之地。

據IDC（國際數據公司）預測，到2026年，AI軟體市場規模將達到76.9億美元。我們每個人都能明顯感受到，人工智慧正從感知理解世界走向生成創造世界的階段，並推動產業智能化加速進入拐點。

作為高性能計算研究者，尤洋也在密切關注著大模型行業的最新動態。

他十分看好中國的AI底色。「得益於國家政策扶持、資本和人才的匯聚，當前國內的AI行業正經歷著快速成長期。」尤洋認為，「我們的研究型大學和科研機構在AI基礎研究、技術開發和人才培養上扮演著核心角色，這些努力正不斷增強中國AI產業在全球的競爭力。」

但「一片向好」的同時，尤洋也意識到，無論是AI初學者還是業內人士，都面臨著大模型的「門檻」。

初學者涉足大模型領域需要克服高技術「門檻」，大模型的複雜性和技術的不斷更新又增加了理解和掌握這些技術的挑戰。

而從業者面前的「門檻」則在於如何巧妙地「駕馭」這一尖端技術。想要在激烈的市場競爭中脫穎而出，就需要從業者找到最大化大模型潛能的策略，以實現降本增效。

為了幫助人們跨越這道「坎」，尤洋萌生了撰寫一本關於「大模型實戰指南」的構想。他希望能在人們與大模型之間，搭建一座高效連通的「橋樑」。

他對「甲子光年」表示：「我想和更多人分享我在高性能計算和AI大模型領域的知識和經驗，希望通過這本《實戰AI大模型》，為讀者提供我個人的見解和建議，並與更多人探討相關議題。」

上線一周《實戰AI大模型》就榮登京東圖書榜人工智慧書籍的第一名，圖片來源：受訪者提供

1.實戰AI大模型：從新手到專家的必備指南

在了解《實戰AI大模型》之前，我們有必要先了解一下本書的作者，尤洋教授。

尤洋畢業於美國加州伯克利大學。在研究生期間，他就以第一作者身份獲得2015年國際並行與分布式處理大會（IPDPS）的最佳論文。在伯克利期間，尤洋獲得了Lotfi A. Zadeh Prize，這是頒發給在軟計算及其應用領域做出傑出貢獻的伯克利大學博士畢業生的獎項。2017年，他的團隊打破了ImageNet訓練速度的世界記錄，被NSF、ScienceDaily、Science NewsLine和i-programmer等科技媒體廣泛報道。

尤洋在2023甲子引力年終盛典上發表主題演講，圖片來源：「甲子光年」拍攝

真正讓尤洋在AI業內享負盛名的是他提出的一系列AI訓練方法。

2018年，博士期間尤洋以第一作者發表論文《Imagenet training in minutes》，獲國際並行處理大會(ICPP)最佳論文獎，位列313篇論文中的第一名，論文所提出LARS優化器刷新了ImageNet訓練速度的世界紀錄，將AlexNet模型的訓練時間縮短到僅24分鐘。

2019年，尤洋再次作為第一作者提出LAMB優化器，成功將BERT的預訓練時間，從原本的三天三夜縮短至76 分鐘，比Adam優化器快出整整72倍，成為機器學習領域的主流優化器。

此外，尤洋團隊還研發了CowClip算法，顯著提升了CTR預測模型的訓練速度。2021年，他入選福布斯30歲以下精英榜(亞洲)並獲得IEEE-CS超算傑出新人獎。

正因在AI大模型領域的多年深耕與建樹，讓尤洋看到了大模型理論與實踐之間的巨大鴻溝。

對於今天的人們來說，經過整整一年的媒體報道，AI大模型的名字已並不陌生，部分領域的從業者也早已開始運用AI大模型進行業務優化。

例如，AI圖像生成產品Midjourney、Stable Diffusion和DALL-E等，允許用戶通過文字描述生成圖像；在音頻領域，微軟的Speech Studio服務讓用戶能夠創建與自己聲音相似的虛擬分身。

不過，這些產品僅僅是讓用戶可以享受到AI對自身工作帶來的便利。但對於更專業的技術人員、或要求更高的企業級用戶來說，僅僅在應用層面的認知是遠遠不夠的。

例如，Transformer模型、BERT模型、GPT模型分別是什麼，有什麼特點？不同模型各自的優勢是什麼？訓練難點在哪裡？

尤洋認為，只有掌握了深度學習的基本概念、經典算法和網絡架構，才能更好地理解和應用AI大模型。

這就是尤洋寫這本《實戰AI大模型》的初衷和目標。他希望通過這本書，為讀者提供一份詳細的指南和參考，提供一個理論與實踐相結合的全面視角，讓讀者能夠理解並運用AI大模型。

在尤洋的觀點中，每個模型，無論是BERT、GPT或PaLM，都是人工智慧技術演進的結晶，背後包含了深厚的理論基礎和實踐經驗。也正因如此，他選擇對每種模型進行單獨討論，以確保對每種模型的深度和廣度都有充分的覆蓋。

對於訓練這些模型所需的技術，書中進行了全面的介紹。從高性能計算（HPC）到並行處理，從大規模優化方法到內存優化，每一種技術都是精心挑選並深入研究的，它們是AI大模型訓練的基石，也是構建高性能AI系統的關鍵。

例如：

Transformer模型通過其獨特的「注意力機制」在自然語言處理（NLP）領域成為核心，顯著提升了機器理解和生成文本的準確性；
BERT模型通過雙向訓練機制增強了文本處理的準確性和靈活性，廣泛應用於語言理解任務；
ALBERT模型作為BERT的優化版，以更高的效率和更小的模型尺寸解決了NLP挑戰；
T5模型展示了統一框架處理多種文本任務的能力，對AI系統的通用性有重要意義；
GPT系列以其強大的文本生成能力在NLP任務中取得重大進展；
Google的PaLM模型是大模型領域的里程碑，展示了AI在理解和生成人類語言方面的最新進展。

當然，本書的內容遠不止此。除了詳細介紹各個模型的原理、訓練方法和應用場景外，本書還探討了分布式系統、並行策略和內存優化等關鍵技術。

創新工場與零一萬物的創始人兼CEO李開復對本書給予了高度評價：「這本書不僅深入淺出地闡釋了AI大模型的核心概念，還緊密貼合AI 2.0這一有史以來最重要的技術革命。」

2.Colossal-AI：大模型訓練的顛覆性技術

掌握理論知識只是實踐的起點。

在AI的應用中，我們需要解決大模型訓練的一系列挑戰，例如計算資源的管理，訓練效率的優化等。

為了實現了理論與實踐的完美結合，尤洋特別在書中引入了Colossal-AI系統。

這是一個集成的大規模深度學習系統。它通過數據並行、模型並行和流水線並行等策略，有效分散了計算和存儲負擔，使得在有限資源下進行大模型訓練成為可能。

「GPT-3在什麼都沒幹的情況下，就要消耗3200G內存。」尤洋指出，自2016年以來，人工智慧模型的規模經歷了指數級的增長。從微軟的2千萬參數模型到GPT-4的約1萬億到100萬億參數，模型規模每18個月至少增長40倍；而自2019年後，這一增長速率更是達到了約340倍。

然而，GPU內存每18個月僅增長1.7倍，這使得現有硬體設備在訓練大型模型時往往難以滿足所需的巨大計算資源和存儲空間。

換言之，目前硬體跟不上模型的發展速度，是大模型最需要克服的難題。

為了應對挑戰，分布式訓練技術或許是最優解決方案。通過在多個計算節點上分割並同時執行大型模型的訓練任務，可以更有效地利用計算資源，加速訓練過程。即使是普通工程師，通過整合公開的免費數據集如C4、GitHub、Books等，也能訓練出效果不錯的大型模型。此外，選擇合適的基準模型，如基於GPT-3的設計思路，同樣是訓練過程中的關鍵步驟。

大模型的訓練，需要大量的GPU和內存資源。以高中數學為例，即使是訓練一個非常小的模型，也需要進行大量的計算操作和內存資源。分布式優化技術、高效的通信機制、數據並行和分布式存儲等技術對訓練和部署企業級大型模型而言是至關重要的。同時，選擇合適的基座模型並結合數據並行和張量並行等方法，對於實現高效訓練具有決定性影響。

而Colossal-AI系統作為尤洋教授主創的一個先進的大模型訓練工具，解決了在單GPU上訓練大型模型時遇到的內存限制問題，這也是在《實戰AI大模型》中特彆強調的一部分。

ColossalChat的使用展示，圖片來源：受訪者提供

例如，Colossal-AI全球首個開源了最接近ChatGPT原始技術方案。它基於LLaMA模型，包含完整RLHF流程的類Chat模型復現方案ColossalChat。僅需不到百億參數模型的微調，即可達到類似GPT-3.5和ChatGPT的效果。

此外，Colossal-AI基於在大模型民主化的專業技術積累，開源完整Stable Diffusion預訓練和個性化微調方案，在預訓練時間加速的同時，經濟成本降低6.5倍，個性化微調硬體成本降低7倍！更重要的是，它在個人電腦的RTX 2070/3050上即可快速完成微調任務流程，讓Stable Diffusion等AIGC模型的觸手可及。

「通過Colossal-AI，我在書中提供了詳細的實戰教程，包括訓練BERT、GPT-3、PaLM、ViT和會話系統等模型的步驟，深入講解了系統的關鍵技術和優勢，幫助用戶提升研究和工作效率。最後，通過實戰教程，將理論知識轉化為實踐。」尤洋向「甲子光年」介紹道，「畢竟，動手實踐是理解和掌握複雜AI大模型的關鍵。」

尤洋開發Colossal-AI的初衷源於他的專業領域——高性能計算。

他的主要目標是提高大模型訓練的效率和降低其成本。Colossal-AI提供了多種訓練方法，如混合精度訓練、梯度累積，以及數據並行、張量並行和流水線並行等技術。通過這些方法，能夠優化模型訓練的過程，有效地跨節點擴展模型，這恰恰也是傳統訓練方法無法實現的。

並且，它的API設計簡潔易用，適應者可以快速上手，將更多的時間和精力用於模型的設計和優化，而不是解決底層的技術問題。

Colossal-AI的路線主要分為三部分：

首先，開發用於訓練大模型的系統Colossal-AI，適用於GPT、LLaMA等模型，旨在節省時間和成本；

其次，訓練特定行業的大模型，參數規模在100億到200億之間；

最後，開發PaaS平台，將需要訓練大模型的客戶整合到平台中，形成正向循環。

目前，尤洋的重點是繼續開發和優化Colossal-AI，同時協助企業進行大模型的私有化部署，並計劃未來在商業化方面進一步發展。

他始終堅信，AI行業的開放性對技術的發展至關重要。AI技術沒有絕對的智慧財產權，通過開源，技術才能走得更遠。

「這種開放性和生態系統的建設，即吸引大量用戶使用和提供反饋，是未來AI技術競爭的關鍵。只有不斷地疊代和優化，才能吸引更多的用戶，這對於建立一個強大的AI生態系統至關重要。」尤洋解釋道。

3.從學術研究到商業應用

從高性能計算的學術研究出發，最終走向了AI技術的商業應用。尤洋的經歷讓他深刻認識到，AI在處理大規模數據時對高性能計算的依賴。

這也激發了尤洋創立Colossal-AI平台的想法。他希望通過Colossal-AI來提升AI處理計算的效率，幫助AI企業加快產品開發速度，從而節省成本。

這個想法最終促使尤洋走上了創業之路。在成為新加坡國立大學計算機系首位校長青年教授後，尤洋於2021年7月回國創立了潞晨科技。

得益於其在技術創新方面的積累，潞晨科技吸引了多家投資機構的支持。

2021年8月，潞晨科技獲得由創新工場和真格基金合投的超千萬元種子輪融資；2022年9月，又獲得藍馳創投領投的600萬美元天使輪融資。

不久前，尤洋帶領團隊榮獲AAAI 2023傑出論文獎，引起AI界廣泛關注。而後潞晨科技便在今年5月宣布完成A輪融資，金額高達數億元。據公司介紹，這是潞晨科技成立18個月內的第三輪融資，資金將主要用於團隊擴張和業務拓展。

同年11月，潞晨科技宣布完成近億元A+輪融資，本次融資由某世界500強科技巨頭領投，同時大灣區基金和新加坡電信投資公司（SingTel Innov8）也參與了投資。

在潞晨科技，尤洋和團隊致力於克服大模型訓練和應用中的難題。公司推出了包括Colossal-AI在內的一系列服務，這些服務完全開源，涵蓋了異構管理系統、並行技術以及系統部署，旨在幫助用戶高效地部署AI模型。尤洋表示：「我想將微調成本降至幾百元人民幣，讓大家用最的低成本就能訓練GPT模型。」

「我們的願景是為企業提供流暢的部署和訓練體驗。」未來，他希望用戶可以在伺服器、終端，甚至是手機上定義好模型，將其通過Colossal AI部署至雲端，支持CPU、GPU、TPU、FPGA等多種硬體平台和TensorFlow、PyTorch、Keras、Theano等多種編程框架。這將更高效地幫助初創公司能夠最大化效率、最小化成本，從而部署自己的模型和系統。

根據公司生態圖，Colossal-AI的用戶增長速度超過了傳統軟體，吸引了來自全球各地的用戶，包括中國、美國、歐洲、印度和東南亞等地區，目前已獲得GitHub星數三萬五千多顆，細分賽道排名世界第一。Colossal-LLaMA開源模型三周內在Hugging Face下載量突破18萬。

大模型的時代，機遇與挑戰共存。

通過有效利用分布式訓練技術和企業級大模型解決方案，可以加速訓練過程，提升訓練強度，推動大模型應用達到新水平。尤洋呼籲共同努力，推動大模型技術的進步，為科學、商業和社會帶來更廣泛的利益。

（封面圖來源：攝圖網）

END.

尊敬的甲子光年用戶/讀者，感謝您在2023年對甲子光年的支持和陪伴！

科技產業的發展日新月異、追風趕月！

為了更好服務於甲子光年的用戶/讀者，甲子光年特開展此次針對用戶/讀者的需求問卷調查。期望收集大家對甲子光年的品牌認知與評價，以及對甲子光年內容和服務的真實需求，以便為大家提供更為精準、前沿、專業、深度的科技內容和智庫服務。

本次調研不涉及個人隱私，獲取數據僅用於指導2024年甲子光年業務開展，請您放心填答。

跨越AI大模型的門檻：尤洋教授的理論與實踐指南｜甲子光年

硬幣的兩面：通往AI創生時代的「思辨」｜甲子引力X

Hugging Face進軍機器人，前特斯拉Optimus科學家帶隊｜甲子光年

騰訊企點發力營銷雲，智能驅動私域營銷增長

寧王進京，意欲何為？｜甲子光年

礦山無人駕駛商業化能力提速，易控智駕無人駕駛運營里程已超600萬公里

在一個地級市，看見中國孵化器的激盪三十年｜甲子光年

國產大模型，逼近GPT-4｜甲子光年

「投資家網·第十二屆股權投資年會」在北京隆重召開

蘇磁科技獲超億元A輪融資，專注於磁懸浮核心技術和關鍵部件

福田資本運營集團戰略投資AIoT領軍企業特斯聯

「全球化創新企業聯盟」成立，「產業帶之光」系列活動開啟

媲美保時捷和特斯拉，小米的第一款車為什麼有點貴？｜甲子光年

小米SU7搭載101kWh電池組，國內首款百度電續航超800km的四驅車型

跨越AI大模型的門檻：尤洋教授的理論與實踐指南｜甲子光年

當一位AI老兵決定「all in」大模型｜甲子光年

磐霖資本主投醫療創業投資基金完成二次關閉和實繳募集

甲小姐對話周鴻禕：不發展AI才是最大的不安全｜甲子光年

智行盒子亮相中國網約出行產業峰會，與中信聯合體、螞蟻集團實現戰略合作

國產時序資料庫登頂國際：一次不亞於自研晶片的突破｜甲子光年

中國投資·全球化創新企業論壇在廣州成功舉辦

今天，港股自動駕駛第一股誕生｜甲子光年

遲到的特斯拉Cybertruck，駛入「產能地獄」｜甲子光年

累計服務超萬家客戶，美團企業版的真正價值到底是什麼｜甲子光年

英特爾推出酷睿Ultra和第五代至強可擴展處理器，讓AI無處不在