開源與開放,阿里雲的大模型解法|甲子光年

2023-11-02     甲子光年

原標題:開源與開放,阿里雲的大模型解法|甲子光年

大模型,需要AI基礎設施的全面升級。

作者|趙健

再過一個月,ChatGPT發布就滿一周年了。

這一年中,科技行業毫不吝嗇地把ChatGPT比作「網際網路的誕生」「新一輪工業革命」「AI的iPhone時刻」。這些稱謂有一個共同的特點,都是把ChatGPT以及底層的大模型技術比作了工業革命之後水電煤一樣的基礎設施。

因為是基礎設施,所以我們看到了雲服務商巨頭微軟、谷歌、亞馬遜,晶片巨頭英偉達、英特爾,以及軟體巨頭Salesforce等領先的科技公司,紛紛重金投入大模型領域。在大的經濟周期下行的背景下,生成式AI賽道卻在逆勢融資,百模大戰愈演愈烈。

大模型的發展需要更強壯的AI基礎設施,對構成基礎設施的晶片與雲而言,既有機會又是挑戰。

大模型對以GPU為代表的晶片的影響,已經從英偉達今年狂飆的股價與利潤來體現;大模型對雲的影響,之前並不明顯,但多家雲服務商預計影響將逐漸從2023年第四季度起體現。亞馬遜CEO安迪·賈西在上周稱,預計生成式AI所帶來的機遇將在未來幾年為亞馬遜AWS雲服務帶來「數百億美元」的收入。

在國內,大模型也成為雲服務商未來十年甚至二十年的核心戰略。在昨天開幕的2023年阿里雲棲大會上,亞太地區排名第一的阿里雲宣布了面向大模型時代的重大升級——阿里雲將通過從底層算力(IaaS)到AI平台(PaaS)再到模型服務(MaaS)的全棧技術創新,升級雲計算體系,要打造一朵AI時代最開放的雲。

具體而言,阿里雲人工智慧平台PAI全面升級,發布自研大模型通義千問2.0並宣布即將開源720億參數版本,同時新推出一站式模型應用開發平台阿里雲百鍊。阿里雲魔搭社區的模型下載量也已突破1億,免費為開發者提供超3000萬小時的GPU算力。

「計算,為了無法計算的價值」,這是今年雲棲大會的主題,也是八年前第一屆雲棲大會的主題。2015年阿里雲憑藉完全自研的雲計算作業系統橫空出世,今天,阿里雲又站在了AI技術驅動雲計算變革時代的新起點。

這一次,阿里雲能夠繼續保持領先嗎?

1.為什麼說做大模型上雲已成必然?

要想理解阿里雲的大模型思路,需要先從大模型與雲計算的關係來看。

整個2023年,以GPU為代表的算力無疑是大模型討論最多的話題之一,而雲的重要性似乎被忽視了。但實際上,同為基礎設施的雲服務,也是驅動大模型發展的核心力量,甚至是「最佳拍檔」。

大模型對於雲服務商而言意味著新的增長力。在2023年前兩個季度,市場的反饋並不明顯。但今天,變化已經發生。

微軟、谷歌、亞馬遜已經在上周發布最新季度的財報。在生成式AI的驅動下,以Azure為核心的微軟智能雲並未如市場所預期的增長放緩,反而增速超過30%;AWS的收入結束了此前連續六個季度的放緩,並預計生成式AI會在未來今年帶來數百億美元的收入。市場占有率排在微軟與AWS之後的谷歌,由於雲收入低於預期,股價一度大跌9%。

大模型究竟為什麼需要雲?因為僅僅有GPU是遠遠不夠的,它需要「數據中心級」的重構。

2009年,阿里雲就提出「數據中心是一台計算機」的理念,如今,AI時代更加需要這樣的技術體系。阿里雲CTO周靖人認為,本次AI技術變革的本質,背後是整個計算機體系的全面升級。

在人工智慧的小模型時代,依靠的是傳統數據中心伺服器中的CPU,向外輸出「通用計算」能力——處理作業系統、系統軟體與應用程式這一類擁有複雜指令調度、循環、分支、邏輯判斷與執行等程序任務。但到了大模型時代,訓練大模型需要超大規模的數據處理和並行計算能力,算力從CPU轉向了GPU,形成了以GPU為核心的新體系,英偉達CEO黃仁勛稱之為「加速計算」。

加速計算是一個全棧挑戰,它必須把所有的軟體、所有的框架庫、所有的算法集成在一起進行工程化,這些工作不僅僅是針對一顆晶片,而是針對整個數據中心。要獲得最佳性能,需要對網絡作業系統、分布式計算引擎、網絡設備、交換機、計算架構等全棧內容進行優化。

因此,黃仁勛今年曾信誓旦旦地說:「我們正處於一個為期十年的數據中心智能化的第一年。」

周靖人也表示:「此前大眾可能有一個誤解,即只要有足夠的GPU,就可以連接在一起獲得更高的算力來支撐大模型的發展。但今天大模型並非依靠一個計算單元,而是需要成千上萬個計算單元聯合起來,這是一個非常複雜的分布式系統。」

以微軟為例,為了支持OpenAI訓練ChatGPT,專門設計了一台10000張A100晶片連接起來的超級計算機,在獲得高效能算力的同時,也要解決數據中心的散熱、斷電等工程問題的優化。

可以說,沒有微軟的雲服務支持,就不會有今天的ChatGPT。大模型訓練,雲不可或缺。

在雲棲大會上,阿里雲也針對大模型升級了AI基礎設施,提供更高性能、更低成本的智能算力。周靖人介紹稱,全新升級的阿里雲人工智慧平台PAI,底層採用HPN 7.0新一代AI集群網絡架構,高效協同調度各類晶片,可支持高達10萬卡量級的集群可擴展規模,讓超大集群像一台計算機般高效運轉。

據了解,阿里雲PAI可支撐多個萬億參數大模型同時訓練,超大規模分布式訓練加速比高達96%,遠超業界水平;在大模型訓練任務中,更可節省超過50%算力資源,性能全球領先。

阿里雲通義大模型系列就是基於人工智慧平台PAI訓練而成,包括最新升級的千億級參數通義千問2.0。此外,在國內主流大模型中,超過一半在阿里雲上訓練而成,包括百川智能、智譜AI、零一萬物、崑崙萬維、vivo、復旦大學等頭部企業及機構。

百川智能創始人兼CEO王小川表示:「百川成立僅半年便發布了7款大模型,快速疊代背後離不開雲計算的支持。」百川智能和阿里雲進行了深入合作,在雙方的共同努力下,百川很好地完成了千卡大模型訓練任務,有效降低了模型推理成本,提升了模型部署效率。

零一萬物是一家致力打造 AI 2.0 時代的平台及應用的全球化公司,由李開復博士帶隊創辦,即將於近日在Modelscope等平台正式推出自研大模型。零一萬物聯合創始人馬傑表示:「阿里雲PAI靈駿智算服務為零一萬物提供了高性能AI訓練集群和工程平台,助力零一萬物自研大模型,推動其AI-first的技術和應用生態。」

半壁AI算力囊收阿里雲,超過一半的中國頭部大模型公司,用腳投票,全面擁抱雲計算。做大模型就上雲,已是必然。

2.大模型的落地解法

從做大模型,到用大模型,中間要經歷漫長的落地過程。

基礎大模型具備了通用的世界知識,但在具體的垂直業務場景中,比如金融、醫療、交通等領域,由於缺乏專業的「培訓」,基礎大模型並不能勝任這些場景的任務。

某頭部國產大模型廠商發言人曾對「甲子光年」表示,大模型的落地痛點,在於行業客戶常常帶有「產品採購」思維,但現階段的基礎大模型,又不是一個可以開箱即用的產品,供給雙方之間認知並未對齊。常用的解決方案,就是在基礎大模型的基礎上加入專業性的數據語料做二次訓練或微調,得到一個專用的行業大模型。

誰來做行業大模型?有的是模型廠商自己做,有的是通過獨立軟體開發商(ISV)等第三方合作夥伴。對於這類新的AI交付方式業內並無更多經驗可循。

為了降低大模型的開發門檻,推動大模型在千行百業的落地,阿里雲在本次雲棲大會上「打樣」8個垂直行業模型——工作學習AI助手「通義聽悟」、助力企業服務向智能化與多模態轉型的「通義曉蜜」、AI閱讀助手「通義智文」、個性化角色創作平台「通義星塵」、智能編碼助手「通義靈碼」、AI法律顧問「通義法睿」、專業健康助手「通義仁心」、智能投研助手「通義點金」,讓大模型在金融、醫療、法律、編程、個性化創作等行業和場景中更易被集成。

這8大垂直領域模型將通過網頁嵌入、API與SDK調用等方式集成進各行各業,還將通過一站式大模型應用開發平台——阿里雲百鍊對外開放。

周靖人介紹,阿里雲百鍊集成了國內外主流優質大模型,提供模型選型、微調訓練、安全套件、模型部署等服務和全鏈路的應用開發工具,為用戶簡化了底層算力部署、模型預訓練、工具開發等複雜工作。開發者可在5分鐘內開發一款大模型應用,幾小時即可「煉」出一個企業專屬模型,幫助企業和開發者把更多精力專注於應用創新。

「阿里雲歡迎所有大模型接入阿里雲百鍊,共同向開發者提供AI服務。」周靖人表示。

目前,央視網、朗新科技、亞信科技等企業已率先在阿里雲百鍊上開發專屬模型和應用,朗新科技雲上訓練出電力專屬大模型,開發「電力帳單解讀智能助手」「電力行業政策解析/數據分析助手」,為客戶接待提效50%、降低投訴70%。

阿里雲百鍊除了支持企業調出行業模型,還支持開發大模型應用。在未來,大模型應用的爆發,需要極大量的AI推理算力,需求增長了百倍、千倍。

黃仁勛也有類似的判斷。最近NVIDIA官方發表了一篇與「黃氏定律(Huang's Law)」相關的技術文章,認為在未來單晶片性能和效率的AI推理性能,在不到十年的時間內將會提高1000倍以上。

英偉達投資的雲計算創業公司CoreWeave聯合創始人&首席戰略官Brannin McBee此前在接受採訪時曾舉了一個更直觀的例子:假如一家AI公司通過1萬個GPU訓練出大模型,那麼在產品推向市場的1~2年內,他們大約會需要100萬個GPU來支持整個推理需求。

如此巨大的AI推理需求,傳統數據中心更無法滿足,最佳夥伴依舊是雲。今年,阿里雲成功支撐火爆全網的妙鴨相機短時間高強度的流量爆發。阿里雲已在全球30個地域建設了89個雲計算數據中心,提供3000餘個邊緣計算節點,雲計算的低延時、高彈性優點將發揮得淋漓盡致。

3. 開源模型與開放的雲

對於今年剛剛起步的大模型而言,仍面臨諸多不同選擇,就像移動網際網路時代有iOS與安卓兩大作業系統陣營,大模型也正在經歷閉源與開源的同步發展。

開源,能進一步激發技術創新,也能帶動產業發展。不同於閉源的GPT-4那樣不再公布更多技術細節,而是將其作為核心商業秘密來構建產品壁壘,開源模型與開源社區則直接將代碼、模型、開發工具與數據集向開發者開放,比如Meta Llama2、Hugging Face等,這有效推動了大模型的學術研究與技術發展。

因此,開源大模型也吸引了眾多科技公司布局,來對抗「閉源王者」GPT-4。比如,今年9月,全球最大的大模型開源社區Hugging Face得到了谷歌、亞馬遜、英偉達、Salesforce、AMD、英特爾、IBM 和高通的共同投資,估值達到45億美元。今天,Hugging Face上的預訓練模型數量從此前積累的10萬個增長到了超過30萬個,數據集從1萬個增長至5.8萬個。

在國內,阿里雲是頭部大廠中最早做模型開源的公司,堅定選擇開源開放,阿里雲要打造一朵AI時代最開放的雲。

從今年8月開始,阿里雲陸續開源了通義千問7B、14B參數的通用模型與對話模型。在本次雲棲大會上,周靖人再次宣布通義千問72B模型即將開源,將成為中國參數最大的開源模型。

值得一提的是,阿里雲自研大模型與第三方模型並非競爭關係。恰恰相反,阿里云為所有大模型提供開放的社區,還提供免費的GPU算力幫助開發者去體驗三方大模型,截至目前阿里雲已免費提供超3000萬小時的免費GPU算力。

在阿里雲魔搭社區上,百川智能、智譜AI、上海人工智慧實驗室、IDEA研究院等業界頂級玩家,都在魔搭上開源首發他們的核心大模型。周靖人透露,魔搭社區現已聚集2300多款AI模型,吸引280萬名AI開發者,AI模型下載量突破1億,成為中國規模最大、開發者最活躍的AI社區。

「不同的場景會有不一樣的需求,一個模型不可能服務所有需求,也不是只有一種對應方式。促進中國AI生態繁榮,才是阿里雲的首要目標。」周靖人解釋,阿里雲不僅僅是服務某一類型客戶,而是要通過訓練及推理平台PAI、開放的模型社區魔搭、一站式模型服務平台「百鍊」,來系統地服務和滿足大模型生態中所有人的需求,共同促進生態繁榮。

至此,阿里雲在大模型時代的「陽謀」已經清晰——通過打造AI時代最開放的大模型體系,滿足並推進整個行業對算力和模型落地的需求升級,反過來再推動雲計算的技術疊代升級,從而實現整個產業的良性循環發展。

可以預見,一場為期十年的AI驅動的雲計算新周期開始了。

(封面圖及文中配圖來源:阿里雲)

文章來源: https://twgreatdaily.com/zh-cn/28ed7b06038755c003348dce86fb0236.html