在筆記本電腦本地跑大模型,英特爾要讓生成式AI無處不在

2023-06-12     芯東西

原標題:在筆記本電腦本地跑大模型,英特爾要讓生成式AI無處不在

芯東西(公眾號:aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西6月12日報道,過去一年,從Stable Diffusion、ChatGPT到大語言模型等,生成式AI技術發展迅速。晶片巨頭英特爾在生成式AI熱潮中能發揮的作用受到業界關注。

近日,英特爾院士、大數據技術全球CTO戴金權與芯東西等媒體進行交流,談到英特爾一直以來希望能夠將AI普適化,也希望通過對算力優化、計算能力的提升來支撐生成式AI無所不在。

為了AI可以無所不在,計算也要無所不在。英特爾的計算設備或者說計算能力本身就是無所不在的,無論是筆記本電腦上的CPU、集成顯卡、獨立顯卡,還是數據中心裡的至強伺服器,都實現了廣泛存在,可被視為一個通用計算的能力。戴金權說,如果英特爾能做到利用XPU技術,在這些通用的、無所不在的計算上提供AI能力,那便可能真的可以做到AI無所不在。

他告訴芯東西,用普通的筆記本電腦或台式機,在英特爾第12代酷睿處理器上跑大語言模型,僅用集成顯卡,已經能跑出非常好的效果。理論上,10代和11代酷睿處理器也可以支持跑本地跑生成式AI應用。如果用英特爾獨立顯卡,則能實現更好的性能提升。

一、目標是生成式AI普適化,從本地到雲端提供算力支撐

整體來看,生成式AI有兩類模型,一類是像Stable Diffusion這樣的擴散模型,可以生成圖片、音頻、視頻等等;另一類是大語言模型,從語言模型角度來生成文本、對話等等。兩種類型模型的需求不同,擴散模型普遍計算需求更高,大語言模型很多時候無法放到一張顯卡上跑,因此更多需要內存的帶寬和大小能夠支撐。

戴金權說,英特爾需對不同的計算要求、不同的內存要求、對Transformer注意力機制運算元的要求,以及稀疏化、低精度等對模型的壓縮,通過多樣化技術對模型部署進行更好的支持。多模態也是一個非常重要的方向,最終大模型追求的是不僅能處理文本,還能處理圖片、視頻等等,不再是一個單一的運算元,而是很多運算元在模型里同時存在,這帶來了一些技術上的挑戰。

「英特爾的目標是希望能夠將生成式AI普適化,不僅是從開源、開放的模型和軟體的角度,計算能力的角度,從筆記本電腦到台式機,到數據中心,從處理器到專用加速器,如何利用像OneAPI的架構,在上面整個的軟體棧提供這樣的能力,這是英特爾可以做到的比較獨特的地方。」他談道。

據他分享,英特爾希望做到AI無所不在,不管是在本地端、雲端、邊緣端,只有每一顆英特爾的晶片都可以提供這樣的智能計算能力來支撐這些生成式AI,才真正做到AI無所不在。

從硬體來看,英特爾可以從非常小尺寸的設備擴展到大規模的數據中心XPU架構,能夠支持未來生成式AI無所不在的需求。從軟體來看,當前主流大模型大多基於Transformer架構,業界對內存的需求和如何對其進行更好地加速做了大量的研究工作。

戴金權認為,Transformer這樣的大模型可能會有更大的尺寸和多模態融合的需求,包括輸入上下文的擴展,將來可能是今天的幾倍、幾十倍甚至更高。這會對軟體算法的設計,比如低精度、低比特、壓縮、稀疏化、注意力機制設計等產生不同的需求。所以,英特爾認為,軟體算法設計的多樣化,是將來有助於滿足生成式AI和大語言模型的算力需求的重要組成部分。

這些需求可能會進一步引導英特爾將來的訓練、推理,以及晶片的架構等。此外,大模型還在快速發展中,不同算法級別的發展,以及在不同場景適配的發展,都會給包括AI晶片在內的所有計算晶片、計算能力帶來深遠影響。

二、筆記本電腦本地暢跑大模型,僅用集顯20秒生成一幅中國畫

據戴金權分享,在支持生成式AI計算上,英特爾主要要做兩方面的工作。

一方面是硬體工作,在英特爾的XPU平台上,比如一個筆記本電腦也可以看到有一個強大的XPU平台,有CPU、集成顯卡、獨立顯卡,下一代還將有VPU,利用不同的加速來對生成式AI進行運算的支撐。數據中心端同樣如此,第四代英特爾至強可擴展處理器內置的矩陣運算加速器(英特爾AMX),還有英特爾數據中心GPU Ponte Vecchio(PVC)、Gaudi系列專用AI加速器。

對消費者而言,目前筆記本電腦本地跑7B(70億參數)大語言模型的運行速度已有很高提升。一般入門級的大語言模型在6B-7B的參數規模,13B(130億參數)的模型算是其中參數較大的,能以飛快速度完成對話、回答用戶問題。

除了大語言模型之外,目前英特爾可以將Stable Diffusion運行在12代酷睿筆記本電腦上。戴金權演示了用其實驗室的一台筆記本電腦本地運行Stable Diffusion,通過利用iGPU(集成顯卡),差不多20秒內就生成了1張中國畫風格的貓。這可以在任何一台普通英特爾筆記本電腦上實現,如果使用dGPU(獨立顯卡),三四秒就能生成圖片。

在數據中心端,英特爾至強可擴展處理器是一個面向通用伺服器的CPU產品,要想做到「生成式AI無所不在」,它必然需要與很多資料庫、和CIM系統結合起來。戴金權展示了在至強處理器上跑65B(650億參數)大語言模型的視頻。

另一方面,更關鍵的是軟體工作。

當需將生成式AI或大模型映射到不同的計算能力上時,需要通過優化的編譯技術的能力自動生成底層的最優的、最有效率的代碼。

英特爾利用軟體技術發揮硬體的計算能力,並致力於擁抱開源以及AI開放社區,包括在TensorFlow、PyTorch、Hybrid Bonding等開源軟體方面與業界有廣泛合作,如與OpenAI合作的AI編譯器Triton,以及和微軟合作優化的做大規模分布式訓練的軟體棧DeepSpeed等等。

此外,英特爾在低精度對模型的壓縮上,可以更加高效地部署大語言模型,在社區里可以看到非常多的int3、int4、int8等低比特計算,通過軟硬體的協作,英特爾才可以提供這樣的運算能力。

針對英特爾的平台和生成式AI模型,英特爾與Hugging Face在Bloom等開源模型上做了很多性能優化工作。幾個月前,Hugging Face英特爾利用Gaudi 2加速器對BLOOMZ 176B進行了優化和評估,結果顯示,與8張英偉達A100相比,用8張Gaudi 2運行推理,速度要快20%以上。

英特爾還與Hugging Face在Stable Diffusion上展開合作,在第四代英特爾至強可擴展處理器上,利用AMX高級矩陣擴展來進行矩陣加速,可以做到在5分鐘內微調一個屬於自己的Stable Diffusion模型,4~5秒進行一個推理。

戴金權談道,英特爾內部關於AI的工作,無論是數據、模型、應用,都有一個「負責任的AI」的流程,其中定義了如何消除偏見、如何使用正確的數據等;另一方面,大語言模型在實現對話、影響生產力流程起的同時,也會帶來數據安全和隱私問題。

英特爾在數據安全和隱私計算方面做了很多相關工作,藉助英特爾TDX、SGX等硬體級安全技術,加上軟體層構建的面向大數據分析和機器學習的隱私計算平台(BigDL PPML, Privacy Preserving Machine Learning),能避免數據出域,降低數據泄露風險。英特爾實驗室(Intel Lab)也做了探測判別Deepfake的研究,通過機器學習方法來判斷數據虛假性的問題等。

此外,本地部署生成式AI、大語言模型,本身就對數據、模型的隱私形成保護。

結語:軟硬體協同加速生成式AI,推動低門檻邁向未來計算

戴金權談道,對於計算產業來說,最重要的是如何提供計算能力,以支撐上層的應用、算法。英特爾提出了「軟體定義、晶片增強」,即用戶需要用軟體來定義自身需要什麼樣的計算能力,再從硬體角度來做更好的增強和支持。

從英特爾消費級CPU、集成顯卡、獨立顯卡,到伺服器端採用的至強可擴展處理器,以及在數據中心GPU、在Gaudi AI加速器上使用生成式AI,英特爾正將大語言模型和英特爾無所不在的計算能力相結合,提供一些全新的生成式AI體驗。

在此之上,英特爾致力於打造開源開放的生態系統,從開源軟體工具以及類似於像OneAPI這樣的開放標準,為客戶的筆記本電腦處理器、數據中心處理器、加速器做到針對不同場景的、對生成式AI的支持,讓開發者更輕鬆構建一個軟體。

除了被用於消費端內容創作和工作場景中的提高生產力外,生成式AI也日漸在AI for Science領域發揮作用。英特爾日前公布了擁有1萬億個參數的生成式AI大模型Aurora genAI,主要面向生物學、醫學、大氣科學、化學、天文學等科研領域。

文章來源: https://twgreatdaily.com/15e0f73141f50c43f8bf4e074815d017.html