高通萬衛星:生成式AI落地端側,解密高通的軟硬體AI大招丨GACS 2023

2023-10-25     芯東西

原標題:高通萬衛星:生成式AI落地端側,解密高通的軟硬體AI大招丨GACS 2023

芯東西(公眾號:aichip001)

編輯 | GACS

9月14日-15日,2023全球AI晶片峰會(GACS 2023)在深圳市南山區圓滿舉行。在首日主題演講開幕式上,高通AI產品技術中國區負責人萬衛星分享了主題為《終端側AI是AI的未來》的主題演講。

萬衛星著重分享了高通對生成式AI未來發展趨勢的觀察:隨著雲端處理生成式AI的成本不斷提升,未來雲經濟將難以支撐生成式AI的規模化發展。此外,基礎模型正在向多模態擴展,模型能力越來越強大,而垂直領域模型的參數量也正在變得越來越小。未來,豐富的生成式AI模型將在終端側運行,讓大眾享受到生成式AI帶給生活、工作、娛樂上的變革。

以下為萬衛星的演講實錄:

尊敬的各位嘉賓,各位同行,大家上午好!很榮幸作為高通中國的代表參加這次峰會並進行演講,我非常期待能跟各位一起共同推動AI產業在中國的繁榮發展。今天我給大家帶來的演講主題是終端AI是AI的未來。

一、終端側AI加速落地,高通已深耕端側AI多年

隨著去年Stable Diffusion、Midjourney和GPT的火爆,生成式AI的概念在以指數速度在我們普通大眾中普及。前面有嘉賓也分享了,ChatGPT是有史以來最快的,只花了兩個月的時間就擁有了1億使用者的應用。

回到這張膠片,雖然我在這裡列舉的多數是圖片相關的生成式AI應用,但是我們也知道生成式AI應用不僅僅是局限於圖像,還包括文字生成文字、圖片生成圖片,甚至包括文字生成代碼、音樂,圖片生成視頻,等等。

我們看到現在的基礎大模型都在朝多模態模型轉變,我們認為這將深刻影響到我們的生活、工作和娛樂方式。為了讓普通大眾能夠更方便地享受到生成式AI,生成式AI需要在終端側運行,這也是高通公司努力推動的一個方向。

我們認為數據在哪裡,AI的推理就應該在哪裡。這個正確的地方,就是在終端側。跟雲端相比,端側的優勢包括成本、能耗、可靠性、時延和性能,還有非常重要的隱私和安全,因為所有數據都保留在終端,不會上傳到任何雲端。

除此之外,我們還可以根據端側的信息為不同的用戶提供定製化、個性化的服務,所有的這些服務都不依賴於任何網絡連接。對於一些有著上千億參數,只能在雲端運行的大模型,高通的5G技術也能夠幫助我們充分利用雲端的算力,提高我們在端側的AI體驗。

在今年2月份的世界移動通信大會上,我們基於第二代驍龍8的終端演示了全球首個在安卓手機上運行Stable Diffusion的終端側演示,通過高通全棧式AI對Stable Diffusion這樣一個超過10億參數的文生圖大模型的優化,我們可以15秒內完成20步推理,輸出一張512*512的圖片。

今年6月份,同樣也是基於第二代驍龍8,我們完成了全球最快的手機上運行ControlNet終端側演示,ControlNet是一個參數量比Stable Diffusion更大的圖生圖大語言模型,用戶可以輸入一些文本,同時選擇輸入你日常拍攝的一張普通照片。比如說現在展示的拍了一張花瓶的照片,通過ControlNet得到一張具有文藝復興時期作品風格的輸出照片。當然,你也可以用它做其他的事情,比如對旅遊照片做背景切換或者構圖等等。

二、生成式AI發展三大趨勢,終端側AI勢不可擋

下面我想談一談我們觀察到的,生成式AI當前的發展趨勢。

第一個趨勢,生成式AI的成本。我們這裡舉了一個例子,單就網絡搜索為例,使用生成式AI的新技術跟傳統的辦法相比,每次搜索的成本提升10倍。考慮到還有各種各樣的生成式AI應用正在湧現,以及全球數十億的用戶,顯而易見,雲經濟將難以支撐生成式AI的規模化發展。

第二個趨勢,我前面也提到,現在數據的模態非常多,有文本、圖像,音樂、語音等等,基礎模型正在向多模態擴展,也就是說用戶可以隨意輸入任意模態的數據,可以得到與之對應的任意模態的輸出數據,也就是所謂的「X to X」。

第三個趨勢,我們能看到現在的基礎模型變得越來越強大,但同時垂直領域模型的參數量變得越來越小,比如說GPT-3總的參數量在1750億,但是Meta發布的Llama,包括國內的百川等模型,他們的參數量要小很多,可能只有70億或者130億。

跟大參數量基礎模型相比,這些相對較小參數量的大模型在某些垂直領域,性能依然十分強大,這也是為什麼我們認為在未來,我們非常有機會將這些模型在終端側部署,讓更廣泛大眾能夠享受到生成式AI給我們的生活、工作、娛樂帶來的各種變革。

如果我們仔細看一下不同的這些生成式AI的用例,包括文字生成圖像或對話、NLP(自然語言處理)、編程、推理甚至包括圖像、視頻理解等等,所有支撐這些AI用例的大模型,它的參數量在10億-150億之間,這也是為什麼我們認為在終端側完全有可能讓這些模型跑起來。

當前我們可以支持10億包括15億參數的大模型在驍龍平台支持的終端側運行。未來幾個月我們也非常有希望能看到,超過100億參數的大模型能夠完整地在驍龍平台上跑起來。我們在終端側通過不斷提升大模型支持的參數閾值,讓更多雲端的生成式AI用例向邊緣側遷移。

像手機這樣的終端,它有著相機、麥克風、傳感器、藍牙、Wi-Fi、數據機等等能夠提供感知信息的模塊,而這些感知信息可以作為生成式AI輸入提示,讓終端可以提供更個性化的服務,而不需要通過任何網絡連接。

但同時人們可能擔心,所有的個性化隱私數據當作生成式AI的輸入,會不會有隱私安全泄露的問題?針對這方面的擔心,我們認為一個比較好的解決方案,是讓整個模型完全閉環跑在終端側,讓所有感知信息、隱私數據全部保留在終端側,沒有任何數據可以上雲。

三、高通AI引擎成硬體殺手鐧,多項黑科技實現能效翻倍

高通之所以能夠支撐這些超過10億參數,甚至未來超過100億參數量的大模型在終端部署,所依賴的是高通強大的高通AI引擎和統一的技術路線圖。

下面,我會從硬體和軟體兩個角度分別跟大家展開介紹。

第一就是我們的硬體高通AI引擎。可以看到,高通AI引擎既有通用的CPU、GPU硬體加速單元,還有一顆專門為大算力AI工作負載而設計的高性能AI硬體加速單元Hexagon處理器。

在此之上我們還有另外一塊單獨的超低功耗處理器,高通傳感器中樞,適用於一些始終開啟功能,比如相機、螢幕和語音喚醒等等。這些模塊共同構成了一整套異構計算系統,同時結合我們的異構軟體系統,能夠充分釋放高通AI引擎的AI加速能力。

高通的AI硬體優勢在哪裡?我覺得第一是性能,我們不僅能提供領先的峰值性能,也能提供非常好的能效。我們在既定功耗下的性能領先於手機和PC領域的競爭對手。

第二點,前面有嘉賓提到,目前大語言模型70%都是基於Transformer,高通在硬體上,也針對Transformer網絡架構做了專門的硬體優化,重塑了神經網絡架構,減少運算元數量,引入了先進的量化、微切片推理等技術。

微切片推理技術可以把一個比較大的模型切成更細粒度的切片,在更細粒度的層面上對整個運算元融合,包括邊緣計算等做加速,充分利用較大的配套內存,提高配套內存的使用率,儘量去降低跟DDR的交互。

因為大家知道,其實在數據讀取上,讀取配套內存跟讀取DDR,性能大概有1-2個數量級的差異。除此之外,我們還專門針對Transformer裡面的激活函數和分組卷積做了專門的加速。

大家都知道神經網絡裡面有不同的數據類型,這顆Hexagon處理器上有標量、向量和張量加速器。尤其是張量加速器,跟上一代產品相比,算力翻倍。

另外是量化技術,功耗對於終端設備是一個非常關鍵的問題,所以我們在做模型推理的時候,對模型做量化是一個非常好的手段。高通此前就提供了對INT8和INT16的支持,甚至我們支持它們之間的混合量化。有些神經網絡架構對首尾層精度要求比較高,但在中間層對精度要求沒那麼高,所以我們提出的混合量化,可以針對某些層用INT16去做量化,對於精度要求不那麼高的,用INT8去做量化。

這樣既可以享受到INT8量化帶來的性能優勢,也可以享受到INT16帶來的精度優勢。在去年年底的驍龍峰會上,第二代驍龍8宣布首次支持INT4精度量化。INT4量化跟INT8量化相比,可以帶來60%的功耗節省或者90%的性能提升。

四、一次開發多端部署,打通軟體底層加速生態擴展

前面講的大多數跟硬體相關,在軟體方面我們推出了高通AI軟體棧(Qualcomm AI Stack),這是一個跨平台、跨終端、跨OS的統一軟體棧,它貫徹了我們的每一條產品線,包括手機,汽車、PC,還有各種IoT設備、機器人等。

這張圖就是我們高通AI軟體棧的整體框架。從上往下看,最上面是我們的框架層,我們支持目前主流的框架,包括TensorFlow、PyTorch、ONNX、Keras等等。

再往下是Runtimes層,高通有自己的Runtimes,叫高通神經網絡處理SDK,我們的合作夥伴或者開發者可以直接調用我們的Runtimes。當然,我們也支持開源的Runtimes,包括像ONNX、Direct ML、TF Lite等等。我們還有更底層的模塊去支持第三方的Runtimes,叫高通AI引擎Direct。第三方Runtimes可以調用高通AI引擎Direct的接口,充分利用高通AI引擎的AI硬體加速單元來做推理加速。

再往下就是開發者庫和服務層,我們提供豐富的加速庫給到開發者去做調用。同時,我們還提供編譯器,讓開發者在做模型轉化時對高通底層的硬體更友好。同時我們的編譯器也可以支持用戶通過我們給定的引導去寫自己定義的運算元。

除了編譯器之外,我們還提供比較豐富強大的分析器和調試器。開發者在做推理部署的時候會發現,很多時候推理性能或者精度不如人意,我們的工具可以告訴開發者整個推理性能在哪裡;網絡結構、推理結構對高通硬體是否友好;或者是哪一層引起的精度問題,是因為量化位寬不夠,還是本身的運算元在高通HTP實現的效率不夠好等等。

再往下就是我們的系統層。系統層提供了豐富的系統接口,也提供了各種各樣底層的Kernel驅動器。當然,我們還提供了一個仿真支持。如果開發者沒有拿到高通的平台或者開發板,但又想知道整體算法在驍龍平台上部署的表現情況或者精度怎麼樣,可以用我們的仿真支持,我們有一個模擬器會給到大家。

再往下就是OS層,高通的產品線非常豐富,OS層支持安卓手機、平板、PC的Windows系統,還有各種IoT設備採用的Linux或者是CentOS等等,還有我們的QNX。我們把所有的OS都集成在高通AI軟體棧裡面,能夠支持高通所有的產品形態。

除此之外,我們還有高通AI模型增效工具包(AIMET),AIMET最主要有兩個功能,一個是幫助大家做量化,我們支持PTQ(量化感知訓練)和QAT(訓練後量化);另外是模型壓縮。

總結一下,高通AI軟體棧是一個跨平台、跨終端、跨OS的統一軟體棧。高通AI軟體棧旨在幫助合作夥伴及開發者在驍龍平台上更高效地完成軟體部署,提高它的擴展性,也就是所謂的一次開發、多次部署。以上就是我今天演講的全部內容,謝謝大家!

以上是萬衛星演講內容的完整整理。

文章來源: https://twgreatdaily.com/zh-my/845b43829c3d4ecc2c7a11b3240209ea.html