還得是英特爾!科技企業 All in AI,但這些創新真正引領時代

2023-12-12     智能相對論

原標題:還得是英特爾!科技企業 All in AI,但這些創新真正引領時代

來源 | IT之家

作者 | 汐元

今年以來,chatGPT 的火熱出圈讓生成式 AI 掀起了全球人工智慧新浪潮,AI,正成為變革千行百業的新動力,也是各大科技公司共同押注的未來。

比如 AMD 最近就在 Advancing AI 活動中推出了數據中心 AI 晶片 AMD Instinct MI300X GPU,還有結合最新 AMD CDNA 3 架構和「Zen 4」CPU 的 MI300A 加速處理單元 APU 等等,引發了外界廣泛關注。

而在「AI 改變世界」的探索之路上,其實有一家企業早早就展開了布局,就是英特爾。2018 年,英特爾就提出要在 PC 上引入 AI,還推出了「AI on PC Developer Program」的 AI PC 開發者計劃。在此之後,英特爾持續將 AI 能力融入到旗下酷睿處理器產品中,從第 10 代酷睿-X 開始,英特爾就已經在其 CPU 中添加了 AI、深度學習相關的加速指令,包括在架構層面提升 AI 的性能,SoC 中內置 Intel GNA 以加速低功耗 AI 在 PC 上的應用等等,並且還將 AI 加速單元引入到 Xe、ARC 架構的 GPU 中。

英特爾多年的探索成果也將在最近迎來一次集中釋放。12 月 15 日,英特爾就將在國內正式發布基於全新 Meteor Lake 架構的酷睿 Ultra 處理器,而在 Meteor Lake 處理器中,英特爾最重要的舉措,就是將 Al 引入客戶端 PC,並在 Meteor Lake 處理器架構中集成了獨立的 NPU 單元,帶來獨立的低功耗 AI 加速能力。

具體到 Meteor Lake 中加入的集成式 NPU 單元,它實現更高效能的 AI 計算,包含了 2 個神經計算引擎,能夠更好地支持包括生成式 AI、計算機視覺、圖像增強和協作 AI 方面的內容。而且,這枚 NPU 不是單一孤島式的架構,除了 NPU,CPU 和 GPU 也都可以進行 AI 運算,不同場景下會用不同的 AI 單元去應對,彼此協調,如此一來,其整體能耗比相比前代最多可以提升 8 倍之多。

而當生成式 AI 基本本確定為 AI 2.0 時代後,為了讓 AIGC 能夠更好地在 PC 本地端運行,英特爾也做了很多努力。

在我們傳統的認知里,運行類似 ChatGPT 這種大語言模型必須要有大顯存的顯卡支持,比如前面我們講到的 AMD 推出的 Instinct MI300X GPU,但是這距離廣大消費者確實有點遠,而英特爾為了讓面向消費端的 12、13 代酷睿平台也能夠順利運行各種大語言模型並提供流暢的使用體驗,他們構建了 BigDL-LLM 庫,這個庫專門針對 Intel 硬體的低比特量化設計,支持 INT3、INT4、INT5、INT8 等各種低比特數據精度,性能更好,內存占用也更少。

通過這個庫,英特爾對各種大語言模型進行了優化和支持,包括一些開源的、可以在本地運行的大語言模型。這個庫甚至可以在一台搭載 16GB 內存的英特爾輕薄本的機器上運行參數量高達 160 億的大語言模型。此外還支持 LLaMA / LLaMA2、ChatGLM / ChatGLM2 等多個大語言模型。

且不說即將發布的酷睿 Ultra 系列,如今以第 12 代、第 13 代英特爾酷睿處理器和英特爾銳炫 A 系列顯卡為代表的英特爾多款客戶端晶片,均能提供強勁性能,以滿足生成式 AI 對於高算力的需求。對此IT之家也做了實際的測試。

測試中,小編選擇了一台通過英特爾 Evo 平台認證的輕薄本:華碩破曉 Air,這款輕薄本搭載英特爾 13 代酷睿 i7-1355U 處理器,16GB LPDDR5 內存。

小編在這台華碩破曉 Air 上裝好英特爾推出的大語言模型 Demo。這個 Demo 集成了三個大語言模型,包括 ChatGLM2、LLaMA2 和 StarCoder。它們均通過英特爾的語料庫進行了優化。

測試過程中,小編先在故事創作模式中讓大模型 Demo 幫我先一個公司年會的主持人開場白,它很快就將一段完整得體的開場文案呈現了出來,並且整個過程的 First Latency 只有 1249.8ms。如果是自己思考、編輯,得花很久,在 PC 上使用 AI 大模型,分分鐘就搞定了。

在大語言模型寫文案的時候,小編看了一下華碩破曉 Air 性能資源的調度情況,13 代酷睿 i7-1355U 處理器占用率達到了 100%,內存占用達到了 9.7GB(62%),Xe 核顯占用也達到了 39%。看來這個運算過程確實是在本地進行的。在英特爾不斷的優化和 13 代酷睿處理器算力的提升下,確實能夠在輕薄本上實現 AIGC 的落地。

接著小編又測試了一個問題,讓它提取一篇新聞的核心信息,它也能很快很準確地將新聞內容給「摘要」出來。這對於我們日常查詢資料、整理報告等都非常有用,可以大大提高我們完成這些工作的效率。

最後,小編讓大模型幫自己寫一篇朱自清《背影》的教學大綱,它同樣很快就列出了一套邏輯清晰完整,內容詳盡的大綱出來。對於工作有提煉、撰寫大綱需求的人,比如說老師,即便在沒有網絡的情況下,也能利用 AI 輔助教學工作,非常方便。

除了 CPU,英特爾也十分注重對 GPU 核顯性能的優化,讓 GPU 也能在終端側 AIGC 任務中扮演更重要的角色。例如針對廣為人知的開源圖像生成模型 Stable Diffusion,英特爾就啟用了 OpenVINO 的加速,他們開發了一套 AI 框架,通過一行代碼的安裝,就可以加速 PyTorch 模型的運行。通過 Stable Diffusion 的 WebUI,可以在銳炬集成顯卡和 Arc 獨立顯卡上運行 Stable Diffusion Automatic1111。

通過實際測試,可以看到在華碩破曉 Air 輕薄本上,Stable Diffusion 在集成顯卡上的表現效果。96EU 版本的英特爾銳炬 Xe 顯卡強大的算力,可以支持 Stable Diffusion 軟體上運行 FP16 精度的模型,快速生成高質量圖片。小編讓它生成一張「正在看電視的男人」,在華碩破曉 Air 上,只用了 1 分多鐘,就「順利出片」了。

而在生成過程中,IT之家也通過性能資源管理器看到,GPU 的占用到了 100%,同時 CPU 也有 15% 的占用,可見這張圖片確實是在本地利用 GPU 進行渲染的。

在過去,我們很難想像輕薄本可以擁有這樣的性能,但隨著 13 代酷睿處理器在性能、功耗比方面的進步,以及銳炬 Xe Graphics (96EU) 在 FP16、FP32 浮點性能的大幅提升,同時加入了 INT8 整數計算能力,這些都大大增強了 GPU 整體的 AI 圖形計算能力。這也就是華碩破曉 Air 這樣的輕薄本也能在本地側很好地運行 Stable Diffusion 的重要因素。

並且在我們開頭說到的英特爾 Meteor Lake 處理器中,GPU 核顯性能還會得到進一步提升,將擁有 8 個 Xe GPU 核心 128 個渲染引擎,更增加了 8 個硬體的光追單元,還會引入 Arc 顯卡的異步拷貝,亂序採樣等功能,也對 DX12U 做了優化。

從 AI 變革世界的發展角度來說,英特爾將 AI 廣泛引入 PC、帶領數億 PC 進入 AI 時代的努力是有著重要意義的,因為至少在可預見的未來,PC 都是人類最重要的生產力工具之一,英特爾的這些創新技術,讓 AIGC 能夠穩定、流暢地部署在 PC 終端側,這是一種來自於底層的、根本性的賦能,讓 PC 的生產力屬性能夠有脫胎換骨的變革,而個人計算的變革,進一步也會演化成全社會生產力變革。

所有這些,都能充分證明英特爾在 AIGC 領域的領導地位。他們的不斷創新,為用戶提供更智能、高效的計算體驗,推動人工智慧技術的發展和應用。相信隨著技術的不斷進步和完善,我們可以期待在未來看到更多更強來自英特爾的端雲結合的 AI 應用和解決方案,讓我們能夠更快邁進由 AI 驅動的生產力大解放的時代。

文章來源: https://twgreatdaily.com/7dc5a35e44fa301f28807c7c300310a3.html