「逃離」英偉達

2020-12-10     半導體行業觀察

原標題:「逃離」英偉達

來源:內容來自半導體行業觀察(ID:icbank)原創,作者:邱麗婷,謝謝!

繼11月亞馬遜將 Alexa 語音助手的部分計算任務轉移到自主設計的定製設計晶片Inferentia 後,近日,其再次宣布推出了全新的AI訓練晶片AWS Trainium,據消息稱,這是該公司用於訓練機器學習模型的下一代定製晶片。

這意味著亞馬遜將減少對英偉達晶片的依賴。

稱霸AI晶片領域

近年來,AI熱度不斷攀升,AI相關應用也在急劇增長,這引發了市場對超大型數據中心的強勁需求。另一方面,AI處理任務的持續增長,又會倒逼伺服器的配置要得到持續的升級。為了滿足深度學習訓練任務,硬體的複雜程度不斷提升,處理器性能也被提出了更高的要求。

目前在AI領域主要有GPU、FPGA 和ASIC三種技術路線。其中GPU在AI訓練方面已經發展到較為成熟的階段。而在GPU晶片領域,英偉達是龍頭老大。如今,全球估計有3000家AI創業公司,其中一半以上都是在英偉達的平台上構建的。

回看英偉達的發展史,其成立於1993年,這一年,全球有超過二十家的圖形晶片公司,到1997年,這個數字猛增至70家。

1999年,英偉達發明了GPU,為了讓GPU從軟硬體都走向通用,其又在2006年推出了Tesla架構,一改之前使用矢量計算單元做渲染的做法,而是把一個矢量計算單元拆成了多個標量計算渲染單元。這就使得基於這個架構的GPU除了渲染能力強以外,還適合做通用計算。

也就是在這一年,英偉達推出了CUDA。按照他們的說法,這是一種用於通用GPU計算的革命性架構。CUDA將使科學家和研究人員能夠利用GPU的並行處理能力來應對其最複雜的計算挑戰。

正是得益於這兩個方向的布局,英偉達在AI時代如魚得水。自2016年起,英偉達數據中心業務開始爆髮式增長。同比增長率連續七個季度(2QFY17-4QFY18)超100%。

英偉達數據中心業務單季收入及同比增長率 資料來源:英偉達公司官網

與此同時,英偉達GPU在全球主要雲廠商中也獲得了極大的認可。根據Liftr調查顯示,在阿里雲、AWS、微軟Azure以及Google Clound中,Tesla系列GPU的市場占有率比AMD、賽靈思以及以英特爾大幅領先。充分說明英偉達Tesla系列GPU在通用計算市場的強大競爭力。

逃離英偉達

當然,英偉達的AI晶片王座也不是那麼好坐的。

誠如前文所言,一些廠商已經開始自研晶片,除了亞馬遜之外,谷歌早在幾年前就推出了自稱性能可達同等級GPU產品15~30倍的AI專有晶片TPU;華為在去年8月推出「算力最強」的AI(人工智慧)處理器Ascend 910(昇騰910)等。

不過他們自研的大多是推理晶片,意圖在專用性能上打敗英偉達GPU,以擺脫英偉達在訓練晶片的壟斷。

資料顯示,由於神經網絡模型在訓練階段需要處理大量數據,同時也要完成不同的學習任務,因此目前通用屬性的GPU具備的大量平行運算單元,能夠充分滿足「訓練」對運算的效率與通用性要求。但進入執行階段,也就是「推理階段」,一個算法模型可以根據一堆量級不大的新數據得出結論。

這時候採用GPU就顯得有些「大材小用」。這就是這些廠商為何研發定製推理晶片重要原因之一,對於大量推理工作,通用性或許不足,但專用肯定綽綽有餘。

不僅如此,這些廠商的自研晶片在它所擅長的任務上,可能具備在效能與算力上大幅領先 GPU 的能力。對比發現,谷歌TPU和特斯拉FSD都能輕易做到相較GPU,性能和效率都高出一截的表現,即便這是以犧牲可編程性為代價。

當然,也有一些業界人士對這些自研晶片存有疑慮。因為他們認為,無論是自己做,還是部署其他公司的商用晶片,難度其實不相上下。

但不管怎麼說,這些自研晶片的廠商確實對英偉達造成了一定的威脅,並且聲勢愈發浩大。

挑戰英偉達

與此同時,國外還存在Graphcore、Intel和AMD這些廠商,他們則希望從通用角度去挑戰英偉達。

首先是Graphcore,其創始人兼CEO Nigel Toon曾在一次訪談中指出:「如果只是要做基本的前饋卷積神經網路(feed-forward convolutional neural networks),GPU是很不錯的解決方案,但隨著網路變得越來越複雜,人們需要全新的解決方案──這也是為何他們要用ASIC和FPGA。我們接觸過的所有創新者都說,GPU正在阻礙他們創新。如果仔細看他們正在研究的模型類型,你會發現主要是卷積神經網絡(CNN),而遞歸神經網絡(RNN)和其他類型結構,比如強化學習,並不能很好地映射到GPU。他們需要足夠好的硬體平台,這是我們將IPU推向市場的原因。」

按照Graphcore給出的解釋,其IPU晶片可以進行推論或訓練,從架構的角度來看,這非常重要,因為隨著機器學習演進,系統將能夠從經驗中學習。推論性能表現的關鍵包括低延遲、能使用小模型、小批次(small batches),以及可能會嘗試導入稀疏性(sparsity)的訓練模型;IPU可以有效地完成所有這些事情。

與市面上領先的GPU方案相比,如果是執行用以分類靜態影像的前饋卷積神經網路,GPU的表現已經相當好,但IPU可以提供兩到三倍的性能優勢、有時甚至是五倍。對於更複雜的模型,例如有資料來回傳遞以嘗試理解情境(例如對話)的模型;由於資料被傳遞多次,需要非常快。對於這樣的應用,因為所有的模型都保存在處理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

所以在Graphcore眼中,IPU是自CPU、GPU之後的第三大類主流處理器。「通用」在這個路徑中是個必選項,而毫無猶豫的必要。

同時,英偉達還面臨著老對手--AMD以及英特爾的挑釁。

早在英偉達進軍GPGPU的前後,AMD也有與之對應的計劃,AMD選擇推行「OpenCL」,這導致即使他們在2017年發布了ROCm平台來提供深度學習支持,但也改變不了他們GPU在AI時代幾無所獲的結局。

於是,今年三月份,AMD又推出了新的CDNA架構。基於這個架構,AMD在本月中發布了新一代的Instinct MI100計算卡。數據顯示,新的架構可提供高達11.5 TFLOPS的FP64峰值吞吐量,這使其成為第一個在FP64中突破10 TFLOPS的GPU。與上一代MI50相比,新加速卡的性能提高了3倍。它還在FP32工作負載中擁有23.1 TFLOPS的峰值吞吐量。數據顯示,AMD的新加速卡在這兩個類別中都擊敗了Nvidia的A100 GPU。

為了更好地與英偉達競爭,AMD還表示,其開源ROCm 4.0開發人員軟體現在具有開源編譯器,並統一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。

AMD在GPU領域花的心思並不少,今年10月份,AMD還宣布將以350億美元價位收購賽靈思,合併後的公司將擁有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。當然除了硬體外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU開發環境,再加上賽靈思Vitis,足以對抗英偉達頗受歡迎的CUDA開發平台,以及英特爾力推的oneAPI。

英特爾同樣是AI晶片領域的活躍者,據介紹,英特爾的Xe架構GPU將覆蓋從集成顯卡到高性能計算的所有範圍。其中代號為Ponte Vecchio的獨立GPU則是公司面對HPC建模和仿真以及AI訓練而推出的設計。Ponte Vecchio將採用英特爾的7納米技術製造,並將成為英特爾首款針對HPC和AI工作負載進行了優化的基於Xe的GPU。但直到目前為止,尚未看到Intel的這款新品。

近日,IFTD2020上,Intel還發布了首款用於5G、人工智慧、雲端與邊緣的eASIC N5X(結構化ASIC),同時發布了最新的Intel開放式FPGA堆棧(Intel OFS),這款產品繼承了Agilex FPGA的硬核處理器系統、安全特性,支持Agilex FPGA用於管理啟動、身份驗證和防篡改特性的安全設備管理器,採用了Diamond Mesa SoC技術。

此外,為了更好地在包括AI在內的應用市場中發揮其包括CPU、GPU、FPGA和AISC在內的晶片的為例,方便開發者編程,Intel還推出了擁有遠達理想的OneAPI。整個行業內,英特爾是目前在異構計算上擁有最全產品線的, 在硬體上擁有CPU、獨立GPU、FPGA、eASIC、ASIC、VPU、內存和存儲等,在軟體上擁有統一開發平台oneAPI。

因此,在未來的AI晶片市場上,我們很難去辨別到底誰會笑到最後,但很明顯的是,這些廠商將在各自的領域發力,逼迫英偉達吐出吞下的巨大市場。

總結

總的來說,無論是專用還是通用方面,英偉達都面臨著來自各個廠商的壓力。尤其是對於雲廠商而言,在巨大利潤漩渦下,誰也不能逃脫,自研晶片成為了必然選擇。

當然,就目前的AI晶片市場而言,英偉達仍然可以在一段時間內把控大部分份額,畢竟包括英特爾在內,大多數聲勢響亮的AI晶片公司才剛剛出貨,或正在努力出貨的路上(有些還沒等到出貨就夭折了),這給了英偉達升級產品充裕的時間。

更重要的是,對於GPU而言,軟體和開發者生態才是硬道理。只有做好了這個,才是GPU能夠商用的前提。

逃離英偉達成為常態,超越英偉達卻並不容易。

文章來源: https://twgreatdaily.com/zh-tw/DkikS3YB9j7PxaI7AKrv.html