貨源緊張+漲價,賣鏟子的成了熱門好生意

2023-11-08     凱恩斯

原標題:貨源緊張+漲價,賣鏟子的成了熱門好生意

算力租賃大漲,已經是前幾天消息了,說是阿里暫停了A100的出租,算力的供求缺口出現了擴大,可能要面臨新一輪的漲價,所以今天算力板塊捲土重來。

阿里雲停止出租英偉達A100伺服器。這個消息凸顯了計算資源的緊缺問題,還引發了大家去擔心,之後國內雲計算的缺口該怎麼補上?

行業內計算的缺口有哪些?

早些年很多行業公司需要在本地購買和維護昂貴的伺服器和計算機設備,才能滿足自己業務上計算需求。代價就是花錢,花錢,還是花錢,一個要買設備,另一個是要維護。

有了雲計算之後,直接能夠提供一種將計算資源作為服務租用的方式,大家可以憑藉自己的算力需求彈性地獲取計算能力,不用花錢去買設備。算力租賃服務提供商可以根據用戶的需求提供不同配置的雲伺服器,並可以隨時根據用戶的需求進行擴容或縮減。此外,新技術如容器化和伺服器less計算等也對算力租賃領域帶來了更多的創新和便利。

這裡面,就不得不提英偉達A100伺服器的在雲計算里的地位。

英偉達A100伺服器是一種高性能計算伺服器,廣泛應用於雲計算、人工智慧和高性能計算領域。其卓越的性能和並行計算能力使其成為了眾多雲計算供應商的首選。當然,英偉達的產品也不便宜,英偉達A100價格2022年12月份至2023年4月上半月期間,5個月價格累計漲幅達到37.5%,在今年5月17日A100 GPU市場單價達15萬元。而英偉達A800在相同期間的價格累計漲幅達20%, 5月17日A800GPU市場單價達9.5萬元。由此可見,在緊張的GPU市場內,租賃替代自建成為中小公司的選擇。

而阿里雲是長期租用英偉達A100伺服器以滿足其客戶的需求。阿里雲我們也知道,算是國內做的比較好的雲計算提供商了。特別是搭載了英偉達最新Ampere架構的A100晶片,其強大的AI加速能力,使得阿里雲成為訓練大模型的首選平台。

一旦英偉達A100伺服器的停租,會對國內雲計算行業產生不小的影響,畢竟現在各行各業對計算資源的需求不斷增加,供給是否足夠跟得上是一個很大的問題,但這也只是計算資源短缺問題的冰山一角,英偉達A100伺服器停租,以及GPU禁令進一步升級,4090顯卡限制出口,也加劇了算力租賃市場的緊張情緒。可能會再次擴大這個供給缺口。

至於為什麼停租,背後應該會有很多原因,比如政策、國際貿易等因素。美國對晶片出口的限制措施對雲計算行業造成了一定影響。這也使得雲計算企業得在供應鏈管理和風險規避上更小心。政策和國際關係的變化可能對計算資源的供應產生不穩定的影響。雲計算供應商就得去考慮怎麼做出更加靈活的供應鏈策略。

為何大多雲計算廠商承接不住這麼高算力的需求?

當然了,每一次出現什麼限制問題,國內的雲計算和租賃廠商都會或多或少的受到關注,但是國產算力行業怎麼發展?雖然廠商可以充分利用自身的資源和技術,為客戶提供高性能計算服務。畢竟國內這些廠商應該不存在什麼供應鏈管理和風險問題。

但是技術研發不行,還做不到英偉達那樣,特別是現在AI大模型及應用持續疊代,需要大量的算力支持。國產算力廠商怎麼發展?怎麼追?

回看國內部分廠商已經開展算力租賃相關業務,比如亞康股份、南凌科技、英博數科(鴻博股份全資子公司)、首都在線、優刻得、朗源股份、利通電子、寶騰互聯(中青寶旗下)、青雲科技,真視通,中貝通信、匯納科技、銅牛信息、順網科技、世紀華通、雲賽智聯、特發信息 等。

國內伺服器頭部廠商,比如中科曙光、浪潮信息、新華三(紫光股份旗下)、工業富聯、拓維信息等也展開相關布局。

這些廠商有的可以做IaaS雲服務,有的能做傳統IDC服務。但是行業里基本上是買不到英偉達的晶片或者伺服器了,可能轉而向中科曙光、海光信息、工業富聯這些國產伺服器廠商,那麼國內一些伺服器廠商也買不到晶片,就轉向華為、摩爾線程、壁仞科技這些GPU硬體廠商去買產品。即便買了,回來也得調試,我們之前說過英偉達有硬體還有適配的軟體生態,CUDA,很多國產AI晶片里的廠商是沒有自己的軟體開發生態的,所以國產算力晶片不能買來就能用,還需要晶片廠商進行調試。

所以即便是廠商也偶很多,但是大家也要知道的是,一般的雲計算廠商是承接不住這麼高算力的需求的,比如大模型訓練時需要很多GPU對同一個模型進行同時計算,既考驗GPU的總峰值運算能力,還考驗它的連接方式,這些都是決定GPU的利用率的因素。

傳統的GPU集群在單個伺服器內部可以使用大帶寬機內連接,但缺點是在伺服器之間還是使用傳統架構,不能做高效的多節點並行訓練。所以業務量大的大模型是沒辦法用單節點進行訓練。

但是高性能集群大量在節點間使用大帶寬光模塊進行互聯,可以大幅度增加多節點訓練時的GPU利用率。如果對方是做AI應用,那麼高性能集群的設計建設是會影響對方可以提供多少有效算力。

大概的意思就是大模型訓練需要的是具備高速互聯基礎的高性能GPU集群,而且要滿足客戶訓練大模型所需的算力,比如建設新的集群才行。傳統的單個的計算是解決不了這些問題的。

英偉達所提供的算力是行業里較多的,比如集群NvI.Dia DGX GH200。GH200和H100屬於同一代產品,其AI計算晶片架構相同,計算能力相當。但是,GH200的內存容量比H100大了3.5倍,這對於需要處理更複雜模型或更大數據量的AI任務來說更加有利。

而且GH200包含一個Grace CPU晶片和一個Hopper GPU晶片,兩者通過高速NVLink-C2C互連,帶寬高達900GB/s,實現了緊密的CPU和GPU數據交換。這使得GH200的GPU能夠直接訪問CPU內存。相比之下,在H100系統中,CPU和GPU通常僅通過PCIe連接,即使是最新一代的帶寬也只有128GB/s,不及GH200的NVLink-C2C的七分之一。因此,通過晶片級別的優化設計,GH200實現了更高效的CPU-GPU內存共享,這對於需要頻繁進行CPU-GPU數據交換的AI計算更加友好。

每個GH200集成512GB CPU內存和96GB GPU HBM3內存。Hopper GPU通過NVLink-C2C訪問Grace CPU全部內存。相比之下,單顆H100最多80GB HBM3內存,且無法高效連接CPU。基於GH200的DGX GH200集群,256個GPU連接後共享144TB內存(計算方式:(480GB+96GB)* 256)。DGX GH200適用於存在GPU內存瓶頸的AI和HPC應用。GH200通過超大內存和CPU-GPU互聯,可以加速這些應用。

可能這些專業詞不好理解,大概意思就是DGX GH200集群更實用,更好用。

國內很多雲計算廠商很難能夠真正的做高性能集群的業務,也就難以承接這麼大的算力需求。現在的大模型多為根據整個節點租賃提供算力服務的邏輯。若是想滿足超大規模計算、高通量的帶寬,也可以將業務的需求往算力節點上靠,這樣可以應對傳輸時延的情況。

所以不是每一家廠商都能夠做出來算力租賃業務,這波AI算力租賃業務的熱度,是在這兩個前提下,一個是可用於大模型訓練的算力資源和大模型訓練需求供需失衡,短期算力需求遠高於算力供給。另一個是時間對於大模型研發廠商來說也比較珍貴,行業里先完成大模型研發的廠商有望獲得更多的先發優勢。

呂長順(凱恩斯) 證書編號:A0150619070003。【以上內容僅代表個人觀點,不構成買賣依據,股市有風險,投資需謹慎】

文章來源: https://twgreatdaily.com/9ccddd2ed55db11554186e781523ccc4.html