通過近距離溝通,我們窺見了AWS的技術與方法論

2023-12-21     三易生活

原標題:通過近距離溝通,我們窺見了AWS的技術與方法論

不久前,我們三易生活用多篇內容為大家集中帶來了今年AWS re:Invent的相關信息。

當時我們幾乎解析了每一場重要的Keynote,還為大家分析了諸多AWS新產品、新服務的特點,以及它們在業內的特別之處。

但除此之外,在此次re:Invent 2023期間,我們其實還與AWS的多位內部人士進行了一些更為深入的溝通。由於其中涉及到許多剛剛發布、或是相互之間關聯性不是太大的新技術,因此當時我們沒有急於將其進行整理、並撰寫稿件。

不過隨著今年AWS re:Invent告一段落,我們也騰出了時間對所有的這些零散材料和信息進行整合,並從中挑選出了大家可能更感興趣的部分內容,來進行一次簡要的綜述。

AWS的多款「黑科技」,距離正式落地還需時日

首先,我們來聊聊在今年AWS re:Invent上發布的多款硬體和軟體新品的正式開放情況。

據AWS負責銷售、市場和全球服務副總裁Matt Garman透露的信息顯示,Amazon最新的自研推理晶片、也就是Trainium2,需要等到明年下半年才會正式面向全球市場開放。

相比之下,Amazon自研的新一代通用處理器、也就是Graviton 4,則已經發布了第一個實例的預覽。有看過我們三易生活此前相關分析的朋友可能會記得,它這次主要的提升集中在能效比方面。說得更直白一點,就是它雖然並不比Graviton 3E更快,但是會「省錢」很多,因此對於「非土豪型」的雲計算客戶會更加友好。而且AWSA即將推動新款通用處理器在亞馬遜雲科技中國區的落地,或許在不久之後,國內的雲計算客戶也將用上這款「新U」。

此外,Amazon最新的生成式AI語音助手服務、也就是Amazon Q,目前已經在部分可用區進行預覽,未來它也將會是一項「全球式服務」。

新技術的意義在哪?它讓客戶更加「平等化」

當然大家都知道,AWS如今幾乎每年都會發布新的自研晶片,還在不斷在推出更靈活、更加簡化操作的資料庫和人工智慧服務。那麼這就很自然地會產生一個問題,他們的創新動力從何而來,這些新的晶片和服務又是為什麼而生?

可能有的朋友會認為,這個問題還不簡單,因為市場有競爭,所以AWS也需要不斷自我進化。

確實如此,但事情並沒有這麼簡單。比如AWS全球汽車及製造行業專業服務團隊負責人John Allen在與我們的交流中,就曾多次提到「平等」、「民主化」這些概念。在他看來,諸如寶馬、豐田這樣的大型傳統車企固然是AWS的「忠實客戶」,但他們也確實很積極地在採用最新的生成式AI技術、在使用最新的雲計算晶片,去加速自己的產品和服務進步。

但與此同時,比如說汽車行業現在還有很多的新興品牌,這些廠商也會有快速研發產品的需求,並且他們也會對「軟體定義汽車」、會對自動駕駛的AI訓練,有著很大的需求。

然而,行業巨頭畢竟有先發優勢,那麼對於新興品牌而言,它們要如何才能儘可能地縮小技術差距,甚至在部分產品或服務上實現反超呢?不得不說,以AWS為代表、積極採納最新技術的雲服務提供商,就帶來了這種機會。

相比於自建資料庫、自建超算中心、自己去慢慢進行訓練疊代,AWS能夠提供快得多的算力、大得多的全球存儲池,而且還有多達10萬個以上、經驗豐富的合作夥伴,可以幫助這些新興企業「快速起步」,使用最新的雲端實例去開發產品、加速他們自己的算法疊代,或者是為他們的新車提供更穩定可靠的雲端資料庫和AI服務支撐。

當然,這些對於AWS自身來說也有好處,因為這就意味著客戶陣容的進一步開拓、意味著「雲計算」的影響力觸及到更多行業和更多企業,同時也代表著他們能夠獲取更多的經驗,去為自家的下一代硬體和服務疊代做好準備。

自研技術不是「自High」,必須基於實際需求

當提及AWS的自研硬體,以及他們在晶片方面的不斷創新時,可能也會有朋友想到,AWS並不是唯一一家能做自研晶片的雲計算廠商。那麼與其他的競爭對手相比,他們的優勢又體現在哪裡呢?

不得不說,這其實是最有趣的一件事。因為當我們縱觀整個AWS的自研硬體體系就會發現,他們的主要優勢表面上看起來似乎是起步比較早,所以疊代次數會更多一些。除此之外,AWS的自研硬體體系也比較「全面」,他們不只有自研的通用處理器、AI推理晶片、機器學習晶片,還有諸如網絡連接硬體、自研存儲系統等等。

但是以上這些其實都是「表象」,當我們將目光進一步擴大、去看到AWS最新的整個雲端算力情況時,可能就會注意到這樣一個事實,那就是AWS雖然有著大量的自研晶片,但他們並不是只靠自研晶片。他們還有許許多多的、第三方的通用算力方案,甚至很多第三方的算力方案都還是行業首發、甚至是獨占。

比如,亞馬遜雲科技大中華區產品部總監周舸在此次溝通中,就提到了來自NVIDIA的GH200。這是目前最新、最快的超大型GPU計算方案,在今年的re:Invent上,AWS方面就高調宣布了與NVIDIA的進一步戰略合作,並將會使用GH200去構成超大規模的UltraClusters算力集群。

值得一提的是,AWS自研的Trainium2晶片同樣會被用於超大型計算集群,同樣也可以提供超大規模的AI計算服務,而它與GH200將會是一個「共存」的、可選的關係。GH200是現階段最快的計算方案,它更適合追求極限性能、希望最大程度縮短計算周期的用戶;而Trainium2則擁有更低的功耗,更適合超長周期的模型疊代,並且對於重視性價比的用戶更為友好。

與此同時,無論在GH200、還是在Trainium2的集群里,AWS又都使用了他們自研的SRD私有網絡協議,以及相應的網絡接口和自研的Amazon EFA網卡硬體。這些由AWS自研的網絡設備可以消除傳統TCPIP網絡里的握手等待,大幅提升數據傳輸的穩定性和速度,進一步解放超大計算集群的效率。

所以這些就意味著什麼呢?簡單來說,AWS對於自研硬體的使用絕對不是為了「撐面子」,他們是完全出於經驗、出於客戶的實際性能需求,而去進行的硬體研發。

AWS方面非常清楚,到底哪些東西真正需要「自研」、哪些則使用通用方案更好,因為雲計算不是「面子工程」,最後註定還是要服務於客戶、服務於千行百業的。而任何一項技術,只有真正可以起到提升效率、推動行業進步作用,顯然它才是好的技術。而「為了自研而自研」最終往往只是在浪費資源,並且甚至可能起到拖後腿的作用。

文章來源: https://twgreatdaily.com/zh/5a43f3de51193d3d535af1e3c6d61bbb.html