AI浪潮下,如何體現雲服務的價值?

2023-06-29     InfoQ

原標題:AI浪潮下,如何體現雲服務的價值?

作者 | 魯冬雪

6 月 27 日至 28 日,2023 亞馬遜雲科技中國峰會(下文稱「峰會」)於上海順利召開。在本次峰會上,我們似乎找尋到了雲計算領域競爭對手均日漸成熟,而 亞馬遜雲科技卻能一直保持領先地位的原因——過去的十幾年裡,亞馬遜雲科技「基於客戶需求,快速進行產品更新與技術疊代」的 Day one 理念,一直不斷地追求基礎架構層面的創新。

6 月 28 日上,亞馬遜雲科技大中華區產品部總經理陳曉建進行了以《專注創新,擺脫基礎架構束縛》為主題的演講,在演講中他分享了亞馬遜雲科技眾多應用案例實踐,闡明了亞馬遜雲科技在雲基礎架構方面的能力與創新及在全球布局方面做出的努力。

1企業亟需提高「用雲」性價比

隨著企業數字化轉型的需求增加、市場競爭的加劇,企業需要將業務和數據遷移到雲上,以實現更高效的生產和服務,以適應市場的變化。所以我們也觀察到越來越多的企業開始上雲,然而上雲的門檻並不低,需要考慮的東西非常多,比如技術能力、安全合規風險、成本費用、用戶體驗等,很多企業 CTO 表示,「想上雲,但是有心而力不足」,大多企業目前提出了亟需降低雲服務使用門檻、提高「用雲」性價比的需求。

為了提高企業雲服務使用的性價比,亞馬遜雲科技為用戶提供全面和深入的算力支持,提供包括 Intel、AMD、 英偉達和自研的 CPU 及加速晶片產品,這其中最值得一提的就是亞馬遜雲科技的四個自研晶片:Nitro、Graviton、Inferentia、Trainium。

Nitro 是亞馬遜雲科技的第一款自研晶片產品,Nitro 主要有三個亮點:第一,做了高度輕量化的虛擬化;第二,實現網絡層面的數據通信和存儲的隔離;第三,實現了硬體級別的加密。有了 Nitro 之後,亞馬遜雲科技能夠大大增強 EC2 整個實例應用的安全性,每個單元可以獨立發展,也確保 EC2 所有實例運行的穩定。 因為 Nitro 的出現,亞馬遜雲科技大大降低了推出一個新 EC2 實例工作的複雜性,使得其保持一個非常快的增長的速度,進一步降低客戶成本,從而幫助企業達到降本增效的目標。最新一代 Nitro V5 晶片相比之前的晶片性能有大幅的提升,包括更快的轉發率,包括更低的延遲,每瓦特性能提升 40%。

基於 ARM 架構的通用處理器晶片 Graviton 自 2018 年起,亞馬遜雲科技陸續推出三代 Graviton 伺服器晶片,在去年的 re:lnvent 全球大會上,亞馬遜雲科技推出了自研的、基於 ARM 架構的高性能計算伺服器 CPU 晶片 Graviton3E 晶片。縱觀 Graviton 系列晶片的升級歷程,Graviton3 計算性能提高 25%,浮點性能提高 2 倍,加密工作負載性能加快 2 倍;Graviton3E 特別關注向量計算的性能,跟前一代相比高 35%,這個性能提升對於像 HPC 高性能計算這樣的應用來說是非常重要的。

從具體案例來看,在 HPL(線性代數的測量工具)上 Graviton3E 性能提升 35%,在 GROMACS(分子運動)上性能提升 12%,在金融期權定價的工作負載上性能提升 30%;同時,Graviton3E 和類似的 X86 的 EC2 實例相比,Graviton3E 還能節省 60% 的能耗。

如今 Graviton 系列晶片的優秀性能表現已經得到了充分驗證,本屆峰會上,陳曉建講到的世界一級方程式錦標賽(下文簡稱「F1」)案例便充分體現了亞馬遜雲科技在算力資源、數據存儲方面的能力。F1 利用 Graviton3 運行空氣動力學模擬,可以用比以往快 70% 的速度開發新一代賽車,賽車壓力損失可以從 50% 降低到 15% ,這使超車更容易,為車迷可以帶來更多賽場的纏鬥。此外,F1 通過 5000 多次單車和多車模擬,收集了超過 5.5 億個數據點,幫助他們進行下一代賽車的優化。用 F1 團隊表示,「Graviton3 讓系統性能快了 40%,可以晚間運行模擬,第二天早上就能得出結果。」

在機器學習技術探索賽道中,目前亞馬遜雲科技已經發展出三代不同的機器學習晶片。在訓練方面,亞馬遜雲科技先後推出的加速晶片 Inferentia 和 Trainium 覆蓋了訓練和推理的場景,能為企業提供最佳的性價比。因此,許多領先的 生成式 AI 初創公司,例如 AI21 Labs、Hugging Face、Runway 和 Stability AI 都選擇 Inferentia 和 Trainium 作為他們整個研發和應用的平台。

在機器學習訓練中,最重要的指標是訓練效率和性價比。以 HuggingFace BERT 模型為例,基於加速晶片 Trainium 的 Trn1 實例的性能表現非常不錯,從訓練吞吐量角度看,其與同類型 GPU 實例相比,在單節點情況下,可實現 1.2 倍吞吐量的提升;在多節點情況下,實現 1.5 倍吞吐量的提升;從成本角度,單節點實現了 1.8 倍成本降低,集群的成本降低了 2.3 倍。

隨著模型越來越複雜,很多時候靠一個單點的計算訓練是無法滿足用戶的需求,在很多時候都需要一個分布式的訓練,比如需要非常大規模的集群,通過 Trainium 便可以構建一個超大的集群,它可以有 3 萬張的 Trainium 晶片,使企業可以獲得雲上 6 ExaFlops 的超算級性能。這背後涉及很多創新,比如更快的 EFA 網絡以及 PB 級別的無阻塞網絡互聯等。

在機器學習推理中,推理往往要考慮延遲和吞吐,企業需要更高的吞吐力來帶來更優的性價比,但是往往更高的吞吐率會帶來更高延遲,所以開發者往往要在延遲和吞吐中權衡。Inferentia2 的設計就考慮到了兼顧吞吐和延遲的優化,如果拿一個基於 Inferentia2 的實例做測試,以自然語言處理領域常見的 BERT 模型為例,在 Inferentia2 上可實現高達 3 倍的吞吐提升,8.1 倍的延遲降低,4 倍的成本節約,使得企業開發者二者兼而有之。

另外值得一提的是,Inferentia2 在大語言模型中的表現也非常的突出。拿一個 OPT 模型來做測試,中等規模的 OPT 模型 OPT-30B 為例,相較於通用的 EC2 GPU 實例,Inferentia2 可實現 65% 的吞吐量提升,推理成本可降低 52%;660 億參數級別的 OPT-66B,通用 GPU 實例已經顯示內存不足的情況下, 而在 Inferentia2 上還可以實現每秒 351 個 token 數的吞吐量。

2「AI 創新」使算力需求井噴、運維複雜性增加

隨著 AI 大模型的發展,大模型應用規模呈爆髮式增長,加速了未來計算時代的來臨,引發了新的生產力革命,但同時也導致算力供不應求,在這個過程中,算力直接反映了數據處理能力的強弱,用戶不僅需要更高性價比硬體的解決方案,他們還需要雲廠商提供高度彈性化的伸縮。與此同時,巨大算力的增加,使企業雲運維成本大大增加,如何降低雲運維的複雜性也是企業目前面臨的難題。

為了應對彈性算力的需求,亞馬遜雲科技提供超過 600 種不同的計算實例,處理器、存儲、網絡及各種周邊服務均可與計算很好地結合,以積木的方式形成豐富的、靈活的計算實例資源,滿足多種不同算力要求。

要知道,從存儲層面,當數據規模達到 PB、EB 級別時,數據的存儲方式非常重要。用戶的數據存儲可分為熱、溫、冷、凍四種類型,每種類型的存儲成本和性能不同,都需要平衡。所以,亞馬遜雲科技提供多達八種的存儲級別,包括高性能計算、機器學習和通用計算等,企業根據需要選擇最合理的存儲級別。

這其中最具有代表性的案例就是《阿凡達》的製作公司 Weta Digital,其在開發《阿凡達 1》時,他們自建了一個占地 10000 平方英尺的機房,構建 4000 台物理伺服器和 35000 個處理器核心。然而,在開發《阿凡達 2 – 水之道》時,他們原有的集群已經無法滿足需求。於是,亞馬遜雲科技為 Weta Digital 提供了從基礎架構算力資源到雲上製作堆棧、機器學習堆棧的一系列服務,Weta Digital 使用了包括 GPU 實例和 Spot 實例在內的多種計算實例以提供強大的伸縮性和優秀的性價比。

然而對於亞馬遜雲科技來說,僅僅對企業進行多種多樣的晶片和高伸縮性的資源供給是遠遠不夠的,亞馬遜雲科技還為企業提供了 Serverless 來降低雲運維的複雜性。亞馬遜雲科技在 2014 年發布 Lambda 以來,已經相繼發布了 105 多種 Serverless 新技術,包括解決 Java 應用冷啟動問題的 Lambda SnapStart、可視化編輯器 Application Composer 等。用戶可以根據應用的類型來選擇不同的彈性和計算顆粒度。

全託管的 Serverless 使得開發者可以專注於業務開發,而不是基礎設施的運維,也讓系統能很容易的實現快速伸縮。為此,陳曉建在峰會上特別舉了一個 Second Dinner 打造年度最佳移動遊戲《Marvel Snap》的案例。《Marvel Snap》被 Second Dinner 工程副總裁稱為「這是我們有史以來運營過的最順利、最成功的遊戲,正是因為我們選擇了亞馬遜雲科技」。

Second Dinner 採用亞馬遜雲科技的 Serverless 架構來開發、構建和運行 Marvel Snap 遊戲。整個遊戲沒有使用任何 EC2 計算實例或容器,而是由事件驅動架構實現。這種方法不僅幫助用戶節省成本、加快應用開發速度,還減少了安全方面的隱患。亞馬遜雲科技的 Serverless 後台架構為其提供了完整的功能、安全和資源管理。最終,Marvel Snap 在啟動時沒有出現任何後端錯誤事件,這在遊戲行業是前所未有的。此外,Marvel Snap 的開發人員在系統非常早期的測試階段,就已經通過 Serverless 實現了每分鐘 14 萬請求的壓力測試,要知道,這在雲主機的時代是無法實現的,而這在亞馬遜雲科技的幫助下實現了「不可能」。

3企業正在把握全球性機遇,追求多元化市場

放眼全球企業上雲現狀,當下大多數企業只是簡單地將原來的系統搬到雲上,儘管降低了成本,但並沒有完全開發出雲上的潛力。搬到雲上並不算是真正的「上雲」,最終還要讓企業系統和業務在雲上跑起來才是硬道理。很多企業漸漸的也意識到了這個問題,所以來自全球各地的企業上雲需求和企業業務出海熱對雲廠商提出了更高要求,這就不僅需要雲廠商的業務服務範圍覆蓋全球,同時還需要能夠快速進行部署、高可用的服務及相關業務對於各個國家和地區的業務合規需求。

陳曉建在本屆峰會上表示,全球布局已經成為很多企業的戰略,然而雲廠商想要完成全球布局一定需要滿足企業對雲服務的三個要求,即「無處不在的雲服務」、「快速部署穩定系統」、「提供安全可靠的全球基礎設施」,他通過亞馬遜雲科技已經在過去驗證過的成功案例舉證來驗證自己的觀點。

關於第一個要求「無處不在的雲服務」,讓創新快速抵達每一個角落是亞馬遜雲科技的使命。陳曉建拿 OPPO 舉例,OPPO 的手機業務遍布全球,擁有數百個雲上 VPC 和本地資源需要連接,由於不同國家有不同的安全合規要求,這增加了全球組網的難度,OPPO 希望全球業務獨立運作,實現區域合規自治,同時擁有統一的管理。於是 OPPO 選擇通過使用亞馬遜雲科技的 CloudWAN 廣域網服務,通過本地網絡提供商連接到亞馬遜雲科技,並通過中央控制面板和網絡策略在幾分鐘內建立覆蓋全球的專用網絡。同時 OPPO 藉助完整的網絡視圖,可以直觀地了解整個網絡的運行狀況、安全和性能。另外值得一提的一個案例是,AXIOM 使用 Amazon SnowCone 來支持太空實驗,成功環繞地球 240 次。目前亞馬遜雲科技的技術已經可以在太空這種極端環境中收集、處理數據,並做出實時決策。

關於第二個要求「快速部署穩定系統」,亞馬遜雲科技每個區域都由多個可用區組成,單一可用區的故障會影響其他可用區的業務,但通過解耦控制面與數據面,可以提高整體穩定性。蜂窩架構將系統分割成微小、獨立、隔離的單元,有效控制故障影響。隨機分片進一步優化蜂窩架構,通過隨機分配客戶訪問,使單個單元故障不影響整個系統。我們還通過運營模型和部署機制保證雲的彈性,並使用 COE 糾錯流程防止問題再次發生。

拿中集集團來舉例,中集集團使用亞馬遜雲科技的服務實現了 82 個企業級應用的上線,包括 SAP、倉儲系統、CRM、SRM 和費控系統等,並實現了 20% 的成本節約。原 SAP 系統存在延遲問題,需容災,造成資源占用。亞馬遜雲科技為其設計了新一代 SAP 架構,應用和資料庫在同一可用區,延遲極低至 0.1 毫秒以內;容災方面,RPO 為 0,RTO 不超 15 分鐘,資源成本下降 18.7%。這套全新的 SAP 架構讓中集集團獲得了更強大的風險控制能力,業務連續性得到保證。

關於第三個要求「提供安全可靠的全球基礎設施」,亞馬遜雲科技幾乎滿足全球所有國家和地區的合法合規的要求。比如生物醫療、聯邦認證以及金融等行業,又比如 HIPAA、FedRAMP 和 PCI 這樣高標準的合規要求。拿全球電子支付終端領先供應商 PAX 百富來舉例,其在遷移多個重要 SaaS 應用至雲上時,發現多供應商的安全服務標準不統一,無法滿足支付安全要求,且難以集成和管理。亞馬遜雲科技便為其提供了安全合規服務(如 Amazon CloudHSM、Security Hub)以幫其保障用戶支付信息安全和業務安全,滿足 PCI 合規要求,並支持國際業務拓展。使用亞馬遜雲科技的產品使百富的產品交付周期縮短 40%,降低架構搭建及運維壓力,節省 20% 成本。

陳曉建提到的以上三個方面,對企業用雲需求進行了完整概括,而這也是雲廠商幫助企業降低用雲門檻、實現雲基礎架構創新的重要發展方向。雲廠商需要從區域覆蓋、安全和技術成本等方面進行全維度的升級,提供更好的雲計算產品和服務,來滿足企業的「既要、又要」。

4雲廠商需要專注「創新」,擺脫基礎架構束縛

目前企業愈加難以滿足日益增長的客戶對快速、可靠和安全服務的期望,在提高自身系統的處理能力和存儲能力的過程中,面對著巨大的算力需求和成本過高的可伸縮且安全的 IT 基礎架構。

雲計算基礎設施的穩定和可靠,是雲廠商的核心競爭力。然而,雲計算作為數字產業的新基建,面臨著行業高速增長的機遇,同時也在諸多領域存在著挑戰,比如 AI 就是一次巨大的浪潮,在全球範圍內都帶來了巨大的市場機遇和發展潛力,但目前雲基礎架構還面臨著把數據留在本地、延遲和帶寬問題和連接穩健性等問題。

如果上升到雲計算整個領域的發展的探討,站在終端用戶角度去看,在使用產品的過程中,用戶實際更關注的是使用體驗,當前基礎設施要滿足用戶順暢的體驗需求,即算力噴發下產生的需求,需要在數據存儲、數據節點通信及指令調度等層面進行一定的創新;站在企業開發者的角度去看,高效開發、低成本運維是開發者最關注的問題,在雲基礎架構體系中,工具鏈的使用、性能調優方式、性能工具的創新是未來主要發展點。此外服務的部署、管理、跟蹤、調試等各個環節管理和運維工具的創新,以及企業如何降低運營成本也雲計算廠商持續研究並創新的課題。

所以,未來只有軟硬一體的生態化發展,才能幫助行業更好地完善基礎設施,從而為企業數字化轉型、降本增效的大目標實現保駕護航,而這一點亞馬遜雲科技做到了。亞馬遜雲科技的網絡安全晶片 Nitro 系列、伺服器晶片 Graviton 系列、人工智慧(AI)推理晶片 Inferentia、AI 訓練晶片 Trainium 系列的四大自研晶片業務線,從高性能計算、至廣至深的雲計算實例選擇、存儲、網絡安全、可靠等方面都顯示出了絕對的性價比及絕對優秀的能力。

同時,我們從亞馬遜雲科技的每一個實例與案例中也可以看到,亞馬遜雲科技這些年來從技術上做的創新與幫助全球範圍內的客戶完成技術創新,為的就是突破當下雲基礎架構的「束縛」,不斷探索新的雲計算技術和應用模式,實現業務創新和發展,這為行業內的其他廠商起到了「帶頭羊」作用。希望亞馬遜雲科技在未來可以與全球更多企業共同推動雲計算的發展,為行業發展不斷注入新動力。

點擊下方視頻可以觀看「2023 亞馬遜雲科技中國峰會」亞馬遜雲科技大中華區產品部總經理陳曉建的演講全程視頻回放。

文章來源: https://twgreatdaily.com/b61e693117d180e6b1b1d9b576316ce1.html