銳捷網絡加入超乙太網聯盟UEC,助力智算網絡持續升級

2023-12-20     南方城市網

原標題:銳捷網絡加入超乙太網聯盟UEC,助力智算網絡持續升級

近日,銳捷網絡正式成為超乙太網聯盟 (Ultra Ethernet Consortium,UEC)新成員,該聯盟是在 Linux 基金會的牽頭下由多家全球頭部科技企業聯合成立,致力於突破傳統乙太網的性能瓶頸,滿足AI和高性能計算對智能算力日益激增的需求。

銳捷網絡始終致力於將技術與應用創造性融合,以開放的態度全面擁抱面向下一代智算網絡的創新技術,為優化乙太網標準、實現高性能網絡注入新的活力,並為未來網絡技術持續做出貢獻。

RoCE用於未來AI/HPC網絡的局限性

RDMA(Remote Direct Memory Access)是當今 AI 訓練作業的基本組成部分,允許 CPU、GPU、TPU等加速器將數據直接從發送方內存傳輸到接收方內存,單個GPU/TPU加速器可以集成多個同構或異構網絡 I/O。其中RoCE (RDMA over Converged Ethernet) 通過 Verbs API 表達的方式可追溯到上世紀末,多年前才首次由InfiniBand貿易協會(InfiniBand Trade Association,IBTA)進行標準化,其底層的乙太網絡已經提供每秒400G甚至800G速率,這比最初設想的場景提高了幾個數量級,重新審視AI/HPC網絡核心所採用的底層傳輸協議和網絡API成為必然。

實際上,隨著人工智慧模型規模擴大、通信模式及計算方法的多樣化,傳統基於RoCE的RDMA方案存在諸多問題:

1、RoCE和DCQCN是擁塞控制算法,用於避免鏈路超限並提高速率。但DCQCN對其下方網絡和負載性質敏感,需手動調整性能。未來的AI網絡需要一種適用於任何數據中心的傳輸協議。

2、網絡運營商在「無損」網絡(InfiniBand和RoCE)上運行RDMA以避免此行為,但效率低。優先級流量控制 (PFC) 生成逐跳背壓乙太網是無損的,但背壓(Back Pressure)傳播導致擁塞樹、隊頭阻塞、環路死鎖等,使網絡性能下降。PFC/ECN、DCQCN需根據網絡情況調整、操作和監控,成本高。未來的AI網絡急需不依賴於無損結構的傳輸協議。

3、無論是在帶寬還是對等點數量方面。Verbs API設計規模已經捉襟見肘。RC(可靠連接)傳輸模式如果不減少快速路徑狀態,就不適合高速率下的高效硬體卸載。此外,固有的流程到流程 (N*P*P)的可擴展性問題也是一大限制。這些問題還沒有完美的解決方案,而未來的AI網絡需要能支撐Verbs API設計規模的傳輸協議。

4、AI應用程式傳輸大量數據,受NIC QP Scale和AI模型數據交互方式限制,傳統RoCE需仔細進行大象流負載均衡以防止鏈路過載。AI工作負載決定了整個計算周期受限於所有流成功交付,而未來更高性能的AI網絡需要改進的負載均衡技術。

另一方面,TCP/IP具有RoCE沒有的的優點,包括生態系統、性能/規模、工具、成本、標準調整和GPU超大規模部署。但為真正滿足AI網絡需求,乙太網需要進行改進創新,儘快將消息傳遞到所有參與端點,避免少數端點出現長時間延遲,並儘量減少「尾部延遲」,提供更高性能並適應未來AI/HPC和Cloud網絡規模擴大、帶寬提高和時延降低的需求。

超乙太網傳輸協議(UET)

儘管TCP/IP具有一些RoCE不具備的優點,但是在無損架構下(Lossless Network)運行並提供丟包重傳功能,同時避免觸發隊頭阻塞和擁塞擴散,這一挑戰仍然存在。為了應對這一挑戰,超乙太網聯盟(UEC)提出了超乙太網傳輸協議(Ultra Ethernet Transport, UET),該協議可以在保留乙太網/IP生態系統優勢的同時,為AI和HPC應用程式提供所需的性能。UET傳輸協議通過提供以下功能超越了現狀:

1、開放協議規範從一開始就設計為在 IP 和乙太網上運行

2、多路徑、數據包噴射傳輸,充分利用 AI 網絡,不會造成擁塞或隊頭阻塞,無需集中式負載均衡算法和路由控制器

3、Incast 管理機制可控制到目標主機的最終鏈路上的扇入,並以最小的丟包率進行控制

4、高效的速率控制算法,允許傳輸快速提升至線速,同時不會導致競爭流的性能損失

5、用於無序(out-of-order)數據包傳輸的 API,也可選擇按順序 (in-order)完成消息,最大限度地提高網絡和應用程式的並發性,並最大限度地減少消息延遲

6、可擴展未來網絡,支持 1,000,000 個端點

7、性能和網絡利用率優化無需針對網絡和工作負載進行擁塞算法參數調整

8、旨在在商用硬體上實現 800G、1.6T 和未來更快乙太網的線速性能

UET協議將超越傳輸層,定義標準語義層、改進的低延遲交付機制以及一致的 AI 和 HPC API,並提供標準的多供應商支持,以便通過 UEC 傳輸協議實現這些 API。

為了實現全行業在互操作性方面的合作,UEC構建了完整的基於乙太網的通信堆棧架構,以最好地匹配快速發展的、大規模的AI/HPC工作負載,並提供一流的功能、性能、互操作性、TCO以及開發人員和最終用戶友好性。UEC由在高性能解決方案方面擁有悠久歷史和經驗的公司創立,每個成員都以平等的方式為更廣泛的高性能生態系統做出了重大貢獻。這些成員包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微軟,他們都有數十年的網絡、人工智慧、雲和高性能計算大規模部署經驗,將為UEC的四個工作組——物理層、鏈路層、傳輸層和軟體層做出貢獻。

銳捷網絡在行動

銳捷網絡作為智算中心網絡建設者,也在踐行以太無損網絡解決方案的路線,支撐超大規模的算力集群建設。銳捷網絡推出了AI-Fabric智算中心網絡解決方案,天然支持無損機制和負載均衡,方案優勢具體如下:

1、基於AI fabric的架構設計,NCP層面採用1. 1 : 1的超速比緩解網絡中Incast的問題規避擁塞,基於Cell的高效路由可以加速互聯鏈路的故障收斂時間,不需要部署複雜低效的BGP路由。

2、基於Cell的切片技術,優化鏈路的負載均衡效果提升網絡帶寬利用率,縮短業務的流完成時間FCT 。

3、基於VoQ緩存和Credit的擁塞控制機制實現Fabric網絡中的數據無損轉發,徹底解決丟包重傳的問題確保業務持續高吞吐地轉發,進而來提升整個算力集群的GPU利用率。

(詳見《銳捷網絡高性能網絡方案,為AIGC打通 「任督二脈」》)

同時,在傳統RoCE協議的基礎上,銳捷網絡在多路徑流量調度技術上進行了創新,推出RALB(Remote Adaptive Load Balancing)技術。通過感知鏈路質量,進行逐包的全局動態負載均衡,讓網絡帶寬利用率可達97.6%,有效實現端網聯動。(詳見《解決數據中心網絡擁塞,銳捷RALB負載均衡技術助力高效數據傳輸》)

在全球網際網路流量不斷增長和數據應用需求日益多樣化的背景下,銳捷網絡致力於推動網絡技術的進步和發展,全局負載均衡解決方案的推出正是其不斷探索和創新的有力證明。通過持續的技術研發和產品創新,銳捷網絡將繼續開放創新,積極探索國內外先進技術,為全球的數據中心提供更加高效、可靠、智能的網絡解決方案,助力網際網路、運營商及各行各業的快速發展。

文章來源: https://twgreatdaily.com/zh-sg/1b7a58cde62badaa2303409a3eac7dbb.html