• 專? 家:通信網如何迎接AI普及?
    來源: 通信產業網 作者: 發布時間: 2023-04-23

    ChatGPT毫無疑問掀起了新一波AI技術和產業浪潮,對AI的技術演進趨勢產生重大影響,并向通用人工智能邁出了嘗試性的一步。那么,通用AI對通信網提出哪些新需求?通信網該如何變革去迎合及適應AI發展形勢?

    AI對通信網的三個需求

    AI模型通常是采用分布式訓練的方式進行計算,分布式訓練需要多臺主機之間同步參數、梯度,以及中間變量。對于大模型而言,單次的參數同步量一般都在百MB~GB的量級,因此需求網絡高帶寬。

    現在,25Gbps帶寬的網絡已經成為數據中心內的主流,40Gbps、100Gbps甚至200Gbps的網絡都開始逐步使用,那是不是直接用大帶寬網絡就能提升GPU集群的性能呢?

    業內相關專家告訴《通信產業報》全媒體記者,其實并不盡然,研究表明,40Gbps和100Gbps的網絡根本無法充分利用其帶寬,原因是網絡協議棧的開銷影響了傳輸性能。因此,AI對通信網的第一個要求就是能夠充分利用現在以太網的大帶寬。

    此外,大模型訓練一般會將數據并行、流水線并行、張量并行等多種并行模式混合使用,以充分利用集群的算力。無論是哪種并行模式,多機之間都會涉及一種叫AllReduce的集合通信。一個AllReduce任務包含多個點對點的通信,而AllReduce的完成需要所有點對點通信都成功完成,因此集合通信存在“木桶效應”,即AllReduce的完成時間,由其中最慢的點對點通信時間決定。

    正因為如此,大模型訓練對網絡提出了另外兩個要求。

    一是鏈路負載均衡要做到完美。因為“木桶效應”,只要有一條鏈路出現負載不均導致網絡擁塞,成為了木桶的短板,那么即使其它鏈路都暢通無阻,集合通信時間仍然會大幅增加,從而影響訓練效率。當前的負載均衡技術基于能做到流比較多時的一個近似均衡散列,并不能保證所有鏈路都完美均衡開。因此,尋找一種完美的負載均衡技術,是提升機器學習大模型訓練效率的關鍵。

    二是網絡出現故障能快速恢復。隨著集群規模增大,鏈路故障在所難免。類似的,一條鏈路故障就會導致整個AllReduce通信停滯,進而使模型訓練停滯。如何做到故障后快速恢復,哈希隨機,只最好是上層訓練業務不感知,是保障一個AI大規模集群性能的關鍵。

    AI對通信網帶來哪些挑戰?

    首先,以太網在AI通信網絡中是怎么實現大帶寬的呢?

    傳統TCP網絡因為主機側協議棧開銷大,無法充分利用網絡帶寬。RDMA通信技術通過網卡硬件實現通信控制,繞過了主機側協議棧,因此既避免了協議棧內存拷貝,又節約了CPU的開銷。使RDMA通信相比TCP,具有更低時延和更高吞吐的特點,非常適合大模型GPU訓練的場景。但是,RDMA是無損協議,需要鏈路層PFC來保障不丟包。PFC在大規模集群可能會出現隊頭阻塞、擁塞擴散,甚至網絡死鎖等危害,因此直接大規模部署RDMA存在很高的風險。

    據了解,華為智能無損RDMA,在標準RDMA over Ethernet(ROCE)的基礎上,通過PFC防死鎖技術解決了死鎖問題;通過基于AI的自適應擁塞控制技術,解決頭阻問題的同時保證了網絡的有效吞吐。基于無損以太的數據中心網絡已經可以支持RDMA應用的規模部署,并且已經在互聯網、教育、科研、氣象、金融、油氣等領域得到了廣泛的應用。這些技術在大規模GPU集群中,也擁有極高的價值。

    其次,以太網又是怎么做到“完美”的負載均衡呢?

    現有的網絡負載均衡技術絕大多數只是解決了本地等價路徑之間的均衡,但對于整個網絡而言,局部均衡并不意味著全局均衡。更何況,對于ECMP這種依賴哈希隨機性的負載均衡技術,在網絡流量比較少時,對于本地路徑的完美均衡都難以做到。就像拋10000次硬幣,正反面各出現一半很正常;但拋4次硬幣,就有63%幾率不是正反面各一半。“AI訓練是一種吞吐敏感型業務,其典型流量特征是流數少、單流帶寬大、強同步,在這種場景下,ECMP技術因為可能出現的哈希不均勻,難以保證網絡負載均衡。”專家指出。

    針對這個問題,華為提出了網絡級負載均衡(Network Scale Load Balance, NSLB)的概念。華為基于算網協同實現多任務全局均衡路由,基于全局擁塞狀態的自適應路由算法,實現AI訓練流量滿吞吐和網絡帶寬的完全利用。類似于擁有多條跑道的超大型機場的智慧調度系統,多條跑道同時起飛降落時,也不會互相沖撞,同時也滿足最大游客吞吐量。基于NSLB,AI訓練效率都可以大幅提升,測試結果顯示,單任務、多任務線性度均達到90%以上。

    最后,以太網又是怎么做到故障能快速恢復呢?

    傳統網絡的故障收斂依賴設備控制面或者集中的控制器的動態路由收斂,網絡故障收斂時間數百ms到數s,網絡故障盡管是可以恢復的,但是故障期間大量丟包,會導致RDMA連接中斷,直接影響AI訓練業務的穩定性和性能。

    對此,華為提出了一種基于數據面的故障無感自愈的方案,即數據面故障快速自愈(Data Plan Fast Recovery,DPFR),故障的感知、通告和自愈完全在數據面實現,不需要控制面參與,基于這種技術網絡故障收斂,網絡故障基本可以做到業務無感。這項技術可以有效消除網絡故障對大規模AI訓練的影響。

    通俗的講,這就好比在一個部門里面,上級一開始就和下級,以及周邊部門協商好了任務處理模式,當有任務觸發時,下級部門直接就和周邊部門協同處理來提高工作效率,不用像傳統模式一層層協商匯報后再等上級部門下達命名再處理任務。華為做的就是開發出了這個“下級部門”的處理能力,不再單純只做執行者。

    AI對通信網的需求和網絡挑戰將會產生深遠的影響,從而對網絡的可靠性、安全性、效率和服務質量等方面提出更高要求。因此,產業鏈企業需要不斷探索和研究AI在通信網中的應用,以更好地滿足用戶的需求,提高網絡的性能和服務質量。

    地方動態

    首屆數字全民國防教育高峰論壇在京舉行

    第四屆信息技術及應用創新人才發展交流大會暨中國信息協會第三屆信息技術服務業應用技能大賽頒獎典禮在京隆重召開

    2023(第五屆)中國電子政務安全大會在京成功召開

    中國信息協會首次職業技能等級認定考試在黑龍江省舉行

    • 協會要聞
    • 通知公告
    初爱视频教程完整版免费观看高清