(資料圖片)
(CWW)8月19日,在2023中國算力大會主論壇上,“全調度以太網(GSE)推進計劃”正式成立。該計劃由中國移動攜手中國信通院,聯合騰訊等三十余家產業合作伙伴聯合發起,旨在聯合產業鏈企事業單位,共同推動智算中心網絡技術創新、標準完善、產業發展和應用實踐,打造高速無損、安全可靠、開放兼容的新型智算中心網絡技術體系,全面提升算力賦能水平,滿足數字經濟的網絡應用需求。
隨著ChatGPT等基礎通用大模型的爆發,智能算力需求呈現爆炸式增加態勢。研究表明,AI大模型訓練依賴GPU集群不同服務器節點間頻繁地參數同步,節點間通信開銷導致集群的有效算力并不等于單顆GPU算力乘以集群GPU數量,網絡的性能成為制約其規模擴展和性能提升的瓶頸。同時,新型智算中心網絡技術體系依賴網絡芯片、網卡芯片及網絡設備等上下游企業協同創新,技術體系龐雜,難度大。
為了應對上述挑戰,中國移動研究院聯合產業界原創提出全調度以太網技術,于2023年5月聯合十多家合作伙伴發布《全調度以太網技術架構白皮書》,明確了全調度以太網的總體架構、關鍵技術和演進路徑,并在CCSA成功立項相關行業標準。
此次“全調度以太網(GSE)推動計劃”正式啟動,其目標是凝結產業各方力量,突破關鍵技術,推動標準和開源發展,打造開放、標準、兼容的新型以太網協議體系,全面提升智算中心網絡規模和性能,支撐AI等高性能業務的快速發展。
GSE推進計劃工作范疇包括但不限于以下四個方面:一是低時延FEC、PhySEC、光交換及光互聯在內的物理層增強技術;二是基于報文分發、重組在內的鏈路層關鍵技術;三是新型組網拓撲、新型組播協議等在內的網絡層新型協議;四是RDMA技術優化、新型擁塞控制協議在內的傳輸層優化方案。
同時,在上述關鍵技術基礎上,研究針對不同場景的組網方案,例如GSE僅運行在交換機、GSE運行在端到端網卡、GSE實現端網協同等不同組網場景,實現最大限度的兼容現有商用以太網芯片,并能持續演進。
未來,“GSE推進計劃”將進一步聚攏產學研各界合作伙伴,從技術攻關、標準體系、創新試驗、產業生態等方面加快推動智算中心網絡相關技術和產品成熟,助力全球AI產業發展。
標簽: