首页 / 行业
基于无损数据中心的AI训练网络均衡技术实践
2022-08-03 10:06:00
2022年7月,在山东济南举行的2022中国算力大会上,紫金山实验室研究员高新平作了“基于无损数据中心的AI训练网络均衡技术实践”的主题演讲。
紫金山实验室是江苏省和南京市共同推进建设的重大科技创新平台。紫金山实验室面向网络通信与安全领域国家重大战略需求,以引领全球信息科技发展方向、解决行业重大科技问题为使命,通过聚集全球高端人才,开展前瞻性、基础性研究,力图突破关键核心技术,开展重大示范应用,促进成果在国家经济建设中落地。紫金山实验室力图成为国家科技创新的重要力量,建成具有世界一流水平的战略科技创新基地。
紫金山实验室与华为依托紫金山实验室无损数据中心展开面向AI训练场景的网络均衡技术的联合创新,解决AI集群中网络负载不均而导致的AI训练任务性能下降的问题。
高新平研究员指出AI训练使用的集合通信算法,当前主流的有Ring算法、Tree算法和Halving Doubling算法等,在运行时通信流量都呈现出了共同的特征:周期性、流数量少、长连接,并行任务间有强实时同步性要求,通信效率取决于最慢的节点。同时,AI训练时,各节点之间传输的数据量大。以上这些流量特性使计算集群网络容易出现负载不均导致AI训练任务性能下降的问题。
现有网络均衡的主流技术大体分为三种,逐流ECMP均衡、基于子流flowlet均衡和逐包的负载分担均衡。逐流ECMP均衡技术,是当前最为常用的负载均衡算法,适用于流链接较多场景,它优势在于无乱序,劣势在于流数量较少时,例如AI训练场景下,存在HASH冲突问题,网络均衡效果不佳。基于子流flowlet均衡技术,它依赖于子流之间的时间间隔GAP值的正确配置来实现均衡,但全局路径级时延信息不可知、无法配置,且存在接收端侧乱序的问题。逐包的负载分担均衡技术,理论均衡度最好,但实际在接收端侧存在大量报文乱序问题,现实中几乎无使用案例。
发表“基于无损数据中心的AI训练网络均衡技术实践”主题演讲
在紫金山实验室无损数据中心AI训练集群中验证了华为创新的网络均衡技术NSLB(Network Service Load Balance)。基于华为交换芯片高精度telemetry能力,采集流量矩阵作为路由算法输入,用以控制AI流量的转发路径,避免负载不均,提升AI训练效率。
Ring算法场景,运行单个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率34%、比ECMP提升35%,AI训练集性能最高提升113.41%;
Ring算法场景,同时运行两个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率29%、比ECMP提升15.6%,AI训练集性能最高提升57.29%;
Tree算法场景下,运行单个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率13.8%、比ECMP提升1%,AI训练集性能最高提升6.50%;
Tree算法场景下,运行两个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率14%、比ECMP提升10.5%,AI训练集性能最高提升15.81%。
未来,紫金山实验将与华为在无损数据中心网络领域就网络新拓扑、DCN高性能互联等方向展开持续的联合创新,推动无损数据中心网络在低时延、高吞吐等方向进一步的发展,为高算力提供强有力的底座。
审核编辑:彭静最新内容
手机 |
相关内容
平头哥首颗SSD主控芯片镇岳510问世
平头哥首颗SSD主控芯片镇岳510问世,将率先在阿里云数据中心部署,数据中心,芯片,平头,需求,可靠性,稳定性,近日,平头哥首颗SSD主控芯片探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是创建更低延迟和更高效率的 5G 系统
创建更低延迟和更高效率的 5G 系统,延迟,系统,5G,优化,方法,网络架构,随着技术的不断发展,人们对通信系统的需求也在不断增加。5G技数据中心如何更快、更经济地利用AI
数据中心如何更快、更经济地利用AI?,经济,数据中心,用于,机器学习,计算,自动化运维,数据中心中使用人工智能(AI)技术可以带来许多好处,3nm,手机芯片的全新战争
3nm,手机芯片的全新战争,全新,功耗,人工智能,提升,中国,芯片,随着移动通信技术的迅猛发展,手机成为了现代人生活中不可或缺的一部分。慧荣科技打造企业级SSD主控芯片,为
慧荣科技打造企业级SSD主控芯片,为企业数据中心保驾护航,芯片,数据中心,企业,企业级,多种,数据存储,慧荣科技是一家专注于研发和生产数据中心短缺:人工智能未来的致命阻
数据中心短缺:人工智能未来的致命阻碍?,人工智能,数据中心,采用,需求,算法,存储技术,数据中心短缺是人工智能未来发展的一个重要致命