• 1
  • 2
  • 3
  • 4

首页 / 行业

华为超级算力系统发展驱动算网融合架构创新

2022-08-25 09:20:00

在2022年第六届未来网络发展大会上,来自产业界、学术界、研究机构等领域的专家、行业领袖共同探讨新型网络技术的攻关与变革。

华为董事、科学家咨询委员会主任徐文伟在主题演讲中指出,超级算力是智能世界的关键需求,未来网络技术将在三个方面为超级算力系统发展做出贡献:

采用正交架构、分布式直连拓扑等新技术,持续提升数据中心交换机设备容量、数据中心网络规模,支持百万级海量算力节点大规模互联。

将智能无损网络技术应用到AI训练、存储、HPC等多种场景,把数据中心网络时延从毫秒级降低到微秒级,减少算力等待算据的空耗周期,将算力发挥到极致。

面向一体化大数据中心、东数西算等新场景,探索长距智能无损网络、多目标算力路由等新技术,支持全网负载均衡,提供集约化低碳算力服务。

展望未来,算网融合架构的探索需要产学研用的共同努力才能成功,华为将持续基础理论研究和研发投入,与高校、实验室、产业界积极开展合作,共同推进未来网络发展。

以下为演讲全文。

一、 超级算力是智能世界2030的关键需求

超级算力是智能世界的关键需求。

展望2030年的智能世界,人工智能将无所不及,超级算力帮助我们更纵深地感知物理世界,更准确地模拟现实世界、探索未知领域,加速千行百业的数字化和智能化,实现数字世界和物理世界的无缝融合。

预计到2030年,自动驾驶车厂云端需要10 ExaFLOPS,气象预测数据及算力需求增长1000倍,VR/AR用户数将超过10亿,AI计算的算力将达到105 ZetaFlops,比2021年增长500倍左右,算力就是未来国家的关键竞争力。

二、 超级算力系统发展驱动算网融合架构创新

超级算力系统不但需要性能更强的CPU、GPU,以及更强大的AI算法、模型,还需要结合未来网络技术的最新发展,以算网融合架构助力超级算力系统发展。

未来网络技术研究将在三个方面做出贡献:

采用正交架构、分布式直连拓扑等新技术,持续提升数据中心交换机设备容量、数据中心网络规模,支持百万级海量算力节点大规模互联。

将智能无损网络技术应用到AI训练、存储、HPC等多种场景,把数据中心网络时延从毫秒级降低到微秒级,减少算力等待算据的空耗周期,将算力发挥到极致。

面向一体化大数据中心、东数西算等新场景,探索长距智能无损网络、多目标算力路由等新技术,支持全网负载均衡,提供集约化低碳算力服务。

三、系统架构创新:首创DCN正交架构,实现超大容量,超高密度,线性扩容

为了支持海量算力节点的大规模互联,我们需要大容量的数据中心交换机设备。传统框式设备采用PCB背板走线实现板卡槽位之间信号连接,受限于高速信号链路衰减,走线长度不能大于40英寸,在框式设备上只能支持8个线卡槽位。

华为在2012年推出的数据中心交换机CloudEngine12800设备,首创“直接正交架构”,采用业务线卡和交换网板90度垂直互连的方式,背板0走线,减少了走线带来的高速信号链路衰减,支持前后风道,数据中心机房无需改造就可以满足冷热隔离的要求,整机支持24个40GE线速端口,并且支持线性扩容,是当时业界最高竞品的4倍。

同样基于直接正交架构的新一代数据中心交换机CloudEngine16816,支持16个业务线卡槽位,提供768个400GE端口。

实现正交架构面临高速信号传输、高密度和低损连接器和高效散热的工程瓶颈。通过系统架构创新和跨学科集成创新,我们突破了多个工程技术瓶颈,连续十年刷新数据中心核心交换机的业界容量极限。

四、 持续提升设备容量:互联介质技术、散热技术、分布式架构

在正交架构的技术创新的基础上,为了持续提升数据中心交换机的设备容量,我们还在研究更高速率的互联介质技术、更强的散热技术,并探索更多的设备新架构。

在互联架构上,从PCB互连演进到了当前的Cable IO互连,未来将走向光IO互连。要实现架构演进,关键是在互连介质上要取得突破。我们也在业界推出对传输损耗的理论研究公式(如图),从降低介电材料的Dk和Df以及改善导体材料的光滑度,趋肤效应和导电率来改善介质损耗与导体损耗。

在散热技术上,我们基于过增元院士的“场协同原理”理论,持续优化散热速度场/温度场的“协同数”Fc (如图),进一步研究从金属到石墨烯到金刚石的散热材料突破,挑战固体导热材料的极致性能。同时,深入探索沸腾换热微纳表面的加工工艺,拉远散热跨尺度/跨材料系统的集成工艺、复杂热源散热的拓扑优化工艺的散热工艺。力争在散热技术上获得突破。

在设备架构上,面向未来,探索从正交架构到直连拓扑的分布式交换机架构的可能性,希望突破设备的容量与供电限制,通过OIO互联技术完成高密度信号连接,实现单节点更大容量演进。

五、系统架构创新:直连拓扑实现单个DC的百万级节点联接

为了支持海量算力节点的大规模互联,我们还需在数据中心交换机的组网拓扑上进一步创新。目前主流组网拓扑为CLOS架构,以典型的128端口交换机测算,2级CLOS架构最大支持8千个计算节点互联。

为了实现更大规模的算力互联,3级CLOS架构最大支持50万个计算节点互联,但跳数增加又带来了时延增加等问题。

华为创新地将直连拓扑引入到以太网络中,实现超大规模、低跳数的数据中心网络架构,以128端口交换机测算,最高可支持400万计算节点互联,相比2级CLOS架构提升了500倍,跳数不变。

直连拓扑的多路径环路问题,需要Dijkstra(迪杰斯特拉)算法实现TI-LFA(拓扑无关的无环路备份路径),存在复杂度高、重路由时间长的问题。华为创新引入图论方法实现并行Dijkstra(迪杰斯特拉)算法,降低复杂度,将1万个节点的快速重路由时间从16.7分钟降低到8s。

六、系统架构创新:智能无损网络,挑战零丢包互联提升AI训练算力

AI训练场景中,多台服务器向一台服务器同时发送大量报文的情况经常出现,多打一(incast)网络流量模型是常态。

当报文大量排队、缓存溢出后,丢包、重传就会导致GPU等数据的现象,严重时CPU资源有50%的时间在空转。

传统的流量控制算法在缓存超过一定“水线”时通知发送端,降低流量发送速度,但水线值的设置既不能太温柔、也不能太粗暴,还要根据计算任务的不同动态调整,不可实施。

华为创造性地引入智能算法代替专家经验,用流量数据、流量模型进行实时推理,得出最优ECN水线值,实现实时、精准的AI ECN流量控制。

为了确保算法可以自适应任何流量场景和模型,除了百万级的真实业务样本外,还加入了千万级的随机样本训练,可以保证在不同场景下无损算力互联。

依据《ODCC无损网络测试基准》,ODCC 2020年进行了实测,采用智能无损网络架构改造后,能效比提升了25%~31%,这相当于节省了25%的GPU投资,具有较大商业价值。

某重点实验室算力强大(4096个NPU+1024CPU),但AI训练场景下,网络HASH不均导致有效吞吐低,IO500打榜中网络吞吐仅达到约50%,影响AI计算效率。

全网采用智能无损网络后,单任务场景网络吞吐从50%提升到90%。在IO500总榜、IO500十节点榜以及AIPerf榜都排名第一,且得分大幅领先上届冠军。IO500总榜得分4倍于第二名

七、智能无损网络在存储、HPC场景的性能超越FC、持平IB

在存储场景中,传统的光纤通道(FC)网络不匹配全闪存NVMe接口下的并行式大吞吐读写模式,带宽和时延已成为性能瓶颈。以太在带宽上相比FiberChannel具有明显优势,一家全球领先的大型银行率先采用智能无损网络替代FiberChannel,部署全闪存数据中心,生产系统存储性能提升85%。

在HPC场景,智能无损网络可以将集合通信的部分计算操作从服务器转移到交换机网络设备,减少了服务器集群间的通信量,从而大幅降低了HPC小字节场景下的网络时延,提升了计算效率。

东莞大科学计算中心实验室需超大算力支持仿真与科学计算,使用智能无损网络技术替代InfiniBand,计算性能持平,特定计算任务场景略有超越,我们还在持续优化,争取实现全面领先。

智能无损网络性能超越IB的场景还有:气象预报WRF、CESM等用例;汽车碰撞Pam-crash用例;AI计算AIPerf BenchMark套件用例。

八、从DCN到DCI到全国一体化大数据中心,坚持系统架构创新

继DC内部的智能无损网络之后,我们在同城智能无损网络也有进展,突破了iLossless-DCI算法,攻克100G以太网100公里0丢包难题,实现同城长距无损,并主导IEEE长距无损网络相关的技术规范;一家全球领先的大型银行在跨DC双活同城数据同步中,采用长距无损技术实现0丢包NoF+存储网络,用100G以太替换8G FC,链路数减少90%,每年节省2000多万元;

下一步是全国一朵云、一张网的问题,延续网络架构+软件创新思路,探索多目标路由来实现跨资源池一体化调度、探索广域智能无损实现1000公里级400G算力网络高吞吐。

九、全国一体化大数据中心,探索多目标算力路由、广域智能无损

面向全国一体化数据中心的场景,在控制面探索多目标算力路由,在数据面探索广域智能无损;

多目标算力路由的思路是,通过新的网络和软件协同,将一个业务拆分为多个子任务,用多目标算力路由来实现跨数据中心资源池的统一调度、协同计算、算网融合;这种情况下,算力-运力图的划分与组合众多,多目标算力路由是就是从众多组合中找出业务综合服务水平SLA与总和成本这两个目标上的最优;

这是典型的多目标优化问题,也称为帕累托(Pareto)最优问题,传统的多目标加权转化方法覆盖低,需要探索其他途径如矢量分解结合演化计算来提升最优Pareto覆盖;

面向全国一张网场景,广域智能无损网络还需要解决广域网络距离长反馈慢、路径多、均衡难、业务吞吐低的难题,支持全国一体化大数据中心的发展;需要探索广域网络拥塞控制新算法、网络负载均衡新技术、下一代链路流控协议等,以期获得广域高吞吐性能。

十、架构创新、技术突破,实现未来算网融合目标(2030)

a4e21426-23ae-11ed-ba43-dac502259ad0.webp面向未来,要实现算网融合的目标,通过更大的联接与算力,支撑面向未来的真人全息、自动驾驶、XR等场景和随时随地10G Everywhere的需求

一方面,我们需要从架构创新与技术突破方面努力实现单级设备容量的突破,端口速率从400G到3.2T,单片容量从25.6T到400T以上,系统容量从512T到10P以上

另外一方面,我们也需要支撑扩展到百万级的数据中心规模,微秒级的时延和整网级甚至全国一张网的负载均衡能力。

十一、合作共赢加速未来网络发展

a4e21426-23ae-11ed-ba43-dac502259ad0.webp要实现算网融合架构,加速未来网络发展,需要靠各位院士、科学家、专家、上下游产业和客户共同努力才能成功,同时我们也要重视网络、ICT和数字人才的长期培养。

一方面,华为我们自身也在基础实验室建设,基础理论研究和研发方面加大投入;更重要的,我们希望和行业的科学家和专家共同探讨未来,和知名大学共同研究理论与技术。当然我们尤其非常重视合作实验室创新验证,就像我们和未来网络实验室有很多合作。

所以我们希望和大家共同努力,合作共赢加速未来网络发展。谢谢!

审核编辑:彭静

系统大数据算网专家

  • 1
  • 2
  • 3
  • 4

最新内容

手机

相关内容

  • 1
  • 2
  • 3

猜你喜欢