首页 / 行业
HPC 研究人员借助 NVIDIA BlueField DPU 为网络计算的未来打下坚实基础
2022-05-31 14:58:00
全球的超级计算中心都在纷纷利用NVIDIA Quantum InfiniBand网络上的NVIDIA BlueField DPU将加速计算提升到一个新的水平
在欧洲和美国,HPC开发者正在利用NVIDIA BlueField-2 DPU内的Arm核和加速器的强大功能为超级计算机提供强大助力。
美国洛斯阿拉莫斯国家实验室(LANL)正在与NVIDIA进行一项为期多年的广泛合作,这项合作旨在将计算型多物理应用的性能提高30倍。
LANL研究人员预计,使用在NVIDIA Quantum InfiniBand网络上运行的DPU(数据处理器)可显著提升性能。这将使利用BlueField以及NVIDIA DOCA软件框架在计算存储、模式匹配等领域实现技术创新。
面向DPU的开放式API
这些努力还将有助于进一步定义OpenSNAPI,任何人都可通过该应用接口来控制DPU。这是统计计算框架( Unified Communication Framework)的一个项目,Unified Communication Framework是一个旨在实现HPC应用异构计算的联盟,成员包括Arm、IBM、NVIDIA、美国国家实验室和美国的一些大学。
LANL已经感受到网络计算的强大功能,这要归功于其创建的DPU赋能的存储系统。
加速闪存盒(ABoF,如下图所示)将固态存储与DPU和InfiniBand加速器相结合,可为Linux文件系统的关键性能部分提供加速。它的性能高达同类存储系统的30倍,并将成为LANL基础架构中的关键组件。
一位研究人员在近期的LANL博客中表示:“ABoF让计算靠近存储,可更大限度减少数据移动,从而提高仿真和数据分析工作流程的效率。”
德克萨斯州打造出云原生超级计算平台
德克萨斯高级计算中心(TACC)近期也开始在Dell PowerEdge服务器中采用BlueField-2。它将在InfiniBand网络上使用DPU,使其Lonestar6系统成为云原生超级计算的开发平台。
TACC的Lonestar6为德州农工大学、德州理工大学和北德克萨斯大学的众多HPC开发者,以及一些研究中心和教职人员提供服务。
MPI获得加速
在距TACC东北部1200英里的地方,俄亥俄州立大学的研究人员展示了DPU如何将一个HPC热门编程模型的运行速度提高26%。
他们通过卸载消息传递接口(MPI)的关键部分,加速了P3DFFT,这是一个用于众多大规模HPC仿真的数学库。
俄亥俄州立大学计算机科学与工程专业的教授Dhabaleswar K. (DK) Panda在其带领的MVAPICH开源软件团队推动DPU工作,他表示:“DPU就像是为忙碌的高管处理工作的助手,它们将成为主流,因为它们可以加速运行各种工作负载。”
HPC中心和云中的DPU
对于运行药物研发或飞机设计等HPC仿真应用的超级计算机而言,高达两位数的性能加速是惊人的。Panda表示,云服务可以利用这些加速提高客户的生产力,他已收到多个HPC中心的代码请求。
Quantum InfiniBand网络以及NVIDIA SHARP特性,助力他高效完成工作。
他说:“其他人还在谈论网络计算,而InfiniBand已经在为它提供支持。”
达勒姆开发负载均衡
欧洲的多个研究团队正利用BlueField DPU加速MPI和其他HPC工作负载。
例如,英格兰北部的达勒姆大学正在开发一款软件,用于在16个节点的Dell PowerEdge集群上使用BlueField DPU以实现MPI作业的负载均衡。该项目的首席调查员Tobias Weinzierl表示,该软件将为全球各地的HPC设施更高效地处理更好算法铺平道路。
剑桥大学和慕尼黑的DPU应用
剑桥大学、伦敦和慕尼黑的研究人员也在使用DPU。
伦敦大学学院正在探索如何在BlueField-2 DPU上为主机系统调度作业。例如,可以使用它的能力在主机处理器之间移动数据,以便在需要时数据已然就位。
Dell PowerEdge服务器内的BlueField DPU可为Cambridge Service for Data Driven Discovery服务卸载主机CPU的安全策略、存储框架和其他作业,从而更大限度地提高系统性能。
与此同时,慕尼黑工业大学计算机体系架构和并行系统组的研究人员正在寻找方法,使用DPU来卸载MPI和操作系统任务,这是EuroHPC项目的一部分。
在美国,佐治亚理工学院的研究人员正在与桑迪亚国家实验室合作,利用BlueField-2 DPU加速分子动力学研究。一篇论文描述了他们目前的工作成果,其中表明,算法可以加速高达20%,且不会损失模拟的准确性。
不断扩展的网络
本月早些时候,日本研究人员宣布将推出一款采用新版NVIDIA H100 Tensor Core GPU的系统,该系统将搭载速度更快、更智能的NVIDIA Quantum-2 InfiniBand网络平台。
NEC将使用H100的为筑波大学计算科学中心构建算力大约为6 PFLOPS超级计算机。研究人员将使用该系统实现气候学、天体物理学、大数据、AI和更多方面的研究。
与此同时,Panda等研究人员已经开始考虑如何使用BlueField-3 DPU的核心功能。
他打趣道:“这就像雇佣拥有大学学位的行政助理,而不是那些拥有高中文凭的行政助理一样,所以我希望能够完成越来越多的工作卸载。”
最新内容
手机 |
相关内容
芯片迈向系统化时代:EDA软件的创新
芯片迈向系统化时代:EDA软件的创新之路,时代,芯片,形式,支持,性能,验证,芯片设计是现代科技领域的重要组成部分,它涉及到电子设计自动清华大学研发光电融合芯片,算力超商
清华大学研发光电融合芯片,算力超商用芯片三千余倍,芯片,研发,商用,测试,计算,科学研究,近日,清华大学发布了一项重要科研成果,他们成黑芝麻智能助力亿咖通科技旗下首款
黑芝麻智能助力亿咖通科技旗下首款智能驾驶计算平台成功量产交付,智能驾驶,计算,助力,首款,交付,智能,近年来,智能驾驶技术逐渐成为探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形ACCEL光电芯片,性能超GPU千倍,新一代
ACCEL光电芯片,性能超GPU千倍,新一代计算架构将更早来临,性能,新一代,计算,芯片,超过,处理速度,ACCEL光电芯片是一种新型的IRFB3207PB清华研制出首个全模拟光电智能计算
清华研制出首个全模拟光电智能计算芯片ACCEL,芯片,智能计算,模拟,清华,混合,研发,清华大学最近成功研制出了一款全模拟光电智能计算PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是创建更低延迟和更高效率的 5G 系统
创建更低延迟和更高效率的 5G 系统,延迟,系统,5G,优化,方法,网络架构,随着技术的不断发展,人们对通信系统的需求也在不断增加。5G技