首页 / 行业
NVIDIA 集合通信库加快深度学习训练速度
2022-07-30 09:02:00
NVIDIA 集合通信库(NCCL)可实现针对 NVIDIA GPU 和网络进行性能优化的多 GPU 和多节点通信基元。
关于 NVIDIA 集合通信库(NCCL)
NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,这些例程均经过优化,可通过节点内的 PCIe 和 NVLink 高速互联以及节点间的 NVIDIA Mellanox 网络实现高带宽和低延迟。
先进的深度学习框架(例如 Caffe2、Chainer、MXNet、PyTorch和 TensorFlow)已集成 NCCL,以在多 GPU 多节点的系统上加快深度学习训练速度。
便捷性能
使用 NCCL,开发者无需针对特定机器优化其应用,因而更加便捷。NCCL 可在节点内和节点间实现多个 GPU 的快速集合。
简化编程
NCCL 使用可从多种编程语言轻松访问的简单 C API,且严格遵循 MPI(消息传递接口)定义的主流集合 API。
兼容性
NCCL 几乎可与任何多 GPU 并行模型兼容,例如:单线程、多线程(每个 GPU 使用一个线程)和多进程模型(MPI 与 GPU 上的多线程操作相结合)。
主要特性
对 AMD、Arm、PCI Gen4 和 IB HDR 上的高带宽路径进行自动拓扑检测
凭借利用 SHARPV2 的网络内 all reduce 操作,将峰值带宽提升 2 倍
通过图形搜索,找到更佳的高带宽、低延迟的环和树集合
支持多线程和多进程应用
InfiniBand verbs、libfabric、RoCE 和 IP Socket 节点间通信
使用 Infiniband 动态路由重新路由流量,缓解端口拥塞
审核编辑:彭静最新内容
手机 |
相关内容
PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是创建更低延迟和更高效率的 5G 系统
创建更低延迟和更高效率的 5G 系统,延迟,系统,5G,优化,方法,网络架构,随着技术的不断发展,人们对通信系统的需求也在不断增加。5G技忆阻器存算一体芯片新突破!有望促进
忆阻器存算一体芯片新突破!有望促进人工智能、自动驾驶等领域发展,芯片,自动驾驶,人工智能,模拟,神经网络,计算,忆阻器存算一体芯片从零基础开始,掌握低代码+ Al 的应
从零基础开始,掌握低代码+ Al 的应用技巧,零基础,方法,框架,工具,深度学习,学习,低代码(Low-Code)是一种通过可视化开发工具和少量手写曦智科技提出片上光网络技术 提升
曦智科技提出片上光网络技术 提升单芯片性能,性能,芯片,提升,网络技术,系统,传输,曦智科技(Xizhi Technology)最近提出了一项创新的片高通第三代骁龙8性能全面升级 虹软
高通第三代骁龙8性能全面升级 虹软携手高通共创AI影像新高度,影像,性能,升级,网络,处理器,能力,高通第三代骁龙8系列处理器是一款全手势识别传感器的工作原理和常见技
手势识别传感器的工作原理和常见技术实现,常见技术,工作原理,传感器,手势识别,训练,信号,AD9203ARUZ手势识别传感器是一种能够感知远程实时监控管理:5G物联网技术助力
远程实时监控管理:5G物联网技术助力配电站管理,电站,物联网技术,实时监控,5G,故障排查,网络,随着科技的不断进步和发展,物联网TPS6108