首页 / 行业
NVIDIA为需要加速计算的企业客户运行测试服务器
2021-12-15 15:35:00
借助 NVIDIA AI,戴尔、浪潮、Microsoft Azure 和 Supermicro 在今天发布的新 MLPerf 基准测试中创下快速训练 AI 模型的记录
看看谁刚刚在快速训练 AI 模型方面创下新速度记录:戴尔科技、浪潮、Supermicro以及在 MLPerf 基准测试中首次亮相的 Azure 均在使用 NVIDIA AI。
在今天宣布的 MLPerf 训练 1.1 结果中,NVIDIA平台在所有八个热门工作负载中都创下了记录。
图示:在新一轮的测试中,NVIDIA AI 训练所有模型的速度都快于替代方案
NVIDIA A100 Tensor Core GPU 提供了最出色每芯片性能, Selene 是NVIDIA内部基于模块化NVIDIA DGX SuperPOD架构构建的AI超级计算机,借助NVIDIA InfiniBand网络和NVIDIA软件栈进行扩展,A100在Selene上实现了最快的AI训练速度 。
图示:NVIDIA A100 GPU 在所有八项 MLPerf 1.1 测试中均实现最好的每芯片训练性能
云服务更上一层楼
根据最新结果,在训练 AI 模型方面,Azure 的 NDm A100 v4 实例的速度遥遥领先。它运行了新一轮的每项测试,扩展到多达 2,048 个 A100 GPU。
Azure 不仅展示了出色性能,而且在美国的六个地区,现在所有人都可以租借和使用其出色性能。
AI 训练是一项需要大量投入的大型工作。NVIDIA希望用户借助他们选择的服务或系统以创纪录的速度训练模型。
因此,NVIDIA将 NVIDIA AI 与面向云服务、主机托管服务、企业和科学计算中心的产品相结合。
服务器制造商各显身手
在OEM 中,浪潮凭借其八路GPU服务器NF5688M6 和NF5488A5液冷服务器在单节点性能方面创下了最多记录。戴尔和 Supermicro 在四路 A100 GPU 系统上创下了记录。
共有 10 家 NVIDIA 合作伙伴提交了本轮测试结果,其中包含 8 家 OEM 和 2 家云服务提供商。它们占所有提交的 90% 以上。
这是 NVIDIA 生态系统在 MLPerf 训练测试中的第五次亮相,也是到目前为止最出色的亮相。
NVIDIA的合作伙伴之所以积极参与,是因为他们知道 MLPerf 是唯一符合行业标准、经过同行评审的 AI 训练和推理基准测试。对于评估 AI 平台和供应商的客户来说,这是一个有价值的工具。
为速度认证的服务器
百度 PaddlePaddle、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想和 Supermicro 提交了基于本地数据中心的结果(单节点和多节点任务)。
NVIDIA几乎所有的 OEM 合作伙伴都在 NVIDIA 认证系统上运行了测试,NVIDIA为需要加速计算的企业客户验证了服务器。
提交的范围展示了 NVIDIA 平台的广度和成熟度,该平台为各种规模的企业提供最佳的解决方案。
既快速又灵活
NVIDIA AI 是唯一用于提交所有基准测试和用例的平台参与者,这展示了其通用性和高性能。快速灵活的系统提供客户所需的生产力,以加快他们的工作速度。
AI训练基准测试涵盖当今最热门的八个 AI 工作负载和场景,例如计算机视觉、自然语言处理、推荐系统、增强学习等。
MLPerf 测试透明、客观,因此用户可以依靠结果做出明智的购买决策。该行业基准测试组织成立于 2018 年 5 月,得到阿里巴巴、ARM、Google、Intel 和 NVIDIA 等数十家行业领先公司的支持。
三年内加速 20 倍
回顾过去,数据显示,仅在过去 18 个月,NVIDIA A100 GPU 的性能就提升了 5 倍以上。这要归功于软件的持续创新,这也是NVIDIA目前工作的重心。
自从三年前 MLPerf 测试首次亮相,NVIDIA 的性能提高了 20 倍以上。这种大规模加速源于NVIDIA在全栈 GPU、网络、系统和软件方面取得的进步。
图示:NVIDIA AI 在三年内实现了 20 倍以上的改进
持续改进软件
NVIDIA的新进展来自多项软件改进。
例如,借助一类新的内存复制操作,NVIDIA在针对医学成像的 3D-UNet 基准测试中实现 2.5 倍的操作加速。
得益于微调 GPU 以进行并行处理的方式,NVIDIA在针对物体检测的 Mask R-CNN 测试中实现 10% 的速度提升,而在针对推荐系统的测试中实现了 27% 的提升。NVIDIA只是重叠了独立操作,这种技术尤其适合跨多个 GPU 运行的作业。
NVIDIA扩展了 CUDA 图形的使用范围,尽可能减少与主机 CPU 的通信。得益于此,NVIDIA在针对图像分类的 ResNet-50 基准测试中实现了 6% 的性能提升。
NVIDIA在NCCL 上实施了两种新技术。NCCL 是NVIDIA的库,用于优化 GPU 之间的通信。对于 BERT 等大型语言模型,这样可以将结果加速高达 5%。
利用NVIDIA的工作结果
NVIDIA使用的所有软件均在 MLPerf 仓库提供,因此每个人都可以获得NVIDIA的出色结果。NVIDIA不断将这些优化整合到 NGC(NVIDIA的 GPU 应用程序软件中心)上的容器。
它是全栈平台的一部分,已在新的行业基准测试中得到验证,可从各种合作伙伴处获得,能够处理当今真正的 AI 作业。
原文标题:MLPerf | 云服务、OEM 借助 NVIDIA AI 让 AI 训练更上层楼
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
审核编辑:彭菁最新内容
手机 |
相关内容
平头哥首颗SSD主控芯片镇岳510问世
平头哥首颗SSD主控芯片镇岳510问世,将率先在阿里云数据中心部署,数据中心,芯片,平头,需求,可靠性,稳定性,近日,平头哥首颗SSD主控芯片PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是芯朋微:服务器配套系列芯片已通过客
芯朋微:服务器配套系列芯片已通过客户验证 可应用于AI服务器,服务器,客户,芯片,验证,人工智能,公司,芯朋微是一家专注于人工智能芯片数据中心如何更快、更经济地利用AI
数据中心如何更快、更经济地利用AI?,经济,数据中心,用于,机器学习,计算,自动化运维,数据中心中使用人工智能(AI)技术可以带来许多好处,Codasip推出全新高度可配置的RISC-
Codasip推出全新高度可配置的RISC-V基准处理器系列,基准,处理器,全新,配置,推出,性能,Codasip最近推出了一系列全新的高度可配置的R慧荣科技打造企业级SSD主控芯片,为
慧荣科技打造企业级SSD主控芯片,为企业数据中心保驾护航,芯片,数据中心,企业,企业级,多种,数据存储,慧荣科技是一家专注于研发和生产数据中心短缺:人工智能未来的致命阻
数据中心短缺:人工智能未来的致命阻碍?,人工智能,数据中心,采用,需求,算法,存储技术,数据中心短缺是人工智能未来发展的一个重要致命什么是串口服务器,串口服务器的组成
什么是串口服务器,串口服务器的组成、特点、原理、分类、常见故障及预防措施,服务器,串口,分类,远程访问,预防,接口,TLC27M2CDR串口