首页 / 行业
NVIDIA BlueField-2 DPU性能测试方法
2022-01-04 14:25:00
查看文末海报,免费注册成为 DOCA 开发者!
DPU(数据处理器)将服务器和存储之间的 IOPS 性能提升至 4100 万以上,超过之前世界纪录的四倍。
数据中心需要超高速存储访问,而目前还没有哪个 DPU 的速度能比 NVIDIA BlueField-2 更快。
NVIDIA 近期测试显示,两个 BlueField-2 DPU(数据处理器)的每秒输入/输出(IOPS)性能达到 4150 万次,超过任何其他 DPU 性能的 4 倍。
BlueField-2 DPU 使用标准网络协议和开源软件打破性能纪录,使用业界常用的存储介质访问方法 NVMe over Fabrics(NVMe-oF)以及最通用的互联网协议之一 TCP 网络,其 4KB IOPS 性能超过 500 多万,而 512B IOPS 则达到 700 万至 2000 万以上。
为了加速 AI、大数据和高性能计算应用,BlueField 还支持流行的 RoCE 网络传输选项以提供更高的存储性能。
在测试中,initiator 端和 target 端都部署了 BlueField,使用不同类型的存储软件库和不同的应用来模拟真实世界的存储配置,都展现出超强的性能。BlueField 在 InfiniBand 网络上还支持快速存储连接,而 InfiniBand 是许多 HPC 和 AI 应用的首选网络架构。
测试方法
BlueField 所达到的 4150 万 IOPS,是之前使用专有存储产品创造的 1000 万 IOPS 世界纪录的 4 倍多。这一性能是通过连接两台快速 Hewlett Packard Enterprise Proliant DL380 Gen 10 Plus 服务器实现的,其中的一台作为应用服务器(存储 initiator),另一台作为存储系统(存储 target)。
每台服务器均配备两个英特尔 “Ice Lake” 至强白金 2.3GHz 8380 处理器,支持 160 个超线程核以及 512GB 的 DRAM、120MB 的 L3 缓存(每个处理器60MB)和 PCIe Gen4 总线。
为了加速网络和 NVMe-oF,每台服务器均配备了两块 NVIDIA BlueField-2 P系列 DPU 卡,每块卡带有两个 100Gb 以太网端口,在 initiator 和 target 之间有四个网络端口合计 400Gb/s 线速带宽,并通过 NVIDIA LinkX 100GbE Direct-Attach Copper(DAC)无源电缆背对背连接。两台服务器均安装 Red Hat Enterprise Linux(RHEL)8.3 版本。
对于存储系统软件,测试 SPDK 和标准 upstream Linux 内核 target,使用默认内核 4.18 和最新内核之一 5.15。对三种不同的存储 initiator 进行了基准测试,分别为 SPDK、标准内核存储 initiator 和 SPDK FIO 插件。使用 FIO 和 SPDK 生成负载并进行测量,使用 4KB 和 512B 这两种常见的中型和小型存储 I/O 大小来测试。
在网络传输层使用了 TCP 和 RoCE 两种协议来测试 NVMe-oF 存储,每种配置都在全双向网络的条件下以 100% 读取、100% 写入和 50/50 读取/写入负载模型进行测试。
测试显示 BlueField DPU 还具有以下性能特点:
用较小的 512B I/O 大小测试,结果显示 IOPS 更高,但吞吐量低于端口线速,而用 4KB I/O大小测试,结果显示吞吐量很高,而 IOPS 有所降低。
100% 读取和100% 写入两种负载的 IOPS 和吞吐量性能类似,而 50/50 读/写混合负载由于充分使用网络连接的两个方向产生了更高的性能。
使用 SPDK 测试,得出的性能高于内核软件性能,但同时带来了更高的服务器 CPU 利用率,这是因为 SPDK 在用户空间中运行并不断进行轮询,因此这一情况在预期之内。
由于 Linux 社区会定期加入存储改进,因此较新的 Linux 5.15 内核比 4.18 内核表现更好。
创纪录的 DPU 存储性能
为存储安全提供了性能保障
在如今的存储领域,绝大多数云和企业部署都需要快速、分布式、通过以太网或 InfiniBand 访问的网络闪存。更快的服务器、GPU、网络和存储介质都要求服务器的 CPU 能够跟上,而最好的方法就是部署具有存储功能的 DPU。
BlueField-2 DPU 所展现的惊人存储性能,使整个数据中心的应用服务器和存储设备都具有更高的性能和效率。
在快速存储访问的基础上,BlueField 还支持对以太网存储流量和存储介质本身的硬件加速加密和解密,这有助于防止数据被盗或外泄。
它能以高达 100Gb/s 的速度卸载 IPsec(线上数据),以及高达 200Gb/s 的速度卸载 256 位 AES-XTS(静态数据),能够在对手入侵存储网络或者物理存储驱动器被盗、被出售或被不当处置的情况下,减少数据被盗的风险。
客户和领先的安全软件厂商正在使用最近更新的 BlueField 的 NVIDIA DOCA 框架,以在 DPU 上运行分布式防火墙,或提供微分段的安全组等网络安全应用,来进一步提高计算服务器的应用和网络安全,降低服务器存储的不当访问或数据修改风险。
NVIDIA BlueField-2 DPU 测试结果细节如下图:
使用 NMe-oF on TCP 测试 NVIDIA BlueField-2 DPU。测试结果是配置了两个 BlueField-2 DPU 的合并性能。
使用 NVMe-oF RoCE 测试 NVIDIA BlueField-2 DPU。测试结果是配置了两个 BlueField-2 DPU 的合并性能。
NVIDIA DOCA 现已开放接受申请,扫描下方海报二维码,或点击“阅读原文”,即可注册加入,抢先体验,走在技术前沿!
原文标题:NVIDIA BlueField 再创 DPU 性能世界纪录
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
审核编辑:汤梓红
最新内容
手机 |
相关内容
写flash芯片时为什么需要先擦除?
写flash芯片时为什么需要先擦除?,擦除,芯片,充电,初始状态,存储单元,数据,Flash芯片是一种非易失性存储器技术,用于存储数据并实现固半导体主控技术:驱动自动驾驶革命的
半导体主控技术:驱动自动驾驶革命的引擎,自动驾驶,交通,自动驾驶系统,数据,车辆,自动,随着科技的不断进步,自动驾驶技术已经成为现实光耦仿真器简介和优势
光耦仿真器简介和优势,仿真器,参数,接收器,设计方案,耦合,器件,光耦仿真器是一种用于模拟光耦合器件的工具,它可以帮助工程师在设计低耗能,小安派-LRW-TH1传感器通用板
低耗能,小安派-LRW-TH1传感器通用板,一块板即可连接多种传感器!,传感器,多种,连接,一块,通用,接口,小安派-LRW-TH1传感器通用板是一款芯片迈向系统化时代:EDA软件的创新
芯片迈向系统化时代:EDA软件的创新之路,时代,芯片,形式,支持,性能,验证,芯片设计是现代科技领域的重要组成部分,它涉及到电子设计自动Arbe 4D成像雷达以高分辨率雷达技
Arbe 4D成像雷达以高分辨率雷达技术和先进处理技术消除“幽灵刹车”问题,刹车,成像,分辨率,系统,目标,数据,Arbe 4D成像雷达是一种清华大学研发光电融合芯片,算力超商
清华大学研发光电融合芯片,算力超商用芯片三千余倍,芯片,研发,商用,测试,计算,科学研究,近日,清华大学发布了一项重要科研成果,他们成聊聊芯片中的负压产生机理及其应用
聊聊芯片中的负压产生机理及其应用,芯片,细胞,用于,测量,生物,结构,芯片中的负压是指在芯片内部产生的负压环境。在某些应用中,负压