首页 / 行业
从SmartNIC走向DPU,专用加速器的崛起
2022-06-25 01:17:00
在计算架构和负载变得愈发复杂和多样的情况下,处理器厂商纷纷开始了自己的造词之路。要想体现产品定位,又要让大家对其缩写印象深刻,所以PU成了最常见的后缀。现在的处理器家族中已经有了不少成员,除了常见的CPU、GPU、APU之外,按照处理对象的不同,在人工智能和深度学习的崛起下,NPU和TPU也纷纷出现。DPU模糊的定义不过这些已经定义明确的处理单元并不是我们今天的主角,而是找到了全新定义的xPU。什么是xPU,其实很难定义,这其中有DPU(数据处理单元)、IPU(基础设施处理单元)和FAC(功能加速卡),这些刚冒头的产品就是xPU,它们代表了从SmartNIC演化过来并超越其定位的新时代加速器硬件。除了SmartNIC以外,这些xPU虽然命名不同,但其实很多时候,它们是完全重合的,现在为了方便,很多时候也以DPU统称。
BlueField-3 DPU / 英伟达
这样说DPU的定义还是很模糊,我们就从其特点来看。SmartNIC往往需要主CPU来完成管理工作,DPU虽然往往也属于一个主系统中的部件,但却可以做到完全独立,可以部署到边缘、JBOF存储和网关上,并为它们提供网络接口和虚拟功能。它的另一项职责就是帮CPU减轻负担,节省服务器上有限的处理器核心。因此,尽管DPU看起来和一些PCIe智能网卡或GPU差不多,但它本质上就是一个为数据流和数据包处理提供加速、卸载和本地服务的微型服务器,在服务器中提供一个独立单元的同时,又不乏协助其他单元的处理能力。什么样的任务需要DPU?至于为什么要用到DPU,这就不得不谈到日益增加的数据密集型任务了,短视频、实时金融交易的兴起,高带宽的数据流要求数据中心对网络、存储、安全和AI/ML进行高效的处理。比如谷歌在数年前就提到,在他们的数据中心里,有三分之一的任务都是数据密集型的,这些都是交由底层基础设施完成的,而且这类任务的占比是在逐步增加的。因为CPU和GPU这样的通用计算单元并不擅长,所以专门针对这类任务优化的DPU就得出来担此大任了。其次就是企业数据中心和公共数据中心也想获得超大规模巨头厂商那样的效率,做到这一点就必须解聚那些昂贵的硬件资源,比如SSD、GPU等,DPU为数据中心的解聚提供了极高的效率,优化了拥有成本、占用面积和安全性。DPU可以完成各个方面的卸载与加速,尤其是在网络、安全和存储这三大块。在网络端,DPU可以有效实现虚拟路由器,辅助数据包交换、定义交换规则等工作,减少延迟的同时还能够提高吞吐量;在安全上,DPU可以用于下一代防火墙(NGFW)的加速,完成数据包过滤、内容检测和报头检测与重写,将性能提高数倍以上;在存储上,DPU可以卸载高速NVMe/TCP,进一步提升存储性能。最关键的是,这三者都能有效地接管CPU控制面的负载,节省CPU本身的计算核心。
基于DPU的服务器存储方案 / Fungible
以上是DPU为服务器提供的加强,主要以PCIe加速卡的形式来提供,此外,还有单独的DPU存储产品。传统的CPU存储方案中,整个系统由DRAM、x86 CPU、SmartNIC、加速器和PCIe接口组成,而在未来的存储方案,比如高性能存储、计算型存储和软件定义网络应用的存储中,单片集成的方案更能满足要求,这就是与DRAM结合的DPU存储产品。这种方案不仅可以提升IOPS,也能进一步降低能耗。正因如此,数据中心会用DPU来完成数据密集型任务,从而减少功耗、拥有成本和占用空间。此外,他们也会用到基于DPU的存储、GPU/TPU资源池和主机卡,来高效地完成高成本硬件资源的解聚。DPU市场混战在不少厂商对DPU的宣传中,往往都会提到这将是除了CPU和GPU之外的第三大硬件。大家可能觉得类似的承诺,好像一些AI处理器也有提到,但市面上还是GPU占据主导地位,DPU又会有何不同呢?事实证明,市场对DPU的信心很足,这我们从入局DPU的厂商就能看出。云霄DPU / 云豹智能
如今制造DPU的企业分为三种,一是初创公司,比如:云豹智能、星云智联、中科驭数、云脉芯联、芯启源、大禹智芯、Fungible等;二是市面上一些已有的服务器巨头,比如AMD/Xilinx、英特尔、Marvel、英伟达;三是CSP(云服务供应商)厂商,比如亚马逊AWS、微软Azure、阿里云等等。后者更多是负责设计或者联合设计这些xPU,好专用于自己的云服务器。最终售卖这些DPU的除了DPU厂商外,还有基础设施的OEM和ODM,增值分销商和集成方案厂商,CSP厂商在售卖服务器的时候,自然也会以间接的方式来体现DPU的价值。随着Mellanox被英伟达收购,Pensando被AMD收购,而Fungible的DPU主要针对存储加速和卸载,虽然没有被收购,但也收获了软银的主导的融资。国内的DPU厂商同样备受青睐,比如腾讯屡次投资的云豹智能,字节跳动投资的云脉芯联,美团和百度投资的星云智联等,这些投资方要么是CSP,要么拥有超大规模的数据中心,他们不像其他CSP大厂,硬件设计能力缺乏或有限,却也看到了DPU的前景。DPU并不完美即便大厂看好,但从现状来看,部署DPU对某些中小企业来说依然是双刃剑。固然,DPU可以卸载基础设施的任务,减轻其负担,让服务器的CPU空出来专注在应用本身,更高的效率、更低的拥有成本和更高的安全性也都随之而来,这些优点是几乎每个服务器都能享受到的。但在部分服务器中,引入DPU不免增加了服务器的资本投入,而且相较于CPU、GPU这类硬件来说,它只能卸载和加速特定的负载,并不是一个通用加速单元。此外,部分服务器在增加DPU的情况下还是会导致功耗提升,在服务器、数据中心纷纷开始节能减排的当下,如何权衡各个组件的功耗无疑会是一个大问题。还有就是相关的开发,DPU的灵活性体现在可编程上,但这需要进行一定的编程能力,加上目前每家厂商都在单干,也没有一个标准的接口,所以在适配上绝对不轻松,这也是不少DPU选择Arm作为核心架构的原因,就是为了减少其编程的难度。也正是因为以上这些理由,从市场渗透率上来看,DPU主要是还是大规模的CSP厂商用的更多一点,加上托管应用的增加,这一块未来也会驱动DPU产品的销售。对于自研DPU的CSP来说,他们肯定会继续加大这方面的投入,进一步降低成本,而对于第三方厂商来说,英伟达、AMD和英特尔这些服务器CPU、GPU厂商无疑会更有优势,因为他们提供竞争力更强的集成方案。
BlueField-3 DPU / 英伟达
这样说DPU的定义还是很模糊,我们就从其特点来看。SmartNIC往往需要主CPU来完成管理工作,DPU虽然往往也属于一个主系统中的部件,但却可以做到完全独立,可以部署到边缘、JBOF存储和网关上,并为它们提供网络接口和虚拟功能。它的另一项职责就是帮CPU减轻负担,节省服务器上有限的处理器核心。因此,尽管DPU看起来和一些PCIe智能网卡或GPU差不多,但它本质上就是一个为数据流和数据包处理提供加速、卸载和本地服务的微型服务器,在服务器中提供一个独立单元的同时,又不乏协助其他单元的处理能力。什么样的任务需要DPU?至于为什么要用到DPU,这就不得不谈到日益增加的数据密集型任务了,短视频、实时金融交易的兴起,高带宽的数据流要求数据中心对网络、存储、安全和AI/ML进行高效的处理。比如谷歌在数年前就提到,在他们的数据中心里,有三分之一的任务都是数据密集型的,这些都是交由底层基础设施完成的,而且这类任务的占比是在逐步增加的。因为CPU和GPU这样的通用计算单元并不擅长,所以专门针对这类任务优化的DPU就得出来担此大任了。其次就是企业数据中心和公共数据中心也想获得超大规模巨头厂商那样的效率,做到这一点就必须解聚那些昂贵的硬件资源,比如SSD、GPU等,DPU为数据中心的解聚提供了极高的效率,优化了拥有成本、占用面积和安全性。DPU可以完成各个方面的卸载与加速,尤其是在网络、安全和存储这三大块。在网络端,DPU可以有效实现虚拟路由器,辅助数据包交换、定义交换规则等工作,减少延迟的同时还能够提高吞吐量;在安全上,DPU可以用于下一代防火墙(NGFW)的加速,完成数据包过滤、内容检测和报头检测与重写,将性能提高数倍以上;在存储上,DPU可以卸载高速NVMe/TCP,进一步提升存储性能。最关键的是,这三者都能有效地接管CPU控制面的负载,节省CPU本身的计算核心。
基于DPU的服务器存储方案 / Fungible
以上是DPU为服务器提供的加强,主要以PCIe加速卡的形式来提供,此外,还有单独的DPU存储产品。传统的CPU存储方案中,整个系统由DRAM、x86 CPU、SmartNIC、加速器和PCIe接口组成,而在未来的存储方案,比如高性能存储、计算型存储和软件定义网络应用的存储中,单片集成的方案更能满足要求,这就是与DRAM结合的DPU存储产品。这种方案不仅可以提升IOPS,也能进一步降低能耗。正因如此,数据中心会用DPU来完成数据密集型任务,从而减少功耗、拥有成本和占用空间。此外,他们也会用到基于DPU的存储、GPU/TPU资源池和主机卡,来高效地完成高成本硬件资源的解聚。DPU市场混战在不少厂商对DPU的宣传中,往往都会提到这将是除了CPU和GPU之外的第三大硬件。大家可能觉得类似的承诺,好像一些AI处理器也有提到,但市面上还是GPU占据主导地位,DPU又会有何不同呢?事实证明,市场对DPU的信心很足,这我们从入局DPU的厂商就能看出。云霄DPU / 云豹智能
如今制造DPU的企业分为三种,一是初创公司,比如:云豹智能、星云智联、中科驭数、云脉芯联、芯启源、大禹智芯、Fungible等;二是市面上一些已有的服务器巨头,比如AMD/Xilinx、英特尔、Marvel、英伟达;三是CSP(云服务供应商)厂商,比如亚马逊AWS、微软Azure、阿里云等等。后者更多是负责设计或者联合设计这些xPU,好专用于自己的云服务器。最终售卖这些DPU的除了DPU厂商外,还有基础设施的OEM和ODM,增值分销商和集成方案厂商,CSP厂商在售卖服务器的时候,自然也会以间接的方式来体现DPU的价值。随着Mellanox被英伟达收购,Pensando被AMD收购,而Fungible的DPU主要针对存储加速和卸载,虽然没有被收购,但也收获了软银的主导的融资。国内的DPU厂商同样备受青睐,比如腾讯屡次投资的云豹智能,字节跳动投资的云脉芯联,美团和百度投资的星云智联等,这些投资方要么是CSP,要么拥有超大规模的数据中心,他们不像其他CSP大厂,硬件设计能力缺乏或有限,却也看到了DPU的前景。DPU并不完美即便大厂看好,但从现状来看,部署DPU对某些中小企业来说依然是双刃剑。固然,DPU可以卸载基础设施的任务,减轻其负担,让服务器的CPU空出来专注在应用本身,更高的效率、更低的拥有成本和更高的安全性也都随之而来,这些优点是几乎每个服务器都能享受到的。但在部分服务器中,引入DPU不免增加了服务器的资本投入,而且相较于CPU、GPU这类硬件来说,它只能卸载和加速特定的负载,并不是一个通用加速单元。此外,部分服务器在增加DPU的情况下还是会导致功耗提升,在服务器、数据中心纷纷开始节能减排的当下,如何权衡各个组件的功耗无疑会是一个大问题。还有就是相关的开发,DPU的灵活性体现在可编程上,但这需要进行一定的编程能力,加上目前每家厂商都在单干,也没有一个标准的接口,所以在适配上绝对不轻松,这也是不少DPU选择Arm作为核心架构的原因,就是为了减少其编程的难度。也正是因为以上这些理由,从市场渗透率上来看,DPU主要是还是大规模的CSP厂商用的更多一点,加上托管应用的增加,这一块未来也会驱动DPU产品的销售。对于自研DPU的CSP来说,他们肯定会继续加大这方面的投入,进一步降低成本,而对于第三方厂商来说,英伟达、AMD和英特尔这些服务器CPU、GPU厂商无疑会更有优势,因为他们提供竞争力更强的集成方案。
最新内容
手机 |
相关内容
低耗能,小安派-LRW-TH1传感器通用板
低耗能,小安派-LRW-TH1传感器通用板,一块板即可连接多种传感器!,传感器,多种,连接,一块,通用,接口,小安派-LRW-TH1传感器通用板是一款英伟达芯片开发过程引入聊天机器人
英伟达芯片开发过程引入聊天机器人,扩展更多AI应用,聊天机器人,扩展,芯片,英伟达,开发过程,调试,英伟达是一家全球领先的半导体公司,英特尔不应该担心英伟达Arm架构的P
英特尔不应该担心英伟达Arm架构的PC芯片?恰恰相反,芯片,英伟达,英特尔,调整,研发,推出,英特尔目前是全球最大的半导体公司之一,主要以所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技面向6G+AI,鹏城云脑的演进
面向6G+AI,鹏城云脑的演进,鹏城,人工智能,数据存储,脑可,智能终端,智能,随着科技的不断进步,人们的生活方式也在不断改变。6G+AI(人工新思科技与Arm持续加速先进节点定
新思科技与Arm持续加速先进节点定制芯片设计,芯片,节点,核心,解决方案,功耗,工具,新思科技(Synopsys)是一家全球领先的电子设计自动化英伟达系列芯片设计的高阶自动驾驶
英伟达系列芯片设计的高阶自动驾驶系统启动时序流程,启动,自动驾驶系统,芯片,英伟达,控制,车辆,英伟达(NVIDIA)是一家全球领先的人工高通骁龙8 Gen4曝光:升级台积电3nm
高通骁龙8 Gen4曝光:升级台积电3nm CPU回归自研架构,升级,台积电,优化,能和,功耗,处理器,高通骁龙8 Gen4是高通公司即将推出的一款NE