首页 / 行业
Arm平台将成为加速计算领域和人工智能计算领域的前沿
2020-10-09 11:59:00
刚刚,在GTC技术大会上,英伟达(NVIDIA)创始人兼CEO黄仁勋再次站在家里厨房的炉灶前,带来一场线上主题演讲。其中就包括全新的可软件定义的数据中心专用处理器DPU(Data Processing Unit)及其生态产品路线图,并且宣布将在服务器市场力推Arm架构,以期在利润最丰厚的服务器处理器市场取得更大市场份额。
黄仁勋一并推出面向数据中心、边缘AI、协作工具和医疗健康场景的一系列软硬件加速方案。此前被黄仁勋称为“未来计算三大支柱之一”的数据处理单元DPU新品也正式亮相。
本次英伟达发布的核心新讯亮点如下:
1、Arm最新合作进展:宣布在三个方面进行投资,包括将GPU和DPU移植到Arm生态、加速高性能计算与云边端平台、向Arm提供英伟达AI、HPC、RTX引擎等先进SDK。
2、数据中心:推出基于新型数据中心芯片架构DOCA的两款全新DPU处理器、DOCA软件开发包,并公布DPU未来三年路线图;
3、边缘AI:推出加速企业大规模部署AI的NVIDIA EGX Egde AI平台,宣布简化服务器AI应用部署和管理的NVIDIA Fleet Command新服务早期访问计划,推出售价59美元的入门级AI开发套件Jetson Nano 2GB。
4、协作工具:宣布Omniverse公开Beta测试版,让设计师可以在家中或世界各地实时协作;推出NVIDIA Maxine云AI视频流媒体平台,通过提供各种AI功能,更好地连接数百万远程工作和学习;
5、医疗健康:宣布正在打造英国最强大的AI超级计算机Cambridge-1,AI性能达400 petaflops,拟为该超算投资约4000万英镑;宣布与全球医疗健康公司GSK达成合作;推出NVIDIA Clara Discovery平台,加速医疗领域开发AI应用程序;参与世界上最大的抗击新冠肺炎联邦学习行动,保护数据隐私。
过去多年来,GPU芯片一直是英伟达的主打产品,并且被大量应用在图形处理等领域。但近年来,它们也被大量应用于人工智能训练领域,帮助提高人工智能对于图像识别等任务的速度。这些芯片通常安装在英特尔中央处理器旁边,帮助加速人工智能相关工作的计算。而现在,英伟达计划通过全新的可软件定义的数据中心专用处理器DPU来取代英特尔的CPU。
一、宣布Arm最新进展:投资三个方面
黄仁勋以英伟达与Arm合作的最新进展作为主题演讲的压轴内容。就在上个月,英伟达宣布以400亿美元收购这家英国芯片设计公司。
“Arm是世界上最受欢迎的CPU,”黄仁勋说,“我们将共同向Arm生态系统提供英伟达加速和AI计算技术。”
去年英伟达宣布将CUDA及科学计算堆栈移植到Arm,今天,黄仁勋宣布一项推进Arm平台的重大举措——英伟达在三个方面进行投资:
(1)英伟达将在GPU、网络、存储和安全技术方面对Arm合作伙伴进行补充,以创建完整的加速平台;
(2)英伟达正与Arm合作伙伴一起为高性能计算、云计算、边缘和PC创建平台——这需要芯片、系统和系统软件;
(3)英伟达正在向Arm提供英伟达AI、HPC、RTX引擎等先进SDK。
“现在这些功能只能在x86上使用,”黄仁勋说,“有了这一举措,Arm平台也将在加速计算和AI计算方面处于领先地位。”
二、新型处理器DPU:基于DOCA架构,可编程、AI驱动、“零信任”安全
自今年4月宣布完成对Mellanox收购以来,英伟达在数据中心的加码一直备受关注。
今日,英伟达推出这笔收购所带来的最新成果,面向数据中心的新一代可编程处理器(SoC)——NVIDIA BlueField系列数据处理单元(DPU)。
英伟达创始人兼CEO黄仁勋说,现代数据中心由软件定义,运行数据中心的基础设施需要消耗20- 30%的CPU核心,为了减轻CPU的负担,需要一种新的处理器。
“我们称之为数据处理单元(DPU)。”黄仁勋介绍说,新的NVIDIA BlueField 2 DPU是一个可编程处理器,具有强大的Arm核心和加速引擎,用于网络、存储和安全的加速处理任务。
作为对CPU和GPU的补充,DPU具有加速、完全可编程和“零信任”安全特性,基于数据中心芯片架构DOCA(Datacenter-infrastructure-on-a-chip),将多核Arm CPU、高性能网络接口、各种灵活和可编程的加速引擎集于一体,能提升网络、存储和安全性能,防止数据泄露和网络攻击,同时节省大量运营支出。
BlueField-2 DPU优化后,可在数据实时进出服务器时对数据进行处理,从而实现了高性能的完全可编程数据处理,同时将关键的网络、存储、安全任务从CPU卸下,释放了CPU资源。也就是说,该芯片将计算功能移到了数据所在的位置。
以前可能要用125个CPU核提供的数据中心服务,如今一颗BlueField-2 DPU就能提供,这释放了宝贵的CPU内核,以便运行大量其他企业应用。
英伟达目前的DPU产品线包括两款PCIe产品:
(1)NVIDIA BlueField-2 DPU:包含8个64位A72 Arm核,具备NVIDIA Mellanox ConnectX-6 Dx SmartNIC的所有功能,完全可编程,提供每秒200千兆的数据传输速率和加速关键数据中心安全、网络和存储任务,包括隔离、根信任、密钥管理、RDMA/RoCE,、GPU direct、弹性块存储、数据压缩等等。
(2)NVIDIA BlueField-2X DPU:计算性能是BlueField-2的85倍,除了包括BlueField-2 的所有关键特性外,还增强了NVIDIA Ampere GPU的AI能力,可用于数据中心安全、网络和存储任务,利用英伟达第三代张量核心,能够用AI进行实时安全分析,如异常检测和自动响应、实时流量分析在线率、动态安全编排、在线分析上传视频等。
现场,黄仁勋透露了为期三年的DPU路线图:
BlueField-2 DPU处理器目前正在试用阶段,预计2021年进入主要服务器制造商的新系统,BlueField-2X还在开发中,预计2021年上市。
基于相同的DOCA架构,BlueField-3和BlueField-3X将在2022年问世,搭载更强Arm核,网络性能达到400Gbps;BlueField-4将在2023年问世,计算性能将达到BlueField-2的近600倍。
英伟达还提供了NVIDIA DOCA软件开发工具包,现在可供早期访问合作伙伴使用。
正如NVIDIA CUDA使得开发者能构架GPU加速的应用程序一样,新NVIDIA DOCA SDK使得开发者能在DPU加速的数据中心基础设施服务上,构建软件定义、硬件加速网络、存储、安全和管理应用程序。DOCA还提供了一组标准的开放API来帮助开发者在DPU上运行其代码。
DOCA被完全集成到NVIDIA NGC中,为第三方应用程序供应商提供了一个方便的、集装箱化的软件环境,以利用先进的DPU数据中心加速服务,并开发、认证和分发应用程序给客户。
华硕、源讯、Dell Technologies、富士通、技嘉、H3C、浪潮、联想、Quanta)/QCT、超微等全球领先的服务器制造商均已计划将英伟达DPU集成到它们的企业级服务器产品中。
VMware、Canonical、红帽、Check Point Software Technologies等一些软件基础设施合作伙伴也已宣布或计划支持BlueField-2 DPU。
三、加速大规模部署AI,推出NVIDIA EGX Edge AI平台和Fleet Command早期访问计划
面向边缘基础设施,英伟达带来NVIDIA EGX Edge AI平台,为全球科技领袖及数百家创业团队提供加速数据中心和边缘AI的GPU加速服务器,使得各种行业、各种规模的组织能够快速有效地大规模部署AI。
基于英伟达EGX AI平台的系统可从Dell Technologies、浪潮、联想、超微等领先服务器制造商处获得,并已得到Canonical、Cloudera、红帽、SUSE和VMware等软件基础设施提供商的支持。
EGX平台的核心是一个可在NVIDIA NGC上使用的优化AI软件栈,NVIDIA NGC提供了一系列行业特定的AI工具包和预培训的模型,使得在NVIDIA认证的系统上构建和部署AI应用程序更加容易。
未来的企业数据中心将在10000个不同位置拥有一台或多台服务器,而非在一个位置拥有10000台服务器。为了简化和保护这些服务器上AI应用程序和模型的部署和管理,英伟达宣布了一项名为NVIDIA Fleet Command的新服务早期访问计划,目前向合格的客户开放。
这种混合云平台将边缘计算的安全性和实时处理能力与远程管理和软件即服务的易用性相结合。
通过一个统一的控制平面,Fleet Command集中管理分布在广大地区的服务器。其一触式配置、空中软件更新、远程管理和详细监控仪表板,使执行团队更容易减轻IT负担,最大限度地利用其AI应用和达到最高效率。
全球供应链解决方案领导者KION集团是最早接触Fleet Command的公司之一,正用NVIDIA EGX AI平台为其智能仓库系统开发AI应用程序,提高零售配送中心的吞吐量和效率。
四、售价59美元的入门级AI机器人开发套件
面向边缘侧,英伟达还推出了边缘AI机器人系列产品Jetson AI在Edge平台上的最新产品——入门级开发工具包Jetson Nano 2GB,售价仅59美元,将于本月底发售,这一价钱几乎只有去年发布的99美元Jetson Nano开发工具包的一半。
通过在机器人和智能物联网等领域创建手工项目,该工具包为学生、教育工作者、机器人爱好者提供了一个可扩展的平台来学习和创建AI应用程序。
它使用的是与NVIDIA CUDA-X加速计算堆栈相同的技术,并得到了NVIDIA JetPack SDK的支持。
为了支持这一努力,英伟达还宣布提供免费的在线培训和AI认证项目,作为众多开源项目、how-to和视频的补充。
目前Jetson Nano 2GB开发工具包已获得来自组织、企业、教育者以及嵌入式计算生态系统合作伙伴的认可。
五、Omniverse平台正式公测,让远程3D仿真协作像编辑文档一样容易
在协作工具方面,英伟达宣布Omniverse平台的公开Beta测试版,使得设计师可以在家中或世界各地实时协作。
Omniverse在今年秋季即可下载。该平台融合了英伟达在图形、仿真和AI方面的突破,是世界上第一个基于英伟达RTX实时渲染的3D仿真和协作平台,将物理和虚拟世界融合,以逼真的细节实时模拟现实,对于在机器人、汽车、建筑、工程、制造、媒体和娱乐行业工作的客户来说是必不可少的。
团队可基于Omniverse平台实现远程实时协作,无论是建筑师修改3D建筑设计、动画师修改3D场景,还是工程师合作开发自动驾驶汽车,都像在网上共同编辑一份文档一样容易。
例如,NVIDIA Omniverse增强了NVIDIA Drive Sim的能力,实现了前所未有的对大规模精细环境的实时、物理精确、多GPU模拟。
在Omniverse公开Beta版前,爱立信、Foster + Partners、ILM及其他40多家公司,以及多达400名个人创造者和开发者,已经对该平台进行了为期一年的早期访问,并向英伟达工程团队提供了反馈。
卢卡斯影业及工业光魔技术副总裁Francois Chardavoine认为:“Omniverse展示了实时光线追踪的可能性,在视觉特效和动画制作的各个阶段,改进创作过程的潜力将是革命性的。”
六、NVIDIA Maxine平台: 模块化设计轻松整合AI功能,大幅改善视频会议体验
今天英伟达还推出了基于云计算的流媒体视频AI平台NVIDIA Maxine,为开发者提供了一套基于云计算的GPU加速AI视频会议软件,通过整合了英伟达先进的视频、音频和对话AI功能,可以大幅提高流媒体质量和改善视频会议体验。
“AI可以为视频通话创造奇迹,”黄仁勋说,“有了Jarvis和Maxine,我们有机会彻底改变今天的视频会议,并创造未来虚拟会议的存在。”
Maxine平台的模块化设计使开发人员可以轻松选择AI功能,将其集成到他们的视频会议解决方案中。
通过在云端NVIDIA GPU上运行AI推理工作负载,视频会议服务提供商可以使用Maxine平台为数十万用户提供领先的AI能力,如凝视校正、超分辨率、实时字幕、噪声消除、人脸重亮等等。
由于数据是在云端处理的,而不是在本地设备上处理的,因此终端用户无需任何专用硬件,就可以享受这些AI新特性,同时减少电脑、平板电脑和手机等终端设备上的数据流。
通过使用AI,Maxine可以将视频通话所消耗的带宽减少10倍。它并没有在整个屏幕上显示像素,而是分析通话中每个人的关键面部特征,然后在通话另一边的视频中智能地重新激活人脸,使得流媒体视频在互联网上以更少的数据来回流动。
借助这一基于AI的视频压缩技术,开发者可以将视频带宽消耗减少到H.264流媒体视频压缩标准要求的1/10,从而降低了供应商的成本,并为终端用户提供了更流畅的视频会议体验。
基于英伟达的生成对抗网络(GAN)研究,Maxine平台使得视频会议感觉更像面对面的交谈。
例如,面部对齐功能可以自动调整人脸,这样通话时人们看起来是面对面的,而凝视校正则可以模拟眼神交流,即使摄像头与用户的屏幕没有对齐。自今年年初以来,视频会议的数量增长了10倍,这些功能有助于帮人们在交谈中保持专注。
开发人员还可以添加一些功能,让参与者选择自己的动画角色,这些动画由他们的声音和情绪实时自动驱动。即便用户远离屏幕,自动帧选项使得视频反馈依然能跟随说话者。
通过使用NVIDIA Jarvis SDK支持的AI对话特性,开发者还可以集成虚拟助手,通过语音识别、语言理解和语音生成技术,实现做笔记、设置动作项目、用类似人类的声音回答问题等功能。翻译、封闭式字幕和转录等其他AI会话服务,有助于确保参与者能够理解电话中讨论的内容。
此外,云本地架构有助于节省成本并提供多整合AI功能。视频会议需求很难预测,因为在任意时间,都可能会有数百甚至数千名用户试图加入同一个电话。
NVIDIA Maxine平台利用在NVIDIA GPU上运行在Kubernetes容器集群中的AI微服务,帮助开发者根据实时需求扩展他们的服务。用户可以同时运行多个AI特性,并满足应用程序延迟要求。
Maxine平台集成了几项NVIDIA AI SDK和API的技术。除了NVIDIA Jarvis外, Maxine平台还借助NVIDIA DeepStream高通量音频和视频流SDK和NVIDIA TensorRT SDK,用于高性能深度学习推理。这些NVIDIA SDK所提供的AI音频、视频和自然语言能力,都是在NVIDIA DGX系统上进行数十万小时的训练而开发出来的。
七、打造英国最强AI超算Cambridge-1,AI算力达400 petaflops
在医疗健康领域,英伟达宣布正打造英国最强大的AI超级计算机Cambridge-1,帮助英国医疗健康研究人员用AI来解决紧迫的医学挑战。
该超算预计在年底前上线,这也是英伟达设计和制造的第一台用于外部研究访问的超级计算机,英伟达将为该超算投资约4000万英镑。
Cambridge-1超算将是一个NVIDIA DGX SuperPOD系统,它包含80个英伟达DGX A100系统,采用英伟达Mellanox InfiniBand技术,AI性能超过400 petaflops,Linpack性能超过8 petaflops,将在最新全球TOP500超算排行榜中跻身第29名,在当前Green500强排行榜中将跻身全球最节能超算的前三甲。
英伟达还宣布与全球医疗健康公司GSK及其AI实验室建立合作关系,构建AI药物研发实验室(AI drug discovery lab),以推进药物和疫苗研发。
GSK和AstraZeneca均在首批用Cambridge-1超算进行研究的医疗健康公司之列,此外来自Guy’s and St Thomas’ NHS Foundation Trust、伦敦国王学院、Oxford Nanopore公司的研究人员也计划利用该系统。
Cambridge-1超算聚焦的四个关键领域为:
(1)联合行业研究:解决大规模医疗保健和数据科学问题,从而改善患者的治疗结果;
(2)授予大学的计算时间:NVIDIA GPU时间的访问将作为一种资源捐赠给特定研究,以帮助寻找治疗方法。
(3)支持AI初创企业:英伟达将提供学习机会,并与初创企业合作,培育下一代并提供早期使用AI工具的机会。
(4)培养未来的AI从业者:该系统将成为世界级研究人员的目的地,并为下一代提供实践经验。
八、加速计算药研,推出NVIDIA Clara Discovery工具
NVIDIA将帮助研究人员利用为NVIDIA DGX优化的先进工具NVIDIA Clara Discovery,它集合了成像、放射学和基因组学的力量,为医疗领域最大的计算任务开发AI应用程序。
其特点是预先训练的AI模型和应用程序特定框架,以帮助研究人员定义下一代药物发现过程,从寻找目标、构建化合物到开发反应。
利用最近在自然语言处理方面的一项突破,研究人员现在可以利用特定于生物医学的语言模型来组织、理解和激活大型数据集、研究文献和整理现有治疗和其他重要现实数据的论文或专利。
九、筛查新冠肺炎患者:20天内在20家医疗构建预测氧气需求的AI模型
在保护数据隐私安全、不共享数据的前提下, NVIDIA Clara联邦学习技术能实现预测患者氧气需求,并构建一个无需考虑地理位置、患者人数或数据大小,更易于推广的AI模型。
该联邦学习模型将在未来几周作为NVIDIA Clara的一部分在NGC上发布。
英伟达和Massachusetts General Brigham医院的研究人员开发了一种AI模型,可以确定因COVID-19症状出现在急诊室的患者在初次检查几小时甚至几天后是否需要补充氧气。
最初模型被命名为CORISK,由该医院的科学家Quanzheng Li博士开发。在许多国家可能开始出现第二波COVID-19患者之际,该方案将医学成像和健康记录结合起来,用来帮助临床医生更有效地管理住院治疗。
为了将其推广到尽可能多的医院,英伟达和该医院启动了一项名为EXAM (EMR CXR AI模型)的计划,与来自世界各地的20家医院合作。据介绍,这是一项规模最大、最多样化的联邦学习计划。
在短短两周内,全球合作完成了一个曲线下面积为0.94 (AUC目标为1.0)的模型,从而对住院病人所需的氧气水平做出了出色的预测。
通过使用NVIDIA Clara联邦学习框架,各个医院的研究人员能够使用胸片、病人的生命值和实验室值来训练一个局部模型,并通过一种称为联邦学习的隐私保护技术,将模型权重的子集与全局模型共享。
该模型的最终目标是预测出现在急救室的患者需要补充氧气的可能性,帮助医生决定对患者的适当护理水平,包括ICU的设置。
除了这一项目外,其他大规模联邦学习也正在进行中。例如Owkin正与英伟达、伦敦国王学院以及在MELLODDY制药集团的十多个其他组织,基于全球最大的AI协作药物化合物数据集,使用联邦学习技术在不牺牲数据隐私的前提下实现性能突破。
伦敦国王学院希望,联邦学习技术能帮助在中风和神经损伤分类、确定癌症的根本原因以及为患者推荐最佳治疗方法等方面取得突破。
结语:英伟达持续发力数据中心
继今年5月GTC技术大会甩出一系列基于安培GPU架构的硬核AI新品后,今天英伟达释放的新讯进一步聚焦在强化数据中心等四个关键领域的实力。
显然英伟达并不餍足于其在云端AI加速和图形处理领域的领先地位,而是针对客户及开发者痛点持续补足缺口。
尤其是英伟达今日展示的BlueField系列DPU处理器,是其整合Mellanox技术面向数据中心的又一次发力。如今英伟达400亿美元收购Arm的交易案正在推进中,可以看到,如果这一交易得以完成,不仅将为英伟达进军基于Arm架构的超算和服务器领域带来便利,也将有助于其DPU处理器的发展。
除此之外,作为算力需求最大的产业之一,医疗诊断和新药研发显然也被英伟达视作拓展疆域的重点,无论是持续完善的NVIDIA Clara平台,还是英伟达打造的AI超算,都在为AI落地医疗场景提供更大的动能。
从英伟达近年的布局来看,从传统的GPU图形处理器产品,转向以CUDA架构为基础的人工智能计算产品,为英伟达带来了巨大的成功。2019年英伟达斥资69亿美元收购Mellanox正是为了进一步进军数据中心市场做准备。要知道Mellanox的太网产品和InfiniBand智能互连解决方案在数据中心市场拥有很大的市场份额。根据英伟达的说法,Mellanox的这些产品被用于世界上一半以上最快的超级计算机和许多领先的超大规模数据中心。
今年英伟达再度斥资400亿美元对Arm的收购,其真正的目的可能也正是为了在利润丰厚的数据中心市场与英特尔进行正面竞争。
此次,全新的BlueField DPU和DOCA架构的推出,则正是英伟达在数据中心市场对英特尔发起正面挑战的开始。
值得注意的是,在宣布收购Arm之后,黄仁勋曾公开表示,英伟达“有可能”推出自己的Arm服务器CPU芯片。
在GTC 2020主题演讲的最后,英伟达CEO黄仁勋强调:“Arm是世界上最受欢迎的CPU,我们将共同向Arm生态系统提供NVIDIA加速器和人工智能计算技术。”
同时,黄仁勋宣布了一项推进Arm平台的重大举措,英伟达正在向以下三个方面进行投资:首先,英伟达将在GPU、网络、存储和安全技术方面对合作伙伴Arm进行补充,打造完整的加速平台;其次,NVIDIA正与Arm一同合作,为高性能计算、云端、边缘和PC应用开发平台;第三,英伟达正在将NVIDIA AI和 NVIDIA RTX引擎迁移至Arm。
黄仁勋说:“今天,这些功能只能在X86上使用,但有了这些举措,Arm平台也将成为加速计算领域和人工智能计算领域的前沿!”
责任编辑:tzh
最新内容
手机 |
相关内容
写flash芯片时为什么需要先擦除?
写flash芯片时为什么需要先擦除?,擦除,芯片,充电,初始状态,存储单元,数据,Flash芯片是一种非易失性存储器技术,用于存储数据并实现固半导体主控技术:驱动自动驾驶革命的
半导体主控技术:驱动自动驾驶革命的引擎,自动驾驶,交通,自动驾驶系统,数据,车辆,自动,随着科技的不断进步,自动驾驶技术已经成为现实智能传感器助力打造数字经济数字世
智能传感器助力打造数字经济数字世界,数字,经济,传感器,助力,智能,及时发现,PCM1801U智能传感器是一种能够感知环境并将感知结果转芯片迈向系统化时代:EDA软件的创新
芯片迈向系统化时代:EDA软件的创新之路,时代,芯片,形式,支持,性能,验证,芯片设计是现代科技领域的重要组成部分,它涉及到电子设计自动Arbe 4D成像雷达以高分辨率雷达技
Arbe 4D成像雷达以高分辨率雷达技术和先进处理技术消除“幽灵刹车”问题,刹车,成像,分辨率,系统,目标,数据,Arbe 4D成像雷达是一种清华大学研发光电融合芯片,算力超商
清华大学研发光电融合芯片,算力超商用芯片三千余倍,芯片,研发,商用,测试,计算,科学研究,近日,清华大学发布了一项重要科研成果,他们成英伟达芯片开发过程引入聊天机器人
英伟达芯片开发过程引入聊天机器人,扩展更多AI应用,聊天机器人,扩展,芯片,英伟达,开发过程,调试,英伟达是一家全球领先的半导体公司,工业物联网数据采集:从Modbus到MQTT
工业物联网数据采集:从Modbus到MQTT,数据采集,物联网,模式,网关,协议,数据,工业物联网(Industrial Internet of Things,IIoT)的核心任务