• 1
  • 2
  • 3
  • 4

首页 / 行业

AI训练势起,GPU要让位了?

2021-12-18 06:51:00

人工智能在进化的过程中,最不可或缺的便是模型和算力。训练出来的通用大模型省去了重复的开发工作,目前不少大模型都为学术研究和AI开发提供了方便,比如华为的盘古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么训练出这样一个大模型需要怎样的硬件前提?如何以较低的成本完成自己模型训练工作?这些都是不少AI初创企业需要考虑的问题,那么如今市面上有哪些训练芯片是经得起考验的呢?我们先从国外的几款产品开始看起。

英伟达A100

英伟达的A100可以说是目前AI训练界的明星产品,A100刚面世之际可以说是世界上最快的深度学习GPU。尽管近来有无数的GPU或其他AI加速器试图在性能上撼动它的地位,但综合实力来看,A100依然稳坐头把交椅。

A100 GPU / 英伟达A100可是英伟达特推出的首个7nm GPU,在826mm2的芯片大小上铺满了542亿个晶体管。要知道,其消费级GPU虽然同样采用安培架构,但仍在使用三星的8nm制程。至于算力什么的,GPU在单个或多个处理器配置上都有着不俗的优势,甚至还能凭借英伟达自己的互联技术实现更高的带宽。具体的算力数据我们也已提过多次,我们这次讲的是AI训练,自然是要比训练上的表现,这里先留个悬念。性能虽高,但使用A100的成本可并不便宜。今年10月,微软和英伟达推出了迄今为止训练最强大的生成语言模型Megatron-Turing Natural Language Generation(MT-NLG),拥有5300亿个参数。如此强大的模型究竟是如何训练出来的呢?答案是560个英伟达DGX A100服务器,每个服务器都内置了8 x A100 80GB GPU,训练出这个模型的造价最低也要在百万美元以上。如此看来,难不成这些模型只能靠购置昂贵的GPU,或是靠花钱如流水一般的GPU服务器来训练了?并非如此。

英特尔Gaudi和Ponte Vecchio

19年12月,英特尔收购了以色列的Habana Labs,将其旗下的AI加速器产品线纳入囊中。Habana Labs目前推出了用于推理的Goya处理器和用于训练的Gaudi处理器。尽管Habana Labs已经隶属英特尔,但现有的产品仍然基于台积电的16nm制程,传言称其正在开发的Gaudi2将用上台积电的7nm制程。目前Gaudi已经用于亚马逊云服务AWS的EC2 DL1训练实例中,该实例选用了AWS定制的英特尔第二代Xeon可扩展处理器,最多可配置8个Gaudi处理器,每个处理器配有32GB的HBM内存,400Gbps的网络架构加上100Gbps的互联带宽,并支持4TB的NVMe存储。

Gaudi与A100在ResNet-50和BERT训练成本上的对比 / Habana LabsHabana Labs和AWS共同宣称,Gaudi的方案可以提供云端深度学习模型训练的最佳性价比,与最新的GPU实例相比性价比高出40%。Habana Labs给出了直接的价格对比,在对比AWS EC2 P4d实例(8个英伟达A100 GPU)时,8个Gaudi处理器的每小时价格为13.11美元,比前者低了60%。针对特定的模型,Habana Labs也对A100和V100方案进行了对比,比如利用Tensorflow实现ResNet50图像处理(BF16/FP16)时,Gaudi处理每张图片的成本要比A100低46%,更是比V100低了61%。Habana Labs为Gaudi定义的用例主要在物体识别/分割、图像分类和自然语言处理器方面的深度学习模型训练。比如生产中的故障检测、医疗中的2D/3D扫描和医学成像、自动驾驶中的物体分割以及文本情感分析等等。我们都知道在超算领域中,英特尔在主要处理器上的份额与出场率都比较高,加速器上则依旧是英伟达和AMD的GPU占优,不过Habana Labs的Gaudi其实已经开始发力,比如圣地亚哥超级计算中心(SDSC)打造的AI超算Voyager。这里的Voyager可不是TOP500新晋第十名的Voyager-EUS2,而是SDSC打造的一款试验性超算,专注于高性能高效率的AI运算,该超算集成了336个Gaudi训练处理器和16个Goya推理处理器。

A100与Ponte Vecchio在ResNet-50 v1.5上的训练表现对比 / 英特尔不过英特尔似乎也不打算放弃GPU这条路,甚至打算走的更远一点。今年的架构日上,英特尔为其Ponte Vecchio Xe HPC GPU透露了更多的细节。英特尔拿出了ResNet-50单个GPU处理图像的训练结果对比,Ponte Vecchio获得了超过3400张图片每秒的成绩,而英伟达单张A100 GPU的成绩为2963张图片每秒。根据Habana Labs于19年六月公布的数据,单个Gaudi处理器的成绩为1650张图片每秒。单从结果来看,英特尔和英伟达两者打造的旗舰GPU在模型训练上还是很有优势的,而且还能承担推理工作负载,Gaudi的性能确实更适合高性价比的专用训练场景。依小编的观点来看,Ponte Vecchio更像是英特尔为HPC+AI准备的一张GPU,明年开始出货后我们说不定会在超算上看到更多应用。而Gaudi更像是为云服务和数据中心准备的训练处理器,让开发者在可负担的价格下享受到优秀的性能。更不用说英特尔也开始为FPGA(Stratix 10 NX)在相同的方向上铺路,英特尔可以说是为AI开发者提供了多个选择。

亚马逊Trainium

最后我们以亚马逊的训练芯片收尾,亚马逊提供的服务器实例可以说是最多样化的,也包含了以上提到的A100和Gaudi。亚马逊作为云服务巨头,早已开始部署自己的服务器芯片生态,不仅在今年推出了第三代Graviton服务器处理器,也正式发布了去年公开的训练芯片Trainium,并推出了基于该芯片的Trn1实例。

Trn1实例的参数 / 亚马逊Trn1的计算引擎频率达到了3GHz,峰值内存带宽为13.1TB/s,FP32的算力为840TFLOPS,最出色的数据还是800Gbps的网络带宽,亚马逊甚至还提供了一个1.6TB。再次重申,这些都只是纸面参数而已,实际表现才是最重要的。

亚马逊训练实例对比 / 亚马逊据亚马逊发布的数据,同样是在两周内完成GPT-3模型的训练,需要600个8 x V100 GPU的实例,或是128个8xA100 GPU的实例,但若用上16 x Trainium的实例,则只要96个。亚马逊称Trn1为云端成本效率最高的实例,这一点还真没说错。

小结

GPU一时半会不会跌落AI训练的神坛,但其他训练芯片的推陈出新证明了他们面对A100和Ponte Vecchio这种大规模芯片同样不惧,甚至还有自己独到的优势。

训练搜狗模型人工智能

  • 1
  • 2
  • 3
  • 4

最新内容

手机

相关内容

  • 1
  • 2
  • 3

猜你喜欢