首页 / 行业

AI服务器市场规模持续增加，国内存在哪些算力瓶颈？

2023-03-13 09:15:00

近年来，在全球数字化、智能化的浪潮下，智能手机、自动驾驶、数据中心、图像识别等应用推动 AI服务器市场迅速成长。根据 IDC 数据，2021 年全球 AI 服务器市场规模已达到 145 亿美元，并预计 2025 年将超过 260 亿美元。

近段时间ChatGPT概念的火热，更是对算力基础设施的需求起到了带动作用。宁畅副总裁兼CTO赵雷此前在接受媒体采访的时候表示，ChatGP的训练和部署，都需要大量智能计算数据存储以及传输资源，计算机基础设施、算力等上游技术将因此受益。

ChatGPT有着多达1750亿个模型参数。在算力方面，GPT-3.5在训练阶段消耗的总算力约3640PF-days。在应用时，ChatGPT仍然需要大算力的服务器支持。ChatGPT的持续爆火也为AIGC带来全新增量，行业对AI模型训练所需要的算力支持提出了更高要求。

宁畅是一家集研发、生产、部署、运维一体的服务器厂商，及IT系统解决方案提供商。该公司早早就开始着重发力于人工智能服务器和液冷服务器。赵雷表示，公司目前在用的、在研的人工智能和液冷服务器，包括明年还将推出的浸没液冷服务器，刚好跟上算力高速增长的市场需求。公司随时准备着为客户提供合适的高算力产品和解决方案。

在人工智能服务器方面，宁畅已经推出多款产品，包括X620 G50、X660 G45、X640 G40、X620 G40。X620 G50适用于机器学习、AI推理、云计算、高性能计算等场景；660 G45是专门为深度学习训练开发的高性能计算平台；X640 G40是兼备训练与推理功能的全能型GPU服务器；X620 G40性能提升的同时支持PCIe 4.0高速总线技术，完美支持NVIDIA各类最新型GPU加速服务，是最为理想的AI推理平台。

在液冷服务器方面，宁畅推出了三款冷板式液冷服务器，包括产品B5000 G4 LP、X660 G45 LP、R620 G40 LP，范围覆盖了高密度、通用机架以及人工智能服务器产品，可满足科学计算、AI训练、云计算等众多IT应用场景，可满足用户不同需求。

作为服务器厂商需要给下游互联网客户提供怎样的产品和服务呢？对于服务器厂商来说，不只是要提供服务器硬件或者基础设施，还要有对应的服务能力。

从服务层面来看，在用户现场会关注什么呢，比如说核心业务，会关注业务的在线率，不管服务器坏不坏，整个业务的运行是要有弹性的、灵活的，不会给客户造成影响的。就以百度、微信这些业务为例，大家几乎不会看到微信不能用了，或者百度搜索不反馈结果了。

赵雷表示，对于服务器厂商来说，要做的是在服务层面能够快速响应，不管是采用现场备件模式，机房备机模式，还是驻场人员巡检的模式，都需要做到24小时的快速响应。这是纯粹的服务方面，也就是说，在互联网搭建业务连续性良好的基础上，服务器厂商能够将故障和快速维修的能力做到极致，有效地支撑客户的前端应用。

从产品层面来看，对于每个硬件子系统在设计研发过程中，都需要从易维修和低故障角度去思考如何将产品做得更好。宁畅在这方面做了很多工作：首先，现在冷却方式是影响故障率比较重要的因素，因为温度太高故障率就会高，宁畅的精密风冷和液冷的方式，能够有效地降低芯片和对应组件的故障率。

其次，其精密六维减震模式，能够有效提升硬盘的性能，降低故障率；接着是，采用DAE的散热器，从散热的维度有效降低光模块的故障率。同时CPU、GPU的液冷可以有效降低CPU、GPU的故障率；通过内存的漏斗，内存的故障筛选或者在线隔离技术，有效地降低内存的故障率；另外还在板卡走线、机箱结构方面进行了优化设计。

此外还有整机BMC易管理特性，赵雷认为，任何东西不可能不坏，有毛病是不可避免的，坏了以后，如何快速通知客户或者维护人员维修时关键。BMC有一个完善的通知机制，邮件自动通知、SMP远程告警、IPMI告警等。宁畅按照互联网客户的需求定制，将其融入整个机房的运维系统，出现故障以后可以第一时间通知去维修。

虽然目前国内有不少优秀的服务器、云厂商等，不过整体来看，国内的算力仍然存在瓶颈，比如，总体算力不够，算力的分布不平均。部分客户算力过剩，部分客户算力不足。或者A时间算力过剩，B时间算力不足，这是算力协调的问题。

短期来看这个问题要靠云技术解决，长期来看是要提供过剩的算力。也就是说，需要云技术去平衡协调算力不均匀的问题，还需要提供算力、算力效率等。

再比如算力成本高的问题，虽然目前每单位算力单价下降了，但是过去几年服务器的平均售价一直上涨。赵雷认为，可能算力类型单一，不太能够有效地支撑高速增长的模式，可能要有各种各样不同类型的算力。比如ChatGPT，是不是可以做针对GPT模型专门的ASIC。算力的应用类型越窄，它的效率就会越高，越通用，效率就越低。

整体而言，过去几年在全球数字化、智能化浪潮下，市场对算力的需求不断增加。ChatGP的出现更是让行业对算力提出了新的要求。国内服务器厂商在对人工智能行业提供算力支持方面已经有所准备。不过从目前的情况来看，国内在算力方面仍然存在一些瓶颈，比如算力分布不均匀，成本高等问题。后续还需业界共同去探讨解决。

服务器国内瓶颈美元

首页 / 行业

AI服务器市场规模持续增加，国内存在哪些算力瓶颈？

最新内容

相关内容

热门文章

推荐文章

标签云

猜你喜欢