• 1
  • 2
  • 3
  • 4

首页 / 行业

ChatGPT带来AI爆炸式流量怎么解?

2023-04-04 11:48:00

在过去六个月里,我们已经目睹了人工智能应用程序的大规模增长——ChatGPT、Dall·E、Bard和Bing等。据估计,仅ChatGPT在推出两个月后,月用户就达到了1亿。

网络I/O瓶颈

人工智能流量的爆炸式增长给网络和分布式计算基础设施带来了瓶颈。Enfabrica在2020年创立,该公司认为扩展现代高性能分布式计算的性能和容量受到I/O的限制。内存容量快速增长,GPU性能呈指数级增长,但I/O却没有跟上,如下图所示。

cd135a28-d285-11ed-bfe3-dac502259ad0.webp

EnfabricaCEO Rochan Sankar表示,人工智能的高级挑战是“它通过100或200 Gig NIC将海量数据输入/输出服务器节点,而NIC最初是为与CPU配对而设计的。”他接着详细阐述了与这个基本问题有关的三个问题:

大量的资源滞留。虽然CPU虚拟化做得很好,但GPU和内存等昂贵的资源却没有得到充分利用;

现有的I/O设备堆栈效率很低,因为它是为不同的需求而构建的;

与以太网、PCI和CXL等行业标准相反,其他创建产品解决方案的公司正在使用“更专有或更孤立”的方法。

解决日益增长的网络I/O问题

Enfabrica联合创始人Rochan Sankar和Shrijeet Mukherjee在Broadcom、谷歌和Cisco等行业巨头工作过,拥有数十年的网络基础设施经验。正如Sankar解释的那样,他们并不是唯一认识到迫在眉睫的I/O问题的人,但他们相信有更好的方法来解决这个问题。有了这些想法,他们组建了自己的团队,开始致力于颠覆互联硅市场,据估计,这个市场的价值很快就会达到200亿美元。

Enfabrica设计的核心是用其加速计算结构取代多层网络基础设施(见下图)。Sankar表示Enfabrica架构“就像一个轮辐模型”,可以“分解和扩展任何计算资源”。他接着解释道:“无论是CPU、GPU、加速器、内存还是Flash,它们都可以连接到这个集线器,这个集线器有效地充当了它们的聚合I/O结构设备。”

cd28a180-d285-11ed-bfe3-dac502259ad0.webp

Sankar指出,除了在这些系统中引入新的硬件架构的挑战之外,我们还不能改变软件层。“从一开始就需要付出很多努力。因此,引入硬件技术或网络技术来迫使这种情况发生改变实际上是很有挑战的。”Enfabrica的目标是让它的硬件“使用与现在相同的接口和API集”运行。

行业标准和开源

包括行业巨头英伟达在内的其他公司都在使用专有接口解决方案来解决这一网络问题,而Enfabrica则使用PCIe和CXL等行业标准与开源软件框架相结合。

Sanker表示,他们“提供了另一种扩展方式”。他认为,“英伟达将在相当长一段时间内处于这个生态系统的核心地位。”因此,他们并不期望取代英伟达,而是增强现有的解决方案。“我们可以增加一层高容量内存”,客户可以“利用它来扩展非常大的语言模型”。

第一代ACF

第一代高级计算结构交换机(ACF-S,如下图所示)是在台积电的5纳米FinFET工艺上制造的,该工艺在一定程度上是为这样的高性能计算应用开发的。

cd6a0c9c-d285-11ed-bfe3-dac502259ad0.webp

ACF-S设计用于在单个硅晶片中提供异构计算和内存资源之间的多太比特交换和桥接,而不改变设备驱动程序以上的物理接口、协议或软件层。Sankar解释道,该交换芯片像个“三明治”,包括“高性能以太网交换管道,一个大型共享缓冲区,即所谓的太比特NIC复制引擎,以及高性能PCIe Gen5和CXL 2.0+交换。”

“这些加速计算结构产品旨在创建弹性资源池,可以按需联网和供应,以创建更灵活的实例。这能够扩展以满足下一代工作负载的需求,并以一种可持续的方式实现总拥有成本。”

云经济的超级计算机性能

如果目标是颠覆一个200亿美元的行业,那么最好有一些重大改进。在我们的讨论中,Sankar强调了他们预见到的先进计算结构的一些好处:

将AI集群从数百个节点扩展到数千个节点

每美元I/O带宽提高2倍

缓解GPU、DRAM、SSD卡死,提高利用率

降低75%的节点到节点延迟

AI集群总拥有成本降低50%

GPU机架和集群功耗至少降低10%

Sanker认为,如果他们成功了,Enfabrica可以帮助“在高性能超级计算和云规模分布之间架起一座桥梁”,人工智能是驱动这些需求的核心工作负载。“人们想要云经济,但他们想要超级计算机的性能。”

Enfabrica计划在今年晚些时候发布特定产品的公告,有兴趣的读者可以关注。

审核编辑 :李倩

流量人工智能节点输出

  • 1
  • 2
  • 3
  • 4

最新内容

手机

相关内容

  • 1
  • 2
  • 3

猜你喜欢