• 1
  • 2
  • 3
  • 4

首页 / 行业

ChatGPT生成模型之下的GPU和新AI芯片,谁更有机会?

2023-06-07 23:40:00

ChatGPT生成模型之下的GPU和新AI芯片,谁更有机会?

ChatGPT需要一个足够大的语言模型(Large Language Model,LLM)要理解用户的语言,并能有高质量的语言输出——比如这个模型必须能够理解如何生成诗歌,如何生成李白风格的诗歌等等。

近日,以ChatGPT为首的生成模式成为人工智能的新热点。硅谷的微软和谷歌都在大量投资这类技术(微软100亿美元入股ChatGPT背后的OpenAI,谷歌也于近日发布了自研的BARD模型),以百度为代表的中国互联网科技公司也表示,这类技术正在开发中,并将于近期推出。

以ChatGPT为代表的生成模型有一个共同的特点,那就是它使用大量的数据进行预训练,并且经常与强大的语言模型相匹配。语言模型的主要功能是从大量的现有语言数据库中学习。学习后,可以了解用户的语言指令,或者根据用户的指令进一步生成相关的文本输出。

生成模型大致可分为两类,一类是语言类生成模型,另一类是图像类生成模型。语言生成模型以ChatGPT为代表。如前所述,它的语言模型不仅可以学习和理解用户指令的含义(比如“写一首诗,李白风格”),还可以根据用户的指令生成相关的文字(上面的例子是写一首李白风格的诗)。这就是说,ChatGPT需要一个足够大的语言模型(Large Language Model,LLM)要理解用户的语言,并能有高质量的语言输出——比如这个模型必须能够理解如何生成诗歌,如何生成李白风格的诗歌等等。这也意味着语言生成型人工智能中的大语言模型需要大量的参数来完成这种复杂的学习,并记住这么多信息。以ChatGPT为例,其参数高达1750亿(如果使用标准浮点,将占用700GB的存储空间),其语言模型的“大”可见一斑。

另一种生成模型是扩散模型(Diffusion)典型的图像类生成模型包括来自OpenAI的Dalle、谷歌的ImaGen和来自RunwayAI的最受欢迎的StableDiffusion。这种图像类生成模型也使用语言模型来理解用户的语言指令,然后根据这个指令生成高质量的图像。与语言生成模型不同,这里使用的语言模型主要是用语言来理解用户的输入,而不需要生成语言输出,所以参数可以小很多(几亿个数量级),但是图像的扩散模型也是大量的。

通过大量的数据训练,生成模型可以产生前所未有的高质量输出。目前有很多明确的应用市场,包括搜索、AD6634BBC对话机器人、图像生成和编辑等。,这有望在未来得到更多的应用,这也提出了相关芯片的需求。

生成型模型对芯片的需求

如前所述,以ChatGPT为代表的生成模型需要在大量的训练数据中学习,才能实现高质量的生成输出。为了支持高效的训练和推理,生成模型对相关芯片也有自己的需求。

首先是对分布式计算的需求。ChatGPT等语言生成模型的参数高达1000亿,几乎不可能使用单机训练和推理,而是必须大量使用分布式计算。在分布式计算中,对机器之间的数据互联带宽和计算芯片(如RDMA)有很大的需求,因为很多情况下,任务的瓶颈可能不在于计算,而在于数据互联,尤其是在这种大规模的分布式计算中,芯片对分布式计算的高效支持更是关键。

其次是内存容量和带宽。虽然语言生成模型的分布式培训和推理是不可避免的,但每个芯片的本地内存和带宽也会在很大程度上决定单个芯片的执行效率(因为每个芯片的内存都已经用到了极限)。对于图像生成模型,可以将模型(20GB左右)放入芯片内存中,但随着未来图像生成模型的进一步发展,对内存的需求可能会进一步增加。从这个角度来看,以HBM为代表的超高带宽内存技术将成为相关加速模型的必然选择。

最后,计算对语言和图像生成模型的计算有很大的需求,随着生成分辨率的提高和视频应用的推移,图像生成模型对计算能力的需求可能会大大提高——目前主流图像生成模型的计算量在20TFlops左右,而随着高分辨率和图像的推移,100-1000TFLOPS的计算能力需求很可能是标准。

综上所述,我们认为生成模型对芯片的需求包括分布式计算、存储和计算,可以说涉及到芯片设计的方方面面,更重要的是如何将这些需求以合理的方式结合起来,保证某个单独的方面不会成为瓶颈,这也将成为芯片设计系统工程的问题。

GPU和新AI芯片,谁更有机会?

对于GPU(以Nvidia和AMD为代表)和新AI芯片(以Habana、GraphCore为代表),生成模型对芯片有了新的需求,谁更有机会把握这一新的需求和市场?

首先,从语言生成模型的角度来看,由于参数巨大,需要良好的分布式计算支持,在这种生态系统中有完整布局的GPU制造商更有优势。这是一个系统工程问题,需要一个完整的软件和硬件解决方案。在这方面,Nvidia已经推出了与其GPU相结合的Triton解决方案。Triton支持分布式训练和分布式推理,可以将一个模型分成多个部分来处理不同的GPU,从而解决一个参数太大的GPU主存无法接受的问题。未来,无论步骤如何。

从图像生成模型来看,这类模型的参数虽然也很大,但比语言生成模型小一两个数量级。此外,卷积计算将被广泛应用于计算中。因此,在推理应用中,如果能做出非常好的优化,AI芯片可能会有一定的机会。这里的优化包括大量的电影存储来容纳参数和中间计算结果,以及对卷积和矩阵运算的有效支持。

总的来说,目前这一代AI芯片的设计主要针对的是较小的模型(参数在1亿级,计算量在1TOPS级),而生成模型的需求相对大于原有的设计目标。GPU在设计中以效率为代价换取了更高的灵活性,而AI芯片设计则是反其道而行之,追求目标应用的效率。因此,我们认为,在未来一两年内,GPU将在这种生成模型的加速中处于领先地位,但随着生成模型的设计更加稳定,AI芯片设计将有时间赶上生成模型的边缘。


生成模型机会芯片模型语言计算

  • 1
  • 2
  • 3
  • 4

最新内容

手机

相关内容

  • 1
  • 2
  • 3

猜你喜欢