首页 / 行业

AI大模型的改变，加速了通用人工智能的实现

2023-06-07 23:34:00

近日，百度飞桨总架构师于殿海公开表示，人工智能BC847CLT1预训练模型是深度学习兴起以来最重要的技术变革。大型模型不仅具有大型模型参数，而且对应于学习机制和人工智能开发应用范式的变化。自我监督学习模式突破了数据标记的困境，可以从大量数据中学习丰富的通用知识。基于大型模型，在广泛的下游任务中取得优异的效果，大大降低了人工智能开发和应用的成本。

大语言模型的涌现能力

在自然语言处理领域，近年来模型的规模越来越大。过去，模型参数约为1000万级和1亿级，但现在已经跳到1000亿级。基本上，对这些大型模型的研究使得一些计算资源丰富的企事业单位有了这些预训练模型，下游就可以把它们放在自然语言处理的一些任务中。

复旦大学计算机学院教授邱锡鹏在《ChatGPT能力分析与应用》主题演讲中表示，大型语言模型是ChatGPT的基础。

邱锡鹏教授说，当模型从小规模发展到大规模时，当发展到一定阶段时，它会出现一些以前在小模型上无法观察到的能力，也就是说，能力的出现。例如，给几个例子，让模型学习这个任务，一个100亿级参数模型和一个1000亿级参数模型，这两个模型的能力差异将相当大，邱锡鹏教授认为，从100亿到1000亿参数规模，模型的能力发生了变化。

调查大型模型的几种能力：数学建模能力、多任务理解能力、上下文学习理解能力，100亿规模后会发生突变。它的能力不再是线性增长。

模型的使用方式也发生了变化，因为在大模型之后，很难调整参数，其使用范式也会发生变化。例如，早期使用预训练，调整其参数；现在语言模型很大，要做什么任务，是提示，告诉它该做什么，成为另一种使用范式。

比如我们用一句话描述要完成的任务，输入到语言模型中，语言模型会根据生成下一句话的方式生成你想要的答案。这就是如何使用大型语言模型。邱锡鹏教授认为，在Transformer的结构下，大型语言模型的标志性分水岭是100亿规模参数。

以ChatGPT为例，在大型模型下，ChatGPT有三种能力：情景学习、思维链和指令学习。这三种能力在ChatGPT的最终成功中发挥了重要作用。

场景学习：大模型调整不太方便，如果你想在上下文语境中完成学习，这就是所谓的场景学习。也就是说，给它一个任务，然后给它一些例子，让它学习。场景学习赋予了大型模型非常强的交互能力，场景学习也可以大大降低下游的开发成本。

思维链:思维链的关键是打破Scalinglaw。一般来说，模型规模的扩大通常会带来能力的提高。思维链的出现使得模型的能力在一定规模后可以通过思维链继续扩大，而不需要进一步扩大参数规模。

指令学习:大模型达到一定规模后，只需要给它一些指令就可以学习，也可以学习从未见过的指令。这些都是大模型的出现能力，其泛化能力会变得非常强。

文图生成主要技术路线

在ChatGPT出现之前，大型模型最流行的应用是人工智能绘画，即图形生成。事实上，图形生成技术自2015年以来一直在不断发展。百度深圳自然语言处理部技术总监何在上述会议上表示，在此期间，图形生成技术经历了大约三个技术流派。

第一种是基于对抗生成网络GAN-based的早期技术；第二种是序列生成VQ-token-based；第三种方案是Diffusion-based扩散网络，从去年开始流行起来。如今，这三种技术流派的延续或结合在许多产品中都很常见。

基于GAN的文本图像生成模型是四五年前最流行的文本图像生成技术。它的优点是整个模型生成过程非常快，当时生成的图像质量相当好；然而，它致命的缺点是网络特别难以训练，稍有不慎就会训练不好，或者很难得到理想的效果。所以在以后的工作中，我们不是很实用。

基于图像量化的序列建模。它将图像基于离散的方式压缩成离散视觉代币的序列，以类似的方式基于代币自回归生成，建模文本序列和图像序列之间的关系。这样，图像转换也可以生成图像文本。何径舟说，文心大模型ERNIE-ViLG的第一个版本是基于VQ的-token-based这样做，当时ERNIE-ViLG可以完成双向生成和建模。

基于扩散模型的文本图像生成模型是当前文本图像生成技术的主流。它通过增加高斯噪声的方式将图像分布到纯随机序列的高斯噪声。然后通过UNet反复调用，恢复图像。此时，您可以添加文本的encoder来指导图像恢复过程。这实现了从文本到图像的生成过程。这是目前大多数最新产品和技术都采用的方案，效果非常好。

小结

近年来，国内外大模型技术的研究不断取得突破。ChatGPT的出现及其惊人的能力让人们认识到大模型对人工智能发展的重要性。从各种迹象来看，叠加场景学习、指令微调、人类反馈、强化学习等机制，可以使大模型超乎想象的能力出现，加速人们期待的通用人工智能的实现。

人工智能通用模型文本参数能力