首页 / 行业
谷歌训练开发一个万亿参数的AI语言模型
2021-01-18 16:19:00
参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说,在语言领域,参数的数量和复杂性之间的相关性非常好。例如,OpenAI的GPT-3是有史以来训练了1750亿个参数的最大语言模型之一,它可以进行原始类比、生成配方,甚至完成基本代码。
近日,谷歌的研究人员开发了一种技术,并对其进行基准测试,他们声称这种技术能够训练包含超过一万亿参数的语言模型。他们表示,他们的1.6万亿参数模型是迄今为止最大的,比之前最大的谷歌开发的语言模型(T5-XXL)快了4倍。
研究人员指出,大规模训练是建立强大模型的有效途径。简单的架构,大数据集和参数计数的支持,超越了更复杂的算法。但是,大规模的训练虽然有效,但计算强度极高。这就是为什么研究人员追求他们所谓的Switch Transformer,一种“稀疏激活”技术,它只使用模型权重的子集,或转换模型内输入数据的参数。
Switch Transformer的新颖之处在于它有效地利用了为密集矩阵乘法(广泛应用于语言模型的数学运算)设计的硬件,如GPU和TPU。在研究人员的分布式训练设置中,他们的模型将不同的权重分配到不同的设备上,这样权重就会随着设备数量的增加而增加,但在每个设备上都保持可管理的内存和计算空间。
在一项实验中,研究人员使用32个TPU内核预先训练了几种不同的Switch Transformer模型,这个语料是一个750GB大小的数据集,包含从Reddit、Wikipedia和其他网络资源上获取的文本。他们让这些模型预测有15%的单词被掩盖的段落中遗漏的单词,以及其他挑战,比如检索文本回答一系列越来越难的问题。
研究人员声称,与包含3950亿个参数和64名专家的更小的模型(Switch-XXL)相比,他们发明的拥有2048名专家的1.6万亿参数模型(Switch-C)则“完全没有训练不稳定性”。
然而,在SQuAD的基准测试上,Switch-C的得分却更低(87.7),而Switch-XXL的得分为89.6,研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。
在这种情况下,Switch Transformer还是在许多下游任务上的效果有了提升。例如,在使用相同数量的计算资源的情况下,它可以使预训练的速度提高了7倍以上。
同时研究人员证明,大型稀疏模型可以用来创建更小、更稠密的模型,这些模型可以对任务进行微调,其质量增益只有大型模型的30% 。
在一个测试中,一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译,研究人员观察到其中101种语言都得到了普遍的改善。
在未来的工作中,研究人员计划将Switch Transformer应用于新的和不同的形态中去,包括图像和文本。他们认为,模型稀疏性在一系列不同的媒体和多模态模型中都具有优势。
责任编辑:pj
最新内容
手机 |
相关内容
光耦仿真器简介和优势
光耦仿真器简介和优势,仿真器,参数,接收器,设计方案,耦合,器件,光耦仿真器是一种用于模拟光耦合器件的工具,它可以帮助工程师在设计电源滤波器的设计原则和参数选择
电源滤波器的设计原则和参数选择,设计原则,参数,选择,滤波器,噪声,高频,AM26LV32CDR电源滤波器是用来净化电源信号的装置,能够阻止高可穿戴传感器能够实现准确的实时检
可穿戴传感器能够实现准确的实时检测,检测,实时,传感器,可穿戴,高精度,数据传输,可穿戴传感器(Wearable Sensors)是一种集成在人体上直播回顾 | 宽禁带半导体材料及功
直播回顾 | 宽禁带半导体材料及功率半导体器件测试,测试,性能测试,常见,参数,可靠性,器件,宽禁带半导体材料及功率半导体器件是现代探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形MTK天玑9300重磅发布:全大核时代到
MTK天玑9300重磅发布:全大核时代到来,330亿参数AI大模型装入手机,装入,模型,参数,时代,支持,处理器,近日,联发科技(MediaTek)正式发布了PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是什么是平衡电抗器,平衡电抗器的基本
什么是平衡电抗器,平衡电抗器的基本结构、特点、工作原理、应用、操作规程、常见问题及发展历程,常见问题,结构,工作原理,负载,调节