首页 / 行业
用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果
2021-12-28 10:42:00
白皮书《Transformer-LS:用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” (Transformer-LS),这是一种高效的 Transformer 架构,用于为语言和视觉任务模拟中具有线性复杂度的长序列。
鉴于 Transformer 的模型在自然语言处理 (NLP) 和计算机视觉领域已经取得了巨大的成功。这种模型可受益于自注意力模块,后者既可捕获词元间的相邻相关性和长距离相关性,同时又能在现代硬件上高效扩展。
然而,自注意力机制所消耗的时间和内存与输入长度呈二次方关系,使其处理长序列的成本非常高昂。许多语言和视觉任务能够从长序列建模中获益。在 NLP 中,文档级任务需要处理较长的文章,而语言模型的性能往往随序列长度而增加。
在计算机视觉里,大量任务涉及高分辨率图像。而这些图像在使用 Transformer 模型处理前,会被转换成图像块的长序列。因此,设计一种能泛化到各种不同领域的长序列建模的高效注意力机制至关重要。
一直以来,业界提出了各种方法来减少完全注意力机制的二次方成本。但是,在语言和视觉领域都有良好应用的高效注意力机制尚未得到深入研究。一类方法使用滑动窗口和随机稀疏模式等预定义模式对注意力矩阵进行稀疏化处理。
这类方法使用强大的归纳偏置来改善计算性能和模型性能,但它们会限制自注意力层的能力,因为每个特定分词器只能处理一个词元子集。
另一类方法使用 low-rank 投影为输入序列构成低分辨率表示,但这类方法只能对特定的 NLP 任务有效。与稀疏注意力不同,这类方法允许每个分词器处理整个输入序列。但是,由于缺少高保真度词元级信息,对于需要细粒度局部信息的任务(包括语言领域和视觉领域的标准基准测试)而言,这类方法的性能有时并不优于完全注意力或稀释注意力机制。
尽管高效 Transformer 的发展相当迅速,一些提出的架构只适用于双向模型。基于 Transformer 的自回归模型已经在语言建模 、图像合成 和文本转图像合成领域取得了巨大的成功。这些领域都涉及长文本或高分辨率图像。
因此,有必要设计一种同时适用于自回归模型和双向模型的高效 Transformer。
在白皮书《Transformer-LS:用于语言和视觉处理的高效 Transformer》中,研究把局部窗口注意力和新颖的长距离注意力统一成单个高效注意力机制。展示这两种注意力机制的互补效应,能在多种语言和视觉任务中为自回归模型和双向模型带来优异的效果。
原文标题:白皮书 | 《Transformer-LS:用于语言和视觉处理的高效Transformer》
文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
审核编辑:彭菁最新内容
手机 |
相关内容
位移传感器结构类型及工作原理与应
位移传感器结构类型及工作原理与应用,工作原理,类型,结构,位移传感器,常见,效应,FDV302P位移传感器是一种用于测量物体位移或位置的加特兰毫米波雷达SoC芯片赋能室内
加特兰毫米波雷达SoC芯片赋能室内安防新应用,毫米波雷达,芯片,用于,稳定性,目标,感知,室内安防是一个重要的领域,随着技术的进步和人低耗能,小安派-LRW-TH1传感器通用板
低耗能,小安派-LRW-TH1传感器通用板,一块板即可连接多种传感器!,传感器,多种,连接,一块,通用,接口,小安派-LRW-TH1传感器通用板是一款单相滤波器:从基础到应用的全面解读
单相滤波器:从基础到应用的全面解读,滤波器,能和,噪声,选择,信号,工作原理,TVP5146PFP单相滤波器是一种用于去除电源信号中的杂波和聊聊芯片中的负压产生机理及其应用
聊聊芯片中的负压产生机理及其应用,芯片,细胞,用于,测量,生物,结构,芯片中的负压是指在芯片内部产生的负压环境。在某些应用中,负压不只是芯片 看看传感器技术我们离
不只是芯片 看看传感器技术我们离世界顶级有多远,传感器,芯片,位置,测量,交通,用于,传感器技术是现代科技中至关重要的一部分,它们被小到一个分子!研究人员开发一种微小
小到一个分子!研究人员开发一种微小的压电电阻器,优化,位置,结构,用于,传感器,压电效应,近年来,随着电子技术的快速发展,对微小尺寸电射频前端芯片GC1103在智能家居无线
射频前端芯片GC1103在智能家居无线通信IoT模块中应用,模块,芯片,无线通信,智能家居,支持,数据交换,射频前端芯片GC1103是一种低功耗