AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
GoodNav 于 10 月 9 日报道称,科技媒体 marktechpost 在 10 月 8 日发布了一篇博文,提到谷歌公司推出了一种选择性注意力(Selective Attention)方法,旨在提升 Transformer 架构模型的性能。
Transformer 架构概述
Transformer 是一种创新的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,尤其是在自然语言处理(NLP)领域。
Transformer 的核心在于自注意力机制,使模型能够在处理输入序列时捕捉词与词之间的关系,并聚焦于序列中的各个部分,而不仅限于局部信息。
Transformer 由多个编码器和解码器组成,编码器用于理解输入数据,解码器则负责生成输出。多头自注意力机制提升了模型的并行处理能力,从而提高了效率和准确性。
Transformer 架构模型面临的挑战
Transformer 架构的一个主要挑战是处理长文本时效率低,因每个标记与序列中每个其他标记的相互作用造成二次复杂度,导致随着上下文长度增加,计算和内存需求急剧上升。
现在解决这一问题的方法包括稀疏注意力机制(sparse attention mechanisms),这些机制限制了标记之间的交互数量,以及上下文压缩技术,通过总结过往信息来缩短序列长度。
然而,这种方法是通过减少在注意力机制中考虑的标记数量来实现的,往往牺牲了性能,有可能导致关键上下文信息的丢失。
谷歌的新方法
谷歌的研究人员提出了一种名为选择性注意的新方法,能够动态忽略不再相关的标记,从而提高 Transformer 模型的效率。
选择性注意力利用软掩码矩阵来评估每个标记对未来标记的重要性,减少对不重要标记的关注。
研究结果表明,采用选择性注意力的 Transformer 架构在多个自然语言处理任务中表现卓越,同时显著降低了内存使用和计算成本。
例如,在一个有 1 亿参数的 Transformer 模型中,注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。该方法在 HellaSwag 基准测试中的表现也优于传统 Transformer,实现了高达 5% 的准确率提升,特别是在较大的模型规模上。
选择性注意力使得构建更小且更高效的模型成为可能,在不降低准确性的同时,显著减少了内存需求。
参考地址