AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

2.5K 0 0

GoodNav 于 10 月 9 日报道称，科技媒体 marktechpost 在 10 月 8 日发布了一篇博文，提到谷歌公司推出了一种选择性注意力（Selective Attention）方法，旨在提升 Transformer 架构模型的性能。

Transformer 架构概述

Transformer 是一种创新的神经网络架构，由谷歌在 2017 年提出，主要用于处理序列数据，尤其是在自然语言处理（NLP）领域。

Transformer 的核心在于自注意力机制，使模型能够在处理输入序列时捕捉词与词之间的关系，并聚焦于序列中的各个部分，而不仅限于局部信息。

Transformer 由多个编码器和解码器组成，编码器用于理解输入数据，解码器则负责生成输出。多头自注意力机制提升了模型的并行处理能力，从而提高了效率和准确性。

Transformer 架构模型面临的挑战

Transformer 架构的一个主要挑战是处理长文本时效率低，因每个标记与序列中每个其他标记的相互作用造成二次复杂度，导致随着上下文长度增加，计算和内存需求急剧上升。

现在解决这一问题的方法包括稀疏注意力机制（sparse attention mechanisms），这些机制限制了标记之间的交互数量，以及上下文压缩技术，通过总结过往信息来缩短序列长度。

然而，这种方法是通过减少在注意力机制中考虑的标记数量来实现的，往往牺牲了性能，有可能导致关键上下文信息的丢失。

谷歌的新方法

谷歌的研究人员提出了一种名为选择性注意的新方法，能够动态忽略不再相关的标记，从而提高 Transformer 模型的效率。

选择性注意力利用软掩码矩阵来评估每个标记对未来标记的重要性，减少对不重要标记的关注。

研究结果表明，采用选择性注意力的 Transformer 架构在多个自然语言处理任务中表现卓越，同时显著降低了内存使用和计算成本。

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

例如，在一个有 1 亿参数的 Transformer 模型中，注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。该方法在 HellaSwag 基准测试中的表现也优于传统 Transformer，实现了高达 5% 的准确率提升，特别是在较大的模型规模上。

选择性注意力使得构建更小且更高效的模型成为可能，在不降低准确性的同时，显著减少了内存需求。

参考地址