准备就绪
点击下方按钮跳转至目标页面

首篇「Attention Sink」综述:从利用、理解到消除,Transformer中的注意力「汇聚」全景解析

几乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少数几个特定 Token 上。这不是 bug,而是 Transformer 固有的「注意力汇聚」(Attention Sink)。首篇系统性综述,带你从利用、理解到消除,全面掌握这一核心现象

过去几年,研究者在 Transformer 的「黑盒」里发现了一个普遍却反常的现象:无论输入什么内容,模型总是把大量注意力集中到第一个 Token、[SEP] 或图像背景补丁这类毫无信息量的位置上。传统语言模型有,大语言模型有,ViT 有,多模态大模型也有
这一注意力汇聚(Attention Sink)模式,深刻影响了模型的训练、推理动态,给注意力机制的理解带来了挑战,并且还会引发幻觉等问题。尽管 Attention Sink 引发了众多讨论和前沿的研究,但这一领域始终缺乏系统的全面梳理
来自清华大学、香港大学、美团 LongCat 团队等机构的研究者联合发布了首篇 Attention Sink 系统综述,系统梳理了超过 180 篇相关研究
通过统计这些研究的发表时间和主题,综述勾勒出这一领域的清晰演进轨迹:初期(2023 年起)—— 基本利用:早期研究的重点是对 Attention Sink 的实证利用,关注如何利用其固有特性或应对其直接影响。这一阶段将 Attention Sink 视为可被利用的实际现象

中期(2024 年起)—— 机制理解:随着实证应用成熟,研究重点开始深入探究 Attention Sink 背后的成因。这一阶段聚焦于可解释性,旨在精细理解驱动这一现象的内部机制。近期(2025 年起)—— 策略性消除:基于机理洞察,最新的研究重点转向直接的结构性消除

开发系统的消除框架已成为当前研究的前沿。这一从「基本利用」到「机制理解」再到「策略性消除」的演进,正是综述核心框架的由来。文章通过三段式框架,系统梳理了这一现象的成因、价值与完整解法

论文标题:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation论文链接:https://arxiv.org/abs/2604.10098GitHub 项目:https://github.com/ZunhaiSu/Awesome-Attention-Sink基本利用:初步驾驭 Attention Sink在利用 Attention Sink 的多种策略中,最直接的方式是 Sink Token 保留(Sink Token Preservation):将 Sink 作为永久性的注意力锚点加以保留,在压缩中稳定注意力分布

注意力重分配(Attention Redistribution)则更进一步,主动识别 Sink 并将其占用的权重转移到真正承载语义的 Token 上

可学习前缀 token(Learnable Prefix Tokens)不再依赖自然形成的 Sink,而是在输入序列前端插入可训练的前缀,成为显式、可控的替代性 Sink

至于 Sink Token 重利用(Sink Token Repurposing),则另辟蹊径,利用 Sink 稳定、高注意力的固有属性,完成原始注意力管理之外的专门任务,如攻击植入、防御检测等

从策略逻辑看:Sink Token 保留采取被动方式;注意力重分配实施主动干预;可学习前缀 Token 采用更主动的构造策略;Sink Token 重利用则借助 Sink 的固有属性完成基础注意力管理之外的专门任务

机制理解:洞悉 Attention Sink 根源Attention Sink 为何必然出现。现有解释从不同层面给出了答案

Softmax 限制与空操作理论(Softmax Limitations & No-Op Theory):Softmax 求和为 1 的刚性约束,使得当查询与所有键都不相关时,模型没有「什么都不选」的选项

于是被迫将注意力集中到语义无关的 Token 上,同时将这些 Token 的值向量学得极小,从而使注意力输出趋近于零,实现空操作。异常值电路(Outlier Circuits)则揭示了模型内部存在系统性的离群值,它们相互关联,共同导致了 Sink 的产生
隐式注意力偏置(Implicit Attention Bias)发现,SinkToken 对每个查询的贡献几乎恒定,本质上充当了固定偏置项。几何锚点(Geometric Anchoring)进一步表明,Sink 在高维表示空间中充当稳定参考点,起到锚定和稳定表示空间的作用

此外,还包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-