Concept · AI

注意力机制

AI 2026-04-19 · 2 min read · 5 backlinks

深度学习自然语言处理 Transformer

注意力机制

定义

注意力机制（Attention Mechanism）是深度学习中的一种技术，允许模型在处理序列数据时动态权衡不同位置 token 的重要性。最早由Bahdanau等人于2014年提出，用于改进机器翻译，现在它是 Transformer 架构（GPT、BERT 等）的核心组件。

详细说明

与马尔可夫链的关系

传统语言模型（如 n-gram）可以看作是一种"退化的马尔可夫链"——预测下一个词时，只考虑前 n-1 个词的概率分布。马尔可夫链的"无记忆性"意味着当前状态包含了所有预测未来所需的信息。

注意力机制则在马尔可夫链的基础上迈出了一大步：它允许模型在预测任意 token 时，直接访问序列中的任何其他位置，并根据相关性动态分配权重。这打破了马尔可夫假设的局限——预测不再只依赖相邻状态，而是依赖整个上下文的加权组合。

自注意力（Self-Attention）

Transformer 中的自注意力机制是注意力机制的精髓。对于输入序列中的每个位置，模型计算它与序列中所有其他位置的相关性分数（attention scores），然后用这些分数对所有位置的表示进行加权平均，得到该位置的输出。

这意味着：即使两个 token 相距很远，只要它们在语义上相关，模型就可以直接建立起联系——这在马尔可夫链中是不可能的。

大型语言模型中的应用

在 GPT 等自回归语言模型中，注意力机制让模型在生成每个词时都能考虑到之前生成的完整上下文。Shannon 的早期语言模型只考虑前几个词，而现代 LLM 可以处理数千个 token 的上下文窗口。

与其他概念的关系

马尔可夫链：传统语言模型基于马尔可夫假设；注意力机制突破了这一限制
信息熵：Shannon 的信息论为理解语言中的不确定性提供了数学基础
Google：Google 在搜索引擎和机器翻译中广泛使用注意力机制

来源

这个数学模型（几乎）能预测宇宙万物

Backlinks 5 references

S 这个数学模型（几乎）能预测宇宙万物 C PageRank C 信息熵 C 马尔可夫链 E Google