Knowledge Archive
Concept · 科学

信息熵

科学 2026-04-19 · 2 min read · 5 backlinks
信息论数学Claude Shannon

信息熵

定义

信息熵(Information Entropy)由 Claude Shannon 于 1948 年在《通信的数学理论》中提出,量化了随机变量或信息源的不确定性。给定一个离散随机变量 X,其信息熵定义为:

$$H(X) = -\sum_{i} P(x_i) \log_2 P(x_i)$$

单位为比特(bits)。信息熵越高,表示信息的随机性或不确定性越大;信息熵为0表示信息完全确定。

详细说明

Shannon 的贡献

Shannon 是信息论之父,他将马尔可夫链的思想进一步扩展到通信领域。在研究如何高效编码信息时,Shannon 证明了两个里程碑式的结论:

  1. 信源编码定理(Source Coding Theorem):任何信息源的信息熵 H 就是无损压缩的极限——不可能以低于 H 位的平均码长完美重建原信息。

  2. 信道编码定理(Channel Coding Theorem):在有噪声的信道上,存在一个被称为信道容量(Channel Capacity)的最大值 C,只要传输速率低于 C,就存在一种编码方式使得错误概率任意小。

与马尔可夫链的交叉

Shannon 本人在研究语言时也使用了马尔可夫链方法。他不只是用字母预测字母,还用整个单词作为 token 来预测下一个单词,发现 4 个词左右的序列就能做出有意义的预测——这与今天 LLM 的工作方式惊人地相似。

自然语言处理中的应用

信息熵是 NLP 的核心概念:

  • 困惑度(Perplexity):衡量语言模型质量的指标,等于 2 的 H 次幂
  • 互信息(Mutual Information):衡量两个变量之间共享信息的量
  • 条件熵:在已知一个变量的情况下,另一个变量的熵

与其他概念的关系

来源