Concept · 科学
信息熵
科学 2026-04-19 · 2 min read · 5 backlinks
信息熵
定义
信息熵(Information Entropy)由 Claude Shannon 于 1948 年在《通信的数学理论》中提出,量化了随机变量或信息源的不确定性。给定一个离散随机变量 X,其信息熵定义为:
$$H(X) = -\sum_{i} P(x_i) \log_2 P(x_i)$$
单位为比特(bits)。信息熵越高,表示信息的随机性或不确定性越大;信息熵为0表示信息完全确定。
详细说明
Shannon 的贡献
Shannon 是信息论之父,他将马尔可夫链的思想进一步扩展到通信领域。在研究如何高效编码信息时,Shannon 证明了两个里程碑式的结论:
信源编码定理(Source Coding Theorem):任何信息源的信息熵 H 就是无损压缩的极限——不可能以低于 H 位的平均码长完美重建原信息。
信道编码定理(Channel Coding Theorem):在有噪声的信道上,存在一个被称为信道容量(Channel Capacity)的最大值 C,只要传输速率低于 C,就存在一种编码方式使得错误概率任意小。
与马尔可夫链的交叉
Shannon 本人在研究语言时也使用了马尔可夫链方法。他不只是用字母预测字母,还用整个单词作为 token 来预测下一个单词,发现 4 个词左右的序列就能做出有意义的预测——这与今天 LLM 的工作方式惊人地相似。
自然语言处理中的应用
信息熵是 NLP 的核心概念:
- 困惑度(Perplexity):衡量语言模型质量的指标,等于 2 的 H 次幂
- 互信息(Mutual Information):衡量两个变量之间共享信息的量
- 条件熵:在已知一个变量的情况下,另一个变量的熵
与其他概念的关系
来源
Backlinks 5 references