这个数学模型（几乎）能预测宇宙万物

核心观点

一枚硬币抛 10 次出现了 6 次正面——这不是"不均衡"，而是正常波动。随着抛掷次数增加，正面比例会自发收敛到 50%。这背后是大数定律：大量独立试验的平均值会趋近期望值。200 多年来，概率论建立在这个假设之上。

但现实世界几乎所有事件都是互相依赖的：明天的天气取决于今天的气压，核弹里的中子行为取决于前一个中子，句子里的下一个字母强烈依赖于当前字母。依赖性是否意味着大数定律失效？是否意味着概率论无法处理现实？

1905 年，俄国数学家 Andrei Markov 通过分析普希金的《叶甫盖尼·奥涅金》证明了一个反直觉的事实：依赖事件同样可以收敛，独立性不是大数定律的必要条件。他发明的马尔可夫链，让人类第一次有了处理依赖事件概率的工具。

这个工具很快成为了 20 世纪最强大的数学武器之一：它帮曼哈顿计划模拟了核爆中的中子行为（由此诞生了蒙特卡洛方法），它奠定了 Google 的 PageRank 算法（价值 2 万亿美元），它还是现代 LLM 注意力机制的理论基础。

历史背景：1905 年俄国大革命与数学政治化

政治分裂蔓延到学术界

1905 年，俄国社会各派系联合起来反对沙皇专制，要求政治改革。这场革命将俄国撕裂成两半——保皇派与社会改革派的对立渗透到社会的每一个角落，连数学家都开始选边站。

Pavel Nekrasov（涅克拉索夫），非官方被称为"概率沙皇"——他是深度的宗教信仰者，利用自己的学术地位主张：数学可以证明自由意志的存在，可以解释上帝的旨意。他的逻辑是：社会统计（如犯罪率、结婚率）遵循大数定律 → 大数定律要求事件相互独立 → 这些统计数据说明人们的决定是独立的 → 独立就意味着自由意志。

Andrei Markov（马尔科夫），人称"愤怒的安德烈"——他是无神论者，对任何缺乏严谨性的论证都毫无耐心。他公开批判 Nekrasov 的工作，将这种做法列为"数学的滥用"。

两人的争论焦点是概率论200年来的核心假设：独立性。

大数定律与独立性的关系

Bernoulli 的证明

雅各布·伯努利（Jacob Bernoulli）早在 1713 年就证明了大数定律。但他的证明有一个关键前提：事件必须相互独立。

独立事件意味着：一个事件的发生不影响另一个事件的概率。比如抛硬币——每次硬币都不知道上一次的结果。

Nekrasov 的推论

Nekrasov 看到比利时1841-1845年的婚姻数据：每年平均结婚数约为 29,000 对，数字非常稳定。他进一步分析犯罪率、出生率等社会统计数据，发现同样的收敛现象。

他的论证：这些数据收敛 → 说明它们遵循大数定律 → 大数定律要求独立性 → 因此这些社会决定必然是相互独立的 → 独立即自由意志的证明。

对 Nekrasov 来说，自由意志不是一个哲学概念，而是可以用数学测量的科学事实。

Markov 的反驳

Markov 无法接受这种论证。他决定用实际行动证明：即使存在依赖性，大数定律依然可以成立。

他选择了一个天然具有强依赖性的研究对象——文本。

"Whether your next letter is a consonant or a vowel depends heavily on what the current letter is."

Markov 的证明：《叶甫盖尼·奥涅金》实验

实验方法

Markov 取了普希金《叶甫盖尼·奥涅金》开篇 20,000 个字母，去掉所有标点和空格，组成一串连续的字符。

统计元音/辅音频率：43% 是元音，57% 是辅音
构建重叠字母对：VV（元音-元音）、VC（元音-辅音）、CV（辅音-元音）、CC（辅音-辅音）

关键发现

如果字母是独立的，那么 VV 出现的概率应该是 $0.43 \times 0.43 \approx 18\%$。

但 Markov 实际计数发现：VV 只出现 6%，远低于独立假设的预测。

这说明：俄语文本中字母是强依赖的——元音后面很少紧跟另一个元音。

预测机器（马尔可夫链）

现在 Markov 需要证明：尽管字母之间存在依赖，但整篇文章的元音/辅音比例依然会收敛。

他构建了一个两步状态机：

text

状态机规则（基于实际统计）：
- 如果当前是元音 → 下一个是元音的概率 = 13%，辅音 = 87%
- 如果当前是辅音 → 下一个是辅音的概率 = ?，元音 = ?

从任意起点开始模拟随机生成字母，最初比例剧烈跳动，但随着步数增加，比例稳定收敛到 43% 元音 / 57% 辅音——与手工统计完全一致。

Markov 由此证明：即使每一步都强烈依赖前一步（记忆性），链的整体依然可以收敛到稳定分布。

对 Nekrasov 的最终反驳

Markov 在论文结尾写道：

"Thus, free will is not necessary to do probability. In fact, independence isn't even necessary to do probability."

这句话成为概率论史上最具影响力的结论之一。Nekrasov 的论证被彻底击溃——社会统计的收敛不能证明自由意志的存在。

蒙特卡洛方法的诞生：Ulam、von Neumann 与曼哈顿计划

Ulam 的纸牌游戏与灵感的闪现

1945年7月16日，人类第一颗核弹"三位一体"在新墨西哥州引爆。曼哈顿计划的科学家们（包括奥本海默、冯·诺依曼）继续研究核弹中中子的行为方式。

核弹的工作原理：铀-235 核吸收一个中子后裂变，释放能量和 2-3 个新的中子；如果这些新中子平均每个人还能裂变超过一个铀核，就能产生链式反应——这就是核弹的原理。

关键问题：需要多少浓缩铀才能保证链式反应成功？

Stanislav Ulam 1946年患了脑炎，在家休养期间沉迷于单人纸牌游戏（Solitaire）。他开始思考一个看似简单的问题：随机发牌的纸牌游戏，胜算有多大？

排列组合数是 $52! \approx 8 \times 10^{67}$——精确计算是不可能的。

Ulam 的顿悟：与其精确计算，不如大量模拟。玩几百局，记录胜率，就能得到统计近似。

von Neumann 的关键洞察

Ulam 把这个想法告诉了 von Neumann。von Neumann 立刻意识到它的强大，但也发现了一个关键问题：

Solitaire 每局之间是独立的（每局重新发牌）
但核反应堆里的中子是依赖的——一个中子的行为取决于它的位置、速度和能量

von Neumann 意识到：必须用马尔可夫链来建模中子行为。

中子的马尔可夫链模型

简化版模型：

text

状态 = 一个中子在核弹中的当前位置

从每个状态出发，三种可能：
1. 散射（Scatter）：反弹回来，继续在系统中 → 自环
2. 吸收或逃逸（Absorb/Escape）：离开链式反应，终止
3. 裂变（Fission）：击中 U-235 核，释放 2-3 个新中子，新中子各自成为新的起点

转移概率不是固定的——它们取决于中子的位置、速度、能量，以及铀的质量和配置。

在 ENIAC 上运行

他们在美国第一台电子计算机 ENIAC 上运行这些马尔可夫链：

随机生成中子的初始条件
逐步跟踪链式反应中产生的中子数量
记录每次运行的增殖因子 k（平均每个中子产生的新中子数）
重复数百次，统计 k 值的分布

text

如果 k < 1：反应逐渐熄灭
如果 k = 1：自持链式反应，但不增长
如果 k > 1：指数增长 → 核爆成功

这就是蒙特卡洛方法的诞生——用随机抽样近似求解解析上无法解决的问题。

名字的由来

Ulam 的叔叔是个赌徒。Ulam 在思考这个方法时，联想到赌博的随机性和高风险——这让他想起了摩纳哥的蒙特卡洛赌场。

von Neumann 一听也觉得这个名字很贴切：蒙特卡洛方法就这样诞生了。

"I am concerned only with questions of pure analysis. I refer to the question of the applicability with indifference." —— Markov，生前对应用毫无兴趣，却不知道自己发明的工具即将改变人类历史。

PageRank：Google 是如何诞生的

Yahoo 的致命弱点

1990 年代互联网爆发，Yahoo 是当时的霸主。但 Yahoo 的搜索排名方式极其简单：一个页面在搜索词出现次数越多，排名越高。

这意味着只要在页面里重复关键词（甚至用白色文字放在白色背景上），就能轻松作弊排名。

更根本的问题是：他们只有相关性的概念，没有质量的概念。

图书馆的启发

想象一本图书馆的书，里面有很多借阅卡——如果一本被借阅过很多次，它很可能是一本好书。借阅卡就像是背书（endorsement）——越多背书，书可能越好。

Brin 和 Page 意识到：一个网页的链接也可以被理解为背书。一个页面链接到另一个页面，就像是在说"这个页面值得看"。

PageRank 算法

将整个互联网建模为一个马尔可夫链：

text

状态 = 网民正在访问的网页
转移 = 通过随机点击链接在网页间跳转

想象一个随机网民在网页间游走——他在每个网页上停留的时间比例，就是该网页的"重要性得分"。

关键洞察：

来自重要页面的链接投出的票更值钱
如果一个页面被很多页面链接，它很可能更重要
通过随机跳转（damping factor，85% 跟随链接，15% 随机跳转），确保能探索到互联网的每个角落

作弊的困难

如果有人创建 100 个页面都链接到自己的网站——短期内可能有效，但因为这些页面本身不被其他真实网页链接，马尔可夫链的长期收敛会忽略这些垃圾投票。低质量链接无法影响最终排名。

Google 的诞生

1998 年，Brin 和 Page 在 Stanford 正式推出搜索引擎。最初叫 BackRub（分析反向链接），后来改名为 Google——源自 "Googol"（$10^{100}$），他们希望索引整个互联网的野心与这个巨大数字相匹配。

今天 Google（Alphabet）市值约 2 万亿美元，而这一切的算法核心，是 1905 年 Markov 证明"依赖事件也能收敛"的那条链。

从字母预测到大型语言模型

Shannon 的推进

Claude Shannon（信息论之父）延续了 Markov 的思路：不仅用字母预测字母，还用单词预测单词。

他发现：

看前 1 个词预测下一个词 → 基本是随机的
看前 2-3 个词 → 开始有意义
看前 4 个词左右 → 预测相当可靠

这与今天 Gmail 的"智能撰写"或 LLM 的下一词预测（Next Token Prediction）是一脉相承的——现代 LLM 用的 token （可以是字母、词、标点等）本质上就是扩展版的 Markov 链。

注意力机制：超越 Markov

但 LLM 并不只是 Markov 链。Markov 链只考虑当前状态（前一个 token），而 LLM 引入了 注意力机制（Attention）——让模型能够动态权衡任意距离的上下文 token 的重要性。

例如 "the structure of the cell"——模型可以利用更远的上下文（blood、mitochondria）判断这里的 cell 更可能指生物学意义而非监狱。

LLM 的反馈循环危机

LLM 面临的潜在威胁：模型生成的文本进入互联网，成为未来 LLM 的训练数据。

这会形成正反馈循环：模型输出 → 进入训练数据 → 未来模型基于这些数据训练 → 更相似的输出……Shannon 在视频中警告：

"When you start doing that, the game is very soon over. You come to a very dull stable state. It just says the same thing over and over and over again forever."

这本质上是一个非马尔可夫系统——未来的状态不再只依赖于当前状态，而是依赖于整个历史。

马尔可夫链的局限与无后效性

什么系统不适用？

存在强正反馈循环的系统无法用马尔可夫链充分建模：

全球变暖的例子： $$\text{CO}_2 \uparrow \rightarrow \text{温度} \uparrow \rightarrow \text{大气持水量} \uparrow \rightarrow \text{更强温室效应} \rightarrow \text{CO}_2 \uparrow$$

这是一个闭环增强回路，当前状态不只是下一个状态的原因，整个历史都是原因。

马尔可夫链为何如此强大

Markov 和其他数学家发现的美妙之处在于：对于许多依赖系统，你几乎可以忽略所有历史，仅凭当前状态就能做出有意义的预测。

这就是无后效性（Memorylessness）：

$$P(X_{n+1} = j | X_n = i) = P(X_{n+1} = j | X_n = i, X_{n-1} = k, \ldots)$$

未来只与当前有关，与过去无关。

"Problem solving is often a matter of cooking up an appropriate Markov chain." —— 一篇论文的评价

日常应用：洗牌需要几次？

演讲末尾的彩蛋——洗牌问题：

洗牌方式	达到完全随机的次数
Riffle shuffle（切牌合并）	7 次即可基本随机
堆叠式洗牌（印度洗牌法）	需要超过 2000 次

这就是为什么赌场用 riffle shuffle 而印度洗牌法在数学上几乎无效。

关键引用

"Thus, free will is not necessary to do probability. In fact, independence isn't even necessary to do probability."

— Andrei Markov，Markov Chain 论文结尾

"Problem solving is often a matter of cooking up an appropriate Markov chain."

— 一篇论文对马尔可夫链的评价

"When you start doing that, the game is very soon over. You come to a very dull stable state. It just says the same thing over and over and over again forever."

— Claude Shannon，信息论之父对 LLM 反馈循环的警告

关联概念

马尔可夫链 — 依赖事件链的数学模型，当前状态决定未来概率分布
大数定律 — 大量试验的平均值趋近期望值，独立事件下必然成立
蒙特卡洛方法 — 通过随机采样近似求解复杂概率问题
PageRank — Google 用马尔可夫链对网页重要性排序的算法
注意力机制 — LLM 中让模型动态权衡上下文 token 重要性的机制
信息熵 — Shannon 由此发展出的信息测量理论

这个数学模型（几乎）能预测宇宙万物

这个数学模型（几乎）能预测宇宙万物

核心观点

历史背景：1905 年俄国大革命与数学政治化

政治分裂蔓延到学术界

大数定律与独立性的关系

Bernoulli 的证明

Nekrasov 的推论

Markov 的反驳

Markov 的证明：《叶甫盖尼·奥涅金》实验

实验方法

关键发现

预测机器（马尔可夫链）

对 Nekrasov 的最终反驳

蒙特卡洛方法的诞生：Ulam、von Neumann 与曼哈顿计划

Ulam 的纸牌游戏与灵感的闪现

von Neumann 的关键洞察

中子的马尔可夫链模型

在 ENIAC 上运行

名字的由来

PageRank：Google 是如何诞生的

Yahoo 的致命弱点

图书馆的启发

PageRank 算法

作弊的困难

Google 的诞生

从字母预测到大型语言模型

Shannon 的推进

注意力机制：超越 Markov

LLM 的反馈循环危机

马尔可夫链的局限与无后效性

什么系统不适用？

马尔可夫链为何如此强大

日常应用：洗牌需要几次？

关键引用

关联概念

来源