Knowledge Archive
Summary · 科学

这个数学模型(几乎)能预测宇宙万物

科学 2026-04-19 · 16 min read · 9 backlinks
马尔可夫链概率论蒙特卡洛PageRankGoogle信息论注意力机制Veritasium

这个数学模型(几乎)能预测宇宙万物

核心观点

一枚硬币抛 10 次出现了 6 次正面——这不是"不均衡",而是正常波动。随着抛掷次数增加,正面比例会自发收敛到 50%。这背后是大数定律:大量独立试验的平均值会趋近期望值。200 多年来,概率论建立在这个假设之上。

但现实世界几乎所有事件都是互相依赖的:明天的天气取决于今天的气压,核弹里的中子行为取决于前一个中子,句子里的下一个字母强烈依赖于当前字母。依赖性是否意味着大数定律失效?是否意味着概率论无法处理现实?

1905 年,俄国数学家 Andrei Markov 通过分析普希金的《叶甫盖尼·奥涅金》证明了一个反直觉的事实:依赖事件同样可以收敛,独立性不是大数定律的必要条件。他发明的马尔可夫链,让人类第一次有了处理依赖事件概率的工具。

这个工具很快成为了 20 世纪最强大的数学武器之一:它帮曼哈顿计划模拟了核爆中的中子行为(由此诞生了蒙特卡洛方法),它奠定了 Google 的 PageRank 算法(价值 2 万亿美元),它还是现代 LLM 注意力机制的理论基础。

历史背景:1905 年俄国大革命与数学政治化

政治分裂蔓延到学术界

1905 年,俄国社会各派系联合起来反对沙皇专制,要求政治改革。这场革命将俄国撕裂成两半——保皇派与社会改革派的对立渗透到社会的每一个角落,连数学家都开始选边站

Pavel Nekrasov(涅克拉索夫),非官方被称为"概率沙皇"——他是深度的宗教信仰者,利用自己的学术地位主张:数学可以证明自由意志的存在,可以解释上帝的旨意。他的逻辑是:社会统计(如犯罪率、结婚率)遵循大数定律 → 大数定律要求事件相互独立 → 这些统计数据说明人们的决定是独立的 → 独立就意味着自由意志

Andrei Markov(马尔科夫),人称"愤怒的安德烈"——他是无神论者,对任何缺乏严谨性的论证都毫无耐心。他公开批判 Nekrasov 的工作,将这种做法列为"数学的滥用"。

两人的争论焦点是概率论200年来的核心假设:独立性

大数定律与独立性的关系

Bernoulli 的证明

雅各布·伯努利(Jacob Bernoulli)早在 1713 年就证明了大数定律。但他的证明有一个关键前提:事件必须相互独立

独立事件意味着:一个事件的发生不影响另一个事件的概率。比如抛硬币——每次硬币都不知道上一次的结果。

Nekrasov 的推论

Nekrasov 看到比利时1841-1845年的婚姻数据:每年平均结婚数约为 29,000 对,数字非常稳定。他进一步分析犯罪率、出生率等社会统计数据,发现同样的收敛现象。

他的论证:这些数据收敛 → 说明它们遵循大数定律 → 大数定律要求独立性 → 因此这些社会决定必然是相互独立的 → 独立即自由意志的证明

对 Nekrasov 来说,自由意志不是一个哲学概念,而是可以用数学测量的科学事实

Markov 的反驳

Markov 无法接受这种论证。他决定用实际行动证明:即使存在依赖性,大数定律依然可以成立

他选择了一个天然具有强依赖性的研究对象——文本

"Whether your next letter is a consonant or a vowel depends heavily on what the current letter is."

Markov 的证明:《叶甫盖尼·奥涅金》实验

实验方法

Markov 取了普希金《叶甫盖尼·奥涅金》开篇 20,000 个字母,去掉所有标点和空格,组成一串连续的字符。

  1. 统计元音/辅音频率:43% 是元音,57% 是辅音
  2. 构建重叠字母对:VV(元音-元音)、VC(元音-辅音)、CV(辅音-元音)、CC(辅音-辅音)

关键发现

如果字母是独立的,那么 VV 出现的概率应该是 $0.43 \times 0.43 \approx 18\%$。

但 Markov 实际计数发现:VV 只出现 6%,远低于独立假设的预测。

这说明:俄语文本中字母是强依赖的——元音后面很少紧跟另一个元音。

预测机器(马尔可夫链)

现在 Markov 需要证明:尽管字母之间存在依赖,但整篇文章的元音/辅音比例依然会收敛。

他构建了一个两步状态机

text
状态机规则(基于实际统计):
- 如果当前是元音 → 下一个是元音的概率 = 13%,辅音 = 87%
- 如果当前是辅音 → 下一个是辅音的概率 = ?,元音 = ?

从任意起点开始模拟随机生成字母,最初比例剧烈跳动,但随着步数增加,比例稳定收敛到 43% 元音 / 57% 辅音——与手工统计完全一致。

Markov 由此证明:即使每一步都强烈依赖前一步(记忆性),链的整体依然可以收敛到稳定分布

对 Nekrasov 的最终反驳

Markov 在论文结尾写道:

"Thus, free will is not necessary to do probability. In fact, independence isn't even necessary to do probability."

这句话成为概率论史上最具影响力的结论之一。Nekrasov 的论证被彻底击溃——社会统计的收敛不能证明自由意志的存在

蒙特卡洛方法的诞生:Ulam、von Neumann 与曼哈顿计划

Ulam 的纸牌游戏与灵感的闪现

1945年7月16日,人类第一颗核弹"三位一体"在新墨西哥州引爆。曼哈顿计划的科学家们(包括奥本海默、冯·诺依曼)继续研究核弹中中子的行为方式。

核弹的工作原理:铀-235 核吸收一个中子后裂变,释放能量和 2-3 个新的中子;如果这些新中子平均每个人还能裂变超过一个铀核,就能产生链式反应——这就是核弹的原理。

关键问题:需要多少浓缩铀才能保证链式反应成功?

Stanislav Ulam 1946年患了脑炎,在家休养期间沉迷于单人纸牌游戏(Solitaire)。他开始思考一个看似简单的问题:随机发牌的纸牌游戏,胜算有多大?

排列组合数是 $52! \approx 8 \times 10^{67}$——精确计算是不可能的

Ulam 的顿悟:与其精确计算,不如大量模拟。玩几百局,记录胜率,就能得到统计近似。

von Neumann 的关键洞察

Ulam 把这个想法告诉了 von Neumann。von Neumann 立刻意识到它的强大,但也发现了一个关键问题:

  • Solitaire 每局之间是独立的(每局重新发牌)
  • 但核反应堆里的中子是依赖的——一个中子的行为取决于它的位置、速度和能量

von Neumann 意识到:必须用马尔可夫链来建模中子行为

中子的马尔可夫链模型

简化版模型:

text
状态 = 一个中子在核弹中的当前位置

从每个状态出发,三种可能:
1. 散射(Scatter):反弹回来,继续在系统中 → 自环
2. 吸收或逃逸(Absorb/Escape):离开链式反应,终止
3. 裂变(Fission):击中 U-235 核,释放 2-3 个新中子,新中子各自成为新的起点

转移概率不是固定的——它们取决于中子的位置、速度、能量,以及铀的质量和配置。

在 ENIAC 上运行

他们在美国第一台电子计算机 ENIAC 上运行这些马尔可夫链:

  1. 随机生成中子的初始条件
  2. 逐步跟踪链式反应中产生的中子数量
  3. 记录每次运行的增殖因子 k(平均每个中子产生的新中子数)
  4. 重复数百次,统计 k 值的分布
text
如果 k < 1:反应逐渐熄灭
如果 k = 1:自持链式反应,但不增长
如果 k > 1:指数增长 → 核爆成功

这就是蒙特卡洛方法的诞生——用随机抽样近似求解解析上无法解决的问题。

名字的由来

Ulam 的叔叔是个赌徒。Ulam 在思考这个方法时,联想到赌博的随机性和高风险——这让他想起了摩纳哥的蒙特卡洛赌场。

von Neumann 一听也觉得这个名字很贴切:蒙特卡洛方法就这样诞生了。

"I am concerned only with questions of pure analysis. I refer to the question of the applicability with indifference." —— Markov,生前对应用毫无兴趣,却不知道自己发明的工具即将改变人类历史。

PageRank:Google 是如何诞生的

Yahoo 的致命弱点

1990 年代互联网爆发,Yahoo 是当时的霸主。但 Yahoo 的搜索排名方式极其简单:一个页面在搜索词出现次数越多,排名越高

这意味着只要在页面里重复关键词(甚至用白色文字放在白色背景上),就能轻松作弊排名。

更根本的问题是:他们只有相关性的概念,没有质量的概念

图书馆的启发

想象一本图书馆的书,里面有很多借阅卡——如果一本被借阅过很多次,它很可能是一本好书。借阅卡就像是背书(endorsement)——越多背书,书可能越好。

Brin 和 Page 意识到:一个网页的链接也可以被理解为背书。一个页面链接到另一个页面,就像是在说"这个页面值得看"。

PageRank 算法

将整个互联网建模为一个马尔可夫链:

text
状态 = 网民正在访问的网页
转移 = 通过随机点击链接在网页间跳转

想象一个随机网民在网页间游走——他在每个网页上停留的时间比例,就是该网页的"重要性得分"。

关键洞察

  • 来自重要页面的链接投出的票更值钱
  • 如果一个页面被很多页面链接,它很可能更重要
  • 通过随机跳转(damping factor,85% 跟随链接,15% 随机跳转),确保能探索到互联网的每个角落

作弊的困难

如果有人创建 100 个页面都链接到自己的网站——短期内可能有效,但因为这些页面本身不被其他真实网页链接,马尔可夫链的长期收敛会忽略这些垃圾投票。低质量链接无法影响最终排名

Google 的诞生

1998 年,Brin 和 Page 在 Stanford 正式推出搜索引擎。最初叫 BackRub(分析反向链接),后来改名为 Google——源自 "Googol"($10^{100}$),他们希望索引整个互联网的野心与这个巨大数字相匹配。

今天 Google(Alphabet)市值约 2 万亿美元,而这一切的算法核心,是 1905 年 Markov 证明"依赖事件也能收敛"的那条链。

从字母预测到大型语言模型

Shannon 的推进

Claude Shannon(信息论之父)延续了 Markov 的思路:不仅用字母预测字母,还用单词预测单词。

他发现:

  • 看前 1 个词预测下一个词 → 基本是随机的
  • 看前 2-3 个词 → 开始有意义
  • 看前 4 个词左右 → 预测相当可靠

这与今天 Gmail 的"智能撰写"或 LLM 的下一词预测(Next Token Prediction)是一脉相承的——现代 LLM 用的 token (可以是字母、词、标点等)本质上就是扩展版的 Markov 链。

注意力机制:超越 Markov

但 LLM 并不只是 Markov 链。Markov 链只考虑当前状态(前一个 token),而 LLM 引入了 注意力机制(Attention)——让模型能够动态权衡任意距离的上下文 token 的重要性。

例如 "the structure of the cell"——模型可以利用更远的上下文(blood、mitochondria)判断这里的 cell 更可能指生物学意义而非监狱。

LLM 的反馈循环危机

LLM 面临的潜在威胁:模型生成的文本进入互联网,成为未来 LLM 的训练数据

这会形成正反馈循环:模型输出 → 进入训练数据 → 未来模型基于这些数据训练 → 更相似的输出……Shannon 在视频中警告:

"When you start doing that, the game is very soon over. You come to a very dull stable state. It just says the same thing over and over and over again forever."

这本质上是一个非马尔可夫系统——未来的状态不再只依赖于当前状态,而是依赖于整个历史。

马尔可夫链的局限与无后效性

什么系统不适用?

存在强正反馈循环的系统无法用马尔可夫链充分建模:

全球变暖的例子: $$\text{CO}_2 \uparrow \rightarrow \text{温度} \uparrow \rightarrow \text{大气持水量} \uparrow \rightarrow \text{更强温室效应} \rightarrow \text{CO}_2 \uparrow$$

这是一个闭环增强回路,当前状态不只是下一个状态的原因,整个历史都是原因

马尔可夫链为何如此强大

Markov 和其他数学家发现的美妙之处在于:对于许多依赖系统,你几乎可以忽略所有历史,仅凭当前状态就能做出有意义的预测

这就是无后效性(Memorylessness)

$$P(X_{n+1} = j | X_n = i) = P(X_{n+1} = j | X_n = i, X_{n-1} = k, \ldots)$$

未来只与当前有关,与过去无关。

"Problem solving is often a matter of cooking up an appropriate Markov chain." —— 一篇论文的评价

日常应用:洗牌需要几次?

演讲末尾的彩蛋——洗牌问题:

洗牌方式达到完全随机的次数
Riffle shuffle(切牌合并)7 次即可基本随机
堆叠式洗牌(印度洗牌法)需要超过 2000 次

这就是为什么赌场用 riffle shuffle 而印度洗牌法在数学上几乎无效。

关键引用

"Thus, free will is not necessary to do probability. In fact, independence isn't even necessary to do probability."

— Andrei Markov,Markov Chain 论文结尾

"Problem solving is often a matter of cooking up an appropriate Markov chain."

— 一篇论文对马尔可夫链的评价

"When you start doing that, the game is very soon over. You come to a very dull stable state. It just says the same thing over and over and over again forever."

— Claude Shannon,信息论之父对 LLM 反馈循环的警告

关联概念

  • 马尔可夫链 — 依赖事件链的数学模型,当前状态决定未来概率分布
  • 大数定律 — 大量试验的平均值趋近期望值,独立事件下必然成立
  • 蒙特卡洛方法 — 通过随机采样近似求解复杂概率问题
  • PageRank — Google 用马尔可夫链对网页重要性排序的算法
  • 注意力机制 — LLM 中让模型动态权衡上下文 token 重要性的机制
  • 信息熵 — Shannon 由此发展出的信息测量理论

来源