这个数学模型(几乎)能预测宇宙万物
这个数学模型(几乎)能预测宇宙万物
核心观点
一枚硬币抛 10 次出现了 6 次正面——这不是"不均衡",而是正常波动。随着抛掷次数增加,正面比例会自发收敛到 50%。这背后是大数定律:大量独立试验的平均值会趋近期望值。200 多年来,概率论建立在这个假设之上。
但现实世界几乎所有事件都是互相依赖的:明天的天气取决于今天的气压,核弹里的中子行为取决于前一个中子,句子里的下一个字母强烈依赖于当前字母。依赖性是否意味着大数定律失效?是否意味着概率论无法处理现实?
1905 年,俄国数学家 Andrei Markov 通过分析普希金的《叶甫盖尼·奥涅金》证明了一个反直觉的事实:依赖事件同样可以收敛,独立性不是大数定律的必要条件。他发明的马尔可夫链,让人类第一次有了处理依赖事件概率的工具。
这个工具很快成为了 20 世纪最强大的数学武器之一:它帮曼哈顿计划模拟了核爆中的中子行为(由此诞生了蒙特卡洛方法),它奠定了 Google 的 PageRank 算法(价值 2 万亿美元),它还是现代 LLM 注意力机制的理论基础。
历史背景:1905 年俄国大革命与数学政治化
政治分裂蔓延到学术界
1905 年,俄国社会各派系联合起来反对沙皇专制,要求政治改革。这场革命将俄国撕裂成两半——保皇派与社会改革派的对立渗透到社会的每一个角落,连数学家都开始选边站。
Pavel Nekrasov(涅克拉索夫),非官方被称为"概率沙皇"——他是深度的宗教信仰者,利用自己的学术地位主张:数学可以证明自由意志的存在,可以解释上帝的旨意。他的逻辑是:社会统计(如犯罪率、结婚率)遵循大数定律 → 大数定律要求事件相互独立 → 这些统计数据说明人们的决定是独立的 → 独立就意味着自由意志。
Andrei Markov(马尔科夫),人称"愤怒的安德烈"——他是无神论者,对任何缺乏严谨性的论证都毫无耐心。他公开批判 Nekrasov 的工作,将这种做法列为"数学的滥用"。
两人的争论焦点是概率论200年来的核心假设:独立性。
大数定律与独立性的关系
Bernoulli 的证明
雅各布·伯努利(Jacob Bernoulli)早在 1713 年就证明了大数定律。但他的证明有一个关键前提:事件必须相互独立。
独立事件意味着:一个事件的发生不影响另一个事件的概率。比如抛硬币——每次硬币都不知道上一次的结果。
Nekrasov 的推论
Nekrasov 看到比利时1841-1845年的婚姻数据:每年平均结婚数约为 29,000 对,数字非常稳定。他进一步分析犯罪率、出生率等社会统计数据,发现同样的收敛现象。
他的论证:这些数据收敛 → 说明它们遵循大数定律 → 大数定律要求独立性 → 因此这些社会决定必然是相互独立的 → 独立即自由意志的证明。
对 Nekrasov 来说,自由意志不是一个哲学概念,而是可以用数学测量的科学事实。
Markov 的反驳
Markov 无法接受这种论证。他决定用实际行动证明:即使存在依赖性,大数定律依然可以成立。
他选择了一个天然具有强依赖性的研究对象——文本。
"Whether your next letter is a consonant or a vowel depends heavily on what the current letter is."
Markov 的证明:《叶甫盖尼·奥涅金》实验
实验方法
Markov 取了普希金《叶甫盖尼·奥涅金》开篇 20,000 个字母,去掉所有标点和空格,组成一串连续的字符。
- 统计元音/辅音频率:43% 是元音,57% 是辅音
- 构建重叠字母对:VV(元音-元音)、VC(元音-辅音)、CV(辅音-元音)、CC(辅音-辅音)
关键发现
如果字母是独立的,那么 VV 出现的概率应该是 $0.43 \times 0.43 \approx 18\%$。
但 Markov 实际计数发现:VV 只出现 6%,远低于独立假设的预测。
这说明:俄语文本中字母是强依赖的——元音后面很少紧跟另一个元音。
预测机器(马尔可夫链)
现在 Markov 需要证明:尽管字母之间存在依赖,但整篇文章的元音/辅音比例依然会收敛。
他构建了一个两步状态机:
从任意起点开始模拟随机生成字母,最初比例剧烈跳动,但随着步数增加,比例稳定收敛到 43% 元音 / 57% 辅音——与手工统计完全一致。
Markov 由此证明:即使每一步都强烈依赖前一步(记忆性),链的整体依然可以收敛到稳定分布。
对 Nekrasov 的最终反驳
Markov 在论文结尾写道:
"Thus, free will is not necessary to do probability. In fact, independence isn't even necessary to do probability."
这句话成为概率论史上最具影响力的结论之一。Nekrasov 的论证被彻底击溃——社会统计的收敛不能证明自由意志的存在。
蒙特卡洛方法的诞生:Ulam、von Neumann 与曼哈顿计划
Ulam 的纸牌游戏与灵感的闪现
1945年7月16日,人类第一颗核弹"三位一体"在新墨西哥州引爆。曼哈顿计划的科学家们(包括奥本海默、冯·诺依曼)继续研究核弹中中子的行为方式。
核弹的工作原理:铀-235 核吸收一个中子后裂变,释放能量和 2-3 个新的中子;如果这些新中子平均每个人还能裂变超过一个铀核,就能产生链式反应——这就是核弹的原理。
关键问题:需要多少浓缩铀才能保证链式反应成功?
Stanislav Ulam 1946年患了脑炎,在家休养期间沉迷于单人纸牌游戏(Solitaire)。他开始思考一个看似简单的问题:随机发牌的纸牌游戏,胜算有多大?
排列组合数是 $52! \approx 8 \times 10^{67}$——精确计算是不可能的。
Ulam 的顿悟:与其精确计算,不如大量模拟。玩几百局,记录胜率,就能得到统计近似。
von Neumann 的关键洞察
Ulam 把这个想法告诉了 von Neumann。von Neumann 立刻意识到它的强大,但也发现了一个关键问题:
- Solitaire 每局之间是独立的(每局重新发牌)
- 但核反应堆里的中子是依赖的——一个中子的行为取决于它的位置、速度和能量
von Neumann 意识到:必须用马尔可夫链来建模中子行为。
中子的马尔可夫链模型
简化版模型:
转移概率不是固定的——它们取决于中子的位置、速度、能量,以及铀的质量和配置。
在 ENIAC 上运行
他们在美国第一台电子计算机 ENIAC 上运行这些马尔可夫链:
- 随机生成中子的初始条件
- 逐步跟踪链式反应中产生的中子数量
- 记录每次运行的增殖因子 k(平均每个中子产生的新中子数)
- 重复数百次,统计 k 值的分布
这就是蒙特卡洛方法的诞生——用随机抽样近似求解解析上无法解决的问题。
名字的由来
Ulam 的叔叔是个赌徒。Ulam 在思考这个方法时,联想到赌博的随机性和高风险——这让他想起了摩纳哥的蒙特卡洛赌场。
von Neumann 一听也觉得这个名字很贴切:蒙特卡洛方法就这样诞生了。
"I am concerned only with questions of pure analysis. I refer to the question of the applicability with indifference." —— Markov,生前对应用毫无兴趣,却不知道自己发明的工具即将改变人类历史。
PageRank:Google 是如何诞生的
Yahoo 的致命弱点
1990 年代互联网爆发,Yahoo 是当时的霸主。但 Yahoo 的搜索排名方式极其简单:一个页面在搜索词出现次数越多,排名越高。
这意味着只要在页面里重复关键词(甚至用白色文字放在白色背景上),就能轻松作弊排名。
更根本的问题是:他们只有相关性的概念,没有质量的概念。
图书馆的启发
想象一本图书馆的书,里面有很多借阅卡——如果一本被借阅过很多次,它很可能是一本好书。借阅卡就像是背书(endorsement)——越多背书,书可能越好。
Brin 和 Page 意识到:一个网页的链接也可以被理解为背书。一个页面链接到另一个页面,就像是在说"这个页面值得看"。
PageRank 算法
将整个互联网建模为一个马尔可夫链:
想象一个随机网民在网页间游走——他在每个网页上停留的时间比例,就是该网页的"重要性得分"。
关键洞察:
- 来自重要页面的链接投出的票更值钱
- 如果一个页面被很多页面链接,它很可能更重要
- 通过随机跳转(damping factor,85% 跟随链接,15% 随机跳转),确保能探索到互联网的每个角落
作弊的困难
如果有人创建 100 个页面都链接到自己的网站——短期内可能有效,但因为这些页面本身不被其他真实网页链接,马尔可夫链的长期收敛会忽略这些垃圾投票。低质量链接无法影响最终排名。
Google 的诞生
1998 年,Brin 和 Page 在 Stanford 正式推出搜索引擎。最初叫 BackRub(分析反向链接),后来改名为 Google——源自 "Googol"($10^{100}$),他们希望索引整个互联网的野心与这个巨大数字相匹配。
今天 Google(Alphabet)市值约 2 万亿美元,而这一切的算法核心,是 1905 年 Markov 证明"依赖事件也能收敛"的那条链。
从字母预测到大型语言模型
Shannon 的推进
Claude Shannon(信息论之父)延续了 Markov 的思路:不仅用字母预测字母,还用单词预测单词。
他发现:
- 看前 1 个词预测下一个词 → 基本是随机的
- 看前 2-3 个词 → 开始有意义
- 看前 4 个词左右 → 预测相当可靠
这与今天 Gmail 的"智能撰写"或 LLM 的下一词预测(Next Token Prediction)是一脉相承的——现代 LLM 用的 token (可以是字母、词、标点等)本质上就是扩展版的 Markov 链。
注意力机制:超越 Markov
但 LLM 并不只是 Markov 链。Markov 链只考虑当前状态(前一个 token),而 LLM 引入了 注意力机制(Attention)——让模型能够动态权衡任意距离的上下文 token 的重要性。
例如 "the structure of the cell"——模型可以利用更远的上下文(blood、mitochondria)判断这里的 cell 更可能指生物学意义而非监狱。
LLM 的反馈循环危机
LLM 面临的潜在威胁:模型生成的文本进入互联网,成为未来 LLM 的训练数据。
这会形成正反馈循环:模型输出 → 进入训练数据 → 未来模型基于这些数据训练 → 更相似的输出……Shannon 在视频中警告:
"When you start doing that, the game is very soon over. You come to a very dull stable state. It just says the same thing over and over and over again forever."
这本质上是一个非马尔可夫系统——未来的状态不再只依赖于当前状态,而是依赖于整个历史。
马尔可夫链的局限与无后效性
什么系统不适用?
存在强正反馈循环的系统无法用马尔可夫链充分建模:
全球变暖的例子: $$\text{CO}_2 \uparrow \rightarrow \text{温度} \uparrow \rightarrow \text{大气持水量} \uparrow \rightarrow \text{更强温室效应} \rightarrow \text{CO}_2 \uparrow$$
这是一个闭环增强回路,当前状态不只是下一个状态的原因,整个历史都是原因。
马尔可夫链为何如此强大
Markov 和其他数学家发现的美妙之处在于:对于许多依赖系统,你几乎可以忽略所有历史,仅凭当前状态就能做出有意义的预测。
这就是无后效性(Memorylessness):
$$P(X_{n+1} = j | X_n = i) = P(X_{n+1} = j | X_n = i, X_{n-1} = k, \ldots)$$
未来只与当前有关,与过去无关。
"Problem solving is often a matter of cooking up an appropriate Markov chain." —— 一篇论文的评价
日常应用:洗牌需要几次?
演讲末尾的彩蛋——洗牌问题:
| 洗牌方式 | 达到完全随机的次数 |
|---|---|
| Riffle shuffle(切牌合并) | 7 次即可基本随机 |
| 堆叠式洗牌(印度洗牌法) | 需要超过 2000 次 |
这就是为什么赌场用 riffle shuffle 而印度洗牌法在数学上几乎无效。
关键引用
"Thus, free will is not necessary to do probability. In fact, independence isn't even necessary to do probability."
— Andrei Markov,Markov Chain 论文结尾
"Problem solving is often a matter of cooking up an appropriate Markov chain."
— 一篇论文对马尔可夫链的评价
"When you start doing that, the game is very soon over. You come to a very dull stable state. It just says the same thing over and over and over again forever."
— Claude Shannon,信息论之父对 LLM 反馈循环的警告
关联概念
- 马尔可夫链 — 依赖事件链的数学模型,当前状态决定未来概率分布
- 大数定律 — 大量试验的平均值趋近期望值,独立事件下必然成立
- 蒙特卡洛方法 — 通过随机采样近似求解复杂概率问题
- PageRank — Google 用马尔可夫链对网页重要性排序的算法
- 注意力机制 — LLM 中让模型动态权衡上下文 token 重要性的机制
- 信息熵 — Shannon 由此发展出的信息测量理论