Concept · 科学
PageRank
科学 2026-04-19 · 2 min read · 4 backlinks
PageRank
定义
PageRank 是 Google 创始人 Larry Page 和 Sergey Brin 于 1998 年提出的网页重要性排序算法,核心思想是将互联网上的网页超链接建模为马尔可夫链:一个随机网民在网页间按链接随机游走,最终稳定分布在每个页面的概率即为该页面的 PageRank 分值。
详细说明
背景:Yahoo 的困境
1990年代中期,搜索引擎(如 Yahoo)按关键词出现频率排序,极易被作弊——只要在页面重复关键词即可提升排名。更严重的是,这种方法无法衡量"质量":所有页面被平等对待,没有区分重要页面和垃圾页面。
核心洞察:从图书馆借鉴的民主思想
Brin 和 Page 借鉴了图书馆学的思路:一本书被借阅的次数越多、越多人推荐,这本书就越有价值。网页链接同理——一个页面链接到另一个页面,就是一次"投票"。但问题在于:来自权威网站的链接应该比垃圾站的链接更有分量。
他们的解决方案:将网页排名建模为马尔可夫链。每个页面是一个状态,每个超链接是一次状态转移,转移概率平均分配给页面发出的所有链接。随机网民从任意页面出发,以一定概率(damping factor,阻尼因子,通常设为 0.85)沿链接浏览,以 1-0.85=0.15 的概率随机跳转到任意页面。
大量步骤后,网民访问各页面的稳定概率分布即 PageRank 分值——概率越高,页面越重要。
阻尼因子(Damping Factor)
阻尼因子解决了两个问题:
- Dead Ends(死胡同):有些页面没有外链,随机网民可能被困其中
- Spider Traps(蜘蛛陷阱):一组页面互相链接但不链接到外部,形成循环
通过允许随机网民以 15% 的概率"跳出"到任意随机页面,确保整个马尔可夫链是不可约的(irreducible),从而保证稳态分布存在。
讽刺的命名
PageRank 原意是"页面排名(Page Ranking)",但也恰好是创始人 Larry Page 的姓氏。他巧妙地将算法命名融入了个人品牌。
与其他概念的关系
- 马尔可夫链:PageRank 的理论基础——随机游走者的稳态分布
- Google:PageRank 是 Google 搜索引擎早期排序的核心算法
- 注意力机制:现代 LLM 使用注意力机制而非简单马尔可夫链来衡量上下文相关性
来源
Backlinks 4 references