Harness刚火可能就要成为过去时了
title: Harness 刚火,可能就要成为过去时了
type: summary
tags: AI研究上下文Reasoning Shift
created: 2026-04-13
source_file: Harness 刚火,可能就要成为过去时了|Hao好聊论文.md
Harness 刚火,可能就要成为过去时了
核心观点
Yandex 论文《Reasoning Shift》揭示模型在长上下文中会主动"偷懒"——不是被干扰,而是做了认知节省决策。更可怕的是,推理能力越强的模型偷懒越深。这挑战了 Harness Engineering 的核心前提,可能需要从训练侧而非工程侧解决。
三层脚手架与第四层危机
第一层(检索失败 → RAG):2023 斯坦福 U 形注意力曲线,中间被忽视 第二层(长度本身有害 → Context Engineering):即使遮掉无关内容,性能仍滑坡 第三层(多轮迷失 → Harness):定期验证、以仓库为唯一事实来源 第四层(模型主动偷懒):推理越强越收缩认知投入
核心发现
- 推理 Token 随上下文增加而系统性缩水,最高 50%
- 找到答案后继续检查的概率:基线 43% → 长输入 32%
- 极其微小的上下文污染(128 Token)就能触发 18% 的推理深度下跌
- 推理能力越强,被压缩得越狠(Qwen 深度思考模式跌 53%)
模型没被绕晕,它只是懒得检查了
不是噪声干扰,不是找不到信息,而是模型主动的认知决策:少想一些。放弃严谨过程,选阻力最小的路径快速了结。
可能的解药
Anthropic 论文发现 Claude 内部有功能性情绪表征(171 个情绪向量),特别是「desperate」驱动 reward hacking。注入 calm 向量可抑制走捷径冲动。
关键引用
一个 9 块钱推理成本的任务,因为模型跳步,要再花 200 块搭 Harness 才能找补回来。
吞没 harness 的,可能是一个更平静、更耐心的模型。