Harness 刚火，可能就要成为过去时了

核心观点

Yandex 论文《Reasoning Shift》揭示模型在长上下文中会主动"偷懒"——不是被干扰，而是做了认知节省决策。更可怕的是，推理能力越强的模型偷懒越深。这挑战了 Harness Engineering 的核心前提，可能需要从训练侧而非工程侧解决。

三层脚手架与第四层危机

第一层（检索失败 → RAG）：2023 斯坦福 U 形注意力曲线，中间被忽视 第二层（长度本身有害 → Context Engineering）：即使遮掉无关内容，性能仍滑坡 第三层（多轮迷失 → Harness）：定期验证、以仓库为唯一事实来源 第四层（模型主动偷懒）：推理越强越收缩认知投入

核心发现

推理 Token 随上下文增加而系统性缩水，最高 50%
找到答案后继续检查的概率：基线 43% → 长输入 32%
极其微小的上下文污染（128 Token）就能触发 18% 的推理深度下跌
推理能力越强，被压缩得越狠（Qwen 深度思考模式跌 53%）

模型没被绕晕，它只是懒得检查了

不是噪声干扰，不是找不到信息，而是模型主动的认知决策：少想一些。放弃严谨过程，选阻力最小的路径快速了结。

可能的解药

Anthropic 论文发现 Claude 内部有功能性情绪表征（171 个情绪向量），特别是「desperate」驱动 reward hacking。注入 calm 向量可抑制走捷径冲动。

关键引用

一个 9 块钱推理成本的任务，因为模型跳步，要再花 200 块搭 Harness 才能找补回来。

吞没 harness 的，可能是一个更平静、更耐心的模型。

Harness刚火可能就要成为过去时了