Harness Engineering
title Harness Engineering
type concept
category tech
tags AI工程Agent工程实践
created 2026-04-13
sources 5
Harness Engineering
定义
给 AI Agent 套上的那层「操作系统」,通过约束、反馈循环、架构规则、工具链和生命周期管理,让 Agent 能持续、稳定、高质量地工作。由 Mitchell Hashimoto 提出,OpenAI 报告而广为人知。
演进脉络
| 阶段 | 时间 | 核心关注 |
|---|---|---|
| Prompt Engineering | 2022-2024 | 精心构造单次指令 |
| Context Engineering | 2025 | 动态构建上下文 |
| Harness Engineering | 2026年2月 | 设计完整控制系统 |
核心公式
coding agent = AI model(s) + harness
类比:模型是 CPU,Harness 是操作系统。
三大支柱
- 上下文工程:AGENTS.md(控制在 60 行以内)、可观测性栈、浏览器 DevTools
- 架构约束:分层架构 + 确定性 linter 机械执行(违反则 CI 挂掉)
- 熵管理:定期扫描技术债、过时文档、架构漂移
七个配置杠杆
- AGENTS.md / CLAUDE.md
- 确定性约束(linter/类型检查/结构化测试)
- 工具精简
- Sub-Agent 隔离
- 反馈循环
- CI 限速(Stripe 最多两轮)
- 垃圾回收
行业案例
- OpenAI Codex:5个月百万行代码,人类一行没写
- Stripe Minions:每周 1300 PR 全由 Agent 完成
- Cursor:每小时 1000 commit
- Peter Steinberger:单月 6600 commit
争议
Noam Brown(OpenAI)认为 Harness 是「拐杖」,推理模型进化后会淘汰。但护栏悖论:车速越快护栏越重要。
Claude Code 的实践
系统级强提醒引导
System Reminder 动态注入机制:wrapInSystemReminder 函数将所有需要注入系统的元信息统一包裹在 标签中,明确传达"这部分内容是系统注入的元信息,而非用户的自然语言输入"。
六大系统内置 Agent Tool
- General-Purpose Agent:万能打工人,拥有所有工具的使用权限
- Explore Agent:代码库侦察兵,速度优先的只读搜索专家
- Plan Agent:软件架构师,制定实施方案
- Verification Agent:质量检验官,红蓝对抗,想办法把代码搞崩
- Claude Code Guide Agent:Claude Code 使用说明书
- Statusline Setup Agent:状态栏安装
- Fork Sub Agent:主 Agent 的"分身",继承完整对话历史
精细化的安全体系
- Permission Engine:规则的精细化权限控制,三行为模型(Allow、Deny、Ask)
- Sandbox Isolation:操作系统原型的沙箱隔离,基于
bubblewrap (bwrap)构建 - 异步生成器驱动的主循环:
async function*重构主循环,带来流式处理、协作式控制、优雅的取消机制、有状态的上下文维持 - 可编程的钩子拦截机制:覆盖 20+ 种关键事件类型,支持阻断执行、动态篡改、反馈注入
有趣的彩蛋
- Caffeinate:给电脑灌咖啡,防止休眠
- Anti-Distillation:反蒸馏,防止模型被"偷学"
- Undercover Mode:卧底模式,隐藏 AI 身份
- Dogfooding:内部吃狗粮模式
- 用户情绪辱骂处理:AI 也知道你在骂它
- 荒诞的加载动词:让等待变得有趣
- Buddy System:养个电子宠物
能力定位
在构建一个 95 分的 Agent 系统中,Harness Engineering 可以将效果从 8085 分提升到 9095 分。