Knowledge Archive
Concept · AI

Token Budget

AI 2026-05-13 · 1 min read · 1 backlinks
AI工程成本控制Multi-AgentHarness-Engineering

Token Budget

定义

Multi-Agent 系统中的实时 Token 预算控制机制——不是事后统计,而是执行中实时调度。根据任务复杂度分配预算,执行中监控,触发分级降级策略。

三大策略

Model Routing(模型路由)

不同步骤用不同模型:

  • 分类/摘要/格式转换 → 小模型
  • 复杂推理/最终合成 → 强模型
  • 低价值重试 → 禁止高价模型

Context Compression(上下文压缩)

保留最近几轮原文 + 更早历史压缩为结构化摘要。注意:事实型任务保留原始引用,合规型关键证据不可压缩。

Budget 分级降级

区间预算剩余动作
绿区>50%正常执行
黄区20%-50%压缩上下文
红区5%-20%切小模型 + 跳过 CoT
熔断区<5%强制收束,返回 partial result

核心监控指标

  • 单位业务结果成本(每完成一个合格任务多少钱)——能回答这个才进入可运营阶段

与其他概念的关系

  • Harness Engineering — Token Budget 是 Harness 成本控制模块的核心
  • MCP — 工具调用产生的 Token 需纳入 Budget 管理

来源