Concept · AI
Token Budget
AI 2026-05-13 · 1 min read · 1 backlinks
Token Budget
定义
Multi-Agent 系统中的实时 Token 预算控制机制——不是事后统计,而是执行中实时调度。根据任务复杂度分配预算,执行中监控,触发分级降级策略。
三大策略
Model Routing(模型路由)
不同步骤用不同模型:
- 分类/摘要/格式转换 → 小模型
- 复杂推理/最终合成 → 强模型
- 低价值重试 → 禁止高价模型
Context Compression(上下文压缩)
保留最近几轮原文 + 更早历史压缩为结构化摘要。注意:事实型任务保留原始引用,合规型关键证据不可压缩。
Budget 分级降级
| 区间 | 预算剩余 | 动作 |
|---|---|---|
| 绿区 | >50% | 正常执行 |
| 黄区 | 20%-50% | 压缩上下文 |
| 红区 | 5%-20% | 切小模型 + 跳过 CoT |
| 熔断区 | <5% | 强制收束,返回 partial result |
核心监控指标
- 单位业务结果成本(每完成一个合格任务多少钱)——能回答这个才进入可运营阶段
与其他概念的关系
- Harness Engineering — Token Budget 是 Harness 成本控制模块的核心
- MCP — 工具调用产生的 Token 需纳入 Budget 管理
来源
Backlinks 1 references