浏览器自动化:从GUI到OpenCLI
title 浏览器自动化:从GUI到OpenCLI
type summary
tags 技术自动化AIOpenCLI浏览器自动化
created 2026-04-14
source_file RAW/浏览器自动化:从GUI到OpenCLI.md
浏览器自动化:从GUI到OpenCLI
核心观点
核心观点:
- 不操作 UI 界面,直接抓取并复现底层 API 请求,实现稳定的浏览器自动化
- OpenCLI 通过 6 步 AI Agent 探索流程实现浏览器自动化
- 未来软件竞争维度:从界面美观 → 可被 Agent 调用
为什么需要浏览器自动化
大量业务系统跑在浏览器里——运营配置后台、工单处理系统、发布运维平台。但 AI Agent 操控浏览器的现有方案都不稳定。
OpenCLI 思路
核心想法:不跟网页界面较劲,直接抓它背后的 API。
浏览器里看到的数据,本质都是前端从某个接口拿回来的。把这个接口找出来、把请求复现出来,比点按钮靠谱得多。
快速上手
bash
npm install -g @jackwener/opencli
opencli list
AI Agent 探索工作流
| 步骤 | 工具 | 做什么 |
|---|---|---|
| 0 | browser_navigate | 导航到目标页面 |
| 1 | browser_snapshot | 观察可交互元素 |
| 2 | browser_network_requests | 筛选 JSON API 端点 |
| 3 | browser_click + browser_wait_for | 模拟交互 |
| 4 | browser_network_requests | 对比步骤2,找出新增 API |
| 5 | browser_evaluate | fetch(url) 测试返回结构 |
| 6 | — | 基于确认的 API 写适配器 |
五级认证策略
OpenCLI 提供 5 级认证策略。使用 cascade 命令自动探测:
bash
opencli cascade https://api.example.com/hot
自动生成 CLI
AI 原生生成 CLI 流程:
- 探索分析:深度抓取页面、自动滚动、拦截网络请求
- 策略选择:根据鉴权头/签名等特征自动选择策略
- 适配器合成:基于探索产物生成候选 YAML
- 测试验证:串联探索→合成→注册→验证
未来竞争维度
过去的软件竞争界面,未来的软件竞争可调用性。
未来的软件不会只服务人,也会服务 Agent。GUI 是给人用的,API 是能力底座。Agent 最喜欢的是更清晰的执行面:命令、参数、返回值、失败原因。
唯有更容易被 Agent 理解、调用、验证的软件,才有有机会成为下一代工作流里的基础节点。