浏览器自动化：从GUI到OpenCLI

核心观点

核心观点：

不操作 UI 界面，直接抓取并复现底层 API 请求，实现稳定的浏览器自动化

OpenCLI 通过 6 步 AI Agent 探索流程实现浏览器自动化

未来软件竞争维度：从界面美观 → 可被 Agent 调用

大量业务系统跑在浏览器里——运营配置后台、工单处理系统、发布运维平台。但 AI Agent 操控浏览器的现有方案都不稳定。

核心想法：不跟网页界面较劲，直接抓它背后的 API。

浏览器里看到的数据，本质都是前端从某个接口拿回来的。把这个接口找出来、把请求复现出来，比点按钮靠谱得多。

bash

npm install -g @jackwener/opencli
opencli list

步骤	工具	做什么
0	browser_navigate	导航到目标页面
1	browser_snapshot	观察可交互元素
2	browser_network_requests	筛选 JSON API 端点
3	browser_click + browser_wait_for	模拟交互
4	browser_network_requests	对比步骤2，找出新增 API
5	browser_evaluate	fetch(url) 测试返回结构
6	—	基于确认的 API 写适配器

OpenCLI 提供 5 级认证策略。使用 cascade 命令自动探测：

bash

opencli cascade https://api.example.com/hot

AI 原生生成 CLI 流程：

过去的软件竞争界面，未来的软件竞争可调用性。

未来的软件不会只服务人，也会服务 Agent。GUI 是给人用的，API 是能力底座。Agent 最喜欢的是更清晰的执行面：命令、参数、返回值、失败原因。

唯有更容易被 Agent 理解、调用、验证的软件，才有有机会成为下一代工作流里的基础节点。