Logo LLM Wiki
Back to Summary

浏览器自动化:从GUI到OpenCLI

title 浏览器自动化:从GUI到OpenCLI
type summary
tags 技术自动化AIOpenCLI浏览器自动化
created 2026-04-14
source_file RAW/浏览器自动化:从GUI到OpenCLI.md

浏览器自动化:从GUI到OpenCLI

核心观点

核心观点:

  • 不操作 UI 界面,直接抓取并复现底层 API 请求,实现稳定的浏览器自动化
  • OpenCLI 通过 6 步 AI Agent 探索流程实现浏览器自动化
  • 未来软件竞争维度:从界面美观 → 可被 Agent 调用

为什么需要浏览器自动化

大量业务系统跑在浏览器里——运营配置后台、工单处理系统、发布运维平台。但 AI Agent 操控浏览器的现有方案都不稳定。

OpenCLI 思路

核心想法:不跟网页界面较劲,直接抓它背后的 API。

浏览器里看到的数据,本质都是前端从某个接口拿回来的。把这个接口找出来、把请求复现出来,比点按钮靠谱得多。

快速上手

bash
npm install -g @jackwener/opencli
opencli list

AI Agent 探索工作流

步骤工具做什么
0browser_navigate导航到目标页面
1browser_snapshot观察可交互元素
2browser_network_requests筛选 JSON API 端点
3browser_click + browser_wait_for模拟交互
4browser_network_requests对比步骤2,找出新增 API
5browser_evaluatefetch(url) 测试返回结构
6基于确认的 API 写适配器

五级认证策略

OpenCLI 提供 5 级认证策略。使用 cascade 命令自动探测:

bash
opencli cascade https://api.example.com/hot

自动生成 CLI

AI 原生生成 CLI 流程:

  1. 探索分析:深度抓取页面、自动滚动、拦截网络请求
  2. 策略选择:根据鉴权头/签名等特征自动选择策略
  3. 适配器合成:基于探索产物生成候选 YAML
  4. 测试验证:串联探索→合成→注册→验证

未来竞争维度

过去的软件竞争界面,未来的软件竞争可调用性。

未来的软件不会只服务人,也会服务 Agent。GUI 是给人用的,API 是能力底座。Agent 最喜欢的是更清晰的执行面:命令、参数、返回值、失败原因。

唯有更容易被 Agent 理解、调用、验证的软件,才有有机会成为下一代工作流里的基础节点。

关联概念