🔍 深度解读

Chrome DevTools MCP发布一个月:浏览器正在成为AI的超能力

Chrome DevTools MCP发布一个月,29个工具让AI真正接管浏览器。结合opencli、bb-browser等开源工具,自动化运营已进入"平民化"阶段。支付闭环打通后,一个"AI机器人替你打工"的时代正在到来。

来源: Dev.to / GitHub →

平台导读:Chrome DevTools MCP发布一个月,AI直接操控浏览器从”能看截图”进化到”能动手操作”。配合opencli、bb-browser等开源工具,自动化运营已平民化。支付层打通后,一个AI替你打工的时代正在开启。


一个月后再看:AI终于不只是”看”浏览器了

3月中旬,Google Chrome DevTools 团队发布了官方的 chrome-devtools-mcp MCP Server。一个月的沉淀下来,意义逐渐清晰——它解决的不只是”AI能看浏览器”,而是AI能操控浏览器

之前几乎所有浏览器自动化方案,本质上都是”截图 → AI看图 → 决定下一步 → 再截图”。这在简单场景下能用,但碰到需要填表、点菜单、处理弹窗、判断 DOM 状态的场景,截图就力不从心了。

DevTools MCP 打通的是 Chrome DevTools Protocol,AI 看到的是真实 DOM 结构、Cookie 状态、网络请求、Console 输出,不是截图。29个工具,覆盖:输入/点击、表单填写、导航切换、性能 trace、网络抓包、Console 报错读取……AI 可以做的动作一下子从”看”升级到了”做”。

开源生态:自动化正在”平民化”

值得关注的不只是 Google 官方这一家。整个开源生态正在让浏览器自动化变得极其简单:

  • opencli — 登录态友好的内容提取工具,复用用户已经登录的 session,不需要重新爬
  • bb-browser — 面向 Agent 设计的浏览器控制 CLI,Vercel Labs 出品,性能和稳定性都不错
  • playwright-mcp — 微软官方的 Playwright MCP Server,最成熟的 MCP 浏览器工具之一
  • browser-use — 当前最火的开源浏览器 Agent 框架,社区热度极高,适合快速做 PoC

这些工具的共同特点是:门槛低到可以让一个不懂编程的人,用自然语言指挥 AI 操作浏览器。以前要写爬虫、配置代理、处理验证码的工作,现在变成了”告诉 AI 你想做什么”。

商业畅想:当浏览器自动化遇上支付闭环

这是最让人兴奋的部分。浏览器自动化 + Agent 支付 = 完整商业闭环。

场景一:AI运营助理 你告诉 AI:“帮我每天上午10点查看竞品店铺的价格,有降价的就发我微信通知。“AI 自动打开浏览器、爬取数据、监控变化、触发通知——全程不需要你碰电脑。

场景二:自动下单与比价 AI 可以同时打开京东、淘宝、拼多多,搜索同一商品,对比价格,筛出最优解,然后调用支付宝/微信支付 MCP 完成下单。你只需要最后说一句”确认”。

场景三:批量内容发布与回复 运营自媒体账号?AI 可以自动登录后台,发布内容,查看评论并智能回复,处理私信——这是现在很多人已经在用的场景,但效率和智能化程度还会快速提升。

场景四:个人数据仪表盘 AI 自动从各个平台抓取你的数据(股票账户、电商订单、物流信息、健康数据),整理成一张实时仪表盘,你问它即可获得全局视图。

场景五:A2A经济的第一步 浏览器操控 + 支付能力打通后,两个 AI Agent 直接对话完成复杂任务成为可能。你的行程规划 Agent 向航空公司的查询 Agent 付费获取实时票价——浏览器就是它们的交互界面。

瓶颈与挑战

事情并非完美。有几个现实问题:

  • Chrome 独占:目前 DevTools MCP 只支持 Chrome,Firefox/Safari 用户暂时用不了
  • 登录态安全:在已登录银行或包含敏感信息的标签页里运行 DevTools MCP 有风险,Google 官方也明确警告过
  • 反爬对抗:主流网站不会坐视不管,自动化操作必然面临越来越强的检测和拦截
  • 成本:Browser Use 这类 Agent 框架_TOKEN 消耗不小,大规模应用需要考虑边际成本

写在最后

一个月前,Chrome DevTools MCP 的发布是浏览器控制领域的一个里程碑。但它真正预示的事情比”AI能操控浏览器”更大:浏览器正在变成 AI 的”手和眼睛”,支付层正在变成 AI 的”钱包”。两者合一,就是一个能自主执行商业任务的 AI 员工。

你准备好了吗?