以前用 Selenium 写的爬虫脚本,最怕爬取的网站改版,写好的 XPath 选择器又得重新调试修改代码。
好不容易调通,可没过两天对方改个按钮位置,脚本又挂。这种反复被折腾的心情,相信有不少开发者都遇到过。
近日,我在 GitHub 上看到了一个爆火的开源自动化工具:Skyvern,为我们提供了不一样的解决方案。
不再靠写死的选择器,而是让 AI 通过截图识别并理解页面内容,就像人看懂网页上所有信息后去操作。
通俗地说,它能 “看懂” 页面上的搜索框、按钮在哪里,而不是通过名字去死记硬背它们位置。
接下来,带大家一起深入了解一下 Skyvern。
看懂网页,而不是记住位置
它的核心是一个开源 AI 智能体,结合了视觉大模型和语言模型来理解页面内容,打破传统自动化的处理方式。
通过截图利用视觉模型分析页面结构、识别出哪些是可点击按钮,哪些是输入框,然后语言模型理解页面内容,从而实现自动化操作。
与传统的 Selenium、Playwright 自动化处理方式,Skyvern 更具有如下优点:
用自然语言下达指令
Skyvern 不仅能自适应页面布局的变化,还能通过自然语言来下达爬取任务。
我们不需要再写复杂的代码,只需要简单告诉它具体需要执行什么任务即可。
比如给 Skyvern 发送:“到京东搜索 iPhone 17 手机,并加入购物车”。
接收到任务后,它便自动拆解成多个步骤:打开网站、找搜索框、输入关键词、点击搜索、识别商品、点击加购。
就是这么简单,直接自然语言下达任务就行,即使不懂编程的朋友也能轻松实现自动化。
支持复杂工作流
除了可以执行单个任务外,Skyvern 还支持我们自定义多个步骤,构建成一条自动化工作流。
并且支持循环、条件判断、文件解析等功能,基本能覆盖大多数自动化场景。
比如要批量下载发票,可以设计一个流程:先登录网站、筛选出某个日期后的发票、提取发票列表、逐个点击下载。
更强的是,Skyvern 还可以处理登录验证情况,能够对接 Bitwarden、1Password 这些密码管理器。
在执行自动化任务过程中,遇到需要登录账号的时候,自动填写相关信息进行登录。
同时,还内置验证码求解器,如果在登录过程中遇到图形验证码也能处理,可谓是相当强大了。
最后来了解下如何使用,在项目 README 文档上有详细的本地部署安装指南,支持 Docker 快速部署方式。
对于不太懂编程的朋友,也可以直接使用它云服务托管的版本,直接开箱即用。
写在最后
如果你经常需要处理一些重复性的网页操作,比如批量填表、定期抓取数据等,Skyvern 可能真能帮到你。
不过也提醒一下,工具底层依赖的是 GPT-4o 这类大模型,每次运行都会产生一定 API 费用。
GitHub 项目地址:https://github.com/Skyvern-AI/skyvern
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

