大数跨境
0
0

爆火的浏览器自动化工具,狂揽 17.8k+ Star!

爆火的浏览器自动化工具,狂揽 17.8k+ Star! GitHubDaily
2025-11-14
6

以前用 Selenium 写的爬虫脚本,最怕爬取的网站改版,写好的 XPath 选择器又得重新调试修改代码。

好不容易调通,可没过两天对方改个按钮位置,脚本又挂。这种反复被折腾的心情,相信有不少开发者都遇到过。

近日,我在 GitHub 上看到了一个爆火的开源自动化工具:Skyvern,为我们提供了不一样的解决方案。

不再靠写死的选择器,而是让 AI 通过截图识别并理解页面内容,就像人看懂网页上所有信息后去操作。

通俗地说,它能 “看懂” 页面上的搜索框、按钮在哪里,而不是通过名字去死记硬背它们位置。

接下来,带大家一起深入了解一下 Skyvern。

看懂网页,而不是记住位置

它的核心是一个开源 AI 智能体,结合了视觉大模型和语言模型来理解页面内容,打破传统自动化的处理方式。

img

通过截图利用视觉模型分析页面结构、识别出哪些是可点击按钮,哪些是输入框,然后语言模型理解页面内容,从而实现自动化操作。

与传统的 Selenium、Playwright 自动化处理方式,Skyvern 更具有如下优点:

image-20251114170418874

用自然语言下达指令

Skyvern 不仅能自适应页面布局的变化,还能通过自然语言来下达爬取任务。

我们不需要再写复杂的代码,只需要简单告诉它具体需要执行什么任务即可。

比如给 Skyvern 发送:“到京东搜索 iPhone 17 手机,并加入购物车”。

接收到任务后,它便自动拆解成多个步骤:打开网站、找搜索框、输入关键词、点击搜索、识别商品、点击加购。

就是这么简单,直接自然语言下达任务就行,即使不懂编程的朋友也能轻松实现自动化。

支持复杂工作流

除了可以执行单个任务外,Skyvern 还支持我们自定义多个步骤,构建成一条自动化工作流。

并且支持循环、条件判断、文件解析等功能,基本能覆盖大多数自动化场景。

比如要批量下载发票,可以设计一个流程:先登录网站、筛选出某个日期后的发票、提取发票列表、逐个点击下载。

更强的是,Skyvern 还可以处理登录验证情况,能够对接 Bitwarden、1Password 这些密码管理器。

在执行自动化任务过程中,遇到需要登录账号的时候,自动填写相关信息进行登录。

同时,还内置验证码求解器,如果在登录过程中遇到图形验证码也能处理,可谓是相当强大了。

最后来了解下如何使用,在项目 README 文档上有详细的本地部署安装指南,支持 Docker 快速部署方式。

对于不太懂编程的朋友,也可以直接使用它云服务托管的版本,直接开箱即用。

image-20251114174521513

写在最后

如果你经常需要处理一些重复性的网页操作,比如批量填表、定期抓取数据等,Skyvern 可能真能帮到你。

不过也提醒一下,工具底层依赖的是 GPT-4o 这类大模型,每次运行都会产生一定 API 费用。

GitHub 项目地址:https://github.com/Skyvern-AI/skyvern

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

【声明】内容源于网络
0
0
GitHubDaily
专注于分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具,为 GitHub 开发者提供优质编程资讯。
内容 1445
粉丝 0
GitHubDaily 专注于分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具,为 GitHub 开发者提供优质编程资讯。
总阅读658
粉丝0
内容1.4k