

爆火的浏览器自动化工具，狂揽 17.8k+ Star！

GitHubDaily

2025-11-14

以前用 Selenium 写的爬虫脚本，最怕爬取的网站改版，写好的 XPath 选择器又得重新调试修改代码。

好不容易调通，可没过两天对方改个按钮位置，脚本又挂。这种反复被折腾的心情，相信有不少开发者都遇到过。

近日，我在 GitHub 上看到了一个爆火的开源自动化工具：Skyvern，为我们提供了不一样的解决方案。

不再靠写死的选择器，而是让 AI 通过截图识别并理解页面内容，就像人看懂网页上所有信息后去操作。

通俗地说，它能 “看懂” 页面上的搜索框、按钮在哪里，而不是通过名字去死记硬背它们位置。

它的核心是一个开源 AI 智能体，结合了视觉大模型和语言模型来理解页面内容，打破传统自动化的处理方式。

通过截图利用视觉模型分析页面结构、识别出哪些是可点击按钮，哪些是输入框，然后语言模型理解页面内容，从而实现自动化操作。

与传统的 Selenium、Playwright 自动化处理方式，Skyvern 更具有如下优点：

Skyvern 不仅能自适应页面布局的变化，还能通过自然语言来下达爬取任务。

我们不需要再写复杂的代码，只需要简单告诉它具体需要执行什么任务即可。

比如给 Skyvern 发送：“到京东搜索 iPhone 17 手机，并加入购物车”。

接收到任务后，它便自动拆解成多个步骤：打开网站、找搜索框、输入关键词、点击搜索、识别商品、点击加购。

就是这么简单，直接自然语言下达任务就行，即使不懂编程的朋友也能轻松实现自动化。

除了可以执行单个任务外，Skyvern 还支持我们自定义多个步骤，构建成一条自动化工作流。

并且支持循环、条件判断、文件解析等功能，基本能覆盖大多数自动化场景。

比如要批量下载发票，可以设计一个流程：先登录网站、筛选出某个日期后的发票、提取发票列表、逐个点击下载。

更强的是，Skyvern 还可以处理登录验证情况，能够对接 Bitwarden、1Password 这些密码管理器。

在执行自动化任务过程中，遇到需要登录账号的时候，自动填写相关信息进行登录。

同时，还内置验证码求解器，如果在登录过程中遇到图形验证码也能处理，可谓是相当强大了。

最后来了解下如何使用，在项目 README 文档上有详细的本地部署安装指南，支持 Docker 快速部署方式。

对于不太懂编程的朋友，也可以直接使用它云服务托管的版本，直接开箱即用。

如果你经常需要处理一些重复性的网页操作，比如批量填表、定期抓取数据等，Skyvern 可能真能帮到你。

不过也提醒一下，工具底层依赖的是 GPT-4o 这类大模型，每次运行都会产生一定 API 费用。

GitHub 项目地址：https://github.com/Skyvern-AI/skyvern

今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！

【声明】内容源于网络

GitHubDaily

专注于分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具，为 GitHub 开发者提供优质编程资讯。

内容 1445

粉丝 0

GitHubDaily 专注于分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具，为 GitHub 开发者提供优质编程资讯。

总阅读658

粉丝0

内容1.4k