直到最近,网站仍在推动网络爬虫正确地索引其内容。
现在,一种新型的爬虫——人工智能爬虫,正在改变游戏规则,对开源内容以及越来越依赖内容的公司产生负面影响。
以下是反击的方法。
为什么人工智能爬虫对我们所知的互联网有害
简而言之:
网站所有者的成本飙升
用户遇到中断或性能问题
DDoS 中断——最糟糕的情况
最后,你会看到TechPays.com创始人的案例,他注意到数据出站量增加了 10 倍以上,并且超过 90% 的流量来自 AI 爬虫。
这为什么是一个问题?
因为内容是免费删除的,然后通过 OpenAI、Meta AI 等方式出售给您。
对抗人工智能爬虫的三种方法
因此,这里列出了三种对抗 AI 爬虫的方法及其优缺点。
使用 JavaScript
部署人工智能陷阱和迷宫
速率限制和高级过滤
使用 JavaScript
看来 AI 爬虫在处理 JavaScript 密集型网站时遇到了困难!
GPTBot(OpenAI)、Claude(Anthropic)和PerplexityBot 等人工智能爬虫难以处理,或者根本无法处理 JavaScript 渲染的内容。
虽然它们会获取 JavaScript 文件,但它们并不执行代码,因此从抓取工具的角度来看,结果是无用的内容。
对抗部署人工智能陷阱和迷宫的人工智能爬虫
Tarpits 是一种旨在将 AI 爬虫困在无尽的内容迷宫中的工具,浪费它们的计算资源和时间,同时保护您的实际内容。
这些工具会创建出相互连接、但毫无意义的动态页面网络,从而有效地阻止爬虫访问合法内容。
热门 Tarpit 解决方案
Nepenthes——创建一个由静态文件组成的“无限迷宫”,没有出口链接,有效地困住AI爬虫并浪费它们的资源。这很残酷,如果你正在寻找复仇,那么这就是你的最佳工具!
Cloudflare 的 AI Labyrinth:使用 AI 生成的内容来减慢、混淆和浪费不遵守“禁止爬行”指令的爬虫的资源。了解如何使用AI Labyrinth 阻止 AI 爬虫
Iocaine:使用反向代理将爬虫程序困在“无限的垃圾迷宫”中,意图毒害其数据收集。Iocaine 也基于 Nepenthes,但“Iocaine 纯粹是为了生成垃圾”。
使用速率限制和高级过滤来对抗 AI 爬虫
为来自目标市场以外国家/地区的访问者设置带有挑战的地理过滤(例如 CAPTCHA 或 JavaScript 测试)可以显著减少不必要的爬虫流量。
举几个例子:
Linux Fedora 项目的系统管理员不得不封锁整个巴西,以对抗激进的 AI 抓取工具!
http://TechPays.com 的创始人也尝试过这种方法,之后采取了更强有力的措施,例如启用 Cloudflare 的 AI 爬虫拦截
最后的考虑
最有可能的是,一个好的方法包括几种技术的组合,例如 IP 阻止和 Cloudflare 的 AI 爬虫阻止。
此外,tarpit 技术和高级速率限制似乎对攻击性爬虫更加有效。
显然,您不想完全阻止所有 AI 爬虫,因为它可能会向依赖 AI 驱动的搜索来找到您的网站的人类访问者隐藏您的内容。

