大数跨境

对抗人工智能爬虫的三种方法

对抗人工智能爬虫的三种方法 索引目录
2025-04-09
0
导读:直到最近,网站仍在推动网络爬虫正确地索引其内容。现在,一种新型的爬虫——人工智能爬虫,正在改变游戏规则,对开源内容以及越来越依赖内容的公司产生负面影响。

直到最近,网站仍在推动网络爬虫正确地索引其内容。

现在,一种新型的爬虫——人工智能爬虫,正在改变游戏规则,对开源内容以及越来越依赖内容的公司产生负面影响。



以下是反击的方法

为什么人工智能爬虫对我们所知的互联网有害

简而言之:

  • 网站所有者的成本飙升

  • 用户遇到中断或性能问题

  • DDoS 中断——最糟糕的情况

最后,你会看到TechPays.com创始人的案例,他注意到数据出站量增加了 10 倍以上,并且超过 90% 的流量来自 AI 爬虫。

这为什么是一个问题?

因为内容是免费删除的,然后通过 OpenAI、Meta AI 等方式出售给您。

对抗人工智能爬虫的三种方法

因此,这里列出了三种对抗 AI 爬虫的方法及其优缺点。

  • 使用 JavaScript

  • 部署人工智能陷阱和迷宫

  • 速率限制和高级过滤

使用 JavaScript

看来 AI 爬虫在处理 JavaScript 密集型网站时遇到了困难!

GPTBot(OpenAI)、Claude(Anthropic)和PerplexityBot 等人工智能爬虫难以处理,或者根本无法处理 JavaScript 渲染的内容。

虽然它们会获取 JavaScript 文件,但它们并不执行代码,因此从抓取工具角度来看,结果是无用的内容。

对抗部署人工智能陷阱和迷宫的人工智能爬虫

Tarpits 是一种旨在将 AI 爬虫困在无尽的内容迷宫中的工具,浪费它们的计算资源和时间,同时保护您的实际内容。

这些工具会创建出相互连接、但毫无意义的动态页面网络,从而有效地阻止爬虫访问合法内容。

热门 Tarpit 解决方案

  • Nepenthes——创建一个由静态文件组成的“无限迷宫”,没有出口链接,有效地困住AI爬虫并浪费它们的资源。这很残酷,如果你正在寻找复仇,那么这就是你的最佳工具!

  • Cloudflare 的 AI Labyrinth:使用 AI 生成的内容来减慢、混淆和浪费不遵守“禁止爬行”指令的爬虫的资源。了解如何使用AI Labyrinth 阻止 AI 爬虫

  • Iocaine:使用反向代理将爬虫程序困在“无限的垃圾迷宫”中,意图毒害其数据收集。Iocaine 也基于 Nepenthes,但“Iocaine 纯粹是为了生成垃圾”。


使用速率限制和高级过滤来对抗 AI 爬虫

为来自目标市场以外国家/地区的访问者设置带有挑战的地理过滤(例如 CAPTCHA 或 JavaScript 测试)可以显著减少不必要的爬虫流量。

举几个例子:

  • Linux Fedora 项目的系统管理员不得不封锁整个巴西,以对抗激进的 AI 抓取工具!

  • http://TechPays.com 的创始人也尝试过这种方法,之后采取了更强有力的措施,例如启用 Cloudflare 的 AI 爬虫拦截


最后的考虑

最有可能的是,一个好的方法包括几种技术的组合,例如 IP 阻止和 Cloudflare 的 AI 爬虫阻止。

此外,tarpit 技术和高级速率限制似乎对攻击性爬虫更加有效。

显然,您不想完全阻止所有 AI 爬虫,因为它可能会向依赖 AI 驱动的搜索来找到您的网站的人类访问者隐藏您的内容。


【声明】内容源于网络
0
0
索引目录
索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案,推动技术与行业发展。
内容 444
粉丝 0
索引目录 索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案,推动技术与行业发展。
总阅读544
粉丝0
内容444