对抗人工智能爬虫的三种方法- 大数跨境

首页

对抗人工智能爬虫的三种方法

索引目录

2025-04-09

导读：直到最近，网站仍在推动网络爬虫正确地索引其内容。现在，一种新型的爬虫——人工智能爬虫，正在改变游戏规则，对开源内容以及越来越依赖内容的公司产生负面影响。

直到最近，网站仍在推动网络爬虫正确地索引其内容。

现在，一种新型的爬虫——人工智能爬虫，正在改变游戏规则，对开源内容以及越来越依赖内容的公司产生负面影响。

以下是反击的方法。

为什么人工智能爬虫对我们所知的互联网有害

简而言之：

网站所有者的成本飙升
用户遇到中断或性能问题
DDoS 中断——最糟糕的情况

最后，你会看到TechPays.com创始人的案例，他注意到数据出站量增加了 10 倍以上，并且超过 90% 的流量来自 AI 爬虫。

这为什么是一个问题？

因为内容是免费删除的，然后通过 OpenAI、Meta AI 等方式出售给您。

对抗人工智能爬虫的三种方法

因此，这里列出了三种对抗 AI 爬虫的方法及其优缺点。

使用 JavaScript
部署人工智能陷阱和迷宫
速率限制和高级过滤

使用 JavaScript

看来 AI 爬虫在处理 JavaScript 密集型网站时遇到了困难！

GPTBot（OpenAI）、Claude（Anthropic）和PerplexityBot 等人工智能爬虫难以处理，或者根本无法处理 JavaScript 渲染的内容。

虽然它们会获取 JavaScript 文件，但它们并不执行代码，因此从抓取工具的角度来看，结果是无用的内容。

对抗部署人工智能陷阱和迷宫的人工智能爬虫

Tarpits 是一种旨在将 AI 爬虫困在无尽的内容迷宫中的工具，浪费它们的计算资源和时间，同时保护您的实际内容。

这些工具会创建出相互连接、但毫无意义的动态页面网络，从而有效地阻止爬虫访问合法内容。

使用速率限制和高级过滤来对抗 AI 爬虫

为来自目标市场以外国家/地区的访问者设置带有挑战的地理过滤（例如 CAPTCHA 或 JavaScript 测试）可以显著减少不必要的爬虫流量。

举几个例子：

Linux Fedora 项目的系统管理员不得不封锁整个巴西，以对抗激进的 AI 抓取工具！
http://TechPays.com 的创始人也尝试过这种方法，之后采取了更强有力的措施，例如启用 Cloudflare 的 AI 爬虫拦截

最后的考虑

最有可能的是，一个好的方法包括几种技术的组合，例如 IP 阻止和 Cloudflare 的 AI 爬虫阻止。

此外，tarpit 技术和高级速率限制似乎对攻击性爬虫更加有效。

显然，您不想完全阻止所有 AI 爬虫，因为它可能会向依赖 AI 驱动的搜索来找到您的网站的人类访问者隐藏您的内容。

【声明】内容源于网络

索引目录

索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案，推动技术与行业发展。

内容 444

粉丝 0

索引目录索引目录是一家专注于医疗、技术开发、物联网应用等领域的创新型公司。我们致力于为客户提供高质量的服务和解决方案，推动技术与行业发展。

总阅读544

粉丝0

内容444

对抗人工智能爬虫的三种方法

为什么人工智能爬虫对我们所知的互联网有害

这为什么是一个问题？

对抗人工智能爬虫的三种方法

使用 JavaScript

对抗部署人工智能陷阱和迷宫的人工智能爬虫

热门 Tarpit 解决方案

使用速率限制和高级过滤来对抗 AI 爬虫

最后的考虑