

用“算力门槛”阻击AI爬虫

GoUpSec

2025-07-10

导读：在大语言模型（LLM）成为数据黑洞的时代，越来越多的网站开始寻找新方式抵御AI公司如潮水般的抓取请求。

在大语言模型（LLM）成为数据黑洞的时代，越来越多的网站开始寻找新方式抵御AI公司如潮水般的抓取请求。一款名为Anubis的开源软件，正在以一种巧妙又高效的方式应对这一挑战：通过“工作量证明”（Proof of Work, PoW）机制，把AI爬虫挡在门外。

传统“反扒”手段失效，AI爬虫变本加厉

传统网站阻止爬虫的方式是通过robots.txt文件声明抓取规则，但这本质上依赖抓取方“自觉遵守”，缺乏强制力。很多AI公司对此置若罔闻。

例如，《The Register》曾披露ClaudeBot一天内抓取网站百万次；Reddit也因Anthropic未经授权抓取论坛内容而提起诉讼。开源技术文档平台ReadTheDocs甚至报告称，仅一个AI爬虫一个月内就下载了73TB数据。

人类“快速通行”，爬虫“算力爆炸”

Anubis的思路源自反垃圾邮件领域上世纪90年代的技术Hashcash。与传统的验证码不同，Anubis不是验证你是不是人类，而是要求访客的浏览器在后台完成一个加密计算任务。

对普通人类用户来说，这一过程几乎无感：浏览器在你几乎未察觉的几百毫秒内完成计算，并顺利放行。而对规模化运营AI爬虫的公司而言，则意味着需要调用整排服务器完成这些计算任务，带来极大的算力开销和电力成本。

开发者Xe Iaso表示：“我只是想让AI公司‘付出代价’，让他们知道抓取别人的内容不是免费的。”Anubis也因此得名——源自埃及神话中为死者称量心脏的豺头神阿努比斯，隐喻这种“算力天平”。

技术原理简单，生态支持强大

Anubis主要依赖现代浏览器的webcrypto API和JIT引擎，因此即使是老旧设备也能流畅运行。其PoW算法虽然并不复杂，但在大规模并发下会形成有效阻力。

目前，包括UNESCO、GNOME项目、WINE、Enlightenment在内的多个知名组织已部署Anubis。对开源社区来说，这是一种不涉足加密货币的“纯净”算力对策。开发者也明确拒绝类似Coinhive挖矿脚本的做法，避免被浏览器标记为恶意行为。

除了Anubis，还有一些创意十足的反AI爬虫工具。例如：

争议焦点：“以暴制暴”是否行得通？

尽管PoW方式确实“浪费能源”，但支持者认为这是对抗更大浪费（AI抓取、模型训练耗电）的必要成本。反对者如FOSS倡导者Jamie Zawinski则表示：“这类机制本质上是通胀性、无效率的废物，只会引发新的军备竞赛。”

但即使在批评声中，Anubis等项目仍获得越来越多独立开发者和中小型网站的支持。面对由OpenAI、Anthropic、Google等巨头驱动的AI爬虫浪潮，普通网站终于有了“以暴制暴”的工具。

正如开发者所言：“我宁愿牺牲一点CPU，也不想再被这些公司无休止地榨取内容。”

参考链接：

https://www.theregister.com/2025/07/09/anubis_fighting_the_llm_hordes/

END