在大语言模型(LLM)成为数据黑洞的时代,越来越多的网站开始寻找新方式抵御AI公司如潮水般的抓取请求。一款名为Anubis的开源软件,正在以一种巧妙又高效的方式应对这一挑战:通过“工作量证明”(Proof of Work, PoW)机制,把AI爬虫挡在门外。
传统“反扒”手段失效,AI爬虫变本加厉
传统网站阻止爬虫的方式是通过robots.txt文件声明抓取规则,但这本质上依赖抓取方“自觉遵守”,缺乏强制力。很多AI公司对此置若罔闻。
例如,《The Register》曾披露ClaudeBot一天内抓取网站百万次;Reddit也因Anthropic未经授权抓取论坛内容而提起诉讼。开源技术文档平台ReadTheDocs甚至报告称,仅一个AI爬虫一个月内就下载了73TB数据。
人类“快速通行”,爬虫“算力爆炸”
Anubis的思路源自反垃圾邮件领域上世纪90年代的技术Hashcash。与传统的验证码不同,Anubis不是验证你是不是人类,而是要求访客的浏览器在后台完成一个加密计算任务。
对普通人类用户来说,这一过程几乎无感:浏览器在你几乎未察觉的几百毫秒内完成计算,并顺利放行。而对规模化运营AI爬虫的公司而言,则意味着需要调用整排服务器完成这些计算任务,带来极大的算力开销和电力成本。
开发者Xe Iaso表示:“我只是想让AI公司‘付出代价’,让他们知道抓取别人的内容不是免费的。”Anubis也因此得名——源自埃及神话中为死者称量心脏的豺头神阿努比斯,隐喻这种“算力天平”。
技术原理简单,生态支持强大
Anubis主要依赖现代浏览器的webcrypto API和JIT引擎,因此即使是老旧设备也能流畅运行。其PoW算法虽然并不复杂,但在大规模并发下会形成有效阻力。
目前,包括UNESCO、GNOME项目、WINE、Enlightenment在内的多个知名组织已部署Anubis。对开源社区来说,这是一种不涉足加密货币的“纯净”算力对策。开发者也明确拒绝类似Coinhive挖矿脚本的做法,避免被浏览器标记为恶意行为。
除了Anubis,还有一些创意十足的反AI爬虫工具。例如:
Nepenthes:生成大量毫无意义的链接页面,将AI爬虫困在无用循环中;
Quixotic、Linkmaze:制造链接迷宫,扰乱抓取路径;
TollBit:提供付费级别反AI抓取解决方案。
争议焦点:“以暴制暴”是否行得通?
尽管PoW方式确实“浪费能源”,但支持者认为这是对抗更大浪费(AI抓取、模型训练耗电)的必要成本。反对者如FOSS倡导者Jamie Zawinski则表示:“这类机制本质上是通胀性、无效率的废物,只会引发新的军备竞赛。”
但即使在批评声中,Anubis等项目仍获得越来越多独立开发者和中小型网站的支持。面对由OpenAI、Anthropic、Google等巨头驱动的AI爬虫浪潮,普通网站终于有了“以暴制暴”的工具。
正如开发者所言:“我宁愿牺牲一点CPU,也不想再被这些公司无休止地榨取内容。”
参考链接:
https://www.theregister.com/2025/07/09/anubis_fighting_the_llm_hordes/
END
相关阅读

