大数跨境
0
0

用“算力门槛”阻击AI爬虫

用“算力门槛”阻击AI爬虫 GoUpSec
2025-07-10
0
导读:在大语言模型(LLM)成为数据黑洞的时代,越来越多的网站开始寻找新方式抵御AI公司如潮水般的抓取请求。


在大语言模型(LLM)成为数据黑洞的时代,越来越多的网站开始寻找新方式抵御AI公司如潮水般的抓取请求。一款名为Anubis的开源软件,正在以一种巧妙又高效的方式应对这一挑战:通过“工作量证明”(Proof of Work, PoW)机制,把AI爬虫挡在门外。


传统“反扒”手段失效,AI爬虫变本加厉


传统网站阻止爬虫的方式是通过robots.txt文件声明抓取规则,但这本质上依赖抓取方“自觉遵守”,缺乏强制力。很多AI公司对此置若罔闻。


例如,《The Register》曾披露ClaudeBot一天内抓取网站百万次;Reddit也因Anthropic未经授权抓取论坛内容而提起诉讼。开源技术文档平台ReadTheDocs甚至报告称,仅一个AI爬虫一个月内就下载了73TB数据。


人类“快速通行”,爬虫“算力爆炸”


Anubis的思路源自反垃圾邮件领域上世纪90年代的技术Hashcash。与传统的验证码不同,Anubis不是验证你是不是人类,而是要求访客的浏览器在后台完成一个加密计算任务。


对普通人类用户来说,这一过程几乎无感:浏览器在你几乎未察觉的几百毫秒内完成计算,并顺利放行。而对规模化运营AI爬虫的公司而言,则意味着需要调用整排服务器完成这些计算任务,带来极大的算力开销和电力成本。


开发者Xe Iaso表示:“我只是想让AI公司‘付出代价’,让他们知道抓取别人的内容不是免费的。”Anubis也因此得名——源自埃及神话中为死者称量心脏的豺头神阿努比斯,隐喻这种“算力天平”。


技术原理简单,生态支持强大


Anubis主要依赖现代浏览器的webcrypto API和JIT引擎,因此即使是老旧设备也能流畅运行。其PoW算法虽然并不复杂,但在大规模并发下会形成有效阻力。


目前,包括UNESCO、GNOME项目、WINE、Enlightenment在内的多个知名组织已部署Anubis。对开源社区来说,这是一种不涉足加密货币的“纯净”算力对策。开发者也明确拒绝类似Coinhive挖矿脚本的做法,避免被浏览器标记为恶意行为。


除了Anubis,还有一些创意十足的反AI爬虫工具。例如:


  • Nepenthes:生成大量毫无意义的链接页面,将AI爬虫困在无用循环中; 

  • Quixotic、Linkmaze:制造链接迷宫,扰乱抓取路径;

  • TollBit:提供付费级别反AI抓取解决方案。


争议焦点:“以暴制暴”是否行得通?


尽管PoW方式确实“浪费能源”,但支持者认为这是对抗更大浪费(AI抓取、模型训练耗电)的必要成本。反对者如FOSS倡导者Jamie Zawinski则表示:“这类机制本质上是通胀性、无效率的废物,只会引发新的军备竞赛。”


但即使在批评声中,Anubis等项目仍获得越来越多独立开发者和中小型网站的支持。面对由OpenAI、Anthropic、Google等巨头驱动的AI爬虫浪潮,普通网站终于有了“以暴制暴”的工具。


正如开发者所言:“我宁愿牺牲一点CPU,也不想再被这些公司无休止地榨取内容。”


参考链接:

https://www.theregister.com/2025/07/09/anubis_fighting_the_llm_hordes/

END

相关阅读

2025,AI泡沫破裂的一年?

利用大模型幻觉的新型网络钓鱼:AI幻觉域名抢注攻击

【声明】内容源于网络
0
0
GoUpSec
内容 1936
粉丝 0
GoUpSec
总阅读467
粉丝0
内容1.9k