社交媒体平台Reddit于10月22日在纽约联邦法院对人工智能初创公司Perplexity AI及三家数据抓取公司提起诉讼,指控他们参与“工业级非法抓取”活动,未经许可复制数百万条用户评论用于训练AI系统。这起诉讼不仅针对AI公司本身,还罕见地将支撑AI产业发展的数据供应链上的其他参与者一并告上法庭。
被告方包括总部位于旧金山的Perplexity AI、立陶宛数据抓取公司Oxylabs UAB、被标记为“前俄罗斯僵尸网络”域名的AWMProxy以及美国德州的搜索服务商SerpApi。
Reddit在诉状中描述了一个分工明确的数据抓取链条:一些公司专门绕过技术保护窃取数据,然后将其出售给渴望训练材料的AI客户。诉状指出,在2025年7月短短两周内,这些公司通过自动化流程访问了近30亿个包含Reddit内容的搜索引擎结果页面。Reddit将自己定位为“互联网上最大规模的人类对话集合之一”,这一庞大对话库已成为训练AI系统的宝贵资源,也使其成为数据抓取的主要目标。
为证实指控,Reddit设计了一套精妙的数字追踪方案。他们创建了一个特殊“测试帖子”,该帖子只能被谷歌搜索引擎抓取,而无法通过其他任何渠道访问。这个陷阱很快便发挥了作用。“几小时内”,Perplexity的答案引擎就生成了这个特定帖子的内容。Reddit主张,Perplexity能够获取此内容的唯一方式就是其或其共同被告抓取了谷歌的搜索结果。
这一证据链使得Reddit坚信自己已经“人赃俱获”。诉讼称,Perplexity被“抓了现行”——使用了“数字等价于标记钞票”的方法来追踪Reddit数据。
Reddit在诉状中创造了一个引人注目的比喻:将数据抓取公司比作“想要抢劫银行的人”。这些公司“知道自己无法进入银行金库(直接抓取Reddit),便转而破坏运钞车(谷歌搜索结果)来获取现金”。
这一比喻形象地描述了被指控的行为模式。根据诉讼,这些公司无法直接抓取Reddit,便“掩盖身份、隐藏位置、伪装网络爬虫,从谷歌搜索中窃取Reddit内容”。Reddit首席法律官Ben Lee直言:“AI公司正陷入一场争夺高质量人类内容的军备竞赛——这种压力催生了一个工业规模的‘数据洗钱’经济。”
Reddit与Perplexity之间的纠纷并非突然爆发。根据诉讼,Reddit曾于2024年5月向Perplexity发出停止与终止函,要求其停止从该平台抓取数据。
然而,Perplexity的反应出人意料。诉讼称,在Reddit发出警告后,Perplexity对Reddit的引用量反而“增加了四十倍”。
面对指控,各方反应不一。Perplexity表示尚未收到诉讼,但“将积极捍卫公众公平获取知识的权利”。SerpApi与Oxylabs均否认指控,后者强调“公共数据不应被垄断或高价出售”。Oxylabs还对指控表示“震惊和失望”,称Reddit未曾尝试与他们直接沟通。
AIGC开拓致力于推动AI与产业融合,构建创作者生态平台,开发智能内容、教育优化和健康管理解决方案,引领智能科技与社会发展的深度融合,开拓AIGC新市场,打造AIGC创作者的宣传平台。

