Reddit 是一家美国的社交新闻网站和内容聚合平台,由 Steve Huffman 和 Alexis Ohanian 于 2005 年创立。它以匿名、兴趣驱动的社区模式为特色,用户可以加入各种子社区(Subreddits)进行讨论,并通过投票机制决定内容的展示。其拥有海量高质量的 UGC 内容,在社会舆论方面影响巨大。Reddit 的主要盈利方式包括广告、用户付费订阅和 API 授权费等。
Reddit 类似于中国的百度贴吧,两者都有基于主题的分论坛体系和用户生成内容模式,用户能在不同主题社区内交流互动。但 Reddit 在匿名性和对 AI 数据支持方面更为突出。
近日,Reddit宣布将对互联网档案馆(Internet Archive)的“时光机”(Wayback Machine)工具采取限制措施,引发了关于网络数据存档与AI数据使用的讨论。这一决策的背后,是AI公司通过时光机抓取Reddit数据的行为触动了平台的底线。
一、限制措施:大部分内容将无法被存档
根据Reddit发言人蒂姆·拉斯施密特(Tim Rathschmidt)的说法,此次限制将大幅缩减时光机对Reddit的索引范围:
时光机将无法再抓取帖子详情页、评论或用户个人资料。
仅能索引Reddit的首页,这意味着互联网档案馆未来只能记录某一天Reddit上最热门的新闻标题和帖子,无法保存完整的内容细节。
这一限制从8月11日开始“逐步实施”,Reddit方面表示已提前联系互联网档案馆,告知了相关措施。
二、核心原因:AI公司利用时光机违规抓取数据
Reddit作出这一决定的直接导火索,是发现AI公司通过互联网档案馆的时光机工具抓取Reddit数据,违反了平台政策。
拉斯施密特解释道:“互联网档案馆为开放网络提供了服务,但我们发现有AI公司违反包括我们在内的平台政策,从时光机中抓取数据。”他还提到,Reddit此前就对“人们能从互联网档案馆抓取内容”这一问题表达过担忧,且在限制措施生效前,要求互联网档案馆“捍卫自身网站安全并遵守平台政策(例如尊重用户隐私、处理已删除内容)”。
三、Reddit的“数据保卫战”:从API改革到付费合作
事实上,Reddit近年来一直在加强对平台数据的管控,尤其针对AI公司的大规模抓取行为:
2023年,Reddit进行了备受争议的API调整,导致多款第三方应用关闭。当时平台就表示,这些API被滥用于AI模型训练。
去年年初,Reddit与谷歌达成协议,向其提供用于谷歌搜索和AI训练的数据;随后又开始限制主流搜索引擎抓取数据,除非对方付费。
今年6月,Reddit起诉Anthropic公司,称其在承诺停止抓取后仍继续从Reddit获取数据。不过,Reddit也与OpenAI达成了AI数据合作协议。
不难看出,Reddit对数据的态度很明确:反对未经许可的免费抓取,但欢迎付费合作。
四、互联网档案馆的回应
对于Reddit的限制措施,互联网档案馆“时光机”项目负责人马克·格雷厄姆(Mark Graham)表示:“我们与Reddit有着长期的合作关系,目前仍在就此事进行持续讨论。”
互联网档案馆的核心使命是对网站和“其他文化遗产”进行数字存档,而时光机作为其重要工具,能让用户查看不同日期的页面状态。此次Reddit的限制,无疑会对这一使命在Reddit平台上的实现造成影响。
这场平台与档案馆的“交锋”,本质上反映了在AI时代,数据所有权、使用权与公共存档需求之间的矛盾。未来如何平衡各方利益,或许会成为更多平台和机构需要面对的问题。

