洞见畏来

2025-08-12

导读：Reddit将限制互联网档案馆访问，背后原因与AI数据抓取有关

Reddit 是一家美国的社交新闻网站和内容聚合平台，由 Steve Huffman 和 Alexis Ohanian 于 2005 年创立。它以匿名、兴趣驱动的社区模式为特色，用户可以加入各种子社区（Subreddits）进行讨论，并通过投票机制决定内容的展示。其拥有海量高质量的 UGC 内容，在社会舆论方面影响巨大。Reddit 的主要盈利方式包括广告、用户付费订阅和 API 授权费等。
Reddit 类似于中国的百度贴吧，两者都有基于主题的分论坛体系和用户生成内容模式，用户能在不同主题社区内交流互动。但 Reddit 在匿名性和对 AI 数据支持方面更为突出。

近日，Reddit宣布将对互联网档案馆（Internet Archive）的“时光机”（Wayback Machine）工具采取限制措施，引发了关于网络数据存档与AI数据使用的讨论。这一决策的背后，是AI公司通过时光机抓取Reddit数据的行为触动了平台的底线。

一、限制措施：大部分内容将无法被存档

根据Reddit发言人蒂姆·拉斯施密特（Tim Rathschmidt）的说法，此次限制将大幅缩减时光机对Reddit的索引范围：

时光机将无法再抓取帖子详情页、评论或用户个人资料。
仅能索引Reddit的首页，这意味着互联网档案馆未来只能记录某一天Reddit上最热门的新闻标题和帖子，无法保存完整的内容细节。

这一限制从8月11日开始“逐步实施”，Reddit方面表示已提前联系互联网档案馆，告知了相关措施。

二、核心原因：AI公司利用时光机违规抓取数据

Reddit作出这一决定的直接导火索，是发现AI公司通过互联网档案馆的时光机工具抓取Reddit数据，违反了平台政策。

拉斯施密特解释道：“互联网档案馆为开放网络提供了服务，但我们发现有AI公司违反包括我们在内的平台政策，从时光机中抓取数据。”他还提到，Reddit此前就对“人们能从互联网档案馆抓取内容”这一问题表达过担忧，且在限制措施生效前，要求互联网档案馆“捍卫自身网站安全并遵守平台政策（例如尊重用户隐私、处理已删除内容）”。

三、Reddit的“数据保卫战”：从API改革到付费合作

事实上，Reddit近年来一直在加强对平台数据的管控，尤其针对AI公司的大规模抓取行为：

2023年，Reddit进行了备受争议的API调整，导致多款第三方应用关闭。当时平台就表示，这些API被滥用于AI模型训练。
去年年初，Reddit与谷歌达成协议，向其提供用于谷歌搜索和AI训练的数据；随后又开始限制主流搜索引擎抓取数据，除非对方付费。
今年6月，Reddit起诉Anthropic公司，称其在承诺停止抓取后仍继续从Reddit获取数据。不过，Reddit也与OpenAI达成了AI数据合作协议。

不难看出，Reddit对数据的态度很明确：反对未经许可的免费抓取，但欢迎付费合作。

四、互联网档案馆的回应

对于Reddit的限制措施，互联网档案馆“时光机”项目负责人马克·格雷厄姆（Mark Graham）表示：“我们与Reddit有着长期的合作关系，目前仍在就此事进行持续讨论。”

互联网档案馆的核心使命是对网站和“其他文化遗产”进行数字存档，而时光机作为其重要工具，能让用户查看不同日期的页面状态。此次Reddit的限制，无疑会对这一使命在Reddit平台上的实现造成影响。

这场平台与档案馆的“交锋”，本质上反映了在AI时代，数据所有权、使用权与公共存档需求之间的矛盾。未来如何平衡各方利益，或许会成为更多平台和机构需要面对的问题。

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633