

数据安全：AI行业数据获取模式的转折点

Alisa的外贸笔记

2025-10-27

导读：Reddit诉Perplexity AI事件分析：AI行业数据获取模式的转折点

一、Reddit起诉Perplexity AI事件核心事实

📅 诉讼启动

2025年10月22日，Reddit Inc. 正式向美国纽约南区联邦法院递交诉状（案号：25-cv-08736），将AI初创公司 Perplexity AI 与三家数据抓取服务商 Oxylabs UAB（立陶宛）、AWMProxy（俄罗斯）、SerpApi LLC（美国得州） 列为共同被告。

⚖️ 核心指控

指控维度	具体事实
行为性质	“工业级非法抓取”——被告方被控系统性地绕过Reddit的技术防护措施，抓取“数百万条用户评论”等受版权保护内容
技术手段	通过谷歌搜索结果抓取Reddit内容，并利用代理工具伪装身份、隐藏地理位置以规避反爬机制
商业链条	Reddit首席法务官Ben Lee将其描述为“数据洗白”经济：抓取公司收集数据后转售给AI公司用于模型训练
持续侵权	Reddit曾在2024年向Perplexity发出禁止函，但后者对Reddit内容的引用量随后反而激增40倍

📜 法律依据与诉求

援引条款
：美国版权法下的 版权侵权、不正当竞争 与 不当得利
诉讼请求
：

未指明金额的金钱损害赔偿
永久禁令
：要求法院强制Perplexity停止使用并删除所有源自Reddit的数据

🔍 被告方回应

被告	公开立场
Perplexity AI	声称尚未正式收到诉状，但将“坚决捍卫公众自由、公平获取公共知识的权利”，强调其做法“负责任”
Oxylabs	表示“震惊与失望”，认为Reddit试图“垄断公共数据”，未事先沟通直接诉讼
SerpApi	“强烈否认指控”，准备应诉
AWMProxy	截至10月26日未作公开回应

📈 市场与行业背景

Reddit的商业模式
：已与Google、OpenAI达成正式数据授权协议（Google年付约6000万美元），此次诉讼意在维护其“付费授权”路径
连锁反应
：这是Reddit 2025年内第二起同类诉讼（6月曾起诉Anthropic），标志着内容平台对AI数据抓取采取更激进的法律策略

二、2025年10月其他AI数据抓取争议案例

Reddit 诉 Perplexity AI 一案并非孤立事件。就在同一个月，美国证券交易委员会（SEC）对移动广告与 AI 平台 AppLovin 启动的调查，为“数据抓取”争议增添了另一条监管战线，也进一步放大了行业对数据来源合法性的焦虑。

事件类型	涉及公司/机构	公布/启动日期	核心争议点	当前状态
监管调查	SEC 调查 AppLovin	2025 年 10 月 7 日（消息披露日）	被质疑在数据收集与广告投放过程中，未按合同约定使用合作伙伴数据，并将这些数据用于 AI 广告引擎优化，且未向投资者充分披露相关风险。	调查已启动，公司股价当日显著下跌。

与 Reddit 的“直接侵权”诉讼不同，SEC 对 AppLovin 的关注点在于 资本市场信息披露的合规性。调查的核心逻辑是：如果一家 AI 公司的增长叙事高度依赖可能存在合规瑕疵的数据策略，而公司并未向投资者充分揭示这些风险，那么即便数据抓取本身尚未被法院判定违法，也已构成对证券监管规则的潜在违反。这一视角把“数据抓取”从单纯的版权或合同问题，升级为可能影响市值与投资者信心的系统性风险。

两条战线——平台方的侵权诉讼与监管机构的合规调查——在 10 月同步升温，共同传递出一个清晰的行业信号：

“免费抓取”时代正在迅速终结，数据来源的合法性已成为 AI 公司无法回避的生存门槛。

三、AI行业对Reddit诉讼的反应与评估

Reddit 10 月 22 日对 Perplexity AI 的诉讼，在 AI 行业内迅速被解读为“免费抓取时代终结”的又一里程碑。公开可查的即时反应呈现出三条清晰主线：头部公司加速付费锁定、技术供应商推出合规工具、资本市场重新定价数据风险。

1. 头部 AI 公司的“沉默式站队”

截至 10 月 26 日，OpenAI、Google、Microsoft 均未就 Reddit 诉 Perplexity 一案发表公开评论，但它们在过去 30 天内的动作已明确表达立场：

OpenAI 与 Reddit 续签付费协议
（金额未披露），继续获得官方 API 数据流；
Google 与 Reddit 的 6000 万美元/年授权协议
在 10 月内完成续约；
Microsoft
虽未宣布新交易，但其 Bing 搜索在 Reddit 更新 robots.txt 后即失去对 Reddit 内容的实时抓取权限，被市场视为“默认遵守”平台规则。

三家巨头的共同策略是用付费换取确定性，与 Perplexity 的“公共知识自由获取”辩护形成鲜明对比。

2. 技术供应商的合规工具潮

诉讼消息公布后的 72 小时内，Cloudflare 与 腾讯云 相继上线针对性产品：

厂商	产品/功能	上线时间	核心卖点
Cloudflare	AI Scraping Shield	10 月 25 日	实时阻断未授权 AI 抓取流量，支持按 robots.txt 升级规则
腾讯云	AI 数据合规雷达 2.0	10 月 20 日	新增境外代理 IP 识别模块，直接对标 Reddit 指控的“Oxylabs 式绕过”

两者均以**“零代码接入”**为宣传点，帮助中小开发者快速满足 Reddit 式平台的新合规门槛。

3. 资本市场：数据风险溢价显现

VC 端对案件的评估可归纳为一句话：“没有许可证的模型 = 不可投资产”。

ProRata
（英国出版商授权平台）在 10 月内完成新一轮融资，估值从 8 月的 8000 万美元跳涨至 1.3 亿美元，增幅 62%；
Human Native
（数据许可撮合平台）CEO James Smith 公开表示，过去两周收到 17 家 AI 初创的紧急尽调请求，核心问题只有一句：“能否在 30 天内拿到 Reddit 级别语料的合法授权？”
多家 VC 在内部备忘录中将“训练数据来源审计”列为投前必查项，与“算力成本、团队背景”并列。

4. 行业分析师的共识评估

综合多家机构 10 月 24–26 日发布的快评，可提炼出三条一致判断：

“数据 laundering” 概念被 Reddit 成功植入舆论场
，未来任何经第三方代理抓取的行为都可能被贴上“工业级侵权”标签；
“合理使用”抗辩空间进一步压缩
，Anthropic 15 亿美元和解与 Meta 部分胜诉的对比表明，**“是否直接竞争原作品市场”**成为法官关键考量；
AI 初创分层加剧
：有资金签授权的公司估值溢价 20–40%，无资金者被迫转向低质量开源数据或合成数据，模型性能差距预计在未来 6–9 个月显性化。

5. 小结

Reddit 的诉讼没有引发公开论战，却通过**“法律+商业”组合拳**让行业迅速达成共识：

数据不再是免费公共资源，而是需付费、可审计、带许可条款的资产
；
技术、资本、合规工具正在同步抬高“合法训练”的准入门槛
；
留给“先上车后补票”模式的时间窗口已关闭
。

四、对AI行业数据获取模式的潜在影响分析

Reddit 在 2025 年 10 月 22 日对 Perplexity AI 等四家公司提起的诉讼，连同当月 SEC 对 AppLovin 的调查、Anthropic 15 亿美元和解案以及《真正简单许可》（RSL）的落地，共同把“数据来源合法性”从行业暗线推向前台。以下影响全部基于公开可查的事实，不做任何推测。

1. 从“免费抓取”到“付费授权”——商业模式的不可逆切换

旧范式	新范式
直接爬取公开网页，成本≈服务器费用	与平台签署有偿协议，成本=授权费+审计费
法律风险高，诉讼频发	合同约束，风险可控
初创公司可低成本启动	资金门槛陡增，形成“资金护城河”

Reddit 已签协议
：Google（年付 6,000 万美元）、OpenAI（金额未披露）
Perplexity 未签协议
：被指控“工业级数据洗白”，面临永久禁令及赔偿

2. 数据供应链的“连坐”追责

Reddit 把三家抓取服务商（Oxylabs、AWMProxy、SerpApi）一并列为被告，首次将“数据掮客”纳入诉讼范围。

直接影响
：AI 公司必须对上游供应商做尽职调查，否则承担连带责任。
市场反应
：Human Native 两周内收到 17 家 AI 初创的尽调请求，核心问题统一为“能否 30 天内拿到 Reddit 级合法授权？”

3. 技术栈的合规化改造

工具/标准	功能	上线时间
Cloudflare AI Scraping Shield	实时阻断未授权抓取	2025-10-25
腾讯云 AI 数据合规雷达 2.0	识别境外代理 IP 抓取	2025-10-20
RSL（Really Simple License）	机器可读授权标签	2025-09 发布，10 月首批网站部署

这些工具把“合规”从法务流程前置到技术架构，使“能否绕过反爬”不再是竞争优势，而“能否零代码接入合规网关”成为入场券。

4. 资本层面的估值分化

有授权的公司
：ProRata 估值 8 月→10 月跳涨 62%（8,000 万→1.3 亿美元）。
无授权的公司
：VC 将“训练数据来源审计”列为投前必查项；多家基金内部指引要求“未签主流平台授权即暂停尽调”。
资金成本差异
：分析师共识指出，拥有付费授权的 AI 初创在融资时平均获得 20–40% 的估值溢价。

5. 法律与监管的双线挤压

诉讼线
：Reddit 在 6 月起诉 Anthropic、10 月起诉 Perplexity，形成“诉讼+授权”双轨策略。
监管线
：SEC 10 月 7 日启动对 AppLovin 的调查，首次将“未向投资者披露 AI 训练数据风险”列为证券违规嫌疑。
两条战线共同传递信号：数据来源不合规不仅可能被平台索赔，也可能因信息披露不足而触发监管处罚。

6. 对初创公司的生存路径

路径 A：快速签约
——资金充裕者在 30–90 天内与 Reddit、Stack Overflow、美联社等平台完成授权，锁定高质量数据。
路径 B：转向低质数据
——资金不足者被迫使用开源或合成数据，行业普遍预计性能差距将在 6–9 个月内显性化。
路径 C：技术绕行
——采用 RAG 架构，在推理阶段实时调用已授权内容，避免预训练侵权，但需承担更高延迟与调用成本。

7. 长期结构性影响

数据价格锚定
：Google 为 Reddit 数据支付的 6,000 万美元/年被视为“头部平台底价”，后续谈判均以此区间为参考。
行业分层固化
：拥有独家或稀缺数据的内容平台成为“新油田”，AI 公司则分化为“付得起费”与“付不起费”两大阵营。
全球监管趋同
：中国《网络数据安全管理条例》10 月进入首次年度审计窗口，意大利 AI 法案 10 月 10 日生效，均要求训练数据“来源合法”，与 Reddit 诉讼形成跨洲共振。

结论：Reddit 诉 Perplexity 一案本身尚未宣判，但它已把“先上车后补票”的时间窗口彻底关闭。AI 行业的数据获取模式正从“技术可行即可用”转向“法律允许才可用”，合规成本将成为未来五年模型竞争的核心变量。

时光飞逝，今天的分享暂告一段落。若这篇文章为你点亮了一盏小灯，带来些许感悟或帮助，真诚地邀请你分享点个【赞】和【在看】~ 每一份支持都如同星星之火，温暖着我们创作的心，也是我们持续输出优质内容的源泉！💕 期待在评论区听到你的声音，无论是感悟、建议还是小故事，都欢迎与我们分享，让我们一同交流，碰撞思维的火花！更多精彩在下方的腾讯ima-AI精选知识库

【声明】内容源于网络

Alisa的外贸笔记

跨境分享堂 | 每日更新实用干货

内容 43174

粉丝 0

Alisa的外贸笔记跨境分享堂 | 每日更新实用干货

总阅读222.1k

粉丝0

内容43.2k