大数跨境

CloudflareVSPerplexity:“数据主权”战争一触即发

CloudflareVSPerplexity:“数据主权”战争一触即发 硅基星芒
2025-08-05
2
导读:Robots.txt协议,正面临人工智能时代的严峻挑战

图片

市值5000亿人民币的美国互联网基础设施巨头Cloudflare,向人工智能新势力Perplexity发起指控,称后者采用隐形爬虫技术规避网站封锁,秘密抓取明令禁止其访问的内容。


这场冲突凸显了AI公司训练数据获取与网站主权间的尖锐矛盾。



规避技术细节


Cloudflare安全团队在实验中发现:当Perplexity官方爬虫(标识为“PerplexityBot”)被robots.txt文件或防火墙规则拦截后,该公司会立即启用未声明的备用爬虫程序。该程序通过两种手段伪装身份:


1‌.篡改用户代理‌:

伪装成“macOSChrome浏览器的普通用户访问;


2.轮换网络标识‌:

动态更换IP地址及自治系统网络(ASN)以绕过封锁。此类行为每天涉及数万个域名,产生数百万次违规请求


冲突升级与反制


此次指控源于Cloudflare客户投诉——尽管已通过技术手段屏蔽Perplexity爬虫,其网站内容仍出现在该AI公司的搜索结果中。


Cloudflare验证后采取两项措施:


1.将Perplexity移出已验证机器人白名单;

2.向所有用户(含免费客户)提供拦截其隐形爬虫的技术方案。

Perplexity发言人杰西·德怀尔(Jesse Dwyer)驳斥指控为炒作,称报告存在根本性误解。但Cloudflare出示的实验记录显示:其专设的测试域名(含严格访问限制)内容仍被Perplexity抓取并解析。


行业博弈白热化


Cloudflare首席执行官马修·普林斯(Matthew Prince)指出核心矛盾:AI公司抓取效率与网站收益严重脱钩。


OpenAI平均每1500次抓取带来1次用户跳转,Anthropic这一比例高达73300:1,而谷歌仅为18:1”


这促使Cloudflare20257月推出革命性方案:


●「Pay Per Crawl」收费系统:‌允许网站向AI公司按次收取内容抓取费用


AI迷宫」防御工具‌用虚假内容消耗恶意爬虫资源。

目前已有美联社、Reddit等逾百万网站加入封锁AI爬虫的行列。


Robots.txt协议——这份维系互联网三十余年的君子协定,正面临人工智能时代的严峻挑战。



图片

转载开白 | 商务合作 | 内容交流
请添加微信:cutstill
添加微信请备注姓名公司与来意

【声明】内容源于网络
0
0
硅基星芒
专注人工智能研究、测评与媒体服务
内容 107
粉丝 0
硅基星芒 专注人工智能研究、测评与媒体服务
总阅读8
粉丝0
内容107