搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
曾让全球大面积「断网」的网站揭秘:AI 爬虫正在疯狂「掏空」互联网
>
0
0
曾让全球大面积「断网」的网站揭秘:AI 爬虫正在疯狂「掏空」互联网
APPSO
2026-01-02
40
导读:惹不起,也躲不起
AI爬虫成网站流量“隐形刺客”:Cloudflare 2025年度
报告
揭示新威胁
若常访问的网站突然加载缓慢或崩溃,元凶未必是黑客攻击或流量激增,而可能是大量AI爬虫在后台悄然抓取数据。
网站安全
服务
商Cloudflare近期发布《2025年度回顾报告》,从全球基础设施视角揭示生成式AI对互联网流量结构与网站运营的深层影响。
Cloudflare作为全球主流网站的“网络物业+保镖”,提供DDoS防护、CDN加速、流量调度及安全网关服务,覆盖超3,000万个网站,其数据具有强代表性。
用户访问使用Cloudflare的网站时体验流畅,得益于其智能路由至最近边缘节点;网站抵御大规模爬虫骚扰与恶意攻击的能力,也多由其底层规则体系支撑。
不过,一旦Cloudflare核心服务中断,将波及大量依赖其基础设施的平台,引发连锁性访问异常。
以下内容聚焦报告中关于AI爬虫行为、产业影响及防御策略的核心发现。
三巨头主导AI爬虫格局:
Google
bot、GPTBot、
Bing
bot瓜分七成流量
2025年全球网络流量同比增长19%,但增长高度集中——自8月中旬起显著提速,9–11月持续攀升,年底达全年峰值。
流量分布显示,Google与Meta(含
Facebook
、
Instagram
)仍居前两位;Microsoft、YouTube排名上升,
TikTok
下降4位,AWS退1位,传统云与内容平台格局加速重构。
生成式AI领域竞争白热化:
OpenAI
(
ChatGPT
)、Google(Gemini)、Microsoft(Copilot/Bing)稳居前三;Anthropic(Claude)、P
erp
lexity、x AI(Grok)、
DeepSeek
等新锐力量进入前十。
Cloudflare监测显示,2025年用户行为类AI爬取量增长超15倍,其中“用户提问→AI实时搜索→返回结果”所引发的爬取激增21倍,与ChatGPT-User机器人活跃曲线高度一致。
AI爬虫占HTML总请求比例均值为4.2%,波动剧烈:4月低至2.4%,6月底达6.4%;而Googlebot单一家爬虫即贡献IPv4请求总量的四分之一以上,峰值期占比超28%。
Googlebot强势主因在于双重任务:既为搜索引擎建索引,亦承担Google大模型训练数据采集。零售与计算机软件行业成为AI爬虫重点目标,合计吸引超40%爬取流量。
爬虫“三巨头”格局明确:Googlebot(第一)、GPTBot(第二,占比约7.5%,波动大)、Bingbot(第三,稳定贡献6%)。前十产业包揽近70%爬取量,内容富集型行业成AI训练“粮仓”。
传统搜索引擎爬虫与网站属共生关系,带来搜索导流与商业转化;而生成式AI爬虫则构成单向“寄生”——无偿抓取内容训练模型,用户直接在AI界面获取答案,原网站零流量回流。
网站反击:robots.txt成AI爬虫“第一道防线”
面对AI爬虫泛滥,网站所有者正通过robots.txt文件实施主动防御——该文本位于网站根目录,用于声明允许或禁止特定爬虫访问的路径。
Cloudflare统计全球TOP 10,000网站发现:GPTBot、ClaudeBot、CCBot被“完全封禁”比例最高;Googlebot与Bingbot则多被“部分限制”,如禁止抓取登录页、管理后台等非公开区域,内容页面普遍保持开放。
爬虫推荐比率:揭示AI平台是否真正“反哺”网站
Cloudflare创新推出“爬虫推荐比率”指标:即某AI平台爬取某网站N次后,为其带来的真实访客数。比值越高,说明平台越倾向于单向“白嫖”而非有效引流。
Anthropic爬行推荐比率曾达500,000:1,目前稳定于25,000:1–100,000:1区间;OpenAI峰值为3,700:1,后续随ChatGPT搜索功能上线有所改善。
Perplexity表现相对积极,9月后稳定于200:1以下;搜索引擎方面,Microsoft Bing维持在50:1–70:1,Google全年在3:1–30:1间波动,DuckDuckGo后期稳定在1.5:1左右。
Workers AI模型生态:Llama-3成开发者首选,文字生成占主导
Cloudflare Workers AI为开发者提供全球边缘GPU托管服务,支持快速调用开源模型(如Llama、Stable Diffusion、Whisper),按需付费,免运维部署。
Meta的llama-3-8b-instruct模型使用率高达36.3%,是第二名Whisper(10.1%)与第三名Stable Diffusion XL(9.8%)总和的三倍以上;BAAI(
北京
智源)亦有多个模型进入前十,前十模型账户占比合计达89%。
任务类型分布凸显当前AI核心需求:文字生成占比48.2%,远超文字转图像(12.3%)与语音识别(11.0%),印证内容创作与信息处理仍是产业投入重心。
网络稳定性新挑战:防作弊成最大断网原因
2025年全球发生174起重大网络中断事件,首要原因为海外国家考试季“防范作弊”而人为切断互联网,其次才是自然灾害导致的光缆中断等传统风险。
iOS设备全球流量占比升至35%,在摩纳哥(70%)、
丹麦
(65%)、日本(57%)等30个国家/地区超50%;Android仍在175国占比达50%以上,整体仍占移动流量主导地位。
浏览器格局:Chrome全球占比66.7%,Safari达15.4%(仅限苹果生态);iOS端Safari占79%,Android端Chrome占85%,Windows端Chrome占69%。
【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容
14461
粉丝
0
关注
在线咨询
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读
136.4k
粉丝
0
内容
14.5k
在线咨询
关注