本文将讲述目前这个极其疯狂、令人头疼且成本高昂的AI工具、机器人和爬虫泛滥的状况,以及网站主现在就能采取的应对措施。
你或许已经听说,自从AI搜索问世以来,各种AI爬虫、AI搜索工具、机器人和其他程序正在进行着疯狂的抓取。但你见过或注意到那是什么景象吗?你能看到显示问题严重程度的曲线图和图表吗?
我运营自己的网站已经很多年了,过去从未遇到过主机流量超标的问题。服务器很稳定,长期以来我对服务商的服务也非常满意。但几个月前,情况开始发生了变化。
几个月前,我开始收到服务商的邮件,提示我即将达到"访问次数"上限,并且超出的部分会产生费用。这在以前从未发生过。即使是在我的网站文章成为爆款,引来巨大流量时,我也没有收到过这类邮件。
很明显,我认为这是个错误,并建议服务商应该核查一下这些"流量"。我再次强调,我过去从未接近过流量上限,所以一定是有什么东西发生了变化?
第一次收到服务商的流量超额的邮件时,我其实没太当回事,但还是迅速联系了工作人员进行调查。对我来说,原因很明显:是AI工具、爬虫和机器人正在猛烈冲击我的网站,导致了流量超标。而且据我所知,甚至一些官方的AI搜索平台也可能在伪装身份抓取我的网站。我知道这种事以前发生过(比如,Perplexity),所以这次我也只是想当然的这么认为。
需要明确的是,我并不是说应该屏蔽像ChatGPT、Perplexity、Claude等官方的AI平台。相反,问题在于有大量未明的工具和爬虫为了获取内容、数据等而在猛烈访问网站,我指的是这些。而且它们不使用特定的用户代理,所以你无法通过robots.txt文件来屏蔽,或者让主机商据此标记它们。它们可以轻易地伪装成人类访客……
以下是我的网站"访问次数"图表。在那段时间内绝不可能有36.6万次的人类访问:
爬取问题已得到有效解决?
在服务商进行了一番调查后解释说,他们对此也无能为力,因为许多IP地址并未关联到官方爬虫,而这些访问流量又与正常的网站访客混杂在一起。尽管我也使用了Cloudflare作为CDN服务,但只是免费套餐,该套餐并不包含更高级的机器人管理和拦截功能。而实事上,我只是使用了Cloudflare的常规的基础功能,以使是免费套餐也,我也没有作过多的设置。
我认为这个事情需要认真对待,但总是被各种事情打断——客户工作、谷歌算法更新,以及AI搜索平台登场后行业发生的疯狂变化。最后,因为自己的懒惰或忽视,这点尤其讽刺,结果造成了海量爬取流量、导致我主机流量费用超支的,很可能正是这些AI工具、爬虫和机器人!
几个月后,如你所料,我又收到了服务商发来的更多关于流量超标的邮件。这次离大谱了。
真肉疼,这促使我不得不最终下定决心启用Cloudflare高级套餐。
我独立设置了Cloudflare。接着便是静观其变:他们的机器人检测系统能否抵挡住这波爬虫冲击?那些工具、爬虫和采集器还会继续得逞吗?再次强调,我并非要屏蔽官方的AI机器人,只是想拦截那些消耗着我主机资源、并非真实人类的自动化"流量"。
我确保在自己的账户中开启了"超级机器人防御模式":

……果然,Cloudflare成功识别并拦截了这些自动化流量(至少是绝大部分)。请看下方统计后台显示的"访问次数"断崖式下跌,效果堪称立竿见影。
这是Cloudflare统计的七日数据对比:已拦截的自动化流量 vs 放行的正常流量。注意,这仅仅是一周的数据量…实在触目惊心。
再看Cloudflare的机器人分析报告:
没错,这些AI机器人和爬虫程序曾持续冲击我的网站。
如果你面临同样困境。或者因流量超标导致主机费用激增,请立即行动——尽快配置Cloudflare。除了机器人管理外,Cloudflare还能带来诸多益处,但考虑到AI搜索平台和工具扩张带来的海量爬取流量,机器人防御功能显得尤为关键。
当然,Cloudflare繁杂的设置选项可能会让你一时无从下手,但一旦正确配置,你将收获惊喜。告别机器人和爬虫,迎接更低的主机成本,让用户有更流畅的访问体验。
一个令人开心的好信息!
如果你只是一家小型网站,没有那么多的预算,但也遇到同样的困境,除了升级Cloudflare付费套餐外,还有没有更好的选择呢?
很幸运,Cloudflare 顾及到了免费套餐的用户,在这一点上,不得不说,Cloudflare真是小型创业者的活菩萨。
我们清楚地了解到,客户不希望人工智能机器人访问他们的网站,尤其是不希望那些恶意访问的机器人。为了解决这个问题,我们新增了一个一键屏蔽所有人工智能机器人的功能。所有客户,包括免费用户,都可以使用此功能。要启用此功能,只需前往Cloudflare 控制面板的“安全”>“机器人”部分,然后点击标有“AI 抓取器和爬虫”的开关即可。
事情不止于此,Cloudflare还提到 :
如果我们希望保持网络的开放与繁荣,就需要更多工具来表达内容创作者希望其数据如何被使用,同时又能允许开放访问。目前的权衡方式过于有限:网站运营者要么将内容开放给全网,冒着被人用于非预期用途的风险;要么将内容置于登录后访问,从而限制受众范围。
为了解决我们的客户目前对于其内容如何被爬虫和数据抓取工具所使用的担忧,我们推出了“内容信号政策”。这项政策是 robots.txt 的一项新增功能,允许你表明对于内容在被访问后如何被使用的偏好。
例如,如果你想允许所有爬虫访问你网站的每个部分,你可以托管一个包含以下内容的 robots.txt 文件:
User-agent: *
Allow: /
用户代理是你的浏览器或机器人在访问某个资源时用来标识自身身份的方式。在本例中,星号 (*) 表示允许使用何种设备或浏览器的任何用户代理访问该内容。而在 Allow 字段中的斜杠 (/) 则表明访客可以访问网站的任意部分。
robots.txt 文件还可以通过在 # 符号后添加字符来添加注释。机器人和机器会忽略这些注释,但这是一种为审阅文件的人留下更易读注释的方法。下面是一个示例:
# .__________________________.
# | .___________________. |==|
# | | ................. | | |
# | | ::[ Dear robot ]: | | |
# | | ::::[ be nice ]:: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | ,|
# | !___________________! |(c|
# !_______________________!__!
# / \
# / [][][][][][][][][][][][][] \
# / [][][][][][][][][][][][][][] \
#( [][][][][____________][][][][] )
# \ ------------------------------ /
# \______________________________/
网站所有者可以通过列出某些用户代理(例如,仅允许某些机器人用户代理或浏览器用户代理)以及声明网站的哪些部分可以或不可以被抓取,使 robots.txt 更加具体。下面的示例告诉机器人跳过对存档路径的抓取。
User-agent: *
Disallow: /archives/
这里的例子更加具体,它告诉 Google 机器人跳过对归档路径的抓取。
User-agent: Googlebot
Disallow: /archives/
这让你能够指定哪些爬虫被允许访问,以及它们可以访问你网站的哪些部分。然而,它并不能让这些爬虫知道,在访问你的内容之后,它们可以对这些内容做些什么。正如许多人已经意识到的那样,我们需要一种机器可读的标准方式来传达“道路规则”——即你的内容在被访问后可以如何被使用。
这正是“内容信号政策”允许你表达的内容:你对于爬虫可以或不可以对你的内容做些什么的偏好。
总结:终结AI爬虫乱象,阻断恶意机器人
此事再次印证了当前AI爬虫的疯狂现状。海量的AI机器人、爬虫程序和其他无效"访问"令人难以招架,最终导致你白白浪费大量资金。请立即配置Cloudflare,启用核心防护功能,阻断这些无效"访问"。你的账单将会因此感到开心。
关于老刘,12年+独立站技术和Digital Marketing从业经验,一个专注出海流量的手艺人,凭借精益SEO方法论,助力500+出海品牌高效增长。出海MarTech工具玩家。

扫码联系我们
SEO优化|Shopify建站|WordPess定制开发
DTC独立站流量增长策略|B2B品牌出海全案

