大数跨境
0
0

如何阻止 OpenAI 的爬虫抓取您的网站

如何阻止 OpenAI 的爬虫抓取您的网站 跨语桥梁
2023-08-14
7113
导读:借助本指南,防止您的网站被 OpenAI 爬虫抓取。

OpenAI 爬行是如何工作的?

网络爬虫(也称为蜘蛛或搜索引擎机器人)是一种扫描互联网以获取信息的自动化程序。然后,它会以一种便于搜索引擎访问的方式编译该信息。

网络爬虫会为每个相关 URL 的每个页面建立索引,通常侧重于与您的搜索查询更相关的网站。例如,假设您正在谷歌搜索特定的 Windows 错误。搜索引擎中的网络爬虫将扫描它认为在 Windows 错误主题上更权威的网站中的所有 URL。

OpenAI 的网络爬虫称为 GPTBot,根据OpenAI 的文档,让 GPTBot 访问您的网站可以帮助训练 AI 模型变得更安全、更准确,甚至可以帮助扩展 AI 模型的功能。

如何防止 OpenAI 抓取您的网站

与大多数其他网络爬虫一样,可以通过修改网站的robots.txt协议(也称为机器人排除协议)来阻止 GPTBot 访问您的网站。此 .txt

以下是robots.txt文件功能的简短列表

  • 它可以完全阻止GPTBot访问该网站。
  • 它只能阻止 GPTBot 访问 URL 中的某些页面。
  • 它可以告诉 GPTBot 它可以跟踪哪些链接,不能跟踪哪些链接。

以下是控制 GPTBot 在您的网站上可以执行的操作的方法:

完全阻止 GPTBot 访问您的网站

  1. 设置 robots.txt 文件,然后使用任何文本编辑工具对其进行编辑。
  2. 将 GPTBot 添加到您网站的robots.txt,如下所示:
User-agent: GPTBot
Disallow: /

仅阻止 GPTBot 访问某些页面

  1. 设置robots.txt文件,然后使用您喜欢的文本编辑工具对其进行编辑。
  2. 将 GPTBot 添加到您网站的robots.txt,如下所示:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

但是,请记住,更改robots.txt文件不是追溯解决方案,GPTBot 可能已经从您的网站收集的任何信息都将无法恢复。

OpenAI 允许网站所有者选择退出抓取

自从爬虫被用来训练人工智能模型以来,网站所有者一直在寻找保持数据私密性的方法。

一些人担心人工智能模型基本上窃取了他们的工作成果,甚至将网站访问量减少归因于现在用户无需访问其网站即可获取信息。

文件托管在网站的服务器上,它控制网络爬虫和其他自动化程序在您的网站上的行为方式。

文章翻译自:makeuseof;原文链接:https://www.makeuseof.com/block-openai-crawlers-from-scraping-website/

【声明】内容源于网络
跨语桥梁
大家好
内容 4508
粉丝 8
跨语桥梁 大家好
总阅读31720.8k
粉丝8
内容4.5k