OpenAI 爬行是如何工作的?
网络爬虫(也称为蜘蛛或搜索引擎机器人)是一种扫描互联网以获取信息的自动化程序。然后,它会以一种便于搜索引擎访问的方式编译该信息。
网络爬虫会为每个相关 URL 的每个页面建立索引,通常侧重于与您的搜索查询更相关的网站。例如,假设您正在谷歌搜索特定的 Windows 错误。搜索引擎中的网络爬虫将扫描它认为在 Windows 错误主题上更权威的网站中的所有 URL。
OpenAI 的网络爬虫称为 GPTBot,根据OpenAI 的文档,让 GPTBot 访问您的网站可以帮助训练 AI 模型变得更安全、更准确,甚至可以帮助扩展 AI 模型的功能。
如何防止 OpenAI 抓取您的网站
与大多数其他网络爬虫一样,可以通过修改网站的robots.txt协议(也称为机器人排除协议)来阻止 GPTBot 访问您的网站。此 .txt
以下是robots.txt文件功能的简短列表:
- 它可以完全阻止GPTBot访问该网站。
- 它只能阻止 GPTBot 访问 URL 中的某些页面。
- 它可以告诉 GPTBot 它可以跟踪哪些链接,不能跟踪哪些链接。
以下是控制 GPTBot 在您的网站上可以执行的操作的方法:
完全阻止 GPTBot 访问您的网站
- 设置 robots.txt 文件,然后使用任何文本编辑工具对其进行编辑。
- 将 GPTBot 添加到您网站的robots.txt,如下所示:
User-agent: GPTBot
Disallow: /
仅阻止 GPTBot 访问某些页面
- 设置robots.txt文件,然后使用您喜欢的文本编辑工具对其进行编辑。
- 将 GPTBot 添加到您网站的robots.txt,如下所示:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
但是,请记住,更改robots.txt文件不是追溯解决方案,GPTBot 可能已经从您的网站收集的任何信息都将无法恢复。
OpenAI 允许网站所有者选择退出抓取
自从爬虫被用来训练人工智能模型以来,网站所有者一直在寻找保持数据私密性的方法。
一些人担心人工智能模型基本上窃取了他们的工作成果,甚至将网站访问量减少归因于现在用户无需访问其网站即可获取信息。
文件托管在网站的服务器上,它控制网络爬虫和其他自动化程序在您的网站上的行为方式。
文章翻译自:makeuseof;原文链接:https://www.makeuseof.com/block-openai-crawlers-from-scraping-website/

