如何阻止 OpenAI 的爬虫抓取您的网站_大数跨境

跨语桥梁

2023-08-14

7115

导读：借助本指南，防止您的网站被 OpenAI 爬虫抓取。

OpenAI 爬行是如何工作的？

网络爬虫（也称为蜘蛛或搜索引擎机器人）是一种扫描互联网以获取信息的自动化程序。然后，它会以一种便于搜索引擎访问的方式编译该信息。

网络爬虫会为每个相关 URL 的每个页面建立索引，通常侧重于与您的搜索查询更相关的网站。例如，假设您正在谷歌搜索特定的 Windows 错误。搜索引擎中的网络爬虫将扫描它认为在 Windows 错误主题上更权威的网站中的所有 URL。

OpenAI 的网络爬虫称为 GPTBot，根据OpenAI 的文档，让 GPTBot 访问您的网站可以帮助训练 AI 模型变得更安全、更准确，甚至可以帮助扩展 AI 模型的功能。

与大多数其他网络爬虫一样，可以通过修改网站的robots.txt协议（也称为机器人排除协议）来阻止 GPTBot 访问您的网站。此 .txt

以下是robots.txt文件功能的简短列表：

以下是控制 GPTBot 在您的网站上可以执行的操作的方法：

User-agent: GPTBot
Disallow: /

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

但是，请记住，更改robots.txt文件不是追溯解决方案，GPTBot 可能已经从您的网站收集的任何信息都将无法恢复。

自从爬虫被用来训练人工智能模型以来，网站所有者一直在寻找保持数据私密性的方法。

一些人担心人工智能模型基本上窃取了他们的工作成果，甚至将网站访问量减少归因于现在用户无需访问其网站即可获取信息。

文件托管在网站的服务器上，它控制网络爬虫和其他自动化程序在您的网站上的行为方式。

文章翻译自：makeuseof；原文链接：https://www.makeuseof.com/block-openai-crawlers-from-scraping-website/

【声明】内容源于网络

跨语桥梁

大家好

内容 4508

粉丝 8

跨语桥梁大家好

总阅读31729.0k

粉丝8

内容4.5k