1. 什么是 robots.txt?
robots.txt 是位于网站根目录下的一个文本文件,用于告知搜索引擎爬虫(crawler/robot)哪些页面或目录可以抓取,哪些需禁止访问。
例如:
-
允许所有搜索引擎抓取:
User-agent: *
Allow: / -
禁止所有搜索引擎抓取:
User-agent: *
Disallow: /
2. 常见的 robots.txt 设置方式
✅ 2.1 允许所有内容被抓取
适用于电商、博客等以内容展示为主的网站。
User-agent: *
Allow: /
✅ 2.2 禁止整个网站抓取
适用于开发中或测试环境,防止被搜索引擎收录。
User-agent: *
Disallow: /
✅ 2.3 屏蔽指定目录
可用于隐藏后台管理、登录页等敏感路径。
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/
✅ 2.4 针对特定搜索引擎设置
可针对特定爬虫(如 Googlebot)限制访问某些目录。
User-agent: Googlebot
Disallow: /private/
✅ 2.5 添加 sitemap 提示
在 robots.txt 中声明站点地图地址,便于搜索引擎发现和抓取。
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
3. 如何修改 robots.txt
🔧 3.1 WordPress 网站
- 方法一:安装 Yoast SEO 或 Rank Math 插件,通过后台直接编辑 robots.txt;
- 方法二:使用 FTP 或主机控制面板进入网站根目录(如 /public_html/),查找并手动修改 robots.txt 文件。
🔧 3.2 Shopify / Wix / Squarespace
- 系统通常自动生成 robots.txt,用户无法直接编辑,但可通过内置 SEO 工具或主题设置进行有限调整。
🔧 3.3 自建独立站 (PHP/HTML)
- 在网站根目录(如 /var/www/html/)创建或修改 robots.txt 文件;
- 保存后上传至服务器即可生效。
4. 修改 robots.txt 的注意事项
- 避免屏蔽关键页面:产品页、分类页等核心内容必须允许抓取;
- 不要误禁 CSS/JS 资源:否则可能影响搜索引擎对页面的渲染与索引;
- 使用调试工具验证:可通过 Google Search Console 的“抓取 robots.txt”功能测试配置是否正确;
- 及时更新并提交 sitemap:修改 robots.txt 后建议同步提交最新站点地图,加快搜索引擎重新抓取。

