

新坑连载19：我是如何用robots.txt文件控制网站收录数量的？

李嘉图的跨境手记

2024-12-10

谷歌收录控制与robots.txt优化：提升电商网站SEO效果

谷歌的算法日趋严格，对网站质量提出更高要求。页面收录数量并非决定排名的关键因素，反而可能因大量低质量内容而拉低整体表现。

由于谷歌需控制全网抓取总量，其推出“有用内容算法”等机制进行筛选。如果部分页面被视为低质内容，整个站点可能会受牵连。因此应只收录具有排名需求的高质量页面，如产品页、分类页、首页及相关活动页。

通过谷歌站长工具（GSC），可查看索引报告以掌握已收录内容情况。然而，许多用户发现收录页面远超实际上传数量，问题通常来源于含参数的URL被爬虫抓取。

例如，类似 domian.com/?blackhole=41c654ea9b 或 domian.com/?&filter_color=black,gold,grey,pink,purple,red,yellow 的链接常被无限生成，源于插件或过滤功能。

虽然过滤功能对用户体验有帮助，但这类带参数URL不利于搜索引擎优化。推荐做法是通过 robots.txt 文件 指导爬虫抓取规则。

robots.txt 是用于指导爬虫行为的标准协议，尽管非强制性，但大部分主流搜索引擎和AI爬虫仍会遵循其规则。

对于WordPress建站者而言，结合robots.txt 可加强安全性，同时控制无用页面收录。以下是一个适用于电商站点的robots.txt 示例：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/uploads/wc-logs/
Disallow: /wp-content/uploads/woocommerce_transient_files/
Disallow: /wp-content/uploads/woocommerce_uploads/
Disallow: */feed/
Disallow: */comments/
Disallow: /wp-login.php
Disallow: /readme.html
Disallow: /*?s=*
Disallow: /*?*
Disallow: /*blackhole
Allow: /wp-admin/admin-ajax.php

以上设置有助于阻止蜘蛛爬取后台、插件目录及搜索结果页，避免重复内容和不必要流量浪费。

【声明】内容源于网络

李嘉图的跨境手记

见天地，见自己，见众生

内容 153

粉丝 0

李嘉图的跨境手记见天地，见自己，见众生

总阅读3.2k

粉丝0

内容153