大家好,我是 Tan。
欢迎来到 SEO51。
上次讲完 Sitemap 后,许多读者查看 Google Search Console(GSC)时,被“网页 (Pages)”报告中的两个灰色状态困扰:
- 已发现 - 尚未编入索引
- 已抓取 - 尚未编入索引
90% 的人认为两者相同:“反正就是没收录。”这是错误的认知。
真相是:
- • 一个是“物流问题”(Google 还没来);
- • 一个是“质检问题”(Google 来了,但不满意)。
本文将深入解析这两个状态背后的算法逻辑,并提供精准排查方法。
一、 看懂本质区别
以“米其林餐厅试吃”类比 Google 索引流程,帮助理解。
1. 已发现 - 尚未编入索引 (Discovered)
= “还在排队,没空来”
- • 场景:Google 爬虫已知晓页面存在(列入清单)。
- • 现状:因爬虫资源有限或网站权重低,尚未进行抓取。
- • 潜台词:“我知道你在那,但我现在没空理你。”
- • 核心痛点:抓取预算不足。
2. 已抓取 - 尚未编入索引 (Crawled)
= “试吃差评,不收录”
- • 场景:Google 爬虫已完成访问并读取内容。
- • 现状:评估后认为内容质量不足,决定不纳入索引库。
- • 潜台词:“我来过,看过了,但你的内容不值得被搜到。”
- • 核心痛点:内容质量或技术故障。
二、 深度诊断:“已发现 - 尚未编入索引”
此为“通道”问题。Google 想抓取,但受阻。
请按以下顺序排查:
1. 嫌疑人 A:服务器响应过慢
若服务器响应延迟,Googlebot 会主动放弃抓取以避免负载过高。
- • 怎么确诊?
- • 进入 GSC → 设置 → 抓取统计信息,查看报告。
- • 查看“平均响应时间”。
- • 判断标准:超过1000ms(1秒)即为异常,影响抓取。

- • 解法:升级服务器带宽或启用 CDN 加速。
2. 嫌疑人 B:新站权重低
- • 怎么确诊?
- • 域名注册是否不足 6 个月?页面数量是否超过 5000?
- • 若为新站 + 海量页面,则抓取配额受限,无法全部抓取。
- • 解法:停止批量生成低质页,集中资源建设外链(Backlinks)提升权重。
3. 嫌疑人 C:孤岛页面
- • 怎么确诊?
- • 随机选取一个未索引 URL,在首页通过导航链接尝试访问。
- • 判断标准:仅能通过直接输入 URL 访问,则为孤岛页面,缺乏内部链接支持。
- • 解法:在相关文章中添加内链,增强页面可发现性。
三、 深度诊断:“已抓取 - 尚未编入索引”
此为“内容”问题。Google 已访问但拒绝收录。
该状态更严重,意味着资源已被消耗却未获认可。
1. 先做“心理按摩”:你需要修吗?
先判断未索引页面是否应被收录:
- • 良性未索引:
/feed/、/wp-json/、?replytocom、/search/等本就不应收录,无需处理。 - • 恶性未索引:原创文章页、核心产品页等关键页面必须修复。
2. 嫌疑人 A:重复内容 (Duplicate Content)
相似内容页面中,Google 通常只收录一个版本。
- • 怎么确诊?(GSC 验身法)
- 1. 在“已抓取 - 未索引”列表中,点击 URL 旁的🔍 (检查网址)。

- 2. 展开“网页索引编制”选项卡。
- 3. 查看最后一行“Google 选择的规范网址”。

- 4. 判断标准:
- • 情况 A(实锤重复):显示的是其他具体 URL → 被视为克隆页。
- • 情况 B(排除重复):显示“所检查的网址” → 身份独立,问题出在内容质量或渲染。
- • 解法:
- • 情况 A:使用 Canonical 标签指定首选版本,或差异化内容。
- • 情况 B:继续排查渲染与内容质量问题。
3. 嫌疑人 B:渲染失败/空页面 —— 极易被忽视!
前端依赖 JS 加载可能导致 Google 无法读取实际内容。
- • 怎么确诊?(Google 视角法)
- 1. 在 GSC 输入目标 URL 或从检查页面进入。
- 2. 点击"测试实时网址" (Test Live URL)。
- 3. 测试完成后,点击“查看已测试的网页” → “屏幕截图”。
- 4. 判断标准:看图!
- • 截图为白色?
- • 仅有菜单无正文?
- • 结论:JS 加载失败或过慢,Google 未看到有效内容。
- • 解法:优化前端代码结构,优先采用服务端渲染(SSR)。
4. 嫌疑人 C:薄内容 / 抄袭
- • 怎么确诊?(全网查重法)
- • 复制页面中一句有代表性的长句(约20字),在 Google 搜索框输入
"你的句子"(带英文双引号,精确匹配)。 - • 逻辑解读:
- • 情况 A:无结果(0 results) → 内容原创,但价值不足(如仅有参数无描述)。
- • 情况 B:出现他人网站内容 → 被判定为抄袭或转载。
- • 解法:内容增厚。增加至少 300 字独家观点、数据或案例,提升独特性和价值。
四、 总结:一张神级诊断表
遇到问题,先查表,再动手:
五、 总结与今日作业
SEO 是科学,不是玄学。利用 GSC 工具精准“确诊”,然后“治疗”。
📋 今日作业 (诊断实操)
- 1. 查服务器:进入 GSC → 设置 → 抓取统计信息,确认平均响应时间是否低于 500ms(绿色为佳)。
- 2. 查渲染:选取一个“已抓取未索引”的重要页面,使用“测试实时网址”功能,检查截图是否完整。
- 3. 验身:查看“Google 选择的规范网址”是否为自身。若是,则说明内容质量不足,需立即扩充内容。

