大数跨境
0
0

认识检索 (Crawl) 与索引 ( Index )

认识检索 (Crawl) 与索引 ( Index ) 王施帆
2025-12-03
8
导读:检索(Crawl)和索引(Index)是SEO领域中非常非常基础的两个概念,是在学习SEO之前一定要理解的基本概念,但检索和索引的优化概念很大,因此这篇文章我只会针对基础的概念先进行解说,并在文章中链

大家好,我是王施帆。

今天带大家正式进入SEO概念篇。概念篇,我将一些知识难点拎出来单独开文讲解,部分基础型知识点,可能需要你们手动谷歌查询了。

本篇有些文绉绉的,但是还是建议快速看一遍!

检索(Crawl)和索引(Index)是SEO领域中非常非常基础的两个概念,是在学习SEO之前一定要理解的基本概念,但检索和索引的优化概念很大,只通过一篇文章我可能没有办法完整的讲完,因此这篇文章我只会针对基础的概念先进行解说,并在文章中链接到我曾经写过的相关文章来帮助你学习:)


理解SEO的『检索』以及『索引』


网络爬虫这个说法比较抽象,Google 官方将它称为 Google Spider、Google Bot,你可以把整个世界的网络想象为一个巨大蜘蛛网,而搜索引擎本身有属于它的一只爬虫程序(甚至很多只不同类型的爬虫程序),程序会像蜘蛛一样在这巨大的网络上爬行,并收集信息。

做SEO工作,维护好搜索引擎爬虫与网站之间良好的关系是非常重要的,我们必须要尽量让它能够完整爬取你网站上的优质内容,否则会对你的网站 SEO 有影响(在这篇文章中我会慢慢提到),而搜索引擎运作原理我们可以简单分为四个阶段:

阶段1 – 检索 Crawl(爬取):搜索引擎的爬虫来你的网站上爬取、下载网站资料的这个动作我们叫做检索,在 Google 官方的文件上正式的专有名词叫做『检索』,但 SEO 业界比较习惯白话一点来称呼,通常我们会称呼为爬取、抓取等比较白话的用词。这个阶段 Google 的爬虫会在你的网站上爬取所有能爬到的资料,包含你的网页内容、程序代码、图片等所有的网页信息。

阶段2 – 索引 Index(收录):将你的网页资料收录、建档到搜索引擎里面的这个动作我们叫做索引(白话一点来说就是收录的意思),但你的网站就算被收录到搜索引擎里面也不代表你会得到很可观的搜索流量,Google 也许愿意收录你的网站,但未必愿意给你的网站很好的搜索排名(取决于你的网站是否是一个优质的网站、是否有被很好的优化,否则 Google 也许愿意收录网站,但不愿意让你的网站很常被搜索到)

很多人以为网站没有搜索流量就代表没有被 Google 收录,其实这观念是不对的,『是否有被收录』、『是否有排名有流量』是两件事。但至少被 Google 收录进搜索引擎是好的第一步,如果 Google 连收录你的网站都不愿意,那更不用谈搜索流量以及SEO了。

阶段3 – 分析搜索意图:Google 会透过算法来了解使用者搜索的「关键字」是什么意思?使用者到底需要什么信息?

阶段4 – 曝光在搜索结果:用户搜索查询关键字时,你的网站可能会被 Google 提供给搜索者,而你的品牌也会因此获得搜索流量(但这取决于你的网站是否是一个优质的网站、是否有做SEO)。


为什么学SEO要理解『检索』以及『索引』?

我们在学习 SEO 时,会碰到很多网络上的文章主题都是环绕在所谓的「排名因素」,也就是你的网站该怎么做,才能被 Google 排名在搜索结果的前面名次,但实际上一个网站会面临到的 SEO 问题有很多,根据网站的架构、网站的行业、所在的市场等不同的因素而定,并不是只要优化「排名因素」就够了,Google如果没办法很健康的爬取你的网站资料,那么网站的排名因素优化做再好都没用,因为 Google 爬虫根本看不到你网站里面的资料,所以你要了解搜索引擎的爬虫到底是怎么检索(爬取资料),然后又是怎么索引(收录)网站。

举例来说,在我们实务上常常遇到有客户的网站是使用 AJAX 程序建构出动态式的瀑布流,在你进入网站时会看到四则文章连结,接着你鼠标向下卷动时,程序则会触发并出现后面四则 (简单来说就是如下图现在的做法 ,俗称瀑布流),

通常这个状况下,Google 爬虫只会爬取到一开始的前面几则文章而已,因为网络爬虫不会像人为使用者去往下卷动、并触发 AJAX 程序的瀑布流。在这类案例之下,Google 爬虫看到的网页信息很少,当然也会影响你的 SEO(不管你的网站再棒、再好,只要 Google 爬虫看不到,那么根本没有意义)。

因此做为 SEOer,研究、了解爬虫的效能是很重要的,我们必须要了解搜索引擎的爬虫有哪些效能限制、哪些网页技术是爬虫无法好好的爬取(像瀑布流就是大多情况没办法被搜索爬虫很有效的爬到资料),而Google的爬虫、Bing/Yahoo搜索引擎的爬虫又各自是不同的团队/公司所开发出来,因此他们的爬虫效能又有些不一样,如果做 SEO 时希望除了 Google 之外的 Yahoo/Bing 也可以优化好,那么就要全部都花时间去研究。


如何确定『检索』或『索引』状况是否有问题


这个议题有很多面向可以谈论,在这篇我先谈一些基础观念以及方法。

首先,大部分的情况只要你的网站被 Google 很健康的『爬取』,收录状况就不太会有问题,通常如果 Google 有很健康的检索你的网站、但却没有收录你的网站,那代表你的网站可能有违规、用作弊的方法做 SEO 而遭到 Google 惩处。

那么,要如何检查 Google 是否有健康的爬取(检索)你的网站呢?常见的方法之一就是透过 Search Console 的报表(如下图范例)。

延伸阅读:

8步教你用 Google Search Console 对网站SEO深度诊断检查

如何使用 Google Search Console 检查和跟踪网站关键字排名?

从 Search Console 的「设定 > 检索统计资料报表」中,可以看到每日检索的网页数目,这张图表代表着 Google 每天来爬你的网站时,都爬了多少个网页,通常图表会在一个区间范围内波动,大多情况 Google 每天来爬多少网页取决于三件事情:

  1. 你的网站在市场上有多重要、网站的SEO权重有多高(也就是所谓的Crawl Budget)

  2. 你的网站架构是否有使用不利于爬虫的技术,导致爬虫不容易爬到资料

  3. 你是否有主动阻挡Google爬你的网站(阻挡Google的部分可以阅读非技术人员也能看懂的《meta robots、robots.txt》)

上述报表可以帮你检查 Google 是否有健康的「爬取」你的网站,通常如果 Google爬你网页的数字与你的网站落差太大,对 SEO 都是不太好的,比方说你的网站共有 8,000 个网页,但 Google 每天来爬你的网站却只有爬 50 页~100 页左右,如果你的网站有 8,000 页,Google 每天爬的网页数最好在 500~1,000 之间是比较正常的。


但「索引」呢?要如何检查 Google 是否有健康的索引我的网站呢?

你可以从 Search Console 的网页索引报表中,查看 Google 已建立索引的网页数量,底下也会完整列出哪些网页没被编入索引、以及发生的原因。


在SEO上要如何避免『检索』以及『索引』出问题?

撇除你有违规、作弊的行为发生而导致 Google 不愿意好好的处理你的网站,以下有几个常见的优化项目,也是我们通常在担任 SEO 顾问时会检查的优化项目:

  • 尽量不要过度使用对Google不友善的AJAX,尤其在重要的网页或内容上面

虽然说 Google 近年来宣称,搜索引擎现在已经能够满有效的解析 JavaScript、AJAX 技术,但实际上还是有很多网站的 JavaScript、AJAX 没办法被 Google 很有效的解析。

因此尽可能避免在导航栏、面包屑、网站侧栏、商品/文章列表这些重要的地方使用JavaScript 以及 AJAX 。

  • 尽可能把『网站速度』优化好


根据Google官方的说明,Google 针对每一个网站有所谓的「爬取额度(Crawl Budget)」,也就是说他在爬你的网站时只会给予你一定的时间额度,因此你必须要尽可能的优化网站速度,让爬虫在最短的时间内可以爬到尽可能多的网站,而这个爬取的额度会根据你的网站在市场上的重要性、以及 SEO 的网站权重而定

举例来说,Google 决定给你的网站每天 10 分钟的额度,那么他每天只会来爬你的网站 10 分钟,并且 10 分钟一到他就会离开网站。因此,如果你的网站速度尽可能优化到好,可以帮助他在同样的 10 分钟内爬完你的网页,概念上简单来说是这样:

  • 当你的网站速度很慢时,他 10 分钟只能爬完 100 个网页。

  • 当你的网站速度够快时,他可以在 10 分钟内爬完 500 页。

以上述情况来说,你 SEO 成效的差距就出来了,我们会希望 Google 在同样的时间内可以爬越多网页越好,Google 如果连爬你的网站都不能好好的爬,基本上成效当然不好。

  • 避免重复内容发生


重复内容问题要尽量避免(尤其是网址参数所产生的重复内容),重复内容会让爬虫要去爬更多无效的网页(如果你不知道什么是重复内容,参考下面延伸阅读),简单来说,如果你的网页总共有 500 页,但你有很严重的重复内容问题而导致网页膨胀到了 1,200 页,那么当中有 700 页的网页会浪费掉爬虫的爬取额度,毕竟爬虫每天能爬的网页是很有限的。

  • 最基础的网页问题以及SEO问题必须要避免


如果你有很多损毁/坏掉的网页,或是网站上有很多不必要的、很胡乱的跳转链接可能都会影响爬虫爬你网站的效能以及额度,因此在经营网站时一些最基础的事情你必须要尽量避免,如:

网页尽量不要有大量404情况发生。

尽量避免不必要的跳转、重定向循环。

如果有产品/文章下架的话,请把链接从网站上移除,避免消耗掉你的爬取额度,这里重点提醒:一些网址虽然已经被删除,但是错误页面的状态码依然是200(正常是404,蜘蛛不会重复爬行404页面),这会对搜索引擎爬虫造成很大困扰(如下图),它们会一直抓取这些错误页面,影响抓取额度的正常利用,同时,如果不妥善移除已下架的商品或文章,要是被使用者浏览到这些网页对使用者的体验也不是太好。

关于检索 (Crawl) 与索引 ( Index )的SEO概念就写到这里,一句话总结下,理解检索、索引概念,为爬虫构建良好的网站爬行路径,充分利用爬行预算爬行网站重点页面,让重点页面先收录、先排名、先接收流量。

若您还对SEO部分概念感兴趣,可以继续阅读SEO概念篇其他文章,每一篇文章都希望帮您有所收获。






Google Search Console帮助中心:

Google Search Console – 常见问题、优势重要性

常用的Google Search Console验证网站的3种方法

如何向 Google Search Console 添加用户管理员?

如何使用 Google Search Console 进行关键字研究(6个简单步骤)

如何使用 Google Search Console 检查和跟踪网站关键字排名?

8步教你用 Google Search Console 对网站SEO深度诊断检查

Google search console无法抓取站点地图解决思路


Google SEO 关键词研究:

学习SERP分析,帮你更快提升Google排名

Google免费关键词词库模板和分步操作指南

写SEO文章,该如何研究关键词、如何布局?

Google优化SEO关键词研究全解析:快速上手指南

如何使用 Google Search Console 进行关键字研究(6个简单步骤)

如何使用 Google Search Console 检查和跟踪网站关键字排名?


Google SEO 内容规划策略:

如何写好一篇长文?

如何大量、稳定产出内容?

SEO写作大陷阱:忍不住想广告,写出浓浓的AD味

顶尖内容公司,运用AI内容的5大技巧

2025年SEO趋势:SEO专家们热烈讨论的9大主题

“内容衰减”,正在影响你的Google排名

AI崛起,“差不多内容”被搜索引擎降权,写手怎么经营?

写SEO文章,该如何研究关键词、如何布局?


Google SEO学院:

SEO为什么这么难学?10年实操近百个案例的总结

SEO学习之旅:从新手到专家的蜕变

一次搞懂Google SEO优化全流程



【声明】内容源于网络
0
0
王施帆
13年专注搜索营销,分享经验,也爱聊家常。 尽量每周一篇,带你了解最新搜索营销资讯。
内容 59
粉丝 0
王施帆 13年专注搜索营销,分享经验,也爱聊家常。 尽量每周一篇,带你了解最新搜索营销资讯。
总阅读899
粉丝0
内容59