SEO对网站流量很重要,流量往往转化成收入流水,因此做SEO的朋友都会去关注百度的抓取量、收录量、索引量。

但是我们真的懂这三者之间的区别么,尤其是收录量和索引量的区别。

要彻底弄明白这个问题,首先得看百度的定义了。

 

索引量

百度官网:http://ziyuan.baidu.com/indexs/index

百度定义:

1. 索引量指可以被搜索用户搜索到的网站数据库,索引量工具同时支持站点自定义想要关注的目录,查看某一目录规则下的索引量;索引量不等于流量,索引量会有定期数据波动,属于正常现象。

2. 百度索引数据最快每天更新一次,最迟一周更新一次,不同站点的更新日期可能不同。

3. 您可以查询到近一年中每天的索引量数据,一年前的索引量数据为每月索引量数据。

4. 如果已有流量数据查询不到,请隔日再查,最长间隔一周可查询到数据。

 

示例

米扑博客的索引量:https://www.baidu.com/s?wd=site:blog.mimvp.com

 

百度站长资源http://ziyuan.baidu.com/indexs/index?site=https://blog.mimvp.com

 

抓取频次(抓取量)

百度官网:http://ziyuan.baidu.com/pressure/index

百度定义:

1. 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定(米扑博客注解:CPU过高、内存占用多、带宽阻塞等),Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次

2. Baiduspider会根据网站服务器压力自动进行抓取频次调整

3. 建议您慎重调节抓取频次上限值,如果抓取频次过小则会影响Baiduspider对网站的收录

 

示例:米扑博客的抓取频次

 

收录量

百度官方没有收录量的说法,也没有百度官方的定义

 

 

百度的抓取量、收录量、索引量之间的关系

百度抓取量,给出计算抓取量的公式:

百度抓取量 = 百度蜘蛛抓取时间 * 百度蜘蛛抓取频次

抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数;

抓取时间是百度蜘蛛每次抓取耗时。

 

百度抓取量是没有办法量化的,但是我们可以通过百度蜘蛛对网站的抓取频次和抓取时间来判断网站受百度蜘蛛的欢迎程度,以及判断网站本身有没有质量问题。

其次百度收录量,这个应该是让众多SEO的朋友迷惑的一个词,百度官方也没有相关的定义或解释。

为了能够解释清楚,不妨先来看看百度搜索引擎的工作原理。(下图来自百度站长平台)

上述图中【网页】中存放的网页是百度爬虫蜘蛛每天反复爬取的网页数量,经过过滤去重后的,过滤去重前可理解为【爬取量

【临时库】中存放的网页,我们可以把它看做是“收录量”,也就是百度蜘蛛抓取了网站的页面数量,但不保证每个页面都有质量,也不保证每个页面被百度建立索引,所以一般 收录量 >= 索引量

最后百度“索引量”,上图中【索引区】中存放的网页,则是我们通常所说的“索引量”。网民通过搜索引擎查询,展现的搜索结果均来自【索引区】的网页。

例如,米扑博客的索引量:https://www.baidu.com/s?wd=site:blog.mimvp.com

 

 

总结

收录量:网页被百度蜘蛛抓取采集的网页数量,不一定被百度索引;

索引量:网页被百度蜘蛛分析过,有意义则建立索引库,无意义直接清除,索引量才是真正展示给用户看到的;

所以二者应该是包含的关系:

收录量 >= 索引量

最后,再次提醒强调的是百度目前未提供任何查询收录量的工具,只提供了查询索引量的工具,即百度站长资源

百度收录量,目前全部都是由第三方(如站长之家、爱站)的查询提供数据,仅能供参考,一般推荐使用索引量。

 

米扑博客推荐一个非常棒的网站:

米扑导航https://site.mimvp.com

 

 

参考推荐

了解搜索引擎技术

倒排索引