百度蜘蛛的深度优先与广度优先抓取策略
百度蜘蛛对页面的优先抓取策略有两种:
深度优先抓取策略:
深度优先这个概念的话,学计算机的应该很好理解,这里简单介绍一下,比如说我去你家提亲,进门肯定要先打招呼,是不是?就是我先跟你爷爷打招呼,再跟你爸打招呼,再跟你打招呼,然后再跟你兄弟姐妹打招呼,然后再跟你妈打招呼,再跟你奶奶打招呼,这就是深度优先。简单来说就是一句话,就是沿着一条线一直往下走,走到没有路了再返回去,这就是深度优先。
广度优先抓取策略:
广度优先就比较简单了,是不是?我先跟你爷爷奶奶打招呼,再跟你爸爸妈妈打招呼,我再跟你兄弟姐妹打招呼,就我每一层我都全部抓完了,我再往下面打招呼这样的。这就是广度优先。这里不深究,大家感兴趣的可以去搜相关的一些概念,这个也比较容易理解,我们没有必要去纠结它怎么弄的,蜘蛛也是一样的,它针对不同的网站,根据网站的大小复杂程度,会采用一种或几种方式结合的,然后方法进行全网的抓取。
理论上这两种方式都可以抓取的,然后就像我们刚才打招呼的例子,我用两种方法,我都可以跟给你们所有的亲人打一次招呼,是不是?这个方式用在搜索引擎蜘蛛上也是一样的,两种方法它都可以抓取全网的内容,但是搜索引擎蜘蛛的资源和效率有限,他只能说两种结合起来,不会只用一种方法。所以一般域名级别的页面使用的是广度优先策略。内页根据网站的权重,采取两种结合的方式抓取,网站的权重越高,抓取量也越大,刚上线的网站权重很低的,只能用只是用广度优先抓起来一个首页,其他的根本就没有抓取。
所以我们很多新上线的网站,会发现在很长的一段时间内,只有首页被收录了,其它没有被收录,这是为什么?很简单,就是因为蜘蛛采用了域名的级别页面,它采用的是广度优先,很快就把你的首页抓起来。然后深度优先的话,因为消耗的资源消耗的资源比较大,然后效率比较低,所以等他来抓起你的内页,估计要等很长的时间。你的页面不是很重要,他不会派蜘蛛来进行深度优先的方式来抓取。
因为你刚上线的网站权重比较低,就是重要性比较低,要轮到你的网站,估计要等好久。这就是为什么说我们现在很长一段时间只有首页被抓去。然后我们讲一下网页排名,网页排名是根据我们用户的一个搜索词和搜索需要,对索引库中的网页进行相关性重要性和用户体验的高低,分析得出来的。简单来讲,就是说你的用户体验和和权重越高,你的网页排名就越高,是不是?根据刚才的定义也可以得出来。只要是蜘蛛抓取到的网址都有可能会参与排名,但是参与排名的网页不一定被蜘蛛抓取到了内容,甚至你屏蔽了百度蜘蛛,但百度指数通过其他途径可以抓取到你的网址,但是没有抓取到内容,可能也会成这样的网址也会参与排名,我举个例子就很容易理解。
- 上一篇:没有了!
- 下一篇:什么是百度预计流量?
推荐阅读
- 什么是百度预计流量? 2025-11-14
- 百度蜘蛛的深度优先与广度优先抓取策略 2025-11-14


