新闻动态
搜索引擎抓取策略
https://www.sytm.net 发布日期:2013/8/18 7:43:25

在搜索引擎爬虫系统中,待抓取URL队列是很关键的部分,需要搜索引擎抓取的网页URL在其中顺序排列,形成一个队列结构,调度程序每次从队列头取出某个URL,发送给网页下载页面内容,每个新下载的页面包含的URL队列的末尾,如此形成循环,整个搜索引擎爬虫系统可以说是由这个队列驱走运转的。

图(搜索引擎抓取过程)

待抓取URL队列中的页面是如何确定的?上面所述将新下载页面中包含的链接追加到队列尾部,这固然是一种确定队列URL顺序的方法,但并非唯一的手段,事实上,还可以采纳很多其他技术,将队列中待抓取的URL进行顺序,而搜索引擎的不同抓取策略,就是利用不同的方法来确定待抓取URL队列中URL优先顺序的。

搜索引擎抓取策略有很多种,但不论方法如何,其基本目标一致:优先选择重要网页进行抓取。在搜索引擎爬虫系统中,所谓网页的重要性,其评判标准可以选择不同方法,但是大部分都是按照网页的流行性来定义的。

宽度优先遍历是一种非常简单直观且历史也很悠久的遍历方法,在搜索引擎爬虫一出现就开始采用,新提出的抓取策略往往会将这种方法作为比较基准。但应该注意到的是,这种策略也是一种相当强悍的方法,很多新方法实际效果不见得比宽度优先遍历策略好,所以至今这种方法也是很多实际搜索引擎爬虫系统优先采用的抓取策略。

那么,什么是宽度优先遍历呢?其实上文所说的"将新下载网页包含的链接直接追加到待抓取URL队列末尾",这就是宽度优先遍历的思想。也就是说,这种方法并没有明确提出和使用网页重要性衡量标准,只是机械地将下载的网页抽取链接,并追加到待抓取URL队列中,以此安排URL的下载顺序。假设队列头的网页是1号网页,从1号网页中抽取出3个链接指向2号、3号和4号网页,于是按照编号顺序依次放入待在抓取URL队列,图中网页的编号就是这个网页在待抓取URL队列中的顺序编号,之后搜索引擎爬虫以此顺序进行下载。

实验表明这种策略效果很好,虽然看似机械,但实际上的网页抓取顺序基本是按照网页的重要性顺序的。之所以如此,有研究人员认为:如果某个网页包含很多入链,那更有可能被宽度优先遍历策略早早抓到,而入链个数从侧面体现了网页的重要性,即实际上宽度优先遍历策略隐含了一些网页优先级假设。

更多阅读
返回列表
© 2010 TianMei Technology All rights reserved. ICP:辽B2-20150138辽公网安备 21010202000010号  目录概览