新闻动态
搜索引擎爬虫质量的评价标准
https://www.sytm.net 发布日期:2013/8/17 19:36:14

从网络爬虫开发者的角度考虑,优秀爬虫应该具备高性能、可扩展性、健壮性、友好性等性能,但是如果从搜索引擎用户体验的角度考虑,对爬虫的工作效果有不同的评价标准,其中最主要的3个标准是:抓取网页覆盖率,抓取网页时新性及抓取网页重要性。如果3个方面做得好,则搜索引擎用户体验必佳。

对于爬虫抓到本地的网页来说,很多网页可能已经发生变化,或者被删除,或者内容被更改,因为爬虫完整抓取一轮需要较长的时间周期,所以抓取到的网页中必有一部分是过期的数据,即不能在网页变化后第一时间反映到网页库中,所以网页库中过期的数据越少,则网页的时新性越好,这对用户体验的作用是不言而喻的。如果时新性不好,用户搜到的是过时数据,甚至可能网页都已不复存在,使用产品时其心情如何可想而知。

互联网尽管网页众多,但是每个网页重要性差异很大,比如来自雅虎新闻的网页和某个作弊网页相比,其重要性差异判若云泥。如果搜索引擎爬虫抓回的网页大都比较重要的网页,则可说其在抓取网页重要性方面做得很好。这方面做得很好,等价于搜索的搜索精度高。

通盘考虑以上3个因素,可以将目前爬虫研发的目标简单描述如下:在资源有限的情况下,既然搜索引擎只能抓取互联网现存网页的以一部分,那么,就尽可能选择比较重要的那部分页面来索引;对于已经抓取到的网页,尽可能快地更新其内容,使得索引网页和互联网对应页面内容同步更新:在此基础上,尽可能扩大抓取范围,抓取到更多以前无法发现的网页。3个"尽可能"基本说清楚了爬虫系统为增强用户体验而奋斗的目标。

大型商业搜索引擎为了满足以上3个质量标准,大都开发了多套针对性很强的爬虫系统。以Google为例,其至少包含两套不同目录的爬虫系统,一套被称为FreshBot,主要考虑网页的时新性,对于内容更新频繁的网页,目前可以达到以秒计的更新周期:而另外一套被称之为Deep Crawl Bot,主要真对其他更新不是那么频繁的网页抓取,以天为更新周期。除此之外,Google投入了很大精力研发针对暗网的抓取系统。

本话题重点介绍以下4个方面的技术:抓取策略、网页更新策略、网页更新策略、暗网抓取和分布式爬虫。之所以如此安排,因为这几项技术是爬虫系统中至关重要的组成部分,基本决定了爬虫系统的质量和性能。

其中暗网抓取技术是为了增强网页覆盖率,网页更新策略是为了增加下载网页的时效性,网页重要性评价准则是抓取策略的核心,而分步式爬虫的分布机制也决定了爬虫系统的性能。

更多阅读
返回列表
© 2010 TianMei Technology All rights reserved. ICP:辽B2-20150138辽公网安备 21010202000010号  目录概览