新闻动态
搜索引擎爬虫的暗网抓取
https://www.sytm.net 发布日期:2013/8/17 19:32:55

物理学研究表明,在目前宇宙所有物质的总体质量中,星系等可见物质只占其中的20%,不可探测的暗物质则占据了总质量的大约80%.互联网中的暗网可与宇宙中的暗物质相类比,而其所占网页的比例,更是远大于暗物质占宇宙质量的比例,大约百倍于目前的明网网页。

所谓暗网,是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。如前所述,搜索引擎爬虫依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型的例子是一些垂直领域网站,比如携程旅行网的机票数据,很难有显式链接指向数据库内的记录,往往是服务网站提供组合查询界面,只有用户按照需求输入查询之后,才可能获得相关数据。所以,常规的爬虫无法索引这些数据内容,这是暗网的命名由来。

为了能够对暗网数据进行索引,需要研发与常规爬虫机制不同的系统,这类爬虫被称作暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在 搜索时便可利用这些数据,增加信息覆盖程度。

目前大型搜索引擎服务提供商都将暗网挖掘作为重要研究方向,因为这直接关系到索引量的大小。在此领域的技术差异,将直接体现在搜索结果的全面性上,自然是竞争对手之间的必争之地。Google目前将其作为重点研发方向,而百度的"阿拉丁计划"目的也在于此。

垂直网站提供的搜索界面,往往需要人工选择或者填写内容,比如机票搜索需要选择出发地、到达地和日期,图书搜索需要指出书名或者作者。而暗网爬虫为了能够挖掘数据库的记录,必须模拟人的行为,如果一一组合遍历,那么会给被访问网站造成太大压力,所以如何精心组合查询选项是个难点;第二点在于:有的查询时文本框,比如图书搜索中需要输入书名,爬虫怎样才能够填入合适的内容?这个也颇具挑战性。

更多阅读
  • 线上订货系统让全渠道销售触手可及 近年来,中国电商平台发展迅速,以淘宝、京东等电商为代表的新兴商业模式被越来越多的客户所推崇,中国网民...
  • 添美订货系统十月更新日志 添美订货系统是东北开发订货软件的厂商,该订货软件实现了全渠道全客户端的覆盖。拥有南方的易订货、订货宝...
  • 三好街的渠道订货系统 现如今,人们对电子数码产品的需求与日俱增,但是不少电子数码产品企业的生意却未见起色,为什么?以三好街...
返回列表
© 2010 TianMei Technology All rights reserved. ICP:辽B2-20150138辽公网安备 21010202000010号  目录概览