新闻动态
搜索引擎的实时搜索
https://www.sytm.net 发布日期:2013/8/25 6:11:32

随着Twitter、微博等提供微信信息发布的个人媒体平台逐步兴起,对搜索引擎的实时性要求日益提高。微博平台和传统的信息平台比如网页、博客、新闻等相比,有其特殊性。其中一个突然的特点是时效性强,越来越多突发事件的是首次发布出现在微博平台上,比如某地地震或者社会事件,这是有其必然性。

实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调“快”,即用户发布的信息能够第一时间被搜索引擎发现、搜索并搜索到。传统搜索引擎在实现机制上很难达到这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结构排序方面都有自己独有的特点。

对于Twitter或者新浪微博这种信息平台说,信息的快速全面地获取微博数据就成了严重的挑战,目前的解决方案大致有两种。一种是与微博平台合作,由信息实时推送给搜索引擎。另外一种是由爬虫实时抓取,这里面有若干技术挑战:首先,微博平台作为个人信息发布平台,往往需要用户登录使用,这对于爬虫来说就形成了第1道屏障;另外,即使爬虫能够登录微博系统,如何全面获取信息,难度也很大,微博用户以亿记,而且微博内容短小,同时不像网页可以通过链接传递传递逐步发现更多内容,如何保证信息全面性成为第二道屏障,尽管可以通过用户关注关系获得部分微博数据,其全面性是难以保障的;如果爬虫无法保证信息的全面性,那么实时性也是无法满足的,因为很可能最新发布的消息爬虫根本抓取不到。从这几个方面讲,微博平台对于搜索来说是有其天然封闭性的。Google目前通过与Twitter合作的方式获取微博数据。

在索引构建方面,实时搜索要求是第一时间对新发布的内容进行索引,即用户发布则信息可搜。这对传统的索引机制提出了挑战,要求索引系统支持在建立索引的过程中,也能够提供搜索服务。在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按照时间排序顺序,即最新发布的信息排在前列。

对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子:

●  内容相关性:信息是否与用户查询主题相关。

●  时效性:发布时间越近的信息,其搜索排名应该越考前。

●  信息重要性:越重要或越流行的信息排名应该越考前,作为重要性或者流行性的判断指标有很多,比如信息发布来源是否可靠、被转发次数多少、被评论次数多少等都可以作为判断指标。

●  社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人和被关注人体现了这种社交性。排序时,应该将搜索结果的社交性体现出来,即用户关注人发布的信息排名应靠前。

综上所述,实时搜索在信息获取、信息索引和排序机制方面都有其特性,以此和传统搜索引擎做出区分,而随着突发事件越来越多在这种平台发布,其重要性不言而喻。

更多阅读
返回列表
© 2010 TianMei Technology All rights reserved. ICP:辽B2-20150138辽公网安备 21010202000010号  目录概览