浅谈元搜索引擎的关键技术

摘 要:元搜索引擎可以很好解决传统搜索引擎的覆盖率不全的问题,并且可以综合多个传统搜索引擎的优势。专门建立一个基于多个传统的搜索引擎的结果集之上的搜索引擎,以提高搜索服务质量,元搜索引擎通过整合多个成员搜索引擎的搜索结果来提供自己的搜索结果,在这个过程中就涉及到查询转换、成员搜索引擎调度、搜索结果排序合成等一系列关键技术。

关键词:元搜索引擎;查询转换;引擎调度

中***分类号:TP393

元搜索引擎又称集合型搜索引擎。它并没有自己的索引数据库,也没有抓取机器人,仅仅只是充当中间的作用。元搜索引擎将多个单一的搜索引擎集成在一起,提供统一的检索界面,将用户的检索请求分别提交给多个***的搜索引擎,同时检索多个数据库;并根据多个***搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等;然后再输出给用户由于元搜索引擎整合了多个搜索引擎的搜索结果。元搜索引擎通常具有比传统的搜索引擎更大的信息覆盖面,可以有效的提高查全率。

元搜索引擎可以划分为三个模块部分:用户请求端、后台业务逻辑处理模块、结果重新显示模块。用户请求端负责与用户的交互,接收用户的请求,并把请求传至后台的服务模块处理。用户请求端还负责处理用户的个性化配置,如配置成员搜索引擎的信任权重值等等用户个性化配置。后台业务逻辑处理模块的主要功能是负责将用户的请求转化为成员搜索引擎所能理解的模式,并在接收成员搜索引擎所返回来的结果后,对搜索结果进行解析、提取、排序合成等处理。结果显示主要负责最终结果的显示,同时提供一些额外的效果以提供更好的用户体验,如将用户检索关键字分词后高亮显示等等[1]。

元搜索引擎虽然可以方便用户同时检索多个搜索引擎,但是提高查全率的同时,也引入了新的问题:对于特定的用户搜索,有的成员搜索引擎有较高的准确率,而有的则具有极低的准确率,即成员搜索引擎的有效性存在较大的差异。如果排序合成算法处理的不当,则容易淹没满足用户检索需求的搜索结果。另外元搜索引擎需要同时向多个成员搜索引擎发送请求并获取检索结果,然后再对搜索结果进行整合,增加了时间损耗,也增加了用户的检索等待时间。所以如何解决好这两个问题,是构建一个成功的元搜索引擎的关键。由于元搜索引擎的结果集成了多个成员搜索引擎的搜索结果,信息量通常比较大。用户通常不会对所有的结果进行遍历,而是仅仅关注前几条或者前几页的信息。如何将用户需要的结果尽可能的排在前面就显得尤为重要。元搜索引擎的排序合成正是完成对多个成员搜索引擎的搜索结果进行整合的模块,排序合成算法的优劣将直接影响到元搜索引擎的效率。因此如何对成员搜索引擎的结果进行有效的整合成为元搜索引擎的核心问题。

1 元搜索引擎关键技术

元搜索引擎通过整合多个成员搜索引擎的搜索结果来提供自己的搜索结果,在这个过程中就涉及到查询转换、成员搜索引擎调度、搜索结果排序合成等一系列关键技术[25,26]。

1.1 查询转换

由于不同的成员搜索引擎对于查询的格式要求往往是不一样的,因此元搜索引擎系统在向成员搜索引擎发送检索请求之前,先要将用户输入的检索关键字转换为各个成员搜索引擎所规定的格式。例如编码的转换、特殊字符的处理等。

除了提供最基本的查询转换之外,有的元搜索引擎为了提高查询的准确率,还提供了一些扩展的操作符和查询语法以扩充用户的查询请求。这通常需要预先对用户的检索关键字进行处理,然后根据预定义的操作符和查询语法的格式,将用户的检索关键字转换为新的检索关键字。例如有的搜索引擎提供了“与”和“或”操作。为了提供更加专门化的检索,有的搜索引擎还会对用户的检索关键字进行分词,然后根据每个分词单元所属的类别的信息,来确定所要调用的成员搜索引擎[1]。

1.2 成员搜索引擎调度

每个搜索引擎所擅长的领域通常有所不同,例如百度擅长中文搜索,谷歌和必应擅长英文搜索。而且每多调用一个成员搜索都会消耗一定的系统资源,同时也会增加查询延迟,增加用户的等待时间。因此需要选择合适的成员搜索引擎来获取满足用户检索需求的搜索结果。

目前常用的成员搜索引擎调度有两种:一种是由用户自定义所要调用的成员搜索引擎。这种方式的优点是给予了用户较大限度的选择权,同时也免去了系统计算成员搜索引擎调度信息的损耗。但是每当用户检索不同类别的关键字时,往往需要重新指定成员搜索引擎。但是大部分互联网用户通常不知道自己所检索的关键字应该选择那些成员搜索引擎,因此具有较差的用户体验。另外一种是由系统决定选择那些成员搜索引擎。这种方式的优点是用户检索时不必预先指定成员搜索引擎,具有较好的用户体验。但是系统往往需要大量的计算以确定每次用户搜索所需要调度的成员搜索引擎。例如通过学习的策略来确定所要调度的成员搜索引擎,往往需要预先用大量的资料来训练算法。这往往需要消耗大量的系统资源[2,3]。

1.3 搜索结果排序合成

搜索结果排序合成,就是对元搜索引擎系统中集成的各个成员搜索引擎的搜索结果进行合成、去重和重排序的过程,这也是现在大多数元搜索引擎系统的核心。搜索结果排序合成一般分为三个过程:去重、合成、重排序。合并,就是将元搜索引擎中各个成员搜索引擎的搜索结果进行整合的过程,在这个过程中,往往还要记录一些其他的信息,例如对于每个成员搜索引擎可能需要记录抓取的搜索结果的总数、抓取到的搜索结果总数等信息,对于每条搜索结果可能需要记录所在的成员搜索引擎、在原成员搜索引擎中的位置等信息。去重,就是将元搜索引擎系统中集成的各个成员搜索引擎中重复的搜索结果进行去除的过程,在这个过程中往往也需要记录一些其他的信息,例如每条搜索结果的“共识度”,即包含它的成员搜索引擎的个数,不同的元搜索引擎系统可能会采用不同的去重算法,常见的去重方式有两种,一种是仅仅根据搜索结果的URL信息来判断是否是重复的,另一种除了根据URL信息判断之外,还根据具体的内容信息来判断是否是重复的信息,例如对于原创和重载的文章,就认为是重复的。重排序,就是对于去重后的搜索结果进行重新排序的过程。重排序往往采用重新计算每条搜索结果的权重信息,然后再根据权重信息来重新排序。不同的元搜索引擎系统往往考虑不同的因素和采取不同的算法来进行权重的计算。常见的影响权重的因素有成员搜索引擎的有效性、搜索结果在原成员搜索引擎中的位置、搜索结果的摘要信息和描述信息与用户检索关键字之间的匹配度、搜索结果在元搜索引擎系统集成的成员搜索引擎中的共识度等。常见的权重计算方式有两种,一种是由用户自定义相应的权重信息,另一种是由元搜索引擎系统本身根据相关信息来计算每条搜索结果的权重,例如机器学习算法就是一种常被用来计算权重的算法,通过采用大量的数据来训练算法以确定相应的参数,然后采用训练后的算法来进行权重信息的计算[4]。

参考文献:

[1]强弓,喻国宝,廖湖声.一种元搜索引擎的查询结果处理模型[J].华南理工大学学报(自然科学版),2004,32:47-51,57.

[2]李村合,孟文杰.基于分类评价的元搜索引擎调度策略[J].计算机工程与设计,2008,29(5):1065-1066,1119.

[3]张卫丰,徐宝文,周晓宇.基于遗传算法的搜索引擎调度[J].微电子学与计算机,2001(4):34-38.

[4]杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53.

作者单位:湖南铁道职业技术学院,湖南株洲 412001

浅谈元搜索引擎的关键技术

转载请注明出处学文网 » 浅谈元搜索引擎的关键技术

学习

社会发展角度谈网红现象

阅读(42)

本文为您介绍社会发展角度谈网红现象,内容包括对网红现象的看法作文,网红现象的辩证看法。摘要:现今互联网高速发展时代,网络红人以各种各样的方式出现在我们眼前,充斥于我们生活各个角落。网红的出现使成名不再变得那么困难,其现象也促进了

学习

桥梁的结构体系及各自特点概述

阅读(27)

本文为您介绍桥梁的结构体系及各自特点概述,内容包括桥梁按结构体系划分为哪几类,连续体系桥梁的特点。摘要:本文简述了桥梁中的三大主要体系结构及组合结构体系,从定义到分类到各种体系的特点都进行了比较简要的概述及分析,阐述了桥梁在各

学习

毛诗序 第7期

阅读(16)

诗者,志之所之也,在心为志,发言为诗。情动于中而形于言,言之不足故嗟叹之,嗟叹之不足故永歌之。永歌之不足。不知手之舞之足之蹈之也。

学习

浅述保护环境与节约资源

阅读(45)

本文为您介绍浅述保护环境与节约资源,内容包括环境保护基础知识和节约资源总结,节约资源保护环境的思考。摘要:本文简述了资源与环境在人类社会发展过程中所经历的变迁,资源在开发利用过程中产生的环境问题以及如何加强资源节约与保护环境

学习

钣金件折弯工艺分析

阅读(16)

本文为您介绍钣金件折弯工艺分析,内容包括钣金件怎么在折弯处分割,钣金件圆角折弯工艺。摘要:机床钣金类零件的结构会受到机床外观特征以及加工设备形态和加工技术工艺等相关要求的影响。因此,本文在此背景下,重点针对机床钣金类零件的具体

学习

鉴赏《红楼梦》中刘姥姥人物形象

阅读(27)

本文为您介绍鉴赏《红楼梦》中刘姥姥人物形象,内容包括红楼梦2010版刘姥姥进大观园,点评红楼梦中刘姥姥的形象。摘要:《红楼梦》是我国文学史上的四大名著之一,其也是我国古典文学小说中的巅峰之作,并一直为后人所传颂。对于这本著作来说,其

学习

凯拉·奈特莉 英伦玫瑰

阅读(14)

本文为您介绍凯拉·奈特莉 英伦玫瑰,内容包括凯拉奈特莉英伦玫瑰,英伦玫瑰凯拉奈特莉歌曲。年少成名,野路子出身的奈特利必需靠自学磨练演技,她的表演学校就是片场。与她合作过的导演都称赞她有活力、有自信,有“星”相。从2007年到2012年,

学习

网络云盘介绍

阅读(31)

本文为您介绍网络云盘介绍,内容包括网络云盘哪个好,网络云盘最新消息。摘要:文章对网络云盘的概念以及它们的检索、存储、同步、备份、分享等功能进行了简要介绍和比照。

学习

播音主持播音腔探析

阅读(23)

本文为您介绍播音主持播音腔探析,内容包括播音主持怎么练成播音腔,播音主持概论重点归纳。摘要:

学习

浅谈体育“教法”与“学法”的统一

阅读(22)

本文为您介绍浅谈体育“教法”与“学法”的统一,内容包括体育学法都有哪些方法,体育中的教法和学法。体育教学是体育教师的教和学生的学的共同活动。体育教学方法是教师组织学生进行学习的步骤、程序、规则、方式等,包括教法与学法。教法

学习

浅析主流媒体

阅读(21)

本文为您介绍浅析主流媒体,内容包括新型主流媒体和主流媒体的区别,主流媒体的优势和劣势。摘要:本文从学术界对主流媒体的认识出发,探讨了主流媒体的定义,进而就我国的媒体现状探讨我国主流媒体的发展前景,为媒体发展和经营提供理论依据。

学习

浅谈声乐练声曲的种类和训练方法

阅读(18)

本文为您介绍浅谈声乐练声曲的种类和训练方法,内容包括波特声乐课堂500个声乐练声曲,10岁孩子声乐趣味发声练声曲。摘要:练声曲是在声乐教学中真正用于声音训练的练声曲――“发声练习曲”,此类练声曲的演唱不仅是为了形成基本发声状态,稳

学习

浅谈暂列金额

阅读(18)

本文为您介绍浅谈暂列金额,内容包括暂列金额怎么取值最好,暂列金额实例说明。【关键词】暂列金额;工程量清单;工程造价

学习

浅谈屋面找平层的重要性及具体方法

阅读(46)

本文为您介绍浅谈屋面找平层的重要性及具体方法,内容包括屋面找平层一般怎么做,屋面找平层作用。摘要:屋面渗漏一直是非常棘手的质量通病,究其原因很多,一般从防水层设计施工、使用等方面来考虑,而忽视了防水基层――找平层施工质量所产生的

学习

“比兴”浅谈

阅读(65)

本文为您介绍“比兴”浅谈,内容包括比兴与象征赋讲解,比兴的赏析模板。关键词:比兴讽喻美刺含蓄蕴籍意境比体诗

学习

浅谈唱歌的基本功训练

阅读(45)

本文为您介绍浅谈唱歌的基本功训练,内容包括唱歌基本功每日必练100个,唱歌发音训练基本功。【摘要】加强唱歌的基本功训练可以使学生掌握正确的唱歌方法,为学生音乐水平的提高打下坚实的基础。本文论述的训练内容主要有唱歌的呼吸训练、

学习

浅谈干挂石幕墙的短槽式与背栓式安装方法

阅读(22)

本文为您介绍浅谈干挂石幕墙的短槽式与背栓式安装方法,内容包括背栓连接干挂石材幕墙施工方法,短槽式石材幕墙干挂法。摘要:本文主要介绍石材幕墙中干挂石面板的短槽式安装方法与背栓式安装方法,分别阐述其各自的施工关键技术和质量控制措

学习

浅谈品牌的知名度、美誉度与忠诚度

阅读(21)

本文为您介绍浅谈品牌的知名度、美誉度与忠诚度,内容包括知名度美誉度忠诚度的关系,品牌知名度美誉度忠诚度分析。作者简介:周秀芹,泰山石膏股份有限公司。