摘 要:元搜索引擎可以很好解决传统搜索引擎的覆盖率不全的问题,并且可以综合多个传统搜索引擎的优势。专门建立一个基于多个传统的搜索引擎的结果集之上的搜索引擎,以提高搜索服务质量,元搜索引擎通过整合多个成员搜索引擎的搜索结果来提供自己的搜索结果,在这个过程中就涉及到查询转换、成员搜索引擎调度、搜索结果排序合成等一系列关键技术。
关键词:元搜索引擎;查询转换;引擎调度
中***分类号:TP393
元搜索引擎又称集合型搜索引擎。它并没有自己的索引数据库,也没有抓取机器人,仅仅只是充当中间的作用。元搜索引擎将多个单一的搜索引擎集成在一起,提供统一的检索界面,将用户的检索请求分别提交给多个***的搜索引擎,同时检索多个数据库;并根据多个***搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等;然后再输出给用户由于元搜索引擎整合了多个搜索引擎的搜索结果。元搜索引擎通常具有比传统的搜索引擎更大的信息覆盖面,可以有效的提高查全率。
元搜索引擎可以划分为三个模块部分:用户请求端、后台业务逻辑处理模块、结果重新显示模块。用户请求端负责与用户的交互,接收用户的请求,并把请求传至后台的服务模块处理。用户请求端还负责处理用户的个性化配置,如配置成员搜索引擎的信任权重值等等用户个性化配置。后台业务逻辑处理模块的主要功能是负责将用户的请求转化为成员搜索引擎所能理解的模式,并在接收成员搜索引擎所返回来的结果后,对搜索结果进行解析、提取、排序合成等处理。结果显示主要负责最终结果的显示,同时提供一些额外的效果以提供更好的用户体验,如将用户检索关键字分词后高亮显示等等[1]。
元搜索引擎虽然可以方便用户同时检索多个搜索引擎,但是提高查全率的同时,也引入了新的问题:对于特定的用户搜索,有的成员搜索引擎有较高的准确率,而有的则具有极低的准确率,即成员搜索引擎的有效性存在较大的差异。如果排序合成算法处理的不当,则容易淹没满足用户检索需求的搜索结果。另外元搜索引擎需要同时向多个成员搜索引擎发送请求并获取检索结果,然后再对搜索结果进行整合,增加了时间损耗,也增加了用户的检索等待时间。所以如何解决好这两个问题,是构建一个成功的元搜索引擎的关键。由于元搜索引擎的结果集成了多个成员搜索引擎的搜索结果,信息量通常比较大。用户通常不会对所有的结果进行遍历,而是仅仅关注前几条或者前几页的信息。如何将用户需要的结果尽可能的排在前面就显得尤为重要。元搜索引擎的排序合成正是完成对多个成员搜索引擎的搜索结果进行整合的模块,排序合成算法的优劣将直接影响到元搜索引擎的效率。因此如何对成员搜索引擎的结果进行有效的整合成为元搜索引擎的核心问题。
1 元搜索引擎关键技术
元搜索引擎通过整合多个成员搜索引擎的搜索结果来提供自己的搜索结果,在这个过程中就涉及到查询转换、成员搜索引擎调度、搜索结果排序合成等一系列关键技术[25,26]。
1.1 查询转换
由于不同的成员搜索引擎对于查询的格式要求往往是不一样的,因此元搜索引擎系统在向成员搜索引擎发送检索请求之前,先要将用户输入的检索关键字转换为各个成员搜索引擎所规定的格式。例如编码的转换、特殊字符的处理等。
除了提供最基本的查询转换之外,有的元搜索引擎为了提高查询的准确率,还提供了一些扩展的操作符和查询语法以扩充用户的查询请求。这通常需要预先对用户的检索关键字进行处理,然后根据预定义的操作符和查询语法的格式,将用户的检索关键字转换为新的检索关键字。例如有的搜索引擎提供了“与”和“或”操作。为了提供更加专门化的检索,有的搜索引擎还会对用户的检索关键字进行分词,然后根据每个分词单元所属的类别的信息,来确定所要调用的成员搜索引擎[1]。
1.2 成员搜索引擎调度
每个搜索引擎所擅长的领域通常有所不同,例如百度擅长中文搜索,谷歌和必应擅长英文搜索。而且每多调用一个成员搜索都会消耗一定的系统资源,同时也会增加查询延迟,增加用户的等待时间。因此需要选择合适的成员搜索引擎来获取满足用户检索需求的搜索结果。
目前常用的成员搜索引擎调度有两种:一种是由用户自定义所要调用的成员搜索引擎。这种方式的优点是给予了用户较大限度的选择权,同时也免去了系统计算成员搜索引擎调度信息的损耗。但是每当用户检索不同类别的关键字时,往往需要重新指定成员搜索引擎。但是大部分互联网用户通常不知道自己所检索的关键字应该选择那些成员搜索引擎,因此具有较差的用户体验。另外一种是由系统决定选择那些成员搜索引擎。这种方式的优点是用户检索时不必预先指定成员搜索引擎,具有较好的用户体验。但是系统往往需要大量的计算以确定每次用户搜索所需要调度的成员搜索引擎。例如通过学习的策略来确定所要调度的成员搜索引擎,往往需要预先用大量的资料来训练算法。这往往需要消耗大量的系统资源[2,3]。
1.3 搜索结果排序合成
搜索结果排序合成,就是对元搜索引擎系统中集成的各个成员搜索引擎的搜索结果进行合成、去重和重排序的过程,这也是现在大多数元搜索引擎系统的核心。搜索结果排序合成一般分为三个过程:去重、合成、重排序。合并,就是将元搜索引擎中各个成员搜索引擎的搜索结果进行整合的过程,在这个过程中,往往还要记录一些其他的信息,例如对于每个成员搜索引擎可能需要记录抓取的搜索结果的总数、抓取到的搜索结果总数等信息,对于每条搜索结果可能需要记录所在的成员搜索引擎、在原成员搜索引擎中的位置等信息。去重,就是将元搜索引擎系统中集成的各个成员搜索引擎中重复的搜索结果进行去除的过程,在这个过程中往往也需要记录一些其他的信息,例如每条搜索结果的“共识度”,即包含它的成员搜索引擎的个数,不同的元搜索引擎系统可能会采用不同的去重算法,常见的去重方式有两种,一种是仅仅根据搜索结果的URL信息来判断是否是重复的,另一种除了根据URL信息判断之外,还根据具体的内容信息来判断是否是重复的信息,例如对于原创和重载的文章,就认为是重复的。重排序,就是对于去重后的搜索结果进行重新排序的过程。重排序往往采用重新计算每条搜索结果的权重信息,然后再根据权重信息来重新排序。不同的元搜索引擎系统往往考虑不同的因素和采取不同的算法来进行权重的计算。常见的影响权重的因素有成员搜索引擎的有效性、搜索结果在原成员搜索引擎中的位置、搜索结果的摘要信息和描述信息与用户检索关键字之间的匹配度、搜索结果在元搜索引擎系统集成的成员搜索引擎中的共识度等。常见的权重计算方式有两种,一种是由用户自定义相应的权重信息,另一种是由元搜索引擎系统本身根据相关信息来计算每条搜索结果的权重,例如机器学习算法就是一种常被用来计算权重的算法,通过采用大量的数据来训练算法以确定相应的参数,然后采用训练后的算法来进行权重信息的计算[4]。
参考文献:
[1]强弓,喻国宝,廖湖声.一种元搜索引擎的查询结果处理模型[J].华南理工大学学报(自然科学版),2004,32:47-51,57.
[2]李村合,孟文杰.基于分类评价的元搜索引擎调度策略[J].计算机工程与设计,2008,29(5):1065-1066,1119.
[3]张卫丰,徐宝文,周晓宇.基于遗传算法的搜索引擎调度[J].微电子学与计算机,2001(4):34-38.
[4]杨春明,何天翔.元搜索引擎的结果去重及排序研究[J].软件,2012,33(6):51-53.
作者单位:湖南铁道职业技术学院,湖南株洲 412001
转载请注明出处学文网 » 浅谈元搜索引擎的关键技术