摘 要
截止2016年,我国网络的普及率已经超过了百分之五十,互联网上的信息爆炸性的增长,如何在海量的信息中检索到自己需要的内容,已经成为互联网研究的重要课题,搜索引擎技术主要摆阔搜索技术、文档分类技术以及信息抽取技术,本文将立足于搜索引擎中的信息抽取技术,深入研究信息抽取技术的关键要点,以供相关从业人员借鉴学习。
【关键词】搜索引擎 信息抽取技术 向量空间模型
搜索引擎主要由信息标引、信息管理分类、数据动态跟踪等功能组成,除此之外,搜索引擎还具有几个必备的功能,例如站点索引、自然信息库;信息桥等,为了实现高速、精准的搜索,必须加强搜索引擎中信息抽取技术的研究,本文将立足于搜索引擎的功能组成,深入研究搜索引擎中信息抽取技术。
1 搜索引擎中信息抽取技术概述
1.1 搜索引擎的原理
搜索引擎的主要任务是实现信息的有序利用和快速定位,因此搜索引擎要具有合理的信息索引机制,才能增强搜索引擎的高效性,使其在最少的存量、最快的速度进行准确定位。搜索引擎的对象是互联网的信息源,主要包括文本、***片、应用、消息、声音、影响等媒介。每一种数据类型还包括多种子类,为了实现信息的快速定位,搜索引擎要具有强大的辨识能力,使其在海量的信息当中,找到有用的信息,因此搜索引擎要具有信息标识、信息管理归类等功能。
1.2 信息抽取技术
信息抽取是将物联网作为信息源的一类信息抽取,目前来说,大部分数据都是以HTML语言描述的,并且互联网的信息呈现爆炸性的增长,想要在如此海量的信息中,找到自己想要的内容,是十分困难的。此外,大量的信息都缺乏语义信息,造成大量资源都无法被有效的利用,为了提高网络资源的利用率,应该极强搜索引擎中信息抽取技术的研究,建立完善的信息抽取系统,从而实现在Web页面中识别和定位待抽取的信息。
2 搜索引擎中信息抽取技术的关键要点
2.1 抽取规则生成方法
为了解决主题信息覆盖率过低的问题,应该深入的研究搜索引擎的抽取规则。目前较为主流的抽取规则生成方法有两种,第一类为人工获取方式,第二类为自动学习方式。人工获取方式是依靠人类专家,对一定量的待处理文档进行归纳,并总结相关信息出现的规律,但效果很有限,主要原因在于人类专家的生成的抽取规则,受到了个体知识水平的限制,这样系统的可扩展性也受到了限制。相比人工获方式,自动学习方式的自动化程度较高,但也具有一定的人工成分,主要依靠的人工在训练集合中生成自动抽取规则。
2.2 基于包装器的信息抽取技术
包装器是搜索引擎的一个程序,用于从信息源中抽取相关内容,为了方便处理,包装器还具有结构化信息的功能,能够对信息进行特殊处理,相关工作人员可以输入特定的指令,从而获取想要的信息源。包装器一般由程序员编写,通常由计算机程序代码组成,具有标准化的特性,能够在海量的信息源中找到标注过的信息,并将这些信息返回给客户,因此基于包装器的信息抽取技术使用起来十分方便。相关工作人员在使用包装器时,需要注意一个问题,针对不同的网站编写抽取规则十分困难,需要大量的人工资源,因此应该将包装器转化为自动生成包装器,使其能够适应网页结构的变化,在最大程度上提高包装器的适用性。
2.3 基于隐马尔可夫模型的信息抽取技术
隐马尔可夫模型是建立在随机概率原理上的一种信息抽取技术,在信息提取的过程中,隐马尔可夫模型信息抽取技术能够根据每个域出现的符号,来对应符号与各个域之间的关系,经过复杂的计算来推算出信息的位置。基于隐马尔可夫模型的信息抽取技术多用于文章头部信息的抽取,相关工作人员只要搜索关键词、标题,就能找到自己需要的信息。由于每个域对应多个状态,因此在搜索时,需要细化输出符号,才能更加精_的定位信息,输出信号越细化,信息内容越准确。
2.4 基于视觉分析的信息抽取技术
基于视觉分析的信息抽取技术,能够将网页中视觉样式相同或者相似的特征的信息进行归类,从而方便信息的抽取。这一方法主要利用了可视化技术,自动生成一些可视化的线索,在根据这些线索进行信息提取,但这种方法只能用于简单对象的搜索,相关工作人员在使用时应该注意这个问题。
3 结语
综上所述,信息抽取技术是搜索引擎最重要的组成部分,直接决定了搜索引擎的性能,因此要加强搜索引擎中的信息抽取技术的研究,相关工作人员应该在工作中总结经验教训,并不断完善信息抽取技术。
参考文献
[1]邹华***,张爱强,曾育星.基于网络编程技术实现Internet上多搜索引擎信息的获取[J].微型机与应用,2013(09):30-32.
[2]孟红,钟华.基于htmlparser的搜索引擎信息抽取系统设计与实现[A].中国中文信息学会信息检索与内容安全专业委员会.第六届全国信息检索学术会议论文集[C].中国中文信息学会信息检索与内容安全专业委员会,2010:5.
[3]汪波.搜索引擎与用户:寻找技术与大众信息的平衡点――记Google,Yahoo,Lycos的一次三家谈[J].现代情报,2013(03):53-54.
转载请注明出处学文网 » 搜索引擎中的信息抽取技术