信息检索篇1
【关键词】信息素养信息检索搜索引擎
随着新课改的全面推进,信息技术教育已在中小学广泛开设。信息技术教育的目标是培养中小学生的信息素养,即培养学生灵活运用信息的能力,包括:有效地和高效地获取信息、批判性地评价信息、准确地、创造性地使用信息等。信息素养是信息时代每个人赖以生存、生活、学习的基本素养,是终身学习的基础,是信息社会教育的新目标,也是衡量一个国家和地区信息化程度的重要指标。信息素养的培养需要与各学科教学整合,需要与社会生活相结合,需要各学科教师参与,这样就对各学科教师的信息素养提出了更高的要求。
什么是信息检索呢?我通过百度搜索在"百度百科"可得到以下答案:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。总的来说,信息检索就是用一定的方式找到用户所需要的信息(此处通过百度查询信息检索的定义也是一种方法)。那么该如何快速便捷的找到这些我们所需要的信息呢?
一、因特网信息检索工具
因特网信息检索工具是Internet上提供网上信息资源导航、检索服务的一类专门的Web 服务器或网站,主要分为三大类:
1、主题目录(subject directory)
主题目录也叫目录型检索工具,主要是依据***书馆和信息专业专家对已知的网站,根据其主要内容进行筛选、组织和评论,编制等级式的目录,例如:Yahoo是主题目录,不过Yahoo在向搜索引擎过渡。它的优点是所收录的资源经过人工组织,可以保证质量,减少了检索中的"噪声",从而提高检索的准确性;缺点是花费大量的人力和时间,难于跟上网络信息的迅速发展,所涉及信息的范围有限,其数据库的规模也相对较小。
2、搜索引擎(search engine)
搜索引擎是使用自动索引软件来发现、收集并标引网页、建立数据库,一般包含两大核心技术:自动网页搜索技术和全文搜索技术。它与主题目录最大区别是搜索引擎主要依靠网页搜索工具,而不是人工编制,用户输入检索关键词、词组或短语等检索项进行信息搜索。例如:Google、百度、天网等,都是常用的搜索引擎。它的优点是收集信息范围广、速度快,可直接输入关键词或词组、短语进行检索,而无需判断类目、归属,使用方便;缺点是人工干预过少而使其准确性较差,检索结果中可能会有很多冗余信息。
3、元搜索引擎(meta search engine)
元搜索引擎又称多元搜索引擎或者并行搜索引擎,也称大容量搜索引擎,是为弥补搜索引擎不足而出现的一种辅助搜索工具,它将多个搜索引擎集成在一起,提供一个统一的检索界面,自动将一个检索提问发给多个引擎同时检索,例如:DOGPILE、万纬搜索等。
二、 因特网信息的检索策略和技巧
1、搜索工具的语法规则
2、搜索的基本步骤
(1)明确搜索目标
(2)确定问题中的重要概念,选择查询关键词
(3)掌握搜索引擎的特性,选择满足需要的搜索引擎
(4)精心构建查询表达式
3、搜索的技巧方法
(1)在检索结果为零或者命中数极少时,可以考虑使用同义词重新检索。
(2)适当运用搜索工具的语法规则进行组合搜索。
(3)尽量使用高级搜索选项。通常,只需在范围较广的查询中添加词语就可以缩小搜索范围。不过,利用高级搜索选项一般可以做到:将搜索范围限制在某个特定的网站中、排除某个特定网站的网页、将搜索限制于某种指定的语言、查找链接到某个指定网页的所有网页、查找与指定网页相关的网页。
(4)使用交叉话题,尽量减少包容话题。
(5)并行操作,尝试使用不同的搜索引擎,并且在此过程中可以同时找开多个窗口进行操作。
(6)处理网络出错信息,在检索过程中,要学会处理一些常见的出借信息。
(7)注意关键词的排列次序,关键词的次序不合理也会影响检索结果。
信息检索篇2
【关键词】信息检索 检索策略
随着计算机技术和通讯技术的发展,信息检索的理论与实践也随之不断地推陈出新。其历史沿革可划分为手工检索,联机检索、光盘检索、网络信息检索等阶段。目前,计算机信息检索呈现出联机信息检索、光盘信息检索、网络信息检索并存的格局。如何判断计算机信息检索技能的高低?最重要的衡量指标之一,就是能否构造出合适的检索策略。只有构造出最佳检索策略,才能快速、准确地检索到所需信息。
一、检索策略的含义和作用
信息需求产生之后,如何在茫茫的信息海洋中查找需要的信息?利用哪些信息检索系统?检索提问怎么设计才能得到好的检索效果?信息检索策略对于解决这些问题具有重要的意义。
检索策略是指分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划,其中关键在于构造能够确切表达信息需求的检索式。
检索策略的优劣是影响检索效果的非常重要的因素。正确的检索策略会优化检索过程,有助于取得最佳的检索效果。
二、检索策略的构造步骤
信息检索策略的构造一般包括分析用户信息需求、选择检索系统、确定检索用词、构造检索式、分析检索结果等。具体过程如下:
1.分析信息需求,明确检索要求。这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。对检索需求作出全面的认识。
2.选择检索系统。计算机检索系统主要包括各种数据库、搜索引擎等。依据对信息需求的分析,选择与检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统所涉及的学科领域、文献类型、时间范围、检索方式、检索途径等。
3.选择检索方式和检索途径,确定检索词或检索式,选定限制条件。这是构造检索策略的核心步骤,在很大程度上决定着检索策略的优劣与检索效率的高低。
进入检索系统后,首先要在信息需求分析的基础上选择合适的检索方式和检索途径。
所谓检索方式,即以检索过程的繁简程度来区分的不同检索过程。基本的检索方式不外乎两种:初级检索和高级检索,只不过不同的数据库对初级检索的称谓不同,如:基本检索、快速检索、简单检索等。
检索途径,又叫检索字段、检索入口、检索项等。指输入的检索条件所查询的数据区域。不同数据库所设的途径并不相同,常用的检索途径有:题名、作者、关键词等。一般来说,选择题名作为检索途径,命中文献的相关度会比较高。但如果检索内容比较冷僻,文献量较少时,可以扩展到关键词、主题等途径。
检索词或检索式的确定是构造检索策略的核心步骤,在很大程度上决定着检索策略的优劣与检索效率的高低。
检索词的确定是建立在检索课题概念分析的基础上。有时,检索课题会包含较复杂的主题内容,这就需要利用检索式来表达信息需求了。只有对检索课题的主题有全面、正确的逻辑分析,选全、选准检索词并能合理运用各种连接组配符号对其进行组配,才能构造出高质量的检索式。
实际上,在构造检索式前,首先要从宏观上确定利用什么方法得到检索结果。常用的方法是把检索课题剖析成若干个不同的词,再找出各词的相关词、同义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有子检索式连接起来,构成一个总检索式。还可以先确定一个范围较广的概念集合,然后提高检索的专指度,得到一个较小的检索结果集合,直到得到满意的结果。
确定检索词或检索式后,还要根据需要选择合适的限制条件、排序依据等。
4.实施信息检索,获取原始信息。确定了检索词或检索式之后,即可开始检索操作。得到检索结果后,要根据课题需要对查全率和查准率进行分析与评价。如果必要,则要适当调整检索策略,完善检索结果,直至达到满意的效果。
参考文献:
[1]邱均平,赵蓉英,马瑞敏,李晔君.我国文献计量学信息计量学课程建设的理念与实践[J].***书情报知识.2007(03).
[2]马费成,望俊成,陈金霞,胡超.我国数字信息资源研究的热点领域:共词分析透视[J].情报理论与实践.2007(04).
信息检索篇3
一、个性化信息检索的内涵
个性化的含义是使事物具有个性,或使其个性凸显,有两层含义:
其一。个性需求经过培养而形成,这个过程称之为个性化个体的过程:
其二,个体总具有一定的个性,让这种个性得到了解、认可。并在一定的空间中得以体现、展示,是每个个体都有的潜在需求,这个过程称之为个体个性化的过程。
个性化信息是能够满足用户个性需求的信息。个性化信息检索是指根据用户的兴趣和特点进行检索。返回与用户需求相关的检索结果。它是一种能体现用户个性化特征。满足个性化需求,培养个性化趋势的检索方法。在个性化检索中。检索条目与用户查询经历有关,既可以是内容检索。又可利用与其他事件的关系来检索。即是以用户检索行为为中心的检索。这也是个性化检索与一般文档检索的区别。个性化检索是为用户定制的检索。检索结果切合用户的需求,有效率地为用户提供检索服务。
个性化信息检索具有以下特点:
1.个性化。个性化信息检索是以用户的实际需求为出发点,以用户的个性化特征为参照,以个性化手段和方式来服务,提供个性化的资源结果。
2.智能化。个性化检索是从人的认识能力出发的检索方法,其设计离不开人工智能技术的支持,如建立用户模型、自动收集知识及系统的学习功能等。个性化检索中智能技术Agent用于帮助用户确定所需信息。
3.以用户为核心。个性化信息检索从信息需求的提出到检索,完全以用户为核心,用户占主导地位,具有支配权和选择权,这种自主性的特点体现在个性化检索设计上是以自然语言为接口,交互式问答、理解用户的系统。在数据库和知识库的设计上也是按用户需要而定。
二、个性化信息检索的相关技术
1.用户建模技术。为不同的用户提供有针对性的服务。需要对用户的兴趣、习惯、历史行为等方面进行分析从而获取其个性化信息。对用户信息进行结构化描述。构建反映用户特点的需求模型,这一过程称为用户建模。用户建模是实现个性化检索服务的基础和核心。
不同的用户各自面临着互不相同的检索问题,不加区分地给不同的用户提供相同的结果。必然满足不了用户的检索需求。要提高用户的满意度,就要把握用户的特点,建立用户模型,对用户的信息、兴趣及历史查询行为进行管理,对不同用户进行不同的学习,这样就可以针对特定用户提供准确的信息。
可以通过以下三种方法建立用户模型,即手工方法、示例方法及机器学习的方法。
(1)手工方法由用户手工输入感兴趣信息的关键词,或选择感兴趣的栏目。这种方法实现起来简单。但由于完全依赖用户。容易导致用户模型不够准确。而且用这种方法建立的用户模型是静态的,不能适应用户兴趣的变化。
(2)示例方法由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型。由于用户对自己的兴趣和偏好等最有发言权。因而用户提供的有关自己兴趣的示例最能集中、准确地反映用户的兴趣和偏好等特点。示例一般通过要求用户在浏览过程中对浏览过的页面标注感兴趣、不感兴趣或者感兴趣的程度来得到。浏览过的页面及相应的标注成为用户建模的示例。
(3)机器学习方法是通过对用户的浏览内容、浏览历史行为来构建用户模型。即通过对用户浏览的页面进行分析来了解用户浏览行为,通过对用户访问历史页面进行分析来了解用户偏好。用户浏览的页面可以反映用户的兴趣。对其进行聚类。就能够得到用户感兴趣的主题,从而实现自动用户建模。
2.智能Agent技术。Agent是指在分布式系统中持续自主地发挥作用的计算实体。由于Agent具有***性、主动性、协作性、移动性等特点,人们常用它解决搜索引擎中个性化检索的问题。
3.个性化推送技术。信息推送技术是指依据一定的技术标准和约定。自动从资源中选择信息,并通过一定的方式(如电子邮件)有规律地将信息传递给用户的一种技术。其实质是借助一种特殊的软件系统,该软件能够根据用户事先向系统输入的信息请求。这包括用户的个人信息档案、用户关心的信息主题、信息类型等,系统就能主动地在网上搜索出与符合用户需求的这些主题信息,并经过筛选、分类、排序,按照每个用户的特定要求,在适当的时候传递至用户指定的“地点”。
三、个性化信息检索系统的功能结构
个性化检索是在对用户的信息需求、兴趣爱好、检索行为和决策方式的理解基础上,针对用户个进行的检索。其目标是提供个性化检索系统。该系统由用户个性信息模块、个性学习模块、个性检索模块、查询模块、结果处理模块、反馈模块等构成。
1.用户个性信息模块与用户个性学习模块的功能是与用户交互,自动发现,了解和获取用户信息需求和用户检索行为、兴趣习惯、检索历史、学科领域等情况,其目标是创建用户信息需求库。
2.个性检索模块的功能是根据用户的个性信息与当前的信息需求,给用户提供可由用户自己选择定制的检索方法,或由系统智能分析后提供检索策略。
3.在个性检索模块的协助下,查询模块完成个性化查询,提交一个结果交由反馈模块处理。
4.用户对结果进行处理,形成用户选择结果,再由反馈模块进行分析和统计。
5.对反馈模块分析、统计的结果进行处理,根据情况调整相应数据,个性检索模块也作出相应调整,如此循环。直至用户得到满意的结果。
总之。信息检索的本质是一个匹配的过程,即用户的需求和一定的信息集合的匹配和选择的过程。个性化信息检索则是在需求集合中加入了与用户个性特点密切相关的个性元素,因此是帮助人们快速获取信息的有效手段。
参考文献:
[1]丁浩,林云.Internet上的个性化信息服务[J].软件世界,2000,(3).
[2]赵静.个性化信息检索及功能模型[J].***书与情报,2004,(1).
信息检索篇4
关键词:信息检索模型;相关性;查询;搜索引擎
abstract:this article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.and in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.in addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article.
keywords:information retrieval models;relativity;inquiry;search engine
当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜索引擎系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发,对信息检索模型研究的主要内容和构建策略进行了详细的描述,并给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点及存在的问题,总结了当前信息检索模型的研究现状和发展趋势,其目的在于提高信息检索、查询的性能和效率。
一、构建信息检索模型的策略
当前,构建信息检索模型的主要策略有以下两个:
(一)通用的信息检索模型
构建一个通用的信息检索模型,研究优化的匹配算法,提高查询速度、查全率和查准率,最大程度地满足一般用户的查询需求。
(二)用户兴趣模型
根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型,能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。如google就能推断用户的使用意***,提供动态的、即时的用户“个性化定制”信息,帮助用户快速、准确地定位到所需要的信息。
二、常用的信息检索相关性算法
(一)布尔模型
布尔模型是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎则根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。
在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里,首先定义关键词集合s,关键词为t1,t2,…,tn。
这些关键词可以和逻辑操作符and,or和not形成不同的条件查询。如果得到条件表达式的值为true,该文档相对于此条查询的检索状态值为1;如果若干文档相对于此条查询的检索状态值都为1,则可以认为,这些文档与此用户的查询是相关的。
布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少。二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如:聋教育or特殊教育)和词组(如:计算机and基础and课程改革)。它的缺点是,由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值,则不能对查询结果按照相关性进行排序;另外关键词也没有考虑权重的影响,缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。
(二)向量空间模型
向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。
在向量空间模型中,信息检索系统如果涉及n个关键词term,则建立n维的向量空间,每一维都代表不同的关键词term。首先要建立文本和用户查询的向量,一个n元组的文档向量di的每个坐标都通过对应关键字的权重来表示,查询向量中的权重表示对应关键词对于用户来说的重要程度。然后进行查询向量和文本向量的相似性计算。并可以在匹配结果的基础上进行相关反馈,优化用户的查询。在知道了文档向量与查询向量后,查询与文档的相似性就可以通过公式(2)求解。
(2)
在公式(2)中,文档di可以用n维的向量表示,其中每个分量表示某一term在整篇文档中的权重。q = (q1,q2,…,qn)中ql表示terml在q中的权重。
向量空间模型的优点在于:1.检索词加权改进了检索效果。2.部分匹配策略允许检索出与查询条件相近的文献。3.可以根据相似度对文献进行排序。
它的缺点是,在这种模型中的基本假设,关键词term向量之间被假设为相互无关的,而实际是有时它们之间大多是依赖关系,如在自然语言中,词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外,在查询中,也不能像布尔模型一样使用关键词之间的逻辑运算关系。
(三)概率模型 概率模型主要是基于概率排序原则:即如果文档按照与查询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档。它主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。
在前面的向量模型中,我们假定关键词term向量是正交的,不考虑term向量之间的依赖关系。而在概率模型中,可以通过概率计算表达关键词term之间,以及关键词term和文档之间的依赖关系,预测文档与用户查询的相关概率,并可以对获取的结果按照相关度概率的大小进行排序(简称prp)。
概率模型有两个主要的参数:一个文档和用户查询的相关概率pr(rel)及不相关概率pr(nonrel),并且pr(rel)=1-pr(nonrel)。即
pr[term t in document|document is relevant]=rt/r (3)
pr[term t in document | document is irrelevant]= (ft-rt)/(n- rt) (4)
其中:r表示与用户查询相关的文档数;rt表示在相关r中出现关键词term t的文档数;n表示文档数;ft表示在n个文档中出现关键词term t的文档数。由式(3)和(4),可以
得到:
pr[term t is not in document| document is relevant]= (r- rt)/r (5)
pr[term t is not in document | document is irrelevant]=(n-ft-(r- rt))/(n- rt) (6)
根据上面所给的“条件概率”,可以计算出关键词term t的权重:
(7)
在公式(7)中,如果wt>0,表明词term t出现的文档与用户查询相关;如果wt<0,出现term t的文档与用户查询无关。
概率模型的主要缺点是对文本集的依赖性过强,而且条件概率值很难估计。概率模型的一个特例是贝叶斯网络,该网络以概率的方式定义了关键词的权重随着与其相关的关键词的权重的改变而改变方式。由于该模型适用于超文本信息系统,因而该模型的应用越来越广泛。但是该模型的缺点是,计算复杂度很大,因而该模型不适合很大的网络。
三、结束语
目前,大多数信息检索模型都依赖于布尔模型,而在实验环境中用的最多并居于主导地位的是传统的向量空间模型。信息检索模型还有许多其他变种,如基于布尔模型的变种有:模糊集合模型、扩展布尔模型;基于矢量空间模型的变种有:通用矢量空间模型、潜在语义索引模型、神经网络模型;基于概率模型的变种有:推理网模型、可信网模型。而总体上来看,这些模型及其变种都是“语法”层次的信息检索模型,没有具有“语义”特征的规范的词汇集。今后,进一步研究基于“概念语义空间”的文本信息组织与检索,建立基于本体的信息检索模型,则能有效地代表文档和用户信息需求,使信息检索更加精确、有效。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和最大限度地满足用户个性化的要求。
参考文献:
信息检索篇5
[关键词] 认知观 情境 信息查寻 信息检索 信息查寻与检索 IS&R
[分类号] G354
1、引 言
信息查寻(Information Seeking,以下简称IS)和信息检索(Information Retrieval,以下简称IR)以往是两个不同阵营的研究团体所从事的不同的研究领域,虽然两者都是对人类的信息行为进行的研究,但一个具有强烈的社会科学性特别是***书馆学的人文传统;另一个具有明显的情报学性特别计算机科学的技术传统,并各自沿着不同的轨道向前发展。然而,近年来却出现了一种新的动向,即两者开始走向互动与交流,出现了整合与集成的趋势。其中尤以国际知名情报学家Ingwersen和J2irvelin为代表,他们从整体主义的认知观点出发,认为IS与IR应该抛弃他们以往相互隔离和狭窄的研究路径,这两个阵营的研究人员应当认识到各自的价值和局限性。他们倡导在情境中将IS与IR进行有机的集成,并提出了集成的信息查寻与检索(Is&R)研究框架,从而为这两个领域开辟了一个新的研究路径。
2、IS & R的理论基础
正如所有的学说和理论一样,明确定义和阐释概念是其立论的基础和首要步骤。对于IS&R的集成研究来说也是如此。整体主义认知观、情境观以及在此基础之上的认知信息概念,构成了IS&R的理论基础。
2.1 整体主义认知观
整体主义认知观起源于DeMey,其核心观点是:“任何信息的处理,无论是感官信息,还是符号化信息,都是以某种范畴或概念体系为中介的,而对于信息处理设备来说,这种范畴或概念体系就是他(或它)的世界模型(认知模型)。”其中信息处理设备可以是人也可以是机器。
在信息查寻与检索领域重要的是要关注认知观的五个相互关联的核心观点:①信息处理发生于讯息(message)发送者与接收者之间;②信息处理发生在不同层次;③在信息传播期间,任何一个行动者都会受其过去和现在的经验(时间)及其社会、组织和文化环境的影响;④每个行动者都会影响其周围环境或领域;⑤信息是处于情景和情境中的信息。
认知观为情报检索提供了清晰的思路,并为瓜中尚未解决的问题指出了解决方案。特别是整体主义的认知观为IS和瓜这两个以往被视为互不相同、相互隔绝的研究领域建立了沟通和对话的桥梁,奠定了互动和整合的基础。
2.2 信息的认知概念
信息是情报学中最重要的现象之一。只有理解了这一现象,才能确立其它核心现象的概念,如信息需求的形成与发展、相关性,或知识的表示、获取与利用等概念。Ingwersen在参考了他人研究成果的基础上,基于认知的观点,提出了遵循情报学和IS&R的认知观的条件信息(ConditionalInformation)的概念:“…根据情报学的观点,信息的概念必须满足两个必要条件:一方面,信息是生产者的认知结构(包括意***、接受者的模型、知识状态,以符号的形式表示)发生变化的结果;另一方面,它是指可以意识到的、影响和改变接受者的知识状态的某些事情。信息被视为一个概念系统的补充或者互补,该概念系统表现了信息处理系统对周围世界的知识。如果只满足了第一个条件,我们谈论的是潜在的信息,即类似储存在信息源中的数据或实体,它们对接受者(不管是人还是机器)具有潜在价值。如果只满足第二个条件,我们谈论到是觉察到的感知数据或者是来自自然界的信号,而不是信息。”认知信息的概念为IS&R集成研究提供了一个可用框架和概念基础。
2.3 情境观
情境(Context),即认知行动者在信息行为过程(例如信息的查寻与检索)中所处的特定环境和状态。信息查寻与信息检索的理论和实践方面的研究都表明,瓜仅仅是信息查寻的一种方式,它们都发生于情境之中,该情境取决于诸如任务、状态和情景等方面。
按照认知观的观点,在Is&R框架中,与每一个组件(组成要素)相关的行动者和对象就成为他们自身的基本认知结构的情境(即对象内部情境),并成为彼此之间的情境(对象之间情境)。而在框架各个组件之间的相互作用过程中,这些框架组件自身又成为彼此的情境。而所有的Is&R组件和相关活动都处于公共的社会、物理和技术基础结构以及它们的历史的情境中。
任何信息行为都是发生在一定的情境中,情境是所有信息行为的出发点和落脚点,也是其信息行为的依据和指南。对于传统的IR研究而言,需要在关注技术的同时,更多地关注检索者或用户、任务情境、信息交互和信息利用,使之朝着结构化、情境化和认知的方向发展;对于传统的IS研究而言,也需要向信息采集技术和任务情境扩展。因此,正是在情境之中,IS与IR才有了整合和集成的可能。
3、集成的IS & R研究框架
3.1 IS&R研究框架的概念认知模型
基于对不同时间和空间的认知行动者的理解,Ingwersen等提出了一个适用于任何认知行动者的概念认知模型作为IS&R集成研究框架。如***1所示,它有5个核心组件:认知行动者(特别是信息查寻者);界面;社会一组织的情境;IT;信息对象及信息空间。他们之间通过信息交互联系在一起。
该模型突出强调了处于情境中的IS&R过程中的信息交互。首先,社会交互过程(1)存在于行动者和他们所处的过去及当前的社会文化和组织情境之间;其次,借助于界面,信息交互过程也存在于认知行动者和嵌入在IT和既有信息对象之中的认知表现之间(2-3);再次,个人行动者需求会导致潜在信息的产生及认知和情感的转化(5-7),社会、文化和组织情境的需求也会导致IT和信息对象的产生和变化(6-8)。
该模型也强调了所有参与的认知结构都同时处于模型中其它认知结构所共同构成的情境之中。因此,情境、行动者和各个组件以及各组件的内部结构之间存在一种相互依赖的关系。
在这个通用模型中,行动者可以是作者、标引员、算法和界面的设计者、编辑者、信息查寻者等多种不同的类型。可见,该通用模型的研究意***并不是仅限于IS与IR的,而是通过模型在不同角色行动者上的应用,力***对信息的生产、组织、加工、检索和传播这一“信息链”进行整体上的认知化改造,从而使认知观真正地渗透到情报学主要研究体系的各个方面。该模型尽管比较简洁和抽象,但有很强的解释力、应用性和可扩展性。
3.2 IS&R研究框架
Ingwersen提出了主要针对信息查寻者的细化模型。如***2所示,在这个细化模型中,每一个核心组件都被进一步细化,而信息查寻者的核心位置得以凸显。
在该模型中,不只是信息查寻者才具有认知结构,而是信息对象、IT、界面都具有认知结构,是一种“嵌入的认知结构”,组织文化社会情境则成为集体认知结构的体现,这些无疑将认知观在模型中的地位推到了极致。模型中不同要素的交互完全也可以看作是不同认知结构在时空变换中的交互,由此,情报学的认知观得到了全面的展示。
3.3 IS&R认知框架的主要特征
***2具有以下几个主要特征:
IS&R框架是***于媒介而存在的,它包含5个核心组件,每个组件都由描述行动者认知结构的数据结构组成,认知行动者都参与过这些数据的创建、保存或修改。
情境具有历史性(累积性),它是由认知行动者在和“使用团体”及其同行长期接触过程中获得的知识和经验组成。此外,情境和IS&R框架的其它要素互相嵌套。因此,情境具有社会、文化或组织特征,和对象、系统、领域以及检索者的工作和日常任务、情感、动机、喜好等密切相关。历史情境和实时交互情境(会话)共同构成了当前情境,并直接影响认知行动者对当前状态的认识和理解。而在每一个组件内部,其构成元素之间(包括最小的符号元素)又互为情境。
认知和社会影响互补原理以及个体行动者成为决定性因素也是认知整体论框架的一个核心特征。反之,这个特征又使认知整体论框架遵从这样一个概念,即该框架的每一个组成要素都处于其他要素构成的情境当中。
该***所示的理论框架也有意涵盖一些信息查寻以外的信息行为。这些行为包括信息对象的利用、创建、交流、选择、人工标引等活动。通过关注理论框架的每一个组件以及他们之间的直接关系和交互作用,展示了其作为模型工具的强大功能。
IS&R框架指出,IS&R核心变量之问的概念关系可能一直被人们所忽视。例如,在给定工作任务条件下,人工等级相关评价模式与相应的IT情境中相关性反馈算法适用性之间的关系。该框架灵活性很强,可以对三个或更多要素中的变量之间的关系进行研究。
理论框架可以对组件中认知(和社会)元素之间的详细关系进行研究。例如,利用该框架可以对进行IS&R所需的知识类型(如描述性以及过程性的IS&R知识、领域知识、社会知识)进行建模。同其它模型相比,该框架能够对IS&R中的核心问题进行更为结构化、更为详尽的研究。
4、对 IS&R 研究框架的评价
4.1 实现了信息查寻与信息检索的整合与集成
既然是一个集成的IS&R研究框架,就应该整合信息查寻与信息检索。可以认为,Ingwersen提出的框架实现了这种集成和整合。如果将***2所示的细化模型中信息查寻者的认知空间单独抽取出来,这就是信息查寻行为研究;如果把该模型的左侧部分沿“提问式(Query)”垂直切分,不考虑界面和右侧部分,余下部分就会形成一个由信息对象、IT情境、提问式所构成的简单的三角交互模型,这就是系统导向的信息检索;如果将右侧部分的界面和信息检索者考虑进来,就形成了较为复杂的研究模型,并构成了以查寻者为中心的研究模式,这就是认知与用户导向的信息检索;如果继续将边界向右推,进一步将研究重点放在***2所示模型的最右侧部分的社会、组织和文化情境上,这将形成信息管理和知识管理研究领域以及信息查寻过程的社会构成主义观、社会现实主义的领域分析方法、文献表示的社会认知观。根据这些观点,社会情境、领域、认识论或文化与组织结构是认知和表示过程的决定因素。由此可见,该模型的确能够将社会科学导向的信息查寻、系统导向的信息检索和用户与认知导向的信息检索有机地整合在一起,从而形成了一个在整体主义认知观统领下的IS&R集成框架,这样就连通了长期以来相互对立和隔离的信息查寻与信息检索领域,使之具有了互动和整合的可能。
4.2 为信息查寻与信息检索提出了新的研究方向
IS&R框架不仅为集成现有的信息查寻与信息检索提供了概念模型,也为两者的未来发展提出了一些启示和研究方向。
IS&R框架对以下四个要素进行了合并,提出了一些新的研究思路:①将信息查寻者置于和正式IR系统直接相关的动态情境中;②如何开展研究或进行性能测试取决于研究的目的;③将最佳匹配算法置于和其他非正式知识源(如人类)相一致的信息查寻活动中;④在多变量情境中开展研究的方法。
IS&R框架提出了全新的研究问题,即对与框架要素相关或框架要素之间的因变量(自变量)、受控变量以及隐藏变量的分布进行研究。由此可以得出更多的研究发现。
Is&R的研发工作可以采取两条行动路线:一方面,扩展瓜研究以捕捉更多的情境,但是不放弃实验室试验方法;只有沿着这条行动路线,才能接近真正的瓜工程学(ITengineeing);另一方面,则是把目前的IS研究向任务情境和技术方面扩展,即从行动者出发向左、右两个方向扩展(见***2)。
信息检索篇6
关键词:跨语言信息检索 CLIR 搜索引擎
1 概述
所谓跨语言信息检索(Cross-language Information Retrieval,CLIR),系指用户以一种语言(通常是自己的母语)提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。CLIR中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标语言(Target Language)。网络用户检索信息主要通过搜索引擎来达到其目的。就中国来说,CNNIC最新的《第25次中国互联网络发展状况统计报告》显示,截至2009年12月31日,中国网民规模达到3.84亿人。目前搜索引擎用户规模达到2.8亿人,年增长率为38.6%。搜索引擎的使用率为73.3%,较2008年增加了5.3个百分点,超过了即时通信成为网民使用互联网的第三大应用[1]。然而,网络资源语种的多样性和差异性成为了网络用户存取信息的巨大障碍。网络信息语种分布和网络用户语言分布不平衡。据Internet World Stas统计,截止2009年12月31日,目前全球18亿多网络用户所使用的语言依次为:英语27.7%,中文22.6% ,西班牙语7.8%,日语5.3%,葡萄牙语4.3%,德语4.0%,阿拉伯语3.3%,法语3.2%,俄语2.5%,韩语2.1%,其他语言17.2%。虽然笔者没有找到最近Web网页所使用的语言比率,根据Netcraft统计显示,截止2010年6月全球共有2亿多个网站[2]。而根据《第25次中国互联网络发展状况统计报告》统计结果,中国网站数量仅为232万个,比率刚刚超过10%,由此可见一斑。因此,CLIR是全球知识共享的关键因素,是跨越地理和语言障碍获取信息的技术需求。而且,网络用户需要CLIR工具,用其查找、检索和获悉任何语言和形式的相关信息[3]。
2 跨语言信息检索在搜索引擎中的应用现状
搜索引擎按语种分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。它主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问的翻译和不同搜索引擎检索结果的集成。
2.1 跨语言搜索引擎
2.1.1 国内外概况。国外多数主流的搜索引擎一般具有跨语言检索的功能,如Google、Yahoo!、AltaVista和ixquick等。另外,对检索结果的翻译功能是CLIR技术的一个有机组成部分,是检验CLIR是否成熟以及是否具有实用性的重要指标[4]。此外,Google和AltaVista还能够实现网页翻译,极大地便利了网络用户浏览外文网站。如AltaVista的Babel Fish翻译个人网页多达10000个,当用户点击链接时,链接的网页也会自动翻译。
而具有CLIR功能的中文搜索引擎则较少。就笔者所知的只有传承自Yahoo!的雅虎中国搜索。另外,搜狗具有***翻译功能[4]。
2.1.2 支持语种数量。Google Translate目前支持52种语言之间的任何翻译,Yahoo!也可以进行13种语言之间翻译整个网站的文字或短文的检索,AltaVista则可以在19种语言之间进行翻译。但是这些标榜CLIR的搜索引擎大多其实只是多个单语言模式搜索的集合,只有Google Translate可以算是真正意义上的跨语言搜索引擎。这仍将是CLIR发展的一个重要方向[5]。
2.1.3 工作流程。跨语言搜索引擎的工作流程可以简单的概括为:用户向系统提交检索词,形成一个源语言的搜索式。系统对搜索式进行语言识别,识别出语种后,就进行提问式的词法分析和结构分析,然后把这些分析过的搜索式翻译成各种语言的搜索式。最后把这一系列的搜索式提交给系统进行检索。系统再将检索到的结果反馈给用户。
Google Translate则在它的帮助文档中提到的:“Google Translate是一个自动翻译器,也就是说,它不受人类翻译的干预,而是以国家最先进的技术代替。现在大多数使用中的商业机器翻译系统已经开发了基于规则的方法,并且需要大量的工作来定义词汇和语法。我们的系统采用不同的方法,我们提供数十亿字词的文本给计算机,同时包括目标语言的集成文本,和由各种语言之间人类翻译实例构成的对齐文本。然后,我们应用统计学技术,来建立一个翻译模型。”可见,不同于传统的基于规则的方法,Google Translate的检索策略是基于语料库的方法。它用统计学方法从大规模语料中分析和归纳语言现象和规律,再用得到的统计规律或语言模型来处理自然语言。不过在实际使用中,效果差别不大。
2.2 搜索引擎的***翻译工具
无论搜索引擎是否具有跨语言检索功能,但是它们提供的各种各样的翻译资源也是很重要的研究工具。除了现有的各种词典外,还有不少的***翻译工具。另外,如AltaVista提供的***翻译工具Babel Fish,可以为用户翻译一段字数多达150字的文本。搜狗百宝箱中的***翻译也可起到辞典和翻译短文的作用。
3 不足与改进建议
跨语言搜索引擎现正处于方兴未艾的状况,因此也存在许多不足与缺陷。找出它们的问题所在,并提出改进的建议,才是推进CLIR的实际措施。
3.1 跨语言搜索引擎的不足
3.1.1 实用性方面,如今CLIR的技术已经取得了长足的进步,但即使是最好的CLIR系统的性能整体上和发展成熟的单语言检索系统仍有差距。在真实语境下跨语言检索系统及其相关工具还是非常缺乏,现有技术离真正的实用化还有一段距离[6]。
3.1.2 交互性方面,大多数跨语言搜索引擎都没有做到与用户的良好互动。单语言搜索引擎在检索结果下方显示相邻和相关词汇的功能,跨语言搜索引擎就不具备。在急需词义消歧的情况下,搜索引擎的交互性显得更加重要。
3.1.3 准确性方面,由于使用商业机器翻译系统,跨语言搜索引擎和***翻译工具的翻译准确程度显然跟不上用户的需求,当翻译语法结构复杂的文本时更是如此。而真正意义上的CLIR应该是在文档层次进行翻译的。翻译精度不高往往会造成用户对检索结果难以理解。
3.1.4 灵活性方面,传统的基于规则的方法灵活性较差,容易忽略语言中那些经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象。
3.2 改进建议
3.2.1 加强跨语言搜索引擎的系统交互性,采用查询扩展。许多检索词在双语词典中的译项并不唯一,且这些译项所表达的意思有时相差甚远。查询扩展则是在用户输入检索提问后,采取一定策略,对用户的检索要求进行扩充。这样一来,就可以提高检索结果的检全率。同时,要建立用户反馈机制,以求改善CLIR系统。
3.2.2 加强通用商业机器翻译软件的研究,提高机器翻译的质量。在CLIR中,解决语言障碍的基本方法是两种语言之间的翻译,而所有的翻译方法都离不开机器翻译、双语词典、语料库等作为翻译的语言基础。目前的通用商业机器翻译软件普遍质量较低。成为制约CLIR在搜索引擎中广泛应用的一个关键因素。同时,要逐步从限制性强的基于规则的策略过渡到基于语料库的策略。
3.2.3 加强Web语料库的建设。语料库是大量文本的集合,由相互对应的两种语言的素材构成。通过建立语料库收集大量单语或双语语料和词典,可以从中获取语言知识和翻译知识。另一方面,还要克服Web资源种类繁多、数量庞大、所涉及的语种众多,以及Web资源版权保护等给Web语料库建设带来的困难。
4 结语
CLIR研究真正活跃起来并取得成果,是在Internet迅猛发展的20世纪90年代后期,一些实验性CLIR技术相继问世[7]。然而经过十几年的发展,跨语言搜索引擎还是很少,效果也不尽如人意。但是相信随着网络的发展、信息技术的进步和对CLIR技术研究的深入,CLIR能够在将来普遍应用于搜索引擎之中。如今垂直跨媒体搜索引擎发展的如火如荼的良机之下,将来CLIR内容也不会局限于文档检索,而是扩展到跨语言***像检索、跨语言语音检索、跨语言视频检索、跨语言交互式检索、跨语言问答系统、跨语言新话题发现和跟踪等。
参考文献:
[1]中国互联网络信息中心.第25次中国互联网络发展状况统计报告.2010(1).
[2]Net craft.June 2010 Web Server Survey.http:// /archives/2010/06/16/june-2010-web-server-survey.ht
ml#more-2249.2010-06-16.
[3]吴丹.多语言处理技术——数字***书馆的关键技术,2010(5).
[4]华薇娜.搜索引擎的最新进展述要.***书与情报,2009(6).
[5]郭华庚,赵英.跨语言信息检索研究与应用.现代情报,2008(9).
信息检索篇7
摘要:文章围绕网络信息检索服务方式、检索方式及用户培训三大环节,针对过于倾向传统信息服务方式、检索方式“边际效应”严重及用户培训质量不容乐观等一系列问题,提出高校***书馆网络信息检索服务的对策建议,以提高高校***书馆网络信息检索服务水平,完善高校***书馆网络信息检索服务体系。
1高校***书馆网络信息检索的特征
随着信息时代的到来及互联网的广泛应用,高校***书馆信息检索也呈现网络化,进而高校***书馆网络信息检索倍受人们关注,成为信息时代影响力最大的信息检索系统,并获得了广大用户的高度认可。最重要的是,高校***书馆网络信息检索秉承以“简单化、智能化、个性化、多样化”为特征的服务理念,来实现高校***书馆网络信息服务建设(见***1)。
1.1简单化———网络信息系统的易用性
对于高校***书馆网络信息检索服务而言,所谓简单化则是指高校***书馆网络信息系统的易用性。高校***书馆网络信息检索具有良好的“人—机”会话界面与帮助支持系统,有关操作程序都在后台进行,用户不需掌握专业的检索原理与技术支持等技能,只需要按照高校***书馆检索指南中的步骤操作即可,无须花费太多的时间即可掌握使用方法。1.2多样化———多角度、多信息载体检索信息资源高校***书馆网络信息检索的多样化特征是网络信息简单化的延伸,在网络信息系统易用性的基础上从多角度、多信息载体中检索用户所需的信息资源[1]。如:利用网络环境与搜索引擎等工具检索自己所需的信息资源;在高校***书馆建设的专门数据库检索系统中,通过检索全文、关键词、题目、专著、作者名称等,检索出所需的信息资源。
1.3智能化———自动分析用户的需求
在信息化时代,高校***书馆网络信息检索智能化是信息检索系统的发展方向。智能化分析比正常分析显得更有智慧,现代高校***书馆网络信息检索系统引用了人类的大脑思维,根据用户所需的要求自动进行识别与分析,并将用户查询请求传递给链接的多个***型搜索引擎查询处理,其检索过程与知识已经在检索系统中智能运转,用户可直接获得所需的信息资源。
1.4个性化———针对不同用户提供不同特色检索服务
高校***书馆网络信息检索个性化是根据用户需求而展开的特色与个别服务,主要是基于信息用户的信息检索行为、习惯、偏好及其个人特点等多个方面,针对不同用户的个体信息需求提供不同检索服务[2]。如今网络化的普及促使现代信息技术飞速发展,高校***书馆开展信息检索个性化服务更具有优势,网络信息检索不仅与网络信息服务密切联系,还具备一些深受科研人员、学术研究人员喜爱的新特色,因为这类用户群体需要高质量、专业化、针对性与及时主动推送的最新信息服务。
2高校***书馆的网络信息检索服务体系
高校***书馆网络信息检索服务分为服务方式、检索方式及用户培训方式三类内容,各类方式又具备自身的各项功能(见***2)。64第36卷第9期河南***书馆学刊2016年9月。
2.1服务方式
2.1.1传统信息服务方式。传统信息服务方式是信息需求者向信息提供者索取信息的一种信息服务方式,是通过“拉取”方式而实现的。但随着信息网络化时代的到来,其未能更好地满足用户需求,获取信息时间长、费用高、信息传输效率低、服务器被动服务及信息资源浪费等一系列问题成为其应用于实际的瓶颈。2.1.2主动信息服务方式。主动信息服务方式是信息提供者主动向信息需求者提供信息的一种信息服务方式,在不需要用户指示与干预的情况下,可根据用户的需求与偏好,自动按照用户的需求为其提供相应的信息资源。其思想核心实现了信息服务系统的“被动响应”向“主动响应”的转变,是新时代高校***书馆网络信息服务的发展方向。
2.2检索方式
2.2.1分类语言检索方式。分类检索是指从学科和专业角度根据系统信息资源有序化的分类体系进行信息输出的族性检索方式,包含分类导航、期刊导航及分类检索等三大内容。分类导航与期刊导航是指利用网络信息检索系统,通过明细分类科目的所属关系的方式,逐层浏览并检索出所需信息资源的一种检索服务方式。分类检索是选定不同层级的类目,利用主体语言检索方式对检索活动进行学科范围针对性限定的检索方式。分类导航、期刊导航及分类检索三者都为分类语言检索方式,在相辅相成的同时也存在一定的差异性,如:分类导航直接检索为“论文”;期刊导航初次检索为“期刊”,二次检索是“论文”;而分类检索则是在检索前就设定学科专业的范围,突出分类语言的检索方式。2.2.2主题语言检索方式。主题语言检索方式分为初级检索与高级检索。初级检索的实现形式又包括快速检索与基本检索。快速检索是讲究速度,只需要输入关键词即可查询到信息结果的简单的检索方式。基本检索关系到多个方面,是对年度、作者、学科、专业、机构等多项途径进行限定的一种检索方式。无论是快速检索还是基本检索都采用单检索词进行。此外,高级检索相对初级检索要复杂些,不仅需要对检索结构进行形式限定,还需要通过多检索词对其内容进行限定,综合运用布尔逻辑、位置逻辑、截词技术和限定技术对多个检索词进行逻辑组合,构造出能够表达信息检索诉求的检索策略,以提高检索结果的准确度。
2.3用户培训方式
2.3.1教学科研类培训方式。该种用户培训方式主要以教学科研为主,面向的主体对象为学校的教学科研人员及在校研究生。在高等院校,这类人员的知识层次较高,信息意识也较强,可采用“网络信息检索”培训班与计算机信息检索课的方式对其进行信息检索原理、信息资源特征、信息检索技巧等培训,从而全面提高教学科研类用户群体的综合信息检索素养,并使其掌握检索技能。此外,也可采用理论与实操相结合的讲解方式同步进行,以取得良好的培训效果。2.3.2技术人员与大学生类培训方式。这种用户培训方式的培训主体对象为在校技术人员与大学生群体,因为这类用户群体比较讲究学以致用,可采用“网络信息检索”培训班与文献检索课程的培训方式进行培训,主要是介绍计算机检索的原理及通过上机实习来运用检索语言表达信息需求,以提高检索效率,提高用户群体信息检索的能力。
3高校***书馆的网络信息检索服务问题及对策
3.1创新“传统+主动”双向结合新模式高校***书馆习惯倾向于传统信息服务方式,但随着信息网络化时代的到来,获取信息时间长、费用高、信息传输效率低、服务器被动服务及信息资源浪费等问题,影响着高校***书馆的信息检索服务建设。为了弥补传统信息服务方式的弊端,高校***书馆可创新“传统+主动”双向结合新模式,在原有的传统信息服务基础上,充分利用现代智能推拉、用户及信息过滤技术一体化等信息技术,完善计算机用户检索服务系统。主动推送服务系统具备主动信息、预测需求、采取信息、处理信息、挖掘知识、人机交互及主动使用用户等特征。该系统能够根据用户的需求、偏好或者事先的约定事件,不需人的指示而自动进行网络信息检索服务工作,可主动将用户所需的信息安全准确地传送给用户,以提高高校***书馆网络信息检索服务效率[3]。
3.2紧抓检索方式“质”的建设
每一个网络信息检索系统都通过多种形式提供初级检索、高级检索和分类检索,高校***书馆也不例外。初级检索、高级检索及分类检索的检索顺序呈“边际效应”递减现象,初级检索使用率最高,最易被用户接受;高级检索一般能为高级用户所使用;分类检索使用率很低[4]。由此可见,高校***书馆要紧抓检索方式“质”的建设,减少检索方式的重复建设、盲目充数以及由此造成的用户负担加重。74王艳***:高校***书馆的网络信息检索服务实践研究3.3“以点带面,以面带片”的训练与引导近年来用户培训质量不容乐观,不少高校的信息检索培训教师尚未能实际掌握构造检索策略的各种方法与技巧,要他们来传授实用的检索技能,显然是力不从心的,只有经验丰富、训练有素的专职检索人员才有可能胜任信息检索培训工作[5]。所以,高校对于出任专职检索人员的员工应当予以重视,迅速提高培训质量。因此,可由省级***书馆学会、信息学会及高校***工委组织与引导具备丰富网络信息检索经验的专家,对有一定实践经验的专职信息检索人员进行强化训练,再向教学科研类人员、在校技术人员与大学生等用户培训群体传授检索知识与技能,秉承“以点带面、以面带片”的方式,提高高校***书馆用户群体获取和利用网络信息资源的能力。
4结语
现代高校***书馆网络信息检索服务,要秉承以“简单化、智能化、个性化、多样化”为特征的服务理念,来实现高校***书馆网络信息服务建设。其中“简单化”旨在提高网络信息系统的易用性;“智能化”旨在自动分析用户的需求;“个性化”旨在针对不同用户提供不同特色检索服务;“多样化”旨在多角度、多信息载体检索信息资源。要想丰富高校***书馆网络信息检索服务体系,应当不断改进与完善过于倾向传统信息服务方式、检索方式“边际效应”严重及用户培训质量不容乐观等一系列问题,创新“传统+主动”双向结合新模式,紧抓检索方式“质”的建设,“以点带面,以面带片”地对用户进行训练与引导,从而提高***书馆管理水平,满足现代读者的真正需求。
参考文献:
[1]崔虹燕.网络信息服务方式的转变及面临的问题[J].甘肃科技,2007(7):21-22.
[2]梁爱东,韩丽.网络信息用户教育培训策略研究[J].曲靖师范学院学报,2007(3):107-110.
[3]孙悦民.网络信息系统三种核心检索方式的分析[J].高校***书馆工作,2009(5):54-62.
[4]张庆杰.谈网络信息检索下高校***书馆的信息服务工作[J].黑龙江档案,2013(4):134.
信息检索篇8
【关键词】计算机信息检索***书情报相关影响
计算机信息检索是利用计算机系统有效存储和快速查找的能力发展起来的一种计算机应用技术,该技术的应用彻底颠覆了人们对传统***书馆服务的认识[1]。计算机检索能对大量信息进行储存,对信息条目进行分类、编目或编制索引。甚至可以根据用户要求从已存储的信息集合中抽取出特定的信息,具有对相关信息进行修改和删除的能力。本文将对计算机信息检索在***书情报中产生的影响进行分析,分别从:计算机信息检索相关研究、计算机信息检索对***书情报产生的影响、两个部分进行阐述。
1计算机信息检索相关研究
计算机信息检索是由一次性信息检索系统与二次性信息检索系统构成[2]。一次性信息检索可以对逻辑记录格式与记录关键字,或记录之间的关系进行确定,仅适用于单个条目,如:航空公司订票系统。二次性信息检索系统主要适用于信息条目本身信息量大且不常见修改的情况下,如:文献检索系统或***书。计算机检索发展经历了经历了联机信息检索—光盘信息检索—多媒体信息检索—网络信息检索四个阶段。联机信息检索是指用户利用检索系统终端与存储了大量信息资料的计算机数据库系统主机进行人机对话,联机信息检索与传统手工检索相比起来优势明显,该检索方式缺点在于费用昂贵,且在人机沟通方面具有一定困难。光盘信息检索是指用户通过光盘数据库联机来检索信息,该方式的优点在于传送速度快,工作效率高,其缺点主要表现在光盘数据库规模相对有限,不能存储太多资源[3]。多媒体信息检索对检索内容进行了不断丰富,扩大了检索范围,充分提高了信息检索质量及效果。多媒体信息检索优点在于能将声音、***像等元素充分结合于一体,为用户带来直观感受,但该检索方式的缺点在于所需空间过大,很难实现。网络信息检索是一种新型检索方式,它对于人们的生活、学习、工作都有一定影响,网络信息检索集中了联机信息检索、光盘信息检索、多媒体信息检索的优点,为用户提供了最有效的检索工具。综上,计算机信息检索实际上是对传统手工检索的革新,计算机信息检索在信息检索领域中占有很大比例,该技术为经济信息、全球性科技情报的获取提供了现实条件,能有效实现人类情报资源共享,为我国情报事业的发展奠定了基础条件。
2计算机信息检索对***书情报产生的影响
2.1形成新型信息交流体系
计算机信息检索促进了新型信息化交流体系的形成。用户可以利用该技术获得自己需要的信息资源,任何档案、情报、***书都可以通过信息交流体系来借阅或者咨询[4]。这种新型的交流体系为用户提供了方便、简洁的信息服务,能充分满足用户实际需求,促进高校***书情报工作的顺利开展。计算机信息检索技术在高校***书馆中的应用还不够成熟,难免会呈现出一些问题,但随着信息技术的不断优化,计算机信息检索一定会为读者带来更多便利。
2.2实现了载体多元化与功能全面化
计算机信息检索技术的充分运用,使信息载体越来越趋于多样化,文献资源可以根据不同的情况来选择不同载体,不仅可以将原有文献资源进行数字化处理,还能够根据用户实际需求增加新的文献[5]。此外,也使其功能越来越全面,网络信息存取速度、联机数据库以及用户满意程度都得到了大力提升,充分节省了资源存储空间,能够充分满足用户需求,为高校***书管理工作带来福音。此外,在计算机信息检索技术应用下,高校***书馆***书情报服务范围得到拓展,用户可以通过计算机信息检索搜索各种信息,使自身需求得到满足。
2.3促进工作人员素质水平不断提高
计算机信息检索对于***书情报工作人员自身素质提出了相当高的要求,为了掌握先进信息检索技术,工作人员必须不断提高自身素质水平,高校应该定期开展相关培训活动,帮助***书情报工作人员掌握先进知识与检索能力,利用科学管理理念,调动工作人员的积极性、主动性,加强团体凝聚力,让他们全身心地投入到高效率的***书情报工作当中。
2.4充分提高工作人员服务意识
计算机信息检索还能提高***书情报工作人员服务意识。高校科研设立奖励制度来激发***书情报工作人员工作热情,充分激发高校***书管理人员工作的主动性与积极性,加强对***书管理人员的培训,开展相关知识培训,随着网络的发展,***书情报工作人员必须学会利用计算机信息检索技术,更好地为人们服务[6]。此外,高校领导必须加强对高校***书情报工作人员基本素质的培养,最终达到***书馆人力资源的最优配置,提高工作效率的目的。高校领导必须给予一定支持,对优秀人员进行充分肯定与表扬,给予员工一些人文关怀,让员工感受到领导的关心,使其工作积极性得到不断提高。
3结语
信息技术飞速发展为我国各领域都带来了发展契机,同时也为我国当前高校***书情报工作带来了巨大的挑战,面对当前形势,***书情报工作人员必先积极应对挑战,努力掌握计算机信息检索技术,为高校***书馆全面发展奠定基础。高校***书馆领导必须对计算机信息检索技术充分肯定,多开展相关培训,促进***书情报工作人员自身素质水平的不断提高,努力满足用户需求,促进我国情报事业的大力发展。
参考文献:
[1]叶淑然.分析计算机信息检索对***书情报的影响[J].软件,2013(10):39~40.
[2]贾洁.我国“***书馆、情报与文献学”***书学术影响力报告——基于CSSCI的分析[J].中国***书馆学报,2010(02):56~69.
[3]明,崔莎,王婧文.2011年我国情报学研究进展[J].国家***书馆学刊,2012(03):17~24.
[4]刘宇,张云中,魏瑞斌,谢欢.***书情报学研究进展述评:2010-2013[J].***书馆杂志,2014(12):38~48.
[5]胡德华,种乐熹,邱均平,李俊.国内外知识检索研究的进展与趋势[J].***书情报知识,2015(03):93~106.
信息检索篇9
摘要:网络检索已成为参考咨询主要的信息检索方法。网络环境下参考咨询的信息服务要做好信息检索的各个步骤,掌握一定的网络检索技术和检索策略,高效、准确地检索所需信息。
关键词:网络 参考咨询 信息检索
随着科技的高速发展,人类进入了信息化时代。网络化信息环境的形成。作为***书馆核心业务之一的参考咨询服务,也进入了网络化电子信息服务的新模式。如何在多样化的信息海洋中为读者提供最专业化的服务,是当前参考馆员首要的业务追求。
一、 参考咨询的服务趋向
如今,随着网络技术的进步,馆藏印刷型源已经不是获取信息资源的主要渠道,互联网和各种专业数据库不仅内容更为丰富,其所提供的现代化检索技术极大地提高了信息的传递速度。网络数字信息资源体系使得参考咨询工作的基础由传统实体馆藏向虚拟馆藏倾斜。参考咨询服务也倾向于向读者提供有关文献信息的特征、组织体系、检索方法和使用方法等方面的咨询,开展专题咨询和定题咨询服务, 为读者的项目开发或管理决策等活动提供信息分析和研究服务。信息检索是参考咨询服务的核心业务,网络是开展该服务的主要工具,于是,探讨网络信息检索策略是馆员一直重视的研究课题。
二、 网络环境下参考咨询的信息服务过程
面对浩瀚无边的信息海洋,参考咨询馆员要使用准确、规范的检索语言,通过快捷的数据管理工具和科学的数据查询手段,从无数网络信息中检索出任何所需信息。这不仅要求馆员具有一定的信息检索技能,也需要懂得思维的灵活变动。有效地开展信息服务工作,一般需要经过以下几个步骤。
1、 咨询接谈
咨询接谈是参考咨询服务中第一环节,只有正确提取所需信息内容,了解信息要求,才能提高信息咨询的质量和效率,为读者提供所需要的信息服务。在接谈中,馆员要尽量排除有歧义、表述不当的信息问题,以保证以后检索的方向准确无误。
认真倾听,对咨询者所需内容有初步了解,继而加以思考,理解信息内容,分析信息结构,提取信息重点,对不清楚的地方进行有效提问以得到咨询者的确认,最后根据掌握的专业知识和经验,表述自己所理解的信息内容给咨询者听,确定是否有错漏,得到最终的信息要求。
2、 分析信息内容,确定检索工具
对于目标信息,馆员要进行细致分析,分解主题内容,确定反映内容的主要概念,以及概念里包含的显性的概念和隐性的概念,从而决定从何处开始检索哪些内容。
分析主题,可以看其是否有明确的主题关键词,主题范围覆盖哪几方面,是否含有隐性内容,从而确定下一步检索的关键词。
第二步,选择合适的网络检索工具。根据不同的检索需求,选择使用搜索引擎、主题指南或者专题数据库。
3、 发散思维,展开检索
3.1提取关键词
网络检索第一步在于关键词的选定。关键词是对表达文档主题起关键作用且具有检索意义的词语,可以是一个字、单词、短语或者句子,可以是从文档的标题、文摘以及正文中抽取的词语,也可以是其他与内容描绘一致的同义词或近义词。
对于比较清晰简单的检索内容,可以直接提取其关键词或者相应的同义词、近义词进行检索。对于不熟悉的学科信息,馆员应先通过各种查询工具,检索该主题的概念、性质,建立初步的认识,继而在模糊检索中不断改进、摸索并调整关键词。
馆员要善于转换思维角度,一些关键词具同义词或近义词的,或者其他与内容描绘一致的词语,可以利用其他表达扩大搜索范围。注意习惯用语,专业术语、同义词和近义词、全称和简称,能够大大减少漏检情况,增加相关信息的提取。在检索英文资料时,还应考虑英美不同的拼写形式以及检索词的单复数形式、缩写形式等。
3.2组合关键词
关键词有主题关键词和特征关键词。顾名思义,主题关键词就是指表述主要搜索内容的必用的词语,特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语。
3.3利用组配语法
(1)逻辑与:两关键词间用“+”或“and”或者空格连接。表示查找两词同时出现的信息。如“***书馆+读者服务”,指***书馆读者服务的信息。
(2)逻辑或:用“A | B”来搜索“包含A,或者包含B ,或者同时包含A 和B”的信息。如“|荷花”指含“”或者“荷花”。
(3)逻辑非:两关键词间用减号连接(减号前后必须留一空格)。表示查找前者而非后者的信息。如“音乐 -交响乐”指不含有交响乐在内的音乐。
(4)双引号可将包括在内的多组字词作为整体搜索。如查询深圳***书馆的信息,输入“深圳***书馆”即可,若无双引号则在原有基础上增加“深圳”和“***书馆”两个***主题的资料。另外,还有“*”和“?”,代表任意关键词,可查询到包含A和B且中间出现其他内容的信息。如“1公斤= ? 斤”,会得到结果:“1公斤=2斤”。
3.4利用二级检索功能
二级检索指利用前一次检索的结果作为后一次检索的范围,逐步缩小检索范围,即在上一次的关键词查询结果中,再用本次键入的关键词进行查询,逐步提炼出更符合检索需求的检索结果。
3.5使用高级检索
高级检索即利用某些检索工具的检索界面上提供的检索条件、范围选择、参数设定等功能键,通过对信息时间、类型、语种、数量等的限定,指定附加的检索条件,以缩小查询的范围。
三、网络信息检索的结果偏差与改善措施
检索人员在探索未知,解决难题的时候,所查找的往往不是自己所了解的东西,也就是只知道需要查找的显性信息,却难以说出还应了解的其他隐性信息,于是提交给检索系统的检索式是不全面的、非完美的。
另外,对认识的信息需求的表达不确切,也会造成检索障碍。由于检索人员理解能力、专业知识和信息处理能力的原因,导致信息需求表达的片面性、不彻底性、不确切性,使检索结果偏离原意。
不能完全地、确切地构造信息需求表达式,或者说检索者所建立的信息检索关键词的失误,是造成信息检索结果偏差的主要原因。准确地表达信息需求是成功地实施信息检索的前提。
要高效检索信息,在分析主题概念,组合检索关键词,然后选择合适的检索工具进行检索的整个过程中,注意以下几点:
1. 边检索边学习。检索是一个学习和摸索的过程,看一看上一次的搜索结果,对比与要求信息的偏差程度,是否还需要对已构造好的检索词或检索式进行必要的修改。
2. 适当地缩小和扩大检索范围。在查全率和查准率中寻求较好的平衡点,根据情况进行检索词汇的控制, 提高检索语言的质量, 降低误检率和漏检率。对于偏离原意的检索策略,要及时放弃。
3. 选择多个搜索引擎或数据库,以弥补单个搜索引擎数据库在覆盖面和容量、规模上的局限,或直接使用多个元搜索引擎,从而扩大检索范围。
4. 利用搜索引擎的“帮助”, 以熟悉搜索引擎提供的各种检索途径, 发挥其检索功能, 并灵活运用所提供的检索方式进行组配查询。
信息的检索不仅要求掌握基本检索技能,也是对检索人员思维方式的一种考验。要认识和洞悉各种纷繁复杂的信息的背后的本质规律,不断调整个人思维方式和检索方法,培养自身的信息检索能力。思考多了,实践多了,自然能驾驭信息检索这个灵活的任务,更好地开展参考咨询服务工作。
参考文献:
[1]肖剑平.网络信息检索失误认知与检索技巧的改善[J].情报探索.2007(7)
[2]马雪.浅谈互联网经济信息的检索技巧[J].当代***书馆.2007(3)
[3]叶仕平.浅谈***书馆网络信息检索方法与技巧 [J].科技情报开发与经济.2009(5)
[4]夏立新,陈光祚.再论网络信息检索的失误[J].情报科学.2004(1)
信息检索篇10
(盐城工学院***书馆,江苏 盐城 224051)
【摘要】随着信息技术的发展和数字化进程的加快,传统的***书馆的管理模式也正在经历着一场***。本文对什么是数字化***书馆以及数字化***书馆的重要特征和数字化***书馆的发展方向进行了重点研究和论述。
关键词 多媒体;信息检索;数字化;***书馆
作者简介:毕华(1965—),女,***书馆副研究馆员,已20余篇。
***书馆作为知识和信息的交流中心,几百年来一直受到人们的重视,并逐渐形成了一套完善的管理模式和科学方法。但随着信息技术的发展和数字化进程的加快,传统的***书馆的管理模式也正在经历着一场***。将计算机和网络技术应用于***书管理之后,就实现了***书的电子化管理和检索,但这并不是真正意义上的数字化***书馆。有些人认为将传统***书馆中的文本文献全部转化成电子文档就是数字化***书馆,这种观点也是错误的。一个完整意义上的数字化***书馆应具有以下几个特征:(1)采用计算机和数据库技术进行文献管理和检索;(2)馆藏文献不仅包括文本文献,而且包括各种多媒体形式的文献;(3)在分布式网络环境中以信息库的形式存在。当前,大多数***书馆都已基本具备了第一个特征。但具备第二和第三个特征的***书馆还寥寥无几。
1什么是数字化***书馆
所谓数字化***书馆,简而言之,就是一种拥有多种媒体内容丰富的数字化信息资源,能为读者方便、快捷地提供信息的服务机制。虽然被称之为“馆”,但它并不占用空间,很大程度上也不受时间的限制,因为它的存在方式是将文字、***像、声音等信息数字化,并通过国际互联网传输,从而做到信息资源全球共享。与以往的***书馆最大的不同就在于:它变集中“人”为集中信息和服务——“馆”的形式并不重要,其水平高低取决于“软件”质量。在专家眼中,一个建设完备的数字***书馆应当成为重要信息的生产基地,多种信息资源的聚集中心;读者、专家、***书馆员交互的枢纽;信息发现、搜索、捕捉的导航站点;为用户提供高水平服务的知识喷泉。
2信息资源检索的数字化与网络化是数字化
***书馆的重要特征:
电子计算机技术、通讯技术和多媒体技术相结合的现代信息数据处理技术的迅猛发展,加快了社会信息化的进程。遍布世界各地的Internet加速了世界范围内数字化和网络化的信息环境的形成。高校***书馆正是借助于现代信息技术在***书馆的应用,推动改革和扩展了***书馆的各项职能。信息资源检索服务也是其中之一。
信息资源检索(Information Resource Retrieval)是将信息按一定的方式 组织或存储起来,当读者或用户需要时找出或提供有关信息的过程。或者说,信息检索是将检索者提问的特征与检索标识进行比较,将检索和提问特征一致或相似的信息查找出来。信息检索包含资源存储的检索。信息检索有文献检索,数据检索和事实检索三种类型。文献检索是检索文献资料,是从已存储的文献中查找出所需文献的过程。文献检索可检索出某一国家和某一作者的文章和著作,事实检索是检索所需的事实,数据是检索确切的数据。
随着以计算机技术,尤其是网络技术为核心的现代信息技术的不断进步和在***书馆的运用,高校***书馆的信息检索服务正在由传统的手工文献资源检索向计算机系统的OPAC检索发展。尤其是广大师生员工查找***书馆资料所需的时间进一步缩短,加快了信息检索的速度,提高了信息检索的效率。
今天的计算机检索技术发展极快,已由脱机向联机检索和网络检索过渡。脱机检索是指以***的计算机为单位,利用光盘、磁盘、磁带等存储介质进行的信息检索。联机检索系统是20世纪70年代随着计算机和通讯技术的飞速发展,信息检索服务进入网络环境而发展起来的信息检索系统。联机检索是利用通讯设备与存储有信息的计算机相联结查找有关信息的过程。检索者在通讯线路畅通的环境下,应用计算机终端设备与主机进行人机对话查找信息的过程。检索者可在检索过程中随时修改自记的检索策略,直到获得满意的结果。世界上规模最大的计算机联机数据库检索服务系统有美国俄亥俄州***书馆计算机中心的OCLC,美国络克希德公司的DOALOG,美国系统发展公司的ORBIT,美国医学***书馆的MEDLINE,欧洲空间组织的ESA,日本的JOIS等。联机检索不受地理位置的限制,多用户可同时进行检索。检索速度快,功能多,打印输出灵活方便。
今天,高校***书馆依托Internet开发和应用的服务项目众多。网络信息检索只是其中最具优势的服务项目之一。Internet上运行有功能完善的信息检索工具,如Gopher、WAIS、WWW等。Gopher(分布式信息服务系统)是Internet的重要信息检索工具。它采用客户机/服务器结构,通过多级菜单界面便于检索者查看校园网的各种信息。WAIS(广域信息网)是Internet上的文本信息资源检索工具。它为检索者提供的自然语言界面受到检索者的普通欢迎。WWW(环球网)是Internet上最先进的网络信息检索系统。它集超文本技术,网络技术和多媒体技术为一体。WWW的浏览器/服务器模式具有优化的结构和强大的功能,也是最受检索者喜爱的信息检索系统之一。Internet技术遵循统一的协议将不同的信息系统连结起来,将世界上成千上万台服务器联成一体,实现了各个信息系统向整体化和集成化的转换。各高校***书馆应用Internet技术建立本馆的Web网站和OPAC,便于检索者在各个地理位置的联机终端访问***书馆并快速地检索各学科的专业信息。因此,无论你在家中或在办公室都可以检索到高校***书馆网页上的网络数据库或全文数据库。
高校***书馆作为各校教学和科研的信息资源中心,大多购置和拥有丰富的馆藏印刷文献资源,电子文献资源和网络信息资源。尤其是大量的国内外光盘全文数据库和网络信息资源在高校***书馆的Web网站的OPAC上可无缝链接检索。如“中国学术期刊数据库”,“中国高等教育文献保障目录”、“万方数据光盘检索系统”、“科学引文索引”Web版数据库,美国俄亥俄州OCLC书目数据库和全文数据库等等。此外,有的高校***书馆还根据本校重点学科建设引进一些入编质量高和数量大的世界高水平的学术性网络数据库及电子期刊全文数据库。
总之,拥有丰富的信息资源和多渠道检索方式的高校***书馆借助现代信息技术的确为检索者访问***书馆,尤其是访问***书馆的Web网站及时获取所需的信息和及时了解所学专业的发展动态提供了极大的便利。
3多媒体与超媒体信息检索技术是数字化
***书馆的发展方向:
随着信息查询系统的不断发展,多媒体与超媒体信息检索已得到广泛应用,多媒体与超媒体信息检索服务系统是一种人机交互的、以多媒体信息库为基础的、提供信息服务的系统。在多媒体与超媒体信息检索服务系统问世以前,在电信领域有可视***文系统,在计算机领域有文献资料检索系统和各种数据库检索系统。因此,从信息检索服务的角度来看,多媒体与超媒体信息检索服务是可视***文、各种数据库检索服务的自然发展。这种发展和变化的动因是信息从单一媒体表示发展为多媒体表示。高校***书馆要成为名符其实的数字化***书馆,必须逐步发展和提供多媒体与超媒体信息检索服务体系。
多媒体与超媒体信息技术是一个新的领域,其有关技术正在发展之中,尚有许多待研究的课题。多媒体与超媒体信息技术的发展对信息存储管理、人机界面的开发提供有力的支持,它作为人类信息通信与信息联想的工具,将促进计算机和多媒体技术应用(下转第288页)(上接第248页)的深入与发展,也有利于促进数字化***书馆的高速发展和功能的不断完善。
参考文献
[1]张文俊.当代传媒新技术[M].上海:复旦大学出版社,1998,8.
[2]张树京,陈渔源.多媒体通信和发展和应用[J].上海铁道大学学报,1994,3,15(1).