信息检索技术已经成为我们工作、生活必不可少的技术,它帮助我们从无限的信息海洋中查找我们需要的水滴。随着使用的普及,信息查询技术自身的发展也突飞猛进。
7月23日至27日,在荷兰的阿姆斯特丹举办了第30届国际ACM SIGIR(美国计算机协会信息检索专业组)年会。SIGIR是信息检索领域内最重要的展示最新研究成果和演示新系统、新技术的国际论坛。此次会议吸引了来自30多个国家的500多名专家与学者参会,会议接收的论文中不乏我国学者的研究成果。
本次会议还在最后一天组织了产业会议(Industry Event),这是SIGIR第一次将该研究领域内的相关企业组织在一起,探讨共同关心的话题。各企业也纷纷响应,共有100多人参加了这个活动、10余家企业派出代表在会上发言,这也反映了商业信息检索应用的兴起正在受到越来越多人的重视。为此,会议还决定,明年在新加坡举行的第31届SIGIR年会上将继续举办这样的活动,为该领域内的企业提供更好的交流平台。来自瑞士联邦理工学院的Peter Schauble教授主持了本次会议。
个人搜索:注重体验
个人搜索是大家最为熟悉的,目前技术发展最为成熟,市场竞争也最为激烈。目前,各大搜索公司不仅关注搜索产品本身的全方位改进,而且还大规模开发周边产品,以搜索为核心向用户提供更好的体验。
百度公司在我国的搜索市场占有率领先其他公司。在此次会议上,其首席科学家张以纬(William Chang)作为个人搜索企业的代表发言,向世界同行介绍了百度公司以及百度对搜索的理解。百度认为:真正的搜索是有效的、可扩展的、分布式的,能够实时更新索引。对于中文,百度还特别强调词的意义远远大于字的意义。此外,张以纬还介绍了百度的竞争特点,如处理过程、周边产品、商务应用等,这些都源自用户体验。
Google在世界各国都占有相当比例的搜索市场,这与它不断探索新技术息息相关。Google公司搜索质量组的软件工程师Maureen Heymans在此次会议上介绍了他们的最新研究成果,即帮助用户获取真正需要的信息。对于用户所输入的信息和用户切实想要得到的内容之间的转换,Google提供了四种新的工具,分别能够实现错误拼写更正建议、查询建议或者替换查询、为不同地区提供相关的搜索结果和跨语言搜索。目前,这些研究成果已经部分应用,对于提升用户体验起到了一定的作用。
尽管微软在信息检索领域可说是“后起之秀”,但其强大的研究实力是不容忽视的,它们往往给用户带来意想不到的惊喜。在此次会议上,来自微软剑桥研究院的Nick Craswell就介绍了微软在***像搜索方面的研究进展。微软通过对历史数据的分析,发现***像搜索用户在搜索结果的第一页就得到自己想要结果的概率(43%)远远低于文本搜索时的概率(75%)。为了更好地帮助***像搜索用户,微软在其Live Search中使用了无限滚轴、结果***像大小自适应、元数据隐藏、幻灯片显示效果等技术,能够更好地满足用户的需求。
作为搜索领域的老大哥,Yahoo在研究创新方面也丝毫没有放慢脚步。在此次会议上,主管Yahoo自动内容分析工作的Byron Dom就介绍了他们在Yahoo Answers中使用的自动归类技术。该技术将机器学习方面的研究成果应用于搜索产品中,极大地增强了系统的人工智能,更加方便用户的使用。
企业搜索:蕴含商机
企业搜索是个人搜索在企业内的延伸,能够在企业内部获取工作所需的各种最新最全面的信息,以便更好地为企业带来效益。企业用户对信息的需求不仅仅限于简单的查询结果,而是结合搜索、数据库查询、语义和句法分析、分类和聚类、相关性分析等技术,整合现有的信息资源,提炼出具有商业价值和社会价值的数据。
企业搜索的目标具有很强的多样性和离散性。这是因为网页只是目标资料库中很小的一部分,企业各种有价值的信息大多存放在数据库或是Word、Excel、PDF等非结构化电子文档中。而且,这些资料的存放位置也不是惟一的,它们很可能分布在不同地点、不同操作系统的计算机里。另外,企业搜索对安全性的要求也比个人搜索严格得多。因此,企业搜索不仅是搜索公司关注的重点,同时也受到传统IT企业的青睐。
在商业环境下,如何判断某一信息是否对企业工作有帮助,最终找到所有有用的信息,是企业搜索中的重要问题。来自SAP公司Palo Alto研究中心的高级研究员Omar Alonso介绍了他们在这方面的研究进展。
如何将搜索到的内容整合为实际可用的信息,进而实现其商业价值,是企业搜索的目标所在。来自IBM公司Haifa研究实验室信息与交互技术部的高级经理Aya Soffer讲解了IBM在这方面的工作,将整个过程分为搜索、分析和发现三个部分,其OmniFind目前已经能够达到较好的效果。
此外,来自Orcatec公司的负责人还介绍了他们在企业搜索安全性方面的工作。
垂直搜索:潜能无限
垂直搜索是针对通用搜索信息量大、查询不准确、深度不够等问题提出的新的搜索引擎服务模式,为某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩,相比通用搜索的海量信息无序化,垂直搜索显得更加专注、具体和深入。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地***搜索、MP3搜索、***片搜索……几乎各行各业、各类信息都可以进一步细化成各类的垂直搜索引擎。
垂直搜索和普通搜索的最大区别是,它对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据。网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位;而垂直搜索是以结构化数据为最小单位,然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引,再以搜索的方式满足用户的需求。整个过程中,数据由非结构化抽取成结构化,经过深度加工处理后返回给用户。另外,垂直搜索抓取的数据来源于其关注的行业站点,更倾向于结构化数据和元数据,并且其搜索行为都是基于结构化数据和元数据的结构化搜索。
Scirus公司就是众多垂直搜索厂商中的一员,它专注于学术研究领域的垂直搜索。其高级产品经理Craig Scott介绍了公司将Elsevier(国际知名学术论文数据库)中的引用和摘要数据库Scopus整合到网页内容的经验。此举对研究人员从海量数据中获取自己研究领域相关的信息起到了重要作用。
德国Hildesheim大学的Thomas Mandl教授作为CH联盟(该联盟由几个社会组织和高校组成,和***府组织研究信息检索)的代表介绍了该联盟的一个研究项目。这个项目对企业网站的垂直搜索和公众网站的普通搜索进行了研究比较,结果表明,普通搜索在数据优化、更新控制和无关信息排除等方面的表现差强人意。
未来技术:影响久远
在此次产业会议上,还有很多组织和企业的代表发言,一部分展示了有望推进未来信息检索技术发展的工作,一部分谈到了对未来信息检索技术的需求。例如:Collexis公司的Edward Vergragt博士介绍了他们基于指纹的搜索技术,荷兰国家***书馆的技术产品经理Marian Hellema则介绍了他们在数字化中遇到的难题。
转载请注明出处学文网 » 搜索个人、企业、垂直三大搜索新进展