搜索个人、企业、垂直三大搜索新进展

信息检索技术已经成为我们工作、生活必不可少的技术,它帮助我们从无限的信息海洋中查找我们需要的水滴。随着使用的普及,信息查询技术自身的发展也突飞猛进。

7月23日至27日,在荷兰的阿姆斯特丹举办了第30届国际ACM SIGIR(美国计算机协会信息检索专业组)年会。SIGIR是信息检索领域内最重要的展示最新研究成果和演示新系统、新技术的国际论坛。此次会议吸引了来自30多个国家的500多名专家与学者参会,会议接收的论文中不乏我国学者的研究成果。

本次会议还在最后一天组织了产业会议(Industry Event),这是SIGIR第一次将该研究领域内的相关企业组织在一起,探讨共同关心的话题。各企业也纷纷响应,共有100多人参加了这个活动、10余家企业派出代表在会上发言,这也反映了商业信息检索应用的兴起正在受到越来越多人的重视。为此,会议还决定,明年在新加坡举行的第31届SIGIR年会上将继续举办这样的活动,为该领域内的企业提供更好的交流平台。来自瑞士联邦理工学院的Peter Schauble教授主持了本次会议。

个人搜索:注重体验

个人搜索是大家最为熟悉的,目前技术发展最为成熟,市场竞争也最为激烈。目前,各大搜索公司不仅关注搜索产品本身的全方位改进,而且还大规模开发周边产品,以搜索为核心向用户提供更好的体验。

百度公司在我国的搜索市场占有率领先其他公司。在此次会议上,其首席科学家张以纬(William Chang)作为个人搜索企业的代表发言,向世界同行介绍了百度公司以及百度对搜索的理解。百度认为:真正的搜索是有效的、可扩展的、分布式的,能够实时更新索引。对于中文,百度还特别强调词的意义远远大于字的意义。此外,张以纬还介绍了百度的竞争特点,如处理过程、周边产品、商务应用等,这些都源自用户体验。

Google在世界各国都占有相当比例的搜索市场,这与它不断探索新技术息息相关。Google公司搜索质量组的软件工程师Maureen Heymans在此次会议上介绍了他们的最新研究成果,即帮助用户获取真正需要的信息。对于用户所输入的信息和用户切实想要得到的内容之间的转换,Google提供了四种新的工具,分别能够实现错误拼写更正建议、查询建议或者替换查询、为不同地区提供相关的搜索结果和跨语言搜索。目前,这些研究成果已经部分应用,对于提升用户体验起到了一定的作用。

尽管微软在信息检索领域可说是“后起之秀”,但其强大的研究实力是不容忽视的,它们往往给用户带来意想不到的惊喜。在此次会议上,来自微软剑桥研究院的Nick Craswell就介绍了微软在***像搜索方面的研究进展。微软通过对历史数据的分析,发现***像搜索用户在搜索结果的第一页就得到自己想要结果的概率(43%)远远低于文本搜索时的概率(75%)。为了更好地帮助***像搜索用户,微软在其Live Search中使用了无限滚轴、结果***像大小自适应、元数据隐藏、幻灯片显示效果等技术,能够更好地满足用户的需求。

作为搜索领域的老大哥,Yahoo在研究创新方面也丝毫没有放慢脚步。在此次会议上,主管Yahoo自动内容分析工作的Byron Dom就介绍了他们在Yahoo Answers中使用的自动归类技术。该技术将机器学习方面的研究成果应用于搜索产品中,极大地增强了系统的人工智能,更加方便用户的使用。

企业搜索:蕴含商机

企业搜索是个人搜索在企业内的延伸,能够在企业内部获取工作所需的各种最新最全面的信息,以便更好地为企业带来效益。企业用户对信息的需求不仅仅限于简单的查询结果,而是结合搜索、数据库查询、语义和句法分析、分类和聚类、相关性分析等技术,整合现有的信息资源,提炼出具有商业价值和社会价值的数据。

企业搜索的目标具有很强的多样性和离散性。这是因为网页只是目标资料库中很小的一部分,企业各种有价值的信息大多存放在数据库或是Word、Excel、PDF等非结构化电子文档中。而且,这些资料的存放位置也不是惟一的,它们很可能分布在不同地点、不同操作系统的计算机里。另外,企业搜索对安全性的要求也比个人搜索严格得多。因此,企业搜索不仅是搜索公司关注的重点,同时也受到传统IT企业的青睐。

在商业环境下,如何判断某一信息是否对企业工作有帮助,最终找到所有有用的信息,是企业搜索中的重要问题。来自SAP公司Palo Alto研究中心的高级研究员Omar Alonso介绍了他们在这方面的研究进展。

如何将搜索到的内容整合为实际可用的信息,进而实现其商业价值,是企业搜索的目标所在。来自IBM公司Haifa研究实验室信息与交互技术部的高级经理Aya Soffer讲解了IBM在这方面的工作,将整个过程分为搜索、分析和发现三个部分,其OmniFind目前已经能够达到较好的效果。

此外,来自Orcatec公司的负责人还介绍了他们在企业搜索安全性方面的工作。

垂直搜索:潜能无限

垂直搜索是针对通用搜索信息量大、查询不准确、深度不够等问题提出的新的搜索引擎服务模式,为某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩,相比通用搜索的海量信息无序化,垂直搜索显得更加专注、具体和深入。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地***搜索、MP3搜索、***片搜索……几乎各行各业、各类信息都可以进一步细化成各类的垂直搜索引擎。

垂直搜索和普通搜索的最大区别是,它对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据。网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位;而垂直搜索是以结构化数据为最小单位,然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引,再以搜索的方式满足用户的需求。整个过程中,数据由非结构化抽取成结构化,经过深度加工处理后返回给用户。另外,垂直搜索抓取的数据来源于其关注的行业站点,更倾向于结构化数据和元数据,并且其搜索行为都是基于结构化数据和元数据的结构化搜索。

Scirus公司就是众多垂直搜索厂商中的一员,它专注于学术研究领域的垂直搜索。其高级产品经理Craig Scott介绍了公司将Elsevier(国际知名学术论文数据库)中的引用和摘要数据库Scopus整合到网页内容的经验。此举对研究人员从海量数据中获取自己研究领域相关的信息起到了重要作用。

德国Hildesheim大学的Thomas Mandl教授作为CH联盟(该联盟由几个社会组织和高校组成,和***府组织研究信息检索)的代表介绍了该联盟的一个研究项目。这个项目对企业网站的垂直搜索和公众网站的普通搜索进行了研究比较,结果表明,普通搜索在数据优化、更新控制和无关信息排除等方面的表现差强人意。

未来技术:影响久远

在此次产业会议上,还有很多组织和企业的代表发言,一部分展示了有望推进未来信息检索技术发展的工作,一部分谈到了对未来信息检索技术的需求。例如:Collexis公司的Edward Vergragt博士介绍了他们基于指纹的搜索技术,荷兰国家***书馆的技术产品经理Marian Hellema则介绍了他们在数字化中遇到的难题。

转载请注明出处学文网 » 搜索个人、企业、垂直三大搜索新进展

学习

上海孙兴怀教授治好了我的开角型青光眼

阅读(41)

本文为您介绍上海孙兴怀教授治好了我的开角型青光眼,内容包括孙兴怀谈ucp治疗青光眼,开角型青光眼最好的大夫。我是一名来自武汉的求医者,今年83岁,患开角型青光眼已有近30年了。数年前,我曾在武汉先后做过小梁成形手术和滤泡修补手术,但术

学习

真纯百代 演绎百年

阅读(26)

北京真百代化妆品有限公司,是一家集化妆品研发、生产、销售为一体的大型企业。多年来公司一直秉承不断创新,永续发展的企业理念,力求做到产品配方创新、产品定位创新、销售通路创新、产品传播创新、终端运作创新。凭借着高瞻远瞩的战略思想

学习

城市燃气工程规划

阅读(27)

本文为您介绍城市燃气工程规划,内容包括城镇燃气规划主要内容,城市燃气工程系统规划的主要内容。[摘要]为了使得我国城镇的燃气工程更加安全和保质保量地提供,本文对城市燃气工程进行了总体规划,本规划比较适用于城镇居民点供给居民的日常

学习

数学分析论文范文

阅读(21)

本文为您介绍数学分析论文范文,内容包括数学分析论文怎么写,数学分析可以写哪些论文。数学分析论文范文第1篇一、端正渗透思想更新教育观念纵观数学教学的现状,应该看到,应试教育向素质教育转轨的过程中,确实有很多弄潮儿站到了波峰浪尖,但

学习

实战格斗徒手解脱技法

阅读(45)

本文为您介绍实战格斗徒手解脱技法,内容包括警务实战技能徒手解脱,格斗徒手解脱技巧。在近距离与敌相搏斗时,双方都在发挥着控制与反控制能力,有时自己难免会被对方缠住,受制于对方。此时,我们应当充分利用人体武器来解脱对方的挟制。运用勒

学习

浅谈剖宫产的指征

阅读(19)

本文为您介绍浅谈剖宫产的指征,内容包括有指征剖宫产什么意思,没有剖宫产指征给剖吗。我院2003年1月~2007年12月间,对280例孕妇作剖宫产术,现收集资料进行回顾性分析。旨在探讨我院高剖宫产率的原因,为进一步控制剖宫产率上升,寻找降低剖宫产

学习

爱提问的波波

阅读(15)

波波是一只爱提问题的花斑狗。不论遇到什么事儿,他都要问出个究竟来。这一天,波波在田里捡到一个比皮球小、比核桃大、像土块一样的东西。他想:这是个啥东西呢?这时,山羊公公从不远处路过。波波急忙跑过去,很有礼貌地问:“山羊公公,这个奇怪的东

学习

无锡卫生高等职业技术学校简介

阅读(30)

本文为您介绍无锡卫生高等职业技术学校简介,内容包括无锡卫生职业学院,无锡卫生职业技术学院分数线。无锡卫生高等职业技术学校(江苏联合职业技术学院无锡卫生分院)坐落在无锡新区,隶属于无锡市医院管理中心,学校占地面积154亩,拥有在校

学习

水洗高岭土在涂料领域的研究与应用

阅读(17)

本文为您介绍水洗高岭土在涂料领域的研究与应用,内容包括涂料用水洗高岭土的技术指标,水洗高岭土在涂料中的用途。本文通过对涂料的作用机理进行研究和分析,并探讨其在涂料领域内的实际应用情况,以进一步推进涂料工业的发展,促进水洗高岭土

学习

城市记忆与文化遗产

阅读(30)

本文为您介绍城市记忆与文化遗产,内容包括城市历史文化记忆,城市与文化遗产解析。本文论述了工业遗产保护与城市发展之间的关系。沈阳市铁西区工人村始建于1952年,这里居住着三代工人,他们都是老工业基地的缔造者。他们经历了工人阶级的辉

学习

底线裁判的是与非

阅读(19)

[概念]底线裁判的英文名称是“Additionalassist-antreferees”,即“附加助理裁判”。简单来说,底线裁判就是站在球场底线附近的裁判,一场比赛共有两名,每条底线外有1人,只负责自己所在一边的底线附近的裁判工作。[职责]与其他3位裁判相比,底线

学习

个股分析报告范文精选

阅读(134)

本文为您介绍个股分析报告范文精选,内容包括亚星客车个股分析报告最新消息,哈药个股分析报告范文。个股分析报告篇1【关键词】新财富报告最佳行业分析师消费升级截至2011年5月23日,A股股票家数达到了2139家,随着推出国际版块的脚步越来越

学习

“山寨警校”覆灭之后

阅读(270)

在经历近两年等待之后,五年前被北京房山一“山寨警校”骗去7万余元的湖南张家界小伙田礼杨,等到了让他高兴的消息。2012年12月19日,北京市第一中级人民法院判决该校创办人王鹏瑞犯诈骗罪,判处无期徒刑,,并处没收个人全部财产。根据记者获得的

学习

电力工程技术论文范文精选

阅读(34)

本文为您介绍电力工程技术论文范文精选,内容包括电力工程技术论文,电力行业技术论文范文。电力工程技术论文篇1叶盛尧广东电网有限责任公司东莞供电局广东东莞523306过电压指的是在配网运行的情况下,由于出现了特殊原因,导致工作电压严重

学习

水平营销VS垂直营销

阅读(16)

本文为您介绍水平营销VS垂直营销,内容包括水平营销和垂直营销的案例,垂直营销和水平营销交叉营销。中国民营企业发展到今天可谓一波三折,从计划经济到市场经济平台的转变,使很多中国民营企业开始了独自的航行,在市场经济的这个大海洋中,很多

学习

理性看待中国三大球

阅读(27)

本文为您介绍理性看待中国三大球,内容包括中国三大球是什么,如何看待中国三大球。足球,篮球,排球都是源于西方世界的球类运动。它要求的是体能特点、体力和技术的结合。这种结合比起力量和技术的结合更困难。它比较不太适合亚洲人,特别是东

学习

论垂直绿化中的攀援植物

阅读(17)

本文为您介绍论垂直绿化中的攀援植物,内容包括垂直绿化攀援植物,攀援植物在垂直绿化中的应用。随着城市园林绿化的用地面积愈来愈少,利用攀缘植物造景就越来越引起人们的重视,在越来越广泛的领域发挥其自身价值,彰显它们独特的景观魅力。关

学习

中山陵的三大杰作

阅读(161)

本文为您介绍中山陵的三大杰作,内容包括中山陵的杰出之处,建中山陵是谁的杰作。分别拍摄了《奉安大典》的中国电影先驱黎民伟与张玉亭,设计了南京中山陵的中国现代著名建筑师吕彦直、铸造了孙中山铜像的日本友人梅屋庄吉,这些已经将近淹没

学习

浅谈清式家具三大名作

阅读(26)

本文为您介绍浅谈清式家具三大名作,内容包括明式家具三大名作特点,清式家具代表作。[摘要]清代家具以其独有的富丽、豪华、稳重和威严为准则,为达到设计目的,利用各种手法,采用多种材料,多种样式,无所不用其极地装饰家具,形成了独特的清

学习

中国市场的三大机会

阅读(23)

本文为您介绍中国市场的三大机会,内容包括未来的市场机会存在哪些,当前市场最大的机遇。农夫每年辛苦耕作,要想有个好收成,必须弄明白他们赖以生存的土地是怎样的土壤,适合种什么样的庄稼,如果连这一点都搞不清楚,你就不可能有个好收成。那么

学习

能源消费三大问题及对策

阅读(31)

随着中国经济的发展,对能源的消耗日渐增多。从能源消费的角度来评价。目前中国已成长为仅次于美国的世界第二大能源消费国,而且能源消费的势头并未出现停滞的苗头。自2003年以来,中国能源消费始终保持着10%以上的增速,由此带来的能源供应瓶颈

学习

垂直搜索引擎系统研究与实现

阅读(17)

搜索引擎是一种互联网数据信息检索工具,它可以从复杂无序的信息中检索出用户需要的有用信息,将杂乱的信息变得有序、清晰。但由于网络上有着大量信息,搜索到的信息难免不够全面与精准,可能存在过多垃圾信息。为了很好地解决以上问题,一种新型