推荐系统综述

【摘要】“信息超载”问题日趋明显,简单的信息检索已经不能满足用户搜索准确信息的需求,推荐系统应运而生。尽管推荐系统被广泛应用于电子商务中,但是推荐算法还面临较多难题。文章首先介绍了推荐系统相关概念、算法,然后分析了这些算法的优劣,最后总结了推荐系统需要解决的一些主要问题和研究方向。

【关键词】推荐系统;信息检索;信息超载

1.序言

网络和计算机技术的高速发展,使信息资源呈几何级速度增长,“信息超载”[1][2]已越趋明显,而且信息资源的存储方式已发生了质的变化,由结构化文本数据到非结构化***片、音频、视频等数据的转变,增加了信息检索的难度,因此如何寻找到准确信息资源的方法显得尤为重要。

当前,信息检索是解决这一问题的主要方法,其能够满足简单的用户需求,没有个性化的服务,有两种检索方式:分类检索、关键词检索。分类检索是通过对信息的特征分类,让用户寻找需求的目录类别,从而实现信息查询,但是分类检索暴露出较多的问题:

(1)交叉学科不断出现增加了项目分类的难度,无法确定项目的类别;

(2)项目分类的规则无法统一,使得分类规则差异较大;

(3)用户需要反复查找项目分类,耗时耗力[3]。

关键词检索是目前搜索引擎的主流,通过校对预存储信息和关键词,将匹配度高的信息返回给用户界面,查询速度较快,但是关键词检索的查准率低,用户个性化程度低,任何用户搜索的关键词相同,检索出的结果也是相同的,这不能满足用户需求[4]。但是推荐系统[5][6][7]能够提供这一个性化服务,能够根据用户的特征,推荐满足用户需求的对象,其主要优点是能够主动收集用户的特征资料,通过对用户个性、习惯、偏好的分析,定制的向用户提供其感兴趣的信息,同时能够及时跟踪用户的需求变化,根据变化自动调整信息服务的方式和内容。

2.推荐系统的概念

从1990年代开始,推荐系统逐渐被大家进行研究,其内容涉及认知科学、近似理论、信息检索、管理科学等领域。很多学者对推荐系统进行了广泛的研究,美国学者ReSnick等人率先提出“推荐系统”一词,并通过对一个典型推荐系统的简单描述给出了推荐系统的定义:推荐系统以所有用户的意见作为输入,对用户的意见进行综合,将有价值的意见提供给某一适合的用户,系统的好坏取决于所提供意见与用户需求之间的匹配程度;GroupLens研究小组从电子商务网站的角度对推荐系统进行了定义:推荐系统采用数据分析技术预测用户对项目的偏好值或为用户产生一个top-N推荐列表,帮助用户搜寻出他们愿意购买的电子商务网站的项目;明尼苏达大学Konstan把推荐系统定义为:推荐系统利用群体意见,帮助群体中每名成员识别其最感兴趣或最能满足其需求的产品或信息。

3.主要推荐算法

目前推荐系统采用的推荐算法主要包括关联规则、基于内容的推荐、协同过滤和混合推荐。

3.1 基于关联规则的推荐

基于关联规则的推荐是以产品间关联规则为基础,把已购商品作为规则头,推荐对象作为规则体,通过数据挖掘发现项目之间潜在的联系以实施连带推荐[8][9]。

关联规则挖掘技术可以发现不同商品在销售过程中的相关性,在电子商务推荐系统中已经有了比较成熟的应用。在电子商务系统中会有保留用户交易记录的交易数据库,关联规则挖掘将对交易数据库进行分析,将会计算购买商品集X的记录集中有多少同时购买了商品集Y,当这个比例超过一定阀值时则认为商品集X与商品集Y存在关联规则,实际购物中有相当部分的用户在购买了某件商品时同时购买了另一件商品。基于关联规则的推荐系统依据计算分析所得到的关联规则,并基于用户的实际购买行为向用户实施推荐[10]。

如果规则同时满足预先设定的最小支持度与置信度,则我们把该规则作为强关联规则。

集合库中挖掘关联规则的实施步骤如下所示:

1)生成所有的频繁集,频繁集定义为所有支持度大于预先设定的最小支持度的项目集合。

2)从频繁集中产生强关联规则,必须同时满足预先设定的最小支持度与置信度。

以上步骤中步骤1是关联规则挖掘的关键,若数据交易库非常庞大,则计算复杂度随之升高。

3.2 基于内容的推荐

基于内容的推荐算法是通过提取用户历史交易记录和用户对产品评价的特征,对其分析并获取用户感兴趣产品的特征作为用户的购物偏好,同时对产品进行特征提取与表示,通过用户特征偏好与产品特征的匹配程度,以实施推荐[11]。

基于内容的推荐算法基本步骤为:

1)分析用户过去的浏览或评价记录,寻求一种文档表示方法对其进行表示,从而生成用户兴趣档案。

2)对用户未接触过的文档特征进行提取与表示。

3)将用户兴趣档案与新文档特征进行匹配,将匹配度最高的文档推荐给当前用户。

基于内容的推荐算法需要先创建每个用户的***模板,这里面存储着用户的一些基本信息,包括兴趣、爱好等信息,这些数据信息将随着用户的操作而实时地进行数据更新。

3.3 协同过滤推荐

协同过滤是筛选出一组与目标用户兴趣相近的邻居用户,根据邻居用户的偏好推测目标用户的偏好,向目标用户推荐其最有可能感兴趣的项目(如Web页面、音乐、视频、商品等),它是站在用户角度进行信息推荐,并且这些推荐信息是自动的,根据用户显式的操作(比如购买信息、网页浏览信息等)进行推荐。协同过滤算法与基于内容的推荐技术的算法相比,具有较多优点:

1)协同过滤算法能够解决内容过滤算法的产品关键字获取不完整或不准确而产生的问题,通过共享同组用户的信息为其推荐内涵较高的项目,比如信息质量、个人品味等这些信息不能表述清楚;

2)协同过滤算法能够挖掘用户隐藏的兴趣。内容推荐算法推荐的信息基本都是用户相对熟悉的内容,但是协同过滤算法能够发现用户潜在的但自己尚未发现的兴趣偏好;

3)协同过滤算法能够利用相似用户的反馈内容,提高个性化推荐的学习能力。虽然协同过滤算法是一种具有代表性的推荐算法,但是协同过滤仍面临较多的问题,如精确性、稀疏性、冷启动、扩展性。

3.4 混合推荐

按照不同的结合方法,混合推荐的集成方式有以下几种:

1)混合集成:它是将每个推荐算法的推荐结果进行集合,把这些集合推荐给用户。

2)加权集成:它是将每个推荐算法的推荐结果按照权值进行重新排序,把排序结果推荐给用户。

3)转换集成:它是根据不同推荐环境选择相应的推荐算法。

4)瀑布型集成:它是将两个推荐算法进行整合优化,实现一种推荐算法对另一种推荐算法的推荐结果优化。

5)特征组合集成:它与瀑布型集成相似,也是采用某种推荐算法对混合推荐结果进行过滤。

6)特征增值集成:它是将一种推荐算法的推荐结果作为另外一个推荐算法的输入。

混合推荐在实际应用中面临很多困难,需要解决不同的推荐技术进行有机集成问题,同时有实验表明,混合推荐并不一定比单独的某个推荐技术更好,并且增加了计算复杂度,在推荐效率上会有一定程度的降低。

4.总结

本文首先分析了推荐系统产生的缘由,然后详细介绍了推荐系统的概念、主要的推荐算法以及这些算法的优缺点。

参考文献

[1]曾晓牧,孙平.信息超载与***书馆的应对方案[J].***书情报工作,2004,48(6):106-109.

[2]周玲.信息超载综述[J].***书情报工作,2001,11:33-35.

[3]孙悦民.信息分类检索的技术演进及模式[J].情报资料工作,2009,6:49-52.

[4]孔莉,马莎莎.关键词检索特性的计量学分析[J].现代情报,2010,30(3):19-21.

[5]黄晓斌.基于协同过滤的数字***书馆推荐系统研究[J].大学***书馆学报,2006,24(1):53-57.

[6]王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012,23(1):1-20.

[7]Grace Burchard.推荐系统与数字***书馆个性化[J].***书情报工作,2007,51(12):33-38.

[8]Berzal F CJ.An efficient method for association rule mining in relational database[J].Data and Knowledge Engineering 2001,37:47-64.

[9]S Wesley TCL.Mining association rules procedure to support online recommendation by customers and products fragmentation[J].Expert Systems with Applications 2001,20:325-335.

[10]赵艳霞,梁昌勇.基于关联规则的推荐系统在电子商务中的应用[J].价值工程,2006,5:82-86.

[11]P Resnick HRV.Recommender Systems[J].Communication of the ACM1997,40(3):56-58.

作者简介:张韩飞(1986―),男,江苏泗阳人,硕士,主要研究方向:检测技术、智能仪表。

推荐系统综述

转载请注明出处学文网 » 推荐系统综述

学习

浅析高语境文化与低语境文化中交际差异的对比研究

阅读(51)

本文为您介绍浅析高语境文化与低语境文化中交际差异的对比研究,内容包括高语境和低语境的文化特点,高语境文化与低语境文化对比。【摘要】语境可以简而言之的被理解为是语言赖以存在、被人们实际所使用的环境。美国文化人类学家爱德华・

学习

英国普通法与衡平法之比较研究

阅读(14)

本文为您介绍英国普通法与衡平法之比较研究,内容包括英国成文法普通法和衡平法的区别,英国的普通法来源于衡平法对吗。【摘要】本文集中探讨了英国普通法和衡平法的关系问题。文章首先对普通法和衡平法的基本情况作了介绍,然后从布莱克斯

学习

怎样练习双杠

阅读(46)

双杠练习有支撑、摆动,腾越、屈伸、下法和用力等多种动作。其中以支撑和摆动为构成组合练习的核心动作。初学者先做一些熟悉器械性能和加强肩带力量的练习,逐步过渡到动作训练。首先要掌握以下几个基本动作:

学习

经营绩效论文范文精选

阅读(25)

本文为您介绍经营绩效论文范文精选,内容包括经营绩效的分析论文好写吗,经营绩效论文答辩陈述。经营绩效论文篇1摘要:面对激烈的竞争,服装企业为自身在同行中站住脚、站稳脚并有更大发展,开始对服装品牌进行延伸。目前,对服装品牌的延伸大致

学习

浅议或有事项中未决诉讼的会计处理

阅读(2171)

本文为您介绍浅议或有事项中未决诉讼的会计处理,内容包括对未决诉讼会计处理符合及时性吗,关于未决诉讼的会计处理。或有事项,是指过去的交易或者事项形成的,其结果须由某些未来事项的发生或不发生才能决定的不确定事项。未决诉讼,是指企业

学习

“如听仙乐耳暂明”

阅读(42)

本文为您介绍“如听仙乐耳暂明”,内容包括如听仙乐耳暂明,如听仙乐耳暂明什么意思。一、设情境――“未成曲调先有情”

学习

钣金结构的机柜设计

阅读(60)

本文为您介绍钣金结构的机柜设计,内容包括钣金机柜设计全部教程,钣金结构的机柜设计。摘要机柜根据功能的不同具体可以划分为发射机柜、显控机柜、处理机柜等几种,其在外形设计上也具有一定程度的差异。钣金机柜凭借其自身的诸多优点随着

学习

说明书范文精选

阅读(39)

本文为您介绍说明书范文精选,内容包括实用新型专利说明书范文,说明书范文300例。中药制剂包括中药片剂、胶囊、颗粒剂、散剂、丸剂、糖浆、酒剂、口服液和注射液等。中药药物的药性十分复杂,适用证也不一样,药品使用说明书中应对药物药性

学习

我对明清租佃关系的认识

阅读(18)

本文为您介绍我对明清租佃关系的认识,内容包括明清时租佃经济,资本主义生产关系和封建租佃关系。我现在主张把明清时代封建租佃关系区分为三种类型。即:属于严格隶属关系范畴的佃仆制度,摆脱了严格隶属关系的分成租和定额租制度,以及佃农必

学习

防火墙网络安全策略

阅读(29)

本文为您介绍防火墙网络安全策略,内容包括防火墙安全策略匹配规则,防火墙安全策略教程。互联网技术在给人们带来便利的同时,也给人们带来了一些安全隐患,尤其是Internet的出现,更是加剧了安全隐患。自互联网兴起以来,世界各国均发生过互联网

学习

学前儿童艺术教育研究

阅读(67)

本文为您介绍学前儿童艺术教育研究,内容包括关于学前儿童艺术教育的文献综述,学前儿童艺术综合教育研究。摘要:学前期间是儿童人生发蒙的期间,同时是儿童大脑发展最快的时期,儿童要重视素质教育,将儿童培养为有创新能力的综合人才。这对儿童

学习

《平均分》教学设计

阅读(35)

本文为您介绍《平均分》教学设计,内容包括平均分教学设计人教版,平均分教学设计及反思。教学内容

学习

硫磺砂浆模具的制作方法

阅读(29)

本文为您介绍硫磺砂浆模具的制作方法,内容包括硫磺砂浆作为临时支座的原理,硫磺砂浆工艺流程。摘要:模具在陶瓷工业生产中起着非常重要的作用,传统方法一般用硫磺制作母模与胎膜,操作过程较复杂。为了改善硫磺模具制备工艺的可行性,在硫磺模

学习

银行信用风险缓释

阅读(28)

本文为您介绍银行信用风险缓释,内容包括信用风险缓释,银行信用风险的爆发点。中长期国债收益率下降带来无风险利率下行,非金融企业的债务率下降和不良释放速度放缓带来风险溢价降低,债转股落地和供给侧改革的提速,大幅暴露的不良将加大风险

学习

社会支持网理论综述

阅读(19)

本文为您介绍社会支持网理论综述,内容包括社会支持网络的理论基础,社会支持理论的发展历程。摘要:文章通过对社会支持网理论的起源发展状况的介绍,指出其不足,并提出一些发展方向。

学习

单立管排水系统与多立管排水系统的比较研究

阅读(19)

本文为您介绍单立管排水系统与多立管排水系统的比较研究,内容包括单立管排水系统和多立管区别,排水单立管与双立管的利弊。摘要:传统的厨卫的排水系统已经明显不再适应人民的生活了,所以逐渐开发设计出了单立管排水系统和多立管排水系统。

学习

调顺系统打造千亿招商

阅读(33)

招商地产提出了在2017年实现“千亿规模、百亿利润”的目标,并遵循质量、规模、效益三者的均衡发展。如何能做到这一点?这就要把自己的账算明白,要把系统调顺。客观来讲,招商地产主要从组织及IT层面进行了变革。上下分权提效率,左右制衡控风险

学习

文本聚类算法综述

阅读(21)

本文为您介绍文本聚类算法综述,内容包括文本聚类算法设计怎么弄,文章聚类算法。摘要:随着Internet的发展,作为数据挖掘关键技术的文本聚类也快速的发展起来。本文主要介绍了文本聚类的一些主要的算法以及文本聚类中使用到的关键技术,从而对

学习

PLC控制系统在电气设备自动化的应用

阅读(19)

本文为您介绍PLC控制系统在电气设备自动化的应用,内容包括浅谈基于plc的现代电气控制系统,plc技术在电气自动化中应用与发展。摘要:PLC控制系统是为工业生产研发设计的数字运算电子操作系统,并在工业领域中得到了广泛应用。文章介绍了PLC

学习

关于Stroop效应的研究综述

阅读(27)

本文为您介绍关于Stroop效应的研究综述,内容包括stroop效应文献综述,stroop效应的应用研究。摘要:Stroop效应又称色词干扰效应,自Stroop提出该效应以来一直深受心理学家关注。本文通过回溯前人的相关研究,从Stroop效应的起源入手,从不同群体

学习

高校论坛(BBS)研究综述

阅读(30)

本文为您介绍高校论坛(BBS)研究综述,内容包括高校bbs论坛想进就进吗,院校学术论坛定位。【摘要】本文以高校论坛为主题,对2011年的学术期刊进行回顾,分别从高校BBS的传播特点、独特功能、所面临的问题、舆情的管理及引导四个方面综述了201

学习

Windows XP系统最新注册码序列号

阅读(37)

本文为您介绍Windows XP系统最新注册码序列号,内容包括xp系统windows注册码,windowsxp安装序列号是多少。WindowsXP专业版最新注册码