摘 要:信息技术和互联网的迅猛发展把我们带进了信息过载的时代。海量信息的同时呈现,一方面增大了用户发现自己感兴趣信息的难度,另一方面也使得大量信息无法被一般用户获取。个性化推荐系统是目前解决信息过载问题最有效的工具。本文简单介绍了推荐系统的概念和组成要素,重点介绍了几种重要的推荐技术和个性化推荐系统的应用领域。
关键词:个性化推荐;推荐技术;关联规则;协同过滤
随着信息技术和互联网的迅速发展,人们逐渐从信息匮乏时代进入了信息过载时代。这个时代,对于信息生产者而言,如何让自己生产的信息脱颖而出,收到广大用户的关注是一件很困难的事情。对于用户而言,信息量的增大加重了找到感兴趣信息的负担,从而降低了信息的使用效率。推荐系统正是在这一环境中诞生的,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。
1 推荐系统概念、组成要素
目前被广泛接受的推荐系统的概念和定义是Resnick和Varian在1997年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。个性化推荐系统主要由三个要素组成,分别是:候选对象、用户、推荐算法。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。
2 推荐技术
推荐算法是整个推荐系统中核心的部分,在很大程度上决定了推荐系统的质量。目前主要的推荐技术基本包括以下几种:基于关联规则的推荐技术,基于内容的推荐技术,协同过滤推荐技术和混合推荐技术。
2.1 基于关联规则的推荐技术
关联规则是数据中所蕴含的一类重要规律,对关联规则进行挖掘是数据挖掘中的一项根本任务,关联规则挖掘就是从数据项目中找出所有的并发关系,这种关系也称为关联。关联规则挖掘的经典应用就是购物篮数据分析,目的是找出顾客在商场(或普通店铺)所选购商品之间的关联。
关联规则可以这样表述。设I={i1,i2,…,in}为所有项的集合,事务T表示事务集合。数据库D为事务数据库。关联规则形如XY的蕴含式,其中X、Y均为项目集,并且X、Y没有交集。关联规则的强度可以用支持度和置信度表示。支持度为同时包含X、Y 项集的事务在数据库D中的百分比。置信度为包含X的事务同时也包含Y在数据库D中的百分比。目前已有大量文献提出关联规则挖掘算法,在众多算法中,最著名的是Apriori 算法。
Apriori算法是由Agrawal等人在1994年提出来的,是一种最有影响的挖掘布尔关联规则频繁项集的算法。该算法分两步进行:第一步,生成所有繁琐项目集,繁琐项目集是支持度高于最小支持度的项目集;第二步,从繁琐项目集中生成所有可信的关联规则,可信关联规则是置信度大于最小置信度的规则。
基于关联规则的推荐技术其优点是:简单直接,领域通用性强,规则的挖掘可以离线进行,可以保证推荐算法的实时性要求。其缺点是:存在着严重的"冷启动"问题,新加入的项目由于缺少相关的用户数据,难以被系统中的规则发现,从而得不到推荐,并且随着系统项目数量的不断增加,规则也会呈出相应的增长趋势,使得规则的管理成本相应升高,降低了系统的运行效率。
2.2 基于内容的推荐技术
基于内容的推荐算法重要的是建立项目特征属性库,系统通过用户已关注项目的特征属性值,来掌握目标用户兴趣点,依据用户兴趣点与待推荐项目属性值的匹配程度进行推荐。用户兴趣点的产生依赖于系统所采用的机器学习算法,如基于向量的表示、文本挖掘、判别树、神经网络等技术。基于内容的推荐结果直观易理解,不需要过多的领域知识,但是需要有足够数据构造分类器,一些例如稀疏问题、新用户问题和复杂属性等问题不易处理。
2.3 协同过滤推荐技术
基于协同过滤推荐技术是当前主流的,应用最为广泛的一种推荐技术。该推荐技术可以分为两种,一种是基于用户的协同过滤推荐技术;另一种是基于项目的协同过滤推荐技术,这两种协同过滤推荐技术的不同之处在于两者针对的对象不同。基于用户的协同过滤推荐技术是给用户推荐和他有共同兴趣的用户喜欢的物品;基于项目的协同过滤推荐技术是给用户推荐和他之前喜欢的物品相似的物品。
2.3.1 基于用户的协同过滤推荐技术
基于用户的协同过滤技术是推荐系统中最古老的算法。该算法在1992年被提出,并应用于邮件过滤系统,1994年被GroupLens应用于新闻过滤。该算法主要包括两个步骤:第一步,找到和目标用户兴趣相似的用户集合;第二步,找到这个集合中用户喜欢的,且目标用户还没有听说过的物品,将该物品推荐给目标用户。
2.3.2 基于项目的协同过滤推荐技术
基于项目的协同过滤技术是基于这样一个假设:用户更倾向于选择与用户喜欢的项目相近的项目。该推荐过程分为两个步骤,第一,计算物品之间的相似度;第二,根据物品的相似度和用户的历史行为为用户生成推荐列表。
2.4 混合推荐技术
目前,推荐技术已经发展出了很多种,但每种推荐技术都在不同程度上存在各自的缺点,每种推荐技术在针对特定的用户或者项目时才能发挥出自己的优势。因此人们提出了混合推荐来互补推荐技术各自的不足,已达到一个理想的推荐效果。在大部分的混合推荐技术研究当中,是将基于内容的推荐技术和基于协同过滤技术相结合。相对于使用单一途径算法的推荐技术,基于混合推荐技术往往表现出更高的推荐精度和更好的推荐质量。
3 推荐系统的应用
自推荐系统诞生近20年的时间里,推荐系统的应用领域迅速扩展。从电子商务、音乐视频网站,到作为互联网经济支柱的***广告和新颖的***应用推荐,到处都有推荐系统的身影。下面简单介绍个性化推荐系统的应用以及该领域较成功的网站。
3.1 电子商务
电子商务网站是个性化推荐系统的一大应用领域。著名的电子商务网站亚马逊是个性化推荐系统的积极应用者和推广者,被读写网称为“推荐系统之王”。亚马逊的推荐系统深入到了各类产品中,其中最主要的应用有个性化商品推荐列表和相关商品的推荐列表。
3.2 电影和视频网站
在电影和视频网站中,个性化推荐系统能够帮助用户在大量视频信息中找到令他们满意的视频。该领域较成功的一家公司就是Netflix。Netflix在2006年开始举办著名的Netflix Prize推荐系统比赛。该比赛对推荐系统的发展起到了重要的推动作用。
3.3 个性化音乐网络电台
个性化推荐的成功应用需要具备两个条件。第一是存在信息过载的问题,第二是用户大部分时候没有明确的需求。在这两个条件下,个性化网络电台无疑是最合适的个性化推荐产品。目前国际上著名的有Pandora和Last.fm,国内的代表则是豆瓣电台。
3.4 个性化阅读
阅读文章是很多互联网用户每天都会做的事情。目前互联网上的个性化阅读工具很多,国际知名的有Google Reader,国内有鲜果网等。同时,随着移动设备的流行,移动设备上针对个性化阅读的应用也很多,其中具有代表性的有Zite和Flipboard。
[参考文献]
[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).
[2]许海玲.互联网推荐系统比较研究[J].软件学报,2009.20(2):350.362.
[3]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7).
[4]刘兴涛,石冰,解英文.挖掘关联规则中Apriori算法的一种改进[J]. 山东大学学报,2008,43(11):67-71.
[5]胡斌.基于高阶潜在语义分析的音乐推荐系统的研究,硕士论文.北京工业大学计算机学院,2009.
[6]Schafer ***,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.
[7]Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].ACM TransInformation Systems,22(1):143-177,2004.
[8]李涛.推荐系统中若干关键问题研究[D].南京航空航天大学,2008.
[9]Wu L,Yu P.S,Ballman A.Speed Tracer:A Web usage mining and analysis tool [J].IBMSystems Journal,1998,37(1):89-105.