【摘要】“信息超载”问题日趋明显,简单的信息检索已经不能满足用户搜索准确信息的需求,推荐系统应运而生。尽管推荐系统被广泛应用于电子商务中,但是推荐算法还面临较多难题。文章首先介绍了推荐系统相关概念、算法,然后分析了这些算法的优劣,最后总结了推荐系统需要解决的一些主要问题和研究方向。
【关键词】推荐系统;信息检索;信息超载
1.序言
网络和计算机技术的高速发展,使信息资源呈几何级速度增长,“信息超载”[1][2]已越趋明显,而且信息资源的存储方式已发生了质的变化,由结构化文本数据到非结构化***片、音频、视频等数据的转变,增加了信息检索的难度,因此如何寻找到准确信息资源的方法显得尤为重要。
当前,信息检索是解决这一问题的主要方法,其能够满足简单的用户需求,没有个性化的服务,有两种检索方式:分类检索、关键词检索。分类检索是通过对信息的特征分类,让用户寻找需求的目录类别,从而实现信息查询,但是分类检索暴露出较多的问题:
(1)交叉学科不断出现增加了项目分类的难度,无法确定项目的类别;
(2)项目分类的规则无法统一,使得分类规则差异较大;
(3)用户需要反复查找项目分类,耗时耗力[3]。
关键词检索是目前搜索引擎的主流,通过校对预存储信息和关键词,将匹配度高的信息返回给用户界面,查询速度较快,但是关键词检索的查准率低,用户个性化程度低,任何用户搜索的关键词相同,检索出的结果也是相同的,这不能满足用户需求[4]。但是推荐系统[5][6][7]能够提供这一个性化服务,能够根据用户的特征,推荐满足用户需求的对象,其主要优点是能够主动收集用户的特征资料,通过对用户个性、习惯、偏好的分析,定制的向用户提供其感兴趣的信息,同时能够及时跟踪用户的需求变化,根据变化自动调整信息服务的方式和内容。
2.推荐系统的概念
从1990年代开始,推荐系统逐渐被大家进行研究,其内容涉及认知科学、近似理论、信息检索、管理科学等领域。很多学者对推荐系统进行了广泛的研究,美国学者ReSnick等人率先提出“推荐系统”一词,并通过对一个典型推荐系统的简单描述给出了推荐系统的定义:推荐系统以所有用户的意见作为输入,对用户的意见进行综合,将有价值的意见提供给某一适合的用户,系统的好坏取决于所提供意见与用户需求之间的匹配程度;GroupLens研究小组从电子商务网站的角度对推荐系统进行了定义:推荐系统采用数据分析技术预测用户对项目的偏好值或为用户产生一个top-N推荐列表,帮助用户搜寻出他们愿意购买的电子商务网站的项目;明尼苏达大学Konstan把推荐系统定义为:推荐系统利用群体意见,帮助群体中每名成员识别其最感兴趣或最能满足其需求的产品或信息。
3.主要推荐算法
目前推荐系统采用的推荐算法主要包括关联规则、基于内容的推荐、协同过滤和混合推荐。
3.1 基于关联规则的推荐
基于关联规则的推荐是以产品间关联规则为基础,把已购商品作为规则头,推荐对象作为规则体,通过数据挖掘发现项目之间潜在的联系以实施连带推荐[8][9]。
关联规则挖掘技术可以发现不同商品在销售过程中的相关性,在电子商务推荐系统中已经有了比较成熟的应用。在电子商务系统中会有保留用户交易记录的交易数据库,关联规则挖掘将对交易数据库进行分析,将会计算购买商品集X的记录集中有多少同时购买了商品集Y,当这个比例超过一定阀值时则认为商品集X与商品集Y存在关联规则,实际购物中有相当部分的用户在购买了某件商品时同时购买了另一件商品。基于关联规则的推荐系统依据计算分析所得到的关联规则,并基于用户的实际购买行为向用户实施推荐[10]。
如果规则同时满足预先设定的最小支持度与置信度,则我们把该规则作为强关联规则。
集合库中挖掘关联规则的实施步骤如下所示:
1)生成所有的频繁集,频繁集定义为所有支持度大于预先设定的最小支持度的项目集合。
2)从频繁集中产生强关联规则,必须同时满足预先设定的最小支持度与置信度。
以上步骤中步骤1是关联规则挖掘的关键,若数据交易库非常庞大,则计算复杂度随之升高。
3.2 基于内容的推荐
基于内容的推荐算法是通过提取用户历史交易记录和用户对产品评价的特征,对其分析并获取用户感兴趣产品的特征作为用户的购物偏好,同时对产品进行特征提取与表示,通过用户特征偏好与产品特征的匹配程度,以实施推荐[11]。
基于内容的推荐算法基本步骤为:
1)分析用户过去的浏览或评价记录,寻求一种文档表示方法对其进行表示,从而生成用户兴趣档案。
2)对用户未接触过的文档特征进行提取与表示。
3)将用户兴趣档案与新文档特征进行匹配,将匹配度最高的文档推荐给当前用户。
基于内容的推荐算法需要先创建每个用户的***模板,这里面存储着用户的一些基本信息,包括兴趣、爱好等信息,这些数据信息将随着用户的操作而实时地进行数据更新。
3.3 协同过滤推荐
协同过滤是筛选出一组与目标用户兴趣相近的邻居用户,根据邻居用户的偏好推测目标用户的偏好,向目标用户推荐其最有可能感兴趣的项目(如Web页面、音乐、视频、商品等),它是站在用户角度进行信息推荐,并且这些推荐信息是自动的,根据用户显式的操作(比如购买信息、网页浏览信息等)进行推荐。协同过滤算法与基于内容的推荐技术的算法相比,具有较多优点:
1)协同过滤算法能够解决内容过滤算法的产品关键字获取不完整或不准确而产生的问题,通过共享同组用户的信息为其推荐内涵较高的项目,比如信息质量、个人品味等这些信息不能表述清楚;
2)协同过滤算法能够挖掘用户隐藏的兴趣。内容推荐算法推荐的信息基本都是用户相对熟悉的内容,但是协同过滤算法能够发现用户潜在的但自己尚未发现的兴趣偏好;
3)协同过滤算法能够利用相似用户的反馈内容,提高个性化推荐的学习能力。虽然协同过滤算法是一种具有代表性的推荐算法,但是协同过滤仍面临较多的问题,如精确性、稀疏性、冷启动、扩展性。
3.4 混合推荐
按照不同的结合方法,混合推荐的集成方式有以下几种:
1)混合集成:它是将每个推荐算法的推荐结果进行集合,把这些集合推荐给用户。
2)加权集成:它是将每个推荐算法的推荐结果按照权值进行重新排序,把排序结果推荐给用户。
3)转换集成:它是根据不同推荐环境选择相应的推荐算法。
4)瀑布型集成:它是将两个推荐算法进行整合优化,实现一种推荐算法对另一种推荐算法的推荐结果优化。
5)特征组合集成:它与瀑布型集成相似,也是采用某种推荐算法对混合推荐结果进行过滤。
6)特征增值集成:它是将一种推荐算法的推荐结果作为另外一个推荐算法的输入。
混合推荐在实际应用中面临很多困难,需要解决不同的推荐技术进行有机集成问题,同时有实验表明,混合推荐并不一定比单独的某个推荐技术更好,并且增加了计算复杂度,在推荐效率上会有一定程度的降低。
4.总结
本文首先分析了推荐系统产生的缘由,然后详细介绍了推荐系统的概念、主要的推荐算法以及这些算法的优缺点。
参考文献
[1]曾晓牧,孙平.信息超载与***书馆的应对方案[J].***书情报工作,2004,48(6):106-109.
[2]周玲.信息超载综述[J].***书情报工作,2001,11:33-35.
[3]孙悦民.信息分类检索的技术演进及模式[J].情报资料工作,2009,6:49-52.
[4]孔莉,马莎莎.关键词检索特性的计量学分析[J].现代情报,2010,30(3):19-21.
[5]黄晓斌.基于协同过滤的数字***书馆推荐系统研究[J].大学***书馆学报,2006,24(1):53-57.
[6]王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012,23(1):1-20.
[7]Grace Burchard.推荐系统与数字***书馆个性化[J].***书情报工作,2007,51(12):33-38.
[8]Berzal F CJ.An efficient method for association rule mining in relational database[J].Data and Knowledge Engineering 2001,37:47-64.
[9]S Wesley TCL.Mining association rules procedure to support online recommendation by customers and products fragmentation[J].Expert Systems with Applications 2001,20:325-335.
[10]赵艳霞,梁昌勇.基于关联规则的推荐系统在电子商务中的应用[J].价值工程,2006,5:82-86.
[11]P Resnick HRV.Recommender Systems[J].Communication of the ACM1997,40(3):56-58.
作者简介:张韩飞(1986―),男,江苏泗阳人,硕士,主要研究方向:检测技术、智能仪表。