基于pairwise的改进ranking算法

摘要:传统基于pairwise的ranking算法,学习后得到的模型在用NDCG这样的ranking标准评价时效果并不好,对此提出了一种新型ranking算法。该算法也是使用样本对作为训练数据,但定义了一个面向NDCG评估标准的目标函数。针对此目标函数非平滑、难以直接优化的特点,提出使用割平面算法进行学习,不仅解决了上述问题,而且使算法迭代的次数不再依赖于训练样本对数。最后基于基准数据集的实验证明了算法的有效性。

关键词:ranking算法;pairwise方法;支持向量机;NDCG;割平面算法

中***分类号:TP181 文献标志码:A

Improved ranking algorithm based on pairwise method

CHENG Fan1,2, ZHONG Hong1

1.College of Computer Science and Technology, Anhui University, Hefei Anhui 230039, China;

2.School of Computer Science and Technology, University of Science and Technology of China, Hefei Anhui230027, China

Abstract:The model learned by ranking algorithm based on traditional pairwise method does not work well by ranking measure, such as Normalized Discounted Cumulative Gain (NDCG). To solve this problem, a new ranking algorithm was proposed. The algorithm used the same train data as the traditional way, and the difference is defining a new object function directed to NDCG. For the problem that the function is non-smooth, difficult to directly optimize, it was proposed to use the cutting plane algorithm, which not only solved the problem above but also made the number of iteration not depending on the training size. The experimental results on the benchmark datasets prove the effectiveness of the proposed algorithm.Key words:ranking algorithm; pairwise method; Support Vector Machine (SVM); Normalized Discounted Cumulative Gain (NDCG); cutting plane algorithm

0 引言

Ranking学习作为机器学习研究的一个新方向,由于其在信息检索、协同滤波、专家发现等领域的广泛应用,近些年来受到越来越多的关注。所谓的ranking学习是指通过使用机器学习技术和有标签的数据来产生一个ranking模型。它被看成是一种新的学习,一种介于分类和回归之间的学习,故称为ranking学习,其本质是类别标号的表示。

已有的ranking学习根据训练数据的不同,可以分为基于单个样本的pointwise法[1-2]、基于样本对的pairwise法[3-8]和基于多个样本(又称为样本队列)的listwise法[9-11]。上述几种方法中,pairwise方法是目前ranking学习研究的主体,也受到最大的关注,其原因主要在于以下几个方面:

1)该方法把ranking学习看成一个二分类问题,训练的数据为具有偏序关系的样本对,其学习的目标为错误的偏序对越少越好。由于主要用到的方法是分类,很多已有的成熟分类算法可以直接应用于该方法上。比如pairwise法中最为经典的几篇文献[3-6]都是使用已有的传统分类技术,并取得了不错的效果。

2)其训练数据――具有偏序关系的样本对可以通过分析用户的点击流直接得到[6],不需要专家的人工标注。不仅节省了人力,更重要的是在实际应用中,可以针对每个用户提供更为准确的个性化模型。

但是,近些年的研究表明,通过传统pairwise方法学习得到的模型在用NDCG(Normalized Discounted Cumulative Gain)[12]这样的ranking评估标准评价时往往效果并不好。究其原因,主要还是传统方法只是简单地把ranking学习变成某种形式的分类学习,并没有特别地注意到二者之间的区别。

对此,本文提出了一种新型ranking算法。该算法对原有的pairwise方法进行了改进,设计了一个针对NDCG评估标准的新目标函数。考虑到该优化目标的非平滑性,已有的ranking学习中用到的优化技术很难直接应用其上,文中提出使用基于次梯度的割平面算法进行近似计算,不仅解决了上述问题,而且算法的迭代次数不依赖于训练样本对的个数,也更适合将来可能的大规模训练数据的应用场合。

参考文献:

[1]CHU W, KEERTHI S S. New approaches to support vector ordinal regression[C]// Proceedings of the International Conference on Machine Learning. New York: ACM, 2005:145-152.

[2]SHASHUA A, LEVIN A. Ranking with large margin principle: Two approaches[C]//Advances in Neural Information Processing Systems. New York: ACM, 2003: 937-944.

[3]BURGES C, SHAKED T, RENSHAW E. Learning to rank using gradient descent[C]// Proceedings of the International Conference on Machine Learning. New York: ACM, 2005: 89-96.

[4]FREUND Y, IYER R, SCHAPIRE R E. An efficient boosting algorithm for combining preferences[J]. Journal of Machine Learning Research, 2003,4(12):933-969.

[5]HERBRICH R, GRAPEL T, OBERMAYER K. Large margin rank boundaries for ordinal regression[M]. Cambridge: MIT Press, 2000.

[6]JOACHIMS T. Optimizing search engines using clickthrough data[C]// Proceedings of the ACM Conference on Knowledge Discovery and Data Mining. New York: ACM,2002:134-142.

[7]ZHENG ZHAOHUI, ZHA HONGYUAN, ZHANG TONG,et al. A general boosting method and its application to learning ranking functions for Web search[C]// Advances in Neural Information Processing Systems. New York: ACM, 2008: 1697-1704.

[8]USUNIER N, BUFFONI D, GALLINARI P. Ranking with ordered weighted pairwise classification[C]// Proceedings of the 26th International Conference on Machine Learning. New York: ACM, 2009:188-196.

[9]CAO ZHE, QIN TAO, LIU TIE-YAN, et al. Learning to rank: From pairwise approach to listwise approach[C]// Proceedings of the International Conference on Machine Learning’07. New York: ACM, 2007: 129-136.

[10]ARAMPATZIS A, KAMPS J. Where to stop reading a ranked list[C]// Proceedings of the 32th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2009: 524-531.

[11]McFEE B, LANCKRIET G. Metric learning to rank[C]// Proceedings of the 27th International Conference on Machine Learning. New York: ACM, 2010:235-243.

[12]JARVELIN K, KEKALAINEN J. Evaluation methods for retrieving highly relevantdocuments[C]// Proceedings of the 23th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM,2000: 41-48.

[13]HIRIART-URRUTY J B, LEMAR′ECHAL C. Convex analysis and minimization algorithms I and II[M]. Berlin:Springer-Verlag, 1993.

[14]TEO C H, LE Q, ***OLA A, et al. A scalable modular convex solver for regularized risk minimization[C]// Proceedings of International Conference on Knowledge Discovery and Data Mining (KDD). New York: ACM, 2007: 48-57.

[15]〖CM(26*2〗LIU TIE-YAN, QIN TAO, XU JUN, et al. Letor: Benchmark〖CM)〗 dataset for research on learning to rank for information retrieval[C]// Learning to Rank for Information Retrieval. New York: ACM, 2007:137-145.

[16]XU JUN, LI HANG. Adarank: A boosting algorithm for information retrieval[C]// Learning to Rank for Information Retrieval. New York: ACM, 2007: 391-398.

转载请注明出处学文网 » 基于pairwise的改进ranking算法

学习

基于单片机空调温度控制系统

阅读(26)

本文为您介绍基于单片机空调温度控制系统,内容包括基于单片机的温度控制系统设计,单片机控制pt100温度传感器。【摘要】本文详细介绍了一种以单片机89C52为核心的空调温度控制系统。空调温度控制系统的设计原理以达到更优的系统性能为目

学习

预警系统 预先干预

阅读(34)

本文为您介绍预警系统 预先干预,内容包括预警预测预防机制,预先干预。研发及应用化工行业安全生产综合预警指数系统,是为了帮助企业管理层宏观地了解当前的安全生产形势和未来趋势,科学合理地制定安全生产管理决策,真正实现预防为主。“天

学习

浅析虚拟社区OpenLab

阅读(32)

本文为您介绍浅析虚拟社区OpenLab,内容包括openlab论坛,怎么安装openlab。内容人类社会已经进入了信息时代,信息与知识在人类生活中占据越来越重要的地位。在虚拟的网络世界中,出现了一种全新的生产组织方式,即开放式的组织生产方式,与

学习

新型医院智能呼叫系统

阅读(52)

本文为您介绍新型医院智能呼叫系统,内容包括医院呼叫铃,医院语音呼叫系统。摘要:本系统为一种新型的医院智能呼叫系统。其以AT89C51单片机为控制核心、通讯则采用485总线,藉此实现医护人员与病人之间的远程快速应答。本系统的组成分别为

学习

电工技术Multisim作用

阅读(31)

本文为您介绍电工技术Multisim作用,内容包括电工技术multisim,multisim电工基础仿真实验。1Multisim10简介及特点NIMultisim10是美国国家仪器公司(NI,NationalInstruments)推出的Multisim最新版本,是以Windows为平台的仿真工具,可以设计

学习

瓦连京·拉斯普京

阅读(32)

本文为您介绍瓦连京·拉斯普京,内容包括瓦连京·拉斯普京简介,瓦连京拉斯普京经典语录。作家,2015年3月14日逝世,享年77岁2015年3月14日,俄罗斯著名作家瓦连京・拉斯普京(ValentinRasputin),在莫斯科一家医院病逝,据俄罗斯作协宣称,作家是在一次

学习

教师自我叙事

阅读(26)

本文为您介绍教师自我叙事,内容包括自我叙事文案,自我叙事作文。每一个人的心灵都像他们的脸一样各不相同,正是他们无时无刻地表现自己的个性,才会使这个世界如此精彩。是的有个性的人,无疑是有人格魅力的。一直以来我对这句话很是赞同,我也

学习

计算机操作员之Word 2000文字处理软件

阅读(29)

本文为您介绍计算机操作员之Word 2000文字处理软件,内容包括第三章文字处理软件word2003,文字处理软件word2003应用。(接上期)第一次保存文档通常要指定保存文档的位置和保存文档的文件名。在“文件名”文本框中,可以更改系统预赋的文件

学习

爱卫,从每个人做起

阅读(36)

本文为您介绍爱卫,从每个人做起,内容包括爱卫同行从你我做起,爱卫行动从身边做起。爱卫之窗主办:山西省爱国卫生运动委员会主编:高生华为落实十提出的“开展爱国卫生运动,促进人民身心健康”要求,加快美丽中国、美丽山西建设工程,山西省爱卫

学习

《半夜鸡叫》

阅读(27)

本文为您介绍《半夜鸡叫》,内容包括半夜鸡叫全文阅读,半夜鸡叫全文完整。小品《半夜鸡叫》人物:地主、地主婆、高玉宝、长工甲、乙、丙时间:三更半夜地点:地主家宅院内地主:(鬼鬼祟祟上场,四下张望,摸黑一步步靠近鸡笼)喔……(鸡都跟着叫了起来,地

学习

我的真实创业故事

阅读(29)

本文为您介绍我的真实创业故事,内容包括创业的故事真实,创业故事真实。创业,你的搭档可能是最早离你而去的,你信赖的人也许就是给你致命一击的人。从意气奋发到难过得几欲放弃,从苦苦煎熬到挣扎站立,从不断地彷徨、挫败再到曙光再现,我没有退

学习

小学语文教学

阅读(31)

本文为您介绍小学语文教学,内容包括小学语文完整版教学,小学语文教学大纲完整版。《小学语文新课程标准》指出:“学生是语文学习的主人。语文教学应激发学生的学习兴趣,注重培养学生自主学习的意识和习惯,为学生创设良好的自主学习情境,尊重

学习

专利分析因素研究

阅读(37)

本文为您介绍专利分析因素研究,内容包括影响专利价值的因素有哪些,专利稳定性分析。专利分析是实施专利布局和专利运营的前提,如何进行专利分析关系着专利价值评估及专利战略。根据专利分析的不同环节,可分为分析并发现问题,专利分析,得出结

学习

袁隆平和他的杂交水稻

阅读(35)

本文为您介绍袁隆平和他的杂交水稻,内容包括袁隆平杂交水稻过程的事实论据,袁隆平的杂交水稻免费共享。5月8日,刚从美国归来的袁隆平院士,像往常一样,走进了试验田。黝黑的面庞依旧,坚定的步伐依旧,“袁氏发型”依旧。“我不在家,就在试验田;不

学习

基于Dijkstra和改进人工势场的AGV路径规划

阅读(28)

自动引导车(AGV)作为柔性制造系统中的一个重要组成部分,在现代物流生产中获得了广泛的应用。为解决传统人工势场法在路径规划中出现的局部最小点问题,本文提出了预规划路径的方法,通过在局部最小点处添加中间点,使自动引导车顺利避障到达目标

学习

BLP模型及其改进方向

阅读(27)

本文为您介绍BLP模型及其改进方向,内容包括blp模型向下读向上写,blp模型怎么改进。BLP模型在整个计算机安全模型的发展过程中起到一个奠基性的作用,被看成是基础安全公理。BLP模型采用形式化安全许可的分类描述来研究信息的安全性。论文

学习

基于LLE算法的人脸识别方法研究

阅读(30)

本文为您介绍基于LLE算法的人脸识别方法研究,内容包括基于人脸识别算法的研究与实现,人脸识别与算法参考文献。非线性降维作为当前流行的机器学习算法,是研究人员的研究热点。局部线性嵌套和等距流形映射是两个基本非线性降维方式,局部线

学习

研究试卷命题导向 改进课堂教学质量

阅读(28)

本文为您介绍研究试卷命题导向 改进课堂教学质量,内容包括试卷命题改进建议,加强试卷命题研究提高教学质量。纸笔考试是目前我国教育阶段,尤其是普通高中测量学生知识水平、能力水平和教师教学效果的重要手段。纸笔考试的试卷编写须基于

学习

牛头刨床刀架上下移动分析与改进

阅读(30)

本文为您介绍牛头刨床刀架上下移动分析与改进,内容包括牛头刨床走刀速度调整,牛头刨床传动方案优缺点分析。本文根据实际工作实践,结合相关技术文件,分析牛头刨床刀架上下移动的原因及对加工工件质量的影响,并对刀架机构进行改进,确保加工质

学习

刍议220kV输电线路紧线施工方法及改进方案

阅读(30)

本文为您介绍刍议220kV输电线路紧线施工方法及改进方案,内容包括220kv线路设计基本知识,220kv输电线路工程架线施工方案。随着我国城市建设和输电线路网络的飞速发展,紧线施工是架空输电线路施工中的主要工序。目前,我国传统紧线施工方法

学习

谈希夫试剂配制方法的改进

阅读(32)

本文为您介绍谈希夫试剂配制方法的改进,内容包括自己配制的希夫试剂多久失效,希夫试剂的组分如何配置。希夫试剂是医学上用来检验醛的一种有效试剂,它具有检验速度快、灵敏、操作简单等特点。但由于其热稳定性差,不便于较长时间保留,只能现

学习

改进的二进制循环码盲识别方法

阅读(32)

目前已有的循环码盲识别方法在低码率编码条件下效果较好,但在高误码率及高码率条件下不能高效识别,或者只针对循环码中某一子类。为有效解决高误码率以及高码率编码下的循环码盲识别问题,提出一种基于矩阵变换和码重分布的方法,首先对接收序