浅谈随机决策树

摘要:该文介绍了随机决策树分类模型及如何启发式选择随机决策树的深度及棵树,通过实验证明了该算法的有效性和高效性。

关键词:随机决策树;深度;棵树

中***分类号:TP181文献标识码:A文章编号:1009-3044(2009)25-7206-02

Discussion on Random Decision Tree

LIU Xue-jing1,2, JI Jun-zhong1

(1.School of Computer Science, Beijing University of Technology, Beijing 100022, China ; 2.School of Information Engineering, Shijiazhuang University of Economics, Shijiazhuang 050031, China)

Abstract: This paper introduces the classification model of random decision tree and how to heuristic selected the depth and the number, the experiment shows that the algorithm is effectiveness and efficiency.

Key words: random decision tree; depth; number

启发式学习算法被广泛的用于决策树分类模型中,其思想在于寻求一个最优化假设,该假设使得预先给定的误差函数的误差减至最小。近来,由于多种模型混合的成功,如bagging模型,boosting模型,meta-learning模型等等,大大提高了最简化假设的准确性。随机决策树的方法和一般算法不同,它不是构建最佳的单元树,而是通过条件属性集合构建多棵树,那么每棵树的深度如何确定,是不是把所有的条件属性都拿来测试,还是仅仅取部分属性进行测试就已经可以满足需求;另外,创建多少棵树才能达到可信度的要求。成为随机决策树构建过程中非常重要的两个问题。

1 树的深度的选择

使用多个随机树的主要特色是它的多样性。然而,当随机树太深的时候,多样性实际上是减弱了。多样性不是随深度的增长而线性增长的。恰恰相反,当随机树的深度等于属性个数的极端的情况下,产生的每一棵随机树都是完全相同的,可能一点多样性也没有。

这里采用组合数学的方法确定随机决策树的深度。假设条件属性集合中总共有k个属性,i是我们将要确定的测试属性的数目。Cik表示从k个属性中无次序的选择i个测试属性的组合数。即可以产生:Cik=(k)!/i!(k-i)!条***的决策路径

我们希望得到最大的组合数,从而使随机决策树最大程度的拥有多样性。对于Cik本身而言,无论k是奇数还是偶数,当i=k/2时都可以取得最大值。所以当我们限制随机树的深度为k/2时,也就是树的深度是条件属性数目的一半时,随机决策树有最强的多样性、最佳的效果。

2 树的个数的选择

因为每棵树被随机的构建,故对于给定深度的树,其数目是一个有效的随机样本,多棵树的平均将接近一个大的样本的真实平均数。当每个属性的取值都是二元时,树的规模将达到2k/2。平均概率是使用棵树的样本平均值。这存在一个问题是是否值得使用更大的样本,也就是说更多的随机决策树。统计上,非常惊奇的发现,当N=10时,对大多数的应用己经足够了。

我们分析了源自较低置信区间,最糟情况下算法的效果,已此证明多棵随机决策树模型是最佳的模型。数据集中的最坏情况是仅有一个相关的属性,其他的k-1个属性都是不相关的。在这是最坏的情况下,单元树将忽略所有的不相关属性并且选择单个相关属性,从而生成一个最佳模型。然而,随机树可能使用所有属性,不论它是相关属性的还是不相关的。我们得到随机树的数目N,能确保它在可信度为p的前提下是最佳模型。

后验概率将由接近于训练数据默认概率的不相关属性的数目来确定。如果其中有一棵随机树采用了最佳属性对事例进行分类,那么平均的概率要比缺省概率好。平均概率可以和最佳单元树输出的概率不相同,因为在树的构建过程中每个属性被选择的概率都是相同的,致使从树根到树叶的每一条绝对路径的出现具有相同的概率。由此,一个属性在绝对路径中出现的概率为p=1/k了,在N棵随机树中,相关属性至少在一条路径被测试到的概率为

最低限度可信度:p(k,N)=1-(1-1/k)N

即随机决策树是最佳模型的可信度至少为p(k,N)。事实上由于在相同的属性集中部分属性之间有相互的关系,导致实际的概率将比以上估计高。

3 算法描述

输入:训练数据集S={(x1,t1),…,(xn,tn)},属性集X={F1,…,Fk},N为随机决策树的棵数。

输出:N棵随机决策树{T1,…,TN}

算法:

RandomTree(S,X,N)

Begin

For i∈{1,…,N} do

BuildTree (Ti,X);

End

For (x,t) ∈S do

For i∈{1,…,N} do

Update (Ti, (x,t));

End

End

Return{ T1,…,TN }

End

BuildTree (T,X)

Begin

If X=φ then

生成叶节点;

End

Else

随机选择属性F,属性F有m个值{di};

For j∈{1,…,m} do

BuildTree (nj,,X-{F});

End

End

End

Update (T,(x,t))

Begin

n[t]存放类t的数量,n[t]

If the node is a not a leaf then

d=F(x),n 为属性值d对应的子节点;

Update (n,(x,t));

End

End

CLASSIFY({T1,…,TN},x)

Begin

for tree Ti,Pi(y|x)=where n[y] is the count at the leaf node that x finally reaches to;

returnfor all class labels y;

for tree Ti,where n[y] is the count at the leaf node that x finally reaches to;

return for all class labels y;

End

4 实验

实验结果与单元最佳未剪枝及剪枝的决策树比较,通过同时改变随机树的数量和每棵树的深度来研究在性能方面的变化,证明了随机树深度和棵树选择的正确。

我们从现实的应用中挑选出KDD CUP’98所取的捐款数据。实验运行4次,对每次测试,直到有50棵随机树被构造出来才停止,测试结果如表1所示。

观测结果有几点值得重视。第一,当随机树的数目超过10时,随机树算法取得平均总收益将比最好的方法多:第二在树从1棵生长到10棵的过程中,精确值将有大大的提升,并且在达到10棵的时候将达到平稳状态。该算法在生成了10棵树后将不断的波动,但其准确度大多数比单元最佳决策树方法高。

参考文献:

[1] 杨宁,赵连文,郭耀煌. 随机决策树[J].西南交通大学学报,2000,35(2):212-215.

[2] 赵晓峰,叶震.基于加权多随机决策树的入侵检测模型[J].计算机应用,2007,27(5):1041-1043.

[3] 李楠.基于改进随机决策树的入侵检测方法研究[D].合肥:合肥工业大学,2007.

浅谈随机决策树

转载请注明出处学文网 » 浅谈随机决策树

学习

死屋 第8期

阅读(37)

经过几天的努力,人们都一无所获地回到村里,只好去求警方帮助了。

学习

瞧,我们这一家子

阅读(31)

本文为您介绍瞧,我们这一家子,内容包括瞧这一家子全文免费,瞧这一家子电视剧。说起我们这一家子,不是我吹呀!真是“前无古人,后无来者。”天下第一的完美家庭。不信,你就仔细瞧好!――

学习

日光温室早春地热线育苗技术

阅读(26)

日光温室地热线育苗可以通过调控温度、水分,创造适宜的小气候,满足蔬菜幼苗生长,培育壮苗。一般情况下北京地区12月15―25日就可以播种育苗。在适宜蔬菜生长的条件下提早定植,可增加蔬菜产量,提高品质,增加设施生产效益。

学习

植物基因组DNA提取

阅读(26)

本文为您介绍植物基因组DNA提取,内容包括植物基因dna提取结果,植物基因组dna提取。[摘要]DNA是遗传信息的载体,是最重要的生物信息分子,因此DNA的提取液是分子生物学实验技术中最重要、最基本的操作之一。基因组DNA提取应保证核酸一级结构

学习

一曲凤求凰,千载文君酒

阅读(24)

本文为您介绍一曲凤求凰,千载文君酒,内容包括一曲文君酒千载凤求凰是什么意思,一曲凤求凰千载文君酒来历。文君庄园,“做到好,才是好”的真实体现

学习

中国优秀传统文化传承研究综述

阅读(24)

本文为您介绍中国优秀传统文化传承研究综述,内容包括中华优秀传统文化研究阐释,传统文化的传承研究。摘要:改革开放以来,中国优秀传统文化传承研究视野不断拓宽,研究力度不断加强,逐渐走向了学术观点细分、成果质量不断提高的新阶段。本文试

学习

我国对外贸易战略的战略转变

阅读(37)

本文为您介绍我国对外贸易战略的战略转变,内容包括中国对外贸易发展战略的演变,新常态下中国对外贸易战略是。改革开放以来,我国的经济建设取得了惊人的成绩,这主要是对外开放的结果。而作为对外开放的最直接、最有效的方式――对外贸易更

学习

农田杂草的防除技术

阅读(24)

本文为您介绍农田杂草的防除技术,内容包括农田杂草的防除教案,农田杂草与防除论文。摘要:本文主要介绍了农田杂草防除的综合措施,以及玉米田和水稻田杂草的化学防除技术等。

学习

柞水溶洞群

阅读(40)

本文为您介绍柞水溶洞群,内容包括柞水溶洞导游图,柞水溶洞路线。柞水县的著名旅游景区有两处,一是秦岭支脉“牛背梁部级自然生态保护区”,那里原始森林茂密,古木参天,羚牛、羚羊、金钱豹、狗熊、黑鹳、野猪、糜鹿……数不胜数,悠哉游哉,纯然一

学习

泠泠七弦,何去何从?

阅读(27)

古琴作为“琴棋书画”之首,在古代绝对是文人雅士修身养性之首选。然而流传至今,古琴面临着一个非常尴尬的情况。由于生活环境的差异,古琴乐清虚淡静的风格和意境与现代人对音乐的审美有一定的冲突,使得古琴艺术在文化生活中逐渐边缘化。知道

学习

谈谈品牌结构整合设计

阅读(32)

本文为您介绍谈谈品牌结构整合设计,内容包括整合品牌传播,品牌整合推广。并不是每个品牌都有4个层次,有的有3个或2个甚至只有1个。品牌结构整合设计的目的就是要充分利用各层次品牌的独特功能,以最佳的品牌层次及组合方式发挥品牌层次整合

学习

“微粒说”和“波动说”

阅读(27)

本文为您介绍“微粒说”和“波动说”,内容包括微粒说与波动说之争,光的微粒说与波动说。本刊从这一期起开辟《科学史与辩证法》栏目,将陆续发表这方面的文章。

学习

回眸历史,感怀于心

阅读(31)

本文为您介绍回眸历史,感怀于心,内容包括铭记历史鉴往知来全文,铭记历史全文。【主题阐释】

学习

中国是否存在过度竞争

阅读(26)

本文为您介绍中国是否存在过度竞争,内容包括为什么会出现竞争激烈的现象,哪些导致过度竞争迅速升级。张文魁

学习

浅谈酸雨的危害

阅读(52)

本文为您介绍浅谈酸雨的危害,内容包括碱雨和酸雨谁危害大,酸雨的危害的。关键词:酸雨酸雨的危害防治

学习

浅谈3Ds Max中的Particle Flow粒子流系统

阅读(24)

本文为您介绍浅谈3Ds Max中的Particle Flow粒子流系统,内容包括3dmax粒子流基础教程,3dsmax粒子系统效果。[摘要]3DsMax中的ParticleFlow粒子流系统是很多大型影片效制作的主要工具,它的出现给影视制作带来了无限的生命力,它生成的粒子

学习

浅谈英语中“all”的用法与汉译

阅读(479)

本文为您介绍浅谈英语中“all”的用法与汉译,内容包括any和all的用法区别英语,all在英语中的用法。摘要:All在英语中的使用相当广泛,有多种词性充当不同成分,此处我们主要分析它作为形容词与不定代词表达“所有”含义的用法。

学习

浅谈认知法外语教学理论

阅读(36)

本文为您介绍浅谈认知法外语教学理论,内容包括外语教学认知法的优缺点,认知语言学外语教学。内容摘要:认知法主张通过有意识的掌握语音、词汇、语法知识,理解和发现语言内部的结构和语法规则,并通过有意义的操练熟练的运用这些规则创造性地

学习

浅谈体验式教学

阅读(42)

本文为您介绍浅谈体验式教学,内容包括浅谈体验式教学优缺点,浅谈体验式作文教学。一、数学体验式教学的内涵

学习

浅谈悲剧美学

阅读(41)

本文为您介绍浅谈悲剧美学,内容包括浅谈电影中的悲剧美学200字,电影中的悲剧美学。摘要本文从“视悲为乐”这个普遍的现象入手谈论为什么悲剧这么受欢迎。结合近代美学大家朱光潜的对这方面的研究和评论,深化研究悲剧美学的特征。

学习

浅谈英语教学中的整体教学法

阅读(26)

本文为您介绍浅谈英语教学中的整体教学法,内容包括英语教学法的语言结构观,英语教学中多元化教学方式。【摘要】英语教学的任务之一是使学生掌握一定的英语基础知识和听、说、读、写技能,形成一定的语言综合运用能力。这就要求教师在教学

学习

浅谈提高企业出材率

阅读(48)

本文为您介绍浅谈提高企业出材率,内容包括提高出材率,怎样提高pvc制品出材率。摘要:对于企业而言,降低成本是终身追求的目标。除了提高管理效率和工艺改进之外,提高出材率是降低成本的重要途径之一。企业下料车间是开源节流的重要环节,是决