摘 要 随着社会的进步,数据信息量的增加,人们对数据信息有了更高的要求。本文从数据挖掘技术定义,常用的技术方法以及数据挖掘的应用做了简单的介绍,最后介绍了对数据挖掘技术的展望。
关键词 数据挖掘;方法;应用
中***分类号TP3 文献标识码A 文章编号 1674—6708(2012)76—0209—02
近几年来,随着数据库技术的不断发展,数据挖掘引起了信息产业界和整个社会的极大关注。因为人们所拥有的数据量在不断的增长,这就对数据的管理和分析提出了更高的要求,急需新的技术从大量的信息中提取或“挖掘”知识,于是数据挖掘(Data Mining)技术被受人们关注和使用。
1 数据挖掘技术定义
数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在大多数情况下,人们只知道储存数据,数据越来越多,可是不知道数据中存有很多重要的信息,数据挖掘就可以从这大量的数据中搜索出重要的信息。
2 数据挖掘常用的方法
1)决策树。决策树方法是把数据分类,构成测试函数,建立树每一层分支,重复下去就构成了决策树。在构造决策树时,树尽可能精度高,规模小。商业银行在对风险决策时经常用此方法;
2)人工神经网络。神经网络方法引用生物神经网络的方法,就好像人的神经网络,它连接输入、输出信号的枢纽。它在很大程度上模拟人脑的神经系统处理信息。人工神经网络具有四个基本特征:非线性、非局限性、非常定性、非凸性。用人工神经网络方法建立的模型具有很强的非线性拟合能力,学习规则简单,控制能力强等优点;
3)遗传算法(Genetic Algorithm,GA)。遗传算法是模仿达尔文生物进化的自然选择和遗传机制的一种寻优算法。群体中的所有个体为研究对象,利用随机化技术搜索编码,然后分别利用选择、交叉和变异这三个基本遗传算子对其进行遗传操作就能寻找到问题的最优解或者是最满意解。遗传算法的优点是过程简单,具有随机性,可扩展性。实用。在很多领域得到了很大的应用。缺点是编程比较复杂,需要对问题进行编码,找到满意解后还要对问题解码。算法速度比较慢,对初始种群的选择有依赖性等缺点;
4)聚类算法。聚类算法可以说是多元统计研究“物以类聚,人以群分”的一种方法,主要任务是发现大型数据中的积聚现象。聚类分析是把相似特征的样本归为一类,类内差异差距较小,类间距差距较大。聚类算法在好多领域有应用。在商务上,根据客户不同的消费模式进行分类,对客户进行划分,帮助商家获得更多利益。在生物学中,对动植物进行分类,了解各自的基因特征。聚类的算法也比较多,例如:基于模糊的聚类方法、基于粒度的聚类方法、量子聚类、核聚类、谱聚类,这些是新发展的聚类算法。还有常用的聚类算法—BIRCH算法、K—MEANS算法、均值计算方法等。
3 数据挖掘的应用
数据挖掘技术在好多领域有应用。例如:金融业、通讯、教育、***府管理部门等等行业。1)金融业。例如:金融事务需要搜集和处理大量复杂的数据,许多银行和金融机构提供多种多样的投资服务(如共同基金)、信用服务(如个人信用卡)和银行服务(如个人存款)。由于交易的频繁性、信息的不对称性和复杂性,必须从海量数据中挖掘信息,金融数据挖掘技术可以帮助银行系统查询客户以往的需求情况并预测未来;可以分析潜在的信誉较差的客户,及时采取措施减少资产损失;2)通讯业。例如:现今通信业务可以说是五花八门,多种多样,适合不同需求的人群。要想退出新业务,创效益。就必须先确定可能要试用此项业务的客户特征。确定完成后先让小范围的客户试用此项业务,当他们试用一段时间后,对客户的反馈信息进行分析,修改更新,反复这样下去,直至此项业务成熟后,推广进入市场。那如何从大量的客户消费数据中得到这些客户特征,这就需要数据挖掘技术对客户进行详细的深层次的分析,得到有效的,准确的数据;3)***门。例如:高校的招生可以说是任何一个高校的大事,招生好坏直接影响学校的生存。专业计划的是否合理,就直接影响招生。我们需要对大量的招生录取信息和就业信息进行分析,数据挖掘技术就可以从这些信息中提取重要的信息预测未来的专业计划如何投放,每个专业投放多少比较合理,不至于计划浪费;4)***府管理部门。随着社会的不断进步,***府部门内部以及部门之间拥有了大量的***务信息,要想掌握有效,准确的***务信息,我们可以利用数据挖掘中的决策树方法,从大量的***务信息中提取准确有效的信息,大大提高整个电子***务的智能化水平。可以通过对网络各种经济资源的深度挖掘,确定未来的经济形势,从而可以指定出合理的宏观调控***策。为社会经济提供有力的可靠的拐杖。
4 数据挖掘未来的展望
数据挖掘的应用越来越广泛,人们对数据挖掘技术的需求水平也就越来越高。它可以预测未来的发展趋势,所以今后研究焦点可能会集中到处理非数字数据;寻求数据挖掘过程中的可视化方法,便于在知识发现过程中的人机交互,使计算机真正实现智能化。这可能需要一段时间,需要计算机工作者的不断的研究探索,可能需要很大的努力。但我相信,不久的将来我们会看到数据挖掘据技术很大的进展。
参考文献
[1][加]Jiawei Han Micheline Kamber著.范明,孟小峰译.数据挖掘概念与技术[M].机械工业出版社.
[2]陈晓燕.遗传算法在数据挖掘中的应用[J].琼州学院学报,18(2).
[3]周明华.近代算法在工程领域中的应用研究[D].浙江大学博士学位论文,2005,1.
[4]曾令明,金虎.基于遗传算法的双向关联规则挖掘[J].微电子学与计算机,2006(23):35—37.
[5]周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用, 2012,48(12).
[6]郑红英.数据挖掘聚类算法的分析和应用研究[J].重庆大学硕士学位论文,2002,4.
[7]朱晶,李石君.基于数据挖掘的金融数据分析[J].电脑知识与技术,2010(3):18—19.
[8]王宛平,李冰.数据挖掘在移动通信客户关系管理中的应用[J].科技信息,2009(23).