摘要:数据库技术、计算机技术、网络技术的发展产生了大量的数据,人们面临数据丰富,知识贫乏的局面,如何从大量数据中挖掘有用的信息成为当前面临的紧迫问题,数据挖掘技术应运而生。从数据挖掘的概念入手,对数据挖掘过程及孤立点分析技术进行了探讨,最后对数据挖掘进行了展望。
关键词:数据挖掘;孤立点分析;
中***分类号:TP311 文献标识码:A
0 引言
进入信息时代从来,随着计算机技术、数据库技术及互联网技术的发展,数据库中的数据量急剧增长,目前的数据库系统能够实现数据的录入、查询统计等功能,但无法根据数据进行预测未来发展趋势,不能发现数据之间存在的关联规则,缺乏挖掘数据中隐含的知识的手段,出现了“数据爆炸式增长,知识贫乏”的现象,同时这些技术在给人们的生产、生活带来方便的同时,也带来了不少的问题,如信息过量导致人们无法处理,信息的真实性难从确认,信息的安全性得不到保障,信息的形式不一致,难以处理等,面临大数据时代,迫切需要一种技术来准确、快速地获取有用的、隐含的信息,在这种形势下,数据挖掘应运而生。
1 数据挖掘(Data mining)
1.1 概念
数据挖掘技术融合了数据库(Database)、统计学(Statistic)、机器学习(Machine Learning)、模式识别(Pattern Recognition)、专家系统(Expert System)、人工智能(Artificial Intelligence )、数据可视化(Data Visualization)等多种学科,是一种交叉学科,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的人们事先不知道的、潜在的有用的信息和知识的过程。
1.2 过程
数据挖掘是一个迭代的人机交互过程,主要经过问题定义、数据整理、数据挖掘、结果解释评估四个过程。
1.问题定义
问题定义是指清晰定义挖掘目标以防盲目挖掘,在这个阶段要明确对数据挖掘的要求;寻找合适的算法为从后工作奠定基础。
2. 数据整理
作为数据挖掘的基础,数据整理是一个非常重要的阶段,直接影响数据挖掘的结果及挖掘质量。首先选取目标数据,明确对哪些数据挖掘,数据形式是什么样的,其次通过消除“脏”数据、填充丢失数据、滤除冗余数据、数据变换等方式对数据进行处理。
3.数据挖掘
数据挖掘是整个挖掘步骤中最重要的部分,挖掘的实现离不开算法,关联规则、聚类分析,孤立点分析,时间序列模式挖掘等都有各自的挖掘算法,所以在这个阶段需要根据数据的特点及挖掘任务选取或改进算法以适应现有工作的需要。
4.结果解释评估
数据挖掘阶段发现的知识,为分析其结果的可用性,需要对挖掘结果进行评估,剔除无关的模式,不能满足要求的模式要进行回退。
2 孤立点分析技术及应用
数据挖掘技术包括关联规则分析、聚类分析、序列模式分析、孤立点分析等技术,孤立点分析作为数据挖掘的一种技术,是指由于度量、执行错误或固有数据变异所导致的那些小模式数据,它能用于欺诈监测,在金融行业探测不寻常的信用卡使用或电信服务,在商业市场分析中用于确定极低或极高收人的客户的消费行为,在医疗分析中用于发现对多种***方式的不寻常的反应。
3 展望
数据挖掘技术作为人们获取知识的一种手段,能够帮助人们发现有用的信息及知识,相信在不久的将来数据挖掘技术会更加智能化,在展现形式上更加人性化,满足人们多方面的需要。
参考文献:
[1] 毛国君, 段立娟, 王实等. 数据挖掘原理与算法. 北京: 清华大学出版社, 2005.7.
[2] 李德仁,王树良,李德毅. 空间数据挖掘理论与应用. 北京:科学出版社,2006.
[3] 兰小机, 徐红伟等. 基于演化算法的空间数据聚类方法[J]. 计算机工程, 2008(22)
转载请注明出处学文网 » 浅谈数据挖掘之孤立点分析及其应用