摘 要:计算机的发展使得处理海量数据成为计算机的主要任务之一,采用模糊聚类法可以有效地解决这个问题。模糊聚类法主要有传递闭包法、最大树法,模糊C2均值方法等,能够应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。
关键词:模糊聚类;应用
中***分类号:TP311 文献标识码:A
随着互联网技术的发展和计算机处理能力的不断提升,处理海量数据成了目前计算机的主要任务之一。如何把海量数据很好地进行归类以发现知识也成了很多学科领域的研究重点。
聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。在这个过程中,事先并不清楚每个数据的类别,是一种无监督的分类过程。其目的是要获得一个划分,这些划分将一组数据集合分成几个子集,每个子集为一类,划分的标准是同类的数据在某种意义下相似性较高,不同类的数据在相同意义下相似性较低。
而现实世界中数据的归类有时并没有如此严格的界限,数据在性态和类属方面存在着过渡态,单一的类别并不能全面反映数据属性,需要做一种软划分以表达数据的类别性质。Zadeh提出的模糊集理论为解决这一问题提供了有力的分析工具,用模糊理论的思想来处理聚类问题,可以建立起样本对于类别的不确定性的描述,能更客观地反映现实世界。模糊聚类方法就是在此基础上发展起来的。这种类型的聚类方法,是从模糊集的观点来探讨事物的数量分类的一类方法
1 模糊集定义
模糊集理论最早是1965年美国计算机和控制论专家Zadeh提出的。他提出了用隶属程度来描述事物差异的中间过度,是一种用精确的数学语言对模糊性进行描述的方法。这种隶属程度,称谓隶属函数。
定义:论域U上的模糊集合A通过一个隶属函数刻画
μA (x):U[0,1],x∈U
记住A={(x,μA (x))|x∈U}
对任意x∈U,都指定一个数μA (x) ∈[0,1]与之对应,称为x对A的隶属度,μA(x)称为A的隶属函数。
若μA (x)=0,则x完全不属于A;若μA (x)=1,则x完全属于A;若0
隶属函数是模糊集理论的基本概念,它以0~1区间的一个实数反映一个元素隶属于集合的程度来描述模糊现象。常用的隶属函数有三角形隶属函数,S隶属函数,正态隶属函数,梯形隶属函数等。而隶属函数的正确选择在模糊集的研究与应用中起着十分关键的作用。当然,也可以个人偏好主观设定隶属函数。
2 模糊聚类算法描述
类的类别界限是分明的。然而,客观事物之间的界限往往是不分明的,这就提出了模糊划分的概念。模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事物进行分类的一门多元技术。
设X=(x1,x2,…,xn)为被分类对象全体,每一对象xi由一组数据(xi1,xi2,…,xim)表征,建立X上的模糊关系(模糊相似矩阵)R=(rij)n×m,这里表示xi与xj的相似度。其模糊关系的确定方法具体有距离法,如切比雪夫距离、海明距离、欧氏距离,以及相似系数法、贴近度法等。
基于模糊划分概念的模糊聚类方法主要有传递闭包法、最大树法,模糊C2均值方法等。模糊聚类反映了对象属于不同类别的不确定程度,可以更客观地反映现实世界。目前,模糊聚类分析已经广泛地应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。
2.1 传递闭包法
传递闭包法聚类首先需要通过标定的模糊相似矩阵R,然后求出包含矩阵R的最小模糊传递矩阵,即R的传递闭包t(R),最后依据t(R)进行聚类。
(1)根据建立的相似矩阵求其传递闭包,即利用平方法,依次计算RR2R4。...。 R2k...,直至首次出现R2k=R2k+1,此时的R2k=t(R)为模糊等价矩阵。
模糊相似关系的建立关于各分类对象之间相似性统计量rij的计算,除了采用夹角余弦公式和相似系数法等方法确定相似系数,建立模糊相似矩阵,还可以采用如下几个计算公式。
①数积法:
(2)再按模糊等价矩阵t(R)里的元素数值从1到0,依次截得等价关系进行分类就能得到一个聚类***整个计算量为n3~n3log2n。
2.2 最大树法
最大树法根据模糊相似矩阵画出最大树再进行聚类,可按如下步骤进行。
第一步:建立分类对象集上的模糊相似关系,构造模糊***。这一步骤的工作可按如下作法进行:
(1)计算各个分类对象之间的相似性统计量rij(i,j=1,2,…,m),
建立分类对象U上的模糊相似关系R(rij)n×m
(2)将R表示成一个有m个结点所构成的模糊***G
第二步:构造最大模糊支撑树。构造模糊***G上的最大支撑树的算法,可按下述作法进行:
(1)找出G中最大权值的边rij;
(2)将rij存放在集合C中,将rij边上的新结点放入集合T中,若T中已含有所有m个结点时,转(4);
(3)检查T中每一个结点与T外的结点组成的边的权值,找出其中最大者rij,转至(2);
(4)结束,此时G中的边就构成了G的最大模糊支撑树Tmax。
第三步:由最大模糊支撑树进行聚类分析。其具体作法是:选择某一个λ值作截集,将Tmax中小于λ的边断开,使相连的各结点构成一类,当λ由1下降到0时,所得的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系***。
最大树的画法有Prim法和Kruskal法,用Prim法至多进行n3次运算,用Kruskal法至多进行n3~n3log2n次运算。
2.3模糊C均值聚类算法(FuzzyC-means,FCM)
该算法是由Bezdek和Dunn提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,。。。,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(7):
(7)
Bezdek将Dunn定义的目标函数J(U,C1,…,Ce)算法推广到更一般的情况:
(8)
式(8)中ci∈Rn为模糊组的聚类中心,dij=xj-ci为第个聚类中心与第个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...,ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。
3 模糊聚类分析的应用研究
3.1 模糊聚类分析在数据挖掘中的应用
随着近年来数据挖掘技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类,通过聚类可以从客户基本数据库中发现不同的客户群,刻画不同客户群的特征;作为数据挖掘的功能,聚类分析不仅可以作为一个***的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析研究,而且聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,能够发现具有相似记录的数据空间领域,往往可以获得较好的样本数据。由于现实的分类过程往往伴随着模糊性所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。 本文为全文原貌 未安装PDF浏览器用户请先***安装 原版全文
模糊集理论是一种处理不确定性问题的数学工具,是数据挖掘技术的重要方面。它正与粗糙集理论相集合,成为数据挖掘技术中一个新型领域,其发展空间极为广阔。
3.2 模糊聚类分析在金融业中的应用
数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。
3.3 模糊聚类分析在模式识别中的应用
特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;***条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。
3.4 模糊聚类分析在***像处理中的应用
***像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使***像比较适合用模糊手段处理,同时训练样本***像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为***像处理中一个重要的研究分析工具。***像分割是模糊聚类在***像处理中最为广泛的应用,***像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行***像分割,此后基于二维直方***、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度***像分割新方法,该方法在纹理***像分割、彩色***像分割、序列***像分割、遥感***像分割等方面获得了很大的进展。基于模糊聚类的方法在***像压缩、曲线拟合、边缘检测、***像增强等方面的研究同样取得了丰硕的成果。
4 结束语
模糊聚类是一门采用模糊数学方法进行分类的多元技术,其中动态直接聚类法计算量最少,在聚类分析、模式识别等领域应用中简便、实用。在实际应用中,其步骤是先经过数据预处理,再选取合适的模糊关系建立模糊相似矩阵,最后进行分类和识别。
参考文献:
[1] 刘晋寅, 吴孟达. 模糊理论及其应用[M]. 长沙: 国防科技大学出版社, 1998.
[2] Timothy J Ross. 模糊逻辑及其工程应用[M]. 北京: 电子工业出版社, 2003.
(本文审稿 王化文) 本文为全文原貌 未安装PDF浏览器用户请先***安装 原版全文
转载请注明出处学文网 » 模糊聚类法及其应用研究