模糊聚类法及其应用研究

摘 要:计算机的发展使得处理海量数据成为计算机的主要任务之一,采用模糊聚类法可以有效地解决这个问题。模糊聚类法主要有传递闭包法、最大树法,模糊C2均值方法等,能够应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。

关键词:模糊聚类;应用

中***分类号:TP311 文献标识码:A

随着互联网技术的发展和计算机处理能力的不断提升,处理海量数据成了目前计算机的主要任务之一。如何把海量数据很好地进行归类以发现知识也成了很多学科领域的研究重点。

聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。在这个过程中,事先并不清楚每个数据的类别,是一种无监督的分类过程。其目的是要获得一个划分,这些划分将一组数据集合分成几个子集,每个子集为一类,划分的标准是同类的数据在某种意义下相似性较高,不同类的数据在相同意义下相似性较低。

而现实世界中数据的归类有时并没有如此严格的界限,数据在性态和类属方面存在着过渡态,单一的类别并不能全面反映数据属性,需要做一种软划分以表达数据的类别性质。Zadeh提出的模糊集理论为解决这一问题提供了有力的分析工具,用模糊理论的思想来处理聚类问题,可以建立起样本对于类别的不确定性的描述,能更客观地反映现实世界。模糊聚类方法就是在此基础上发展起来的。这种类型的聚类方法,是从模糊集的观点来探讨事物的数量分类的一类方法

1 模糊集定义

模糊集理论最早是1965年美国计算机和控制论专家Zadeh提出的。他提出了用隶属程度来描述事物差异的中间过度,是一种用精确的数学语言对模糊性进行描述的方法。这种隶属程度,称谓隶属函数。

定义:论域U上的模糊集合A通过一个隶属函数刻画

μA (x):U[0,1],x∈U

记住A={(x,μA (x))|x∈U}

对任意x∈U,都指定一个数μA (x) ∈[0,1]与之对应,称为x对A的隶属度,μA(x)称为A的隶属函数。

若μA (x)=0,则x完全不属于A;若μA (x)=1,则x完全属于A;若0

隶属函数是模糊集理论的基本概念,它以0~1区间的一个实数反映一个元素隶属于集合的程度来描述模糊现象。常用的隶属函数有三角形隶属函数,S隶属函数,正态隶属函数,梯形隶属函数等。而隶属函数的正确选择在模糊集的研究与应用中起着十分关键的作用。当然,也可以个人偏好主观设定隶属函数。

2 模糊聚类算法描述

类的类别界限是分明的。然而,客观事物之间的界限往往是不分明的,这就提出了模糊划分的概念。模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事物进行分类的一门多元技术。

设X=(x1,x2,…,xn)为被分类对象全体,每一对象xi由一组数据(xi1,xi2,…,xim)表征,建立X上的模糊关系(模糊相似矩阵)R=(rij)n×m,这里表示xi与xj的相似度。其模糊关系的确定方法具体有距离法,如切比雪夫距离、海明距离、欧氏距离,以及相似系数法、贴近度法等。

基于模糊划分概念的模糊聚类方法主要有传递闭包法、最大树法,模糊C2均值方法等。模糊聚类反映了对象属于不同类别的不确定程度,可以更客观地反映现实世界。目前,模糊聚类分析已经广泛地应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。

2.1 传递闭包法

传递闭包法聚类首先需要通过标定的模糊相似矩阵R,然后求出包含矩阵R的最小模糊传递矩阵,即R的传递闭包t(R),最后依据t(R)进行聚类。

(1)根据建立的相似矩阵求其传递闭包,即利用平方法,依次计算RR2R4。...。 R2k...,直至首次出现R2k=R2k+1,此时的R2k=t(R)为模糊等价矩阵。

模糊相似关系的建立关于各分类对象之间相似性统计量rij的计算,除了采用夹角余弦公式和相似系数法等方法确定相似系数,建立模糊相似矩阵,还可以采用如下几个计算公式。

①数积法:

(2)再按模糊等价矩阵t(R)里的元素数值从1到0,依次截得等价关系进行分类就能得到一个聚类***整个计算量为n3~n3log2n。

2.2 最大树法

最大树法根据模糊相似矩阵画出最大树再进行聚类,可按如下步骤进行。

第一步:建立分类对象集上的模糊相似关系,构造模糊***。这一步骤的工作可按如下作法进行:

(1)计算各个分类对象之间的相似性统计量rij(i,j=1,2,…,m),

建立分类对象U上的模糊相似关系R(rij)n×m

(2)将R表示成一个有m个结点所构成的模糊***G

第二步:构造最大模糊支撑树。构造模糊***G上的最大支撑树的算法,可按下述作法进行:

(1)找出G中最大权值的边rij;

(2)将rij存放在集合C中,将rij边上的新结点放入集合T中,若T中已含有所有m个结点时,转(4);

(3)检查T中每一个结点与T外的结点组成的边的权值,找出其中最大者rij,转至(2);

(4)结束,此时G中的边就构成了G的最大模糊支撑树Tmax。

第三步:由最大模糊支撑树进行聚类分析。其具体作法是:选择某一个λ值作截集,将Tmax中小于λ的边断开,使相连的各结点构成一类,当λ由1下降到0时,所得的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系***。

最大树的画法有Prim法和Kruskal法,用Prim法至多进行n3次运算,用Kruskal法至多进行n3~n3log2n次运算。

2.3模糊C均值聚类算法(FuzzyC-means,FCM)

该算法是由Bezdek和Dunn提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,。。。,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(7):

(7)

Bezdek将Dunn定义的目标函数J(U,C1,…,Ce)算法推广到更一般的情况:

(8)

式(8)中ci∈Rn为模糊组的聚类中心,dij=xj-ci为第个聚类中心与第个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...,ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。

3 模糊聚类分析的应用研究

3.1 模糊聚类分析在数据挖掘中的应用

随着近年来数据挖掘技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类,通过聚类可以从客户基本数据库中发现不同的客户群,刻画不同客户群的特征;作为数据挖掘的功能,聚类分析不仅可以作为一个***的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析研究,而且聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,能够发现具有相似记录的数据空间领域,往往可以获得较好的样本数据。由于现实的分类过程往往伴随着模糊性所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。 本文为全文原貌 未安装PDF浏览器用户请先***安装 原版全文

模糊集理论是一种处理不确定性问题的数学工具,是数据挖掘技术的重要方面。它正与粗糙集理论相集合,成为数据挖掘技术中一个新型领域,其发展空间极为广阔。

3.2 模糊聚类分析在金融业中的应用

数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。

3.3 模糊聚类分析在模式识别中的应用

特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;***条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。

3.4 模糊聚类分析在***像处理中的应用

***像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使***像比较适合用模糊手段处理,同时训练样本***像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为***像处理中一个重要的研究分析工具。***像分割是模糊聚类在***像处理中最为广泛的应用,***像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行***像分割,此后基于二维直方***、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度***像分割新方法,该方法在纹理***像分割、彩色***像分割、序列***像分割、遥感***像分割等方面获得了很大的进展。基于模糊聚类的方法在***像压缩、曲线拟合、边缘检测、***像增强等方面的研究同样取得了丰硕的成果。

4 结束语

模糊聚类是一门采用模糊数学方法进行分类的多元技术,其中动态直接聚类法计算量最少,在聚类分析、模式识别等领域应用中简便、实用。在实际应用中,其步骤是先经过数据预处理,再选取合适的模糊关系建立模糊相似矩阵,最后进行分类和识别。

参考文献:

[1] 刘晋寅, 吴孟达. 模糊理论及其应用[M]. 长沙: 国防科技大学出版社, 1998.

[2] Timothy J Ross. 模糊逻辑及其工程应用[M]. 北京: 电子工业出版社, 2003.

(本文审稿 王化文) 本文为全文原貌 未安装PDF浏览器用户请先***安装 原版全文

模糊聚类法及其应用研究

转载请注明出处学文网 » 模糊聚类法及其应用研究

学习

依赖症,你知多少

阅读(29)

本文为您介绍依赖症,你知多少,内容包括依赖症的文章,依赖症段子。手机依赖症

学习

浅谈古希腊戏剧

阅读(40)

本文为您介绍浅谈古希腊戏剧,内容包括古希腊戏剧代表作品,古希腊戏剧之父是谁。摘要:古希腊戏剧起源于民间歌舞和宗教仪式。悲剧在古希腊文里作tragoidia(特拉戈狄亚),意思是“山羊之歌”。古希腊悲剧着意在“严肃”,而不着意在“悲”。

学习

哲学的性质:普遍性、终极性和思辨性

阅读(14)

本文为您介绍哲学的性质:普遍性、终极性和思辨性,内容包括哲学发展史的含义,哲学的基本特征深刻性。[摘要]哲学是人类追求普遍理性的活动。哲学所追求的普遍理性的第一个性质便是普遍性。哲学的普遍性特征本身就内在地包含着终极性特征,

学习

为时不晚!作文900字

阅读(30)

本文为您介绍为时不晚!作文900字,内容包括为时尚早为时已晚作文800字,为时不晚作文。我,王家庄小学的尖子生,一名老师眼中的好学生,家长眼中的好孩子,为此我骄傲得趾高气扬,可是我错了,大错特错,我忘记了,人外有人,天外有天。在这个黑色的星期日,我

学习

日本BOOKOFF 逆势成长

阅读(51)

本文为您介绍日本BOOKOFF 逆势成长,内容包括matebook二合一,华为matebook16测评。旧书给人的感觉往往色彩斑驳,散发着尘土的气味。尤其是旧书店,很多给人以一种窒息的感觉。但是BOOKOFF的出现改变了人们的固有印象。

学习

浅谈印度婆罗多古典舞蹈

阅读(18)

本文为您介绍浅谈印度婆罗多古典舞蹈,内容包括印度婆罗多舞蹈,印度四大古典舞蹈之一的婆罗多舞。摘要:婆罗多舞蹈是印度古典舞蹈的精品,享誉世界。印度古典舞蹈非常重视用手和眼神的表达。婆罗多代表情绪、音乐、节拍、动作,因而可清楚了解

学习

KITTING在发动机装配线上的运用

阅读(20)

摘要:规划某型号发动机的装配线过程中,因受场地限制,生产线的LAYOUT规划遇到诸多难题。通过规划实施KITTING策略,缓解了线旁物料布置的瓶颈,同时也减少操作工非增值工作时间,提升装配质量,也符合企业正在推广的精益生产策略。

学习

论辩诉交易

阅读(13)

本文为您介绍论辩诉交易,内容包括辩诉交易,辩诉交易的优缺点。摘要:文章探讨辩诉交易基本理论,介绍辩诉交易制度在各国的地位和作用,以两大法系中辩诉交易理论的比较为研究方法,分析该理论在两大法系中的共性和差异。

学习

砂土液化机理分析

阅读(23)

本文为您介绍砂土液化机理分析,内容包括砂土液化机理,砂土液化初步判断。摘要:本文首先分析探讨了砂土液化的机理,然后对砂土液化的影响因素进行了探讨,具有较强的理论性和系统性,供借鉴探讨。

学习

会计核算基础规范

阅读(18)

本文为您介绍会计核算基础规范,内容包括会计核算制度的最新版本,公司哪些会计核算比较规范。论文关键词:会计核算;基础工作;规范

学习

河道治理中疏浚施工现状及常见问题

阅读(27)

本文为您介绍河道治理中疏浚施工现状及常见问题,内容包括河道疏浚治理方案,河道疏浚工程包括哪些。摘要:随着生态城市建设步伐的加快,对于很多城市来说,河道治理已经成为了重点性的项目,疏浚施工时常常会面临很多的问题,虽然在大量的河道疏浚

学习

浅谈二次备课

阅读(18)

本文为您介绍浅谈二次备课,内容包括浅谈集体备课的重要性,关于二次备课讲解。摘要:集体备课形成的一体化教学案,不是终结,还需教师在此基础上再进行二次备课。二次备课的重点主要是根据自己所带班级学生的知识基础、差异及其内在的实际情况

学习

积跬步,以至千里

阅读(39)

本文为您介绍积跬步,以至千里,内容包括不积跬步无以至千里原文全文,不积跬步无以至千里不积小流全文。所有这些对于一个中学生来说的确是早了点,也就因为这一个“早”字决定了信息学奥赛的特点,中学信息学奥赛要取得成效不可能一蹴而就。

学习

高压水射流切割技术原理及其应用研究

阅读(21)

本文为您介绍高压水射流切割技术原理及其应用研究,内容包括高压水射流切割技术,高压水射流切割机制作方法。摘要:本文主要介绍了高压水射流切割技术的发展概况、工作原理和在一些行业的应用,同时期待中国的高压水射流切割技术能够进一步发

学习

反证法及其应用

阅读(20)

本文为您介绍反证法及其应用,内容包括反证法怎么否定结论,数学反证法解题技巧。数学结论的正确性必须通过逻辑推理的方式加以证明.证明的基本方法有直接法和间接法,反证法是间接证明的一种基本方法.

学习

物理学中的叠加原理及其应用技术分析

阅读(21)

本文为您介绍物理学中的叠加原理及其应用技术分析,内容包括物理书中的叠加原理怎么用,应用叠加原理求梁横截面的挠度。摘要:自然界中存在许许多多的叠加现象,应用这一性质使生活中的许多难题都迎刃而解。叠加原理是物理学中的基本原理,在整

学习

模糊综合评价法在标高金决策中的应用

阅读(31)

本文为您介绍模糊综合评价法在标高金决策中的应用,内容包括模糊综合评价法ppt,模糊综合指数法介绍。【摘要】本文引用一种定性与定量相结合,综合化程度较高的评标方法--模糊综合评价法,来确定标高金的数值量,从而使报价过程更加公正科学,有

学习

模糊推理算法的研究

阅读(18)

本文为您介绍模糊推理算法的研究,内容包括模糊推理系统实验总结,模糊推理算法的优缺点。摘要:随着科技的快速发展,模糊推理算法逐渐成为信息技术中处理模数信息的重要工具,受到计算机科学领域的广泛关注。作为推理的重要分支,在计算机网络的

学习

粗糙集理论及其应用与发展研究

阅读(18)

本文为您介绍粗糙集理论及其应用与发展研究,内容包括粗糙集理论及其应用,模糊粗糙集的理论与方法。摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据