粗糙集理论及其应用与发展研究

摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点,叙述了粗糙集理论在各领域的应用发展情况,并且展望了其未来发展趋势。

关键词:粗糙集;属性约简;粗糙集应用;数据挖掘

中***分类号:TP18文献标识码:A文章编号:1009-3044(2008)28-0172-03

Rough Set Theory and Its Application Research

WEI Liang

(Electronics and Information School, Tongji University, Shanghai 201804, China)

Abstract: Rough set theory is a math theory which processes non-accurate, uncertain and incomplete knowledge. Currently, it has already been applied successfully in the area of Artificial Intelligence, Pattern Recognition, Machine Learning, Decision Analyzing and Data Mining etc. This paper introduces the rough set theory and its characteristics, reviews the development of this theory in different fields, and suggests evolutional trend in the coming future.

Key words: rough set; attribute reduction; rough set application; data mining

1 引言

波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究,越来越引起人们的关注,特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合,并融合其它有效的数学工具与方法的研究,显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性,为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。

2 粗糙集理论的基本概念

设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。?坌(x,y)∈U×U,若(x,y)∈R,则称对象x与y在近似空间A中是不可分辨 的。U/R是U上由R生成的等价类全体,它构成了U的一个划分。可以证明,U上划分可以 与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的 集合称为概念或表示知识,则A=(U,R)称为知识库,原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集,否则称为不可定义的。可定义集也称为精确集,它可以在知识库中被精确地定义或描述,可表示已知的知识。可以验证所有可定义集全体可构成 U上的一个拓扑。

令知识库K=(U,R),集合X?哿U,R是一个等价关系:

分别称RX为X的R下近似(Lower Approximation)和RX为X的R上近似(Upper Approximation)。称集合BNR(X)=RX-RX为X的R边界域;POSR(X)RX为X的R正域; NEGR(X)=U-RX为X的R负域。下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BNR(X)由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如***1所示。

刻画粗糙集的方法有以下两种:一种是用表示近似精度的数值表示粗糙集的数字特征;数字特征表示粗糙集边界域的相对大小,但没有说明边界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑特征给出边界域的结构信息,但没有给出边界域大小的信息。

由等价关系R定义的集合X的近似精度如下:

其中X≠Ф,|X|表示集合X的基数,显然,0≤αR(X)≤1。定义PR(X)=1-αR(X),称PR(X)为X的R粗糙度。粗糙度反映了利用知识R近似表示X的不完全程度。

设X是一个R粗糙集, 称X是R粗糙可定义的,当且仅当RX≠Ф且RX≠U;称X是R内不可定义的,当且仅当RX=Ф且RX≠U;称X是R外不可定义的,当且仅当RX≠Ф且RX=U;称X是R全不可定义的,当且仅当RX=Ф且RX=U。如果X是R粗糙可定义的,则意味着我们可以确定U中的某些元素属于X或X;如果X是R内不可定义的,则意味着我们可以确定U中的某些元素是否属于X,但不能确定U中任一元素是否属于X;如果X是R外不可定义的,则意味着我们可以确定U中的某些元素是否属于X,但不能确定U中任一元素是否属于X;如果X是R全不可定义的,则意味着我们不能确定U中的任一元素是否属于X或X。

粗糙集的数字特征(近似精度)和拓扑特征之间有一定的联系:

若集合是内不可定义的或全不可定义的,则其近似精度为0;

若集合是外不可定义的或全不可定义的,则其补集的近似精度为0。

实际应用时,应综合考虑边界域的两种信息。

3 属性约简

属性约简是粗糙集理论中的一个核心部分,同时也是粗糙集理论中最重要的概念之一。自粗糙集理论被提出后,研究学者在属性约简方面提出了许多算法,这些属性约简算法最终可以归结为三类:基于约简定义的Pawlak属性约简算法[2];基于差别矩阵的属性约简算法;基于启发式信息的属性约简算法。然而,到目前为止,还没有一个公认的、高效的最佳属性约简算法,另一方面,科学家在理论上证明求取处理对象的所有属性约简、所有最小约简是一个NP完全问题。

3.1 几种典型的约简算法

3.1.1 基本算法

基本算法首先在已有数据的基础上构造差别矩阵。然后在差别矩阵的基础上得到差别函数。对此得到的差别函数进行化简,使之成为析取范式。最后得到的每个主蕴含式均为约简。该算法可以求出所有的约简。然而,由于对大数据集的差别函数的约简是一个非常困难几乎不可能的问题,因此,此算法只适合于非常小的数据集。

3.1.2 基于差别矩阵的启发式算法

Skowron提出差别矩阵,并且提出差别矩阵可用于属性约简。在此基础上,利用差别矩阵得到了许多启发式约简算法。这些算法的共同点都是先得到差别矩阵,由差别矩阵求出属性核,在此基础上根据如信息熵、属性频率等启发式规则往属性核加入属性,直到满足条件为止。

3.1.3 遗传算法

己经有不少用遗传算法计算约简的算法。各种算法的不同之处主要在适应度函数的不同。Bjorvand和Komorowski提出了具有代表性的遗传算法。每个位串代表差别矩阵的一项,即两个对象的属性集口某位为1时表示该属性存在,否则不存在。这样每个位串是一个约简的候选。定义适应度函数如下:

粗糙集理论及其应用与发展研究

转载请注明出处学文网 » 粗糙集理论及其应用与发展研究

学习

在游戏中学习 在快乐中成长

阅读(29)

摘要:幼儿的学习过程是获取经验的过程。传统学习观把学习理解为一个接受由他人建构好的知识体系的过程;现代新的学习观认为学习是个体在社会文化背景下经验的主动建构过程。

学习

中国文学研究

阅读(35)

本文为您介绍中国文学研究,内容包括文学研究资料汇编,中国文学研究总结。楚辞的文体学意义--兼论楚辞与几种主要的中国古代韵文郭建勋

学习

花岗岩残积土勘探及策略

阅读(29)

本文为您介绍花岗岩残积土勘探及策略,内容包括花岗岩残积土的侧磨阻力,花岗岩残积土取芯容易吗。1前言

学习

如何配制泡菜盐水

阅读(46)

本文为您介绍如何配制泡菜盐水,内容包括怎样配制泡菜盐水,老式正宗泡菜盐水配方。1.泡菜盐水的基本区分泡菜盐水是指蔬菜经预处理后,用来泡制蔬菜的盐水。泡菜盐水按用途、用法等又可区分为洗澡盐水、新盐水、老盐水、新老混合盐水,其配

学习

老式钢笔行情看涨

阅读(33)

本文为您介绍老式钢笔行情看涨,内容包括钢笔行情今天,钢笔行情分析最新。按材料和结构进行分类

学习

浅议期刊合作出版

阅读(50)

本文为您介绍浅议期刊合作出版,内容包括浅议英文科技期刊,浅议幼儿园安全教育管理策略期刊。期刊市场化是期刊发展的必然选择,但在前进的路上我们不难发现,市场经济条件下文化的多样性及媒体走向的多元化,让许多期刊在发行、广告等方面面临

学习

文言文语法辨析

阅读(24)

本文为您介绍文言文语法辨析,内容包括文言文词缀的用法总结,文言文语法教学。我们对文言文进行语法分析时,经常会遇到一些两种表面形式相同或相近,但实质不同的语言现象,有时候很难分辨。这种情况大多数表现在对同形异构的区分和对同形虚词

学习

企业财务管理模式

阅读(40)

本文为您介绍企业财务管理模式,内容包括事业部财务管理模式,集团统一财务管理模式。一、集团财务管理的一般模式

学习

作文中如何写景

阅读(35)

本文为您介绍作文中如何写景,内容包括作文写景的方法和技巧,写景作文要怎么写。所谓写景,是指用形象、鲜明、生动的语言文字,对景物进行具体描绘和刻画的一种表达方式。我们生活在五光十色的自然之中,季节交替、风霜雨雪等自然现象,以及名山

学习

新准则重要性概念

阅读(48)

本文为您介绍新准则重要性概念,内容包括新旧准则的标准对比,学习条例和准则的重要性。1重要性概念的涵义:多角度分析

学习

网络RTK技术

阅读(30)

本文为您介绍网络RTK技术,内容包括网络rtk技术的特点和优势,rtk网络基站。摘要:基于连续多基站观测的网络RTK技术是当前研究的热点。该文介绍了网络RTK系统的组成和虚拟参考站技术(VRS)的基本概念,论述了网络RTK较于常规RTK技术的优势,对网络

学习

如何办理婚前财产公证

阅读(27)

本文为您介绍如何办理婚前财产公证,内容包括婚前财产公证有法律效应吗,婚前现金可以做财产公证吗。所谓婚前财产公证,是婚前财产约定协议公证的简称,指公证机关对将要结婚的男女双方就各自婚前财产和债务的范围、权利的归属问题所达成的

学习

自解压文件的制作

阅读(37)

本文为您介绍自解压文件的制作,内容包括如何制作自动解压文件,自做解压文件app。【摘要】大容量的文件或文件夹在传输或存储时通常采用压缩压缩格式,制作自解压压缩文件,可以简化文件使用者的操作步骤,提高工作效率。

学习

铸铁件电镀硬铬浅谈

阅读(49)

本文为您介绍铸铁件电镀硬铬浅谈,内容包括铸铁镀硬铬厂家,铸铁镀硬铬方法。摘要:铸铁件电镀难度较大,这是因为铸铁含碳量高,组织结构疏松、多孔,有大量砂眼和缩孔,表面还含有较多的游离石墨碳化物,因而使电镀时析出电位降低。基于铸铁工件表面

学习

浅谈陶行知生活教育理论

阅读(30)

本文为您介绍浅谈陶行知生活教育理论,内容包括陶行知生活教育理论的主要内容,陶行知教育理论。【摘要】陶行知是中国近代教育史上的“一代巨人”,伟大的人民教育家。他一生致力于我国的教育事业,经过一系列的教育调查和实践,形成了独具特色

学习

谈“等时圆”模型及其应用

阅读(146)

本文为您介绍谈“等时圆”模型及其应用,内容包括等时圆模型所有结论,物理等时圆模型讲解。物理模型的建立在物理解题有至关重要的作用,加强对物理模型分析以及题型的归纳对于高三复习中大有裨益。下面谈谈"等时圆"系列模型。

学习

合约经济分析的新范式张五常的“佃农理论”

阅读(28)

内容摘要:张五常的博士论文《佃农理论》了所有之前学者的佃农理论,开创了全新的合约经济分析,成为新制度经济学的中流砥柱,间接触发了今天大行其道的信息经济学和博弈理论。其中一整套关于产权、交易费用、合约的理论更是从另一个视角开拓了

学习

金融深化理论

阅读(43)

本文为您介绍金融深化理论,内容包括金融抑制和金融深化理论,金融深化理论相关文献综述。一、金融深化理论简介

学习

量子点材料发光原理及其应用

阅读(47)

本文为您介绍量子点材料发光原理及其应用,内容包括量子点发光原理,量子点材料发光原理及其应用。摘要:近几年,宽禁带纤锌矿半导体ZnO由于其在蓝光和紫外区域光器件的应用越来越受到人们的关注,而且在短波光学装置方面已成为最佳候选材料,比

学习

自适应控制及其应用

阅读(31)

本文为您介绍自适应控制及其应用,内容包括自适应声音控制有必要开吗,自适应巡航控制是什么意思。[摘要]本文介绍了自适应控制的基本思想、控制方法以及目前的应用情况。

学习

浅谈超导现象及其应用

阅读(36)

本文为您介绍浅谈超导现象及其应用,内容包括汞在零下多少度有超导现象,十分钟了解诡异的超导现象。1911年的一天,在荷兰莱顿大学的物理实验室里,昂尼斯教授正在专心致志地研究水银的低温性能。他先将水银冷却到-40℃,液体水银便凝固成一条

学习

论二程天理论

阅读(30)

本文为您介绍论二程天理论,内容包括二程论天理原文,二程论完整版。【摘要】二程的天理论是二程哲学体系的重要命题。二程认为,天即是理,理即具有宇宙万物的主宰地位,同时亦具有宇宙本体的意义。天理是自然之理,人们要顺应天理而不能违背它。