摘要:知识发现和数据挖掘是空间数据获取、空间数据库、空间计算机以及网络通信、管理决策支持等技术发展到一定阶段的产物,作为一门新型的边缘学科,其汇聚了例如人工智能、数据库、模式识别等多种学科的研究成果。本文将简要介绍知识发现与挖掘技术的相关概念、过程及常用的技术方法, 并介绍一下知识发现和数据挖掘的应用。
关键词:空间数据挖掘;知识发现;方法
中***分类号:P208 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-02
科技发展日新月异,网络技术的发展将整个世界联成一体,人们可以超越时空的概念,利用网络,相互之间进行信息交换、协同工作,这种信息交换与工作协同在方便了人们的同时必然造成信息与数据的无限扩张,会使人们在提取有用信息和知识时,如同大海捞针一样无力,面对大量的数据,传统的数据分析手段难以应付,导致越来越严重的数据灾难,为了有效解决这一问题,知识发现与数据挖掘技术开始出现。
一、特点及过程
(一)特点
作为一门新兴学科,知识发现具有极大的发展前途和有广泛应用前景,知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,知识发现不需要预先进行假设或者提出问题,就可以找到那些非预期的有用的或有潜在价值的信息,是一种有价值的搜寻过程。
数据挖掘也称知识挖掘,可以看成数据库中的知识发现,是从大量庞杂的数据中获取信息和知识的过程。数据挖掘其一开始出现的目的就是应用,因此数据挖掘的研究成果是很讲求实际的。数据挖掘技术不是简单的数据库的检索、调用,而是对数据进行全方位的统计、分析和推理, 以指导实际问题的求解,企***发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。
(二)过程
知识发现的内涵与知识挖掘,知识发现是从数据库中发现知识的整个过程,数据挖掘是具体这个过程的关键步骤,因此,知识发现与数据挖掘通常在使用时是不加区分的。一个完整的知识挖掘过程如下:
数据库数据的准备数据挖掘知识评价知识表示知识库。
二、方法
知识发现与数据挖掘方法有很多,其中比较常见的有以下几种:
(一)空间分析法
空间分析法是一种总称,其利用一定的技术理论对空间的叠置、拓扑结构、***像以及距离好空间缓冲区进行分析,把探测性的数据分析与空间分析相结合,构成探测性的空间分析,聚焦数据,发现隐含在其中的特征和规律。
(二)统计分析法
统计分析法是一种通过对研究对象的规模、范围数量关系信息的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,进一步进行对象评估、特征预测、规律统计,借以达到对事物的正确解释和预测的一种研究方法。
(三)聚类方法
聚类分析是基于物理特性的聚类或分类,根据一定的标准大型多维空间数据集,以确定相应的区域,数据被分为一组的一系列相互区分,发现法律数据集。作为统计学的一个分支,聚类分析无需背景知识可以直接发现有意义的空间聚类结构。
(四)遗传算法
遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,自适应地调整搜索方向,不需要确定的规则,能在搜索过程中自动获取和积累有关搜索空间的知识,并可通过自适应机制控制搜索过程以求得最优解。
(五)神经网络方法
这种方法利用神经元练成网络,通过这种形式使系统成为具有存储、联想等一些列的功能的自适应非线性动态系统。这种方法的优点是具有并行性、直观性和抗噪声性。
(六)模糊集理论
模糊集用模糊隶属函数确定的隶属度描述不精确的属性数据,重在处理空间数据挖掘和知识发现中不精确的概率。我们都知道模糊是一种客观存在,一个系统越复杂,精确化就越难,因此模糊性就越强。在根据模糊集理论,类型和空间实体分别作为模糊集合和集合元素。在空间数据挖掘中,模糊集可用作模糊决策、模糊评判、模糊聚类分析、模糊模式识别、计算置信度和合成证据等。
(七)粗集理论
粗糙集是上近似和下近似集组成,然后以此为基础来处理不精确,不确定和不完整的信息,智能数据决策的工具,更恰当地基于空间数据挖掘的属性不确定性。
(八)云模型
云模型是一种新的方法,它用自然语言值表示定性概念与其定量数据表示之间的不确定性转换模型,反应的是客观世界中的概念的随机性和模糊性,并将二者紧密集合,集成在一起构成定量与定性间的映射。
(九)决策树
决策树方法是,根据不同的特点,分类或决策树结构的集合,从而创造发现的规则和模式,仅仅意味着一个简单的产生规则和发现规律。
三、应用
知识发现与挖掘技术在信息发现与信息提供发面都有着重要意义。
(一)在信息发现中的应用
其在信息发现中的应用主要有以下几种:
1. Web 数据开采
随着网络的普及,互联网已经广泛的应用于人们生产生活的各个方面,可以说人们对此并不陌生,我们知道,人们所获取的信息大部分都要来自于因特网,而因特网的数据信息不仅庞杂,更是非结构的、无序的、动态的,要想在因特网上获取符合要求的信息,对用户来说十分困难,基于此,Web 数据开采作为一项已解决上述问题为目的的新技术被人们提了出来。Web 数据开采由信息采集、识别、分类构成其实现过程,就目前来说,它主要有网络智能体和智能信息捕捉器两种实现形式。所谓智能体就是一个具有控制问题求解机理的计算单元,智能体具有一定的智能型,可以模拟人类的行为和关系,可以自主运行并提供相应的服务。用户在智能体的神经网络技术引导下,可以很迅速的进入所需页面,通常情况下这些页面都是需要通过长时间的交互才能到达的。智能捕捉器以自动捕捉、采集和整理领域所需信息为目的, 其根据用户输入的对捕捉需求的定义进行查找,先查找到信息源登记表,然后根据信息源提供的信息粒度进行筛选找出信息源,再根据模型算法确定并选取最佳搜索路径,按逻辑式自动组织搜索关键字,还可以同时对应多个特定领域范围内的信息捕捉。
2.智能搜索引擎
面对无边的数据海洋,智能搜索引擎是很好的应用工具,智能搜索引擎的检索机制是关键词匹配原则,可以帮助用户更好的寻找信息资源。目前的搜索引擎还不完善,有着诸如不划分知识领域、知识量少等一些列问题,其搜索的效率并不高,因此人们开始着眼于智能搜索引擎的开发,智能搜索引擎很好的弥补了现行搜索引擎的不足。
3.多语种信息发现
多语种信息资源使人们在获取知识时的最大障碍,一直以来,地理和语言的障碍都使人们获取知识时产生一定的困难,随着科技的发展,人们研究出多语种信息发现,这可以很好的解决多语种障碍,使地球成为名符其实的地球村,实现信息数据资源的真正共享。多语种信息发现主要应用在多语种电子文档获取、翻译、检索方面。
(二)在信息提供中的应用
知识发现与数据挖掘技术在信息提供中主要应用在以下几个方面:
1.知识共享
知识共享是一个我们十分熟悉的词汇,这种共享发生在一个虚拟的团体中,这个团体的成员依靠网络相互联系、相互支持、资源共享一次可以更快更好的解决问题。
2.信息智能“推”
所谓信息智能推是指在信息的搜索过程中,机器通过关键词识别和预测用户的兴趣或偏好, 从而及时地、有针对性地向用户主动推送相关知识和最新信息,这样既可以减轻网络负担,也可以扩大用户范围。
3.其他
除了上述两种外还有个性化服务、互动式服务和语义交互,就不一一赘述了。
四、结束语
知识发现与知识挖掘作为新兴的研究领域,已经得到了广泛的应用,但是作为一项崭新的技术,知识发现与知识挖掘目前仍处于起步阶段,仍有很多研究难题有待解决,比如数据访问的效率和可伸缩性,发现模式的精炼等等,所以对它的研究将会一直持续下去,其应用前景也会更加美好。
参考文献:
[1]杨武,陈庄.数据库知识发现技术及应用[J].重庆工学院学报:自然科学版,2001,15(2):32-34
[2]韩惠琴,刘柏嵩.数字***书馆中的知识发现[J].情报学报,2001,20(3):16-19
[3]李德仁,王树良,史文中.论空间数据挖掘和知识发现[J].武汉大学学报?信息科学版,2001,26(6):491-499
[4]白石磊,毛雪岷,王儒敬.基于数据库和知识库的知识发现研究综述[J].广西师范大学学报:自然科学版,2003(1):136- 138
[5]罗敏霞.数据挖掘与知识发现的技术方法及应用(上)[J].运城学院学报,2005,23(2):1
转载请注明出处学文网 » 论知识发现与数据挖掘