文本挖掘研究及发展

摘要:文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。

关键词:数据挖掘;文本挖掘; 文本分类;文本聚类

中***分类号:TP31文献标识码:A文章编号:1009-3044(2008)31-0792-02

Study and Research in Text Mining

HU Bing1, HU Dong-jun2, Ma Wen-chao3

(puter Department, Henan University, Kaifei 475004, China; 2.Luyi Mapu Centerschool, Zhoukou 477264, China)

Abstract: Text Mining is a new topic of Data Mining, and is process of extracting interesting knowledge form large linguistic semantic text collections. First, itintroduce the concept and developing of Data Mining. Then point out Text Mining and its status, Text classification and clustering are important in this. In the end , it shows the feature of Chinese text mining and highlighting the upcoming Challenges of text mining.

Key words: data mining; text mining; text classification; text clustering

1 引言

数据挖掘(Data Mining)(这一词由Usama Fayaadg,于1995年在加拿大蒙特利尔召开的第一届“知识发现和数据挖掘”国际学术会议上第一次提出)是一门很广泛的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

数据挖掘或数据库中的知识发现KDD(Knowledge Discovery in Databases)比较公认的定义是由William J Frawley , Gregory Piatetsky-Shapiro和Ussma M Fayyad等人提出的数据挖掘就是从大型数据库中提取出人们感兴趣的知识。这些知识是隐含的、先前未知的、对决策有潜在价值的,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、和模式(Patterns)等形式。随着数据挖掘研究的发展,数据挖掘的对象己远远超出了数据库的范围,数据源还可以是数据仓库、文本数据集合,数据集、文档或任意数据集合等。

互联网的普及和飞速发展,使Internet成为世界上最大的信息积聚地,但Internet积聚的信息不同与以往的数据挖掘源,其内容大多是半结构化或非结构化的文本。如何有效的对半结构化或非结构化的文本信息进行挖掘即文本挖掘已成为当今热门的研究方向。

2 文本挖掘

2.1 文本挖掘的定义

文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确的定义。

一般来说,文本挖掘(Text Mining,TM)和文本数据库中的知识发现(Knowledge Discovery in Textual Database,简称KDT)被认为是具有相同含义的两个词,最早由Ronen Feldman等人提出[1]:The Process of extracting interesting Patterns from very large text collections for the purpose of discovering knowledge”

2.2 文本挖掘的研究状况

国外对于文本挖掘的研究开展较早,50年代末,H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960年,Maron[2]发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型[3-4]、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)、文本挖掘工具[5]等,其中[3]首次将KDD中的知识发现模型运用于KDT。

我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展。2)中文文本的特征提取与表示大多数采用“词袋”法, “词袋”法即提取文本高频词构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。3)知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。

2.3 文本挖掘的一般过程

文本挖掘的主要处理过程是对大量文档集合的内容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。***1给出了文本挖掘的一般处理过程。

在这里主要介绍文本分类与文本聚类:

文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下:

(此文中文档的模型采用的是向量空间模型(V***)[6]模型,每个文档d被表示成一个范化特征向量:

V(d)=(t1,w1(d);…ti,wi(d);…tn,wn(d)),其中ti为词条项, wi(d)为ti在d中的权值。)

训练阶段:

1) 定义类别集合C={C1,…,Ci,…,Cm},这些类别可以是层次式的,也可以是并列式的;

2) 给出训练文档集合S={s1,…,sj,…, sn},每个训练文档 被标上所属的类别标识ci;

3) 统计S 中所有文档的特征向量V(sj),确定代表C中每个类别的特征向量V(ci);

分类阶段:

4) 对于测试文档集合T={d1,…,dk,…dr}中的每个待分类文档,计算其特征向量V(dk)与每个V(ci)之间的相似度sim(dk,ci);

5) 选取相似度最大的一个类别argmaxsim(dk,ci)作为dk的类别,其中ci∈C。

有时也可以为dk指定多个类别,只要dk与这些类别之间的相似度超过某个预定的阀值。如果与所有类别的相似度均低于阀值,那么通常将该文档放在一边,由用户来做最终决定。对于类别与预定义类别不匹配的文档而言,这是合理的,也是必须的。如果这种情况经常发生,则说明需要修改预定义类别。然后重新进行上述训练与分类过程。

文本聚类是一种典型的无教师的机器学习问题.目前的文本聚类方法大致可以分为以G-HAC等算法为代表的层次凝聚法[7]和以k-means等算法为代表的平面划分法[8]两种类型.

对于给定的文档集合D={d1,…,di,…,dn},层次凝聚法的具体过程如下:

1) 将D中的每个文档di看作是一个具有单个成员的簇ci={di},这些簇构成了D的一个聚类C={c1,…,ci,…,cn};

2) 计算C中每对簇(ci,cj)之间的相似度sim(dk,ci);

3) 选取具有最大相似度的簇对arg max(ci,cj),其中ci,cj∈C,并将ci 和cj合并为一个新的簇ck=cj∪ci,从而构成了D的一个新的聚类C'={c1,…,cn-1};

4) 重复上述步骤,直至剩下一个簇为止。

该过程构造出一棵生成树,其中包含了簇的层次信息,以及所有簇内和簇间的相似度。层次聚类方法是最为常用的聚类方法,它能够生成层次化的嵌套簇,且准确度较高。但是,在每次合并时,需要全局地比较所有簇之间的相似度,并选择出最佳的两个簇,运行速度较慢,不适合于大量文档的集合。

平面划分法与层次凝聚法的区别在于它将文档集合水平地分割为若干个簇,而不是生成层次化的嵌套簇。对于给定的文档集合D={d1,…,di ,…,dn},平面划分法的具体过程如下:

①确定要生成的簇的数目k;

②按照某种原则生成k个聚类中心作为聚类的种子S ={s1,…,sj,…,sk};

③对D中的每个文档di,依次计算它与各个种子sj的相似度sim(dk,ci);

④选取具有最大相似度的种子,arg max sim(ci,sj),其中,sj∈S,将di归入以sj为聚类中心的簇cj,从而得到D的一个聚类C ={c1,…,ck}。

⑤重复步骤②、③、④若干次,以得到较为稳定的聚类结果。

该方法的运行速度较快,但是必须事先确定 的取值,且种子选取的好坏对聚类结果有较大影响。

层次凝聚聚类和平面划分聚类各有所长,其中划分方法具有较高的执行效率,而层次聚类在算法上比较符合数据的特性。划分方法和层次方法的另外一个突出区别在于聚类前是否存在已知的类别信息:划分方法在聚类之前需要事先指定划分数k并确定初始划分;层次聚类则不需要初始化,其在预先不知道目标集合内包含多少类别的情况下,自发地将所有信息聚合成不同的类。能否结合两种聚类思想更有效的对文本聚类,还有待于进一步研究。

总之,文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。而文本分类是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。

3 展望

文本挖掘在国外已经取得显著的成果,中文文本挖掘虽然有所进步,但与国外文本挖掘相比,还有一定的差距。中文文本挖掘处理的是汉语文本,因此在进行文本挖掘方法时必须适应汉语重“意合”的特点,结合文本上下文来获取文本的完整“语义”,我们今后的研究目标是结合中文重语义的特点,利用文档中的频繁语义序列来为中文文档集聚类。

参考文献:

[1] Feldman, R.Dagan. KDT-Knowledge Discovery in Textual Databases[A]. In:Proceedings of the 1st International Conference on Knowledge Discovery and Data Mining,1995:112-117.

[2] Maron,M,E. et al..On relevance probabilistic indexing and information Retrieval[J]. Journal of the ACM,1960(7):216-244.

[3] Mothe J, Chrisment C, Dkaki T.Info.mining-use of the document dimensions to analyse interactively a document set [z]. European Colloquium on Information Retrieval Research,2001:6-20.

[4] Ghanem, ChortarasM C, Guo A, Rowe Y et al..A grid infrastructure for mixed bioinformatics data and text mining [J]. In: Computer Systems and Applications, 2005,34(1):116-130.

[5] Salton G, Wong A,Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM,1975,18(5):613-620.

[6] Willet P. Recent trends in hierarchical document clustering: A critical review[J]. Information Processing and Management, 1988, 24:577-597.

转载请注明出处学文网 » 文本挖掘研究及发展

学习

那一场风花雪月的事

阅读(42)

本文为您介绍那一场风花雪月的事,内容包括一场风花雪月的事完整版,那一场风花雪月的事歌词。大概是九七年十一月吧,或者更早一点?我记不太清楚了。那时候我刚去买了一张名叫《口是心非》的专辑,封面上是一个黄头发的大男孩和一只白猫。一个

学习

“大师”高价贩卖所谓开光物品的行为如何定性

阅读(35)

本文为您介绍“大师”高价贩卖所谓开光物品的行为如何定性,内容包括开光骗局最新消息,开光卖玉骗局。一、基本案情犯罪嫌疑人黄某系北京某公司总经理,2010年8月至案发期间,该公司在北京某著名寺庙内承包房屋用于销售貔貅等物品。主要经营

学习

赵堡太极拳历代宗师录

阅读(22)

本文为您介绍赵堡太极拳历代宗师录,内容包括中国赵堡太极拳内容提要,赵堡太极拳精讲。赵堡太极拳以地名称谓,为我国太极拳六大门派之一。赵堡镇,始建于春秋时期,距今已有两千五百余年的历史。它南傍黄河,北依太行山,西接王屋山,东临平原,是华北

学习

观察演示实验的方法

阅读(18)

本文为您介绍观察演示实验的方法,内容包括观察实验原理怎么写,观察酵母菌和霉菌的实验。实验是学习的一大手段,通过实验可以逐步掌握实验的基本操作技能;学会观察实验的方法;能够根据实验现象说明物质的性质和变化规律;能用实验来验证某些原

学习

什么是教育(节选)

阅读(25)

本文为您介绍什么是教育(节选),内容包括什么是教育原文摘抄,什么是教育全文阅读。第八章可能性与教育的界限一、教育与自我教育的勇气对性格和天性的研究是目前人们最感兴趣的事,但是人们却忽略了最重要的东西,而最终呈现出清晰的无知:一是

学习

圆梦两岸大三通

阅读(21)

两岸通商、通航、通邮的大三通,这是两岸同胞企盼了数十载的梦想,它的实现,意味着两岸关系发展进入一个崭新的时代。The“threedirectlinks”betweenthetwosidesoftheStraits,includinglinksinpost,transportationandtrade,haverealizedthed

学习

4次被判死刑,念斌终审无罪

阅读(29)

念斌案无罪落幕了,但指向公正的司法改革还在路上诉讼长达8年的念斌案8月22日在福建高院作出终审判决,上诉人念斌被宣告无罪,当庭释放。这一判决创立了一个真正疑罪从无的典型案例,在中国司法界和舆论界激起强烈反响,原死刑犯念斌命运的戏剧性

学习

大树和小树的故事 吴文煜作文700字

阅读(33)

本文为您介绍大树和小树的故事 吴文煜作文700字,内容包括大树和小树的故事作文春夏秋冬,我和大树的故事作文700字。强化一(5)班吴文煜大树和小树的故事在茂密的森林的一角,有一棵参天大树,它挺立在那儿,树皮渐渐脱落,它的身边又新栽了一棵小树

学习

男士瑜伽的8大功效

阅读(26)

本文为您介绍男士瑜伽的8大功效,内容包括瑜伽每天必练8个动作男士,男士10天入门瑜伽。来自瑜伽发源地印度,七岁开始练习瑜伽的印度贵族教练Deepak用印度式的超快英文加动作说道:“男士练瑜伽没什么好别扭的!在印度练瑜伽的大都是贵族男士,

学习

零落成泥碾作尘,只有香如故

阅读(35)

本文为您介绍零落成泥碾作尘,只有香如故,内容包括零落成泥碾作尘唯有香如故,零落成泥碾作尘只有香如故意思。鸣凤是巴金小说《家》中的一个婢女形象。本文从封建等级、门第观念和鸣凤在男权中心观下形成的奴性人格,对其悲剧命运进行阐释

学习

《圣经》中译和合本与现代中文译本对比

阅读(779)

本文为您介绍《圣经》中译和合本与现代中文译本对比,内容包括圣经百科辞典和圣经的区别,圣经各种抄本。《圣经》是一部基督教典籍,影响全世界近三分之一的人口。《圣经》原文主要由希伯来文和希腊文写成,现在《圣经》已被翻译成两千多种语

学习

鲜切水果如何盈利

阅读(24)

本文为您介绍鲜切水果如何盈利,内容包括鲜切水果怎样做才能赚钱,鲜切水果怎么卖挣钱。果酷网,一家卖“水果切”的公司,从2010年创办至今,通过售卖简单的鲜果切将小生意做到上千万元,日前它还通过“青年天使会”平成了新一轮融资。贾冉,一个IT

学习

室内空间设计

阅读(25)

本文为您介绍室内空间设计,内容包括室内空间设计研究院,室内空间设计资料集。[论文关键词]光室内设计原则自然光人工光[论文摘要]光作为一种室内的设计语言,和材料、颜色等多重要素共同构成了室内环境的一种表达。本文通过介绍光在室内设

学习

性征与性差

阅读(24)

人们,即便是刚刚启蒙的幼童,也能清楚地辨别周围的人哪些是男的,哪些是女的。但是,怎样认识男女两性的真正差别?最初的差别是什么?其后的差别又是怎样形成的?人类却是经过长期的研究,才逐渐搞清了的。生男生女,男女双方都决定不了大家都知道,人

学习

挖掘“负面”新闻的正面意义

阅读(62)

马尧海案尚未宣判时,海外主流媒体美联社、路透社、法新社就已开始滚动报道。料到此案会引起外媒关注,却不曾料到来势如此凶猛,近乎炒作。国内发生海外关注的热点,对外媒体理应发出强音,至少不能输给外媒。但也有不同的观点:负面新闻最好

学习

挖掘“校园大数据”的价值

阅读(27)

“忽如一夜春风来,千树万树梨花开”,从接触维克托・迈尔・舍恩伯格的《大数据时代》开始,“大数据”这个词陡然间出现在我身边的形形事物之中,以至于我开始怀疑自己是否“out”了,于是我开始关注大数据给教育带来的机遇与挑战。短短一年,我深

学习

文本比较算法分析

阅读(18)

本文为您介绍文本比较算法分析,内容包括文本比较算法分析,文本有效性分析算法。【摘要】基于文本比较算法,以算法的比较为切入点,通过比较算法的时间复杂度,找出适应文本的算法。实验结果表明,Nakatsu算法在长文本和相似度高的文本中效率更

学习

深入挖掘BitLocker系统自带加密功能

阅读(22)

本文为您介绍深入挖掘BitLocker系统自带加密功能,内容包括bitlocker加密系统怎么解密,bitlocker加密后如何做系统。为了更好地保护数据安全,Vista以上版本系统自带了功能十分强大的磁盘加密程序――BitLocker,借助这种全新的数据保护机制,

学习

浅析英汉翻译中平行文本的应用

阅读(29)

本文为您介绍浅析英汉翻译中平行文本的应用,内容包括论英汉翻译中语篇连贯的重要性,汉英翻译教程一二章翻译常识。【摘要】当今世界,各地文化相互渗透,文化传播成为人类活动与交流的重要组成部分,为了实现各语言之间意思的对等,平行文本在翻

学习

可行性研究报告

阅读(27)

本文为您介绍可行性研究报告,内容包括可行性研究报告全文范文,项目可行性研究报告。A.1A.1.1背景说明:a.所建议开发的软件系统的名称;b.本项目的任务提出者、开发者、用户及实现该软件的计算中心或计算机网络;C.该软件系统同其他系统或其他机构的

学习

油藏剩余潜力挖掘实践分析

阅读(24)

本文为您介绍油藏剩余潜力挖掘实践分析,内容包括油藏评价与开发可行性分析ppt,油气藏评价与开发2019。沙二4-6层系位于胜坨油田西部高点,北受7号断层遮挡与坨15断块相邻,内部被次一级小断层切割,各层系构造呈东缓(地层倾角40)西陡(地层倾角60)

学习

《端午的鸭蛋》文本解析及教学设计

阅读(64)

本文为您介绍《端午的鸭蛋》文本解析及教学设计,内容包括端午的鸭蛋深度解析,端午的鸭蛋导学案及答案。一、解读文本(一)一字一句总关情单是一个小小的咸鸭蛋,汪曾祺就有说不完的美妙之处。可见,汪曾祺有着一种深厚的故乡情节,有着一颗超然自