文本聚类算法综述

摘要:随着Internet的发展,作为数据挖掘关键技术的文本聚类也快速的发展起来。本文主要介绍了文本聚类的一些主要的算法以及文本聚类中使用到的关键技术,从而对文本聚类有了更深一步的了解。

关键词:文本聚类;算法;层次;划分;密度;网格;模型

中***分类号:TP391.1 文献标识码:A文章编号:1007-9599 (2011) 05-0000-01

Text Clustering Algorithms

Chen Ronglei

(College of Computer Science,Sichuan University,Chengdu 610065,China)

Abstract:With the Internet's development,as a key technology of data mining clustering also developed rapidly.This paper describes some of the main text clustering and text clustering algorithms to the key technologies used,to have a deeper understanding of text clustering.

Keywords:Text clustering; Algorithm;Level;Division;Density;Grid;

Model

一、文本聚类研究现状

文本聚类是搜索引擎和语义web的基本技术。随着网络信息的快速增长,提供一种有效的机制用来组织网络文本、帮助使用者获得他们想要的信息变得愈加重要。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。

到目前为止,聚类分析的研究工作可以分为两大类:一般聚类方法和算法的研究和研究不同类型领域的聚类。

目前第一类研究己经取得了大量的研究成果,这些研究基本上是基于结构化数据的,比如事物数据库,然而却很少有工作研究非结构化数据。第二类研究的成果还相对较少,目前随着多媒体技术和互连网的迅速发展,开展这一领域的研究己成为新的热点,有大量的研究工作需要开展,如并行聚类算法、复杂数据的聚类算法、算法聚类结果的可视化、聚类结果的质量提高等。

二、文本聚类的关键技术

(一)文本的特征向量

文本的特征向量是通过文档的预处理(文本分词和文档特征向量的提取),将文档用一维向量表示,这个一维向量即文档的特征向量。

(二)文本之间的距离

为了定义文本之间的相近或者相似程度,需要定义一些划分类别的计量指标。常用的统计指标有距离和相似系数。“距离”属于相异性测度指标,“相似系数”属于相似性测度指标。距离和相似系数成反比,如 。对于有n个特征属性的文档集合来说,m个文档可以看作n维空间中的m个点。为此,我们可以用点之间的距离来度量文档之间的距离。

(三)权值表示

1.布尔权重(Boolean Weighting)。布尔权重方法是最简单的特征表示方法,如果特征向量的第i个分量在本篇文档中出现,则其权重为1,否则为0。

2.词频权重(Word frequency Weighting)。词频权重也是一种非常简单的特征表示方法,它只是简单地将特征i在文档 k中出现概率 作为其特征值。

3.TFIDF权重(Tfidf Weighting)。前两种方法并没有计算特征 i 在整个训练集合中出现的概率,一个非常有名的特征权重表示方法考虑了这一点,它就是TFIDF方法,计算公式如下:

(四)文本类之间的距离

设 和 是两个文档集合,具有n个特征属性,即n个索引词。常见的度量两个文本类之间距离有最短距离、最短距离、重心距离、类平均距离、离差平方和、代表点等方法。

三、文本聚类的算法

目前存在大量的聚类算法。算法的选择取决于文档集合的类型,聚类的目的和应用。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。聚类在本质上是一种通过对对象集合按照某种规则进行划分或覆盖从而发现隐含的潜在有用的信息的一种知识发现的方法。聚类算法通常有以下几类:1.通过构建类别层次或者构造一棵类别树进行聚类的层次聚类算法。2.按其连接分量的密度定义类别的基于密度的聚类方法。3.基于网格(Grid-Based Method)的聚类方法。

(一)基于层次的聚类算法

一个层次的聚类算法将数据对象组织成一棵聚类的树。根据层次分解是自底向上还是自顶向下形成,层次的聚类算法可以进一步分为凝聚的和***的层次聚类。凝聚的方法也称作自底向上的方法。以开始将每个对象作为单独的一个组,然后相继地合并相似的对象或组,直到所有的组合并成一个,或者达到一个终止条件。***的方法也称作自顶向下的方法。以开始将所有的对象置于一个簇中。在迭代的每一步中,一个簇被***为更小的簇,直到最终每个对象在单独的一个簇中,或者达到一个终止条件。

(二)基于密度的聚类算法

基于密度的聚类算法的主要思想是:将簇看成是数据空间中被低密度区域分割开的高密度区域。密度是指单位体积内的点数,簇内部的密度要比簇外大。基于密度的算法又被称为局部聚类。

(三)基于网格的聚类算法

为了减少搜索复杂度,需要考虑多边形分段区域。一个分段区域就是空间中的一个划分的小的超立方体,而利用划分空间进行聚类的方法通常就称为网格聚类算法。每一个分段区域就称为一个单元。网格聚类算法把对于数据的分割转换成对于空间的分割。数据分割通过数据点之间的关系导致的空间的分割而产生,但是空间分割则是基于输入数据累加的空间小超立方体(网格)。提出的基于密度的网格聚类算法,该算法兼有基于密度算法和基于网格算法的双重特性。

四、总结与展望

随着互联网的快速发展,互联网提供的信息也迅速膨胀起来。为了从海量信息中快速的获取有用的信息,数据挖掘技术迅速发展起来。作为数据挖掘技术中的重要技术之一――文本的聚类技术也相应的成熟起来。本文主要介绍了文本聚类的研究现状,文本聚类技术的特点及意义,文本聚类相应的关键技术,文本聚类的流行算法等。使我们对文本聚类技术有了大概的了解。在此基础上,未来可以通过不断地学习,发现现有的文本聚类算法的不足,提出积极地改进意见,为文本聚类技术的发展作出贡献。

参考文献:

[1]吴启明,易云飞.文本聚类综述[J].河池学院学报,VOI.28 No.2,2008

[2]谷波,张永奎.文本聚类算法的分析与比较[J].电脑开发与应用,VOI,16,No.11,2003

[3]潘启蒙.文本聚类算法的研究与实现[D].吉林大学,2008

[4]姚清耕.基于向量空间模型的中文文本聚类方法的研究[D].上海交通大学,2008

文本聚类算法综述

转载请注明出处学文网 » 文本聚类算法综述

学习

架构设计成就EDW

阅读(18)

本文为您介绍架构设计成就EDW,内容包括架构设计原则全文,架构技术提升笔记。数据仓库的概念是BillInmon于1991年提出的,Inmon被人们尊称为“数据仓库之父”,他给出了数据仓库的一个简短而全面的定义:数据仓库是一个面向主题、集成、时变、

学习

“三一八”纪念

阅读(18)

本文为您介绍“三一八”纪念,内容包括三一八真实历史,关于三一八的纪念活动持续了多久。我们看了公使团关于大沽学件最后通牒,异常愤慨!大沽口为我国北方门户,我们有守备防御之绝对权利,况当群盗袭击之时。所以日炮舰击大沽炮台,为绝对接犯中

学习

外贸依存度

阅读(18)

本文为您介绍外贸依存度,内容包括外贸依存度指标,外贸依存度的好与坏。外贸依存度的计算方法和名称依分析问题的角度不同而有所差别。当只观察国际市场需求对本地区经济发展的影响时,可不考虑进口对本地区市场的影响,使用“外贸出口依存度

学习

散文《散步》欣赏

阅读(19)

本文为您介绍散文《散步》欣赏,内容包括散文散步原文,散文散步。散文《散步》是当代作家莫怀戚的作品,此文最早发表于1985年《中国青年报》上,现入选苏教版语文教材。

学习

存心善堂的现代化

阅读(154)

本文为您介绍存心善堂的现代化,内容包括汕头市存心善堂慈善会,存心善堂众筹怎么筹的。扎根于潮汕乡土社会中的存心善堂,正在经历着传统慈善救济向公益服务转型,融入到转型期中国的历史洪流中。与此同时,善堂的发展也杂糅着来自潮商、宗族、

学习

王诗文,中国美

阅读(19)

本文为您介绍王诗文,中国美,内容包括关于王诗文的作品,王思文的出生年月。如何理解生活中的时尚?

学习

谈谈物质的导热性和导热方式

阅读(23)

本文为您介绍谈谈物质的导热性和导热方式,内容包括如何比较物质的导热性强弱,科学上用什么来描述物质的导热性。常见金属中,铜、铝的导热性是否比铁好?如果是,为什么厨房里的锅大多用铁而不用铜、铝呢?欲知其中缘由,先来了解一下物质的导热

学习

项目控制管理

阅读(20)

本文为您介绍项目控制管理,内容包括项目控制管理,项目管理全过程控制摘要。在项目寿命周期中,最重要的功能之一是项目计划。但由于项目所具有的早期不确定性,在初始阶段确定了项目的范围和计划之后,在实施过程中有效的项目控制就成为项目成

学习

整改方案格式范文精选

阅读(45)

本文为您介绍整改方案格式范文精选,内容包括审计整改方案格式范文,公司整改方案格式范文。整改方案格式篇1整改方案和整改措施由标题、正文、落款三部分构成。

学习

趣味小实验

阅读(13)

本文为您介绍趣味小实验,内容包括趣味小实验完整版,物理趣味小实验。一、魔术瓶

学习

like的用法

阅读(216)

本文为您介绍like的用法,内容包括Like的用法,like像的用法。一、like用作动词,意为“喜欢”时,有以下几种用法:

学习

体育训练

阅读(29)

本文为您介绍体育训练,内容包括体育训练论文,体育训练文案。体育教学与训练是统一和有机联系着的,但也有区别。教学、训练的区别在于两者的具体任务和方法不同。教学的主要任务是使青少年掌握必要的知识、技能、技术、战术等;而训练的主要

学习

调顺系统打造千亿招商

阅读(33)

招商地产提出了在2017年实现“千亿规模、百亿利润”的目标,并遵循质量、规模、效益三者的均衡发展。如何能做到这一点?这就要把自己的账算明白,要把系统调顺。客观来讲,招商地产主要从组织及IT层面进行了变革。上下分权提效率,左右制衡控风险

学习

计算智能主要算法概述

阅读(21)

本文为您介绍计算智能主要算法概述,内容包括智能计算的最为常见的算法,智能算法和控制算法。摘要:本文主要介绍计算智能中的几种算法:模糊计算、遗传算法、蚂蚁算法、微粒群优化算法(PSO),详细描述了这几种算法的发展历史、研究内容及在本研

学习

论述类文本阅读指导

阅读(23)

本文为您介绍论述类文本阅读指导,内容包括论述类文本阅读指导,论述类文本阅读思维导。摘要:对于论述类文本阅读是高考考查的一项重要内容。本文试从准确把握文章入手,指导学生掌握论述类文本试题的一般方法,即了解命题形式、掌握解题方法、

学习

古董王相声文本

阅读(16)

本文为您介绍古董王相声文本,内容包括古董王单口相声全集,相声古董王完整版。天上下雨唏哩哗啦,下到地上乒楞乓啦。说相声,我得招您乐。招您乐呀,就得说歪曲的,说正经的您不乐。歪曲的那才招乐。说招笑有什么好处哪?好处大啦。您这么一乐,清气

学习

鲁迅《父亲的病》的文本解读

阅读(17)

本文为您介绍鲁迅《父亲的病》的文本解读,内容包括鲁迅父亲的病原文赏析,鲁迅的作品父亲的病解析。内容摘要:《父亲的病》这篇散文主要讲述的是鲁迅对父亲的病的回忆和他与两位“名医”周旋的故事。本文希望以《父亲的病》这篇散文和与之

学习

实用类文本阅读

阅读(38)

本文为您介绍实用类文本阅读,内容包括实用类文本阅读经典文本,实用类文本阅读教案。[摘要]对于实用类文本阅读人物传记类阅读解答技法及方法,本文从教材分析、学情分析、教法和学法、教学过程、布置作业等方面进行了分析论述,以期为教学提供

学习

排课系统算法及功能的实现

阅读(39)

本文为您介绍排课系统算法及功能的实现,内容包括排课系统设计实现功能,排课系统有哪些算法。摘要:文中介绍了回溯算法的基本思想和特点,分析了回溯算法在排课系统应用与其他算法的不同之处。针对排课系统理念分析,解决排课时教师时间、班级

学习

TSP问题的几种常用求解算法比较

阅读(22)

本文为您介绍TSP问题的几种常用求解算法比较,内容包括解决tsp问题的算法有哪些,tsp算法大全。摘要:本文介绍了TSP问题及其常见的解法,给出了计算实例,并结合计算实例对各求解算法进行了比较。本文对于各种算法的比较对于TSP问题的求解具有