聚类分析论文范文

聚类分析论文范文第1篇

对于股票投资来说，一定要关注股票上市公司的基本盈利状况以及该公司未来的发展状况。在投资时，这两大因素必须进行思考衡量，因为这两大因素是衡量一个上市公司有没有投资价值最基本的条件。因此，要在投资前计算出该股票每股的收益、该公司净资产收益率以及主营收入增长率。

1.盈利能力指标。总资产利润率=净利润/平均资产总额，这体现出公司整体的获利能力。净资产利润率=净利润/平均净资产，这个关系可以直接体现出股东投资的回报。主营业务收益率=主营业务利润/主营业务收入，主营业务是上市公司利润的来源，主营业务的收益越大，公司在市场中的竞争优势就越明显。每股收益=净利润/期末总股本，每股的收益越高，反应出每股获利的能力越强。

2.成长能力指标。主营业务收益增长率=本期主营业务收入/上期主营业务收入-1，这体现出上市公司重点项目的成长力。净资产利润率=本期净利润/上期净利润-1，上市公司给员工的薪酬都是根据净利润决定的。

二、聚类分析的投资方法应用实例

聚类分析方法隶属多元统计分析方法之中，与多元统计分析法和回归分析法并称为三大应用方法。聚类分析法一定要建立在某个优化意义基础之上，如果将聚类分析方和常规的分析法相比较的话，会发现聚类分析法有很大的优势，第一是使用聚类分析法可以对数据中的多个变量进行样本分析，然后将其分类整理；第二是通过使用聚类分析法所得出的数据非常直观明了，通过观察聚类谱系***投资者就能够清楚地分析出数据显示的结果；第三是如果将聚类统计法所得出来的数据结果与普通方法计算出来的结果进行对比，不难发现聚类分析法的对比结果更加细致、科学、全面，接下来通过两个应用的实例进行说明。

1.原始数据标准化。为了解决原始数据量纲和数量级差异带来的影响，更好的对聚类分析和判别进行分析，可以采用指标标准化的处理方法。

2.逆指标正向化处理。流通股本是逆指标，对其绝对值取倒数可以得出。

三、将聚类分析法应用到金融投资上的意义

将聚类分析法应用于金融投资上，不但可以显示出有效、科学、全面的数据更能帮助弥补金融投资投资时所出现的不足。

第一，聚类分析法建立在基础分析之上，对投资股票从一些基本层面进行量化分析，进而对股票价格影响因素定性进行补充并完善了原有的基础分析。聚类分析法作为长期的理性投资参考依据，是为了发掘股票投资的真实价值，避免由于市场过热导致资产估值不公允。

第二，在建立投资评价模型的时候，可以运用聚类分析法对公司和股票投资价值之间的联系进行分析。公司的成长是一个在哥登模型中，在一个变化的趋势内进行。不变的股息增长率对实际情况并不符合，在采用多阶增长模型的时候，想要得到不同阶段的股息增长率是很困难的。所以，对股票的成长进行分析得时候，可以选取净利润率等客观的数据做参考，这样可以估算出股票的发展潜力。

第三，通过对聚类分析法和现资组合理论的比较可以得出，聚类分析法比现资组合理论更具有直观性和实用性，并且在实际生活中的局限小。该方法主要着眼于实际数据的相似性和其延生的规律性，较投资学中一些以预测和假定前提较多的模型而言更具有现实意义，也更加贴近当前市场情况的现实。另外，聚类分析法的操作性强，在实际应用过程中有一定的优越性，更加适合投资者使用。

第四，聚类分析法作为长期投资的理念，随着我国金融行业的不断发展，逐渐被更多的投资人采用。理性的运用聚类分析法这种投资方法，不但可以使投资者的投资风险降到最低，还可以规范其他投行的投资行为，促使发行股票的企业可以本着经营业绩和长期的成长模式进行投资，在一定程度上可以有效规避道德风险和投机行为，保证金融市场的稳定性和规范性，保护散户和弱势群体的经济利益，进而繁荣整个股票、证劵市场，使我国的经济更繁荣。

四、结论

综上所述，本文所介绍的聚类分析法就是通过对上市公司的收益走势、未来发展、行业间的综合素质以及公司自身条件等一些基本的因素进行分析和衡量，取得相关样本和***谱，并通过量化的方法衡量数据的有效性。通过观察样本和***谱中的指标的相似度以及差异就可以判断出投资的发展前景和收益。上文所提及有关聚类分析法的优势和特点，更加能够证明聚类分析法远比其它基本分析法更加实用、有效，所以近来这种分析方法得到广泛的关注。使用聚类分析法的原理对各种指标进行科学而又全面的分析，一方面可以较为可观的描述市场现实，另一方面也可以使得投资者对市场走势有一个较为理性的认识，避免过度热情和盲目投资，在一定程度上给金融投资者带来自信心和安全感。

聚类分析论文范文第2篇

1.1城郊农户此种类型的农户主要是对其生活、农业种植、畜禽养殖、乡村旅游进行污染区分。①污染源区分：农家乐是目前乡村旅游的重要形式，其污染源包括污水、人类尿便等，乡村旅游污染和旅游人数之间有着直接的关系。所以，这一类污染的产污单元可以看做是每一位乡村游客。②污染强度的划分：生活污水（包括垃圾、人类尿）排放强度=每户游客污水日排放量/每户游客数。

1.2种养结合户此种类型农户的污染源划分主要是根据农户种植污染、畜禽养殖污染、农户生活污染等进行划分。其中，畜禽养殖污染源的划分同典型养殖户；农户生活、农户农业种植污染源识别同典型种植户。

2农村环境污染物排放的核算

2.1农村环境污染物具体排放量的计算研究得知，各污染源污染实物的排放量多少是和流失系数、产污系数等密切相关的。而农村环境污染具有极其明显的地域性，所以我们计算中需要的参数值必须通过对某一地区内各种相关联的因素进行测定和综合分析才能得出。目前，得出这些参数的方法一般有两种，一是通过特定地区的污染发生学实验研究来得出，二是通过相关的文献进行筛选、调研。

2.2农村环境污染敏感性的调研这里提到的敏感性主要是指调研区域地表水环境对农村各种社会经济活动的反应的敏感程度。可以反映产生地表水水体富营养化的概率的大小，敏感性分为5级，即不敏感、轻度敏感、中度敏感、高度敏感、极敏感。根据相关的调查，对农村环境污染的敏感性评价可以采用污染物（COD、TN、TP）的排放浓度结合水质评价模型进行评定。具体可有以下3种方法。①单向水质指数法。在确定各基本单元的基本指数后，用污染物（COD、TN、TP）的水质指数作为变量，进行全面的聚类分析，然后根据分析结果，划分敏感级别。②加权指数法。运用加权指数法可以反映出污染物（COD、TN、TP）在不同地区对环境污染的影响。首先要确定影响农村环境污染敏感性发热污染物（COD、TN、TP）的排放浓度，然后再依据加权指数法计算出各基本敏感单元的敏感性数值。③内梅罗综合指数法。如果单项水质指数的数值变化很大，为了更加有效的突出各个高值的影响，就可以采用内梅罗平均值法。同样，在确定了各基本单元的内梅罗指数后，以其指数为变量。进行综合的聚类分析，然后根据分析结果划分敏感性等级。

3污染程度的区分

首先确定环境污染中的主要污染物、总污染负荷，然后与区域相结合确定重点污染区域，进而确定其污染程度。

3.1水质系数和排放浓度要想全面的反映出区域污染的状况，要从排污总量和排污浓度两方面上来进行考虑，水质系数反映评价标准和污染物浓度之间的关系，其中：污染物水质指数=该污染物排放浓度/该地环境质量标准

3.2聚类分析进行聚类分析要运用SPSS软件，采用Q型聚类，通过对农村环境污染源等标污染的负荷率进行综合的聚类分析，然后来区分不同区域的主要污染类型，比如种植污染型、养殖污染型、综合污染型、生活污染型等。

4结语

本文提供的区划结果对农村环境保护的分级管理和分类管理很有参考的价值，希望这些研究可以大大提高农村环境污染控制的治理成效，为我国农村污染的治理作出一点贡献。

聚类分析论文范文第3篇

国家统计局在其《中国信息能力报告》中，设计了一套评价我国信息化水平的指标：指标体系共分4级，有25个指标：①信息技术和信息设备应用能力：a.每千人拥有PC数；b.每千人拥有传真机数；c.每百人拥有电话数；d.每千人拥有电视机数；e.每千人拥有收音机数；f.每万人接入因特网用户；g.每百万人互联网上网主机数；h.每平方公里光缆长度；i.每百家企事业单位上网数；j.基础信息产业产值占GDP比重。②信息资源及开发利用能力：a.每户打国际电话时间；b.每百人期刊发行量；c.每日信息量；d.网络用户平均上网时间；e.每万人Web站点数。③人口素质：a.每万人平均科学家和工程师数；b.第三产业从业人数占就业总人口比重；c.大学入学率；d.每十万人在校学生数；e.计算机专家和工程师数。④国家对信息产业发展的支撑：a.信息产业产值占GDP比重；b.研究开发(R&G)支出占GDP比重；c.每主线电信投资；d.人均GNP；e.教育投入。

鉴于遵循数据的客观性和代表性，以及易得性，本文采取以下指标：每千人工业增加值x1；每千人电信业务量x2；每千人移动通信交换机容量x3；移动电话普及率x4；电话普及率x5；广播综合人口覆盖率x6；电视综合人口覆盖率x7；有线电视普及率x8；每十户宽带上网用占有户数x9；R&D经费支出占GDP比重x10；每十人从事科技活动人员总数占有的人数x11；每十人在校大学生人数占有的人数x12；每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限，指标数据省略。

2、因子分析

因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组，使得同组内的变量之间相关性较高，使不同组的变量相关性较低，每组变量代表一个基本结构，这个基本结构称为公共因子。运用因子分析法，借助EXCEL多元统分析，对已得的指标数据进行分析处理，在处理过程中选取方差贡献比率为0.80。

按照方差贡献比率大于80%，应提取前四个因子，它们所解释的方差占总方差的84.58%，这四个因子就可以解释原始数据的大部分信息了。

分析结果中可以得到每个城市的四个因子得分情况F1，F2，F3和F4。最后，对28个城市的信息化水平进行综合评价并排序。以旋转后四个因子的方差贡献率为权数计算综合得分，计算公式为：F=0.5923F1+0.09957F2+0.0804F3+0.0736F4，最终可以得到所有城市的综合得分排名。

由于变量指标取值的同向性，得分越高代表信息化水平越高。排名依次为：北京，天津、广东、浙江、江苏、湖南、福建等等。

3、聚类分析

聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法，在统计分析的应用领域已经得到了极为广泛的应用。其思路为：首先每个数据对象自成一类，并且计算各个类之间的“距离”或者相似性。然后每次将最相似的两类合并，合并后重新计算新类与其他各个类之间的距离或相似度。这一“凝聚”的过程一直继续直到所有对象都归为一类为止。利用各城市的因子得分，还可对28个城市进行分类，得分值相近的城市被认为具有较相似的属性。

4、结果分析

由所得到的聚类***可以看出，全国信息化水平基本上可以分为五类，北京，山西各成一类，从上面的综合水平排名可以看出，北京信息化水平处于全国领先地位，这首先归功于北京的地理位置和***治人文环境，其次结合因子得分矩阵，北京在因子1上的得分最高，而根据因子载荷矩阵可以看出，因子1在13个变量指标上的载荷系数都比较大，证明北京在城市信息化的各个方面都比较出色。山西的信息化综合水平排名第10，属于中等偏上的水平，在因子4上的得分较高，因子4在变量指标x1，x2上的载荷量较大，这正好符合山西是个煤矿大省的特征，通信电信比较发达繁荣。天津、广东、江苏、福建、浙江归为一类，这几个城市都是发达城市，信息化水平偏高，在每个指标上得分都比较平均。而河北、黑龙江、河南、江西、辽宁、吉林、湖北、湖南、安徽、山东、四川、海南、重庆可以归为一类，这几个城市由于地理环境、产业结构、人口众多等因素使得信息化水平中等偏下。最后一类，信息化水平偏下的一类包括：内蒙古、甘肃、青海、宁夏、广西、云南、和陕西，信息化水平底下源于经济发展水平不高、对于信息化认识薄弱以及对信息产业的投入不够。

5、***策建议

虽然我国信息化应用工作已取得了较大的成绩，但在发展的过程中还存在着一些问题和不足使信息化带动经济发展的优势难以更好地发挥与国外发达国家相比还有很大差距，就是同亚洲一些发展中国家(或地区)比较也存在不小的距离。当前，经济全球化、我国加入世界贸易组织和世界信息产业的新发展，都对我国信息化应用发展提出了新的要求，因此，我们应认真分析中国信息化水平现状，分析与国外信息化发展的差距，有效地针对问题和不足进行改进，正确地规划未来发展方向和应采取的对策。

对策和建议主要有：(1)加快有关信息化法律、法规的制定，确保应用中的可靠性和安全性(2)降低成本，普及大众。(3)加强信息化知识普及与培训力度。(4)加大国家对信息化投资力度缩小地区间差距。(5)加强信息资源建设，提高信息化服务质量与水平。(6)建立信息化数据采集系统和评价监测体系。

另外，由上文的分析，信息化水平测度的数据很不全面，在每个地区城市的报告中尚未包括有些信息化水平测度指标，比如说信息产业增加值占地区生产值的比重。完整的数据不仅可以帮助很好的测度信息化水平，同时可以鞭策及时发现问题，提出相应的解决办法，这对于提高信息化水平是必要的途径。

参考文献：

[1]张海永.基于因子分析和聚类分析的江苏省13个城市社会发展水平研究.西南民族大学学报·自然科学版，2007，(2).

[2]陈小磊，郑建明，万里鹏.信息化水平测度指标体系理论研究述评.***书情报知识，2006，(9).

[3]卢纹岱.SPSSforWindows统计分析.电子工业出版社(第三版)，2006.480-483.

【摘要】本文认真参考了信息化水平指标，总结出信息化水平指标评价体系，同时采用因子分析法对全国各省份的信息化水平进行排序，并在此基础上进行聚类分析，最后按不同类型对各省份进行简单分析，进一步提出让信息化水平提高的对策。

聚类分析论文范文第4篇

关键词：管理科学与工程学位论文共词分析聚类分析

问题的提出

管理科学与工程是综合运用系统科学、管理科学、数学、经济和行为科学及工程方法，结合信息技术研究解决社会、经济、工程等方面的管理问题的一门学科。该学科研究广泛的内容和丰富的研究方法使得研究领域不断扩展，新技术、新思想的不断融入为学科的发展提供了广阔的空间。因此，关注该管理科学与工程学科的研究热点是十分必要的。

博士学位论文的主题和内容展现出作者深厚的理论功底和卓越的见解，这是因为博士论文的选题新颖，论文的内容信息量大并且专业性强，既有研究的深度又有研究的广度，具有较高的学术价值。在衡量学科发展水平和科技产出的指标时，学者经常以博士学位论文的发表状况作为参考和衡量依据，其研究内容可以反应出该学科近期的发展趋势和研究热点。本文采用共词聚类分析法，对CNKI中收录的我国管理科学与工程专业的博士学位论文进行定量分析，通过数据研究与分析，找出我国管理科学与工程领域的博士研究生所关注的研究热点。

共词分析法是一种内容分析的方法，主要是通过对能够表达某一学科领域研究主题或研究方向的专业术语共同出现在一篇文献中的现象的分析，判断学科领域中主题间的关系，从而展现该学科的研究内容与结构。其立论的假设条件是：文章的关键词是文章主题内容的浓缩，共词文章数量越多，表明这类关键词“距离”就越近，利用现代的多元统计技术如因子分析、聚类分析和多维尺度分析等，则可以按这种“距离”将一个学科内的重要关键词加以分类，从而分析出该学科领域的研究现状与内容。

数据来源

《CNKI中国博士学位论文全文数据库》（简称CDFC）是目前国内相关资源最完备、质量最高、出版周期最短、数据最规范、最实用、连续动态更新的博士学位论文全文数据库。

本文选择中国知网的《CNKI中国博士学位论文全文数据库》的免费题录数据库，于2011年9月9日为时间截点，以“学科专业名称”作为检索途径，输入“管理科学与工程”作为检索词，共检索到4537篇博士学位论文。

用Excel和ROST内容挖掘工具对检索结果进行文本合并与数据统计，共得到23564个关键词，人工反复进行校对，剔除了对反应主题没有积极意义的决策、现状、影响因素、模型等高频词，最后选择词频数大于等于20的高频关键词共得到68个，如表1高频关键词所示。

数据分析

（一）构建共词矩阵

表1中统计的这些关键词是管理科学与工程专业博士学位论文中出现频次较高的词，它们在较大程度上反映出当前该学科博士研究生在管理科学与工程学科领域的研究热点，但是由于许多相关知识和其他热点会与这一研究热点有交叉，并且不同的学者在研究的过程中对关键词的把握也会存在一定的差异，因此，我们需要预处理得到的这些高频关键词，从而进一步反映这些关键词之间的关系。

根据表1中的统计数据，对68个关键词两两配对，统计它们在4537篇文献中共同出现的频次，形成68×68的矩阵，如表2所示。

（二）构建相关矩阵

为了消除关键词词频悬殊造成的影响，利用SPSS 19.0对共词矩阵进行相关分析，得到相关矩阵（见表3），相关矩阵的数据很重要，它是后面进行聚类分析的基础数据。

（三）利用spss进行聚类分析

将表3所示的相关矩阵导入SPSS19.0进行层次聚类分析，选择“组间平均链锁（Between-group link-age）”，即个体与小类中每个个体距离的平均值。此种方法利用了个体与小类的所有距离的信息，克服了极端值造成的影响。得到的凝聚状态表，如表4所示。

在表4中，第一列（阶）表示聚类分析的第几步；第二、三列表示本步聚类中哪两个样本或小类聚成一列；第四列（系数）是个体距离或小类距离；第五、六列表示本步聚类中参与聚类的是个体还是小类，0表示样本，非零表示由第几步聚类生成的小类参与本步聚类；第七列表示本步聚类的结果将在以下第几步中用到。例如，第一步中，53号关键词（风险控制）与68号关键词（风险评估）聚成一类，它们的个体距离是0.997，这个小类将在第12步中用到。同理可得其它聚类。这个聚类可以从***1所示树状***中展现出来

层次聚类分析的树状***是以躺倒树的形式展示了聚类分析中的每一次类的聚合情况。SPSS重新调整距离进行聚类合并，自动将各类间的距离映射到0-25区间之间，并将聚类合并过程近似地表现在***上。53号关键词（风险控制）与68号关键词（风险评估）距离最近，首先合成一类。其次是54号关键词（复杂网络）和62号关键词（电子***务），其条以此类推。可见聚类过程与表4所示的凝聚状态***是一致的。

我国管理科学与工程专业博士学位论文的研究热点

（一）供应链管理研究

供应链管理研究，包括关键词1和5。主要围绕供应链管理的理论、方法和实践展开研究，尤其供应链管理技术在实际企业中的应用、操作等方面是很多研究者关注的热点，并取得了丰硕的研究成果。同时也有涉及供应链优化、创新和风险管理等方面的研究。

（二）博弈论的应用研究

博弈论的应用研究，包括关键词6、7和关键词57和61。主要将博弈论的思想运用到企业或项目的管理、相关对策和制度的制定中以及决策行为的研究，针对企业的实际情况来进行博弈模型的构建以及在信息不对称情况下的博弈分析。

（三）风险管理的研究

风险管理的研究，包括关键词3、53和68。风险管理的研究包括风险识别、风险评估和如何有效进行风险规避和风险控制。本文选取的数据库中的文献主要是针对一些企业和证券公司、银行等机构创业投资的风险管理研究，特种设备的风险管理和投资项目的风险管理，还是少数文献的研究涉及自然灾害的风险管理和文物典藏机构的危险管理等。

（四）绩效评价研究

绩效评价研究，包括关键词2和36。绩效评价的研究主要涉及企业公司和相关管理组织结构绩效评价体系的构建，评价理论和评价方法的研究，还有部分研究者关注人力资源绩效评价的研究和科技成果转化知识管理绩效评价研究等。

（五）可持续发展理论的应用研究

可持续发展理论的应用研究，包括关键词9。从可持续发展理论的核心理念和思想出发，分析该理论在自然资源、能源、农业、钢铁等行业，城市建设，经济发展，教育等行业领域的应用研究，提出相应的发展策略和实施建议。

（六）产业集群及产业集群技术创新与竞争优势

产业集群及产业集群技术创新与竞争优势，包括关键词4、8和19。产业集群是近几年的研究热点，也得到博士研究生的青睐，主要研究产业集群的理论和实践，不同性质行业的产业集群及其生态演化发展和技术创新与竞争优势等。

（七）遗传算法、神经网络和数据挖掘的关系

遗传算法、神经网络和数据挖掘的关系，包括关键词10、11和15。数据挖掘是一个从大型数据库中抽取隐含的、事未知的、具有潜在有用的信息或知识的非平凡过程。数据挖掘应用涉及的领域范围比较广，在管理科学与工程学科博士学位论文的研究中采用较多的数据挖掘技术是神经网络和遗传算法，分析研究对象间的关系和数据信息，从而构建研究体系或模型。

（八）企业知识管理研究

企业知识管理研究，包括关键词12。主要围绕知识管理在企业文化和企业管理中的应用展开研究，探索知识管理的方法、知识体系创新、知识转移、知识共享、文本挖掘和人才管理耦合研究和其他实证研究。

（九）系统动力学理论的应用研究

系统动力学理论的应用研究，包括关键词13。主要是汲取系统动力学的思想，把企业或运营的项目本身作为一个系统来进行研究，根据企业的性质和从事的行业来有针对性地分析信息流、物资流、资金流、人力流和设备流，提升企业的自身的竞争力，创造更多的价值。

（十）实物期权理论的应用研究

实物期权理论的应用研究，包括关键词16。对实物期权理论的应用研究主要集中在生产经营决策，战略研究，资产价值评估，自然资源开发，信息技术基础设施投资，技术创新等方面。

（十一）公司治理研究

公司治理研究，包括关键词44。关于公司治理的研究主要集中在国内外公司治理的对比研究，公司的治理机制和治理结构，以实际的案例分析公司治理中的利益冲突与平衡，总结公司治理中的经验，并根据经验进一步探索如何进行公司治理的创新研究。

（十二）在产业研究分析中层次分析法的使用

在产业研究分析中层次分析法的使用，主要包括关键词31、33、40和51。层次分析法是在对复杂的决策问题的本质、影响因素及其内在关系等进行深入分析的基础上，将上述信息进行量化处理，从而为多目标或无结构特性的复杂决策问题提供简便的决策方法。主要是针对产业系统的设计、管理和评价研究，风险评估研究和策略研究等。

（十三）其他研究主题

其他研究主题。例如，关键词34分别与关键词33、36、43和49聚合成小类，这就表明风险投资也是其中一个研究热点。

结论

共词聚类分析法跟普通的文献计量方法不同，它把数据库中的关键词进行量化处理，通过定量分析反映出关键词与关键词之间的亲疏远近关系，进而反映高频关键词所代表的主题内容的结构。从上面总结的研究热点可以看出，有部分关键词自己单独成小类，经过多次聚类后才与其他类聚成大类，但是大类不能准确地反映研究的主题，因此就将这些关键词自身单独成类，归纳出研究的热点。

本文通过分析高频关键词来反映管理科学与工程博士学位论文的研究热点，并且通过共词聚类分析反映出这些研究热点之间的结构关系。选择关键词的多少会造成聚类结果有所不同，因此不排除某些频次较低的关键词有可能成为未来的研究热点。目的是通过对我国管理科学与过程博士学位论文的研究热点分析，进一步了解和掌握我国管理科学与工程博士研究生的研究方向和研究趋势，并且将文献计量学中的共词研究方法移植到该学科领域，丰富本学科的研究方法。

参考文献：

1.百度百科.管理科学与工程[EB/OL].baike.省略/view/666737.htm

2.张勤，马费成.国外知识管理研究范式—以共词分析为方法[J].管理科学学报，2007(12)

3.李长玲，翟雪梅.我国情报学硕士学位论文的共词聚类分析[J].情报科学，2008(3)

4.薛薇.SPSS统计分析方法及应用[M].电子工业出版社，2005

5.李仁璞.分类数据挖掘中若干基本问题的研究[D].天津大学，2003

作者简介：

王兰甫（1963-），男，河南唐河人，博士研究生，研究方向：企业管理。

杨昌明（1945-），男，湖北武汉人，教授，博士生导师，研究方向：资源经济与管理。

聚类分析论文范文第5篇

［摘要］这种模型是基于某些已完工程资料的特征、用模糊数学理论进行聚分析确定类别。为了预测新项目的造价，首先建立隶属函数，然

>> 工程造价预结算的审核步骤及审核方法探究浅析工程造价预结算的审核步骤及审核方法用模糊ISODATA聚类分析划分沙棘苗木等级的试验研究建筑工程造价的模糊确定分析分析工程造价及降低工程造价的方法工程造价及降低工程造价的方法基于模糊聚类分析的多属性决策方法的研究应用融合微分算子和模糊聚类分析的***像边缘检测混合方法研究简析工程造价预结算审核步骤及审核方法工程造价预算的模糊算法浅谈工程造价预结算审核的方法与步骤基于模糊聚类分析的环境绩效评价研究工程造价控制方法的研究公路工程造价快速估算的模糊神经网络方法应用基于案例模糊推理的土木工程造价估算方法探讨基于Weblog的模糊聚类分析分析工程造价预结算审核及加强方法基于模糊聚类分析的云计算负载平衡策略新农村信息化现状模糊聚类分析方法与对策研究模糊层次分析法在工程造价管理中的应用常见问题解答当前所在位置：中国论文网 > 艺术 > 用模糊聚类分析计算工程造价的方法及步骤研究用模糊聚类分析计算工程造价的方法及步骤研究杂志之家、写作服务和杂志订阅支持对公帐户付款！安全又可靠！ document.write("作者：未知如您是作者，请告知我们")

申明:本网站内容仅用于学术交流，如有侵犯您的权益，请及时告知我们，本站将立即删除有关内容。［摘要］这种模型是基于某些已完工程资料的特征、用模糊数学理论进行聚分析确定类别。为了预测新项目的造价，首先建立隶属函数，然后根据隶属函数及新建项目的特征对待侧工程项目进行归类，再选取同类已完工程中与其最相似的三个工程作为估价样本，建立工程项目估价数学模型，并结合当前建筑材料价格及其质量、市场等作以适当的调整。其具体分为四个步骤：已完工程项目分类；待测工程项目归类；工程造价模糊测算；对工程数据进行分析测算。［关键词］工程造价；模糊理论；分部工程；分项工程；施工质量；概预算；聚类分析［中***分类号］TU715　［文献标识码］B　［文章编号］1727-5123(2011)03-105-02

聚类分析论文范文第6篇

1材料与方法

在OHSUMED试验数据集中选择6个查询提问(queries)作为研究主题，收集与其明确相关(defi-nitelyrelated)的109篇文献作为样本数据。其中6号主题19篇，27号主题36篇，32号主题14篇，42号主题13篇，84号主题22篇，98号主题5篇。为了直接反映文献内容的相关性，采用语义相似性算法［11］构造论文相似网络，即用文献的主题词代表论文，通过计算主题词间的相似性得出文献间的相似程度。利用本地PubMed检索系统中基于语义相似性的PANS(PaperNetworkonSimilarity)算法直接生成论文相似矩阵(表1)，矩阵中的元素代表相应两篇文献间内容上的相似性。为使聚类结果更准确，选择0．08作为相似度阈值，移除相似度小于等于0．08的边，得到简化后的相似矩阵(表2)。在R语言的igraph程序包中，以上述两个相似矩阵为邻接矩阵构造论文网络，得到原始的论文网络(简称网络1，***1)和简化的论文网络(简称网络2，***2)，并进行可视化处理。网络1和网络2都是无向加权***，每个节点代表1篇文献，边的权重代表文献间的相似度值。其中网络1共109个节点，5886条边;网络2含109个节点，1621条连接(***中标签代表金标准的主题号)。利用igraph程序包的复杂网络处理算法功能，分别采用4种聚类算法对网络1和网络2进行聚类分析，探索论文相似网络的社团结构，最后结合金标准的主题分类和网络社团划分评价指标D函数比较4种算法的准确性和稳定性。

2结果

按照金标准的主题分类，论文相似网络拥有6个社团(***3)，其中社团1(第98号主题)5个节点，社团2(第27号主题)36个节点，社团3(第6号主题)19个节点，社团4(第84号主题)22个节点，社团5(第32号主题)14个节点，社团6(第42号主题)13个节点。采用4种算法对网络1和网络2聚类的结果如***4－***11所示。***中节点标签数字代表金标准的主题号，标签颜色相同的节点属于同一个社团，社团内连线为黑色，社团间连线为红色。4种算法得出的聚类结果的具体数据如表3和表4所示。采用随机游走算法分析论文相似网络，并对网络进行聚类分析，如***4所示，准确率高达96．3%，社团数为6，但第6号主题的一个节点与98号主题的5个节点被错误归为一类。简化剪枝后，准确率为100%，聚类结果(***5)与实际社团划分情况完全相同。采用标签传播算法对网络1进行聚类分析，如***6所示，准确率高达81．3%。它将27号主题与98号主题归为一类，因此社团数目只有5。但对网络2的聚类结果跟随机游走算法一样(***7)，也是与实际一致。采用最大模块度算法对论文相似网络聚类分析时，网络处理前后的结果是一致的(***8和***9)，二者都是将42号主题与98号主题聚为一类，从而得到5个社团，但在处理两个网络时得到的Q值都是最大的。边介数算法对于原始网络的聚类效果较差，如***10所示，模块度Q仅为0．045，57个社团中仅1个社团的节点数超过1，其余社团均只含1个节点。网络剪枝后，GN法得到6个社团(***11)，准确率高于90%，仅98号主题有2个节点被错误归为42号主题。

3讨论

由于不同主题文献之间的相似性大都较低(全部＜0．1)，导致同一主题内的任意两篇文献与其他主题文献的相似性差异很小。这符合随机游走算法的前提，即若两个节点同属于一个社团，那么分别从两个顶点跳跃到整个网络的其他节点的概率相近:如果顶点i和顶点j属于同一社团，则对于任一顶点k有Ptik≈Ptjk。标签传播算法的两次聚类结果差距较大，说明其稳定性较差。这是由于它的更新顺序是随机的、邻接节点标签数量相同时选择标签也是随机的，算法的鲁棒性遭到严重破坏，社区结构的稳定性也就受到严重损害。最大模块度算法则更为稳定，具有以下优点:计算速度快，可用于大型网络;整个过程自下而上，不会遗漏小规模的社团结构;适用于大规模的加权网络。边介数算法的前提是连接不同社团间的边的介数值较大，而连接社团内部边的介数值则较小。但由于原始论文相似网络中任意两点之间都存在连接，无法满足此前提，因此聚类结果无意义。

4结语

在构建文献相似网络的基础上，通过比较4种聚类算法的聚类精度和聚类稳定性，我们发现，随机游走算法是一种优秀的论文相似网络聚类算法，准确性高、稳定性好;标签传播算法的准确性次之，但稳定性不高;最大模块度算法稳定性好，但聚类精度有待提高;边介数算法对相似网络的预处理要求很高，聚类结果不稳定。另外，我们还发现，选择阈值处理相似网络后聚类效果显著提高，说明选择不同的相似度阈值会对聚类结果产生影响，可见复杂网络的预处理也是一个影响其聚类效果的重要因素。本研究为今后选择更为准确和稳定的论文相似网络聚类算法提供了依据。在今后的研究中，应选择随机游走算法对文献相似性网络进行聚类分析，并且可以尝试通过阈值的选取来提高文献相似网络的聚类精度。文本聚类分析技术的进一步改进，一是有助于揭示学科结构及其动态变化，在精确计算论文相似性基础上，形成准确的网络并精确地聚类分析，随时反映不同学科专业主题当前研究的热点和结构;二是有助于成簇检索相关文献，可以将基于随机游走算法镶嵌在文献检索系统中，将用户检索到的文献集合中相似论文按照类别提供给检索用户，提高信息咨询服务的准确度和针对性。

聚类分析论文范文第7篇

关键词：词频分析，共词分析，聚类分析

研究生学位论文反映本专业研究方向。研究生学位论文是高等院校或科研机构的研究生所撰写的毕业论文，是其科研成果的结晶，反映了作者***进行科研活动的能力。在研究生进行学位论文的过程中，寻找研究热点、把握研究趋势是必需环节，有些研究者通过广泛阅读文献，有些研究者通过文献计量学和内容分析的手段，常见比如发文统计、知识***谱分析等。从文献生产、供给的角度，这有助于研究者在短时间内低成本地激发新的想法，迅速获得相关文献并寻找研究空白，获得较大的知识收益，有利于知识的产生、传播和累积。

论文的关键词是文章内容的提炼及核心思想，在某一学科中，如果某些关键词在众多的论文中反复出现，就说明这些关键词是该学科的研究热点。因此本文以教育技术学专业为例，将研究生学位论文和论文关键词作为研究对象，对教育技术学的研究热点和发展趋势进行探析，并从中得到一些启发，以期探讨进步。

1.研究过程

1.1主要的分析工具

论文分析需要定性和定量相结合，离不开相应软件的辅助。本研究中主要使用书目共现分析系统（Bicomb）抽取论文中的关键字段，形成高频词一论文矩阵，Python进行聚类分析，Excel作为Python的输入，以及进行简单的统计。

1.2数据采集和处理

中国知网上收录的论文数量较多，故将其作为研究对象的数据来源。通过本校数字***书馆访问中国知网，选择“博硕士”类型，并以“教育技术学”为“学科专业名称”进行检索，共获得研究样本7937篇研究生学位论文，然后按照NoteFirst格式采集研究生学位论文的题录信息。使用书目共现分析系统，将论文的发表年份和关键词提取出来，输出成EXCEL格式。

共词聚类分析的主要有如下几个步骤：首先选定参与共词分析的高频关键词并构建共词矩阵，然后将共词矩阵转化为相似矩阵，然后进行聚类分析，最后对结果进行解释。关键词的选择，目前有TOPN，正太分布法，齐普夫第二定律等几种常见的方法。

经过统计分析，本文样本数据不符合正态分布，故本文选择累积百分比20%的关键词作为高频关键词，生成如表1所示的共词矩阵。

为了消除频次悬殊造成的影响，用Ochiia系数将共词矩阵转化成相似矩阵，即将矩阵中的每个数字都除以与之对应的两个关键词总频次开方的乘积，该矩阵主对角线上的数据均为1，代表高频关键词自身的相关程度，如表2所示。

2.研究结果

2.1关键词的词频分析

词频分析法通过对关键词中高频词汇的分析，能够确定某一学科的研究热点及其变化。本研究共收集到7937篇研究样本，对所有关键词进行统计排序后，得到排名靠前的20个关键词，表3提供了前10个关键词。

观察上表数据，可以发现，教学设计出现频次远超其他关键词，在教育技术学中占据着核心地位；信息技术和网络课程占据第二和第三名次，说明教育技术学对信息技术和网络的应用比较深入和频繁。

为了进一步探究教育技术学的发展历史，故对各年度所的关键词进行统计，可以得出各年度频次排名前10的关键词表，具体见表4。

表4显示了高频词的变迁过程。观察上表可以发现，首先历年排名靠前的关键词都有教学设计和网络教育，稳定性比较好，正体现出教育技术学交叉学科的特点，同时也可以看出，2000年后的“技术”，主要指网络技术。其次教育技术已经处于信息化教育研究阶段，这一阶段的核心关键词主要有远程教育、信息技术、网络学习、教育游戏、移动学习等。从这一阶段的研究热点可以看出，随着信息化时代的到来，教育活动的数字化、网络化、智能化等现象已成为研究热点，这一时期研究者关注的对象不再仅限于媒体本身，而是从信息化学习方式人手，考察技术、人和教育三者间的关系。

2.2关键词的共词聚类分析

聚类分析是根据研究对象的特征对其进行分类的多元分析技术的总称，基本思想是基于研究对象的样本或变量指标间存在着不同程度的相似性或亲疏关系。

层次聚类按照距离度量的不同分橐韵录咐啵single-linkage、complete-linkage、average-linkage、ward-linkage。现有同类型的论文中，均采取层次聚类法对共词矩阵进行聚类分析，但是并没有针对上述不同情况给出对比分析，本文使用Python第三方库scipy中的层次聚类函数以及dendrogram方法，对多种度量的聚类方法进行了对比实验，发现ward-linkage方式的聚类效果最好，具体聚类树如下***所示。

观察该层次聚类树状***可以发现，研究生学位论文高频关键词大致聚为5类，具体分类如下：

第1类：学习方法研究，关键词包括知识管理、大学生、网络学习、虚拟学习社区、策略、非正式学习、知识构建等。该类研究主要以如何提高学习的效果为目的，寻找和对比多种学习方法，为后续的教育教学方法提供参考。

第2类：教师与教育技术研究，该类研究主要由教育技术、教师专业发展、教育技术能力、现代教育技术、师范生、教师培训、中小学教师等关键词构成。这一主题的研究主要围绕教师与教育技术的关系，着力提高教师运用新型教育技术的能力和水平，从而更好地从事教学活动。

第3类：网络教育教学研究，主要由网络课程、移动学习、网络、网络学习、自主学习、远程教育、网络环境网络教学、现代远程教育等关键词构成。网络教育以互联网为载体打破了空间和时间的限制，涌现出***教育和MOOC等新型教学方式。

第4类：信息技术条件下的教育模式研究，主要包括信息技术、教学模式、信息素养、教育信息化、信息技术与课程整合、行动研究、翻转课堂等关键词。随着信息技术的不断进步，越来越重视信息技术与教育教学的结合，碎片化学习、翻转课堂等都成为该学科内的研究趋势。

第5类：设计与开发应用研究，主要由设计、应用、对策、开发、现状和应用研究等关键词构成。教学设计与应用是教育技术学的核心目标和价值体现，不论采用何种技术手段，最终的落脚点都是教育教学方案的设计及应用实践。

3.研究结论

3.1发展趋势

第一，研究热点保持稳定。从关键词词频分析中可以看到，不论是全量数据的统计，还是历年关键词数据的统计，出现频率较高的关键词都是信息技术、教学设计、远程教育等。这些核心关键词，包括教学效果，教育信息化等其他高频关键词在内，都显示出中国教育技术牢牢把握学科定位与目标，重视教与学的应用与研究，而且应用信息技术进行教与学是中国教育技术领域近20年研究的热点。

第二，教育技术学在走向融合。主要包括三个层面上的融合，即教育理论层面、技术层面、理论和技术结合的层面。在前文的分析结果中可以看到由何克抗教授正式倡导的混合式学习概念，更是最好的证明。一是教育理论层面，主要体现在教育理论基础的变化上。教育技术学研究的焦点，已经由建构主义转向混合式学习。在词频分析中的历年高频关键词中，可以看到建构主义的排名在2004年以后，就比较靠后了。二是技术层面，教育技术已经从基础的视听技术，发展到了网络信息技术为主，多种基础技术为辅的阶段。但就像网络没有取代报纸一样，粉笔和黑板也依然存在着。各种不同的教学技术相辅相成、相互作用，它们以整体融合的形式，出现在各种教育教学活动中。三是理论和技术相结合层面，不同的教育与学习理论，需要各种不同的技术作为支撑，而各种技术的最终目的，是要为优化教学效果而服务。共词聚类分析中发现的信息技术下的教学及学习模式研究，说明教育技术工作者已经开始关注适应性学习和协作学习环境的创设。

3.2启发

第一个启发是要自信。有人说，教育技术学专业学生的教育理论水平不如教育学相关专业的学生；论信息技术能力不如计算机相关专业的学生。多数人都看到了这个现象，但如果因为这个原因，变得不自信和迷茫，那就有些妄自菲薄了。因为教育技术学是交叉学科，本专业的学生跟其他专业的学生比的就是教育理论与信息技术相结合的“综合实力”，这才是教育技术学特色和优势的所在。本专业的学生在平时的学习和研究中，可以遵照南国农老前辈的指导，坚持现代教育理论与现代信息技g的融合，并牢记二者“相乘”的关系，双翼齐飞，同时努力探索教育技术的中国道路。

第二个启发是要并重。包括电教并重和教学并重，主要是为了解决目前教育技术学出现的误区和问题。电教并重是指要认清教育技术姓“教”不姓“电”，信息技术只是教育技术的一种支撑，教育技术所研究的是在教育理论的指导下，如何有效利用各种信息技术为教学活动提供支持，以达到最优化的教学效果。教学并重是指教与学是相辅相成的统一整体，而且其立足点在学而不在教，因为教育教学活动的根本目的是学生的学习与发展。

第三个启发是要融合。不仅是教育技术学内部的融合，还有借鉴其他学科的精华，如计算机、心理学和传播学，才能更好地体现出交叉学科的特点和优势。举例来说，目前计算机领域，机器学习和人工智能正在如火如荼的进行，虽然教育技术领域已经在进行虚拟现实和数据挖掘技术的相关研究，但深层次的融合，结合教育教学活动进行落地的尝试，还需要尽快开展和总结。

4.结束语

本文基于文献经济学和知识经济学的基本原理，以教育技术学研究生学位论文关键词为研究对象，运用统计分析、词频分析法、共词聚类分析法，发现教育技术学的研究内容保持稳定，研究趋势为走向融合。

聚类分析论文范文第8篇

关键词：聚类分析人口区划数据挖掘

中***分类号：C92 文献标识码：A 文章编号：1007-3973（2013）005-184-03

1 前言

随着中国信息化进程的加速，各行各业每天都产生大量的数据，如何充分利用这些数据，更好地为人类生产和生活更好地服务？数据挖掘是一种不错的方法，数据挖掘又称数据库中的知识发现，是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识发现过程由以下三个阶段组成：（1）数据准备；（2）数据挖掘；（3）结果表达和解释。

聚类分析（Cluster Analysis）是一种数据挖掘方法，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品或数据，要求能合理按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为：（1）划分方法；（2）层次的方法；（3）基于密度的方法；（4）基于网格的方法；（5）基于模型的方法。如果聚类分析被用作描述或者探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。聚类方法广泛应用于各行各业。

人口是基础数据，是制定各项***策的依据。人口区划根据自然、经济、人口特征及相应的指标体系，对全国人口分布状况分区划片，并提出各区人口发展合理目标及相应的人口***策和措施，为全国和分区人口发展规划提供科学依据，并为国民经济计划和经济区划服务。20世纪80年代初，中国学者胡焕庸根据自然地理特征、人口密度、人口自然增长、人口迁移、耕地、粮食产量、劳动力等指标，将中国划分为人口区，即：黄河下游区，辽吉黑区，长江中下游区，东南沿海区，晋陕甘宁区，川黔滇区，蒙新区，青藏区。随着中国经济的迅猛发展人口分布呈现出许多新的特征，为了适应新的趋势，有必要重新定位和再研究。

2 数据与方法

2.1 数据来源与指标选择

本研究的数据采用2011年全国31个省及直辖市的统计数据，人口数据来源于《中国人口统计年鉴》，各省人均可支配收入来源于经济信息网。因研究的是各省的人口及经济指标聚类，研究区域很大，信息粒度较大，因此选择了有代表性的综合性人口数据指标，人口（总量）、人口密度、人口自然增长率、第六次人口普查数据、人均可支配收入、人均GDP、迁移数据。其中人口自然增长率为（人口出生率-人口死亡率）/人口均值*1000%，迁移数据=第六次人口普查数据-人口（常住人口）。各省及直辖市的基础数据如表1所示。

2.2 聚类分析原理

3.2 二维聚类

以人均GDP和人口自然增长率进行聚类，数据进行标准化处理后，得到的结果有五类，如表5如示。

从以上聚类结果看，第一类是沿海地区，经济较为发达，人口增长正常；而第二类内陆地区，人均GDP较低，人口自然增长优率较为正常；第三类为东北三省，人均GDP中等，人口增长率低；第四类为人均GDP高，为三个直辖市；第五类为人均GDP低，而且人口增长快的区域。

3.3 多维聚类

多维聚类时，采用K均值法进行聚类，得到的聚类结果如表6。

根据多维数据聚类，共分为六类，其中第一类属于人口少，但较为富裕的北京和上海，而第六类为天津，自成一类，主要是流动人口及可支配收入较第一类差一些；第四类为经济发达的广东、江苏和浙江；第二类为经济较好，人均收入中等，流动人口较少的地区；第五类为经济欠发达，人口保持较高增长率的省份；第三类则是大部分的内陆地区。

4 结论与讨论

本文通过采用聚类分析的手段分析全国31个省市人口的发展规律，揭示了不同省市在人口发展之间的相似性和差异性，研究得出合理聚类结果，为***府和各职能部门在制定人口及各项地方性经济发展***策提供依据。

聚类分析结果表明，一维、二维和多维聚类分析方法有各自的典型特征有用途。一维聚类分析简洁地表明各省人口自然分布规律，可为国家对不同各省份的人口***策提供科学依据；二维聚类分析直接反应了不同省份人口与经济等指标的相互关系，如论文中对人均GDP和人口自然增长率的二维聚类分析，分类结果合理的体现了当前我国各省经济发展与人口特征。多维聚类分析方法适用于对各省综合分类，论文中采用了与人口有关的5个指标进行的多维聚类分析，分类结果有较强的综合性，与当前各省公众认识的综合分类一致。

解决了传统的经验分类方法导致的客观性缺乏等问题。为人口的分类管理实践提供了理论依据和技术手段。

（本论文为院级大学生实践创新训练计划项目2011XYCXXL14资助项目）

参考文献：

[1] Jiawei Han，Micheline Kambe.数据挖掘概念与技术[M].北京：机械工业出版社，2012.

[2] 陈志泊.数据仓库与数据挖[M].北京：清华大学出版社，2009.

[3] 陆学艺.可持续发展实验区发展历程回顾与建议[J].中国人口资源与环境，2007，17（3）：1-2.

[4] 张文彤，董伟.SPSS统计分析高级教程[M].北京：高等教育出版社，2004：236-237.

[5] 刘玉芳，宋金星，刘永和.河南省人口现代化区域差异的主成分及聚类分析[J].西北人口，2007（03）：59-61.

聚类分析论文范文第9篇

关键词:职业教育;研究热点;学位论文;共词分析

基金项目:2010年***哲学社会科学研究重大课题攻关项目“职业教育办学模式改革研究”(项目编号:10JZD0040)中***分类号:G710文献标识码:A文章编号:1674－7747(2015)34－0034－05

一、问题提出

2010年，《国家中长期教育改革和发展规划纲要(2010－2020年)》颁布，引起了教育界的巨大反响，其中，对职业教育的影响尤为突出，使职业教育的发展进入了一个新的阶段。随着***府相继出台《关于推进中等和高等职业教育协调发展的指导意见》《关于加快发展面向农村的职业教育的意见》等一系列利好性***策，学术界的研究不断扩大与深化，大量文献涌现。因此，有必要对近年来职业教育的研究进行一次梳理，厘清职业教育的研究热点。研究热点是一个时期学科研究的焦点、集约所在，表现为在一个学科问题上大量文献、学术思想的集中涌现和大量相关研究者群体的出现。［1］学位论文不仅可以反映研究生的研究状况和能力，代表导师的研究方向和擅长领域，而且，在很大程度上，也能展现学科发展的轨迹和新的知识增长点。因此，本文试通过对近五年的职业技术教育学学位论文的关键词进行共词分析，来呈现我国职业教育的研究热点知识***谱。

二、研究方法与样本的选取

(一)研究方法

本文主要使用三种分析方法，即共词分析法、聚类分析法和多维尺度分析法。共词分析法是文献计量学中一种重要的内容分析方法，它通过对能够表达某一学科领域研究主题或研究方向的专业术语共同出现在一篇文献中的现象进行分析，探寻这些词之间的亲疏关系，进而分析这些词所代表的学科和主题的结构变化。［2］聚类分析法以描述对象特征的客观数据为分析对象、以统计方法为手段、以分类为目标，其本质上是从客观的数据中挖掘对象间的内在联系。［3］多维尺度分析将观察数据分配到“概念空间”的特殊位置。［4］

(二)样本的选取

本文样本主要经过以下4个步骤选取。1．以CNKI数字***书馆的“中国优秀硕、博士学位论文全文数据库”为数据源，从中查取全部“学科专业名称”为“职业技术教育学”的硕、博士论文。2．从所在页面导出近5年(2010年—2014年)共计1185篇的论文，存入名为Vocation的文件夹中，导出格式为NoteFirst。利用BICOMB2(书目分析软件系统)软件提取Vocation文件夹中学位论文的关键词。3．规范关键词，包括剔除诸如“研究”、“发展”等无实际意义的词，合并“职业教育”和“职业技术教育”等同义词。4．再次利用BICOMB2软件，得到新的关键词词频分布情况。然后，从中选取关键词频次≧10的前36个关键词作为高频关键词，它们共出现在915篇论文中，约占总体的77．22%(见表1)。经上述步骤所选出的36个词即为本文的研究样本。

三、研究过程

(一)进行共词分析，构建词篇矩阵

为更形象直观地呈现关键词之间的内在联系，需要对其进行聚类分析。而在进行聚类分析之前，首先需要构建高频关键词的词篇矩阵。本文使用BICOMB2软件，构建职业技术教育学学位论文的词篇矩阵(见表2)。表2中第一行数字表示1185篇来源文献，第一列为36个高频关键词。其中“1”和“0”都不是计量数，“1”表示该关键词在此篇文献中出现过，相反“0”则表示没有出现，如“高等职业院校”这个关键词在第5和第6篇文献中有出现。词篇矩阵能够向我们展示出36个高频关键词在相关来源文献中出现情况。

(二)进行聚类分析，生成树状***

将上述词篇矩阵导入SPSS20中并对其进行聚类分析，生成了36个高频关键词的共现聚类分析树状***(见***1)。在***1中，纵轴表示与之对应的高频关键词，横轴表示关键词之间的距离，距离越近数字越小，代表两者的关系越紧密。如，***中“人才培养模式11”与“工学结合21”的距离最短，说明它们两个的相关度很高，关系很紧密。

(三)进行多维尺度分析，生成热点知识***谱

由于词篇矩阵中的高频关键词的词频是绝对值，很难反映出关键词之间真实的关联性，所以，需要对其进一步处理。1．将词篇矩阵导入SPSS20，选取其中的Ochiai系数，将其转化成相似矩阵(见表3)。2．由于相似矩阵中的零值过多，容易造成较大的误差，故需对其采取进一步处理，即用1减去相似矩阵中的所有值，生成相异矩阵(见表4)。需要指出的是，在相异矩阵中，数据越大，说明关键词之间的距离越远，相似度越小;反之，则说明关键词之间的距离越近，相似度越大。［5］3．导入相异矩阵，使用SPSS20进行多维尺度分析，生成36个关键词的热点知识***谱(见***2)。一般而言，在战略坐标划分的四个象限中，第一象限的主题领域内部联系紧密，处于研究网络的中心地位;第二象限的主题领域结构比较松散，这些领域的工作有进一步发展的空间，在整个研究网络中具有较大的潜在重要性;第三象限的主题领域内部链接紧密，题目明确，并且，有研究机构在对其进行正规的研究，但在整个研究网络中处于边缘;第四象限的主题领域在整体工作研究中处于边缘地位，重要性较小。［6］

四、研究结果和分析

(一)主流研究领域

根据高频关键词聚类分析的结果及聚类分析树状***所呈现的关键词远近亲疏关系，可以将职业技术教育学学位论文所研究内容划分成7个主流研究领域。1．中职课程及培养模式研究，包含“中职教育”、“课程”、“课程体系”、“课程设置”、“人才培养模式”、“工学结合”等10个关键词。这一研究领域可进一步分为中职课程研究与中职培养模式研究两个子领域。其中，中职课程研究主要涉及课程体系、课程设置、课程开发、课程改革等方面，中职培养模式的研究主要涉及对国外人才培养模式的借鉴及国内人才培养模式的构建等方面。2．职业教育校企合作研究，包含“校企合作”、“企业”、“实践教学”、“职业教育”、等7个关键词。主要涉及校企合作的重要性、实践、体制机制、现状与对策、教师队伍构建等方面。3．项目课程研究，包含“项目课程”、“教学模式”两个关键词。主要涉及项目课程的开发、实施、教学等方面。4．职校学生研究，包含“学生”、“中职学生”、“高职学生”、“职业能力”、“院校文化”、“高职教育”等10个关键词。主要涉及学生的学习动机、教育、管理、评价等方面。5．就业创业教育研究，包含“就业”、“创业教育”、“职业生涯规划”、“职业培训”4个关键词。主要涉及就业创业教育、就业质量、就业问题、创业人才等方面。6．教师专业发展研究，包含“中职教师”、“高职教师”、“教师专业发展”3个关键词。主要涉及教师的培训、培养模式、专业发展途径、制度等方面。7．农村职业教育研究，包含“农村职业教育”1个关键词。主要涉及农村职业教育的发展、现状、模式、***策等方面的研究。

(二)研究热度

多维尺度分析所得出的关键词亲疏紧密情况基本与聚类分析相似，这一点可以从***1和***2的对比中看出。当然，也存在一些特殊情况，如“德育”与“中等职业学校”，在***1中距离较近，而在***2中距离却较远，这主要是由关键词的内部聚合度不高引起的。通过对知识***谱的解读，可以分析得出，近年来职业教育研究的7大主流研究领域内部聚合度低，碎片化程度高。其中，领域1中的“中职课程与培养模式”研究主要分布在第一和第二象限，“培养模式”集中在第一象限，“课程”在第二象限;领域2中的“职业教育校企合作”和领域3中的“项目课程”主要分布在第一和第四象限;领域4中的“职校学生研究”横跨四个象限;领域5中的“就业创业教育”研究、领域6中的“教师专业发展”研究、领域7中的“农村职业教育”研究主要分布在第三象限。也就是说，在7大主流研究领域中，领域1中“人才培养模式”、领域2中“校企合作”及领域3中“教学模式”处于核心研究领域，而领域1中“课程”部分为潜在研究领域，具有重大的研究价值，未来需要加强研究，领域5、领域6、领域7为正处于研究中的领域，领域2中的“双师型”教师和领域3中的“项目课程”部分为边缘研究领域，相对研究成果较少。

五、结语

本研究只是梳理了国内职业技术教育学学位论文的研究热点及其结构关系，透析了职业教育的主流研究领域，希望能为新阶段研究职业教育提供一种新的研究方法和思路。研究所得结论与现存主流观点大体相符，如“校企合作”研究、“人才培养模式”研究等是职业教育领域公认的热点所在。结论也显示，职业教育各大领域内部聚合度普遍偏低，加强内部体系建设应该引起关注。另外，可以肯定的是，“改革”是未来职业教育各大领域深化研究的关键所在，互联网时代的到来、学习化社会的发展、高等教育大众化的推进都将深刻地改革职业教育。

参考文献:

［1］高宝立，刘小强．高等教育研究热点分析:两个维度、四项指标———以现代大学制度研究为例［J］．教育研究，2008(9):58－64．

［2］肖伟，魏庆琦．学术论文共词分析系统的设计与实现［J］．情报理论与实践，2009(3):102－105．

［3］汪存友，余嘉元．标准参照测验中标准设定的聚类分析法［J］．南京师大学报(社会科学版)，2010(1):103－108．

［4］张方杰，高向艳．基于多维尺度分析的个人金融产品差异性研究［J］．金融论坛，2005(6):39－42．

［5］张勤，马费成．国外知识管理研究范式———以共词分析为方法［J］．管理科学学报，2007(6):65－75．

［6］崔雷，郑华川．关于从MEDLINE数据库中进行知识抽取和挖掘的研究进展［J］．情报学报，2003(4):425－433．

聚类分析论文范文第10篇

关键词：地理学;研究热点;学位论文;共词聚类;学科交叉

中***分类号：G642.0 文献标志码：A 文章编号：1674-9324（2015）21-0074-04

一、引言

学位论文是高校学生教育实现培养目标最重要的教学环节，反映了学生最关键的学术和科研成果。论文的关键词反映了学位论文最为核心的内容。近年来，通过对学位论文关键词的定量分析获得领域研究热点得到越来越多学者的关注。诸多国外学者（Carol F. Dungan，1988;Jeffery S. Drysdale，2013;Morgan M. Millar，2013）通过对不同学科学位论文的关键词分析，得出跨学科研究和未来职业走向的关系。国内学者（黄思清、肖，2011;范秀辉，2011）对我国网球、教育学的硕博士学位论文的内容进行统计和分析，研究结果为今后的网球研究提供参考建议。但是，目前大多数通过对学位论文定量分析得出研究热点的方法多用于教育学、心理学和体育学，暂无学者将此方法运用到对地理学等学科发展的探析中。本文对北京大学城市与环境学院地理学科本硕博士学位论文的题目和关键词进行分析，探索当前北京大学地理学学科研究的发展和动向，为进一步开展相关研究提供参考依据。

二、数据与方法

城市与环境学院目前设有5个本科专业，7个硕士研究生专业，6个博士研究生专业。本文采用的论文数据来自“北京大学学位论文数据库”。截至2013年7月20日，获得2008―2013年间的1026篇学位论文（其中551篇学士学位论文，299篇硕士学位论文，176篇博士学位论文）。

本文的研究方法主要采用词频统计法与共词聚类法。词频统计法是利用excel软件，以每篇学位论文为一条记录，以两两关键词出现的频率构造出共词矩阵。（李久平，姚乐野，2012;冯璐，冷伏海，2006;那一沙，袁玫，杜修平，2013）。共词聚类法以词频矩阵为基础，在SPSS软件中进行相关分析，构造出高频关键词的相似矩阵;再将相似矩阵导入SPSS进行层次聚类分析，得到学位论文关键词的树状***（张薇，李巍，2013;罗武建，2012;钟伟金，李佳，杨兴菊，2008）。

三、学位论文研究热点解析

1.高频关键词的标准化与提取。以专业和层次作为划分依据，分别对19个单元学位论文进行关键词统计，共得到学士学位论文关键词1984个，硕士1271个，博士832个。然后去除对反应研究方向没有意义的词，并对表达同一意思的关键词进行标准化处理。尽量选择词频数大于某一数值的关键词作为高频关键词，使得选出的关键词出现的累计频次大于总频次的20%以上。从而确定该层次该专业学位论文的高频关键词。受篇幅所限，数据分析的过程只展示资源环境与城乡规划管理的学士论文，选取频数大于3的关键词作为高频关键词，17个高频关键词累计频次占总频次的21.6%。从高频关键词分布可以看出，重点关注的研究对象集中在“北京”、“空间结构”、“城镇化”、“区位选择”、“时空”等。

2.高频关键词相似矩阵构建。对于高频关键词共现频次的统计，本研究利用SPSS，以每篇学位论文为一条记录，记录的内容为两两高频关键词在学位论文的关键词中同时出现的频次（出现为1，否则为0），构造出共词矩阵。

以共词矩阵为基础，在SPSS中构造出高频关键词的相似矩阵，如表1所示（篇幅所限，只显示部分数据）。相似矩阵中的数字的大小表明了相应两个高频关键词之间的距离远近，数值越小则表明词与词之间的距离越近，相似度越好;另则反之。

3.高频关键词聚类分析与解析。将学位论文高频关键词的相似矩阵导入SPSS进行层次聚类分析，得到学位论文关键词的凝聚状态，如***2所示（由于篇幅限制，只列出了资源环境与城乡规划管理学士学位论文的树状***）。

树状***展示了聚类分析中的每一次类合并的情况，在其靠上的横轴方向给出了各类别之间的相对距离大小，并将凝聚过程近似地表现在***上。可以明显看出资环本科学位论文高频关键词之间的关系，“高速公路”、“可达性”、“产业结构”、“广东”、“发展”、“时空”、“居民”、“区位选择”、“演变”、“义务”、“建设用地”与“京津冀”之间的距离最近，首先可以分别进行类合并;其次是“影响因子”和“制造业”，接下来结合***表将其他关键词归入这些类中，于是得到资环本科学位论文高频关键词的聚类结果。

由以上分析结果可知，北京大学资环本科学位论文研究热点可以概括为以下几类：

（1）以时空视角，研究产业结构和区位、建设用地布局演变、地点可达性、居民出行选择等。（2）北京城镇化进程对城市空间变化的影响。（3）研究实例多在京津冀地区，尤其是北京多次被涉及，其他还包括广东地区。

四、论文研究热点与交叉合作

1.学院各学科本硕博士学位论文研究热点。分别对每个学科运用词频统计法和共词聚类法进行分析，得出各个学科的研究热点（表2）。

2.学科交叉与合作方式。根据提取的高频关键词在不同层次不同学科重复的频率，得出跨学科的研究方向与合作方式：

（1）地理学学科总体交叉与合作。关注点共享：人文地理、城市规划、资源环境和历史地理等偏人文的专业相对关注各社会类空间的分布、格局、组织和生成机制;而自然地理、环境科学、生态等偏自然的专业相对关注各类自然空间的状态、过程和生成机制。在空间的描述和空间数据的采集上，相关专业可以共用一套方法。而在数据的具体处理和表达上，相关专业内部可以有更多的学习和借鉴的空间。并且相关自然专业方向研究内容和成果可以作为相关人文专业研究的补充资料，可以对其研究结果有一定的解释作用。研究地域共享：北京、内蒙古、鄂尔多斯、青藏高原、深圳、一些流域与森林为各人文和自然专业调研取样较为频繁的地区，在今后的调研过程中，可以对相近专业间的团队进行整合，对需要采集的数据信息汇总，多学科之间共享。研究方法共享：土地利用分析、时空分析、演变分析、因子分析、年代分析、景观破碎度分析法等。各类专业可以共享研究的技术方法和软硬件。

（2）人文方向学科交叉合作。偏人文的相关专业的研究多以城镇化为***策和环境背景作为依托，可以就具体的城镇化研究方向继续探讨，共同梳理城镇化过程对于城乡格局、经济产业布局、资源的分配和环境的演变的影响，形成城镇化的全面***景，更好对理解整个城镇化过程。研究成果共享。如历史地理的区域、景观、文化等研究成果可为人文地理、城市规划和资源与环境专业的城市经济、社会、空间发展变化研究提供历史案例和文化溯源。

（3）自然方向学科交叉合作。偏自然的相关专业的研究多以物质在各类空间中的分布格局、特征为研究内容。分布格局和特征的研究需要用到一些相关指标体系和研究方法，这些指标体系和研究方法可以在这类自然相关专业中予以共享。指标共享。如土壤、生物量、植被覆盖、多环芳烃等，相关的专业在指标的选取上和其含量的测算方法上具有一定的重合度，可以进行专业间的相互交流学习和借鉴利用。研究成果共享。如第四纪与地貌专业的研究成果可供地理科学进行共享，环境科学和生态的研究成果可以相互补充和共享。

五、总结与展望

本文以近五年北京大学城市与环境学院本硕博学位论文为基础，运用科学计量的方法，分析了学科研究热点及交叉领域，探讨了学科合作方式。但是，本研究受限于样本数量以及学位授予单位的单一性，下一步可通过积累更加纵深时间尺度的数据，或者站在更横向的角度去比较不同单位学科研究热点的异同，从而探讨中国地理学学科的发展趋势。

参考文献：

[1]Carol F. Dungan，Walter B. Pryzwansky. Consultation research：Trends in doctoral dissertations 1978-1985[J]. Journal of School Psychology，Volume 26，Issue 2，Summer 1988：107-119.

[2]Jeffery S. Drysdale，Charles R. Graham，Kristian J. Spring，Lisa R. Halverson，An analysis of research trends in dissertations and theses studying blended learning[J]. The Internet and Higher Education，Volume 17，April 2013：90-100.

[3]Morgan M. Millar，Interdisciplinary research and the early career：The effect of interdisciplinary dissertation research on career placement and publication productivity of doctoral graduates in the sciences[J].Research Policy，Volume 42，Issue 5，June 2013：1152-1164.

[4]黄思清，肖.我国网球硕士学位论文研究内容分析[J].黑龙江科技信息.2011，（01）：234，167.

[5]范秀辉.关于1999―2008年我国“听障”或“聋”选题的研究状况与分析――基于特殊教育专业硕士、博士学位论文的研究.新课程研究（中旬刊），2011，（02）：118-119，134.

[6]李久平，姚乐野.基于词频分析的2010年国内知识管理领域热点研究[J].情报探索，2012，（07）：10-12.

[7]冯璐，冷伏海.共词分析方法理论进展[J].中国***书馆学报，2006，32（162）：88-92.

[8]那一沙，袁玫，杜修平.基于词频分析和共词聚类的高职教育热点问题的研究[J].中国农机化学报，2013，（03）：251-254，243.

[9]张薇，李巍.共词聚类法分析儿童心律失常的药物***状况[J].实用药物与临床，2013，（06）：507-509.

[10]罗武建.基于共词聚类的国内***书馆读者满意度研究热点透析[J].***书馆工作与研究，2012，（12）：66-69.

转载请注明出处学文网 » 聚类分析论文范文

聚类分析论文范文

聚类分析论文范文第1篇

聚类分析论文范文第2篇

聚类分析论文范文第3篇

聚类分析论文范文第4篇

聚类分析论文范文第5篇

聚类分析论文范文第6篇

聚类分析论文范文第7篇

聚类分析论文范文第8篇

聚类分析论文范文第9篇

聚类分析论文范文第10篇

土地调控背景下的工业用地出让价格

如何加强机电设备管理与维护

美人何处归

冷门热销“老粗布”

网站推广方案书范文精选

美白专家樊文花助你成就百万大店梦想

维维豆奶,多元化之困

职场的五个境界

陶瓷过滤机在生产中异常现象分析及措施

上投摩根王孝德“低头投资”净赚40亿

10kV配电线路跳闸故障原因分析及方法

取消车模能否重塑车展

卢梭与中国近代文学

高校电教管理中存在的问题及策略

糠醛生产中废水、废气的治理分析

发电机碳刷冒火花原因分析与处理

探究阜新市经济发展与经济转型分析

山西省静乐山浪煤矿井田地质分析

轴系安装精度的影响因素分析

33例中成药不良反应报告分析

卫星频道电视剧编排技巧及收视效果分析

初中语文教学体现“语文美”的分析