【摘要】本文以orange机器学习软件为工具,以广西师范学院计算机本科专业学生的基本信息和成绩数据作为处理对象,详细介绍了如何利用orange软件中的决策树算法对计算机专业的本科生的成绩分布进行数据处理及分析的过程。实验结果表明:数据分析得到的结论符合计算机学科特点,能够为学院决策者在专业培养计划的制定中提供科学依据。
【关键词】orange;高校;学生成绩;数据挖掘
1.引言
学生的成绩是衡量高校教学质量的一个重要指标。随着高校学生人数的逐年增加,学生成绩数据也越来越庞大,这些大量的数据中蕴含着许多有意义的信息。数据挖掘(Data mining)是用于从大量的不完全的、模糊的、有噪声的观察数据中,去发现用户感兴趣数据的技术。利用数据挖掘技术发现大量学生成绩数据中的规律和隐含的知识,对于指导高校教学质量和培养计划的制定都具有重要的实际意义。
本文将利用数据挖掘工具软件orange,以广西师范学院计算机专业学生成绩为例,对计算机专业学生的成绩做非监督分类处理分析。
2.orange软件简介
Orange是一个基于组件的数据挖掘和机器学习软件套装,其中封装了决策树、关联规则、统计分析等数十种数据挖掘经典算法。它功能友好,其具有快速而又多功能的可视化编程前端,可以方便浏览数据分析和可视化。Orange软件是绑定了Python以进行脚本开发,能够与c,c++方便的融合。是数据挖掘的有利工具。打开orange软件后可见其界面***:
***1 orange软件的界面***
本文利用orange软件中的ID3决策树算法对广西师范学院计算机专业的学生成绩做分类分析。决策树是一种利用信息论原理对样本的属性进行归纳分类产生的树形结构。
构建决策树的基本步骤为:
(1)连续属性离散化
(2)选择测试属性构造决策树
(3)决策树剪枝
3.利用orange的id3算法分析高校学生成绩
在利用orange中的决策树算法对高校学生成绩进行分析之前,进行数据采集,并将数据处理成算法所需的数据格式等步骤。下面详细介绍分析过程:
3.1 数据采集
本文以广西师范学院计算机与信息工程学院的3届学生成绩为例,对其进行处理分析。所采到的原始数据信息表包括:学生的基本信息表、学生学科成绩表,其中学生学科成绩表包含了学生大学四年所修的所有学科的成绩数据。
原始学生成绩表如表1所示:
表1 学生成绩信息
原始学生基本信息表如表2所示(基于保密原则,给出格式,学生具体信息不便透露):
表2 学生基本信息
表3 学生成绩分布处理字段说明
Codedesign:程序设计成绩; math:数学成绩; P.E.:体育成绩;
Introduceofcomputer:计算机导论成绩; English:英语成绩; Total:总成绩;
area:籍贯; sex:性别; result:等级评定;
表4 整理后的部分学生成绩表
codedesign math P.E. English introduceofcomputer area sex result
1.3 1.3 1.8 1.7 0.7 M 1 C
1.5 1.2 1.8 1.5 0.7 E 1 D
1.4 1.4 1.8 1.5 0.7 W 1 C
1.5 1.4 1.9 1.3 0.6 E 1 D
3.2 数据预处理
(1)数据清洗
在收集到的数据中,往往包含着许多与挖掘任务无相关、冗余的属性。为提高决策树算法的效率,需要对原始数据进行清洗。
学生基本信息表的清洗:只保留性别、籍贯两个属性。
学生成绩信息表数据量大,科目繁多。为能够在成绩分类挖掘中进行统一比较,本文只选取了部分科目成绩进行整理比较。这些科目成绩分别是:程序设计成绩、数学成绩、体育成绩、英语成绩和计算机导论成绩数据。
(2)数据规范化
学校的学生成绩信息是用百分制记录,不符合ID3算法数据需离散型的要求,故应ID3算法的要求,数据源整理为离散型变量。
性别数据处理:男为1,女为2;
籍贯数据处理:本次收集到的学生数据以广西学生为多,桂南为S,桂北为N,桂东为E,桂西为W,桂中为M。广西以外地区以another表示。
成绩数据离散化处理:由于原始成绩都为百分制,使得数据过于连续,难以进行区分。处理方法为:将总成绩除以一百,再进行四舍五入。例:在其中一组数据49份P.E.成绩中,学生的分数从158分至192分不等,出现三十余组数据。将其成绩除以100再四舍五入,如158分的成绩将化为1.6,192分的成绩则化为1.9。整组P.E.成绩便被划分为了:1.6、1.7、1.8、1.9四个组别。
经过预处理后,得到的学生信息表内容如表3所示,部分数据整理示例如表4所示.
3.3 实验步骤
(1)打开orange软件。
(2)使用File部件负责所需分析数据的导入,Classification部件负责分类算法的选择,Classification Tree Viewer 与 Classification Tree Graph部件分别代表决策树的两种不同表达形式。前者是以树状目录表的形式表示ID3的分类结果,可以观察到分类的数据细节,包括类别、阈值等。后者以***形的方式表示ID3的分类结果,非常直观。
将部件以单线相连,便可以实现由File所导入数据的决策树输出。
***2 Orange Canvas部件连接***
(3)双击File部件将出现数据导入界面,按提示操作即可完成实验数据导入。
(4)导入数据后,回到Orange Canvas部件连接***,此时数据已经通过Examples连接线段导入Classifiction Tree部件选择了算法。Classifiction Tree的连接线段将其导入Classification Tree Viewer 部件和Classification Tree Graph部件。我们通过双击Classification Tree Viewer 与 Classification Tree Graph部件便可以得到决策树的两种表现形式。
Classification Tree Graph示例如***3所示:
***3 实验结果Classification Tree Graph表示
3.4 实验结果分析
从决策树的分类结果我们可以看出:信息熵下降程度最大的分类属性为math;其次为专业课成绩introduceofcomputer。数据分布表现为:学生成绩首先以math成绩进行分类,math成绩<1.250的学生成绩评定都为D,math成绩>1.250的学生成绩评定以C为多,占有73.7%;其次在math成绩>1.250的学生里以introduceofcomputer成绩进行分类,introduceofcomputer成绩<0.650的学生成绩评定为为D,introduceofcomputer成绩>0.650的学生成绩评定为C,等等。
从以上成绩的分布来看,影响计算机专业学生的专业成绩的主要因素有两个,一个是数学成绩,一个是计算机导论成绩。这说明了计算机专业本身是一个逻辑性很强的专业,数学能力较强的学生比较容易适应这个专业的学习。另一方面,计算机专业也是一个应用型的专业,要求学生有较强的动手能力,反映到成绩上,表现为一年级的学生如果在计算机导论的成绩较好,说明这些学生对计算机的操作熟练,对这个专业有直观具体的认识,因而在后面的专业学习中成绩也较好。
4.结论
本文以orange机器学习软件为工具,以广西师范学院计算机本科专业学生的基本信息和成绩数据作为处理对象,对如何利用orange软件中的决策树算法对计算机专业的本科生的成绩分布进行了数据处理及分析,提供了详细的实验步骤和方案。数据分析得到的结论符合计算机学科特点,能够为学院领导在专业培养计划的制定中提供科学的依据。
参考文献
[1]刘晓芬.决策树分类算法及其在高校学生就业中的应用研究[D].湖北大学硕士学位论文.2012:26-32.
[2]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].国防工业出版社,2010:153-154.
[3]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J]. 计算机研究与发展,2011,48(1).45-54.
[4] 范明,孟小峰译.数据挖掘概念与技术[M].机械工业出版社,2012.
[5]刘春阳.数据挖掘技术在高校成绩管理中的应用研究[D].大连交通大学工程硕士学位论文.2009:29-4.
作者简介:
王宇红(1991―),女,广西桂林人,现就读于广西师范学院计算机与信息工程学院。
马健(1993―),男,山东龙口人,现就读于广西师范学院计算机与信息工程学院。
通讯作者:覃晓(1973―),女,广西环江人,硕士,广西师范学院副教授,研究方向:数据挖掘。
转载请注明出处学文网 » orange软件在高校学生成绩分析中的应用