orange软件在高校学生成绩分析中的应用

【摘要】本文以orange机器学习软件为工具,以广西师范学院计算机本科专业学生的基本信息和成绩数据作为处理对象,详细介绍了如何利用orange软件中的决策树算法对计算机专业的本科生的成绩分布进行数据处理及分析的过程。实验结果表明:数据分析得到的结论符合计算机学科特点,能够为学院决策者在专业培养计划的制定中提供科学依据。

【关键词】orange;高校;学生成绩;数据挖掘

1.引言

学生的成绩是衡量高校教学质量的一个重要指标。随着高校学生人数的逐年增加,学生成绩数据也越来越庞大,这些大量的数据中蕴含着许多有意义的信息。数据挖掘(Data mining)是用于从大量的不完全的、模糊的、有噪声的观察数据中,去发现用户感兴趣数据的技术。利用数据挖掘技术发现大量学生成绩数据中的规律和隐含的知识,对于指导高校教学质量和培养计划的制定都具有重要的实际意义。

本文将利用数据挖掘工具软件orange,以广西师范学院计算机专业学生成绩为例,对计算机专业学生的成绩做非监督分类处理分析。

2.orange软件简介

Orange是一个基于组件的数据挖掘和机器学习软件套装,其中封装了决策树、关联规则、统计分析等数十种数据挖掘经典算法。它功能友好,其具有快速而又多功能的可视化编程前端,可以方便浏览数据分析和可视化。Orange软件是绑定了Python以进行脚本开发,能够与c,c++方便的融合。是数据挖掘的有利工具。打开orange软件后可见其界面***:

***1 orange软件的界面***

本文利用orange软件中的ID3决策树算法对广西师范学院计算机专业的学生成绩做分类分析。决策树是一种利用信息论原理对样本的属性进行归纳分类产生的树形结构。

构建决策树的基本步骤为:

(1)连续属性离散化

(2)选择测试属性构造决策树

(3)决策树剪枝

3.利用orange的id3算法分析高校学生成绩

在利用orange中的决策树算法对高校学生成绩进行分析之前,进行数据采集,并将数据处理成算法所需的数据格式等步骤。下面详细介绍分析过程:

3.1 数据采集

本文以广西师范学院计算机与信息工程学院的3届学生成绩为例,对其进行处理分析。所采到的原始数据信息表包括:学生的基本信息表、学生学科成绩表,其中学生学科成绩表包含了学生大学四年所修的所有学科的成绩数据。

原始学生成绩表如表1所示:

表1 学生成绩信息

原始学生基本信息表如表2所示(基于保密原则,给出格式,学生具体信息不便透露):

表2 学生基本信息

表3 学生成绩分布处理字段说明

Codedesign:程序设计成绩; math:数学成绩; P.E.:体育成绩;

Introduceofcomputer:计算机导论成绩; English:英语成绩; Total:总成绩;

area:籍贯; sex:性别; result:等级评定;

表4 整理后的部分学生成绩表

codedesign math P.E. English introduceofcomputer area sex result

1.3 1.3 1.8 1.7 0.7 M 1 C

1.5 1.2 1.8 1.5 0.7 E 1 D

1.4 1.4 1.8 1.5 0.7 W 1 C

1.5 1.4 1.9 1.3 0.6 E 1 D

3.2 数据预处理

(1)数据清洗

在收集到的数据中,往往包含着许多与挖掘任务无相关、冗余的属性。为提高决策树算法的效率,需要对原始数据进行清洗。

学生基本信息表的清洗:只保留性别、籍贯两个属性。

学生成绩信息表数据量大,科目繁多。为能够在成绩分类挖掘中进行统一比较,本文只选取了部分科目成绩进行整理比较。这些科目成绩分别是:程序设计成绩、数学成绩、体育成绩、英语成绩和计算机导论成绩数据。

(2)数据规范化

学校的学生成绩信息是用百分制记录,不符合ID3算法数据需离散型的要求,故应ID3算法的要求,数据源整理为离散型变量。

性别数据处理:男为1,女为2;

籍贯数据处理:本次收集到的学生数据以广西学生为多,桂南为S,桂北为N,桂东为E,桂西为W,桂中为M。广西以外地区以another表示。

成绩数据离散化处理:由于原始成绩都为百分制,使得数据过于连续,难以进行区分。处理方法为:将总成绩除以一百,再进行四舍五入。例:在其中一组数据49份P.E.成绩中,学生的分数从158分至192分不等,出现三十余组数据。将其成绩除以100再四舍五入,如158分的成绩将化为1.6,192分的成绩则化为1.9。整组P.E.成绩便被划分为了:1.6、1.7、1.8、1.9四个组别。

经过预处理后,得到的学生信息表内容如表3所示,部分数据整理示例如表4所示.

3.3 实验步骤

(1)打开orange软件。

(2)使用File部件负责所需分析数据的导入,Classification部件负责分类算法的选择,Classification Tree Viewer 与 Classification Tree Graph部件分别代表决策树的两种不同表达形式。前者是以树状目录表的形式表示ID3的分类结果,可以观察到分类的数据细节,包括类别、阈值等。后者以***形的方式表示ID3的分类结果,非常直观。

将部件以单线相连,便可以实现由File所导入数据的决策树输出。

***2 Orange Canvas部件连接***

(3)双击File部件将出现数据导入界面,按提示操作即可完成实验数据导入。

(4)导入数据后,回到Orange Canvas部件连接***,此时数据已经通过Examples连接线段导入Classifiction Tree部件选择了算法。Classifiction Tree的连接线段将其导入Classification Tree Viewer 部件和Classification Tree Graph部件。我们通过双击Classification Tree Viewer 与 Classification Tree Graph部件便可以得到决策树的两种表现形式。

Classification Tree Graph示例如***3所示:

***3 实验结果Classification Tree Graph表示

3.4 实验结果分析

从决策树的分类结果我们可以看出:信息熵下降程度最大的分类属性为math;其次为专业课成绩introduceofcomputer。数据分布表现为:学生成绩首先以math成绩进行分类,math成绩<1.250的学生成绩评定都为D,math成绩>1.250的学生成绩评定以C为多,占有73.7%;其次在math成绩>1.250的学生里以introduceofcomputer成绩进行分类,introduceofcomputer成绩<0.650的学生成绩评定为为D,introduceofcomputer成绩>0.650的学生成绩评定为C,等等。

从以上成绩的分布来看,影响计算机专业学生的专业成绩的主要因素有两个,一个是数学成绩,一个是计算机导论成绩。这说明了计算机专业本身是一个逻辑性很强的专业,数学能力较强的学生比较容易适应这个专业的学习。另一方面,计算机专业也是一个应用型的专业,要求学生有较强的动手能力,反映到成绩上,表现为一年级的学生如果在计算机导论的成绩较好,说明这些学生对计算机的操作熟练,对这个专业有直观具体的认识,因而在后面的专业学习中成绩也较好。

4.结论

本文以orange机器学习软件为工具,以广西师范学院计算机本科专业学生的基本信息和成绩数据作为处理对象,对如何利用orange软件中的决策树算法对计算机专业的本科生的成绩分布进行了数据处理及分析,提供了详细的实验步骤和方案。数据分析得到的结论符合计算机学科特点,能够为学院领导在专业培养计划的制定中提供科学的依据。

参考文献

[1]刘晓芬.决策树分类算法及其在高校学生就业中的应用研究[D].湖北大学硕士学位论文.2012:26-32.

[2]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].国防工业出版社,2010:153-154.

[3]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J]. 计算机研究与发展,2011,48(1).45-54.

[4] 范明,孟小峰译.数据挖掘概念与技术[M].机械工业出版社,2012.

[5]刘春阳.数据挖掘技术在高校成绩管理中的应用研究[D].大连交通大学工程硕士学位论文.2009:29-4.

作者简介:

王宇红(1991―),女,广西桂林人,现就读于广西师范学院计算机与信息工程学院。

马健(1993―),男,山东龙口人,现就读于广西师范学院计算机与信息工程学院。

通讯作者:覃晓(1973―),女,广西环江人,硕士,广西师范学院副教授,研究方向:数据挖掘。

转载请注明出处学文网 » orange软件在高校学生成绩分析中的应用

学习

我国民间非营利组织存在的问题及相关对策分析

阅读(32)

本文为您介绍我国民间非营利组织存在的问题及相关对策分析,内容包括民间非营利组织的特征是什么,民间非营利组织如何可持续发展。一、非营利组织定义国际学术界对于非营利组织概念的确定一直都未达成统一,不同的国家有不同的称谓,如“第三

学习

幻想作文1000字

阅读(35)

本文为您介绍幻想作文1000字,内容包括大学幻想作文1000字,未来的学习生活幻想作文。就刚才我在想说以后自己和那个新的对象是怎样的幸福,然后偶遇和前任,然后自己可以用行动让他感受到自己最近是有多么的幸福,这其实挺优质的,有汗香吧,就其实

学习

轻金属

阅读(22)

本文为您介绍轻金属,内容包括轻金属投稿,轻金属的描述。2010年国内电解铝市场展望冯炜(3)轻金属原料矿山甘冲石灰石矿资源优化开采方案王作强袁梅(5)氧化铝氟化盐高硫高有机物型黑灰铝土矿溶出特性研究李桂兰林齐方建川(9)粗、降温过滤

学习

传统媒体数字化转型

阅读(26)

本文为您介绍传统媒体数字化转型,内容包括传统媒体的数字化转型什么意思,媒体数字化转型攻略。内容领域的数字化是大势所趋。在数字化浪潮冲击下,传统媒体与网络合作的案例已不胜枚举。今年4月10日,浙江日报报业传媒集团公布了收购盛大集

学习

观花灯     张艺昕作文500字

阅读(30)

本文为您介绍观花灯     张艺昕作文500字,内容包括观花灯作文500字以上,观南池公园花灯作文500字。正月十五是元宵节,我和父母一起去观花灯。刚进广场,一片灯的海洋,光的世界便映入眼帘。我已经迫不及待想去看看了。看见的第一个花灯

学习

隆泰上市?

阅读(62)

本文为您介绍隆泰上市?,内容包括隆泰原始股什么时候能上市,隆泰上市时间表。2011年直销企业上市潮的余波未消,就传来吉林隆泰制药集团公司“今年6月将在香港上市”的消息。与大多直销企业低调筹备上市不同,隆泰曾在多个场合高调地透露了具

学习

柔性直流输电技术及其发展分析

阅读(17)

本文为您介绍柔性直流输电技术及其发展分析,内容包括柔性直流输电技术的特点有哪些,柔性直流输电simulink仿真。【摘要】本文简要介绍了柔性直流输电原理,总结了柔性直流输电技术的特点、应用范围、现在的发展状况以及其未来的发展前景。

学习

土壤农杆菌在植物基因工程中的应用

阅读(18)

本文为您介绍土壤农杆菌在植物基因工程中的应用,内容包括农杆菌介导转基因方法的优缺点,基因工程中的农杆菌转化方法。摘要土壤农杆菌介导的基因转移是目前最常用的获得转基因植物的方法,农杆菌的Ti质粒包括了复制原点、vir基因、冠瘿碱

学习

黄博士信箱

阅读(59)

问:王小姐来电咨询,其虽已加入澳大利亚籍,但其中国护照还在有效期,是否可以继续使用?答:根据《中华人民共和国国籍法》第三条“中华人民共和国不承认中国公民具有双重国籍”和第九条“定居在外国的中国公民,自愿加入或取得外国国籍的,即自动丧

学习

中韩贸易的发展分析

阅读(22)

本文为您介绍中韩贸易的发展分析,内容包括中韩贸易结构分析报告,中韩贸易发展史。近几年,我国一直保持着韩国第一大贸易伙伴、第一大出口市场的地位,2007年还跃升为韩国第一大进口国,因此,中韩贸易在中国对外贸易中占据着重要的地位。本文简

学习

影响美国的一百位人物

阅读(24)

本文为您介绍影响美国的一百位人物,内容包括影响美国的100位人物书籍,影响美国的100位人物前十。2006年底,美国的权威期刊《大西洋月刊》编辑部邀请10位著名历史学家,其中有4位是普利策奖获得者,投票选举100位美国历史上最具影响力的人物。

学习

雨水调蓄池与雨水泵站在工程中的联合设计及应用

阅读(26)

本文为您介绍雨水调蓄池与雨水泵站在工程中的联合设计及应用,内容包括雨水泵站和调蓄池除臭设备厂家,雨水泵站雨水收集系统设计。随着对城市水环境的重视,初期雨水对下游河道的污染,越来越受到社会的关注,在建设雨水泵房的同时设置雨水调蓄

学习

插花地征收拆迁实施原则

阅读(18)

本文为您介绍插花地征收拆迁实施原则,内容包括花地拆迁补偿标准,插花地带拆迁补偿。王达广州大学公法研究中心北京朗仕律师事务所征收拆迁难成为共识,而插花地的征收拆迁使人们感觉难上加难。插花地是指一个规划建设区域征收拆迁中,既有国

学习

论妨害公务罪的认定

阅读(26)

本文为您介绍论妨害公务罪的认定,内容包括妨害公务罪最低处理标准,妨害公务罪刑法最新规定。2007年10月9日,白家峁村原村委主任成运强和几个司机到附近的虎山煤矿拉煤,却因卷入一起大股东和小股东的冲突而遭到殴打,成运强的弟弟成维秀被杀

学习

我国民间非营利组织存在的问题及相关对策分析

阅读(32)

本文为您介绍我国民间非营利组织存在的问题及相关对策分析,内容包括民间非营利组织的特征是什么,民间非营利组织如何可持续发展。一、非营利组织定义国际学术界对于非营利组织概念的确定一直都未达成统一,不同的国家有不同的称谓,如“第三

学习

柔性直流输电技术及其发展分析

阅读(17)

本文为您介绍柔性直流输电技术及其发展分析,内容包括柔性直流输电技术的特点有哪些,柔性直流输电simulink仿真。【摘要】本文简要介绍了柔性直流输电原理,总结了柔性直流输电技术的特点、应用范围、现在的发展状况以及其未来的发展前景。

学习

高层建筑剪力墙结构设计实例分析

阅读(25)

本文为您介绍高层建筑剪力墙结构设计实例分析,内容包括分析高层建筑剪力墙结构合理性,框架剪力墙结构基础设计。近年来,随着高层建筑高速发展,为了满足建筑功能的要求,结构必须设置转换层进行结构转换柱下部大空间框支剪力墙结构可以在建筑

学习

巢式PCR检测梅毒螺旋体的应用分析

阅读(21)

本文为您介绍巢式PCR检测梅毒螺旋体的应用分析,内容包括pcr检测梅毒螺旋体推荐标本,梅毒螺旋体pcr检测操作规程。目的:探讨巢式PCR在梅毒螺旋体(Treponemapallidum,TP)检测中的应用价值。方法:本文采用巢式PCR检测梅毒螺旋体,并与常规PCR检测

学习

钢结构非线性分析

阅读(35)

本文为您介绍钢结构非线性分析,内容包括钢框架结构非线性分析,钢结构分析与计算软件。[摘要]钢结构的线性结构和非线性结构是当前钢材应用的两个主要方面。笔者结合当前施工现状,通过对实际案例进行剖析,具体论证和分析了钢材结构的非线性

学习

分析信托业风险

阅读(33)

本文为您介绍分析信托业风险,内容包括信托业爆发风险原因,信托行业风险及措施。摘要:我国信托业的发展,尽管已经有30多年的历史,但其在金融业中的风险问题一直未能得到很好的解决。解决信托业引发的金融风险,有助于引导民间资金在良好的

学习

分析辛伐他丁的药理作用及临床应用

阅读(16)

本文为您介绍分析辛伐他丁的药理作用及临床应用,内容包括辛伐他汀的药理功效是,辛伐他汀的临床研究。【摘要】目的分析探讨辛伐他丁的药理作用与临床应用。方法查阅辛伐他丁的相关文献、收集研究实验,总结辛伐他丁的药理作用与临床应用实

学习

文化旅游产品的RMP分析

阅读(109)

本文为您介绍文化旅游产品的RMP分析,内容包括浦东新区旅游产品的rmp分析,文化旅游产业的swot分析。【摘要】本文通过对延安市文化旅游产品的RMP分析,提出未来文化旅游具体发展思路。一要提升现有文化旅游产品开发层次,深入挖掘旅游产品的