数学考试分析总结例1
[中***分类号] G64 [文献标识码] A [文章编号] 2095-3437(2017)05-0033-03
为加快湖南偏远地方高校的建设,提升办学综合水平,湖南省教育厅于2010年12月正式成文明确了相关对口支援单位,其中湖南农业大学对口支援怀化学院。跨校的高等教育理念可促进教育从封闭、集权化走向开放与合作。在这种背景下,湖南农业大学信息科学技术学院成为怀化学院计算机科学与工程学院的对口支援单位,协助提升鸦学院计算机科学与工程学院的各项建设。
因此,针对跨校课程联考的试卷质量及考试情况分析,以及为检验对比近年来在对口支援建设中的受援单位课程建设的成效,将采用一种改进的跨校域联考难度、区分度与可信度分析的方法,分析由湖南农业大学信息科学技术学院(以下简称“农大”)、吉首大学信息科学与工程学院(以下简称“吉大”,主动加入课程联考)和怀化学院计算机科学与工程学院(以下简称“怀院”)共同构建的联考(以下简称“三校联考”)机制下的课程联考成效,检查对口支援课程建设的成果。
一、课程联考情况
本文将三所高校2013级、2014级学生高级语言程序设计课程联考的试卷与考试情况做一个综合分析,以此来衡量对口支援课程建设的成效。
考前,根据高级语言程序设计三校课程联考实施方案的具体步骤,事先规范考试大纲和知识点,确定考试范围。为能体现动手编程实践能力,三校一致认同考试试卷由理论试卷与实践试卷两种类型组合构成,采用轮换交替机制进行出题,实施教考分离。对于理论测试与实践测试,三校均采用无纸化考试平台同时进行。考后,高级语言程序设计“三校联考”两部分考试基本数据情况如表1、表2、表3所示:
二、跨校域联考课程分析方法
(一)试卷难度分析
为能体现跨校域联考课程试卷难度系数,不能仅凭某一所学校的考试结果单独确定难度系数,应综合权衡三校难度作为整体试卷难度系数,同时,还需综合权衡理论考试与实践考试的难度系数。因此,在已知三校各自的理论与实践考试平均成绩与参考人数的情况下,“三校联考”的试卷总难度P可按公式(1)计算得出:
其中 N、 J和 H分别表示农大、吉大和怀院的理论考试平均成绩, N、 J和 H分别表示农大、吉大和怀院实践考试平均成绩,SN、SJ和SH分别表示农大、吉大和怀院参考学生数,W表示试卷满分值。P值越大表示试卷整体难度越小,根据教育测量学,要求试卷难度P值一般在0.4-0.7之间为宜,过高或过低表示试卷难度偏小或偏大,不利于体现考试的可信度。
(二)试卷区分度分析
区分度可以用来作为检测每道试题设置是否合理有效的评价指标,或用来作为评价试题质量高低的依据。根据伊贝尔测量学的经验表明,区分度在0.4以上表示此题区分度很好,小于0.19表示不好,应放弃该题。在此,结合“三校联考”的特点,特从各校的理论与实践试题按题序、分年级和跨校域综合考虑试卷的区分度,用以分析联考试卷的质量。区分度采用改进的鉴别指数法进行,使用公式(4)计算出整套试题的综合区分度D?缀(0,1):
N为理论与实践试卷总试题数,DNi、DJi、DHi分别表示农大、吉大和怀院的第i题区分度,该区分度由公式(5)计算得出:
其中 PHi表示高分组(最高的27%)的得分率, PLi表示低分组(最低的27%)的得分率。
(三)考试信度分析
为检测“三校联考”试卷的考试结果对于三所学校的可信度,采用克伦巴赫(L.J.Cronbach)系数估计方法先对三所学校的联考试卷做各自的系数计算,然后按公式(6)计算出平均值作为“三校联考”试卷的α?缀(0,1)系数:
α 值越大,表明试卷测试结果越可信,其中αN 、αJ 和αH分别表示农大、吉大和怀院的试卷α系数,可根据克伦巴赫α系数估计方法计算得到:
N为理论与实践试卷题目总数,DM(X)为M校的所有考题总得分的方差,DM(Xi)为M校第i题得分的方差。
三、联考结果分析
(一)联考结果
采用上述方法,分析了从无纸化考试平台导出的各年级考试结果数据,经过统计计算,将结果使用直方***、折线***加以可视化处理,得到两次联考试卷难度系数(P),如***1所示:
从***中可以看出,两次“三校联考”的各校难度系数及总体难度系数均在合理区间,且2014级的试卷难度较2013级要低些。得到两次“三校联考”试卷总的区分度(D),如***2所示:
从***2可以看出,两次“三校联考”试卷总体区分度均在理想值范围,具有较好的区分能力,使用联考试卷进行考试能将不同水平的学生区分开来。
2013级理论试卷41题,实践试卷8题,共49题,2014级理论试卷39题,实践试卷8题,共47题,经运行算法程序,得出如***3所示的两次“三校联考”各校与总体测试信度的系数。
从***3可以看出,各校及综合的α系数值均大于0.7,表明考试可信度高。
***4为受援单位怀化学院计算机科学与工程学院两次联考的平均分与及格率的对比***:
从***4可以看出,在对口支援课程联考机制下,怀化学院计算机科学与工程学院的高级语言程序设计课程建设成效显著得到提升,特别是在理论教学上提升的效果较为明显。
(二)综合评价分析
联考试卷质量的好与差,不能单一的看综合难度或综合区分度,应该由难度与区分度两个指标共同确定。根据文献中的经验表明,当P>0.5且D>0.15时为好试卷,当P0.15时为适用卷,当P>0.5且D≤0.15时为一般卷,当P
四、结语
“三校联考”是对口支援课程建设的重要手段之一,为分析联考试卷的质量、可信度以及检验对口支援下课程建设成效,设计了一套用于跨校域的试卷分析方法,成功地实现了分析联考课程试卷的难度、区分度等质量指标系数,以及考试结果可信度系数。分析结果表明,基于改进的跨校域分析方法能正确得到相应的分析结果,可作为一种衡量协同共建课程成效的方法。
[ 参 考 文 献 ]
[1] Dunn P. SPSS survival manual: a step by step guide to da?鄄ta analysis using IBM SPSS[J]. Australian & New Zealand Jour?鄄nal of Public Health,2013(6):597-598.
[2] 孙居锋, 王春华, 侯桂革. 药物合成反应考试试卷分析[J].大学教育,2015(8):150-151.
[3] 张春辉,席卫文,陈戈煜,等.卓越医学本科教育的课程考核方式改革研究[J].中国高等医学教育,2011(1):22-24.
数学考试分析总结例2
《医学微生物学》是临床学专业的重要专业基础课之一,对考试试卷和考试成绩进行全面的分析,能较好地反映学生的真实水平以及对知识掌握的情况,可以帮助教师发现教学中存在的具体问题,改革教学方法,提高教学质量及教学效果。因此,对包头医学2011 级200名临床学生的医学微生物学试卷进行比较分析。
1对象与方法
1.1研究对象
资料来源包头医学院五年制本科2011级临床医学专业549名学生及随机抽取的 200 名学生(占总人数36.42%)的医学微生物学期末考试的试卷及成绩进行了综合分析。本次考试在教务处统一组织、安排下进行,教研室主任或由教研室主任指派具有丰富教学经验的高年资、高职称教师于考前三天到教务处抽题、审题(考教分离)。试卷的评判是根据提前制定的评卷标准和答案,按照《包头医学院考试阅卷及成绩传输管理办法》流水方式进行阅卷及成绩输入,主观题由高年资、高职称教师评阅,减小阅卷个体差异。
1.2研究方法
本次医学微生物学试卷总题目为 63 道,其中客观题单项选择题、多项选择题、填空题主观题(名词解释、简单题),满分100 分。试卷各题型数量及所占比例见表1。本文将200 名学生的每道试题的得分情况输入计算机,建立数据库,使用Excel2003以及SPSS13.0 软件分析数据。主要以学生总成绩的分布状况、试题的难度、标准差、区分度等作为试卷分析的评价指标,研究学生的学习情况及教学效果。
2结果
2.1 试卷成绩分析
本次试卷满分100分,200 名学生的平均成绩为78.9分,标准差为12.46,最高分为100分,最低分为 39 分。学生成绩的各分数段频数分布见表2,峰值在70~90 分之间,该试卷总体上成绩分布呈正态。各题型得分率情况见表3,得分率有高到低依次为单选题、名词解释、问答题、填空题、多选题。
2.2 试卷质量分析:
(1)难度:试题的难度是指学生对某一试题作出正确回答的百分率,是反映试题难易程度的指标,取值范围在0~ 1之间。难度指数公式:P=X/W(X 为平均分,W 为满分),难度值越大, 说明试题难度越低,一般以0.6-0.8为宜[2]。本次医学微生物学试卷总难度系数及每道题的难易程度见表4,试卷总难度系数为 0.79,总体试题难度适中。各个题型难度:单选题(P=0.89)、名词解释(P=0.88)难度较容易;填空题(P=0.71)问答题(P=0.75)难度适宜;多项选择题(P=0.57)难度偏难。
(2)区分度:指试题对被试者情况的分辨能力的大小,是判断试题质量的另一个重要指标。根据计算公示D区分度= 2 ( 高分组总―低分组总分) / 两组考生总人数×试题满分值,算出每小题区分度及试卷总区分度[3]。表4显示医学微生物试卷整体区分度为0.3,属于良好试题,能较好的把低、中、高水平的学生成绩区分开(一般认为区分度值0.3 ~0.4属于良好[3])。单选题区分度为0.18属于较差区分题;名词解释、填空题区分度分别为0.26、0.23属低等区分题;多项选择题区分度0.33属于良好区分题;问答题区分度0.49属于高度区分题。
(3) 信度:反映考试稳定性和可靠性的指标,信度高的试题很少受偶然因素的影响,对任何学生的多次测定,都会产生比较稳定的、前后一致的结果。表4显示医学微生物试卷的总信度为 0.77,一般试卷信度要求在 0.5 以上[4],故认为本次医学微生物学试卷结果可靠。
3讨论
学生的考试成绩是评定教学质量的重要指标,通过对试卷质量分析,可以不断完善命题工作,对今后的命题工作提供宝贵的经验;试卷质量分析的结果还可以第一时间反映出学生对教学内容的掌握程度,就能使考试在教学过程中发挥积极的作用。
3.1 本套试卷质量分析情况
本次医学微生物试题符合教学大纲精神,整体设计合理、知识点覆盖率较高。综合试卷质量分析的各项评价指标试卷平均难度系数为0.79,试题难度适中,属于优良试卷,试卷总体上成绩分布呈正态;学生成绩80~90分段人数居多占28.5%,可以看出学生学习的积极性和主动性较好,成绩总体令人满意,学生能熟练运用基本理论、基础知识和基本技能,达到大纲要求。本次考试平均区分度为0.3,说明试题区分良好,能较好的把低、中、高水平的学生成绩区分开。试卷信度为0.77,表明可信度较好。但仍有7.5% 学生不及格,提醒授课教师认真对待教学过程中的每一个环节,坚持从严治学的同时,提高课堂渲染力,激发学生的求知欲,在提高教学效果和教学质量上狠下功夫,使学生的学习真正做到扎扎实实,以便为从事临床工作奠定必要的基础。
3.2 本套试卷存在问题
同时,本试卷质量分析结果暴露一些问题,值得我们注意和思考。1. 客观题主要考核学生对基本理论及基本知识的掌握与理解的程度,而主观题则是考核学生归纳总结、分析、理解和应用医学微生物学知识的能力。本套试卷客观题与主观题比例为4.6∶ 5.4,应该适当增加主观题比例,减少部分客观题,才能更好利于临床学生对医学微生物学知识的理解以及分析解决问题的能力。2. 本套试卷出现了满分即100分的学生,说明本套试卷缺少综合性有深度的难题,在保证基础知识点不遗漏的前提下,应该适当出现1-2道综合性难题,例如医学微生物学有关的病例分析,目的是培养学生的综合思维能力及综合素质的提高。3. 单选题总分30分,平均分高达26.79分,难度系数为0.89,区分度较差仅为0.18,今后我们要适当增加单选题的难度,对单选题的区分度还需要进一步整改。
3.3 对今后命题工作指导与教学改革的思考
通过试卷分析, 我们获得了准确、客观的反馈信息。今后的命题工作中, 命题者在把握好试题的难度的前提下,可以适当增加创新性、有深度的综合性试题,注意主观题与客观题的比例,各种题型的难度及区分度要合理,不断提高试题编制能力,使试题更加科学、合理、客观。在今后的教学实践和教学改革过程中, 应重点解决如何激发学生学习兴趣、如何使学生真正理解和掌握医学微生物学理论。 教师授课时,应该充分调动学生积极性,培养学生真正热爱课堂,喜欢听课,而不是被动上课,真正提高学生学习兴趣,同时还应着重提高学生分析解决实际问题的能力;教师应该严格要求自己,改革现有的教学方法,要不断提高授课技巧,增加课堂渲染力,提高自身业务素质,这样不仅能提高教学质量和教学效果,也有助于教师科研水平的提高。
【参考文献】
[1]张淑杰,熊亚南,王梅梅. 《医学微生物学》期末考试试卷成绩分析与评价[J]. 华北煤炭医学院学报,2008,10(6):883-884.
数学考试分析总结例3
主要包括:
1.内容结构分析:基本概念和化学原理、元素化合物知识、有机化学知识、化学计算、化学实验等方面的内容比例乃至每一方面的二级结构分析。
2.目标水平结构分析:按照考试大纲所列水平(通常分为知道、理解、应用、综合运用等)种类,分析它们的组成比例并且作内容—水平双向交*分析。
3.题型结构分析:各类题型的比例分析。
4.分数结构分析:内容—分数和水平—分数的双向交*分析。
5.难度和时限结构分析:对难度测验作难度分布描述,对速度测验作时限分布描述。
6.试卷特点及横向、纵向比较:就试卷是否符合考试(教学)大纲规定、是否反映化学学科特点和内在联系、符合学生实际水平、合理性、适宜性以及其他特点作出描述和判断。横向比较可以在学校—学校或地区—地区间进行,纵向比较可以在不同学年间进行。
进行结构分析时,分析者要对测验各项目逐一分析和作出判断,因而结构分析带有较强的主观色彩。分析者对项目的判断跟编制、设计者不一致的情况经常会发生,对于比较复杂的综合题尤其是这样。为此可以把试卷结构分析结果跟编制试卷的结构设计进行比较。
除了难度结构分析跟答卷情况有关,只有在考试实施之后才能进行外,其他各项分析跟答卷情况无关,在考试实施之前就可以进行,属于试卷的“静态”分析。
二、答卷情况描述
主要包括:
1.成绩分布情况描述:列出频数分布表或频数分布***。
2.统计量描述:列出平均分、标准差、优分率和低分率以及某些因素间的相关系数等数据,还可以进一步作各内容跟其平均得分率、标准差、优分率和低分率的双向交*分析,各水平层次跟其平均得分率、标准差、优分率和低分率的双向交*分析,以便从中发现问题。
3.分布形态判断:判断总体分布是正态还是偏态或其它形态。
4.由样本统计量推测总体参数(总体平均成绩、总体标准差等)。
三、试题及解答情况分析
1.题目的内容、水平分析:逐一分析各题的内容、水平和考核意***。
2.题目的难度、区分度、灵敏度、识别度和题目反应分布:具体方法参见文后所附题目分析部分。
四、试卷质量分析
1.试卷的信度分析和效度分析。参见文后所附“试卷的信度分析和效度分析。”
2.整卷难度分析。
3.试卷质量评价:就考试目的和试卷内容、结构、形式的合理性、适宜性、有效性和可行性等对试卷作出全面评价。
五、教学分析和教学建议
从得分、失分情况以及某些部分之间的比较、分析,发现教师、学生以及命题等方面的成功与不足之处,并针对存在问题提出改进意见。
为了使试卷分析全面、可靠和有效地发挥应有作用,试卷分析工作应实行教师分析和学生自我分析结合、“动态”分析和“静态”分析结合、定性分析和定量分析结合,在认真分析的基础上,简明、扼要、有重点地写出试卷分析报告。
附:题目和试卷的统计分析方法
一、常模参照性测验的题目分析
常模参照性测验题目的分析工作,主要是对测验结果进行统计分析,估计题目的难度、区分度,分析答案是否适宜等。
1.难度分析
所谓题目难度是指某一题目的难易程度,通常用答对率P来表示。
一般说来,题目的P值以0.2~0.8为宜。也有人用不通过率Q来表示难度。它们的计算方法如下表所示:
*X高为高分组的该题得分总和,X低为低分组的该题得分总和,H、L分别为该题的最高、最低得分。
P值无等距性,无法对试题之间的难度差异作精确的比较,也不能用于计算平均难度。为了对各题难度作比较,通常要把P转换成标准难度,使之等距化。
值越大,题目难度越大;=13时,题目难度为中等。
运用下表可以方便地由P值直接查得对应的值:
2.区分度分析
题目区分度是指某一题目对被测水平的区分能力。若某题目能使水平较高的被测得较高分、使水平较低的被测得较低分,该题就有较高的区分度。
区分度分析可以采用极端分组法,或者采用相关法。相关法比较复杂,这里从略,不作介绍。在极端分组法中,从总体中分出高分组和低分组(比例均为25%~33%且数值相同),然后计算区分指数D作为区分度的指标,如下表所示:
除了计算方法以外,还可以采用弗拉南根查表法:根据占总人数27%的高分组的答对率和占总体人数27%的低分组的答对率,从专门的表(附表5)中查得题目的区分度。
一般说来,当D<0.20时,题目的区分度太低,必须淘汰或者加以修改;当D≥0.40时,题目的区分度非常好;通常题目的区分度指数D在0.2~0.4之间。题目难度跟题目区分度之间有着一定的联系。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。
3.题目反应分布分析
对于多重选择题等可能有多种答题情况(题目反应)的题型来说,仅仅作难度分析和区分度分析是不够的,还需要分析题目反应分布情况,检查它是否跟预期的反应分布模式符合,从而发现需要修改之处。题目的难度和区分度也可以从反应分布中得到反映。进行题目反应分布分析,先要制作题目反应分布表。下面是该表的示例,表中还列出了有关的分析和判断:
*为答对人数
二、目标参照性测验的题目分析
目标参照性测验题目试测后的分析工作主要是作灵敏度分析和识别度分析,有时也要作题目反应分布分析。
1.灵敏度分析所谓灵敏度是指题目能灵敏地反映教学作用的能力,通常用目标教学前后被测总体的通过率之差来估计。
设目标教学前、后通过试题的被测人数分别为R1、R2,被测总体人数为N,则试题对教学 的灵敏度指数S可按下式计算:
当S>0时,试题有效,S越大,试题对教学作用的感受越灵敏;当S≤0时,需要研究是否由教学不当而引起,如非教学不当引起,则可认为试题质量不佳。
2.识别度分析
题目识别度是指某试题能有效地识别达标者的能力,通常用合格者通过本题的百分比跟不合格者通过本题的百分比之差来估计。
设P1和P2分别为合格者和不合格者的本题通过率,则
识别度指标D=P1-P2
识别度指标的最大值为1.0,当D≤0时,该题无预期的识别能力。
题目识别度还可以用被测是否合格跟是否通过本题的φ相关系数来表示。设题目在总人数为N
的被测总体中的试测结果如下表所示:
所得φ相关系数需进行检验,方法是:按下式算出φx2
x2=Nφ2
的,其犯错误可能性为0.05。
3.题目反应分布分析
目标参照性测验的题目反应分布分析方法跟常模参照性测验的分析方法相似。通过分析不但可以发现题目中存在的问题,还可以了解被测的错误类型及其分布,具有学习诊断作用。
三、试卷的信度分析
信度表示测量的一致性、稳定性和测量结果的可靠性。测量时的随机误差越小,测量结果就越接近真实值,其信度就越高;样本统计量越是接近总体参数,其信度也越高。
信度常用信度系数r__表示,其值在0~1之间。若r__=0,表明实得分数完全由偶然误差决定;若r__=1,表明实得分数完全不受偶然误差的影响。一般说来,化学学业成绩测验的信度应在0.90以上,甚至达到0.95。
由于Sr和SR难于直接测得,所以r__通常借助于某些特别方法进行计算。
(一)常模参照测验信度的计算
常模参照测验的信度系数可以用再测法、等价测验法和两半法等方法求得,所得信度系数意义略有不同,分别表示测量的再测稳定性、等价测量稳定性和内在一致性,故又分别称为稳定性系数、等价性系数和内部一致性系数。在化学教学测量中,常用下列方法计算内部一致性系数。
1.两半法,即在一次施测后,把试题分为对等、可比的两半,其内容、预测难度、总分和题数都大致相同;计分时把各被测的两半实得总分分开统计,计算两半间的积差相关系数;
式中,x、y分别为某被测实得的两半总分,N为被测总数。
再将rhh代入下式校正,即可得整卷的信度系数r__。
采用这一校正公式时,两半的平均数、标准差、项目的组间相关、分布的形态和内容都应相近。否则,整个测验的信度估计r__将有误差。此时可改用下式计算r__:
式中,Sa、Sb分别为两半分数的标准差,St为整个测验总分方差,Sd为两半分数之差的标准差。
2.克龙巴赫法
方差。
影响测验信度的因素主要有:
(1)测验长度:测验越长,题量越大,信度越高。
(2)试题难度:当各题难度和平均难度为中等(P=0.25~0.75)时,有利于提高测验的信度。
(3)样本(或总体)大小:样本(或总体)越大,分数分布越广,信度越高。
(4)测验内容的复杂性:测验内容同质性高,信度也高;反之,内容越庞杂,信度就越低。
(5)施测条件的标准化,有利于减小随机误差的影响。
(6)评分的客观性。
(二)目标参照测验信度的计算
复本法:以等价的两份测验对同一被测群体施测,设测验结果的分布情况如下表所示:
四、试卷的效度分析
效度表示测量跟测量目的符合的程度,是测量准确性和有效性的指标。跟测验目的无关的因素影响越小,测验的有效性即效度就越高。
(一)常模参照测验的效标关联效度
在确定常模参照测验的效度时,通常以另一比较符合测量目的的测量结果作为检测效度的参照标准(即效标)。设被测总数为N,x和y分别为被测i的本次测得成绩和效标成绩,则
若已将成绩转换成Z标准分,则
rxy>0时,说明两者相关(正相关),rxy值越大相关程度也越大;rxy=1时表示测量完全反映测量的目的;rxy=0时,表明两组分数完全不相关(零相关)测量结果跟测量目的无关;rxy<0时为负相关,表明一测量得分高者另一测量得分低,测量结果跟测量目的完全相反。一般情况下,化学学业成绩测验的效度应在0.4~0.7之间
系统误差和随机误差跟实得分数方差比值的大小影响着效度的高低,要提高效度,就必须:
(1)提高测验的信度,减小随机误差的影响。
(2)施测标准化、评分标准化、采用适宜的分数合成方法,减少与测验的目的无关的因素,尽量降低系统误差的影响。题文难于理解、数学计算过于复杂等,均会降低测验的效度。
(3)提高命题质量。试题太少、偏、怪,覆盖面小、编排不当、过难过易等,都会影响效度。
(4)增大样本容量、使之具有较好的代表性。
(5)选择可靠(信度高)、符合测量目的的测验作效标。
效度系数也可以视具体情况改用二列相关系数或者点二列相关系数、φ相关系数等来表示。
(二)目标参照测验的效度
目标参照测验要求测量结果的变异最好为零,故不能用变异量来表示其效度。此时,可以通过内容适宜性来确定其效度。
五、试卷难度分析
数学考试分析总结例4
主要包括:
1.内容结构分析:基本概念和化学原理、元素化合物知识、有机化学知识、化学计算、化学实验等方面的内容比例乃至每一方面的二级结构分析。
2.目标水平结构分析:按照考试大纲所列水平(通常分为知道、理解、应用、综合运用等)种类,分析它们的组成比例并且作内容—水平双向交叉分析。
3.题型结构分析:各类题型的比例分析。
4.分数结构分析:内容—分数和水平—分数的双向交叉分析。
5.难度和时限结构分析:对难度测验作难度分布描述,对速度测验作时限分布描述。
6.试卷特点及横向、纵向比较:就试卷是否符合考试(教学)大纲规定、是否反映化学学科特点和内在联系、符合学生实际水平、合理性、适宜性以及其他特点作出描述和判断。横向比较可以在学校—学校或地区—地区间进行,纵向比较可以在不同学年间进行。
进行结构分析时,分析者要对测验各项目逐一分析和作出判断,因而结构分析带有较强的主观色彩。分析者对项目的判断跟编制、设计者不一致的情况经常会发生,对于比较复杂的综合题尤其是这样。为此可以把试卷结构分析结果跟编制试卷的结构设计进行比较。
除了难度结构分析跟答卷情况有关,只有在考试实施之后才能进行外,其他各项分析跟答卷情况无关,在考试实施之前就可以进行,属于试卷的“静态”分析。
二、答卷情况描述
主要包括:
1.成绩分布情况描述:列出频数分布表或频数分布***。
2.统计量描述:列出平均分、标准差、优分率和低分率以及某些因素间的相关系数等数据,还可以进一步作各内容跟其平均得分率、标准差、优分率和低分率的双向交叉分析,各水平层次跟其平均得分率、标准差、优分率和低分率的双向交叉分析,以便从中发现问题。
3.分布形态判断:判断总体分布是正态还是偏态或其它形态。
4.由样本统计量推测总体参数(总体平均成绩、总体标准差等)。
三、试题及解答情况分析
1.题目的内容、水平分析:逐一分析各题的内容、水平和考核意***。
2.题目的难度、区分度、灵敏度、识别度和题目反应分布:具体方法参见文后所附题目分析部分。
四、试卷质量分析
1.试卷的信度分析和效度分析。参见文后所附“试卷的信度分析和效度分析。”
2.整卷难度分析。
3.试卷质量评价:就考试目的和试卷内容、结构、形式的合理性、适宜性、有效性和可行性等对试卷作出全面评价。
五、教学分析和教学建议
从得分、失分情况以及某些部分之间的比较、分析,发现教师、学生以及命题等方面的成功与不足之处,并针对存在问题提出改进意见。
为了使试卷分析全面、可靠和有效地发挥应有作用,试卷分析工作应实行教师分析和学生自我分析结合、“动态”分析和“静态”分析结合、定性分析和定量分析结合,在认真分析的基础上,简明、扼要、有重点地写出试卷分析报告。
附:题目和试卷的统计分析方法
一、常模参照性测验的题目分析
常模参照性测验题目的分析工作,主要是对测验结果进行统计分析,估计题目的难度、区分度,分析答案是否适宜等。
1.难度分析
所谓题目难度是指某一题目的难易程度,通常用答对率P来表示。
一般说来,题目的P值以0.2~0.8为宜。也有人用不通过率Q来表示难度。它们的计算方法如下表所示:
*X高为高分组的该题得分总和,X低为低分组的该题得分总和,H、L分别为该题的最高、最低得分。
P值无等距性,无法对试题之间的难度差异作精确的比较,也不能用于计算平均难度。为了对各题难度作比较,通常要把P转换成标准难度,使之等距化。
值越大,题目难度越大;=13时,题目难度为中等。
运用下表可以方便地由P值直接查得对应的值:
2.区分度分析
题目区分度是指某一题目对被测水平的区分能力。若某题目能使水平较高的被测得较高分、使水平较低的被测得较低分,该题就有较高的区分度。
区分度分析可以采用极端分组法,或者采用相关法。相关法比较复杂,这里从略,不作介绍。在极端分组法中,从总体中分出高分组和低分组(比例均为25%~33%且数值相同),然后计算区分指数D作为区分度的指标,如下表所示:
除了计算方法以外,还可以采用弗拉南根查表法:根据占总人数27%的高分组的答对率和占总体人数27%的低分组的答对率,从专门的表(附表5)中查得题目的区分度。
一般说来,当D<0.20时,题目的区分度太低,必须淘汰或者加以修改;当D≥0.40时,题目的区分度非常好;通常题目的区分度指数D在0.2~0.4之间。题目难度跟题目区分度之间有着一定的联系。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。
3.题目反应分布分析
对于多重选择题等可能有多种答题情况(题目反应)的题型来说,仅仅作难度分析和区分度分析是不够的,还需要分析题目反应分布情况,检查它是否跟预期的反应分布模式符合,从而发现需要修改之处。题目的难度和区分度也可以从反应分布中得到反映。进行题目反应分布分析,先要制作题目反应分布表。下面是该表的示例,表中还列出了有关的分析和判断:
*为答对人数
二、目标参照性测验的题目分析
目标参照性测验题目试测后的分析工作主要是作灵敏度分析和识别度分析,有时也要作题目反应分布分析。
1.灵敏度分析所谓灵敏度是指题目能灵敏地反映教学作用的能力,通常用目标教学前后被测总体的通过率之差来估计。
设目标教学前、后通过试题的被测人数分别为R1、R2,被测总体人数为N,则试题对教学的灵敏度指数S可按下式计算:
当S>0时,试题有效,S越大,试题对教学作用的感受越灵敏;当S≤0时,需要研究是否由教学不当而引起,如非教学不当引起,则可认为试题质量不佳。
2.识别度分析
题目识别度是指某试题能有效地识别达标者的能力,通常用合格者通过本题的百分比跟不合格者通过本题的百分比之差来估计。
设P1和P2分别为合格者和不合格者的本题通过率,则
识别度指标D=P1-P2
识别度指标的最大值为1.0,当D≤0时,该题无预期的识别能力。
题目识别度还可以用被测是否合格跟是否通过本题的φ相关系数来表示。设题目在总人数为N的被测总体中的试测结果如下表所示:
所得φ相关系数需进行检验,方法是:按下式算出φx2
x2=Nφ2
的,其犯错误可能性为0.05。
3.题目反应分布分析
目标参照性测验的题目反应分布分析方法跟常模参照性测验的分析方法相似。通过分析不但可以发现题目中存在的问题,还可以了解被测的错误类型及其分布,具有学习诊断作用。
三、试卷的信度分析
信度表示测量的一致性、稳定性和测量结果的可靠性。测量时的随机误差越小,测量结果就越接近真实值,其信度就越高;样本统计量越是接近总体参数,其信度也越高。
信度常用信度系数rxx表示,其值在0~1之间。若rxx=0,表明实得分数完全由偶然误差决定;若rxx=1,表明实得分数完全不受偶然误差的影响。一般说来,化学学业成绩测验的信度应在0.90以上,甚至达到0.95。
由于Sr和SR难于直接测得,所以rxx通常借助于某些特别方法进行计算。
(一)常模参照测验信度的计算
常模参照测验的信度系数可以用再测法、等价测验法和两半法等方法求得,所得信度系数意义略有不同,分别表示测量的再测稳定性、等价测量稳定性和内在一致性,故又分别称为稳定性系数、等价性系数和内部一致性系数。在化学教学测量中,常用下列方法计算内部一致性系数。
1.两半法,即在一次施测后,把试题分为对等、可比的两半,其内容、预测难度、总分和题数都大致相同;计分时把各被测的两半实得总分分开统计,计算两半间的积差相关系数;
式中,x、y分别为某被测实得的两半总分,N为被测总数。
再将rhh代入下式校正,即可得整卷的信度系数rxx。
采用这一校正公式时,两半的平均数、标准差、项目的组间相关、分布的形态和内容都应相近。否则,整个测验的信度估计rxx将有误差。此时可改用下式计算rxx:
式中,Sa、Sb分别为两半分数的标准差,St为整个测验总分方差,Sd为两半分数之差的标准差。
2.克龙巴赫法
方差。
影响测验信度的因素主要有:
(1)测验长度:测验越长,题量越大,信度越高。
(2)试题难度:当各题难度和平均难度为中等(P=0.25~0.75)时,有利于提高测验的信度。
(3)样本(或总体)大小:样本(或总体)越大,分数分布越广,信度越高。
(4)测验内容的复杂性:测验内容同质性高,信度也高;反之,内容越庞杂,信度就越低。
(5)施测条件的标准化,有利于减小随机误差的影响。
(6)评分的客观性。
(二)目标参照测验信度的计算
复本法:以等价的两份测验对同一被测群体施测,设测验结果的分布情况如下表所示:
四、试卷的效度分析
效度表示测量跟测量目的符合的程度,是测量准确性和有效性的指标。跟测验目的无关的因素影响越小,测验的有效性即效度就越高。
(一)常模参照测验的效标关联效度
在确定常模参照测验的效度时,通常以另一比较符合测量目的的测量结果作为检测效度的参照标准(即效标)。设被测总数为N,x和y分别为被测i的本次测得成绩和效标成绩,则
若已将成绩转换成Z标准分,则
rxy>0时,说明两者相关(正相关),rxy值越大相关程度也越大;rxy=1时表示测量完全反映测量的目的;rxy=0时,表明两组分数完全不相关(零相关)测量结果跟测量目的无关;rxy<0时为负相关,表明一测量得分高者另一测量得分低,测量结果跟测量目的完全相反。一般情况下,化学学业成绩测验的效度应在0.4~0.7之间
系统误差和随机误差跟实得分数方差比值的大小影响着效度的高低,要提高效度,就必须:
(1)提高测验的信度,减小随机误差的影响。
(2)施测标准化、评分标准化、采用适宜的分数合成方法,减少与测验的目的无关的因素,尽量降低系统误差的影响。题文难于理解、数学计算过于复杂等,均会降低测验的效度。
(3)提高命题质量。试题太少、偏、怪,覆盖面小、编排不当、过难过易等,都会影响效度。
(4)增大样本容量、使之具有较好的代表性。
(5)选择可靠(信度高)、符合测量目的的测验作效标。
效度系数也可以视具体情况改用二列相关系数或者点二列相关系数、φ相关系数等来表示。
(二)目标参照测验的效度
目标参照测验要求测量结果的变异最好为零,故不能用变异量来表示其效度。此时,可以通过内容适宜性来确定其效度。
五、试卷难度分析
数学考试分析总结例5
2.增加实践考试环节。操作考试要求应试人员必须通过一定过程的操作,才能得到结果,操作过程无法省略,必须了解和练习全部题目的操作过程,达到了考试的目的[7]。实验成绩纳入总成绩,占20%,采取世界通用的客观结构化临床考试(OSCE)多站考试形式,分为无菌技术、器械打结、心肺复苏、切开缝合等站。创建“三位一体”评价体系,充分发挥学生、教师以及教学督导三方面的监督及评价作用;考教分离,主治以上医师担任实验师,只负责上课及课后网上作业布置及阅卷,OSCE考官由经过培训考核合格的研究生组成,教学过程中的多阶段考核及课程结束的考核均由OSCE考官负责。
3.分析试卷结果。试卷分析是题库建设的重要环节[1]。试卷分析能促进教学效果的实现,提高题库建设的水平,避免试题沉积的出现。以南京医科大学2009级七年制临床医学专业外科学基础试卷为分析对象,利用统计软件分析试题的难度、信度、区分度和效度[13]。
二、试卷分析
2009级七年制临床医学专业共计8个班,243名学生,全部参加了考试,统计每个学生各题型得分及总分,将原始数据录入SPSS19.0,进行试卷分析。满分为100分,最低是39分,最高95.5分,平均得分为81.7860,标准差是8.78776,本次考试平均分较高,总体偏易,标准差较大,说明学生间的差距存在较大的差距(见附***)。试卷难度常用系数P来表示,P的取值范围是0-1,选择题难度系数P=0.85,本份试卷单选题选项个数为4,则选择题的校正难度系数cp=0.80。难度偏低,建议适当增加难度;填空题的难度系数为0.68,比较合理(见表1)。试卷的区分度是指试题把不同水平的受试者区分开来的程度,用字母D来表示,-1≤D≤1。总体区分度为0.256较低,说明试卷难度较小,没有很好地将不同水平的学生区分开来,建议适当增加试卷难度或增加试题量,填空题与名词解释的区分度尚可(见表2)。试卷信度是指同一份试卷对受试者进行多次检验的一致程度,反应了试卷的稳定与可靠程度,用信度系数R来表示,0≤R≤1,其值越大,说明对受试者进行多次检验的结果越一致,试卷的信度越高。可见各题型总体信度均>0.6,信度较好(见表3)。试卷效度反应了测试结果与受试者实际能力水平及欲测内容的吻合程度,总分与平时成绩的相关系数为0.24,很低,效度较差。外科学实验重视学生的动手能力,有些学生虽然理论知识扎实但缺乏动手能力,理论考试结果与实验成绩可能有较大误差,因而两者的相关性降低,造成信度偏低。
数学考试分析总结例6
一、引言
教学与测试分不开。测试可以检测教学的结果,为提高改善教学提供有效的信息。如今,英语已经成为对一名复合型人才的要求,学习英语的人越来越多,几乎所有院校都有开设英语专业,还有各式各样的英语培训机构。但是老师们教得如何,培训机构培养得如何,人们学英语到底学得如何,特别是英语专业的学生们的英语又怎么样,我们还是要通过各种各样的考试来检验。我们熟知的英语考试很多,比如全国英语公四、公六考试,出国留学的雅思、托福考试等等一系列的考试。这些考试测试操作严格,有很完整的试卷设计、测试操作、评分操作、还有试卷分析过程,获得了人们普遍的认可。其实在英语教学的过程当中,我们对于大大小小的测试也要学会对测试试卷的分析,以获取老师教与学生学的准确信息。我们首先要保证我们的测试是客观的和科学的,从而发现我们在试卷设计上存在的问题和需要改进的地方,不断吸取教训,积累经验, 提高我们的测试水平和测试能力,为教学提供真实有效的反馈信息。本论文选取2007级英语专业一次精读半期考试试卷为研究对象,分析讨论了试卷题目的信度,难度系数,区分度等,为以后此类考试题目的设计提供一定的参考信息和建议。
二、测试的信度、效度、难度与区分度的基本概念
(1)信度:信度是指测试结果的可靠性和稳定性,即如果用同一份试卷对同一组学生进行前后两次测试的话,两次测试成绩在多大程度上会相吻合。信度受试题的质量、考试的组织、试卷的评判等因素的影响。要保证试卷有较高的信度,首先试卷要有一定的量,一般题量越大,信度越高。同时作为考试结果的分数要有一定的分散度,要呈正态分布,及中间大,两头小。要达到这个要求,就必须保证试题具有一定区分度,且难度适中。
(2)效度:效度就是考试的有效性,是指考试是否测量了它所想要测量的东西,即考试是否达到了目的,考试所考的内容是否是想考的内容。效度包括表面效度、同期效度、构卷效度和内容效度。这里我们将主要讨论内容效度。内容效度是指是否考了大纲规定要考的,或者说考试的题目在多大程度上能代表所有测量的目标。主要是测试的内容是否和测试的目标有关;测试内容是否有代表性;是否全面地体现了要考查的各方面的内容;试卷中是否有足够的题目去体现所要考的各方面内容;测试内容是否适合测试对象等。(刘润清, 韩宝成. 2000: 172)
(3)难度系数:难度一般以正确或错误回答某道题的人数与总体人数之比作为指标,一般来说,最好是测试的平均难度接近 0. 5。对于对错型项目的难度系数的计算公式为:P=答对题目的学生人数/总的答题学生人数
难度系数的数值越大,难度反而越小,项目越容易。
而对于非对错型项目的易度指数难度,就是一组受考的成绩率。所谓的成绩率,就是一组受考在一个项目上的平均成绩与这个项目完全做对时的成绩的比率。其计算公式为:P=学生在这个项目上的平均成绩/这个项目完全做对时的成绩
一般来说,难度系数在0.3~0.7之间是可以接受的,难度系数达到0.4~0.6的项目是比较好的。
(4)区分度:区分度是指对考生实际水平的区分程度。区分度用D 来表示。当D为正值时,说明试题为积极区分,即高分组通过率高,低分组通过率低,当D为负数时,说明该题是消极区分,高分组通过率低,低分组通过率高。一般来说,我们将所抽出的总学生分为高分组,中等分组,和低分组。高分组和低分组各取抽样总人数的1/3。区分度的计算公式为:
区分度=高分组在该项目上的通过率―低分组在该项目上的通过率
区分度最大值为1,最小值为-1。区分度可以显示项目的质量。一般来说,区分度应该大于0.2。小于0.2的项目质量比较差,应该予以淘汰。
三、试卷分析结果和讨论
这次我们选择了2007级英语英语语言文化系2009-2010学年第一学期《高级英语》期中考试试卷,总共抽取了26位同学的考试成绩进行试卷分析。
试卷的题目清楚,排版一目了然,试题没有拼写错误。这首先能够保证学生不会因为没有误读题目而答错题目。在此基础上再就试卷进行分析。
1. 我们先看一下这份试卷的结构。
这份试卷分为六个部分,考察了学生的词汇知识、语法知识、写作能力、语言的综合运用能力以及识记能力。有四个主观题型,分值占65分。分别是选词填空及词型变换、释义改写、改错、和篇章理解,考察了学生的词汇、语法和写作的能力。两个主观题型,分值占35分。分别是阅读理解和常识选择,考察了学生的阅读推理能力和识记的能力。另外试卷总共题目差不多60个。
从结构上来讲,信度和效度这份试卷是较好的。首先,试卷的题型比较多,有六个。比较全面地考察了学生的能力,是具有效度的。像改错,释义改写,篇章理解这样的考察学生语言综合运用能力的很好的题目占到了55分,一定程度上保证了学生考试成绩的稳定性和可靠性。另外,60个项目的题量也比较合适。考试时间为两个小时,学生可以有充足的时间把答完卷子。对于期中考试这样的非选拔性考试这是合适的。
2. 学生成绩
抽取的26人的考试成绩为67.2分,24人及格,2人不及格,通过率为92.3%。
平均分以上的有13个,刚好一半。对于期中考试这样的非选拔性考试是可以的。
再看下面的学生成绩分布***
学生成绩基本上称中间大,两头小的状态,但是60分到65分的人数比较多,正态分布***还是不够明显。初步反映出题目的设置有些问题。当然也许这和我们选择的人数太少有关系。只有对试卷的难度和区分度仔细分析后,我们才能更清楚地了解试卷的具体质量。
3.试卷的难度、区分度
试卷各个题型的难度系数几乎都在0.6以上,多数在0.7左右,甚至有的达到了0.8,可以知道试卷的总体难度系数不大。对于像期中这样的非选拔性考试来说能够保证大多数学生通过,是可以的。但是选词填空与词型变换这一题难度系数达到了0.8,可以适当加大,而改错题目难度较大,可以适当减小难度。学生说明题目的区分度也是不错的。多数题型的区分度在0.2以上,释义改写和阅读选择的区分度甚至达到了0.4~0.6之间,是很好的。但是选词填空及词型变换、改错的区分度为0,说明题目出得不够理想,这样的题目下次应该不再选择。但这并不是说这样的题型不好,而只是针对这次选择考试的题目还存在问题。下次应避免这样的题目的出现。
具体到各个题型看考察学生的能力,可以发现学生做其它题还好,做改错题,和阅读理解题还不够不理想,特别是改错题,原因到底在哪里?改错题,阅读理解题,还有篇章理解题同样是考察学生的语言综合应用能力,为什么篇章理解题的难度系数小这么多?改错题和阅读理解有标准的答案,篇章理解的答案却是灵活的,老师在评卷过程中的标准是不是影响了学生的整体分数?进而影响了试卷的难度系数值。这一定程度上降低了试卷的信度。
4. 阅读理解和常识选择的分析
这一题主要考察的学生的识记的能力,所以只要学生记住了知识就能够答得对。这一题的总的难度系数也只有0.7,算是拉分的题目了。甚至出现了第五题这样的送分题目,一点难度没有外,也没有区分度。虽然说我们需要保证一定的通过率,但是题目也不能没有难度,只是说难度要适中。但是这一题难度不一,好些题目难度不是太小就是太大,比如第六、七、九题就是难度太小,而第十题又是难度太大了。再说区分度,虽然区分度都是正数,是积极的,但是总的来说这题型区分度过小,一、二、三、五、六、七、九区分度都小于0.2,属于应该淘汰的项目。只有四、八、十这3题的区分度可以接受。但从难度、区分度一起看的话,只有第八题是比较理想的题目。即使作为拉分的题目,这道题型所设的题目还是需要大加改进,一定程度上拉开学生之间的差距,增加试卷的信度和效度。
阅读理解是考外语时学生们通常做过的题型。它的出题可以很灵活,可以考察学生的迅速反应查找信息的能力,逻辑推理能力。但是老师们通常喜欢出的题就是选择题。
这份试卷阅读理解的平均难度系数为0.612,难度适中,总体比较好。不过有些题目难度还是不够好,比如八、十四、十六。再看比如区分度,很不理想。五道题目的区分度为负数,四道题目的区分度为0,另外还有六道题目区分度不到0.2,总共十五道题目都应该淘汰,比例太高了。但是也有很好的题目,比如说第二题,难度0.42,区分度0.5,刚刚是我们最最需要的。
所以说虽然选择题是老师很容易出的题型,也是老师们喜欢出的题型。但是选择题很难出,从上面的分析我们可以看得出来。
四、小结
作为半期考试,这张试卷的题型是不错的,主观题客观题的分配比例适中,便于老师修改试卷,总体的难度还够,对于非选拔性的考试还算通过。但是试卷也暴露出一些问题。题目项目的难度区分度还有很多需要改进的地方。特别是区分度的把握上,非常弱,不能明显地区分学生的能力。选择题的难度区分度不理想,有些题目该淘汰的应该予以淘汰,该改进的改进。还有评判试卷的标准也要适度。
这只是我们就一次半期考试作的简单的试卷分析。虽然简单,可以反映出试卷所暴露出来的问题,可以给老师们发现学生们的薄弱处,加强这方面的教学。比如这次的改错和阅读理解,学生们做得不好。在以后的教学中,老师就可以对症下药,加强学生的语法知识和阅读技巧的训练,或者提醒学生自觉加强这方面的练习。
所以进行试卷分析是十分必要的。每次考试后,老师们应该坚持进行试卷分析,暴露显示的问题,了解需要改进的地方,提高教学质量。学生们如果能做做试卷分析,了解自己的不足,对于提高学习效果也是非常必要的。
参考文献:
[1]陈晓扣, 李绍山. 谈语言测试的结构效度[J]. 外国语学院学报, 2006(03),45-49.
[2]黄和斌. 外语教学理论与实践[M]. 南京:译林出版社, 2001.4, 223-240.
[3]刘润清. 外语教学中的科研方法[M]. 北京: 外语教学与研究出版社, 1999.
[4]刘润清, 韩宝成. 外语测试和它的方法(修订版)[M]. 北京:外语教学与研究出版社,2000.
[5]苏惠芬. 英语试卷质量分析方法研究[J]. 卫生职业教育, 2007(06), 45-46.
[6]孙成岗. 现代语言测试与试卷分析[J]. 外国语学院学报, 2000(04), 82-86.
[7]汪美琼. 大学英语试卷分析探析[J]. 青海师专学报, 2008(02), 103-107.
[8]王新. 浅谈试后卷面分析的重要性[J]. 长春理工大学学报(社会科学版), 2004(03), 83-85.
[9]刘丽华. 英语专业精读期末考试内容效度的个案研究[J]. 泰安教育学院学报岱宗学刊, 2009(01), 104-106.
数学考试分析总结例7
文章编号:1005-6629(2009)02-0056-03中***分类号:G633.8文献标识码:B
越来越多的教育工作者将SPSS软件运用到教学研究中,本文着重介绍SPSS在化学教学评价中的运用。
1 对命题制质量的评价
在实际教学过程中,无论是阶段性评价还是终结性评价,往往都是以试题的形式来测试学生对知识的掌握情况。因此,一份试卷质量的高低,直接关系到能否对学生某一阶段的学习情况进行客观的评价。
1.1对试题难度的评价
对试题难度评价的目的是为了从整体上检测学生成绩是否达到拟题者的预设值,从而粗略的判断命题的质量。若实际难度高于预测难度,说明试题偏易;实际难度低于预测难度,说明试题偏难。利用[分析(A)](Analyze)菜单可以实现对试题难度的评价。
操作提示:执行“分析(A)│ 描述统计(E)│ 描述统计分析(D)”,选择“总分”进入“变量”栏进行分析,获得下列报表:
对总分的分析
数据解读:输出结果显示出总分变量的样本数、最高分、最低分、平均分和标准差这五个常用的统计量。抽样对象的均分为75.6分,可以看出该试卷的整体难度约为0.76(卷面满分为100分),试题难度略高于出题者的预测难度0.72,试题可能是略过于简单,也有可能是所抽样的对象整体水平偏高的原因。标准差约为16,结合平均分综合分析,本次测试学生成绩两极分化较大。
1.2对试题区分度的评价
怎样的试题才是“好的"试题?通过“区分度”的分析可以评价试题的“好坏”。项目的区分度,又称项目的鉴别力,指项目得分对被试者实际能力水平的区分能力或鉴别能力。常用鉴别指数D来表示项目的区分度,D=PH-PL,式中PH 为高分组在某项目上的难度值,PL为低分组在该项目上的难度值。
示例:对测试中学生“总分”的分析。
操作提示:选择“分析(A)描述统计(E)频数分布表(F)”,选择“总分”进入“变量(V)”栏,再通过“统计(S)”栏选择所需要的分析项目。
如***所示,结果输出给出了“总分出现的频数”。
若我们将学生成绩按总分从高分到低分排列,从高分一端开始选取27%的学生作为高分组,依次再从低分端选取27%的学生作为低分组。根据抽样人数(113个样本),分别计算出高分组和低分组的难度,我们就可以算出本次考试该试题的区分度,D=0.85-0.51=0.34。和评价标准(如下表所示)进行对比,D在0.30-0.39之间,本套试题的区分度属于“良好”,修改后会更佳。对试题区分度分析的目的是以便能更好的修正试题,为以后的测试积累经验。
2 对学生答题情况的评价
2.1对不同大题的答题情况评价
通过分析学生在不同项目上的得分情况,可以轻松地获取学生的答题情况。如,每次考试结束后,每个教师首先关心的是学生在每个大题上的得分情况。
操作提示:执行“分析(A)│ 描述统计(E)│ 描述性统计分析(D)”,选择各个大题进入“变量”栏进行分析。
获取报表,如下***所示:
数据解读:从以上分析结果输出的数据可以看出每个大题的得分情况,如“我会选”,平均得分27.6分(满分为30分),可求得该题的难度为0.92。最高得分30分,最低得分12分,标准差为3.8,和其他几个大题相比,学生成绩波动性不大,学生得分较为理想。
2.2对不同水平层次试题的答题情况评价
过去教师对于考试结果一般只关注学生的总分,而对学生在不同能力层次上的发展水平,不能作出更为细致的判断。因此,关注学生在不同能力要素上的发展情况,能为教师改进教学提供更为实际的依据。
操作提示:执行“分析(A)│ 描述统计(E)│描述性统计分析(D)”。通过选择“各个水平能力层次”进入“变量”栏分析,可以获得抽样样本的得分情况。
数据解读: 如“事实性记忆”,抽样样本平均得分25.6分(试题满分为31分),可求得该题难度为0.84。最高得分31分,最低得分6分,标准差为3.8,和其他几个能力水平层次的得分相比,样本在此大题上的整体得分比较理想,学生成绩波动不是很大。
2.3个体在群体中的表现
SPSS软件同时能提供强大的***示分析功能,利用***示也能比较直观的显示出分析结果。以下以折线***为例来示例一些分析结果:
操作提示:执行“***表(G)│ 线***(L)│(根据具体报表需要选择不同的选项)”获取报表。
如***:某些学生在各大题上的得分情况和均值之间的比较。
从***示上可以比较清楚的获得不同的学生在各个大题上的得分比较。如:在“我会分析”这个大题上,同学的得分情况都高于总体均值和其他几个同学。
2.4不同班级之间成绩是否存在差距
在考试结果分析中,教师一般会用平均分的高低来简单比较各班的成绩,利用SPSS软件的“***样本t检验”可以对比进行更科学的统计分析。例如,用“***样本t检验”比较三(3)、三(6)两个班的化学成绩(总分)是否有明显的差异。
操作提示:执行“分析(A)│ 均值比较(M)│***样本T检验(T)”获取报表。
数据解读:输出结果给出了“假设方差相等”和“假设方差不相等”两种情况下的“方差相等的Levences,检验”和“平均数相等的t检验”结果。两个班的化学成绩(总分)方差相等或不相等,应选择对应的统计量作为t检验的结果。本例中,因为“假设方差相等”的“显著性”为0.447,大于0.05(假设平均值的置信区间为95%,则不可置信区间为5%),则“假设方差相等”的条件满足。选取“假设方差不相等”行对应的分析结果,由于“平均数相等的t检验”中的“显著性(双尾)” 值为0.744,也大于0.05,所以,接受均值相等的假设,即两班学生在这次考试整体成绩上没有显著差异。
3 其他因素是否对学生化学成绩产生影响
学生成绩的好坏是否与其他因素有关也是我们在评价过程中关注的内容之一。利用SPSS中的相关分析可以实现对是否影响学生成绩相关因素的分析。
“相关分析” 是研究变量之间联系的紧密程度,它通过相关系数来衡量变量之间的紧密程度。相关系数介于-1~1之间,当大于1时称正相关,表示A变量随B变量的增大而增大,相关系数小于1时称为负相关,表示A变量随B变量的增大而减小。
示例:学生化学成绩的好坏是否与物理、数学成绩有关联?
操作提示:选择“分析(A)相关分析(C)两个变量相关分析(B)”,出现下列窗口,如***。将“化学、数学、物理”移入“变量(V)”中,并选择其它相关的选项。
如***所示,出现“结果输出”窗口。
数据解读: 输出结果列出了3个变量两两之间的Pearson相关系数(Pearson Correlation)、双侧显著性检验概率(sig,2-tailed))和数据组数(N)。脚注内容显示相关分析结果在0.01的水平上显著。从表中可以看出,三个变量两两间都具有较强的相关性。而双侧检验的显著性概率均小于0.01,因此否定零假设,认为相关系数不为零,变量化学、数学、物理成绩之间具有相关性。
新课程标准的评价要求不仅强调对学生在“知识与技能”、“过程与方法”上的评价,更注重对学生在“情感态度与价值观”上的评价。利用相关分析,我们也可以对学生在学习兴趣、家庭因素、学习环境、师生和谐关系等方面是否会影响学生成绩展开分析。
参考文献:
[1]余建英,何旭宏.数据统计分析与SPSS应用[M].北京:人民邮电出版社,2003.
数学考试分析总结例8
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 16. 083
[中***分类号] G64 [文献标识码] A [文章编号] 1673 - 0194(2014)16- 0140- 06
教学管理中,经常要对大量的数据进行分析、汇总,由此也产生了大量的管理软件,但是,软件再多,毕竟无法解决层出不穷的新问题。因此,管理人员掌握常用的数据库软件的使用,可以及时、较好地解决实际工作中的各种问题,提升工作效率。在众多的数据库软件中,Excel作为普及度最高的软件,拥有着强大的数据管理分析功能,而且随着软件的升级,加入了更多、更强大的功能,掌握好Excel的使用、充分运用其功能,将成为解决实际问题的“利刃”。本文以多次考试成绩的汇总、分析为例,提出应用Excel解决类似问题的思路,并详细讲解实际操作方法。还要指出,本问题的解决,还可应用于公司销售业绩、进出货物管理等多种情形,因此具有相当的普适性。
1 提出问题
大量来自不同地区的人员参加考试,每次组织综合科目和不同的专业科目考试,同时通过综合科目和某一专业科目才能取得该专业执业证书,没通过相关科目的人员可能再参加后面批次的考试,要求汇总分析每一次考试和几次考试的人员通过情况和地区通过情况,整理出几次考试后可取得执业注册证书的人员名单,分析每一考试科目的总体通过情况。
2 思路分析
解决该问题的难点在于整理执业证书人员名单时,必须通过综合和专业考试科目,而这两个科目不一定是在一次考试通过,而且考试的专业比较多。
在分析问题时,也应当看到,结果并不要求对每次考试的具体成绩进行层次分析,这样即可简化我们解题思路,即将通过、不通过定义为1、0即可,而不需要分析具体的考试分数(当然也可通过其他办法来进行考试成绩的定量分析)。
基于以上两个主要方面的分析,我们可以得出,利用Excel的数据透视表来解决这一问题是一个比较适当的方法。因为数据透视表是用来从Excel数据列表、关系数据库文件或OLAP多维数据集等数据源的特定字段中总比信息的分析工具。它是一种交互性报表,可以快速分类汇总比较大量的数据,并可以随时选择其中页、行和列中的不同元素,以达到快速查看数据源的不同统计结果,同时还可以随意显示和打印出用户感兴趣的区域和明细数据。数据透视表有机地综合了数据排序、筛选和分类汇总等数据分析方法的优点,可以方便地调整分类汇总的方式,灵活地以多种不同方式展示数据的特征。
3 实际操作
在本节中,以分析解决问题为主线,穿插了Excel数据处理中的常用方法。考虑到Excel 2010在数据透视表方面显著的功能升级和强化,本文以Excel 2010版本为平台进行操作。
3.1 整理数据源
数学考试分析总结例9
【中***分类号】G40-057 【文献标识码】B 【论文编号】1009―8097(2010)10―0135―03
引言
考试是教育活动中评价教学质量,衡量教学效果,鉴别人才素质的重要手段之一。所有的教学都是用不同的考试手段来检测和监控教育质量、规范和引导教师的教学行为,并督促学生积极努力的学习。对于考试的准确定位和恰当使用成为现代教育的一个重要问题。在现今情况,各类各级学校的绝大多数考试的结果大都是以分数成绩的形式给出,成绩的评定和使用显得尤为重要。对学生的成绩进行分析评估,为引导教学工作和提高学生成绩提供了重要的依据。
在教学过程中将会产生大量的成绩数据,对其进行人工分析是非常困难的,而且较易受到教师主观因素的影响。随着信息技术的发展并且引入到教育领域[1],利用信息技术对学生的学习成绩进行分析处理将变得可行[2]和简单,目前大多数教师对信息技术的利用仅仅停留在数据的存储和查询上,并没有对数据进一步的统计分析。
使用信息技术对成绩进行有效的统计分析,可以更好发挥考试对教学效果的反馈作用,同时也可以对试卷质量进行评估,辅助指导教师的命题。目前市面上流行着很多专业的统计分析软件比如SPSS[3]、SAS[4]等,但是这些软件价格昂贵、操作复杂,并不适合普通教师使用。MS Excel[5]作为最普及的办公软件,完全可以实现成绩分析和试卷质量分析的功能。
一 MS Excel介绍
MS Excel是美国微软公司的Microsoft Office System办公软件包中的一个重要组件。它集数据管理、数理统计、绘***与一体,既具备存储功能,又可以完成多种表格与***表的设计。同时MS Excel内置了数百个函数,能够完成绝大多数复杂的数据运算和统计分析,精度能达到专业统计分析软件。使用Excel的内置功能可以进行各种数据的处理、统计分析和辅助决策操作。本文使用MS Excel版本为2003版。
二 某英语成绩分析实例
出于教学本身考虑,对学生成绩的统计分析包括最高分最低分、及格率、集中量分析和差异量分析等。
本文以兰州理工大学在2009年5月组织的一次四级模拟考试的部分成绩为样本进行分析,样本数目为925,参考学生分别来自不同院系不同年级。
1 成绩表的建立
我们在Excel中建立成绩表来存储学生成绩。表格存储了学生院系名称、年级、学生姓名、学号、总分和各小题得分。本次模拟试卷由四大部分组成,分别是听力部分、阅读部分、写作部分和综合测试部分,其中听力部分和阅读部分为客观题目,写作部分和综合测试部分为主观题目。
2 初步分析
对成绩的初步统计,是指从整体上对成绩进行分析。包括将成绩按照分数段统计出每个分数段的人数和比例,以及最高分、最低分和整体分布情况等[6]。
在Excel中可以非常简单地对分数段人数和所占比例进行统计。使用内置COUNTIF函数可以计算出所处相应分数段的人数,再除以总参考人数即可得出相应分数段所占比例。
同时Excel提供的***表功能可将工作表中的数据用***形表示出来,使得数据更加直观、易于阅读和评价。如***1所示,本文以三维饼状***的形式表示了不同分数段及所占比例,非常的直观。根据不同的习惯和用途,用户还可以自行选择以柱状***、条形***等***表样式表示。
3 统计量分析[7]
初步的分析只是对成绩进行简单分析,还需要更深入地对成绩进行统计学分析,计算一些能够反映数据分布特征和规律的某些具有代表性的数值,也就是统计量。在数据分析中常用的描述数据特征的统计量主要有描述数据分布的集中趋势的度量和数据分布的分散程度的度量。
分数分布的集中量数主要用来反映该组分数集中趋势的统计量,一般使用均值和中位数来表示。
均值是一组数据的算术平均值,在成绩分析中,它可以反映一个群体对知识的掌握状况。在Excel中,提供了求均值的函数AVERAGE可以直接对分数求均值。由于我们分析的实例缺考人数较多(接近10%),直接使用AVERAGE函数求得的均值不能真实反映实际参加考试学生的知识水平。因此,我们通过Excel提供的其它函数来解决这一问题,SUMIF函数用来按条件对指定区域求和,COUNTIF可以按条件统计指定区域数目。利用SUMIF(总分,”>0”)/COUNTIF(总分,”>0”)可以计算参加考试的学生成绩的平均值。
均值容易受到极端值(极大值或者极小值)的影响,因此在描述一组数据的集中量分布时,一般还要使用到受极端值影响较小的中位数。中位数是指将数据排序后,位置在最中间的数值,在Excel中,提供了直接求取指定区域中位数的函数MEDIAN。
差异量数是用来描述一组学生分数散布状况的量数,差异量数反映的是学生分数的分布范围的大小和波动情况,一般使用标准差作为差异量数。同时使用集中量数和差异量数才能较全面对一组学生成绩进行全面的分析描述。
标准差也称均方差,是各数据偏离平均数的距离的平均数,它是方差的算术平方根。标准差反映的是一个数据集的离散程度。标准差越大,表明这组成绩的偏离平均数的程度越大,标准差越小,这组数据偏离平均数的程度越小,即分布的差异越小。Excel提供了用来估算样本标准差的函数STDEV。
我们对实例使用的四级成绩数据进行统计量分析截***如***2所示。可以看到本次四级模拟成绩的平均分数为379.08,低于总成绩的60%。教学实践表明,如果平均分低于总分的60%,则说明试卷较难或者学生水平较低,在60%到80%之间,说明学生整体水平基本合格,80%以上则说明试卷较易或者学生整体水平较高。本次四级模拟的总成绩为710,平均分是低于总成绩的60%(426),说明参考学生的水平较低,应加强英语学习,同时本次试卷略偏难。
在差异量数计算中我们可以看到,本次考试成绩的标准差为59.16,数值较大,说明参考学生之间的差异性较大,即学生成绩的两极分化较为严重。
三 试卷质量分析
试卷质量分析是分析考试可靠性、有效性的基本方法,是促进考试工作,提高试卷和试卷编制质量的基础,是反馈教学信息,改进考试工作的有效途径。试卷的质量标准为准确可靠、切实有效、难易适当和鉴别能力强,一般用信度、效度、难度和区分度等度量值来描述试卷的质量[7],我们同样可以借助Excel工具对试卷的质量进行定量分析。
1 信度分析
考试信度是反映考试可靠性的重要指标,即检验能否真实反映学生水平程度的数量化指标,它描述的是考试的误差的大小。在教育统计学领域,最常用的求解考试信度的方法是 x系数法。
其中,分子 表示的是每一大题得分的方差,分母 代表是试卷总分的方差,n代表的是试卷的大题数目。我们在Excel中计算了示例使用的某大学四级模拟考试的信度。考试信度 的计算使用到Excel内置的计算方差的函数VAR。使用该函数可以方便地计算试卷总分的方差和每一大题的方差。实践表明,对于正规的大型考试其信度一般要求在0.9以上。
本文为全文原貌 未安装PDF浏览器用户请先***安装 原版全文
2 效度分析
效度是衡量试卷质量的另一个度量,效度描述的是试卷考试结果的有效性或正确性,效度较高的试卷能够较准确地测出学生掌握知识情况的真实程度。
效度是测量学上的定义,确定效度一般是通过计算两门性质相近的学科成绩的相关系数或者同一学科两次考试成绩的有效性,由于本文中实例只是单次单科考试,因此不对试卷效度进行演示分析。
3 难度分析
难度就是试卷的难易程度,有多种方法对试卷难度进行评定,基于我们示例所用数据考生人数较多,本文使用分组平均分系数来描述试卷难度。首先将学生的成绩由高到低排序,然后把成绩最高的27%的学生定义为高分组,把成绩最低的27%定义为低分组,分组平均分难度系数的公式为:
其中 为高分组的平均分数, 为低分组的平均分数,W则为试卷的总分。
平均分难度系数的计算在Excel非常的简单,仅仅涉及到简单的排序和求平均值运算。
试卷的难度系数根据考试的目的而定,一般来说,难度系数在0.7以上的为较易试卷,在0.4和0.7之间的为中等难度,在0.4以下则为较难题。
4 区分度分析
区分度是指试卷对不同水平的学生加以区别的能力,又称为鉴别力。具有良好区分度的试卷,实际水平高的学生应该得到高分,水平低的学生应得低分。
区分度的计算取决与试卷的类型,对于客观题的区分度计算公式为:
其中Di为第i题的区分度,Wi为第i题的分数。
由于分数表录入了每一小题的分数,Excel对试卷区分度的计算也非常的简单和方便。一般认为区分度在0.4以上的试题为去区分性优良题,在0.3和0.39之间的试题为区分性良好题,位于0.2和0.29之间的为一般题,0.2以下的为劣等题。
5 实例分析
我们在Excel中对兰州理工大学四级模拟试卷进行度量计算,分析试卷的质量,在Excel中的结果截***为***4所示:
从***中可以看到,试卷的可信度偏低,难度适中、略难,区分度较差,这份试卷的质量一般,应注意调整试卷结构。
四 结语
本文利用MS Excel软件对学生成绩进行统计分析,同时对试卷质量在信度、效度、难度和区分度四个方面进行了分析评估。MS Excel软件普及性较高,简单易用,使广大教师在进行分数统计、试卷分析时更为高效、便捷。
参考文献
[1] Mark Warschauera and Deborah Healya. Computers and language
learning:an overview[J].Language Teaching,2009,(12):57-71.
[2] 李竹宁.试卷质量的统计分析与评价[J].教学与管理, 2006,(12):60-62.
[3] [OL].
[4] [OL].
[5] Excel2003/2007公式与函数的使用艺术[M].北京:中国铁道出版社,2009.
[6] 宋.基于数据挖掘技术的学生成绩分析[D].重庆:重庆师范大学,2009.
数学考试分析总结例10
1.1资料来源
对某高校临床医学专业856名在校本科生的预防医学考试成绩进行研究分析,并评价试卷质量。
1.2试卷结构
该专业所选用的教材为人民卫生出版社、朱启星主编的第7版《卫生学》以及科学出版社、罗家洪主编的案例版《流行病学》,内容主要包括环境卫生、食品卫生、职业卫生、医学统计学以及流行病学等。试卷由任课老师根据教学大纲要求编制,题目选自预防医学教研室题库,分单项选择题、多项选择题、填空题、名词解释、简答题、计算分析题6个题型,对应分值分别为20分、5分、20分、15分、20分、20分,满分100分。阅卷为教研室所有专职教师参与,根据统一的标准答案进行流水式批阅。
1.3研究内容
分析所有参考学生最终成绩和各项得分的分布情况,计算试卷的信度、难度和区分度。
1.3.1试卷信度:信度是反映试题得分一致性程度的统计量,通常采用信度系数作为评价试卷可靠性的指标,其取值范围为0~1,其值越大,信度越高。选用克伦巴赫(Cron-bach)α系数来计算一致性信度系数:α>0.8极好;0.6≤α≤0.8较好;α<0.6较差。
1.3.2试卷难度:难度系数(P)代表了试题的难易程度,P=M/W(M:该题平均得分;W:该题满分)。由于学生在答选择题时可能会随机猜测,该行为会影响最终结果,因此采用矫正难度系数cP,公式为cP=(kP-1)/(k-1)(k为选项个数)。难度系数与试题真实难度相反,值越大则试题越简单。P<0.6为难题、0.6≤P<0.7为较难题,0.7≤P<0.8为中等题、0.8≤P<0.9为较易题,0.9≤P<1为易题。
1.3.3试卷区分度:区分度是指通过考试将不同学习程度和能力的学生区别开来,是衡量试题鉴别学生水平差异功能的重要指标,用D表示。某题型的区分度用该题的得分与总分之间的相关系数来表示。客观题的分析采用Spearman等级相关计算其与总分相关系数;主观题的分析使用Pear-son相关。整张试卷的总体区分度为各题型区分度与该题满分的乘积之和,除以100。D≥0.4为优;0.3≤D<0.4为良好;0.2≤D<0.3为一般;D≤0.2为差题。
1.4统计分析
将所有参加考试学生的各项得分和总得分输入计算机,使用Excel2010和SPSS20.0完成分数的录入和相关统计分析,检验水准α=0.05。
2结果
2.1成绩分布
共856份试卷得分参与本次分析,其中最高分98分,最低分14.5分,平均成绩为(78.04±12.06)分,及格率达到91.59%。学生成绩呈负偏态分布。试卷题型分为主观题和客观题两大类,
2.2试卷信度、难度和区分度
信度分析输出结果为Cron-bach’sα=0.776。难度分析显示试卷总体难度系数为0.78,难度最大的题型为多选题,难度系数为0.27;难度最小的题型为名词解释,难度系数为0.84。区分度分析显示试卷总体区分度为0.73,其中简答题区分度最优秀,D值为0.83;多选题则相对稍差,D值为0.48。试卷各题型难度与区分度的分析结果
转载请注明出处学文网 » 数学考试分析总结模板