心理测试论文第1篇
关键词手术室音乐心率变异性生理
Operting-theaterMusicHeartrateVariabilityPhysiology
音乐是种特殊的语言,有时可帮助改变人的行为举止。美妙动听的乐曲不仅可使人精神愉悦,而且可在生理上产生一定的影响。我院手术室自1997年12月开始对820例手术病人播放背景音乐,经随访满意率达到95.7%。为进一步探讨音乐对人体的生理作用,我们在国内率先对22例行甲状腺切除手术病人进行血压、心率、心率变异性的测试,观察音乐对手术病人的植物神经系统影响和病人情绪变化,结果报道如下:
1、临床资料
本组22例病人:男7例,女15例,年龄16-62岁,平均年龄42岁。麻醉选择:全麻3例、颈丛麻醉19例。文化程度:大学2例、高中(中专)12例、初中7例、文盲1例。
2、方法
2.1测试项目:用Spacelabs多功能监测仪监测收缩压(SBP)、舒张压(PBP)、平均压(MAP)、心率(HR);用HDX-I型多功能监测仪测定心率变异性(HeartrateVariabilityHRV)各项指标:低频成分(LF)、高频成分(HF)、低高频均衡性(L/F)、总频谱(L+H)。
2.2测量方法:病人进手术室即刻测量HRV上述各项指标,接着在不听音乐的情况下5min、10min、15min各测量一次,然后开始播放音乐,听音乐后同样在5分钟、10分钟、15分钟各测量一次。音乐选择慢节奏、抒情、流畅的轻音乐,曲目基本相同。为避免术前镇静剂的影响,本组病人测试前均不用术前用药。
3、结果
3.1血压、心率变化:没听音乐情况下,血压、心率所有指标与基础相比较P值均>0.05。听音乐前后血压无明显改变。听音乐前心率无明显差异,但在听音乐后5分钟、10分钟时逐渐减慢、15分钟时心率减慢明显,与听音乐前及基础值相比,P值<0.05。
3.2HRV各项指标:反映心交感和迷走神经活性的低频成分(LF),听音乐5分钟时P值为0.05;10分钟时P值为0.019;15分钟时P值为0.0048,与听音乐基础值相前比较有显著意义。高频成分(HF)受迷走神经张力的调节,是迷走神经活性的指标。当听音乐到15分钟时,其P值<0.037。总频谱(LF+HF)听音乐15分钟时,P值<0.04。与听音乐前基础值相比较都显示有显著差异。高低频均衡性指标(LF/HF)听音乐前后无显著改变。
4.讨论
4.1心率变异性特性心率变异性是指逐次心搏间期的微小差异,它产生于自主神经系统对心脏窦房结的调制,使得心搏间期一般存在几十毫秒的差异和波动。迄今已有大量研究揭示,HRV正常心血管系统稳态调节的重要控制,反映了心脏交感迷走神经活动的紧张性和均衡性。近年来,围术期心率变异性(HRV)的研究已开始得到关注,围术期创伤、应激等多种因素均可影响病人的自主神经系统,使HRV出现显著改变[1]。HRV分析方法为深入了解围术期自主神经活性与均衡性的改变及其与各种因素的互动关系提供了一种新的定量测试手段。
4.2心率变异性分析方法HRV的分析方法主要有时域分析法和频域分析法两种。时域分析法计算较简单,指标意义直观,但灵敏度、特异性较低,不能进一步区别交感或迷走神经的作用及均衡性。故在围术期HRV的研究中使用较多的方法是频域分析法即心率功率谱分析法(heartratepouerspectrum,HRPS)。本组实验采用频域分析法。另外HRV的变异性很大,个体差异非常明显,但每个个体在整个过程中的变化均有一定规律,故本组实验采用自身对照法。
4.3.1心率变异性测试结果分析从测得的各项指标进行分析,当病人听音乐后,血压无明显改变,心率逐渐减慢,LF、HF、LF+HF指标与听音乐前比较都显示有意义下降,说明交感和迷走神经活性,随着播放音乐时间的增加而逐渐降低,从而显示整个植物神经系统兴奋性减弱。由此可见,优美、动听的旋律,通过听觉产生美感,会使人产生安宁、愉悦的心情[2]。在手术室紧张环境中应用音乐疗法,可缓和交感神经的过度紧张,促使感情、情绪镇静化。有利于稳定病人情绪和手术顺利进行。美国新泽西州一家医院新近的一项研究结果同样表明,给在外科候术室等待手术的病人播放他们喜爱的音乐,可有效地减轻其焦虑和紧张情绪[3]。
日本东京女子医科大学日本心脏血压研究所曾报道[4],对47名进入ICU3-5d后出现心肌梗塞及不稳定心绞痛的患者进行音乐欣赏疗法。其采用植物神经活动和心率变化的频率数进行分析,其结果显示付交感神经活动指标的高频率成分在用音乐欣赏法后呈有意义上升,交感神经活动的低频率成分和高频成分的比值则有意义地下降。提示用音乐欣赏疗法可使交感神经活动系统活动减少,副交感神经系统活动增加。而我们测得的结果是高频成分和低频成分同时有意义下降,本组高低频均衡性指标无显著差异,更进一步说明整个植物神经系统兴奋性下降。
4.3.2在随访过程中有位当教师的病人反映,过去只听说国外手术室有播放音乐,没想到国内手术室也有播放音乐,真是太好了。她还说:***疾病应心理、生理与音乐相结合;术前、术中听音乐可放松紧张情绪,十分符合其需要。播放音乐对病人生理作用的研究,我们尚在探索中。副交感神经变化不大可能由于室内环境时有干扰的缘故。另外音乐对不同文化层次的作用,可能有所差别,有待今后积累病例,进行专题讨论。
心理测试论文第2篇
心理测试技术是一门新型技术,发展历史短,我国在此方面经验尚不够充足,无论从理论还是从实践情况来看,其发展并不成熟,心理测试结论在刑事诉讼中的应用仍存在一些问题,在笔者看来主要表现在以下几个方面:
(一)心理测试结论法律地位不明确,立法现状与司法实践脱节1999年,最高人民检察院在《批复》中规定,在检查阶段,可以使用CPS多道仪心理测试鉴定结论帮助审查、判断证据,但不能将CPS多道心理测试鉴定结论作为证据使用。最高人民检察院对测试结论的能证性表示怀疑,认为心理测试结论不属于刑事诉讼中的证据种类。因而在实践中出现了这样的问题:一方面,侦查人员、检察人员运用心理测试结论帮助其审查案件,测试结论在刑事诉讼中被司法机关大量使用;另一方面,由于法律对于心理测试结论在证据使用方面并没有明确规定,对于测试人员的资质、测试仪器等方面都缺乏有效的法律规范,因此其在刑事诉讼应用中处于无序的状态,在实践过程中出现心理测试结论使用混乱的问题,没有明确的法律制约心理测试结论的使用。
(二)测试仪器种类繁多,缺乏统一规范当前,我国生产心理测试仪的厂家较多,同时心理测试仪的种类繁多。它们分别为北京同方神火联合科技发展有限公司自主研发的TH、TH一U、TH一R和LY一I型系列心理测试仪、中科院自动化所心理测试工程中心研发的PG系列心理测试仪。其中,由北京公大九鼎心理测试技术中心推出的PGA2000型心理测试仪,是原PG99的改进型,减少了三个旋钮。除了自主开发的以外,我国还从境外引进的国外仪器,这些仪器虽然在制造的原理上相同,但是由于缺乏统一的制定标准,心理测试仪器还是存在一定的差别,我国尚未对测试仪制定标准进行立法,这就导致了测试仪在司法实践中使用非常混乱,不同的心理测试仪得到的结论可能不同,影响法官对案件的判定,这违背了心理测试技术的严密性和科学性,影响了公众对于心理测试结论作为证据的认同。
(三)测试人员缺乏专业培训,素质参差不齐犯罪心理测试有较强的专业性,在国外通常要求心理测试人员具有犯罪学、心理学等相关专业知识背景,并必须通过统一的行业知识和技能考核才能上岗。然而目前我国的情况是对心理测试人员并没有严格的限制,对其学历、专业知识也没有具体的规定,大部分测试人员经过心理测试仪器公司的短暂培训就上岗了,并没有统一的从业资格考试。据统计,我国统计测试人员在册的测试人员有80%以上没有接受过正规系统的培训,由于他们没有接受过心理测试技术人员的专业指导,同时缺乏专业人员资格考试,这就造成了心理测试人员的素质参差不齐,导致测试结论有失偏颇,更有甚者一些测试人员为公安干警,他们既是司法人员又是测试人员,在测试过程中,很容易夹杂个人的主观因素,影响案件的公正客观性,违背了心理测试技术严谨性、科学性的要求。
二、心理测试结论在刑事诉讼应用中的立法规范
(一)明确心理测试结论的法律地位,规范心理测试法律体系首先,应该在刑事立法上肯定犯罪心理测试活动是一种司法鉴定手段,使其在刑事法律的层面上得到确立和规范。其次,也要立法明确犯罪心理测试结论的法律地位,使其公信力不受到质疑,同时在法律层面上对其加以引导和定义,明确心理测试结论的证据效力属性及其法律地位,改变目前心理测试结论在法律上十分尴尬的地位。同时对心理测试法律体系加以规范,构建统一的技术规范和强制性法律规定。特别是在刑事侦查领域,犯罪心理测试结论的应用非常广泛,被大量使用于刑事案件的侦破,是一种有效的技术侦查手段。同对测试结论在侦查办案过程中所处的地位、应用的范围、发挥的作用和限制使用的情形也要在立法上予以明确。
(二)严格规范心理测试仪器,制定国家统一标准通过制定法律和行***法规,规范心理测试仪器生产公司,设立测试仪的统一生产标准及技术参数,监督其生产程序。同时,设立研讨会,更新心理测试技术理论,为生产公司与科研单位之间的技术交流提供机会,打破理论与实践的不统一局面。进一步研究心理测试的理论知识,由司法部门指定相应的科研单位对心理测试技术进行探索,结合我国的国情及典型案件,改变单纯运用西方理论的局面,开发适合我国的心理测试仪器。同时要确定心理测试仪生产章程,明确心理测试仪的组成及功能,对心理测试仪器的发展提供规范和指导,对尚未成熟的生产公司应给予技术指导,保证心理测试仪器的科学性及测试结论的准确性。
心理测试论文第3篇
摘要:犯罪心理测试在侦查阶段具有重要的作用,但是其所得的犯罪心理测试结论能否在庭审中作为证据使用在理论界具有很大的争议,绝大数学者认为其可以作为鉴定结论使用,但是随着新的刑诉法修正案将鉴定结论改为鉴定意见,这便更加使犯罪结论能否作为鉴定意见使用的讨论更加的激烈。本文认为犯罪心理测试结论可为证据使用,但是在使用中必须严格限制条件。
关键词:犯罪心理测试;鉴定意见;犯罪心理测试结论;刑事诉讼
一、犯罪心理测试技术的科学性
犯罪心理测试技术是以生理学、心理学、电子计算机学等学科的研究成果为基础的, 其核心原理在于“心理刺激与生理刺激反应的对应伴生关系”, 即只要有某种心理刺激, 就会有相应的生理反应出现, 并且这种反应是不依人的主观意志为转移的。
(一)犯罪心理测试的理论基础。
犯罪心理测试技术从理论上讲所依据的基本原理是心理刺激所触发的心理生物反应。因此美国明尼苏达州医学院心理学教授莱克肯认为: “……真正能测出谎话的仪器是没有的……罪犯和无辜, 两者之间心理上的重要差异, 仅仅在于一个当犯罪发生时, 他在现场, 他知道那里发生了怎样的事, 在他的心理装着当时当地的景象, 而另一个无辜者, 则一无所知。”[1]
(二)犯罪心理测试程序的规范性。
犯罪心理测试技术分为六大阶段技术: 犯罪心理痕迹动态分析描绘技术、测试的编题阶段技术、测前心理访谈技术、实测阶段、观察和同步评***阶段和测后谈话和审讯阶段。[2]了解它的基本程序, 不仅是了解测试过程的开始, 而且是把握测试本质的基础。
二、犯罪心理测试技术在侦查阶段的运用
(一)有助于及时、准确的排除无辜,提高办事效率,缩小排查的范围。
在前期侦查工作没有收集到能够认定何人与犯罪有关的证据,而侦查范围又相对明确的犯罪案件,如直接进行正面审查,作案人和无辜者都会极力辩解,否认与犯罪有关,其陈述难以查证或虽能查证但需花费大量的人力、物力时,使用心理测试技术,可以迅速排除大多数无辜者,筛选出重点嫌疑对象,大大提高侦查效率。
(二)有助于讯问中瓦解犯罪嫌疑人的抵抗的防范心理。
在测试过程中,测试人员通过说明和反复强调心理测试的科学性、客观性、公正性和有效性,并利用犯罪嫌疑人对心理测试技术的神秘感,使其感到心理测试仪器是不容欺骗的,担心自己的谎言被识破,从而加重了心理压力,然后再结合***策教育和使用证据等方法,促使犯罪嫌疑人动摇瓦解,及早交代问题。实践中,确有一些犯罪嫌疑人在测试中或测后不久就交代了罪行。
(三)甄别口供或证词真伪。
侦查过程,口供与口供、口供与证词或其他证据之间存在矛盾是普遍现象。当某些矛盾难以用传统方法查证时,如同一案件对同一问题口供截然相反,或犯罪嫌疑人和被害人对同一事实各执一词,又无其他证据证明时,可以借助心理测试技术帮助审查判断证词与口供的真伪。
三、犯罪心理测试结论的证据属性
最高人民检察院认为,CPS多道心理犯罪测试(俗称犯罪心理测试)鉴定结论与刑事诉讼法规定的鉴定结论(新的刑事诉讼法修正案将鉴定结论修改为鉴定意见,只是名称的修改,并未对其内容进行实质性的修改)不同,不属于刑事诉讼法规定的证据种类。所以目前很多学者主张“有限采用规则”。[3]
目前, 我国刑事诉讼法第四十八条规定,可用来证明案件事实的材料,都是证据。证据包括:(一)物证;(二)书证;(三)证人证言;(四)被害人陈述;(五)犯罪嫌疑人、被告人供述与辩解;(六)鉴定意见;(七)勘验、检查、辨认、侦查实验等笔录;(八)视听资料、电子数据。证据必须经过查证属实,才能作为定案的根据。既然把证据分为八类,而不承认其他证据的法律效力。犯罪心理测试结论究竟应划归为哪一类? 对此必须作出明确的回答, 因为这牵涉到测试结论的合法性问题及其他相关法律问题。笔者认为,犯罪心理测试结论应归为鉴定意见, 这是由测试结论的本质特征和鉴定意见的本质特征决定的。从证据学的意义上说, 鉴定意见是指鉴定人根据公安司法机关的指派或者聘请, 运用自己的专门知识和技能对案件中需要解决的专门性问题进行鉴定后所作出的结论性判断。当然, 这里所说的鉴定人是指具有完成有关鉴定活动所需专门知识和技能的自然人。
作为一项高科技手段目前, 犯罪心理测试技术已被广泛应用于美国、日本等50 多个国家的刑事及司法活动中。美国是世界上运用此技术最广泛的国家, 在对犯罪心理测试结论的可采性经历了由“普遍接受”标准到“综合观察”标准的转变之后, 现有36个州法院和9 个联邦法院承认犯罪心理测试结论的证据能力, 并将其作为专家意见纳入科学证据之中。[4]日本、罗马尼亚等国家也已经批准犯罪心理测试结论作为诉讼证据使用。[5]
四、理性的对待犯罪心理测试技术
犯罪心理测试技术的应用范围有从侦查阶段扩展到审判阶段的趋势,但是由于受到刑事诉讼法律的影响以及测试技术水平的限制,目前犯罪心理测试技术主要运用于刑事侦查阶段,在审判阶段微乎其微。在审判阶段还是对心理测试技术采取的限制态度,要想在以后的审判阶段采取犯罪心理测试技术结论应该进行严格的审查,本人认为最起码应该遵守以下规则:
(一)对犯罪心理测试机构和犯罪心理测试员的要求。
犯罪心理测试鉴定具有主观性,与司法鉴定活动大体相似,因此测试实施主体的中立与客观至关重要,这不仅仅是防止主观先入为主,更是完成排除无辜者,尊重受测对象自由意志的需要。
(二)严谨将犯罪心理测试代替侦查。
由于犯罪心理测试仪采集的是测试对象基于心理变化引起的生理变化数据,而测试对象越接常的自然状态,其生理变化数据越真实,因此,测试对象无论是犯罪嫌疑人还是其他知情人,测试应在讯问或询问前进行。在案件缺乏其他证据的情况下,仅仅依赖于犯罪心理测试得出对受测人不利的结论,这种测试结论是不能在诉讼中运用的。
参考文献:
[1]杨道金 张泽民 中国刑侦测谎大揭秘 北京 中国文联出版社
[2] 武伯欣. 中国犯罪心理测试技术理论论纲[J].中国人民公安大学学报,2003
[3]何家弘 《犯罪心理测试结论与证据的“有限采用规则”》,《证据法学论坛第五卷》,中国检察院出版社,2002年版。
[4] See A ndrew R. Sto lfi,W hy Illino is should abandon frye’s general accep tance standard fo r the adm ission of novel science evidence, 78 Ch i. - Kent. L. Rev, 89 (2000) .
心理测试论文第4篇
关键词:RFID测试;典型应用;共性技术
中***分类号:TN711 文献标识码:A
RFID技术在各个领域得到了广泛应用,目前,各国都在积极开展RFID技术和设备的测试工作,为了从容地参与国际竞争,我国***府和相关企业也应开展对RFID产业化中的测试理论、典型应用和共性技术的理论研究。
对RFID测试理论部分的研究,国内外研究的尚不多见,研究成果不多。随着RFID技术的日益成熟,应用范围的日益广泛,学术界对RFID测试理论研究有了新的认识,目前学术界对RFID测试理论研究主要体现在如下几个方面:
1、国内外RFID测试中心的建立
金青松在RFID产品与系统测试研究[1]一文中对国外RFID测试中心进行了描述,由于巨大利益的驱使.Sun、IBM、UPS、Microsoft等IT和物流行业巨头已经重金投入对RFID的测试和解决方案的开发。
美国联合包裹服务公司(UPS)目前正在进行多项RFID测试。UPS公司把RFID旧货运标签放在可重复使用的集装箱中,这些集装箱用来装运小型或形状不规则的货物,结果发现在不规则形状的包裹上使用RFID旧标签可以提高读取速率。RFID标签被放置在车辆上以测试在不同的天气条件下标签的工作情况如何以及在不同的车辆速度和阅读距离下.RFID获取信息的准确度如何。
IBM也在美国马里兰州兴建了RFID测试中心,并宜布这个测试中心可作为沃尔玛等各家厂商将RFID导入例行操作之前的测试场地。Sun则在整合了硬件、软件和服务后推出了多层的Sun EPC网络架构,并在全球各地部署了多个RFID测试中心。
随着RFID技术的成熟,RFID技术应用也给中国带来了巨大的商机和挑战,我国已经开始着手建立自己的RFID测试中心,其中有中科院自动化所的RFID研究中心、上海复旦的Auto-ID中国实验室,国家RFID检测中心以及相关行业公司的演示中心等。
(1)中国科学院自动化研究所RFID测试实验室
中国科学院自动化研究所RFID研究中心与北京中交国科物流技术发展有限公司在国家863计划支持下建立了国内首个部级RFID测试实验室,目的是在较为完善的实验条件和环境下测试RFID关键技术的多项可靠性指标,最终总结出可靠性测试的评测体系,为进一步的研究工作提供基本数据并引导研发方向。目前实验室已经以RFID技术在物流行业为出发点,首先建立了一个面向物流应用的测试环境,包括物流领域中智能仓库、商品配送、运输管理等多个模拟环境。
(2)Auto-ID中国实验室
上海复旦大学专用集成电路与系统国家重点实验室的Auto-ID中国实验室建立了一个开放的RFID演示平台,可结合应用中出现的问题进行理论分析和基础研究,为建立EPC国际标准和中国RFID标准提供参考依据。整个演示系统包括一个完整的供应链业务场景所需的两个场所(制造商分销中心或发货仓、零售商分销中心或受货仓),每个场所具有一个通道和至少两个侧门,不同的样品将贴上RFID标签通过这个通道。通过评估RFID标签和侧门的工作性能和样品材料之间的干扰,为标准制订和产品设计提供有效的参考。
(3)国家RFID检测中心
国家RFID检测中心是国家为RFID产业的健康发展和RFID应用的有序推进而建立的权威性的第三方检验机构,这也是完善我国RFID产业链的重要举措,将为我国RFID产业健康有序的发展起到积极的监督保障作用。中心已经初步具备了一些条件,如跟踪相关产品标准、检测方法、检测设备的技术人员;拥有固定的满足产品检验要求的实验室环境和设施;满足相关产品检验、符合标准要求的部分检测仪器设备。
2、RFID测试技术研究
沈剑 RFID在测试中的计算机仿真研究的硕士论文中[2]阐述了RFID测试可分为技术测试和应用测试并对技术测试和应用测试进行了分类。RFID技术测试主要测试RFID产品的性能、参数指标、可靠性等,包括硬件(各种RFID天线、RFID读写器、RFID标签、RFID打印机等等)和软件(RFID中间件、集成平台、信息系统等等)测试。RFID应用测试主要是指在不同的具体环境中应用所进行的测试,具体是指在接近实际应用环境的场景下,对RFID实施方案进行测试。
RFID应用测试一般主要内容包括以下部分:
1.RFID应用中不同材质对电磁信号的影响及其解决方法;
2.RFID应用流程与解决方案的测试验证;
3.RFID设备部署方案的测试验证;
4.RFID系统架构的测试验证;
5.参数可控、可模拟现场物理应用的测试平台;
6.RFID与无线网络技术的跨网组网测试。
3、国家863项目RFID测试理论研究
本文以国家863项目《面向典型应用的RFID测试方法研究及系统开发》(项目编号:2006AA04A105)的RFID测试理论研究为基础,在综合国内外RFID测试中心和测试理论研究的基础上,初步开展了RFID测试理论研究。本研究的重点放在交通行业和物流行业的RFID应用测试上,将RFID应用技术演示平台和测试技术研究集中在交通和物流行业。
交通,物流行业RFID解决方案测试
通过研究仓储系统,车辆管理系统业务流程中RFID应用的特点,按照关键作业点将仓储系统,车辆管理系统进行场景划分,对每一个场景提出测试方法和测试指标,在场景测试的基础上进行流程级别的测试。达到测试交通行业RFID 应用解决方案的目的。
交通、物流行业中RFID相关设备性能测试
由于交通行业的业务特点具有跨区域的流动性,RFID相关设备的性能在不同的环境下会有变化,选择具有适应性强的设备和标签具有实际的意义。为此开展了环境耐受性测试,通过模拟不同气候下设备的使用性能来测试设备的适用性。
通过分析仓储系统和车辆管理系统的业务流程,比较使用RFID技术前后业务流程的变化,建立起演示系统,在演示系统的基础上,进行测试系统的开发。[3][4]
4、结束语
我国RFID测试理论研究尤其是结合具体应用环境的测试理论研究还处于起步阶段,存在研究水平不高,研究深度不够等诸多问题。国家863项目《面向典型应用的RFID测试方法研究及系统开发》(项目编号:2006AA04A105)的RFID测试理论研究为RFID测试理论研究奠定了一定的研究基础,必将推动RFID测试理论研究向前发展。
基金项目:
国家863项目《面向典型应用的RFID测试方法研究及系统开发》(项目编号:2006AA04A105)
参考文献:
[1] 金青松RFID产品与系统测试研究【J】解决方案 2006,(3)P1-2 .
[2] 沈剑 RFID测试中的计算机仿真研究【D】2007(12)P6
[3] 唐辉等《面向典型应用的RFID测试方法研究及系统开发》【R】2007:P 6-21.
[4] 张同亮RFID应用测试863项目建设方案讨论稿【R】2009(11):P1-8.
心理测试论文第5篇
关键词:心理计量学;试题反应理论;测验与评量;测验与统计
中***分类号:B841.2 文献标识码:A 文章编号:1003-5184(2012)05-0466-07
1 序言
笔者(本文第一位作者)于公元1991年6月回到台湾,在***治大学教育学系服务。旋即于《测验与辅导》与《研习信息》(1991a,1991b)期刊上,投稿发表留学美国的简短学习心得《测验理论的发展趋势》,以介绍当代心理计量学(psychometrics)在欧美国家的发展状况。后来,由于受到重视,复应邀在训育委员会委托***治大学心理学研究所承办的“心理测验之学术及实务研讨会”学术会议上,正式进行详细的论文宣读(1992)。
笔者在此,再次扼要地重点回顾该次大规模文献评阅的结果与心得如下,以作为本文的引言:(1)测验理论派别:两大一小。测验理论分古典测验理论(classical test theory,CTT)与试题反应理论(item response theory,IRT)等两大派学说理论,以及一派较小规模的推论力理论(generalizability theory,GT)。前者的使用人口较广,理论较被熟悉,相关研究文献较多;而后者的接触人口较窄,理论较为陌生,相关研究文献较少。
(2)代表人物及其著作。Gulliksen(1950,1987)的专著是古典测验理论之始;Cronbach,Gleser,Nanda和Rajaratnam(1972)的专著是推论力理论之起源;而Lord(1980)的专著则是试题反应理论的滥觞。其实,上述各家学派理论的发展,并不是断然没有交集,至今,他们仍然是并存的。
(3)两本重量级的经典作品。一为美国加州 Annual Review 公司所出版的《心理学年度评论》(Annual Review of Psychology)年刊,另一为美国心理学学会(American Psychological Association,APA)所出版的《教育测量》(Educational Measurement)。前者,约每隔四至五年,即针对过去几年间有关心理计量学领域的某个研究主题文献,进行整理和评阅,并提出该主题的研究发展现况与趋势之说明。后者,乃有心理计量学食谱(cook book)或百科全书(encyclopedia)之称,约每隔二十年,即针对过去二十年来整个心理计量学的重要领域研究文献,进行整理和评阅,并提出发展趋势的回顾与展望;第一版于1951年发行,第二版于1971年发行,笔者毕业(1991)时,则刚出版第三版,由Robert L.Linn教授所主编(Linn,1989),而最近一版是第四版,则由Robert L.Brennan教授所主编(Brennan,2006)。
(4)两个发展趋势。在该次学术会议上,笔者归纳文献后,提出测验理论有两大发展趋势的看法,那就是:理论的发展愈趋向数学化,理论的应用愈趋向计算机化。
(5)三个发展方向的未来建议。笔者亦于当时提出心理计量学未来可朝下列三个方向发展下去:1)建立多向度试题反应模式(即multidimensional item response theory,MIRT)及其参数估计所需的计算机程序;2)计算机化适性测验(computerized adaptive testing,CAT);3)结合认知科学的研究,往认知诊断测验或评量(cognitively diagnostic assessment,CDA)领域发展。而此三个领域,正是当前(从公元1991年~至今)心理计量学领域中,正发展得如火如荼的研究议题与方向。
上述重点评论,后来均被收录引用在笔者的专书著作《教育测验与评量:成就测验与教学评量》(1997,2002,2011)及《试题反应理论(IRT)及其应用》(2009)里。笔者根据有关测验与评量发展史的文献评阅结果,归纳提出近百年来有关测验与评量的发展趋势如下:
(1)能力或成就的评量观点,已由传统重视单一心智能力或成就评量的纸笔测验,逐渐走向强调多元心智能力或成就评量重要性的实作评量;
(2)命题、测验编制,及施测方式,则由原本盛行的人工化复本测验,逐渐走向题库式的计算机化适性测验;
(3)测验结果的解释与做成决策,则由原先强调常模参照测验的用途,逐渐趋向重视效标参照测验的应用;
(4)测验理论的发展与应用,亦愈发趋向重视数学化和计算机化的结合。
本文的目的,即在序文的背景下,评阅近二十年来(从公元1991年笔者回台至今),心理计量学文献出版数量在台湾测验学界发展情况的回顾与展望,以作为海峡两岸学术交流的信息桥梁。
2 相关文献资料的检索
为了进一步探索这二十年来,心理计量学的研究在台湾的发展情况,笔者检索台湾现行的两大研究文献信息检索系统:一为台湾期刊论文索引系统,另一为台湾硕博士论文索引系统。前者为国家科学委员会所出资建置,后来统一委由国家***书馆负责管理,后者则为国家***书馆所出资建置并负责管理。从这两个信息索引系统中,最可以窥见这二十年心理计量学领域的学术研究在台湾的发展情形。
由于每位作者所使用的关键词未必一致,甚至对论文主题的归类,也有译名不一、类别不一、甚至到了众说纷纭的程度。因此,笔者依据书目索引的表达方式,将心理计量学列为待检索的关键词(key words),并将其相关的译名及可能归属的类别名称,如:测验与评量、教育统计、试题反应理论(IRT)、测验与统计等,凡出现在所检索的论文标题、关键词,及摘要等范围里,通通列为检索的对象。兹分别针对上述两个信息索引系统进行检索,并将检索结果呈现在表1和表2以及***1到***4里,笔者再于后续文章里针对此检索结果进行说明。
2.2011年度篇数偏少,可能是尚未完整上传建档所致。
3.检索日期:2012.8.12.
2.国家***书馆于公元2010年,将中华民国期刊论文索引系统改版,分为台湾期刊论文索引系统和HyRead台湾期刊论文数据库。
3.检索日期:2012.8.17.
从表1和表2所示可知,心理计量学在台湾学术发展的情况,确实有逐年成长的趋势。然而,相对于二十年来,整体研究人口的成长趋势来看,心理计量学还是属于相当冷门的学科。所谓的冷门,即是指这领域的研究人口,相对于整体研究人口的成长数量来看,比例是相对偏低的。由于可能撰写有关心理计量学领域的学术论文者,多半是毕业自教育学门或心理学门的人才,表3所示即为二十年来相关学门毕业的硕博士研究人口的成长情形。若以表1和表2的数据相较于表3来看,可知学位论文或期刊论文的产出比例(以每年度的硕博士学位论文数或期刊论文数,除以每年度毕业的硕博士人口数之比例)是相当低的,因此说,心理计量学在台湾算是一门冷门的学科。
2.心理学门包含在社会及行为科学学门里计算,没有单独列成一类。
3 对过去的回顾
中国测验学会算是台湾历史悠久的学术团体之一,所出版的学术性刊物《测验学刊》,至今(2012年)已历时五十九年,可说是历史久远的学术性刊物之一。该刊物算是目前台湾心理计量学领域论文的主要出版园地,但由于论文归属的分歧,心理计量学一词在台湾并没有统一的译名与界定范围,因此本文所检索的关键词就包含了其它可能归属的名称,如:测验与评量、教育统计、试题反应理论(IRT)、测验与统计等。所以,本文采用较为广泛的检索方式,凡出现在所检索论文的标题、关键词,及摘要等范围里的论文篇数,统统列为检索的对象。虽然这种检索方式无法做到十分精确,但长远看来,却也反映出长期的发展趋势。
一门学术领域的发展,若能配合***府施******策的推动,将能如火如荼地进展与发展茁壮;以美国为例,当布什***府推动“带好每一位孩子法案”(No Child Left Behind Act,NCLB法案)时,即带动心理计量学的学术蓬勃发展,并且造成这方面人才供不应求的情形,即为明显的一例。回顾这二十年来,台湾有一项考试方式的变革,与心理计量学的发展最具有息息相关,那就是台湾***在2001年推动国民中学基本学力测验(简称国中基测)的升学考试变革***策,但该***策的推动结果,却没有获得如美国推动NCLB法案那般促进心理计量学发展的效果。
国中基测是台湾近二十年来,为改进高中升学考试方式所建置发展的大型测验题库(余民宁,2004)。原先即以效标参照测验(criterion-reference testing,CRT)观点设立,并以Rasch模式作为建置与计分的理论基础,初期建立各考科为1分至60分的量尺分数,现在已改为1分至80分的量尺分数。这种考试方式的变革,虽然启用了新式的测验理论(即IRT中的Rasch模式),但却缺乏全面引用欧美的专业测验制度与配套措施(如:试题回收,不再公告题型与答案等),而仅将传统100分制的考试得分,透过beta binominal transformation计分公式变成60分制或80分制的特定量尺分数,而不是采用国际上常用的量尺分数(如TIMSS或PISA等大型数据库的学业成就评比所使用者——以250分为平均数,标准差为50分的量尺分数),结果一来徒增民众认知与习惯上的困扰,二来却没有达到当初教育改革的目标之一:降低学生的考试压力,却反而增加升学的考试压力。因此,在下一轮的教育革新中,***拟于2014年起推动十二年国民基本教育时,即实行免试升学的方式,届时,推动十余年的国民中学基本学力测验将转型成国中毕业会考(各学科的学习成就仅分成三等级,不再使用量尺分数),不再是国中毕业生升学高中或高职的考试依据之一。国中基测的升学考试方式,届时将再由现行的常模参照测验(norm-reference testing,NRT)做法,转变回到原先预设的效标参照测验方式。
笔者省思评估此一考试方式的变革,无法像美国推动NCLB法案一样,一举推动让心理计量学成为台湾测验与评量中的主流学说,其原因有下列几点:
(1)台湾民众被传统的考试习惯所左右,认知观念已经积重难改。例如,传统的考试习惯是:考试完毕即公布试题和答案,且采用百分制计分,答对几题可以得到几分是大众可以自己计算得知的事。然而,心理计量学是一门很专业的学问,尤其是IRT的理论和应用更是如此,像国中基测如此的新式测验方式,其考题的研发系将定锚试题(anchor items)透过严谨的等化(equating)与衔接(linking)设计程序,将不同校准过(calibrated)试题参数的考题,建立在一个相同量尺上的测验题库后,再抽题组卷成当年度使用的考试题目;如此严谨、复杂、专业的作业程序,已远远超过传统考试制度的做法。但考试传统上考试完毕即公布试题和答案的做法,却正好危害到该题库的安全性与专业性,造成它在题库试题逐渐用罄之后,已成为与传统考试没有两样的测验方式。
(2)补习班及报章杂志的宣传广告、家长们对子女升学的看法,与明星学校的光环等价值观的扭曲,反映出民众认为考试不是一件专业工作的认知,这才是造成心理计量学发展的真正瓶颈所在。由于学校考试频繁,补习班、学校、出版社所出版的测验卷价格低廉,测验试题多半是剪辑自坊间的考试参考书、过去的考古题,或教师不用心命题的题目,且多半都是依据古典测验理论且采用传统百分制计分方式的考试,这些举动造成民众对心理计量学专业形象的误解,间接认为考试不是一件专业工作,不需要像IRT那么复杂的理论依据与专业做法,也可以把考试工作办好。所以,愈发强化民众对考试传统习惯作法的认知,造成新兴的测验理论(如IRT)甚难在台湾的测验与评量领域中生根与发展。
(3)考试方式变革的目的与手段不一。当初国中基测的设计目的,是在评估***推动九年一贯课程教育改革是否有达成既定的目标成效,因此是立基于效标参照测验观点所建置发展的,而不是在作为升学考试之用;因此,才会引进严谨的Rasch理论模式,作为建置题库、测验,与计分的依据,并以此作为教学诊断、补救教学,与改进课程纲要参考之用。然而,因为推动此方案的部长过于鞠躬尽瘁而死于任内,后继的部长不明原委,乃将它拿来作为改良式的升学考试之用,实施十余年下来,结果造成学生的考试压力不降反升的现象,台湾民众对此***策措施的批评声浪不断。
除了国中基测是***策性推动的考试变革之外,二十年来,台湾的高等教育虽然也蓬勃发展,攻读心理计量学领域的人口也有缓步增加的趋势,但专责考试业务的机构(如:大学入学考试中心、四技二专入学考试中心、考选部举行的各种国家考试等)多半仍以古典测验理论作为主流的传统考试方式,致使专攻当代测验理论(如:IRT)的人才就业状况不胜理想,且民间企业对此领域人才的需求量又不大,这也都是间接造就此领域成为冷门科学的原因之一。
由于上述几点原因可知,心理计量学在台湾的发展,已然错过许多可以成长茁壮的机会。现行考试方式在台湾的推行,可说是根深蒂固很久了,心理计量学学者在短短二十年间的努力,即想引进与推行西方新式的考试方式,可能不是那么容易做到,这还需要时间去倡导与教育民众,以及耐心的等待才行。
4 对未来的展望—代结论
在全球华人的地区,甚至受儒家文化思想影响下的亚太地区(包括:中国大陆、韩国、日本、台湾、香港、新加坡、东南亚及美加的华侨地区等),华人家长都把“接受教育”当作是促进子女往上层社会流动的一大关键所在。重视教育,是全球华人家长的共识。而如何评估子女的学习成就好坏,相较而言,当然只有诉诸于较为客观、公平、公正的考试制度。因此,全球绝大多数华人子弟的成长岁月,从小到大即是在读书与考试中度过的。华人对考试制度和精神的认知和熟识程度,俨然已融入成为中华文化的一部分,甚至已融入每一位华人的血液里,DNA里,想要一夕变革,谈何容易。
然而,心理计量学在欧美西方国家兴起,也不过才百余年的事。西方人藉由科学探究的精神,百余年来,已将考试方式变成是一门科学,虽然心理计量学对西方人来说也是一门冷门科学,但近二十年来,仍朝着笔者所说的数学化与计算机化趋势继续发展下去,这不得不令人佩服西方人探究学问的精神与做法!凡是主修心理计量学的人都知道,一项专业化的考试,从组成考试委员会,邀请专家命题,修审试题,分析试题,等化与衔接,题库建置,到最后的组卷施测等过程,都是相当严谨、繁复、专业化的程序,也都是在一群专家代表(含:学科专家、测验专家、资讯工程专家、行***官员、一般教师等)负责规划、监督,与执行之下,才能顺利完成的作业。但是,华人(甚或是亚太地区的人民)的想法可不是这样,他们对考试的传统看法,已经太过根深蒂固了,想要他们尝试不同的新方式做法,恐怕还需要一段时间才能适应、调整得过来。
兹举一例如下,即可说明此现象。过度重视考试与要求考试完毕即公布试题和答案的看法和做法。民众呼吁说“人民有知的权利。不公布考题的话,民众怎知考题的对错与好坏?”,这句话听起来似乎是没有错、很有道理,让考试主办单位很难拒绝考生这项要求。但这样的看法和做法,就不容易使考试成为一项专业工作,当代的新兴测验理论(如:IRT)便无法派上用场,考试就仍停留在原始的传统做法上。殊不知民众的这种呼吁,其实是以邻(愈晚参加考试的学生)为壑——也是造成学生考试压力不减反增现象的来源之一。历届考题都公布了,愈晚参加考试的学生所需准备的考古试题就愈多,花费在准备考试的经费、时间、压力就愈大,未来的考题为避免与考古题重复,便会愈出愈叼钻、愈偏离考试与评量的原本目标——最后倒霉受害的,还是愈晚参加考试的学生莫属。结果,读书与考试即消磨掉大半年轻学子的学习热忱与探究学问的精神,难怪国际数学与科学教育成就趋势调查(Trends in International Mathematics and Science Study,TIMSS)的国际评比结果显示,参赛的亚太地区代表(包括:韩国、日本、香港、台湾、和新加坡,除新加坡外)学生数理成绩表现优异(包办国际评比成绩的前五名),但却相对缺乏对学习数理科学的兴趣与热忱(Mullis,Martin,Gonzales,& Chrostowski,2004;余民宁,韩佩华,2009)。这种现象都是由于过度重视考试的结果,学校的考试太过频繁,且每次考试之后都公布答案和试题,考题的命题已然愈趋叼钻,考试已偏离评量的原始目的,造成学生应付考试的能力很强,但却无法体会学习与考试(评量)的目的为何,更不用说能否体会出学习的乐趣与培养出探究学问的精神与热忱为何,这些现象都将不利于未来人才的培育。
考试制度是中华文化的千年传统,说要变革,以全盘引用新式的测验理论观点,谈何容易。因此,展望全球华人的地区,想要把考试方式变成像西方国家一样的专业测验方式,可能还需要透过长期的教育和倡导,才能教化民众未来能够接受更专业、更科学、更效率化考试方式的变革,而这才是心理计量学未来能在华人地区蓬勃发展的契机所在。
致谢:本文的撰稿,笔者拟感谢行***院国家科学委员会101年度补助大专校院奖励特殊优秀人才之奖励经费的支持(补助文号:国科会101年7月30日台会综二字第1010050707号函)。参考文献
***统计处.(2012).2012年08月01日,取自http://edu.tw/statistics/content.aspx?site_content_sn=8956.
余民宁.(1991a).测验理论的发展趋势.测验与辅导,109,2186-2188.
余民宁.(1991b).试题反应理论的介绍(一)——测验理论的发展趋势.研习信息,8(6),13-18.余民宁.(1992).测验理论的发展趋势.国立***治大学心理学系研究所承办“心理测验之学术及实务研讨会”的学术会议论文宣读.台北:国立***治大学.
余民宁.(1997).教育测验与评量:成就测验与教学评量.台北:心理.
余民宁.(2002).教育测验与评量:成就测验与教学评量(第二版).台北:心理.
余民宁.(2004).从调查数据回顾基本学力测验的实施.中国测验学会主办“2004年年会暨教育与心理测验学术研讨会”木铎奖得主专题演讲及论文宣读.
余民宁.(2009).试题反应理论(IRT)及其应用.台北:心理.
余民宁,韩佩华.(2009).教学方式对数学学习兴趣与数学成就之影响:以TIMSS 2003台湾资料为例.测验学刊,56(1),19-48.
余民宁.(2011).教育测验与评量:成就测验与教学评量(第三版).台北:心理.
Brennan,R.L.(2006).Educational measurement(4th ed.).Washington,DC:American Council on Education.
Cronbach,L.J.,Gleser,G.C.,Nanda,H.,& Rajaratnam,N.(1972).The dependability of behavioral measures:Theory of generalizability for scores and profiles.New York:John Wiley & Sons.
Gulliksen,H.(1987).Theory of mental test.Hillsdale,NJ:Lawrence Erlbaum Associates.(Originally published in 1950 by New York:John Wiley & Sons)
Linn,R.L.(1989).Educational measurement(3rd ed.).New York:Macmillan.
Lord,F.M.(1980).Applications of item response theory to practical testing problems.Hillsdale,NJ:Lawrence Erlbaum Associates.
Mullis,I.V.S.,Martin,M.O.,Gonzales,E.J.,& Chrostowski,S.J.(2004).TIMSS 2003 international mathematics report:Findings from IEA’s Trends in International Mathematics and Science Study at the fourth and eight grades.Chestnut Hill,MA:Boston College.
Review and Expectation of Psychometrics Literatures in Taiwan from 1911 to 2011
Yu Min-Ning Chen Po-Lin Syu Jia-Jia Chao Pei-Ching
(Department of Education,National Chengchi University,Taiwan 11605)
心理测试论文第6篇
论文关键词:项目反应理论,计算机自适应考试
1.引言
项目反应理论(IRT)又称“潜在特质”理论,于20世纪50年代初正式成立,于20世纪60年代后期,伴随着计算机的发展而快速发展。IRT较经典测量理论来讲,样本***,可反复测量,又因为理论框架科学,应用范围广泛,是我国测量领域的热点。计算机自适应测量(CAT)是在项目反应理论基础上发展起来的一种新的测验形式。它不同于纸币测验,是以计算机为手段,测验试题的呈现和被试的作答是通过计算机完成,它又不同于一般计算机化测量,而是因人而异选题,根据被试能力水平自动选择试题,及时了解被试能力水平。
2.国内应用研究综述
我国著名心理学家张厚粲老师是自适应考试的先驱,她首先把IRT引入国内。江西师大“题库理论”组,编写《考生智能水平的自适应测验》时指出:自适应考试可以在不损害测验的信效度前提下,减少试题题量,缩短测验,提高测验效率。国内最早关于编制自适应测验的文献是出自江西师大。他们编制的高中数学水平测验,用于考察高中毕业生的数学智能水平。江西师大这个课题组还编制了参数估计程序和自适应考试程序。
在计算机适应测验选题策略上,2011毛秀珍,辛涛撰文做了全面探讨,选题策略是CAT重要组成部分,关系到策略信效度,效率等。有人在Science发表文章主张谨慎CAT高风险,原因是频繁使用质量较好的项目,会因为被试“分享”而削弱了测验的效率,针对传统的选题策略不足,2012罗芬、丁树良、王晓庆提出了利用区间估计思想,将两级评分推广到多级评分以改进最大信息量选题策略,可以有效降低测验长度,极大降低项目曝光率。制定高效并且安全的选题策略是CAT追求的目标,2011程小扬、丁树良、严深海、朱隆尹针对极大项信息量准则(MIC)和a分层法选题策略的优缺点,对0-1评分下的CAT引入曝光因子的选题策略。
在我国自适应测试的计算机软件还是比较少,九十年代开始,全国英语四六级考试委员会,一直致力于项目反应理论的研究与开发。目前IRT已成功应用于CET分数等值处理过程了,基于计算机自适应测试题库也在建设和完善中。
3.国外研究
国外对于计算机自适应考试研究较早,计算机自适应测验是从比奈的智力测验基础上发展起来的。1971年,Lord在前人基础上提出了“计算机自适应测验”。美国***方在80年代开始应用计算机自适应系统CAST(TheComputerizedAdaptiveScreenTest)。如今在美国,CAT己经用于教育测试、职业测量、人事评测等领域:GRE(GraduateRecordExamination)考试、TOFEL测试、工商管理类研究生入学测试GMAT(GraduateforManagementand***istrationTest)以及全美护士国家委员会资格测试(NurseNationalCommitteeLicenseTest)等都己经采用了CAT测试方式。日本的职称英语测试系统CASEC是普遍使用的系统,遍布于各大公司,***门和***府机构。通常CASEC测试题目不足30个,就能让测试的结果达到90%以上,提高了测试的准确率,也节约了测试时间。在欧美许多国家,CAT已成为教育测试职业测试和认证测试的主要形式。微软的MCSE(微软认证系统工程师)测试也采用了这一种形式。
总体来说,计算机自适应考试系统,在美国起步早,发展快,国外部分权威资格认证考试都逐步采用计算机自适应考试。
4.研究总结与展望
CAT相对传统的纸笔测验,可以施测较少项目就准确测量被试特质,极大提高测验效率。目前国内较多研究集中于CAT的选题策略上,由于测验的精度和安全性相互制约,如何比较,选择最优项目,有待于进一步研究。未来研究应进一步提高选题策略的综合表现、深入探讨多级评分项目和认知诊断。
我国引进国外IRT先进理论,坚持***创新,应用发展较快,但由于受IRT理论模型的局限性和我国传统测试方式、教育模式等因素的影响,基于IRT理论模型的自适应测试在我国实际教学的应用仍处于探索阶段,如何克服IRT理论模型的局限性,并结合教学的实际情况,设计出一种具有较好性能和实际可操作性的自适应测试方法。也有待于进一步努力。
参考文献
1 罗芬,丁树良,王晓庆,多级评分计算机化自适应测验动态综合选题策略,心理学报.2012
2 毛秀珍,辛涛,计算机自适应测验选题策略述评,心理科学进展.2011年
3 程小扬,丁树良,严深海,朱隆尹,引入曝光因子的计算机化自适应测验选题策略,心理学报.2011
4 唐小娟,丁树良,俞宗火,计算机自适应测验在认知诊断中的应用,心理科学进展.2012
5 林健,闰华,武兵,计算机自适应考试理论分析.太原理工大学学报,2004,35(2):222一223
6 曾彦钧, 张雅媛, 郭伯臣.基于知识结构之适性诊断测验系统的防猜选题策略.测验统计年刊.2006
心理测试论文第7篇
论文关键词:项目反应理论,计算机自适应考试
1.引言
项目反应理论(IRT)又称“潜在特质”理论,于20世纪50年代初正式成立,于20世纪60年代后期,伴随着计算机的发展而快速发展。IRT较经典测量理论来讲,样本***,可反复测量,又因为理论框架科学,应用范围广泛,是我国测量领域的热点。计算机自适应测量(CAT)是在项目反应理论基础上发展起来的一种新的测验形式。它不同于纸币测验,是以计算机为手段,测验试题的呈现和被试的作答是通过计算机完成,它又不同于一般计算机化测量,而是因人而异选题,根据被试能力水平自动选择试题,及时了解被试能力水平。
2.国内应用研究综述
我国著名心理学家张厚粲老师是自适应考试的先驱,她首先把IRT引入国内。江西师大“题库理论”组,编写《考生智能水平的自适应测验》时指出:自适应考试可以在不损害测验的信效度前提下,减少试题题量,缩短测验,提高测验效率。国内最早关于编制自适应测验的文献是出自江西师大。他们编制的高中数学水平测验,用于考察高中毕业生的数学智能水平。江西师大这个课题组还编制了参数估计程序和自适应考试程序。
在计算机适应测验选题策略上,2011毛秀珍,辛涛撰文做了全面探讨,选题策略是CAT重要组成部分,关系到策略信效度,效率等。有人在Science发表文章主张谨慎CAT高风险,原因是频繁使用质量较好的项目,会因为被试“分享”而削弱了测验的效率,针对传统的选题策略不足,2012罗芬、丁树良、王晓庆提出了利用区间估计思想,将两级评分推广到多级评分以改进最大信息量选题策略,可以有效降低测验长度,极大降低项目曝光率。制定高效并且安全的选题策略是CAT追求的目标,2011程小扬、丁树良、严深海、朱隆尹针对极大项信息量准则(MIC)和a分层法选题策略的优缺点,对0-1评分下的CAT引入曝光因子的选题策略。
在我国自适应测试的计算机软件还是比较少,九十年代开始,全国英语四六级考试委员会,一直致力于项目反应理论的研究与开发。目前IRT已成功应用于CET分数等值处理过程了,基于计算机自适应测试题库也在建设和完善中。
3.国外研究
国外对于计算机自适应考试研究较早,计算机自适应测验是从比奈的智力测验基础上发展起来的。1971年,Lord在前人基础上提出了“计算机自适应测验”。美国***方在80年代开始应用计算机自适应系统CAST(TheComputerizedAdaptiveScreenTest)。如今在美国,CAT己经用于教育测试、职业测量、人事评测等领域:GRE(GraduateRecordExamination)考试、TOFEL测试、工商管理类研究生入学测试GMAT(GraduateforManagementand***istrationTest)以及全美护士国家委员会资格测试(NurseNationalCommitteeLicenseTest)等都己经采用了CAT测试方式。日本的职称英语测试系统CASEC是普遍使用的系统,遍布于各大公司,***门和***府机构。通常CASEC测试题目不足30个,就能让测试的结果达到90%以上,提高了测试的准确率,也节约了测试时间。在欧美许多国家,CAT已成为教育测试职业测试和认证测试的主要形式。微软的MCSE(微软认证系统工程师)测试也采用了这一种形式。
总体来说,计算机自适应考试系统,在美国起步早,发展快,国外部分权威资格认证考试都逐步采用计算机自适应考试。
4.研究总结与展望
CAT相对传统的纸笔测验,可以施测较少项目就准确测量被试特质,极大提高测验效率。目前国内较多研究集中于CAT的选题策略上,由于测验的精度和安全性相互制约,如何比较,选择最优项目,有待于进一步研究。未来研究应进一步提高选题策略的综合表现、深入探讨多级评分项目和认知诊断。
我国引进国外IRT先进理论,坚持***创新,应用发展较快,但由于受IRT理论模型的局限性和我国传统测试方式、教育模式等因素的影响,基于IRT理论模型的自适应测试在我国实际教学的应用仍处于探索阶段,如何克服IRT理论模型的局限性,并结合教学的实际情况,设计出一种具有较好性能和实际可操作性的自适应测试方法。也有待于进一步努力。
参考文献
1 罗芬,丁树良,王晓庆,多级评分计算机化自适应测验动态综合选题策略,心理学报.2012
2 毛秀珍,辛涛,计算机自适应测验选题策略述评,心理科学进展.2011年
3 程小扬,丁树良,严深海,朱隆尹,引入曝光因子的计算机化自适应测验选题策略,心理学报.2011
4 唐小娟,丁树良,俞宗火,计算机自适应测验在认知诊断中的应用,心理科学进展.2012
5 林健,闰华,武兵,计算机自适应考试理论分析.太原理工大学学报,2004,35(2):222一223
6 曾彦钧, 张雅媛, 郭伯臣.基于知识结构之适性诊断测验系统的防猜选题策略.测验统计年刊.2006