浅谈语言测试效度

摘要:测试效度是语言测试学领域至关重要的概念之一,也是众多语言学家科研的重点。它是测试质量审定的主要依据,直接关系到测试质量的高低。因此有必要对语言测试的效度及相关研究成果进行整理和分析,加深人们对此的理解,以期对语言测试起到积极的作用。

关键词:效度;表面效度;内容效度;结构效度;尺度相关效度

中***分类号:GH319文献标识码:A文章编号:1671—1580(2013)06—0072—03

语言测试的质量主要可以通过信度、效度、真实性、相互作用性、后效作用和可行性来进行评估。其中,效度是所有出题人最为看重的测试质量审定的主要依据,它直接关系到测试质量的高低。在语言测试这一领域里,这一概念被反复提及和讨论。语言学家们普遍认为效度是测试中最为重要的用以衡量考试科学与否的标准。Bachman指出,“效度是测试应用中最为重要的指标”。[1]

一、效度的定义

在语言测试领域,许多语言学家致力于效度的研究,他们从不同的角度阐释了效度这一概念。Bachman 的定义如下:

测试的效度是指考试在多大程度上测出预期要测量的东西或者说考试在多大程度上完成了预期的测量任务, 达到了预期测试的目标。 [2]

Bachman 的定义道出了效度的实质,简而言之,就是考试达到其预期测试意***的程度。如果一种测试没能测试出预期要测试的东西,那么这一测试便不具有相应的效度,以至于不能提供关于受试者语言能力真实水平的有价值的信息。

Henning (1987: 89) 则这样诠释效度:

测试效度所指的是测试的得体性,即测试的内容是否检测了想要检测的内容。如果一种测试在某种程度上达到了它设计的预期目的,那么这一测试就是有效的。而这种有效是相对的,仅对一些测试目的而言,并非所有测试目的。[3]

Henning的定义更加明确了效度与测试目的的关系。效度并非万能的,它不是无所不包的。事实上,完美的效度也不是一蹴而就的。就像Alderson指出的那样:“就测试目的而言,每一种测试都或多或少具有效度;效度并非是一个成败在此一举的因素。” [4]

Arthur Hughes则以更为直接、简练的方式定义了效度。他说如果一个测试精确地测试出它所要测试的东西,那么这一测试就是具有效度的。[5] 然而,我们也从后来的测试效度研究成果中看到了Hughes 关于效度定义的局限性。在2000年,McNamara提出了他的独到见解,他强调了受试者在测试过程中的表现应是他真实语言水平和技巧的精准再现[6]。这种再现越真实地反映受试者的语言能力,测试的效度才越高。

总体来讲,效度是测试领域里最为重要的概念之一,人们以此来衡量测试的得体性。假设一个测试准确地测试出了它想要测试的受试者的真实的语言水平和技巧,那么这一测试就是效度高的。反之亦然。

二、相关研究

效度是一个多面体,以至于语言学家们从各个侧面去丰富它的内涵,探讨它的现实意义。其实,这所谓的“侧面”就是评价效度的不同方式,学者们从不同的角度、各异的出发点将效度分类探讨。总体上看,主要分为内部效度(通常包括表面效度、内容效度),外部效度(也称尺度关联效度,通常包括同期效度、预测效度)和结构效度[4]。但需要强调的是不论如何将效度分类,它都是一个“统一的概念”。

(一)表面效度(Face Validity)

Hughs (1989)认为如果一个测试看上去测试了它所预期要测试的能力或知识掌握程度,那么这一测试就具备表面效度。[5]例如,英语听力测试要求受试者听完一段听力材料后回答问题,那么这一测试从卷面上看就具备表面效度。Ingram则指出,表面效度是指试卷表面形式的可信度和公众对测试的接受度。[7] 从某种意义上讲,表面效度可说是效度的“外表”,通常由人们对于测试的印象判断试卷是否具备表面效度。事实上,表面效度与对试卷内容的直觉判断密切相关,而做出这些判断的人们往往不是专家,而是测试管理人员、受试者、教育者等等。如果一个测试在受试者的眼中是能够测试出他的水准的,我们就可以说它具有表面效度。有些学者认为它并不科学,但这却直接影响了人们对于测试的接受程度。假如受试者相信某个测试能够衡量相关的能力,他们会尽力完成好它以展现自己的水平和能力。反之,则不会认真对待。因此,越来越多的专家学者肯定了表面效度在语言测试中的重要地位。Heaton作为他们中的一员,称其为公共关系练习,并指出大多数交际测试的出题者把它当作最为重要的测试效度。[8]

(二)内容效度(Content Validity)

Kerlinger认为内容效度指的是“一测量工具内容上的代表性或所选内容样本的充分性”。 [9]这也就是说,内容效度强调的是测试内容的相关性和覆盖面,它仅侧重于测试文本本身,并不对受试者的测试表现加以关注。这一效度依赖于测试内容在多大程度上与考试大纲相关,或者说试题在多大程度上能代表它所要测量的目标。如果一个测试具有较高的内容效度,那也就是说这一测试的内容是依据其教学内容或大纲的要求,反映出了主要的教学内容,具有代表性,并且试题和教学目的相关系数较高,适合受试者测试相关技能。

Hughes从两个方面总结了内容效度的价值:首先,从理论上说,如果测试的内容效度颇高,那么这一测试就很有可能会测试出它预计要测试的能力或技能。反之,如果教学大纲里的内容在试卷里体现得不够充分或者根本没有体现,那么,极有可能,这一测试会展现出一幅关于受试者知识和技能的扭曲的画面,以至于形成对于他们能力的误判。其次,从现实的角度,如果测试具备相对高的内容效度,它就能够对语言的教与学产生正面的积极的反拨作用,反之亦然。更为具体地说,没有在测试中体现出来的教学内容或技能很有可能会成为今后教与学双向忽视的部分。因此,内容效度对于语言的教与学是具有非常重要的影响力的。然而,在测试构建的过程中,要达到较高的内容效度并非易事,人们总是倾向于选择方便测试的内容而不是真正重要的测试内容去出题。

(三)结构效度(Construct validity)

根据Bachman的理论,结构效度试***通过验证测试与语言学理论之间的关系而弄清楚测试真正测试了哪方面的能力,[2]它主要关注的是测试成绩是否与某种语言能力理论所预测或假设的能力一致的问题。Hughes认为“construct” 在这里指的是一种在语言学理论中假设的潜在的能力或特点。[5]在1991年,Ebel和Frisbie以更为具体的方式分析了结构效度,他们做了如下的解释:“结构(construct)一词是个心理学概念,是对某种不能被测量而且不能直接观察到的人类行为所做的理论定义。”[10]这就是说,结构效度是指考试的结果能在多大程度上解释人的语言能力及与语言能力有关的心理特征。从本质上说,结构效度指测试内容是否以有效的语言观为依据,其中包括语言学习观和语言运用观。Chapelle(1998)曾从中介语的角度定义结构效度,这一定义是基于他对于“construct”的独特理解,他认为construct 是对于被观察行为的有意义的诠释。[11]例如,当研究人员把学员词汇测试的成绩解释为词汇知识的标志物时,那么,这里的词汇知识就是赋予测试分数意义的construct。

此外,一些语言学家认为可以把结构效度看作是高级概念,它包含了其他所有效度形式。 Anastasi (1982: 153)的观点就是如此,他认为“结构效度是一个综合概念,囊括了效度的其他形式”。[12]

那么,最好的用以考察一个测试的结构效度的方式是通过研究题型设计所依赖的语言教学理论和分析同一次测试中各个子项目的相关性。结构效度论证的目的是确定测试分数的意义是否与期望一致, 也就是说结构效度与考分的解释功能有关。如果测试所测的知识和能力与语言学的原则或理论吻合,那么,这个测试的结构效度就相对的高。

(四)尺度关联效度(Criterion-related Validity)

众多的语言学家都探讨过尺度关联效度(如 Alderson et al., 1995; ALTE Members, 1998; Bachman, 1990; Weir, 2005),他们之中,Bachman (1990: 248)曾如是定义它:

测试分数与某一个“***并且相当可靠的学生能力测量工具”之间的关联程度,这里的尺度实际上就是后者,即被一组成员确认的能力,或在其他可靠的水平测试中展现的水平和能力。[1]

概括地说,这一效度依赖于测试成绩与某种标尺(可信的学生能力测量工具)之间的关联程度。假如两者之间的关联程度高,那就表明前者具有尺度关联效度。

Bachman认为尺度关联效度可以很自然地分为同期效度和预测效度两种[1]。根据其理论,同期效度能够提供给人们关于受试者在同时或接近同时的不同测试中表现的相关性信息,也就是说,把一次全新的测试与同期进行的另一测试成绩进行对比。而后者应是公认的效度较高的测试,其目的在于检验新的测试成绩是否代表了受试者的语言能力和水平。例如,一组大学二年级学生刚刚进行了CET四级考试,又参加了学校英语测试,如果学校测试成绩与四级成绩是接近的,那么这次考试就具有同期效度。而预测效度是建立在对相隔时间较长的两个测试结果的对比之上的,它侧重的是测试的预测能力,也就是考试的分数到底在多大程度上与未来考试的结果具有相关性。简单地说,就是测试能否预测学生将来的学习成绩。预测效度具有相当的现实意义,甚至可以说对于某些考试,它是不可或缺的,比如水平考试、分班考试或选拔考试等。这些考试结果都对未来的选择和判断产生影响,可以用来推测学生未来学习发展的趋势,判断其适合怎样的教学模式,从而做出某种决策。与此同时,也对学生以后的学习产生了一定的影响。

诚如Bachman所说,尺度相关效度依赖于对统计数据的分析而不是主观判断[1],对于同期效度和预测效度的评估可以采用Pearson的积距率公式来计算其相关系数。两者都以某种***的而且可靠的标尺作为参照量,把所测试的分数与标尺分数进行对比,计算其相关系数。与标尺的相关系数越高,说明测试的同期或预测效度越高。二者的区别在于选择测试时间上的差异:同期效度,顾名思义,是同一组考生两次测试的时间要非常接近(同一天或两周之内),而预测效度则是同一组考生时间间隔相对较长的两次测试。

三、结语

综上所述,我们可以看出测试效度是语言测试领域非常重要的基本概念之一。通过对它的研究,人们可以对试卷得体性进行衡量和比较。与此同时,语言学家们也从不同的侧面对其进行了探讨和分析。尽管角度不同,观点各异,但结果是从更为细致的和具体的切入点分析试卷的有效程度,对于测试有着非常重大的现实和指导意义,甚至于影响到了英语的教学过程。值得关注的是,在研究测试效度的同时,测试的信度也是不容忽视的,尤其是如何达到效度与信度的平衡使测试具有更高的质量将是测试领域研究不可或缺的极具现实意义的问题。

[参考文献]

[1]Bachman, L.F. Fundamental Considerations in Language Testing [M]. Oxford: Oxford University Press, 1990.

[2]Bachman, L.F. and A.S. Palmer. Language Testing in Practice [M]. Oxford: Oxford University Press, 1996.

[3]Henning, G. A Guide to Language Testing: Development, Evaluation and Research [M]. Cambridge, Massachusetts: Newbury House, 1987.

[4]Alderson, J.C, C. Clapham and D. Wall. Language Test Construction and Evaluation [M], Cambridge: Cambridge University Press, 1995.

[5]Hughes, A. Testing for Language Teachers [M]. Cambridge: Cambridge University Press, 1989.

[6]McNamara, T. F. Language Testing [M], Oxford: Oxford University Press, 2000.

[7]Ingram, E. Basic Concepts in Testing. In J.P.B Allen and A.Davies (eds), 1977.

[8]Heaton, J.B. Writing English Language Tests [M]. London: Longman Group UK Limited, 1988.

[9]Kerlinger, F.N. Foundations of Behavior Research [M]. New York: Holt, Rinehart and Winston, 1973.

[10]Ebel, R.L. Measuring Educational Achievement [M]. New Jersey: Prentice-Hall, Inc, 1965.

[11]Chapelle, C.A. Construct Definition and Validity in SLA Research [J]. Washington, DC: Center for Applied Linguistics, 1998.

[12]Anastasi, A. Psychological Testing (sixth edition) [M]. New York: Macmillan, 1988.

转载请注明出处学文网 » 浅谈语言测试效度

学习

同源词综述

阅读(37)

本文为您介绍同源词综述,内容包括同源词比较,汉藏语同源词大全。【摘要】同源词研究古已有之,但理论研究相对比较薄弱,由于过分关注语义或语音,考察的大多是词语的概念意义,没有考虑到词语的源流问题,对同源词的判定并不那么准确全面。他们的

学习

“野火狂人”王运

阅读(27)

王运(1833~1916年),字壬秋、壬父,号湘绮,湖南湘潭人。相传出生时,其父梦见神榜贴于门上日:“天开文运”,因此以运为名。他是被后人誉为“霸才雄笔固无伦”的晚清大才子,少负盛名,敢为直言,颇有古之狂上品性,是清末民初的经学大师、文学家、教育家。

学习

论足球边后卫与边前卫的换位战术

阅读(20)

本文为您介绍论足球边后卫与边前卫的换位战术,内容包括足球边后卫必学十大技巧,业余足球边后卫和边前卫。摘要在现代足球比赛中,边路进攻战术始终是一种有效的进攻手段。在足球比赛中,由于中路防守队员密集,很难进行有效的突破渗透。此时可

学习

马丁·帕尔另一种看世界的视角

阅读(24)

本文为您介绍马丁·帕尔另一种看世界的视角,内容包括马丁·帕尔一生所有的作品,马丁帕尔照片风格分析。“Withphotography,Iliketocreatefictionoutofreality.”我想通过摄影创造一个脱离现实的世界马丁・帕尔(MartinParr)被公认为是英

学习

论绘画再现性表达的现实意义

阅读(25)

本文为您介绍论绘画再现性表达的现实意义,内容包括绘画的原始性和现代性,当代绘画的生成与意义。摘要:再现性是绘画最重要的表达方式之一。再现性作为一种创作的态度而存在,认同日常现实与艺术家个人创造性的一致性。在具体的绘画实践中

学习

“n”和“日昃”

阅读(26)

n“n”,虽不叫饭,实际上属于饭类,是琼海饮食文化具有浓郁的地方特色的食品。其做法:用椰子叶或蒌(即野菠萝)叶编织成拳头大小、中间空的囊袋(n壳),形状一般为枕头状,也有编织成三角形、菱形的。无论编成何种形状,编n壳时一定要留收口的芰叶。n

学习

张韧:沃尔玛向“左”,7天酒店向右

阅读(39)

张韧其实不想接受《新营销》记者采访。在他看来,14年的沃尔玛工作经历,当过沃尔玛中国高级营运总监,3年的7天连锁酒店集团首席运营官,还有G2000中国区CEO,虽然取得了一点成绩,但事过境迁,作为一个过去式的历程,他不想再延续,人到中年,应该寻找新的

学习

中国卫生监督

阅读(77)

本文为您介绍中国卫生监督,内容包括国家卫生监督最新发布消息,国家关于卫生监督的文件。一起游泳馆池水污染引起咽结膜热暴发的调查报告张振荣,陈建国,庄苗,汪严华南通地区人群饮食嗜好与食源性疾病周颖济南市"小饭桌"卫生状况调查张玉慧,杨

学习

中国海洋资源开发与海洋综合管理研究

阅读(37)

本文为您介绍中国海洋资源开发与海洋综合管理研究,内容包括海洋资源与海洋生态保护论文,中国海洋开发与管理杂志。DOI:10.16660/ki.1674-098X.2016.22.120随着经济发展水平的逐步提高,人口数量的增长使得陆地上的资源不断锐减,生态环境遭到

学习

山海经·祝余

阅读(21)

本文为您介绍山海经·祝余,内容包括山海经神兽大全,山海经校注全文。南山经之首曰鹊山。其首曰招摇之山,临于西海之上,多桂,多金玉。有草焉,其状如韭而青华,其名曰祝余,食之不饥。阿翡已注意这个书生许久了。他穿着破破烂烂的衣服,左脚的鞋上破

学习

北京凄美故事

阅读(18)

本文为您介绍北京凄美故事,内容包括几多凄美故事,无比凄美的故事。2012年岁末,北京似乎格外寒冷,然而一个消息却让人们心里漾起阵阵暖意。北京凄美故事男主角、因“刻章救妻”而触犯法律的下岗工人廖丹,终于等来了“判三缓四”的审判结果,这

学习

职业调查报告范文

阅读(47)

本文为您介绍职业调查报告范文,内容包括职业调查报告范文500字,职业调查报告怎么写。职业调查报告范文第1篇以特殊才能为后盾调查显示,78%的大学生就业目标不明确,对于未来的职业选择完全是一种迷茫状态,他们不知道要找什么工作,也不知道自己

学习

读《中华大典.文学典》

阅读(46)

本文为您介绍读《中华大典.文学典》,内容包括中华大典历史典,中华大典·文学典全4册。在中国几千年的文化长河中,文学是一条重要的支流。《中华大典・文学典》是这条支流里的巨舟,它载着读者在这条支流里研究欣赏着那跌荡不羁、灿烂绚丽

学习

浅析美国制造业回流现象

阅读(358)

本文为您介绍浅析美国制造业回流现象,内容包括美国制造业回流,制造业回流美国势头强劲。【摘要】我国是世界制造业大国,有着“世界工厂”的地位。而这一地位的形成与美国制造业对中国的大量投资和外包是分不开的。但是近十年来,金融危机后

学习

浅谈消防队伍灭火战术训练

阅读(29)

本文为您介绍浅谈消防队伍灭火战术训练,内容包括消防纵深灭火训练解说词,递进超越战术在灭火中的优缺点。[摘要]灭火战术训练,是对灭火战术指导思想、战术原则、战术方法和在各种不同情况下,扑救各种类型火灾战斗实施的研究和训练。以提高

学习

浅谈汽车车载网络的应用

阅读(23)

本文为您介绍浅谈汽车车载网络的应用,内容包括汽车车载网络的发展趋势,车载大屏网络怎么和手机连接。车载网络是现代汽车电子技术发展的必然趋势,本文就车载网络形成的必要性及其应用进行了系统地分析,以便更好地理解新一代汽车电子控制系

学习

浅谈地铁行车组织

阅读(23)

本文为您介绍浅谈地铁行车组织,内容包括地铁行车组织发展趋势,沈阳地铁集团机构组织示意。随着城市化的不断发展,越来越多的城市进行地铁建设,越来越多的地铁投入运营,大大提高了人们的出行效率、生活水平及生活质量。文章对地铁行车组织的

学习

浅析废名《桥》的语言特征

阅读(54)

[摘要]废名的长篇小说《桥》被誉为“破天荒”的“创格”的作品。废名“晦涩”的文风向来备受关注,本文则试从语言的隐喻和转喻性、陌生化与诗化三个方面来分析《桥》的语言特征及因之所形成的晦涩的审美风格。[关键词]废名《桥》隐喻转喻

学习

浅谈地下车库设计

阅读(30)

本文为您介绍浅谈地下车库设计,内容包括地下车库设计效果图,地下车库入库坡度设计。近几年主要负责的工作是项目设计管理、建筑专业负责,在设计上主要负责总规定案、单体定案、地下车库方案。这里整理了一下地下车库设计的全过程,也算是近

学习

浅谈布朗库西的雕塑趣味

阅读(48)

本文为您介绍浅谈布朗库西的雕塑趣味,内容包括布朗库西雕塑艺术,布朗库西雕塑空中之鸟。布朗库西的雕塑艺术在当时和今天都产生了巨大的影响。布朗库西作品中所产生的深远的意义,让1986年去世的英国现代雕塑大师亨利·摩尔得以终生享用。

学习

浅谈动车所与动车组维修

阅读(25)

本文为您介绍浅谈动车所与动车组维修,内容包括动车组维修等级,动车组维修专业就业前景。本文就国内动车所现阶段维修情况做了简要介绍,并对动车组未来维修模式的发展提出了自己的观点,同时对现阶段存在的问题提出了解决方案,对如何形成更加

学习

浅谈大学生犯罪

阅读(23)

本文为您介绍浅谈大学生犯罪,内容包括大学生犯罪总结与感悟,浅谈大学生犯罪论文。当代社会中,大学生犯罪有增长趋势,而且大学生犯罪向多样化、智能化方向发展。一些所谓的“学习尖子”也走上了犯罪的道路。这些现象的出现是家庭,社会的影响