摘要:测试效度是语言测试学领域至关重要的概念之一,也是众多语言学家科研的重点。它是测试质量审定的主要依据,直接关系到测试质量的高低。因此有必要对语言测试的效度及相关研究成果进行整理和分析,加深人们对此的理解,以期对语言测试起到积极的作用。
关键词:效度;表面效度;内容效度;结构效度;尺度相关效度
中***分类号:GH319文献标识码:A文章编号:1671—1580(2013)06—0072—03
语言测试的质量主要可以通过信度、效度、真实性、相互作用性、后效作用和可行性来进行评估。其中,效度是所有出题人最为看重的测试质量审定的主要依据,它直接关系到测试质量的高低。在语言测试这一领域里,这一概念被反复提及和讨论。语言学家们普遍认为效度是测试中最为重要的用以衡量考试科学与否的标准。Bachman指出,“效度是测试应用中最为重要的指标”。[1]
一、效度的定义
在语言测试领域,许多语言学家致力于效度的研究,他们从不同的角度阐释了效度这一概念。Bachman 的定义如下:
测试的效度是指考试在多大程度上测出预期要测量的东西或者说考试在多大程度上完成了预期的测量任务, 达到了预期测试的目标。 [2]
Bachman 的定义道出了效度的实质,简而言之,就是考试达到其预期测试意***的程度。如果一种测试没能测试出预期要测试的东西,那么这一测试便不具有相应的效度,以至于不能提供关于受试者语言能力真实水平的有价值的信息。
Henning (1987: 89) 则这样诠释效度:
测试效度所指的是测试的得体性,即测试的内容是否检测了想要检测的内容。如果一种测试在某种程度上达到了它设计的预期目的,那么这一测试就是有效的。而这种有效是相对的,仅对一些测试目的而言,并非所有测试目的。[3]
Henning的定义更加明确了效度与测试目的的关系。效度并非万能的,它不是无所不包的。事实上,完美的效度也不是一蹴而就的。就像Alderson指出的那样:“就测试目的而言,每一种测试都或多或少具有效度;效度并非是一个成败在此一举的因素。” [4]
Arthur Hughes则以更为直接、简练的方式定义了效度。他说如果一个测试精确地测试出它所要测试的东西,那么这一测试就是具有效度的。[5] 然而,我们也从后来的测试效度研究成果中看到了Hughes 关于效度定义的局限性。在2000年,McNamara提出了他的独到见解,他强调了受试者在测试过程中的表现应是他真实语言水平和技巧的精准再现[6]。这种再现越真实地反映受试者的语言能力,测试的效度才越高。
总体来讲,效度是测试领域里最为重要的概念之一,人们以此来衡量测试的得体性。假设一个测试准确地测试出了它想要测试的受试者的真实的语言水平和技巧,那么这一测试就是效度高的。反之亦然。
二、相关研究
效度是一个多面体,以至于语言学家们从各个侧面去丰富它的内涵,探讨它的现实意义。其实,这所谓的“侧面”就是评价效度的不同方式,学者们从不同的角度、各异的出发点将效度分类探讨。总体上看,主要分为内部效度(通常包括表面效度、内容效度),外部效度(也称尺度关联效度,通常包括同期效度、预测效度)和结构效度[4]。但需要强调的是不论如何将效度分类,它都是一个“统一的概念”。
(一)表面效度(Face Validity)
Hughs (1989)认为如果一个测试看上去测试了它所预期要测试的能力或知识掌握程度,那么这一测试就具备表面效度。[5]例如,英语听力测试要求受试者听完一段听力材料后回答问题,那么这一测试从卷面上看就具备表面效度。Ingram则指出,表面效度是指试卷表面形式的可信度和公众对测试的接受度。[7] 从某种意义上讲,表面效度可说是效度的“外表”,通常由人们对于测试的印象判断试卷是否具备表面效度。事实上,表面效度与对试卷内容的直觉判断密切相关,而做出这些判断的人们往往不是专家,而是测试管理人员、受试者、教育者等等。如果一个测试在受试者的眼中是能够测试出他的水准的,我们就可以说它具有表面效度。有些学者认为它并不科学,但这却直接影响了人们对于测试的接受程度。假如受试者相信某个测试能够衡量相关的能力,他们会尽力完成好它以展现自己的水平和能力。反之,则不会认真对待。因此,越来越多的专家学者肯定了表面效度在语言测试中的重要地位。Heaton作为他们中的一员,称其为公共关系练习,并指出大多数交际测试的出题者把它当作最为重要的测试效度。[8]
(二)内容效度(Content Validity)
Kerlinger认为内容效度指的是“一测量工具内容上的代表性或所选内容样本的充分性”。 [9]这也就是说,内容效度强调的是测试内容的相关性和覆盖面,它仅侧重于测试文本本身,并不对受试者的测试表现加以关注。这一效度依赖于测试内容在多大程度上与考试大纲相关,或者说试题在多大程度上能代表它所要测量的目标。如果一个测试具有较高的内容效度,那也就是说这一测试的内容是依据其教学内容或大纲的要求,反映出了主要的教学内容,具有代表性,并且试题和教学目的相关系数较高,适合受试者测试相关技能。
Hughes从两个方面总结了内容效度的价值:首先,从理论上说,如果测试的内容效度颇高,那么这一测试就很有可能会测试出它预计要测试的能力或技能。反之,如果教学大纲里的内容在试卷里体现得不够充分或者根本没有体现,那么,极有可能,这一测试会展现出一幅关于受试者知识和技能的扭曲的画面,以至于形成对于他们能力的误判。其次,从现实的角度,如果测试具备相对高的内容效度,它就能够对语言的教与学产生正面的积极的反拨作用,反之亦然。更为具体地说,没有在测试中体现出来的教学内容或技能很有可能会成为今后教与学双向忽视的部分。因此,内容效度对于语言的教与学是具有非常重要的影响力的。然而,在测试构建的过程中,要达到较高的内容效度并非易事,人们总是倾向于选择方便测试的内容而不是真正重要的测试内容去出题。
(三)结构效度(Construct validity)
根据Bachman的理论,结构效度试***通过验证测试与语言学理论之间的关系而弄清楚测试真正测试了哪方面的能力,[2]它主要关注的是测试成绩是否与某种语言能力理论所预测或假设的能力一致的问题。Hughes认为“construct” 在这里指的是一种在语言学理论中假设的潜在的能力或特点。[5]在1991年,Ebel和Frisbie以更为具体的方式分析了结构效度,他们做了如下的解释:“结构(construct)一词是个心理学概念,是对某种不能被测量而且不能直接观察到的人类行为所做的理论定义。”[10]这就是说,结构效度是指考试的结果能在多大程度上解释人的语言能力及与语言能力有关的心理特征。从本质上说,结构效度指测试内容是否以有效的语言观为依据,其中包括语言学习观和语言运用观。Chapelle(1998)曾从中介语的角度定义结构效度,这一定义是基于他对于“construct”的独特理解,他认为construct 是对于被观察行为的有意义的诠释。[11]例如,当研究人员把学员词汇测试的成绩解释为词汇知识的标志物时,那么,这里的词汇知识就是赋予测试分数意义的construct。
此外,一些语言学家认为可以把结构效度看作是高级概念,它包含了其他所有效度形式。 Anastasi (1982: 153)的观点就是如此,他认为“结构效度是一个综合概念,囊括了效度的其他形式”。[12]
那么,最好的用以考察一个测试的结构效度的方式是通过研究题型设计所依赖的语言教学理论和分析同一次测试中各个子项目的相关性。结构效度论证的目的是确定测试分数的意义是否与期望一致, 也就是说结构效度与考分的解释功能有关。如果测试所测的知识和能力与语言学的原则或理论吻合,那么,这个测试的结构效度就相对的高。
(四)尺度关联效度(Criterion-related Validity)
众多的语言学家都探讨过尺度关联效度(如 Alderson et al., 1995; ALTE Members, 1998; Bachman, 1990; Weir, 2005),他们之中,Bachman (1990: 248)曾如是定义它:
测试分数与某一个“***并且相当可靠的学生能力测量工具”之间的关联程度,这里的尺度实际上就是后者,即被一组成员确认的能力,或在其他可靠的水平测试中展现的水平和能力。[1]
概括地说,这一效度依赖于测试成绩与某种标尺(可信的学生能力测量工具)之间的关联程度。假如两者之间的关联程度高,那就表明前者具有尺度关联效度。
Bachman认为尺度关联效度可以很自然地分为同期效度和预测效度两种[1]。根据其理论,同期效度能够提供给人们关于受试者在同时或接近同时的不同测试中表现的相关性信息,也就是说,把一次全新的测试与同期进行的另一测试成绩进行对比。而后者应是公认的效度较高的测试,其目的在于检验新的测试成绩是否代表了受试者的语言能力和水平。例如,一组大学二年级学生刚刚进行了CET四级考试,又参加了学校英语测试,如果学校测试成绩与四级成绩是接近的,那么这次考试就具有同期效度。而预测效度是建立在对相隔时间较长的两个测试结果的对比之上的,它侧重的是测试的预测能力,也就是考试的分数到底在多大程度上与未来考试的结果具有相关性。简单地说,就是测试能否预测学生将来的学习成绩。预测效度具有相当的现实意义,甚至可以说对于某些考试,它是不可或缺的,比如水平考试、分班考试或选拔考试等。这些考试结果都对未来的选择和判断产生影响,可以用来推测学生未来学习发展的趋势,判断其适合怎样的教学模式,从而做出某种决策。与此同时,也对学生以后的学习产生了一定的影响。
诚如Bachman所说,尺度相关效度依赖于对统计数据的分析而不是主观判断[1],对于同期效度和预测效度的评估可以采用Pearson的积距率公式来计算其相关系数。两者都以某种***的而且可靠的标尺作为参照量,把所测试的分数与标尺分数进行对比,计算其相关系数。与标尺的相关系数越高,说明测试的同期或预测效度越高。二者的区别在于选择测试时间上的差异:同期效度,顾名思义,是同一组考生两次测试的时间要非常接近(同一天或两周之内),而预测效度则是同一组考生时间间隔相对较长的两次测试。
三、结语
综上所述,我们可以看出测试效度是语言测试领域非常重要的基本概念之一。通过对它的研究,人们可以对试卷得体性进行衡量和比较。与此同时,语言学家们也从不同的侧面对其进行了探讨和分析。尽管角度不同,观点各异,但结果是从更为细致的和具体的切入点分析试卷的有效程度,对于测试有着非常重大的现实和指导意义,甚至于影响到了英语的教学过程。值得关注的是,在研究测试效度的同时,测试的信度也是不容忽视的,尤其是如何达到效度与信度的平衡使测试具有更高的质量将是测试领域研究不可或缺的极具现实意义的问题。
[参考文献]
[1]Bachman, L.F. Fundamental Considerations in Language Testing [M]. Oxford: Oxford University Press, 1990.
[2]Bachman, L.F. and A.S. Palmer. Language Testing in Practice [M]. Oxford: Oxford University Press, 1996.
[3]Henning, G. A Guide to Language Testing: Development, Evaluation and Research [M]. Cambridge, Massachusetts: Newbury House, 1987.
[4]Alderson, J.C, C. Clapham and D. Wall. Language Test Construction and Evaluation [M], Cambridge: Cambridge University Press, 1995.
[5]Hughes, A. Testing for Language Teachers [M]. Cambridge: Cambridge University Press, 1989.
[6]McNamara, T. F. Language Testing [M], Oxford: Oxford University Press, 2000.
[7]Ingram, E. Basic Concepts in Testing. In J.P.B Allen and A.Davies (eds), 1977.
[8]Heaton, J.B. Writing English Language Tests [M]. London: Longman Group UK Limited, 1988.
[9]Kerlinger, F.N. Foundations of Behavior Research [M]. New York: Holt, Rinehart and Winston, 1973.
[10]Ebel, R.L. Measuring Educational Achievement [M]. New Jersey: Prentice-Hall, Inc, 1965.
[11]Chapelle, C.A. Construct Definition and Validity in SLA Research [J]. Washington, DC: Center for Applied Linguistics, 1998.
[12]Anastasi, A. Psychological Testing (sixth edition) [M]. New York: Macmillan, 1988.