构念效度验证

2024-05-22

构念效度验证(精选4篇)

构念效度验证 篇1

一、引言

系统功能语言学是一种“适用语言学”, 提出20多年来, 解决了教育中很多实际问题, 为语言 (母语、二语、外语) 学习, 提供了理论与实践指导, 促进了学生读写能力发展。在高等教育领域, 语言学家、教育学家利用系统功能语言学理论在实践中帮助学生发展阅读能力 (Rose, 2005) , 帮助教师解决教学中遇到的问题和困难 (Halliday&Hasan, 2006) 。

我国英语专业八级测试的目的是检查学生是否能达到大纲规定的八级水平应具有的综合语言技能及交际能力, 提高教学质量。试题中TEM-8写作的总分为20分, 要求考生根据所给题目及要求撰写各类体裁约400个单词的文章。近10年来, TEM-8写作题都是议论文体裁, 注重考查考生议论文的写作能力。

系统功能语言学把语言看成生成意义的资源, 注重从语义的视角考查语法, 认为语言的形式和意义是不可分的。在大学英语写作教学中, 语类理论主要用于描述语篇和语境的关系, 可用来帮助学生使用语类和语域构建意义。以往的研究对象多侧重描述已发表论文和教材语篇 (Hewings, 2002) , 对学生TEM-8的写作语篇的认知评价方面仍有待研究。

二、研究设计

(一) 研究问题

本研究拟从系统功能语言学角度设计写作评分量表并验证其信度与效度, 需研究三个问题:评分量表设计构念与写作能力评价的维度是否一致?评分量表是否能有效区分学生的能力?评分员使用评分量表评分时是否一致?

(二) 研究步骤

研究分两个阶段。一是从理论上设计评分量表。包括: (1) 研读文献, 厘清评分量表的维度。 (2) 邀请写作测试的专家指导、分析量表各个维度所对应的项目。 (3) 访谈写作教学的教师, 收集、整理教师对量表各维度的意见与建议, 初步形成写作评分量表。 (4) 进一步讨论、修订描述语, 完善评分量表。二是从实践上检验评分量表。通过比较评分员应用量表评价考生写作样本的情况, 检验评分量表的有效性。

(三) 研究对象

本研究的写作样本来自某地方院校英语专业的84名大四学生。他们都要参加2016年英语TEM-8考试, 熟悉TEM-8考试写作题的要求。

(四) 实验材料

试验材料采用2005年英语TEM-8写作考试题目:

Interview is frequently used by employers as a means to recruit prospective employees.As a result, there have been many arguments for or against the interview as a selection procedure.What is your opinion?Write an essay of about 400 words to state your view.

该题属于议论文体裁。每个学生在毕业找工作的过程中都有这方面的经历, 在规定时间内完成考试。收集学生作文并编号保存, 为下一步实验做好准备。

(五) 评分量表设计

研究者在阅读相关文献的基础上, 参考、借鉴已有的写作的评分量表, 初步设定一份评分量表。访谈46名熟悉英语专业八级写作教学的英语教师, 让每位教师写出他们能想到的写作评价的所有项目维度。在不改变原意的情况下, 逐条修改教师写出的评价项目, 从中提炼出33条描述语, 初步设计出一份评分量表。然后, 归纳整理为调查问卷 (问卷采用5点Likert量表, 5表示完全有必要, 1表示完全没必要) , 向外语学院的其他英语教师发放, 调查、统计问卷结果。

根据问卷调查结果, 从33条描述语中选出平均分最高 (完全有必要) 的15条描述语。研究者和经验丰富的六位英语教师一起讨论, 从理论上确定写作的构念, 一起设定写作测量学生的什么能力, 一起划分评分等级, 把问卷调查的15条描述语分别归入理论构念的各个维度。

Dillman等 (2009) 发现, 使用4-5个等级评分信度是最有效的。因此, 研究者邀请学院有多年写作教学经验的同事在认真阅读、讨论写作评分量表的基础上, 把评分等级分为优、良、中、及格、差五个等级, 分别赋予4、3、2、1、0五种分值。“优”表示学生作文较好地完成任务要求, 各分项几乎没有缺陷, 且在某分项有创意、有创造性;“良”表示学生作文有效地完成任务要求, 但在某分项有微小的或可以忽视的缺点;“中”表示学生作文基本完成任务要求, 在某分项有明显的错误, 但不影响意义表达;“及格”表示学生作文勉强完成任务的要求, 某分项有明显的影响意义表达的错误;“差”表示学生作文不符合任务要求, 各分项大多有明显的失误或错误。

最后, 研究者根据评价内容把15条描述语归纳为整体语篇层面的语类和语域 (1~5条描述语) , 段落层面的语篇语义 (6~9条描述语) , 词汇、句子层面的语法与表达 (10~14条描述语) , 其他 (15条描述语) 四个相对独立构念的写作评分量表。

(六) 用设计的评分量表评分

1. 锚定写作样本, 培训评分员

人工评分中最大的问题是评分员评分的不一致性 (Coffman, 1971) 。本研究通过4位评分员一起锚定写作样本的方式来培训他们, 提高评分一致性。根据设计的评分量表, 4位评分员从84名学生的写作样本中锚定有代表性的、等级区分明显的10个样本, 在锚定写作样本的过程中, 评分员需对照描述语, 给出写作样本的每个分项对应等级的分值, 利用加权平均、四舍五入的方法确定最终等级。重复进行这个过程, 可以帮助评分员厘清构念并体会不同等级的写作样本间的差别, 最大限度地保证所有评分员的评分标准都一致。锚定出的等级样本作为正式评分时的参照范本。

2. 试评及评分

试评时从没有参加锚定的样本中随机选2个样本, 4位评分员同时在设计好的评分单上逐项评分。之后统计结果, 计算评分员间评分信度。

正式评分时, 评分员要对剩余的72个写作样本分别评分, 为防止疲劳影响评分信度, 特意要求评分员在两天内完成72个样本的评分。之后汇总评分单, 统计、处理数据。

三、结果与讨论

(一) 评分信度

四位评分员在15个分项上的评分信度Cronbachα=0.936, 利用Friedman检验和Kendall’s W检验了每位评分员在各分项上的评分。结果表明, 渐进显著性取值都大于0.05, 即4位评分员之间不存在显著性差异。评分员在各分项上的评分是一致的。

(二) 探索性因子分析

1. KMO检验和Bartlett球形检验结果 (如表1所示)

Kaiser (1974) 认为, KMO值大于0.6表示变量间存在共同因子, 就可以做因子分析。本研究中KMO统计量为0.898, 适合进行因子分析。此外, Bartlett的球形检验的χ2值为1125.539 (自由度为105) , p=0.000<0.05, 即各变量间存在显著的相关性, 适合进行因子分析。

2. 主成分分析法抽取主成分的结果 (如表2所示)

左边15个成分的特征值大于1的, 共有3个, 这也是因子分析时所抽出的共同因子个数, 3个共同因素共可解释的总变异量为79.797%, 转轴后三个共同因素可以解释的总变异量也为79.797%。

3. 转轴后的成分矩阵

转轴的目的是为了更清楚地看出一组变量数所确定的那个共同因素, 判断每一个分项变量应归属于哪一个明确的主因素。关于能否将分项变量归入共同主因素, 还有一个选取因素负荷量标准的问题。Hair等人 (1998) 认为, 要同时考虑到因素分析时样本的大小, 若样本较小, 则因素负荷量的选取标准就要高些。陈宇顺 (2004) 认为, 当样本大小介于70~85之间时, 因素负荷量选取的标准应介于0.650~0.600。

本实验包含72个学生写作样本, 所以因素负荷量的标准定为0.650。从转轴后的成分矩阵中可以发现:共同因素一包含Item1~8共8条描述语, 共同因素二包含Item 9~12共4条描述语, 共同因素三包含Item 14、Item 15两条描述语 (如表3所示) 。

对比之前理论上的评分量表, 可以看出大多数描述语在实际评分时表现出和原来构念一致的属性。最初设计的评分量表第一和第二构念的一部分 (整体语篇和段落) 试评时构念属性一致, 应归属共同因素一, 共同因素包含二最初设计的评分量表中第二和第三与的第三构念各一部分描述语, 共同因素三与最初设计的评分量表的第四构念和一条第三构念, Item 13这条描述语的构念特征不明显, 应删除。根据以上探索性因子分析结果, 评分量表应保留14条描述语。

四、结论

评分量表是评价过程的一个重要组成部分。本研究采用理论和实证研究相结合, 定量和定性研究相结合的方法描述、总结了写作评价的不同维度, 运用探索性因子分析方法厘清了写作的构念。统计分析表明, 本研究设计的评分量表能保证评价学生写作表现的信度和效度, 让教师在评价的维度、分项、等级标准方面最大限度地达成一致, 提高评分员自身和评分员之间评分的一致性, 为教师在评价学生写作能力时提供了一种方便、实用的工具。

本研究的局限性在于学生和教师都来自于地方院校, 样本容量较小, 且数据只来自对一种体裁 (议论文) 写作的评价。此外, 限于篇幅, 本研究也没有涉及各评分维度应赋予的合理权重。研究者的目的旨在抛砖引玉, 希望能给英语教师提供一些思路与启示, 在实践中共同改进和完善评分量表。

参考文献

[1]Coffman, W.E.Essay examinations.In R.L.Thorndike (Ed.) , Educational measurement (2nd ed.pp.271-302) [M].Washington, DC:American Council on Education, 1971.

[2]Dillman, D.A., Smyth, J.D., &Christian, L.M.Internet, mail, and mixed-mode surveys:The tailored design method (3rd ed.) [M].Hoboken, NJ:John Wiley&Sons, Inc, 2009.

[3]Hair, J.F.Anderson, R.E., Tatham, R.L.&Black, W.C.Multivariate data analysis (5th ed.) [M].Englewood Cliffs, NJ:Prentice-Hall, 1998.

[4]Halliday, M.A.K.and Hasan, R.‘Retrospective on SFL and literacy’, in R.Whittiker, M.O’Donnell, and A.Mc Cabe (eds) , Language and Literacy:Functional Approaches[D].London:Continuum, 2006:15-44.

[5]Hewings, A.‘Shifting rhetorical focus in student and professional geography writing, ’in C.N.Candlin (ed.) , Research and Practice in Professional Discourse[D].Hong Kong:City University of Hong Kong Press, 2002:441-462.

[6]Humphrey, S.Martin, J., Dreyfus, S., and Mahboob, A. (2010) .A 3x3 toolkit for academic writing[A].In A.Mahboob&N.Knight (eds.) Directions in Appliable Linguistics[C].London:Continuum.

[7]Kaiser, H.F.Little Jiffy, Mark IV.Educational and Psychological Measurement[J], 1974 (34) :111-117.

[8]陈宇顺.多变量分析[M].台北:华泰书局, 2004.

统一构念效度及其特性 篇2

将构念效度提升成为在心理测量与语言测试学界核心地位的是由Messick所提出的效度框架,在此效度框架中Messick(1995)主张引入价值含义 (value implication) 和社会影响 (so-cial consequences)方面。他认为 ,统一构念效度的本质是 ,分数推断要恰当(appropriateness)、有意义(meaningfulness)和有用(usefulness),这三方面具有不可分割性 ;这种综合解释力来源于以实证数据为支持的分数解释(p747)。Messick(1995)设计并阐述了被称为效度层面渐进矩阵(facets of validity as a pro-gressive matrix),区分统一构念框架下 , 相互联系的效度层面(facets)。随着统一构念框架的提出 ,构念效度对测试分数的合理解释已具有核心作用。统一效度概念即把内容效度、效标关联效度作为证据支撑,而将构念效度置于核心地位。Messick(1998:1015)对构念效度的地位做出了总结 :构念效度的确是一个统一概念, 它将效标与内容效度融合到一个共同框架之中,为基于某理论的假设提供证据支持,因此统一效度即指构念效度。

Messick(1998:3)指出效度是一个统一的概念 , 即只有一种效度———构念效度, 而非传统意义上对效度进行的多种定义。统一意味着在效度检验中分数所具有的意义体现在基于分数所做出的推断之中。构念效度作为统一效度的代名词,Linn和Gronlund(2000:75-6)总结了统一效度的一些特性。

首先,效度是对测试结果解释和使用的一种属性,而不是测试和 分数本身 的性质。Cronbach(1971)指出效度 并不是测试本身的特性,而是分数所蕴含的意义,他进一步指出被认为有效的并不是测试或观察的手段, 而是从分数或其他指标中所获得的推断。即便如此,也经常能看到或听到有某一测试 的效度或 某一分数 的效度的 说法 ,Bachmann(2004:260) 指出这种用法是不准确的 , 更确切的说法应是测试分数作为有效的指标或者作为某一能力的有效测量。其次,对使用的某一测试的效度只是一个程度问题。一个特定的测试分数一定不能全面准确地测量出某个特定能力,分数解释和使用的效度要依赖于解释理论的逻辑理据和支持这种理据的实证依据的充足程度。因此,Bachman(2004:260)强调我们无法证明我们对分数的解释和使用是有效的,我们最多能提供依据说明,我们意欲进行的解释和使用比其他可能的解释和使用是更有道理的。再次,效度总是针对一定的测量目的而言的, 不具有普遍性。当一个 测验被设 计和使用时, 测验的使用者总是对分数的解释和使用有一系列的目的。因此, 特定测试的分数并不适用于其他情况和其他目的。对分数的特定解释取决于测试设计者如何定义所测能力或构念,并且针对不同的使用目的和不同的受测者,对于特定能力的定义也会不同。最后,效度是一个关于整体的评价性判断。首先,效度是一种评价性判断。Cronbach(1988)指出效度是对测量意义和结果的实证性评价。实证性评价,Messick解释道 , 是指效度验证过程既是科学性的又是说理性的,都需要有证据和论点的支撑。其次,实证性评价并不是单方面的。典型的效度论证需要好几部分,并且需要各种不同的论据支撑, 单独的论据并不能有效地验证对于某个特定测试所期望的解释和使用。

构念效度验证 篇3

高等教育自学考试是个人自学、社会助学和国家考试相结合的高等教育形式。自从1981年开始在京、津、沪试点, 特别是1988年国务院正式颁布《高等教育自学考试暂行条例》、1999年《高等教育法》正式实施以来, 自学考试经过不断的探索、改革和发展, 已成为“中国特色社会主义现代教育制度的重要组成部分”和“我国终身教育建设、实现学习型社会的重要形式”。

在新一轮战略发展中, 必须大力推进改革, 积极鼓励创新, 坚持科学发展, 不断增强自学考试社会适应性, 在日渐形成的终身学习社会中, 继续发挥其不可替代的作用。在自学考试科学发展过程中, 破解难题的关键仍然是质量。“质量是自学考试的生命线, 没有了质量和信誉, 自学考试制度也就失去了存在的基础”。

自考公共基础课程“英语 (一) ”和“英语 (二) ”, 涉及面广, 考试的反拨效应强, 对于考生英语学习的目的、方法等产生直接影响。在科学技术日新月异、教育改革不断深化、教育质量日益提高的今天, 十多年前编写的考纲和教材在形式和内容上不可避免地凸现出与时代不相适应的问题。

鉴于自学考试制度的特性, 考纲是编写教材、课程命题的依据, 也是个人自学、社会助学的依据, 既行教学大纲之实, 统领课程定位、培养目标、教材编写、教学实施, 又司考试大纲之职, 掌控考试性质、考试目标、考试范围、考试命题, 可以毫不夸张地说, 考纲是课程、考试的中枢, 是自学考试质量的支柱。

“英语 (一) ”和“英语 (二) ”考纲所凸现出的与当今社会不相适应的问题表现在教学内容陈旧和构念效度的低下, 根源是构成两份考纲理论基础的语言观在十年后的今天尤显过时。

诚然, 对教学内容陈旧与否的判断以社会发展程度和人类认知水平为参照, 具有相对性。以十年前的社会发展程度和人类认知水平为参照标准, “英语 (一) ”和“英语 (二) ”教材内容也许具有一定的新颖性, 但是十年后的今天其新颖性已随时光的流逝而褪去, “关于语言、广告、记忆、月球、钻石、货币、保险、烟雾等事物的入门介绍性……内容已很难激发起当今学生的学习兴趣”, 这是事物发展的客观规律, 不以人的意志而转移。相反, 假如其新颖性能延续至今, 那么只能证明社会发展的停滞和人类认知水平的低下。大凡优秀教材平均每三年全面更新一次内容, 以确保其与社会发展程度和人类认知水平相适应。因此, “英语 (一) ”和“英语 (二) ”的教材出版至今已十年有余, 仍未经修订, 且不论支撑其编写思想的教学理念蕴涵多大程度的科学性, 仅就其内容而言, 已不适应当今学习者的需求。

更为重要的是, 构成“英语 (一) ”和“英语 (二) ”考纲理论基础的语言观不但不适应当今语言教学和语言测试的发展趋势, 而且在一定程度上束缚或阻碍相关课程教学目标的最终实现以及教育功能的正常发挥。

二、测试的科学性

对于测试、尤其是语言测试, 质量是永恒的主题, 而把握质量、提高质量的切入点是科学, 是测试的科学。学习测试的科学, 实践测试的理论, 尊重测试的规律, 探索测试的方法, 创新测试的道路, 从而实现科学的测试。

Bachman认为, 测试是一种测量学工具, 用来刺激应试者某种行为样本, 并据此推断其某些特质。李筱菊指出, 语言测试是对一组言语行为进行测量, 这组行为是表征目标能力的全部行为的一个抽样。测试的结果, 是为了可以对目标能力作出推论。

测试, 归根结底是为了使用。能够获取有效行为样本且成功推断目标能力的测试就是有用的测试, 有用的测试就是科学的测试。测试的实用性 (usefulness) 亦即科学性, 体现在测试质量的六个指标:信度 (reliability) , 构念效度 (亦称结构效度、理念效度, construct validity) , 真实性 (authenticity) , 互动性 (interactiveness) , 测试后效 (impact) 和可行性 (practicality) 。

一项测试即使足以反映考什么、怎么考、为什么这样考, 也不能证明考这些、这样考是有用的。换言之, 一项测试即使信度和效度均令人满意, 也未必是一项科学的测试, 因为信度和效度只反映测试和考纲之间的关系, 并不反映测试与实际的关系, 或考纲与实际关系这个涉及测试质量的根本问题。触及这个根本问题的是构念效度。以构念效度评价一项测试, 是测试学发展过程中的一大理论突破。语言测试中的构念, 是对一种能力的具体定义, 这种能力为一项测试或测试任务奠定基础, 也为解释由此获得的分数奠定基础。构念效度是一种程度标准, 即考试分数可以在多大程度上反映意欲测量的能力或构念。简言之, 构念效度就是一项测试的语言观的效度, 就是该项测试的考纲的效度。

测试的科学性首先体现在构念效度上。对语言测试来说, 不同的语言观不但决定考什么, 而且决定怎么考, 而这两者直接关系到语言测试的信度和效度。这是开发一个语言测试项目在设计阶段首先要解决的问题。

测试的科学性也体现在语言测试的内容规范 (test specification) 的制定过程中。语言测试的内容规范包括诸多因素, 如测试的目的、性质、内容、试卷构成等。语言测试所涉及的语言变量、交际功能、情景、交际活动等不能凭空臆断, 必须通过需求分析 (needs analysis) 来确定。测试的科学性还体现在语言测试项目的其他阶段, 如实施、命题、阅卷、成绩报告、考后研究等。

笔者以为:构念效度和内容规范直接影响语言测试的实用性, 不仅为测试的性质和目标定位 (决定考什么和怎么考, 回答为什么这样考) , 而且是检验语言测试质量的重要参照依据 (是否考了既定内容, 测试结果与测试目标是否相关、指向是否完全一致, 测试是否对教与学发挥积极推进作用) 。构念效度的重要性更体现在对测试指导思想的检验上、对考纲的评价上 (该测试是否有用) 。

三、“英语 (二) ”考纲构念效度

鉴于“英语 (一) ”和“英语 (二) ”考纲完全同质, 本文以“英语 (二) ”为例, 从考纲的语言观、阅读理解题型、考纲词表、测试后效等角度, 解析两份考纲的构念效度。

1. 考纲的语言观

语言测试与语言教学相互作用, 紧密相连。伴随着一种语言教学理论的兴起, 必然会出现一种相应的语言测试理论;同样, 语言测试理论的发展也促进语言教学理论的创新。

综观语言测试发展历史, Spolsky、李筱菊等提出语言测试三代体系说。第一代体系即传统测试 (traditional testing) , 亦称科学前语言测试 (pre-scientific testing) , 把语言看作一门知识, 测试语言点, 采用拼写、词法变位、条件翻译等记忆性试题和造句、翻译、作文等应用性试题。记忆性试题分离处理考点, 没有语境 (上下文) 或情景 (非语言环境) ;应用性试题有语境, 有时也有情景, 但缺乏真实性。试题主要围绕语言形式, 以语码为焦点。第二代体系即现代测试 (modern testing) , 亦称心理计量结构主义测试 (psychometric-structuralist testing) , 属结构主义体系, 把语言看作一套形式结构和符号系统, 测试操作这套形式系统的技能 (skills) 或对刺激作出正确反应的语言习惯, 采用语法填空、句子填空、句子辨错等试题, 以及多项选择题型 (MC题型, multiple-choice test item format) 和是非题型 (T/F题型, true-and-false test item format) , 主要题型是MC题型和语法填空等试题的结合。强调四项技能分离处理, 首倡离散项目测试 (discrete-point test) 。试题缺乏情景和语境或真实语境, 围绕语言形式, 以语码为焦点。第三代体系即后现代测试 (post-modern testing) , 亦称心理语言学—社会语言学测试 (psycholinguisticsociolinguistic testing) 或交际语言测试 (communicative language testing) , 以交际能力为语言的内涵, 测试交际行为 (communicative activities) , 采用做事型试题, 综合处理四项技能和考点, 强调真实性, 以信息为焦点。

基于语言测试三代体系说, 参照李筱菊模型分析英语 (二) 试题, 鉴定其语言观所属体系。英语 (二) 试题八种题型:单词汉译英、填写语法形式、英译汉、汉译英、结构及文字表达、错误识别、完形填空、阅读理解。

从试题属性来看, 六种题型 (占75%) 分离处理语言技能和考点;两种题型 (占25%) 综合处理语言技能和考点。七种题型 (占87.5%) 以单词或单句为语境;以短文或语篇为语境的一种题型 (占12.5%) 。七种题型 (占87.5%) 不基于情景, 测试的语言缺乏真实性;一种题型 (占12.5%) 基于情景, 测试的语言具一定的真实性。六种题型 (占75%) 考查语言形式, 以语码为纲;一种题型 (占12.5%) 以信息为纲;一种题型 (占12.5%) 兼有语码和信息形式。分析结果:约80%的题型具有第一代体系即传统测试的特征。

从测试内容的决定来看, 八种题型均以语言点为纲, 具有第一代体系即传统测试的特征。

虽然四种题型 (占50%) 形式上接近第二代体系即现代测试, 但是按实质定性, 这些题型只起点缀作用。

2. 阅读理解题型

阅读理解题型是分析“英语 (二) ”考纲构念效度的重要观察点。首先, 阅读理解测试学习者输入性技能的综合运用, 在语言测试中具典型意义。其次, 《英语 (二) 自学考试大纲》中课程目标第一项就是培养“较好的阅读能力”, 阅读理解在“英语 (二) ”考试中具典型意义。再者, “英语 (二) ”考试基本属于标准参照考试 (criterion-referenced test) , 考纲中与阅读相关的内容则可认定为目标能力全部行为的描述, 这种描述的完整性和清晰度是考纲构念效度的佐证。

同时, 在从阅读理解题型角度审视“英语 (二) ”考纲构念效度过程中, 引入对比分析变量———PETS3考试, 以提高分析结果的效度。“英语 (二) ”考试和PETS3考试具可比性, 因为, 无论是PETS考试大纲的说明, 还是各地自考的规定, 都表明PETS3考试可替代“英语 (二) ”考试。更为重要的是, “PETS的测试技术达到了世界先进水平”, 其“多级别标准的系统描述处于世界先进行列”。

以两项考试的阅读理解作对比分析。

“英语 (二) ”:阅读3段难度相当于指定教材后半部分课文的一般性材料, 语言技能涉及:词和短语的意义、句子表达的内容与内容之间的联系、文章主题思想和大意、句子和文章的内在含意及推理、文章作者的态度。未规定阅读量, 使用多项选择题型。

PETS3:题材按照“交际话题表”19项内容;考查考生理解书面英语的能力, 体裁为不同类型的文字材料, 包括私人和正式信件、传单、一般书刊、杂志上的文章, 以及一般性的技术说明和产品介绍;难度按照“级别标准”3项5条;语言技能涉及:理解主旨要义, 理解文中具体信息, 根据上下文推测生词词义, 进行有关的判断、推理和引申, 理解文中的概念性含义, 理解文章的结构及单句之间、段落之间的关系, 理解作者的意图、观点或态度, 区分观点、论点和论据。分为A节3篇文章 (每篇约350词) , 测试获取总体与特定信息的能力, 采用多项选择题型;B节1篇文章 (约350词) , 测试理解主旨要义的能力, 采用搭配题型。

“英语 (二) ”考纲对目标能力全部行为的描述不完整、不清晰, 阅读语篇题材要求缺失, 体裁要求言之无物, 难度要求模糊不清, 阅读量要求形同虚设, 题型设置单一, 忽视微技能测试的具体要求, 表现出一定程度的主观性和随意性, 无法佐证“较好的阅读能力”是课程的第一目标, 给人以现代测试题型作点缀的印象。

3. 考纲词表

考纲词表的编制和词汇习得标准的设定与测试的构念效度高相关, 反映出科学前测试与现代测试、后现代测试的区别。

“英语 (二) ”考纲词表与PETS3考纲词表相重合率为81.6%, 两项考试可比。在18.4%不重合的“英语 (二) ”考纲词表部分, 其词汇的词频均相对较低。在比较研究中, 笔者注意到:“英语 (二) ”考纲词表没有收录916个PETS3词汇, 其中167个属PETS2词汇。结果表明:“英语 (二) ”考纲词表高词频的基础词汇收录不全, 低词频非常用词汇越级收录, 所设定的词汇习得标准缺乏应有的基础词汇支撑, 级别层次模糊, 难度鉴定不具可操作性。“英语 (二) ”考纲没有就词表编制和词汇习得作具体说明, 表现出一定程度的主观性和随意性, 具有第一代测试体系的特征, 这对于标准参照考试而言, 无疑是构念效度的一大缺陷。反观PETS3考纲, 词表编制原则和词汇习得标准清晰明了, “选择第三级词表时除参考了一些同层次的词表外, 还考虑了该级别语言的功能性使用, 这对于考生将要或已经从事的一些工作是必需的。此外, 考虑到交际的需要, 考生应自行掌握涉及个人好恶、生活习惯、宗教信仰以及本人工作或专业等方面的特殊词汇”, 体现了后现代测试体系的语言观。

4. 测试后效

针对测试、特别是社会化测试所可能产生的正面或负面影响以及可能引发的积极或消极反应, 学界区分测试后效 (impact) 和反拨效应 (washback或backwash) , 认为测试后效主要指测试对社会及教育体系的影响, 而反拨效应限于测试对教与学的影响。本文采用Bachman and Palmer观点, 测试的后效作用表现于两个层次、三个方面。测试在两个层次上具有后效作用, 即微观层次 (指受到某项测试使用影响的个人) 和宏观层次 (指社会或教育体系) 。测试的后效作用可从三个方面观察, 反拨效应;对应试者、教师等个人的后效作用;对社会和教育体系的后效作用。测试的后效研究应采用定性和定量分析相结合的多元化方法, 是一项复杂的工程。

仅就涉及“英语 (一) ”和“英语 (二) ”后效的原则问题, 笔者认为:

(1) 两门课程应切实发挥国家标准的作用。“自学考试能够发展, 一直受到社会的欢迎, 就是因为自考的社会信誉比较好。我们不能采取降低标准和难度的方法来吸引生源, 要珍惜自学考试多年来形成的这个品牌”。

自考的标准即国家标准, 两门课程的标准也是一种国家标准。既然是国家标准, 就应该保持相应的科学性、权威性、严肃性, 而两份考纲在这方面有欠缺。

(2) 两门课程应重新定位培养模式。2002年全国考委五届二次会议为自学考试培养模式进行新的定位, “培养目标大体上同相应的普通高校、高等职业院校开设的相同专业一致”。

同为国家标准的《大学英语课程教学要求》对普通高校非英语专业本科英语课程的教学性质和目标的定位是:“大学英语教学是高等教育的一个有机组成部分, 大学英语课程是大学生的一门必修的基础课程。大学英语是以外语教学理论为指导, 以英语语言知识与应用技能、跨文化交际和学习策略为主要内容, 并集多种教学模式和教学手段为一体的教学体系。大学英语的教学目标是培养学生的英语综合应用能力, 特别是听说能力, 使他们在今后学习、工作和社会交往中能用英语有效地进行交际, 同时增强其自主学习能力, 提高综合文化素养, 以适应我国社会发展和国际交流的需要。”

“英语 (一) ”和“英语 (二) ”考纲对本课程的教学性质和目标的定位是:“使学习者能比较熟练地掌握英语基础知识和语言技能, 做到具有较好的阅读能力、一定的英译汉能力和初步的听、说、写及译的能力, 为获取专业所需的信息及进一步提高英语水平打下扎实的基础。”

不难发现, 两份考纲仍与二十多年前普通高校非英语专业本科英语课程文、理科分类教学大纲和文、理科通用教学大纲等相适应, 已明显落后于时代, 不合时宜。

(3) 两门课程应引入全新的考试大纲。真正以先进的外语教学理论和语言测试理论为指导, 以需求分析为依据, 借鉴《大学英语课程教学要求》的设计模式, 编制适应时代要求的、科学的考试大纲。

(4) 两门课程应建立全新的课程体系。以教材编写为突破口, 结合信息技术、网络技术的手段, 建立先进的教学平台, 突出个人自学、社会助学的特点, 最终形成有自考特色的英语教育体系。

(5) 两门课程应全面改革测试方法和测试手段。根据两份考纲, 听、说、写技能至今仍“暂不作考试要求”。这样的处理方式只会产生消极的反拨效应, 阻碍自考质量的提高, 因为“考什么就学 (教) 什么”是学 (教) 对于考的直接反应。没有了听、说、写, 学生习得的技能是不完整的, “聋子英语”“哑巴英语”等即便不成必然, 也绝非偶然。

四、结语

构念效度验证 篇4

语言测试的真实性问题, 应该作为语言测试有用性的关键前提, 是信度, 效度, 交互性, 影响性, 可实践性等五个性质的平行属性。尽管很多测试学学者对究竟是应该符合目的语的情景真实性还是本族语的语言真实性而争论不休, 但有两点却可以确定:首先, 任何当前的测试任务, 都属于间接的测试。我们都是基于对言语行为的表征推论被试者具备的语言能力。我们大脑中的神经活动目前都只能通过定性研究和定量分析来判断, 为了测试出真正的语言运用能力, 就要在测试中尽可能地体现真实性。真实程度越高, 对目标行为推测的可行性就越大, 推论的结果也就越有说服力;其次, 真实性的标准, 始终都是一个在不断完善的过程, 不同的测试目标会采取不同的任务标准, 即使是相同的任务, 不同的被试群体也有不同的培养目标。所以, 真实性也伴随着一定地主观性和相对性。前者要涉及到出题人的测试群体选择, 测试文本选择和测试场景选择, 其间不可避免地要牵涉到命题人对题目地主观理解和认识;而后者关系到受试群体在测试任务中的参与程度和表现, 以及受试群体对任务的反馈影响等。

测试群体选择, 测试文本选择和测试场景选择, 对目标任务的信度和效度标准涉及的较多;而受试群体的参与度更多体现在对目标任务的交互性, 影响性和实践性三个方面上。各个性质是相互渗透和协作的, 目标任务的进行, 经常是多层面共同作用的效果。真实性在每个标准上都有着各自的定位和效用。

根据Bachman (1991) 对真实性给出的定义:语言测试中的真实性是指受试者在测试中使用目的语完成测试任务与其在现实生活中使用语言进行交际活动的相似程度, 也就是语言测试与语言交际的统一程度。语言能力是多成分的, 多层次的, 且不可分割的整体综合体现。在Bachman倡导的体系下, (交际的) 真实性强调是被试者与任务间的互动 (interaction) 。另外, Bachman&Palmer (1996:24) 认为, “真实性之所以重要是因为它可能影响受试者对试题的感受, 因而也影响他们在测试中的表现”。考生不仅仅会受到语言能力的影响, 也会受到了测试方法的影响。Breen (1985) , 以学生为中心, 从学生的实际情况出发, 只要学生通过这种教学材料、任务和情景能够提高其目标语的交际能力, 它们就是真实的, 因为语言教学有其固有的真实性。Bachman (1996) 认为, 真实性存在于应试者、考试任务与考试情景之间的相互作用中, 被试者在参与某一测试任务事件, 其语言能力的哪些方面参与完成了该项任务的活动, 参与程度如何。

二、构念效度

《教育与心理测量标准》 (1999) 指出, 对于考试的开发以及考试的评估, 效度都是最基本的要素。Messick (1989) :“效度是对基于测验分数或其他评估形式的解释和决策的整体综合评价, 判断实证证据和理论原理支持分数解释和决策的充分性和适应性” (Validity is an overall judgment of the degree to which evidence and theoretical rationales or the adequacy and appropriateness of interpretations and actions on the basis of test score or other modes of assessment) 。“测验效度的关键问题是分数的可解释性、关联性、实用性、作为行动基础的分数价值、分数使用所导致社会后果的功能价值”。

另外, 在教育成就测量领域中, 构念, 是作为一种能力的范畴 (Wiley, 2002) , “能够成功完成目标任务所具备的人类特征。” (a human characteristic required for successful task performance) 。“构念是一种能力范畴, 特定的人群除了可以区别什么是成功的任务, 什么是非成功任务之外, 还可以适当运用该能力到特定的任务上, 而不是其他的任务。换言之, 这是一种能力的界定, 能够帮助人把任务的类型进行划分, 一类任务可以运用该项能力, 而另外的一类就不能运用该项能力。”“构念效度在效度研究中的重要性是不言而喻的” (Anastasi, 1986;Cronbach, 1988;Messick, 1989, 1995;Shepard, 1993) 。

那什么是构念效度呢?构念效度 (Construct Validity) (胡森, 1992) :是用于评定某个特定的测量与其他测量之间的关系是否与理论的上的假设相一致。这其中包括了从前效度研究涉及到的内容效度、效标关联效度和构念效度以及社会后效和测量价值的综合概念。

三、真实性与构念效度

真实性从来都不是独立存在的因素, 既不能脱离“真实”这一概念, 也并不等同交际中信息传达量的多少。真实性的要求, 就是根据不同的测试目的, 平衡各项标准的过程。根据具体测试要求, 测试前, 选择, 设计和修改测试任务;测试中, 积极的评定和收集考试数据;测试后, 认真做好后效分析, 最大程度上保证考试真实性。这样, 得到的统计结果才能更加合理的推论我们的语言使用能力。语言运用的最自然的形式就是把各种有关知识技能综合起来使用。语言的真实性, 适时反映当前的经济, 政治, 文化, 军事, 宗教等诸多社会因素。语言的真实性, 通过不同材料展现出不同的世界观和价值观, 生活习惯, 风土人情, 信仰等大量社会文化知识。而测试的真实性, 则是一个尽可能减少测试中存在的主观因素和相对因素的过程, 保证测量的公平性和客观性, 让实证数据, 理论依据以及社会价值判定共同作用结果达到最佳的过程。不管是交际任务还是语言学习, 扎根实际的语言环境, 才可能保证言语的地道, 规范以及准确;才能保证材料的完整, 以及知识的可理解性;才能保证试卷在试题内容、难度以及测试方法上应尽最大可能诱导或测试出受试的语言能力, 提高测试的效度。Ebel&Frisbie (1991) 对构念效度解释涉及到了更多的方面, 他们认为, “构念 (construct) 一词是个心理学概念, 是对某种不能被测量而且不能直接观察到的人类行为所做的理论定义。”Bachman (1990) 也指出, 构念效度评估主要关注测试成绩是否与某种语言能力理论所预测或假设的能力一致的问题。构念效度的评估是一项科研活动, 是赋于测试以理论, 或证实和修正理论, 或完全抛弃某理论的手段。一个测试如果能够证实所测的东西与考试的原则或理论相吻合, 那么, 它的构念效度就很好。构念效度越好, 则受试群体在测试中的表现越能反映问题, 真实程度就越高。

对于构念效度, 其研究主要集中在分数意义的解释效度的维度上。我们已知, 构念效度是分数解释的证据基础, 分数解释就是评估该测验与其他测验之间的实证关系 (或缺乏实证关系) 与分数意义的一致性程度。因此, 构念效度就是指基于测验分数做出的分数解释的意义和合理性。早期的构念效度研究注重测试的“事实性 (truth) ”, 就内涵而言, 强调测试对受试群体能力和特征属性的预测程度。而发展后的对分数结论的效度研究, 涉及到语言的社会功能 (function) 和价值 (value) 成分等方面。前者关系到Bachman理论体系下的后效性因素, 而后者更多提到了其交互性因素。测试本身具有主观性和相对性的, 完全客观的把握出题是否难易度并不符合真实性规律, 而如何权重题目材料和真实语境, 以及如何最大化的提升被试群体的参与程度才能解决问题的途径。Messick (1989, 1995) 认为, 在测验中, 影响真实性的原因固然很多, 但仅仅从试题设置的难度上看, 无非就是“构念无关难度” (construct-irrelevant difficulty) , 或者“构念无关易度" (constructirrelevant easiness) 两个层面。然而, Messick (1989, 1995) 在随后的研究就进一步指出, 划分应该从“构念”的维度入手, 而对分数解释效度产生威胁的原因就是:构念表现不足 (construct under representation) 以及构念无关变量 (construct irrelevance) 。前者使得测量的范围变得狭隘和局限化, 不能够恰当地表征构念所需要的项目内容和测试中所发生的心理过程, 或者对某些应该出现的程序及刺激反映缺乏准备;而后者过多得考虑到构念过程中其他因素的影响, 偏离了测量的主行道。最直接的表现之一就是受试群体对测试题目的情感体验, 往往会对效度结果造成极大的影响。这种影响可以是正方向的, 也可以是负方向的。而即使是正方向的反映, 也是不合乎效度分数解释的。所以, “构念表现不足”和“构念无关变量”都会导致对构念的不准确测量。“构念效度包括支持分数解释可依赖性的证据和原理, 以阐释性概念 (explanatory concepts) 来说明测验行为、分数与其他变量的关系” (Messick, 1989) 。在分数意义方面, 试题所做的构念会对具有不同背景的受试群体产生不同影响, 出现构念的精确度偏移, 导致考试偏见 (Bias) 。以此为基础的考试分析结果的自然扭曲了分数的解释, 让出题决策出现偏差。 (Angoff, 1993) 。测试的内容要具有代表性和综合性, 题目到出现应考的内容, 例如对测试任务内容的逻辑分析, 细节题目辨析等等。从而判断试卷是否包含了能够反应相关语言技能的试题。不同的考生会受到诸多例如学习风格, 个体特征, 情感因素, 心智发展等相关因素的影响。一旦没有在合适定位的内容上进行测试, 得到的结果就会失去真实性。

构念效度的提出, 是从整体上去把握理解效度, 从而提升效度研究的理论高度。根据实际情况, 如何选择, 平衡设置和调整语言有用性标准 (比如信度, 效度, 交互性等等) 才是真正需要坚持探索的领域。

摘要:真实性, 是语言测试有用性的前提条件, 是信度, 效度等多个标准的共有的属性。构念效度, 是分数解释的证据基础, 是评估某项测验与其他测验之间的实证关系和分数意义的一致性程度。构念效度保证了分数解释的合理性, 才使得以分数为基础的理论推断具备有用性。测试的真实性程度越高, 对目标行为推测的可信度也就越高, 推论的结果也就越具有说服力。本文尝试从分析真实性与构念效度之间的关系为出发视角, 寻找更多的理论联系。

关键词:真实性,效度,构念效度

参考文献

[1].Alderson, J.Charles., Caroline Clapham and Dianne Wall. 2000. Language Test Construction and Evalu-ation [M]. Beijing: Foreign Language Teaching and Re-search Press.

[2].Angoff, William H.1993.Perspectives on dif-ferential item functioning methodology [A]. In Holland, Paul W., &Howard Wainer (eds.)  Differential Item Functioning[C]. Hillsdale,  NJ: Lawrence Erlbaum Associates.

[3].Anastasi, A.1986. Evolving concepts of test validation [J].Annual Review of Psychology37:1-15.

[4].韩宝成.语言测试、理论、实践与发展[J].外语教学与研究, 2000, (1) .

[5].黄大勇.语言测试中的真实性概念[J].语言教学与研究, 2004, (2) .

[6].黄光扬, 2002, 《教育测量与评价》[M], 上海:华东师范大学出版社.

【构念效度验证】推荐阅读:

质量验证07-14

标准验证05-11

协议验证05-15

措施验证05-24

验证确认05-28

验证研究06-04

验证方案06-18

验证报告07-05

公式验证07-26

验证测试08-07

上一篇:细读教材下一篇:别样风采的英语课堂