语言测试偏差

2024-10-24

语言测试偏差（共3篇）

语言测试偏差篇1

1. 前言

随着国际交流的日益密切，英语作为国际通用语，已经受到越来越多的人的重视。在我国，英语语言测试是检测考生是否达到某种英语语言运用能力的主要手段，因此，在竞争激烈、就业形式日益严峻的今天，通过考试和取得良好的成绩，对每个大学生来说都是十分重要的。但是如果测试中存在偏差，使部分考生的水平得不到真实的反映，就会直接影响测试的效度和公平性，所以研究英语语言测试中是否存在偏差，以及如何改进，是提高测试的公平性、建立公平公正的社会竞争环境所需要迫切解决的重要问题之一。

2. 语言测试中偏差的定义

偏差是非常复杂的问题，对于偏差的界定至今仍没有统一、明确的定义。早在20世纪60年代美国语言学家在研究美国印地安人参加的语言测试中提出文化背景的差异应该作为考试潜在的差异来源。而在同一时期，受美国民权运动和女权运动的影响，测量学家就开始关注测试和项目的偏差研究。近几十年来很多语言测试界的学者和专家对测试的偏差理论进行了大量的研究。Bachman曾指出，测试偏差是指当由于考生的个体特征差异而非语言能力差异导致的测试结果呈现系统性的较大差异，测试结果倾向性地反映了考生的能力，降低了测试效度。但是在研究偏差的时候，我们也要注意，考生间的测试结果差异也可能真实地反映他们的能力差异。只有当测试结果差异呈现系统性并与他们的个体特征(如民族、教育背景、性别、年龄、宗教、个人经历等)相关而不是由于所测试语言能力导致的时，才能说这项测试中存在偏差。语言学家Shepard也指出，测试偏差是一个范围很广且很复杂的概念，包括分数的错误解释、带有性别歧视或种族主义的内容、标准参照考试分数对考生在其他测试中的表现的不准确预测、由于考生经历不同引起的内容上的不平等、基于分数的不恰当的人才选拔程序、行为抽样的不完全、威胁性的分为和测试环境等(Shepard, 1982:25)。可见，偏差可解释为在测试中的一种或多种与测试无关的因素，它对考生能力产生系统性的妨碍作用，造成测试结果的偏差，有利于一部分考生而不利于另一部分考生，从而影响测试结果的准确性，降低测试效度。

3. 我国英语测试中的偏差的存在及其原因

从试题的设计到测试结果的产生整个过程中是各个要素的综合作用。其中人员涉及测试的设计者、组织者、评定者、考生，而测试要素还涉及测试内容、测试方法、测试条件及测试结果的评定等。据刘庆斯(1991)对MET90进行偏差分析可以看出我国的各类大学英语全国统一考试，考生在民族、性别、专业背景等方面存在较大差异。再者我国城乡差距较大，经济发展不平衡，在大范围内进行的统考，许多潜在因素影响到测试的公平性和有效性。

3.1 由测试内容引起的偏差

由于学生的专业背景、民族、性别和语言背景知识不同，测试内容、题材选定的不同是引起语言测试偏差的主要原因之一。例如大学英语四级考试改革以来，新题型中出现的易引起偏差的话题不断出现。如2006年听力第三篇短文中涉及篮球的起源问题，其中出现了很多篮球术语，很多考生不了解篮球也就自然没有答对。像以此类题目对考生的英语水平的考查很大程度上是取决于他们对某一领域的专业知识了解程度，这与语言测试目的是不符的，容易引起测试偏差。

3.2 由测试方法引起的偏差

据Murphy (1978, 1982)以及Wood (2001)的研究发现，多项选择测试中男生优于女生，而写作测试是女生优于男生。在考试题型的设计上，如果没有合理地考虑各个题型的分数比配也很容易引起测试偏差。此外，随着计算机在英语语言测试中的广泛应用，不同考生对计算机的不同熟悉程度也是引起测试偏差的主要方面之一。

3.3 由测试成绩评定者引起的偏差

一般而言，英语语言测试试题是由主观试题和客观试题组成的。对主观试题进行评定时，由于存在得分区间，主观打分就可能造成偏差问题。考生答题的自由度越大，打分就越可能受到无关因素的影响，偏差的可能性就越大。例如评分者有可能会受到考生性别、种族、能力水平、社会阶层等因素的影响。另一方面，评分者还容易受到考生字迹、答题风格等无关因素的影响。

3.4 由测试条件引起的偏差

测试条件是指除考生和试题外的其他与测试过程相关的因素，如测试的环境、考场气氛、考官性别等。Nitko (1983)指出测试压力，如焦虑感、受到冷遇、异性或异族考官等都会在不同程度上影响一些考生群体的测试表现，因而具有偏差。

4. 结语

随着语言测试学及应用语言学的发展，关于语言测试的偏差问题已经引起越来越多人的关注，所以当我们评估英语语言的测试效度时就不得不考虑测试的公平性。因此，借鉴国外偏差研究的理论和方法，对我国的英语测试进行偏差研究已成为测试界刻不容缓的任务。

摘要：语言测试偏差是指由于与测试构念无关的因素导致某个或某些考生群体获得系统性高分或低分, 从而影响测试结果的准确解释和使用, 降低测试效度。本文在综述国外语言偏差研究理论成果的基础上, 阐明了英语语言测试中的偏差研究的重要性, 分析了我国英语语言测试中的偏差的存在及其产生的原因。

关键词：英语语言测试,测试效度,偏差

参考文献

[1]Shepard, L.A.Definitions of Bias[A].In Berk R.A (ed.) .Handbook of Methods for Detecting Test Bias[C].Baltimore:Johns Hopkins University Press, 1982.

[2]Murphy, Roger, J.L.Sex Differences in Examination Per-formance:Do these Reflect Differences in Ability or Stereotypes?[J].Educational Review, 1978, (30) :259-263.

[3]Nitko, A.J.Educational Test and Measurement:An Intro-duction[M].New York:Harcourt Brace Jovanovich, 1983.

[4]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社, 1997.

语言测试偏差篇2

A、认为时间不是很重要 B、守时C、抱一种无所谓态度 D、以上都不对

74、下列国家中比较重视个人领域的是（C）

3A、中国 B、阿拉伯 C、美国 D、印度

75、下列各项，（A）是儒家的概念。

A、圣人 B、神仙C、真人D、圣徒

76、狭义的基督教指的是（C）。

A、天主教B、东正教C、新教D、以上都不对

77、扳指最早应用于（A）中。

A、射箭B、祭祀C、农耕D、以上都不对

78、“平而圆，中心有孔的玉。”被称为（A）。

Ａ、璧Ｂ、环Ｃ、珏Ｄ、玺

79、北京奥运会的中国印玉石产自（B）。

Ａ、陕西蓝田Ｂ、新疆和田Ｃ、河南南阳Ｄ、祁连

80、下列哪项不是中国传统首饰（C）。

Ａ、簪Ｂ、手镯Ｃ、戒指Ｄ、耳环

81、以下哪个民族，对银器最为情有独钟？B

Ａ、藏族Ｂ、苗族Ｃ、彝族Ｄ、壮族

82、中国有句谚语，“君子无常，（D）不离身。”

Ａ、金Ｂ、银Ｃ、石Ｄ、玉

83、（D）时期，朝廷以朝珠为区别大臣等级的标志。

Ａ、宋Ｂ、元Ｃ、明Ｄ、清

84、西方文化传统中，（C）被认为是“王者之石”。

Ａ、蓝宝石Ｂ、钻石Ｃ、红宝石Ｄ、黄宝石

85、蓝宝石主要象征着（B）。

Ａ、尊贵Ｂ、神圣Ｃ、健康Ｄ、平静

86、翡翠最重要的产地是（缅甸）。

87、目前，世界上最大的钻石产自（A）。

Ａ、南非Ｂ、印度Ｃ、南美Ｄ、美国

88、钻石最重要的加工工艺是（C）。

Ａ、雕琢Ｂ、打磨Ｃ、切割Ｄ、以上都不对

89、欧阳秋眉女士的研究对象主要是（B）。

Ａ、白玉Ｂ、翡翠Ｃ、绿松石Ｄ、钻石

90、最早发明钻石切割技术的是（B）。

Ａ、非洲人Ｂ、犹太人Ｃ、英国人Ｄ、美国人

91、女性最早佩戴首饰的原因主要是（C）。

Ａ、装扮美丽Ｂ、显示地位Ｃ、表示臣服Ｄ、以上都不对

92、亲密距离是指（D）之内。

Ａ、20cmＢ、30cmＣ、40cmＤ、46cm93、电影《蒂芙尼的早餐》中，蒂芙尼是（C）。

Ａ、一家餐馆Ｂ、时装店Ｃ、珠宝店Ｄ、咖啡馆

94、握手在（C）应用最为频繁。

Ａ、美国Ｂ、法国Ｃ、德国Ｄ、意大利

95、礼堂演讲是（C）范畴。

Ａ、个人空间Ｂ、社交空间Ｃ、公共空间Ｄ、亲密空间

96、办公室空间属于（B）范畴。

Ａ、个人空间Ｂ、社交空间Ｃ、公共空间Ｄ、亲密空间

97、加勒比海盗风饰品多采用的材质是（C）。

Ａ、金银Ｂ、宝石Ｃ、牛皮Ｄ、草木

98、韩国的图腾崇拜是（B）。A、龙B、虎C、狮D、蛇

99、商务礼仪中，对于着装最基本的要求是（B）。

A、具有亲和力B、庄重简洁C、华丽尊贵D、朴实大方

100、下列国家中，对待合同的态度最为严谨的是（A）。

A、德国B、日本C、意大利D、中国

101、戒指戴在食指上表示（C）。

102、男性佩戴饰品，往往是出于（B）的需要。

Ａ、显示身份Ｂ、美化装饰Ｃ、显示个性Ｄ、以上都不对

103、在西餐礼仪中，（D）表示用餐完毕。

Ａ、起身离开Ｂ、刀叉交叉摆放Ｃ、刀叉平行放于一侧

104、个人空间的距离范畴是（A）。

Ａ、小于46厘米Ｂ、大于46小于120厘米

Ｃ、120厘米-300厘米Ｄ、300厘米-500厘米

105韩国的国花是（D）。Ａ、玫瑰Ｂ、樱花Ｃ、兰花Ｄ、木槿花

106、世界最大的女子学校位于（C）。

Ａ、韩国Ｂ、日本Ｃ、英国Ｄ、法国

107、青瓦台是（韩国）的总统府邸。

108（B）是韩国传统的打击乐器。

Ａ、手鼓Ｂ、腰鼓Ｃ、长鼓Ｄ、镲

109、韩国人不吃（A）肉。A、牛B、羊C、鱼D、猪

110、起源于韩国的运动是（B）。

A、棒球B、跆拳道C、荡秋千D、射箭

112、从地理上看，韩国多（A）。

A、山地B、平原C、高原D、盆地

113、A、守时B、矛盾C、严谨D、豁达A114、日本人对待合同的态度是（B）。

A、一经签订，不可更改。B、可根据具体环境调整。C、无足轻重

115、中东地区的经济基础是（石油）。

116、最能代表韩国饮食文化的是（B）。

A、烤肉B、泡菜C、酱汤D、冷面

117、玄关最早是（C）用语。

A、建筑B、礼仪C、佛教D、以上都不对

118、温泉文化是属于（B）的。

A、韩国B、日本C、泰国D、印度

119瑜伽来自于（D）。A、缅甸B、日本C、泰国D、印度

120、格子图案是（B）的标志。

A、法国B、英格兰C、意大利D、美国

121、西方文化的源头是（C）。

Ａ、腓尼基文明Ｂ、米诺斯文明Ｃ、克里特文明Ｄ、迦太基文明、以上都不对D122、在希腊神话中，（D）具有凌驾于诸神之上的力量。

Ａ、天父Ｂ、冥王Ｃ、战神Ｄ、命运女神

123、希腊神话中，雅典的保护神是（C）。

Ａ、宙斯Ｂ、阿瑞斯Ｃ、雅典娜Ｄ、赫拉

124希腊神话中的美神名为（B），她在罗马神话中的名字是（）。

Ａ、阿尔特弥斯维纳斯Ｂ、阿芙洛狄特维纳斯Ｃ、阿尔特弥斯洛丽塔Ｄ、阿芙洛狄特洛丽塔 125、希腊神话中，神使赫尔墨斯还是（C）的保护神。

Ａ、诗人Ｂ、农业Ｃ、商人Ｄ、婚姻

126、荷马式的英雄最主要的是为（D）而战。

Ａ、国家Ｂ、正义Ｃ、利益Ｄ、个人荣誉

127、“不和的金苹果”上留有的字是：献给最（C）的女神。

Ａ、高贵Ｂ、有权利Ｃ、美丽Ｄ、善良

128、荷马的《伊利亚特》中，带走了斯巴达王妃海伦的特洛伊王子是（C）。

Ａ、阿基琉斯Ｂ、阿伽门农Ｃ、帕里斯Ｄ、赫拉迪克

129、荷马史诗是对（B）时期的战争和航海活动进行的神话式渲染。

Ａ、迈锡尼Ｂ、迦太基Ｃ、黑暗时期Ｄ、以上都不对

130、犹太人的祖先是（B）。

Ａ、希腊人Ｂ、希伯来人Ｃ、尤利安人Ｄ、日尔曼人

131、最先在罗马传播基督教的是（C）。

Ａ、耶稣Ｂ、摩西Ｃ、彼得Ｄ、保罗

132、基督教的核心是（C）。Ａ、律法Ｂ、祭祀Ｃ、信仰Ｄ、道德

133、基督教中的“施洗者”是（D）。

Ａ、耶稣Ｂ、保罗Ｃ、彼得Ｄ、约翰

134、罗马第一位信仰基督教的皇帝是（B）

Ａ、利西尼乌斯Ｂ、君士坦丁Ｃ、屋大维Ｄ、尼禄

135、罗马人对日耳曼人的记载，最早见于（A）时期。

Ａ、恺撒Ｂ、屋大维Ｃ、君士坦丁Ｄ、以上都不对

136、从狭义上看，中世纪的基督教指的是（B）。

Ａ、犹太教Ｂ、天主教Ｃ、新教Ｄ、东正教

137、耶稣殉道和复活是在（B）。

Ａ、罗马城Ｂ、耶路撒冷Ｃ、拜占庭Ｄ、以上都不对

138、在基督教发展早期，基督徒的赎罪形式主要是（B）。

Ａ、购买赎罪券Ｂ、公开忏悔Ｃ、苦行苦修Ｄ、参加十字军

139、中世纪时期，基督教设立宗教裁判所的目的主要是（C）。

Ａ、与皇权争夺地位Ｂ、规范基督徒的行为

Ｃ、镇压异端Ｄ、以上都正确

140、希腊神话中的（B）代表了一种迷狂的状态。

Ａ、美神Ｂ、酒神Ｃ、战神Ｄ、爱神

141、西欧第一个具有多学科性质的大学出现于（B）。

Ａ、德意志Ｂ、法兰西Ｃ、意大利Ｄ、英格兰

“现在，来想一想人的形体吧！它也可以称为一个小世界；身体上每一部分的构成都是艺术的，而非偶然的，整个形体是最美丽绝伦的．．．”这段对人体热情洋溢的礼赞是（D）时期的。

Ａ、古希腊Ｂ、古罗马Ｃ、中世纪Ｄ、文艺复兴

143西方轰轰烈烈的大航海活动主要集中在（15）世纪。

144、启蒙运动主要是一场兴盛于（17）世纪的思想运动。145、第一届世界博览会举办于（C）。

软件测试课程中理论与实践的偏差篇3

对于自动测试工具, 网上有很多技术资料, 其中不少是开发厂商推出的宣传信息, 包含了夸张水分。部分老师对软件测试自动化的讲授理论过于理想, 学生对自动化测试工具的期望往往过高。甚至有一些软件测试大赛, 就以指定的自动测试工具的操作使用作为比赛的主要评分内容, 但参赛学生抱怨TA工具本身不能解决实际问题, 引起争议。其实, 自动化测试工具本身的使用价值是很有限的, 在很多实际测试项目中不实用。对那种不稳定、开发周期很短、一次性的软件等, 自动测试TA工具往往不适合。自动测试工具在功能测试中的价值是回归测试, 自动工具不能灵活发现更多的新问题。教学中需提醒学生对网上一些相关资料辩证地理解。

2 不少教材过于理论化

很多测试工程师认为当前不少软件测试教材过于偏重理论, 教材中包含了一些不实用的甚至与实践脱节的理论, 尤其是一些只适合特定类型项目的测试技术理论被不分适用条件地讲述。比如我们看到很多教材中强调“软件测试占软件开发总工作量的40%、总成本的30%~50%”, 其实这句话只符合部分项目的特点, 与实践中的多数项目情况不符, 真实的测试项目实践需要考虑质量、工期、成本等多方面的约束。又比如一些老师过于推崇白盒测试而轻视黑盒测试, 但事实上实践中很多真实测试项目中主要采用黑盒测试方法, 甚至一些专职的测试工程师工作多年几乎不用白盒测试方法 (白盒测试方法对于程序员自测较多采用) , 白盒测试方法在功能测试、系统测试中等几乎不用。笔者通过对数十个高校在校学生的软件测试的课程设计文档的观察, 发现在学校中测试文档的写作容易走形式, 普遍理论空洞、实用性差。这些过于偏重理论的教材容易降低学生学习的兴趣, 更容易误导学生的实践。没有有效地与实际项目结合, 导致学生学习主要为了考试分数, 而毕业找工作时才发现没有真正的软件测试能力。

3 对于微软的经验理论没有强调实践中的适用条件

通过对常用教材分析, 发现很多教材偏重于微软的技术理论和经验, 偏重于基于瀑布模型的开发过程的测试, 微软的技术主要针对通用型软件, 不一定适用于不同特点的具体项目。

而实践中实际项目复杂多样, 通用型软件项目只占少数, 多数属于需求定制型。很多开发过程本身没有采用瀑布模型, 无法采用被教材重点推广的V模型等。这就要求学生对微软技术的适用条件辩证地理解。

4 一些概念没有经过行业统一规范

软件测试课程发展时间短, 课本中的一些概念没有统一行业规范。比如功能测试的范围比较模糊, 有的教材中把安装测试、兼容测试、界面测试等都划归到功能测试中, 但有的教材把它们从功能测试中独立出来;性能测试概念的外延也百家争鸣, 有的认为它是一个大概念与功能测试并列, 但有的把它定义为和压力测试互不包含;在V模型中软件过程质量保证与软件测试岗位的工作范畴是基本相同的, 而普通软件公司中两者有明显的区别, 前者是管理岗位, 后者仅是技术岗位、主要是事后检查 (不包括需求分析、总体设计、详细设计等的审查) ;很多教材把检查代码是否符合规范作为单元测试的工作内容之一, 但在很多开发公司中检查代码是否符合规范不属于测试岗位工作内容。在软件测试技术中, 像这样的概念术语模糊的现象还较多, 容易导致学生在实践中的混乱、困惑。建议相关部门尽快给出审慎的规范。

5 一些集成测试过程理论的适用性存在问题

教材中经典的渐增集成测试方法包括自顶向下、自底向上、三明治方式等, 这几种集成测试方法理论上虽较为严谨, 但其测试过程没有考虑与开发过程的关联协调。实际项目中往往不允许这几种渐增集成测试方法的实施。开发人员往往希望已完成的模块在单元测试 (开发人员自测) 之后及早参与集成测试, 并且给测试的实施时间很短。这就要求渐增集成测试的过程要和实际的开发动态进展协调起来。如果采用书本上的自顶向下集成测试方法, 需要先集成顶层的模块, 测试它们与所驱动的模块之间的交互接口关系, 但其它非顶层模块可能先于这个顶层模块完成, 却要等到顶层模块集成测试完成之后才能被集成测试, 这显然是这些渐增集成测试方法的使用障碍。方法虽好但有苛刻的适用条件, 但绝大多数教材并不涉及这些方法的适用条件, 容易误导学生实践中生搬硬套。

6 教学实践及建议

6.1 教学中加强案例教学法及项目驱动教学法

笔者从2005年开始在软件测试教学中尝试案例教学法、项目驱动教学法, 要求学生边听课边做具体测试项目, 学生分组以项目为主线、教师为实践向导、学生为实践的主体, 相对于传统的课堂教学, 深感案例教学法、项目驱动教学法显著地增强了学生软件测试技术的实践能力。按照“学习-实践-反馈-修改提高”的原理引导学生修改完善, 提高项目阶段成果的质量。通过案例教学法及项目驱动教学法, 使得理论教学与真实项目实践无缝衔接。

6.2 应对软件测试教材进行标准审查

软件测试课程体系发展时间短, 教材良莠不齐, 一些概念的定义也没有全行业规范, 尤其是概念定义的内涵外延不完全统一、多数教材中没有对不通用的技术方法的适用条件加以说明等。建议行业中加强统一规范。

6.3 教师引导学生开阔技术理论视野

比如推荐参考资料、引导网上检索信息等。还有其它方法, 比如笔者曾经建立了QQ群, 联系到北京、上海、苏州、杭州、郑州等地公司的部分专职测试人员加入QQ群, 抽出每个教学班较好的学生代表加入 (QQ群几年下来已增加到近千人, 由于QQ群人数限制, 暂不能让所有学生加入) , 也会有已经毕业的从事专职测试岗位的学生在群中提一些实践问题, 有长期工程实践经验的老师都会认真提出建议, 这样在校学生在学习过程中已经对不同商业公司测试岗位的技术情况有了较多了解, 在校的理论学习与规范公司的软件测试实践无逢衔接, 开阔了理论视野。

摘要：软件测试是一门实践性较强的课程, 针对软件测试课程教学中常见现象, 归纳了软件测试理论教学与工程实践的脱节之处。脱节之处较多, 这些理论与实践的偏差在很多高校普遍存在, 容易误导软件测试人才的培养效果。软件测试课程体系需要审慎地改革。

关键词：教学改革,软件测试,理论联系实际

参考文献

[1]刘勃, 刘玉, 钟国辉等.基于真实项目的实践教学体系探索[J].高等工程教育研究, 2012 (1) :80-83.

[2]聂长海.关于软件测试的几点思考[J].计算机科学, 2011 (02) :251-255.

[3]赵一丁, 刘凤华, 郑秋生等.仿真软件的被动测试与主动测试互补的研究[J].计算机科学, 2012 (12) :121-125.

【语言测试偏差】推荐阅读：

语言测试与语言教学11-30

国内语言测试06-13

测试描述语言07-05

自动测试标记语言论文05-17

测试题-语言运用09-05