测试原则

2024-12-16

测试原则(精选5篇)

测试原则 篇1

1 引言

很多人认为设计可靠有效的写作和口语试题比阅读试题难得多, 因为写作和口语试题主要依靠不可靠的主观评分, 而阅读测试主要依靠客观评分。实际上, 这种相对难度论是非常错误的。首先, 有时写作和口语考试的主观评分也是非常可信的。其次, 听和读这两种接受型技能通常不以明显的行为表现出来。人们写和说时, 我们能看到、听到整个过程;当他们读和听时, 我们往往缺乏观察的渠道。因此, 阅读试题应能成功地展示受试者的实际完成行为。要做到这一点绝非易事。阅读作为一种接受型技能是很难测试的。本文重点讨论阅读测试出题者在设计试题时应考虑的因素。

2 文本的选择

因为阅读是读者和文本之间的互动过程, 文本在阅读理解过程中起着关键的作用。Halliday (1979) 认为文本是语言的基本意义单位, 包含着很多潜在的意义, 需要读者在阅读过程中发现。Nuttall (1982) 指出文本是阅读过程的核心, 信息只有通过文本才能从作者传递到读者。测试阅读最重要的方面之一就是阅读文本的选择。文本会对阅读测试结果产生巨大影响。在选择文本时, 出题者应重点考虑以下几个方面:

(1) 多样化

应多使用几种文本类型。阅读测试的目的是提高测试者在实际生活当中的阅读能力。因此, 阅读文本应取自受试者将来可能读到的各种真实阅读材料。很多类型的阅读材料都可用作阅读测试文本, 包括杂志文章、报纸文章、学术刊物、书信、时间表、广告、指南、诗歌、路标等。这些类型也可以进一步细分, 如报纸报道、报纸广告、报纸社论等。不能仅仅为了图方便而重复地使用一种文本, 阅读文本应该能反映受试者的实际阅读需求。

(2) 文本类型

文本类型有助于读者的理解, 并提高阅读技巧和策略。选出的文本类型应反映语言教学目的。Weir (1993) 认为文本的选择应该适合观众的需要, 应该增加读者的动机, 而动机反过来对阅读速度和流利程度起重要的作用。比如, 如果学生学的是学术英语, 文本应该选自学术英语材料;如果学生学习英语仅是为了日常应用, 广告、对话或者书信这些文本更适合。

(3) 背景知识

设计阅读测试必须考虑的因素之一就是背景知识。阅读时, 如果我们了解该文本的背景知识, 我们能更容易更完整地理解这篇文本。假设中国大学生阅读两篇文本, 一篇是关于板球的, 另一篇是关于篮球的。因为大部分中国学生对板球知之甚少, 他们很可能理解不了文中关于板球运动的描述。因为篮球在中国很受欢迎, 他们很有可能很容易理解文中提到的关于篮球的信息, 甚至是那些文中没有直接提到的信息。因此, 应避免选择那些受试者非常熟悉或非常不熟悉的文本。如受试者对一篇文章的背景知识相当了解, 即便他们不理解该文章, 他们也有可能做出正确的回答。相反, 如受试者对阅读文本的背景知识一无所知, 即使他们的阅读能力强, 他们在理解文章作出推断时也会遇到相当大的困难。所以, 出题者应确保受试者对所选择的阅读文本的背景知识的了解水平相似。

(4) 难易程度

设计者需考虑文本的难易程度。文本既不能太难也不能太容易。阅读文本的难易程度应该大致跟受试者的水平一致。文本应能激起受试者的阅读兴趣, 又不会使他们兴奋过度或担忧。然而, 难易程度不是简单的问题。对于一篇难度很大的文本, 如果受试者对其背景知识相当了解, 他们也能够较容易地理解该文本。此外, 一份试卷中阅读文本的难易程度应该逐渐递增或者难易混搭。

(5) 文本长度

文本长度也应考虑。文本长度取决于受试者的平均阅读速度。文本长度应该适中, 并根据要测试的阅读技巧的不同作出相应的变化。比如, 要测试查读技巧, 文本的长度应该在2000字左右;要测试详细阅读能力, 几句话或许就够了。

3 测试的阅读技巧

阅读测试主要测试的是受试者的理解、分析、推断和区分能力。Heaton (1991:105-106) 大体上把阅读技巧分为三个层次:语法和词汇知识、微技能和宏观技能。

(1) 语法和词汇知识

语法和词汇知识主要指的是语法和词汇方面的基本概念。主要包括以下技能:1) 根据相应的图形符号识别出单词和词组。2) 理解句子内部的关系, 比如句子结构成分和复杂的嵌入结构等。3) 识别出带有将来时间副词的现在进行时的重要性。

(2) 微技能

微技能指的是执行复杂活动时用到的单个过程或能力。微技能也叫细分技能。阅读中的微技能指的是在词汇意义层面上的技能。微技能主要包括以下三个方面:

1) 通过理解构词法和语境提示推断单词的意义。

2) 通过识别话语暗示, 尤其是大意的介绍、发展、转变和结论, 来理解文本部分与部分之间的关系。

3) 识别出代词等的指示物。

(3) 宏观技能

宏观技能指的是直接跟需要或教学目标相关联的话语层面上的理解。宏观技能是所有三个层次里最高级的技能。阅读中的宏观技能主要包括以下几个方面:1) 理解明确的信息。2) 理解时间和空间关系及文章的脉络。3) 理解概念意义, 如质量和数量、比较和程度、原因、结果、目的、理由、状况、附加条件、对比、让步等。4) 预测文本中接下来会发生什么。5) 识别文本的大意和其他显著特征。6) 概括和得出结论。7) 通过推断 (如领会言外之意) 和理解比喻性语言 (如明喻和暗喻) 来理解文章中没有明确指出的信息。8) 略读和查读 (寻找大意和具体信息) 。9) 批判性阅读 (如评价写作风格) 。10) 根据阅读材料的类型和阅读目的采取灵活的方法并相应地改变阅读策略。11) 识别论据的发展阶段。

4 编写测试问题的步骤

一旦选择好了阅读文本, 接下来就是编写测试问题了。一般来说, 编写测试问题有以下五个步骤:

(1) 仔细阅读文本, 明确该文本适合的外语水平。及时记下读到的信息, 如主旨大意、有趣的信息点、论据的发展阶段、例子等。

(2) 明确测试的阅读技巧, 并根据相关阅读技巧决定编写适合的测试问题类型。

(3) 决定每个测试题的分值及分布。每个测试问题应该占有相同的分值。

(4) 编写测试问题。包括考试说明和问题的设计。如问题需要参考相应段落和行, 应给段落和行编号。

(5) 根据每项分值或其他要求检查分数分布是否合理。

5 关于中国目前阅读测试的建议

我国目前阅读测试的现状难以令人满意。最明显的就是大部分测试问题都是多项选择题, 无论是否适合该文本。很多大型考试, 如高考、学校期末考试等, 都经常出现这种现象。更糟糕的是, 许多老师并不是自己编写阅读试题, 而是直接从网上或其他渠道照搬原题。如果这种状况继续下去, 设计测试就形同虚设。

因此, 出题者设计阅读测试时应全面考虑。首先, 出题者应对阅读的本质有全面的理解。其次, 文本的选择应该适合学生的英语水平。并且, 除了多项选择外, 还应多思考些其他适合文本的测试题型, 如概要完形填空、连线、排序、判断对错、简答等。应确保一份试卷中至少有两种题型。究竟该用哪种题型取决于阅读文本的类型和学生的水平。

6 小结

测试阅读看似简单, 实际绝非易事。文本的选择、受试者的英语水平、要测试的阅读技巧和测试方法都应全面考虑, 以便能反映出受试者的真实语言水平。本文讨论的相关阅读测试设计理论必将对广大教师和笔者自己的教学产生积极影响。

摘要:本文从出题者的角度概述了如何设计可靠有效的英语阅读测试试卷。出题者考虑的主要因素包括阅读文本的选择、测试的阅读技能及编写测试问题的步骤等。最后, 本文就我国目前英语阅读测试现状给出了建议。

关键词:阅读文本,阅读技能,步骤,建议

参考文献

[1]Hughes, A.Testing for Language Teachers[M].Cambridge:Cambri dge University Press, 1989.

[2]Harrison, A.A Language Testing Handbook[M].London and Basingstoke:the Macmilian Press Limited, 1983.

[3]Heaton, J.B.Writing English Language Tests[M].London and New York:Longman, 1991.

[4]Nunan, D.Language Teaching Methodology[M].Englewood Cliffs, N.J.:Prentice Hall, 1991.

[5]邹申.语言测试[M].上海:上海外语教育出版社, 2005.

测试原则 篇2

ERP系统验收测试流程、方法原则及内容

引言

软件测试是为了发现错误而执行程序的过程。它不仅是软件开发阶段的有机组成部分,而且在整个软件工程(即软件定义、设计和开发过程)中占据相当 大的比重。软件测试是软件质量保证的关键环节,直接影响着软件的质量评估。软件测试不仅要讲究策略,更要讲究时效性。验收测试作为软件测试过程的最后一个 环节,对软件质量、软件的可交付性和软件项目的实施周期起到“一锤定音”的作用。

1、ERP验收测试的现状

验收测试是一种有效性测试或合格性测试。它是以用户为主,软件开发人员、实施人员和质量保证人员共同参与的测试。ERP(企业资源规划)作为提 高企业管理创新能力的有力工具,其定义、设计、开发、实施和应用的过程遵循一定的规律。这些规律表现在软件过程控制、质量保证和软件测试等方面。验收测试 关系到ERP能否成功验收,能否平滑步入维护期,能否快速实现效益。ERP验收测试的全面性、效率性、科学性、规范性、彻底性在广大制造业企业和ERP软 件供应商中还是一个崭新的话题。

当前很多人对ERP验收测试工作存在一些误解:

(1)由于ERP软件的复杂性、规模性,人们可能更多地关注它多变的需求定义、个性化解决方案、定制化开发过程,却轻视了项目的验收工作。这些“只重视开题和过程,不重视结题和维护”的做法,最直接的后果就是,形成了一个个延期工程或“烂尾”项目。

(2)ERP实施工作做好了,用户企业可以把系统跑起来了,文档移交了,客户签字了,还有什么必要做验收测试。这种误解源于对验收测试的目的、流程、方法和意义缺乏认识。

(3)验收测试是用户企业的事,与软件服务提供商无关。事实上,只有两者密切配合,才能提高测试效率。

(4)将验收测试理解成给用户做演示。验收测试要讲究策略,不是走走过场,而是有计划有步骤的执行活动,要进行科学的用例设计。

(5)验收测试就是验证软件的正确性。验收测试和其他的测试一样,既要验证软件的正确性,又要发现软件错误。只不过,验收测试是以确认软件功能是否满足需求为主。

全面的ERP资源下载

2、ERP验收测试的流程及方法原则

软件包括程序、数据和文档。ERP验收测试的对象应当含盖这三个方面。验收测试的主体要以用户企业为主,ERP软件服务供应商积极配合;或以第三方测试为主,用户和软件供应商共同配合。

ERP验收测试的基本流程如下图所示,软件实施人员要适时配合和敦促用户做好验收测试的各项准备工作,按计划按步骤执行验收测试,形成规范的测 试文档,客观地分析和评估测试结果,并跟踪不合格现象,对软件问题要分级分类管理,必要时要进行回归测试,确保所有问题能得到关闭,最终成功通过验收。

在测试方法上,由于验收阶段的特殊性,一般以黑盒测试和配置复审为主,以自动化测试和特殊性能测试为辅,用户、软件开发实施人员和质量保证人员共同参与。

ERP验收测试要注意以下几个原则问题:

(1)验收测试始终要以双方确认的ERP需求规格说明和技术合同为准,确认各项需求是否得到满足,各项合同条款是否得到贯彻执行。

(2)验收测试和单元测试、集成测试不同,它是以验证软件的正确性为主,而不是以发现软件错误为主。

(3)对验收测试中发现的软件错误要分级分类处理,直到通过验收为止。

(4)验收测试中的用例设计要具有全面性、多维性、效率性,能以最少的时间在最大程度上确认软件的功能和性能是否满足要求。

3、ERP验收测试的内容及用例设计

ERP验收测试的目的是确认系统是否满足产品需求规格说明和技术合同的相关规定。通过实施预定的测试计划和测试执行活动确认软件的功能需求、性 能需求和文档需求。ERP是较复杂的大规模性软件,其验收测试应当涵盖确认测试和系统测试两个方面的内容。具体包括以下测试内容:安装测试、功能测试、界 面测试、性能测试、文档测试、负载压力测试、恢复测试、安全性测试、兼容性测试等。下面结合ERP验收测试的具体内容,谈谈用例设计的注意事项。

(1)安装测试

安装测试的目的在于验证软件能否在不同的配置情况下完成安装,并确认能否正常运行。ERP安装测试的用例设计要注意以下几点:

第一,根据ERP的可移植性,选择不同操作系统。

第二,选择不同层次的硬件配置和软件配置,一般选用最低、中等和最高三种配置进行测试,验证系统对软硬件环境的依懒性。

全面的ERP资源下载

第三,观察ERP安装程序在软硬件资源充足的情况下能否正常安装,安装过程中是否给予充足的提示,是否存在流氓软件的一些弊病,安装完成后能否正常运行,能否彻底删除。

第四,在资源不充沛的情况下,如磁盘空间不够、内容不足等,系统能否完成安装,能否给予各种提示。

(2)功能测试

功能测试是验收测试中的主要内容。ERP功能测试要包含以下项目:单个模块的查询、增加、删除、修改、保存等操作;数据的输入与输出;数据处理 操作,如导入、结转等;基础数据定义的精度;计算的准确性,如仓库的历史库存、当前库存、货位库存是否准确;数据共享能力;身份验证和权限管理;接口参数 和系统控制参数;单据流转情况;状态控制,如系统是否对MPS在执行MRP分解、工单下达、车间任务调度等操作前后的状态做了标识,状态的改变是否正确;报表的打印输出;审批流程定义及各种审批、反审批操作;短信发送及管理;岗位及部门业务的操作,如从请购管理、采购计划到采购订单管理,再到采购到货管 理;跨部门的业务操作,如从销售订单到主生产计划,从车间领料到仓库出库等等。

ERP功能测试的用例设计要注意以下几点:

第一,测试项目的输入域要全面。要有合法数据的输入,也要有非法数据的输入。如,在测试基础数据的定义时,若规定是数字,则既要输入数字进行测试,也要输入字母、空格等非数字进行测试。数字包含整数、负数、小数,因而还要输入这些不同的数字验证数字的精度。

第二,划分等价类,提高测试效率。在考虑测试域全面性的基础上,要划分等价类,选择有代表意义的少数用例进行测试,提高测试效率。如,若MRP 记录有“刚形成”、“已派工”“正执行”、“已完成”四种状态,系统只允许对刚形成的MRP记录做局部性修改或删除操作,那么在测试时,将MRP记录划分 为四类,每种状态对应一类,每类各选一条记录作为测试用例即可。

第三,要适时利用边界值进行测试。如“订单预排”中一般要求预排的数量大于0,那么测试数据可以分别为0,-1,1,10000000(一个非常大的正数)。

第四,重复递交相同的事务。

第五,不按照常规的顺序执行功能操作。

第六,验证实体关系,实体间的关系有三种:一对一,一对多,多对多。如,一个MPS对应多个MRP,一个MRP对应多个车间任务。

第七,执行正常操作,观察输出结果的异常性。如,删除某条记录对排序的影响;执行审批后,单据的状态是否改变。

全面的ERP资源下载

(3)界面测试

ERP界面要符合现行标准和用户习惯。软件企业可以形成自己的特色,但要确保整个软件风格一致。界面测试要从友好性、易操作性、美观性、布局合理、分类科学、标题描述准确等方面入手。测试用例的设计要重点掌握以下几点:

第一,背景和前景的颜色是否协调,颜色反差是否用得恰当。

第二,软件得图标、按钮、对话框等外观风格是否一致,美观效果所要求的屏幕分辨率。

第三,窗口元素的布局是否合理,并保持一致。

第四,各种字段标题的信息描述是否准确。

第五,快捷键、按钮、鼠标等操作在软件中是否一致。

第六,窗口及报表的显示比例和格式是否能适应用户的预期需求。

第七,误操作引起的错误提示是否友好。

第八,活动窗口和被选中的记录是否高亮显示。

第九,是否有帮助信息,菜单导航能否正常执行。

第十,检查一些特殊域和特殊控件能否运行。

(4)性能测试

性能测试主要测试软件的运行速度和对资源的消耗。通过调整ERP所依赖的软硬件配置、网络拓补结构、工作站点数、数据量和服务请求数来测试软件 的移植性、运行速率、稳定性和可靠性。一般借助WinRunner之类的企业级自动化测试工具来辅助测试,通过极限测试来分析评估软件性能。

(5)文档测试

文档是软件的重要组成部分,也是软件质量保证和软件配置管理的重要内容。文档测试主要通过评审的方式检查文档的完整性、准确性、一致性、可追溯 性和可理解性。ERP作为一个大规模软件,覆盖了企业的各种业务。它至少要具备需求定义、开发设计、测试评估、项目管理、用户应用这五类文档,具体而言,应包含GB8567-88中规定的14种软件文档。

在文档复审时,要特别注意以下几点:

第一,要明确文档验收的标准,软件企业和用户企业要达成一致。

全面的ERP资源下载

第二,确定文档的重要性和项目文档需求,比如,在验收阶段,用户文档(用户手册、操作手册、维护手册、联机帮助文件)显得特别重要,需要认真评审。

第三,检验文档完整性,主要是文档的种类和内容的完整性。

第四,检验文档的一致性和可追溯性,主要是:软件的设计描述是否按照需求定义进行展开的;应用程序是否与设计文档的描述一致;用户文档是否客观描述应用程序的实际操作;关于同一问题的描述是否存在不同的说法。

第五,检验文档的准确性,主要是文档的描述是否准确,有无歧义,文字表达是否存在错误。

第六,检验文档的可理解性,主要审核文档是否针对特定的读者群体,表达是否详细。如,ERP操作手册,除了描述每个模块的操作,应该还提供关联性岗位业务、部门业务和跨部门业务的操作说明。

(6)其他测试

除了上述的测试外,还有必要对系统的其他特性和需求加以测试。如检测软件遇突发性故障后对数据的恢复能力,软件的安全保密性和对硬件、软件、数据的兼容性,系统所能承担的最大数据量和健壮性等。

其他测试一般包含以下几种:

第一,负载压力测试。它主要包括并发性能测试、疲劳强度测试、大数据量测试和速度测试。一般采用自动化技术分别在客户端、服务器端和网络上进行测试。用例设计时,要以真实的业务为依据,选择有代表性的、关键的业务操作作为测试对象。

第二,恢复测试。通过模拟硬件故障或故意造成软件出错,检测系统对数据的破坏程度和可恢复的程度。

第三,安全性测试。通过非法登陆、漏洞扫描、模拟攻击等方式检测系统的认证机制、加密机制、防病毒功能等安全防护策略的健壮性。

第四,兼容性测试。通过硬件兼容性测试、软件兼容性测试和数据兼容性测试来考察软件的跨平台、可移植的特性。

4、结语

ERP用户和软件开发实施人员要明确验收测试的真正意图。开发人员和实施人员不应该掩盖软件错误或不关心用户不熟悉的测试项目。用户也不能因为 存在一些当前无法实现的需求而搁置验收工作。相反,两者应当精诚合作,相互信任,拨云见日。对于那些不可行的需求或不明确的需求,双方要协商进行需求变 更,并达成一致意见。只有这样的验收测试,才能促使ERP工程项目得以快速圆满验收。

测试原则 篇3

【关键字】高中信息技术 形成性测试 命题

中国分类号:G434

目前,考试仍然是检测学生对教学目标达成情况的主要手段,好的试题是实现该检测目标的基本保证,因此,命题是考试中的核心环节,不可马虎草率,必须要静下心来,统筹全局,精心编制才行。

形成性测试是对学生知识形成过程和结果进行检测反馈的一种教学检查形式,其功能是教学的反馈性。形成性测试命题的指导思想是:首先要注重对学生所学知识量的测试。在对学生知识形成性测试中,应考查学生掌握了多少知识,没有掌握哪些知识。命题中不能只注重重点,而忽略非重点,应最大可能地把学生所学的知识尽可能多的进行考查;其次要注重对学生学习质量的测试。对学生学习质量的考查应包括理解、方法和能力三个方面;第三是对学生知识形成过程中综合素质的测试。学生在知识形成过程中,综合素质的提高对学生的学习和以后工作的影响不言而喻。基于此,在形成性测试命题中,渗透思想性以及注重综合素质方面的考查甚有益处。

高中信息技术学科有两个重要特点。一是模块化特征明显,例如多媒体模块与算法程序设计模块,模块内部逻辑结构比较严谨,而模块之间联系较为松散,方便教师编制针对某一模块的形成性测试题目;第二个特点是实践操作性强,信息技术学科中的许多教学目标的达成都要落实到具体的上机操作上,因此信息技术的测试题目,70%以上是以操作题的形式出现的。

下面具体谈谈高中信息技术形成性测试命题时需要注意的问题。

一、高屋建瓴,整体设计

在命题之前,教师一方面要对所考查的内容的知识体系结构了然于胸,另一方面对当前应试学生的知识掌握情况也要心中有数。站在高点,对试题进行整体设计,从而能够做到准确把握考试内容,命制出高质量的试题。确定考查范围后,可以借助于双向细目表这一科学有效的工具,具体把握各个知识点的考查程度,做到覆盖面广,不重复,不遗漏,重难点突出,难易分布合理。

形成性测试,针对性强,考查形式灵活,教师要善用运用。对当前学生存在的主要问题和要重点考查,通过测试,让学生明白自己的知识盲点,并通过随后的试题分析和讲解以及强化训练得到弥补和提升。

二、操作题及时反馈

大量的上机操作是信息技术学科区别于其他学科的显著特征,上机操作与纸面作业的不同在于它的实时性,做完之后,到底做对了没有,是学生最关心的问题。如果让教师逐一检查,无论是时间还是精力都是无法承受的,让学生自己分析对比与正确操作结果的异同,则会大大降低学生的学习积极性。可以说,如果操作题没有自动批改阅卷功能,在当前的信息技术课堂上就寸步难行。因此,教师在命制操作题的时候,必须做好配套的自动阅卷功能,并仔细检测,保证阅卷功能的正常,及时给学生反馈信息,让学生有明确下一步的努力方向。

三、素材要与时俱进

信息技术能够吸引学生的重要原因,在于信息技术课堂内容的丰富多彩,各种神奇的效果,极大地开阔了学生的想象力。信息技术教师无论是在平时教学还是测试中,都要善用这一点。精心储备并选择各种素材作为学习知识,测试知识的载体,这将有利于提高学生的学习兴趣,激发学生自觉学习的动力。

信息技术要学以致用,要能融入学生的生活,才具有鲜活的生命力。与当前的热点相结合可以让学生感受到时代的脉搏,激发学生学习的积极性。在平时的信息技术命题中,使用的素材要注意与时俱进。例如2008年北京奥运这一主题,在2007年使用就显得非常新颖夺目,在2008年使用就是主流热点,恰到好处,在2009年重温,也勉强可行,然而,若到2010年还用这个就显得过气与陈旧了。

此外,命题也要符合青少年学生的知识结构,生活经验,兴趣点等。

四、以考促学,积极引导

形成性测试不是为了考倒学生而考试,而是为了提高学生的知识掌握水平,培养学生的能力而考试。因此,应该避免直接考查需要死记硬背的知识点,而是提供一些已知条件或创设背景,让学生通过观察,分析与思考得到答案。启发学生学会思考,这是学习的灵魂,远比记住某些常识有意义得多。

学生在考试的时候,注意力集中,思维活跃,在解题遇到困难的时候,他们往往会绞尽脑汁,对大脑知识库进行搜索与分析,如果在这个关键时期,学生能够借助教师在形成性测试中预设的某些提示和引导而成功突破这一难点,对学生而言是获得了非常难得的提升与收获,这是弥足珍贵的。让学生在考试中也能学到知识,通过反思达到对知识理解的升华。

五、表达清晰,精细校对

一份好的试题,就像一篇好的文章一样,除了立意要深远之外,基本的文字功夫也应做足。不要出现文字性和常识性的低级错误,题目表述要清晰,无歧义。力争做到文字优美。命制试题初稿完成后,要仔细校对、勘误(逐项检查指导语、文字、符号、图的坐标,题号与图号等),还要请同行教师或优秀学生试做一遍,保证答案无误以及操作题批改阅卷正常。

参考文献

1. 柏露枝.比较形成性测试与选拔性考试的命题特点. 《理科考试研究》2004年第11期

测试原则 篇4

电子信息技术是当今新技术革命的核心,其技术基础是电子元器件(以下简称元器件),其中大部分是微电子器件。元器件是电子设备和系统的基本单元,为了提高系统的可靠性,必须首先保证元器件的可靠性,但是即使高可靠性的元器件,在最好的生产工艺和生产控制下,仍然不可避免地会产生一些有缺陷、质量不符合要求的产品。所以在装机前对元器件进行测试筛选就显得尤其重要。

元器件的筛选测试是为了在施加各种环境和电的应力,从而将元器件中的各种缺陷激发出来[1,2],以便确定元器件电性能是否失效。电性能失效可以分为连结性失效、功能性失效和电参数失效。每种失效所反映的现象各不相同,元器件在测试时,每种测试方法所引起的失效模式是不同的[3,4],所以元器件测试筛选先后次序对最终的测试结果会产生影响。本文将提出安排元器件测试筛选先后次序的原则。

1 原 理

元器件是整机的基础,它在制造过程中可能会由于本身固有的缺陷或制造工艺的控制不当,在使用中形成与时间或应力有关的失效。为了保证整批元器件的可靠性,满足整机要求,必须把使用条件下可能出现初期失效的元器件剔除。

元器件的失效率随时间变化的过程可以用类似“浴盆曲线”的失效率曲线来描述,早期失效率随时间的增加而迅速下降,使用寿命期(或称偶然失效期)内失效率基本不变。筛选的过程就是促使元器件提前进入失效率基本保持常数的使用寿命期,同时在此期间剔除失效的元器件[5,6]。

事物的好与坏的判别必须要有标准去衡量。判断元器件的失效与否是由失效判别标准--失效判据所确定的。失效判据是质量和可靠性的指标,有时也有成本的内涵,所以元器件失效不仅指功能的完全丧失,而且指电学特性或物理参数降低到不能满足规定的要求。简而言之,产品失去规定的功能称为失效。

20世纪60年代以来,我国陆续制定、修订了一系列标准,开发各种试验方法,开拓了旨在研究失效机理的可靠性物理这门新的学科,发展了失效模式、影响及危害性分析和故障树两种有效的分析方法。这些方法的使用,为提高元器件筛选的有效性和准确性提供了强大的理论工具。

失效一般分为现场失效和试验失效。现场失效一般是在装机以后出现的失效,因此,我们在元器件测试筛选过程中只考虑试验失效。试验失效主要是封装失效和电性能失效。封装失效主要依靠环境应力筛选来检测。所谓环境应力筛选,即在筛选时选择若干典型的环境因素,施加于产品的硬件上,使各种潜在的缺陷加速为早期故障,然后加以排除,使产品可靠性接近设计的固有可靠性水平,而不使产品受到疲劳损伤。在正常情况下是通过在检测时施加一段时间的环境应力后,对外观的检查(主要是镜检,根据元器件的质量要求,采用放大10倍对元器件外观进行检测;也可以根据需要安排红外线及X射线检查),以及气密性筛选来完成,当有特殊需要时,可以增加一些DPA(破坏性物理分析)等特殊测试;这些筛选项目对电性能失效模式不会产生触发效果。所以,一般将封装失效的筛

选放在前面,电性能失效的筛选放在后面。

电性能失效可以分为连结性失效、功能性失效和电参数失效。连结性失效指开路、短路以及电阻值大小的变化,这类失效在元器件失效中占有较大的比例。因为在元器件筛选测试过程中,由于过电应力所引起的大多为连结性失效,同时,连结性失效可以引发功能性失效和电参数失效,但是功能性失效和电参数失效不会引发连结性失效。主要原因是,当连结性失效模式被特定的筛选条件触发时,往往出现的现象为元器件封装涂覆发生锈蚀、外壳断裂、引线熔断、脱落或者与其他引线短路,主要表现为机械和热应力损伤,但是有时并不表现为连结性故障,而是反映为金属疲劳、键合强度不够等问题,这些本身不会引发连结性失效,但是会引发功能性失效和电参数失效,需要通过功能性和电参数监测才能发现。但是,电路的功能性失效和电参数失效被特定的的筛选条件触发时,出现的现象是某些特定的功能失效、电参数超差等。造成这些失效的主要原因在于:制造、设计中的缺陷以及生产工艺控制不严,使生产过程中各种生产要素如空气洁净度等级、超纯水的质量监测、超纯气体和化学试剂达不到规定的要求;在运输转运过程中由于防静电措施不到位也会发生静电损伤。这些因素作用下半导体晶体会受到各种表面污染物的玷污,会使产品不能达到规定的质量等级要求。当受到特定的外部条件激发的情况下,就会产生功能性失效和电参数失效,但是这些功能性失效和电参数失效造成的影响往往只能造成元器件部分的功能失去作用,还不能使芯片的封装和各部分的连结线出现烧毁、短路、开路等现象,所以电路的功能性失效和电参数失效与连结性失效不产生引发效果。

在安排测试筛选先后次序时,有两种方案:

a)方案1:将不产生连环引发效果的失效模式筛选放在前面,将可以与其他失效模式产生连环引发效果的失效模式筛选放在后面。

b)方案2:将可以与其他失效模式产生连环引发效果的失效模式筛选放在前面,将不产生连环引发效果的失效模式筛选放在后面。

如果选择方案1,会发现将可以与其他失效模式产生连环引发效果的失效模式筛选放在后面时,出现本身失效模式没有被触发、其他关联的相关失效模式被触发的情况时,这种带有缺陷的元器件不能被准确地定位、剔除,因为该类失效模式的检测已经在前面做过了。而选择方案2就可以非常有效地避免上述问题的发生,使筛选过程优质、经济和高效。

因此,决定元器件测试筛选先后次序的原则是:

a)失效概率最大的筛选方法首先做。

b)当一种失效模式可以与其他失效模式产生关联时,应将此失效模式的筛选放在前面。

c)使用不同方法对同一种失效模式进行筛选时,首先考虑失效概率的分布,容易触发失效的筛选方法首先进行。

d)考虑经济性,便宜的先做。

e)考虑时间性,时间长的后做。

f)测试顺序的安排是后面的参数能够检查元器件经前面参数测试后可能产生的变化。对有耐电压、绝缘电阻测试要求的元器件,耐压在前、绝缘在后,功能参数最后测试;对有击穿电压和漏电流测试要求的元器件,击穿电压在前,漏电流在后,功能参数最后测试。

2 实 现

目前国内使用的主要筛选方法如下:

a) 外观检查:用10倍放大镜检查外形、引线及材料有无缺陷。

b) 温度循环:使元器件交替暴露在规定的极限高温和极限低温下,连续承受规定条件和规定次数的循环,由冷到热或由热到冷的总转移时间不超过1 min,保持时间不小于10 min。

c) 高温寿命(非工作:按照国家标准规定的寿命试验要求,使元器件在规定的环境条件下(通常是最高温度)存储规定的时间。

d) 电功率老炼:按降额条件达到最高结温下的老炼目的,老炼功率按元器件各自规定的条件选取。

e) 密封性试验:有空腔的元器件,先细检漏,后粗检漏。

f) 电参数测试(包括耐压或漏电流等测试):按产品技术规范合同规定进行。

g) 功能测试:按产品技术规范合同规定进行。

基于以上原理,优化了元器件测试筛选先后次序,按照失效模式的分类,对检测筛选手段依据元器件测试筛选先后次序的原则进行排序,首先按照失效概率进行排序:排序结果如表1所示。

表1中:失效概率等级是依据各种检测手段下可能触发缺陷的概率比较所得,由于元器件到达使用厂家时经过各种运输、存储过程,所以外观破裂、锈蚀等情况发生比较多见,一般占元器件失效总数的40%左右,所以将外观的失效概率等级放置在第1位;温度循环和高温寿命(非工作)失效概率等级相同,考虑经济性和时间性,所以温度循环放置在第2位;高温寿命(非工作)放置在第3位。

按照原则排序后,还加上一次外观检查,主要是为了防止测试筛选过程中由于在不同实验室之间转运而发生外观破损等现象,保证检验结束后的元器件外观合格。这样就得到图1所示的筛选工作流程图。

由图1可以看出,依据决定元器件测试筛选先后次序的原则优化以后的筛选顺序能够及时判别各种失效的发生,同时,当元器件产生失效时,通过失效时元器件所处的阶段准确判定元器件的失效模式,为元器件和整机系统的可靠性设计提供了准确的依据。

3 结束语

本文通过对元器件失效模式的讨论,结合各种测试筛选手段的分析,提出了决定元器件测试筛选先后次序的原则,这个原则对平时的工作有很大的指导作用。通过这个原则的使用,可以迅速判断元器件的失效原因和模式,节省分析的时间和成本,从而提高产品的可靠性。

参考文献

[1]杨少华,吴福根,黄瑞毅.电子元器件的可靠性筛选[J].广东工业大学学报,2006,23(1):67-70,76.

[2]王少萍.工程可靠性[M].北京:北京航空航天大学出版社,2000.

[3]孙青,庄奕琪,王吉锡.电子元器件可靠性工程[M].北京:电子工业出版社,2002.

[4]周玉芬,高锡俊,李建华.环境应力筛选加速系数[J].航空精密制造技术,2003,5(4):38-41.

[5]MIL-STD-883D.微电子器件试验方法和程序[S].

测试原则 篇5

Bachman的交际语言测试模式提出后, 在语言测试领域产生了深刻的影响。Skehan称其为语言测试史上的一个里程碑[1]。Bachman曾指出教育考试的基本用处是提供信息来评价。语言测试是语言教学的必要组成部分, 尤其是教学考试, 它是用来检验教学大纲的执行情况, 评估教学质量, 从而给教学双方提供反馈的必要手段[2]。Bachman&Palmer提出在设计和发展语言测试的时候, 最应该考虑的是考试的目的和考试的有用性。虽然研究者们对于语言测试的有用性一直争论不休[3] (P16) , 但是Bachman&Palmer提出了一个评价考试是否有用的原则, 这个原则可用来评价一个考试的质量。该原则可以用下列公式表示[3] (P18) :有用性 (Usefulness) =信度 (Reliability) +构念效度 (Construct validity) +真实性 (Authenticity) +相互作用性 (Interactiveness) +影响 (Impact) +实用性 (Practicality) 。

与其他学者不同的是, 他们的原则强调六个因素之间的互补和平衡。他们认为考试整体的有用性应该得到重视, 而不是强调单个因素;可以对某个因素进行单独评价, 但必须以它们对考试有用性的整体影响为基础;必须根据具体情形, 衡量六个因素的作用和平衡关系。设计任何有用的语言考试, 设计者都要考虑清楚该考试的特定目的、特定使用人群及特定的语言使用域。

高校英语专业四级考试, 全称为全国高校英语专业四级考试 (以下简称专四考试) , 自1991年起由中国大陆教育部实行, 考查全国综合性大学英语专业学生的英语水平。自开考以来, 据林劲文中的数据显示, 参加考试人数从1992年的8554人, 上升至2006年的108210人。可见考试的影响力日趋增大[4]。专四考试的设计出发点为成绩测试 (performance test) , 即教学性考试, “考试的目的是全面检查已学完英语专业四级课程的学生是否达到教学大纲所规定的各项要求, 考核学生运用各项基本技能的能力以及学生对语法结构和词语用法的掌握程度, 既测试学生的综合能力, 又测试学生的单项技能。同时, 也是评估教学质量, 推动校际交流学习的一种手段” (《英语专业考试四级大纲》) 。但是专四考试的影响力远不仅如此, 一些高校把专四证书与毕业证挂钩, 用人单位更是把证书当作了人才选拔的门槛条件。

显然, 专四考试已超越了教学考试的作用。我们禁不住要问专四考试能否实现它最初的设计目的?其质量该如何评价?鉴于它的大规模使用, 我认为对其有用性的探讨非常必要。由此本文根据Bachman&Palmer提出的有用性原则[3], 结合设计目的、使用人群, 对高校专业四级考试进行分析, 以便全面衡量该考试, 并对其改革提出建议。

二、高校英语专业四级考试评析

1. 信度及构念效度

信度和效度是测试的基本特点, 是衡量测试的最重要的

根据英语专业四级考试大纲, 专四考试共有六个部分:写作 (25%) ;听写 (15%) ;听力理解 (15%) ;完形填空 (10%) ;语法及词汇 (15%) ;阅读理解 (20%) 。该考纲中还提到“为了较好地考核学生运用各项基本技能的能力, 既照顾到科学性、客观性, 又照顾到可行性以及基础阶段英语水平测试的特点, 同时为确保试卷的信度, 本考试除写作及听写部分为主观试题外, 其余都采用多项选择题形式”。由此可见, 专四考卷的60%采用多项选择题的形式。有学者称赞其考试形式的客观性[5];还有人认为多项选择题的广泛使用正是由于它有自身的优势和特点, 如为阅卷工作提供方便, 提高答题速度、答案唯一, 从而使试卷信度很高[6,7]。

但正如李绍山所言, 所谓“客观”仅指阅卷过程而言, 即阅卷时阅卷人员毋需作出主观判断, 但是试卷的编制过程本身同样要涉及大量的主观判断, 例如考试的具体内容、各类内容的比例等。所以, 客观性试题并不能保证有关决策的客观性, 统计意义上的可靠性也不能保证决策的可靠性[8]。此外, Hughes也特别提到选择题会容许猜测。从统计原理上说, 每个题考生都有25%的猜对的机会[9]。Bachman认为选择题比作答要简单, 而后者考核的是考生的语言产出能力[2] (P129) 。因此, 多项选择题不利于测量考生的真正的语言能力。

在衡量专四考试构念效度的时候, 我们需要看该考试对所考核的能力的定义。英语专业四级考试大纲中在考试目的部分提到:“考核学生运用各项基本技能的能力及学生对语法结构和词语用法的掌握程度, 既测试学生的综合能力, 又测试学生的单项技能。”高等学校英语专业教学大纲的测试与评估部分也提到:“测试应既有助于提高学生的语言运用能力, 又有助于培养学生的思维分析能力。”

这两个文件虽然提到了要测的“基本技能”、“综合能力”、“语言运用能力”等概念[10], 这些概念又是当今所推广的交际语言测试中的关键词, 但这些概念的具体含义是什么?在设计考试的时候如何操作?可操作性有多强?从这两个文件无法得出明确的结论。

在专四考试实际的测试试卷中, 可以看到词汇与结构, 听力、写作等都是分开测试的, 这似乎意味着语言可以分成不同的单独的项目进行测试, 而这正是如今饱受批评的分离式测试的做法。Bachman&Palmer将语言运用定义为两人或多人之间在特定情境下的相互交流意义的动态过程[3] (P61-62) 。显然, 分离式的语言项目不具有这样的特征, 而奇怪的是强调语言使用的口语考试却不是该考试必考的项目。

高等学校专业教学大纲中21世纪英语专业人才的培养规格中强调:“能力主要是指获取知识的能力、运用知识的能力、分析问题的能力、独立提出见解的能力和创新的能力。其中创新能力的培养尤为重要。”可见高校英语专业人才培养的教学目标需围绕学生的运用知识的能力, 培养他们的实际语言运用能力。那么, 当今的专四考试的效度不高是其改革的首个动因。考试设计者需要重视并定义清楚语言运用能力, 并在考试中摒弃分离式测试的做法, 设计考察语言运用的任务。

2. 真实性

Bachman&Palmer把真实性定义为:“某项考试任务的特征与目标语言使用任务特征的一致程度。”真实性与传统上的内容效度有一定的联系, 对考生针对考试的看法和表现都有一定的影响。在设计考试时, 我们应首先确定目标语言使用域中的任务特征, 然后选择或设计与此任务特征相一致的测试任务[3](P23-24) 。

据此判断, 专四考试中的很多任务真实性较低, 因为目标语言使用域中的语言使用任务特征没有得到足够的重视。以被设计者认为是效度较高的项目“听写”为例, “听写文章全篇约150个词, 共念四遍。第一遍用正常速度朗读, 录音语速为每分钟120词”。听写任务显然与考生目标语言使用域 (大学生的现实生活和学习生活中的语言使用) 任务相去甚远。首先, 考生在生活中听到的英语并不都是标准英语。其次, 他们可能在学习过程中需要听讲座记笔记、或在课上与同学用英语进行讨论。换言之, “听”不能与“说”、“读”等技能分开。学生听四遍英语材料, 然后再填空的活动在生活中的发生率有多高?我认为这显然不是目标语言使用域中的典型语言使用任务。

谈到专四考试中影响真实性的因素, 仍然需要提到多项选择题的形式。Weir认为“多项选择题是不真实的任务。现实生活中人们很少面对四个选项, 从中选择一个来表达自己的理解”。Hughes也认为选择答案的形式给考生带来“不自然”的负担, 因为他们在处理输入信息的时候, 还要记住那四、五个选项[9]。

3. 相互作用性

Bachman&Palmer将相互作用性定义为考生特点在完成测试任务中的参与程度和类型。某一测试任务的相互作用性可以体现在考生的语言知识、元认知策略、背景知识和情感图式的参与程度上[3] (P25) 。

根据考纲的描述, 专四考试设计者考虑了考生的背景知识因素, 在听力理解完型填空、阅读理解中都注意选择了“题材熟悉、难度中等”的材料。但由于这几部分的任务普遍采用了多项选择题的形式, “它所考察的能力仅仅是辨认能力而不是实际使用语言的能力”[8]。显然在完成任务的过程中, 考生使用的策略也许更多的是应试技巧, 而不是计划、监控语言输出的元认知能力。同样, 由于采用了类似的答题方式, 曾被认为是测试考生综合运用能力的完型填空也难以摆脱应试技巧的干扰。

4. 后效作用

Bachman&Palmer认为考试的后效作用体现在宏观和微观两个层面上:宏观层面上是指考试对教育制度和社会的响应;微观层面上是指考试对使用考试的个人的影响[3] (P31-35) 。

针对专四考试后效作用的文献很多[11,12]。有人用问卷的方式调查其对教师和学生的影响[12], 谈到其正面的影响是学生英语学习自主性加强, 教师和学校在英语教学上的投入加大。但负面影响和有关负面影响的文献要多得多。负面影响首先体现在教师和学生忙于应试技巧的训练。教师花费很多时间讲授如何选择正确答案, 学生忙于做模拟练习, 以致于社会上的应试文献的出版空前繁荣[13]。徐清平、张延续在分析1996、1998、2000年的试卷时发现词汇与结构部分命题内容 (考点) 的重复。命题内容的重复主要表现为两方面, 一是几份测试命题内容的完全重复。二是同一份测试中不同题目的命题内容雷同[14]。先不说这样的题目效度如何, 我们在此会明白为什么学生在考试前会深陷题海战术了。

对于学生来说, 痛苦莫过于专四考试成绩与奖惩联系起来, 在有些学校中, 学生过不了专四就拿不到毕业证, 这给他们造成了很大的心理负担, 影响了学习英语的兴趣[15]。专四考试是全国性的高风险考试, 现每年数以万计考生参加。考虑到其高比例的分离式测试任务, 很难说它不对教育体系和社会构成也构成负面影响。

5. 实用性

考试的实用性与考试实施的方式有关。衡量某考试的现实性需要考虑其设计发展所需的资源, 可用资源的分配和管理[3] (P35-37) 。李绍山认为如果是大规模考试, 如我国的专业和非专业英语的全国统测, 就要注意其可行性, 过多地采用综合性题型或者运用型题型如写作、口头交流等, 就会给阅卷工作带来很多问题如人力、物力和财力, 也不利于提高考试的信度, 因此这类考试宜采用分离式考试[8]。但我不赞同这个说法。

虽然理论上分离式测试在施行和评分上较为容易, 但现实中却并非如此。在高校有过专业或非专业英语的全国统测监考经历的教师都会有种感觉, 监考过程十分繁琐。考前监考过程的演练, 监考程序丝毫没有因为其分离式考试而减少。此外, 正是因为分离式测试, 试卷和答案的安全成为问题。非英语专业的大规模考试考题和答案泄密的事不止一次。专四考试同样会存在类似的威胁。可以看出, 在整个试卷的设计、使用前、使用中的监控上、阅卷等环节上, 专四这类大规模考试的花费不是一笔小数。那么我们禁不住要问, 为什么不设计和实施更直接测试语言使用能力的考试呢?两者的花费真的会相差如此巨大以至于是设计者们望而却步吗?考虑到分离式测试对教学双方的负面影响, 对国家人才培养目标实现的阻碍作用, 是该改革的时候了。

三、结语

综上所述, 我以Bachman&Palmer提出的衡量测试的有用性原则为依据分析了我国高校英语专业的大规模考试:专业四级考试。虽然有些学者认同该考试任务的客观性及其较高的信度保证, 但正如刘润清、韩宝成谈到的, 高信度不一定意味着高效度[1]。专四考试的设计理念仍以分离式测试为主, 显然与当今培养语言运用能力为主的教学理念相偏离。为教学服务的测试应该激励真实生活中的语言使用。测试的真实性与测试的表面效度和内容效度紧密相关。由于专四考试高比例地使用多项选择题, 显然真实性较低。虽然专四考试试图把考生的语言知识、背景知识、认知策略等考虑在内, 但不恰当的试题形式使其难以保证较高的相互作用性。此外, 专四考试的影响力远远超越了教学考试的范围, 给考生造成了不必要的心理负担;其对教学的副作用不容小觑。分离式的测试形式并未使其实施变得简单, 反而为保护其试题和答案, 会造成一定的经济负担。

由此可见, 一项大规模考试仅靠信度一项无法得出关于其质量的结论。根据有用性原则的六个方面, 我们对专四考试进行全面的分析就会发现, 专四考试的确需要改革了。正是因为其影响的巨大, 才不能不花费精力和财力对其进行革新, 否则其对教学的不恰当的指挥棒作用将继续发挥, 继续造成损失。如李绍山所言[8], 只有通过使用才能最终学会使用外语, 也只有通过使用才能检验学习者的外语水平, 仅靠做选择题是决计学不会外语的, 仅靠做选择题也是检验不出学习者运用语言的真实能力的。由此可见, 专四考试改革也就有了自己的方向。Bachman和Palmer在测试理论与实践一书中也详细地探讨了如何根据实际需要设计合理的考试, 给出了一个设计框架。我们期待着我国的大型考试设计者能在科学的测试理论指导下, 设计出与我国现行教学理念相一致的、激励真实语言使用的语言测试任务和测试形式。

摘要:很多研究者对高校英语专业四级考试都有评价, 或单独分析其信度、效度, 或着重其后效作用的研究。本文根据Bachman&Palmer (1996) 提出的考试有用性原则, 从六个方面反思高校英语专业四级考试的有用性, 旨在全面分析其质量, 提出改革的方向。整体看来, 英语专业四级考试设计理念仍以分离式测试为主, 显然与当今培养语言运用能力为主的教学理念相偏离, 测试的信度虽高, 但其真实性、相互作用性较低, 对教学的负面后效作用明显, 从而减弱了其实用性。

上一篇:专业文化环境下一篇:现场作业风险