测试与评估

2024-07-26

测试与评估（共12篇）

测试与评估篇1

软件测评是保证软件质量的重要步骤, 它在软件运行之前对软件进行分析、预测、试用等一系列的方法, 找到软件存在的问题和缺陷, 以免为以后造成不必要的麻烦和损失。这样可以使软件稳定、正常地运行, 提高其可靠性。软件可靠性评估是对软件正确评估的重要手段。软件的可靠性主要是指软件在一定的时间和条件下达到预期的目的的能力。软件的可靠性是软件的固有特性, 它表明的是软件用户对软件的满意度, 可靠的软件是完整的、能够满足用户需求、正确的。它的要素主要有:一定的时间限制、特定的环境、特定的功能。

1 软件测试与可靠性评估的现状

就目前来看, 软件测试并没有受到人们的充分重视, 还存在着许多的误区, 这样不利于软件质量和性能的提高。首先, 人们普遍认为软件测试实在软件开发后进行的, 其实并不是这样, 软件测试是贯穿整个软件项目中的, 在的每一个软件活动中都要进行不同的测试, 用以保证每个阶段的正确性, 从而来保证软件的质量。其次, 在软件发现问题之后, 往往将责任归咎于软件测试人员, 这是不正确的。软件出现错误应该要从多方面考虑, 要查清楚原因再做定夺, 否则会挫败软件测试人员的工作积极性。然后就是, 对软件测试的要求过低, 工作人员的职业素质比较低下。绝大多数人认为软件测试是一项简单的工作, 任何人都有能力胜任, 其实不然, 软件测试工作需要具备专业技能的人才, 掌握了相关的知识, 具有很强的责任心。此外, 大部分人认为软件测评只与测试人员有关。实际上, 软件测试还与程序员有关。因为软件测试需要各个工作人员保持密切的联系。最后, 软件测评往往会在时间比较紧时做少量的测试, 而有充足的时间会做比较多大测试。

我国在软件可靠性评估这一块发展得比较晚, 还存在着许多的不足。首先对软件评估没有一个完整规范的管理系统, 在软件项目工作安排上缺乏科学有效性, 导致各种评估误差, 影响软件的进一步发展, 影响到软件占据市场的份额。此外, 目前我国的软件可靠性评估一般将重点放在软件的研制阶段, 对软件的评估程度不到位, 导致软件项目后期出现一定的误差。而且我国关于软件评估的可靠性没有相对其他国家严谨规范的标准, 对软件的评估存在着许多的问题, 再加上软件评估人员的职业素质有限, 对其认识具有不一致性, 导致无法有实际意义、正确、有效地进行评估, 相关的部门得不到有用的信息, 从而误导软件公司做出错误的决策, 不利于企业的竞争与发展。

2 软件测试与可靠性评估的意义

软件测评与可靠性评估能够发现软件存在的错误与缺陷, 促进软件的完善与改进, 让其更好地为软件用户服务, 满足软件用户的需求。然后, 能够有效定义软件成分有低层到高层的组装过程, 便于日后软件的维护与修改。此外, 能够有效验证软件那是否符合原有和相关规定要求, 迫使企业软件从开发到软件投放市场, 都有利于是软件正规化, 符合相关规章制度, 避免一些非法操作的软件投入市场, 损害某些个人以及集体的利益。

3 使得软件测试与可靠性评估有效的措施

软件的测试与可靠性评估的方法是极为重要的, 如何让其高效、正确的为软件服务, 是软件研发、研究组织应该为之努力的目标。其一, 要科学的管理系统, 对软件人员进行很好的管理, 让其充分发挥优势, 使整个系统有组织、有次序的运行, 既能节约资源, 又能提高工作效率。其二, 软件人员要充分认识到软件测试与可靠性评估的重要性, 在工作当中认真负责, 不能因为个人原因而影响了整个软件开发运行的进度和质量。其三, 要注意对软件测试与评估的宣传, 让其他人认识到这不仅仅只是软件检测员与软件评估员的事情, 要求大家团结合作, 避免某一环节出现错误。其四, 要培养出一批具备专业水平的软件测试与评估人才, 充分发挥其作用。所以组织要对其进行定期的培训, 并要保证培训的质量, 不能仅仅将其当成一种形式与任务, 要将培训工作落到实处, 真正提高工作人员的职业技能, 要对培训过程中不认真的人进行一定程度的惩罚, 每次培训完后要进行考核, 检测培训质量, 并为下一次的培训提供经验。这样就能够在很大程度上提高培训的效果, 不至于培训无效, 浪费人力、物力、财力。

4 软件测试与软件可靠性评估的原则

首先, 软件测试与评估应该要及时, 并且要增加测试、评估的力度, 尽可能地多进行测试, 进行评估。此外, 要注意软件开发过程的整体性, 保证软件测试贯穿于整个软件设计当中, 与其他步骤结合起来, 及时发现错误的早期阶段, 降低组织软件的成本, 测试时要将相关的数据结合起来, 比如说:测试的输入数据与其对应的输出数据。要防止软件工作人员检测自己所设计的程序。要按计划、全面地实施软件测试。软件评估要保证客观、科学, 不能以主观心态来评判, 要有科学依据。采纳一些比较科学的方法来进行评估。要遵循谨慎原则, 不能过于随意, 要加强重视, 以防止评估出现误差, 造成不必要的损失。

5 小结

软件测试与可靠性评估对于软件的进步发展有着重大的意义, 相关的部门、组织要高度引起重视, 客观、正确、科学地看待软件测试与评估, 针对自己关于软件测试与评估所出现的问题采取相关的措施, 从而促进软件自身的完善与发展, 提高软件的市场竞争力。由于本人的学识有限, 如果本文存在着任何的缺点和不足, 请大家谅解。

摘要：科学技术的不断进步给软件提供了很大的发展空间, 软件的功能越来越强大, 在日常生活中的应用也越来越广泛, 但是软件的复杂性也给软件的质量带来了一定的挑战。本人根据自己个人的学识以及相关的生活、工作经验来阐述软件测评与可靠性评估的相关内容。本文首先会叙述软件测评与可靠性评估的现状, 然后说明软件测评与可靠性评估的重要性, 最后就软件测试与可靠性评估的方法来发表自己的看法。

关键词：软件测试,可靠性评估

参考文献

[1]科教导刊编辑部;软件测试外包一站式人才培养模式的探索与实践[J];科教导刊;2013年第33期

[2]易敏捷;基于多平台的计算机软件测试方法分析[J];科技传播;2013年第20期

[3]王文斌、刘方舟、刘雪;基于云计算平台的软件测试策略[J];计算机光盘软件与应用;2013年第17期

测试与评估篇2

1、引言

随着人们安全意识的逐步提高，入侵检测系统(IDS)的应用范围也越来越广，各种各样的IDS也越来越多。那么IDS能发现入侵行为吗?IDS是否达到了开发者的设计目标?什么样的IDS才是用户需要的性能优良的IDS呢?要回答这些问题，都要对IDS进行测试和评估。

和其他产品一样，当IDS发展和应用到一定程度以后，对IDS进行测试和评估的要求也就提上日程表。各方都希望有方便的工具，合理的方法对IDS进行科学。公正并且可信地测试和评估。对于IDS的研制和开发者来说，对各种IDS进行经常性的评估，可以及时了解技术发展的现状和系统存在的不足，从而将讲究重点放在那些关键的技术问题上，减少系统的不足，提高系统的性能;而对于IDS的使用者来说，由于他们对IDS依赖程度越来越大，所以也希望通过评估来选择适合自己需要的产品，避免各IDS产品宣传的误导。IDS的用户对测试评估的要求尤为迫切，因为大多数用户对IDS本身了解得可能并不是很深入，他们希望有专家的评测结果作为自己选择IDS的依据。

总地来说，对IDS进行测试和评估，具有以下作用：

・有助于更好地刻划IDS的特征。通过测试评估，可更好地认识理解IDS的处理方法、所需资源及环境;建立比较IDS的基准;领会各检测方法之间的关系。

・对IDS的各项性能进行评估，确定IDS的性能级别及其对运行环境的影响。

・利用测试和评估结果，可做出一些预测，推断IDS发展的趋势，估计风险，制定可实现的IDS质量目标(比如，可靠性、可用性、速度、精确度)、花费以及开发进度。

・根据测试和评估结果，对IDS进行改善。也就是发现系统中存在的问题并进行改进，从而提高系统的各项性能指标。

本文首先介绍了测试评估IDS性能的标准，然后介绍了测试评估的方法步骤，并且介绍测试评估的具体指标、所需的数据源、测试评估环境配置与框架，最后介绍了测试评估现状以及其中存在的一些问题。

2、测试评估IDS性能的标准

根据Porras等的研究，给出了评价IDS性能的三个因素：

・准确性(Accuracy)：指IDS从各种行为中正确地识别入侵的能力，当一个IDS的检测不准确时，就有可能把系统中的合法活动当作入侵行为并标识为异常(虚警现象)。

・处理性能(Performance)：指一个IDS处理数据源数据的速度。显然，当IDS的处理性能较差时，它就不可能实现实时的IDS，并有可能成为整个系统的瓶颈，进而严重影响整个系统的性能。

・完备性(Completeness)：指IDS能够检测出所有攻击行为的能力。如果存在一个攻击行为，无法被IDS检测出来，那么该JDS就不具有检测完备性。也就是说，它把对系统的入侵活动当作正常行为(漏报现象)。由于在一般情况下，攻击类型、攻击手段的变化很快，我们很难得到关于攻击行为的所有知识，所以关于IDS的检测完备性的评估相对比较困难。

在此基础上，Debar等又增加了两个性能评价测度：

・容错性(Fault Tolerance)：由于IDS是检测入侵的重要手段/所以它也就成为很多入侵者攻击的首选目标。IDS自身必须能够抵御对它自身的攻击，特别是拒绝服务(Denial-of-Service)攻击。由于大多数的IDS是运行在极易遭受攻击的操作系统和硬件平台上，这就使得系统的容错性变得特别重要，在测试评估IDS时必须考虑这一点。

・及时性(Timeliness)：及时性要求IDS必须尽快地分析数据并把分析结果传播出去，以使系统安全管理者能够在入侵攻击尚未造成更大危害以前做出反应，阻止入侵者进一步的破坏活动，和上面的处理性能因素相比，及时性的要求更高。它不仅要求IDS的处理速度要尽可能地快，而且要求传播、反应检测结果信息的时间尽可能少。

3、IDS测试评估的方法步骤

前面我们已经讨论了IDS测试评估的性能指标，具体测试主要就是围绕这些指标来进行。大部分的测试过程都遵循下面的基本测试步骤：

・创建、选择一些测试工具或测试脚本。这些脚本和工具主要用来生成模拟的正常行为及入侵，也就是模拟IDS运行的实际环境。

・确定计算环境所要求的条件，比如背景计算机活动的级别。

・配置运行IDS。

・运行测试工具或测试脚本。

・分析IDS的检测结果。

美国加州大学的Nicholas J.Puketza等人把测试分为三类，分别与前面的性能指标相对应，即入侵识别测试(也可以说是IDS有效性测试)。资源消耗测试、强度测试。入侵识别测试测量IDS区分正常行为和入侵的能力，主要衡量的指标是检测率和虚警率。资源消耗测试(Resource Usage Tests)测量IDS占用系统资源的状况，考虑的主要因素是硬盘占用空间、内存消耗等。强度测试主要检测IDS在强负荷运行状况下检测效果是否受影响，主要包括大负载、高密度数据流量情况下对检测效果的检测。

4、测试评估IDS的性能指标

在我们分析IDS的性能时，主要考虑检测系统的有效性、效率和可用性。有效性研究检测机制的检测精确度和系统检测结果的可信度，它是开发设计和应用IDS的前提和目的，是测试评估IDS的主要指标，效率则从检测机制的处理数据的速度以及经济性的角度来考虑，也就是侧重检测机制性能价格比的改进。可用性主要包括系统的可扩展性、用户界面的可用性，部署配置方便程度等方面。有效性是开发设计和应用IDS的前提和目的，因此也是测试评估IDS的主要指标，但效率和可用性对IDS的性能也起很重要的作用。效率和可用性渗透于系统设计的各个方面之中。本节从检测的有效性、效率以及可用性角度，对测试评估IDS的性能指标进行分析讨论。

4.1 检测率、虚警率及检测可信度

检测率是指被监控系统在受到入侵攻击时，检测系统能够正确报警的概率。虚警率是指检测系统在检测时出现虚警的概率。检测可信度也就是检测系统检测结果的可信程度，这是测试评估IDS的最重要的指标。

实际的IDS的实现总是在检测率和虚警率之间徘徊，检测率高了，虚警率就会提高;同样虚警率降低了，检测率也就会降低。一般地，IDS产品会在两者中取一个折衷，并且能够进行调整，以适应不同的网络环境。美国的林肯实验室用接收器特性(ROC，Receiver Operating Characteristic)曲线来描述IDS的性能。该曲线准确刻画了IDS的检测率与虚警率之间的变化关系。ROC广泛用于输入不确定的系统的评估。根据一个IDS在不同的条件(在允许范围内变化的阈值，例如异常检测系统的报警门限等参数)下的虚警率和检测率，分别把虚警率和检测率作为横坐标和纵坐标，就可做出对应于该IDS的ROC曲线。ROC曲线与IDS的检测门限具有对应的关系。

在测试评估IDS的具体实施过程中，除了要IDS的检测率和虚警率之外，往往还会单独考虑与这两个指标密切相关的一些因素，比如能检测的入侵特征数量、IP碎片重组能力、TCP流重组能力。显然，能检测的入侵特征数量越多，检测率也就越高。此外，由于攻击者为了加大检测的难度甚至绕过IDS的检测，常常会发送一些特别设计的分组。为了提高IDS的检测率降低IDS的虚警率，IDS常常需要采取一些相应的措施，比如IP碎片能力、TCP流重组。因为分析单个的数据分组会导致许多误报和漏报，所以IP碎片的重组可以提高检测的精确度。IP碎片重组的评测标准有三个性能参数：能重组的最大IP分片数;能同时重组的IP分组数;能进行重组的最大IP数据分组的长度，TCP流重组是为了对完整的网络对话进行分析，它是网络IDS对应用层进行分析的基础。如检查邮件内容。附件，检查FTP传输的数据，禁止访问有害网站，判断非法HTTP请求等。这两个能力都会直接影响IDS的检测可信度。

4.2 IDS本身的抗攻击能力

和其他系统一样，IDS本身也往往存在安全漏洞。若对IDS攻击成功，则直接导致其报警失灵，入侵者在其后所作的行为将无法被记录。因此IDS首先必须保证自己的安全性。IDS本身的抗攻击能力也就是IDS的可靠性，用于衡量IDS对那些经过特别设计直接以IDS为攻击目标的攻击的抵抗能力。它主要体现在两个方面：一是程序本身在各种网络环境下能够正常工作;二是程序各个模块之间的通信能够不被破坏，不可仿冒。此外要特别考虑抵御拒绝服务攻击的能力。如果IDS本身不能正常运行，也就失去了它的保护意义。而如果系统各模块间的通信遭到破坏，那系统的报警之类的检测结果也就值得怀疑，应该有一个良好的通信机制保证模块间通信的安全并能在出问题时能够迅速恢复。

4.3 其他性能指标

延迟时间。检测延迟指的是在攻击发生至IDS检测到入侵之间的延迟时间。延迟时间的长短直接关系着入侵攻击破坏的程度。

资源的占用情况。即系统在达到某种检测有效性时对资源的需求情况。通常，在同等检测有效性的前提下，对资源的要求越低，IDS的性能越好，检测入侵的能力也就越强。

负荷能力。IDS有其设计的负荷能力，在超出负荷能力的情况下，性能会出现不同程度的下降。比如，在正常情况下IDS可检测到某攻击但在负荷大的情况下可能就检测不出该攻击。考察检测系统的负荷能力就是观察不同大小的网络流量、不同强度的CPU内存等系统资源的使用对IDS的关键指标(比如检测率、虚警率)的影响。

日志、报善、报告以及响应能力。日志能力是指检测系统保存日志的能力、按照特定要求选取日志内容的能力。报警能力是指在检测到入侵后，向特全部件、人员发送报警信号的能力以及在报警中附加信息的能力。报告能力是指产生入侵行为报告、提供查询报告、创建和保存报告的能力。响应能力是指在检测到入侵后进一步处理的能力，这包括阻断入侵、跟踪入侵者、记录入侵证据等。

系统的可用性。主要是指系统安装、配置、管理、使用的方便程度，系统界面的友好程度，攻击规则库维护的简易程度等方面。

总之，IDS是个比较复杂的系统，对IDS进行测试和评估不仅和IDS本身有关，还与应用IDS的环境有关。测试过程中涉及到操作环境、网络环境、工具、软件、硬件等方面。我们既要考虑入侵检测的效果如何，也要考虑应用该系统后它对实际系统的影响，有时要折衷考虑这两种因素，

5、对IDS进行测试评估一利用的相关数据

对IDS进行测试评估，也就是让IDS对进入到受保护系统的数据进行检测，以确定检测系统能否发现其中的入侵。要测试评估IDS，最准确的数据当然是根据实际运行环境产生的数据，但这通常是行不通的。因为各机构的数据中都包含一些隐私信息，他们不愿公开这些数据，并且即使有机构愿意公开自己的数据，也不大适合用来做通用测试，因为特定机构的数据都带有明显的特有的一些特性，具有一定的局限性，可重复性也不好。为此，在具体测试的时候，大都采用一些测试工具。通过这些工具来生成IDS的测试数据。

测试评估数据的生成需要满足下面几个条件，即数据的生成必须能自动完成，不需要人为的干预;要具有一定的可重复性，也就是说需要时可以产生相同的数据;要有一定的健壮性，可在无人监控的条件下，可运行较长时间。

测试评估IDS的数据包括两部分，一部分是训练数据，另外一部分是实际测试数据。这两部分数据中都包括正常数据和入侵数据。只有在正常数据的背景下，对IDS的测试评估结果才是客观和全面的。入侵行为在背景数据的掩护下，被检测系统发现的机率会大大降低。而IDS也可能将正常的流量行为误判为攻击，产生虚警。训练数据用来帮助IDS建立正常行为的模型，调整IDS各参数的设置。在训练数据中，入侵数据是明确标明的。测试数据用来对检测系统进行测试，其中的入侵数据没有标明。

通常使用下面三种方法生成既包含正常通信数据又有攻击的可公用的数据：抓取正常情况和被受控攻击时的运行通信数据。由于隐私和安全问题这显然行不通;从实际运行数据中清除秘密信息。并在其中加入攻击，这也行不通，因为很难清除秘密信息;在一个内部网中重建正常通信和攻击数据，这是我们采用的方法。

重建正常通信和攻击数据也就是仿真用户操作、模拟入侵。仿真用户操作即生成用户各种各样的正常使用模式，这些模式帮助基于异常检测的IDS建立正常行为的模型，并且以用户正常模式数据作为检测入侵的背景通信数据，对于确定IDS正常运行时的检测率和虚警率是非常必要的。模拟入侵应尽可能地覆盖多种类型，新的攻击只在测试数据一出现。设计攻击要考虑很多问题。要分析攻击的机制，并在测试系统中试验以便于分析和调节。分析要确定攻击在测试环境中能否工作，是否需要新软件或服务的支持。设计新奇的攻击以用来发现未利用的系统或网络漏洞。下面对用户正常模式的仿真和入侵仿真分别进行讨论。

目前，大多采用下面三种方法来仿真网络用户行为，即通用会话生成工具、测试软件包和录制重放实际数据。通用会话生成工具方法基于有限自动机来生成用户所有可能的操作。每种操作都有一定的操作规程，比如FTP操作，首先它要完成TCP三步握手初始化连接，然后要输入用户名和密码，用户名密码通过之后再浏览FTP服务器上的内容、下载或者上传，所有操作完成后离开服务器，结束TCP会话。根据这种通用规程，就可生成通用的会话，模拟用户操作。但是，这种方法只适用于测试有限的命令集，比如可仿真FTP客户，但不能仿真shell客户，并且这种仿真存在一些问题，因为用户操作的顺序和服务器端的响应都是不确定的，仿真并不能完全模拟用户的操作状况。操作系统开发商自带测试软件包是比较简单的模拟方法，通常用于测试评估操作系统服务的性能和应用服务软件是否按设计说明来实现。但是这种测试不能给出用户进行什么样的操作，只能告诉我们系统对正常请求的响应行为。录制重放方法是记录各种用户正常活动的数据，然后在测试平台上重放用户的活动过程。这种方法要求用户活动记录要足够多。

用户正常行为的仿真主要包括网络流量仿真、主机正常使用仿真。大多数的网络IDS或者网络IDS的大部分都工作于网络层或网络层之上，它们对网络上的数据分组根据不同的协议进行相应的分析。因此，在仿真网络流量时，要仿真各种协议的各种应用的流量。通常，对实际流量进行分析，经统计计算，得到各个协议按时间的流量概率分布，以此为模型，分别仿真各个协议的流量。

主机的使用可以分为两个部分：主机所提供的网络服务的使用和主机的直接使用，即用户在主机上执行命令。相应的主机正常使用的仿真要分为两部分，即主机网络服务正常使用的仿真和主机直接使用的仿真。对主机提供的网络服务的正常使用进行仿真，可以采用两种方法。一是遍历法，即找出某个服务允许的所有正常使用模式，再由仿真程序，按这些模式依次对该服务进行访问。二是实际采样法，取得真实网络环境中某个服务的实际使用情况数据，分析出现的使用模式，再根据分析结果建立仿真模型进行仿真。此方法与网络流量仿真的方法类似。这两种方法各有优缺点、仿真实现中，应根据被仿真服务的具体情况进行选择。由于用户的行为因工作性质不同，会有很大差别，所以主机直接使用的仿真应将用户分为不同的种类(比如管理员、普通用户)，根据不同的用户类型编写不同的脚本，实现主机直接使用的仿真。由于不同用户使用习惯变化很大，并且即使同一用户使用习惯也带有很大的随机性，这使得仿真的难度大大增加。在实际测试评估IDS时，一般只是仿真主机正常使用的一个具有代表性的子集。

攻击仿真是评估环境的核心，也是对IDS进行测试的关键。攻击仿真要尽可能多地搜集各种攻击方法。由于各种攻击的数量过于庞大，不可能对所有的攻击都进行仿真。参考软件测试领域中的等价划分方法(equivalence partitioning)，在进行攻击仿真时，一般先将攻击分类，然后选择每种类别中典型的攻击方法进行仿真试验。选择好攻击类型后，在仿真时根据入侵者进行攻击的步骤进行仿真。在构造攻击数据时还要注意新式攻击。攻击方式隐秘的攻击、并行进行的攻击等方面。相对于旧式攻击、攻击方式明显的攻击以及串行进行的攻击而言，这些攻击方式对检测结果的影响可能会更大。

目前，测试数据所采用的格式大多采用Tcpdump数据格式和BSM数据格式，由于Windows系统广泛应用，Windows NT的日志格式也逐渐考虑进来。在测试数据方面，麻省理工学院林肯实验室的数据比较完备，它包括一定时间的训练数据和用于最后实际测试的检测数据。用于网络流量仿真的工具有Anzen公司开发的nidsbench以及加利福尼亚大学开发的入侵检测测试平台。nidsbench包括tcpreplay和fraqrouter两部分。tcpreplay的功能是将tcpdump复制的数据分组重放，还原网络的实际运行状态;而fraqrouter的功能是通过构造一系列躲避IDS检测的攻击以测试检测系统的正确性和安全性。加利福尼亚大学的IDS软件测试平台使用 Tcl-DP(TooL Command Language Distributed Programming)工具开发实现。它共包含四组命令：基本的会话命令集、同步命令集、通信命令集、记录重放命令集。这些命令集分别用来仿真入侵者的基本操作，按指定要求产生事件，实现并发进程的通信以及记录用户会话期间的操作命令序列再重放这些记录。此外，麻省理工学院林肯实验室也开发了非实时IDS性能评估工具，该工具可动态重放大量的数据。

6、测试评估IDS的环境配置与框架

在测试评估IDS时，很少会把IDS放在实际运行的网络中，因为实际网络环境是不可控的，并且实际网络环境的专用性也太强，很难对IDS进行准确的系统测试。所以一般要构建专用的网络的环境。

受保护系统模拟主机正常运行状况，网络负载生成器模拟内部网之间以及内部网与外部网之间的网络通信。攻击模拟用来模拟入侵者发起的攻击。IDS即为待检测的系统。由于有时实际的网络环境很大，有很多安装各种各样操作系统、应用软件的主机服务器，要求测试环境完全按照实际网络进行配置并不是很实际，所以在测试中一般采用虚拟主机技术。通常使用一些软件工具或者编写可自动运行的脚本来模拟各种主机的各种行为，相当于在一台物理主机上运行多台虚拟主机，每个虚拟主机模拟不同硬件上运行的不同操作系统、不同应用程序。一般来说，受保护主机要包含运行常用操作系统(比如Windows、Linux、SunOS)的主机。内部网网络负载生成器要模拟内部的网络流量以及内部的攻击，而外部位网络负载生成器要模拟外部的网络流量(比如访问Web页面，下载文件)以及外部的攻击。实际构建测试环境的过程是个复杂过程，它直接关系到评测的成功与否。

7、IDS测试评估现状以及存在的问题

虽然IDS及其相关技术已获得了很大的进展，但关于IDS的性能检测及其相关评测工具、标准以及测试环境等方面的研究工作还很缺乏。

Puketza等人在1994年开创了对IDS评估系统研究的先河，在他们开发的软件平台上可以实现自动化的攻击仿真。Debar等在IDS实验测试系统的研究中，指出在评估环境中仿真正常网络流量是一件非常复杂而且耗时的工作。林肯实验室在19、进行的两次IDS离线评估，是迄今为止最权威的IDS评估。在精心设计的测试网络中，他们对正常网络流量进行了仿真，实施了大量的攻击，将记录下的流量系统日志和主机上文件系统映像等数据，交由参加评估的IDS进行离线分析。最后根据各IDS提交的检测结果做出评估报告。目前美国空军罗马实验室对IDS进行了实时评估。罗马实验室的实时评估是林肯实验室离线评估的补充，它主要对作为现行网络中的一部分的完整系统进行测试，其目的是测试IDS在现有正常机器和网络活动中检测入侵行为的能力以及IDS的响应能力及其对正常用户的影响。IBM的Zurich研究实验室也开发了一套IDS测评工具。此外，有些工具软件也可用来对IDS进行评测。

目前，市场上以及正在研发的IDS很多，各系统都有自己独特的检测方法。攻击描述方式以及攻击知识库，还没有一个统一的标准。这大大加大了测试评估IDS的难度，因为很难建立一个统一的基准，也很难建立统一的测试方法。

测试评估IDS中存在的最大问题是只能测试已知的攻击。在测试评估过程中，采用模拟的方法来生成测试数据，而模拟入侵者实施攻击面临的困难是只能掌握已公布的攻击，而对于新的攻击方法就无法得知。这样的后果是，即使测试没有发现IDS的潜在弱点，也不能说明IDS是一个完备的系统。不过，可以通过分类选取测试例子，使之尽量覆盖许多不同种类的攻击，同时不断更新入侵知识库，以适应新的情况。

并且，由于测试评估IDS的数据都是公开的，如果针对测试数据设计待测试IDS，则该IDS的测试结果肯定比较好，但这并不能说明它实际运行的状况就好。

此外，对评测结果的分析使用也有很多问题。理想状况是可以自动地对评测结果进行分析，但实际上很难做到这一点。对IDS的实际评估通常既包含客观的也包含主观的，这和IDS的原始检测能力以及它报告的方式有关。分析人员要在IDS误报时分析为什么会出现这种误报，在给定的测试网络条件下，这种误报是否合理等问题。评测结果的计分方式也很关键，如果计分不合理的话，得出的评测结果可信度也就不可能很高。比如，如果某个IDS检测不出某种攻击或对某种正常行为会产生虚警，则同样的行为都产生同样的结果，正确的处理方法是应该只计一次，但这很难把握，一旦这种效果被多次重复考虑的话，该IDS的评测结果肯定不是很理想，但实际上该人侵检测总体检测效果可能很好。

8、小结

入侵检测作为一门正在蓬勃发展的技术，出现的时间并不是很长;相应地对IDS进行评测出现得更晚。它肯定有很多不完善和有待改进的地方，这需要进一步的研究。其中几个比较关键的问题是：网络流量仿真、用户行为仿真、攻击特征库的构建、评估环境的实现以及评测结果的分析。

测试与评估篇3

【关键词】素质教育应试教育英语测试与评估改革

素质教育是指一种以提高受教育者诸方面素质为目标的教育模式，它重视人的思想道德素质、能力培养、个性发展、身体健康和心理健康教育。素质教育越来越为教育界所重视，加强素质教育，提高学生素质水平，是深化教育改革的核心问题。那么，实施素质教育后英语教学与素质教育有什么关系，是不是还需要测试与评估呢？回答当然是肯定的。

一、素质教育和测试与评估之关系

素质教育，是社会发展的实际需要，要达到让人正确面临和处理自身所处社会环境的一切事物和现象的目的。素质教育认为各个年龄阶段的学生，都各有其特点，同时存在着个体差异。即使在同样的环境里，同一年龄的学生，他们的学习活动也会因个性、兴趣等方面的差异而有所不同。目前在学校里，虽然老师们都说在实施素质教育，但是测试分数还是学生的命根，老师的前程。因此，老师的教则只是单纯地为了考试，学生也只是被动地应付考试。各级教育行政部门直至学校的校长、教师都围绕着考试的指挥转，其最终目的是为了少数优等生，不惜抛弃大部分学生。衡量一所学校的好坏，就看其升学考试的好坏，考好了，就自然赢得了好名声，就是一所好学校。甚至期中考和单元考，教师和学生都要忙得团团转，教师可藉此评优、晋级，学生可藉此得到学校、教师、家长的表扬，赢得同学的羡慕。考得不好的学生就成为人见人厌的怪物，哪个老师都怕粘上他。考得好的学生则成了教师的“宠儿”，上课提问或学校有什么活动，甚至连班干部也都全包了，差生就什么都没份。以成绩取人，伤害了学生，伤害了老师。有的学生本来在其它方面还是很有特长的，因为学习成绩低，所以被任课教师视为“差生”，因为这些学生被视为“差生”，他们对教师失去了信心，对学习失去了信心；有的老师虽然工作做了不少，但因为没有成绩而被否定，评优选先都没份，所以心理感到不平衡，使一些本来勤奋的教师会产生一种“反正干了也是白干，不如不干或少干”的心理。在这种情况下，培养学生思维能力、创造能力又从何谈起？实践证明：一些学习不好的学生，主要原因是因为潜能没有得到充分的发展，而不是天赋差，即使有，这种差异也是微不足道的。因此，改革应试教育为实施素质教育，就显得尤为必要。

二、应试教育的测试与评估

应试教育，通常被视为一种偏重于通过考试成绩来衡量学生水平的教育制度，与素质教育相对应。以前应试教育被认为是一种有效的教育方式，认为能够促使学生学习，且认为这种以划一标准评估学生能力的方式较为公平，较少出现因为个别评核者的偏好而作出不准确评估的状况。因此，教师和学生都是为了考试这个目标而奋斗，考什么教师就教什么。由于学校重视升学率，教师填鸭式的教学，无从培养学生的素质能力，考试的试题也就是教师上课讲的内容或是书上的练习，并且只有笔试，没有口试。只要学生肯去死读书、背笔记，就能考好，完全是就书“考书”，不能兼顾学生的差异。高分低能的学生就出现了。全班学生甚至全年级全地区的学生同考一张试卷，考后教师统一讲评，成绩好的学生当然都懂，而成绩差一些的学生就有许多不明白之处，他们即使知道，也是知其然而不知其所以然。

三、英语测试与评估之改革

英语测试既是巩固所学知识，激励学生学习的一种方法，又是评估学生语言能力、进行智力开发的手段；作为方法，测试就和曾经进行过的教学密切相关；作为手段，教学又和考试联系在一起。目前中学各个年级（除高三外）的英語教学，正在实施《九年义务教育全日制初级中学英语教学大纲》（93年秋起）和与之相衔接的《全日制普通高级中学英语教学大纲》（96年秋起），并普遍使用中英合编的新教材JEFC和SEFC。与旧教学大纲相比，新教学大纲吸收了当今国际上普遍认同的交际教学思想，强调不能仅仅把英语作为语言知识来传授，而且还要培养学生初步运用英语进行交际的能力在新大纲新教材的使用过程中，旧的教学观念和旧的教学方法已开始得到改变和改革，并出现了诸如情景教学、活动教学和语篇教学等贯彻交际思想的新的教学方法。但教学改革之后，对课堂教学效果进行评估和测量，仍然要借助测试这一手段。从目前的情况看，尽管教学思想、教学大纲和教材已改变了，但英语测试命题中，旧的观念和思维方式继续影响着我们，测试的内容和方法上仍不同程度地存在着以语言知识为主要测试内容、以笔试为唯一测试方法的现象。这使得作为教育评价手段的英语测试不能与英语教学改革的潮流相适应，对英语教学不能起到良好的促进作用，反而有可能拖慢英语教学改革的步伐。因此，英语测试改革的重要性已摆到我们的议事日程上来了。针对上述情况，笔者认为要培养学生的素质能力，考试和考查要包括笔试、口试和听力测试等部分。一份有效的英语测试试题应由这三个部分组成。各部分的分值应根据各年级对听说读写要求的侧重点来分布。低年级阶段首先要侧重听说训练，其比重较大；以后再逐步转入培养读写能力。到了高中阶段，则侧重培养阅读能力。笔试题可分为三个层次：第一层次要求全体学生必答，是测教材要求掌握的基本内容，这一层次分值可占百分之七十。试卷的难易程度应是学生上课有听讲，回家有复习就会做。第二层次是提高题，分值可占百分之二十，学习不怎么好的学生可免答。要求中等生和优秀生都做。第三层次是选答题，分值占百分之十，适用于优秀生和少数中等生。鼓励差生可做提高题，但不做选答题。阅卷工作可先由教师收回，在学生答错的地方打个叉或问号等，然后发还给学生，让学生同桌互换批改，教师收回来检查后再讲评。由此可让学生知道自己什么地方错了，是怎么错的，同时也可以扩大他们的眼界。对差生的评分可适当放宽松，以激发他们的学习兴趣。

口试就是口头测试，也可相应地分为三个层次。对差生只要求唱几首歌，会朗读几段课文和回答简单的问话。中等生要求能就课文提问或回答教师的问题。优生则要求高一些，要求他们复述课文，可改人称、时态复述，或将课文改成对话甚至口头作文，要求连贯说出几句（或一段）平时或将来准备干什么。口试时亦可准备听力题，供中等以上程度的学生使用，对差生暂不要求这一题，可待之取得进步后再要求。

四、结束语

实施素质教育，目的是全面提高教育教学质量。在“应试教育”的模式下，学校的教学工作只面向少数学习成绩好的学生，挫伤了大多数学生学习的积极性和主动性；即使对于少数学习成绩优秀的学生，学习的主动性和创造性也得不到充分发展，这些都直接影响教育教学质量的提高。素质教育的教育教学质量观的立足点是充分考虑如何更好满足未来社会发展以及学生全面发展和长远发展的需要。

测试是英语语言教学中的一种评估手段，教师教完一课后需要进行阶段小测验，学期进行至一半时要进行期中考试，学期结束时要举行期末考试。在教学中正确、恰当地使用测试这个手段是大有裨益的。但是教师应该克服“应试教育”的偏向。英语测试与评估常被用来作为衡量英语教师教学工作的效果。它应该衡量学生学习质量的一种手段，但不应该是唯一的手段。实施素质教育，关键在于教师，教师担负着培养学生的重任教学工作不仅是教师教，学生学，更重要的是培养学生的素质能力，培养学生的潜在能力，所以我们应端正态度，不能为测试而测试，要因人而异，因材施教，淡化测试味道，以此为契机转向以塑造学生学习的成功心理的道路上来，把实施素质教育落实到实处。

参考文献：

[1]张彩霞.浅议英语教学测试与素质教育的关系[J].学周刊C版，2013，（11）：159.

军事通信网络测试与评估系统设计篇4

随着军队信息化进程的不断深入, 军事通信网络产生了重大的变革, 军事通信网络逐步趋向一体化、综合化、智能化, 系统复杂度日益增加, 在带来高效的通信保障能力的同时, 也给系统的可靠性和安全性带来了巨大的挑战, 为积极谋求基于信息系统体系作战能力的提升, 亟需开展军事通信网络测试与评估工作, 为军事通信网络的持续优化提供决策支持;基于军事通信网络测试与评估, 实现对通信业务服务质量的测评, 为通信业务服务质量的优化提供基础数据, 同时实现对网络运行指标的测评, 为通信网络运维管理提供基础数据, 基于常态化、自动化的测试与评估, 达到确保可靠运维、预知网络故障、感知安全威胁的目的。

二、关键技术

2.1通信网络计算机仿真技术

应用网络仿真软件对所研究的对象和所依附的网络系统进行分析, 选择一个己有的网络仿真工具, 设计一个实际的或理论的网络系统仿真模型, 并在计算机上运行这个模型, 并分析运行的输出结果。仿真法很灵活, 可以依据需要设计的网络模型, 以用相对很少的实际花费了解网络在不同条件下的各种特性, 获取网络研究的有效数据, 从而选出最佳方案, 而不必去构造实际的系统。由于军事通信网络是一个异构地、复杂大型网络, 为评价军事通信网络的性能, 仅通过实验是无法实现的 (节点数多导致难以管理与实现) ;从国内外的经验来看, 对于大型网络的建设, 利用通信网络计算机仿真技术进行可行性验证, 并利用网络仿真结果作为网络性能的参考标准是直观可行的, 有利于有目的、有针对性的进行网络优化, 减少网络建设的投入, 提高网络建设的成功率。

2.2通信网络测量技术

通过一定的测量设备或一定的测量程序可以直接从通信网络中测得与各项性能指标密切相关的参数, 通过对它们进行一些运算处理求出相应的性能指标。这是最直接也是最基本的方法, 其他方法在一定程度上也要依赖于它。在这种方法中测量手段是关键, 其优点是准确性高, 因为网络的实际性能指标都是从现场得到或根据现场参数计算得到的, 其缺点是只能适用于正在运行的系统, 无法对将来性能预测分析提供依据, 需要人工经验来判断。测量方法主要分为主动测量与被动测量。

主动测量是针对特定的测试目标主动实施的一种测试行为。它在选定的测量点上利用测量工具通过主动产生测量流量注入网络, 并根据测量数据流的传送情况来测量网络的性能参数。主动测量的优点在于可以主动发送测量数据, 对测量过程的可控制性比较高, 比较灵活机动, 并易于对端到端的性能进行直观的统计;其缺点是注入测量流量本身就改变了网络的运行情况, 即改变了被测对象本身, 使得测量的结果与实际情况存在一定的偏差, 而且注入网络的测量流量还可能会增加网络的负担。

被动测量是指在链路或设备上对网络进行监测, 而不需要产生流量的测量方法。被动测量一般仅仅驻留在某个节点被动采集或监听网络信息, 因此不对网络产生任何影响。被动测量的优点在于理论上它不产生流量, 不会增加网络的负担;其缺点在于被动测量基本上是基于对单个设备的监测, 很难对网络端到端的性能进行分析, 并且可能实时采集的数据量过大, 且存在用户数据泄漏等安全性问题。

军事通信网络测试与评估系统将采用主、被动相结合的测量技术, 从服务需求的角度提出适用于军事通信网络的测量技术, 深入研究相应的测试方法、测试手段, 以建立标准、完备的军事通信网络测评机制, 为军事通信网络的建设和优化提供理论依据。

三、实现方案

3.1系统组成

如图1所示, 军事通信网络测试与评估系统由军事通信网络仿真模型、军事通信网络测评指标体系、军事通信网络测评系统等三部分组成。

其中, 军事通信网络仿真模型根据军事通信网络的系统架构进行构建, 用于根据军事通信网络测评指标体系提供网络的理论性能指标, 并为军事通信网络测评机制的形成提供支撑和依据;军事通信网络测评指标体系利用系统工程的系统性能评估方法进行构建, 并基于军事通信网络仿真模型进行完善, 同时为军事通信网络测评机制的形成提供支撑;军事通信网络测评系统以军事通信网络仿真模型和军事通信网络测评指标体系为基础, 利用网络测量技术进行构建, 形成一整套完整的军事通信网络评价机制与测试方法, 实现军事通信网络的综合测试评估能力。

3.2分层架构

如图2所示, 系统按照体系分层的原则, 自底向上分为数据采集、数据分析、质量评估和服务提供四层;数据采集层由网络管理数据采集、安全管理数据采集和主动测量数据采集三个模块构成, 实现数据信息的采集功能;数据分析层由网络实时性能分析、网络历史性能分析、网络故障分析和主动性能分析四个模块组成, 按照军事通信网络测评方法对网络性能数据进行初步分析;质量评估层由网络分层评估、业务服务评估、资源评估、管理能力评估、网络综合质量评估、网络平均质量评估、网络平衡性评估、网络稳定性评估和网络安全性评估等模块组成, 按照军事通信网络测评指标体系对网络质量进行进一步评估;服务提供层由网络性能综合呈现、网络告警综合呈现和网络运维辅助决策三个模块组成, 采用图、表等形式向系统维护者提供网络性能和告警信息, 并针对网络告警提出相应的网络运维辅助决策。

3.3系统功能

按照系统功能划分, 军事通信网络测试与评估系统的功能结构如图3所示。军事通信网络测试与评估系统由通信网络仿真、通信网络性能测评方法和通信网络在线测评三个基本功能构成:

(1) 通信网络仿真功能通过军事通信网络仿真模型实现, 提供网络理论指标获取、关键技术验证、网络优化分析和网络故障分析的能力。 (2) 通信网络性能测评方法通过所建立的军事通信网络测评指标体系和测评机制实现, 提供网络性能评估方法、业务质量评估方法和网络性能测试用例。 (3) 通信网络在线测评功能通过所构建的军事通信网络测评硬件系统实现, 提供军事通信网络网络性能、业务性能、资源、管理能力的在线评估功能, 并具备相应的评估控制功能。

四、总结

军事通信网络测试与评估系统通过构建军事通信网络仿真平台和测评平台, 依托综合网管的网络状态采集能力, 形成对军事通信网络性能的掌控能力, 为运维系统提供网络总体性能的综合分析信息, 为军事通信网络的建设提供参考建议。通过军事通信网测试与评估系统, 可以在军事通信网相关项目的建设之初为项目设计人员提供旧系统的性能数据作为建设依据, 为项目论证人员提供验证平台;在网络建成后, 为系统验收人员提供参考指标和测评手段;在网络运行过程中, 为网络维护人员提供网络总体性能的分析能力, 了解系统的瓶颈, 为网络故障排除和网络优化提供参考。

参考文献

[1]刘明.一种网络测试方法[J].现代电子技术, 2012, 35 (5) :83-85.

[2]臧垒, 蒋晓原等.军事通信网的启发式元模型研究[J].系统仿真学报, 2009, 21 (17) :5562-5567.

测试与评估篇5

一、积累和运用（24分）

1、给下列加点字注音（7分）

犀利（）粼粼（）引吭（）绮丽（）分娩（）．．．．．

翌日（）岑寂（）蹇劣（）丰腴（）憩息（）．．．．．

奇崛（）隽妙（）猥鄙（）煦煦（）剽悍（）．．．．．

2、解释下列句子中的词语：（4分）

⑴、秋天来了，它对于自己的戏法好像忍俊不禁地破口大笑起来，露出一口的皓齿。

忍俊不禁：

⑵、还是去年的主，还是去年的宾，他们宾主间是如何的融融泄泄呀！

融融泄泄：

⑶、它伸长了头颈，左顾右盼。

左顾右盼：

⑷、并且，像今天这样的好天气，鹤群明显增多。一群接一群，络绎不绝。

络绎不绝：

3、补全下列成语：（2分）

忍俊不争斗艳无可言无于事

4、修改病句。（2分）

⑴、是否具有良好的心理素质，是考试取得好成绩的条件之一。

⑵、这部小说完全地塑造了一个共产党员的光辉形象。

５、连线。（2分）万物皆有灵性，美无处不在。本单元的几篇课文都能抓住事物的某些特征，既绘形又传神，将下列事物与对应特征连线：

石榴

燕子

白鹅

鹤群伶俐团队精神热烈傲慢

6、完成下列填空题。（7分）

记叙文的要素中，最重要的是和。记叙的顺序主要有、、等。记叙文的表达方式一般以和为主，兼有议论、抒情。记叙文的语言一般要求，来表达作者的。

二、文段阅读训练（36分）

（一）（8分）

我家养了一只小花猫，我们叫它小花，它活泼又漂亮。你瞧，它那圆圆的脸上，一双大眼睛闪着绿光，小巧的嘴边还神气地竖着几根胡子。它全身长着灰褐色的毛，还均匀地夹着白色斑纹。它翘着棉条似的尾巴，真惹人喜爱！

邻居家也养了一只猫，我可不大喜欢它。喏，一张尖尖的脸，大嘴巴旁边还有一撮最歪

毛。除了和小花一样明亮的大眼睛，全身上下没有一处让人看得上眼。它的性情非常古怪，每天早上躲在墙角洞口东张西望，不知道搞啥名堂。一次，我想摸它，反被它咬了一口。从此，我恨透了它，见到它就打，可这家伙特别机灵，老远见了我就一缩尾巴逃得无影无踪，真气人。

我越讨厌邻居家的猫，就越喜欢小花，常常省下好吃的东西喂它。我爸爸叫我别惯坏了它，要不然，它长大了连老鼠都不会捉。我嘴上不吭声，心里却说，哪能呢，小花从小就这样伶俐，长大了准是捕鼠能手。

可是谁能想到，事情竟让爸爸说中了，那天，邻居叔叔放出铁笼中的小老鼠让小花捉。ａ小花竟像在恶狼面前的绵羊一样，先是用脚顶住地面，身子死命后退，后来干脆狼狈逃跑，在场的人哄堂大笑。ｂ这时邻居家的猫不知从哪里窜来，像离弦的箭扑向老鼠，接着是老鼠的惨叫……

从此，我再不追打邻居家的猫了，也不再娇惯小花了，每当小花缠我的时候，我就说：“去，学抓老鼠去！”

1、作者采用手法写两只猫，通过比，比，比，写出它们的特点。（2分）

2、上述文字在状物中倾注了作者的感情，对自家的小花是和，对邻居家的猫则是和，后来通过捕鼠一事，作者改变了态度。（2分）

3、文中加点的“机灵”和“伶俐”能否互换，为什么？（1分）

4、划线的ａｂ两句都是修辞句，它们分别形容什么？（3分）

ａ：

ｂ：

（二）善待生灵（17分）

有时，动物界也会发生令人难以置信的故事。

有一个狩猎队，把一群羚羊赶到悬崖边，准备全部活捉。约摸半小时后，羚羊群分成了两类（）老羚羊为一类，年轻羚羊为一类。一只老羚羊走出来，朝年轻羚羊群叫了一声。一只年轻羚羊应声跟老羚羊走到悬崖边。年轻羚羊后退了几步，突然朝前奔向悬崖对面；紧接着，老羚羊也飞跃出去，只是跃起的高度要低一些。当年轻羚羊在空中向下坠时，奇迹出现了：老羚羊的身子刚好出现在年轻羚羊的蹄下，年轻羚羊在老羚羊的背上猛蹬一下，下坠的身子又突然升高，并轻巧地落在对面的悬崖上，而老羚羊就像一只断翅的鸟，笔直地坠入了山涧。

试跳成功，紧接着，一对对羚羊凌空腾起。没有拥挤，没有争夺，秩序井然，快速飞跃。顿时，山涧上空划出了一道道令人眼花缭乱的弧线，那弧线是一座以老羚羊的死亡作桥礅的生命桥。那情景是何等神圣！猎人们个个惊得目瞪口呆，不由自主地放下了猎枪。

动物在生命危急之时的举动，令人肃然起敬。它留给人类的思考是什么呢？

“当地球上最后一只老虎在林中徒劳地寻求配偶时，当最末一只未留后代的雄鹰从高空坠向大地时，当鳄鱼的最后一声哀鸣不再在湖泽上空回荡时……人类，从某种意义上也已看到了自己的结局。”这是人类对动物的哀怜，更是动物对人类的警示。

人类只有一个地球，人和动物都是大地之子。本是同根生，相煎何太急？保护野生动物，就是保护人类自己；善待生灵，也就是善待我们自己。

1、解释词语：（1分）

肃然起敬：

2、“本是同根生，相煎何太急”是时写的诗句，引用这两句诗的效果

是。（3分）

3、第一段中所说的“令人难以置信的故事”是指（用自己的话概括，不超过15字）

（2分）

4、“猎人们不由自主地放下了猎枪”的原因是（用原文回答）（2分）

5、能揭示全文主旨的语句是；这一句运用了的表达方式。（2分）

6、“动物在生命危急之时的举动”指（不超过30字）（2分）

7、举例说明本文运用的修辞手法：（3分）

8、第二段中括号内应填的标点是，作用是。（2分）

（三）佐茶的鱼（11分）

很多人都知道马祖生产一种细小的香鱼，用辣椒炒来佐饭很开胃口，我们泾县也产这种鱼，体积还要小些，名叫琴鱼，传说西汉炼士琴高，选了泾县北门外一处山明水秀的地方烧丹炼药，丹成，便羽化而登仙，临上天时，感念这处地方的水质太好，应有所报答，于是顺手把药罐子里的药渣撒向河中，便化作尾尾红色的小鱼。这种小鱼便是泾县琴溪有名的琴鱼。神话归神话，鱼却是一味上品，据说以前曾作贡品，其名贵可以想见，但这种琴鱼可不是用来当菜佐饭的，那未免猪八戒吃人参果——有点太糟蹋东西了。

江南人嗜饮茶，泾县白山出产一种名贵的茶叶，泡在杯中颜色便转成白的，这是泾县的白云茶。

有好的茶叶必须配上好泉水，那才相得益彰，而琴溪的水恰是上等好水，两种好东西配在一起，便变成无上妙品。路过琴溪的人，事先都要携带一个毛竹筒，以便装些溪水回去孝敬年老爹娘。但是这还不够完美，最完美的必须在饮早茶时，配上一小撮琴鱼。祖父起身很早，他必定先到河边柳林中打完一趟太极拳回来才饮早茶，饮早茶时必定配一小碟琴鱼和一大碟子桂花酥糖，姑姑在家已经为他老人家准备妥当了的。

祖父吃琴鱼，是用大拇指和食指去“钳”。每次只限两条鱼，我说爷爷好小气，他老人家笑笑说：“这东西比鸦片还贵哪!”

贵还在其次，还难买。琴鱼是论两论钱不论斤的，因为琴鱼产量少，很难捕到。我11岁时离家赴宣城当学徒，曾经过琴溪，因为等渡船，顺便看当地人用网捕鱼，每次收网，总不过一二十尾，不够铺满一只手掌心的，因为稀少，所以贵，因为有神话，其味又鲜美，所以名贵。名贵也者，定有很多道理也。

祖父的早茶在地方上很有点名气，有事来需求的一定在早晨赶来，因为早晨时候，祖父的心情最好，几乎有求必应，到晚上来就不见得了。

琴鱼未必每早必有，因为有时候有钱也买不到，但桂花酥糖则从未缺过，因为制酥糖的是官庄的玉成轩糕饼铺。我家吃饼、送礼祖父必指定这个字号，道理我不知道。但别人家却对我祖父的嗜好摸得很清楚，过年过节，送来的四色礼，一定是桂花酥糖、雪片、蜜枣和绿豆糕。因为酥糖是黄色的，雪片是白色的，蜜枣是红的，绿豆糕是绿的。我忘记到了冬天，绿豆糕该换哪一样了。

我自小跟祖父学着饮早茶，只学会了吃桂花酥糖，饮茶则一如牛饮，不辨其味。

台北衡阳路采芝端和成都路的老天禄，都卖桂花酥糖，包装得很精美，但吃后粘牙。如今我已好多年不曾“粘牙”了，不知道品质改良了一些没有。

1．文章第①自然段引用传说，有什么好处?（2分）

2．作者描写祖父吃琴鱼时的情景是怎样的?（2分）

3．为什么路过琴溪的人，都要携带一个毛竹筒，装些琴溪水回去孝敬老爹娘?（2分）

4．为什么琴鱼价钱贵，还难买?（2分）

5．别人过年过节送给祖父什么礼品?（1分）

6．结尾处作者为什么好多年不曾“粘牙”了?（2分）

三写作（4０’）

生活中，一定会有你喜欢的事物：或是因为它美好的外形，或是因为它蕴含某种情趣，或是因为它引起了你的联想，触动了你的情思。试着把这种事物连同你的感受写出来。

要求：选择自己真正有感触的事物来写，要把自己的思想感情与所写事物的特点联系起来。如夏季开放、颜色深红的石榴花恰与作者热烈、奔放的性格和积极向上的精神相契合。描写事物时，适当运用比喻、拟人、对比等方法，可以使文章更加生动传神。题目自拟。500字以上。

第一单元测试题答案

一、积累和运用

1．略

2．⑴忍不住笑。⑵和睦快乐。⑶向左右两边看。⑷前后相接，连续不断。

3．禁妍喻济

4．（1）删去“是否”，和在“取得”前面加上“能否”（2）“完全”改为“成功”

5．略6．人物事件顺叙倒叙插叙描写叙述简明、生动感情

二、文段阅读训练

（一）1．对比；外形；性格；本领

2、溺爱；骄惯；讨厌；憎恨

3、不能。“机灵”指聪明灵活，反应快。而“伶俐”只是指中看，好玩而已。

4、比喻。形容作者小猫的胆怯无能；形容邻居小猫的速度快。

（二）1．形容产生严肃敬仰的感情。

2、三国；曹植；强调地球是人类与动物的共同家园。

3、老羚羊以身体支撑年轻羚羊飞跃山涧。

4、动物在危急之时的举动，令人肃然起敬。

5、保护野生动物„„善待我们自己；议论。

6、老羚羊以死亡做桥礅搭起生命桥和众羚羊逃生时井然有序。

7、比喻、拟人、设问、排比（举例略）

8、冒号；提示下文。

（三）1．为了增强了文章的趣味性，也说明琴鱼有过敕定册封的荣耀，它的珍贵成了泾县人的骄傲。

2．祖父吃鱼时，用大拇指和食指去“钳”，还笑笑说：“这东西比鸦片还贵哪！”

3．因为白云茶加上琴溪的水，便是上等佳品。

4．因为琴鱼产量少，很难捕到。

5．送来四色礼。(黄、白、红、绿)

6．因为作者好多年不吃桂花酥糖了。

三写作(略)

测试与评估篇6

摘要：产品的测试性指标是武器系统指标的重要组成部分，合理评估测试性指标对于确定其是否满足武器系统所规定的测试性指标；评价和确认其已经进行的测试设计工作，找出不足；改进设计工作具有重要意义。文章把加权分配法应用在现有测试性评估方法中，使其考虑更加全面、更加切合实际。最后结合实例进行分析，验证了此方法的可行性。

关键词：武器系统；加权分配法；测试性评估

中图分类号：TP166 文献标识码：A 文章编号：1009-2374（2013）11-0065-02

一般来说，评估测试性指标过程比较复杂，环节比较多，一般通过建立故障模式库，真实模拟产品所出现的所有故障，从而检验系统实际所达到的测试性水平。主要涉及到抽样方案、故障分配方法、故障注入方法。故障的分配方法是其中很重要的一部分。

1 目前常用的测试性评估方法

目前常用的测试性评估方法首先是根据抽样方案（选取多少故障样本进行试验，如何判别试验结果），其次确定故障分配方法（常用比例分层抽样方法进行样本分配），选取故障注入方法，最后将试验中出现的不能正确检测的故障数F与试验方案中确定的合格判定数C进行比较，从而判定测试性是否满足系统的要求。比例分层抽样方法在确定故障分配法时，只考虑了复杂性和可靠性，并未考虑到此产品发生故障后的影响系数，实现故障检测成本的高低（产品自然发生的故障，达不到规定样本量要求，需要进行故障注入或模拟，故障注入或模拟需要一定的成本）等。

2 加权分配法

加权分配法要综合考虑影响分配的多种因素。影响的产品或系统抽样的因素很多，为了更合理地对各组成部分进行抽样分配，这就需要考虑各个因素的权重问题。

3 加权分配法的建立

3.1 确定评价因素体系

根据影响产品/系统测试性分配的因素综合考虑分配方法。影响产品/系统测试性分配的主要因素有重要度、复杂度、平均故障修理时间（MTTR）、故障影响系数、成本系数。

3.1.1 重要度（u1）：根据分系统的重要度来评定。重要度越大，评估的加权值越高。

3.1.2 复杂度（u2）：根据组成分系统的元部件数量以及它们组装的难易程度来评定。复杂度越高，评估的加权值越高。

3.1.3 MTTR（u3）：依据发生故障后的修复时间的多少来定。一般对于要求的MTTR值小的项目，应评估较高的加权值。

3.1.4 故障影响系数（u4）：根据发生故障后对系统的影响大小来评定。故障影响大的，评估的加权值应越高。

3.1.5 成本系数（u5）：依据实现故障检测与故障隔离的成本高低来评定。实现故障检测与隔离成本低的，应评估较高的加权值。

3.2 建立单因素评价矩阵

设有个分系统，由有经验的专家分别就各分系统的重要度、复杂度、MTTR、故障影响系数、成本系数进行打分，满分为十分，程度最高的评十分，程度最低的评一分。在评分期间可以多种方法相结合，尽量使评分结果准确，得：

3.3 加权抽样分配方法

ni=ncpi，，其中u1i为第i个产品的重

要度，u2i为第i个产品的复杂度，u3i为第i个产品的MTTR，u4i为第i个产品的故障影响系数，u5i为第i个产品的成本系数。cpi为加权系数。

4 实例分析

某设备由5部分组成，要求的故障检测率不小于80%，置信度为80%。按照相关公式可选取（33，4）为抽样组合，抽样方案选取（33，4）。通过专家建立的评价矩阵R为：

根据上述算法，分配的样本量见下表1，注入故障见表2：

按照加权分配分发所确定的故障样本数，选择故障进行注入，整个产品选取33个故障进行注入。每个故障注入后，对故障进行检测。若能正确检测出29个故障，则设备的故障检测率满足武器系统的要求。

5 结语

本文从重要度、复杂度、MTTR等方面对故障分配法进行了考虑，使得分配故障样本时更加贴合产品的实际情况。但是，本文加权值的评估也具有一定的局限性。实际中若要对该产品进行评估，除了要对加权值进行合理的分析评价，还要对模拟故障的注入方法进行深入研究。

参考文献

[1]装备测试性大纲（GJB2547-95）[S].

[2]田仲，石君友.系统测试性设计分析与验证[M].北京：北京航空航天大学出版社，2003.

[3]李士勇.工程模糊数学及应用[M].哈尔滨：哈尔滨工业大学出版社，2004.

[4]田仲.测试性分配和预计[J].北京航空航天大学学报，1995，21（4）.

测试与评估篇7

测试性是装备的一种设计特性[1], 测试性的好坏直接影响了装备性能的高低以及在使用过程中发生故障时检测时间的长短。改善测试性是改进电子装备系统设计, 提高性能, 简化维修保障工作和提高效费比的最有效途径[2]。在对装备质量进行考核时, 测试性指标是很重要的方面。目前, 对测试性的验证评估缺乏科学有效的措施和方法, 还没有统一的系统标准。本文分析现有的测试性验证评估方法, 使用更加合理的超几何分布法。该方法不仅需要的样本量较少, 而且准确率更高, 缩短了时间, 是一种更为有效的方法。根据这一理论方法指导, 使用更人性化的LabWindows/CVI编程语言, 进行界面设计和编程实现, 将其应用到工程实践中去。

1测试性验证及指标

1.1 测试性验证

测试性这一术语是1975年首先由F.Liour等人在《设备自动测试设计》一文提出的[2], 随后相继用于诊断电路设计及研究等各个领域。测试性是指能及时准确地确定其状态 (可工作、不可工作或性能降低) 并隔离其内部故障的一种设计特性。对装备战备完好性、任务成功性、寿命周期及维修人力具有显著的影响。在系统研制的不同阶段应分别实施测试性分析、设计和验证, 保证系统具有所要求的测试性。由于现有的装备大部分未展开测试性设计及验证, 而且设计之前也没有考虑测试性问题, 所以测试性较差, 发生故障时所需要的检测时间太长, 检测准确率较低。因此, 应更加注意装备在研制之前的测试性设计, 将合适的测试性设计方案应用于每个系统或设备的初步设计中, 对选用的测试性设计方案进行定性分析和评价[3], 保证能达到所要求的测试性水平。为确定装备是否满足规定的测试性要求, 需要对测试性进行验证。检验其测试性是否合乎要求, 掌握装备检查发现异常的能力、检测和隔离故障的能力以及用于预计测试性指标模型的有效性等。

1.2 测试性指标

对测试性进行验证, 要明确验证的要求和内容。测试性定量指标主要有故障检测率 (Fault Detection Rate, FDR) 、故障隔离率 (Fault Isolation Rate, FIR) 和虚警率 (False Alarm Rate, FAR) [4,5] 。

(1) 故障检测率 (FDR) :

一般定义是在规定的时间内, 通过给定测点能够在规定工作时间T内正确检测到故障数ND与规定工作时间T内发生故障总数NT之比, 用百分数表示。数学公式为:

$F D R = \frac{Ν_{D}}{Ν_{Τ}} \times 100 % (1)$

(2) 故障隔离率 (FIR) :

在规定时间内, 通过电路所提供的测点能够在规定条件下用规定方法使正确隔离刀小于等于L个可更换单元的故障数NL与同一时间内检测到的故障数ND之比, 用百分数表示。数学公式为:

$F Ι R = \frac{Ν_{L}}{Ν_{D}} \times 100 % (2)$

(3) 虚警率 (FAR) :

规定工作时间内, 发生虚警数NFA与同一时间内的故障检测总数之比, 当通过测点检测到被测单元有故障, 而实际上该单元没有发生故障。数学公式为:

$F A R = \frac{Ν_{F A}}{Ν_{F} + Ν_{F A}} \times 100 % (3)$

式中:NF为真实故障检测数。由于虚警率的产生因素较多, 包括电路本身、环境因素、人为因素等。所以在进行测试验证时, 通常采用故障检测率和故障隔离率。

2几种验证评估方法分析

FDR和FIR是电子装备测试性最主要的两个指标, 目前国内外普遍采用的指标验证方法有两种:二项分布法和正态分布法。还有一种超几何分布法, 所需抽样样本量小, 费用低, 更加科学合理[6] 。

2.1 二项分布法

国军标中采用二项分布法对FDR和FIR进行验证, 其数学模型为:从样本总体N中抽取n个试验样本, 每次抽样为0～1分布, 即或是成功或是失败, 设成功的概率为q, 那么失败的概率为1-q。在n次抽样中, 成功i次的概率由二项分布来表达, 即:

$Ρ (n, i, q) = (\begin{array}{l} n \\ i \end{array}) q^{i} (1 - q)^{n - i} (4)$

二项分布法的判别准则规定:n次抽样中允许失败的次数不超过r次, 如果试验中实际失败的次数r′≤r, 则判为合格, 否则判为不合格。

2.2 正态分布法

正态分布法数学模型为:根据拉普拉斯定理, 当n→∞时, 二项分布近似为正态分布, 二项分布P (n, k, p) 趋近正态分布N (np, nq, q) , 即:

正态分布法的判别准则规定为:若成功率规定值为qS, 对n个样本中失败的次数进行统计分析, 正态分布置信度1-α的成功率单侧置信上、下限为qU, qL, 有:

qS≥qL接收, 否则拒收;

qS≥qU接收, 否则拒收。

试验样本量n的确定方法有:

$n = \frac{(Ζ_{1 - α / 2})^{2} q_{S} (1 - q_{S})}{δ^{2}} (6)$

式中:Z1-α/2为标准中心正态分布上侧1-α/2分位点;δ为允许偏差, 推荐值δ=0.03～0.7, δ=0.01～0.05。

2.3 超几何分布法

采用抽样检验的方式, 依照超几何分布, 在n次抽样试验中, 失败次数为r次的概率为:

$Ρ [X = (n - r)] = C_{Ν q}^{n - r} \cdot C_{Ν - Ν q}^{r} / C_{Ν}^{n} (7)$

在n次试验中, 失败次数不大于r (成功次数大于等于n-r次) 的概率定义为超几何分布函数, 其数学模型为:

$Ρ [X \geq (n - r)] = \sum_{i = n - r}^{n} (C_{Ν q}^{i} \cdot C_{Ν - Ν q}^{n - i} / C_{Ν}^{n}) (8)$

当样本总体N足够大, 以至于每抽去一个样本对整个样本空间的成功率影响甚微时, 不放回抽取可以近似看成有放回抽取, 那么超几何分布可以用二项分布近似, 即若N→∞时, 有:

$C_{Ν q}^{n - r} \cdot C_{Ν - Ν q}^{r} / C_{Ν}^{n} \to C_{n}^{n - r} q^{n - r} (1 - q)^{r} (9)$

2.4 三种方法分析

使用二项分布法的条件:

(1) 样本总体数量未知;

(2) 每次抽样相互独立, 具有独立同分布;

(3) 确定抽样方案需给定参数α, β, q0和q1。

正态分布法的使用条件:

(1) 样本总体为未知量;

(2) 样本量n→∞, 该要求在工程上不现实;

(3) 确定样本量和进行判决需给定参数α, qS。

超几何分布法的条件:

(1) 样本总量N可以比较小;

(2) 需给出参数α, β, q0和q1。

分析结果:超几何分布法所得试验样本量小, 可以使验证试验更加快速和节省费用。这是因为分布总体的确定性, 减小了试验的风险, 在不增加使用方和承制方风险的情况下, 采用超几何分布法可以减少若干样本量, 所以采用超几何分布法进行编程实现。

3LabWindows/CVI编程实现

通过上述分析, 确定了测试性验证的方法, 使用LabWindows/CVI编程语言, 将超几何分布法进行工程实现。

3.1 语言介绍

该语言是National Instruments公司 (简称NI公司) 推出的交互式C语言开发平台, 可以在多种操作系统 (Windows 98/XP/NT/2000, Mac OS和UNIX) 下运行, 它的特点如下[7,8,9]:交互式程序开发;功能强大的函数库;灵活的程序调试手段;高效的编程环境;开放式框架结构;集成式的开发环境。这些特点大大增强了该语言的功能, 为语言开发人员提供了理想的软件开发平台。作为虚拟仪器软件开发工具, 可将计算机资源和仪器硬件有机地融为一体, 有效地使用计算机强大的数据处理能力和仪器硬件的测量控制能力, 实现对数据的显示、存储和分析处理。开发者可以利用界面感强的优点, 通过面板、控件和菜单的设计和灵活的编程语言, 完成所需功能。目前在国内外已经得到了较为广泛的使用。

3.2 界面创建与编程实现

界面设计主要包括创建用户界面、在代码文件中编写功能程序、运行和调试等。按照要实现的功能和合理的结构设置, 设计出如图1所示的界面。

首先, 创建用户界面的过程。根据所用的参数和将要实现的功能, 设计出如图界面, 其中包括样本总量、最低可接受值、设计目标、使用方风险和承制方风险, 并且各个数值根据要求设置, 可以修改。其次, 属性修改和路径匹配。在界面中, 用到NUMERIC, TABLE, COMMANDBUTTON等控件。由于界面有多个弹出界面, 所以应对面板进行区分, 例如PANEL1, PANEL2, PANEL3等。调用时, 应确认调用的路径, 明确是在那个面板中进行的。最后, 进行程序设计。在控件设置完毕后, 系统会自动生成一些代码, 主要的功能程序在源程序中添加即可。下面列举一些用到的程序语句[10]:

所实现的功能就是通过运算, 得出抽样方案, 以供选择使用, 然后与实际操作中得出的结论相比较, 以判断该装备的测试性设计得是否合格。

4结语

介绍了装备测试性在进行质量考核时的重要作用, 其测试性的好坏就是装备性能的好坏。在进行验证评估时所参考的测试性指标, 都是对测试性进行验证的定量指标。分析了验证评估的几种方法, 通过比较, 得出使用超几何分布法进行验证时所需样本量更小, 而且准确率很高。使用虚拟编程语言进行界面设计, 使之用于工程实践中, 为以后的类似工作提供了参考。

参考文献

[1]原航空工业部第三零一研究所.GJB2547-95装备测试性大纲[S].北京:国防科学技术工业委员会, 1996.

[2]曾天翔.电子设备测试性及诊断技术[M].北京:航空工业出版社, 1996.

[3]连光耀, 黄考利, 陈建辉, 等.装备测试性设计关键技术研究[J].仪器仪表学报, 2006 (22) :1196-1197.

[4]王立兵, 黄雪峰.电子设备固有测试性评价方法研究[J].现代电子技术, 2008, 31 (21) :78-80.

[5]王立兵, 马彦恒, 李泽天.PSPICE仿真的测试性验证方法[J].火力与指挥控制, 2009 (12) :131-134.

[6]马彦恒, 韩九强, 李刚.测试性评估与验证的超几何分布方法[J].西安交通大学学报, 2009, 43 (3) :42-45.

[7]孙晓云.基于LabWindows/CVI的虚拟仪器设计与应用[M].北京:电子工业出版社, 2010.

[8]史君成, 张淑伟, 律淑珍.LabWindows虚拟仪器设计[M].北京:国防工业出版社, 2007.

[9]王建新, 杨世凤.LabWindows/CVI测试技术及工程应用[M].北京:化学工业出版社, 2006.

测试与评估篇8

关键词：大学生,英语语言能力,测试,评估

1 语言能力的定义

对于什么是语言能力, 不同时期人们的观点和看法也不同。语言教学兴起之初, 尚未形成指导语言教学的系统理论, 外语教学基本上是一种凭经验或遵循传统的教学。教师把语言当作一门知识在教, 包括教授语音知识、语法知识和词汇知识等, 对语言能力的定义就是指对语言知识的掌握程度。20世纪40年代, 受结构主义语言学、行为主义心理学影响的心理测量学理论对语言测试产生了很大的影响。心理测量学主张语言能力可以分解为语言技能和语言成分, 人们运用这些语言技能和语言成分的能力就是一个人的语言能力。这时对语言能力的测试注重听说技能, 尤其是听的技能。这种测试在50—60年代占统治地位, 到80年代甚至90年代初仍是主流。60年代中期, Chomsky (1965) [1]提出了抽象的语言能力和语言行为的概念。但不少语言学家指出, 人们进行交往, 光有抽象的语言能力是不够的, 还会涉及到许多超出语言能力的能力。如语言的运用涉及到一系列的社会文化因素。另外, 一些语言学家也提出了语言的功能作用。至此, 人们对语言能力的认识扩大了, 不仅认识到使用语言时考虑语境的重要性, 同时还认识到语言的使用是一个动态的交际过程, 由此便产生了交际能力这一概念 (韩宝成:2000) [2]。Canale和Swain[3] (1980最先提出了“交际语言能力的理论模式”。此模式对80年代的外语教学界和测试界产生了深远的影响。Canale和Swain的交际语言能力模式由四个部分组成:1) 语法能力;2) 社会语言能力;3) 语篇能力;4) 交际策略能力。20世纪90年代, 美国著名应用语言学家Bachman[4]发展了Canale和Swain的交际能力模式, 提出了新的交际能力理论模式, 被称为“语言测试史上的里程碑”。交际性语言测试理论的意义在于把语言的使用看作一个动态的过程, 重视语言在具体社会文化背景下的使用, 突出语言能力不仅指语言知识的掌握, 更重要的是运用。Bachman还指出, 交际测试法必须具有鼓动性、真实性、综合性和交互性。

从对语言能力的定义发展轨迹来看, 人们对语言能力的认识不断深入和多元化, 从而也导致了语言能力测试手段和方式的多元化。为了让我们的测试与评估更具有客观性、全面性和操作性, 我们把大学生的语言能力定义为语言学习能力和语言应用能力。语言学习能力包括对语音知识、语法知识和词汇知识等语言知识的学习和掌握。语言应用能力指的是对语言技能和语言知识的运用能力。对这两方面都进行教师测评与学生自评, 有助于教师对学生语言学习能力与其语言应用能力之间的关联性与关联度有客观的认识, 从而给教师的教学提供方向和目标, 也让教师的教学反思更有针对性。

2 对语言能力的测试实践

对大学生的英语语言能力测试与评估, 我校的实践情况是, 入学之初, 对非英语专业大一新生进行分级考试, 试题题型包括听力测试, 英语知识运用 (四选一单项填空和完形填空) , 阅读理解和汉译英四大部分。根据学生考分, 70分以上学生参加A班, 70分以下参加B班。A班B班学生教学内容和进度要求有所不同。学生都参加四级考试, 过四级的学生参加六级考试。学生大一大二四个学期每个学期期末参加期末考试, 期末考试试题题型与大学英语四级接近, 内容从课本和课外节选, 还有一项是口语考试。第三学期开始开设选修课, 科目包括中级视听说, 美国文化, 英国文化, 英语应用文写作, 科技论文翻译, 中级英语口语等, 期末由任课教师对学生进行考核。从我校的语言能力测试实践来看, 考试的形式主要有分级考试, 期末考试, 口语考试和四六级考试, 分级考试以及期末考试题型与四六级相差无几, 可视为小四六级考试。对于大学英语四、六级考试一直存在赞成和反对两种意见[5]。我们认为2006年改革后的新四六级测试还是有积极作用的。改革后的四六级突出加强对学生英语综合应用能力特别是听说能力的测试, 促使教师更注重学生听说能力的提高, 对四级过级率的追求也让学校对大学外语的教学硬件进行了很大的改善:如我校上课都在多媒体教室或语音教室, 学校每周举办一次英语角, 有外教和英语老师参加。而且目前四六级成绩也得到社会承认, 逐渐成为用人单位录用大学毕业生的标准之一, 产生了一定的社会效益。

但四六级测试也存在一些局限性。四六级是总结性测试, 无法对学生的学习能力和学习效果进行阶段性评估, 因而无法让教师对学生的语言能力进行阶段性评估, 对其因材施教, 对大学英语教学的反拨作用有限。因此, 我们提出了语言测试应在教学过程中进行的观点, 并进行了教学实践, 取得了一定的效果。

3 在教学过程中进行语言能力测试

3.1 教师测试与评估1) 对语音的测试

比如在词汇学习过程中, 让学生看单词发音, 看单词音标发音, 根据读音把单词拼写出来。教师对学生表现进行打分评估, 并在学生名条下进行记录。

2) 对词汇能力的测试

在词汇学习过程中, 运用词汇联想来对学生的音、形、意之间的关联能力进行评估。

所谓词汇联想测试, 是指受试在听到或看到所给刺激词时立即给出大脑里所出现的反应 (张萍, 2010) [6]。这些反应可以写成单个词, 也可以写出词串。可以是多个单词, 也可以只写一个反应。我们根据学习者水平的高低采用听-说、听-写、写-说、写-写等实验方法。测试形式和内容也可以根据需要设计成不同模板, 比如可以用词汇联想任务考察受学生的积极消极词汇量。

3) 对语言应用能力的测试

一是在听说课上, 设计一些语言交际任务让学生完成, 教师通过学生在完成任务时的表现对其语言运用能力进行评估。这些任务可包括: (1) 回答问题:教师设计并录制一系列问题, 问题可涉及日常生活各个方面, 这些问题之间有相互关联性或相互关联性不大, 但提问顺序由易到难, 让学生听问题并作出回答。 (2) 看图说话:给考生一幅或多幅图片, 让学生描述图画或就图发表看法。 (3) 复述故事:给测试者听一段短文或看一段视频, 然后要求被测试者用自己的话复述所听到或所看到的内容。 (4) 角色扮演:让学生分组扮演特定环境中的特定角色, 要求他们谈话的内容、方式, 必须与角色的身份相吻合。选择的场景也必须尽量符合生活的实际情境。 (5) 口头报告:要求被测试者就所给话题做一个3-5分钟的口头表述, 阐述并论证自己的观点。教师从学生完成任务过程中的表现对其语音 (句子读法) , 语言表达 (词汇丰富性, 句型准确性和恰当性) , 语言组织能力以及语言交际策略等能力进行评估。

二是在综合英语课上, 让学生翻译某些句子, 把译文写下来并交给老师, 教师根据译文对学生词汇能力, 语言理解能力, 语言表达能力进行评估。还可以让学生写课堂作文并交给老师, 老师对学生的词汇能力, 造句能力, 语篇能力进行评估。这些测试都可以结合教学并在教学过程中实施, 因学生是在自然而非考试的状态下完成测试, 因此测试结果可信度较高。

3.2 学生自测自评

教师设计一些有针对性的问卷, 让学生对自己的语言能力进行评估。比如对学生的词汇能力进行测试和评估时我们设计了问卷, 提出一些问题让学生回答, 比如, 你认为自己有多少词汇量, 你有扩大词汇量的方法吗?你如何扩大词汇量?你喜欢做词汇联想吗?你知道语块吗?你听到一个词即使你从未见过或学习过, 能根据发音把它拼写出来吗?你知道单词连读的规则吗?一个未认识的词, 你能根据你的词汇知识 (如前缀后缀词根) 和句法知识, 猜测它的大概意思吗?你学习一个单词时是否总是试图了解它的词性, 从而了解它的用法等等。通过学生的自测, 教师可以了解学生语言学习能力中的优点和存在的问题, 从而给予有针对性的指导。

4 结束语

大学生的语言能力应包括其语言学习能力和语言应用能力。我们应采取综合手段在教学过程中对学生的语言能力进行测试与评估, 应加强学生对其语言学习能力和语言应用能力的自测自评意识和能力, 促进其英语自主学习能力的发展。教师也应重视在语言教学过程中对学生语言能力进行测试与评估的重要性, 特别是其对教学的反拨作用, 以期更好的因材施教, 实现大学英语教学的目标:培养学生的英语综合应用能力, 特别是听说能力, 使他们在今后工作和社会交往中能用英语有效地进行口头和书面的信息交流, 同时增强其自主学习能力, 提高综合文化素养, 以适应我国社会发展和国际交流的需要。

参考文献

[1]Chomsky N.Aspects of the Theory of Syntax[M].Mass:MIT Press, 1965.

[2]韩宝成.语言测试:理论、实践与发展[J].外语教学与研究, 2000 (1) .

[3]Canale M M.Swain.Theoretical bases of communicative approaches to second language teaching and testing[J].Applied Linguistics, 1980 (1) :1-47.

[4]Bachman LF, Palmer A S.Language Testing in Practice[M].Oxford:Oxford University Press, 1996.

[5]韦保丞.语言测试与大学英语四六级考试改革[J].广西大学学报:哲学社会科学版, 2006 (S1) .

测试与评估篇9

复合绝缘子以其重量轻、憎水性好、不易损坏、抗污能力强、防腐能力强等众多优点在电力系统中得到了广泛应用。但是,由于复合绝缘子的结构和所使用的材料与普通绝缘子不同,如何对复合绝缘子的运行状况进行跟踪监测,成为了各电力运行单位亟需解决的问题。

1 复合绝缘子老化特性的测试方法

目前,针对复合绝缘子老化特性的研究,主要采用复合绝缘子采样的方法,即对运行后的复合绝缘子不同部位进行取样,采用憎水性测试、扫描电镜分析、红外光谱分析及热刺激电流测试等多种测试方法进行分析。但憎水性测试法与复合绝缘子的运行年限无法很好地对应,表面状态微结构分析(扫描电镜和红外光谱分析)不能方便地建立复合绝缘子运行年限的量化关系;而复合绝缘子的热刺激电流特性虽然可以较好地显示与复合绝缘子运行年限间的关系,但测试过程繁琐复杂,仪器设备费用高。除此之外,也有人提出采用核磁共振仪对不同年限的复合绝缘子进行采样试验,但是目前的这些研究仅停留在试验阶段,而且均为采样试验,试验之后的绝缘子不可能再投入使用,因此试验数据只能作为同类型绝缘子老化参考,对不同绝缘子不具有普遍适用性。国外也出现了一种利用核磁共振原理测量分子结构的产品,如美国和欧洲陆续开发出多种基于此设计思想的新型核磁共振仪器,但尚未将这种方式应用于绝缘子检测领域。

2 基于核磁共振原理的复合绝缘子老化程度测试方法

2.1 理论依据

硅橡胶复合绝缘子的主要成分聚二甲基硅氧烷,该分子以重复的Si-O键为主链,Si原子上直接连接有甲基、乙烯基等聚合物,分子中包含的主要化学键有Si-O键,Si-C键,C-H键等。而围绕Si-O主链紧密排列的非极性甲基基团向表面取向,屏蔽了硅氧键的强极性作用,使得硅橡胶表面呈现出优异的憎水性,起到了良好的绝缘作用。

受外界恶劣环境或者电晕放电影响,硅橡胶复合绝缘子发生老化,使得与主链Si原子相连的部分基团脱落,H原子数量减少,或者基团中H原子状态发生变化。核磁共振技术利用H原子核的磁共振特性,研究物质中H原子核的性质及其所处的环境,并分析其分子结构。因此采用核磁共振原理对硅橡胶复合绝缘子老化问题进行研究,可直接反映复合绝缘子中含H量或者H原子状态的变化,具有明显的效果。

2.2 核磁共振仪原理

核磁共振(Nuclear Magnetic Resonance,NMR)仪基本原理如图1所示。试验时被检测物体需置于高频超导磁铁的均匀磁场中心,因而要求物体足够小以适于磁场的大小,即采用样品采样的方式进行。该方式存在一定的缺陷,不适用于复合绝缘子的监测,更不能应用于在线监测领域。

通常,能被带到现场、直接在被检测物上进行检测的称为便携式核磁或内外核磁,其磁场、高频探头以及控制器都远小于试验室中的高频超导核磁,能方便地携带。基于这种方式,研发出一种单边核磁共振传感器,用于复合绝缘子的监测。

3 实施方案

传统核磁共振仪采用磁体系统环抱着样品,实现一个集中连片的球形或者椭球形灵敏体积,静磁场在整个灵敏体积内是高度均匀分布的方式。核磁共振磁在线监测仪拟抛弃目前广泛使用的核磁共振波谱仪器和医学磁共振成像系统典型结构,而采用如图2所示的结构。

图2中,传统的核磁共振磁体系统位于样品的一侧,能观测磁体系统附近样品表面或样品内一个局部区域的核磁共振信号,通过对样品表面弛豫时间的测量来研究老化、局部应变和交联密度等物理化学变化。

核磁共振磁在线监测仪的非均匀场MRI系统多采用单边永磁磁体结构,使得磁体的重量大大减轻,因此便于移动,成本也低;其成像区域在主磁体外一侧,具有完全的开放性,可实现对任意大物体的测量。

4 结束语

测试与评估篇10

2011年12月, 中国电信率先开启100G系统测试项目, 组织烽火、华为、中兴和上海贝尔4家供应商参加100G相关测试。近期100G测试已经进行过半, 测试进展顺利, 据记者了解, 中国电信对四家厂商, 按照先后顺序, 陆续进行设备测试, 去年12月, 烽火通信率先完成全部测试, 而后今年1月份, 华为亦测试完毕, 随后的2、3月份, 中国电信将依次对中兴、上海贝尔两家的100G设备进行系统测试, 测试结束后中国电信将会根据测试结果部署下一步的引入计划。

此前, 中国电信早在2010年也曾组织华为、康宁进行了一次100G的超长距WDM实验室测试, 成功完成3000km无电中继传输。而此次测试相比之前有所不同, 中国电信北京研究院全业务承载网研究室李俊杰告诉记者, 此次测试中, 各厂商都提供了单载波、100G相干系统, 而且此次测试的重点放在了设备评估层面。

中国与国际保持同步

李俊杰表示, 在100G技术方面, 中国与国际运营商保持在同一水平线上, 虽然此前已传出多个国外运营商建设100G实验网的消息, 然而规模较小, 大都处于实验网与现网应用之间的阶段, 并无大规模应用案例。对此, 烽火通信副总裁何建明更指出, 中国电信此次100G测试之前, 国内外一些厂商曾参加过国外运营商100G测试, 但其技术方案或采用双载波传输, 或采用非相干接收, 或沿用40G系统的硬判决FEC, 其传输性能较采用基于软判决纠错编码和数字相干接收的PM-QPSK技术方案存在较大差距, 预计与中国通信标准化协会《N×100Gbps DWDM系统技术要求》也有出入。

中国电信对于100G技术的研究较早, 之前已经进行了大量的技术评估, 引入100G系统, 技术上已无太大问题, 所以此次测试, 则将重心放在了设备评估, 李俊杰如是说。对于100G的相关标准也在正常进行当中, 国际层面, 三大标准组织IEEE、ITU-T和OIF仍在共同完善100G的相关标准, 各标准组织制定的标准各有侧重, 仍在磨合;国内在标准制定方面比较完善, 而且从一开始就致力于制定100G的系统标准, 李俊杰预计在年内有望完成100G的标准制定工作。

对于海外100G测试与中国电信此次100G测试的不同, 华为专家透露, 华为此次在中国电信测试和2011年做的50多个海外运营商测试采用的是同一套设备, 技术方面没有任何区别, 相比而言, 海外运营商测试更加关注设备的稳定性、易维护性和快速部署能力, 且大部分都是在现网直接测试;中国电信测试更关注100G端到端的整体情况, 虽然是实验室测试, 但配置波道较多, 是对设备商100G供应能力、系统可靠性、传送规格性能指标的又一次全方位的验证。

厂商设备性能各有偏重

中国电信此次测试的重点涉及多个方面, 何建明表示, 此次测试为中国电信集团针对100G WDM设备及系统的一次技术验证性测试。本次测试针对G.655光纤和G.652光纤分别在有无DCM补偿的情况下测试了极限跨段和可靠运行跨段等多套系统。主要测试项目包括:主光通道测试、光波长转换器测试、FEC性能测试、动态功率控制和增益均衡测试、OADM/RODM级联代价测试、传输功能和性能测试、网管系统功能验证等内容。

对于已经完成测试的两家设备商, 在设备性能方面也体现出了各自的优势。

烽火通信也凭借技术优势率先完成并通过全部测试项目, 主要亮点包括:采用SD-LDPC前向纠错编码算法, 以较小的实现复杂度和处理时延获得约11.5dB的编码增益, 逼近Shannon极限;100G无中继光传输距离超过1500公里;凭借优异的电域补偿算法消除了100G信号在线路光传输过程中的CD、PMD限制;保护倒换时间满足标准要求, 具有很强的ROADM级联穿透能力。

华为专家表示, 此次测试主要在系统性能、传输能力、系统稳定性方面, 华为是能够同时提供软判决FEC和硬判决FEC的相干单载波100G解决方案的设备供应商, 可以满足不同传输距离的应用需求。完成G652G655各种光纤类型、以及与40G混传等多种场景下超长距离传输;100G设备稳定可靠, 长期误码性能、保护倒换等均满足电信级要求。同时, 华为100G供应已经成熟, 此次测试中提供了20块以上的100G单板。

100G竞争白热化

从100G市场来看, 海外运营商动作较多, 如华为, 阿尔卡特朗讯、Ciena等厂商在海外运营商布局较早, 在市场占有率方面也体现出了前期优势。然而随着业内对100G市场的普遍看好, 主流的设备厂商在2011年陆续突破100G核心技术, 均可提供100G的成熟商用设备。Light Reading等咨询机构也预测, 2012年将是运营商现网部署100G的拐点, 新一轮竞争中, 鹿死谁手, 犹未可知。

在最近几个月内, 阿尔卡特朗讯已经宣布为多家运营商提供100G的系统设备, 始终保持着在100G市场中的先发优势;华为, 继2011年6月实现了首个相干100G在荷兰皇家电信KPN泛欧干线的商用之后, 相继突破众多全球顶级运营商如TDC, SFR, Rostelecom, Mobily, Oi等, 迄今为止, 已经获得超过15个100G商用项目, 据不完全统计, 约占全球100G市场三分之一的份额。华为专家表示, “100G并不仅仅是传送技术, 也涉及业务调度, 智能控制以及易维易用等方方面面, 华为不仅能提供超强传送能力的100G, 同时在业务灵活调度、系统智能控制和设备简单运维上也有着独特的优势”。

测试与评估篇11

当今的浏览器绝不仅仅是通向万维网的一扇窗口：浏览器开发人员已把该软件变成了本身就很复杂的应用平台。但是浏览器又与硬件平台不一样：确切地说，浏览器作为人们可以通过众多平台来访问的虚拟环境来运行。比如说，你可能在Windows、Mac OS、Linux和安卓等设备上装有谷歌的Chrome浏览器。

目前这一批Web浏览器：Chrome、火狐、Opera、Internet Explorer和Safari支持众多标准，包括超文本标记语言（HTML）的最新版本：HTML 5。HTML 5是HTML雄心勃勃的一种扩展，结合了众多功能和特性。不过该标准仍在变化之中，万维网联盟还没有最终敲定。HTML 5中的一些重要新功能包括：画布渲染、与可扩展向量图形（SVG）更紧密地集成以及视频和音频标记。这些新元素是为了让Web开发人员更容易呈现和管理多媒体内容而特别设计的。HTML 5目前缺乏处理3D图形的一项内置标准。

无论何时出现新的竞争平台，我们自然想比较一下性能。毕竟，用户想要最成熟、响应最迅即的环境来运行各自的应用程序，无论那些应用程序用于办公、娱乐还是教育。问题在于，Web应用程序本身也在不断变化之中，正如Web浏览器方面进行基准测试的情形那样。

本文不是要告诉诸位哪款浏览器的速度最快，或者什么硬件可能最适合那些浏览器——这在以后会有介绍。今天，主要介绍对浏览器进行基准测试的复杂性，关注基准测试方面的几个例子，并且帮助你明白说到这些新的虚拟平台，性能测试目前处于什么样的状况。看完本文后，你就知道如何对浏览器进行基准测试，并针对HTML 5应用程序对浏览器进行优化。

我们对什么进行基准测试？

性能测试有时充满了变数；就Web浏览器而言，情况来得更为复杂。问题的一方面在于，这个平台相对不大成熟：HTML 5毕竟仍是一项新出现的标准。因而，就算应用程序使用了这项标准，也只是使用了其中的一部分。另一个主要问题是，现有的基准测试如何进行：总的来说，它们测试的对象有点不一样，所以你需要运行几趟，才能清楚了解你的浏览器性能怎样。比如说，Futuremark的Peacekeeper浏览器基准测试自称主要是一种JavaScript基准测试，但是它在测试中充分使用了HTML 5画布和视频。

此外，同一种浏览器在不同的操作系统上可能表现不一样。比如说，苹果Safari的Mac OS版本运行起来要比Windows版本来得顺畅（这并不让人很惊讶）。

你在开始考虑基准测试时，先要问自己几个关键问题。选择哪种平台？你是想对浏览器性能进行基准测试，还是对硬件进行基准测试？你是在台式机系统、笔记本电脑、平板电脑还是手机上运行？所有这些问题将有助于确定你需要运行哪种类型的基准测试。我在这里着眼于台式机浏览器的性能，但要牢记一点：Chrome在配备节能GPU和ARM处理器的安卓平台上电脑运行，其性能会与它在配备独立GPU的台式机系统上不一样。

很棒的是，我们现在有办法在多个硬件平台上进行基准测试，尽管有些地方需要注意。由于Chrome和火狐可以在许多不同的操作系统上运行，你可以用它们在那些平台上测试性能。当然，编译和构建代码的方式会不一样；浏览器在某一种操作系统或硬件平台上运行，势必需要一些自定义代码，这可能会影响性能。但这是良好的第一步。

我会关注几种场景，它们都使用台式机浏览器。首先，我会分析三款浏览器在Windows 8消费者预览版下运行时的性能。我之所以选择Windows 8，主要是由于很想知道Internet Explorer 10的性能比IE 9有所提升的说法是不是属实。

访问Asteroids等HTML 5测试页面，评估你的浏览器处理HTML 5的能力有多好。

除了检查浏览器外，我还更换了显卡。第一轮测试时，我使用了AMD Radeon HD 6970；第二测试时，则使用了英伟达GTX 570。两者都是参考显卡，所以它们在默认时钟频率下运行。

最后，只是为了比较，我在一台相当典型的Windows 7笔记本电脑上进行了同样的基准测试。

基准测试

现在有大量的HTML 5和JavaScript性能测试：我选择了看起来很出色的三项测试。三者当中，只有Futuremark的Peacekeeper其工作方式类似旨在评估台式机性能的标准基准测试。Peacekeeper运行一系列测试，包括网页渲染、带WebGL的HTML 5、HTML 5画布和HTML 5视频等测试，它最后得出一项分数。

Futuremark的Peacekeeper测试一系列广泛的Web渲染功能，包括HTML 5的各项功能。

Asteroids（http://www.kevs3d.co.uk/dev/asteroidsbench/）看起来是3D测试，但实际上却是2D HTML 5画布渲染测试。插画很漂亮，它基于用HTML 5开发的实际游戏。与Peacekeeper一样，它也得出一项分数，但是还会得出平均帧速率数字。

第三项测试是Impact HTML5基准测试（http://html5-benchmark.com/）。该测试同样基于实际的HTML 5游戏；开发者在个人博客上承认，Impact“测试一种非常特定的使用场合：用HTML 5元素渲染的顺畅运行的游戏。”

HTML5基准测试运行横向卷轴射击游戏关卡，纯粹在使用HTML 5的这种类型的游戏中测试性能。

对浏览器进行基准测试

一个重要的说明是，就基准测试而言，你需要可靠的宽带连接。我说的不是原始带宽，而是可靠性。你在运行基准测试期间最不希望遇到的事就是，系统因DNS错误或其他某种网络问题而运行不畅。

与任何性能测试一样，你需要一套干净的系统。不过在这里，那与通常意义上的干净系统有点不一样：当然，在硬件基准测试中，你需要干净安装的操作系统；但是就Web浏览器测试而言，你还需要确保浏览器本身是干净的。这个过程需要清理浏览器的几个不同方面。

?卸载现有版本，重新安装一份。由于如今的浏览器可以自动更新，这一步并非完全必要，但重新开始仍是最佳做法。

?你在安装时，确保没有无意中安装额外的工具栏。有时候，浏览器在安装时携带各种作为选件的工具栏，如果浏览器不是来自官方来源，更是如此。你通常得选择不安装，确保安装程序没有把这些工具栏添加到浏览器。

?清除所有附件和插件。单单在选项设置中检查浏览器的插件页面不够好。如果你在Windows上运行，还应该看一下Windows添加/删除程序控制面板，因为一些浏览器附件需要像平常的应用程序那样来卸载。

?确认你的网络和显卡驱动程序版本最新。

?你在运行基准测试时，只让一个标签页开着（除非基准测试本身打开了额外的标签页）。这些测试大多数不运行严重拖累性能的Flash广告或后台动画，但是你其他标签页中的网站可能会运行。

Windows 8浏览器基准测试

在我进一步给出分数之前，先简要介绍一下我所用的Windows 8系统：

nlc202309040348

英特尔酷睿i7-3820，主频为3.6GHz

16GB DDR3-1333内存

技嘉X79-UD7主板

英特尔250GB固态硬盘

AMD Radeon HD 6970参考显卡，安装了Windows 8驱动程序

Windows 8消费者预览版

不妨看一下我使用前面提到的基准测试时得到的性能图表。

使用这些特定的基准测试发现，截至版本17，Chrome似乎比Windows 8消费者预览版自带的IE 10更快。区别相当大，但不是特别大。另一方面，火狐11在所有情况下都落后，表现相当差劲。

改变硬件

好了，现在我们了解了这三种不同的浏览器在Windows 8消费者预览版中有怎样不同的表现。如果我们改变一下硬件，又会出现什么样的情况？在这里，我拆下了Radeon HD 6970，换上了英伟达GTX 570显卡；这两种显卡价格大致相当。由于现代的Web浏览器现在都能发挥GPU的最大功效，我预计使用不同的图形硬件会带来一些差异。

如你所见，硬件的确给HTML 5基准测试在浏览器中的表现有多好带来了影响。据这一组测试显示，英伟达GTX 570看起来在许多浏览器应用环境中只比Radeon HD 6970快一点，在Chrome中更是如此。差异比我之前提到的那些差异要小，但是它们仍能帮助你了解哪款浏览器最适合在你的特定系统上运行HTML 5应用程序。

典型的Windows 7笔记本电脑

我还在Windows 7上评估了浏览器的性能，结果大不一样。我在一台很典型的现代笔记本电脑：惠普Envy 14 Spectre上运行了上述的同样测试。虽然这款笔记本电脑外观很出色，但是里面的部件很普通，包括英特尔酷睿i5处理器（1.6GHz基础频率，2.3GHz最高加速频率）、4GB DDR3内存和集成的英特尔HD Graphics 3000芯片组。下面是这三款不同浏览器上HTML 5性能的情况。

如你所见，平台方面的差异肯定会影响浏览器的性能结果。在我的测试中，在Windows 7中运行Peacekeeper测试时，微软Internet Explorer 9的性能差强人意，是在专门的游戏基准测试方面表现还过得去。在Windows 7中运行的火狐在Impact性能测试方面大有好转，但是仍落后其他浏览器。可能最让人惊讶的是，谷歌的Chrome在Windows 7中的HTML 5测试方面的表现相对来说完全不如在Windows 8中的表现。

该你上场了

与任何平台测试一样，你的结果与我的会不一样。各种浏览器或硬件平台上的性能会不一样，这取决于操作系统、底层硬件、插件及其他变化因素——有些因素会有相当大的影响。此外，浏览器也在以惊人的速度发展，所以今天的赢家明天有可能成为输家。

所以对这些测试结果不可全信，并且牢记一点：我只是在一种硬件上运行了一小批测试。你可以针对钟爱的浏览器试着运行这些基准测试，然后相应调整软硬件。你现已知道了如何进行合理的基准测试，所以很容易看到新硬件（如显卡）或新软件（如Windows 8）会起到多大的影响。

测试与评估篇12

1972年海姆斯(Hymes)提出了交际能力(communicative competence)学说，他认为交际能力是指“何时说，何时不说以及关于何时何地以何方式与何人说何内容”。相应地，以交际能力相关理论为基础的交际语言能力测试，其目的就是评估语言学习者在真实的语言情境中应用语言的能力。交际语言能力测试不仅考查学生的阅读、听力等输入性能力，更重视对语言学习者的写作、口语等产出性能力的评价。这就促使教师在英语教学中更加注重学生写作、口语能力的培养和提高。笔者认为教师在教学中可采用进步测试(progress achievement test)评估学生的英语写作能力。此测试方法能有效地激发学生的写作潜力，促进学生写作能力的提高。为确保进步测试对英语写作教学的良好反拨作用，教师在设计试题前应进行需求分析(need analysis)，在试题中提供清楚明晰有引导性的指示语言，此外还需持续记录统计学生在测试中的成绩，以便观察学生的进步程度。为使测试成绩可信度(reliability)更高，教师在评分时主要应把握两个原则。其一，不同错误类别给予不同的扣分标准。其二，测试评分应当以分析评分法为主。

二、进步测试与英语写作能力评估

测试专家把语言测试主要分为学业成就测试(achievement test)、水平测试(proficiency test)、编班测试(placement test)和诊断性测试(diagnostic test)，而进步测试(progress achievement test)则是学业成就测试的一种。进步测试是教学中使用最广泛的测试手段，它对于师生的教与学都同等重要。这种测试以本班授课计划为依据，被用来评估学生对课上所讲授内容的掌握程度。测试结果使教师更加熟悉每个学生的学习情况和整个班级的学业进展。富有成效的进步测试对教学有不可忽略的积极的反拨作用，它能激励学生发挥自身潜力，使之在学习中更加主动和充满自信。

通常我们都是通过试题中的命题作文项目来评价学生的写作能力，如学校期末考试和大学入学考试等英语学业成就测试，以及CET和TEM等英语水平测试都是如此。这种通行的测试手段当然有可取性，但其弊端也是显而易见的。首先，命题作文的内容效度(content validity)令人质疑。我们知道，判定试题是否具有内容效度的依据是看试题的内容范围是否具有足够的代表性，能否充分体现测试应该考查的相关语言能力和技能。以培养学生语言交际能力为目标的写作能力测试，不仅是测试学生的词汇语法等语言要素，更重要的是测试学生的语言组织能力、思维分析能力、驾驭各种语体的能力，以及得体运用语言，即语言的运用符合设想的角色、身份、关系、话题等的能力。很显然，这些命题作文项目无法体现对学生语言交际能力的全面考查。其次，命题作文要求学生在规定时间内完成规定字数的文章，这种限制增加了作文内容的不真实性和虚构性，影响学生发挥出其真正的潜在的写作能力。在这类测试中，学生往往处于一种应急状态，看到作文提纲后不假思索地提笔就写，一蹴而就，而且撰文时常常会使用他们最熟悉的词汇表达和句法结构，尽可能增加文章的篇幅，不管其内容是否最真实表达了他们的思想。

相比较而言，以进步测试来评估学生的写作能力的优势在于以下几个方面。第一，进步测试大都由任课教师负责组织，可以在课堂上某时间段内以最适合的方式进行。对教师而言，由于他们了解所授课的学生，熟悉教材和教学大纲，由他们来决定考查哪些写作技能，并设计测试项目以评估学生的英语书面交际能力，更有利于学生在测试中展示真实的英语写作能力。对学生而言，进步测试的测试时间相对充裕，测试项目让他们更有的放矢，在测试中他们敢于尝试运用所学写作技能答题，以期写作能力不断提高。第二，与学校组织的或大规模的学业成就测试和水平测试不同，在进步测试完毕后，教师会及时给出测试成绩，并提出相应的建议。学生再根据教师的建议，结合目前自身水平，制定下一阶段的学习目标和重点，这充分体现了进步测试对英语写作教学的有益的反拨作用。第三，以进步测试评估写作能力实际上可以看作是以测试的手段对学生进行写作能力训练。我认为，写作训练的关键在于让学生在训练中获得对于自身写作能力的信心。目前，令人担忧的情况是很多学生因为曾在一些写作测试项目中成绩不尽人意，对自身的写作能力缺乏信心，从而对写作教学和训练的积极作用持负面评价。而通过一次次的进步测试，学生的写作潜力和个人学习进展会被真实呈现并不断得到肯定和重视，他们会相信自身的写作能力并非永远停滞不前，只要将写作训练坚持下去，就会熟能生巧，最终达到令人满意的水平。

三、教师在进步测试中的主导作用

在采用进步测试时，通常是任课教师在组织测试、编制试题、总结测试等各个环节起主导作用。为确保进步测试能取得预期效果，使测试能真正对写作教学起到良好的反拨作用，教师要负责好以下方面的工作。

首先，在设计进步测试的写作项目前，教师有必要进行需求分析(need analysis)。通过综合考虑学生的具体专业、学习动机、学习期望、偏好的学习风格等因素，教师将确立每一阶段的写作训练目标，并以此为据设计写作测试项目。如对于商贸专业的学生，测试中会涉及商业信函、业务报表、调查报告等方面，而对于以出国深造为目标的学生，则会考查其学术论文写作能力。对于临近考试的学生，测试可适当偏向应试作文。而如果学生更期待教师以交际法教学，则写作试题中可包含更多的交际任务。

其次，在设计写作测试项目的指示语言时，教师有必要提供包含足够具体真实语境的信息，引导学生充分展示其写作能力。很多学生都曾经历这样的测试，命题作文给出的仅有的信息就是诸如the most unforgettable thing, my best friend, a good book which I have read recently这样空洞的标题。相反的，我们来看以下一篇书信写作的指示语言：You recently bought a computer from a reputable computer store.The store agreed to deliver the computer and set it up for you in your home but when it was delivered, the delivery man claimed that this was not part of his job.Write a letter to the manager of the store.In your letter, you say when you bought the computer and what the price included;you express dissatisfaction about what has occurred and you want to find out what they intend to do about it.这篇书信写作的指示语言给学生提供了具体真实的情景、需要扮演的角色、书信的对象和内容提纲，让学生有话可说。此外，当写作试题为难度较高的论说文时，教师在指示语言中可以问题形式提示学生，如：Which of the words in the task will help you develop your main ideas?How useful is the information in brackets?Are there any important issues that you think have bee left out of this question?这些问题能帮助学生抓住关键词和重要信息，进而引导学生提出切题的观点，围绕论点展开论述。

最后，教师要持续记录统计学生在进步测试中的成绩，以便观察学生的写作水平是否提高，提高的幅度，以及与写作课程教学目标的距离。教师掌握学生的写作水平，就能及时改进调整写作教学计划，取得更好的教学效果。同时也会引导学生在写作训练中积极发挥主观能动性，结合自身写作水平开展有针对性的练习。

四、进步测试的评分原则

必须指出，写作测试评分的主观性常常会影响测试分数的可信度(reliability)。为提高进步测试评分的可信度，教师评分需遵循以下原则。

第一，要区别对待写作测试中的各种错误，不同错误类别给予不同的扣分标准。比方说，有些错误是因学生未能掌握教师当前所授内容，还有一些是因以前所学未掌握好。再者，有些语言结构的错误会导致对整个句子或段落，甚至整篇文章的误读，而另外一些虽然会引起读者一时的误解，但根据上下文的线索，最终不会影响对文章的整体把握。在对这些错误评估和扣分时，教师应当更重视前者而适当忽略后者。最重要的是，教师评分时要把语言的交际功能放在首位，鼓励学生在写作训练中发展培养书面语言交际能力，而不是一味苛求学生在词汇和语法使用上的正确率。

第二，测试评分应当以分析评分法为主。整体评分法和分析评分法是教师常用的两种评分方式。整体评分法的缺点在于容易出现因阅卷员不同或其他干扰因素影响测试结果的可信度。在大规模测试中，通常会组织多人多次评分以克服这一缺点。进步测试是主要由任课教师负责的随堂考试，因此更为实际和有效的做法是对学生的写作能力进行分项评分，以分散由教师主观判断产生的错误风险，来确保评分的可信度。而且，进步测试的设计是以将学期或学年教学目标细化的一系列短期教学目标为依据，每次测试会侧重评估学生是否掌握近期教学所授的某项或某些写作技能，因此用分析评分法更为合适。此外，分析评分使教师注意到整体打分时可能会忽略的某些方面，学生的测试成绩更加全面地反映了其写作水平，尤其是当学生的各项写作技能发展不平衡的时候。

五、结语

进步测试归根结底是一种教学手段，在英语教学各方面可广泛应用。在英语写作教学中，教师采用进步测试，其目的是全面真实评估学生的写作能力，而最终目标是培养和提高学生的英语书面交际能力。为真正达到这一目标，教师不仅要把握好以上阐述的诸多方面，更重要的是在选择试题材料，决定试题类型和编制试题内容等方面多下功夫。

参考文献

[1]Spratt, Mary.Washback and the Classroom:The Implica-tions for Teaching and Learning of Studies of Washback from Ex-ams.Language Teaching Research, 2005, (1) :5-29.

[2]Jakeman, Vanessa, Mcdowell, Clare.剑桥雅思考试题型透析2.北京:外语教学与研究出版社, 2004.

[3]Hughes, Arthur.外语教师测试手册.北京:外语教学与研究出版社, 2000.

[4]Heaton, J.B.英语测试 (New Edition) .北京:外语教学与研究出版社, 2000.

[5]张晓菲.大学生英语书面交际能力测试分析.柳州职业技术学院学报, 2009, (1) :147-151.

【测试与评估】推荐阅读：

测试与评估系统05-24

汉语教学测试与评估10-16

测试评估系统11-08

模拟测试评估表05-24

100测评网[语文版]七年级语文下册第一单元测试与评估07-13

纳税评估测试题01-20

九年级上期期中测试评估10-01