通用测评系统

2024-07-27

通用测评系统（共4篇）

通用测评系统篇1

0 引言

传统的测评存在很多弊端, 已经不符合信息时代的发展需求[1], 而运用软件测评反应价值深受社会各界的欢迎。当前, 软件测评技术在国外已经很成熟, 我国在这方面主要以客观题为主让被测者在多个选项中进行选择, 系统只是获得成绩而没有对数据进行分析[2]。在测评系统中制定标准和指标对下级进行考核, 对上级和下级都具有积极意义。因此, 在信息时代的大环境下, 拥有一套安全、可靠、稳定的测评管理系统十分必要。基于此, 研究设计了一套相对完善的测评管理系统, 以适应当前各种主流评价。

1 系统总体设计

1.1 系统简介

通用测评系统是通过特定的标准和指标体系对测评对象进行测评的程序。系统可进行分级测评, 涵盖自评、现场评价和终评。根据权限设定2级或者3级管理评价模式, 根据被测评对象性质, 可以设定特定的评价体系, 评价时自动选择标准进行测评。

1.2 系统体系结构

通用测评系统体系结构如图1所示[3]。系统基于Java EE平台, 采用B/S架构, 通过HTTP协议实现客户端与服务器端的通信。客户层采用了JQuery、EasyUI等Ajax组件提供用于创建跨浏览器网页的完整解决方案, 表示层和业务层采用JSP+Servlet+javaBean技术使业务逻辑变得更加清晰和安全。数据库层采用MySQL5.0, 由它对数据库进行统一的管理和控制, 以保证数据库的安全性和完整性, 如图1所示。

1.3 系统功能模块分析

通用测评系统功能模块如图2所示。系统有4个模块, 即基本信息模块、资讯及建言献策模块、评价管理模块和系统管理模块。基本信息模块包括单位信息查看与修改、账号基本信息查看、密码修改、操作日志查看和系统安全退出功能。资讯及建言献策模块包括资讯分类管理、资讯管理、留言管理等功能。评价管理模块是本测评系统的核心模块, 包括评价计划管理、评价、评价结果等功能。其中, 评价计划管理主要用于每次评测计划的制定, 设定评价的起止时间;评价包括自评、现场评和终评, 用户根据不同权限, 登录后进行评价;用户查看评价后的结果, 包括查看结果详细表、各类统计表、红黑榜、等级分布图、平均分图。测评过程是3级用户在测评计划起止时间内进行自评, 然后由1级用户对所辖下级进行现场评, 最后由0级用户完成最后的终评, 现场评和终评都有一票否决的功能。系统管理模块包括单位管理、账号管理和系统日志功能。其中, 单位管理主要用于对单位的添加和查询各单位用户。账号管理主要用于对下级账号的添加和检索。系统日志主要记录用户的操作动态, 用户可以在此查询操作记录是否和本人操作时间相符, 系统功能模块如图2所示[4]。

1.4 系统数据库设计

1.4.1 系统E-R图

通过对测评系统的需求分析, 得出了21个实体, E-R图如图3所示。

1.4.2 数据库设计

根据E-R图分析, 本测评系统数据库共有22个表, 主要有机构类型表、单位表、用户表、评价计划表、问卷表、指标表、问卷客观题数据表、评价结果得分表、资讯表、日志等, 下面给出问卷题目客观题数据表和评价结果得分表, 如表1、表2所示, 其它表结构略。

2 系统实现

2.1 导入题目实现

导入题库功能是在后台导入按照给定模板编辑好的测评题目xls文件, 供测评使用。导入功能的实现主要利用了commons-fileupload-1.2.1.jar包和jxl.jar包, 它们的作用分别是上传xls文件和读取xls文件内容。首先客户端将文件流上传到服务器, 经过业务层判断是否为一个可用的xls文件, 然后在文件流中读取各评价指标, 将其按一级指标、二级指标、工作内容、分值、选项1、选项2、选项3依次写入数据库。导入XLS的实现代码如程序1所示。

程序1:

2.2 评价功能实现

评价的实现根据不同类型的单位自动识别、自动选择考核标准, 用户登录系统进行评价时系统将根据用户的类型从题库中抽取与之身份相同的问卷。提交问卷时, 采用批量处理, 将所有题目结果一次提交, 代码见程序2。

程序2:

2.3 评价结果分布图实现

获得测评数据后应对测评数据进行分析, 纯粹的数据很难解读, 分析者很难看出其中的规律, 这就不能体现数据的价值。而通过图表显示数据, 可以使复杂、抽象的数据变得生动形象、简洁明了, 提高了数据的解读能力, 寻找和揭示了隐藏在数据中的问题[5]。评价结果分布图的实现采用了百度的“echarts”图表框架。评价进度图使用了“echarts”中的标准条形图, 在其提供的接口上提供统计数据, 然后生成Json数据进行处理, 最终生成评价进度图。评价完成比例图、评价结果分布图分别使用了“echarts”中的标准环形图和标准饼图, 生成自主进度图、现场评价进度图、终评图, 其精度保留两位。而评价结果等级分布图是从最终结果中依次计算先进等级、一般等级、后进等级和一票否决的百分比, 其精度也是保留两位。评价结果等级分布图效果见图4。

3 系统测试

在测试中, 创建了144个单位, 一共进行了3轮测试, 每次都对这些3级账号逐一登陆进行功能测试, 完全模仿系统投入使用的场景进行测试。测试包括添加删除账号、自评、现场评、终评、发布新闻、建言献策及回复等功能, 累计人工登陆账号次数达1300多次, 各项功能使用正常, 达到了需求分析时的设计要求。

4 结语

基于Java EE的通用测评系统, 相比传统测评系统有更丰富的功能模块, 根据不同用户提供不同的考核标准和指标保证了测评的客观公平性, 客观自评和主观自评功能保证了测评的灵活性;多级审核保证了测评的严谨与公平, 主页资讯显示有门户网站功能, 一站两用, 实用性强。

参考文献

[1]谢发忠, 杨彩霞, 马修水.创新人才培养与高校课程考试改革[J].合肥工业大学学报:社会科学版, 2010 (2) :21-24.

[2]周菁婧.人才测评系统在电子商务时代的革新与创新[J].中国电子商务, 2012 (18) :32-34.

[3]吴运明, 赵秀玲.网络考试测评系统的研究现状与发展趋势[J].软件导刊, 2010 (10) :99-100.

[4]佟天明.B/S结构的360度绩效测评系统设计与实现[J].办公自动化:综合月刊, 2012 (2) :25-27.

[5]王卫华, 王长杰.基于B/S模式的多层网络体系结构设计[J].齐齐哈尔工程学院学报, 2013 (3) :19-21.

信息系统等级保护测评篇2

关键词：信息系统,等级测评,安全

随着互联网技术的快速发展,信息技术已在我国的各个领域里得到了广泛的应用,基础信息网络和重要信息系统已成为国家和社会的关键基础设施。由此也引发了一系列的信息安全问题:敌对势力的入侵、攻击、破坏;针对基础信息网络和重要信息系统的违法犯罪的持续上升;基础信息网络和重要信息系统存在的安全隐患等。为此,国家于1994年颁布了《中华人民共和国计算机信息系统安全保护条例》(国务院令第147号),明确的将等级保护制度提升为国家信息安全保障工作的基本制度、基本国策。并后续颁布了一系列的辅助政策标准[1,2,3,4],再次提升了开展等级保护的重要性,推动了等级保护测评[5,6]工作的发展。

1 信息安全等级保护

1.1 保护内容

信息安全等级保护将全国的信息系统按照重要性和遭到破坏后的危害性分为5个安全保护等级[2],第一级:自主保护级;第二级:指导保护级;第三级:监督保护级;第四级:强制保护级;第五级:专控保护级。

信息安全等级保护工作主要分为5个环节:信息系统定级、备案、安全建设整改、等级测评[3]、监督检查。其中定级和备案是信息安全等级保护的首要环节。安全建设整改是信息安全等级保护工作落实的关键。等级测评工作的主体是第三方测评机构,监督检查工作的主体是信息安全职能管理部门,通过定期的监督、检查和指导,保障重要信息安全保护能力不断提高。

1.2 必要性和紧迫性

来自境内外敌对势力的入侵、攻击、破坏越来越严重,针对基础信息网络和重要信息系统的违法犯罪持续上升,是国家推行等级保护制度的重要原因。国家基础信息网络和重要信息系统安全隐患严重,由于各基础信息网络和重要信息系统的核心设备、技术和高端服务主要依赖国外进口,短时期无法实现自主可控。另外我国的信息安全保障工作基础还很薄弱,监管缺乏标准规范,许多部门安全管理制度和技术防范措施不落实等。

1.3 等级保护制度

等级保护制度是发达国家保护关键信息的基础设施,在借鉴国外经验的基础上,结合我们的国情,并根据多年来信息安全工作经验的总结,在我国需要强制执行等级保护制度。

2 安全等级测评

等级测评是信息安全等级保护实施中的一个重要环节。等级测评是指具有相关资质的、独立的第三方测评服务机构,对信息系统的等级保护落实情况与信息安全等级保护相关标准要求之间的符合程度的测试判定。

2.1 等级测评的目的

《信息安全等级保护管理办法》的规定,信息系统按照《信息系统安全等级保护基本要求》等技术标准建设完成后,由相应的符合条件的测评机构,定期对信息系统安全等级状况开展等级测评。通过测评,一是可以掌握信息系统的安全状况、排查系统安全隐患和薄弱环节、明确信息系统安全建设整改需求;二是衡量信息系统的安全保护管理措施和技术措施是否符合等级保护基本要求,是否具备了相应的安全保护能力。等级测评结果也是安全机关等安全监管部门进行监督、检查、指导的参照。

2.2 等级测评内容

等级测评的基本内容是对信息系统安全等级保护状况进行测试评估,主要包括两个方面:一是安全控制测评,主要测评信息安全等级保护要求的基本安全控制在信息系统中的实施配置情况;二是系统整体测评,主要测评分析信息系统的整体安全性。其中,安全控制测评是信息系统整体安全测评的基础。

安全控制测评是使用工作单元方式来组织测评的。工作单元分为安全技术测评和安全管理测评两大类。安全技术测评包括:物理安全、网络安全、主机系统安全、应用安全和数据安全等5个层面上的安全控制测评;安全管理测评包括:安全管理机构、安全管理制度、人员安全管理、系统建设管理和系统运维管理等5个方面的安全控制测评。

2.3 等级测评工作流程

等级测评过程可以分为4个活动:测评准备、方案编制、现场测评以及分析与报告编制,如图1所示等级测评基本工作流程[4]。

2.3.1 系统信息收集

本阶段是开展现场测评工作的前提和基础,是整个等级测评过程有效性的保证。其信息的收集包括物理环境信息、网络信息、主机信息、应用信息和管理信息等。

(1)物理环境信息收集,包括机房数量、每个机房中部署的信息系统、机房物理位置、办公环境等。

(2)系统网络信息收集,包括网络拓扑图、网络结构情况、系统外联情况、网络设备情况和安全设备情况等。

(3)主机信息收集,包括服务器设备情况和终端设备情况等。

(4)应用信息收集,包括系统情况和业务数据情况等。

(5)管理信息收集,包括管理机构的设置情况、人员职责的分配情况、各类管理制度的名称、各类设计方案的名称等。

2.3.2 编制测评方案

编制好测评方案对测评工作来说是相当重要的,一方面测评方案是测评人员进行内部工作交流、明确工作任务的指南;另一方面,测评方案给出具体的现场测评工作思路、方式、方法和具体测评对象及内容,为现场测评的顺利完成打下基础。此外,通过测评方案,可以和被测系统运营使用单位进行充分的交流,让被测系统运营使用单位理解并支持现场测评工作,并依据测评方案做好充分的准备。因此,可以说测评方案的好坏在很大程度上决定着一次测评工作能否顺利完成。

2.3.3 现场测评

现场测评阶段是开展等级测评工作的关键阶段,其活动全部在被测系统现场完成,在被测评系统运营使用单位的人员参与下,测评人员按照测评方案的总体要求,严格执行作业指导书,分布实施所有测评项目,通过查看、获取以及详细、准确、规范记录测评数据,并保留电子证书,为后期的结果分析和报告编制准备充足、详实的资料证据。

2.3.4 分析与报告编制

分析和报告编制是等级测评工作的最后环节,是对被测方系统整体安全保护能力的综合评价过程,其过程是根据现场测评结果和《测评准则》的有关要求,通过单项测评结论判定和系统整体测评分析等方法,分析整个系统的安全保护现状与相应等级的保护要求之间的差距,最终编制测评报告。

2.4 测评方法

在等级测评过程中主要采用访谈、检查、测试等方法进行工作的开展。

(1)访谈,是测评人员通过与信息系统相关人员进行交流和讨论的活动,以此来获取被测系统的部分信息。

(2)检查,是测评人员通过对测评对象进行观测、分析等活动,获取更有力的证据以证明信息系统安全等级保护措施是否完善和生效。

(3)测试,是测评人员通过对测评对象按照预定的方法和工具来进行测试,通过查看和分析输出的结果,获取证据以证明信息系统安全等级保护措施是否完善和有效,其主要方法有功能测试、渗透测试和系统漏洞扫描等。

3 系统整体测评

系统整体测评涉及到信息系统的整体拓扑、局部结构,也关系到信息系统的具体安全功能实现和安全控制配置,与特定信息系统的实际情况紧密相关,内容复杂且充满系统个性。因此,测评人员应根据特定信息系统的具体情况,结合标准要求,确定系统整体测评的具体内容,在安全控制测评的基础上,重点考虑安全控制间、层面间以及区域间的相互关联关系,测评安全控制间、层面间和区域间是否存在安全功能上的增强、补充和削弱作用以及信息系统整体结构安全性、不同信息系统之间整体安全性等。

4 结语

近几年,国家针对信息系统安全等级保护先后颁布了多条法律法规,并明确提出了2012年底前完成所有第三级信息系统的测评工作,强制推动整个国家信息安全保障体系的发展,推动了等级保护测评工作的开展进程,为全面推动我国的国民经济和信息化进程提供了重要保障。

参考文献

[1]GB/T22239-2008.信息系统安全等级保护基本要求[S].

[2]GB17859-1999.计算机信息系统安全保护等级划分准则[S].

[3]GB/T22239-2008.信息系统安全等级保护测评过程指南[S].

[4]公安部信息安全等级保护评估中心.信息安全等级保护政策培训教程[M].北京:电子工业出版社,2010.

[5]崔玉华.对“信息安全等级保护”的探讨[J].信息安全网络,2005,(2).

网络测评系统的设计和实现篇3

1 需求分析

1.1 用户概述

某大学是一所拥有21个学院,近3000名教职员工的省属综合性大学,为了加强处级领导班子的建设和对处级领导干部的管理,学校每年都要对处级领导班子和个人进行综合考评。由于学校职工人数较多且地域范围较广,要组织好一年一度的考评工作很不容易。尽管如此,学校还是很重视处级领导班子和领导干部的考评工作,并为此专门成立了考核工作领导小组和考核工作办公室。

1.2 项目目标

本项目目标是要尽量减少考评工作的复杂性,提高考评工作的效率和准确性,为学校加强处级领导班子建设和处级干部管理工作服务。最终目标是开发出一个符合用户需求、界面友好、功能完备的年度干部考评辅助系统。

1.3 系统描述

现有系统采用纯人工方式对干部进行考评,考评内容分为目标考核和民主测评,其中民主测评又分为群众测评、干部互评和领导测评3种形式。考评的基本原则是客观公正、群众公认、定性与定量相结合。

1.4 目标系统的边界

尽管考评工作包括目标考核和民主测评两部分内容,但其重点和难点主要集中在于民主测评部分(偏主观),目标考核部分(偏客观)相对来说要容易得多。基于此,决定目标考核部分的工作由人工完成,民主测评部分的工作用计算机辅助来完成。民主测评部分的主要操作流程如图1所示。

由于测评对象述职过程难以用计算机模拟和实现,因此目标系统的功能只限于民主投票、统计数据和查询结果3个方面。

1.5 目标系统的需求

测评系统需要在客观、公正、准确的基础上,大大减轻测评工作的复杂性,极大地提高测评工作的效率。具体地说,要求测评系统能够快速、准确地记录和统计测评数据,能够按照要求计算、保存各个测评对象的最终测评得分,并提供较为方便的查询功能。要求系统能够保证参评人员的合法性、匿名性、唯一性,不允许出现重复参加测评。要求系统能够保证测评数据的保密性和安全性,不允许非法访问和修改测评数据。最后,要求系统的开发和使用成本较低,对用户端的软硬件配置没有特殊要求,而且具有良好的人机界面,以方便各种类型的参评人员使用。

2 概要设计

2.1 技术方案

考虑到具体用户的复杂性和软件部署的方便性,这里选择基于B/S(浏览器/服务器)架构的Web实现方案。用户在客户端不需要安装任何软件,用操作系统自带的浏览器即可完成所有操作。从使用成本和实用性方面考虑,选择用Windows+Apache+My SQL+PHP来实现,即WAMP方案。

用户和系统的交互过程及系统的3层结构,如图2所示。

2.2 系统的总体结构

整个系统分为两个子系统,即测评子系统和管理子系统。其中测评子系统负责实现所有的测评业务功能,包括处级领导个人测评和班子测评,管理子系统负责实现特殊用户的查询功能和管理员的管理维护功能。系统与两个子系统的接口,分别用系统首页中的测评登录窗口和管理登录窗口来实现。

2.3 测评流程图

如图3所示。

2.4 数据库概念模型

系统内主要有10类实体,分别是普通群众、处级领导干部、处级领导班子、校级领导、系统管理员、处级领导干部测评票数、处级领导干部测评结果、处级领导班子测评票数、处级领导班子测评结果和系统参数,其中普通群众、处级领导干部和校级领导都属于在职职工,具有大致相同的属性。

系统的实体联系模型如图4所示。

处级领导班子与各个实体的联系与图5类似。

管理员与各实体的联系如图6所示。

2.5 数据表设计

对于Web应用来说,数据库的支持是必不可少的,因为前台的动态网页必须要有后台的数据库支持才能完成。由于普通群众、处级领导干部和校级领导具有相似的属性(都属于在职职工),可以把这3个实体合并用一个数据表。测评系统的数据库总共考虑设置以下数据表,如表1所示。

3 详细设计

3.1 模块实现设计

登录模块:测评登录过程为:用户提交登录信息-验证职工身份-判断是否已经测评-根据用户类型决定测评形式。管理登录过程为:用户提交登录信息-验证管理员身份-根据管理员类型决定操作权限。

干部测评模块:测评内容包括:(1)思想政治素质和道德品质;(2)工作能力、业绩和廉政作风;(3)一票否决。第一项测评内容分为优秀、称职、基本称职、不称职4个级别,第二项测评内容分为好、较好、一般、差4个级别,一票否决分为两种情况:违犯计生政策、党风廉政建设;受到党纪、政纪处分。

班子测评模块:测评内容包括:政令执行情况、思想政治工作、基层党建工作、工作管理情况和班子自身建设5个方面,每个方面的测评都分为优秀、合格、基本合格、不合格四个等级。两个测评模块都采取“取测评对象-进行测评-保存测评数据-取下一个测评对象”的方法来实现。测评结束后,清理用户信息以保证测评的匿名性,同时为用户打上已测评标记,以防出现重复测评。

系统管理模块:系统管理员可以在任何时候登录系统,登录以后可以进行测评数据汇总、结果查询、帐号管理、目标考核数据录入、打开关闭系统、设置系统参数、更改测评标志等操作。校级领导可以在测评结束以后登录查询测评结果。

3.2 数据库逻辑结构设计

将数据库的概念模型转换为关系模型,可得到二维的表结构。下面是几个有代表性的数据表结构,如表2~表6所示。

表2的主键为职工编号,外键为职工姓名和所属部门。

表3的主键为处级领导班子名称(部门名称)。

表4的主键为领导班子名称(部门名称)。

表5的主键为领导干部编号,外键为领导干部姓名和所属部门。

表6的主键为干部编号,外键为干部姓名。

3.3 数据库物理结构设计

系统使用的是一个小型数据库,存取方法采用最常用的索引法,简单地为数据表的主键和外键建立索引即可。由于系统的所有数据都存放在磁盘上,出于安全方面考虑,可以考虑使用廉价的磁盘阵列。为了加快磁盘的存取速度,表和索引可以存放在不同的磁盘上。由于数据库的查询操作和修改操作频率高而插入操作和删除操作频率低,故数据的存储结构选择顺序表为宜。本测评系统所选用的数据库管理系统是My SQL,为了便于处理,各数据表中除名称字段和密码字段为char类型、测评结果字段为float类型以外,其余字段全部设置为int类型。

领导干部群众测评表的物理结构如图7所示。

领导班子测评结果表的物理结构如图8所示。

4 编码实现

在详细设计里面已经把系统分为用户登录模块、干部测评模块、班子测评模块和系统管理模块,下面说一下具体编码的实现。首先是工具软件,开发平台是App Serv 2.6.0 for Windows,包含Apache Web Server 2.2.8、PHP Script Language6.0.0-dev、My SQL Database 6.0.4-alpha和php My Admin Database Manager 2.10.3 4个组件。其他工具还有Dreamweaver CS3(用于设计、制作程序界面)和Notepad++(用于编辑修改程序代码)。

相对来说,编码实现的难点主要有登录时的身份认证、测评过程的实现、测评数据汇总和帐号管理,其中最关键的是测评过程的实现。程序中采用的方法是:首先从数据库中选取需要测评的一类对象,然后用mysql_result()函数依次从中取出一个对象进行测评,并且调用自定义函数对用户提交的测评数据进行保存。当这一组对象全部测评完毕以后,用windows.header()函数跳转到另外一个页面进行下一个测评步骤。由于数据表里是直接用INT类型的字段记录测评数据,因此很容易进行数据累加和汇总操作。为了保证事务处理的原子性,系统在操作数据库出错的时候适当使用了回滚技术。

对测评系统(包括网络投票系统)而言,防止用户使用浏览器的后退按钮和刷新按钮进行提交是一个很重要的问题。本系统使用页面中转技术来防止用户刷新页面,并通过比较用户的记录顺序号来防止用户退回到以前的页面重复提交数据。为了防止用户测评结束以后重复登录进行再次测评,系统在数据库里为每个用户设置了一个测评标记,当用户登录的时候要检查测评标记,当用户测评结束以后就修改测评标记。也许这些都不是最好的方法,但经过测试效果还算可以。

下面是程序的核心代码片段:

5 结语

完成了对网络测评系统的需求分析、概要设计、详细设计和编码实现(包括数据库概念结构设计、逻辑结构设计和物理结构设计),基本含盖了软件开发的全过程。通过这个项目的开发实践,既加深了自己对软件工程的进一步认识,也积累了一点开发数据库程序的经验。

摘要：采用WAMP方案设计了一个B/S架构的网络测评系统,在此涉及软件开发的需求分析、概要设计和详细设计过程,对学习数据库开发具有一定的参考价值。

关键词：数据库,网络测评,年度考核,MySQL,PHP

参考文献

[1]王石,杨英娜.精通PHP+MySQL应用开发.北京:人民邮电出版社,2006.

[2]施伯乐,丁宝康,汪卫.数据库系统教程.第2版,北京:高等教育出版社,2003.

基于网络环境的绩效测评系统篇4

1 绩效简介

绩效 (Performance) 是指人们在一定时间和条件下完成某一任务时所取得的工作业绩、效果和效益。其表现形式多种多样, 主要体现在工作效率、工作成果的质量和数量、工作效益三个方面。一个人的工作绩效可以在很大程度上反映其自身的各项素质, 它是个人素质与工作环境相互作用的结果。

学习绩效是指学习者在一定时间和条件下完成某一任务时所取得的学习业绩、效果和效益。其表现形式多种多样, 主要体现在学习效率、学习成果的质量和数量、效益三个方面。一个人的学习绩效可以在很大程度上反映其自身的各项素质, 它是个人素质与环境相互作用的结果。

绩效测评主要是在项目反应理论 (I R T) 的指导下, 对测评的对象、内容、方式进行分析, 设计网络环境下学习绩效的测评系统。采用网络环境绩效的测评系统进行学习, 注重发挥学习者的积极主动性, 以学生为中心, 提高学生学习兴趣和学习动机, 促进学生主动完成知识和技能的学习。

随着网络教育的迅速发展, 基于Internet的远程测评系统已成为当前计算机教育应用研究的热点。非教育环境中的绩效管理理论如何有机地嫁接到教育教学之中一直是个有争议的课题, 如何把企业管理理论中的绩效管理理论有机嫁接到学习绩效测评之中将是一个重要的研究内容。

2 绩效测评的理论基础——项目反应理论

项目反应理论 (IRT Iterm Response Theory) 是针对经典测量理论的局限性提出来的, 它的质量指标-项目参数的估计值与样本选择无关;对被试能力水平的估计值与测试试题无关;同时能给出能力或知识水平估计值的精度。在IRT研究过程中, 人们提出了多种项目反应模型, 这些模型主要分为两大类:静态模型与动态模型。静态模型描述被试某时刻的素质、能力水平 (不随时间变化) ;动态模型则用来描述被试的内在素质、能力水平随时间变化的情况。目前比较成熟的是静态模型。静态模型还可以根据测试能力的维度分为单维、多维, 根据测验的评分方式分为二值记分和多值记分 (二值记分是指用1表示答对, 用0表示答错) , 以及根据项目特性曲线的形状分为正态卵型和逻辑斯蒂型等多种。目前应用较广的是单维逻辑斯蒂模型。

逻辑斯蒂型是由伯恩鲍姆于1957年提出的, 他所假设的项目特性曲线如图1所示。

如上所述, 项目特性曲线描述的是被试测验得分与被试内在素质、能力水平之间的关系。在图中具有不同能力水平的各个被试用Q表示;被试关于项目j (即第j题) 的测验得分用“正答概率”Pj (Q) 表示。一定能力水平的被试对某一测验项目的正答概率只与该项目 (即试题) 的质量有关。由图1可见, 所假设的项目特性曲线形状是以拐点为对称中心的S形。曲线下部的渐近线离坐标原点有一定的距离Cj, 这是由于存在猜测因素, 即使能力素质很低的被试仍有可能答对该项目, 因此距离Cj即可定义为项目j的“猜测参数”。由图1还可看到, 拐点在纵轴上的投影落在Cj与1之间的中点 (1+Cj) /2上, 这表明对于能力素质水平为b (拐点在横轴上的投影) 的被试来说, 若不考虑猜测因素, 则答对与答错项目的概率恰好相等, 即对于能力素质水平为b的被试来说, 所回答的项目有适当的难度 (不太容易也不太难) , 所以通常就把b定义为该项目的“难度参数”。此外, 曲线越陡峭, 正答概率Pj (Q) 随能力Q的变化就越敏感, 该项目区分被试的能力就越强。而曲线的陡峭程度是由拐点处的斜率决定的, 因此我们就可以将曲线在拐点处的斜率定义为该项目的“区分度参数”, 并用a表示。

由以上分析可见, 项目特性曲线所描述的实际上是, 被试的正答概率Pj (Q) 与项目质量数a、b、c以及被试的能力素质水平Q之间的数值关系。伯恩鲍姆为了较好地描述这种数值关系, 选择了“逻辑斯蒂拱形函数”, 这就是逻辑斯蒂模型的由来。包含三个质量参数的逻辑斯蒂模型的数学表达公式为:

在逻辑斯蒂模型中, 对项目参数的估计可以和能力素质的估计完全分开。这就是说, 只要测验项目符合该模型, 对于被试能力素质的估计就独立于所使用的测验项目 (即与施测所用试题无关) ;反之, 只要被试符合该模型, 对项目参数的估计就独立于被试样本的能力素质分布 (即与被试样本的选择无关) 。

3 绩效测评系统模型的参数估计

在单维型假设的前提下, 任何项目反应模型都可以统一描述成Pj (Q) =F (Q, a, b, c, ) 的形式。其中包含两类参数, 一类是被试的能力参数;另一类是项目的质量参数, 用a、b、c、标识, 分别称为区分度参数、难度参数和猜测参数, 这些参数值都不能由直接测量得到, 而必须通过被试的反应数据进行估计来求出。对于项目反应模型中参数的估计, 通常采用的是极大似然估计法。

设有一批实测数据, 这些数据是用m道试题组成的试卷对n名被试进行测验而行到的。该测验采用二值评分, 所有被试在m个测验项目上的得分构成一个“二值得分矩阵” (项目反应矩阵) 。在极大似然估计中, 似然函数的一般形式为:

式中, U为n×m的项目反应矩阵, 其元素为Uji, 用于似然函数估计可表示为:

Pji为被试i答对项目j的概率;

Qji为被试i答错项目j的概率。

由于该式是一连乘式, 不便于计算, 若对该式取自然对数可以使运算简化, 而对后面求极大值来说又没有影响, 这样我们就得到对数型式的似然函数:

这是三参数逻辑斯蒂模型似然函数, 适用于最一般的情况。单参数和双参数逻辑斯蒂模型的似然函数可作为它的特例。

在进行参数估计时, 应寻找能使似然函数达到最大值的那个参数值。因此, 只要求出lnL对于个各参数的一阶偏导数并令其等于零, 即可达到目的。换句话说, 对于三参数模型只须列出下面的方程组, 就可以求出被试能力参数和项目质量参数的估计值:

由于有n个被试和m个项目, 每个项目有3个参数, 所以从理论上说, 上述方程组共包含n×3个方程, 这些都是非线性的, 应当用数值计算方法求解 (例如可用Newton-Raphsontdp迭代法) 。

在实际测量工作中, 对两类参数 (能力参数和质量参数) 的估计可按如下述过程进行:

首先, 按下列方式为能力参数质量参数指定初值。

能力参数的初值=经典测量理论中的标准分Z, Z可按下式求出

(Xi是第i个被试的测验得分, X是平均分, S是标准差)

区分度参数的初值=经典测量理论中的难度值+2 (2是比例因子) ;

猜测参数的初值=试题j的可选项数倒数。

然后, 按以下步骤进行迭代运算:

(1) 把3个质量参数看作已知值, 用极大似然估计法估算出能力参数;

(2) 将上一步中估出的能力参数作为已知值, 用极大似然估计法估算出三个质量参数;

(3) 判别结束条件是否满足, 若满足则最后一次的估计值即为最终估计值;若不满足, 则返回第一步继续迭代运算。结束条件可以是指定的迭代次数, 也可以是趋于稳定的参数值 (当前后两次估计值之差小于某个指定值时, 即可认为趋于稳定) 。

4 绩效测评系统模型的信息函数

信息函数是项目反应理论中的一个重要概念。某个试题j的信息函数值的大小直接反映出该试题对被试能力素质水平的估计精度, 信息函数值越大, 这种估计就越精确。因而信息函数可作为衡量测验试题是否有效果的工具。在项目反应理论中某个测验项目j的信息函数定义为:

式中, Pj是被试答对项目j的概率, Qj=1-Pji, P'j是项目反应函数Pj的一阶偏导数, 以三参数逻辑模型斯蒂模型为例, 可求出项目j的信息函数为:

由信息函数定义公式和项目j的信息函数公式可以得出以下结论:

(1) 、对某一测验项目j而言, 其质量指标a、b、c是一定的, 因而信息函数的数值就只与被试能力素质水平有关。这样, 信息函数就可以在被试能力素质的每一水平上被用来描述某道试题的测量有效性。而经典测量理论所提供的测验信度, 则被用于所有的被试而不管被试的能力素质如何。

(2) 、对某个特定被试而言, 由于其能力素质水平是一定的。所以某一试题信息函数值大小 (即所能提供信息的大小) 就取决于该试题的质量 (即由其质量参数决定) :猜测参数Cj越小, Ij (Q) 就越大, 区分参数aj越大, Ij (Q) 值也越大。

(3) 、信息函数具有可加性。假定某个测验共有m道试题, 则该测验的信息函数I (Q) , 可通过对该测验所含各个试题Ij (Q) 简单相加求出。在一个测验中, 各测验项目对测验信息函数I (Q) 的贡献是各自独立的, 相互无关的。而在经典测量理论的整体分析中, 每个项目对测验信度和效度的贡献与测验中的其它项目密切相关。

信息函数的可加性还表明, 组成测验的各道试题的质量越高, 它们所能提供的信息量越大, 从而根据该测验对被试的能力素质水平所做出的估计就越准确, 越接近其真值。信息函数的可加性充分说明了信息函数是反映测验有效性的一个客观而精确的指标。正因为如此, 信息函数是项目反应理论中最重要的一个概念。

5 总结

网络环境下绩效测评系统以提高教育绩效为目的。根据绩效技术的思想, 正确估计测试题目的参数, 通过分析学习者的学习与教学要求之间的差异, 结合硬件设施的选择和软件的开发, 帮助学习者的学习训练, 使得学习者在尽量少的教师或辅导者的帮助下, 用最短的时间掌握所要求的知识, 最终提高学习的绩效。

网络环境下绩效测评系统重视学习者个体的学习。网络环境下绩效测评系统能正确分析信息函数, 具有一定的智能性, 可以根据一些信息自动做出判断。在学习者学习的时候能自动提出建议, 提供帮助信息, 这些也是系统需不断加强的方面。

摘要：本文简单介绍了绩效并说明了网络环境下绩效测评系统的理论基础——项目反应理论, 分析了利用极大似然估计法进行参数估计的具体步骤, 说明了信息函数的重要作用, 采用网络环境下绩效测评系统有利于更有效地测量被试者的知识和能力水平, 对教育者提出了一定的要求和启示。

关键词：绩效,网络测评,项目反应理论,信息函数

参考文献

[1]刘世清.基于绩效技术的高校教师教学水平评价系统方法研究.[J]中国电化教育.2004.6:20-23

[2]柳欣.计算机技术的应用与教学模式的改革.[J]科技情报开发与经济.2005.7:112-113

[3]谢康, 曾祥华.计算机自适应性测验的数学模型研究.[J]赣南师范学院学报.2004.3:68-70

【通用测评系统】推荐阅读：

综合绩效测评系统07-16