计算机自适应测试研究

2024-11-02

计算机自适应测试研究(精选7篇)

计算机自适应测试研究 篇1

计算机自适应系统作为一种计算机技术的产物, 不断地随着计算机技术的发展进行着自身的提升。在这一过程中, 不断的发现其问题并解决其问题, 使计算机自适应系统得到了进一步的完善。而在计算机自适应系统得到发展和完善的同时, 得到了更多的信任, 应用范围也随之越来越大。这种现象同时又反作用给了计算机自适应系统, 使计算机自适应系统不得不进行不断的研究和完善, 才能满足社会的需要, 本文将对目前计算机自适应系统的研究进展进行浅析。

1 计算机自适应系统的优点

1.1 使评测过程具有灵活性

由于计算机自适应系统出题时, 是根据应试者的自身掌握的知识水平进行试卷的生成, 这就可以做到题目都是应试这能力范围之内的, 有效的避免了被应试者在考试过程中, 因为题目难度不在自己能力范围之内, 而导致答题节奏不稳, 情绪上产生较大波动影响其他题目的发挥。因为是根据应试者本身水平出题, 可以更大程度上帮助测试方了解应试者的综合水平, 在测试过程中具有相应的灵活性。

1.2 提高了测试结果的精确度

由于传统的出题方式, 并不能很好的区分题目的难易程度, 因为出题者对题目都是掌握的, 所以对题目的难易程度很难作出准确的判断, 并且调整其在试卷中的比例。这就导致了对应试者自身能力测量的一个不准确性。计算机自适应系统可以根据应试者自身水平调整难易程度, 这样无论应试者的成绩如何, 都能对其能力有一个准确的判断。是测试结果具有较高的精确度。

1.3 避免作弊情况

由于计算机自适应系统是随机出题, 考生在考试时也是随机抽题, 所以可以有效的避免, 应试者在考试过程中作弊的情况。由于应试者抽到相同试卷的概率很低, 是考场内交头接耳作弊的情况也得到了抑制。

2 计算机自适应系统的发展过程

计算机自适应系统的前身是“比内测试”, 这一种测试模式是根据被测试者的年龄来为其选择专门相对的题库, 如果被测试者完成这一题库的测试, 将会对其进行难度更大的测试, 这一个过程就是一个人工版本的子算计自适应系统。后来经过教育学家的不断研究, 并且对比内测试进行不断地分析, 终于发明了以回答问题的错误率作为标准来评判应试者水平的测试方法。

随着计算机水平的发展, 美国科学家罗德首次提出了计算机自适应系统的概念。这个观念已经提出就意味着试卷考试时代的结束。并且因其具有很多传统测试模式所不具备的优点, 迅速的得到了社会各界的认可。

经过不断地对计算机自适应系统的发展和完善, 已经从单一的了解应试者的能力演变成了一个对应试者综合能力以及各项能力指标进行评判的过程。

3 计算机自适应系统的使用现状

3.1 在国外的使用情况

目前计算机自适应系统在国外尤其是欧美国家得到了极其广泛的应用, 而且应用的范围非常广。教育测试、职业测评、人事管理等方面全都采用了计算机自适应系统用, 甚至在认证测评和职业测评中也应用了计算机自适应系统。

3.2 在国内的使用情况

由于计算机自适应系统进入我国的时间较晚, 所以我国目前对其应用的范围不如欧美国家广。我国主要研究计算机自适应系统的专家基本都在英语四六级考试委员会。目前我国对计算机自适应系统的重视程度很高, 已经将计算机自适应系统应用到了汉语水平测试当中, 随着出题的更加合理化和灵活性, 已经受到了很多业内的认可, 被应用到更广的范围只是时间问题。

3.3 在高校中的发展情况

目前计算机自适应系统在高校的发展中也取得了不小的成就, 我国部分大专院校, 对学生进行计算机能力水平测试时, 都是采用计算机自适应系统, 根据被测试者的综合水平进行出题。

4 选题策略的研究

4.1 提取法

在以前的题目区分方式上加以改进, 将题目分为两类, 即普通和难度较大两类, 如果应试者完成了较简单的一类题目, 此时才会给其提供难度较大的题目, 这样即可以避免能力不够者无法完成较难的题目, 也可以节省出题的时间和题库资源。

4.2 抽样法

抽样法是一种节约题库资源的方法, 具体抽样的过程是, 先从题库中抽取一小部分题目, 在从这一小部分中随机抽取一道难度较大的题目, 然后在从题库中抽取除这一小部分题目之外的题目, 这样可以给题目做出一种随机的组合, 可以减少题目的曝光率, 并且可以全面利用题库中所有的资源。

4.3 分离法

在出题过程中, 有些代表性较高的题目, 出现的几率过高, 导致了这些题目的曝光。如果将题目的管理过程与题目的选择过程独立的区分开来, 这样使得二者之间尽量减少联系。这样可以平衡题库中题目的曝光率, 使得部分题目曝光率过高的现象得到控制。

5 结论

计算机自适应系统的目标是建立最好的、最全面的评测方案。对被测者进行综合的、准确的评估, 达到一个人才选拔目的。这种将计算机科学技术与现实考试相结合的评测方案, 对我国的人才选拔和人才水平评估起到了至关重要的作用。对我国的教育和人才培养的发展具有划时代的重大意义。人才作为一个国家发展进步的根本动力, 其选拔制度必须是先进的、科学的, 只有将计算机自适应系统应用到我国社会的更多领域当中去, 才能做到更科学的、准确的人才选拔和培养, 才能为我国的现代化社会主义建设把好人才选拔这一大关。

参考文献

[1]路鹏.计算机自适应测试若干关键技术研究[D].东北师范大学, 2012.

[2]李俊杰.基于技能空间的计算机自适应测试的研究[D].湖南大学, 2011.

[3]王鹏.基于项目反应理论的自适应测试选题策略研究[D].沈阳师范大学, 2013.

[4]秦珊珊.面向高中英语的自适应测试系统中项目参数的实验研究[D].东北师范大学, 2013.

计算机自适应测试研究 篇2

计算机化自适应测试(CAT)是现代教育与心理测量学理论和计算机技术充分结合的产物,它是项目反应理论IRT(Item Response Theory)指导下的一种测试形式。它的目标是为每个被试构建最佳的测试。即测试实施过程中,根据一个用于描述被试反应的IRT理论模型,选取与被试的估计能力水平相匹配的项目[1]。通过排除控制难度与被试能力不适合的项目,CAT缩短了测试时间,提高了测量精度,并减少了因被试测试粗心、疲惫、沮丧或猜测所引起的各种测量误差[2]。选题策略是CAT的一个重要组成部分,选题策略的好坏直接影响到测验的安全性、准确性以及其效率。在0-1评分模型CAT中有部分选题策略已经比较成熟,Lord提出的最大费舍信息量方法、Sympson和Hetter提出的SH方法都很具有代表性。而对0-1评分模型下a分层选题策略的研究还不太多。本文研究了影响a分层选题策略的一些因素,从而优化了a分层选题策略。

1 项目反应理论

1.1 项目反应模型

向被试者呈现测试项目(我们称为试题),被试者对测试项目的反应(我们称为应答结果)。显然一个项目的反应情况不仅与被试者的能力水平有关,而且与测试项目本身的特性有关,项目反应模型[3]就是测试的应答和被试者的能力水平和项目的特性三者之间的数学模型。目前已经有三种模型来描叙这三者的关系。

单参数模型:

双参数模型:

三参数模型:

式中:D=1.702,θ:受测者能力值,a:题目的区分度b:题目的难度,c:题目的猜测系数,p(θ):能力为θ的人答对此题的概率。

1.2 能力估计

正确估计受测者的能力是CAT顺利进行的前提,最常用的方法是极大似然估计法。若以L(uj|θ)表示能力为θ的受测者对题目j的反应为uj(若答对uj=1;答错,uj=0)的概率。则近似值函数可表示成:

式中,n:题目数;Piui:受测者答对第i题的概率;Qiui:受测者答错第i题的概率。以New ton-Raphson法逐次迭代,求出能力的极大似然估计值θ

其中:

1.3 题目对应的信息量

项目反应理论提出使用试题信息函数作为建立、分析、与诊断测试的主要参考依据。题目对应的信息量是用信息函数Ii(θ)来表示题目参数与受测者能力的关系。试题信息函数如下:

其中Ii(θ)代表试题i在能力为θ上所提供的信息,Pi(θ)为在θ点上的值Pi(θ)导数,而Pi(θ)为试题iθ点上的反应函数,Qi(θ)=1-Pi(θ)。以三参数模型为例,上述公式可转换为:

Birnbaum指出,某个试题所提供的最大信息量,刚好出现在能力参数为θmax的点上,θmax的值为:

1.4 按a分层选题法

考虑到极大信息量选题法会导致某些试题的曝光率高,题库试题曝光度不均匀,Chang Ying提出了按a(区分度)分层选题法。按a分层选题法的基本思想是:把题库按a由小到大分成若干个子题库,在考试的初始阶段,考生能力估计精度不高时,采用区分度低的试题;在考试的后续阶段(能力精估阶段)采用区分度高的试题。其步骤简述如下:

(1) 根据试题区分度将题库分成k层;

(2) 将测验分成k个阶段;

(3) 测验的第k个阶段包含nk个项目。这nk个项目就通过“b匹配法”(根据考生当前能力估计值,选取难度最接近的试题)从题库的第k层选取。注意n1+n2+…+nk应等于测验长度;

(4) 对k=1,2,…,k重复第(3)步。

a分层选题法强制性地在测试的初始阶段使用低区分度的试题,能较好地改善试题曝光率不均匀的问题,并提高题库的利用率。

2 Monte Carlo模拟试验

在对a分层选题策略进行探讨的基础上,编制了相应的计算机模拟程序,用常用的评价CAT的三个指标[4]对不同条件下的a分层选题法进行比较,即探讨了不同测试终止条件,各层不同信息量的分布,不同的难度分布,不同的选题策略,不同的层次划分方法对CAT评价指标的影响。

2.1 Monte Carlo模拟试验具体内容

N(x,y)表示期望为x、方差为y的正态分布,U(a,b)表示在[a,b]上的均匀分布。采用Monte Carlo方法模拟被试能力真值和项目参数。

2.1.1 被试和题库

首先模拟生成一批被试(250人),被试能力真值服从标准正态分布(θN(0,1))。然后根据项目参数(包括难度参数b和区分度参数a)分布情形,模拟生成题库。题库中,bU(-3,3),lnaN(0,1),0.5<a<1.5,cU(0,0.1),θN(0,1),-3<θ<3。

2.1.2 模拟被试作答说明

根据被试能力真值θα和当前项目j的参数,分别计算被试α在第j个项目上反应为uj(若答对,uj=1;答错,uj=0)的概率。则可以确定被试α在第j个项目上得分。

2.2 能力估计方法

采用条件极大似然估计法(MLE)估计被试能力。在实现极大似然估计法时,用牛顿—拉夫逊迭代方法(记为N-R)求解似然方程。

2.3 评价指标

选题策略的优劣直接关系到CAT的质量,当其它条件固定仅改变选题策略时,对CAT的评价实际上就是对选题策略的评价,故本文采用常用的两个指标就选题策略准确性、选题策略稳定性等方面对不同情况下的a分层选题策略进行评价。

2.3.1 选题策略准确性

选题策略准确性通常用均方差误根RMSE来衡量,计算方法如下:

其中,n为测量次数,xi为能力值的最终值,ai为能力值的初始值。因此,RMSE指标反映了能力真值与能力估计值的偏差的平均。RMSE越小,能力估计准确性越高。

2.3.2 选题策略的稳定性

用标准差SD作为衡量选题策略是否稳定的指标。SD的计算公式如下:

其中,n为测量次数,xi为能力值的最终值,a为所有能力终值的平均值。SD指标反映了被试能力估计值的离散程度。SD值越小,离散程度就越小,选题策略就越稳定。

由此可见,a分层选题策略在其评价指标上的值均越小效果越好。本文采用统一量纲再加权求和的原则,综合评价a分层选题策略在各种不同条件前提下的优劣。具体做法是将评价指标上的最小值作为分子,把各种情况下在该指标上的值作为分母,求两者的比值。统一量纲后,对某选题策略的两个评价指标比值分别赋加权系数。加权求和值(COMP)最大的,则该选题策略在几个方面的综合效果最好;反之则最差。若某选题策略在各指标上加权求和的值为Y,则Y为:

加权系数,随着实际的测验性质及评价重点来取值。本文中两个评价指标加权系数均设定为1。

3 实验方法与结果分析

3.1 实验一:终止测验方法设计

依据a分层选题法的基本原则,我们设计了以下四组终止测验方法。

3.1.1 终止测验方法一

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量达到事先预定标准,否则回到步骤(4)。

3.1.2 终止测验方法二

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的题目总数达到事先预定标准,否则回到步骤(4)。

3.1.3 终止测验方法三

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量或题目总数达到事先预定标准,否则回到步骤(4)。

3.1.4 终止测验方法四

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 被试参数最后两次能力估计值之差<0.01,否则回到步骤(4)。

关于RMSE的实验结果如图1所示。

在图1中,1,2,3,4分别代表终止条件1,2,3,4。从图中我们可以发现,2,3两种终止条件的曲线随着模拟次数越多,RMSE斜率趋于平缓。

终止条件1一直不稳定且在模拟实验进行到第27次时就被迫中断无法继续。而终止条件4的RMSE始终处于一个比较高的水准,且容易遇到极端情况而产生波动。所以终止条件1,4明显是不符合项目期望的。

从总体曲线走势来看,以RMSE为标准,则终止条件3要比终止条件2显得更为有效,终止条件3要比终止条件2的测试更为精确。

关于SD的实验结果如图2所示。

在图2中,1,2,3,4分别代表终止条件1,2,3,4。从图中我们可以发现,2,3,4三种终止条件的曲线随着模拟次数越多,SD斜率趋于平缓。

终止条件1一直不稳定且在模拟实验进行到第27次时就被迫中断无法继续。而终止条件2,4的SD容易遇到极端情况而产生波动。所以终止条件1,2,4明显是不符合项目期望的。

从总体曲线走势来看,以稳定性上来讲,终止条件3更为稳定。

那么就总体而言,哪种终止方法更好呢?采用前述先统一量纲再等权求和的方法,求出对各终止方法综合评价的指标,结果如表1中COMP所示。

可以看到,终止方法的效果由好到差的顺序为:(1)终止测验方法三(已测项目的信息总量或题目总数达到事先预定标准);(2)终止测验方法二(已测项目的题目总数达到事先预定标准);(3)终止测验方法四(被试参数最后两次能力估计值之差<0.01);(4)终止测验方法一(已测项目的信息总量达到事先预定标准)。

3.2 实验二:各层信息量设计

依据a分层选题法的基本原则,我们设计了以下三种各层信息量分配方式。

3.2.1 各层信息量比例逐渐上升

若累积到第K层的信息量为m,假设它是层次K的二次函数,其自变量是测验信息量被分的层数。当然信息量的划分还与测验信息量的大小有关,要保证最终达到测验信息量值。若测验信息量共划分为T层,测验信息量也n,则:m=n(K/T)×(K/T),在本模拟研究中,测验信息量为25,按区分度a值把整个题库分为10层。即a值介于[0.25,0.35]的项目为第一层,a值介于(0.35,0.45]的项目为第二层,依次类推至(l.15,1.2]。得信息量的分层情况为:m1=0.25,m2=1,m3=2.25,m4=4,m5=6.25,m6=9,m7=12.25,m8=16,m9=20.25,m10=25。

3.2.2 各层信息量比例逐渐下降

若累积到第K层的信息量为m,假设它是层次K的二次函数,其自变量是测验信息量被分的层数。当然信息量的划分还与测验信息量的大小有关,要保证最终达到测验信息量值。若测验信息量共划分为T层,测验信息量也n,则:m=n(K/T)×(K/T),在本模拟研究中,测验信息量为25,按区分度a值把整个题库分为10层。即a值介于[0.25,0.35]的项目为第一层,a值介于(0.35,0.45]的项目为第二层,依次类推至(l.15,1.2]。得信息量的分层情况为:m1=25,m2=20.25,m3=16,m4=12.25,m5=9,m6=6.25,m7=4,,m8=2.25,m9=1,m10=0.25。

3.2.3 各层信息量平均分配

若累积到第K层的信息量为m,假设它是层次K的二次函数,其自变量是测验信息量被分的层数。当然信息量的划分还与测验信息量的大小有关,要保证最终达到测验信息量值。若测验信息量共划分为T层,测验信息量也n,则:m=n/T,在本模拟研究中,测验信息量为25,按区分度a值把整个题库分为10层。即a值介于[0.25,0.35]的项目为第一层,a值介于(0.35,0.45]的项目为第二层,依次类推至(l.15,1.2]。得信息量的分层情况为:m1=2.5,m2=5,m3=7.5,m4=10,m5=12.5,m6=15,m7=17.5,m8=20,m9=22.5,m10=25。

关于RMSE的实验结果如图3所示。

在图3中,RmseDown,RmseGen,RmseUp分别代表各层信息分配方式1,2,3。从图中我们可以发现,RmseUp曲线随着模拟次数越多,RMSE斜率趋于平缓。

RmseDown,RmseGen曲线一直不稳定并始终处于一个比较高的水准,且容易遇到极端情况而产生波动。所以RmseDown,RmseGen信息分配方式明显是不符合项目期望的。

从总体曲线走势来看,以RMSE为标准,则各层以递增的方式进行信息分配要比各层以递减或平均的方式进行信息分配显得更为有效,测试更为精确。

关于SD的实验结果如图4所示。图中,SdDown,SdGen,SdUp分别代表各层信息分配方式1,2,3。从图中我们可以发现,1~27次模拟实验中,各曲线均出现明显波动,非常不稳定。在此基础上,我们从1~49中取出一段:27~49。

SdUp的曲线随着模拟次数越多,SD斜率趋于平缓。而SdDown,SdGen曲线容易遇到极端情况而产生波动。所以各层以递减或以平均的方式进行信息分配方式明显是不符合项目期望的。

从总体曲线走势来看,从稳定性上来讲,各层以递增的方式进行信息分配方式更为稳定。

那么就总体而言,哪种信息量分配方式更好呢?采用前述先统一量纲再等权求和的方法,求出对各信息量分配方法综合评价的指标,结果如表2中COMP所示。

可以看到,各层信息量分配的效果由好到差的顺序为:(1)各层信息量比例逐渐上升;(2)各层信息量平均分配;(3)各层信息量比例逐渐下降。

3.3 实验三:不同的难度分布设计

依据a分层选题法的基本原则,我们设计了以下两种难度分布方式。

3.3.1 难度分布方法一

项目难度参数服从标准正态分布N(0,1)

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量达到事先预定标准,否则回到步骤(4)。

3.3.2 难度分布方法二

项目难度参数服从均匀分布b:[-3,3]

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量达到事先预定标准,否则回到步骤(4)。

关于RMSE的实验结果如图5所示。

在图5中,RmseLog,RmseGen分别代表项目难度参数分布方式1,2。从图中我们可以发现,RmseGen曲线随着模拟次数越多,RMSE斜率趋于平缓。

RmseLog曲线一直不稳定并始终处于一个比较高的水准,且容易遇到极端情况而产生波动。所以项目难度参数服从正态分布明显是不符合项目期望的。

从总体曲线走势来看,以RMSE为标准,则项目难度参数服从均匀分布要比项目难度参数服从正态分布显得更为有效,测试更为精确。

关于SD的实验结果如图6所示。

在图6中,SdLog,SdGen分别代表项目难度参数分布方式1,2。从图中我们可以发现,1~27次模拟实验中,各曲线均出现明显波动,非常不稳定。在此基础上,我们从1~49中取出一段:27~49。

SdGen的曲线随着模拟次数越多,SD斜率趋于平缓。而SdLog曲线容易遇到极端情况而产生波动。所以项目难度参数服从正态分布明显是不符合项目期望的

从总体曲线走势来看,以稳定性上来讲,项目难度参数服从均匀分布更为稳定。

那么就总体而言,哪种难度分布方式更好呢?采用前述先统一量纲再等权求和的方法,求出对各难度分布方法综合评价的指标,结果如表3中COMP所示。

可以看到,项目难度参数服从的分布由好到差的顺序为:(1)项目难度参数服从均匀分布;(2)项目难度参数服从正态分布。

3.4 实验四:a分层选题法层次划分方法设计

依据a分层选题法的基本原则,我们设计了以下三种层次划分方式。

3.4.1 层次划分方法一

m1=1,m2=4,m3=9,m4=19,m5=25。

1) 将题库按区分度均匀分为5个层次,每个区间内有100道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量达到事先预定标准,否则回到步骤(4)。

3.4.2 层次划分方法二

m1=0.25,m2=1,m3=2.25,m4=4,m5=6.25,m6=9,m7=12.25,m8=16,m9=20.25,m10=25。

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的题目总数达到事先预定标准,否则回到步骤(4)。

3.4.3 层次划分方法三

1) 将题库按区分度均匀分为15个层次,每个区间内有33道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量或题目总数达到事先预定标准,否则回到步骤(4)。

关于RMSE的实验结果如图7所示。

在图7中,Rmse5,Rmse10,Rmse15分别代表层次划分方法方式1,2,3。从图中我们可以发现,Rmse15曲线随着模拟次数越多,RMSE斜率趋于平缓并始终处于一个比较低的水准。

Rmse10曲线处于一个比较高的水准,Rmse5一直不稳定且容易遇到极端情况而产生波动。所以层次划分方法1,2明显是不符合项目期望的。

从总体曲线走势来看,以RMSE为标准,则层次划分为15层要比层次划分为5或10层显得更为有效,测试更为精确。

关于SD的实验结果如图8所示。

在图8中,Sd5,Sd10,Sd15分别代表层次划分方法方式1,2,3。从图中我们可以发现,1~27次模拟实验中,各曲线均出现明显波动,非常不稳定。在此基础上,我们从1~49中取出一段:27~49。

Sd15的曲线随着模拟次数越多,SD斜率趋于平缓。而Sd5,Sd10曲线始终处于一个比较高的水准。所以层次划分方法1,2明显是不符合项目期望的。

从总体曲线走势来看,以稳定性上来讲,层次划分为15层更为稳定。

那么就总体而言,哪种层次划分方式更好呢?采用前述先统一量纲再等权求和的方法,求出对各层次划分方法综合评价的指标,结果如表4中COMP所示。

可以看到,层次划分方法的效果由好到差的顺序为:(1)层次划分为15层;(2)层次划分为10层;(3)层次划分为5层。

3.5实验五:a分层法与最大信息量法选题策略的比较设计

之所以将极大信息量法与a分层法相比较,是因为极大信息量选题法的其基本思想是:每次都选能在现有能力估计值上提供最大信息量的项目,用此方法抽题会抽取难度参数尽量接近能力值、区分度尽可能大的项目,这样往往使得区分度高的项目曝光率较高,而区分度低的项目使用率较低,造成项目浪费及曝光不均匀,题库利用率降低,直接威胁题库的安全[6,7]。而a分层法能大大提高测验的安全性和测验效率并充分利用题库中的项目,可尽量避免过度使用某些项目甚至不使用某些项目的现象,因为在测验初期被试的能力估计值不够准确,用区分度高的项目未免有些浪费,这时用区分度较低的项目就使题库得到了充分的利用。

依据选题法的基本原则,我们设计了以下两组实验方法。

3.5.1 选题方法一(a分层选题法)

1) 将题库按区分度均匀分为10个层次,每个区间内有50道题目;

2) 一律以零值作为所有被试对象的估计初值;

3) 依据被试对象已有的应答模式估计能力值;

4) 按照能力值选择相对应的层次;

5) 按照能力值选择信息量最大的试题;

6) 除非已达到每层题库所要求的测试信息量,否则回到步骤(5);

7) 除非已测项目的信息总量或题目总数达到事先预定标准,否则回到步骤(4)。

3.5.2 选题方法二(最大信息量法)

1) 一律以零值作为所有被试对象的估计初值;

2) 依据被试对象已有的应答模式估计能力值;

3) 按照能力值选择信息量最大的试题;

4) 除非已测项目的信息总量或题目总数达到事先预定标准,否则回到步骤(2)。

关于RMSE的实验结果如图9所示。

图9中,RmseA,RmsMax分别代表选题策略1,2。从图中我们可以发现,RmseA曲线随着模拟次数越多,RMSE斜率趋于平缓并始终处于一个比较低的水准。

RmseMax曲线处于一个比较高的水准并一直不稳定且容易遇到极端情况而产生波动。所以最大信息量法选题策略明显是不符合项目期望的。

从总体曲线走势来看,以RMSE为标准,则a分层选题法要比最大信息量选题法显得更为有效,测试更为精确。

关于SD的实验结果如图10所示。

在图10中,SdA,SdMax分别代表选题策略1,2。SdA的曲线SD斜率始终处于一个比较低的水准。而SdMax曲线始终处于一个比较高的水准容易遇到极端情况而产生波动。所以最大信息量法选题策略明显是不符合项目期望的。

从总体曲线走势来看,以稳定性上来讲,a分层选题法更为稳定。

那么就总体而言,哪种选题方法更好呢?采用前述先统一量纲再等权求和的方法,求出对各选题方法综合评价的指标,结果如表5中COMP所示。

可以看到,选题策略的效果由好到差的顺序为:(1)a分层选题法;(2)最大信息量法。

4 结 语

通过对上述实验的分析,可以得出对于a分层选题法来说,测试的终止条件应设为已测项目的信息总量或题目总数达到事先预定标准,层次应划分为15层,各层信息量比例应逐渐上升,项目难度参数b应服从均匀分布。在这些前提条件下,a层选题法的精确度与稳定度都较高。

值得进一步探讨的问题有:本文只是对影响a分层选题策略的各因素进行了探讨,对于比a分层选题策略更复杂的b分层选题策略,c分层选题策略,它们的影响因素没有涉及。

参考文献

[1]Meijer R R,Nering M L.ComputerizedAdaptiveTesting:OverviewandIn-troduction[J].AppliedPsychological.Measurement,1999,23(3):187-194.

[2]Wainer H.ComputerizedAdaptiveTesting:APrimer[M].Hillsdale.NJ:LawrenceErlbaum1,990.

[3]漆书青,戴海琦,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002.

[4]陈德枝.Samejima等级模型下CAT选题策略比较研究[D].江西师范大学,2004.

[5]张华华.计算机自适应考试设计中的误区[J].考试研究,2002(2):35.

[6]Linn R L,Levine M V,Hastings C N.Itembiasinatestofreading eompre-hension[J].AppliedPsyeholoogicalMeasurement.19981,9.

计算机自适应测试研究 篇3

工程装备是我军武器装备的重要组成部分, 担负着战场建设和作战工程保障任务。工程装备的故障主要产生于液压系统, 液压系统的状态性能的好坏, 直接影响到整机的性能[1]。目前, 液压系统故障检测主要利用故障诊断的方法, 较少从测试性设计方面考虑液压系统故障检测。

测试选择是测试性设计的一个重要内容, 其目的在于减少测试点设置, 以尽可能小的测试代价满足系统故障检测率和故障隔离率要求。传统液压系统故障诊断和检测的测试点布置没有进行合理的选择, 从而导致重复测试, 故障检测不全, 测试资源浪费等问题。本文在分析液压系统故障的基础上, 利用自适应遗传算法对液压系统测试选择问题进行求解, 为工程装备液压系统测试性设计提供了良好的方案。

1 测试选择的数学描述[2]

为描述各级系统故障和测试的对应关系, 采用故障——测试关系矩阵进行描述。设系统的待检测和隔离的故障集合为F={fi}, i=1, 2, …, m, 即系统待测试的故障有m个;能够对故障进行测试的测试集合为T={tj}, j=1, 2, …, n, 即可采用的测试一共有n个。则系统对应的故障和测试关系矩阵表示为:

在该矩阵中, 元素作aij为布尔变量, 当测试ti可测得故障fj的信息时, 对应的元素aij=1, 否则aij=0。矩阵的行向量Fi=[ai1, ai2, …ain]表示第i个故障的测试信息, 列向量Tj=[t1j, t2j, …, tmj]T表示第j个测试所能测试到所有故障的信息。

2 建立转向液压系统故障测试矩阵

2.1 某型工程装备液压转向系统

转向液压系统是工程装备液压系统重要组成部分, 主要由执行元件:液压缸 (2个) , 控制调节元件:溢流阀 (5个) 、单向阀 (1个) 、换向阀 (1个) , 动力原件:液压泵 (2个) , 辅助装置:滤油器 (1个) 4个部分组成 (图1) 。该系统具有一般液压系统具有的4个部分, 以该系统为对象进行测试点的选择方研究不失一般性。

2.2 液压系统测试点

对系统进行故障模式及影响分析, 该系统存在的主要故障有13个。在分析系统故障的基础上, 对系统进行测试点的初步布置。依据测试点布置的原则, 在所有故障单元的进出口均布置测试点。该系统共布置了14个测试点。根据测试点所测信号的不同, 分别测试油液温度、液位高度、油液污染度、压力、流量、振动、噪声等参数。故障属性和对应的测试如表1所示。

根据表1可得到该液压系统的故障测试矩阵如下:

3 自适应遗传算法对测试选择问题的求解

1) 编码:

采用二进制编码, 每个二进制数字代表一个测试, 因此, 编码的长度为备选测试集中测试的个数。

2) 生成初始群体:

群体规模过小, 算法相应的进化代数就多, 且易陷入局部最优解;群体规模过大, 提高了算法的收敛速度, 但是算法运行时间开销较大。群体规模一般取50~200[3]。

3) 交叉率和变异率:

遗传算法的交叉算子提供了全局搜索能力, 变异算子则提供了局部搜索能力, 其收敛性主要取决于这两个算子。因此, 交叉概率pc和变异概率pm是影响遗传算法收敛速度的关键参数。在标准遗传算法中, 交叉概率pc和变异概率pm为定值。若pc过小, 则搜索过程缓慢, 甚至停止不前;若pc过大, 则可能破坏遗传模式;变异概率pm过大, 可能导致成为随机搜索;过小, 则不容易产生新的个体结构。因此, 针对个体的不同适应度值, 采用自适应遗传算法[4], 对交叉算子和变异算进行改进:

式中:pc——交叉概率;

pc_max——最大交叉概率;

pc_min——最小交叉概率;

pm——变异概率;

pm_max——最大变异概率;

pm_min——最小变异概率;

fmax——种群个体的最大适应度;

favg——种群平均适应度值;

f ′——在要交叉的两个个体中较大的适应度值;

f——要变异的个体适应度值。

将交叉算子和变异算子作以上改进后, 优良个体的保存概率增大, 提高了进化的稳定性。

4) 个体适应度。

合适的适应度函数是算法的关键, 在故障检测率和故障隔离率尽可能满足要求的情况下, 最优测试集应使测试费用最小。因此, 适应度函数是测试费用的减函数, 故障检测率和故障隔离率的增函数, 将适应度函数定为[5,6]:

式中:Ci——第i个测试的测试费用;

Ts——某一测试集;

γ*FD, γ*I——系统要求的故障检测率和故障隔离率;

γFD, γFI——所选测试集的故障检测率和故障隔离率;

λ——奖励因素, 当满足系统测试性要求时给予奖励。

5) 问题求解

考虑该选择的规模较小, 选取参数为:初始群体个数M=20, 最大进化代数G=50, 交叉概率最大值为0.9, 最小为0.4, 变异概率最大为0.08, 最小为0.01, λ取值为1。系统设计要求测试性指标:γ*FD=0.95, γ*FI=0.95。为减化运算, 假设各个测试的测试费用相等, 均设为1。经编程运行后, 搜索得最优测试集Ts={T1, T2, T3, T4, T6, T7, T9, T10, T12, T13, T14}, 适应度值f=3.0459, 测试性指标γFD=100%, γFI=100%。历代适应度变化曲线如图2所示, 该算法在第8代找到最优解。测试选择的规模越大, 越能体现算法的优越性。

4 结论

通过对工程机械转向液压系统的故障分析, 建立了故障——测试矩阵, 利用改进的遗传算法——自适应遗传算法有效解决了该液压系统的测试选择问题。该方法为液压系统测试点的选择和布置提供了一种解决方法, 有很好的应用前景。

摘要:以某型工程装备转向液压系统为对象, 在系统故障分析的基础上, 建立故障测试矩阵, 并利用改进后的遗传算法———自适应遗传算法有效解决了该液压系统测试点选择问题。为其他液压系统测试性设计过中测试点的布置选择提供了借鉴, 有较高的实用价值。

关键词:工程装备,测试性设计,测试选择,自适应遗传算法

参考文献

[1]刘雪霞.某型工程装备液压系统检测与诊断技术研究[D].南京:解放军理工大学工程兵工程学院, 2008 (1) .

[2]田仲, 石君友.系统测试性设计分析与验证[M].北京:北京航空航天大学出版社, 2003.

[3]黄友锐.智能优化算法及其应用[M].北京:国防工业出版社, 2008.

[4]王小平, 曹立明著.遗传算法[M].西安:西安交通大学出版社, 2002.

[5]苏永定, 钱彦岭, 邱静.基于启发式搜索策略的测试选择问题研究[J].中国测试技术, 2005, 31 (5) :46-48, 78.

水力计算自适应优化算法仿真研究 篇4

随着国内天然气长输管线的建设和天然气市场的快速发展,各个城市燃气管网规模都在不断扩大, 其结构也越来越复杂[1,2,3],在管网的新建和扩建中,准确、迅速的燃气管网水力计算是实现高质量的管网设计、施工以及优化管网运行调度管理的必要条件,因此燃气管网水力计算不仅仅只是成为城市燃气管网设计中的一项重要工作,而且也是各个城市燃气公司完善管网、优化管网运行管理和保障安全供气的必要手段[4,5,6,7]。

经过多年的研究实践,国内已形成了许多较为成熟的稳态燃气管网的计算方法和程序[8,9,10,11],但主要是被燃气专业设计院用于管网设计的管径选择和管网水力工况校核,而很少有城市燃气公司将其用于管网运行工况和事故工况下的分析,由于缺乏必需的方法和手段,有很多燃气公司甚至除了城市在第一次初步设计时设计单位对管网进行过管网水力计算外,在较长时期内管网和用户都已发生较大改变后没有重新对管网的水力工况重新核算和分析,原来水力计算结果已经不能客观反映出在城市管网和用户规模发较大变化的管网运行工况,这种状况对管网水力可靠性有较大的影响。目前存在的大多数水力计算程序普遍存在一个显著问题:在燃气管网水力计算过程中,常用的水力计算方法只是一种理论计算方法,计算过程中的许多参数都不可避免地存在误差,那么其计算出的结果与实际管网的运行情况必然存在一定偏差,有时甚至偏差较大,对于在较长时期内管网和用户都已发生较大改变而没有重新对管网的水力工况重新核算和分析的情况这种现象尤其突出。这个问题如果不能有效解决,那么燃气管网的水力计算就只能停留在实验室理论水平,不能够对实际工况给出较为精确的预测,缺乏水力计算应有的指导意义。

1 水力计算原理

本文利用有限元节点法对燃气管网进行水力计算,要求满足以下三个方程组:节点流量连续方程组Aq+Q=0;管段压力降方程组ATP=Δp;管段流量方程组q=C·Δp;由上述三式可得求解节点压力的方程组:

A·C·AT」·P+Q=0 (1)

式(1)中A为由元素aij组成的节点关联矩阵;C为由元素1/sj1αqjα-1组成的节点对角矩阵; P为节点压力向量;Q为节点流量向量;q为管段流量向量;Δp为管段压降向量;AT为矩阵转置矩阵。

计算步骤:首先初设管段流量q(0),代入式(1),求解节点压力p(1),计算出q(1);q(1)不满足要求进行修正,再形成式(1)进行逐次逼近,直到第K+1次的q(K+1)与q(K)差的绝对值满足计算精度要求为止。图1为有限元节点法水力计算过程。

为了充分说明理论水力计算方法普遍存在的显著问题,本文选用了国际上常用的计算摩擦阻力系数λ的三种公式:谢维列夫公式、柯列勃洛克公式和阿里特苏里公式。通过这三种方法,我们发现,即使在充分考虑到介质运动粘度、流动速度、管径大小及管内表面粗糙度对λ的影响的前提下,选用不同的公式来计算摩擦阻力系数λ,水力计算结果相差较大,同时,与实际测量数据的拟合程度不高,缺乏应有的精确度。另外,摩擦阻力系数λ的取值还会影响流量迭代运算的速度和收敛性。

本文以某大城市中压管网为例,该中压管网有75根管段、54个节点,4个气源厂,气源厂压力均为250Kpa,该燃气管网是由环状和枝状管网混合而成。对所编制的燃气管网水力计算程序分别选用三种不同的公式进行实例考核计算,并与实际测量数据进行比对。由于目前测流技术的问题,在城市管网中大多数都没有安装测流仪器,所获取的实测数据只有实测节点压力值和气源厂流量,因此,表1和表2只列出了气源厂流量和部分典型节点压力的实际测量值。

可以看出,选用不同的摩擦阻力计算公式进行水力计算结果有一定差别,尤其是谢维列夫公式和其他两个公式相比差别较大,另外,还可以看出,这三组计算结果与实际测量数据相比差别较大。因此,通过这个实验可以看出,无论选用哪种公式,对燃气管网的实际工况都不能够进行有效预测,缺乏足够的精确度。

2 水力计算参数自适应优化辨识

在燃气的特性参数、环境参数、管网拓扑结构及相关参数、气源厂压力和各节点流量等数据的统计准备过程中,不可避免会产生误差,尤其是管道摩阻系数的取值和节点流量的统计,由于它们具有较大的随机性和不稳定性,误差尤为突出。因此,目前一般都认为管网水力计算结果与实际值的偏差主要起因于节点流量和管道摩阻系数的不准确性。也就是说,我们可以根据实际测量管网数据对水力计算进行自适应优化处理,离线或在线动态调整优化节点流量和管道摩阻系数,使水力计算的结果和实际测量数据在一定精度条件下吻合。

2.1 参数自适应优化辨识算法

燃气管网的水力计算值和测压点处的实测值会有一压力差,理论上此压力差为零,但这是实际上是不可能的,由于目前测流技术的问题,在城市管网中大多数都没有安装测流仪器,所获取的实测数据只有实测部分节点流量、节点压力值、气源厂压力和气源厂流量。同时,由于在进行管网水力计算时还不可避免地引入其他干扰,例如,管段的当量粗糙度就是影响摩擦阻力系数的一个重要影响因素,为了从全局的角度进行优化处理,在本文中主要考虑动态调整辨识节点流量qm和管道过气能力系数rn,来降低节点压力差和气源厂流量差。一般用管道的过气能力系数rn代替摩阻系数来进行辨识,管道过气能力系数是一个复合的概念,覆盖了摩擦阻力系数、当量粗糙度和其他影响因素。另外,为了以后工作的需要,本软件在开发时还是预留了理论水力计算与管段实际流量的比对,因为不久的将来很多管网都能够实现管道测流,那么实际测量数据中就必然会包括管段流量。在本文中动态调整优化计算的数学模型最终是要在尽可能符合实际情况的前提下,通过调整节点流量qm和过气能力系数rn,将测压点处压差和气源厂流量差降到一定限度以内,并同时要使管网的水力平衡得到满足。

通过上述分析基于最小二乘法原理,构造出水力计算寻优的目标函数如下:

minJ(qm,rn)=α1∑βi(Qi管段理论-Qi管段实际)2+

α2∑βj(Pj节点理论-Pj节点实际)2+

α3∑βk(Qk气源厂理论-Qk气源厂实际)2其中,αβ为加权因子,J为寻优目标函数,qm为节点m的集中流量,rn为管段n的过气能力系数。Qi为能够实际测量的管段的流量,Qk为气源厂流量,Pj为能够实际测量的节点压力,不能够实际测量的管段流量和节点压力不计入水力计算寻优的目标函数中。上述数学模型的物理意义可以解释为:在满足管网水力条件的约束下,在允许的调幅范围内,通过对节点流量qm和管道过水能力系数rn的动态调整辨识,使测压点的压差和气源厂的流量差降至最小。

以上所构造的数学模型,是一个非线性极值问题,存在两组变量去qmrn,由于计算值与实测值的偏差也主要起因于这两个变量,故数学模型的求解就是通过调整变量qmrn,来获取偏差尽可能小的管网状态估计。本文关于变量qmrn的动态辨识调整采用变量轮换法和黄金分割法进行快速寻优[12]。由于管道使用年限的增加,气质对其产生影响,导致管壁腐蚀和结垢,管道过气能力系数也会无规律地增大,为了使管道过气能力系数尽可能准确,同时为了使自适应辨识寻优过程尽可能快,可以在自适应辨识寻优前先对管材、管径、使用年限及埋设时间具有代表性的管段进行实测其起点和终点压力值、管段流量,得到大致符合实际的这一类管段的具有代表性的管道过气能力系数,以后的辨识过程是基于此来展开的。对于节点集中流量,只有部分能够实际测量,其余部分可以按照估测分布将气源实测流量分摊到各个节点中,进行初步水力计算,然后将通过程序计算出来的数据与实际测量数据进行比对,若相差较大则动态调整各节点的流量分配重新计算,最终使计算结果接近实测值或各特征节点的压力偏差大小接近一致。此时节点流量分配最接近实际情况。获取实际测量数据时应注意各项数据同时测量,并多次采集数据,减小辨识误差,实际上,采样数据越多,辨识结果越精确。图2是自适应参数辨识算法原理图。

本算法可以采用离线辨识和在线辨识两种方式进行,采用离线辨识时,首先需要通过SCADA系统获取历史数据,通过对历史数据的比较来辨识系统参数,如果历史数据有限或离线辨识精度不够,可在离线辨识的基础上进行在线辨识,将水力计算出的压力和流量值同SCADA 系统采集的实时压力流量进行对比分析,不断利用采集的现场数据辨识系统参数,直到满足精度要求为止。图3是辨识算法流程图。

2.2自适应参数辨识优化水力计算与实际测量结果比较

鉴于篇幅有限,本文选取了五组测量数据,其中前四组用于离线自适应辨识,第五组数据作为验证自适应辨识成功与否的预测目标。仍然是以前文的某大城市中压管网为例,该中压管网有75根管段、54个节点、4个气源厂,该燃气管网是由环状和枝状管网混合而成。

在表3和表4中,自适应辨识调整过程是从第一组数据开始,不断与各组实测数据进行比较,动态调整辨识参数,表3、表4仅将4次自适应动态辨识过程结束后水力计算程序与第四组实测数据进行了比较。

表5和表6是在前面四组实际测量数据辨识的基础上,利用动态自适应辨识的结果来进行水力计算,对第五组数据进行了预测。

从表3-表6可以看出,采用了自适应参数优化辨识水力计算算法后,测压点处实测压力和计算压力的压差基本上回归到允许范围值内,本例中的8个测压点,经计算,压差都下降到2.0%以内,气源流量差也下降到5%范围内。表明了本文所应用的计算方法,消除测压点处压差的效果是很好的。计算结果证明,该程序应用的计算方法合理,运算速度快捷,运算效果良好,故该程序具有一定的实用性。

3 结 语

本文深入研究了燃气管网水力计算结果与实际测量值之间存在偏差的主要原因,并根据实际测量管网数据对水力计算进行参数自适应辨识优化处理,能够离线或在线动态调整节点流量和管道过气能力系数,使水力计算的结果和实际测量数据在一定精度条件下相吻合。

参考文献

[1]王树立,赵会军.输气管道设计与管理[M].北京:化学工业出版社,2006.

[2]孙德青,姚安林,赵忠刚.我国城市燃气事业的发展趋势[J].城市燃气,2006,379(9):35-39.

[3]李颜强,徐正康,王昌遒.全国城市燃气管道的发展和改造[C]//中国土木工程学会城市燃气分会第九届理事会第一次会议论文集,2006:44-52.

[4]左丽丽,吴长春.燃气管网水力计算节点及编号的探讨[J].煤气与热力,2005,25(3):36-39.

[5]彭继军,田贯三,刘燕.燃气管网图的计算机生成[J].山东建筑工程学院学报,2003(18):58-62.

[6]刘燕.燃气管网计算理论分析与应用的研究[D].天津大学,2004.

[7]田贵三,等.燃气管网水力计算研究[J].哈尔滨工业大学学报,2003,7(3):40-45.

[8]杨昭,张甫仁,诸强.燃气管网动态仿真的研究及应用[J].天然气工业,2006,26(4):105-108.

[9]左丽丽,吴长春,丁明江.输配气管网稳态仿真问题的的拓广[J].中国石油大学学报:自然科学版,2006,30(1):111-114.

[10]管延文,荣庆兴,等.燃气管网模拟分析软件的开发与应用[J].上海煤气,2006(5):35-38.

[11]Seleznev Vadim.Numerical Simulation of a Gas Pipeline Network usingComputational Fluid Dynamics Simulators[J].Journal of Zhejiang U-niversity,2007,8(5):755-765.

计算机自适应测试研究 篇5

英文引用格式:Zheng Jianqiu,Zheng Ziwei.Cloud distributed adaptive real time resource monitoring with low resource cost[J].Application of Electronic Technique,2015,41(7):107-110.

0引言

随着云计算的广泛应用,云端的存储、网络带宽、GPU、处理器等资源日益紧缺[1]。部分应用程序非法或过多地占用某些云端资源,导致其他应用程序或服务运行效率下降,甚至导致服务器端崩溃等严重后果,为防止此类情况发生,需对云端资源进行有效监控[2]。

云端的大数据与分布式平台为资源监控带来了极大的困难,若对云端大数据采集样本并分析,此过程的计算成本极高,另一方面,若为了降低计算成本而增加采样周期,则会导致监控过程不够完整,导致部分重要的棘波丢失[3,4,5]。

针对以上问题,本文提出一种自适应云端资源监控算法,包括训练和监控两个阶段。训练阶段,采集适量的数据样本训练,估算出最佳的监控参数组合;监控阶段根据受监控资源的变化剧烈程度自适应地调节采用周期,以此保证监控算法的计算效率与监控质量达到较好的平衡。

1问题定义

对于云端大数据下的资源监控,最为有效的方案是,在不损失其统计性能的前提下,尽可能地降低监控的目标数据的量,显然,需为此寻找一个合适的阈值。首先定义两个与资源监控质量相关的重要参数G和Q。

第一个参数G如下定义:

式中,N(t)表示监控算法采集的样本数量,N(t0)表示理论采样频率采样的样本数量,t0表示最高的理论周期(即1 s)。G值的范围为[0,1],G值越高表示采样周期越短,而计算与带宽开销越高。

第二个参数Q(质量)代表了监控算法是否能准确反映系统资源的变化情况。Q的质量必须综合考虑两个因素:(1)采样周期过大导致的监控不完整,(2)对资源变化的棘波监控能力。因此将Q定义为两个重要统计参数的组合:NRMSE为归一化均方根误差,Fmeasure为棘波检测的精度与召回率的带权均值。

式中,Fmeasure与NRMSE的取值范围均为[0,1],Q的取值范围为[0,1]。综合Fmeasure与NRMSE对资源评价的原因在于:云端资源变化极为剧烈,无法仅通过NRMES对其变化作出准确的反应,而Fmeasure可对棘波资源的检测效果较好,因此综合两个参数来提高资源评价的准确性。Fmeasure计算方式如下:

式中,precision表示精度,recall表示召回率,Fmeasure值越接近1代表检测的质量越高。

将监控算法的阈值表示为G与Q的加权之和:

E=ω·G+(1-ω)·Q(4)

式中ω∈(0,1)是一个调谐常量,由服务器端管理员设定。ω>0.5,则G的重要性高于Q;反之,G的重要性低于Q;ω=0.5,两者重要性相等。

已有的监控算法以固定的采样周期采集样本,仅当新数据与历史数据有所差异时,才将新数据保存并转发至分析模块。尽管该方案可获得较高的G值,但其导致了较高的检测错误以及较低的Q值(丢失了较多的棘波)。图1所示为两个场景举例,图1(a)的采样周期为1 s(低G与高Q),图1(b)的采样周期较长,采样数据数量较少,同时也丢失了大量的棘波数据。

2自适应云端资源监控

自适应云端监控由训练阶段与自适应监控阶段组成,训练阶段估算最优参数组合,自适应监控阶段是监控系统的核心部分。

2.1参数定义

监控算法分析采样的数据,当资源相对稳定时,降低监控数据的数量,在资源变化剧烈时,增加监控数据的采样数量。以此,降低计算与带宽开销,同时保证不错过重要的系统棘波变化。本算法动态地设置两个关键变量:采样周期t与变化性△。采样周期t越短,收集的数据量越大,设tm表示采样周期的最小值,tM表示采样周期最高值,显然tM≥tm。△代表了连续采样样本的偏差,若△较低,认为监控资源比较稳定。本文考虑两个△相关的参数:

(1)峰值变化性△p:表示连续样本间偏差的阈值,当△>△p时,表示棘波。

(2)容错变化性△q:表示连续样本间偏差,△q≥△p表示高变化性。当监控数据的变化性过高时,需将采样周期设为tm,从而抓取资源变化的细节特点。将t与△相关阈值的最优值设为tm*、tM*、△p*、△q*。

2.2训练阶段

训练阶段求解最优阈值参数tm*、tM*、△p*、△q*。训练阶段通过最大化式(4)的E,将训练数据样本数设为λ。

算法1所示为训练的伪代码,初始化阶段将E的最优值E*设为0,最小采样周期设为t0,Xtmp设为周期t0采样的监控数据序列。循环迭体中,对监控周期t与变化性△进行迭代处理。AdaptiveMonitor为数据监控算法,结果数据存储于X变量中,然后,计算质量参数Q、参数G与阈值E。最终,更新最优阈值参数tm*、tM*、△p*、△q*,将结果阈值赋予监控算法的核心阶段。

算法2计算Q参数的值,在初始化阶段,采样数据起始点为确定值,将NRMSE设为0,计算原时间序列Xtmp的变化范围。之后的循环体中,轮流使用各时间点数据来计算参数Q的质量。6~10行提取时间序列x0与时间i,11行更新采样序列的平方差之和,然后,分别计算NRMSE、精度、召回率,最终计算Fmeasure与Q参数。

2.3自适应的监控阶段

算法3所示为自适应监控阶段的伪代码。初始化阶段,将采样周期设为最小值tm*,△设为0,∈inc设为10,该变量用于触发最低采样周期(t0),在∈·λ个采样之后,获得了X值。变量k是对采样序列X的计数,若k>λ,则结束X的采样。

监控算法的主体是一个死循环,首先使用实时采样更新偏差△值,若△值未变化,则增加采样周期长度,若△值变化较大,则减小当前的采样周期。监控过程中,通过计算Q参数与训练阶段的最优参数,实现实时自适应的动态调整,从而实现高准确率的采样与低成本的平衡。

3实验测试床与数据集训练

3.1测试床

本文试验使用Amazon EC2[6]监控平台。其中监控节点的PC配置为:AMD处理器2 218 HE,主频2 600 MHz,缓存1 024 kB,每个节点的网络带宽为10 Mb/s,受监控的节点运行一些服务与应用程序,如Apache2、MyS QL、Java程序等,数据库使用MyS QL数据库。试验对100个节点(包括软件虚拟出的节点)进行监控,监控过程达10个小时。

3.2训练集大小设置

训练集大小λ对算法的计算开销影响较大,因此,在保证算法高质量监控的同时,限制其成本极为重要。试验对资源使用自适应监控算法,将λ分别设为5~200进行统计,图2所示为λ对三个重要参数的影响。图中可看出ω=0.25时,Q值最优,ω=0.75时,G值最高。分析其原因:训练集较小时,少量数据之间的差异较大,将被分辨为棘波。而采样周期较小时,可获得较高的Q和较低的G。

图2(c)中显示,不同训练集大小对E参数的影响。E参数范围为80%~88%。可看出当ω较小时,应使用较小的λ值,ω较大时,使用较高的λ值。综上,若管理员需要平衡的G与Q,则将样本数量选为50~150较为合适。

4试验结果与分析

4.1本文自适应算法与静态delta算法的检测性能比较

表1所示为静态采样周期(t)与静态delta(△)下获得的试验结果,表2所示为自适应算法获得的结果。结果显示:当λ=5时,E值为76.54%,当λ=100时,E为79.37%。比较表1与表2可看出,自适应算法的平均性能高于静态算法,此外自适应算法的Fmeasure始终高于65%,可见本算法提高了棘波捕获的能力。

4.2资源消耗比较

图3所示为本自适应算法与静态算法的资源消耗比较,图3(a)所示为静态采样周期算法与静态阈值算法的CPU使用率随时间的变化情况,图3(b)为本文自适应算法的CPU使用率的变化情况,可看出在整个监控时间之内,本算法的平均CPU占用率明显低于两种静态算法。图3(b)可看出本算法的3个阶段:(1)收集λ个训练数据集,该阶段CPU使用率呈上升趋势;(2)自适应算法计算最佳参数,此时引起了较高的CPU使用率的棘波;(3)自适应监控阶段,可看出本算法通过自适应的调节,使得整个CPU资源使用率处于平稳状态。

5结束语

本文针对分布式云计算的云端资源监控提出了自适应的监控算法,获得了云端监控准确率与计算成本较好的平衡,试验结果也佐证了本算法的有效性。未来将研究多个统计参数的不同效果,进一步提高本算法对资源变化剧烈程度估算的准确性。

参考文献

[1]陈康,郑纬民.云计算:系统实例与研究现状[J].Journal of Software,2009,1(20).

[2]罗军舟,金嘉晖,宋爱波,等.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21.

[3]华夏渝,郑骏,胡文心.基于云计算环境的蚁群优化计算资源分配算法[J].华东师范大学学报:自然科学版,2010(1):127.

[4]冯登国,张敏,张妍,等.云计算安全研究[J].软件学报,2011,22(1).

[5]刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(1):26-31.

计算机自适应测试研究 篇6

1.1 信息素初始化

将蚂蚁分为两类:侦查蚂蚁和搜索蚂蚁。前者以每个城市为活动中心, 仅在城市附近进行局域搜索, 并将结果用侦查素标记, 对搜索蚂蚁提供辅助作用;后者进行全局搜索, 当到达一个新的城市后, 根据该城市的周边城市侦查素和前辈蚂蚁释放信息素来选择下一个旅游城市, 直到选出最佳路径。

1.1.1 侦查蚂蚁

由于在现实中可能会出现服务器j的剩余性能无法满足任务i性能要求的情况, 因此需要优化传统的多态蚁群算法的侦查素生成方式, 使城市i和城市j之间是非连通的, 具体生成方式如下:

每个城市布置一只侦查蚂蚁, 并侦查剩余 (m-1) 个城市信息, 将结果与先验知识结合生成侦查素s[i][j], 标记路径Lij上。

为以城市i为中心, 到其他剩余城市的最小距离。

根据侦查素计算各路径初始信息量:

1.1.2 搜索蚂蚁

搜索蚂蚁负责全局搜索工作, 在时刻t, 城市i中的搜索蚂蚁k通过路径Lij转移到城市j的概率计算如下:

其中:

η是时刻t从城市i到城市j的启发式值, 距离越远, 则η越小;

allowedk是未被蚂蚁k访问的城市, 即蚂蚁k的禁忌表。

由公式 (1) (2) 可知, 若存在服务器seri无法满足任务tj的性能需求, 则该节点上的侦查素s[i][j]=0, 即在初始状态下, 城市i无法到达城市j, 保证在蚁群算法的首次迭代中不会将任务tj分配到服务器seri上。

由公式 (3) 可知, 当搜索蚂蚁在到达一个新城市时, 结合该城市侦查素将缩小下一城市的搜索规模, 加快了收敛速度。

1.2 信息素更新规则

信息素更新分为信息素局部更新和信息素全局更新。

1.2.1 局部更新

局部更新是指单一蚂蚁在一次迭代过程中选定下一个目标城市后, 立即更新该城市的信息素, 而不影响此次迭代过程中其他并行蚂蚁及其后续蚂蚁的路径选择, 具体更新公式如下:

其中:

ρ是信息素挥发参数, 有0<ρ<1;

N为蚁群算法迭代次数, 有φ (N) =N/c, c是常数;

参数τmax和τmin分别是信息素上限值和下限值。

1.2.2 全局更新

信息素的全局更新是指在蚁群算法在进行一次迭代后, 对出现在迭代最优解的蚂蚁所经的路径上所有城市的信息素进行更新, 具体更新公式如下:

为保证不出现将任务tj调度到不满足需求的服务器seri上, 在每次迭代后需要对所有城市的信息素进行修正, 公式如下:

2 性能测试

通过matlab对本文算法和传统蚁群算法进行仿真分析, 在仿真过程中分别将等待调度的任务总数和服务器总数为Num=100, 200, 信息素启发参数α和视界启发参数β分别为α=1, β=2及α=5, β=10、信息素挥发参数ρ=0.5、蚂蚁总数M=2Num、调和常数Q=5及迭代次数N=100。仿真10次后求得的平均值的结果如图1, 2所示。

由实验数据可以看出, 在初次迭代后, 本文算法搜索到的最优解要优于传统蚁群算法, 原因是传统蚁群算法初始状态下各路径信息素相同, 首次迭代中信息素对蚂蚁的路径选择没有帮助, 而在本文算法中由于侦查素的存在, 使得初始状态下各条路径上的信息素存在差异, 对蚂蚁路径选择产生影响, 使其搜索到更优秀解的可能性增大。

当信息素启发参数α和视界启发参数β较小且任务总数小于100时, 本文算法在收敛速度要优于传统蚁群算法, 但在最优解方面存在一定不足;当任务总数大于100时, 本文算法在收敛速度和最优解方面均要明显优于传统的蚁群算法。

当信息素启发参数α和视界启发参数β较大时, 两类算法收敛速度都要明显加快。当任务总数较小时, 本文算法和传统算法互有优劣, 但当任务总数大于100时, 本文算法性能上优势明显。

摘要:为了解决蚁群算法在解决云计算中大规模任务调度问题时收敛速度较慢且易陷入局部最优解的缺陷, 设计了一种基于蚁群算法的云计算自适应任务调度算法, 该算法在多态蚁群算法的基础上加入了信息素自适应更新调整机制, 用来提高算法的收敛速度, 有效地避免的局部最优解的出现。实验数据表明, 在解决大规模任务调度问题时本文算法性能更好。

关键词:云计算,任务调度,蚁群算法,自适应

参考文献

[1]刘文.一种定向式挖掘的连续域蚁群算法[J].计算机科学, 2013, 40 (12) :292-294.

[2]张燕, 顾才东.一种求解云计算资源优化的改进蝙蝠算法[J].科技通报, 2014 (11) .

计算机自适应测试研究 篇7

平时测验在语法课教学中起着重要的作用。通过测验, 教师可对教学实施过程监督, 得出形成性评价, 提高课程考核信度。平时测验还可对教学组织进行诊断、总结、导向。

目前, 语法课主要采用纸笔测验 (Paper and Pencil Testing, PPT) 。该测验面向试题, 在这种考试中, 所有被试作答同一试卷。对于每个考生而言, 只有一部分题目与自己真正能力相匹配, 其余的题目要么偏难, 要么偏易, 因此测验结果的准确性受到怀疑。总体而言, 纸笔测验的落后之处主要表现为:不能提供被试更具体的知识掌握情况;考查的项目较多;考试时间必须同定;数据分析不方便;不同测验的结果没有可比性;阅卷费时;测验结果公布不及时等。

因此, 有必要改进语法课的测试方式, 使得测试过程更科学、高效、结果更可信。本文将着重论述自适应测试方法在英语专业语法课平时测验中的应用。

二、自适应测试简介

计算机自适应测验 (Computer Adaptive Testing, 简称CAT) 是面向被试的, 它的基本思想是“因人施测”, 使不同水平被试都能接受一组跟自己特质水平相适应的试题。“所谓‘自适应’就是测验本身要自动地适应被试的具体情况, 在被试作答过程中及时根据作答资料估出被试的可能水平, 并针对这一水平迅速决策, 从大型题库中调取难度恰当、性能优良的题目继续施测。直到施测的题目足够多, 测验信息量累计和达到指定值为止” (秦川, 2008) 。计算机自适应测验的实施必须解决四个问题:1) 题库建设;2) 选题策略;3) 参数估计;4) 测验终止规则 (Howard Wainer, 2000) 。

与以往纸笔测验相比, 自适应测验具有以下优点:第一, 效率高。自适应测验对每个被试可用比常规测验少的试题而获得与之相比更佳的测验效果。在自适应测验中, 高水平和低水平的被试接受与自己水平相当的测验题目, 没有无效试题, 每道试题都是高效的。第二, 效度、信度高。自适应测验提供题目参数的同时, 提供了每一个被试在完成题目时的特质水平。这就使题目参数与被试的特质水平有效地联系起来, 从而使测验具有较高的信度和效度。第三, 测试步调灵活。在自适应考试中, 每个被试的考试长度可能都不一样, 对于每一道题目, 被试都有充分的思考时间, 而不会存在因答题时间不够而产生的测量误差。

三、CAT在语法教学中的应用

1. 确定教学重点

英语专业语法课教学工作量大、课时短。以我校英语专业语法课教学为例, 48课时内要完成《新编英语语法教程》 (章振邦, 2009) 所涵盖的40个单元的教学任务。有鉴于此, 教师在组织教学时, 有必要先对学生的语法知识掌握情况进行摸底了解, 以便确定课堂教学重点。单元前测可以诊断学生的“症候”所在, 为“因材施教”做好准备;单元后测则能检验课堂教学效果, 供师生及时调整教学重点。

在确定教学重点时, 计算机自适应测试较之传统的纸笔测试具有更大的优越性。首先, 通过题库设计, 自适应测试可以准确反映出哪些知识点对学生而言较易、哪些较难。而纸笔测试只能提供被试的最终成绩, 对班级整体对知识点的掌握情况无法提供更为详细的信息。其次, 较之纸笔测试, 自适应测试效率更高, 能迅速统计出被试得分及失分趋势, 帮助教师及时作出判断。比如, 动词的时和体 (tense and aspect) 一直被认为是语法教学的重点, 但经过诊断测试, 我们发现学生对动词时、体的规则掌握扎实, 但在语言输出中的应用情况不令人满意。因此教材中大篇幅的时、体规则便可简化处理, 而动词时、体的交际应用能力则应强化。

2. 了解个体差异

在教学中, 教师和学生都有同感, 大学语法重复了中学阶段的大部分内容。基础好的学生认为大学语法毫无新意, 而基础差的学生则在专业学习中处处碰壁。因此, 教师在面临一个班级整体时, 必须考虑学生的差异需求, 了解不同的学生对知识点的掌握情况, 以使课堂教学更有针对性, 提高效率。

通过“自适应”题库的选题功能, 自适应测试能对题库提供给不同学生作答的题目进行难易度归类分析, 从而了解他们对同一知识点的掌握情况。比如, 针对对虚拟语气这一知识点的单元测试, 有的学生难度较低的题目统统过关, 而对题库提供给他们的虚拟语气中倒装句的使用, 或者含蓄条件句中的虚拟语气, 或者虚拟语气中时态的交叉使用等则显得力不从心。由此, 计算机自适应测试能够为师生提供更为具体、个性化的反馈信息, 帮助教师更好地了解学生的个体差异, 也可帮助学生了解自己的薄弱环节, 而这一点也是纸笔测试难以实现的。

3. 引导未来教学

自适应测验可以根据学生对知识点掌握的不同情况为被试提供不同的测试项目, 并且能对被试所作答的试题进行快速统计分析, 因此自适应测试的反馈信息比纸笔测试更为详细、高效, 师生可以据此及时准确地了解本单元的教学效果, 对以后的教学重点、教学节奏、教学方法进行相应的调整。

例如, 在完成副词单元的教学任务后, 通过自适应测验, 发现课堂教学中对“副词位置对句子意义的影响”讲解速度较快、不够深入, 导致50%的学生在完成2个此类中等难度的题目后题库就不再为被试提供相同测试点难度更大的测验项目。而在所有被试必答的起始题目中, 一个有关副词位置的测试项目全班正确率也只能达到20%。再比如, “兼有两种形式的副词” (如:right, rightly;close, closely) 原定由学生课下自学, 通过自适应测试, 只有25%左右的被试能顺利通关。基于这些测验结果, 教师及时调整这一单元的教学方式, 保证了教学质量。

四、CAT实施建议

1. 系统设计

CAT系统主要实现用户管理、系统管理和考试管理三大功能。用户管理包括考生注册、考生信息查看、修改、删除;教师和管理员的信息录入、修改、删除、查看。题库管理包括增加试题、删除试题、修改试题、浏览试题、查询试题。考试管理是本系统的核心模块, 主要有考生身份认证、抽题、考生能力估计、控制考试结束等功能。

2. 题库建设

题库不仅提供考试的题目, 而且还提供必要的试题参数, 因此它应该是在严格遵循教育测量理论的基础上建立起来的, 建设优质题库是CAT编制中最基础且工作量最大的工程。一定规模的题库是在语法教学中推行CAT所必不可少的, 能否对学生的测验给出一个准确、公平的评价是判断语法题库设计好坏的标准之一。题库由大量具有必要参数的试题有机组合而来, 每道试题除了本身的内容外, 还要具有表征试题属性的编号、知识点、答案、难度、区分度等多种指标, 试题以一定结构存放在题库中。题库不仅要有足够的总题量, 还必须保证各知识点有足够的题量, 一般建议每个概念至少要包含10各试题, 每一单元课程内容至少要包含50题。

3. 成绩分析

在完成计算机测验后, 教师要及时收集数据, 进行归类分析, 总结规律, 发现问题, 据此对教学工作相应地调整。学生也可根据系统提供给自己的反馈信息找出自己的不足之处, 以便指导以后的学习。

五、结语

根据《高等学校英语专业英语教学大纲》 (2000) 要求, 语法作为一门专业基础必修课, 在掌握语言基础知识、培养学生语言能力方面起着重要作用。但随着近年功能语法和交际教学法的兴起, 外语教学更强调在真实或者模拟真实语境下的语言习得, 而对语言基本规则、结构的重视程度逐渐减弱。不少学校英语专业压缩语法课时。而另一方面, 教师们普遍注意到英语专业高年级学生语法功底并不扎实, 影响到学生口头及书面语言输出能力的培养。在这种情况下, 如何能利用有限课时保质高效地上好语法课成为语法教师所必须解决的一个问题。测试作为教学过程的重要环节之一对教学效果有着巨大影响。而计算机自适应测试方法能很好地克服传统纸笔测试的弊端, 有利于提高语法课堂教学效率、因材施教。为保证自适应测试顺利实施过程, 教师必须熟练掌握CAT软件使用方法, 同时要求有较大规模的语法测试题库支持, 在此基础上进行测验结果分析和信息反馈。

摘要:英语专业语法课面临课时少、教学任务重的矛盾。测验作为教学重要环节之一, 对课堂教学有着多方面的影响。计算机自适应测验发挥其“因人施测”的优势, 有效克服纸笔测验效率低、信度低的弊端, 并有助于确定教学重点, 使教学过程更加个性化。

关键词:自适应测试 (CAT) ,英语专业,语法教学,应用

参考文献

[1]高等学校外语专业教学指导委员会英语组.高等学校英语专业英语教学大纲[M].北京:外语教学与研究出版社, 2000.

[2]章振邦.新编英语语法教程 (第5版) [M].上海:上海外语教育出版社, 2009.

[3]Wainer, H. (Ed.) .Computerized Adaptive Testing:A Primer (2nd Edition) [M].Mahwah, NJ:ELawrence Erlbaum Associates, 2000.

上一篇:立柱设计计算下一篇:雷公藤多甙片