属性识别

2024-10-23

属性识别(共8篇)

属性识别 篇1

日常运行的各种程序中存在不同程度的漏洞, 这些大大小小的漏洞是不可避免的。 当今的黑客正是利用各种不同属性的漏洞, 对互联网进行攻击而达到自身的目的。 为了发现这些不同属性的漏洞, 需要对各种程序进行实时扫描, 为存在漏洞的程序打上补丁。 漏洞能否及时地被发现, 对是否能够为存在漏洞的程序打上补丁是十分必要的。 漏洞扫描系统能够预先评估和分析系统中的安全问题, 以找出可以被黑客利用的漏洞[1,2,3]。 漏洞是否能够及时地被发现, 这与漏洞扫描的算法和漏洞的检测算法有很大的关系。 因此提出一种漏洞识别的算法, 该算法是将漏洞属性的相似性, 决策树与决策系统三算法相互有机地融合在一起, 形成一种具有一定智能性的漏洞检测算法, 将相似性算法, 决策树与决策系统在检测漏洞中进行应用是创新之处, 在此提出的算法能够对已有的检测算法起到一定的参考作用和补充作用。 最后, 检测网络漏洞的算法能够提醒网管人员及时地修改错误配置, 修补系统漏洞, 保证网络的运行安全[1,2,3]。

1漏洞扫描和漏洞属性库

1.1定义

软件设计上和代码编写上的缺陷、 网络协议上的缺陷和网络设备配置上的错误等等各种存在的安全隐患, 这些缺陷都可以被称为漏洞。

1.2漏洞的产生

漏洞产生的4大方面的原因是: 软件设计缺陷、 软件代码编写缺陷、 执行环境差异和补丁文件对整个系统的影响[4,5]。

1.3漏洞属性库

一个存储软件安全漏洞属性的数据库, 它能够将漏洞系统进行分解[4,5], 当今的漏洞种类主要有以下几种: 缓冲区溢出安全漏洞的堆或栈空间分配长度和内容填充, 循环内部内存读写边界设定和内存读写内容填充, 整数溢出漏洞的类型设定、 值传递和类型转化, 还有数据来源等关键安全属性等众多类型的漏洞[4,5]。

2漏洞属性匹配函数

2.1漏洞匹配技术分析和讨论

如果存在某些未知的漏洞, 为了判断这些未知属性漏洞的类别, 就必须对这些未知漏洞的属性进行匹配。 如果漏洞属性匹配成功, 则这时漏洞属性匹配程度好, 漏洞的属性也就被识别。 但漏洞属性的匹配程度好, 并不意味着此时的漏洞属性匹配一定成功。 在匹配过程中, 如果A与B的匹配程度较好, 那么A就很像B, 但这并不意味着A就是B。

2.2漏洞匹配函数分析和讨论

(1) 如果未知属性的漏洞的属性值十分接近已知属性漏洞的属性值, 那么这时未知漏洞属性匹配程度较好, 漏洞A与漏洞B很相似。

当时, 则这时未知属性的漏洞与已知属性漏洞匹配成功。

2) 如果f (x)<δ 时, δ 是偏离0的一个很小值, 那么有

当时, 则这时未知属性的漏洞与已知属性漏洞匹配程度较好。

(2) 如果未知属性的漏洞的属性值偏离接近已知属性漏洞的属性值程度较大, 那么这时未知漏洞属性匹配程度较差, 漏洞A与漏洞B的相似性差。

当时, 则这时未知属性的漏洞与已知属性漏洞匹配程度为差, 漏洞匹配不成功。

3决策树在漏洞属性匹配中的应用

3.1决策树技术

决策树是机器学习中的一种智能型算法, 该算法是一种有监督的分类算法, 其通常利用已经标记过的对象进行学习构造模型, 然后用其对新对象进行标记[8,9], 之后利用相应的分类知识对不同类别的实例进行分类。 决策树分类算法对实例进行分类时, 必须根据已有的知识, 采用if-then算法结构对未知的对象进行分类。 进行对象分类时, 决策树根据已有的知识使得未知对象的属性与已知对象之间的误差达到最小[6,7,8,9]。

3.2决策树的判断准则

根据以上关于漏洞属性的研究和分析, 以下使用决策树的分类算法对未知漏洞属性的匹配程度是否好做以下的分类, 如图1所示。

说明: 判断未知漏洞属性匹配程度是否好的条件是:

(1) 当条件f (x)>δ 成立时, 则这时条件的值为N时, 此时未知漏洞的属性匹配程度差, 匹配不成功。

(2) 当条件f (x)<δ 成立时, 则这时条件的值为Y时, 此时未知漏洞的属性匹配程度较好。

(3) δ 为漏洞属性匹配时的阈值, 该阈值与第3节中的阈值为同一个值, δ≈0。

4粗糙集的决策系统

在实际应用中存在一大类任务: 给定一组有特征描述的样本和样本的类别, 需要通过一个学习算法从该组文中学习一个分类函数, 实现从特征到分类的映射。 粗糙集理论中称该数据集为信息系统[6,7]。

定义3.1信息系统可形式化为如下的四元组: IS= 〈U,A, V,f 〉 其中为研究对象的有限集合, 即论域;为描述对象的全部属性所组成的集合, 即属性集;为属性集A的值域, 其中Va为属性a∈A值域; f: U×A→V为信息函数, 表示对每一个x∈U, a∈A, f (x,a)∈Va。 当系统中属性集其中C为条件属性集, D为决策属性时, 该信息系统也被称为决策表[6,7]。

5决策系统在漏洞属性匹配中的应用

在决策系统中, 由于决策条件属性值的不同, 因此产生了不同的决策结果, 这些不同的决策结果能够将不同属性的样例进行有效的分类。 在该系统中条件的属性值决策规则的内涵, 是决策系统做出决策结果的重要决定因数。

(1) 域

(2) 属性集

, 其中表示a1某一种漏洞的属性值, a2未知属性的漏洞偏离该漏洞的属性值, a3表示未知漏洞属性匹配是否成功。

(3) 域

5.1漏洞属性匹配的决策表

在一个决策系统中如果把每一条样例的条件属性值部分作为规则的前件, 把决策属性值部分作为规则的后件, 那么每一条样例都可以看成一条规则[6,7]。 信息系统中的属性集合可以分成两部分, 一部分为条件属性集合, 另一部分为决策属性, 这种信息系统通常称为决策系统或决策表[6,7]。

通过决策树对漏洞分类程度的判断, 选出漏洞属性匹配程好的这一类, 以下使用决策系统对漏洞匹配是否成功做出决策。 在以下的系统决策表中, 条件属性的有: 某一种漏洞的属性值, 未知属性的漏洞偏离该漏洞的属性值。 决策属性有: 该种未知属性的漏洞匹配成功。

说明:(1) 当漏洞的属性为某一种漏洞属性时: 属性值为Y。

(2) 当未知属性的漏洞的属性值偏离该漏洞的属性值为0时: 属性值为Y, 否则属性值为N。

(3) 当1与2的属性值都取Y时: 决策属性的属性值为Y, 否则属性值为N。

5.2未知属性的漏洞是否匹配成功决策规则

(某一种漏洞的属性值, Y)( 未知属性的漏洞偏离该漏洞的属性值, Y)(该种未知属性的漏洞匹配成功, Y)

6未知属性漏洞识别算法

(1) 使用漏洞扫描器扫描出存在的漏洞, 提取漏洞的属性。

(2) 使用文中提出的漏洞属性匹配函数对漏洞的属性进行匹配。

(3) 对匹配的漏洞, 使用决策树对漏洞匹配程度的好与坏进行分类。

(4) 使用粗糙集中的决策系统对未知属性的漏洞是否匹配成功做出决策。

7结语

在当今网络漏洞和系统漏洞是众多的, 未打上补丁的漏洞对网络和用户系统的危害性是相当大的。 为了增强网络的安全性, 网络安全人员需要定期地对漏洞进行扫描, 以此来发现新的未知漏洞。 为了给漏洞打上补丁, 首先必须识别未知的漏洞。 因此在查阅了一些关于漏洞的资料和文献之后, 提出了一种新的识别漏洞属性的算法, 该算法具有一定的智能性能够自动地进行漏洞属性匹配。 将决策系统和决策树在漏洞的匹配上进行应用具有一定的创新性。

摘要:为了检测未知的漏洞,可以采用漏洞属性匹配算法来匹配未知的漏洞。在查阅了有关漏洞的检测算法和扫描算法的文献之后,提出了一种基于决策系统的漏洞属性匹配算法。该检测算法的思想是使用漏洞属性偏离函数对漏洞匹配程度的好坏做出评价,再使用决策树实现对匹配程度的好坏进行分类,如果匹配程度好,决策系统对这次漏洞的匹配是否成功做出决策。

关键词:偏离函数,粗糙集,决策系统,漏洞,决策树

参考文献

[1]陈夕华,李生红.漏洞扫描的中央控管模型研究[J].计算机工程与应用,2004,33:136-138.

[2]文辉,王虎智.网络安全漏洞扫描技术的原理与实现[J].福建电脑,2006,(4):37-38.

[3]高凌雯.网络漏洞扫描原理分析[J].福建电脑,2009,(9):58-59.

[4]龙银香.一种新的漏洞检测系统方案[J].微计算机信息,2005,21(5):228-230.

[5]张晛譞,范明钰.基于模糊度量的软件楼漏洞检测检测技术研究[J].网络安全技术与应用,2010,(4):12-14.

[6]胡清华,于达仁.应用粗糙集计算[M].科学出版书,2012.

[7]陈德刚.模糊粗糙集理论与方法[M].科学出版社,2013.

[8]Tom M.Mitchell.机器学习[M].机械工业出版社,2013.

[9]邵峰晶,于忠清,王金龙,孙仁成,编著.数据挖掘原理与算法[M].科学出版社,2009.

[10]彭洪,张东娜,吴铁峰.恶意程序检测的粗糙集方法[J].计算机应用与软件,2005,22(7):124-125.

[11]张华平,高凯,黄河燕,赵燕平著.大数据搜索与挖掘[M].科学出版社,2014.

[12]段丹青,陈松桥,杨卫平.漏洞扫描与入侵检测联动系统的研究[J].计算机应用研究,2007,24(7):128-130.

属性识别 篇2

摘要:针对当前多级模糊模式识别方法依赖检测时间,对水质进行评价结果不够全面的问题,提出一种基于混合属性的多级模糊模式识别的方法对水质进行较全面评价.该方法综合确定水质各项指标的权重,并结合影响水质的环境因素,实现了可不完全依赖检测时间的`具有预测功能的水质评价,为科学、合理治理水污染提供更准确依据.实例验证表明,该方法水质评价结果合理.作 者:谢志强 张豪 杨静 XIE Zhi-qiang ZHANG Hao YANG Jing 作者单位:谢志强,张豪,XIE Zhi-qiang,ZHANG Hao(哈尔滨理工大学,计算机科学与技术学院,黑龙江,哈尔滨,150080)

杨静,YANG Jing(哈尔滨工程大学,计算机科学与技术学院,黑龙江,哈尔滨,150001)

属性识别 篇3

关键词:粗糙集;图像分割;最大类间方差法;病害识别;黄瓜叶片病斑

中图分类号: TP391.41文献标志码: A文章编号:1002-1302(2015)01-0387-03

收稿日期:2014-03-19

基金项目:河南省郑州市科技攻关(编号:131PPTGG426);安徽省自然科学基金(编号:1208085MF94、1208085MF98);河南省科技攻关(编号:142102310518);河南省教育厅科学技术研究重点项目(编号:14B520064)。

通信作者:张会敏(1981—),女,河南漯河人,讲师,研究方向为计算机应用技术。E-mail:zhangshanwen1965@163.com。作物病害严重影响我国农业生产的产量和质量。及时、快速地发现并识别农作物病害对正确地采取相应措施防治病害、减少病害带来的损失具有重要意义。但由于实际病害叶片的形状、纹理和颜色多种多样,使得从叶片图像中提取的病害分类特征也各种各样,各种特征对病害识别的贡献不同,因此需要进行特征选择[1]。粗糙集(rough sets,RS)是一种经典的特征选择方法,能够直接从给定问题的描述集出发,通过不可分辨关系和等价关系类给出问题的近似域,从而得到该问题的内在规律。多年来,RS已被成功应用于人工智能、模式识别、智能控制、机器学习、信息处理、数据挖掘、医疗诊断、专家系统以及决策分析等领域[2-3]。属性约简是RS的一个重要应用[4],基于RS的属性约简是在保持信息系统分类或决策能力不变的前提下,通过对知识的化简,导出分类问题的分类规则和决策。基于区分矩阵的属性约简策略是建立在两两互异目标上属性集合的区分矩阵[5]。区分矩阵的元素代表能够区分2个目标的属性组合。实际应用中可以将区分矩阵中出现次数多少作为属性重要性的判断依据,即出现次数越多的属性的重要性越大。本试验在研究作物病害叶片图像分割的基础上,将基于区分矩阵的属性约简策略应用于病害叶片图像分类特征选择中,提出了一种有效的作物病害识别方法。

1作物病害叶片图像特征提取

作物病害叶片病斑图像分割是病害识别的一个重要步骤。最大类间方差(Otsu)阈值法因其分割精度高、适用范围广而成为广泛采用的一种图像阈值分割方法[6],其原理是:将病害叶片图像像素分为病斑和正常2类,再通过计算划分出2类病害的类间方差值,若类间方差值小于某一给定值,合并初始划分的2类。然后计算此时所有类的类间方差值和分离因素的F值,若F值大于某个给定值,则退出该算法;否则,就按顺序在已存在的类中继续对图像分割。最后得到叶片病斑图像。

由于实际得到的病害叶片图像为RGB模式,该色彩模式对光照比较敏感,而HIS色彩模式能够克服采集过程中光照对病害识别率的影响,因此在作物病害识别中须要将RGB转换成HIS,HIS颜色模型反映了人的视觉对色彩的感觉[7-8]。由RGB转换HIS的公式如下:

I=(R+G+B)/3

S=1-3(R+G+B)[min(R,G,B)]

H=θG≥B

θ-2πG

式中:θ=arccos[(R-G)+R-B]/2(R-G)2+(R-B)(G-B)。

在本试验中,利用Matlab中的Imread函数分别提取彩色叶片图像中R、G、B 3个通道的图像,再利用式(1)将其转换为H、I、S模式。然后,采用Otsu阈值法分别将H、I、S图像转换为二值化图像,以提取叶片病斑区域。不妨将得到的病斑二值化图像仍记为H、I、S。

为了得到能区分作物病害的颜色特征值,分别计算病害叶片图像R、G、B分量和分割后的病斑图像的H、I、S分量的均值、方差、偏度、峰值、能量、熵,共6×6=36个统计特征参数[9]。计算公式如下:

p(b)=h(b)/s

b=∑b=1bp(b)

bk=1/δ3∑(b-b)3p(b)

δ2=∑b=1(b-b)2p(b)

bF=1/δ4∑b=1(b-b)4p(b)-3

bN=∑b=1[p(b)]2

bE=∑b=1p(b)lg[p(b)]。(2)

式中,p(b)为灰度级,h(b)为直方图,s为图像的面积,b为灰度均值,b为b的均值、bk为偏度,bF为峰值,bN为能量,bE为熵。

若直接把提取的36个病害图像特征参数用于构建病害识别模型,则识别效果的稳定性较差,因为各个特征对识别结果的贡献不同,有些特征甚至会影响识别结果。因此,须要对得到的特征进行选择。笔者使用基于区分矩阵的属性约简方法对得到的36个特征进行选择。

2基于区分矩阵的属性约简方法

基于区分矩阵的属性约简方法基本思想:将属性在区分矩阵中出现的次数作为目标属性的重要性判断函数。计算各属性的重要性判断函数f,由此可以确定第1个重要属性,此时重要属性的判断函数f值最大。在第1个重要属性简单求出后,进一步快速简单地求出后续的重要属性。设决策表S的核值集合为Core,其属性约简过程如下:

输入S的属性约简矩阵RM;输出S的属性约简Redu;

(1)初始化,令Redu=Core,H=;

nlc202309011120

(2)令Q={RM(aj)|aj∈Redu或AFI(aj)=0},则RM=RM-Q,B=A-Redu-H;

(3)对aj∈B,计算f(aj)=Max{ak},(k=1,2,…,m),其中f(x)为属性重要性判断函数;

(4)Redu←Redu∪{aj};

(5)对每个aj∈B,令H2(aj)∩RM(ak),H3(aj)=|H2(aj)|;

(6)对所有aj∈B,令RM(aj)←RM(aj)-H2(aj),f(aj)←f(aj)-H3(aj);若f(ak)=0,则H1=∪{ak};

(7)重复步骤(2)~(6),直到判断函数AFI为零向量;

(8)输出Redu 。Redu为信息表的一个属性约简。

3基于病害叶片的作物病害识别方法

由以上分析可得作物病害识别步骤如下:

(1)将采集到的每幅病害叶片图像转换为HIS模式;

(2)采用Otsu阈值法分别将叶片图像的H、I、S分量进行病斑分割,再转换为二值化图像,不妨还记为H、I、S;

(3)利用式(2)分别提取H、I、S的36个分类特征,得到一个特征向量,然后生成包括条件属性集合和结论属性集合的满足粗糙集数据处理要求的二维关系规则表;

(4)将关系表中的每类特征属性进行归一化和离散化处理;

(5)利用基于区分矩阵的属性约简方法对关系表进行属性约简,依次消去可省略的属性(列)和合并重复的对象(行),再对每一个对象进行简化,消去冗余的属性值;

(6)根据一定的评选准则选取有效识别规则的属性简化表,最终获得优选的最简单判定规则;

(7)利用最近邻分类器对植物病害进行识别。该分类器的基本思路是计算待测试样本与训练样本之间的欧式距离的最小值,由此确定待识别测试样本的类别。

4结果与分析

为了验证本研究提出的作物病害识别方法,采集温室黄瓜常见的细菌性角斑病、黄瓜炭疽病和黄瓜褐斑病的病害叶片各100幅,其中50幅图像作为训练集,其余50幅作为测试集。本研究所使用的病害样本图像均是在陕西杨凌农业示范区科学园黄瓜温室采集得到的,黄瓜品种为中农26号。以白色为背景色,在自然光照的非强光条件下对自然发病的黄瓜叶片进行图像采集得到黄瓜病害叶片图像。以Matlab 7.X软件中自带的图像处理工具箱为图像处理和分析平台,计算以上特征参数,数据统计分析采用常用统计分析SAS软件。

采用Otsu阈值法分别将病害叶片进行病斑分割,分割定位待识别的黄瓜叶片病害部分病斑,利用式(2)提取病害叶片病斑的36个分类特征。图1为3种黄瓜病害叶片图像及对应的分割病斑图像的H分量。

首先将得到的36个特征进行离散化,即把每个特征划分成有限个区域,本试验中取5个区域,使得每个区域中对象的决策值相同。然后利用基于区分矩阵的属性约简方法对这36个特征进行属性约简,得到6个重要的属性,分别为病斑分量H的均值、方差、能量,病斑分量I的均值,病斑分量S的方差和能量。再将这6个属性组成一个特征向量来表示这个样本。最后利用最近邻分类器对病害种类进行分类,结果见表1。为了说明本研究所提出方法的有效性,表1中给出了基于全部36个特征和基于其他2种方法[10-11]的识别结果。由表1看出,本研究提出的方法的识别率最高,对黄瓜褐斑病的识别率高达94.26%,表明该方法用于黄瓜叶部病害图像识别是有效可行的。

表1不同黄瓜病害识别方法的识别结果

方法识别率(%)36个特征识别法78.59文献[10]82.88文献[11]90.35本研究所提出的方法94.26

叶片图像采集和识别试验结果显示:(1)病害识别中并非特征越多越好,应对识别特征进行优化组合或特征选择;(2)即使同一病害样本在不同成像环境下拍摄,图像特征向量也会存在一定差异;(3)不同黄瓜品种、不同发病时期的病症表现差异较大。这些差异应与识别效果相结合,可以通过制定图像的采集规范予以解决。

5结论

本研究利用最大类间方差法分割黄瓜病斑图像,再提取病斑图像的36个特征,然后利用粗糙集对36个特征进行属性约简,得到6个重要特征,最后利用最近邻分类器对病害进行分类。该方法提取病斑具有操作简单、分割效果好的特点。本试验结果表明该方法是有效可行的。由于病害叶片拍摄状态和光照等环境因素对颜色特征存在影响,发病程度及病斑的典型性也可能对识别准确率有影响,这些因素对拍摄照片中颜色特征的定量关系有待进一步研究。对于某些颜色、形状特征非常相似的其他黄瓜病症,还应进一步提取病斑的颜色、形状和纹理等特征,综合考虑决定黄瓜病害症状的物理特征,以实现对病害的有效识别。

参考文献:

[1]李旺,唐少先. 基于图像处理的农作物病害识别研究现状[J]. 湖南农机,2012,39(1):176-178.

[2]Qian Y H,Liang J Y,Pedrycz W,et al. An efficient accelerator for attribute reduction from incomplete data in rough set framework[J]. Pattern Recognition,2011,44(8):1658-1670.

[3]胡可云,陆玉昌,石纯一. 粗糙集理论及其应用进展[J]. 清华大学学报:自然科学版,2001,41(1):64-68.

[4]樊持杰,陈丽敏,夏春艳. 基于RS的属性约简算法[J]. 微计算机信息,2010,26(2):222-223.

[5]李智玲,胡彧. 一种改进的区分矩阵属性约简算法[J]. 计算机系统应用,2008,17(10):51-55.

[6]王祥科,郑志强. Otsu多阈值快速分割算法及其在彩色图像中的应用[J]. 计算机应用,2006,26(增刊1):14-15.

[7]虎晓红,李炳军,席磊. 基于多示例图的小麦叶部病害分割方法[J]. 农业工程学报,2012,28(13):154-159.

[8]Tushar H J, Ravindra D B, Prashant G P. Crop disease detection using image segmentation[J]. World Journal of Science and Technology,2012,2(4): 190-194.

[9]Revathi P,Revathi R. Knowledge discovery in diagnose of crop diseases using machine learning techniques[J]. International Journal of Engineering Science and Technology,2011,3(9): 7187-7190.

[10]岑喆鑫,李宝聚,石延霞,等. 基于彩色图像颜色统计特征的黄瓜炭疽病和褐斑病的识别研究[J]. 园艺学报,2007,34(6):1425-1430.

[11]贾建楠,吉海彦. 基于病斑形状和神经网络的黄瓜病害识别[J]. 农业工程学报,2013,29(增刊1):115-121.于翰林,卢泽民,朱咏莉. 基于嵌入式Web服务器的pH值检测系统的设计[J]. 江苏农业科学,2015,43(1):390-393.

基于属性模式的实体识别框架 篇4

实体识别就是判别来自一个数据源或多个数据源的描述是否指向同一个实体。此问题由来已久,现已提出很多方法。解决实体识别问题所利用的信息可分为两类,属性特征信息和关系信息。基于属性特征的方法最简单、使用得也最多,但却因属性信息有限,在某些情况下并不足以提供高置信度的判断结论。越来越多的方法开始利用属性的关系或规则进行实体识别,但利用这种关系的方式却各不相同,导致缺乏通用性。对每个实体识别问题都需要重新设计解决方案也必将是低效的,因而需要开展研究,予以改进。

本文将不同属性与实体的关系模式概括为四种类型,通过模式类型决定相似度计算策略,再根据属性的格式决定基本的相似度计算函数。系统将多个属性的相似度组织成向量的形式表示,通过监督学习的方法形成判决器,最后在实体关系图上完成迭代划分。

1相关研究

文献[1,2]研究了相似函数选择和阈值确定问题。通过发现相似函数和阈值的冗余,去除不合适的相似函数和阈值设置。为了有效整合多种方法的优点,文献[3]提出了一种按有监督学习的结果聚类分配权重的方法,为权重分配提供了新的思路,但选择作为聚类的特征是经验性的,是否可以推广尚未确定。文献[4]设计了一个领域无关的实体识别系统,可以通过学习的方式对数据的格式进行转化,以满足识别系统进行比较的需要。文献[5]研究了利用合作者集合的相关性的方法,实验证明其优于一般的非整体分析的方法。

2基于属性模式的实体识别框架介绍

系统结构如图1所示,主要分为以下几个部分:

( 1) 相似度度量策略形成模块。该模块通过属性的模式和数据格式自动地选择相似度函数,形成相似度度量策略。

( 2) 相似度计算模块。该模块按照选择的相似度函数计算实体对的相似度。

( 3) 判决器模块。该模块在训练阶段统计实体对的相似度分布情况,在实体划分阶段辅助判断。

( 4) 实体关系图。实体划分阶段在实体关系图上迭代进行,每次完成实体合并以后,重新计算经过调整的实体对的相似度,直到所有相似边都处理完毕,实体划分结束。

3系统各部分的实现

实体识别问题模型可描述为,假设A =[a1a2…an]是一个关系表的属性集合,r表示R中一条记录,r[ai]表示记录r的属性ai的值。需要识别的对象称为实体,实体集合为O = { o1o2,…,o| o |} ,记录中的每个属性是实体的一个描述,一条记录描述的实体表示为r. o。实体识别的过程一般是通过比较两条记录的相似度sim( ri,rj) ,判断记录指代的是否为同一实体,即ri. o和rj. o是否相同。

3. 1相似度计算策略的形成

为了实现系统的通用性,相似度计算策略必须领域无关地进行。为此分析了实体与属性间的关系,按其特点进行了分类。利用各属性的模式可以确定相似度计算的方法。

实体的属性对于实体有特定的含义。如汽车作为实体,汽车的名称、颜色是汽车的固有特征,不会发生变动,而汽车的价格却可能发生变化,车牌号是与汽车一一对应的标示。论文作者作为实体,作者名称是作者的固有特征,而论文名、论文发表的会议、合作者、时间等都可能发生变化,如图2所示。

定义1属性的模式实体识别中,实体属性与实体数量的对应关系称为属性的模式。

类似关系数据库中实体之间的数量对应关系,本文中的模式也分为4类。不同的模式决定了该属性在实体识别中的作用,如表1所示。表中,Agree/DisAgree表示属性值是否一致,Yes/No表示肯定的是/否判断。

实体与属性间的关系判断过程如下:

( 1) if ri[ak]= rj[ak]then ri. o = rj. o,else ri. o≠rj. o。属性值相同则一定是同一实体,不同则一定不是同一实体。如表示实体身份的ID,相当于主键的作用,实体识别问题正是缺少这样的属性值。

( 2) if ri[ak]= rj[ak]then ri. o ~ rj. o,else ri. o≠rj. o。属性值相同可能是同一实体,不同则不是同一实体。比如汽车的颜色,每辆汽车的颜色是固定的一种,但不是独有的,其他汽车也可能有这样的颜色。此类属性是实体的固有特征,可以通过其不同来区分两个实体。

( 3) if ri[ak]= rj[ak]then ri. o = rj. o,else ri. o≠rj. o。属性值相同则是同一实体,不同则无法判断是否同一实体。比如研究者撰写的论文,一个人会写多篇论文,且论文是没有重复的。此类属性为实体特有,且实体还可能拥有多个此属性值,主要在其相同时发挥作用。

( 4) if ri[ak]= rj[ak]then ri. o ~ rj. o,else ri. o≠rj. o 。属性值相同可能是同一实体,不同则无法判断。比如研究者参加会议,一个研究者可能参加很多会议,这个会议也有很多不同的研究者参加。类似的属性还有研究者的合作者。

按照属性的模式类型可以给出更通用的相似度计算方法。类型I和类型II中,属性与实体对应关系简单,直接比较属性值是否精确匹配,即可对实体是否匹配做出精准判别。类型III和类型IV中,属性与实体间是多对一和多对多的关系,即一实体含有的此类属性值能构成一个集合。简单的精确匹配已经不能充分利用属性值包含的信息。但在通常情况下,集合内的属性值之间是彼此联系的,比如论文、会议的领域性,合作者间的群体性等。利用这类关系信息可以发现更多实体间的相似性。杰卡德相似度可以用来衡量集合之间的联系。但仍在预期随着实体集合的扩大,能有更多相关性得到发现,式( 1) 就可以保证当其中一个集合扩大后, 两集合的相关性不会因此减小。具体公式为:

若实体识别的对象是论文作者,则论文名是第III类属性。若两篇论文的领域比较接近,则其更可能是同一实体。 文章的标题含有多个单词,需要过滤掉其中的非关键字,而标题的关键字集合为T,可通过式( 1) 计算论文题目之间的关联性。

计算第IV类属性的相关度主要分为两部分,第一部分是求得单值之间的相关性,第二部分是求取集合的相关性。

会议是实体的第IV类属性。若两研究者参加的是同一领域的会议,则其更可能为同一实体。若会议包含的作者集合为会议ci和cj间的相关性sc( ci,cj) ,其计算如式( 2) 所示,最终作者a1和a2参加的会议集合间的相关性fC( C1, C2) ,其计算则如式( 3) 所示:

同理,合作者也是实体的第IV类属性,可利用以上方法计算其相关度。按照属性的模式选择对应的相似度计算函数,可以简化问题模型,使系统更具通用性。

相同类型的属性对实体识别的贡献由属性值的值域范围决定。

定义2相遇度属性的相遇度是指实体拥有该属性一个确切值的概率。一般情况下,相遇度与属性值集合的大小成反比,即属性值的范围越大,该属性值相对于实体的相遇度越低。

相遇度可以粗略衡量属性对实体识别的贡献。以论文作者为实体识别的对象而言,作者包含的属性包括作者参加的会议和论文的合作者。假设作者数量为n,会议数量为m, 作者与会议的相遇度为1/( n × m) ,同理,作者与合作者的相遇度为1/( n × n) ,一般 。两个作者拥有共同的合作者的情形比两作者参加过同一会议的情形更可能代表其是同一作者。所以合作者的相遇度比会议更小,更适用于识别问题。

属性的重要性可由属性的模式和相遇度共同决定。不同模式的属性在实体识别问题中的优先级排序为: I > II > III > IV,同一种模式的属性可通过相遇度大小进行比较。

要生成相似度计算策略,需要知道属性的类型以及属性的模式,属性的模式可以通过训练数据发现。属性的类型需要通过输入指定,根据属性的类型可以确定基本的比较函数。如基本的数据类型有字符串型( String) ,数值型( num- ber) ,日期( Date) ,文本( Text) ,姓名( Name) ,邮件( Email) , 地址( Address) 等。基本的数据比较已经有很多成熟的函数,因而可以直接调用。

3. 2判决器模块的设计

判决器是框架中的一个重要模块,完成对实体的相似度分布情况的统计操作。可将记录的每一属性当作实体的一个维度,根据属性模式选取一些重要属性进行相似度计算。 fk( ri,rj) 表示计算记录i和记录j的属性k的相似度,则实体对的相似度可表示为:

判断器是相似空间的一个划分,每个子区域称为判决单元,记为cell。一种均匀划分的方法如下: 对k维相似度空间的每一维均划分为m个子区域,则第i维的第n个区域可表示成 ,ni∈[0,m - 1]且ni∈N,故可将相似度空间划分为mk个cell。

每个判决单元分别包含正计数器P和负计数器N。在学习阶段,每个实体对的相似向量F落在相应cell中,若该实体对为同一实体,则该cell的正计数器P加1,否则负计数器N加1。P/P + N即为该区域判断为同一实体的概率,支持度越接近于1说明实体对越可能是同一实体。所以判断器是一个k维向量到[0,1]区间的数学映射。

3. 3实体划分算法

实体划分在实体关系图上进行。实体关系图的顶点表示记录,边表示实体对间的相似度,通过边的操作进行实体划分。

关系图的顶点分为两类,一类是原始顶点,其中只包含一条记录; 另一类是划分过程中新形成的点,称为超点,超点带有表示实体的标签,且包含此实体的记录的集合。边e代表的是实体对间存在相似,边的权值为相似向量。原始关系图中仅含原始顶点,当所有实体对的相似向量计算完毕,并建立起原始关系图后,就可开始进行实体划分了。

实体划分算法主要过程为: 从未标记边中选择相似度最大的边,查询判决器,若大于判断阈值,则判为同一实体,合并相关顶点,即CLUSTER操作,有关边的相似度则需要进行重新计算; 否则即对边做暂时标记。继续在剩下未标记边中寻找相似度值最大的边,重复此过程。当没有未标记边剩余时,再对标记边进行拆分操作SPLIT,直到无边剩余。

CLUSTER操作主要是对顶点进行合并或创建。当边的对象( e. O) 与端点标签相同时进行合并,否则就需要新建顶点。具体操作如表2所示。其中,边所连接的记录为x和y, 记录所在的顶点分别为u,v。顶点调整过程中,特别当顶点包含的记录增多后,顶点的属性集合增大,此属性的相关度也可能增大,此时需要重新计算有关边的相似度。

SPLIT操作主要是对边进行拆分,仅当边的对象与两端点的标签不一致时,需要创建代表新实体的超点,其他情况则无需修改端点的内容。

如有数据表,其属性为A =[conference | year | title | au- thor],如表3所示。一条记录中包含了多个作者。

若以作者为实体识别的对象,则根据模式首先按作者姓名的相似度形成待判断的实体对,以无向图的形式表示实体间的关系。图3展示了对表3中作者的划分过程。图3( a) 表示的是原始实体关系图。首先选择相似度最大的R3和R4记录对中的Bob,发现其匹配概率大于判断阈值,则进行合并; 同时Jim也被判定为同一实体,分别创建了2个新点, 一个代表Bob,一个代表Jim,如图3( b) 所示。重新计算有关边的相似度,但此时R1和R3、R4间关于Bob的相似度还是没有增加。计算R1和R2所连接的边Peter,发现其匹配概率大于阈值,则R1和R2进行合并,如图3( c) 所示。这时重新计算Bob边的相似度,此时有共同的合作者Jean,相似度增大,大于判断阈值,因此进行合并。Bob包含了记录R1、 R2和R3,最后Jean也被认为是同一实体,如图3( d) 所示。

4实验结果与分析

为了验证框架的有效性,编程实现了有关算法,并对结果进行了评价。操作系统为Windows XP,2GB内存,2. 45GHz主频,开发工具为Code: : Blocks 8. 02,编程语言为C + + 。

实验中,采用的数据是DBLP中的论文信息。记录包含作者A,论文名T,会议C,发表时间Y等,实体识别的对象是论文作者,由于作者名包含多个作者,是一个多值字段,则分为了作者和合作者两部分。总共1 084条记录,其中,860条用作训练数据,剩余224条用作测试数据,数据共计100KB。

实验结果则采用关于实体对的准确率( Precious) 、召回率( Recall) 和调和平均F - score进行评价。令实际为同一实体的实体对集合为S,实验判断为同一实体的实体对的集合为R,则准确率 ,召回率 ,调和平均 。

为了比较各个属性对实体识别的作用效果,采用了限定属性的方法。判断阈值 α =0. 9,实验结果如图4所示,横坐标字母代表的是计算相似度时使用的属性。其中,仅计算名字和会议的相似度时,其召回率只有25. 6%,准确率为87. 2% 。仅计算名字和论文标题时,召回率为43. 7% ,准确率为89. 3% 。而名字和合作者组合时的召回率为38. 4% ,准确率为94. 7%。单个属性对实体识别的贡献来看,合作者的准确率较高,标题的召回率较高。多个属性组合可以明显提高结果召唤率。名字、会议、标题、合作者的组合时准确率为97. 1% ,召回率为91. 7% ,调和平均为94. 7% ,均为最好结果。实验结果说明,文中设计的框架可以有效综合各种属性的信息。

特别地,选取上述第6组实验中部分具体实例的实验结果,如表4所示。当重名的实体数较少时,实验结果更好。 原因之一是这类作者的合作者较少,而合作者中一般都是相同的作者,相同实体容易得到识别; 又由于发表文章较少,文章标题之间的关键词和会议重合几率都比较低,不同实体间容易区分。

5结束语

属性识别 篇5

美欧等发达国家早在20世纪60年代就开始重视公路养护质量管理,其中,美国在养护管理系统(MMS)中提出了公路养护质量的概念;1980年,英国运输部颁布了《干线公路管理和养护说明》,提及了公路养护质量评价方法。我国先后颁布并修订了《公路养护质量检查评定标准》和《高速公路养护质量检评方法》,建立了公路各组成部分的养护质量评价体系,但尚未形成一套完整的综合评价体系[1~3]。本文探讨了公路养护质量综合评价的指标体系,并以属性识别理论为基础,对公路养护质量的综合评价方法进行研究,为公路养护管理工作提供一些参考。

1 公路养护质量评价指标体系

1.1 指标体系的建立

公路养护质量评价是公路养护管理工作的重要组成部分,其评价结果直接影响公路管理、养护经费及养护对策的制定等多个方面。由于公路养护的对象有着广泛性的特点,除道路、桥涵、隧道之外,还包括交通工程及沿线设施,绿化以及环保等方面,因此建立一个全面、合理的多因素公路养护质量评价指标体系是十分必要的[4,5,6,7]。

本文通过对公路各组成部分的分析,采用层次分析法,构建了一个3层次的公路养护质量评价指标体系,分别为目标层、准则层和指标层,指标层中定量指标与定性指标相结合,各评价指标间相对独立。建立评价指标体系的层次结构见表1。

评价指标应尽可能通过资料调查进行量化,例如:横向力系数、车辙深度、桥梁承载力、绿化覆盖率等指标,可以根据评价指标的定义,按照公路沿线的实际调查情况确定相应的指标值。而各种桥梁构件的缺损状况、标志标线等指标难以直接客观量化,本文建议采用集体经验判断法来对指标进行量化。集体经验判断法是由一定数量的从事公路养护管理工作的技术人员在一起讨论,各抒己见,根据指标定量化标准,确定不同的指标得分值,然后求出相应指标值的平均值,作为评价指标定量化的最后结果。

1.2 指标权重的确定

指标权重的确定是在评价过程中对评价对象的不同评价指标的重要程度的定量分配,即对各评价指标在总体评价中的作用进行区别对待。公路养护质量综合评价系统是一个复杂的多指标体系,本文建议利用层次分析法确定公路养护质量评价中各指标的权重。

层次分析法能把复杂系统的决策思维进行层次化,把决策过程中定性和定量的因素有机地结合起来,通过调查评价指标对评价对象的贡献程度来确定评价指标的排序并建立判断矩阵,本文建议采用1~3标度法建立判断矩阵,比较标度表见表2。

对每一层次各元素的相对重要性给出判断,对各相关元素进行两两比较评分,可得到若干两两比较判断矩阵,构造判断矩阵A。矩阵中aij表示对A元素而言,ai与aj重要度的标值。例如aij=1表示ai与aj的重要度相等。

在判断矩阵的基础上,计算判断矩阵的最大特征根及相应的特征向量,即对判断矩阵A计算满足AW=λmaxW的特征根和特征向量。这里λmax为A的最大特征根,W为对应于λmax的规范化特征向量。

为防止判断矩阵偏离一致性影响,最终决策需要检验判断矩阵的一致性,当判断矩阵的随机一致性指标小于0.1时,矩阵具有满意的一致性,否则需要调整判断矩阵[8]。

显然,可以用wi作为评价指标Xi的权重。

2 公路养护质量评价模型

公路养护质量评价的目的是确定养护的目标是否达到,养护是否合理有效,通过分析评价找出成败的原因,总结经验教训,并通过及时有效的信息反馈,为进一步的养护决策提出建议,从而达到提高养护质量的目的。属性识别理论在工程建设、环境评价等项目中广泛应用,评价结果客观有效[9]。本文利用属性识别理论对公路养护质量进行评价。

2.1 单指标属性测度分析

设X为公路养护质量评价对象空间,对X中的每一个评价元素x要测量m个指标I1,…,Im。对X中元素的评价集为(C1,C2,…,CK),CK(1≤k≤K)为评价等级或评价类。单指标评价划分类别标准见表3。

设x的第i个指标值为t,由表3确定单指标属性测度函数μxik(t)。在表3中aik满足ai0ai1>…>ai K。

假定ai0

2.2 多指标综合属性测度分析

在公路养护综合评价中,每个指标所起的作用是不同的,参照上节层次分析法获取各评价指标的权重向量,假定利用单指标属性测度分析得指标xi的属性测度为(μx1,μx2,…,μx K),属性测度矩阵为

则多指标综合评价的属性测度向量为

2.3 属性识别及养护决策模型

属性识别分析的目的是由属性测度μxk,1≤k≤K,对x属于哪一个评价级别作出判断,进而做出相应的养护决策。本文利用属性识别准则确定养护质量评价等级及养护措施。

假设公路养护质量评价及养护决策的评价标准如表4所示。

则利用多指标综合属性测度分析子系统中计算出的综合属性测度及综合评价的评价标准,计算该评价对象的评分为:

公路养护评价标准等级与养护分级相对应,评分结果既可以为养护决策提供直观参考,又可以为下一层次的评价提供数据支持,方便进一步评价。

3 工程应用实例

国内某高速公路是我国的重点交通建设项目,双向4车道,路面结构类型为沥青混凝土路面,应用属性识别理论模型对其养护质量进行评价。限于篇幅,本文以路面养护质量评价为例,详细说明属性识别理论在公路养护质量评价中的应用。

路面状况指数PCI,即通过路面破损状况的调查全面掌握路面出现的病害情况,对其进行量化,具体PCI值可按照《公路养护技术规范》的相关要求进行调查计算得到。

路面强度指数SSI,为路面容许弯沉与实测代表弯沉之比,主要用于评价路面结构的承载能力,以确定必要的养护措施。

行驶质量指标RQI,行驶质量用纵向的平整度来评价,RQI=11.5-0.75×IRI,其中,IRI为国际平整度指数。

横向力系数SFC,是反映道路抗滑能力的一个重要指标,可采用横向力系数测定仪测定。

借鉴公路养护质量评价中常用的评价标准,本文制定了路面养护质量评价指标的分级标准,详见表5。公路养护质量其余各评价因子的评价标准的制定与之相近,在此不再赘述。

对评价路段的路面指标的实测数据计算结果见表6。

根据专家调查意见,利用3标度法建立路面养护质量4评价指标的判断矩阵,经检验,判断矩阵具有良好的一致性,计算得出指标权重向量为:

由公式(1)~(5)可求得多指标测度评价矩阵:

由公式(6)可求得评价路段公路养护质量的综合测度评价向量:

高速公路路面养护质量评价及养护决策标准如表7所示:

由公式(7)可求得评价路段公路养护质量的评价结果为81.4,评价等级为良好,需要进行预防性养护。由于评价得分为良好级中的较低值,需密切注意路面使用状况,及时采取有效措施,有力保障公路的良好使用性能。评价结果客观地反映了该段公路工程养护质量的实际情况,有效地指导了养护部门工作的实施。

4 结语

随着我国公路建设事业的发展,公路养护逐渐成为道路工作者认真对待和研究的重要课题。本文根据公路养护的特点,建立了公路养护质量评价指标体系,利用层次分析法确定公路养护质量评价中各指标权重,构建了公路养护质量评价体系的属性识别模型,通过工程实例验证表明,该模型可以有效地衡量评估公路的养护质量,为养护决策提供参考。

摘要:通过对公路养护质量要求的分析,建立了公路养护质量综合评价的指标体系,利用层次分析法确定评价指标权重。基于属性识别理论,构建了公路养护质量的综合评价模型,最后结合工程实例对该模型进行了验证。结果表明,属性识别模型能够客观有效地评价公路养护质量。

关键词:公路养护,养护质量,层次分析法,属性识别,评价体系

参考文献

[1]杨强,陈长,孙立军.高速公路沥青路面养护质量评价方法研究[J].交通标准化,2008,(Z1):76-80.

[2]徐强.高速公路沥青路面预防性养护评价体系研究[J].中外公路,2009,29(03):64-68.

[3]范跃武,李小重.英国公路养护规范及路况检测评价方法[J].中外公路,1999,19(04):51-55.

[4]崔亚萍,张捷,张江影.高速公路沥青路面养护质量评价方法的探讨[J].中外公路,2008,28(04):70-73.

[5]王芳,苏小军,胡兴华.高速公路养护及服务质量评价指标体系研究[J].重庆交通大学学报,2009,28(3):600-603.

[6]赵吉广,陆键,项乔君.高等级公路养护质量评价体系研究[J].公路交通科技,2006,23(04):1-6.

[7]JTJ073.2—2001公路沥青路面养护技术规范[S].

[8]王莲芬,许树柏.层次分析法引论[M].北京:人民大学出版社,1990.

属性识别 篇6

油气管道建设项目具有投资额大、建设期长、技术复杂、涉及专业多的特点,且石油天然气具有易燃易爆有毒等特性,风险较大。因此,如果不能有效地对质量风险因素进行管理及控制,油气管道施工项目质量将会遭到损害,项目也就无法如期交付[1]。 所以,油气长输管道的施工质量风险管控具有重要意义。

目前油气管道风险管理的研究领域主要集中于管道运行维护阶段,该阶段的风险评价方法主要有半定量[2,3]和定量评价方法[4,5],柳红卫[2]将半定量风险评估方法运用在了城市天然气管道上; 田娜等人[3]提出了灰色关联分析法在油气管道半定量风险评价中的应用; 马剑林等人[4]、张华兵等人[5]对油气长输管道定量风险评价方法进行了研究。而在管道设计、施工阶段风险管理的研究还较少。因此,本文提出采用组合赋权识别模型评价油气管道的施工质量风险,以期为项目的风险管理提供决策依据并为进一步完善油气管道施工企业项目质量管理体系提供参考。其主要步骤为: 首先采用属性识别理论判定管道施工质量降低的可能性等级。其中,为了克服单一赋权法的不足,采用组合赋权模型将熵权法与G1法所得权重进行有机融合得到指标的权重值。然后借鉴专家意见判定管道施工质量降低的后果等级。最后依据风险矩阵得到管道施工质量的风险等级。

1油气管道施工质量风险因素

结合油气管道施工项目的工程特点和管理特征,油气管道施工项目的前提、假设和制约因素,油气管道施工项目规划,油气管道施工项目质量管理体系,油气管道施工项目常见风险的种类,并参考油气管道施工项目相关资料[6,7]与规范[8,9],识别出了影响油气管道施工项目质量的风险要素。如表1所示。

2组合赋权属性识别模型

2.1属性空间矩阵的建立

设X为研究对象的全体,F为X中某类属性, 则F称为最大属性集。令X = { 油气管道施工质量风险因素} ,则F = { 材料保管情况} ,C1= { 好} ,C2= { 较好} ,C3= { 中} ,C4= { 较差} ,C5= { 差} 称为属性空间F的一个属性集。在研究对象空间X取i个样本x1,x2,…,xi,1≤i≤n。对每个样本要测量j个指标I1,I2,…,Ij,1≤j≤m。用xji表示第i个样本第j个评估指标的测度值,即风险因素的评分值 ( C1,C2,…,Ck) 为属性空间F的有序分割类,即某管段的施工质量类别,且满足C1> C2> … > Ck,每个指标的 分类标准 已知,写成属性 分级标准 矩阵为[10]:

ajk为第j个指标在属性空间F上的第k个分割值; 分类标准的指标值ajk满足aj1> aj2> … > ajk。

2.2样品属性测度的计算

设x为X中的一个元素,A为一个属性值,用“ ∈ A”表示“x具有属性A”。但“x ∈ A”仅仅是定性的描述,所以需要进一步定量地刻画“x具有属性A”的程度,用一个数表示“x ∈ A”的程度,并记为 λx( A) ,称它为“x ∈ A”的属性测度,且在[0,1]内取值。

若分类标准aj1> aj2> … > ajk,则样本x i的第j个评估指标属性Ck的属性测度为 λijk( Ck) 。那么单指标属性测度按以下3种情形计算[10]:

由此可得到油气长输管道施工样本xi的j个评估指标的评分值的属性测度。然而,j个指标的重要性可能有差异,因此,必须考虑各个评价指标权重的影响,计算各指标权重W( w1,w2,… wj) ,wj≥ 0,且。 再按照式( 2 ) 计算出样本x i的综合测度值 λik:

2.3熵权法和G1法组合确定权重系数

目前,权重的确定方法主要有主观赋权法和客观赋权法两种,主观赋权法的缺点是权重的确定与评价指标的数字特征无关,无法显示评价指标的重要程度随时间的渐变性; 而客观赋权法的缺点是仅仅以数据说话,有时会出现权重系数不合理的现象。 针对上述问题,采用组合赋权的方法将主观权重和客观权重相结合,既能有效地反应参与者的主观意愿,又可避免主观因素过多的随意性,指标权重能够随着数据的变动而发生变化,赋权的结果更为合理。

2.3.1熵权法确定指标权重

熵权法确定权重计算步骤如下[11]:

1) 构建n个样本m个评估指标的判断矩阵R = ( xij)nm( i = 1,2,…,n; j = 1,2,…,m) 。

2) 将判断矩阵归一化处理,得到归一化判断矩

式中: xij为第i个样本第j个评估指标测度值; yij为矩阵Y第i行第j列的元素; xmin,xmax为同一指标下不同样本中的最大值和最小值。

3) 由式( 4) 可计算第j个评估指标的熵:

式中:

4) 按式( 6) 计算评价指标的熵权:

2.3.2G1法确定指标权重

G1法是东北大学郭亚军教授提出的一种方法[12],它通过对AHP进行改进,避开了AHP中的缺点,而且该方法无需一致性检验。在指标的数量较多的情形下,其计算量较其他方法明显减少,同时该方法的可操作性强,便于使用。G1法确定权重计算步骤如下:

1) 用G1法确定评价指标的序关系。

2) 专家给出相邻评价指标Xk - 1与Xk重要性程度之比rk的理性赋值; 其中,rk的取值可以参考表2。

3) 若专家( 或决策者) 给出了rk的理性赋值,则第k个指标的G1法权重wk为:

4 ) 由权重wk可得到wk - 1= rkwk。k = m , m - 1 ,

…,3,2 。

2.3.3组合权重的确定

为了克服熵权法易受数据波动干扰,且无法体现决策者的偏好取向以及G1法的客观性不足。本文建立如下的组合赋权模型:

式中: w0j为指标j的组合权重值; wij为第i个权重方案中指标j的权重值; n为权重方案个数; m为评价指标总数。

由式( 8) 可以看出,该组合赋权模型的意义在于: 对所有权重方案进行综合考虑,以寻求一个最优的均衡点,实现理想权重方案与其它所有权重方案的偏差最小化,从而最大程度地保留各方案的有效信息以使指标权重值更具合理性。

2.4油气管道施工质量降低可能性识别

当评价空间为有序分割时,采用最大关联度准则确定施工质量类别时存在一定的局限性,如假设油气管道某管段施工质量评价向量为B = ( 0. 16, 0. 24,0. 14,0. 23 ,0. 23 ) ,按最大关联度原则,该管段施工质量类别为C2= { 较好} ,但与C2= { 较好} 的关联程度仅为25% ,而与其它类别的关联度和却达到了75% ,这显然与客观事实相悖。为此,引入置信度识别准则进行判定。设( C1,C2,…,CK) 是属性空间F的一个有序分割类,按照置信度准则,设 μ 为置信度。置信度 μ 的取值范围通常为0. 5 < μ < 1。若C1> C2> … > CK,则:

若 C1< C2< … < CK,则:

则认为xi属于Ck0类。

K为属性空间F有序分割类的总个数。上述准则要求“强”的类或级别占相当大的比例。在应用中,置信度 μ 一般取0. 6与0. 7之间的数值。

利用式( 9) 或式( 10) 得到xi属于Ck0类后,根据表3可得到质量降低可能性等级。

2.5施工质量降低后果评价

从管道施工成本、管道使用寿命和管道的施工工期三个方面,分析、评估油气管道施工质量降低的后果。采用5级模糊语言,依据管道施工质量成本、 管道使用寿命和管道的施工工期影响程度的大小来描述质量降低的后果,根据质量降低程度大小依次分为“轻微( A) ”、“较轻微( B) ”、“中等( C) ”、“严重( D) ”、“特别严重( E) ”。

2.6施工质量风险等级的确定

得到质量降低 可能性和 后果等级 后,参考API581[13]作出风险矩阵图,如图1所示。

由图1可知: 风险分为四个等级,分别为低风险I、中等风险II、较高风险III和高风险IV。由图1可得到油气管道施工质量风险等级。

3算例应用

某输气管道建设项目的设计里程为300 km,为了保障工程进度,划分为五个施工段进行建设。分别为: S1、S2、S3、S4、S5。根据多位专家现场调查并以问卷表形式采集数据,对各施工管段按百分制进行评分,得到如表4所示的评估指标分值。分值越大说明该施工段的评估指标越有利于降低施工质量事故概率。

3.1油气管道施工质量风险因素属性分类的确定

根据2. 1节将属性空间F等分为五类: 分值 ( 80,100]为C1,C1= { 好} ; 分值( 60,80]为C2,C2= { 较好} ; 分值( 40,60]为C3,C3= { 中} ; 分值 ( 20, 40]为C4,C4= { 较差 } ; 分值[0,20]为C5,C5= { 差} 。2. 1节中所提到的ajk为第j个指标在属性空间F上的第k个分割值,所以aj1= 100,aj2= 80,aj3= 60,aj4= 40,aj5= 20。

3.2熵权法和G1法组合确定评估指标权重

首先,根据式( 3) ~ ( 6) 计算所有底层评估指标的权重,可得到由熵权法确定的评估指标I1~ I12的权重系数矩阵W1= ( 0. 163,0. 100,0. 205,0. 019, 0. 070,0. 044,0. 057,0. 206,0. 056,0. 009,0. 051, 0. 020) 。

然后,由专家给出相邻评价指标Xk - 1与Xk重要性程度之比rk的理性赋值( rk的取值可参考表2) , 再根据式( 7) 计算所有底层评估指标的权重,可得到由G1法确定的评估指标I1~ I12的权重系数矩阵W2= ( 0. 087,0. 072,0. 095,0. 050,0. 071,0. 054, 0. 105,0. 126,0. 101,0. 092,0. 077,0. 069) 。

最后,利用式( 8) 所建立的优化模型得到理想的组合权重值,评估指标I1~ I12的权重系数矩阵W0= ( 0. 125, 0. 086,0. 151,0. 035,0. 071,0. 050, 0. 081,0. 166,0. 079,0. 051,0. 060,0. 045) 。

3.3油气管道施工质量评估指标属性测度计算与质量降低可能性识别

根据2. 2节中单个样品属性测度的计算公式可得到了表5所示第5段施工管段的12项评估指标的属性测度。

同理,可以得到其它4段施工管段的12项评估指标的属性测度,篇幅所限,此处不再一一列出。

在得到12项评估指标属性测度和权重后,根据式( 2) 得各管段属性综合测度值,见表6。

采用置信度准则的方法评判油气管道施工质量类别,取置信度 μ = 0. 65。例如,表6中管段1的综合属性测 度为 ( 0. 0931,0. 4416,0. 1956,0. 1453,0. 1244 ) ,根据式 ( 9 ) ,当k = 3时。

当 k = 4 时,当 k= 5 时,。 再根据式( 9 ) 可知k = 3时满足条件。因此: k0= 3,可判断管段1属于C3= { 中} ,根据表3可得到管段的质量降低可能性等级为中等。同理可得到其它四个管段的有序分割类( 施工质量类别) 及对应的各管段质量降低可能性等级见表7。

3.4施工质量降低后果和风险评价

质量降低后果用模糊语言来描述其后果严重度。质量降低带来的后果是管道施工成本增加、管道使用寿命缩短和管道的施工工期延长三个方面。 根据项目的实际情况得到上述三个方面的后果等级为: 中等、较轻微、中等。由于管道施工成本、管道使用寿命、管道的施工工期这三者的后果等级是不能形成几何相加的。所以采用其中最严重的后果等级。结合质量降低可能性等级与后果等级,由图1风险矩阵可知,油气管道五个管段的施工质量风险等级分别为“II( 中等风险) 、II( 中等风险) 、II( 中等风险) 、III( 较高风险) 、III( 较高风险) ”。

3.5结果分析

1) 由组合权重系数矩阵可以看出,人员的素质,人的错误行为,施工工艺方法和管理方法的权重都超过了0. 1,远大于这12项评估指标的平均权重0. 083。说明这三项指标对造成油气管道施工质量降低的可能性较大。所以管道公司和施工单位要对这些因素引起足够的重视。

2) 从表7中可以看出五段管段发生施工质量降低的可能性等级,管段S4、S5施工质量降低的可能性等级偏高,最终得到管段S4、S5的风险等级也偏高。因此,对于管段S4、S5,管道公司和施工单位应该对人员的素质,人的错误行为,施工工艺方法和管理方法这三类风险因素给予足够的重视,并对各因素的变化情况持续关注。

4结论

属性识别 篇7

人脸识别[1]是当前模式识别和人工智能领域的一个重要研究课题,近10多年来己成为一个非常活跃的研究方向。人脸识别研究是一个跨越了图象处理、模式识别、计算机视觉、以及神经生理学、心理学等研究领域的学科。

人脸识别是指计算机根据一定的算法,对新获得的图像与计算机中已有的图像库进行匹配比较后,做出测试图像中身份判断的识别过程。属性论以辨证唯物主义尤其是质变量变规律为指导,以人工智能和思维科学为研究方向,以属性描述手段为研究客体,使用数学方法特别是定性映射和转化程度函数为研究手段,先后提出和创立了的一系列著名的观点和模型,在人工智能界特别是思维科学界引起越来越多的关注。

2 定性映射理论

2.1 最简定性判断的定性映射模型[2]

定义2.1设a(u)是对象u的某个属性,x∈X哿R是属性a(u)的一个量值,p(u)∈Po是属性a(u)的某个性质,[α,β]∈Γ是性质p(u的定性基准,则称映射τ:X×Γ→{0,1}×Po,使得:

为最简性质p(u)的判断映射或定性映射。其中,为问题:“x是否在[α,β]中?”的算子,或“x是否满足性质(命题)p(u)的定性基准?”的算子。因对每一个属性a(u),输入的是a(u)的?一个量(特征)值x,输出是a(u)的一个性质p(u)或非p(u)的q(u),因此,若强调(1)是一个从量特征x到质特征p(u)的一个转化过程,则符号又可以称为属性a(u)的量———质特征转化算子,或(性)质特征抽取算子。

2.2 定性映射、经典集合论和特征函数

集合论概括公理:对任给一个性质p,存在一个以所有具有性质p的事物x为元素的集合S={x|p(x)}。

一般设S⊆X是论域X的子集,由x∈S⊆X,可得到一个S的特征函数[3],即:

定义2.2设S⊆X是论域X的子集,称从X到{0,1}的函数χS:X→{0,1}是集合S的特征函数,如果对任意x∈X,有:

这时,由于集合S中的x都具有“是S的元素”或“属于S”的性质pS(x),所以,若将S作为性质p(x)的定性基准[4],则S的特征函数(2),即χS(x)可看作是以集合S为定性基准的性质pS(x)的定性映射,即:

反之,如果将(1)中的定性基准[α,β]抽象为一般的集合S,并令pS(x)=df“x是S的元素”的性质,则定性映射(1)将变为集合S的特征函数χS(x),即有:

定义2.3设S⊆X是论域X的子集,P(X)是X的幂集,pS(x)=df“x是S的元素”的性质,称映射τp:X×P(X)→{0,1}是性质pS(x)的定性映射,如果对坌x∈X,∀τp(x)×∈{0,1},使得:

并称τp(x,S)(或简记为τp(x))为性质pS(x)的真值。由此我们得到下述定理:

定理1定性映射(4)和特征函数(2)是等价的。

3 基于定性映射的模式生成与识别模型

3.1 基于属性计算网格的模式识别

在n维情况下,若将每一维定性基准[αi,βi]拓扑粒度细分为gi段,则得到一个以各剖分n维超长方体为单元的网格,使原定性映射变为一个以其剖分网格为基准的定性映射,而且,分别以这些子超长方体为基准,还诱导出一个具有G=g1g2…gi…gn个子定性映射的簇[5]。其定义如下:

定义3.1设ai(u)是对象u的第i个属性,i=1,…,n,xi∈Xi为ai(u)的量特征值,pij(u)是ai(u)的第j个质特征,j=1i,…gi,[αij,βij]∈Xi是pij(u)的定性基准,称Γ={[αij,βij]}是定性基准簇(Qualitative Criterion Cluster,QCC),满足:

设是对象u的一个以[αv,βv]为定性基准的赋权整合性质。Γn={[αv,βv]}是所有定性基准[αv,βv]格子的簇,并设是由这G个两两不相交的n维超长方体[αv,βv]构成的粒(Granular),则以([αv,βv])(或G([αv,βv])为基准的映射τ:X×Γn→{0,1},若对任意x∈X,存在[αv,βv]∈Γn和以[αv,βv]为基准的性质pv∈Po,使得:

则称(6)是判断一个带有向量x的对象u是否具有性质pv(u)的定性映射,并称(6)是以[αv,βv]为定性基准的定性映射,或(5)的因子映射,也可记为:τp(x[αv,βv])。其中,i可看作空间坐标系中第i坐标轴;gi表示第i坐标轴下所划分的粒度;为问题:“x是否在[α,β]?”的算子,或“x是否满足性质(命题)p(o)的定性基准?”的算子。

3.2 模式识别的定性映射模型

外部世界是由许多事物构成的,各事物之间存在着各种相互作用,不仅导致事物(简单的物理)运动变得非常复杂,而且,还使事物会发生(非简单)物理的、化学的、生物学的或其他方面的各种变化。所以,一般可设事物运动变化是一个随n个变量x1,…,xn变化的函数F=Y(x1,…,xn)[6]。

目前,人们处理复杂函数F=Y(x1,…,xn)的方法至少有如下2种,其一是将函数函数F=Y(x1,…,xn)分解为n个一元函数函数F1=Y1(x1),…,Fn=Yn(xn)的复合函数,即:F=Y(x1,…,xn)=Y1(x1)莓Y2(x2)…莓Yn(xn),这时,只要分别找到求解各个一元函数Fi=Yi(xi)的解决办法,那么,复杂函数F=Y(x1,…,xn)=Y1(x1)◦Y2(x2)…◦Yn(xn)的求解问题也就解决了。

另一种方法是将各个变量x1,…,xn归结为某个变量(如时间)t的函数,即:xi=xi(t),这样一来,F=Y(x1,…,xn)通过n个参量x1(t),…,xn(t),可看作是自变量t的函数,即:F=Y(x1(t),…,xn(t))=Y*(t),一般说来,Y*(t)是一个比Y(x1(t),…,xn(t))更复杂的函数。

因此,能否找到一元函数y=f(x)图象的识别方法或模型,是模式识别的一个基本问题。

而人们不仅将计算值y'(xj)作为函数值f(xj),甚至还将其计算结果(打印)生成的图象作为函数f(x)的图象提交用户。显然,这一做法存在着一个明显的问题,即:“将有限的、不精确的和离散的计算模式,作为不可数无穷的、精确的和连续函数的图象[7]”。于是,我们要问:这一做法为什么是可行的?其基本原理和根据是什么?显然,如果这一原理还能适用于一般的模式识别的话,就是一个非常值得深入加以研究的问题。

4 模式识别定性基准的构建算法

下面以心电图这样一个类似一元函数的简单模式的识别为例,讨论模式识别的定性映射模型。

设[t0,tm]是时间区间,Y是心电电流的集合,则一个人u的心电图ECGu[8](Electrocardiograph)可定义为一个从[t0,tm]到Y的函数y:[t0,tm]→Y,使对任意t∈[t0,tm],存在yu∈Y,满足:y=yu(t)。

也就是说,ECGu上的任意一点可用一个序偶表示为:(t,yu(t))。事实上,因心电图ECGu是由时间t取遍区间[t0,tm]的所有值t∈[t0,tm]时构成的曲线,故可记为:。

当m趋于无穷大时,不仅新的m+1维坐标系{t=tj}会变为一个无穷维的Hilbert坐标系[9],并使m+1维的超长方体[α,β]=[α0,β0]…[αm,βm]变为无穷维的超长方体,而且,还使m+1维的向量yu(t0,…,tm)=(yu(t0),…,yu(tm)),也变为无穷维的向量,即:心电图ECGu(t)=yu(t)。

因[αj,βj]是判断u的心电图ECGu(tj)在时刻tj是否正常的定性基准,而m+1个定性基准{[αj,βj]}在新m维坐标系{t=tj}中构成一个m维的超长方体[α,β]=[α0,β0]…[αm,βm],而作为心电图ECGu(t)=yu(t)近似模式的m+1维向量yu(t0,…,tm)=(yu(t0),…,yu(tm)),也已变换为[α,β]中的一个点。

于是,在新的m+1维坐标系中,可得一个如下定性映射:

5 实验结果及评价

为验证本文所提出的基于属性论的智能融合识别算法性能,进行了以下的实验。实验的数据来自Havard人脸数据库[10],其中可见光图像的灰度分辨率为8位,长波红外图像为12位。可同步获取可见光和红外图像,图像配准精度达到1/3像素。图像大小原为320×240,人脸提取后为180×140。

为每类图像设置1个训练库,5个测试库(包括无干扰、光照、眼镜、表情、联合干扰5种情况)。其中训练库的样本数为50×2(即:50个人,每人2张图像),每个测试库样本数为50×10。按以下标准选择训练库和测试库:

训练库:正向光照,不戴眼镜,无表情

无干扰:正向光照,不戴眼镜,无表情

光照:侧向光照,不戴眼镜,无表情

眼镜:正向光照,戴眼镜,无表情

表情:正向光照,不戴眼镜,有表情

联合干扰:侧向光照,戴眼镜,有表情

每一个测试库对应一种测试条件。在实验中,通过各种测试条件,来评价本文所提基于属性论的智能融合识别算法的性能。

先测试利用未融合图像,在各种干扰情况下的识别结果,如表1:

从表1看出,在无干扰时,单可见光和单红外图像的识别率都很高;但在有干扰时,两类图像的识别性能所受影响差异很大。其中,可见光图像受光照影响很严重;而红外图像受表情、光照的影响不是很明显,但受眼镜影响严重,这是因为眼镜会阻挡大量的红外能量而导致眼睛附近的重要信息丢失,以至系统无法做出正确判断。在联合干扰下,两类人脸图像的识别率都很低。

采用基于属性论的智能融合识别算法[11],结果如表2所示:

比较表1和表2可看出,采用可见光和红外图像进行融合识别,充分结合了两类图像的优点,在有干扰的情况下,识别率比单可见光和单红外图像有较大的提高。

表2的实验结果进一步表明,在联合干扰下,基于属性论的智能融合识别算法与未进行融合算法相比有较高的识别率,充分证明了该方法的有效性和识别性能的优越性。

6 结束语

作为模式识别中的一个应用,人脸识别技术可以看作是一个以特定目标为对象的专用计算机视觉系统。截至目前,通用计算机视觉系统仍是当今科学界尚未攻克的难题,机器视觉系统仍然在黑暗中摸索。人脸识别就是这一技术的典型应用。

属性网格[12]是一个能够全面描述事物模式特征的实现模型。其理论根据是:一个定性映射的输入输出关系对应一个逻辑单元,由多个定性映射单元可构建一个复杂的属性网格,在此网格的基础之下,提取其内在的局部模糊信息,建立局部属性网格,对模式进行综合识别。这一模型的提出在智能界特别是模式识别领域将会产生深远的影响。

摘要:该文提出一种基于属性论的人脸识别方法,主要应用于提高复杂背景下的多姿态人脸检测的识别效果。首先介绍了属性论的基石——定性映射理论,讨论了定性映射、经典集合论和特征函数之间的关系,然后讨论了基于定性映射的模式生成与识别模型,经过对人脸及人脸的特征点进行定位后,即可利用属性计算网格的定性基准网格对人脸的各特征点进行建模。研究发现基于属性论的人脸识别算法,识别率较高。在复杂背景下的多姿态人脸检测(如侧面人脸、遮挡脸)仍然取得较好的效果。

关键词:属性论,定性映射理论,属性计算网格

参考文献

[1]冯嘉礼,聂文龙.判断的定性映射模型与非线性模式分类[J].广西师范大学学报(自然科学版),2004,22(1):27-32.

[2]P.Nagabhushan,D.s.Gurn,B.H.shekar,FLD:An efficient approach for appearance based object recognition.Neurocomputing,2006,69:934-940.

[3]徐勇,陆建峰,杨静宇.一种人脸图像自动识别方法及实验[J].系统仿真学报,2004,16(1):14-16.

[4]P.Kakumanu,S.Makrogiannis and N.Bourbakis.A survey of skin一color modeling and detection methods[J].Pattern Recogntion,2007,40(3):1106-1122.

[5]T.Kanade.Computer recognition of human faces[M].Basel&Stuttgart:BirkhauserVerlag,2005.

[6]李启娟,李金屏.基于轮廓信息的人脸检测[J].计算机技术与发展,2008,(9).

[7]靳红卫.基于肤色和结构特征的人脸检测[J].科技信息(学术研究),2007,(11).

[8]张庆红,程国建.基于遗传算法的神经网络性能优化[J].计算机技术与发展,2007,(12).

[9]W.Zhao,R.ChellapPa,and P.J.PhilliPs.Face recognition:a literature survey.ACM Computing Surveys,vol.35,no.4,PP.399-458,2003.

[10]贾永红.数字图象处理[M].武汉:武汉大学出版社,2003:63-72,132-141.

[11]杜平,徐大为,刘重庆.光照和噪声条件下的人脸识别[J].上海交通大学学报,2003,37,(9):1443-1451.

属性识别 篇8

本文从某省电网公司对其下二级机构进行科技创新能力评估实际出发,首先从科技基础管理、核心技术能力、科技工作环境、科技工作成果四个层面确立了科技活动经费支出与产出情况、科研机构情况、承担或参与省部级以上课题情况、制定或参与制定标准情况、获得省部级以上奖励情况、专利情况、科技人员情况、发表科技论文情况、技术创新与推广应用能力九个维度的二级指标及三十五个三级指标的指标体系,并引入属性识别理论来确定指标测度矩阵及G1法确定指标权重,从而建立科技创新能力综合评价模型。

1 电网公司科技创新能力评价指标体系的构建

电网公司科技工作水平的提升是关系企业长远发展的一项重要举措,要保证科技创新能力评价对科技工作开展的指导作用,须使科技创新评价体系能够充分反映各公司对该举措的实施情况。本文在遵循科学性、系统性、动态性、可行性等原则的前提下,从科技基础管理、核心技术能力、科技工作环境、科技工作成果4个层面全面、系统地建立电网公司科技创新评价指标体系,包括9个二级指标和35个三级指标,如图1所示。

图1中,总共35个三级指标中既包括当期考核期内指标的绝对值,又增设了与上一期考核期内指标数值的比较值(增长率)。例如I4科技活动经费支出较上年增长率、I11承担或参与公司级课题项数较上年增长率、I17电网公司奖励数量较上年增长率等。增设的目的主要是考虑到该省电网公司的部分二级机构科技研发基础比较薄弱,如果单纯从一期的绝对数据来评判其科技创新能力显然不够客观,也不利于激发其迎头赶上其它先进机构的动力。通过几项增设指标所体现的投入产出增长率,更能公平地反映各二级机构在科技创新方面的努力程度和发展趋势。

图1 电网公司科技创新评价指标体系

2 基于G1法的属性识别模型

2.1 属性空间矩阵的建立

设X为研究对象的全体,称为对象空间,并取其中n个样本X1,X2,…,Xn,对每个样本要测量m个指标I1,I2,…,Im。第i个样本Xi的第j个评价指标Ij的测量值为xij,因此,第i个样本Xi可以表示为一个向量Xi=(xi1,xi2,…,xim),1≤i≤n。n个样本构成n*m的样本空间矩阵:

属性识别模型在进行评价时,需要对各项评价指标进行分级。假设科技创新评价的评价等级分为K级,且第i类的标准值为Ci,满足C1>C2>…>Cn。则每项评价指标与每个分级构成了分级标准判断矩阵为:

其中ajk满足aj1>aj2>…>ajk或者aj1<aj2<…<ajk。

2.2 样本各指标属性测度的计算

计算第i个样品的第j个指标值xij具有属性Ck的属性测度μijk=μ(xij∈Ck)。

假定aj1>aj2>…>ajk,则:

考虑到每个指标的重要性可能相同也可能不相同,所以,在计算样本属性测度时需要考虑指标权重。

2.3 指标权重的确定

目前指标权重的确定方法中广泛应用层次分析法(AHP),但其存在当被比较元素个数较多时,计算量大且难于满足一致性的要求[10,11]。本文采用G1法,其本质是AHP的一种改进方法,具有不用构造判断矩阵,无需一致性检验;计算量较小;方法简便、直观、便于使用;对同一层次中元素个数没有限制;保序性等优点[12,13]。其计算步骤如下:

1)对指标按重要性进行排序。从m个指标集中选出最重要(最不重要)的一个指标,标记为Ii;从余下的m-1个指标中选出最重要(最不重要)的一个指标,标记为Ij;依次类推就可以得到唯一的序关系Ii>Ij>…>Ik(I,j,k∈{1,2,…,m})。

2)确定相邻指标间的相对重要程度。专家对相邻指标Ik-1和Ik之间的重要程度之比可用rk=wk-1/wk来表示,其中wk是第k个指标的权重,k=2,3,…,m。这样就可以根据已经排好的序关系,计算各指标之间的相对重要度。rk首先让各个专家独自裁定,然后取其平均值。rk的取值可以参照表1。

表1 rk的赋值参考表

3)各指标权重的计算:

其中k=m,m-1,…,3,2。

2.4 综合评判及比较排序

1)计算第i个样品xi的属性测度μi k=μ(xi∈Ck)。根据以上所得第i个样本的第j个指标的权重为wij,,可计算第i个样本属于Ck类的属性测度μi k:

2)综合评判。按照评分准则,计算第i个样品的综合得分为:

则可以根据qxi的大小对xi进行比较和排序。

3 实例分析

本文从某省电网对其25个二级机构进行科技创新能力评估的样本中取出6个,构成样本空间如表2。

表2 六个样本数据

1)分级标准的确定。科技创新能力的评级划分一般来说应以计算过程的简便性和准确性为原则,避免分级过多导致计算量过大或者分级过少导致计算结果偏差较大。按照常规的评价方式,一般分为5级,即包括优L1、良L2、中L3、合格L4、差L5。分类标准如表3。

表3 各指标的分级标准

2)根据G1法确定指标权重向量。以科技活动经费支出与产出情况这个二级指标下的四个三级指标的权重确定为例,首先专家对这四个指标重要性进行排序为:I4>I1>I2>I3,然后根据表1确定各评价因子之间的相对重要程度为r4=1.3,r3=1.4,r2=1.3,根据公式(1)得,根据公式(2)得:

依此类推,可计算其他指标的对上级的指标权重及综合权重,如表4。

表4 指标权重

3)样本属性测度计算。根据2.2的步骤计算样本指标属性测度矩阵(包括6个矩阵),再结合权重计算各样本的综合测度评判,得如下属性测度分布矩阵:

4)评分排序。用5、4、3、2、1分别代表“优”、“良”、“中”、“合格”和“差”,采用属性识别模型中的评分准则(公式4)进行综合评价得出评价结果,综合分数比较见表5。

表5 综合评价结果

从表5可以得出如下信息:

1)本评价模型得出的六个单位科技创新能力排序为:样本2>样本1>样本3>样本4>样本6>样本5。

2)样本2的评价得分明显高出其他五个样本,得分接近4.5,创新能力比较优秀,需要巩固并寻求突破,这与该单位科研院单位性质是分不开的,该单位在日常工作中就非常注重科技创新,科技投入及产出都很高。

3)样本1,3,4,6的得分在3分与4分之间,科技创新能力中等偏上,也还有很大的提升空间。这是由于这些单位处在经济相对发达的地区,电力用户对电网公司的要求比较高,促使他们重视科技创新能力的培养,才能不断满足客户的需求,因此科技投入和产出都较高。

4)样本5的评价得分比其他五个样本的得分低许多,低于3分,科技创新能力中等偏下,有待重点大力加强,这与该电网处于经济相对落后的地区是分不开的。这类地区的电力客户对电网公司没有太多要求,电网科技创新外在压力和内在动力都不足,导致长期以来科技创新投入和产出非常低。

5)以上的评价结果与实际中这些样本单位的定性科技创新能力评估相吻合,证明了本评价模型的正确性,可以推广应用。

4 结论

1)本文结合电网公司科技创新的特点首次建立的综合评价指标体系能够全面反映电网公司科技创新能力,具有一定的实用性;

2)本文所提出的科技创新能力评价模型,计算简便(结合matlab软件编码,实现原始数据输入即得评价结果),数据获取容易,并且采用定量的方法描述各评价指标值,并对各指标进行赋权后综合评分;

上一篇:心理健康法律下一篇:学业生涯规划教育