权重计算方法(精选7篇)
权重计算方法 篇1
0 引言
随着网络和信息技术的飞速发展,电子文档呈现爆炸式增长的趋势。面对具体的知识,要在这浩瀚的信息世界中快速获得相应的知识却是很困难的,因此研究利用计算机进行自动文本分类已成为自然语言处理和人工智能领域一个具有重要研究价值的课题。文本分类面临的难题之一是如何从高维的特征空间中选择对文本分类有效的特征,以适应文本分类的算法并提高分类精度[1,2]。在以往的研究者文章中,主要集中在研究文本分类器和文本特征的选择与提取,对特征的加权研究较少。
1 TFIDF计算方法
目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。向量空间模型是目前最简便高效的文本表示模型之一,由于直接表示文本的维数很大,应该对表示文本的特征项进行选择[3],使得选择的特征项必须具备一定的特性:(1)特征项要能够确实标识文本内容;(2)特征项具有将目标文本与其他文本相区分的能力;(3)特征项的个数不能太多;(4)特征项分离要比较容易实现。
对文本特征项的选择一般是通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值,然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。TFIDF[4]是由Salton在1988年提出的,是最为经典的单词权重方法。其中TF(Term Frequency)称为词频,用于计算该词描述文档内容的能力,IDF(Inverse Document Frequency)称为反文档频率,用于计算该词区分文档的能力。TFIDF的指导思想建立在这样一条基本假设之上即在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度IDF的概念[5],以TF和IDF的乘积作为特征空间坐标系的取值测度。IDF(t)的计算方法如下:
式中:N—文档集的总文档数,n—出现特征项t的文档数。
一个有效的特征项应既能体现所属类别的内容,又能将该类别与其他类别相互区分,因此TFIDF[6]计算方法如下:
2 TFIDF计算方法的不足
TFIDF计算方法的主要思想即一个词条在一个文档出现的频率越高,在其他文档中很少出现,则认为该词条具有很好的类别区分能力,适合用来进行分类。IDF表示包含词条t的文档数越少,IDF越大,也说明词条t具有很好的类别区分能力,但是在IDF中,首先没有考虑文档数n在各个类别中的分布情况,其次也没考虑各个类中文档数的不同[7,8,9]。
假如在某一类Ci中含有词条t的文档为n1,Ci类中总的文档数为n1,在另一类Cj中含有词条t的文档数也是n1,但是Cj类中总的文档数为2n1,包含词条t的文档数只占一半,,因此词条t在Ci中比在Cj中重要,但是它们通过TFIDF算出来的值却是一样的,这就是因为没有考虑包含词条t的文档占各个类中总的训练文档的比例。因此单独使用TFIDF就会产生大的误差。
3 基于词条数学期望的TFIDF加权方法
本文将词条t看作一个随机变量,t在各个类别中的分布来构造一个概率函数,用数学期望作为因子来改进TFIDF计算方法。由于一个词条越集中出现在一个或几个类别中,它的区分度越高。由于训练集中各个类别的文档数不同,在两个类别包含词条t的文档数相同的情况下,文档数多的赋予较小的值,为此引入了值Fi。
设总共的有n个类,m(t)代表出现t的类别个数,Pi(t)代表在词条t出现的情况下,是不是有属于类别i的文档,出现属于类别i的文档时取值为1/m(t),否则为0,fi(t)代表在类别i中包含词条t的文档数占所有包含词条t文档数的比例,Fi代表类别i中的文档数占总的文档数的比例,如表1所示。
定义词条t的数学期望如下:
用E(t)修正TFIDF,算式如下:
改进后的计算方法的实现过程如下:
1)给定一个含有N个文档的文档集,其中共n个类别,每个类别中文档数为Ni。
2)对文档进行分词,去除稀有词,然后计算每个词条t在各个类别及其文档中的频数,并记录包含词条t的类别数m(t),及其每个类别中包含词条t的文档数。
3)使用改进的计算方法来计算词条t的权重,然后进行排序,选取前面的M个词条,作为文档的特征词。
改进后的计算方法考虑到了文档的分布情况,使得在类别中包含文档数不同造成的影响变小,因此改进的计算方法是有效的。
4 实验结果与分析
4.1 数据集
实验数据集来源于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的语料库,其中包含环境、农业、计算机等12个类别,共有文档4995篇,其中训练集3747篇,测试集1248篇。
4.2 KNN分类器
使用KNN(K Nearest Neighbor)文本分类器来验证上述方法。KNN即K最近邻是一种传统的模式识别方法,被广泛应用于文本分类研究,有较高的准确率和召回率。KNN在已知类别样本中寻找与待分类样本X最相似的K个样本,文本样本之间的相似性可以通过文本向量之间的余弦来度量,其计算方法如下:
KNN基于这K个已知类别样本的类别属性对未知样本的类别做出预测。一种简单的预测规则就是将未知样本的类别预测为在这K个最近邻样本中包含最多实例的类别。
4.3 实验结果及其分析
为了评价分类效果,我们采用最通用的性能评价方法:召回率R(Recall)、准确率P(Precision)和F1评价[10]方法。对于某一特定的类别,召回率是被正确分类的文档数和被测试文档数的比率,即该类样本被分类器正确识别的概率。准确率是正确分类的文档数与被分类识别为该类的文档数的比率,即分类器做出的决策时正确的概率。通常还将召回率和准确率用某种方式组合成单一的度量,以便于进行比较。我们使用F1度量这种较通用的组合方式,算式如下:
混淆矩阵可以显示分类的明信,混淆矩阵的行表示原本属于某类的文档,最终分类到各个类的情况,而混淆矩阵的列表示最终分类到某个类的文档,而对角线则表示正确分类到各个类的文档数,实验结果如表2、表3所示,分类的性能比较如图1所示。
从实验结果可以看出:使用修改后的TFIDF分类的精确度和召回率都有不同程度的提高,这也就说明了包含词条文档的分布情况对分类的性能是有影响的,考虑到这一点就能有效地提高分类的精确度和召回率。
5 结束语
本文利用包含词条的文档在各个类别中的分布情况以及各个类中文档数的不同来改进TFIDF权重,提高了文本的分类精确度。下一步将结合其他的分类方法如朴素贝叶斯分类器等测试该特征选择方法,同时研究该特征选择方法对分类算法的依赖性以及在不同的数据集上测试该方法的有效性。
摘要:文本的形式化表示一直是文本挖掘的基础性问题,向量空间模型中的TFIDF计算方法是文本表示中一种效果较好的经典词条权重计算方法。在分析传统TFIDF计算方法存在问题的基础上,针对TFIDF方法中没有考虑包含词条的文档在各个类别的分布情况以及各个类别中所含的文档数的不同。提出了将词条的数学期望(TFIDF-E)作为一个文本因子来进行改进上述问题。实验结果表明,TFIDF-E计算方法表示的文本分类效果好于TFIDF,验证了TFIDF-E方法的有效性和可行性。
关键词:文本分类,词条权重,区分度,数学期望
参考文献
[1]唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,20054,2(1):47-53.
[2]苏金树,张博锋,徐昕.一种快速文本归类算法的设计与实现[J].软件学报,2006,17(9):1848-1859.
[3]陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,20052,4(6):690-695.
[4]Salton G,Buckley C.Term-weighting approaches in automatic text re-trieval[J].Information Processing&Managemen,1988,24(5):513-523.
[5]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32.
[6]寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计2,005,26(6):1616-1618.
[7]陆玉昌,鲁明羽,李凡.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,20023,9(10):1205-1210.
[8]李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报:自然科学版2,00,141(7):98-101.
[9]柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息2,006,22(8):24-26.
[10]Yiming Y.An Evaluation of Statistic Approaches to Text Categorization[J].Information Retrieval,1991,1(1/2):69-90.
权重计算方法 篇2
本文通过研究发现传统的文本特征权值表示方法TFIDF的不足:它忽略了特征词和类别之间的相关性。本文认为特征词和类别之间没有绝对的独立性,针对这个不足,提出了TFIDF-CHI算法,并用实验加以证明。
1 TFIDF算法及其改进
1.1 χ2统计量
χ2统计量(chi-square statistic,CHI)特征选择方法又被称作开方拟合检验,这个概念来自列表检验,它可以用来衡量特征x与类别c之间的统计相关性。χ2方法认为特征t与文本类别之间的没有独立性,它们之间的关系类似于具有一维自由度的χ2分布,χ2统计量的值越高,词汇和类别之间的独立性就越小。它基于如下假设:在指定类别Ci的文本中出现频率高的词语和在其它类的文本中出现频率高的词语,对判断文章是否属于类别Ci都有帮助。其计算公式如下:
式中,A是特征t和第i类文档共同出现的频度;B是特征t出现而第i类文档不出现的频度;C是第i类文档出现而特征t不出现的频度;D是第i类文档和特征都不出现的频度;N为总共的文本数,且N=A+B+C+D,同时要求满足A*D>B*C。文献[1]中指出,CHI算法综合考虑了特征与类别出现的各种可能性,在文本数量逐渐增多的过程中,稳定性很好;与其他方法相比,CHI大约减少50%的词汇,分类效果好。
1.2 传统TFIDF计算方法
传统的TFIDF权重计算方法是由Salton在1988年提出的。指导思想是:在同一个文本中出现的频率较高,在不同文本中出现的频率较小的词应该赋予较高的权值。它主要考虑两个方面:词语在文本中出现的频率(TF),用于计算该词描述文档内容的能力;反文档频率(IDF),用于计算该词区分文档的能力。特征词条的权值与词条频率成正比,与文档频率成反比。
传统TFIDF权值计算公式:
其中tf(t,d)为特征t在文本d中的频数,n为文本集中含有t的文本的数量,a是一个常量(一般取0.01),log2(N/ntk+a)是逆文本频率函数,即n越大此值越小。分母是归一化因子。
但是传统TFIDF权值计算方法也有其不可避免的不足,IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。其权重计算的有效性和词条的分类能力就存在严重不足。而CHI算法却能够很好的弥补TFIDF算法的不足。
1.3 TFIDF-CHI算法
因此,我们将TFIDF算法和CHI算法加以综合,用CHI算法的优点来弥补TFIDF的不足,提出了新的权值计算方法,TFIDF-CHI算法。TFIDF-CHI的计算公式为:
2 试验过程
2.1 实验环境与实验数据集
我们用Visual C++6.0实现本文的算法,在Windows XP的环境下进行试验。实验数据是是从中文自然语言处理开放平台网站获取李荣陆收集的新华社的新闻样本语料库。其中训练样本2000个,测试样本815个,共2815个样本。样本有10个类别,分别为政治、艺术、医药、体育、军事、经济、教育、交通、计算机、环境;
2.2 评估方法
因为文本分类本质上是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素),与人工分类结果越相近,分类的准确程度就越高。本文中文本分类的评价方法主要有查准率(也称为准确度)、查全率(也称为召回率)。
准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式为:
准确率(precision)=分类的正确文本数/实际分类的文本数
召回率是人工分类结果应有的文本中分类系统吻合文本所占的比率,其数学公式为:
召回率(recall)=分类的正确文本数/应有文本数
2.3 试验分析
本文的试验使用KNN分类器,其中K取35。本文随机抽取了“收入”、“亚军”、“武器”和“青年”四个特征词,其中“亚军”和“武器”是在体育和军事类中常见的,而在其他类中则不常见,所以它们对类的贡献比较大。而“青年”可在多个类别中多次出现,所以其对类的贡献相对较小。通过我们对公式的改进,可猜想改进后的“亚军”和“武器”的权值应该增大,而“青年”的权值则应减小。
表1列出了针对四个不同的特征词,分别采用TFIDF和TFIDF-CHI两种不同的计算方法所得到的权值和的分类准确率。实验中具有代表性的词使用TFIDF-CHI算法后的权值明显比用TFIDF算法所得的权值大。从表中可看出计算结果与我们所猜想的结果基本一致。表2通过列出常用的度量标准,准确率和召回率对两个算法进行对比。由表2可知通过对TFIDF的改进,重置特征词的权重,使文本分类的准确率和召回率都明显得到改善,凸显了特征词与类别之间的关系。
3 试验总结
综上所述,从实验的图表中我们可以看出不同的权值计算方法对分类的准确率有着一定的影响。与TFIDF相比,改进后的TFIDF更能够反映特征词与类别之间的关系,进一步提高了文本分类的准确率。近年来,一些研究者针对TFIDF权重函数提出了大量的改进算法。文献[2,3,4]在TFIDF的基础上结合了文本语义、频率等多方面信息,提出了新的改进算法。文献[5,6,7,8,9,10,11]针对TFIDF没有考虑特征向在文本集上的分布比例,而对其改进,将TFIDF和互信息,信息增益等方法进行了融合。文献[12,13]将Gini index与TFIDF相结合,提出了新的改进算法。文献[14]在TFIDF的基础上引入了遗传算法。文献[15]考虑了当训练文本属于同一类别时,文本特征的权值计算。文献[16]通过对TFIDF的改进考虑到了特征项在类间的分布情况。
本文将TFIDF和互信息综合,各取其优点,将分类的准确率和召回率进一步提高。同时由于CHI算法综合考虑了特征与类别出现的各种可能性,在文本数量逐渐增多的过程中,稳定性很好;与前面其他各种改进方法相比,CHI大约减少50%的词汇,分类效果好。
4 结束语
权重计算方法 篇3
伴随特高压电网、交直流混联和新能源的发展,电网的复杂程度大幅提高,运行不确定性因素显著增多,外部环境对电网的影响也日趋增强。依赖调度员对成百上千类指标进行监视控制的常规调度方式逐渐显得捉襟见肘。当电网突然遭遇事故或即将发生危险时,调度员面对海量数据,往往难以把握,极易出错。这给电网的安全带来了极大隐患。因此,需要从庞大的电网运行信息中提炼、综合,建立起高度概括而又能准确反映电网整体安全水平的指标体系[1,2,3,4,5,6,7,8],进而定量综合评价电网安全水平,并据此对电网进行及时校正和超前控制,从而实现“正常运行状态下自动巡航,异常运行状态下自动导航”的新一代电力系统自动智能调度[9,10,11,12,13,14]。
电网安全指标体系的构建重点在于基础指标的选取计算以及各指标间权重的求取。关于基础指标的选取计算已有较多文献进行了说明[15,16,17,18,19],其涵盖面广,包含了电网安全、经济、优质、管理等各个方面,并给出了相应的计算方法。但其对应用到实际电网综合指标计算时的合理性以及量纲一致性等因素考虑较少。在指标间权重的求取方面,主要包含基于主观经验的专家法、层次分析法、模糊评价法等和基于客观历史数据的熵权法、变异系数法、主成分分析法等[20,21,22]。这些方法在得到指标权重后直接用于综合指标的聚合,没有考虑在某些特殊情形下指标权重的可变性。这样会带来聚合后指标关键信息被淹没的问题。
本文首先设计了基础指标计算公式,计及了指标量纲、指标结构和设备重要性差异3个方面。在指标权重确定方面,以层次分析法为基础,增加了关键指标权重自适应修正、危险指标权重惩罚修正以及自定义指标权重人工修正3个策略,计及了指标权重的可变性。在此基础上提出的电网运行状态安全等级划分方法,以“1”作为安全限值,将电网运行状态安全等级划分为3个区域。最后,设计了电网安全指标可视化展示方法。
1 基础指标计算
1.1 指标设计
本文在设计各基础指标计算公式时分别从3个方面进行了考量。
1)指标量纲
由于不同指标考虑的电网安全方面不同,其计算公式也会呈现各种形式。单独对其考量并不存在问题,但是应用在综合指标计算时,需要确保其数量上的一致化。本文根据不同指标的物理意义,统一采用量度当前电网状态值X距离临界值Xlim远近程度的方式,引入比率因子R=X/Xlim作为衡量基础指标安全性的基本单位,其值一般在[0,1]区间。量纲的一致性保证了后续综合指标聚合的有效性。
2)指标结构
指标公式合理性的一个重要考量是其结构的合理性。如果采用不合理的指标结构,可能会过于保守或过于乐观地评估电网状态。本文的结构性设计主要包含:(1)木桶效应,当电网中存在不安全的个体时,该类安全指标取决于安全性最差的那个个体,即取max(R);(2)异常个体效应,反映了电网中处于安全预警水平的那些个体对指标的影响,可取电网中所有超过门槛值的个体比率因子R之和与所有个体总数的比值;(3)平均值效应,当电网所有个体都在安全水平范围内时,此时用平均值反映电网安全水平,即取ave(R)。
以上设计符合客观世界的普遍规律,即事物处于异常状态时,抓住主要矛盾的同时也要兼顾其他潜在次要矛盾,避免其转化为主要矛盾,而当事物处于正常状态时,考虑其一般平均水平更为合理。
3)设备重要性差异
电网中各种电力设备因其所属电压等级、所处区域、功能用途不同,其对电网安全的影响效果是不同的,不能“一视同仁”。在指标公式中如果不加以区分,容易产生偏差甚至错误的结论。例如,场景1某条500kV线路负载率达到0.95,场景2某条35kV线路负载率达到1,按照常规线路负载率计算公式容易得到场景2较场景1更为危险的结论。这在实际电网中是不合理的。本文引入设备重要性修正因子α,对比率因子R进行加权修正。根据现场调研结果:750kV及以上电压等级的设备,α取1.1;500kV电压等级的设备,α取1.05;220kV电压等级的设备,α取1.0;110kV电压等级设备,α取0.95;35kV电压等级设备,α取0.9。对于其他因素,本文也设置了相应的修正因子,此处不详细说明。修正因子的设定进一步增强了指标计算公式的合理性。
1.2 计算公式
本文选取了调度员最为关心的10种静态安全指标,并根据其属性不同分为设备安全类指标、预想故障类指标和系统类指标。基于1.1节指标设计的三方面考量分别设计了其计算公式。
1.2.1 设备安全类指标
设备安全类指标用于反映电网各种电气设备的实时承载特性。
1)线路潮流指标
式中:i=1,2,…,nl;Ili为线路电流值;Ili.lim为线路热稳限值;nl为线路条数;αli为线路重要性修正因子;xl.thre为线路潮流指标门槛值;符号表示存在;符号表示对于每一个。
2)变压器潮流指标
式中:i=1,2,…,nt;Sti为变压器视在功率;Sti.lim为变压器额定容量;nt为变压器个数;αti为变压器重要性修正因子;xt.thre为变压器潮流指标门槛值。
3)稳定断面潮流指标
式中:i=1,2,…,ns;Psi为断面传输功率;Psi.lim为断面传输限值;ns为断面个数;αsi为断面重要性修正因子;xs.thre为断面潮流指标门槛值。
4)母线电压指标
式中:i=1,2,…,ne;Rei=|[Vi-(Vi.max+Vi.min)/2]/[(Vi.max-Vi.min)/2]|,其中,Vi为母线电压,Vi.max和Vi.min分别为母线电压的上、下限值;ne为母线条数;αei为母线重要性修正因子;xe.thre为母线电压指标门槛值。
1.2.2 预想故障类指标
预想故障类指标反映了电网在多个预想故障下的设备承载能力、断路器遮断能力和断面最大传输能力。其计算公式如下。
1)静态安全分析指标
式中:i=1,2,…,nout;nout为开断设备数;Ti=max(x1,x2,x3,x4),即第i个开断下设备安全指标最大值;xT.thre为静态安全分析指标门槛值。
2)短路电流指标
式中:i=1,2,…,nsc;nsc为短路故障数;Ii.sc为第i种短路故障下短路电流;Ii.sc.lim为短路母线所连断路器最小遮断容量;xsc.thre为短路电流指标门槛值。
3)电压稳定指标
式中:i=1,2,…,nflt;nflt为故障数;Pd0为基态下某断面的初始负荷;Pdi.max为第i个故障下的该断面极限负荷;xV.thre为电压稳定指标门槛值。
1.2.3 系统类指标
系统类指标反映了电网某时刻频率偏差水平、备用裕度水平和负荷变化水平。其计算公式如下。
1)频率指标
式中:f为当前系统频率;fN为额定频率;Δfthreshold为安全频率偏差值,取0.2Hz。
2)有功备用指标
式中:PSR为有功旋转备用容量;PSR.lim为有功旋转备用容量的最低限值,取系统最大负荷的10%。
3)负荷异常变化指标
式中:Pdpeak为负荷峰值;Vrise/drop为负荷上升或下降速率;ηlim为负荷异常变化率因子,t为负荷上升或下降时间,t和ηlim根据实际电网而定。
2 层次分析法确定权重及指标聚合
指标间权重值反映了不同指标在综合指数计算中所占百分比,刻画了各指标间的相对重要程度,将直接影响综合评价结果并关系到综合指标结果的可信程度。
层次分析法是主观赋权法中的一种,基于专家经验定性、定量地计算各评价项目之间的权重系数。其简要步骤如下。
步骤1:对基础指标进行两两比较和评估,按照1-9标度法确定各基础指标的判断矩阵。
步骤2:计算判断矩阵中每行各标度数据的几何平均值,记为wi0′。
步骤3:归一化处理,确定指标的权重系数,即
式中:n为基础指标数。
通过层次分析法确定各基础指标权重后,其值存储在相应数据库中,待下次进行指标聚合时可以直接使用,无需重新计算。
在得到n项基础指标权重系数后,通过对各基础指标值xi聚合,得到电网安全综合指标X为:
3 权重修正
利用层次分析法确定的各指标权重wi0即可完成综合指标的求取,但是需要注意的是这些权重系数在求取后是固定不变的常数,在电网某些特殊情形下,其适用性会有所降低。本文从3个方面对其进行修正。
3.1 关键指标权重自适应修正
当电网某些基础指标在达到一个接近临界水平的较高数值时(xthre<xi<1,其中xthre为预警门槛值),其在电网安全中的重要性增加,成为主导电网安全稳定的关键指标,应该对其权重进行修正,凸显其对电网安全的影响,便于调度员捕捉到电网安全趋势变化,起到预警作用。假设电网某时刻存在a个关键指标且其下标集合为A,其他正常指标b个,其下标集合为B。对于关键指标其权重值可调整为:
其他正常指标权重调整为:
3.2 危险指标权重惩罚修正
当电网某些基础指标发生越限,进入危险状态时(xi≥1),通过层次分析法确定的初始权重可能会造成其越限信息在聚合后的综合指标X中被淹没,即X<1。调度员难以捕捉到电网目前或者未来存在的安全问题,给电网安全带来隐患。假设电网某时刻存在c个危险指标且其下标集合为C。对于危险指标其权重可修正为:
该策略只对危险指标权重进行惩罚修正,对正常指标的权重不做任何修改。这会导致惩罚后的指标权重之和大于1,但是出于对危险指标的惩罚,也是合乎情理的。该惩罚策略保证了指标在危险状态下能够通过对其权重的大幅提升对综合指标产生必要的影响,且其影响满足以下几个原则。
1)存在一项或多项危险指标时,综合指标值一定大于1。
2)危险指标值大小与惩罚程度成正比,与综合指标值大小成正比。
3)初始权重大小与惩罚程度成正比,与综合指标值大小成正比。
4)电网危险指标数量较少、数值较小时,综合指标值略大于1;危险指标数量较多、数值较大时,综合指标应飙升到一个较大的数值。
3.3 自定义指标权重人工修正
除了对关键指标和危险指标进行强制自动修正,还可以对一些自定义的指标进行可选人工修正,其包含的情况主要有如下两种。
1)相同的调度运行指标对于不同的运行管理人员而言,其所具有的价值存在较大差别。高层管理决策人员可以根据其主观经验对权重进行微调。
2)电网运行特性、国家电网公司考核指标、灾害天气、严重故障等,针对这些因素都可酌情对指标权重实施调整。
在以上两节修正得到的权重基础上,上调某些指标权重,同时下调其他指标的权重。设存在d个需要人工调整的自定义指标且其下标集合为D,λi为人工决策权重修正量,则各指标权重调整为:
4 电网运行状态安全等级划分
本文在电网运行状态安全等级划分中,分别设置了5个刻度点:0、历史最好值xhis.best、历史平均值xhis.ave、预警门槛值xthre和1。在这5个刻度点之间,依次划分出安全区、预警区和危险区3个区域。
1作为安全限值,是电网运行状态安全等级的关键刻度点;指标超过1认为电网进入危险区,电网不安全,需要采取措施,超过1的程度越大,电网越危险,需要立即处理。当到达预警门槛值xthre指标水平时,电网进入预警区,调度员需要密切留意电网态势。历史平均值xhis.ave和历史最好值xhis.best分别反映历史上指标的平均水平和最好水平,起到当前和历史水平的参考对照作用。0是指标的最低限值,表达指标的最安全状态,在0~xthre以内是指标的安全区。结合可视化展示,分别将处于安全区、预警区和危险区的指标以绿色、橙色和红色表示,便于调度员准确、快速捕捉到系统异常指标。指标安全等级划分示意图如图1所示。该电网运行状态安全等级划分方法既用于基础指标安全等级划分,也用于综合指标安全等级划分。
5 电网安全指标展示方法
5.1 雷达图展示
雷达图法是一种多变量对比分析、综合评价技术,由于该技术采用的图形形似导航雷达显示屏上的图形而得名。在电网安全指标展示中,通过各基础指标的雷达图,可以清晰地识别出各基础指标的发展情况,易于发现影响电网安全水平的薄弱环节。但雷达图法无法定量给出电网安全综合水平,调度员无法对电网安全整体变化趋势有直观的感知,而且其对某些情形下电网安全水平把握存在盲区。本文采用雷达图法作为电网安全综合指标展示的辅助手段。
5.2 电网安全运行轨迹图
在雷达图基础上,本文提出一种电网安全运行轨迹图方法作为新一代调度系统电网安全综合指标的主要展示手段,用于描绘历史、当前和未来时段构成的连续时间段内电网安全变化过程。
电网安全运行轨迹图包含:(1)电网安全运行历史轨迹曲线,由电网安全综合指标的历史值构成,反映电网安全历史状态;(2)电网安全运行当前轨迹点,即电网安全综合指标当前值,反映电网安全当前状态;(3)电网安全运行未来轨迹曲线,由未来一段时间电网安全综合指标值构成,其计算的基础数据来源于负荷预测、发电计划及检修计划等数据,反映电网安全未来趋势。
6 算例测试
在某省网智能电网调度控制系统上开发了原型系统,对本文所提电网安全指标计算方法进行验证。测试分两部分进行:(1)01:00至24:00不同负荷水平下指标计算(正常态);(2)N-1开断下指标计算(故障态)。
6.1 01:00至24:00不同负荷水平下指标计算
1)基础指标计算结果
01:00至24:00不同负荷水平下基础指标雷达图如图2所示,所有正常指标值都在[0,1]区间,具有相同的量纲。线路潮流指标值在11:00和16:00发生突变,其指标值都达到了0.99,而其他时刻值都在0.4之内。这是由于在11:00和16:00两个时刻2x06线负载率为0.99,发生重载,根据“木桶效应”原则,线路潮流指标x1即为2x06线的负载率值,而其他时刻根据“平均值效应”取所有线路的负载率平均值。另外,13:00的断面潮流指标值达到1.1,这是由于在13:00时刻5x16断面负载率达到了1.08,而同时存在4个相邻断面负载率达到了0.9的重载水平,根据“木桶效应”和“异常个体效应”原则综合得到1.1的断面潮流指标。可以看出,“木桶原则”和“平均值效应”对电网安全与异常状态起到了分隔作用;“异常个体效应”对电网异常状态起到了叠加作用,特别地,当异常指标数量较多时,其效果会更加明显。
6.2 N-1开断下指标计算
在00:00,选择了13条线路开断故障为例对电网安全基础指标和综合指标进行计算测试。N-1开断下基础指标雷达图如图6所示。
可见,开断故障对基础指标影响不大,除了5x32线、5x13线、5x14线等5条500kV线路开断后静态安全分析指标发生越限,其他指标都基本保持恒定。这说明,该时刻下电网运行方式满足N-1校验,设备开断后,不存在过载或稳定问题。但是,某些开断后造成的静态安全分析指标越限,从侧面反映了系统的薄弱环节,即这些开断发生后电网将不再满足N-1校验,再有相应线路、变压器或者发电机的开断,将会造成设备越限。
N-1开断下综合指标2曲线如图7所示。可知,电网安全综合指标在这些薄弱开断下指标值飙升到了1以上,即这些开断是相对危险的开断,存在连锁故障的风险。
6.3 电网安全运行轨迹图展示
电网安全综合指标模块按照1h计算周期实时运行,如图8所示,在06:00进行一次电网安全综合指标计算,在时间轴上新增当前轨迹点,表征电网安全当前状态,在此基础上基于负荷预测和发电计划数据计算未来5h的电网安全综合指标,并描绘未来轨迹曲线。历史轨迹曲线为00:00至6:00之间电网安全综合指标计算结果曲线。
6.4 算例小结
本文只对10种基础指标进行了计算与展示,其变化趋势已各不相同,调度员面对成倍数目的指标更是难以把握。通过本文所提基于权重修正的综合指标计算方法,调度员可以直观地发现在某些时刻综合指标有一定幅度的攀升,但并没有超过1,这意味着某些基础指标越过了预警门槛值,成为主导电网安全的关键指标,电网进入预警状态。而在另一些时刻综合指标急速攀升,越过安全限值1,此时必然存在某项基础指标越限,电网进入危险状态。进一步结合雷达图,可以快速定位关键或危险指标,便于调度员对电网进行及时校正和超前控制。电网安全运行轨迹图提供了一种将历史、当前和未来电网安全水平统一展示的途径,便于调度员全面、宏观把握电网“态势”,实现“正常运行状态下自动巡航,异常运行状态下自动导航”的新一代电力系统自动智能调度。
7 结语
通过对某省级电网不同负荷水平、不同故障情形的算例测试,验证了本文方法的准确性和有效性。本文方法具有以下优点。
1)基础指标计算公式计及了其量纲、结构和设备重要性差异3个方面,增强了适用性、合理性。
2)采用的3种变权重机制,计及了关键指标、危险指标和多种特殊情形下权重的可变性,克服了常规赋权方法确定的权重容易导致聚合时关键信息无凸显、危险信息被淹没、缺乏灵活性的缺点。
3)电网运行状态安全等级划分方法以1作为安全限值,分为3个安全等级区域,5个刻度点,直观反映电网安全状态并与历史指标值参考比对。
权重计算方法 篇4
2015年11月30日, 国际货币基金组织 (下称IMF) 执行董事会决定将人民币纳入特别提款权 (下称SDR) 货币篮子, SDR货币篮子相应扩大至美元、欧元、人民币、日元、英镑5种货币。人民币在SDR货币篮子中的初始权重定为10.92%, 新的篮子将于2016年10月1日生效。国家高层通过对人民币加入SDR的积极支持和近几年中国综合国力的提升使得人民币在国际货币地位中的不断提升, 也最终实现人民币在2015年IMF评估SDR货币篮子之际顺利进入到新的货币篮子。
近几年关于SDR的探讨非常激烈, 主要集中在国际货币体系改革, 人民币加入SDR的可行性, 人民币加入SDR后的影响等方面。在对国际货币体系改革中SDR扮演角色的探讨, 周小川 (2009) 提出, SDR具有超主权货币的特征和潜力, SDR的扩大发行同时也有利于IMF在经费、话语权和代表权方面的改革。在人民币加入SDR可行性分析方面, 方大楹 (2015) 认为, 人民币与世界主要货币仍存在差距;按现行标准, 人民币要实现在2015年加入SDR货币篮子仍存在困难。在人民币加入SDR后影响分析方面, 闫屹等 (2012) 认为人民币成为SDR的篮子货币, 不仅可以提高人民币的国际化水平, 还可以增强中国在国际经济事务中的话语权。通过梳理文献发现, 缺少详细介绍确定SDR初始权重方法的文献, 所以文章以此为出发点, 详细介绍了2015年之前IMF所采用的确定SDR篮子货币初始权重的计算方法和2015年采用的新的计算方法, 而且用新的计算方法对人民币在SDR中所占权重进行测算。
二、SDR确定货币权重的方法
在2015年人民币终于进入SDR货币篮子, 最终的权重也被定为10.92%, 低于市场之前的预期14%, 这是由于IMF在今年调整各货币篮子货币权重计算方法所导致的。在今年货币篮子调整之前, SDR中各种货币权重的计算方法是由1978年制定的并一直延续下来。之前的计算方法是在确定了SDR的货币篮子后, IMF首先计算在评估时前5年时间里货币篮子中的货币发行国或地区平均的年出口规模, 以及全球以这些SDR篮子货币作为储备资产的总规模, 并将两者相加得总规模, 随后, 再计算SDR货币篮子中每一种单一货币发行国5年平均的出口规模与全球以该货币为载体的储备资产规模之和, 并将其与前述总规模相除, 确定单一货币占SDR货币篮子的权重。具体可以用公式 (1) 表示:
其中wi, t代表t时期第i个篮子货币在SDR中的初始权重, Xi, t代表t时期第i个篮子货币发行国或地区出口规模, Ri, t代表t时期第i个篮子货币作为载体表示的储备资产规模, N代表篮子货币的个数。该公式可以变形为以下公式:
分别可以理解为贸易和金融两个变量对决定权重的影响程度。
根据特里芬的观点, 一国的外汇储备规模能满足3个月的进口需求即为外汇储备的适度规模。尽管在布雷顿森林体系崩溃后, 浮动汇率制度带来的波动风险使全球各国不断增加所持有的外汇储备, 但是从绝对量上看, 全球储备资产与年均贸易量相比仍然偏小。从表1中, 我们可以看到, 储备资产权重β的比重从1980年22.8%上升到了2010年的33.2%, 但是贸易变量在决定各货币在SDR中的权重时发挥的作用更大。
单位:%
转自:林采宜:人民币在SDR中的权重为何低于预期?
从上面的计算方法中我们可以看出α和β具有内生性, 它随着各篮子货币发行国或地区的出口规模和分别以它们为载体表示的储备资产规模变化而变化。也正是基于上面这种方法, IMF在201年初步评审公告中预测人民币的权重大概是14%。表2为历史上SDR货币篮子中各个货币所占权重的变化情况。
单位:%
数据来源:IMF数据库。
为了解决贸易变量权重过大和权重内生性的问题, IMF在2015年进行SDR定值审查的时候更换了SDR篮子货币权重的计算公式。IMF在2015年定值审查中表述:执董们支持采用出口和金融变量具有相等权重的公式, 金融变量包括官方持有的外汇、外汇市场交投总额以及国际银行负债和国际债务证券之和, 三者所占比例相同。他们认为, 该公式简单透明, 同时能够维持篮子构成的基本稳定和定值方法的连续性。该公式可以表示为:
其中wi, t, Xi, t, Ri, t表示含义同上, Fi, t表示t时期第i个篮子货币在国际外汇市场交投总额, Di, t国际银行负债和国际债务证券总额。
三、新计算方法下人民币在SDR中的权重的测算
根据IMF最新确定SDR中各篮子货币权重方法, 想要得到人民币在SDR中的权重, 需要确定中国在世界贸易中的出口规模、以人民币为载体外汇储备资产规模、人民币在国际外汇市场上的交投总额以及人民币国际银行负债和人民币国际债券总额。
(一) 贸易变量对人民币在SDR中所占权重的贡献
丛表3中的数据可以计算得出我国在2010~2014五年时间平均出口占比为23%, 按照 (4) 式计算贸易对人民币在SDR中所占权重的贡献应该是11.5%, 单就贸易变量而言就已经超过了IMF公布的人民币再SDR中所占权重10.92%。
单位:亿美元
数据来源:笔者根据IMF的BOPS数据库整理所得。
(二) 金融变量对人民币在SDR中所占权重的贡献
人民币作为储备货币的数据缺少统计, 截止2014年底IMF的COFER数据库只显示七种货币的需求, 而人民币被归为其他货币一类, 所以无法计算以人民币为载体表示的外汇储备资产的具体权重。不过IMF在2015年4月和5月对成员国官方外币资产的货币构成进行了一项特别调查, 调查数据为2013和2014年底数据, 如表5所示。我们可以用表5中的数据通过表5中数据作为外汇储备数据的替代, 这样可以计算得出2014年底人民币在五种货币中所占相对比例为1.89%, 根据 (4) 式可以进一步计算国际储备对人民币在SDR中所占权重的贡献为0.2%。
单位:%
数据来源:IMF数据库。
一种货币在外汇市场的交投总额大小可以反映该货币在国际市场上的地位和该货币国际化的程度。人民币自开启国际化进程以来, 在外汇市场发展迅速, 交投占比从2001年不足1‰到2013年增长到1.1%, 交易量排名也从2011年35名上升到2013年第9名。2013年在SDR货币篮子五种货币中所占相对为1.4%, 如图1所示。根据 (4) 式计算外汇市场交易对人民币在SDR中所占权重的贡献是0.23%。
一种货币计价在银行负债和国际债券中所占份额的大小同样反映该货币的世界地位和国际化程度, 在BIS的数据库中缺少人民币计价的银行负债数据, 故该项数据缺失。在国际债券市场, 从表5中的数据我们可以看到人民币的市场份额是在逐年的增加。在这里我们对银行负债先做一个简单粗略的假设, 即假设以人民币计价的国际银行债务占比和以人民币计价的国际债券占比相同, 这样我们就可计算该项指标对人民币在SDR中所占权重的贡献。以2014年数据为基础, 这样我们可以根据表5中数据计算人民币计价国际债务在SDR货币篮子五种货币所占相对比为0.57%, 进而根据 (4) 式计算国际银行债务和国际债券对人民币在SDR中所占权重的贡献是0.1%。将以上金融变量三个分指标贡献相加得到金融变量对人民币在SDR中所占权重的贡献为0.53%。
数据来源:笔者根据BIS, Triennial Central Bank Survey 2013披露数据整理所得。
位:%
数据来源:BIS数据库。
最后把上面贸易和金融两个指标对人民币在SDR所占比重的贡献相加, 可以得到基于IMF新计算方法的人民币在SDR中所占权重12.03%, 比IMF官方统计的高1.11%。
四、结论
过去几年, 在世界货币体系改革阻碍重重的情况下, 人民币加快了国际化的进程, 并在2015年顺利进入SDR货币篮子。这说明了我国综合实力在不断地增强, 同时主权货币也得到了国际主流的认可。但是透过在确定人民币在SDR中的初始权重的复杂的过程中, 我们可以看到还有一些国家是反对人民币进入SDR的, 但同时又迫于无奈只能选择采取尽量降低人民币在SDR中初始权重的方法来冷却这事件的热度, 降低世界对人民币的关注。通过计算我们发现金融变量对人民币在SDR中的初始权重贡献过小, 这个问题可以随着人民币国际化进程的不断加深得到解决。我们对待个别国家在人民币国际化道路上设置阻碍这个问题上, 要韬光养晦, 继续发展国内经济, 积极实施金融改革措施, 用切实的国家实力为人民币站台。长远来看, 人民币加入到SDR有利于人民币在国际上的进一步使用, 相信到下次定值审查的时候, 金融变量对人民币在SDR中所占权重的贡献会有很大提高, 进而人民币在国际舞台上发挥更大的作用。
参考文献
[1]IMF.REVIEW OF THE METHOD OF VALUATION OFTHE SDR[R].2015.
[2]周小川.关于改革国际货币体系的思考[J].中国金融, 2009 (7) .
[3]闫屹等.积极推动人民币加入特别提款权货币篮子[J].国际金2016年第1期下旬刊 (总第613期) 时代Times融, 2012 (3) .
[4]钱文锐.SDR需要人民币:基于SDR定值稳定性的研究[J].世界经济研究, 2013 (1) .
[5]乔依德.人民币进入SDR计值货币篮子:再评估[J].国际经济评论, 2015 (3) .
权重计算方法 篇5
在基于火灾案例推理的系统中,案例表示的准确与否是类比案例相似程度高低的前提条件和基础。案例表示需要解决的关键问题是:用哪些特征信息描述案例;特征属性的权重值如何确定。笔者以高层建筑火灾案例为例,探讨相关问题。
1定义描述案例的属性
根据从事多年高层火灾案例研究的专家的经验总结和火灾案例库结构化设计总体思路,从影响高层火灾扑救和可以描述高层火灾案例的若干个客观因素中,筛选出能够表示高层建筑火灾案例的12个具有普遍互通性的特征属性定义如下(不分先后顺序):“时间”、“气象”、“水源”、“建筑结构”、“建筑内部消防设施”、“疏散通道”、“火灾类型”、“事故规模”、“灭火力量”、“气温”、“可燃物”、“建筑周围是否适合停放消防车辆”,如“时间”、“气象”、“气温”等因素可以描述高层火灾扑救的困难程度,“水源”、“建筑结构”、“建筑内部消防设施”等因素对灭火救援行动指挥、战术决策、疏散救人等环节都有决定性作用。另外,考虑到描述高层建筑火灾的特征属性的多样性与通用性,用户可根据不同要求自行修改为更加精确的属性描述案例。
根据属性定义,进行案例描述如下:设案例CASE={S1,S2,S3,…,Sn},其中Si代表案例中每一个属性的取值。
2确定特征属性的权重
特征属性的权重是非常重要的因素,权重是重要程度的主观评价和客观反映的综合度量。描述高层建筑火灾案例的12个特征属性中,每一个属性影响灭火指挥决策的程度不一样,权重也不一样,因此首先要确定各个属性的权重才能够准确描述案例。
2.1 特征属性的排序
要确定高层建筑火灾案例中特征属性的权重,就必须首先按照描述案例的特征属性对灭火指挥决策的影响程度高低对其进行排序。笔者通过电子邮件,以发放调查问卷的形式,针对北京、天津、广州等高层建筑数量比较多的城市的辖区消防中队一线指挥员和战斗员(战斗经验三年以上),以专家评分的方式收集数据,要求依据上文所提出的高层建筑火灾案例的12个特征属性影响指挥决策的程度,按照降序排列。此次调查问卷共收回113份,其中有效问卷107份,有效答卷率94.7%。根据问卷中打分结果进行数据分析,从而得出相对准确的特征属性排序方式以描述案例。
107份调查问卷的数据统计结果,如表1所示。
为了对12个特征属性进行排序,由107名专家分别对这12个特征属性排序,就得到107种意见,这些意见是专家的总体印象,往往是模糊的,可以利用波达数(Borda)将107种排序意见转化成一种比较合理的意见,最终得到一个新的排序。
2.2 波达数理论
1784年,为了解决投票选举问题,波达(C De Borda)提出Borda法则。与多数规则不同的是,Borda法则不依赖于一系列两两投票对决,而是每个投票人递交一张选票,上面的内容包括他对所有方案的完整排序,然后从高到低进行评分并累加,得分最高者最终获胜。
波达数理论应用方法如下:设论域U={u1,u2,…,un},将U中的n个元素进行排序。专家组有m人,发表m种意见,记为V={v1,v2,…,vm},其中vi是第i种意见序列,是U中元素的某一个排序。
令Bi(u)表示第i种意见序列vi中排在u之后的元素个数,即若u在第i种意见vi中排在第k位,则Bi(u)=n-k,n为特征属性个数。称undefined为u的波达数。论域U的所有元素可以按照波达数的大小排序,得出集中意见以后的一个比较合理的意见。
以“时间”属性为例。有26种意见认为“时间”属性是对高层建筑火灾的指挥决策影响最大的因素,应该排在第一位。这26种意见的波达数均为B=n-1=12-1=11,故B1(时间)=26×11=286。类似的,有B2(时间)=13×10=130;B3(时间)=7×9=63;B4(时间)=7×8=56;B5(时间)=4×7=28;B6(时间)=7×6=42;B7(时间)=10×5=50;B8(时间)=11×4=44;B9(时间)=4×3=12;B10(时间)=7×2=14;B11(时间)=9×1=9;B12(时间)=0。故B(时间)undefined(时间)=734。
同理可得:B(气象)=515;B(水源)=778;B(建筑结构)=714;B(消防设施)=676;B(疏散通道)=541;B(火灾类型)=743;B(事故规模)=608;B(灭火力量)=665;B(气温)=202;B(可燃物)=533;B(是否适合停放消防车辆)=355。
故12个高层火灾案例的特征属性按照波达数集中以后的排序为:水源、火灾类型、时间、建筑结构、消防设施、灭火力量、事故规模、疏散通道、可燃物、气象、是否适合停放消防车辆、气温。
2.3 特征属性的权值计算
根据上述12个高层火灾案例的特征属性排序,分别用数字1~12编号,每两个属性进行比较,运用三级比例标度方法,如式(1)所示。
undefined
(1)
式中:aij为第i个属性和第j个属性的比较评分。
由特征属性的重要程度的排序,得到判断矩阵A=(aij)n×n如式(2)所示。
再根据和法,将判断矩阵A的12个列向量归一化后的行向量算术平均值近似作为权重向量,即undefined。得:ω1=0.161 4;ω2=0.145 8;ω3=0.131 9;ω4=0.118 1;ω5=0.104 2;ω6=0.090 3;ω7=0.076 4;ω8=0.062 5;ω9=0.048 6;ω10=0.034 7;ω11=0.020 8;ω12=0.006 9。
2.4 应用案例
在实际应用中,求解高层火灾案例相似度时,可以利用所得权重值求解加权平均数,从而得出目标案例与已知案例的相似度,再根据需要,选择案例信息重用,最终达到火灾案例推理的目的。
3结语
笔者提出了火灾案例属性的权重分析与计算方法,针对描述高层火灾案例的特征属性进行了深入的分析,结合相关的数学公式以及算法,最终得出了相对合理的特征属性对灭火指挥决策影响大小的排列顺序和比较准确的权重取值,可以给火灾案例推理系统的案例表示问题提供一定的依据。这不仅为当前对火灾案例描述的研究开辟了合适的思路,也为进一步研究火灾案例相似度提供了有效的数据支持。
摘要:火灾案例推理系统的研究过程中,案例表示是一个重要环节,而表示案例的特征属性就是重中之重。通过调查问卷和专家评分的形式收集数据,结合波达数和层次分析法,对案例的特征属性排序和权重取值问题进行分析和解决。
关键词:火灾案例推理,特征属性,权重
参考文献
[1]George F Luger.人工智能复杂问题求解的结构和策略[M].北京:机械工程出版社,2006.
[2]蔡自兴,蒙祖强.人工智能基础[M].北京:高等教育出版社,2010.
[3]夏定纯,徐涛.人工智能技术与方法[M].武汉:华中科技大学出版社,2004.
[4]李建华,黄郑华.灾害现场应急指挥决策[M].北京:中国人民公安大学出版社,2011.
[5]康青春.灭火战术学[M].廊坊:中国人民武装警察部队学院,2009.
[6]谢季坚,刘承平.模糊数学方法及其应用[M].武汉:华中科技大学出版社,2006.
[7]胡宝清.模糊论基础[M].武汉:武汉大学出版社,2010.
[8]《运筹学》教材编写组.运筹学[M].北京:清华大学出版社,2009.
[9]孙义,张勇,楮燕华.CBR技术在森林火灾预报中的应用[J].微计算机信息,2005,21(7-3):153.
权重计算方法 篇6
关键词:数据库,色差,配色
一、建立线性染料数据库
计算机配色的基础理论是库贝尔卡一芒克函数理论, 其基本表达式为: (1) 其中K为光在不透明介质中的吸收系数, S为光在不透明介质中的散射系数, K/S为库贝尔卡一芒克函数, 可以写为, (R) , R为不透明介质的反射率。在理论上, 库贝尔卡一芒克函数与浓度是线性关系, 其表达式为: (2) 其中I-f (R) -]“’为基底的库贝尔卡一芒克函数, 拳为梁料单位浓度的库贝尔卡一芒克函数值, C为浓度, / (R) 为在基底上印染后的库贝尔卡一芒克函数值。我们将建立声的过程称为建立染料数据库的过程。采用不同浓度值的燃料夹来获得线性染料数据库。
二、色差权重因子计算机配色
在建立线性染料数据库的时候, 色差权重因子计算机配色是一个重要的方面, 而本文所讨论的也是基于线性数据库的色差权重因子计算机配色。对于色差权重因计算机配色, 本文着重讨论色差权重因子权重的建立。如果建立的权重因子恰好是此波长处反射率的变化引起的色差, 那么这个权重因子无疑是理想的权重因子。王喜昌等已经给出了每一个波长点处物体颜色的变化引起的颜色感知差异——物体颜色灵敏函数。它定义为物体的每一波长处单位光谱反射率的变化AR所产生的色差△E, 物体颜色灵敏函数的定义式为: (3) 其中 (X, y, Z) 为标准色的三刺激值, 上面的式子可以改写为: (4) 其中 (z, y) 和y表示标准色的三色坐标和亮度因子。对于给定的光源, X。、y。和z0为确定的值, 例如D65光源, X。=94.825, Yo一100.000, Zo一107.381, 因此, L。、a0、al、b。和bl均为常数。0k为固定的常数。从定义式可以看出: (5) 物体颜色灵敏函数与此波长处光谱反射率的变化的乘积恰好等于此波长处光谱反射率的变化所引起的色差。这样, 我们找到了一种理想的权重因子——物体颜色灵敏函数。由于这种权重因子使得某一波长点的光谱反射率变化所产生的色差为最小, 因而这种权重因子真正反应了不同波长的光谱反射率变化所引起的颜色感知差异, 因而可以认为是一种比较好的权重因子, 称之为色差权重因子WCD。
三、基于线性数据库的色差权重因子计算机配色的研究
(一) 行业之间多交流, 主要在技术和应用方面。
对于色差权重因子计算机配色来说, 在任何一个国家都比较重视, 因此, 行业之间需要一定的交流, 尤其是在技术和应用方面。经过多年的发展以后, 人们的思维不断的变化, 终于意识到, 只有不断的进行交流, 才能使技术不断的向前发展。在本文中, 主要从以下方面进行阐述:1.国内之间进行技术交流。为了更好地发展色差权重因子计算机配色, 在线性数据库中进行研究是比较好的一种选择。而加强行业之间的技术交流又是现阶段的一种潮流, 鉴于这样的情况, 首先必须在国内之间进行交流, 主要是在技术方面。国内的行业技术交流不仅仅可以促进色差权重因子计算机配色的发展, 还具有很大的积极意义。2.国际之间的应用交流。对于现阶段的发展而言, 国际化已经成为了任何一项技术必不可少的考量因素。色差权重因子计算机配色也是一样, 更为重要的一点就是, 色差权重因子计算机配色是在线性数据库中进行研究, 这就更加不能脱离国际进行应用研究。在国际的应用中, 由于纺织印染、建材的工业领域的不断发展, 因此色差权重因子获得了广泛的应用。
(二) 配色结果方面的研究。
为了有效的研究色差权重因子的配色效果, 经过专家和学者的大量调研, 决定采用棉涤混合物T65/C35作为基底, 这种物质最能够突出色差权重因子的配色效果, 便于科研人员观察。同时运用分散红染料3B, 分散黄染料RGFL, 以及分散兰染料2BLN等五种比较具有代表性的染料建立了小型的染料色样数据库, 这样在研究的过程中, 就会起到事半功倍的效果, 现阶段的主要成果是取得了一定的匹配配方 (单位为g/L) 以及色差, 如下表:
由此可见, 在色差权重因子的应用中, 取得了非常突出的成果, 除此之外, 基于线性数据库的色差权重因子计算机配色还广泛应用于纺织印染, 涂料油漆、塑料等等领域, 获得了很大的突破。
结束语
本文对基于线性数据库的色差权重因子计算机配色进行了一定的研究, 我国在这个领域还有很大的提升空间, 这是一个很大的优势, 对于发达国家来说, 他们已经走在了高端, 再想获得提升有一定的困难, 而我国在提升方面就比较简单。经过不懈的努力, 我国在线性数据库的色差权重因子计算机配色上, 已经取得了一定的成果, 相信在将来的发展中, 一定可以获得更大的成功。
参考文献
[1]郝静如, 冯华君, 刘木清.基于最优解的数字成像系统色彩校正方法[J].复旦学报 (自然科学版) , 2010 (03) .
权重计算方法 篇7
为了解决赋权问题, 许多学者进行了深入的研究, 提出了一系列主观赋权法和客观赋权法。主观赋权法能反映决策者的偏好信息, 但是具有较大的主观随意性。客观赋权法弥补了此不足, 但忽视了主观判断。在主观赋权法和客观赋权法的基础上, 相关学者提出了组合赋权法, 该方法结合了主、客观赋权法的优点, 规避了各自的不足。
上述对赋权法的研究为解决权重未知的模糊多准则决策问题指明了方向。准则权重的赋值实际上是一个多目标问题, 而目前存在的方法都是单一目标的, 在决策精度要求较高时这些方法显得粗糙。直觉区间数相较于普通区间数多了隶属度、非隶属度的概念, 目前尚没有针对这些信息来解决权重赋值问题的研究。为此, 本文在研究直觉区间数的运算规则和记分函数的基础上, 给出多目标求解准则权重的方法, 并将其用于多准则决策。
2 直觉区间数
定义1:实数集上的直觉区间数定义为:undefined;μundefined, υundefined>, 其中, [aL, aU] 为其区间部分, <μundefined, υundefined>为其直觉部分。
定义2:设undefined;μi, υi> (i=1, 2) 为两个直觉区间数, undefined, 则有:
定义3:直觉区间数undefined的记分函数为:
undefined
记分函数越大, 则模糊数越大。
3 权重赋值方法
综合直觉区间数的特点, 权重求解考虑两个目标:准则在方案中的隶属度越大, 非隶属度越小, 表明此准则越能体现该方案的特点, 权重越大;各方案在某准则下的区分度越大, 表明该准则区分方案的能力越强, 权重越大。因此定义如下:
定义4:设多准则决策问题的准则是一组直觉区间数undefined;μij, υij>, 准则权重计算公式如下:
undefined,
准则j的权重是:
undefined
归一化权重, 即令undefined, 由此得到
undefined。
4 权重未知的直觉区间模糊多准则决策方法
对于一多准则决策问题, 设有m个方案A={A1, A2, …, Am}, n个决策准则C={C1, C2, …, Cn}, 准则权重未知, 试选出最佳方案。决策步骤如下:
步骤1:构造决策矩阵并规范化;
步骤2:根据定义4计算最优权重向量ωj;
步骤3:计算各方案综合属性值:undefined;
步骤4:对Zi进行排序, 进而得到方案的排序。
5 结论
本文定义了直觉区间数的运算规则和记分函数, 提出求解准则权重的多目标赋值方法, 进而给出准则权重未知的直觉区间模糊多准则决策方法, 并详细讨论了其实现步骤。本文提供的方法避免了单一目标的局限性, 更充分的模拟了现实环境, 因此利用此方法求解直觉区间模糊多准则决策问题可以更准确的反映真实结果。
摘要:从两个方面推导准则权重的求解方法, 用多目标的思想处理准则权重赋值问题, 以估计缺失权重。同时给出直觉区间数的运算规则和记分函数, 提出准则权重未知的直觉区间模糊多准则决策方法。
关键词:多准则决策,直觉区间数,权重未知
参考文献
[1]Wei G W.Maximizing deviation method for multiple attribute decision making in intuitionistic fuzzy setting[J].KnowledgeBased Systems, 2008, 21:833-836.
[2]刘培德, 关忠良.属性权重未知的连续风险型多属性决策研究[J].系统工程与电子技术, 2009, 31:2133-2136, 2150.