权重计算

2024-10-19

权重计算（共9篇）

权重计算篇1

0 引言

随着网络和信息技术的飞速发展,电子文档呈现爆炸式增长的趋势。面对具体的知识,要在这浩瀚的信息世界中快速获得相应的知识却是很困难的,因此研究利用计算机进行自动文本分类已成为自然语言处理和人工智能领域一个具有重要研究价值的课题。文本分类面临的难题之一是如何从高维的特征空间中选择对文本分类有效的特征,以适应文本分类的算法并提高分类精度[1,2]。在以往的研究者文章中,主要集中在研究文本分类器和文本特征的选择与提取,对特征的加权研究较少。

1 TFIDF计算方法

目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。向量空间模型是目前最简便高效的文本表示模型之一,由于直接表示文本的维数很大,应该对表示文本的特征项进行选择[3],使得选择的特征项必须具备一定的特性:(1)特征项要能够确实标识文本内容;(2)特征项具有将目标文本与其他文本相区分的能力;(3)特征项的个数不能太多;(4)特征项分离要比较容易实现。

对文本特征项的选择一般是通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值,然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。TFIDF[4]是由Salton在1988年提出的,是最为经典的单词权重方法。其中TF(Term Frequency)称为词频,用于计算该词描述文档内容的能力,IDF(Inverse Document Frequency)称为反文档频率,用于计算该词区分文档的能力。TFIDF的指导思想建立在这样一条基本假设之上即在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度IDF的概念[5],以TF和IDF的乘积作为特征空间坐标系的取值测度。IDF(t)的计算方法如下:

式中:N—文档集的总文档数,n—出现特征项t的文档数。

一个有效的特征项应既能体现所属类别的内容,又能将该类别与其他类别相互区分,因此TFIDF[6]计算方法如下:

2 TFIDF计算方法的不足

TFIDF计算方法的主要思想即一个词条在一个文档出现的频率越高,在其他文档中很少出现,则认为该词条具有很好的类别区分能力,适合用来进行分类。IDF表示包含词条t的文档数越少,IDF越大,也说明词条t具有很好的类别区分能力,但是在IDF中,首先没有考虑文档数n在各个类别中的分布情况,其次也没考虑各个类中文档数的不同[7,8,9]。

假如在某一类Ci中含有词条t的文档为n1,Ci类中总的文档数为n1,在另一类Cj中含有词条t的文档数也是n1,但是Cj类中总的文档数为2n1,包含词条t的文档数只占一半,,因此词条t在Ci中比在Cj中重要,但是它们通过TFIDF算出来的值却是一样的,这就是因为没有考虑包含词条t的文档占各个类中总的训练文档的比例。因此单独使用TFIDF就会产生大的误差。

3 基于词条数学期望的TFIDF加权方法

本文将词条t看作一个随机变量,t在各个类别中的分布来构造一个概率函数,用数学期望作为因子来改进TFIDF计算方法。由于一个词条越集中出现在一个或几个类别中,它的区分度越高。由于训练集中各个类别的文档数不同,在两个类别包含词条t的文档数相同的情况下,文档数多的赋予较小的值,为此引入了值Fi。

设总共的有n个类,m(t)代表出现t的类别个数,Pi(t)代表在词条t出现的情况下,是不是有属于类别i的文档,出现属于类别i的文档时取值为1/m(t),否则为0,fi(t)代表在类别i中包含词条t的文档数占所有包含词条t文档数的比例,Fi代表类别i中的文档数占总的文档数的比例,如表1所示。

定义词条t的数学期望如下:

用E(t)修正TFIDF,算式如下:

改进后的计算方法的实现过程如下:

1)给定一个含有N个文档的文档集,其中共n个类别,每个类别中文档数为Ni。

2)对文档进行分词,去除稀有词,然后计算每个词条t在各个类别及其文档中的频数,并记录包含词条t的类别数m(t),及其每个类别中包含词条t的文档数。

3)使用改进的计算方法来计算词条t的权重,然后进行排序,选取前面的M个词条,作为文档的特征词。

改进后的计算方法考虑到了文档的分布情况,使得在类别中包含文档数不同造成的影响变小,因此改进的计算方法是有效的。

4 实验结果与分析

4.1 数据集

实验数据集来源于复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的语料库,其中包含环境、农业、计算机等12个类别,共有文档4995篇,其中训练集3747篇,测试集1248篇。

4.2 KNN分类器

使用KNN(K Nearest Neighbor)文本分类器来验证上述方法。KNN即K最近邻是一种传统的模式识别方法,被广泛应用于文本分类研究,有较高的准确率和召回率。KNN在已知类别样本中寻找与待分类样本X最相似的K个样本,文本样本之间的相似性可以通过文本向量之间的余弦来度量,其计算方法如下:

KNN基于这K个已知类别样本的类别属性对未知样本的类别做出预测。一种简单的预测规则就是将未知样本的类别预测为在这K个最近邻样本中包含最多实例的类别。

4.3 实验结果及其分析

为了评价分类效果,我们采用最通用的性能评价方法:召回率R(Recall)、准确率P(Precision)和F1评价[10]方法。对于某一特定的类别,召回率是被正确分类的文档数和被测试文档数的比率,即该类样本被分类器正确识别的概率。准确率是正确分类的文档数与被分类识别为该类的文档数的比率,即分类器做出的决策时正确的概率。通常还将召回率和准确率用某种方式组合成单一的度量,以便于进行比较。我们使用F1度量这种较通用的组合方式,算式如下:

混淆矩阵可以显示分类的明信,混淆矩阵的行表示原本属于某类的文档,最终分类到各个类的情况,而混淆矩阵的列表示最终分类到某个类的文档,而对角线则表示正确分类到各个类的文档数,实验结果如表2、表3所示,分类的性能比较如图1所示。

从实验结果可以看出:使用修改后的TFIDF分类的精确度和召回率都有不同程度的提高,这也就说明了包含词条文档的分布情况对分类的性能是有影响的,考虑到这一点就能有效地提高分类的精确度和召回率。

5 结束语

本文利用包含词条的文档在各个类别中的分布情况以及各个类中文档数的不同来改进TFIDF权重,提高了文本的分类精确度。下一步将结合其他的分类方法如朴素贝叶斯分类器等测试该特征选择方法,同时研究该特征选择方法对分类算法的依赖性以及在不同的数据集上测试该方法的有效性。

摘要：文本的形式化表示一直是文本挖掘的基础性问题,向量空间模型中的TFIDF计算方法是文本表示中一种效果较好的经典词条权重计算方法。在分析传统TFIDF计算方法存在问题的基础上,针对TFIDF方法中没有考虑包含词条的文档在各个类别的分布情况以及各个类别中所含的文档数的不同。提出了将词条的数学期望(TFIDF-E)作为一个文本因子来进行改进上述问题。实验结果表明,TFIDF-E计算方法表示的文本分类效果好于TFIDF,验证了TFIDF-E方法的有效性和可行性。

关键词：文本分类,词条权重,区分度,数学期望

参考文献

[1]唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,20054,2(1):47-53.

[2]苏金树,张博锋,徐昕.一种快速文本归类算法的设计与实现[J].软件学报,2006,17(9):1848-1859.

[3]陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,20052,4(6):690-695.

[4]Salton G,Buckley C.Term-weighting approaches in automatic text re-trieval[J].Information Processing&Managemen,1988,24(5):513-523.

[5]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32.

[6]寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计2,005,26(6):1616-1618.

[7]陆玉昌,鲁明羽,李凡.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,20023,9(10):1205-1210.

[8]李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报:自然科学版2,00,141(7):98-101.

[9]柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息2,006,22(8):24-26.

[10]Yiming Y.An Evaluation of Statistic Approaches to Text Categorization[J].Information Retrieval,1991,1(1/2):69-90.

权重计算篇2

权重计算篇3

随着中国电信业拆分和重组的完成, 市场竞争日趋激烈, 可以说中国电信业正经历着一场空前的战争。关系的利润率 (Wallet sharing) 、新获取的客户数量 (Acquire) 和关系的保持时间 (Retention) , 这三个维度实际上就是运营商收益立方体的三个维度[1]。

一个客户从入网, 在网使用服务到离网, 是一个完整的周期。电信运营商要善于从多角度深入了解现有及潜在客户的基本属性、消费行为和消费倾向, 根据不同客户的特色需求推出一些个性化的服务, 设计有针对性地产品品牌, 提高A R P U (每户平均收入) ;另一方面, 通过对客户的深入了解, 提供个性化的服务, 提高客户的满意度, 从而不断延长客户的在网时间, 使客户从原来较低的价值曲线提升到较高的价值曲线。

电信运营企业常常在某一时期推出某种资费优惠服务以吸引消费者入网, 提升在网用户数量, 而在现实生活里常常出现部分客户在消费完这一优惠服务后离网或重入网 (重入网[4]用户是指用户已经拥有或曾经拥有本省区移动电信运营商的一张SIM卡的情况下, 现重新在本地或者本省其它地区购买新的入网SIM卡, 新卡部分或者全部替代旧卡功能的用户, 老用户已经离网或者还在正常使用) , 导致电信运营企业陷入‘增量不增收’的尴尬境地。本文针对这一现象提出了一种算法方案, 即结合使用TFIDF权重和Cosine类似算法, 达到找出两个主叫号码之间的相似度的目的, 为电信运营企业及时发现这一情况, 修订营销政策和争取、挽留客户提供了准确依据。

2 TFIDF权重算法[3] (term frequencyinverse document frequency)

该算法经常应用到信息检索和文本挖掘应用中。在此方法中, 出现在文档中的文字称为术语 (Term) , 每个术语都有对应的权重, 此权重代表术语在文档识别时的重要程度, 术语的权重与术语在文档中出现的频率成正比, 而与术语在所有文档中出现的频率成反比, 其中TF称为词频, 指术语在给定文档中出现的次数;IDF称为倒排文档频率, 是反映一个术语在一个文档集中按照文档统计出现的频率程度的指标。因此算法分为两个部分t, fTF=算法ni和IDF算法, TF算法:

ni是关键字在文档中出现的频率, 分母是所有关键字出现的频率合计.

●:文档集中的文档数量

●{:文档集中出现过关键字的文档数量.

根据上面公式可以看出, 某个术语文字与T F成正比, 与IDF成反比, 这样在一定程度上减少了常用词对文档特征抽取的影响, 突出了重要的文字;采用TFIDF算法同时又考虑了整个文档集合中的文档之间的关系, 所以得出的术语的权重具有较高的代表性。

3 Cosine类似算法[2]

该算法是根据两个N维矢量之间的夹角来度量这两个矢量之间的相似性, 主要适用于文本挖掘的比较文档中。

假设两个矢量A和B, 他们的cosine相似度用θ表示,

针对与文本匹配应用, 矢量A、B的特征矢量用文档的TFIDF矢量表示。由于角度θ的范围为[0, π], 当θ为π/2时意味着A、B两个矢量完全不相关 (独立) ;当θ为0时意味着A、B两个矢量相等;θ越接近0说明A、B两个矢量的相似度越大。当特征变量为二进制型文档数据时Cosine相似度算法可以扩展成相似系数算法或者相似系数为

相关系数是表示两个变量 (X, Y) 之间线性关系密切程度的指标, 用r表示, 其值在-1至+1间。如两者呈正相关, r呈正值, r=1时为完全正相关;如两者呈负相关则r呈负值, 而r=-1时为完全负相关。完全正相关或负相关时, 所有图点都在直线回归线上;点子的分布在直线回归线上下越离散, r的绝对值越小。当例数相等时, 相关系数的绝对值越接近1, 相关越密切;越接近于0, 相关越不密切。当r=0时, 说明X和Y两个变量之间无直线关系。计算相关系数的公式为:

4 算法的应用

我们先假设一个场景, 有大约600万通话用户数, 一个月有2亿条话单, 每条话单有主叫号码和被叫号码, 某一个主叫号码的话单集合可以看做是一个文档, 被叫号码可以看做是关键字, 我们的目标是找到两个主叫号码之间的相似度。

我们的步骤是这样的,

1、首先使用TF-IDF算法获取一篇文档 (某一个用户的话单) 中关键字 (对方号码) 的T F-I D F值;

2、然后使用一个矩阵来表示这篇文档。

3、使用cos相似计算法来计算两篇文档 (两个用户) tf之间=的n相i似度。

Ni为i这个关键字在文档D中出现的频率, 在这里可以是被叫号码在用户D中的话单数。N k为所有关键字在文档中的频率之和, 即用户的话单总数。

:文档总数, 用户总数

:关键字出现的文档总数, 即和关键字产生话单的用户总数。

文档可以使用D=TFIDF×Ter m来表示, 其中TFIDF为关键字的权重矩阵, Term为关键字。

D=w1*t1+w2*t2+w3*t3+...+wn*tn (我们每个用户取通话最多的前 (10—30) 个号码进行沉淀, 作为该用户分析的依据)

则两个文档的cos相似度为:

5 算法使用中的部分数据说明

我们在分析用户, 计算权重时, 对一些公共的号码应予以排除, 主要有以下几种情况:

◇免费号码, 通话话单一批费用为0的号码

◇公共号码, 120、119、114、12121等, 以及这些号码的变种。加上区号、0、长途IP号码 (17911、193) 等

◇客服号码, 几大运营商、电力、银行、自来水等公司的客服�号码, 以及这些号码的变种。加上区号、0、长途IP号码 (17911、193) 等

◇SP号码、声讯台号码、自动语音台号码、联通丽音号码等, 以及这些号码的变种。加上区号、0、长途IP号码 (17911、193) 等

◇联通、移动等运营商的客户回访电话, 以及这些号码的变种。加上区号、0、长途IP号码 (17911、193) 等

◇位数小于7位的号码, (小号号码) , 以及这些号码的变种。 (加上区号、0、长途IP号码 (17911、193) 等。

◇基于数据库性能的考虑, 把每个地区有500个以上用户拨打的号码也加以排除, 因为根据TFIDF的算法, 这部分用户的权重也是非常低的。

6 结束语

通过以上算法分析, 我们可以通过对多个相似用户常拨打的 (10—30个) 号码的权重和相似度进行分析, 从而达到判断多用户是否为同一用户的目的。为电信运营企业预测经营趋势, 及时规避用户发展中存在的风险提供了有力的判断依据。

摘要：结合使用TFIDF权重和Cosine类似算法, 通过对多个相似用户常拨打的 (10 0个) 号码的权重和相似度进行分析, 从而达到判断多用户是否为同一用户的目的。为电信运营企业预测经营趋势, 及时规避用户发展中存在的风险, 提供较为准确的判断依据。

关键词：重入网,TFIDF权重,Cosine类似算法,相似度

参考文献

[1]刘丰.借经营分析系统提升竞争力——经营分析系统的实施与应用[J].通信世界, 2003, 30

[2]焦芬.数据挖掘在电子商务中的应用[J].职业技术, 2006, (12) :11.

[3]刘虹, 段云峰.中国移动经营分析系统中的CRM系统[J].电信科学, 2005, (1) :35

宝贝标题权重篇4

如何在5天内让宝贝排在自然搜索首页？如何快速把计划中所以质量的分提高到10分？淘宝竞争太激烈，如果没有深厚的内功，很难有立足之地。下面老兵给大家传授一些个人优化心得。

以我的女装类连衣裙来讲

2015新款品质女装连衣裙夏季韩版雪纺短袖修身显瘦款长裙

连衣裙，大流量关键词类目的统称，雪纺连衣裙，碎花连衣裙，小清新连衣裙品质连衣裙等等就是连衣裙里面的一个大类。“韩版连衣裙2015”就是浓缩的比较不错的标题了，还剩下很多小流量的修饰词。有销量以后没有权重也无法抢小流量词的

在定义宝贝的时候标题，只有精准了才可能转化，老是改来该去的，标题的权重跑哪里去了，你都不知道。还谈抢什么流量？（当然也有改标题，换主图不降权的方法，这个后面说。）标题不精确描述，谈养词就是扯淡！！

有人会疑问，我老是改标题，这样对搜索真的会有影响吗？什么程度！我告诉你，淘宝会给你一定的机会展现，如果转化了，加权重。但是有限的。新词的固然有转化带权重，但是又奈何能与其他好的带权重的标题抗衡呢！所以你一开始就应该把他定义好，有时候你不经意去掉一些有意义的关键词，你的权重就更是少的可怜。比如，有人会问，为什么我的销量比同类的高，却排在比人后面！

优化标题的重要性，我也不在这里过多的强调了。宝贝的排名没有靠前那是因为你没有个好的标题。

做过爆款的朋友都知道，标题是可以随便改呀改的吗？改来改去会导致以前养关键字的权重重置消失。

说到养词，许多朋友会问怎么样养词有效果！！下面给你细细道来。

养词简单点就是，通过淘宝，天猫通或直通车展示搜索关键字，搜索到你的宝贝，点击后并且转化，这样会增加该关键词的权重。如图

今天不谈优化，谈给宝贝标题加权重。打开淘宝搜索韩版连衣裙2014

“韩版连衣裙2014”

把关键字拆分 “韩版” “连衣裙” “2014” 假设每次搜索转换后的权重分值为10分

那么韩版连衣裙 2014 分别可以获得3.33333分的权重积分，当搜索这三个关键字的时候，这三个关键字就会相对比别人的更高一些，也就是为什么

我只卖出了393个，第三名卖出了10515个，但是我还是能排在第一，因为你关键字养得并没有我的好，对于淘宝来说，我的关键字更加精准，淘宝会将这些精准关键字排名靠得更加前面给消费者展示

那么如果客户只搜索了一个关键字 “连衣裙” 按如果按照销量排名，我的排名不是很靠前。本身销量不多

以上是以“连衣裙”关键字来进行的排序，明显我销量并不如他，但是在自然搜索排名中，“连衣裙”这个关键词的权重比他们更高，所以我会更靠前一些。

再举例个例子说明一下

上图同样如此，你们可以看到，我的销量只有4924，但是排序仍然比下面6018销量更靠前，原因很简单，我的关键词转化权重比他们高，所以我靠前。有一点权重只计算月销量累计的权重，一个月后就会清一次。这就是有些朋友为什么会发先，宝贝从100-200-500涨的很快，突然有一天，自然搜索流量就没有了，然后销量开始下滑。就是这个道理，因为30天的权重过了之后会重新计算调整。

对于标题来说，每个宝贝标题可以设30个汉字，分割成许多小关键字，那么每个关键字的权重都不一样的，甚至还要考虑DSR。在说个例子

我的宝贝在商城销量不如他们，但是在淘宝收索中，我却进入豆腐块里。这说明什么呢？

“销量高不代表标题里词的权重就好，搜索词转化，才是真正提高关键词权重的分项” 比如你搜索，转化了连衣裙，那么就给连衣裙两次增加权重，搜索小西服，小西服转化了，增加搜索权重，不管淘宝搜，还是商城搜索转化，还是点击关键词的直通车转化，都会计算，但是自然搜索的权重值会相对高一些！！在举个例子说明：

我的宝贝销量相对还可以，想去抢占几个小流量关键词，大多数卖家认为：我宝贝销量高，别人和我差的远，我就抢个小词，也没人跟我争。

错，如果你的关键词没有搜索转化，没有加分项，一样排在后面。你可以试试，你自己加个词，搜索一下！！所以你不知道怎么不降权，就不要整天改标题。那么如何养词呢？

干货1：边卖边刷（不提倡，不鼓励，但是真有效），通过搜索关键词，进行点击，5分钟阅读，在店铺里鼠标四处点点，收藏店铺，该假聊假聊并且购买宝贝，取得可控权重！发个链接点开就刷的方式不可取！不得权重，还容易被抓。另外，控制好上下架时间，以你的类目最高转化时间段延后1--2小时比如：你星期一晚上7点-9点下单率最高！那么这款宝贝的上架时间设置为，星期一晚上8-10点，干货2：直通车，直通车关键词与标题关键词匹配，转化后可以提高宝贝对应关键词的权重，同时，高转化又反哺直通车质量得分。分高了，有能降低点击单价，从而提升整体roi。进入良性循环。

打造爆款，如果不做类目热词，大流量高消费，那一个月的爆款周期过后，你就被自己拖死了。

干货3：标题一定要精准定位产品，一旦设置完成，绝不轻易修改，搜索权重才是决定你的排名，而不是标题优化的多好

下面看下老兵前段时间亲身按照上述方法优化的一家店铺自然流量的增长情况

这是一家商城店，天猫搜索从之前不到500，优化了一个多月，提升至接近3000.淘宝搜索从之前300左右，优化到1200左右。

主要方法：1.店铺标题关键词优化 2 配合直通车重点关键词注流 3.前期适当刷单带起来

权重计算篇5

在基于火灾案例推理的系统中,案例表示的准确与否是类比案例相似程度高低的前提条件和基础。案例表示需要解决的关键问题是:用哪些特征信息描述案例;特征属性的权重值如何确定。笔者以高层建筑火灾案例为例,探讨相关问题。

1定义描述案例的属性

根据从事多年高层火灾案例研究的专家的经验总结和火灾案例库结构化设计总体思路,从影响高层火灾扑救和可以描述高层火灾案例的若干个客观因素中,筛选出能够表示高层建筑火灾案例的12个具有普遍互通性的特征属性定义如下(不分先后顺序):“时间”、“气象”、“水源”、“建筑结构”、“建筑内部消防设施”、“疏散通道”、“火灾类型”、“事故规模”、“灭火力量”、“气温”、“可燃物”、“建筑周围是否适合停放消防车辆”,如“时间”、“气象”、“气温”等因素可以描述高层火灾扑救的困难程度,“水源”、“建筑结构”、“建筑内部消防设施”等因素对灭火救援行动指挥、战术决策、疏散救人等环节都有决定性作用。另外,考虑到描述高层建筑火灾的特征属性的多样性与通用性,用户可根据不同要求自行修改为更加精确的属性描述案例。

根据属性定义,进行案例描述如下:设案例CASE={S1,S2,S3,…,Sn},其中Si代表案例中每一个属性的取值。

2确定特征属性的权重

特征属性的权重是非常重要的因素,权重是重要程度的主观评价和客观反映的综合度量。描述高层建筑火灾案例的12个特征属性中,每一个属性影响灭火指挥决策的程度不一样,权重也不一样,因此首先要确定各个属性的权重才能够准确描述案例。

2.1 特征属性的排序

要确定高层建筑火灾案例中特征属性的权重,就必须首先按照描述案例的特征属性对灭火指挥决策的影响程度高低对其进行排序。笔者通过电子邮件,以发放调查问卷的形式,针对北京、天津、广州等高层建筑数量比较多的城市的辖区消防中队一线指挥员和战斗员(战斗经验三年以上),以专家评分的方式收集数据,要求依据上文所提出的高层建筑火灾案例的12个特征属性影响指挥决策的程度,按照降序排列。此次调查问卷共收回113份,其中有效问卷107份,有效答卷率94.7%。根据问卷中打分结果进行数据分析,从而得出相对准确的特征属性排序方式以描述案例。

107份调查问卷的数据统计结果,如表1所示。

为了对12个特征属性进行排序,由107名专家分别对这12个特征属性排序,就得到107种意见,这些意见是专家的总体印象,往往是模糊的,可以利用波达数(Borda)将107种排序意见转化成一种比较合理的意见,最终得到一个新的排序。

2.2 波达数理论

1784年,为了解决投票选举问题,波达(C De Borda)提出Borda法则。与多数规则不同的是,Borda法则不依赖于一系列两两投票对决,而是每个投票人递交一张选票,上面的内容包括他对所有方案的完整排序,然后从高到低进行评分并累加,得分最高者最终获胜。

波达数理论应用方法如下:设论域U={u1,u2,…,un},将U中的n个元素进行排序。专家组有m人,发表m种意见,记为V={v1,v2,…,vm},其中vi是第i种意见序列,是U中元素的某一个排序。

令Bi(u)表示第i种意见序列vi中排在u之后的元素个数,即若u在第i种意见vi中排在第k位,则Bi(u)=n-k,n为特征属性个数。称undefined为u的波达数。论域U的所有元素可以按照波达数的大小排序,得出集中意见以后的一个比较合理的意见。

以“时间”属性为例。有26种意见认为“时间”属性是对高层建筑火灾的指挥决策影响最大的因素,应该排在第一位。这26种意见的波达数均为B=n-1=12-1=11,故B1(时间)=26×11=286。类似的,有B2(时间)=13×10=130;B3(时间)=7×9=63;B4(时间)=7×8=56;B5(时间)=4×7=28;B6(时间)=7×6=42;B7(时间)=10×5=50;B8(时间)=11×4=44;B9(时间)=4×3=12;B10(时间)=7×2=14;B11(时间)=9×1=9;B12(时间)=0。故B(时间)undefined(时间)=734。

同理可得:B(气象)=515;B(水源)=778;B(建筑结构)=714;B(消防设施)=676;B(疏散通道)=541;B(火灾类型)=743;B(事故规模)=608;B(灭火力量)=665;B(气温)=202;B(可燃物)=533;B(是否适合停放消防车辆)=355。

故12个高层火灾案例的特征属性按照波达数集中以后的排序为:水源、火灾类型、时间、建筑结构、消防设施、灭火力量、事故规模、疏散通道、可燃物、气象、是否适合停放消防车辆、气温。

2.3 特征属性的权值计算

根据上述12个高层火灾案例的特征属性排序,分别用数字1～12编号,每两个属性进行比较,运用三级比例标度方法,如式(1)所示。

undefined

(1)

式中:aij为第i个属性和第j个属性的比较评分。

由特征属性的重要程度的排序,得到判断矩阵A=(aij)n×n如式(2)所示。

再根据和法,将判断矩阵A的12个列向量归一化后的行向量算术平均值近似作为权重向量,即undefined。得:ω1=0.161 4;ω2=0.145 8;ω3=0.131 9;ω4=0.118 1;ω5=0.104 2;ω6=0.090 3;ω7=0.076 4;ω8=0.062 5;ω9=0.048 6;ω10=0.034 7;ω11=0.020 8;ω12=0.006 9。

2.4 应用案例

在实际应用中,求解高层火灾案例相似度时,可以利用所得权重值求解加权平均数,从而得出目标案例与已知案例的相似度,再根据需要,选择案例信息重用,最终达到火灾案例推理的目的。

3结语

笔者提出了火灾案例属性的权重分析与计算方法,针对描述高层火灾案例的特征属性进行了深入的分析,结合相关的数学公式以及算法,最终得出了相对合理的特征属性对灭火指挥决策影响大小的排列顺序和比较准确的权重取值,可以给火灾案例推理系统的案例表示问题提供一定的依据。这不仅为当前对火灾案例描述的研究开辟了合适的思路,也为进一步研究火灾案例相似度提供了有效的数据支持。

摘要：火灾案例推理系统的研究过程中,案例表示是一个重要环节,而表示案例的特征属性就是重中之重。通过调查问卷和专家评分的形式收集数据,结合波达数和层次分析法,对案例的特征属性排序和权重取值问题进行分析和解决。

关键词：火灾案例推理,特征属性,权重

参考文献

[1]George F Luger.人工智能复杂问题求解的结构和策略[M].北京:机械工程出版社,2006.

[2]蔡自兴,蒙祖强.人工智能基础[M].北京:高等教育出版社,2010.

[3]夏定纯,徐涛.人工智能技术与方法[M].武汉:华中科技大学出版社,2004.

[4]李建华,黄郑华.灾害现场应急指挥决策[M].北京:中国人民公安大学出版社,2011.

[5]康青春.灭火战术学[M].廊坊:中国人民武装警察部队学院,2009.

[6]谢季坚,刘承平.模糊数学方法及其应用[M].武汉:华中科技大学出版社,2006.

[7]胡宝清.模糊论基础[M].武汉:武汉大学出版社,2010.

[8]《运筹学》教材编写组.运筹学[M].北京:清华大学出版社,2009.

[9]孙义,张勇,楮燕华.CBR技术在森林火灾预报中的应用[J].微计算机信息,2005,21(7-3):153.

权重计算篇6

随着Web 2. 0 技术的发展, 互联网中出现了一些新型的网络应用, 如社交网络、微博网络等, 在信息传播和人际关系承载方面, 显现出越来越大的价值和影响力[1，2]。

社交网络 ( SNS) 作为现实社交网络在互联网上的扩展, 旨在帮助人们更加有效地建立和维持人际关系网络。与以聚合信息为特点的网站不同, 社交网络以聚合人群为特点, 人们通过社交网络可以建立和维持自己的朋友圈子, 成为一种新型的个人社交方式和信息交流平台, 借助于朋友口碑相传的信息传播模式, 加速了信息的传播。

微博网络也是一种社交网络, 用户可以通过浏览器、手机、即时通信软件等多种渠道发布140 字以内的信息, 这种即时性、碎片化、聚合性的信息传播特性受到广大用户的欢迎, 国内新浪微博的注册用户已超过3 亿人。

在微博网络中, 微博客转发对信息的传播有着至关重要的影响, 各种各样的信息正是通过转发得以在微博客上广泛且迅速的传播[3], 而在这个传播过程中, 意见领袖发挥了关键的作用。局部意见在意见领袖的引导和影响下演化为网络舆论。意见领袖又称舆论领袖, 是指在人际传播网络中经常为他人提供信息并施加影响的“活跃分子”, 他们在大众传播效果的形成过程中起着重要的中介或过滤作用, 由他们将信息扩散给受众, 形成信息传递的两级传播[4]。随着网络舆论影响力的不断加大, 人们对微博网络意见领袖的研究也在不断地深入。

统计数据显示, 网络中的大部分用户不经常参与信息的制造与传播, 他们做出的决定往往跟随意见领袖。有效地识别网络意见领袖, 通过意见领袖发表引导性信息来影响所在网络用户而非直接说服他们, 可以有效地触发整个网络或社会的影响力, 对于推动信息传播, 提高广告效应具有重要的现实意义。

对于意见领袖识别问题, 国内外做了大量的研究, 提出了多种针对不同网络信息交互平台 ( 如网络论坛、社交网络等) 的意见领袖识别算法, 主要思路是根据网络拓扑特性, 将网络抽象成一种图 ( 无向图或有向图) , 通过分析节点之间结构关系, 计算每个节点的权值, 节点权值越大, 成为意见领袖的可能性就越大。

由于微博网络是一种新兴的社交网络, 具有与传统社交网络不同的网络拓扑特性。在微博网络中, 网络节点构成一种有向图, 在分析节点之间结构关系时, 除了出度和入度外, 还需要考虑其它因素, 以提高计算精确度。

本文重点研究面向微博网络的意见领袖识别问题, 提出一种基于多重链接的微博网络节点权重计算方法, 能够有效地识别微博网络中的意见领袖。

1 相关工作

国内外提出了多种社交网络意见领袖识别算法, 主要通过分析社交网络拓扑特性来计算网络节点权值, 或者根据信息内容来判断其用户的重要性, 进而识别意见领袖。

文献[5]提出了一种基于帖子内容分析的博客重要用户分析方法ThreadRank, 该方法通过分析大量的博客内容来判断其用户的重要性, 需要耗费大量的时间用于内容清理和分析, 效率较低。

文献[6]提出一种意见领袖识别方法InfluenceRank, 该方法根据与其他博客相比较来判断用户的重要性, 以及这些用户对整个网络所做的贡献来计算用户权值, 该文采用了余弦定理计算不同博客实体的相似性, 复杂性较高, 开销大。

文献[7]提出了一种Twitter网络节点计算方法TwitterRank, 该方法根据Twitter中的用户关系、粉丝与关注者之间的分布以及在信息传播的过程中各种用户群体所起到的作用进行权重计算, 该算法主要基于话题进行分析, 召回率不高。

文献[8]研究了如何对社会影响力进行定量分析, 通过因子图建模, 提出了三种学习算法, 但文中用到的LDA和因子图降低了其效率。

文献[9]根据社交网络节点之间的交互信息和拓扑信息, 利用线性回归模型预测节点之间的影响力大小, 结果表明交互信息其主导作用, 拓扑信息作用较小。该方法仅利用了Facebook上的数据, 结论是否适合于其他社交网络有待进一步验证。

文献[10]以新浪微博为代表对社交网络中的信息传播进行了较大规模的测量、统计和分析, 提出了一种三角和算法用于探测用户粉丝数的阈值, 根据散点分布的统计规律来估算使微博热度达到某一值的粉丝数的临界值。同样, 该方法仅利用了新浪微博上的数据, 结论是否和其他社交网络相同有待进一步验证。

2基于多重链接的微博网络节点权重计算方法

为了克服现有网络节点权重计算方法准确率和召回率低、时间复杂度高的不足, 本文提出了一种基于多重链接的微博网络节点权重计算方法, 该方法首先将微博网络抽象成一种有向网络图G = ( E, V) , 每个用户构成网络中的节点, 用户之间关系构成节点之间的边, 由于每个用户拥有的朋友和粉丝数量不同, 因此各个节点具有不同的权值, 节点权值越大, 说明该节点的影响力越大, 成为意见领袖的可能性也就越大。在计算节点权重时, 考虑到节点拥有的粉丝数量以及节点链接关系和交互关系等多方面因素, 提高了计算效率以及准确率。

该方法的基本原理如下。

定义1 微博网络有向图G, 如下式所示:

式中, E表示节点关系集合, V表示节点集合。

定义2 有效粉丝集合Ef ( u) , 如下式所示:

式中, δ 是非负常数阈值, 表示节点u的粉丝节点v对节点u反馈的程度门限, 超过该阈值且属于节点u的粉丝的节点才能算作有效粉丝。

定义3 由链接关系所产生的节点权值IRL ( ui) , 其计算方法如下式所示:

式中, IRL ( ui) 表示节点ui链接关系产生的节点权值, Follower ( ui) 为节点ui所有粉丝集合, L ( ui) 为节点ui粉丝数目, δ 是介于0 和1 的阻尼系数, N为网络图中的总节点数。

定义4由节点交互关系所产生的节点权值IRTR ( ui) , 其计算方法如下式所示:

式中, IRTR ( ui) 表示节点ui的节点权值, Tweet ( ui) 为用户ui帖子集合, A表示所有具有交互情况的帖子集| A | 是A的集合, Ns ( uj) 是节点uj针对帖子tj的响应次数, Nμ ( uj) 为响应平均值, Response包括用户转帖、回帖、评论和收藏。

定义5 节点综合权值IR ( ui) , 其计算方法如下式所示:

式中, 参数 β ( β∈[0, 1]) 主要决定链接关系和节点交互关系两个因子在节点权值计算中所处的地位; 当 β 较小时, 节点权值主要由链接关系决定, 特别当 β =0 时则完全由链接关系计算权值。

综上所述, 该方法的具体算法描述如下:

( 1) 利用网络爬虫工具, 从互联网中采集实际的微博网络数据, 提取其中的节点、连接等网络拓扑信息存入数据库待处理;

( 2) 构建有向网络图G = ( V, E) ;

( 3) 利用式 ( 1) 计算有效粉丝集合E f ( u) ;

( 4) 利用式 ( 2) 计算由链接关系所产生的节点权值IRL ( ui) ;

( 5) 利用式 ( 3) 计算由节点交互关系所产生的节点权值IRTR ( ui) ;

( 6) 利用式 ( 4) 计算节点综合权值IR ( ui) ;

( 7) 计算网络图中所有节点的综合权值, 并按综合权值由大到小排序, 选取综合权值较大的n个节点, 作为意见领袖的候选对象。

本方法从计算效率和精确度两个方面改进了现有方法的不足。首先, 通过定义有效粉丝集合, 将没有或拥有少量粉丝的节点排除掉, 他们成为意见领袖的可能性极小, 因为意见领袖或高权值节点必然拥有大量粉丝, 这样就可大幅度减小网络图规模, 有利于提高计算效率。其次, 在计算节点权值时, 不仅考虑了由粉丝产生的链接关系, 还考虑了帖子的发布、转发、回复以及收藏等所产生的节点交互关系, 因此提高了计算精确度。

3 实验结果及分析

由于意见领袖的识别被量化成网络中节点权值序列, 在这个序列中排名靠前的可认为是网络中的意见领袖。目前还没有用于衡量意见领袖识别效果的标准, 学术界主要采用算法比较方式来确认意见领袖识别效果。

下面对基于多重链接 ( Multi-Link) 算法和基于网络拓扑特性 ( Topological-based) 算法进行三种统计学方法比较: T-Test检验、Kendall tau Rank检验和Spearman Rank检验。

1) 数据集

本文从互联网中采集了大量的真实社交网络数据, 其数据集来源及规模如表1 所示。

2) 网络分析工具

采用自行研制的网络分析工具对所采集的数据集进行分析, 该工具实现了Multi-Link、Topological-based、Topic-based、PageRank、HITS、TwitterRank、InfluenceRank等多种算法, 可以对这些算法的性能进行对比实验分析。该工具运行在一台PC机上, CPU为Intel酷睿双核E7200, 主频2. 53GH, 内存2GB。

3) T-Test检验

T-Test检验也称student-t检验, 主要用于检验样本空间较小 ( 例如n < 30) 、总体标准差 σ 未知的正态分布数据。

首先使用Multi-Link算法和Topological-based算法分别对10 万个新浪微博用户节点进行意见领袖识别, 得到前100 位节点权值排名靠前的用户节点, 然后对这100 个用户节点使用T-Test检验, 得到这些节点的P-Value分布。图1 和图2 分别给出了Multi-Link算法和Topological-based算法的T-Test检验的P-Value分布。图中直线标识了P-Value = 0. 05 即5% 的分割线, 可以看出, 节点的P-Value值主要集中在该直线以下, 即通过T-Test检验发现, 两种算法计算的节点领袖权值具有较高可信度, 能够代表网络中的意见领袖。

图 1 Multi-Link 算法的 T-Test 检验

图 2 Topological 算法的 T-Test 检验

4) Kendall-tau检验

在统计学中, 肯德尔相关系数 ( Kendall-tau) 是用来测量两个随机变量相关性的统计值, 用希腊字母 τ ( tau) 表示其值。一个肯德尔检验是一个无参数假设检验, 它使用计算得到的相关系数去检验两个随机变量的统计依赖性。τ 的取值范围在- 1到1 之间, 当 τ 为1 时, 表示两个随机变量拥有一致的等级相关性; 当 τ 为- 1 时, 表示两个随机变量拥有完全相反的等级相关性; 当 τ 为0 时, 表示两个随机变量是相互独立的。τ 的计算公式如下式所示:

( 1) 如果排列双方的排名是完美的 ( 即两个排名是相同的) , τ 值为1;

( 2) 如果两个排列之间的分歧排名是完美的 ( 即一个排名为扭转其他) , τ 值为- 1;

( 3) 对于所有其他 τ 值在- 1 和1 之间的排列, 增加值意味着增加排列之间的排名。

根据计算结果, Multi-Link算法和Topological-based算法之间的 τ 值为0. 9107, 说明这两种算法具有很高的一致性。

5) Spearman Rank检验

在统计学中, 斯皮尔曼等级相关系数 ( Spearman Rank) 用来估计两个变量X、Y之间的相关性, 其中变量间的相关性可以使用单调函数来描述, 并用希腊字母 ρ ( rho) 表示其值。如果两个变量取值的两个集合中均不存在相同的两个元素, 那么, 当其中一个变量可以表示为另一个变量的很好的单调函数 ( 即两个变量的变化趋势相同) 时, 两个变量之间的 ρ 值范围在- 1 到1之间。

假设两个随机变量分别为X、Y ( 也可以看作是两个集合) , 它们的元素个数均为N, 两个随机变量取的第i ( 1≤i≤N) 个值分别用Xi、Yi表示。对X、Y进行排序 ( 同时为升序或降序) , 得到两个元素排行集合x、y, 其中元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。将集合x、y中的元素对应相减得到一个排行差分集合d, 其中di= xi- yi, 1≤i≤N。随机变量X、Y之间的 ρ 值可以由x、y或者d计算得到, 其计算方式如下式所示:

表2 给出了7 种算法之间的Spareman Rank值, 从表2 可以看出, Multi-Link算法和Topological-based算法具有较高的Spareman Rank值, 序列一致性较高, 说明Multi-Link算法和Topological-based算法在意见领袖识别上表现出较好的能力。

注: A: Topological; B: Topic; C: Multi-Link; D: PageRank; E: HITS;F: TwitterRank; G: InfluenceRank

6) 准确率与召回率

使用准确率和召回率 ( 查全率) 来评价意见领袖识别算法性能, 其中准确率和召回率分别使用P和R表示, 分别使用下面两个公式计算:

式中:

A: 找到的真实意见领袖数目

B: 找到的非真实意见领袖数目

C: 未识别到的真实意见领袖数目

由于在意见领袖识别中还没有标准来衡量是否发现全部的意见领袖, 因此在计算准确率和召回率时通常采用基于经验的意见领袖来获得真实意见领袖的数目。

表3 是以处理10 万个网络节点为基准测试的, 从表3 中可以看出, 单纯分析网络节点 ( 如入度、出度等链接关系分析算法) 可以降低节点分析时间, 但准确率和召回率不高。考虑节点内容 ( 如ThreadRank、InfluenceRank及TwitterRank等算法) 后能够提高节点分析的召回率和准确率, 但是会大大降低系统效率。

注: 时间测试是在包含10 万个用户节点的真实数据环境下得到的结果

本文采用微博网络拓扑结构中链接关系与节点交互相结合的计算方法, 降低了网络节点规模, 从而提高了计算速度, 同时准确率和召回率也有显著的提高。

从图3 可以得出, 在测试数据集上, Multi-Link、Topologicalbased及Topic-based等算法都具有较好的准确率和召回率, 与TwitterRank算法基本相当, 比常见的出度和出度/ 入度结合算法更好。在测试数据集上, 出度和出度/入度结合算法的召回率和准确率都比较低。

从图4 可以看出, 出度和出度/入度结合两种算法的计算时间要比其他算法优异, 因为在计算过程中, 这两种算法没有考虑其他的附加条件, 算法比较简单, 但召回率和准确率都比较低。而其他意见领袖识别算法由于考虑了更多的修正因素, 因此时间复杂度稍高。相比之下, Multi-Link算法具有折中的时间复杂度。

图 3 不同算法识别意见领袖的准确率和召回率

图 4 不同算法在计算时间上的比较

4 结语

采用T-Test、Kendall-tau和Spareman Rank三种统计学检验标准对不同的意见领袖识别算法进行了对比实验。实验结果表明, Multi-Link算法具有较高的意见领袖识别能力, 与Topological-based、Topic-based等算法具有一致性。

从算法的准确率和召回率以及计算时间的实验结果可以看出, Multi-Link算法不仅在准确率和召回率上表现良好, 并且比Topological-based、Topic-based等算法的时间复杂度要低, 这对于处理海量网络数据来说是至关重要的。因此, 从意见领袖识别能力、准确率和召回率以及计算时间等综合指标来看, MultiLink算法更具优势。

参考文献

[1]Nielsen Online Report[R].Social networks&blogs now 4th most popular online activity, 2009.

[2]Http://news.xinhuanet.com/internet/2010-03/17/content_13186377.html.

[3]张旸, 路荣, 杨青.微博客中转发行为的预测研究[J].中文信息学报, 2012 (4) :109-114.

[4]R Vanden Brink, A Rusinowska, F Steffen.Measuring Power and Satisfaction in Societies with Opinion Leaders:Dictator and Opinion Leader Properties[R].Mimeo, 2009.

[5]Shinsuke Nakajima, Junichi Tatemura.Discovering Important Bloggers based on Analyzing Blog Threads[C].WWW2005, May 10-14, 2005, Chiba, Japan, 2005.

[6]Song X, Chi Y, Hino K.Identifying Opinion Leaders in the Blogosphere[C].ACM 978-1-59593-803-9/07/0011, 2007.

[7]Weng J, Lim E P, Jiang J.Twitterrank:Finding Topic-sensitive Influential Twitterers[C]//Proc.of the third ACM international conference on Web search and data mining.ACM, 2010.

[8]Tang J, Sun J, Wang C, et al.Social Influence Analysis in Large-scale Networks[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD’09) , 2009:807-816.

[9]Gilbert E, Karahalios K.Predicting Tie Strength with Social Media[C]//Proceedings of CHI09.

权重计算篇7

伴随特高压电网、交直流混联和新能源的发展，电网的复杂程度大幅提高，运行不确定性因素显著增多，外部环境对电网的影响也日趋增强。依赖调度员对成百上千类指标进行监视控制的常规调度方式逐渐显得捉襟见肘。当电网突然遭遇事故或即将发生危险时，调度员面对海量数据，往往难以把握，极易出错。这给电网的安全带来了极大隐患。因此，需要从庞大的电网运行信息中提炼、综合，建立起高度概括而又能准确反映电网整体安全水平的指标体系[1,2,3,4,5,6,7,8]，进而定量综合评价电网安全水平，并据此对电网进行及时校正和超前控制，从而实现“正常运行状态下自动巡航，异常运行状态下自动导航”的新一代电力系统自动智能调度[9,10,11,12,13,14]。

电网安全指标体系的构建重点在于基础指标的选取计算以及各指标间权重的求取。关于基础指标的选取计算已有较多文献进行了说明[15,16,17,18,19]，其涵盖面广，包含了电网安全、经济、优质、管理等各个方面，并给出了相应的计算方法。但其对应用到实际电网综合指标计算时的合理性以及量纲一致性等因素考虑较少。在指标间权重的求取方面，主要包含基于主观经验的专家法、层次分析法、模糊评价法等和基于客观历史数据的熵权法、变异系数法、主成分分析法等[20,21,22]。这些方法在得到指标权重后直接用于综合指标的聚合，没有考虑在某些特殊情形下指标权重的可变性。这样会带来聚合后指标关键信息被淹没的问题。

本文首先设计了基础指标计算公式，计及了指标量纲、指标结构和设备重要性差异3个方面。在指标权重确定方面，以层次分析法为基础，增加了关键指标权重自适应修正、危险指标权重惩罚修正以及自定义指标权重人工修正3个策略，计及了指标权重的可变性。在此基础上提出的电网运行状态安全等级划分方法，以“1”作为安全限值，将电网运行状态安全等级划分为3个区域。最后，设计了电网安全指标可视化展示方法。

1 基础指标计算

1.1 指标设计

本文在设计各基础指标计算公式时分别从3个方面进行了考量。

1）指标量纲

由于不同指标考虑的电网安全方面不同，其计算公式也会呈现各种形式。单独对其考量并不存在问题，但是应用在综合指标计算时，需要确保其数量上的一致化。本文根据不同指标的物理意义，统一采用量度当前电网状态值X距离临界值Xlim远近程度的方式，引入比率因子R=X/Xlim作为衡量基础指标安全性的基本单位，其值一般在[0,1]区间。量纲的一致性保证了后续综合指标聚合的有效性。

2）指标结构

指标公式合理性的一个重要考量是其结构的合理性。如果采用不合理的指标结构，可能会过于保守或过于乐观地评估电网状态。本文的结构性设计主要包含：(1)木桶效应，当电网中存在不安全的个体时，该类安全指标取决于安全性最差的那个个体，即取max(R);(2)异常个体效应，反映了电网中处于安全预警水平的那些个体对指标的影响，可取电网中所有超过门槛值的个体比率因子R之和与所有个体总数的比值；(3)平均值效应，当电网所有个体都在安全水平范围内时，此时用平均值反映电网安全水平，即取ave(R）。

以上设计符合客观世界的普遍规律，即事物处于异常状态时，抓住主要矛盾的同时也要兼顾其他潜在次要矛盾，避免其转化为主要矛盾，而当事物处于正常状态时，考虑其一般平均水平更为合理。

3）设备重要性差异

电网中各种电力设备因其所属电压等级、所处区域、功能用途不同，其对电网安全的影响效果是不同的，不能“一视同仁”。在指标公式中如果不加以区分，容易产生偏差甚至错误的结论。例如，场景1某条500kV线路负载率达到0.95，场景2某条35kV线路负载率达到1，按照常规线路负载率计算公式容易得到场景2较场景1更为危险的结论。这在实际电网中是不合理的。本文引入设备重要性修正因子α，对比率因子R进行加权修正。根据现场调研结果：750kV及以上电压等级的设备，α取1.1;500kV电压等级的设备，α取1.05;220kV电压等级的设备，α取1.0;110kV电压等级设备，α取0.95;35kV电压等级设备，α取0.9。对于其他因素，本文也设置了相应的修正因子，此处不详细说明。修正因子的设定进一步增强了指标计算公式的合理性。

1.2 计算公式

本文选取了调度员最为关心的10种静态安全指标，并根据其属性不同分为设备安全类指标、预想故障类指标和系统类指标。基于1.1节指标设计的三方面考量分别设计了其计算公式。

1.2.1 设备安全类指标

设备安全类指标用于反映电网各种电气设备的实时承载特性。

1）线路潮流指标

式中：i=1,2，…，nl;Ili为线路电流值；Ili.lim为线路热稳限值；nl为线路条数；αli为线路重要性修正因子；xl.thre为线路潮流指标门槛值；符号表示存在；符号表示对于每一个。

2）变压器潮流指标

式中：i=1,2，…，nt;Sti为变压器视在功率；Sti.lim为变压器额定容量；nt为变压器个数；αti为变压器重要性修正因子；xt.thre为变压器潮流指标门槛值。

3）稳定断面潮流指标

式中：i=1,2，…，ns;Psi为断面传输功率；Psi.lim为断面传输限值；ns为断面个数；αsi为断面重要性修正因子；xs.thre为断面潮流指标门槛值。

4）母线电压指标

式中：i=1,2，…，ne;Rei=|[Vi-(Vi.max+Vi.min）/2]/[（Vi.max-Vi.min）/2]|，其中，Vi为母线电压，Vi.max和Vi.min分别为母线电压的上、下限值；ne为母线条数；αei为母线重要性修正因子；xe.thre为母线电压指标门槛值。

1.2.2 预想故障类指标

预想故障类指标反映了电网在多个预想故障下的设备承载能力、断路器遮断能力和断面最大传输能力。其计算公式如下。

1）静态安全分析指标

式中：i=1,2，…，nout;nout为开断设备数；Ti=max(x1,x2,x3,x4），即第i个开断下设备安全指标最大值；xT.thre为静态安全分析指标门槛值。

2）短路电流指标

式中：i=1,2，…，nsc;nsc为短路故障数；Ii.sc为第i种短路故障下短路电流；Ii.sc.lim为短路母线所连断路器最小遮断容量；xsc.thre为短路电流指标门槛值。

3）电压稳定指标

式中：i=1,2，…，nflt;nflt为故障数；Pd0为基态下某断面的初始负荷；Pdi.max为第i个故障下的该断面极限负荷；xV.thre为电压稳定指标门槛值。

1.2.3 系统类指标

系统类指标反映了电网某时刻频率偏差水平、备用裕度水平和负荷变化水平。其计算公式如下。

1）频率指标

式中：f为当前系统频率；fN为额定频率；Δfthreshold为安全频率偏差值，取0.2Hz。

2）有功备用指标

式中：PSR为有功旋转备用容量；PSR.lim为有功旋转备用容量的最低限值，取系统最大负荷的10%。

3）负荷异常变化指标

式中：Pdpeak为负荷峰值；Vrise/drop为负荷上升或下降速率；ηlim为负荷异常变化率因子，t为负荷上升或下降时间，t和ηlim根据实际电网而定。

2 层次分析法确定权重及指标聚合

指标间权重值反映了不同指标在综合指数计算中所占百分比，刻画了各指标间的相对重要程度，将直接影响综合评价结果并关系到综合指标结果的可信程度。

层次分析法是主观赋权法中的一种，基于专家经验定性、定量地计算各评价项目之间的权重系数。其简要步骤如下。

步骤1：对基础指标进行两两比较和评估，按照1-9标度法确定各基础指标的判断矩阵。

步骤2：计算判断矩阵中每行各标度数据的几何平均值，记为wi0′。

步骤3：归一化处理，确定指标的权重系数，即

式中：n为基础指标数。

通过层次分析法确定各基础指标权重后，其值存储在相应数据库中，待下次进行指标聚合时可以直接使用，无需重新计算。

在得到n项基础指标权重系数后，通过对各基础指标值xi聚合，得到电网安全综合指标X为：

3 权重修正

利用层次分析法确定的各指标权重wi0即可完成综合指标的求取，但是需要注意的是这些权重系数在求取后是固定不变的常数，在电网某些特殊情形下，其适用性会有所降低。本文从3个方面对其进行修正。

3.1 关键指标权重自适应修正

当电网某些基础指标在达到一个接近临界水平的较高数值时（xthre<xi<1，其中xthre为预警门槛值），其在电网安全中的重要性增加，成为主导电网安全稳定的关键指标，应该对其权重进行修正，凸显其对电网安全的影响，便于调度员捕捉到电网安全趋势变化，起到预警作用。假设电网某时刻存在a个关键指标且其下标集合为A，其他正常指标b个，其下标集合为B。对于关键指标其权重值可调整为：

其他正常指标权重调整为：

3.2 危险指标权重惩罚修正

当电网某些基础指标发生越限，进入危险状态时（xi≥1），通过层次分析法确定的初始权重可能会造成其越限信息在聚合后的综合指标X中被淹没，即X<1。调度员难以捕捉到电网目前或者未来存在的安全问题，给电网安全带来隐患。假设电网某时刻存在c个危险指标且其下标集合为C。对于危险指标其权重可修正为：

该策略只对危险指标权重进行惩罚修正，对正常指标的权重不做任何修改。这会导致惩罚后的指标权重之和大于1，但是出于对危险指标的惩罚，也是合乎情理的。该惩罚策略保证了指标在危险状态下能够通过对其权重的大幅提升对综合指标产生必要的影响，且其影响满足以下几个原则。

1）存在一项或多项危险指标时，综合指标值一定大于1。

2）危险指标值大小与惩罚程度成正比，与综合指标值大小成正比。

3）初始权重大小与惩罚程度成正比，与综合指标值大小成正比。

4）电网危险指标数量较少、数值较小时，综合指标值略大于1；危险指标数量较多、数值较大时，综合指标应飙升到一个较大的数值。

3.3 自定义指标权重人工修正

除了对关键指标和危险指标进行强制自动修正，还可以对一些自定义的指标进行可选人工修正，其包含的情况主要有如下两种。

1）相同的调度运行指标对于不同的运行管理人员而言，其所具有的价值存在较大差别。高层管理决策人员可以根据其主观经验对权重进行微调。

2）电网运行特性、国家电网公司考核指标、灾害天气、严重故障等，针对这些因素都可酌情对指标权重实施调整。

在以上两节修正得到的权重基础上，上调某些指标权重，同时下调其他指标的权重。设存在d个需要人工调整的自定义指标且其下标集合为D，λi为人工决策权重修正量，则各指标权重调整为：

4 电网运行状态安全等级划分

本文在电网运行状态安全等级划分中，分别设置了5个刻度点：0、历史最好值xhis.best、历史平均值xhis.ave、预警门槛值xthre和1。在这5个刻度点之间，依次划分出安全区、预警区和危险区3个区域。

1作为安全限值，是电网运行状态安全等级的关键刻度点；指标超过1认为电网进入危险区，电网不安全，需要采取措施，超过1的程度越大，电网越危险，需要立即处理。当到达预警门槛值xthre指标水平时，电网进入预警区，调度员需要密切留意电网态势。历史平均值xhis.ave和历史最好值xhis.best分别反映历史上指标的平均水平和最好水平，起到当前和历史水平的参考对照作用。0是指标的最低限值，表达指标的最安全状态，在0～xthre以内是指标的安全区。结合可视化展示，分别将处于安全区、预警区和危险区的指标以绿色、橙色和红色表示，便于调度员准确、快速捕捉到系统异常指标。指标安全等级划分示意图如图1所示。该电网运行状态安全等级划分方法既用于基础指标安全等级划分，也用于综合指标安全等级划分。

5 电网安全指标展示方法

5.1 雷达图展示

雷达图法是一种多变量对比分析、综合评价技术，由于该技术采用的图形形似导航雷达显示屏上的图形而得名。在电网安全指标展示中，通过各基础指标的雷达图，可以清晰地识别出各基础指标的发展情况，易于发现影响电网安全水平的薄弱环节。但雷达图法无法定量给出电网安全综合水平，调度员无法对电网安全整体变化趋势有直观的感知，而且其对某些情形下电网安全水平把握存在盲区。本文采用雷达图法作为电网安全综合指标展示的辅助手段。

5.2 电网安全运行轨迹图

在雷达图基础上，本文提出一种电网安全运行轨迹图方法作为新一代调度系统电网安全综合指标的主要展示手段，用于描绘历史、当前和未来时段构成的连续时间段内电网安全变化过程。

电网安全运行轨迹图包含：(1)电网安全运行历史轨迹曲线，由电网安全综合指标的历史值构成，反映电网安全历史状态；(2)电网安全运行当前轨迹点，即电网安全综合指标当前值，反映电网安全当前状态；(3)电网安全运行未来轨迹曲线，由未来一段时间电网安全综合指标值构成，其计算的基础数据来源于负荷预测、发电计划及检修计划等数据，反映电网安全未来趋势。

6 算例测试

在某省网智能电网调度控制系统上开发了原型系统，对本文所提电网安全指标计算方法进行验证。测试分两部分进行：(1)01:00至24:00不同负荷水平下指标计算（正常态）；(2)N-1开断下指标计算（故障态）。

6.1 01:00至24:00不同负荷水平下指标计算

1）基础指标计算结果

01:00至24:00不同负荷水平下基础指标雷达图如图2所示，所有正常指标值都在[0,1]区间，具有相同的量纲。线路潮流指标值在11:00和16:00发生突变，其指标值都达到了0.99，而其他时刻值都在0.4之内。这是由于在11:00和16:00两个时刻2x06线负载率为0.99，发生重载，根据“木桶效应”原则，线路潮流指标x1即为2x06线的负载率值，而其他时刻根据“平均值效应”取所有线路的负载率平均值。另外，13:00的断面潮流指标值达到1.1，这是由于在13:00时刻5x16断面负载率达到了1.08，而同时存在4个相邻断面负载率达到了0.9的重载水平，根据“木桶效应”和“异常个体效应”原则综合得到1.1的断面潮流指标。可以看出，“木桶原则”和“平均值效应”对电网安全与异常状态起到了分隔作用；“异常个体效应”对电网异常状态起到了叠加作用，特别地，当异常指标数量较多时，其效果会更加明显。

6.2 N-1开断下指标计算

在00:00，选择了13条线路开断故障为例对电网安全基础指标和综合指标进行计算测试。N-1开断下基础指标雷达图如图6所示。

可见，开断故障对基础指标影响不大，除了5x32线、5x13线、5x14线等5条500kV线路开断后静态安全分析指标发生越限，其他指标都基本保持恒定。这说明，该时刻下电网运行方式满足N-1校验，设备开断后，不存在过载或稳定问题。但是，某些开断后造成的静态安全分析指标越限，从侧面反映了系统的薄弱环节，即这些开断发生后电网将不再满足N-1校验，再有相应线路、变压器或者发电机的开断，将会造成设备越限。

N-1开断下综合指标2曲线如图7所示。可知，电网安全综合指标在这些薄弱开断下指标值飙升到了1以上，即这些开断是相对危险的开断，存在连锁故障的风险。

6.3 电网安全运行轨迹图展示

电网安全综合指标模块按照1h计算周期实时运行，如图8所示，在06:00进行一次电网安全综合指标计算，在时间轴上新增当前轨迹点，表征电网安全当前状态，在此基础上基于负荷预测和发电计划数据计算未来5h的电网安全综合指标，并描绘未来轨迹曲线。历史轨迹曲线为00:00至6:00之间电网安全综合指标计算结果曲线。

6.4 算例小结

本文只对10种基础指标进行了计算与展示，其变化趋势已各不相同，调度员面对成倍数目的指标更是难以把握。通过本文所提基于权重修正的综合指标计算方法，调度员可以直观地发现在某些时刻综合指标有一定幅度的攀升，但并没有超过1，这意味着某些基础指标越过了预警门槛值，成为主导电网安全的关键指标，电网进入预警状态。而在另一些时刻综合指标急速攀升，越过安全限值1，此时必然存在某项基础指标越限，电网进入危险状态。进一步结合雷达图，可以快速定位关键或危险指标，便于调度员对电网进行及时校正和超前控制。电网安全运行轨迹图提供了一种将历史、当前和未来电网安全水平统一展示的途径，便于调度员全面、宏观把握电网“态势”，实现“正常运行状态下自动巡航，异常运行状态下自动导航”的新一代电力系统自动智能调度。

7 结语

通过对某省级电网不同负荷水平、不同故障情形的算例测试，验证了本文方法的准确性和有效性。本文方法具有以下优点。

1）基础指标计算公式计及了其量纲、结构和设备重要性差异3个方面，增强了适用性、合理性。

2）采用的3种变权重机制，计及了关键指标、危险指标和多种特殊情形下权重的可变性，克服了常规赋权方法确定的权重容易导致聚合时关键信息无凸显、危险信息被淹没、缺乏灵活性的缺点。

3）电网运行状态安全等级划分方法以1作为安全限值，分为3个安全等级区域，5个刻度点，直观反映电网安全状态并与历史指标值参考比对。

权重计算篇8

2015年11月30日, 国际货币基金组织 (下称IMF) 执行董事会决定将人民币纳入特别提款权 (下称SDR) 货币篮子, SDR货币篮子相应扩大至美元、欧元、人民币、日元、英镑5种货币。人民币在SDR货币篮子中的初始权重定为10.92%, 新的篮子将于2016年10月1日生效。国家高层通过对人民币加入SDR的积极支持和近几年中国综合国力的提升使得人民币在国际货币地位中的不断提升, 也最终实现人民币在2015年IMF评估SDR货币篮子之际顺利进入到新的货币篮子。

近几年关于SDR的探讨非常激烈, 主要集中在国际货币体系改革, 人民币加入SDR的可行性, 人民币加入SDR后的影响等方面。在对国际货币体系改革中SDR扮演角色的探讨, 周小川 (2009) 提出, SDR具有超主权货币的特征和潜力, SDR的扩大发行同时也有利于IMF在经费、话语权和代表权方面的改革。在人民币加入SDR可行性分析方面, 方大楹 (2015) 认为, 人民币与世界主要货币仍存在差距;按现行标准, 人民币要实现在2015年加入SDR货币篮子仍存在困难。在人民币加入SDR后影响分析方面, 闫屹等 (2012) 认为人民币成为SDR的篮子货币, 不仅可以提高人民币的国际化水平, 还可以增强中国在国际经济事务中的话语权。通过梳理文献发现, 缺少详细介绍确定SDR初始权重方法的文献, 所以文章以此为出发点, 详细介绍了2015年之前IMF所采用的确定SDR篮子货币初始权重的计算方法和2015年采用的新的计算方法, 而且用新的计算方法对人民币在SDR中所占权重进行测算。

二、SDR确定货币权重的方法

在2015年人民币终于进入SDR货币篮子, 最终的权重也被定为10.92%, 低于市场之前的预期14%, 这是由于IMF在今年调整各货币篮子货币权重计算方法所导致的。在今年货币篮子调整之前, SDR中各种货币权重的计算方法是由1978年制定的并一直延续下来。之前的计算方法是在确定了SDR的货币篮子后, IMF首先计算在评估时前5年时间里货币篮子中的货币发行国或地区平均的年出口规模, 以及全球以这些SDR篮子货币作为储备资产的总规模, 并将两者相加得总规模, 随后, 再计算SDR货币篮子中每一种单一货币发行国5年平均的出口规模与全球以该货币为载体的储备资产规模之和, 并将其与前述总规模相除, 确定单一货币占SDR货币篮子的权重。具体可以用公式 (1) 表示:

其中wi, t代表t时期第i个篮子货币在SDR中的初始权重, Xi, t代表t时期第i个篮子货币发行国或地区出口规模, Ri, t代表t时期第i个篮子货币作为载体表示的储备资产规模, N代表篮子货币的个数。该公式可以变形为以下公式:

分别可以理解为贸易和金融两个变量对决定权重的影响程度。

根据特里芬的观点, 一国的外汇储备规模能满足3个月的进口需求即为外汇储备的适度规模。尽管在布雷顿森林体系崩溃后, 浮动汇率制度带来的波动风险使全球各国不断增加所持有的外汇储备, 但是从绝对量上看, 全球储备资产与年均贸易量相比仍然偏小。从表1中, 我们可以看到, 储备资产权重β的比重从1980年22.8%上升到了2010年的33.2%, 但是贸易变量在决定各货币在SDR中的权重时发挥的作用更大。

单位:%

转自:林采宜:人民币在SDR中的权重为何低于预期?

从上面的计算方法中我们可以看出α和β具有内生性, 它随着各篮子货币发行国或地区的出口规模和分别以它们为载体表示的储备资产规模变化而变化。也正是基于上面这种方法, IMF在201年初步评审公告中预测人民币的权重大概是14%。表2为历史上SDR货币篮子中各个货币所占权重的变化情况。

单位:%

数据来源:IMF数据库。

为了解决贸易变量权重过大和权重内生性的问题, IMF在2015年进行SDR定值审查的时候更换了SDR篮子货币权重的计算公式。IMF在2015年定值审查中表述:执董们支持采用出口和金融变量具有相等权重的公式, 金融变量包括官方持有的外汇、外汇市场交投总额以及国际银行负债和国际债务证券之和, 三者所占比例相同。他们认为, 该公式简单透明, 同时能够维持篮子构成的基本稳定和定值方法的连续性。该公式可以表示为:

其中wi, t, Xi, t, Ri, t表示含义同上, Fi, t表示t时期第i个篮子货币在国际外汇市场交投总额, Di, t国际银行负债和国际债务证券总额。

三、新计算方法下人民币在SDR中的权重的测算

根据IMF最新确定SDR中各篮子货币权重方法, 想要得到人民币在SDR中的权重, 需要确定中国在世界贸易中的出口规模、以人民币为载体外汇储备资产规模、人民币在国际外汇市场上的交投总额以及人民币国际银行负债和人民币国际债券总额。

(一) 贸易变量对人民币在SDR中所占权重的贡献

丛表3中的数据可以计算得出我国在2010~2014五年时间平均出口占比为23%, 按照 (4) 式计算贸易对人民币在SDR中所占权重的贡献应该是11.5%, 单就贸易变量而言就已经超过了IMF公布的人民币再SDR中所占权重10.92%。

单位:亿美元

数据来源:笔者根据IMF的BOPS数据库整理所得。

(二) 金融变量对人民币在SDR中所占权重的贡献

人民币作为储备货币的数据缺少统计, 截止2014年底IMF的COFER数据库只显示七种货币的需求, 而人民币被归为其他货币一类, 所以无法计算以人民币为载体表示的外汇储备资产的具体权重。不过IMF在2015年4月和5月对成员国官方外币资产的货币构成进行了一项特别调查, 调查数据为2013和2014年底数据, 如表5所示。我们可以用表5中的数据通过表5中数据作为外汇储备数据的替代, 这样可以计算得出2014年底人民币在五种货币中所占相对比例为1.89%, 根据 (4) 式可以进一步计算国际储备对人民币在SDR中所占权重的贡献为0.2%。

单位:%

数据来源:IMF数据库。

一种货币在外汇市场的交投总额大小可以反映该货币在国际市场上的地位和该货币国际化的程度。人民币自开启国际化进程以来, 在外汇市场发展迅速, 交投占比从2001年不足1‰到2013年增长到1.1%, 交易量排名也从2011年35名上升到2013年第9名。2013年在SDR货币篮子五种货币中所占相对为1.4%, 如图1所示。根据 (4) 式计算外汇市场交易对人民币在SDR中所占权重的贡献是0.23%。

一种货币计价在银行负债和国际债券中所占份额的大小同样反映该货币的世界地位和国际化程度, 在BIS的数据库中缺少人民币计价的银行负债数据, 故该项数据缺失。在国际债券市场, 从表5中的数据我们可以看到人民币的市场份额是在逐年的增加。在这里我们对银行负债先做一个简单粗略的假设, 即假设以人民币计价的国际银行债务占比和以人民币计价的国际债券占比相同, 这样我们就可计算该项指标对人民币在SDR中所占权重的贡献。以2014年数据为基础, 这样我们可以根据表5中数据计算人民币计价国际债务在SDR货币篮子五种货币所占相对比为0.57%, 进而根据 (4) 式计算国际银行债务和国际债券对人民币在SDR中所占权重的贡献是0.1%。将以上金融变量三个分指标贡献相加得到金融变量对人民币在SDR中所占权重的贡献为0.53%。

数据来源:笔者根据BIS, Triennial Central Bank Survey 2013披露数据整理所得。

位:%

数据来源:BIS数据库。

最后把上面贸易和金融两个指标对人民币在SDR所占比重的贡献相加, 可以得到基于IMF新计算方法的人民币在SDR中所占权重12.03%, 比IMF官方统计的高1.11%。

四、结论

过去几年, 在世界货币体系改革阻碍重重的情况下, 人民币加快了国际化的进程, 并在2015年顺利进入SDR货币篮子。这说明了我国综合实力在不断地增强, 同时主权货币也得到了国际主流的认可。但是透过在确定人民币在SDR中的初始权重的复杂的过程中, 我们可以看到还有一些国家是反对人民币进入SDR的, 但同时又迫于无奈只能选择采取尽量降低人民币在SDR中初始权重的方法来冷却这事件的热度, 降低世界对人民币的关注。通过计算我们发现金融变量对人民币在SDR中的初始权重贡献过小, 这个问题可以随着人民币国际化进程的不断加深得到解决。我们对待个别国家在人民币国际化道路上设置阻碍这个问题上, 要韬光养晦, 继续发展国内经济, 积极实施金融改革措施, 用切实的国家实力为人民币站台。长远来看, 人民币加入到SDR有利于人民币在国际上的进一步使用, 相信到下次定值审查的时候, 金融变量对人民币在SDR中所占权重的贡献会有很大提高, 进而人民币在国际舞台上发挥更大的作用。

参考文献

[1]IMF.REVIEW OF THE METHOD OF VALUATION OFTHE SDR[R].2015.

[2]周小川.关于改革国际货币体系的思考[J].中国金融, 2009 (7) .

[3]闫屹等.积极推动人民币加入特别提款权货币篮子[J].国际金2016年第1期下旬刊 (总第613期) 时代Times融, 2012 (3) .

[4]钱文锐.SDR需要人民币:基于SDR定值稳定性的研究[J].世界经济研究, 2013 (1) .

[5]乔依德.人民币进入SDR计值货币篮子:再评估[J].国际经济评论, 2015 (3) .

人民币汇率权重估计篇9

2005年7月, 我国宣布对人民币汇率形成机制进行改革, 放弃钉住单一美元, 开始实行以市场供求为基础的, 参考一篮子货币进行调节的、有管理的浮动汇率制度, 以形成更富弹性的人民币汇率机制。人民币汇率不再盯住单一美元, 而是按照我国对外经济发展的实际情况, 选择若干种主要货币, 赋予相应的权重, 组成一个货币篮子。同时, 根据国内外经济金融形势, 以市场供求为基础, 参考一篮子货币计算人民币多边汇率指数的变化, 对人民币汇率进行管理和调节, 维护人民币汇率在合理均衡水平上的基本稳定。参考一篮子表明外币之间的汇率变化会影响人民币汇率, 但参考一篮子不等于盯住一篮子货币, 它还需要将市场供求关系作为另一重要依据, 据此形成有管理的浮动汇率。人民币汇率形成机制改革坚持了主动性、可控性、渐进性的原则。

基于“三性”原则, 所以央行并没有公布汇率权重数据。但是可以通过汇率数据来进行估计。因为实际运行的汇率数据会表现这种隐含的汇率权重。对于汇率权重的估计, 弗兰克尔和魏尚进 (Frankel and Wei, 1994) 在分析东亚美元和日元集团问题时以周为基础的汇率数据对东亚9个经济体 (中国、中国香港、中国台湾、韩国、印度尼西亚、马来西亚、菲律宾、新加坡、泰国) 的汇率权重进行了估计, 并得出美元在东亚经济体的汇率中具有很高的权重, 日元的地位相对较轻, 虽然这9个东亚经济体与日本有密切的贸易往来。麦金农与施纳布尔 (Mc Kinnon and Schnabl, 2004) 对相同的9个东亚经济体以日为基础的汇率数据分析了亚洲金融危机前、中、后的货币篮子汇率的权重, 指出, 中国和中国香港由于实行固定汇率制度, 所以美元权重在危机前、中、后的观测期内稳定在1, 而韩圆、印度尼西亚卢比、马来西亚林吉特和菲律宾比索由于货币受到冲击放弃固定汇率制转而实行浮动汇率制度, 所以在危机中的权重发生了突变, 但是在危机过后, 这些国家的汇率权重又差不多回到了危机前的水平, 各国家货币汇率呈现出“软盯住”美元的特征。究其原因是因为美元在东亚9个经济体中具有重要的位置, 无论是对外贸易, 还是国家的的外汇储备而言。

本文拟对人民币汇率权重进行估计。

二、数据和模型实证分析

1. 数据和模型选取

对于汇率数据, 有以每日为基础、以每周为基础的数据、以每月为基础或以每季为基础的数据。本文采用国际货币基金组织公布的汇率日度数据。选取汇改后从2005年7月25日起至2008年12月31日止的数据。

对于汇率权重的估计, 首先须选取进入货币篮子的货币。美元、欧元、日元三大世界主要货币肯定进入货币篮子, 在此基础上, 考虑加元、澳元、新西兰元等。实际的货币篮子里的货币种类可能会比这多些。鉴于本文主要是为了分析测算权重的可能性, 所以就选择了这么几种货币来进行分析。为了测算人民币汇率权重的需要, 选取一个外部货币作为计价货币, 在这里选取瑞士法郎。之所以选取瑞士法郎, 是因为瑞士法郎是独立浮动, 与他国货币没有固定联系。把美元、欧元、日元、加元、澳元、新西兰元、人民币都表示成以瑞士法郎为单位的汇率。然后把人民币对瑞士法郎汇率用这些数据进行回归。根据弗兰克尔和魏尚进的研究, 回归的系数表示货币篮子中各个货币的权重。例如, 如果人民币对瑞士法郎的波动部分大部分可以用美元对瑞士法郎的波动来解释, 则说明美元在人民币的货币篮子中具有很高的权重。

考虑以下6个回归模型:

其中c为常数项，即模型考虑常数项和不考虑常数项两种情况，a1、a2、a3、a4、a5、a6为系数，即需要估计的汇率货币权重， ut为残差。USD、JPY、EU、CAD、AUD、NZD 分别表示美元、日元、欧元、加元、澳元、新西兰元等。

2. 数据的稳定性分析

因为人民币和选用的货币在观察期内汇率变动幅度比较大, 所以可能存在异方差, 为了避免异方差性, 需要对异方差进行控制, 对各货币汇率数据值取对数。从汇率数据序列值直观性可以看到, 数据是非平稳的, 因而取数据的一阶差分再进行平稳性检验。利用Eviews6.0对汇率数据进行ADF (Augmented DicheyFuller) 检验, 检验结果如表1所示。从检验结果可以看到, 汇率对数值的一阶差分是平稳的。所以本文以下的回归是以各种货币的汇率对数值的一阶差分为基础。

注释：L* 表示汇率的对数值，DL* 表示汇率对数值的一阶差分。

3. 估计结果

利用Eviews6.0对数据进行回归, 得到表2结果。

注释：a、第一行位为系数估计值，第二行为标准差，第三行为 t 统计量检验值。

b、R2为Adjusted R-squared。

三、分析和结论

从模型回归结果可以看出, 各个模型回归的系数估计值t统计量检验值具有显著性, 回归方程的D-W也说明模型的残差系列不含有自相关。从表2中我们可以确定的是美元在人民币汇率货币篮子所占的权重很高。从6个模型来看, 日元在人民币汇率篮子中的权重很低。

美元在货币篮子里占有最大的权重, 与现实是相符的。首先因为中美之间经贸关系非常密切。其次, 用美元交易的比重在中国的对外贸易中较大。美元在中国的对外贸易中的计价比例高达80%以上。再次, 中国拥有巨额的外汇储备。据新浪财经报道, 截止2008年12月末, 国家外汇储备余额为1.95万亿美元。中国外汇储备结构中美元资产占比高达70%左右;其他的25%则为诸如澳大利亚元、欧元、日元等非美元资产;包括投资世界银行、亚洲开发银行、国际货币基金组织等国际金融组织机构债券等。最后, 也是最主要的原因是为了维持人民币兑美元的稳定, 这样在人民币汇率改革的初期有助于减轻市场的投机活动。虽然人民币兑美元的汇率在观测期内变动幅度较大, 但是从本文的分析结果可以看出, 人民币汇率在每日基础上保持对美元的稳定。

参考文献

[1]Frankel, Jeffrey A.and Wei, Shang-Jin, “Yen Bloc or Dollar Bloc?Exchange Rate Policies of the East Asian Economies", in Takatoshi Ito and Anne O.Krueger (eds) , Macroeconomic Linkage:Saving, Exchange Rate and Capital Flows, Chicago Press, pp, 295～334, 1994

[2]Ronald I.McKinnon and Gunther Schnabl, ”The East Asian Dollar Standard, Fear of Floating, and Original Sin”, Review of Development Economics8, 2004

【权重计算】推荐阅读：

模型权重06-12

权重评估08-12

代理权重09-02

评价指标权重10-17

指标权重体系06-12

节点权重因子07-07

权重确定方法07-30

指标权重理论08-23

自适应权重缓冲08-17

无风险资产的权重07-09

>> 查看更多相关文档