不良数据(共6篇)
不良数据 篇1
信息环境之下, 企业对于信息系统的依赖性逐步加强, 并且这种依赖性, 会随着企业规模的扩大而呈现出显著的上升趋势。在电力系统中, 随着电力自动化技术的逐步成熟, 信息系统中的数据, 无论从格式还是从容量方面, 都在近年呈现出显著膨胀, 随着变化的, 还包括电力信息系统的运行模式。与此同时, 人们对于电能的质量和供配可靠性也提出了更高的要求, 这对于中心调度而言, 必然从客观上需要更为可靠和精准的数据参与决策。因此如何切实提升整个信息系统环境之下的数据质量, 就成为当前人们共同关注的重点。
1 不良数据研究现状分析
在电力信息系统中, 所涉及到的数据来自于多个方面, 除了相对比较常规的办公数据以外, 还包括营销和输配状态两个重要的数据来源。在这样的环境之下, 有效提升各类数据准确水平, 对于稳定电力供给有着毋庸置疑的积极价值。
在电力信息系统中, 对于供配网络各个方面的实时测量结果, 会因为测量系统本身安排的不合理以及冗余度不足, 或者通信网本身可靠性不够等因素, 而在系统环境中呈现出某些数据无法进行有效的辨识, 从而形成不良数据。对于这一类的数据, 必须展开检查和清理, 否则会影响调度系统决策失误, 无法形成有效的决策支持信息。同样的问题会出现在任何一个相对大型的信息系统环境中, 包括电力销售数据环境等, 而当前以二次系统以及电力通信系统所组成的信息反馈体系, 则成为不良数据辨识工作的重点领域。不良数据检测与辨识是电力系统状态估计的重要功能之一, 其功能是在获得状态估计值的基础上, 依靠系统本身的冗余信息, 通过数据挖掘和识别等自动化技术, 发现采样数据中偶然出现的不良数据进行剔除, 借以实现对于状态估计的可靠性提升。
不良数据的检测与识别, 对于状态估计结果的正确性有着至关重要的作用, 也因此一直都得到相关领域的关注。近年来数据挖据技术成为该领域中广泛研究的重点, 并且在不良数据的检测和识别过程中表现良好。其能够有效面对海量数据, 并且从不完全和模糊、随机的实际应用数据中分理处正确和可理解的信息, 并且在一定程度上对于保护数据的及时性和有效性有着积极价值。当前国内外在基于数据挖据技术的基础上, 已经提出了多种不良数据检测与辨识的方法。其中首先包括相对传统的, 以目标函数极值检测法、加权残差检测法、标准化残差检测法以及测量量突变检测法作为突出代表。同时随着相关技术的发展, 更多新的理论和对于不良数据的检测方法开始得到应用, 其中包括模糊数学法、神经网络法、聚类分析法、间隙统计法等, 且大部分都以数据挖掘作为重要的技术基础之一。
2 电力环境中不良数据检测工作分析
在电力信息系统环境中, 对于不良数据的检测呈现出其独有特征。通常而言, 可以将电力系统量测数据看作为有效的量测数据和量测噪声的线性组合, 并且通常以白噪声作为突出表现。通过一定的技术手段, 能够对白噪声产生的不良影响进行消除, 但是如果在量测数据中包含有不良数据, 则通常会通过如下两类方法展开辨识和剔除, 其差异在于状态估计与不良数据辨识展开的先后顺序。
如果先展开状态估计, 而后进行检测和辨识, 则在检测之前可以通过状态估计获取到量测量残差, 对其进行加权和标准化处理之后, 设定阈值, 进一步展开假设检验, 确定是否存在残差, 并且进一步利用残差搜索展开对于不良数据的辨识工作。此种工作方式在辨识的有效性方面表现良好, 但是问题在于计算量会相对较大, 随着电力环境中更多数据的涌入, 整体工作效率会略有下降。除此以外, 残差淹没也是会降低此种检测灵敏度的一个重要问题。另一种方法, 即首先对量测数据展开预测而后展开状态估计。预测之后先偶去量测残差, 而后依据量测残差之间的相关关系展开检测, 并且对不良数据进行辨识。此种方法在动态系统中可能会出现检测困难, 并且对量测过程中产生的冗余信息无法展开有效利用。
两种面向电力信息系统展开不良数据检测的技术, 各有优劣, 在实际工作环境中也均呈现出不同的适用特征。其中前者, 即先展开状态估计而后进行不良检测的工作方式相对而言比较成熟, 而后者则起步较晚尚待进一步的成熟。
从常规工作展开的层面看, 想要落实针对不良数据的检测工作, 首先需要选取一定长度的窗口样本作为量测数据的范本, 并且针对其展开该时间段内的量测数据方差的计算, 如果方差没有超过规范阈值, 则可视为不存在不良数据。在方差超过规定阈值的情况下, 需要进一步将超标数据置入可疑数据集中, 并计算可疑量测量与其它量测量之间的相关系数, 随后确定该系数是否超过预定阈值, 如果超过, 则认定该量测量最近一个数据为不良数据, 并且加以处理并展开进一步的检测, 如果未超过阈值则认为不存在不良数据。
3 结论
信息系统中, 尤其是自动化信息系统之中, 必然会存在不良数据。而想要通过人工智能等相关技术从海量数据中获取到有用的信息用于支持决策, 对不良数据展开识别和剔除就成了信息系统面对的首要问题。实际工作中需要密切关注技术发展方向和趋势, 切实深入地了解电力系统内数据环境与特征, 谨慎选择和引入才能取得良好效果。
摘要:文章首先针对当前在信息系统环境中的不良数据所产生的危害进行说明, 而后进一步结合该领域技术发展的主要特征和应用情况, 对于电力信息系统中的两类检测实现技术展开分析并且加以对比, 为依据环境需求合理选择技术提供了必要依据。
关键词:大数据,信息系统,不良数据,检测
参考文献
[1]张海波, 李林川.电力系统状态估计的混合不良数据检测方法[J].电网技术, 2001, 25 (10) .
[2]魏强, 王凯, 韩学山.不良数据识别发生误判和漏判时的处理[J].东北电力学院学报, 2003, 23 (1) .
不良数据 篇2
吸烟与饮酒是当前我国居民的主要不良嗜好 (陈丙春, 2013) , 据统计, 我国拥有烟民4亿, 每年死于吸烟相关疾病人数近100万, 如果此种情况得不到有效控制, 到2050年将有1亿中国人死于与烟草相关的疾病, 其中一半将在中年 (35~60岁) 死亡, 即损失20~25年的寿命 (郭帅军, 2013) 。除此以外, 抽烟、喝酒等不良嗜好还与其他不良行为紧密相关, 不仅危害个人健康, 甚至危害社会稳定, 因此研究探讨不良嗜好这一课题十分必要。当前我国学者对不良嗜好的研究多停留在医学和其产生的影响层面, 如不良嗜好对个人健康的影响, 鲜少有人研究不良嗜好的形成原因和其影响因素, 本文另辟蹊径, 从政治学角度探讨不良嗜好和政府信任之间的关系, 并将社会网络作为控制变量, 探究三者之间的关系。
目前学术界还没有关于政府信任和不良嗜好关系的直接研究, 但对政府信任的研究不在少数, 除了政治学、管理学上的研究, 还有社会学、社会心理学等不同学科对政府信任这一课题进行了研究。公众对一个国家政治体制、特别是对作为这种体制重要载体的政府的信任, 在很大程度上决定了人们对建立良好社会秩序的期待。对政府的不信任不仅会增加社会运行成本, 激发政府与民众之间的怀疑、猜忌、矛盾和冲突, 引起社会共有伦理规范的混乱和危机, 导致民众对国家和政府合法性认同的下降, 甚至还会引发社会动荡乃至政权危机 (高学德, 翟学伟, 2013) 。摆脱烦恼、解乏提神、消遣等原因是诱发不良嗜好的重要原因, 当人们在社会生活、政治生活中感受到紧张不安、不满、无望等情绪, 易出现寻求吸烟、饮酒来缓解压力的倾向, 从而提升不良嗜好的发生机率。
因此, 本文大胆提出假设, 政府信任和不良嗜好这两者之间存在着必然联系, 并通过调查数据的实证检验, 验证两者之间关系如何。
2 文献回顾和基本假说
2.1 不良嗜好
国外研究现状中, 吸烟已成为人类流行病学的公害之一, 在美国、英国、加拿大和瑞典, 对1200万人的观察结果表明, 男性吸烟者的总死亡率、心血管病的发病率和死亡率比不吸烟者增加1.6倍, 吸烟者致死性和非致死性心肌梗塞的相对危险性较不吸烟者高2.3倍 (张丽, 2010) 。这与中国群众体育现状与调查得出的结论一致, 即为吸烟容易引起心脑血管疾病, 严重损害了人类体质健康 (阮氏春芳, 2008) 。此外, Hoidrup等人通过实验法, 从饮酒的医学角度出发对27865名男性进行调查研究, 结果发现每周饮酒超过27杯的男性容易引发骨髓关节骨折。Nishiguchi等人通过实验法对成年白鼠进行喂酒精, 结果显示, 经常饮酒的白鼠容易骨质疏松和密度减少, 并且雌性白鼠比雄性白鼠更严重。这说明饮酒作为一种不良嗜好, 尤其是经常饮酒必定会损害人的健康。
据统计, 我国青少年吸烟率已达500万, 在大学生中吸烟状况不容乐观, 印爱平等调查显示, 目前饮酒的大学生中有38.7%存在吸烟现象, 并且不良行为及健康危险行为发生率明显高于不饮酒的人群。尤其是大学生, 作为庞大的一个社会群体, 他们的生活方式不仅关系到自身的健康发展, 更关系到国家的长远发展和综合实力。因此, 不良嗜好问题不仅是医学界的研究重点, 更成为重要的社会问题, 需要各方的关注和研究。
2.2 政府信任
政府信任是社会整合和人际关系的一种重要机制。伯纳德·巴伯认为, 信任是社会关系和社会体制中的社会行动者彼此寄予的不同期望 (1989) 。当这种政治体制得到充分信任时, 它就能阐释价值观念和目标, 有效的使用权力并防止滥用权力。而信任对与政治体制作用有效性的发挥是必不可少的 (Parsons, 1969;Gamson, 1968) 。
根据契约论的观点, 政府只是公共权力的代行者而非所有者, 因此政府必须践守诺言, 把自己的行为纳入法制轨道, 竭力增进社会福利, 服务公共利益。信任政府的公民会更加容易信任政府制定的法律制度, 政府信任关系的确立在一定程度上防止了政府权力的滥用, 从而减少社会资源的浪费, 确保政府提供较高水平的公共产品与公共服务, 最终促进社会福利 (章延杰, 2007) 。此外, 政府在社会治理过程中积极回应社会公众期望、获取公众支持, 形成的政府与公众之间的良性互动关系, 有利于协调利益、化解矛盾和社会和谐稳定 (刘召, 2011) 。
相反, 如果政府行为出现偏差, 权力滥用、寻租, 导致社会资源的滥用和配置的不公正, 那么公民与政府之间的信任关系就会受到损害和削弱, 甚至消失, 一旦社会公众期望和诉求得不到满足, 就会对政府产生不信任, 对社会失望, 不仅给公民个人生活态度带来转变, 由此沾染不良嗜好, 甚至激发社会矛盾, 威胁社会稳定。由此, 我们提出本文第一个假说。
假说1:政府信任会影响居民不良嗜好的发生机率, 对政府信任程度越高, 不良嗜好发生机率越低;反之, 对政府信任程度越低, 不良嗜好发生机率越高。
结合我国现实及现有数据, 我们将政府信任这一变量分为对政府干部的信任度和对本县/市/区政府的评价这两个具体指标, 考察其对不良嗜好的影响。
2.3 社会网络
社会网络是指社会个体成员之间因为互动而形成的相对稳定的关系体系, 社会网络关注的是人们之间的互动和联系, 社会互动会影响人们的社会行为。在社会网络中, 人们的选择会受到自己所在社会关系网中的其他个体和外在环境因素的影响, 个人仍然无法完全脱离社会而存在。社会网络尽管是不可见的, 却是人们信息和社会资本的重要来源。以美国的医疗保健为例, 具有专业医疗水平的家庭医生固然重要, 但是网络化的个人还会去寻找一些个性化的医疗方式作为补充。人们的社会关系网越发达、越多样化, 就会获得来自各个关系网的医疗信息和有价值的建议, 比如在社交网站上发言询问会收到各式各样的回复, 选择也就越多, 尽管人们通常只会采纳自己信任的朋友和亲戚的成功经验。综上所述, 社会网络对人行为的影响是显而易见的, 为此, 我们提出本文第二个假说。
假说2:社会网络会影响到个人不良嗜好的发生机率, 在相同情况下, 一个人的社会网络关系越强, 他的不良嗜好发生机率越低。
结合本文所用数据, 在已有研究基础上, 本文将与子女关系作为社会网络这一变量的具体指标, 然后进一步考察社会网络对不良嗜好的影响。
3 数据来源及变量说明
本文使用数据来源于“中国家庭追踪调查2012年面访问卷”, 由北京大学中国社会科学调查中心提供。通过对全国样本家庭及其成员的调查, 搜集了个体、家庭和村/居多层次的多时点的信息, 全面地反应了各方面的基本信息。
3.1 被解释变量
在本文中, 不良嗜好作为被解释变量即因变量, 在问卷中, 具体体现在喝酒这一问题。
问题:过去一月每周喝酒过3次吗?要求被调查对象根据自己的实际情况选择“是”或“否”。
从表1中可以看出, 过去一个月每周喝酒过3次的占15.6%, 共4652人, 比例并不低。
3.2 解释变量:政府信任
本文量度政府信任的调查问题为:1、对政府干部的信任度;2、对本县/市/区政府的评价。
从表2中可以看出, 对政府非常不信任和非常信任的比例分别是6.6%和4.9%, 多数集中在1~10之间, 尤其是对政府信任度为5的人占到了30.2%, 共9204人。
从表3中可以看出, 认为过去一年本县市区政府有很大成绩占7.9%, 有一定成绩的占48.6%, 没有多大成绩的占28.2%, 没有成绩占12.5%, 比以前更糟了占2.9%。
3.3 调节变量:社会网络
本文量度社会网络的调查问题为:“过去六月您和子女的关系如何?”要求被访者从“很不亲近”到“已去世”七个刻度内进行选择。
从表4中可以看到, 过去六个月与子女关系很不亲近的占1.2%, 不太亲近的占2.1%, 一般占4.2%, 多数集中在亲近, 占81.2%, 很亲近占10.8%。
4 实证分析
执行完上面的操作后, 根据SPSS列出政府信任、社会网络、不良嗜好的Pearson相关系数表。
**.在.01水平 (双侧) 上显著相关。
如表5所示, 可以看到, 两种指数的Pearson系数值达到-0.55, 同时, 相伴概率P值明显小于显著性水平0.01, 这也进一步说明两者显著负线性相关。即, 对政府干部的信任度越高, 不良嗜好率越低;对政府干部的信任度越低, 不良嗜好发生率越高。
**.在.01水平 (双侧) 上显著相关。
如表6所示, 可以看到, 两种指数的Pearson系数值达到-0.35, 呈低度负相关, 说明对本县市区政府的评价对不良嗜好也存在一定程度的影响, 但没有对干部的信任度这一政府信任指标对不良嗜好的影响显著。
**.在.01水平 (双侧) 上显著相关。
从表7可以发现, 与子女关系如何和不良嗜好两种指数的Pearson系数值为-0.19, 呈微弱相关, 也就是说, 在一定程度上, 与子女关系越亲密, 发生不良嗜好的概率就越低。所以, 以子女关系为代表的社会网络对不良嗜好也存在着一定的缓解调节关系。
4 结论和政策建议
多项研究表明, 不良嗜好和身体健康状况息息相关, 以吸烟喝酒为代表的不良生活习惯会给身体造成不良影响, 甚至危害生命, 从而导致一个家庭的负担增加及至崩溃。在此种情况下, 自然而然也会影响到民众对官员、对政府的评价。
政府信任涉及的是民众与政府间的互动关系, 因此, 从政治学的角度考察, 它能够增强执政者的合法性, 可以实现有机的社会整合, 提高政府的施政绩效。一个统治者或者一个政府要建立或维持其在政治体系中的核心地位必须要证明自身统治的合法性, 这一方面取决于统治者从意识形态方面如何阐释, 另一方面也取决于被统治者或者是民众的认同与信任, 后者相对于前者更具有决定意义。
本文利用2012年的CFPS面访问卷数据, 首次研究了政府信任、社会网络、不良嗜好这三者之间的关系, 尤其是政府信任和不良嗜好之间的相关关系。相关性分析结果显示:
结论一:政府信任会影响居民不良嗜好的发生机率, 对政府信任程度越高, 不良嗜好发生机率越低;反之, 对政府信任程度越低, 不良嗜好发生机率越高;
结论二:社会网络会影响到个人不良嗜好的发生机率, 在相同情况下, 一个人的社会网络关系越强, 他的不良嗜好发生机率越低。
我们还发现, 干部信任度和不良嗜好之间的关系比对本县市区政府评价和不良嗜好之间的关系更为密切和显著。
基于以上分析, 我们认为, 政府应加强政府信任建设, 提高自身统治合法性, 以获取民众的认同与拥戴, 这在很大程度上能够降低民众不良嗜好的发生机率, 提高国家整体健康水平。此外, 以父母与子女关系为代表的社会网络也能在一定程度上缓解不良嗜好, 因此, 居民自身家庭建设也必不可少。
参考文献
[1]奥斯特罗姆.公共事务治理之道[M].上海:上海三联出版社, 2000.
[2]阿马蒂亚.森.贫穷与饥荒[M].北京:商务印书馆, 2001.
[3]阿马蒂亚.森.生活水平[M].北京:机械工业出版社, 2015.
[4]上官酒瑞.现代社会的政治信任逻辑[M].上海:上海人民出版社, 2012.
[5]尹保红.政府信任危机研究[M].北京:国家行政学院出版社, 2014.
[6]沃瑟曼等.社会网络分析:方法与应用[M].北京:中国人民大学出版社, 2012.
[7]马丁.因尼斯.解读社会控制——越轨行为、犯罪与社会秩序[M].北京:中国人民公安大学出版社, 2009.
[8]仇广焕, 黄季琨, 杨军.政府信任对消费者行为的影响研究[J].经济研究, 2007 (6) .
[9]李新荣, 李涛, 刘胜利.政府信任与居民通货膨胀预期[J].经济研究, 2014 (6) .
[10]李辉文, 张质.教育、社会资本与个人收入[J].湘潭大学学报, 2015 (1) .
[11]陈丙春, 董伟, 王海燕.大学生不良嗜好的研究现状[J].现代企业教育, 2013 (12) .
不良数据 篇3
随着社会信息化进程的不断加快,“大数据”时代已经到来,其中海量信息是“大数据”时代的标志[1]。在大数据时代,通过对大数据的收集、处理和分析,能够在海量数据中挖掘有用的信息,因此,大数据分析方法已经成为各领域需要研究的全新课题[2]。在当前“大数据时代”,金融领域是盈利水平最高的领域之一,同时也是国家重点发展的领域。银行作为金融领域的主体,在风险控制方面也深受大数据的影响[3]。利用大数据分析方法对银行的不良信贷风险进行控制,能够解决银行和客户信息不对称的问题,有助于提高银行的经营水平和风险控制能力,并将不良信贷风险的防范水平提高到“可预测”水平[4]。在银行业,不良信贷风险评估是银行面临的主要风险之一,由于信贷风险具有海量性、冗余性,无法根据银行在经营中产生的海量数据信息对银行不良信贷风险进行准确的评估[5]。因此,如何提高海量数据下的银行不良信贷风险的评估准确率,已经成为金融业需要解决的重点课题[6]。现阶段,主要的银行不良信贷风险评估方法包括基于神经网络算法的银行不良信贷风险评估方法[7]、基于决策支持系统的银行不良信贷风险评估方法和基于人工智能算法的银行不良信贷风险评估方法[8]。其中最常使用的是基于神经网络算法的银行不良信贷风险评估方法[9]。由于银行不良信贷风险评估方法在金融业具有重要的应用价值,因此发展前景十分广阔,并成为很多学者研究的重点课题[10]。
利用传统算法进行海量数据下的银行不良信贷风险评估过程中,由于不良信贷风险的影响因素具有海量性、冗余性,无法根据银行在经营中产生的海量数据信息对银行不良信贷风险进行准确的评估,因此,降低了银行的营运效益。
针对上述传统算法的局限性,本文提出了一种基于APH算法的大数据分析的银行不良信贷风险评估方法,将APH算法与BSC理论相结合确定银行不良信贷风险管理绩效评估体系的层次结构。在约束条件范围内利用德尔菲法对层次结构的各个指标数据进行优化训练,确定指标权重。建立银行不良信贷风险评估模型,根据银行不良信贷风险评估指数公式对银行中各个不良信贷指标进行优化处理,从而得到海量数据下的银行不良信贷风险评估结果。实验结果表明了改进算法具有较强的优越性。
1 银行不良信贷风险评估方案
在进行海量数据下的银行不良信贷风险评估过程中,需要对海量的模糊数据信息进行必要的集合训练,建立相应的数据关系式,提取有效的特征数据,从而实现银行不良信贷风险影响信息的优化处理。
在RS理论中,设置任意一个银行不良信贷信息系统为S=(U,R,V,f),系统的论域为U,U=(x1,x2,⋯xn),表示银行不良信贷信息系统中所有样本的集合,C⋃D=R为银行不良信贷信息系统属性的非空有限集合,其中C为银行不良信贷信息的属性集,D为银行不良信贷信息的决策属性集,V为信贷信息属性值的集合,且
利用函数f:U×R→V能够描述银行不良信贷信息的映射关系,当xi∈U,r∈R时,银行不良信贷信息的函数为f(xi,r)=Vr。
在进行海量数据下的银行不良信贷风险评估过程中,当属性子集P⊆R时,对海量的模糊数据信息进行相关特征提取,假设xi,xj∈U,∀r∈P,令f(xi,r)=f(xj,r),则银行不良信贷信息xi、xj具有不确定性,记作Ind(P),通过计算能够得到xi与xj具有等价关系。
假设r∈P,则Ind(P)=Ind(P-{r}),其中属性r可忽略不计。
根据上面阐述方法,对大数据信息进行属性优化处理,排除冗余信息,能够得到精确的输入信息。
在进行海量数据下的银行不良信贷风险评估过程中,建立神经网络模型,其中包含了多个银行不良信贷信息的输入层、隐含层和输出层,隐含层又称扩展层,由于各个神经元具有较强的关联性,将每层的银行不良信贷信息神经元进行相互连接,从而完成基于神经网络的优化建模。
基于BP神经网络算法的优化训练分两种方式,一种是正向集合训练,另一种是反向集合训练,具体方法如下所述:
1)正向集合训练:通过RS理论优化处理能够得到精确输入数据,经输入层输入到隐含层,由于受约束条件的限制,能够得到符合条件的银行不良信贷信息的相应数据,经输出层输出,并统计实际银行不良信贷信息的输出值。
2)反向集合训练:反向集合训练是在正向集合训练的基础上完成的,由于受外界因素的影响,在集合训练中存在一定的误差,形成了误差反馈训练,即用该层的神经元输出信号作为下一层神经元的输入数据,从而得到整个神经网络产生的输入数据响应权值。对各层之间的理想输出值与实际输出值进行差值计算统计,通过多次迭代运算缩短输出误差,实现输出层的输出数据值逐渐趋近于理想状态下的输出值,从而完成BP神经网络模型的优化训练。具体神经网络结构形式能够用图1进行描述。
在进行海量数据下的银行不良信贷风险评估过程中,利用RS理论对大数据信息进行属性优化处理,排除冗余信息,能够得到精确的输入信息,但无法挖掘银行不良信贷风险中各种影响因素之间的非线性关系。通过神经网络模型的建立,能够得到各个神经元在输入层、隐含层及输出层的银行不良信贷信息的非线性特征关系式,但无法排除大量的冗余信息,造成银行不良信贷风险评估过程过于繁琐。
因此,将RS理论与BP模型相结合,建立新型银行不良信贷风险评估模型,具体步骤如下所述:
1)根据RS理论构建银行不良信贷信息风险评估指标体系,并剔除大量的冗余信息。
2)利用函数f:U×R→V对输入数据进行变量离散化处理,确定各个银行不良信贷风险影响因素的非线性关系。
3)进行属性约简,提取有效的特征数据,形成简化的决策规则,从而能够得到精确的模型输入数据。
4)将RS理论与BP模型相结合,建立新的银行不良信贷风险评估模型。
5)将利用步骤3)得到的精确输入数据,通过输入层输入到RS-BPNN神经网络模型中,经过输入层、隐含层和输出层的集合训练,达到训练要求,从而得到模型的最优解。
6)如果所得数据信息仍具有冗余性,则可以重复上述操作,经过多次迭代运算,从而完成训练精度的要求。
7)根据上面步骤所产生的数据信息进行银行不良信贷风险的评估,能够得到相对应的银行不良信贷风险等级。
2 基于APH算法的银行不良信贷风险评估方法原理
利用传统算法进行海量数据下的银行不良信贷风险评估过程中,由于不良信贷风险的影响因素具有海量性、冗余性,从而降低了银行不良信贷风险评估的准确率。鉴于此,本文提出了一种基于APH算法的大数据分析的银行不良信贷风险评估方法。
2.1 确定银行不良信贷风险的层次结构
在进行海量数据下的银行不良信贷风险评估的过程中,将APH算法与BSC理论相结合,确定银行不良信贷风险管理绩效评估体系的层次结构。此步骤为基于APH算法的银行不良信贷风险评估方法的首要步骤,分为上下两结构层次,即银行信息的准则层和目标层。其中准则层包括银行的财务维度、客户维度、内部业务维度、学习和创新维度,分别为A、B、C、D。目标层是准则层的属下子集,其中准则层A主要包括:银行贷款收益率A1、银行力差率A2、银行成本费用收益率A3、银行不良贷款率A4和存贷率A5。准则层B主要包括:市场占有率B1、客户收益率B2、客户满意度B3和客户支持率B4。准则层C主要包括:银行的新产品推出能力C1、银行的贷款服务效率C2、银行的贷款业务平均成本C3、银行的业务出错率C4和制度执行能力C5。准则层D主要包括:创新风险管理产品数量与周期D1、责权利对应程度D2、信贷信息反馈与处理D3、职工培训费用D4和员工满意程度D5。
2.2 根据约束条件确定指标权重
在进行银行不良信贷风险评估过程中,利用德尔菲法对各个银行不良信贷指标数据进行优化训练,具体过程如下所述:
设置第i项银行不良信贷业务存在的风险等级为:
x1i,x2i…xni,相对应的参考意见权重为:b1i,b2i…bni,因此,银行不良信贷风险指标在第i项信贷业务的影响效应的计算公式为:
根据银行不良信贷业务的影响效应评估值,建立银行不良信贷风险准则层矩阵,能够计算出该矩阵各行特征向量的几何平均值,其公式为:
其中,n=1,2,3,4。
通过公式(3)能够得到银行不良信贷风险矩阵的最大特征向量,具体公式为:
为了确保银行不良信贷风险评估指标的精确性,将公式(3)作为银行不良信贷风险评估指标的约束条件。如果检验结果小于0.1,则表示银行不良信贷风险评估指标的权重具有一定时效性。
2.3 计算指标的权重
在进行银行不良信贷风险评估过程中,利用第一层与第二层的线性关系,能够得到各个银行不良信贷风险指标的权重。
2.4 建立银行不良信贷风险评估模型
为了建立完善的银行不良信贷风险评估模型,需要得到各个银行不良信贷指标相对于整个银行不良信贷风险评估系统的权重,具体步骤如下所述:
1)计算出此层的银行不良信贷指标权重和与其相对应的上层权重的积。假设相对应的上层中还存在延续层,则将所得的乘积结果与延续层继续相乘,经过多次迭代运算,最终能够得到该银行不良信贷指标相对于第二层的权重大小。
2)以各个银行不良信贷指标值与各个银行不良信贷指标的权重之积作为原始数据,建立银行不良信贷风险评估模型,能够描述该模型的计算公式为:
银行不良信贷风险评估指数=Σ(单项指标×该指标图2改进算法训练误差曲线的权重)权重总和
为了简化分析过程,可将银行不良信贷风险评估指数计算公式转化为函数形式,具体公式如下所述:
在计算银行不良信贷风险评估综合指标时,设置各个银行不良信贷信息指标的约束条件为[0,1]。银行不良信贷信息指标分为两大类,主要包括以银行当前营运状况为基准的定量指标和以公式计算求出的优化指标为基准的定性指标。将上述各个银行不良信贷指标利用公式(4)进行优化处理,能够得到大数据分析下的银行不良信贷风险评估结果。
根据上面阐述方法,在进行海量数据下的银行不良信贷风险评估过程中,银行不良信贷风险评估指数越低,表明银行的信贷风险管理方式越好。当计算出银行不良信贷风险评估指数较高时,表明当前银行信贷管理方式存在一定的隐患,可以根据各个银行不良信贷指标的详细显示结果进行相关问题分析并加以修正,从而能够得到有效的银行不良信贷管理模式,极大程度提高银行的营运效益。
3 实验结果与分析
3.1 实验环境设置
为了验证改进算法的有效性,需要进行一次实验。利用仿真软件MATLAB 7.1构建银行不良信贷风险评估的实验环境,利用不同算法进行对比实验。将APH算法应用于某银行的不良信贷风险评估中,从该银行系统报表中随机选取100组有效记录数据,每组为1天中24小时的银行不良信贷信息显示数据,分别利用两种算法对前60组数据进行优化训练。在进行银行不良信贷风险评估的过程中,由于评估的指标为风险的预测误差,原始样本的各个值之间差距较大,例如,假设输入样本k过大,则其权重的值也较大,这就造成其它样本的调控能力降低,导致估计的准确性降低,因此,需要对所有样本数据进行规一化处理,使样本数据的取值范围分布在[0,1以内。利用下述公式能够对样本数据进行归一化处理:
其中,P为不同时间的不良信贷信息,PN为归一化处理后得到的数值。
在实验的过程中,设置改进算法中样本的训练次数为1000次,利用图2能够描述训练误差。
3.2 实验结果对比分析
在进行海量数据下的银行不良信贷风险评估过程中,不同算法的银行不良信贷评估误差结果能够用图3进行描述。
由于银行的不良信贷信息具有海量性、冗余性,各个银行不良信贷风险评估指标对于制定合理的银行不良信贷管理方案具有重大而深远的意义。
将实验过程中的数据进行整理分析,能够得到表1,如下所述。
根据上述实验结果能够得知,利用改进算法进行海量数据下的银行不良信贷风险评估能够避免传统算法的缺陷,得到银行不良信贷风险评估误差结果明显小于传统算法的评估误差结果,降低了银行不良信贷评估误差,极大地提高了银行不良信贷风险评估准确率,从而能够得到有效的银行不良信贷管理模式。
结论
针对传统算法的局限性,本文提出了一种基于APH算法的大数据分析的银行不良信贷风险评估方法,将APH算法与BSC理论相结合获得银行不良信贷风险管理绩效评估体系的层次结构。在约束条件范围内利用德尔菲法对层次结构的各个指标数据进行优化训练,确定指标权重。建立银行不良信贷风险评估模型,从而得到准确的银行不良信贷风险评估结果。实验结果表明,利用改进算法进行海量数据下的银行不良信贷风险评估,能够提高银行不良信贷风险评估的准确率,取得令人满意的效果。
摘要:利用传统算法进行的海量数据下的银行不良信贷风险评估过程中,不良信贷风险因素的影响以及不良信贷风险管理绩效评估体系的层次结构的各个指标数据不够完整会造成对银行不良信贷风险评估的准确率降低。本文提出了一种基于APH算法的大数据分析的银行不良信贷风险评估方法,将APH算法与BSC理论相结合,获得银行不良信贷风险管理绩效评估体系的层次结构。在约束条件范围内利用德尔菲法对层次结构的各个指标数据进行优化训练,确定指标权重。建立银行不良信贷风险评估模型,从而得到准确的银行不良信贷风险评估结果。实验结果表明,利用改进算法进行海量数据下的银行不良信贷风险评估,能够提高银行不良信贷风险评估的准确率,效果令人满意。
关键词:大数据,不良信贷,风险模型
参考文献
[1]张滨.商业银行小额信贷风险评估模型研究[J].当代经济,2011,(19):114-116.
[2]杜文浩.商业银行信贷风险的控制研究[J].价值工程,2015,34(1):137-139.
[3]周君兴.基于Markov过程的银行不良资产风险分析[J].商业研究,2004,(23):131-133.
[4]梁秋霞.我国商业银行不良贷款影响因素的实证分析[J].吉林工商学院学报,2012,(1):69-74.
[5]赵洪丹,丁志国,赵宣凯.商业银行不良贷款真的实现"双降"了吗?——基于2003-2009年上半年的数据分析[J].廊坊师范学院学报:自然科学版,2009,9(5):71-73.
[6]郭文伟,陈泽鹏.基于Mixed—logistic模型的小型企业信贷风险评价研究[J].中国农业银行武汉培训学院学报,2012,(3):30-35.
[7]庞素琳.基于贷款风险损失比的农户信贷模型与应用[J].管理科学学报,2012,15(11):11-22.
[8]许祥秦,郗楠,刘艳芳.基于ML指数法的中国银行业贷款效率分析[J].沈阳工业大学学报:社会科学版,2014,(5):440-448.
[9]李磊.我国房地产信贷风险及化解策略[J].卷宗,2015,5(1):230-232.
不良数据 篇4
关键词:电力系统,不良数据辨识,模糊等价矩阵,聚类分析,传递闭包
0 引言
电力系统不良数据的检测与辨识是电力系统状态估计的重要功能之一,其目的在于排除量测采样数据中偶然出现的少量不良数据,提高状态估计的可靠性[1]。迄今为止,国内外用于不良数据检测与辨识的方法主要有目标函数极值检测法、加权或标准化残差检测法、量测量突变检测法、残差搜索法、非二次准则法和估计辨识法等[2]。这些方法的缺点是很可能出现残差污染和残差淹没现象,从而引起不良数据的误检和漏检。
近年来,许多学者尝试用新理论解决不良数据的处理问题,将很多新方法引进了电力系统不良数据辨识当中。文献[3-5]利用模糊数学中的ISODATA方法和隶属度概念来判定不良数据,有效地克服了残差污染和残差淹没现象。文献[6]用反向传播神经元网络进行估计前的滤波,用典型工况的正确量测作为训练样本,以便在实时监控时能正确辨识不良数据。文献[7-9]在不良数据处理过程中引入GSA算法,并提出利用肘形判据判断最佳聚类个数,得到了较好的检测效果。另外,运用抗差估计理论处理不良数据,也是目前不少学者研究的课题[10,11]。
自从美国著名控制论专家、加利福尼亚大学L.A.Zadeh教授于1965年建立模糊集理论,模糊数学已在实践中证明是现代智能技术中最重要的技术之一,是处理不确定性问题的有效方法,在电力系统中也有广泛的应用前景[12]。利用模糊数学理论对不良数据进行处理是一种有效的尝试,但其在具体实施过程中仍有许多课题需要研究。
本文利用基于模糊等价矩阵的动态聚类分析方法,采用标准残差RN和两相邻采样时刻的量测数据差值ΔZ,作为特征值进行模糊聚类分析,通过寻找最佳阈值λ,对量测项目进行聚类,根据个别已知的良数据和“数以类聚”的原则,得到全良数据的分类,进而辨识出不良数据。仿真分析表明该方法能快速准确地辨识出不良数据,有效地避免残差污染和残差淹没现象,并能灵活选择动态聚类结果,更适合实际电网的计算要求。
1 标准化残差RN检测的原理
所谓标准化残差RN检测,是将残差方程进行标准化,得到标准残差,在一定的误检概率下,确定检测门槛值,与量测点的标准残差比较,超过检测门槛值即被判为可疑数据而予以检测出。
设正常量测条件,在某误检概率Pe下由标准化残差灵敏度矩阵和残差方程,得到检测门槛值γN。按下述的假设检验方式对逐个量测点的标准残差进行检测。
式中:RN,i为第i个量测点的标准化残差;γN,i为第i个量测点标准化残差的检测门槛值。
2 模糊聚类分析法
对事物按一定要求进行分类的数学方法,就是聚类分析,它属于数理统计多元分析的一支。由于现实的分类往往伴随着模糊性,聚类问题采用模糊数学语言描述有其方便之处。
设被分类对象的集合为U={u1,u2,…,un},每一个对象ui由一组特征数据(ui1,ui2,…,uim)来表征,其中uij表示第i个对象的第j个特性指标,记作
称U*为U的特性指标矩阵。
由于m个特性指标的量纲和数量级不一定相同,要对U*进行数据规格化处理,常用的方法有数据标准化、极差规格化和对数规格化等[13]。根据实际系统的计算要求,用多元分析的方法来确定对象ui和uj之间的模糊相似度,建立模糊相似矩阵,即:
此时得到矩阵R=(rij)n×n,一般来说只具有自反性和对称性,不一定具有传递性,未必是模糊等价矩阵[14]。因此,还要由模糊相似矩阵R出发,构造模糊等价矩阵,并以其为基础,进行动态聚类,得到各个阈值λ下的分类。最后根据实际需要选择最佳阈值λ,确定符合系统要求的最佳聚类结果。
3 基于模糊等价矩阵的不良数据辨识
根据模糊数学的理论,考虑不良数据的特点,本文采用标准残差RN和两相邻采样时刻的量测数据差值ΔZ作为特征值,得到原始样本数据集,见表1。对于量测项目集U={u1,u2,…,un},形成特性指标矩阵U*,特性指标m=2。
3.1 模糊相似矩阵的形成
利用Fortran6.5软件编程,本文对比了极差规格化、最大值规格化和数据标准化三种方法,根据数据处理的效果,决定采用数据标准化方法对U*进行规格化处理。
对特性指标矩阵U*的第j列,计算
得到标准残差RN和量测差值ΔZ的平均值和标准差,然后通过变换
得到服从标准正态分布的规格化矩阵U0=(u'ij)n×2。
此系统中量测项目的特征指标偏少,通过试算对比相关系数法和最大最小法的处理效果,选用最大最小法来确定量测项目ui和uj之间的相似关系。
由最大最小公式,计算
得到相似系数rij,其中i,j=1,2,…,n,进而构成模糊关系矩阵R=(rij)n×n。
3.2 基于模糊等价矩阵的聚类
显然,式(6)得到的矩阵R具有自反性和对称性,没有传递性,不能直接用于动态聚类,故必须对其改造,求得相应的模糊等价矩阵,再进行动态聚类。本文采用模糊传递闭包法解决上述问题。
(1)利用平方自合成的方法求出模糊相似矩阵R的传递闭包t(R),即
其中,k≦[㏒2n]+1。t(R)就是所需的模糊等价矩阵R'。
(2)适当选取阈值λ∈[0,1],求出t(R)的λ截矩阵t(R)λ,并对其聚类,具体原则如下:
设t(R)=(r'ij)n×n,t(R)λ=(r'ij(λ))n×n,则
对于ui,uj∈U,若r'ij(λ)=1,则在λ水平上将量测项目ui和uj归为一类。
(3)当λ在[0,1]中取不同值时,相应分类也随之改变。将λ按照从1到0的顺序,对t(R)所得分类逐步归并,得到t(R)λi的一系列分类Sik,其中i=1,2,…,h,h为阈值λ的个数,S为聚类集,k为聚类个数。为了能直观地看到量测项目间的相关程度,文中让λi按照步长0.1逐次递减,得到系统的动态聚类,至此量测项目的动态聚类过程结束。
3.3 最佳聚类结果的确定
可以预见,不良数据辨识的理想聚类数k=2,即全部数据分为良数据和不良数据两类。因此,选取动态聚类中聚类数为2的聚类集S2,便得到系统的最佳聚类。实践表明,这种方法对于偏差较小的不良数据辨识,具有较好的效果,但对于偏差较大的不良数据辨识,则不能保证较高的辨识精度。
本文通过合理选择最佳阈值λ,确定最佳聚类结果。阈值λ的选择,是不良数据动态聚类的关键环节。阈值越大,则辨识精度越高,聚类个数越多,误判的可能性就越大;阈值越小,则辨识精度越低,聚类个数越少,漏检的可能性就越大。
在兼顾辨识精度和聚类稳定的条件下,考虑阈值λ和聚类数k的变化率
其中:i为λ从大到小的聚类次数;ki和ki+1分别为第i次和第i+1次聚类的个数;λi和λi+1分别为第i次和第i+1次聚类时的阈值。如果
则认为第i次聚类的阈值λ为最佳阈值。
在不良数据的辨识过程中,式(10)保证了在取得较高辨识精度的同时,选取具有较好稳定性的聚类集,由此得到的最佳阈值,所对应的聚类结果即为最佳聚类结果。通过对大量数据的分析,发现聚类集Sk在λ在(0.7,0.4)之间时具有较好的稳定性。
3.4 不良数据辨识系统
对于实际系统中存在的不良数据,为了保证较好的辨识精度,最佳聚类结果可能不是理想聚类结果,即k≥2。这时,我们就需要利用个别确定为良数据的量测量,比如电网电压等级V等,根据聚类后“数以类聚”的原则,判断出全良数据的一类,进而得到不良数据的分类,完成不良数据的辨识。
综上,不良数据辨识系统的简要流程,见图1。
4 算例仿真与系统测试
为了验证算法的有效性,本文利用Fortran6.5软件编制了不良数据辨识系统,对传统的4节点模型进行了仿真分析,最后采用某地区电网的实时数据,进行了系统测试。
4.1 仿真算例分析
传统4节点模型接线图如图2所示,其量测配置如表2所示,量测项目总数为16。
对节点1的注入有功功率P1,先后两次分别设置不良数据值ΔP1=10 MW和ΔP1=50 MW,节点1和节点3的电压量测值作为已知的良数据,并在其他量测点设置服从N(0,1)正态分布的随机干扰,最佳阈值由式(10)确定,检测分析结果如表3所示。
对节点1的注入有功功率P1与线路12的有功功率P12,设置不良数据ΔP1=25 MW和ΔP12=20MW,其他计算和实验条件同上,检测分析结果如表4所示。
对节点1的注入无功功率Q1与线路12的无功功率Q12,设置不良数据ΔQ1=25 MW和ΔQ12=20MW,其他计算和实验条件同上,检测分析结果如表5所示。
分别采用方法1(标准化残差RN检测法)、方法2(加权残差RW检测法)和本文方法处理以上四种情况,检测结果见表6,其中标准残差门槛值γN=2.81,本文方法中1表示不良数据、0表示良数据。将三种方法的辨识效果进行对比,如表7所示。
由表6和表7可以看出,在单不良数据的情况下,采用传统方法时出现了残差污染现象,并且随着不良数值的增大,检测出的不良数据增多,说明残差污染现象加重,增加了辨识的困难,而本文方法的检测结果则比较理想。在多不良数据的情况下,由于不良数据的相互作用,导致部分或全部不良数据点上的残差接近于正常残差,同时部分正常测点的残差超过门槛值,故采用传统方法时不仅出现了残差淹没,而且伴随着残差污染,直接造成了漏检和误检,而本文方法的检测结果则更加准确。
算例表明,该算法能够快速准确地辨识出不良数据,并有效克服残差污染和残差淹没,避免误检和漏检情况的出现。另外,通过对不良数据偏差较大的情况处理,说明这种方法可以方便、灵活地在辨识精度和动态聚类结果上做出选择,从而得到更符合实际工况的辨识结果。
4.2 实时数据系统测试
本次系统测试的数据采用某地区电网中3个发电厂、1个升压站和16个变电站的实时运行数据。从此系统共获取186个量测值,取自2010年3月27日的运行情况,其中包含14个节点电压值,15对发电机组出力的有功和无功,23对负荷潮流,16对变压器输入有功无功和32对线路潮流,并对各个量测点都分配各自的标号。各量测点的标准残差均采用适应计算要求的经验值。
由于无法得到原始的生数据,本文利用电力系统SCADA状态估计处理后的数据进行测试。假设量测数据中共出现4个不良数据,分别是第67号(贾庄变168号联络线有功),第104号(香王线1979号有功),第121号(姚程线2320号有功)和第152号(香山变#1主变有功)量测量,其超过正常值在15%~30%之间。测试结果见表8。
5 结论
不良数据 篇5
随着测量与通信技术的快速发展和建设智能化电网需求的增长,电力广域测量系统(WAMS)得到了飞速发展,通常情况下以50帧/s或100帧/s的速度上传采集的量测信息,为监控系统动态过程提供了丰富的实测数据。如何利用状态估计方法快速去除大量高速上传数据中的不良数据,为系统监控提供可靠的熟数据成为研究的重要课题[1,2,3,4]。
不良数据辨识方法较多,如基于残差信息辨识不良数据[5,6,7,8],基于神经网络[9]、模糊聚类[10]和模式匹配[11]辨识不良数据等,但受计算速度、拓扑变化、网络规模等因素限制,这些方法能否适用于WAMS,还有待于进一步研究。
新息图辨识不良数据方法[12,13]是近年来提出的一种从量测量在电网中的关联关系入手辨识不良数据的方法,速度快、准确性较高。文献[14]建立了基于相量测量单元(PMU)测量的交流潮流模型下的新息图状态估计方法,利用PMU提供的支路电流矢量检测和辨识不良数据,可完全适用于WAMS,实现在线不良数据辨识等,效果较好。
本文以基于交流潮流模型的新息图法为基础,提出了在新息网络中利用基尔霍夫电压定律(KVL)辨识不良数据的方法,能在拓扑错误、多相关不良数据同时出现的情况下快速辨识不良数据。
1 基于交流潮流模型的新息图建模
利用PMU采集的电压、电流相量,文献[14]给出了交流潮流模型下的新息图建模方法,其一般支路模型如图1所示。
图1中:
若把对地支路的电流归算到节点i的注入电流中,可以得到节点i的注入电流为:
式中:
交流潮流模型下,新息直接通过电流向量进行计算。在新息图法中,
式中:
根据新息图法建模思想,选择有电流量测的支路作为连支,由连支上的新息可以得到交流潮流模型下新息图法中各支路的连支推算新息如下:
式中:
通常情况下,PMU采集上送速度为50帧/s,采样间隔足够短,如果采用时间间隔为秒级的数据形成新息,那么在没有负荷突变的情况下有:
则式(4)变为:
2 新息网络中KVL原理的表现形式
文献[15]提出了回路新息相角差的代数和概念,简称为回路新息相角和,用于辨识拓扑错误,实质是借鉴了KVL。在采用交流潮流模型下,新息图法可以直接使用KVL原理,计算无模型误差。由图1和交流潮流下新息图建模原理,可以得到支路在新息网络中的模型,如图2所示。
根据图2所示,新息网络中一般支路模型有:
在新息网络中任意选定一个回路,设该回路包含的支路集合为S,根据KVL,回路中支路电流在阻抗上的电压降之和等于回路中电源的电动势之和,有
式中:i-j为回路S包含的支路;δinnv.s为回路S包含支路的新息电势源之和;如果由时刻t到时刻t+1回路S包含支路发生拓扑变化,则δinnv.s≠0;否则δinnv.s=0。
式(8)即为KVL原理在新息网络中的应用,是在连支量测均为好数据时给出的,本文将根据式(8)进行不良数据辨识。
3 不良数据的辨识
当考虑回路的连支量测可能为不良数据时,其连支电流量测描述如下:
式中:αv为电流量测不良数据带来的较大误差;
因此,连支电流量测新息如下:
式中:
若连支包含不良数据,则回路S包含的支路i-j的连支推算新息
式中:
对于新息网络中的回路S,若其连支电流量测为不良数据,则其回路电压降可表示为:
由式(12)可知,当回路S的连支量测为不良数据时,回路S的回路电压降由2部分构成,其中:
回路S的连支不良数据对与回路S存在共用树支支路的其他回路的电压降也存在影响。设回路S1为与回路S存在共用树支支路的回路,定义支路集合C1,令C1=S∩S1,则回路S1的回路电压降如下:
式中:
设时刻t到时刻t+1,网络中支路i-j发生了拓扑变化,由式(12)、式(13)可知:
1)当回路S的连支量测为好数据时,回路S,S1的回路电压降存在式(14)~式(17)所示的关系。
2)当回路S的连支量测为不良数据时,回路S,S1的回路电压降的关系如下:
式(14)~式(18)给出了回路S及与其存在共用树支支路的回路S1回路电压降之间可能存在的5种关系。根据式(14)~式(18)可得到辨识回路连支量测数据是否为好数据的方法。
对于回路S,选择一个与回路S存在共用树支支路的回路S1,分别计算回路S和S1的回路电压降,如果回路S和S1的回路电压降满足式(14)~式(17)所示关系中的一种,说明回路S连支电流量测为好数据;如果满足式(18)所示关系,说明回路S连支电流量测为不良数据,此时对回路S采用局部改变生成树的方法[16],将回路S中存在电流量测的树支支路换为连支,其他回路连支均不变,重新计算回路S和S1的回路电压降,并验证是否满足式(14)~式(17)所示关系,直到发现回路S中包含的好数据为止。由于其他所有回路的连支均未发生变化,因此可清晰地看到回路S中连支支路的改变给回路电压降带来的变化,从而确定不良数据位置。
若包含共用树支支路的回路S和S1的连支测量均为不良数据时,同样可以推导出式(14)~式(18)的结论。辨识不良数据也采用同样的方法,这一点在算例分析中可以见到。
这里需要说明一点,考虑到模型误差的原因,在回路连支测量均为好数据时,回路电压降在计算结果中也不会正好为0,但一般会非常小。在实际应用中可以计算各回路的电压降,以确定适合该网络的回路电压降的门限值。
从上述分析可以看出,利用回路电压降辨识不良数据的方法,只采用连支推算新息进行回路电压降的计算,不采用新息差向量判断连支量测是否为不良数据,因此该方法较文献[12]需要的量测量更少,只需要回路包含的支路上存在一个好的量测数据(电流向量)即可。同时,在辨识连支是否为不良数据时,采用了回路包含支路轮换变为连支的方式,因此对不良数据的位置没有要求,适用的测量系统更为广泛。
4 算例分析
在IEEE 30节点系统中,模拟拓扑变化和多相关不良数据同时出现的情况,验证在新息网络中利用KVL原理辨识回路中不良数据的方法。IEEE 30节点系统量测配置及生成树和回路如图3所示。
以潮流数据加入4%以内的随机误差作为量测量。假设时刻t至时刻t+1支路12-14发生拓扑变化,在支路2-4,4-6,6-7的电流量测分别加入0.1+j0,0.2+j0,0.3+j0的不良数据,构成强相关不良数据;回路Ⅰ和Ⅱ同时包含了这些不良数据,这也是利用回路电压降辨识不良数据方法中最复杂的情况,其他情况均比这种情况辨识简单得多。
回路Ⅰ和Ⅱ包含量测的新息差向量见表1。
从表1的新息差向量可以看出,由于不良数据过多,不能发现回路Ⅰ和Ⅱ是否为不良回路,即无法辨识回路Ⅰ和Ⅱ连支量测是否为好数据。利用新息图法中新息差向量的方法无法辨识,同样,其他方法也无法辨识,但依据回路电压降的方法,采用2个回路电压降之间的关联关系可以辨识其中的不良数据。对回路Ⅰ和Ⅱ的连支支路进行组合试验,即采用局部改变生成树的方法,将回路Ⅰ中任意一条支路作为连支的同时,将此时构成回路Ⅱ的每条有电流量测的支路作为一次连支,并分别计算此时回路Ⅰ和Ⅱ的回路电压降,然后分析回路Ⅰ和Ⅱ的回路电压降是否满足式(14)~式(17)关系。结果如表2所示。可以看出,只有当支路2-5作为回路Ⅰ的连支、支路2-6作为回路Ⅱ的连支时,回路Ⅰ和Ⅱ的回路电压降明显小于其他回路的电压降,可认为其近似为0,满足式(14)所示关系。这说明支路2-5和支路2-6上量测为好数据,从而根据新息差可以辨识出支路2-4,4-6,6-7的电流量测为不良数据。
5 结语
随着WAMS的快速建设和智能电网的迅猛发展,快速、简便及有效的不良数据辨识方法是不良数据辨识的主要研究方向。本文提出了基于交流潮流模型的新息图法中利用KVL原理辨识不良数据的方法,可以快速辨识出拓扑变化(拓扑错误)情况下的多相关不良数据,为基于WAMS下的不良数据辨识提供了一种有效方法。同时,可以辨识利用新息差向量不能辨识的不良数据,对新息图法是一个重要的补充。
不良数据 篇6
关键词:状态估计,改进粒子群进化算法,不良数据检测,发散,电网
1 引言
电力系统状态估计常用的方法有加权最小二乘法估计和快速分解状态估计两种方法[1,2,3,4,5,6,7]。不管是加权最小二乘法状态估计还是快速分解法状态估计, 其求解过程都涉及到迭代过程, 通过局部线性化逐渐使结果趋向于真实值。牛顿迭代法是求解非线性方程和非线性方程组的常用的有效方法[8,9,10,11,12,13,14]。
牛顿 (Newton) 迭代法又称为切线法。它是求解非线性方程的一个非常基本而重要的迭代方法。牛顿迭代具有局部收敛性, 且收敛阶不是线性的。因此牛顿迭代的收敛速度比一般的简单迭代收敛快。由于是局部收敛, 牛顿迭代法对初值的要求往往比较高, 即x0要充分靠近真实值才能保证收敛。这要求函数在根附近的单调性和凹凸性良好才能有效收敛。如果函数的变量增加, 函数的单调性和凹凸性将会变得更加复杂。这时候牛顿迭代法将会很容易出现发散现象。
为了解决常用算法的发散现象, 人们尝试用智能进化算法来代替。由于加权最小二乘法在求解过程可以看成是对一个目标函数的优化问题, 即找到一组数据, 使它们在目标函数中起到最优作用, 得到函数的最小值。因此在理论上可以用粒子群进化算法进行目标函数的优化求解。所以尝试用粒子群进化算法进行电力系统状态估计。基本粒子群的粒子初始位置可以设定为介于粒子位置上下限之间的随机数。在粒子群状态估计中, 如果按照基本粒子群的设定方法, 不能得到理想的结果, 有可能得到的是局部的最小值。特别是粒子群算法在计算规模比较大时, 出现了局部收敛现象, 因此采用改进粒子群进化算法进行电力系统的状态估计计算。改进粒子群进化算法对初值也是有要求的。随着粒子数目的增加, 算法对初值的要求也随之增加。但这种要求程度远没有在同样情况下牛顿迭代法的要求程度高。但这种算法是以牺牲时间为代价的。牛顿迭代法的最大优点是计算速度快, 适合在线系统。如果是离线系统, 算法对时间的要求不太严格。因此结合了改进粒子群算法的状态估计可以应用到离线系统中[14]。 (1)
2 基于改进粒子群进化算法的状态估计
2.1 改进粒子群进化算法在状态估计中的应用
设Xi= (xi1, xi2, …, xin) 为微粒i的当前位置;Vi= (vi1, vi2, …, vin) 为微粒i的当前飞行速度;Pi= (pi1, pi2, …, pin) 为微粒i所经历的最好位置, 改进粒子群算法的进化方程可描述为:
式中:c1, c2———加速常数, 通常在0~2之间取值;r1, r2———0~1间的随机数;ω———一非负数, 称动力常量, 控制前一速度对当前速度的影响。ω较大时, 前一速度影响较大, 全局搜索能力较强;ω较小时, 前一速度影响较小, 局部搜索能力较强。通过调整ω的大小来跳出局部极小值。一般来说, ω的值在[0.8, 1.2]范围内。
从进化方程可以看出, c1调节微粒飞向自身最好位置方向的步长, c2调节微粒飞向全局最好位置方向的步长。为减少微粒在进化过程中离开搜索空间的可能性, vij通常限定在一定的范围内, 即vij∈[-vmax, vmax]。该算法的流程如下:
step1对粒子群随机位置和速度进行初始化;
step2计算每个微粒的适应值;
step3对于每个微粒, 将其适应值与所经历过的最好位置pi的适应值进行比较, 若较好, 则将其作为当前的最好位置;
step4对于每个微粒, 将其适应值与全局所经历的最好位置pg的适应值进行比较, 若较好, 则将其作为当前全局的最好位置;
step5根据进化方程对微粒的位置和速度进行进化;
step6如未达到结束条件返回step2。
为了对改进粒子群进化算法在状态估计中的应用效果进行检验, 先选取一个典型的IEEE 9节点电力系统进行状态估计进行验证。电力系统状态估计的前提是量测量个数要大于状态量个数, 即有量测冗余度存在。由于在IEEE标准中所给的系统的量测量不足以进行状态估计, 要根据需要进行系统的量测量的预先设定。所选用的系统结构如图1所示。
简单电力系统节点数较少, 此时可以进行手工节点编号, 且标号顺序不影响计算结果。下一步很重要的工作是要形成系统的导纳矩阵。大系统的节点编号和导纳矩阵是在程序中完成的, 但这些工作要占用计算时间。如果对于一个结构不变的系统来说, 可以进行人工导纳计算, 形成导纳矩阵。一般系统参数包括线路的阻抗zL和对地导纳yL, 变压器的参数一般是指其数学模型中的电阻RT、电抗XT、电导GT和电纳BT以及变比。将变压器转换成等值电路形成变压器支路。导纳矩阵中对角元素称为自导纳, 用Yii表示, 其余元素称为互导纳, 用Yij表示。自导纳等于与当前节点相连的各支路阻抗的倒数和加上当前节点对地导纳, 有变压器的支路要在其阻抗倒数后面除上变压器变比的平方。互导纳等于当前两节点之间线路的阻抗倒数的相反数, 有变压器的线路要在阻抗倒数的后面除上变压器变比。经整理, IEEE 9节点系统的导纳矩阵如表1所示。
系统中存在三个发电机节点, 三个负荷节点。1节点为平衡节点, 电压幅值为1.04, 相角为0。2、3节点为PV节点, 其余节点为PQ节点。其中, 2、3节点的电压幅值都为1.025, 其余节点的电压幅值和相角为待求量。系统中平均选取了32个量测量, 状态量为14个, 此时的系统冗余度为32/14≈2.3。根据最小二乘法的要求, 量测量要符合正态分布。系统量测量不设置不良数据, 只设置为存在精度误差的数据。量测数据表如表2所示。
在设定权重时, 遵循的原则是, 发电机节点和零注入节点量测权重最大, 支路功率量测权重次之, 负荷节点功率量测权重最小。系统中的最大权重量测量有8个, 设为一级权重, 稍次之的量测量有18个, 设为二级权重, 剩下6个设为三级权重。权重设置表如表3所示。
2.2 基于改进粒子群进化算法的状态估计的实现
采用C#语言进行系统开发。设置20个个体, 每个个体都用C#语言中的结构体进行设置。系统中有14个未知量, 因此, 每个结构体中的成员包括14个粒子的位置, 用individual[i].number表示, 14个粒子速度, 用individual[i].speed表示, 14个粒子最佳位置, 用individual[i].best表示, 一个粒子适应值, 一个种群适应值, 分别用fitness和bestfitness表示。粒子的初始位置分别对应系统中节点的位置电压幅值和相角, 将电压幅值类粒子初始位置设置为1, 电压相角类粒子的初始位置设置成0, 这是电力系统计算初值设定的通常方法。计算前, 将算法中加速常数设定为1.8, 同时设定粒子位置和速度的上下限以及粒子速度的最大值。初值设定还要包括粒子速度初始化, 一般将其设定为粒子速度最大值与一个小于0.01的随机数的乘积。改进粒子群进化的目标就是加权最小二乘法中目标函数的最小值, 此函数称为适应值函数。按照改进粒子群进化算法的步骤进行计算, 直到前后两次目标函数的最小值的差符合精度要求为止。
程序的第一步是要进行量测量的输入, 输入界面如图2所示。
经调试, IEEE 9节点系统状态估计得到了较理想的结果。系统得到的状态量如表4所示。
系统的状态量与标准极为近似。经潮流计算得到的新的量测量如表5所示。
以上数据不能和标准数据完全符合, 但已经比最初输入的量测数据更接近标准数据了。这正说明了状态估计的特点:系统的真实状态量是不可能得到的, 只能得到估计值, 即找到一组较理想的状态量, 使存在的残差尽量平衡掉。
3 不良数据的检测
3.1 J (x) 检测原理
当系统中没有不良数据时, 通过一种类似平衡化的方式, 可以将误差较大的数据修正, 从而找到一组最佳的状态量。如果系统中存在一个或多个不良数据, 而又事先不知道不良数据的位置时, 状态估计结果将偏离理想结果。这时候要用到不良数据检测方法, 将不良数据找到并除去, 重新进行状态估计。
不良数据的检测一般是通过检查目标函数是否大大偏离正常值或残差是否超过正常值来反映的, 通常有三种检测方法[7]:J (x) 检测、加权残差检测法 (rw法) 和标准化残差检测法 (rN法) 。由于J (x) 检测法在电力系统规模较小, 而且相应量测冗余度K较小的情况下, 有较高的灵敏度。又因其方法简单易行, 因此采用J (x) 检测法进行不良数据检测。
将状态估计值代入目标函数, 可以得到目标函数的极小值J (x) 。用加权残差表示时, 我们可以推导出:
当假定正常量测误差为正态分布时, J (x) 为χ2分布, 且自由度为K (K=m-n) , 记作:
当K>30时, 可以用相应的正态分布来代替χ2 (K) 分布, 即:
当存在不良数据时, 目标函数将急剧增大。利用这一特性, 可以结合正态分布表检测不良数据。
不良数据检测可以归进电力系统状态估计中, 也可以独立于状态估计, 但不是完全的独立, 两者是有机地联系在一起的。不良数据的检测有的是在状态估计中进行的, 有的是在状态估计之后进行的。为了更加清晰, 本文选择在状态估计之后再进行不良数据的检测。
3.2 IEEE 9节点系统的不良数据检测
在上面的IEEE 9节点系统中, 通过状态估计计算得到了系统的状态量z, 将其回代到量测方程中, 得到残差向量r。其加权残差平方和J (x) 服从Kχ2, α分布, 由于系统的量测数据个数为32, 而系统的状态量为14, 则此时系统自由度K=18, 取α=0.01, 从Kχ2, α分布表中查得χ218, 0.01=34.805, 加权平方和J (x) 的估计值:
此值远小于34.805, 此时认为有99%的把握肯定原始数据中不存在不良数据, 此结果可以接受。
为了进行不良数据的检测能力, 将原始数据强行设置一个不良数据, 将P 5的值设置为-0.8, 此值与原始数据存在明显的差别, 可视为不良数据。我们通过不良数据检测程序进行检测, 看程序能否将P 5这个量测数据检测出来。再次进行状态估计, 对J (x) 的值进行追踪, 此时发现加权平方和J (x) 的值迅速增大到103.445, 远远超过了34.805。此时在99%的置信度下相信原始数据中存在不良数据。估计结果不能接受。查看残差向量r, 发现其中P 5对应的残差值明显高于其它的残差值, 认为P 5是不良数据, 同时, 得到的状态量的值与已知的真实状态量产生了一定的偏差, 但不是很大。要将其除去后再次进行状态估计。在此可以看出, 即使是用含有不良数据的量测量进行估计, 得到的系统状态量在要求不严格的情况下也是可以接受的, 但在潮流计算中不良数据的影响是致命的。如果将检测出来的不良数据除去后, 系统的冗余度有所下降, 但量测数据质量提高, 再次进行状态估计就会得到精确的状态量了。当我们去掉此次检测出的不良数据后, 量测系统的自由度就会下降一个数值, 此时查表得到的检测值也会随之降低。这是一个类线性过程。如果存在多个不良数据, 检测时间将会增加很多。包含了不良数据检测的状态估计运行程序界面如图3所示。
程序界面中红色的数据即为不良数据, 这一结果和我们最初设定的情况是符合的。由于有不良数据的影响, 得到的状态量与标准数据之间产生了差异。但由于只设定了一个不良数据, 通过平衡机制, 使这种差异限制到一个很小的范围, 通过观察发现此时的结果仍可勉强接受, 系统的状态量与IEEE标准值比较接近。程序根据检测结果提出建议除去不良数据再次进行估计。根据估计结果, 将不良数据去掉后再次进行估计, 这时就是在没有不良数据的情况下进行估计了。
4 大庆油田电网的状态估计和不良数据检测
根据大庆油田电网平面图和主结线图, 经简化形成了10个相互独立的子网并整理得到每个网络的导纳数据。为了程序开发的方便有序, 将这10个子网定义为10个独立的区并进行编号。以一区为例, 电源为220kV变电站春蕾变, 春蕾变通过110kV线路为3座110kV变电站供电, 分别是高家一次变、庆新一次变、丰收一次变。这三座110kV变电站又分别通过35kV线路为若干座35kV变电站供电, 高家一次变为喇水所用变、喇三变、喇III-1变、喇十四变、喇十六变供电;庆新一次变为聚喇400变、喇二变、喇八变、喇十二变、喇十三变供电;丰收一次变为北II-1变、北II-2变、变II-4变、北八变、北十二变、北十四变。三个110kV变电站又分为高压侧和低压侧。一区的电网接线图如图4所示。
一区节点数为23, 其中春蕾变为平衡节点, 此节点电压幅值为110kV, 电压相角为0, 除去此节点外, 还有22个节点的电压未知, 总共有44个状态量待求。如果让冗余度达到2, 应选取88个量测量。这些量测量在选取时要遵循平均分布原则。量测量要尽量覆盖到每一个节点, 同时不出现集中的现象, 否则会出现某些节点不可观测的问题。
为了进行状态估计, 选取节点注入功率和支路功率作为量测量。将16个35kV变电站的负荷的有功功率和无功功率作为量测量, 同时适当选取支路上的有功功率和无功功率作为量测量, 共计88个量测数据, 根据前面的内容将每个量测量设置权重, 部分数据如表6和表7所示。
经过状态估计后, 得到了新的估计数据。由于没有设置不良数据, 量测数据只存在精度问题, 因此得到的结果与原数据相差不大, 但更加接近电网的实际运行状态。新数据表如表8和表9所示。
当输入的量测量中含有不良数据时, 程序会将其检测出来。不良数据的出现概率不是很大, 只是偶尔出现。将喇十六变的注入有功功率从原值的-2.608 0改变到-4.608 0, 此时发现得到的估计数据与原量测量产生了细微的偏差, 而喇十六变的注入有功功率数据被拉回到真实值附近, 为-2.130 7。不良数据检测显示喇十六变的有功功率为不良数据, 建议将其去除后再次进行状态估计。如果设置两个或两个以上的不良数据, 不良数据检测功能依然能够将其检测出来, 但此时的状态估计得到的结果将与真实值产生较大偏差。除去不良数据后状态估计结果又将回到真实值附近。如果量测量中含有的不良数据较多的话, 表明量测量质量很低, 如果将其直接使用得到的检测和估计结果将不理想, 会出现残差淹没现象, 甚至使程序发散。
一区的状态估计算法收敛, 得到了理想结果。但计算时间已经延长到了14min左右, 可见此方法的计算量之大。
经过状态估计得到的系统的状态量更为接近系统真实值, 状态估计得到了系统各个节点的电压幅值和相角, 它将为下一步的潮流计算提供数据。
5 小结
本文通过对IEEE 9节点系统进行状态估计和不良数据检测的计算, 验证了基于改进粒子群算法的状态估计的正确性和基于J (x) 检测法进行不良数据检测的合理性。然后对大庆油田配电网进行了状态估计和不良数据检测的计算。