不完备信息处理(共4篇)
不完备信息处理 篇1
1引言
粗糙集理论[1]是波兰数学家Z.Pawlak教授提出来的一种新型的处理模糊和不确定性知识的数学工具, 并在决策分析, 模式识别及数据挖掘等领域取得了很大的成功[1,2,3,4]。经典粗糙集模型的局限性是它所处理的分类必须是完全正确的或肯定的, 即严格按照等价类来分类的, 而在现实中, 由于数据采集能力有限、测量误差等原因, 往往得到的系统是不完备的, 即存在对象属性值是未知的。所以Ziarko提出可变精度粗糙集模型 (VPRSM) [5], 允许上近似和下近似存在一定的分类误差, 它的多数包含关系的引入, 增强了模型的容噪能力。 文献[6]利用集对分析方法, 提出了不完备信息系统中基于集对分析的变精度粗糙集模型。本文的属性约简算法是在该模型的基础上进行分析和研究的。
属性约简是Rough集理论的核心内容之一, 其目的是导出相关决策表的决策规则, 而约简后的属性能否表达与原属性集完全一致的信息直接影响着决策规则的性能和效率。针对完备信息系统及不完备信息系统文献[7]和文献[6]提出的属性重要性算子都是面向对象集U进行计算, 而未考虑正域变化对决策属性各个等价类的影响, 因此本文定义了一个新的属性重要性的算子, 并由此给出了基于不完备信息系统的一种属性约简的启发式算法。算法可从相似度α、包含度β和约简终止精度δ三个方面进行调节, 因此它在提高属性约简的准确性的基础上, 增加了灵活性。并且它将文献[8]的直接求核的方法扩展到不完备信息系统中, 以核属性为起点, 从条件属性中逐个加入属性重要性算子大的属性, 从而得到一个满足要求的近似约简。同时, 它也是完备信息系统的属性约简算法的推广。当α=1, β=0, δ=1时, 本算法可以得到完备信息系统的一个属性约简。
2在不完备信息系统里基于集对分析的变精度粗糙集模型
集对分析方法的核心思想是把被研究的客观事物的确定性联系和不确定性联系作为一个系统来处理。
定义1[6] :设 (U, A∪{d}) 是不完备信息系统, U是对象的非空有限集, A= {a1, a2, ……, ak}是条件属性集, ak是某一条件属性, d是决策属性, D⊆A∪{d}, 阀值α的取值范围是0≤α≤1, 定义x关于D的α领域为:
Sundefined (x) ={y∈U|UD (x, y) =a+bi+cj, 且a+b≥α }
这里undefined, undefined, undefined
(1) s={a∈D|a (x) =a (y) ∧a (x) ≠*∧a (y) ≠*} (x和y是在D下取值都明确且相等的属性集)
(2) f={a∈D|a (x) =*∨a (y) =*} (x和y是在D下取值都不明确的属性集)
(3) p={a∈D|a (x) ≠a (y) ∧a (x) ≠*∧a (y) ≠*}
(x和y是在D下取值都明确但不等的属性集)
定义2[9]:设 (U, A∪{d}) 是一个不完备信息系统, 对于X⊆U, D⊆{d}, α>0, 包含度β∈ (0.5, 1], 则任一决策等价类Dj∈U/D (j=1, 2, …, |U/D|) 关于A的β包含度α领域的集对型下近似、上近似分别定义为:
undefined
undefined
定义3: 设 (U, A∪{d}) 是一个不完备信息系统, 对于X⊆U, C⊆A, D⊆{d}, α>0, 包含度β∈ (0.5, 1], 则Dj∈U/D (j=1, 2, …, |U/D|) 关于A的β包含度α领域的集对型正域定义为:undefined。
3在不完备信息系统里基于集对变精度粗糙集模型的属性约简算法
3.1决策表属性重要度的定义
例1:设 (U, A∪{d}) 是一个不完备信息系统, 其中U是对象集, C是条件属性集, D⊆{d}是决策属性。Dj∈U/D (j=1, 2, …, |U/D|) 是对象集U相对于决策属性D形成的决策等价类。|Dj|表示Dj等价类的元素个数。设决策类一共分为D1和D2两类, 其中|D1|=1000, |D2|=50。POSC (D) 表示决策属性D相对条件属性集C下的正域。
(1) 当|POSC (D1) -POSC-{a} (D1) |=19, |POSC (D2) -POSC-{a} (D2) |=1时, |POSC (D) -POSC-{a} (D) |=20, 根据文献[7]中属性重要性的定义得属性a的重要性为 (19+1) /1050=0.019。
(2) 当|POSC (D1) -POSC-{b} (D1) |=1, |POSC (D2) -POSC-{a} (D2) |=18时, |POSC (D) -POSC-{b} (D) |=19, 同样根据文献[7]中属性重要性的定义得属性b的重要性为 (1+18) /1050=0.018。
从 (1) 计算中得到当去掉属性a时, 对于决策类D1其正域有19个元素发生了变化, 19/|D1|=19/1000=0.019, 约简前后正域中有1.9%的元素发生了变化, 即对于决策类D1仅有1.9%的对象不能正确地体现原信息系统的基本特征。从 (2) 计算中得到当去掉属性b时, 对于决策类D2其正域有18个元素发生了变化, 18/|D2|=18/50=0.36, 但是约简前后正域中有36%的元素发生了变化, 即对于决策类D2有36%的对象不能正确地体现原信息系统的基本特征。通过上面的分析可以知道去掉属性b后比去掉属性a后对正域的影响要大, 所以属性b比属性a重要。但是根据文献[7]中提到的属性重要性算子进行计算, 属性a比属性b重要, 这与上面分析结果属性b比属性a重要不符。造成这种结果的原因是由于文献中[6]的属性重要性算子是面向对象集U而不是面向决策属性的各个等价类进行计算。依据上面的分析, 所以本文提出了一个新的属性重要性的定义。
定义4:设 (U, A∪{d}) 是一个不完备信息系统, 对于X⊆U, B⊆C⊆A, D⊆{d}, Dj∈U/D (j=1, 2, …, |U/D|) , α>0, 包含度β∈ (0.5, 1], 条件属性子集B相对于决策属性集D的β包含度α领域的重要性定义为:
undefined
当B={a}时, 条件属性a∈A关于{d}的β包含度α领域的重要性为
undefined
注: (1) 属性重要性算子θ (C, B, D) undefined是用来描述条件属性集C中属性集B相对于决策属性D的重要性。
(2) 设A、B为任意两个集合, A和B的对称差为集合S, 其元素或属于A, 或属于B, 但不能既属于A又属于B, 记做A⊕B。undefined。定义4中的⊕是用来求不属于约简前正域和约简后正域交集的元素。由于本文所进行的属性约简是基于集对变精度粗糙集模型的, 所以随着属性的减少, 约简后正域与原正域之间没有包含关系, 所以定义4采用了对称差。
(3) 当分母相应决策类个数|Dj|越小, 分子正域变化元素个数|POSundefined (C, D, β) ⊕POSundefined (C-B, D, β) |越大的时候, 它们的比就越大, 其对相应决策类正域的影响越大, 反之亦然。算子θ (C, B, D) undefined是各个决策类所求比值的和, 所以该算子可以作为衡量属性重要性的标准。
(4) 若去掉条件属性子集B所引起的分类变化越大, 则属性重要性算子θ的值越大, 说明B对决策越重要。
将定义4应用到例1中得:θ (C, a, d) undefined=19/1000+1/50=0.039;θ (C, b, d) undefined=1/1000+18/50=0.361。因为0.361>0.039, 所以属性b比属性a重要。
3.2属性约简的启发式算法
定义5:[9]给定决策信息系统S= (U, C∪D, β) , C是条件属性集, D是决策属性集, U关于C的分类为U/C={C1, C2, …, C|U/C|}, U关于D的分类为U/D={D1, D2, …, D|U/D|}。条件属性集C关于决策属性集D的βundefined约简定义为C的最小属性子集RED (C, D, βundefined) , 且满足:
(1) POS (C, D, βundefined) =POS (RED (C, D, βundefined) , D, βundefined) ) 且对∀Dj∈U/D均有
(0≤δ≤1) ;
(2) 从Red中去掉任何一个属性, (1) 不成立。
其中:δ为约简终止精度。
定义5:是属性约简定义, 主要是用来定义属性的约简结束条件的。本文将定义5应用到了属性约简算法中去。
现在给出基于集对变精度粗糙集模型的属性约简的启发式算法, 设S= (U, C∪D, β) 是一个不完备信息系统, 算法是以相对核为起点, 从条件属性中逐个加入属性重要性算子大的属性, 如此反复, 直到求出一个C关于D的β包含度α领域近似约简Red为止。
算法:求条件属性C关于D的β包含度α领域近似约简Red
输入:一个不完备决策信息系统S= (U, C∪D, β) ;相似度α;包含度β;约简终止精度δ。
输出:C关于D的β包含度α相似度δ约简终止精度的一个近似约减。
步骤1 令核属性集coreD (C) =Φ, 属性重要性集合E=Φ, 计算U在不可分辨关系ind (D) 下的划分undefined。
步骤2对每个x∈U, 计算x关于C的α领域Sundefined (x) , 再计算C关于D的β包含度α领域的集对型下近似undefined及正域POSundefined (C, D, β) 。
步骤3对每个a∈C, 计算每个x∈U关于C-{a}的α领域Sundefined (x) {d}, 再计算C-{a}关于{d}的β包含度α领域的集对型下近undefined。如果对undefined均有 (0≤δ≤1) , 则转3.1, 否则转3.2。
步骤3.1 令E = E∪{a}, 利用属性重要性定义θ (C, a, D) undefined计算属性a的重要性, 并依据计算出的属性重要性对集合E中元素进行排序。转3.3。
步骤3.2 令coreD (C) =coreD (C) ∪{a}, 最后得到的coreD (C) 为C相对于D的相对核。
步骤3.3 如果每个a∈C的属性都计算过, 则转4, 否则转3。
步骤4 令Red=coreD (C) , 在E中选择属性重要性最大的属性b加如到Red中, 即Red=Red∪b, 如果对undefined均有 (0≤δ≤1) , 则输出约简Red, 否则重复执行步骤4, 直到得到满足条件的约简。
注:在步骤3中当不满足定义5的约简定义时则转步骤3.2, 进行属性核的计算, 即对文献[8]的信息系统决策表相对核计算方法的推广。本文将文献的约简终止条件应用到了属性核的计算中, 并且由于约简终止条件中变量的引入使本文属性核的计算在保证准确性的同时, 更加具有灵活性。该求属性核的计算不仅适用于完备信息系统, 同时也适用于不完备信息系统。
3.3算法分析
算法性能分析:设有n个对象, 算法第一步的时间耗费是O (n) , 算法第二步和第四步的最坏时间复杂度为O (n2) , 算法第三步的最坏时间复杂度为O (|C|n2) 。
属性约简算法常常涉及的数据量非常大, 因此算法的时间开销和空间开销也非常大。所以算法的时间复杂度应尽量控制在多项式范围内, 而且次数越低越好。本论文提出的算法时间复杂度大约是O (n+|C|n2) , 依然在多项式范围内, 是可以接受的。
该算法可以通过对相似度α、包含度β和约简终止精度δ三个变量的调节, 得到具有不同侧重度的约简, 因此该算法增强了约简的灵活性。同时新的属性重要性定义的引入使该算法具有更高的准确度。.
4实例分析
为考察本算法的有效性, 下面用一个不完备信息系统来分析。
设 (U, C∪{d}) 是一个不完备信息系统, 其中对象集U={x1, x2, ..., x12}, 条件属性集C={a1, a2, a3, a4}, d是决策属性, 决策表如表1。
利用本文提出的属性约简算法进行约简。当相似度 α=0.8, 精度 β=0.65 , 约简终止精度δ=0.9时, 相对核属性为{a2, a4}, 得到一个近似属性约简结果为{a2, a3, a4}。由于本算法的终止条件采用的是文献[9]的定义, 且该定义是相对于各个决策类的正域进行定义, 所以该定义比文献[6]中的约简定义更加地苛刻。所以本约简后的属性个数比文献[6]得到的约简个数多, 因此得到的约简的也越能体现原决策信息系统的特征。
5结束语
本文在集对变精度粗糙集模型的基础上, 提出了基于β包含度α领域的属性重要性算子, 以及将直接求核算法与约简定义相结合的属性核的计算, 并由此给出了基于不完备信息系统的一种属性约简的启发式算法。该算法以核属性为起点, 从条件属性中逐个加入属性重要性算子大的属性, 从而得到一个满足要求的近似约简。算法在保证属性约简的准确性的基础上, 增加了灵活性。本文的属性重要性算子虽然是在集对分析的变精度粗糙集模型基础上提出的, 但是它也同样适用于许多别的粗糙集及粗糙集扩展模型。
参考文献
[1] Pawlak Z.Rough sets.International Journal of Computerand Information Science, 1982, 11 (5) :341~356
[2]苗夺谦, 胡贵荣.知识约简的一种启发式算法.计算机研究与发展, 1999, 36 (6) :681~684
[3]张文修, 吴伟志, 梁吉业等.粗糙集理论与方法.北京:科学出版社, 2001.
[4]王国胤.Rough集理论在不完备信息系统中的扩充.计算机研究与发展, 2002, 39 (10) :1238~1248
[5] Ziarko W.Variable precision rough set model.Journal of Computer and System Sciences, 1993, 46 (1) :39~59
[6]刘富春.变精度集对粗糙集模型中的属性约简.计算机工程与应用, 2006, (05) :8~18
[7]何明, 冯博琴等.一种基于Rough集理论的属性约简启发式算法.小型微型计算机系统, 2005, (26) :356~359
[8]张腾飞, 肖健梅, 王锡淮.粗糙集理论中属性相对约简算法.电子学报, 2005, 33 (11) :2080~2084
[9]龚安, 王琳, 牛秋丽.在不完备信息系统中基于VPRSM的约简异常分析.计算机工程与应用, 2008, 44 (24) :165~167
不完备信息处理 篇2
波兰数学家Pawlak提出的粗糙集理论 (RSA) [1,2]是一种处理不确定、不精确、不完备问题和模糊信息的数学工具。经过近三十几年的飞速发展, 粗糙集理论已成功应用到图像识别、数据处理、智能模拟、数据的决策与分析等众多领域。
经典粗糙集理论是基于不可区分关系对属性进行分类, 但是在实际背景下, 属性值大小体现对象关于属性之间的优劣关系, 这是经典粗糙集模型中等价关系所不能体现的, 为处理序信息系统中的知识发现问题, Greco等将经典粗糙集理论加以推广, 提出了基于优势关系的粗糙集方法 (DRSA) [3,4]。为解决从大量杂乱无章的、强干扰的数据中发现潜在的、有价值的、简洁的信息, 优化决策规则获取这一研究方向吸引了不少学者的关注。谢军等在文献[5]中提出了二种描述子的概念, 基于描述子讨论了优化决策规则的获取问题;邵明文和张文修在文献[6]中提出了一种扩展优势关系粗糙集模型, 进而利用该模型讨论了不完备协调序信息系统的决策规则获取问题;杨习贝等在不完备序信息系统中提出了相似优势关系, 而后利用相似优势关系定义了相应的知识约简以获取优化决策规则;并给出了最优可信决策规则的获取方法;杨习贝等在文献[8]给出了不完备区间值序决策信息系统获取优化规则的一种方法, 他们利用完备序信息系统的结论, 将不完备问题完备化, 进而给出了六种不同形式的约简, 讨论了这几种约简之间的关系, 并构造六种区分函数来计算相应的约简, 以获取优化的决策规则;姜洪冰等在文献[9]中利用正则元构造了相容支配集, 并基于此给出了不完备序决策信息系统的可信决策规则获取的方法;
目前对于优势关系粗糙集的研究, 都是以支配集或者被支配集作为基本知识颗粒, 来定义关系决策类的上并 (下并) 的下、上近似, 进而导出“at most”决策规则或者“at most”决策规则。然而, 在实际问题当中, 往往需要导出类似“at most and at most”的区间决策规则, 为解决此类问题, 管延勇, 王洪凯等利用支配集和被支配集的交来作为基本知识颗粒, 提出了区间知识颗粒的概念, 研究了序信息系统的极小决策规则获取问题。本文针对不完备序信息系统, 结合区间知识颗粒, 提出了I-区间约简的概念, 利用布尔推理理论, 给出了计算I-区间约简的区分函数, 提供了获取不完备序信息系统的区间决策规则的方法。
2 基本概念
定义2.4[3,4]在序决策信息系统S中, 由B哿C所确定的优势关系记为
定义2.6[10]在序决策信息系统S中, 由B哿C确定的区间知识颗粒记为
3 优化决策规则获取及其区分函数求法
所谓决策规则约简, 就是在保证得到相同的决策结论的前提下, 亦即在保证决策规则的确定性程度不变的前提下, 使其条件属性描述更加简洁, 找出对决策结论是必要的条件属性.为此, 下面我们给出决策规则的简化以及最优决策规则的概念。
基于定义3.2和定理3.1, 结合布尔推理技术, 可以得到下面的命题3.1。
例3.1.求表1所示不完备序决策信息系统的优化的区间决策规则
类似上面的计算方法, 可以由相应的区间颗粒得到所有优化的区间决策规则。
4 结论
利用管延勇等提出的区间知识颗粒的概念, 研究了在不完备序信息系统的优化决策规则获取问题。通过区间知识颗粒的引入, 导出了区间决策规则。然后给出定义相应的判定定理及区分函数, 来获取优化的决策规则, 使我们能从数学理论方面, 从决策规则简化的直观角度, 对不完备序决策信息系统的知识有了一个清楚的认识。
参考文献
[1]Pawlak Z.Rough sets[J].International Journal of Computer and Information Science.1982, 11:341-356.
[2]Pawlak Z.Rough sets:Theoretical aspects of reasoning about data[M].London:K.A.P, 1991.
[3]S.Greco, B.Matarazzo, R.Slowinski.Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research, 2001, 129:1-47.
[4]S.Greco, B.Matarazzo, R.Slowinski.Rough approximation by dominance relation[J].International Journal of Intelligent Systems, 2002, 17:153-171.
[5]谢军, 杨习贝, 孙怀江等.序值决策系统中基于描述子的可信规则获取[J].系统工程理论与实践, 2009, 29 (7) :105-112.
不完备信息处理 篇3
大型电力变压器是电力系统重要的变电设备,其运行状态直接影响系统的安全性,因此建立智能诊断系统来保证变压器的安全可靠运行,具有非常重要的意义。
文献[1]提出了用经典粗糙集理论对完备的变压器信息决策表进行属性约简和值约简,并从中提取最小诊断规则,利用此规则和PNs相结合,实现对变压器的故障诊断。而实际变压器故障的复杂性与运行环境的恶劣,又造成了故障信息的不完备或检测信息缺失,鉴于上述原因,本文将不完备信息系统作为研究对象,对经典粗糙集理论进行扩展,实现不完备信息系统属性约减和规则的提取,并将其运用到变压器故障诊断中。
PNs能够解释系统的结构和动态行为的重要信息,图形化地表达系统的模型,基于PNs的故障诊断方法可将知识表示和诊断推理融为一体,完成描述性知识和过程性的诊断推理,通过简单的矩阵计算即可快速获得诊断结果。但是对于变压器故障诊断而言,系统的信息量非常的大,而且具有较大的冗余性和不完备性,这在一定程度会影响PNs建模的准确性和高效性。为此,本文将不完备信息规则提取与PNs理论结合起来,进一步探讨二者在知识表达上的互补性,并一同运用于变压器故障诊断。故障实例表明,本文所运用的智能方法可以有效地进行智能推理,减小诊断信息的冗余性,提高了诊断效率。
1 不完备信息系统规则提取
1.1 不完备信息系统的基本定义
定义1四元组S=是决策信息系统,其中,U是论域,是对象的非空有限集合,A=C∪D,C∩D=φ,C为条件属性集,D为决策属性集。V为属性值的集合,f:U×A→V是一个信息函数,它指定U中每一个对象x的属性值。若存在x∈U,a∈C,f(x,a)未知(记作:f(x,a)=*),则称信息系统是不完备的;否则称信息系统是完备的[2]。
定义2在不完备信息系统S中,对于属性子集∀φ⊂B⊆C,定义相容关系为:
SB(x)是与x可能不可区分的对象的最大集合。
定义3函数∂B:U→P(V d)定义为:
称为不完备决策表S=的广义决策函数。其中P(V d)表示dV的幂集[3]。
若对任意x∈U,有∂C(x)=1(X表示集合X的基数),则称S是一致的,否则称它是不一致的。
1.2 决策表约简区分矩阵算法
定义4不完备信息系统S,(x i,x j)∈U×U,B⊆C,d∈D,1≤i,j≤n=|U|,则区分矩阵元素定义[4]:
区分矩阵约简步骤:
(1)计算决策表可区分矩阵。
(2)对于可区分矩阵中所有非空集合的元素建立析取逻辑表达式。
(3)将所有析取逻辑表达式进行合取运算,得到一个合取范式。
(4)将合取范式转化成析取范式。
(5)输出属性约简结果,其中析取范式中的每个合取项对应一个属性约简的结果,每个合取项中所包含的属性组成约简后的条件属性集合。
1.3 规则提取矩阵算法
定义5 S是一个不完备决策信息表,U={x 1,x 2,,x n},定义条件属性子集B⊆C的相容矩阵MB如下:
定义6 S是一个不完备决策信息表,U={x 1,x 2,,x n},定义S的决策属性矩阵MD如下:
条件属性子集相容矩阵表达了这个条件属性子集所确定的信息系统中所有对象的相容关系;而决策属性矩阵描述了所有对象间确定不同决策属性值的区分关系[5]。
不完备信息系统规则提取的矩阵算法:
S=是一个不完备信息决策表,U={x 1,x 2,,x n},1C⊆C,M1C,MD为1C,D的条件属性和决策属性矩阵。规则提取按如下步骤实现[6]:
(1)计算S的决策矩阵和条件属性相容矩阵。
(2)取每一个条件属性相容矩阵第i行与决策属性矩阵的第i行相交。
(3)如果相交的结果与条件属性等价矩阵第i行不一致,nexti。
(4)否则以对象i的属性ce∈C1,dk∈D的取值生成规则:∧(ce=vei)=∧(dk=vki),ce∈C1,dk∈D。将第i行置零。求出所有的一阶约简规则。
(5)对所有的非零的一阶等价矩阵求交集得到所有的二阶等级矩阵用方法(2~4)求出所有的二阶约简规则。
(6)反复步骤(2~4)求出所有三阶以上的规则。
2 PNs知识表示和推理机
2.1 PNs的定义
定义6一个基本PNs的结构N是一个七元组N=(P,T,K,α,β,I,O)。在此表达式中,P={P 1,P 2,…,P n}(n≥0)是库所节点的有限集合;T={T 1,T2,…,T m}(m≥0)是转移节点的有限集合;K={K 1,K2,…,Km}是库所初始托肯(Token)(m≥0)的有限集合;α⊆(P×T)和β⊆(T×P)表示库所到迁移和迁移到库所的有向弧;I和O是迁移的输入库所和输出库所的有限集合。
2.2 PNs的推理机
PNs的矩阵表示推理机,矩阵运算推理机见参考文献[7]。
3 基于规则提取和PNs的变压器故障诊断模型
3.1 规则提取与PNs结合
在变压器故障诊断中由于变压器故障征兆与故障原因间的关系存在着不确定性、复杂性和模糊性,所以难以借助确定性的数学模型来进行描述。这些问题正好是粗糙集理论可以解决的。通过对不完备信息系统规则的提取可以对故障信息中的冗余信息进行约简,并进行更深度的数据挖掘,找到决策表中隐藏的潜在规则(即“if…then…”规则),在不影响诊断精度的情况下,减少工作量,降低不确定信息的影响,提高故障诊断准确率。
不难看出,不完备信息决策表和PNs本质上都蕴含着“if…then…”规则,只是用不同的方法加以描述。正是基于二者间的这种本质联系,可以利用粗糙集较强的数据分析、压缩能力和容错性,从大量的诊断知识中获得最小诊断规则,用来建立优化的PNs模型,利用PNs处理并行推理的能力来实现高效的变压器故障诊断。这样将粗糙集中不完备信息的规则提取与PNs的功能作了有效的结合,有利于充分发挥它们各自的优点[8]。
3.2 基于不完备信息规则提取的PNs模型
文献[9]给出了具有代表性的变压器故障信息决策表。如表1所示。
(1)条件属性:1C为铁心接地电流;C2为DGA诊断结果为过热;3C为绕组直流电阻三相不平衡;C4为变压器本体油中微水含量;5C为DGA诊断结果放电;6C为瓦斯继电保护动作;7C为局部放电参数;8C为CO CO2比值;9C为绕组吸收比,极化比参数。
(2)决策属性:0D为没有故障;1D为铁心多点接地;2D为绝缘老化;3D为漏磁引起发热或磁屏蔽过热;4D为匝绝缘损伤并匝间短路;5D为绝缘受潮;6D为分接头开关及引线缺陷;7D为悬浮放电;8D为围屏放电;9D为线圈变形并匝间短路;D10为裸金属过热;D11为变压器油流受阻引起过热;D12为有载分接头开关渗漏。
U表示样本分类,条件属性C2中1表示中低温过热,2表示高温过热;5C中1表示低能放电,2表示高能放电,0均表示不出现此故障征兆;其它属性中,1表示出现该故障征兆,0表示不出现,*表示该故障征兆缺失。
由于在变压器故障样本中存在着故障信息的冗余性和不确定性,所以有必要对其样本进行约简。根据区分矩阵属性约简步骤,得到6种最小属性约简集合,分别为:其中核值属性为
根据不完备信息系统的规则提取矩阵算法,从集合{C2,C4,C5,C8,C9}中提取出28条最小故障诊断规则。这就为在不完整特征信息下的变压器故障诊断提供了一条新的思路,即利用故障特征信息的冗余性,避开了信号提取困难或受干扰较为强烈的那些特征信息,从而达到准确诊断的目的。故障诊断规则如下所示:
根据提取的变压器故障样本的决策规则,可以得到PNs模型结构,如图1所示。
4 实例分析
根据参考文献[10]给出的故障实例,对本文的方法进行仿真验证。根据故障数据可得3C=1,C4=0,5C=2,8C=1,9C=1。由图1形成的输出映射矩阵D+、输入映射矩阵D-、连接输入映射矩阵Dc-、非连接输入映射矩阵Dd-和非连接邻接矩阵Ddw如下:
由给定的测试结果,可得初始托肯矩阵:
经PNs的运算得:
诊断结果为第五种故障,匝绝缘损伤并匝间短路,与实际情况相符。
5 结论
变压器故障诊断是一个复杂的信息融合过程,故障特征之间具有内在关联性与冗余性,采用不完备信息规则提取实现变压器故障特征的压缩,压缩后的特征具有与原来相同的分类能力,得出的主要特征也与实际相符。这为以往依赖先验知识进行诊断的智能方法,有效地压缩了输入空间,降低了知识获取的难度,提高了训练与计算的速度。本文通过规则提取获取约简知识来建立PNs,能够实现最优的网络结构并充分发挥网络的并行快速处理能力,大大提高了诊断的效率,这为在变压器故障诊断中实现粗糙集理论与智能方法之间的智能互补进行了有益的探索。
参考文献
[1]王楠,律方成,刘云鹏,等.基于决策表约简的变压器故障诊断Petri网络模型及其应用研究[J].电工技术学报,2003,18(6):88-92.WANG Nan,LüFang-cheng,LIU Yun-peng,et al.Study on Application of Petri Nets Model of Transformer Fault Diagnosis Based on Decision Table Reduction[J].Transactions of China Electrotechnical Socity,2003,18(6):88-92.
[2]王庆东,陈建.不完备信息系统的粗糙集分解方法[J].计算机工程,2007,33(24):41-43.WANG Qing-dong,CHEN Jian.Decomposition Approach in Incomplete Data System Based on Rough Set[J].Computer Engineering,2007,33(24):41-43.
[3]黄文涛,王伟杰,赵学增,等.从不完备数据中获取诊断规则的粗糙集方法[J].电力系统自动化,2005,29(14):49-54.HUANG Wen-tao,WANG Wei-jie,ZHAO Xue-zeng,et al.Extracting Optimal Generalized Decision Rules for Fault Diagnosis from Incomplete Data based on Rough Set[J].Automation of Electric Power Systems,2005,19(14):49-54.
[4]张腾飞,王锡淮,肖健梅.不完备信息系统的一种属性相对约简算法[J].计算机工程,2007,33(9):184-186.ZHANG Teng-fei,WANG Xi-huai,XIAO Jian-mei.Algorithm for Attribute Relative Reduction in Incomplete Information System[J].Computer Engineering,2007,33(9):184-186.
[5]黄兵,周献中.不完备信息系统分配约简与规则提取的矩阵算法[J].计算机工程,2005,31(17):20-22.HUANG Bing,ZHOU Xian-zhong.Matrix Computation for Assignment Reduction and Rule Extraction in Incomplete Information Systems[J].Computer Engineering,2005,31(17):20-22.
[6]谭天乐,宋执环,李平.信息系统数据清洗、规则提取的矩阵算法[J].信息与控制,2003,32(4):289-294.TAN Tian-le,SONG Zhi-huan,LI Ping.Matrix Computation for Data Cleaning and Rule Extraction in Information System[J].Information and Control,2003,32(4):289-294.
[7]王建元,纪延超.Petri网络在变压器故障诊断中的应用[J].电网技术,2002,26(8):21-24.WANG Jian-yuan,JI Yan-chao.Application of Petri Nets in Transformer Fault Diagnosis[J].Power System Technology,2002,26(8):21-24.
[8]王建元,纪延超.模糊Petri网络知识表示及其在变压器故障诊断中的应用[J].中国电机工程学报,2003,23(1):121-125.WANG Jian-yuan,JI Yan-chao.Application of Fuzzy PetriNets Knowledge Representation in Electric Power Transformer Fault Diagnosis[J].Proceeding of the CSEE,2003,23(1):121-125.
[9]莫娟,王雪,董明,等.基于粗糙集理论的电力变压器故障诊断方法[J].中国电机工程学报,2004,24(7):162-167.MO Juan,WANG Xue,DONG Ming,et al.Diagnostic Model of Insulation Faults in Power Equipment Based on Rough Set Theory[J].Proceedings of the CSEE,2004,24(7):162-167.
不完备信息处理 篇4
属性约简是知识发现的基础, 也是Rough集理论的核心内容之一。众所周知, 知识库中描述知识的属性并不是同等重要的, 甚至其中某些属性是冗余的。属性约简是在保证信息系统分类或决策能力不变的条件下, 删除条件属性中的冗余属性。粗糙集中的知识约简研究大部分集中在完备信息系统上, 对于不完备信息系统, 一般需要对经典粗糙集理论进行必要的扩展[3]。目前, 许多学者对于不完备信息系统的知识约简作了深入的研究, 并取得了很多成果[3,4,5]。但是这些研究都是考虑属性值为单个值的情况, 而没有考虑取多个值的情况。
主要考虑对于对象在每个属性下具有一个或多个属性值, 即在属性取值为集合的情况下的集值不完备信息系统, 将不完备信息系统作了相应的拓展, 分析了集值不完备信息系统上的半半序这种二元关系, 定义了基于这种二元关系的Rough近似集合;同时也定义了基于这种二元关系的可辨识属性矩阵, 讨论了系统的属性约简问题, 给出属性约简判定定理。最后给出具体的实例, 以解释和说明文章的主要结论。
1 不完备信息系统与集值信息系统
1.1 不完备信息系统
定义1[6] 设S= (U, A, V, F) 为一信息系统, 其中U是对象的非空集合;A=C∪D, C∩D=∅, C是条件属性, D是决策属性集;undefined表示属性a的值域;F={fa|a∈A}它为每个对象在属性a上指定一个属性值, 即对∀x∈U, fa (x) ∈Va。若存在一个对象x∈U, a∈A, 有fa (x) 的值未知 (记作fa (x) =*) , 则称信息系统是不完备的;否则称信息系统是完备的。
1.2 集值信息系统
定义2[7] 称S= (U, A, V, F) 为集值信息系统, 其中U为对象集;A为属性集;undefined表示属性a的值域;F={fa|a∈A}为对象属性值映射, 其中集值映射fa:U→P (Va) (a∈A) , P (Va) 表示Va的非空子集的全体, 即∀x∈U, fa (x) ⊆Va。
1.3 集值不完备信息系统
对于不完备信息系统, 其中某些对象的属性值是未知的 (不知道取何值) 或部分已知的 (如肯定不取某值) 。对于完全不知道的情形, 称这种属性值为空值。空值一般有三种情形[8]: (1) 不存在型空值。即无法填入的值, 或称对象在该属性上无法取值。 (2) 存在型空值。即对象在该属性上的取值是存在的, 但是暂时无法知道。 (3) 占位型空值。即无法确定是不存在型空值还是存在型空值。
对于存在型空值, 为讨论问题的方便, 同时也不失一般性, 我们往往将其可能取值的全体 (即该属性的值域) 作为该对象的属性取值, 即本质上将* 看作一个全集合值。对于属性取值部分知道的情况, 即肯定不取某值, 则它有可能取该属性值域中的其他值中任何一个, 因此我们可以用这些值关于该属性值域的补集作为该对象的属性取值。在此基础
上, 如果我们将属性的单个取值统一看作单元素集合的取值, 我们可以将不完备信息系统作为一类特殊的集值信息系统来看待。
下面我们基于属性集值, 给出集值不完备信息系统的定义。
定义3 设S= (U, A, V, F) 为一信息系统, 其中U={x1, x2, …, xn}是对象的非空集合;A=C∪D, C∩D=∅, C={a1, a2, …, an}是条件属性, D={d}是决策属性集;Va表示属性a的值域;F={fa|a∈A}为对象属性值映射, 其中fa:U→P (Va ) (a∈A) , P (Va) 表示Va的非空子集的全体。如果至少有一个属性a∈C, 使得fa (x) =Va或fa (x) =V′ (V′⊂Va) , 则称信息系统是集值不完备信息系统。若fa (x) =Va, 则表示对象x关于属性a的值是缺省的或遗漏的;若fa (x) =V′ (V′⊂Va) , 则表示对象x关于属性a的值可能是V′中的任何一个值。对于决策属性 d, 对∀x∈U, fd (x) ∈Vd, 即Vd中不存在集合值。由于专家在信息不完备的情况下也能给出决策, 故假设在决策属性上取值没有遗漏或缺失。
以下的讨论都是基于此集值不完备信息系统的。
1.4 半半序关系
在集值不完备信息系统中, 属性值可以看作集合即集值, 如果考虑属性值集合间的包含关系, 我们可定义论域U上的如下二元关系:
定义4 对于B⊆C, 定义二元关系: RB={ (x, y) ∈U×U|fa (x) ⊆fa (y) , a∈B}
显然RB满足自反性和传递性, 但未必满足对称性和非对称性, 故称RB是由B确定的一个半半序关系[8]。
定义5 对象x在半半序关系RB下的后续关系类[x]B和前继关系类[x]undefined分别定义为:
[x]B={ y∈U| (x, y) ∈RB}
[x]undefined={ y∈U| (y, x) ∈RB}
定义6 对于∀X⊆U, X在关系RB下关于属性集B的下、上近似分别定义为:
undefined
对于半半序关系, 容易证明以下性质:
1) 当B1⊆B2⊆A时, 有RB1⊇RB2⊇RA。
2) 当B1⊆B2⊆A时, [x]B1⊇[x]B2⊇[x]A。
3) {[x]B |x∈U}是U的一个覆盖。
4) 当y∈[x]B时, [y]B⊆[x]B。
2 不完备信息系统的属性约简
定义7[7] 设S= (U, A=C∪D, V, F) 为一信息系统, 若RC⊆RD, 则称信息系统是相容的, 否则是不相容的。对于相容的信息系统, 若存在B⊆C使得RB⊆RD, 且对于任意b∈B, RB-{b}⊈RD, 则称B是不完备信息系统S的一个约简。
为方便问题讨论, 以下我们所讨论的信息系统均是相容的。
定义8 设 (U, A=C∪D, V, F) 为一相容信息系统, B⊆C, 若RB-{a}⊆RD, a∈B, 则称属性a是B中不必要的;否则称a是B中必要的。如果每一个a∈B都是B中必要的, 则称B为独立的;否则B为依赖的。
定义9 设S= (U, A=C∪D, V, F) 为一信息系统, 在半半序关系下, 我们定义系统的可辨识属性矩阵M (S) 为:M (S) ={M (xi, xj) }。
undefined
在上述定义中, 由于决策属性D的取值没有遗漏或缺失, 故由决策属性D确定的关系为等价关系, 在定义中我们用[xi]D、[xj]D分别表对象xi、xj在的等价类, 同时我们记M0={M (xi, xj) |M (xi, xj) ≠∅}。
定理1 设不完备信息系统 (U, A=C∪D, V, F) 是相容的, 可辨识属性矩M, 则有:
(1) B⊆C, 使B∩M (xi, xj) ≠∅ (∀i≠j) 当且仅当RB⊆RD。
(2) RB⊆RD当且仅当对于任意B⊆C, B∩M (xi, xj) =∅, 必有M (xi, xj) ∉M0。
证明: (1) 必要性 对于∀xi∈U, 如果xj∉[xi]D, 则[xi]D≠[xj]D, 从而由B∩M (xi, xj) ≠∅可知, 存在a∈B, 使得a∈M (xi, xj) , 这等价于fa (xi) ∩fa (xj) =∅ (在相容关系下) 或者fa (xi) ⊈fa (xj) 且fa (xj) ⊈fa (xi) (在半半序关系下) , 这说明xj∉[xi]B, 于是[xi]B⊆[xj]D, 即RB⊆RD。
充分性 反之, 若RB⊆RD, 则对于任意的xi∈U, 有[xi]B⊆[xi]D。当xj∉[xi]D时, 由[xi]B⊆[xi]D可得xj∉[xi]B, 从而必存在a∈B使得[xi]a∩[xj]a=∅, 这样就有a∈M (xi, xj) , 即B∩M (xi, xj) ≠∅。
(2) 由 (1) 知RB⊆RD当且仅当对于M (xi, xj) ∈M0, B∩M (xi, xj) ≠∅。则得证。
由上述定理易知, 如果B⊆C是满足B∩M (xi, xj) ≠∅, ∀M (xi, xj) ≠∅的极小子集, 则B是C的相对约简。据此, 我们可得出如下结论:
定理2 (属性约简判定定理) 对于不完备信息系统 (U, A=C∪D, V, F) , B是C的约简, 当且仅当:
(1) ∀M (xi, xj) ∈M0, 有B∩M (xi, xj) ≠∅。
(2) ∀b∈B, 存在M (xi, xj) ∈M0, 使得 (B-{b}) ∩M (xi, xj) =∅。
定义10 设S= (U, A=C∪D, V, F) 为集值不完备信息系统, 对于每个M (xi, xj) ∈M0, 我们用∑M (xi, xj) 表示M (xi, xj) 中属性所对应的变量的析取, 则信息系统S的辨识函数可定义为[9]:
undefined
利用幂等律、吸收律以及分配律和结合律等布尔运算定律, 将Δ化为极小析取范式, 在其极小析取范式中, 每个合取子项就对应属性集合的一个极小约简, 所有合取子项就是全部约简。
3 实例
我们引用文献[9]如表1所列的不完备决策表, 条件属性C={Price, Mileage, Size, Max-peed}, 决策属性为D。为方便起见, 我们用P, M, S, X分别表示属性Price, Mileage, Size, Max-peed。属性P、M、X的值域为{H, L}, 属性S的值域为{F, C}, D的值域为{G, E, P}。
如果将表1 中* 看作一个全集合值, 将属性的单个取值统一看作单元素集合的取值, 我们可把表1所列的不完备信息系统转化为表2 所示的集值信息系统。
对于此集值不完备信息系统, 下面我们半半序关系来处理。
RC={ (1, 1) , (2, 2) , (3, 3) , (4, 4) , (4, 5) , (5, 5) , (6, 6) }
[1]C={1}, [2]C={2}, [3]C={3}, [4]C={4, 5}, [5]C={5}, [6]C={6}
[1]undefined={1}, [2]={2}, [3]={3}, [4]={4}, [5]={4, 5}, [6]-1C={6}
如取X={1, 2, 5, 6}, 则X在相容关系RB下的下近似、上近似为:
undefined
我们运用定义9经计算求得系统的可辨识属性矩阵见表3。
由表3 可知M0={{S, X}, {S}, {X}}
根据属性约简判定定理2, 对于B={S, X}, 显然满足B∩M (xi, xj) ≠∅ (∀ M (xi, xj) ∈M0) ;另外, 对于B中去掉任意一个属性的子集, 都存在相交为空的M (xi, xj) , 故{S, X}为属性集C的一个约简。
利用系统S的可辨识属性函数, 我们可求得系统的所有约简:
Δ= (S∨X) ∧S∧X=S∧X
结果表明, 系统S只有一个约简{S, X}, 这与我们利用属性约简判定定理得出的结果是一致的。
4 总结
知识约简是粗糙理论的重要研究内容, 为适应粗糙集理论在现实中的应用, 人们将经典的等价关系推广到相容关系、相似关系, 甚至一般的二元关系。本文我们首先在不完备信息系统下考虑了属性值存在集值的情况, 将传统的不完备信息系统与集值粗糙集模型相结合, 对不完备信息系统进行了推广。根据属性值集合间的基本关系定义了集值不完备信息系统下的半半序关系, 讨论了系统的属性约简问题。
为建立不同意义下的知识获取系统提供了一定的基础, 同时为不完备信息系统的处理提供了一个新的思路, 使不完备信息系统的应用范围得到了一定的推广, 对不完备系统的知识约简和决策规则提取具有一定的意义。
参考文献
[1]Pawlak Z.Rough sets[J].Internation Journal of Informa-tion and Computer Science, 1982, 11 (5) 341-356.
[2]Pawlak Z.Rough set theory and its applications to data a-nalysis[J].Cybernetics and Systems, 1998, 29 (5) :661-688.
[3]王国胤.Rough集理论与知识发现[M].西安:西安交通大学出版社, 2001.
[4]张宏宇, 梁吉业.不完备信息系统下的变精度粗糙集模型及其知识约简算法[J].计算机科学, 2003, 30 (4) :153-155.
[5]李华雄, 刘盾, 周献中.决策粗糙集模型研究综述[J].重庆邮电大学学报, 2010, 22 (5) :624-630.
[6]Kryszkiewicz M.Rough set approach to incomplete infor-mation systems[J].Information Science, 1998, 11 (2) :39-49.
[7]张文修, 梁怡, 吴伟志.信息系统与知识发现[M].北京:科学出版社, 2003.
[8]吴学谋.从泛系观看世界[M].北京:中国人民大学出版社, 1990.