重要属性(共6篇)
重要属性 篇1
0 引言
粗糙集理论是由波兰数学家Z.Pawlak在1982年提出的,该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1]。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。近年来,它已经被广泛应用到人工智能、模式识别、数据挖掘和故障诊断等方面[2,3,4,5,6]。
属性约简是粗糙集知识发现的核心内容之一,它描述了信息系统属性集中的每个属性是否都是必要的以及如何删除不必要的知识。经过多年的研究,已经知道求粗糙集的最小属性约简是一个NP-hard问题[7]。现在研究出的属性约简算法主要有:基于信息熵、基于区分矩阵、基于可辨识矩阵等算法[8],各自在某些问题上取得了相当的成效。很多学者提出利用核和属性重要性的约简算法,该类算法使用核作为计算约简的出发点,属性的重要性作为启发规则,计算最小的约简。
本文研究了可辨识矩阵的约简,从属性依赖度角度给出了两种属性重要性度算法公式,在此基础上提出了一种属性约简的启发式算法。此算法以属性频率作为启发式信息[9],同时解决了当属性频率相同的情况下的属性选择问题。即提出了属性频率相同时的属性重要性判断标准。解决了基于可辨识矩阵中以属性频率作为属性重要性度量时[9]产生重要度相同的情况。
1 粗糙集基本概念
定义1一个信息系统S,表示为S=(U,A,V,f),其中U={X1,X2,…,Xn}是论域;A是属性集合;V=∪va,∀a∈A,va表示属性的值域;f=U×A→V是一个信息函数,对x∈U,a∈A,有f(x,a)∈va。若A可分为条件属性集C和决策属性集D,即A=C∪D,C∩D=φ,则该信息系统称为决策表。
定义2在信息系统S中,对于每个属性子集B⊆A可以定义一个不可分辨的关系ID(B):
称为由B构造的不可分辨关系。
定义3在信息系统S中,对于属性集X⊆U,R为等价关系,定义2个子集:
分别称它们为X的R下近似和R上近似集。
定义4在信息系统S中,若P,Q⊆A,则Q的P正域POSP(Q)定义为:
其中P-X为X的P下近似。Q的P正域是U中所有根据分类U/P的信息可以准确地划分到关系Q的等价类中去的对象集合。
定义5 P和Q为U上的等价关系,当POSp(Q)=POSp-r(Q),称r∈P为P中Q可省略的,反之,r为P中Q不可省略的。
定义6当P中任意r都为Q不可省略时,称P为Q独立的。当S为P上的Q独立子族,并且满足POSS(Q)=POSP(Q),称S为P的Q简化。
定义7 P中所有Q不可省略原始关系族记为redQ(P),称为P的Q核,记作Coreα(P):
定义8据定义1中的决策表,从核R=Core(C)出发,根据属性重要性的大小来选择重要性最大的属性a加入到R中,R=R∪{a},直到POSR(D)=POSC(D),R为约简的属性。
2 改进的基于属性重要度的启发式算法
2.1 改进的属性重要度量方法
设S=(U,A,V,f)是一个决策表,且R⊂C,则对于任意的属性a∈C-R的属性重要性定义为:
文献[9]提出的基于可辨识矩阵的属性频率约简算法,以可辨识矩阵中属性a的出现次数作为判断属性重要性的标准:
由式(1)定义的属性重要度作为属性相对于决策的相对重要度的启发式信息,文献[9]中已经给出了详细的解释,这里不再赘述。通过上述方法可以依据属性对分类的影响即属性重要性来选择属性,但是经常会遇到属性重要性相等的情况,这时就无法选择属性。
基于文献[9]的算法中用属性频率作为属性度量方法时会出现相同属性重要性时存在的一些问题,本文提出了一种在属性度相同情况下如何选择属性的方法[10]。通过另一个属性重要度表示方法M来作为选择属性的标准,若求属性a的M值,下面给出M的定义:
对于一个决策类Yj,如果某个条件属性集决定的等价类当中有一个是Yj的子集,虽然可能没有一个是决策类的子集,可这个条件属性集对Yj来说也是很重要的,SGF2就是在这个思想的基础上提出的,SGF2表示论域U对于属性a的分类中包含于决策属性分类Yj的最大对象数在分类Yj上的比例,方便起见可以用M来表示,可以通过求相同重要度属性的M值,选择M值最大的属性加入到属性约简集中。
2.2 改进的算法
输入:决策表S=(U,C∪D);
输出:S的属性约简集。
(1)首先计算出决策表的可辨识矩阵,然后将可辨识矩阵中的核属性(即属性组合数为1的条件属性)赋给属性约简后得到的属性集,即red=Core;
(2)将可辨识矩阵中含有核属性的属性组合项去掉;
(3)根据定义1计算可辨识矩阵中所有剩余属性项中各条件属性出现的频率,选出出现频率最高的属性,该属性记为a;red=red∪{a},如果出现频率相同的属性,求出属性的M值,选择M值最大的属性加入到red中去,将可辨识矩阵中包含有条件属性a的属性组合项删除掉;
(4)计算POSred(D),当POSred(D)≠POSC(D)时,转(3),当POSred(D)=POSC(D)时,red就是最后得到的约简。
3 算法分析
下面通过一个例子来说明一下2.2改进算法的有效性,表1为某决策表。
表1决策表对应的可辨识矩阵如下:
从可辨识矩阵可知,其中c为核属性,在去掉属性c以及含有c的组合项后得到新的可辨识矩阵如下:
从可辨识矩阵中知道,属性a,b,d的出现频率是相同的,即p(a)=p(b)=p(d)=6,也就是说根据定义1的公式不能确定加入到核中的属性,因为三个属性出现的频率都是相同的,这时我们可以根据公式2来求这三个属性的M值,过程如下:
由以上公式可得:
可知a的M值最大,将a加入到red中去:
因此Red={a,c}为最后这个决策表的约简集。
4复杂度分析
算法第一步求出可辨识矩阵的核属性的时间复杂度为O(|U||A|2|A|log|U|),根据文献[11]的计算正区域的方法,算法第四步计算正区域的最大的时间复杂度为O((|C|+1)|U|log|U|),所以算法总的时间复杂度为O(|U||A|2|A|log|U|),并没有增加原先基于可辨识矩阵属性约简算法的时间复杂度。
5结束语
本文在文献[9]中提出的可辨识矩阵属性频率约简算法基础上,提出了一个改进的属性频率约简算法,即当可辨识矩阵约简算法中出现属性频率相同的情况时,通过属性求得的另一个属性重要度值来确定要选择加入到约简集中的属性,解决了在属性频率相同的情况下的属性选择问题。此方法据分析能有效地对在可辨识矩阵中属性频率相同的属性进行约简。
参考文献
[1]Pawlak Z.Rough sets[J].Communications of ACM,1995,38(11):8995.
[2]Pawlak Z.Rough Sets-Theo ret ical A spects of Reasoning About Data[M].Dordrech t:Kluwer Academic Publishers,1991:930.
[3]Frank W,Hans T.The application of rough sets analysis inactivity based modeling:Opportunities and constraints[J].Expert Systems with Application,2004(27):585592.
[4]Amitava R,Pasankar K.Fuzzy Discretization of feature space for a rough set classifier[J].Pattern Recognition Letters,2003(24):895902.
[5]Tsumoto S.Mining diagnostic rules from clinical databases using rough sets and medical diagnostic model[J].Information Sciences,2004(162):6580.
[6]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001.
[7]Wang K M,Ziarko W.On optimal decision rules in decision tables[J].Bulletin of Polish Academy of Science,1985,33:693696.
[8]Skowron A,Crauszer.The Discernibility Matrix and Functionsin Infor-mation System,Handbook of Applications and Advances of the Rough Set Theory[M].Kluwer Academic Publishers,1992:331361.
[9]任小康,吴尚智,马如云.基于可辨识矩阵的属性频率约简算法[J].兰州大学学报:自然科学版,2007,43(1):138140.
[10]罗来鹏,刘二根.一种新的属性重要性度量及其规则获取[J].计算机工程与应用,2007,43(22):170172.
[11]刘少辉,盛秋戬,吴斌,等.Rough集高效算法研究[J].计算机学报,2003,26(5):524529.
重要属性 篇2
论文化的作用及其意识形态属性与产业商品属性
从当今世界的发展趋势看,文化决定着人们思维方式、价值取向、伦理观念、审美情趣等方面品格和精神,在社会结构中处于核心和灵魂的地位,在一定程度上决定着生产力发展的`模式,从而成为社会发展经济增长的强大源泉.文化既有意识形态属性又有产业商品属性,在文化建设和文化发展中,正确认识两种属性的关系,对于解放和发展文化生产力,加快文化产业建设,完善和发展中国特色社会主义文化事业,形成以民族文化为主兼吸外来有益文化、走向世界的中华文化的大发展格局,适应我国人民群众文化需求、国家对外开放和科技生产力发展的形势,具有十分重要的意义.
作 者:谢鲁海 作者单位:济南市社会科学界联合会,250014刊 名:中共济南市委党校学报英文刊名:JOURNAL OF THE PARTY SCHOOL OF CPC JINAN MUNICIPAL COMMITTEE年,卷(期):“”(1)分类号:G05关键词:文化建设 文化发展 意识形态属性 产业商品属性
属性重要性的启发式属性约简算法 篇3
关键词:属性约简,属性重要性,二进制可辨矩阵,Rough集
0 引言
Rough集理论自80年代初由波兰学者Z.Pawlak提出以来,是一种迅速发展的既有理论又有应用的研究领域[1]。粗糙集理论[2,3]是Pawlak等人提出的一种处理不精确、不完全信息的新型数学工具。由于二进制的可实现性,很多学者将其引入属性约简算法中,文献[5,6]用二进制可辨矩阵设计了基于正域的属性约简算法,但都没有解决当二进制可辨矩阵列的属性频率出现次数相同的情况下选取加入到约简中的顺序问题。本文在文献[5,6,7]的基础上,提出了以属性频率和属性关于U/D正域之和为启发式信息的二进制可辨识矩阵列的属性约简算法,解决了当二进制可辨识矩阵列的属性频率相同的情况下的属性选取问题。
1 属性约简基本概念
定义1一个信息系统S,表示为S=(U,A,V,f),其中U={X1,X2,…,Xn}是论域;A是属性集合;V=∪va,a∈A,va表示属性的值域;f=U×A→V是一个信息函数,对x∈U,a∈A,有f(x,a)∈va。若A可分为条件属性集C和决策属性集D,即A=C∪D,C∩D=φ,则该信息系统称为决策表。
定义2设R是一个等价关系族,r∈R,如果IND(R)=IND(R-{r}),则称r在R中是可被约去的知识;如果P=R-{r}是独立的,则P是R中的一个约简。
定义3在信息系统S中,若P,Q∈A,则Q的P正域POSP(Q)定义为:
其中P X为X的P下近似。Q的P正域是U中所有根据分类U/P的信息可以准确地划分到关系Q的等价类中去的对象集合。
2 二进制可辨矩阵[8]
定义4设决策表为T=(U,C,D,V,f),其中U={u1,u2,…,un},C={c1,c2,…,cm},D={d}则决策表T相应的二进制可辨矩阵MT构造为:矩阵的每一列对应一个条件属性,共有m列,每一行对应一对论域中的对象(up,uq),有n(n-1)/2行。设矩阵中一元素m((p,q),i)所在行对应的应对象对(up,uq),所在列对应条件属ci,则
这样得到的一个矩阵,称之为相应于决策表T=(U,C,D,V,f)的二进制可辨矩阵。
命题1若二进制可辨矩阵中某一行只有一个元素为1其余元素均为0,则元素1所在列对应某个属性,所有这样的属性构成信息系统的核或决策表的相对核。若没有这样的行,则核或相对核为空。
3 属性重要性的度量方法
对于决策表T=(U,C,D,V,f):用P(ci)(ci∈C,1≤i≤|C|)表示ci在二进制可辨识矩阵中的属性频率;用MAX(P(c))表示二进制可辨识矩阵中属性c出现的最大频率;用NMAX表示二进制可辨识矩阵中属性出现的频率等于最大频率的属性总数,NMAX=|{ci|P(ci)=MAX(P(c)),1≤i≤|C|}|;条件属性ci∈C(1≤i≤|C|)的重要性可以用ci的属性频率P(ci)和U/{ci}关于U/D正域POSU/{ci}(U/D)来度量,用Gci表示,则Gci可通过公式1给出,如下所示。
4 属性重要性的启发式属性约简算法
在二进制可辨矩阵中,对于那些只有一个元素为1其余元素均为0的行,元素1所在列的属性一定属于核,而对于那些有多个元素为1的行,在这些元素为1所在的列中,那些所含1的个数最多的列对应的属性虽未必是核属性,但具有很强的分辨能力,因此这样的属性在形成约简,尤其是最小约简的过程中具有重要地位。
算法二进制可辨矩阵属性重要性的启发式属性约简。
输入:决策表T=(U,C,D,V,f)
输出:决策表T属性约简
1)根据给定的决策表T=(U,C,D,V,f)产生二进制可辨矩阵M,将M中全为1和0的行删除,得到新的Mnew。置矩阵MA←Mnew,用Reduction表示属性约简,初始值为Reduction=φ。
2)对每一行,若该行只有一个元素为1,则将该元素所对应的属性为核属性,并将该属性加入到Reduction,即Reduction←Reduction∪{ci},其中ci∈C,1≤i≤|C|。
3)从MA中删除各行只有一个元素为1的行及该行元素1所对应的列值为1的行,将得到的新矩阵MAnew再赋给MA。如果MA=φ,则转到7),否则到4)。
4)将MA的各列纵向相加,并将结果存入相应col[ci]中,其中ci∈C,1≤i≤|C|。
5)用一维数组G[|C|]表示属性的重要性,初始值为G[ci]=0,其中ci∈C,1≤i≤|C|。根据公式1计算属性重要性;在M A中将属性重要性最大的属性ci列及ci列上值为1的元素所对应的行去掉;将得到的新矩阵再赋给M A,并将Reduction←Reduction∪{ci}。
6)将MA中行全为1和0的行删除,将得到的新矩阵再赋给MA。如果MA≠φ,则转到4)。
4)输出一个约简Reduction。
5 实例分析
表1中C={a,b,c,d}为条件属性,D={e}为决策属性,A=C∪D,对表1建立二进制可辨矩阵如表2所示。
将表2中去掉(1,7)、(2,4)及(5,6)三行,并将属性c中为1的行去掉,得表3。
表3中a,b,d各列的属性频率都为6,根据公式(1)计算属性的重要性,计算过程如下:
由以上公式可得:G[a]=1+3/4=1.75,G[b]=1+0=1,G[d]=1+2/4=1.5。可知a的属性的重要性最大,即Reduction={a,c}。将表3中a列及a列值为1的行去掉,再将行都为1的行删除,得到的表为空,因此Reduction={a,c}为最后这个决策表的约简集。
6 复杂度分析
设决策表中有m个条件属性,n个对象,在最坏情况下,构造二进制可辨矩阵需要比较mn(n-1)/2次,复杂度为O(mn2);根据文献[9]的计算正域的方法,计算正域的最大的时间复杂度为O((|C|+1)|U|log|U|)=O(mnlogn),而计算MAX(P(ci))的最大的时间复杂度为O(n2),所以算法第7步的时间复杂度为MAX(O((mnlogn),O(n2))。因此本算法的时间复杂度为O(mn2)。
通过上述分析,可见本算法在文献[5,6,7]的基础上,并解决了当二进制可辨识矩阵列的属性频率相同的情况下的属性选取问题。当决策表的复杂程度较高时,它使得求解的复杂程度大大降低,是一种获得属性约简的简单而有效的方法。
参考文献
[1]刘清.Rough集及Rough推理[M].第一版.北京:科学出版社,2001.
[2]Pawlak Z.Rough sets and intelligent data analysis[J].InformationSciences:2002,147:1-12.
[3]Pawlak Z,Skowron A.Rough sets:Some extensions[J].Information Sciences:2007,177:41-73.
[4]支天云,苗夺谦.二进制可辨别矩阵的变换及高效属性约简算法的构造[J].计算机科学:2002,29(2):140-142.
[5]钱文彬,徐章艳,黄丽宇等.基于信息熵的二进制差别矩阵属性约简算法[J].计算机工程与应用:2010,46(6):120-123.
[6]任小康等.基于可辫识矩阵的属性频率约简算法[J].兰州大学学报:2003,43(1):138-140.
[7]Felix R,Ushio T.Rough Sets-based Machine Learning Usinga Binary Discernibility Matrix.IPMM99 published:1999:299-305.
管理的二重属性 篇4
具体是指:管理既有与一定生产力相联系的自然属性,又有与一定生产关系相联系的社会属性,其中,社会属性直接或间接地同生产资料所有制有关。
二者的来源是:管理本身就是一种存在于一定生产关系中的生产力。
管理的自然属性:
指管理是一种不随个人意识和社会意识的变化而变化的客观存在。这种与社会生产力相联系的客观存在具体表现在:
(1)它是一种对人、财、物、信息等资源加以整合与协调的必不可少的过程。
(2)它是社会劳动的必然要求,资源的整合利用与人的分工协作都离不开管理
(3)管理有着很多客观规律,管理活动只有尊重和利用这些规律才能取得成效。 因为管理也是一种生产力,故管理的自然属性也称为管理的生产力属性。
管理的社会属性:
指管理是一种只有在一定生产关系和社会制度中才能进行的社会活动,这种活动的中心问题是一个“为谁管理”的问题,它为统治阶级服务,体现着生产资料所有者指挥劳动、监督劳动的意志。 它与生产关系和社会制度相联系,既是一定社会制度的体现,又反映和维护一定的社会制度,其性质取决于社会制度的性质,不同的社会制度有不同的社会属性。
因为任何管理活动都是在特定的社会生产关系下进行的,都必然地要体现一定社会生产关系的特定要求,为特定的社会生产关系服务,从而实现其调节和维护社会生产关系的职能,所以,管理的社会属性也叫做管理的生产关系属性。
二者的联系:
(1)管理的自然属性离不开社会其社会属性,它总是存在于一定的生产关系和社会制度中,不然,它就成了没有形式的内容;而管理的社会属性也离不开其自然属性,不然,它就成了没有内容的形式。(2)二者又是相互制约的,管理的自然属性要求社会具有一定的生产关系和社会制度与其相适应,而管理的社会属性的不断变化必然使管理活动具有不同的性质。
指导意义:
(1)管理二重性是我们学习、借鉴外国先进管理经验和研究、总结我国管理经验的指导思想。
重要属性 篇5
1 Page类的IsPostBack属性
IsPostBack中保存的是一个值,该值指示该页面是否正被首次加载或访问.在页面首次加载或访问时,IsPostBack的值默认为false。这个属性非常有用,它能够区分该页面是首次加载还是多次回发访问。在Page_Load事件处理程序中,通过检查该属性,可以实现首次加载和多次回发访问执行不同和程序代码。其简单的语法为:
在页面首次加载或访问时,IsPostBack的值默认为false,因此code2将执行,这时IsPostBack的值变为true。在该页面未被关闭前进行的需要执行Page_Load()操作时(例如刷新页面),将只执行code1和code3,code2就不再执行了。因此:对于只需要执行一次的一些页面上的设置或其它,可以放在code2的位置,可以加快系统速度。
笔者在完成一个人事档案管理系统时,一开始没有很好的掌握IsPostBack属性,导致页面始终不能出现正确结果,具体举例来说:
在进行“员工联系方式添加”页面时,在DropDownList选择员工工号。正确使用IsPostBack属性出现的选择图形如图1,代码如下:
如果没有用IsPostBack,也就是说没有进行if(!IsPostBack)判断,则出现选择图形如图2。
出现图2的原因就在于没有判断页面是否首次加载,当在进行员工联系方式“添加”时,可能回出现如“移动电话号码”没有正确输入等异常情况时,页面location='javascript:history.go(-1)'返回当前页,而这时因为不是第一次加载,应该只需要进行上一步没有操作正确地方的修改即可,对于员工号没有必要再次添加或修改,if(!IsPostBack)判断后的程序没有必要执行。所有这就是前面所说的判断页面是否首次加载,必须进行if(!IsPostBack)判断。
2 ASP.NET异常处理的最佳做法try…catch…finally
在处理数据库应用程序的过程中常常会有很多异常发生,对于初学者又不太容易找到出现异常的原因,导致程序不能继续执行下去,在编写程序时不仅要关心程序的正常操作,也应该把握在现实世界中可能发生的各类不可预期的事件,比如:用户错误的输入;内存不够;磁盘出错;网络资源不可用;数据库无法使用等。在程序中经常采用异常处理方法,来解决这类现实问题。
C#中的异常提供了一种处理系统级错误和应用程序级错误的结构化的统一的类型安全的方法。所有刚开始的时候如果学会使用try…catch异常处理方法,就会起到事半功倍的效果。
try-catch错误处理表达式允许将任何可能发生异常情形的程序代码放置在try{}程序代码块进行监控,真正处理错误异常的程序代码则被放置在catch{}块里面,一个try{}块可对应多个catch{}块。在同一个try-catch语句中可以使用一个以上的特定catch子句。这种情况下catch子句的顺序很重要,因为会按顺序检查catch子句。将先捕获特定程度较高的异常,而不是特定程度较小的异常。
具体举例如下:
在进行数据库应用程序设计时,最基本的首先要确定数据库的连接是否成功,这样才能进行后续的工作,下面的程序即是用try…catch…finally实现判断数据库的连接。
3 数据库事务
对这个概念,单从字面理解其实是有点歧义,但是举例说明就很容易理解。
数据库事务是指作为单个逻辑工作单元执行的一系列操作。设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:
·更新客户所购商品的库存信息;
·保存客户付款信息———可能包括与银行系统的交互;
·生成订单并且保存到数据库中;
·更新用户相关信息,例如购物数量等等。
正常的情况下,这些操作将顺利进行,最终交易成功,与交易相关的所有数据库信息也成功地更新。但是,如果在这一系列过程中任何一个环节出了差错,例如在更新商品库存信息时发生异常、该顾客银行帐户存款不足等,都将导致交易失败。一旦交易失败,数据库中所有信息都必须保持交易前的状态不变,比如最后一步更新用户信息时失败而导致交易失败,那么必须保证这笔失败的交易不影响数据库的状态--库存信息没有被更新、用户也没有付款,订单也没有生成。否则,数据库的信息将会一片混乱而不可预测。数据库事务正是用来保证这种情况下交易的平稳性和可预测性的技术。
4 ASP.NET内置对象中的Session对象
Web应用程序开发中很重要的一个问题就是Web页面之间的信息传递和状态维护,ASP.NET页面提供了多种方法来帮助Web程序开发从员管理Web页面之间的状态,以实现页面往返过程中,自动保留页及所有控件的属性值和其他特定值。这些内置对象如Response、Request、Application、Session、Server、Cookie和Cache等。每一个内置对象都各有不同,这里重点讲Session对象,因为他在普通的Web应用程序开发过程中用的最多。
可以使用Session对象存储特定用户会话所需的信息。这样,当用户在应用程序的Web页之间跳转时,存储在Session对象中的变量将不会丢失,而是在整个用户会话中一直存在下去。当用户请求来自应用程序的Web页时,如果该用户还没有会话,则Web服务器将自动创建一个Session对象。当会话过期或被放弃后,服务器将终止该会话。
Session对象最常见的一个用法就是存储用户的首选项。
因为session是针对整个项目都有效的,所以每个地方都可以调用它。在实际的应用中最有效的使用就是用来判断用户是否登录,用户登录时,把用户名放在session里。当在一些网站上进行留言或评论或提问时,网站会先判断session里有没有内容,如果没有,就证明你还没有登录,那样就会提示你要登录了。而对于需要进行权限判断,并根据登录用户的不同权限完成不同操作的应用程序来说,如管理员和普通用户,设置session也非常重要。例如,对于购物网站:
在登录页面设置如下Session
则在后续功能页面如将商品加入购物车,先进行用户是否登录的判断:
5 结束语
ASP.NET功能强大,使用ASP.NET可以创建功能强大的Web应用程序,对于初学者选择学习重点很重要,对于以上几个重要属性的掌握是必须的,而且对于一些疑难问题的解决也很有帮助。
参考文献
[1]博客园.关于程序设计类的[EB/OL].http://www.cnblogs.com/yhl1234/archive/2006/12/09/587114.html.
[2]豆豆网.C#语言try-catch异常处理语句[EB/OL].http://tech.ddvip.com/2008-11/122593909689496.html.
[3]佚名.C#数据库事务原理及实践[EB/OL].锦程网,http://www.csharps.cn/2009/0321/1068_3.html.
[4]瑾记于心.转C#中的事务处理[EB/OL].http://hi.baidu.com/%E8%AA%BC%C7%D3%DA%D0%C4/blog/item/f470181caa62678e86d6b66a.html.
[5]杨帆,赵义霞.ASP.NET技术与应用[M].北京:高等教育出版社,2003:27-28.
[6]蔡勇,杭志.ASP.NET数据库设计教程与上机指导[M].北京:清华大学出版社,2006:37-55.
重要属性 篇6
粗糙集理论是1982年由波兰科学家Z.Pawlak创立的一种数据分析理论。粗糙集理论具有很强的定性分析能力,即不需要预先给定某些特征或属性的数量描述,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分类确定给定问题的近似域,从而找出该问题的内在规律。
通常情况下,近似空间中的属性并不是同等重要的,特别是当近似空间中的数据是随机采集时,冗余属性更为普遍。冗余属性的存在,一方面是资源的浪费,同时也影响产生的决策规则的正确性和简洁性。目前国内外出现的一些属性约简算法都是利用属性重要性作为启发式信息,从信息系统或决策系统中找出最优约简,因此也可称为启发式算法。在算法思想上主要有两种思路:第一种是从条件属性的核出发,根据属性的重要性不同逐次将重要性最高的属性加入到核中,直到满足某种条件。第二种是从整个条件属性空间出发,根据属性的重要性不同,逐次删除重要性最小的属性,直到满足某种条件。本文对常见的属性约简算法如差别矩阵方法、MIBARK算法等进行了分析对比,在此基础上提出了基于属性重要性和互信息的MIBARK改进算法。
2 基本概念
定义1设U是非空有限集合,对于任何子集称为U中的一个概念,U中的任何概念簇,称为U的抽象知识。粗糙集理论中以等价关系代替分类。当用R表示论域U中对象之间的等价关系时,则U/R表示U中的对象根据关系R构成的所有等价类族。若且∩P(P中全部等价关系的交集),就是P上的不可分辨关系,记为IND(P)。
定义2设R为一等价关系簇,并且r∈R,若IND(R)=IND(R-{r}),称r为R中可省略的,否则r为R中不可省略的。
(1)当对如果r不可省略,则簇R为独立的。当R是独立的,如果存在属性子集则P也是独立的。
(2)对于属性子集使得IND(Q)=IND(P),且Q为最小子集,则Q称为P的约简,表示为Red(P)。
(3)P中所有约简属性集中都包含的不可省略关系的集合,即约简集Red(P)的交集称为P的核。表示为Core(P),即:Core(P)=∩Red(P)
定义3设K=(U,R)为一知识库,为了度量知识的依赖性,定义如下:
k=r P(Q)=Card(Pos P(Q))/Card(U)Card表示集合的元素个数
(1)当k=1时,则称知识Q完全依赖于P,即论域中的全部元素可通过知识P划入U|Q的初等范畴;
(2)当k=0时,则称知识Q完全独立于知识P,即论域中没有元素可通过知识P划入U|Q的初等范畴;
(3)当0
系数r P(Q)可以理解为知识P和知识Q之间的依赖程度。
来衡量,即去掉某一属性子集后计算依赖度SGF的变化,变化越大,则该属性子集越重要。
3 常见的属性约简算法
3.1 一般约简算法
一般约简算法是根据求属性核Core的的思想,考察条件属性集中删除某一属性后正区域是否发生变化,以此来判断该属性是否重要。
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性。
输出:决策表的核Core
利用一般约简算法能够得到决策表的一个属性约简结果,但不一定是满意的属性约简结果,而且该算法所需要的时间和空间代价都很高,如果决策表中属性和对象个数较多,将是一个组合爆炸问题。
3.2 差别矩阵方法
差别矩阵是粗糙集中一个重要概念,它将决策表中关于属性分类的信息浓缩到一个矩阵当中,可用于决策表的属性约简。差别矩阵的定义如下:
设信息系统S,论域U={x1,x2,…,xm}是研究对象,条件属性C={c1,c2,…,cm},决策属性D。定义系统的差别矩阵为M(s),其元素为
其中i,j=1,2,3,…,n,这里n=|U|。
利用差别矩阵进行属性约简的实质是利用逻辑运算中的吸收律和其它演算法则来达到数据约简的目的,当面临的是较小规模数据集时,采用基于差别矩阵的属性约简是比较高效的。
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性。
输出:T的约简属性集
基于差别矩阵的属性约简算法可以得到决策表的所有可能的属性约简结果,可以根据实际问题需要选取满意的结果,它实际上是将对属性组合情况的搜索演变成为逻辑公式的化简,但随着对象数目的增加,差别矩阵的维数将会大大增加,因此该算法适合于处理较小规模数据集。
3.3 MIBARK算法
在求解决策表属性约简的时候,可以利用决策表条件属性和决策属性之间的互信息。在决策表中增加某个属性所引起的互信息的变化的大小可以作为该属性重要性的度量。MIBARK算法的思想也在于此。
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性。
输出:T的一个相对约简
(1)对C-B中的每个属性p,计算互信息I(p,D|B);
(2)选择使互信息I(p,D|B)最大的属性,记为p(若同时存在多个属性达到最大值,则从中选取一个与B的属性值组合数最少的属性作为p);并且B=B∪{p};
(3)若I(B,D)=I(C,D)则终止,否则转(1);
Step4:最后得到的B就是C相对于D的一个相对约简。
MIBARK算法也是一种启发式算法,在多数情况下能够得到决策表的最小属性约简。
4 基于属性重要性和互信息的MIBARK改进算法
本文提出的基于属性重要性和互信息的MIBARK改进算法的主要思想是:直接以属性依赖度为衡量标准,逐步添加属性到候选属性集R中,然后考虑候选属性集中两两属性的互信息,从候选属性集中删除对正确分类贡献不大的属性,这样就能保证在较短的时间内得到简化的属性集。该算法之所以要采用先添后删的方法,是因为前向选择时没有考虑条件属性之间的依赖关系,而事实上后来属性的加入很可能使某个候选属性成为冗余,因此需要判断条件属性之间的互信息,如果互信息很大的话,说明两者之间存在较强的依赖关系,应该在不影响分类质量的前提下将之删除。
4.1 基于属性重要性和互信息的MIBARK改进算法
输入:决策表T=〈U,C∪D〉,C、D分别为条件属性和决策属性,互信息阈值δ。
输出:决策表的一个约简R
根据算法得到集合R为决策表的一个约简。
该算法的思想就是先选择尽可能多的属性进入候选属性集,从而保证了对条件属性的约简不失真,最大限度保留了原决策表中的客观信息,而后将候选属性集中那些对分类效果贡献不大的属性删除,保证了结果的简洁性。由此可见,本算法更加侧重于属性集的简化,同时由于候选属性的个数远远少于原条件属性的个数,因此本算法能够得到较理想的约简结果。
4.2 仿真实验
表1所示决策表是一组原始气象数据经过离散区间划分后得到的数据,应用基于属性重要性和互信息的MIBARK改进算法对决策表进行属性约简。设互信息阈值δ=0.5,经计算得到r C(D)=7/12。经过分别计算R中属性的重要性及两两属性间的互信息,最终无属性满足I(ai,aj)>δ且r R-{aj}(D)=r C(D)的条件,因此,得到最终约简属性集R={a,b,c,d},得到最终决策表(如表2所示)。
经过属性约简和属性值约简后的决策表得到很大程度简化,得到的决策规则在数量和质量上都与专家结论基本一致,有较好的应用效果。
5 结束语
本文在对决策表属性约简的典型算法进行分析比较的基础上,提出了基于属性重要性和互信息的MIBARK改进算法,直接以属性重要性为衡量标准,逐步添加属性到候选属性集中,从而保证了对条件属性的约简不失真;而后通过属性重要性和互信息计算将候选属性集中那些对分类效果贡献不大的属性删除,保证了结果的简洁性,并通过实例对研究成果进行分析论证,得到了较好的应用效果。
参考文献
[1]王国雍..Rough sets理论与知识获取.西安交通大学出版社,2001.5.
[2]顾沈明,吴伟志,高济.不完备信息系统中知识获取算法[J].计算机科学,2005,32(9)149-152.
[3]杨善林,倪志伟.机器学习与智能决策支持系统.北京:科学出版社,2004
[4]Jack Jelonek,Krzysztor of Knawcic,Roman Slajinski.Rough Set Reduction of attributes and their domains for Neural Network.Computational Intelligence,11(2):213-220
[5]Duntsch I,Gediga G.Uncertainty Measures of Rough Set Prediction.J of Artificial Intelligence,1998,106(1):77-107
[6]Yao Y Y.Constructive and Algebraic Methods of The theory of Rough Sets.Journal of Information Sciences,1998(109):21-47
[7]Wang M,Yang J,Xu ZJ,Chou KC:SLLE for[8]predicting membrane protein types.J Theor Biol2005,232(1):7-15.