分析决策树

2024-09-25

分析决策树(共8篇)

分析决策树 篇1

0 引言

车险在财产保险的经营中起决定性作用,是财险行业的支柱险种,然而多年来车险的赔付水平相比总体业务一直偏高。如何在保证车险健康发展的同时合理有效的降低赔付水平是急需解决的一个重要问题,也是车险费率改革后日益突出的问题。赔付率增长过快最直接的结果导致保险公司的赔付压力过大,支出超过预算,公司的赢利水平明显下降,车险“高保费、高赔付、低效益”的经营现状,对整体业务的健康、可持续发展产生消极影响。

损失是保险事故发生之后才造成的,高赔付额造成了高赔付率,事故发生后做好理赔工作、尽量减少损失固然重要,但损失已经造成。所以车险赔付的风险防范更为重要,通过分析可能影响车险赔付的一系列风险因素,推断出其对赔付影响程度的大小,以及投保人在这一系列因素上风险程度的高低,有的放矢的采取风险管理措施。降低车险赔付率,对于产险公司发展有着重要意义。

1 车险赔付风险影响因素

1.1 车辆风险

据美国、英国和澳大利亚的专家学者对大量事故的深入研究,分析道路交通系统中车、人、路三要素,得出的结论:与人有关的原因占93%-94%,与车相关的占8%-12%,与道路相关的占28%-34%。造成车辆事故的原因有许多,车险的高赔付也受到多种风险因素的影响。

1.1.1 车辆种类。

不同种类的车辆其用途和性能也是不同的,因此危险状况也不相同。

1.1.2 使用性质。

车辆按使用性质可以分为营业用车辆和非营业用车辆,总体来讲,非营业用车辆的出险概率要低于营业用车辆。

1.1.3 车龄。

车龄与出险率及出险后的损失金额大小密切相关,车龄越长,车辆的磨损与老化程度越高,从而车况越差,出险的概率越高。

1.1.4 行驶区域。

行驶区域是指车辆形式的地域范围,目前公司在核保中的分类为:省内行驶、国内行驶和出入境行驶。行驶区域越广,风险程度也增加。

1.2 被保险人/驾驶员风险

1.2.1 性别。

由于性别对个人的生理及心理状态也有所影响,因此驾驶员的性别与车辆事故发生率又密切关系。一般来讲,女性比男性驾车的风险小一些,事故发生概率自然也小。

1.2.2 年龄。

驾驶员的生理状况、心理状况都与年龄有关,通常年少者的心理较为逞强好胜,风险较高龄驾驶员要大,但是随着年龄的增大,生理机能逐渐衰退,其本身对于突发事件的反应能力渐差,事故的发生率也逐渐升高。

1.2.3 驾龄。

驾龄即驾驶员驾驶车辆的经验年限。一般驾龄越长,驾驶经验越丰富,肇事率越低,反之肇事率越高。

1.2.4 婚姻状况。

婚姻状况之所以与车险费率有关,一般结婚的人生活比较稳定,而且由于家庭的牵挂处事也比较谨慎,因此危险相对较小。

1.2.5 教育背景。

个人的性格、心理状况等也会随着受教育程度的高低不同而产生变化。一般来讲随着受教育程度的提升,个人的心理将更加成熟,出险的概率应该会下降。

1.3 车辆与被保险人风险特征

1.3.1 投保金额。

根据非对称信息下保险市场的逆向选择原理,投保金额较高的被保险人更有可能是个高风险者。

1.3.2 保险费。

保险费越高说明被保险人为机动车投保了更充分的保险。根据逆向选择理论,这样的保单往往代表着更高的风险;但是,高额的保险费往往也意味着被保险车辆价位偏高性能较好,因此它也可能是低风险的象征。所以保险费与车险赔付风险之间的关系还不确定。

2 车险赔付风险影响因素决策树分析

本文以某财产保险公司的投保理赔数据为基础,随机抽取了7500个个体客户样本和7500个团体客户样本共15000个样本为分析数据,样本投保的险种为机动车辆商业险,保险期间均为1年,以出险次数为切入点,从从车、从人因素、投保特征因素三方面分别对个人客户样本与团体客户样本进行决策树分析,以找出这三方面风险因素与车险赔付的影响关系。

2.1 个人客户决策树分析

个人客户决策树分析中,以总保额、是否续保、保费、性别、年龄、学历、驾龄、车辆种类、座位数、排气量、车龄、行驶区域12个变量作为输入变量,是否出险作为目标变量,利用Makeway4.0决策树分析得出的决策树。各变量的重要性如表1所示:

从表1决策变量分类重要性中可以看出,个人客户样本中对被保险人是否出险起决定性作用的是保费,其次是总保额和车龄,而被保险人的年龄与是否出险的相关性最小。

从个人客户出险影响因素决策树(树形过大,版面所限不便呈现)中可以看出出险的详细情况,从最底端为“出险”的分支节点往上推论,在个人客户样本中,出险情况比较多,其中出险可信度在60%以上的主要有以下几种情况:

2.1.1 如果保费在1000元至3000元之间,投保性质为非续保,车龄在2-3年之间,总保额在10万至20万之间的车辆可能出险,可信度64.39%;总保额低于10万的车辆出险可信度为82.69%;总保额在20万至40万之间的车辆出险可信度为65.49%;在40万至70万之间,车辆出险可信度为60%。

2.1.2 如果保费在1000元至3000元之间,投保性质为非续保,车龄在4-5年之间,驾龄在4-5年之间,车辆出险可信度为64.94%;驾龄在11-20年之间,车辆出险可信度为68.42%;驾龄在6-10年,车辆出险可信度为69.01%;

2.1.3 如果保费在3000元至5000元之间,并且总保额在20万至40万之间,车辆出险可信度为70.50%;

2.1.4 如果保费在3000元至5000元之间,总保额在40万至70万之间,并且投保性质为非续保,车辆出险的可信度为68.31%;

2.1.5 如果保费在5000元到1万元之间,并且被保险人学历为本科,车辆出险的可信度为69.27%;被保险人学历为大专,车辆出险可信度为64.81%;被保险人学历为中专,车辆出险可信度为71.79%。

2.2 团体客户决策树分析

团体客户决策树分析中,以总保额、是否续保、保费、使用性质、所属性质、车辆种类、座位数、排气量、车龄、行驶区域、防盗装置11个变量作为输入变量,是否出险作为目标变量,利用Makeway4.0决策树分析得出的决策树。各变量的重要性如表2所示:

从表2决策变量分类重要性中可以看出,团体客户样本中对被保险人是否出险起决定性作用的是车辆种类,其次是排气量和使用性质,而行驶区域与是否出险的相关性最小,这与总体样本分析类似。

从团体客户出险影响因素决策树中可以看出出险的详细情况,从最底端为“出险”的分支节点往上推论,在团体客户样本中,出险情况相对个人客户较少,其中出险可信度在60%以上的主要有以下几种情况:

2.2.1 如果车辆类别为客车,使用性质为非营业,车龄在1年以下,并且防盗装置为防盗器,车辆出险的可信度为62.86%;防盗装置为防盗锁,车辆出险的可信度为100%;

2.2.2 如果车辆类别为客车,使用性质为营业,并且排气量在1L-2L之间,车辆出险的可信度为73.78%;

2.2.3 如果车辆类别为货车,车龄在2-3年之间,总保额在20万至40万之间,并且使用性质为营业,车辆出险的可信度为71.43%;

2.2.4 如果车辆类别为货车,车龄在2-3年之间,总保额在40万至70万之间,并且排气量在2-3L之间,车辆出险的可信度为80%;

2.2.5 如果车辆类别为货车,车龄在4-5年之间,保费低于1000元,车辆出险的可信度为66.67%。

2.3 分析结果讨论

上述分析中,可以从根叶节点上得到详细的出险、未出险情况,及其可信度,决策树结果显示,团体客户出险情况最重要的影响因素为车辆种类,客车、货车类车辆均存在出险情况,而挂车类车辆的未出险可信度却达到80%以上,团体客户决策树中,车辆种类、使用性质、所属性质、车龄、排气量、座位数、防盗装、总保额、保费9个因素作为决策节点,对出险、未出险的情况进行了详细划分。对个人客户影响最显著的则是保费,保费在低于1000元时,未出险可信度达到79.64%,而在其他水平下都存在不同程度的出险情况,即高风险的人更倾向于购买保险转嫁风险,其他因素对出险情况也有不同程度的影响,个人客户决策树中,保费、总保额、是否续保、车龄、车辆种类、排气量、驾龄、学历8个因素作为决策节点,对个人客户出险、未出险的情况进行了详细划分。从决策树的最末节点可以看出,个人客户决策树最底端显示为“出险”的节点显著多于团体客户,往上层层推及,可以得出车辆出险及未出险的详细条件。

决策树结果显示,出险或未出险的条件并非只有一个,即从车、从人及投保特征因素不仅单独影响出险情况,而且还存在交互作用。在保证决策树准确可靠的情况下,我们可以按照出险、未出险的条件对客户进行详细划分,有利于对客户进行有针对性的风险管理。

3 政策建议

车辆从投保到理赔可以划分为承保前、承保后至出险前、以及出险后三个阶段,而在不同的阶段可以采取不同的针对性措施以降低车辆出险的风险及赔付水平。

3.1 承保前阶段,改善业务结构,提高优质客户占比。

客户与被保险人的信息存在不对称,我们需要尽可能多的搜集客户及车辆信息,利用科学合理的分析工具,对客户的相关信息进行分析。如同上述决策树分析,利用经验数据得到尽可能准确的决策树,然后按照决策树的生成规则,对客户进行详细的划分,而且客户的风险水平清晰可见,开展核保工作时更有侧重点与针对性。

3.2 承保后至出险前阶段,优化服务,加强对客户的风险控制。

按照之前的实证分析,我们可以确定各类被保险人的出险可信度,针对不同的被保险人采取不同的风险防范和管控措施,以便对被保险人的风险进行掌控。优化日常的客户服务,满足客户需求,可以稳固客户资源,增加业务收入。

3.3 出险后阶段,注重理赔减损,压缩理赔中的“水分”。

要保证理赔减损工作有效的进行,必须加大对基层理赔人员足够的重视,在这种深层问题没有得到彻底解决之前,任何浮于之上的理赔规章制度、指标考核,带来的都是事倍功半的效果。

财产保险公司应当开发管理与操作为一体的核保核赔应用系统,系统中逻辑关系要明确,对影响车险出险的相关因素全面深入分析,有针对性的进行风险预测与防范,降低车险的高赔付率。

摘要:车险高赔付问题是车险发展的瓶颈,识别影响车险高赔付率的风险因素,防范控制风险,减少损失对于车险乃至财产保险公司的健康发展具有重要意义。本文从出险次数的角度,对影响车险赔付的三类风险因素:车辆风险、被保险人风险、投保特征风险进行了决策树分析,在此基础上提出了相关的政策建议。

关键词:赔付率,出险次数,决策树

参考文献

[1]李九文,杨益.降低车险赔付率的应对策略[J].中国保险,2003,(6).

[2]李文昱.论车险核保体系的建立[J].保险研究,2003,(11).

[3]周卫东.论经营机动车辆保险的风险防范[J].保险研究,2004,(3).

[4]黄晖.马克威软件与当代数据分析[M].中国统计出版社,2006,(5).

[5]蒋永辉.机动车辆险赔付率高的原因分析及对策研究[J].保险研究,2006,(6).

[6]周新苗.我国机动车辆保险市场风险理赔因素分析[J]数量经.济技术经济研究,2009,(12).

分析决策树 篇2

利用北方某城市水源的水质在线监测系统,建立了基于决策树技术,具有较强可视性和实际应用,以及能预测次日源水中叶绿素水平的决策树模型.该模型将某城市水源在线监测的溶解氧和太阳辐射照度数据转换计算为每日平均标准偏差及均值,并与每日定时取样测定的叶绿素含量一起作为预测因子,通过将115组数据的`前100组数据作为训练集建立预测次日叶绿素水平决策树模型,并采用后15组数据进行模型的仿真预测检验,结果只有3 d的预测出错,预测准确率达80%.并讨论了模型建立对数据的要求及解读预测规则等问题.

作 者:卢金锁 黄廷林 韩宏大 何文杰 阴培军 LU Jin-suo HUANG Ting-lin HAN Hong-da HE Wen-jie YIN Pei-jun  作者单位:卢金锁,黄廷林,LU Jin-suo,HUANG Ting-lin(西安建筑科技大学环境与市政工程学院,陕西,西安,710055)

韩宏大,何文杰,阴培军,HAN Hong-da,HE Wen-jie,YIN Pei-jun(天津市自来水集团有限公司,天津,300040)

基于二元决策图的事件树分析 篇3

事件树分析用于确定潜在危险事件发生后所能导致结果的重要程度,它最初应用于核工业的风险估计。而目前也被其他工业所应用,如化学处理、汽油生产和运输业。事件树是一种诱导算法,考查对初始事件可能产生的所有响应,从左到右依次进行。常用树状结构的支点代表正常或失效,也可代表可对初始事件产生响应的子系统故障。

FTA(故障树分析)是目前国内外核电站进行概率安全评价[1]中广泛采用的系统建模方法。传统的FTA技术[2]都是以MCS(最小割集)为基础,其原理是求出系统的MCS,再按容斥定理求出顶事件概率。FTA法是一种演绎推理的方法,可用于连接事件树,以确定子系统失效或分支事件出现的原因,根据故障树的量可知通向各事件树分支的可能性大小。当各支点事件之间独立时,只要计算出通向预定结果的分支的概率,将其乘以初始事件的概率就可得到结果。若各分支事件之间相关,则确定通向各不同支点的概率就复杂得多。

FTA常用于安全系统估计,且用于分析的大多计算机代码理论都是使用近似值。1978年,S. B. Akers首先提出了BDD(二元决策图),用于逻辑电路的合成、模拟和测试,从而出现了一种新的估计方法,该方法基于系统失效逻辑的BDD的公式表示,其效率和准确性都优于传统的故障树分析法。由于不需估计MCS或PI(质蕴涵项)作为中间结果,对改善事件树分析的精度和效率有很大的意义。

本文论述了传统事件树分析并将它与一种基于BDD的分析方法作比较。传统事件树分析算法的不足在于它只适用于简单的系统,这可通过BDD的方法来解决。

1 独立事件树

图1所示是一个安全系统实例的简单事件树。初始事件是海面释放汽油,支点代表汽油检测系统、阀门子系统A和B的正常与失效,以及排气系统正常与失效的情况。

各事件树支终点代表了一种紧接着初始事件发生的事件的不同顺序,可通过构造故障树找出各子系统失效的原因。若系统失效是独立的,则事件树的结果计算就非常简单,只需找出通过各支点的概率,再乘上初始事件发生的概率即可。系统失效的概率Pf可通过有关故障树的量来估计,则1-Pf就是沿系统正常分支的概率。

在这种方法中,系统事件B与发生在其后的系统事件A有很强的依赖性时,可写成:Pr(A/B)=1或Pr(A/B)=0。就像图1中所示的情况,如果汽油检测系统失效,则其他系统都不被激活,在这种情况下结果已被确定,因此,各系统的有效性是不相关的。图1中从

代表汽油检测系统失效的分支穿过整个图直到终点的那条线表示的就是这种情况,这条线指出,仅该事件就决定了结果。

2 事件树的相关性

当事件树的相关性较弱时,分析事件树多用FTA法。若代表元件失效的基本事件出现在多个故障树中,且这些故障树显示了支点事件发生的原因,那么就属于弱相关性系统。采用一般的FTA法在很大程度上依赖于近似值法,这种方法有时既不精确效率又低。而BDD法在效率和精确度方面都有优势,这在大规模的事件树分析中显得尤为重要。

在估计事件树时,为论证BDD法相对于传统FTA法的优点,图2对两种方法都作了讨论。针对初始事件I有两个响应子系统S1和S2。

图3(a)和(b)的故障树分别代表子系统S1失效和S2失效。由于两个故障树中都出现基本事件A和D,所以子系统失效事件之间有弱相关性。

由于子系统事件之间有弱相关性,对初始事件的4种可能的响应结果都显示为故障树,并用顶事件表示为式(1)。在其中3个结构中采用非门说明是非关联树,对这种故障树来说,事件树定量分析的效率取决于FTA的效率和精度。

undefined

图4(a)和图4(b)分别为图3(a)和图3(b)的对偶图。

3 FTA

3.1 定性分析

当故障树结构中引入非逻辑时,其结构功能就是非关联的。若故障树是非关联的,则顶事件的等效逻辑表示得到的是质蕴涵项;而对关联树结构,通过布尔代数化简过程得到MCS。

从事件树中代表两个系统失效原因的故障树(见图3)可得到布尔表达式(2)和(3),这两个式子给出了源于顶事件的失效原因的合并。

undefined

式中:AB、AC、D为MCS。

undefined

式中:D、F、AE为MCS。

从代表系统成功的故障树(见图4)得顶事件的原因:

undefined

式中:undefined、undefined为PI。

undefined

式中:undefined、undefined为PI。

3.2 定量分析

MCS或者PI(均表示为ci)一旦确定,Pr{T}都可通过估计容-斥展开式得到[3]。

undefined

当ci是MCS时,式(6)展开级数常用截取展开项的第1项或前2项近似,或用MCS的上限范围代替:

undefined

对关联故障树来说,展开式(6)中的截取是合理的,因为那些表示多个事件同时发生失效的项在数值上迅速减小,对顶事件的概率贡献很小。如果故障树是非关联的且ci是PI,则对表达式(6)截取或用式(7)近似都是不正确的,这时需要计算级数展开的许多项以达到所需的精度。对规模庞大的故障树而言,这是不现实的。为了定量分析顶事件的概率,假定表达式中各元件的任何工作状态都正确(Pr{元件正常工作}≈1),PI常被化简为它们的一致估计。

4 事件树分析

4.1 估测结果产生的原因

若故障树之间有弱相关性,确定事件树各结果产生的原因就等价于引用表达式(1)的布尔代数式。

undefined

4.2 定量分析事件树结果的概率

在故障树定性分析中,估计得到的MCS或PI与各基本事件的概率一同用于估计各λi。为得到准确结果,用式(7)确定子系统S1和S2的异常响应的概率,该概率乘以初始事件概率即得出事件树各结果出现的频率。

非关联结果的精确计算如下:

undefined

由于该例子比较简单,可以进行精确计算。但是如果许多个MCS或PI时,精确计算就无法执行。对关联故障树,容-斥表达式(6)收敛,截取第1项或前2项一般都可达到容许的精度。用式(7)的MCS上界替代可得到更好的近似结果(当MCS独立时可得到精确结果)。

对非关联故障树,容-斥展开式收敛很慢,这时需要计算许多项,而这对大规模故障树是不可能的,此时可选用一种一致估计的方法来替代。针对该节中的实例得到如下结果:

undefined

为得到结果及近似效果的数量对比,令:各元件失效概率为0.1;λI=1.0/年。

表1对各计算结果做了总结,从中可看出在此相当小的问题中仍存在着较大的误差百分比。

5 BDD及其对偶图

BDD提供了故障树结构的二叉树的逻辑形式,用于描述系统失效的原因。由于计算过程不需要将MCS和PI作为中间步骤,这就提高了其精度和效率。

图5 (a)表示了图3(a)中系统S1故障树的BDD[4,5]。

构造BDD要先确定各基本事件的优先级。对系统S1而言,优先级顺序为A

BDD的特征是在树结构的顶端有一个源节点。每个节点代表故障树的一个基本事件且都有两条路径,分支1和分支0分别表示基本事件发生(失效)和不发生(正常)。穿过BDD的路径最后到达的终节点有两种:标号1和标号0。

通向节点1的路径详细指明了故障树顶事件发生(ϕ(X)=1)的条件,列出该类路径上的失效事件就是故障树的割集,对上述割集进行合并,去掉冗余部分,就得到MCS。相反,以0作为终节点的路径代表顶事件不发生。

沿着图5中穿过BDD的路径可得到以下割集:AB,AC,AD,D。合并去掉第3项,正是前面式(2)中求得的MCS。

由于是基于二元分支法,BDD中的每条路经都相互排斥,因此各条通向终节点1的不相交路径的概率和就是系统失效的概率。

由BDD可以方便地得到其对偶表达式。原来的BDD代表ϕ(X),其对偶函数是:

undefined

DBDD(对偶BDD)代表undefinedA,其获得方法是将原来1的终节点变为0的终节点,反之亦然(对偶表达式中,节点仍表示元件失效状态)。图5(b)是图5(a)的对偶形式。DBDD通向终节点1的路径如果包含了0分支上(正常工作元件)所通过的各个节点,则这些路径就代表故障树的路集。图5(b)中DBDD的路集为:BCD,AD这些路集也是最小的,并且与用传统分析方法得到的式(4)一致。

6 事件树分析算法

当事件树之间存在弱相关性时,采用BDD估计结果的概率既准确效率又高。遇到这种弱相关性时,构造出联合BDD即可,对于独立部分只需要计算概率的乘积。该节中的算法定量表示了一个常规事件树结构,其中包含了弱相关和强相关性。为说明其强相关性,必须将事件树结构画出来,包括初始事件概率λI,结果事件Oi及相关结果 ci。通过事件树的每条路径都引向一个结果事件,这些路径考虑了所有子系统Sj起作用或出故障,故障树的构造表示出了各子系统失效的原因。假设故障树结构是k弱相关,m-k独立,则故障树为k/m(F)系统,即当m个元件中有k个元件失效时,系统失效。

算法步骤如下[6]:

a) 观察各子系统Sj的故障树,如果一个故障树与其他所有故障树独立,就将其标号j加到集合I中,否则将j置于集合W。

b) 将所有子系统Sj的故障树转换为其对应的BDDj。

c) 对集合I的每个输入(共m-k个),用相关的BDD估计子系统j失效的概率Qj,j∈I。

d) 对集合W中的每一个输入(共k个),用公式表示出并保存其DBDDj,j∈W。

e) 令QI=1.0,则

·对每条通向结果事件Oi的路径,考虑路径上来自初始事件的各分支点:

If(分支点标号j∈I)Then

If分支点表示子系统正常工作

ThenQI=QI(1-Qj)

ElseQI=QIQj

End_If

Else If(分支点表示子系统正常工作) Then

置标号j于对偶集D

Else置标号j于初始集P

End_If

End_If

·构造整体的独立BDD:

Ti=Uj∈PBDDiUj∈DDBDDj,

用新形成的BDD计算QTi。

·计算fI,fI=λIQIQTi。

·计算Ri,Ri=fici。

7 算法举例(汽油泄漏检测系统)

运用第6节中的算法进行实例分析,现考虑图1中的事件树,图6简化了故障树并给出了汽油检测系统、隔离系统及排气系统失效的原因。为获得故障树中失效概率的实际大小顺序,为每个基本事件的有效性都赋值95% 。

第6节中的算法将检测系统放置在集合I而将剩余的系统置于集合W中,按前面所述的算法,可以得到各结果出现的概率(未考虑相关性),如表2第3列所示。为与传统方法作比较,采用了一种一致估计的分析方法,结果如表2第5列中所示,从中可以看出对非关联结果,一致估计的误差百分比介于10.7%与23.4%之间。

8 结束语

本算法是基于BDD的分析方法,由于BDD具有的特点和对偶规律的应用,在提高运算效率和精度方面具有较大的优越性,从而为大型复杂系统的可靠性分析提供了一条强有力的新途径。

参考文献

[1]ANDREWS J D,MDSS T R.Risk and reliability assessment[M].Harlow,UK:Longman,1993.

[2]闵苹,童节娟,奚树人.利用二元决策图求解故障树的基本事件排序[J].清华大学学报:自然科学版,2005,45(12):1646-1649.

[3]SINNAMON R M,ANDREWS J D.Improved efficiency inqualitative fault tree analysis[J].Quality and Reliability En-gineering International,1997,13(5):293-298.

[4]RAUZY A.A brief introduction to binary decision diagrams[J].European Journal of Automation,1996,30(8):1033-1050.

[5]RAUZY A.New algorithms for fault tree analysis[J].Relia-bility Engineering and System Safety,1993,40(3):203-211.

分析决策树 篇4

高等教育的重点是提高教育质量,为社会培养具有综合素质的复合型人才。而提高学生成绩是衡量教学质量的主要依据之一,也是评价学生对知识的掌握程度的重要标志之一,因此,通过对学生成绩进行预测分析,可以为教学管理者深化教学改革,合理安排教学计划,提高教学质量提供重要依据。

数据库系统虽然可以高效地实现数据的录入、查询和统计的功能,但却无法发现海量数据中隐藏的关系和规则。而采用数据挖掘技术,可以从海量数据中发现隐藏的知识和规律。

各学校多年来都积累了大量的学生成绩数据,将数据挖掘技术应用于成绩预测分析,可以对其进行全面分析,得到潜在的影响学生成绩的因素,使教学管理者可以得到许多有价值的信息和知识,并利用其提高教学质量和教学管理水平。因此,利用现代化技术预测分析学生成绩是目前教育界的高度重视的问题之一。

本文主要介绍用数据挖掘中的决策树C4.5算法,建立学生成绩的预测分析模型及分类规则,并用实例进行验证。

1 决策树C4.5算法

1.1 决策树方法

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支;每个分支子集重复建立树的下层结点和分支的过程。采用决策树,可以将数据规则可视化,也不需要长时间的构造过程,实际应用中的决策树可能很复杂,但每一条从根结点到叶子结点的路径的含义仍然是可以理解的。决策树的这种易于理解性,对于数据挖掘的使用者来说是一个显著的优点,因此决策树方法在知识发现系统中应用较广泛。

决策树是通过一系列规则对数据进行分类。该方法的思路就是从训练集数据中,自动地构造决策树,从而可以根据这个决策树对任意实例进行判定。决策树可分为分类树和回归树两种,分类树对离散变量作决策树,而回归树是对连续变量作决策树。决策树算法的核心是确定分支准则,即如何从众多的属性中选择一个最佳的分支属性。

最早的决策树算法是由Hunt等人于1966年提出的概念学习系统CLS,之后是Quinlan于1986年提出的ID3算法和1993年提出的能处理连续属性的C4.5算法。ID3只能处理离散型描述属性,C4.5算法是ID3的改进算法,不仅可以处理离散型描述属性,还能处理连续型描述属性。

本文根据需求确定分析目标,采用 C4.5算法建立决策树分析模型和分类规则,很好地对学生成绩进行预测分析。

1.2 决策树C4.5算法

决策树C4.5算法用信息增益作为选择根结点和各内部结点中分支属性的评价标准,克服了ID3算法使用信息增益选择属性时偏向于取值较多的属性之不足。其处理数据的过程如下。

(1) 元数据预处理

通过ETL将所有的元数据转换成数据仓库,如果元数据是连续型,则应离散化处理。

(2) 计算每个属性的信息增益和信息增益率

计算过程如下:

(a) 计算每个训练集分类信息的期望值

设训练数据集为T,在T中类别标识属性有m个独立的取值,即定义了m个分类Ci,i=1,2,…,m,Ri为数据集T中属于Ci类的子集,riRi中元组的数量,则T在分类中的期望信息量可由式(1)计算。

Ι(r1,r2,,rm)=-i=1mΡi×log2Ρi(1)

式中,Ρi=ri|Τ|,Pi表示任意样本属于Ci类的概率,|T| 表示训练样本数据集中的元组数。

期望信息量I 用来衡量将T分为Ci类的不确定性。数值越大意味着不确定性越大,反之亦然。

(b) 计算属性A的信息熵

假设属性A具有n个不同的取值{a1,a2,…,an},则通过属性A的取值将数据集T划分为n个子集,其中Tj表示在数据集 T中属性A的取值为aj(j=1,2,…,n)的子集,如果A被选为决策属性,则这些子集将对应该结点的不同分支。

Tij表示Tj子集中属于Ci(i=1,2,…,m)类的元组数,则属性A对于分类Ci的熵可由式(2)计算:

E(A)=j=1n(Τ1j+Τ2j++Τmj|Τ|Ι(Τ1j,Τ2j,,Τmj))(2)

属性A的每个取值对分类Ci的期望信息量计算如下:

Ι(Τ1j,Τ2j,,Τmj)=-i=1mΡijlog2(Ρij)(3)

其中,Ρij=ΤijΤj表示TijTj中的比重。

(c) 计算属性A的信息增益

属性A为分类提供的信息量就是属性A的信息增益,由式(4)计算:

G(A)=I(r1,r2,…,rm)-E(A) (4)

(d) 计算信息增益率

信息增益率定义如下:

GR(A)=G(A)Ι(A)(5)

必须用式(5)对每个属性(A,B,C, … )计算增益率。

(3) 构造决策树

信息增益率是选择决策树分裂属性的基础,拥有最大增益率的属性将被选择作为决策树的分支属性。我们将要构建决策树的训练集T,按照计算的增益率划分成n个子集。如果第i个子集Ti中所有的元组类别相同,该节点将成为决策树的叶结点,并停止分裂。训练集T中不符合上述条件的其他子集将继续递归分割构造树的分支,直到所有的子集中的元组属于同一类别。生成决策树后,我们可以从树中提取规则,用于对新的数据集进行分类。

2 实例分析

2.1 学生成绩的元数据

我们以学校的工业电气自动化专业的学生的一些课程成绩数据为例,通过数据挖掘分析,找到各科成绩的内在联系,从而有的放矢,提高学生的整体学习质量。学生成绩数据库包含学生序号(ONS),和某些主要课程的分数。例如:电工基础(记为FEE)、电机与拖动(记为EMD)、自动控制原理(记为ACP),自动控制系统(记为ACS)和高等数学(记为HM),部分数据列于表1中。

2.2 数据预处理

为了便于进行数据挖掘,对表1中的数据进行规范化,将小于60分的成绩用0表示,大于等于60分的成绩用1表示,结果将表1转换为一个数据只有0和1的表。

从所有学生数据中抽样作为数据训练集,共有210条记录。其中各科及格人数和不及格人数统计如表2所示。

2.3 用C4.5算法构造决策树

表2显示了样本训练集中,含有基于课程的五个分类,在每个类别中,根据成绩的及格与否将学生人数分为两个子集。

课程ACS被选为类别标识属性,其余课程作为决策属性集。构造决策树的目的是发现ACS课程与其它课程的内在联系。

训练数据集中包含210个元组,其中ACS类所对应的子集中的元组数为:及格人数r1=137, 不及格人数r2=73。

为了计算每个决策属性的信息增益,首先要计算课程ACS(标识属性)的期望信息量如下:

Ι(r1,r2)=Ι(137,73)=-137210log2137210-73210log273210=0.932

进一步统计,其他作为决策属性的任一课程与标识属性课程ACS的成绩搭配情况,例如课程HM成绩及格(为1)且课程ACS成绩也及格(为1)的人数为110人,HM成绩及格(为1)且ACS成绩不及格(为0)的人数为52人,HM成绩不及格(为0)且ACS成绩及格(为1)的人数为27人,HM成绩不及格(为0)且ACS成绩也不及格(为0)的人数为21人。其它课程成绩与ACS课程的成绩搭配情况,列于表3中。而其它任两门课程成绩与标识属性课程ACS的成绩搭配情况列于表4中。其中只列出EMD和FEE两门课成绩与ACS成绩的搭配情况。

然后参照表2的搭配1,按式(2)计算决策属性课程HM的期望信息量(即墒)如下。

E(ΗΜ)=162210×Ι(110,52)+48210×Ι(27,21)

其中:

Ι(110,52)=-110162×log2110162-52162log252162=0.9053

Ι(27,21)=-2748×log22748-2148×log22148=0.9888

E(HM)=0.7714×0.9053+0.2268×0.9888=0.9244

按式(4),得决策属性课程HM的信息增益为:

G(HM)=I(r1,r2)-E(HM)=0.932-0.9244=0.0076

按式(5),可得决策属性课程HM的信息增益率为:

GR(HM)=G(HM)/E(HM)=0.0076/0.9244=0.0082

用同样的方法,可以对其它决策属性进行信息增益和信息增益率的计算。计算结果列于表5中。

由表5结果可知,决策属性FEE(电工基础课)的信息增益率最大,因此将该属性选作决策树的根结点,并且因为FEE属性只有两种取值:0(不及格)和1(及格),所以,从该结点可以分裂出两个分支:一支为不及格(记为:分支0),另一支为及格的(记为:分支1)。由表3搭配4的数据,可见,FEE和ACS都及格的人数为108人,它占FEE及格人数(125人,参见表2)的比例为:

108/125=0.864

它表示分支1的估计准确率为86.4%,满足我们设置的80% 的标准,因此分支1可以停止分裂。

在分支0中,FEE不及格人数为85人(见表2),FEE和ACS都不及格的人数为60人,准确率为70.59%,不满足我们的要求,因此需要进一步分裂。

为确定下一个分支结点,我们用上述方法计算除根结点之外的另三个属性的信息增益率,结果显示,属性EMD具有最大的信息增益率,因此它被选择为根结点的分支0的下一个分支结点。

同样属性EMD也有两个取值0和1,所以也分裂为分支1和分支0。由表4可以看到,在FEE和EMD都不及格的学生中,有18人ACS成绩不及格,有3人ACS成绩及格,所以在EMD的分支0上,ACS不及格的估计准确率为18/21=85.7%。分支0满足预先设定的标准,可以停止分裂。

另外,在表3中也可以看到,在FEE不及格且EMD及格的学生中,有52人ACS成绩及格,12人不及格,因此在EMD结点的分支1上,ACS及格的估计准确率为: 52/64=81.3%,分支1满足预先设定的标准,也可以停止分裂。则我们所构造的决策树如图1所示。

图1中,结点A——电工基础(FEE),结点B——电机与拖动(EMD),结点C1——自动控制系统(ACS)及格,结点C0——自动控制系统(ACS)不及格。

2.4 分类规则描述

决策树算法的主要优势就是可以用来直接抽取分类规则。对于决策树的从根结点到每个叶结点的路径用IF…THEN的形式描述分类规则。这里仅以ACS属性提取的分类规则描述如下:

IF 电工基础成绩及格,THEN自动控制系统成绩通常也及格,准确率为86.4%,学生人数的覆盖率是:125/210=59.5%。

IF电工基础成绩不及格 并且电机与拖动成绩也不及格,THEN自动控制系统成绩通常不及格,准确率为85.7%,学生人数的覆盖率是:21/210=10%。

IF电工基础成绩不及格 但电机与拖动成绩及格,THEN自动控制系统成绩一般及格,准确率为81.25%,学生人数的覆盖率是:64/210=30.5%。

因此,我们可以得出结论:学生的电工基础课程学习的情况会严重影响到专业课自动控制系统的学习效果。学生的电机与拖动课程学习的情况也会影响到专业课自动控制系统的学习效果。因此,我们要教学生学好专业课自动控制系统,必须重视基础课电工基础课程教学效果。那些电工基础课不及格的学生,必须重视电机与拖动课程的学习,才能在自动控制系统课程上取得好成绩。

3 结 语

本文通过对学生成绩的数据分析,提出了提高学生的自动控制系统课程成绩的数据挖掘模型,采用决策树C4.5算法,进行分析,实验表明,应用该算法,构造的决策树分类正确。

数据挖掘技术近年来广泛应用于金融、保险、医药等行业,取得了一些重要成果。然而,在教学管理中使用的数据挖掘技术的成功案例较少。本文是使用数据仓库和数据挖掘技术的教学管理领域的一个尝试,但仍有一些问题需要进一步研究和探索。本文所涉及的内容,在将数据仓库和数据挖掘技术应用于教育领域探索出了一个切实可行的方法,可为进一步研究教育和教学管理决策支持系统打下一定基础。

参考文献

[1]刘红岩,等.数据挖掘中的数据分类综述[J].清华大学学报:自然科学版,2002,42(6):727-730.

[2]Gehrke J,Ramakrishnan R,Ganti V Rainforest.A framework for Fast Decision Tree Construction of Large Datasets[C]//Proceeding1998 International Conference Very Large Data Bases(VLDB’98).New York,Aug1998:416-427.

[3]Polat K,Gunes S.A Novel Hybrid Intelligent Method Based on C4.5 Decision Tree Classifier and One against all Approach for Multi Class Classification Problems[J].Expert System with Applictions,2008.

[4]郑岩.数据仓库与数据挖掘原理及应用[M].北京:清华大学出版社,2010:160-164.

[5]陈志泊,等.数据仓库与数据挖掘[M].北京:清华大学出版社,2009:111-125.

[6]刘向峰,张洪伟,牟锐,等.数据挖掘在销售管理系统中的应用[J].计算机应用研究,2004(6):189-191.

[7]Quinlan JR.C4.5Programs for Machine Learning[EB].1993.

[8]王倩.决策树在信息检索中的性能研究[J].微计算机信息,2008(1-3):201-208.

[9]钟晓,马少平,张钹,等.数据挖掘综述[J].模式识别与人工智能,2001,14(1):48-53.

[10]张海笑,徐小明.数据挖掘中分类方法研究[J].山西电子技术,2005(2):20-21.

分析决策树 篇5

1 资产管理公司的现状及业务发展

1999年, 为了降低国有商业银行的不良资产, 具有中国特色的4家资产管理公司——信达、华融、东方、长城相继成立。

经过近10年的处置, 第一批剥离的政策性商业银行不良债权已基本处置完毕。近年来, 在积极参与商业银行不良债权的商业化收购与处置的基础上, 金融资产管理公司积极推进市场化转型, 不断完善综合金融服务功能, 搭建了包括银行、证券、保险、信托、基金、期货、租赁的金融全牌照平台。目前, 金融资产管理公司在保持不良资产经营主业优势的同时, 也积极投入高附加值、高技术含量的资产管理与投资业务。

2 竞争压力和流程优化的必要性

以中国信达资产管理股份有限公司为例, 在完成市场化转型, 成功构建具备全牌照的金融集团平台后, 信达的各项业务均受到了其他金融机构的激烈竞争。

综合金融服务类业务, 信达受到了中信、平安等大型金融控股集团的激烈竞争;投资类业务, 则需要与小型商业银行、信托公司抢占市场;即便传统类商业银行不良债权处置类业务, 也受到了国外不良资产处置机构、地方资产管理公司和商业银行自身设立的处置中心等对市场份额的侵蚀。可以说, 面对市场激烈的竞争, 资产管理公司在资金成本、品牌认知度、规模效应等方面均不具备显著优势。如何运用多年处置不良债权所沉淀的经验和社会资源, 挖掘多年积累的全能化人才的潜力, 提供小而灵活的服务成为资产管理公司能够在市场竞争中不断发展的关键。

作为一线业务人员, 笔者发现资产管理公司目前在流程上仍存在决策时间过长, 决策思路、流程不清晰等问题, 而此类问题极可能加剧客户流失, 使得资产管理公司在市场竞争中更显被动。所以, 优化业务流程, 在业务拓展过程中引入直观易懂、易操作、高效的决策模型, 对资产管理公司掌握主动、赢得时间、争取客户有着重要意义。

3 决策树分析模型

来源:http://wiki.mbalib.com/wiki

因为具备操作简单、显示直观并且结果一目了然等特性, 决策树分析模型是目前热门的项目决策、项目管理的方法之一。简单来讲, 决策树分析模型就是将决策过程的各个阶段信息 (如相关可供选择的方案、在不同情景下发生的概率、收益等) 汇总, 绘制出一张箭线图。并通过相应计算, 得出考量过风险损失后的潜在收益, 最终进行方案甄选的方法。

决策树分析模型一般由方块结点、圆形结点、决策枝、概率枝等组成, 方块结点称为决策结点, 由结点引出若干条细支, 每条细支代表一个方案, 称为决策枝;圆形结点称为状态结点, 由状态结点引出若干条细支, 表示不同的自然状态, 称为概率枝。每条概率枝代表一种自然状态。在每条细枝上标明客观状态的内容和其出现概率。在概率枝的最末梢标明该方案在该自然状态下所达到的结果 (收益值或损失值) , 见图1、图2。

也就是说, 企业需要决断的行为发生在决策结点;而在状态结点, 使用者能够获得考虑了变动因素后的预期收益或损失值。

4 决策树分析模型的实际运用

在上文中, 笔者简单介绍了决策树分析模型的基本概念和基本使用原理。此处, 笔者将通过两个简化的虚拟案例具体介绍决策树在资产管理公司中的运用。

4.1 决策树分析模型在收购传统商业银行债权中的运用

假设2015年6月, 当地商业银行B将推出一本金规模约10亿元的不良债权包, 经过初步沟通和测算, 资产管理公司A获悉收购成本约为1亿元, 该资产管理公司只参与年化收益率超过10%的项目。而根据当时不良债权处置市场的情况, 该不良债权包能够于1年、2年或3年处置完全的可能性分别为20%、50%和30%。3年中的处置可能值不发生变化, 分别为1.1亿元和1.3亿元, 概率均等。根据以上信息, 资产管理公司A是否应积极参与B银行资产包收购项目?根据上述条件, 笔者绘出的决策树如图3所示。

注:计算过程中已通过贴现计算, 考虑了A资产管理公司10%的收益率要求。

根据图3可以判定, 本次拟收购项目不符合A资产管理公司10%收益率的标准, 故不应参加本次收购。

4.2 决策树分析模型在投资类业务中的运用

假设2016年10月, 资产管理公司C与客户D公司洽谈规模约10亿元的投资类业务。客户D可接受单利年化12%的资金成本, 即若无提前还款, 2年后客户D将偿还12.4亿元。资产管理公司C只投资于年化收益率超过10%的项目, 双方初步拟定的收益率为年化12%。该项目拟投资时间为2年, 客户D可于资金投放1年后提前还款。若提前还款, 1年收益率加提前还款补偿, 年化收益率为12.5%, 客户D提前还款的概率为40%。2年后若市场严重恶化, 资产管理公司C仅能收回80%的本金, 即8亿元。市场严重恶化的可能性为10%。根据上述条件, 资产管理公司C是否应该投资于客户D?

根据上述条件, 笔者绘出的决策树如图4所示。

注:计算过程中已通过贴现计算, 考虑了A资产管理公司年化10%的收益率要求。

根据图4可以判定, 本次投资收益率超过资产管理公司C要求的10%收益率, 资产管理公司C应该积极推动本次投资。

以上两案例均为笔者虚拟的案例, 对现实因素进行了简化, 但通过上述案例中决策树分析模型的具体运用, 很好地展现了在进行初步投资判断时, 决策树分析模型展示出的直观、高效、简洁的优势。

5 可行性分析

笔者认为运用决策树进行项目初步判定较为可行, 原因如下。

(1) 操作可行性。决策树分析模型操作简便, 直观易懂的, 运作成本较低。只需要对资产管理公司内人员进行短期的培训, 就可上手操作。对于常规的项目, 决策树分析模型甚至无须借助计算机完成, 这也便于增进前台人员与审核人员及客户的有效沟通。

(2) 数据可用性。在模型中我们可能会用到较多数据, 但部分数据 (如投资额、贴现率、未出现意外事件的预期回收额等) 都为已知或可通过预测得到。笔者认为模型预测出的数据即便不能保证精准, 但也可起到提供模糊值, 为初步判定提供帮助。

6 决策树分析模型的积极影响

决策树分析模型因其自身优势已被广泛地应用于企业的投资决策之中。当面对多种执行方案且每种执行方案会有多种后续选择时, 决策树会不失为一种好选择。它有效地控制了决策带来的风险。

对于资产管理公司而言, 决策树分析模型所具备的高效、灵活的特性与资产管理公司业务模式的多样灵活性相契合。另外, 决策树分析模型的直观易懂也便于对客户资源的拓展。

7 决策树分析方法的局限性

(1) 适用于初步判定。由于决策树分析模型对于处理某些主观、复杂信息仍具备局限性, 较适合用于前期业务拓展及项目初步判定阶段。

(2) 决策树分析模型预测数据的主观性。决策树分析模型的操作并不复杂, 但却要求使用者具备一定经济预测能力。从上述两个案例中, 可以看出, 使用者需要预测出市场变化的概率及市场收益在不同市场情况下的收益值。这些输入变量预测的准确性将直接影响到所绘制决策树模型的分析结果, 并最终影响使用者的决策能力。但事实上, 不同使用者对于经济的预测势必会带有主观色彩, 这些主观性有可能会影响最终判断的准确性。

(3) 市场剧烈变动情况下分析模型的无效性。必须认识到, 在某些时期, 市场环境会发生大幅度波动。此时, 基于经验的预测值很有可能失去价值。所以, 决策树分析模型只是在既有的市场预期下为我们的决策提供参考, 却不能保证决策结果的最终的正确性。

摘要:为了应对市场的激烈竞争, 资产管理公司在业务推进过程中引入了决策树分析模型。本文通过介绍资产管理公司业务发展的现状, 并根据现有业务拓展中所存在的困境, 引出目前较热的决策树分析模型。通过这些案例, 可以看出决策树分析模型在操作上简单易行, 具备整合决策信息、缩短决策时间、简化分析流程, 以及有利于增进一线业务人员与客户、审核部门沟通等优势。最后, 总结了该分析方法的优势及运用中可能出现的问题。

关键词:资产管理公司,流程优化,决策树分析模型

参考文献

分析决策树 篇6

近些年来国内外发生了不少重大特大的突发事件,面对这些事件,世界各国政府采取了积极有效的应急措施,相应的各类应急预案的编制工作也在不断的进行着,建立健全了应对突发公共事件的应急预案机制。

然而,应急预案能否成功的运用于突发事件将直接影响应急救援效率。这就需要对预案的有效性进行预先评估,目前这方面的研究非常缺乏。文献[3]提出了基于改进的多属性群决策方法的突发事件应急预案评估,文献[4]进行了基于模糊综合评判的突发公共事件应急预案评估的研究分析,采用模糊评估理论的多级评估方法对应急预案的评估进行了大量的研究,第六届中国管理科学学术年会中提出的基于模糊综合评价方法的突发事件应急预案评估。这些的评估方法大都需要相关评估指标或属性的权重,而权重是由专家设定的,不同的专家由于主观性给出的权值会不同,最终得到的评估结果也可能会有很大的出入。决策树算法是一种基于大样本的算法,它能对所有样本数据的高度概括,即决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别,可以减少人为因素的影响。

1 评价指标的建立

应急预案的实施可以看作是一个项目的实施,因此可以借鉴项目管理中后评估的方法。项目后评估可以分为:项目跟踪评估、实施效果评估和项目影响评估。应急预案的实施是为了减少突发事件造成的影响和损失,因此对应急预案实施的后评估主要从应急预案的实施过程和效果2个方面进行评估。

对应急预案的后评估是在应急预案实施后对其实施效果进行的评估,比如在应急预案实施过程中出现资源未能满足需求的情况,是由于地区资源布局不足,还是资源调度过程事件耽误,或者是应急指挥者的判断失误等等。对应急预案的一个评估主要是针对应急预案的操作步骤以及由此带来的结果的,由于不同类别不同级别的响应流程所对应的操作步骤的要求不一样,所以对应的评估指标也是不一样的。

根据应急预案的执行流程,能够知道应急响应的接警出警时间,各个部门的救援人员到位情况以及到位时间,应急预案实施过程中所需要的设备资源,凡是能够影响突发事件的一切资源,还有应急响应流程执行结束后的伤亡人数、经济损失,以及所带来的社会影响,这里将它们筛选后作为评估指标。由于主要研究的是应用决策树算法对应急预案进行评估,暂时使用分析得到的如下一些指标作为评估指标来进行试验:① 接警时间;② 各个部门的应急人员情况;③ 应急资源数量及配备情况;④ 经济损失;⑤ 伤亡人数;⑥ 救援时间。

对应急预案进行评估,其中所涉及的指标不止这些,为了简单起见,这里只拿这些指标做实验,更多的评估指标该算法同样适用。

2 决策树算法

决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性,树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶节点代表一个类或类分布。从根节点到叶子节点的一条路径形成一条分类规则。

决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点。决策树方法是数据挖掘中非常有效的分类方法。

2.1 信息论相关计算

信息熵:

Η(U)=-iΡ(ui)log2Ρ(ui)。 (1)

式中类别ui出现概率为:

Ρ(ui)=|ui||S|。 (2)

|S|表示例子集S的总数;|ui|表示类别ui的例子数。

条件熵:

Η(U/V)=-JΡ(vj)iΡ(ui/vj)logΡ(ui/vj)。 (3)

其中属性Ai取值vi时,类别ui的条件概率为:

Ρ(ui|vj)=|ui||vj|。 (4)

互信息:

I=H(U)-H(U|V)。 (5)

互信息的大小即是判定样本中哪个属性作为决策树根节点的依据,该运算中互信息大的属性就是这颗树的根结点。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。

2.2 ID3算法

决策树ID3主算法的主要步骤如下:

① 从训练集中随机选择一个含有正例集和反例集的子集(称为“窗口”);

② 用“建树算法”对当前窗口形成一棵决策树;

③ 对训练集(窗口除外)中例子用所得决策树进行类别判定,找出判错的例子;

④ 若存在判错的例子,把它们插入窗口,重复步骤②,否则结束。

主算法流程如图1所示。其中PE、NE分别表示正例集和反例集,它们共同组成训练集。PE1,PE2和NE1,NE2分别表示正例集和反例集的子集。

建树算法的具体步骤如下:

① 对当前例子集合,计算各特征的互信息;

② 选择互信息最大的特征AK;

③ 把在AK处取值相同的例子归为同一子集,AK取几个值就是几个子集;

④ 对既含正例又含反例的子集,递归调用建树算法;

⑤ 若子集仅含正例和反例的,对应分枝标上P或N,返回调用处。

测试中,预案的最终评价结果暂定为优、良、中、差4类,用它们代表上面所说的正例和反例的分类。

2.3 评估指标离散化处理

决策树是用在预案评价中,所以针对评价指标数据的特点(数据的连续性),需要实现连续数据的离散化处理,这里使用K-Means(K均值)聚类算法来实现。K-Means 算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

K-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其他对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。K-Means算法流程如图2所示。

具体算法过程如下:

① 从N个数值中随机选取k个数据作为质心;

② 对剩余的每个数据测量其到每个质心的距离,并把它归到最近的质心的类;

③ 重新计算已经得到的各个类的质心(该类中所有对象的均值);

④ 迭代第②、第③步直至新的质心与原质心相等或小于指定阀值,算法结束。

对要进行连续数据离散化的属性(评估指标),首先从所选对象数据中随机的选取k(分类数)个对象作为初始聚类的中心,然后就依据算法流程开始计算分类,最终将连续数据对象成功的离散化为需要的k个类别。

3 应急预案评估的实现

以预案都涉及的共性的评估指标为例介绍决策树算法在应急预案评估中的应用并进行分析。

首先,进行评估指标的筛选。评估指标的数值分2种类型:枚举类型和数值类型。对于枚举类型要求类别不能太多,4~6个最为合适,取太多容易使生成的树过于胖,形成的规则过于“精确”,无法实现对新样本的合理分析;取太少,形成的规则又过于粗略,不能正确的分类,因此枚举类型的类别太多太少都不合适。而数值类型的属性,需要对这些数据做处理才能应用到决策树算法中,这里就选择聚类算法中的K-Means算法来实现对数据的分类,同样分类也要适中。

其次,获取样本数据。表1为地震评估指标的一些模拟样本数据,用于生成决策树。

每次突发事件最后都要进行总结,统计人员伤亡、经济损失和资源消耗等,并且针对本次突发事件进行评估,最终给出一个总的评估结果。这里的样本数据就是每次突发事件的评估指标项数据及最后的评估结果。由于全国各个地方的地质结构不一样,所以在获取这些样本的时候要按地区进行,这样有利于最终生成决策树并且用于对新样本的评估,这是因为地质结构较为接近的地区样本评估指标项也可以认为是一样的,并且这样的样本越多越有利于决策树的生成。

再次,生成决策树。每个项目的内容不一样,评估指标也不一样,因此对决策树的要求也就不一样。例如应急预案的评估,评估项中的大部分都是数值类型的,需要对这些数据离散化处理才能满足决策树分类的需要。这里采用的就是K-Means算法实现的。按照上述的建树流程构造决策树,程序通过循环方式,先计算各属性的熵,然后比较各属性熵的大小,选择值最大的属性进行分类,递归直到生成一颗完整的决策树。

某次演练的评估结果及建议如表2所示。

最后,实现对新样本的评估。新样本的数据结构必须与生成决策树的这些样本结构一致。表2是对一次演练数据的评估,并且针对预案要求,该算法能够实现给出一些评估指标参考取值。

4 结束语

在项目中的应用与测试结果表明:K-Means算法将连续数据型指标离散化处理分为2类。通过递归遍历生成的决策树,能够实现对当前数据进行分析,得到评估建议。该预案评估算法准确性很高,同时能够大大减少了专家评估中人为因素的影响,并且针对预案中出现的问题能够给出参考性的建议,使评估更加的客观,预案实施更加科学有效。

评估指标之间有很大的关联,并且关联程度不一样。单个指标的重要性在评估中不能很好地体现出来,因此需要对算法和评估指标做进一步的研究,使这种算法在应急预案评估中得到更好的应用。

参考文献

[1]NAKANISHIY.Assessing Emergency Preparedness of TransitAgencies:Afouctm on Performance Indicators[C].The 82ndAnnual Meeting of the Transportation Research Board,2003(4):24-32.

[2]刘功智,刘铁民.重大事故应急预案编制指南[J].劳动保护,2004,2(4):11-18.

[3]孙颖,池宏等.基于改进的多属性群决策方法的突发事件应急预案评估[J].中国管理科学,2005,13(10):153-156.

分析决策树 篇7

决策树既可以用作分类模型, 也可以当成预测模型。决策树是一个类似树结构的表示方法, 每个中间节点表示一个属性的分裂, 分支表示一个划分的输出, 而叶节点表示分类的分布情况。决策树从根节点 (总数据集) 开始, 按照某种规则, 选择属性进行分裂, 再按照某种规则生成子节点;子节点再重复先前步骤, 直至达到某种停机准则, 从而一棵决策树便生长完毕。不同的决策树方法采用不同的树分裂方法和不同的树生成方法, 常用的决策树方法有:C4.5 (基于信息增益而产生的决策树) , CART (分类回归树) , CHAID (基于卡方检验而产生的决策树) 等。

CART (分类回归树) 又分为分类树和回归树, 其中回归树是一个有根的二叉树, 与其它决策树方法不同的是, 回归树的目标属性变量是连续型, 叶结点的属性平均值作为目标属性的预测值。回归树的构造思想是每次选择某种测试使对应的结点数据根据此测试分裂为两个子类, 分别放入左右子结点中, 而将生成的新结点加入到回归树后。

2 决策树的构造过程

决策树的构造通常包括两个步骤:利用训练数据集生成决策树;再对决策树进行剪枝f20]。另外还有一个过程, 是利用验证数据集对生成的模型进行检验, 以评估模型的优良与否。决策树从总数据集开始, 根据某种规则, 选取最优的输入属性变量, 再根据某种规则, 分裂成为'树枝', 它是一个从上到下的递归过程。决策树的剪枝是对树结构进行修剪, 删除多余分支的过程。使用决策树对数据集进行分类时, 从根结点开始对该数据集的属性进行测试, 根据测试的结果确定下一个结点, 直至到达叶结点为止, 叶结点标识的类别就是新样本的预测类别。

决策树的构造包括分裂变量的选择、树枝的生长和剪枝等几个步骤, 每个步骤都有不同的方法, 相应地就有各种不同的决策树方法。

在建立树模型之前, 需要完成工作:第一, 明确建模的终极目标, 这一步是要确定目标变量;第二, 数据清洗和输入变量的初步选取, 这一步是最重要的, 因为这将直接决定决策树的建模效率和效果;第三, 需要对目标变量执行正确的探索分析, 需要注意响应变量的分布形状, 如果响应变量的分布是偏倚的, 那么做出来的决策树一般上是不好的, 这时就需要按目标变量取值的一定比例, 重新组织数据集。

3 CHAID决策树算法

CHAID决策树的英文名称为Chi-squared Automatic Interaction Detection也就是说CHAID决策树与卡方检验有很大的关系。CHAID决策树的最大特点是:一, 可以产生多分支, 也就是说CHAID决策树是一个多叉树;二, 输入变量和目标变量即可以是定距, 也可以是定类的。在这一点上, CART决策树和C4.5决策树无法与之比拟, CART决策树的输入变量必须是连续型的, 而C4.5决策树的输入变量必须是离散的分类型的。所以, 在许多实际问题中, CART决策树和C4.5决策树是无法应用的。

于是, 为了处理连续型变量, 可以首先把连续型变量离散化, 再对它们运用决策树算法。二元决策树便是这类算法, 它的每个分支只代表对一个属性变量取值的真假的判断, 同时二元决策树会有效减少数据集的分解。人工手动地对连续性输入变量进行离散化, 这是不切实际的, 比如后面的实证分析中就有60多个连续型输入变量, 即使是逐个地完成对它们的离散化操作, 作出的决策树结果很可能会丢失很大的信息量。

CHAID决策树能够对输入变量作出预处理, 预处理的目标是对输入变量的取值进行分组。这个过程分两种情况进行:

(1) 对于定类的输入属性变量, 在它的多个分类中, 把那些对目标变量取值影响不显著的分类, 并合并它们。

(2) 对定距的连续型输入属性变量, 先按分位点分类, 然后再合并具有相同质性的组。这两种过程都应用到了统计检验方面的原理和方法:从统计显著性角度, 判定有哪些输入变量的分组取值, 对目标变量的分类预测影响不显著, 然后合并它们。

4 决策树的一个新想法

传统的决策树都有一些不足之处, 例如, CART决策树只是个二叉树, 建模结果很可能不准确, 并且输入变量只能是连续性的变量E;C4.5决策树的愉入变量只能是离散的分类型变量;CHAID决策树是对输入变量应用卡方检验或F检验进行分组或合并而生成的多叉树, 它在生长过程中, 只考虑到分裂变量与目标变量之间的联系, 而在这个步骤中没有考虑到其它变量, 可能会损失部分信息, 造成模型的部分偏差。

我们的一个新的想法是, 在构建决策树之前, 对数据集的输入变量做出初步的有针对性的选取, 剔除掉一些没有多少价值的输入变量。主要的过程是, 首先剔除以下这些变量:一, 对于某个输入变量, 它的记录取值几乎是不一样的;二, 对于某个输入变量, 它的记录取值几乎都是一样的。因为这两种输入变量几乎不提供多少有价值的信息, 所以首先需要剔除的。例如:对某个人群数据集进行分类预测, 其中一个输入变量是衣服穿着, 如果90%的人的穿着衣服是不一样的, 那么根据这个变量的分类预测的结果是每个人成为一类, 这是没有实际意义分类;或者是90%的人的穿着衣服是一样的, 那么根据这个变量的分类结果是这90%的人成为一类, 其它的10%的人再分成不同的小类, 显然这种分类结果是非常偏倚的, 也是没有实际意义的分类。所以首先需要剔除掉这样的输入变量。这个过程也可以作为后面讲述的神经网络模型的基础。

第二步骤是, 在整理好的数据集和剔除掉部分输入变量的基础上, 对数据集应用聚类分析。这个聚类分析的作用是, 初步性地探索连续型输入变量和取值较多的离散型输入变量被被分成多少个组, 为下一步的决策树的生长过程作准备。本文所采用的聚类分析的方法为动态聚类法:首先对样本进行初步分类, 然后根据某种分类原则, 对分类进行调整, 直到分类合理为止。

在聚类分析中选取马式距离是比较恰当的。动态聚类法的具体步骤为:首先将样本粗略分为几类, 然后按照某种原则聚合直到分裂满意为止。其步骤为:首先选取某些样本为凝聚点, 计算其它样本与各个凝聚点的距离, 距离近的样本归为一类;然后根据先前的分类, 重新计算各类的重心, 以及各样本与各重心的距离, 进行第二次分类;重复以上步骤。该过程的要点是新聚类的重心代替旧聚类的重心, 反复迭代, 直到不能减少各自重心的“离差和”, 为止。

第三步骤是, 在第二步聚类分析的基础之上, 对连续型输入变量和离散型输入变量取值进行分组或者合并。在第二步聚类分析之后, 连续型输入变量和离散型输入变量取值都会划分为不同的分组。

第四步骤是:这一步是选择决策树的分裂变量, 这个过程和C4.5的选择分裂变量的原理是相同的, 即根据信息增益最大原理来选择分裂变量。选择完毕分裂变量之后, 就是决策树的生长过程的讨论。

对于生长过程, 就是根据分裂变量的不同取值产生多少个分支, 如何分支, 以及怎样完成分支过程, 是决策树生长过程的核心内容。在第三步骤中, 输入变量己经被分组了, 这个过程可以看成是对输入变量的离散化处理。决策树生长过程是, 当分裂变量的分组比较少时, 若该属性仅含有有限的几个分组, 例如分裂属性变量Y只有两个分组A和B, 则子节点就直接划分为A子节点, B子节点。

当分裂的分组相对较多时, 需要对这些分组作出进一步的处理:

(1) 如果分组有很多个, 那么就要对该变量的分组作出合并处理。

(2) 如果合并结果不理想, 那么在合并同时还可以考虑取值的拆分, 根据检验结果判断是否需要把组再拆分成两组。

经过该步骤之后, 分裂变量取值的分组过程就得到了优化, 于是决策树完成生长过程。总的来说, 这种算法是对CHAID决策树算法的一种改进, 即是把聚类分析过程融合到决策树的分裂和生长过程。与CHAID决策树相比较, 在树的分裂过程中, 这种算法考虑了其它输入变量对目标变量的影响作用 (从聚类分析中体现出来) , 所以这种算法对信息的提取得到了较大的提升, 但是在执行决策树的过程中, 它的速度是比较慢的。

5 决策树数据解释和模型介绍

数据来源于某市4月份到6月份电信的部分移动用户信息, 共有一记录数120万条。

原始数据的基本组成:2009年4月份到2009年6月份的客户记录信息, 每月均记录条数为40万条, 总的数据集有120万条数据记录。原始属性变量包含有:用户的属性信息变量、行为特征信息变量、消费特征信息变量, 原始属性变量字段总共有102个, 当然这些属性变量之间有些是相互冗余。

取三个月份的数据是为了消除数据的波动, 体现出数据的一般性。波动的含义是:某个客户在第一个月份有消费一记录, 于是在数据库中就有他的一记录情况;而第二个月份该客户没有消费, 那么这个月中, 数据库中没有他的记录;但第三个月该客户又有消费, 于是数据库中有他的记录情况。

在数据的预处理中, 我们是根据月份了汇总每个客户的行为特征信息、消费行为信息。比如:客户甲三个月都有手机上网费用支出;而客户乙四月份和六月份有手机上网费用支出, 但他五月份没有手机上网费用支出。那么我们对甲的手机上网费用的汇总是按3个月计算的, 而对乙的手机上网费用的汇总是按2个月计算的。与此类似, 对客户的其它的消费行为信息变量、行为特征信息变量的统计汇总情况是相同的。那么经过初步的统计汇总之后, 中间数据集的记录条数有40万左右。

我们建模的想法和目标是, 根据这些历史数据, 分别用CHAID决策树模型和神经网络模型构建出预测分类模型, 这个模型是从这些电信移动用户数据集中寻找出电信移动上网用户的预测分类模型, 然后对它们进行评估, 选择出一个比较好的模型, 来指导市场发展战略的部署。

经过初步的ETL工作后产生的数据组成结构是:电信移动非上网用户记录数为16万条, 而电信移动上网用户数是1600条, 它们的比例为100∶1, 这个数据集在目标属性变量'移动上网'这一个维度上的分布是非常偏倚的。经过逐步查找原因, 发现这是由数据源的偏倚所造成的。说明一点:在做预测分类模型时, 首先要对数据源做数据的分布分析, 如果数据的分布是偏倚较大的, 那么该数据源是不好的, 它就不能很好的提供信息, 因此建议对该数据源做预处理, 以消除数据的偏倚分布。

建模的计算结果显示:CHAID决策树的分类预测准确率为89.47%, 神经网络的预测分类准确率为88.84%;并且它们预测一致的比率为93.9%, 也就是说, CHAID决策树的分类预测准确率略高于神经网络的分类预测准确率。从分类预测准确率这个角度分析, CHAID决策树的模型结果, 有高达89.47%是与实际情况一致的。另外, 神经网络模型和CHAID决策树模型有93.9%的预测结果是一致的。与决策树相比较, 神经网络的一个最大的缺点是它的解释性比较差, 无法像决策树那样产生最终的规则集。

参考文献

[1]何箭.决策树优化算法研究[J].合肥工业大学, 2006.

分析决策树 篇8

数据预处理模块

数据的预处理模块就是对搜集的数据进行系统的筛选、整理、分析、转换等处理工作, 只有相匹配的数据挖掘算法能够获得就存入数据库中。数据设备中有存在隐藏的噪音数据需要通过数据清理来解决;数据集成则是将来自于不同数据对象和得到的源数据组合在一起;选择与挖掘数据相关的数据定义为数据选择;将选择的数据转化为挖掘数据可操作的模式称为数据转换。该模块是挖掘过程中关键的一步, 直接关系到后续的数据挖掘实施能否顺利进行、建立的模型是否最优。

挖掘实施模块

选择决策树ID3算法, 并借助数据库中的规则、方法和事实数据, 对数据库中的数据进行分析并建立模型。在该模块中, 建立最优的模型是关键, 既要注重算法的执行效率, 又要不断追求模型的准确率, 涉及的技术较多, 是整个分类系统的核心部分。

由于所挖掘出的模式可能包含很多, 这就需要将用户的兴趣度与这些模式关联并进行比较分析, 评估模式的价值, 看哪些模式符合现实中的逻辑关系, 一旦挖掘模式无法与用户兴趣相匹配, 就需要重新回到之前的环节进行调试并重新执行, 否则将知识进行输出。

知识输出操作模块

这一模块主要对挖掘出的模式进行解释和表示, 以一定的方式或规定的规则展示给客户, 关于“IF-THEN”形式的规则是决策模型的一种展现形式;它会创建一条新的运行规则, 主要是对根节点到叶节点的使用路线, 要想形成一个有规则的合取项, 就要经过每一个路径上的值对, 为了方便客户理解和使用的规则更好的匹配, 要包含叶节点的预测、形成规则的后件, 而且这种决策树的种类要很大, 方便看清楚。输出的规则要简明扼要、易于理解, 它的作用主要体现在用户和数据挖掘能够很好的进行沟通交流, 也可以直接进行数据挖掘任务的交换和分析, 像一座桥梁。

例如对《程序设计》课程的相关学生数据进行挖掘, 得到学生成绩是否良好的决策树模型。

根据图1可以得到本系统多达十二项的决策规则集。在本例中, 因为对学习成绩的影响因素是重点的研究对象, 侧重考虑的是影响成绩优良的各种条件, 所以显示分类规则的统计方式是采用成绩优良所占百分比的方式。

实验结果与分析

改进的算法在成绩分析与评价过程具有一定的应用价值。将成熟的分类模型应用到具体的学生成绩分析诊断与评价管理工作中, 在应用数据集的基础上执行模型并设置相应的参数, 获取最终的知识和规则存入知识库并以一定的方式呈现给用户, 及时预知影响学习成绩的因素, 指导教学的日常管理工作。

结束语

本文的ID3改进算法, 就是在粗糙理论的基础上依据决策协调度, 计算出属性集中各个属性的决策协调度, 然而, 这个方法计算出的属性协调度会显示出属性协调度波动范围小甚至出现相等的现象, 所以信息增益的验证就在这里体现出了它至关重要的作用。优化后的改进算法, 减小了在计算上复杂程度, 使挖掘的准确率得到了较大的提高。

上一篇:英语的形象性问题下一篇:超声诊断与监护