故障决策树(精选7篇)
故障决策树 篇1
0 引言
无人机的发射机作为无人机系统中及其重要的一环,其功能是实现对无人机飞行状态和机载任务设备工作状态的实时遥控指令的下达,是连接飞行器平台和地面操作指挥人员与设备的信息桥梁。随着新兴的航空电子设备技术在无人机上面的应用,其发射机含有的电子设备的复杂度、集成度和智能化程度也越来越高,影响其工作性能的因素不仅限于发射机本身部件群,从而直接导致的结果就是对发射机的检测诊断难度越来越大,因此对于发射机的故障诊断的准确性和快速性提出了更高的要求。
1 无人机发射机简介
无人机数据链发射机是无人机系统的重要组成部分,主要用于无人机数据链系统遥控基带信号对载波的调制与发射。其工作原理如图1所示。
2 多类分类支持向量机简介
SVM是为二分类问题设计的,怎样把它推广到多分类问题是个正在研究的问题。目前已提出的若干种策略,总结起来可归纳成两类:第一类,分解成多个二分类器,然后综合起来常用的方法有一对一(One-against-One),一对多(One-against-rest),输出编码等;第二类,直接考虑多类问题。常用的综合方法有:MWV-SVM(投票法)、DAGSVM、突然死亡法、PWC(Pairwise Coupling,后验概率法)、WTA-SVM、“二分类器+Soft-max函数”。
上述多类分类方法都存在着一些不足,如存在不可分区域,分类未知样本时使用的支持向量机过多,支持向量机训练样本太多等问题。
与通常的方法相比,SVM决策树方法对于一个N值分类问题,需要寻找N-1个最优分类面。在分类阶段,该方法并不像通常的方法需要计算所有分类决策函数的值,它仅需要根据决策树的结构,计算所需要的分类决策函数值,随着训练的进行,需要的训练样本数逐渐减少,因此,在训练阶段,随着训练的进行,生成最优分类面所需要的训练时间逐渐减少。可以看出决策树方法可以避免传统方法的不可分情况,同时提高了训练和测试的速度。
3 基于支持向量机的模拟电路故障诊断方法
基于支持向量机的模拟电路故障诊断方法可以分为训练和故障诊断两个过程,如图2所示。首先通过对被检测电路的正常和各种故障状态进行仿真,获取到电路各种状态的典型样本并将其作为训练样本,接着对其进行数据预处理和数据特征提取,利用获得的特征训练样本对支持向量机进行训练,建立被检测电路故障诊断的支持向量机模型;在支持向量机训练完毕之后,把待诊断数据样本经过同样的数据预处理和数据特征处理过程后,输入到建立好的支持向量机模型,对其进行故障诊断。
4 实例应用
为验证决策树SVM在某型无人机数据链系统故障诊断中的效果,现将数据链系统中的发射机作为对象进行验证。
4.1 建立决策树
作为决策树SVM,首先要进行决策树的建立。良好的决策树能够将问题简单化,并且能够根据问题建立良好的SVM模型,使SVM的训练时间较少、分类准确率较高;建立一个错误或者不适合的决策树,顶层分类的不良影响就会对后续分类造成影响并一直累积,使分类问题复杂化,加剧SVM训练时间、降低分类精度。
为建立一个良好的决策树,就要对研究对象有着深入的了解。根据某型无人机数据链系统发射机的工作原理,按照功能模块可划分为:电源板模块,分路器模块、锁相单元、振荡器、衰减器,其结构如图3所示。
在对部件运行失效、部件需求失效、部件试验和维修等方面的模型分析的基础上,通过对发射机的长期维护、保障,可以得出功能模块发生的故障概率从高到低为:振荡器故障、衰落器故障、锁相单元故障、分路器故障(由于电源板故障通过简单的测试就可以查出,故不作为本文决策树考虑范围)。为达到故障诊断的快速实现,现按照功能模块发生概率的高低建立决策树,共需要建立4个SVM分类器,如图4所示。
4.2 建立样本数据
根据某型无人机数据链系统发射机的工作原理以及工作特点,结合上文所建立的决策树,将振荡器模块、衰落器模块、锁相单元模块、分路器模块作为SVM的输入。每个模块的参数从发射机模块的15个参考点的波形参数提取,经过数据预处理和数据特征提取之后,作为SVM的输入样本。
针对这4种故障以及无故障情况,从15个参考点共提取500组数据作为决策树SVM的输入样本。其中,系统无故障数据50组,每种故障模块数据50组,共250组数据作为决策树SVM的训练样本,剩下的250组样本按照同样的选取规则选取,作为决策树SVM的诊断测试数据,具体样本组成实例如表1所示。
4.3 实验验证
在Matlab2009b的环境下,选取核函数为高斯(径向基)核,取支持向量机惩罚参数,C=200,σ2=8的参数下,可得诊断结果如表2所示。
为比较决策树SVM与其他多类分类方法的诊断正确率,现将同样的500组数据作为训练样本和诊断样本作为1-a-1,1-a-r, DAGSVM的输入,最终诊断正确率结果如表3所示。
从表3可以看出,本文所提到的决策树SVM具有较好的故障诊断正确率,能够准确地解决某型无人机数据链系统发射机的故障诊断问题。
5 结束语
基于决策树的SVM与其他多类SVM相比,能够解决如存在不可分区域,分类未知样本时使用的支持向量机过多,支持向量机训练样本太多等问题,一定程度上弥补了支持向量机在多分类问题上的不足。本文结合某型无人机数据链发射机系统的故障诊断,提出了一种按照故障概率组建的决策树SVM诊断策略,将故障准确的定位在其内部电路功能模块。 经实验 表明,总诊断正确率达到了97.2%,收到了令人满意的诊断效果,具有良好的使用价值。
摘要:为能够准确地对无人机数据链发射机进行故障诊断,通过对某型无人机数据链发射机工作原理和故障模型分析,结合长期的维护、保障经验,提出了一种基于故障优先级的决策树支持向量机故障诊断方法,避免了现有的多类分类支持向量机在多类故障诊断方面存在不足,优化了多类分类支持向量机组合策略。经试验,与几种常用的多类分类支持向量机方法对比,该诊断策略有效得提高了故障诊断正确率,能够准确地定位发射机内部故障功能模块,具有一定的实际意义。
关键词:决策树,SVM,故障诊断,发射机,无人机
参考文献
[1]冯少荣.决策树算法的研究与改进[J].厦门大学学报:自然科学版,2007,46(4):496-500.
[2]Breiman L,Friedman Jh,Olshen RA,et al.Classification and regression tree[M].California:Wadsworth Publishing Company,1984.
[3]Quinlan JR.Induction of decision tree[J].Machine Learing,1986,1(1):81-106.
[4]HSUCW,LNCJ.A comparison of methods for multi-class supportvector machines[J].IEEE Transactions on Neural Networks,2002,13(2):415-425.
[5]王安娜,邱增,吴杰,等.基于SVM多类分类算法的模拟软电路故障诊断[J].东北大学学报,2008,29(7):924-927.
[6]唐静远,师奕兵,张伟.基于支持向量机集成的模拟电路故障诊断[J].仪器仪表学报,2008,22(6):1216-11219.
[7]朱大奇.电子设备故障诊断原理与实践[M].北京:电子工业出版社,2004.
[8]朱大奇.航空电子设备故障诊断新技术研究[D].南京航空航天大学,2002.
[9]王国胜.支持向量机的理论与算法研究[D].北京邮电大学,2007.
[10]孙永奎.基于支持向量机的模拟电路故障诊断方法研究[D].电子科技大学,2009.
故障决策树 篇2
本文所使用的是基于Excel表格软件,利用VBA编程,开发出一个决策树插件,使之具有更高级的建模和决策分析能力。
1 Excel及VBA
Microsoft Excel是微软公司的办公软件MS Office组件之一,Excel使用方便,界面简洁,功能强大,易上手,深受大众的喜爱。集成优秀的科学计算、数据处理和分析等功能。VBA是Visual Basic的应用程序版,继承了VB的开发机制。在Excel进行VBA编程构造插件,可以针对大数据量进行数据处理和分析,可代替用户做大量重复性工作,减轻用户的计算量。
本文将介绍利用Excel简易操作性和数据处理能力结合VBA编程,快速开发一个用于辅助医学决策的决策树插件。
2 决策树
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。
2.1 决策树简介
目前分类与预测的主要工具有几种,其中一种是神经网络,神经网络进行决策分析是非常有效及准确的,但其缺点亦是十分明显的--需要大量学习案例。而决策树是相对简单的一种分类预测工具,从一堆无规则、零散的实例中推出分类规则,使之辅助决策者进行决策。虽然其缺点是无法适用与一些无法用数量表示的决策、算法进行计算时有时会由于算法的主观因素导致决策失误。然而其优点是结构简单、效率高、精确度高。
构造决策树有多种算法,国际上最早具有影响力的决策树是由JRQuinlan提出的ID3速算法,是基于信息熵的决策树分类算法,后来JRQuinlan又提出了ID3的改进版本C4.5算法,C4.5算法则用信息增益率来选择决策属性,在ID3的基础上还增加了对连续属性的离散化、对未知属性的处理和产生规则等功能[2]。
2.1.1. ID3算法
ID3算法是比较著名且应用较广的算法,通过对一个训练集进行学习计算生成决策树,它有一个根节点,从根节点开始,根据其算法的核心步骤(计算信息增益),产生最好的分裂分支,并进行分类,循环算法,直到产生一颗结构完整的决策树。
2.1.2 C4.5算法
C4.5算法是在ID3算法的基础上改进的,增加了增益率的计算,避免ID3算法中的一些错误,从而更精确的分类预测。
2.1.3 CART算法
对上面两种算法再进行演化改进,增加了GINI指标,使决策树算法更加完善,结果更加精确,对辅助决策更具有参考性。
2.2 决策树小实例[3]下面引用一例子演示ID3算法完成决策树决策,见表1。
ID3算法进行决策分裂节点是运用了信息熵作为启发式函数,选择最大信息增益的属性作为最优分裂点。本例子的分类属性为health-care,其余属性为训练样本集。
2.2.1 信息增益计算
根据本例子的数据,分类属性中,设属性类C1为"是",其有9个元组。设属性类C2位"否",其有5个元组,则信息熵值
计算每个属性的期望信息,从属性age开始。对年龄的每个元组进行观察其分类属性的值,得到age期望信息
最后得到age的信息增益为
同样道理可以得到
由此可发现,age在属性中具有最高的信息增益,所以它将被选为分裂属性。
2.2.2 属性
age分裂出的元组后整理作图,由此可得到我们的决策图,见图1。
3 决策树插件
经过以上的计算和归纳,可总结出规律并进行决策,判断某些用户是否会购买药物。但是,如果数据量过大的话,按照这样进行计算是十分困难的。针对这个问题,我们利用VBA编程开发了一个决策树插件,其外观简洁,使用方便,仅需会对Excel一定操作的用户便可使用。
3.1 决策树插件界面
此插件仅需分别输入训练样本集、分类属性、测试属性列表,然后选择要进行决策的算法类型(ID3、C4.5、CART),确定后即可得到决策树。见图2。
例如上面所说的例子,训练样本集即是age、weight、sex、chronic-ill,分类属性为health-care,测试属性列表即为所有数据总和。本文用仅用ID3进行演示。
3.2 决策树插件计算结果
由以上数据可分析得出决策节点界面,此界面可延伸出更多功能。展开结点后可看出决策树计算的结果见图3。
点击"生成决策树"后可将所有结点的计算结果画图,见图4。
从图4中可看出经决策树插件运算及处理后得到的结果和人工计算得到的结果一样。经实验发现,本插件对应数据量大的集合也是一样适用,且精确度高,计算速度快。
4 总结
经实验证明,在Excel中基于VBA编程使用决策树插件,进行决策分析,可直观的辅助决策者进行决策。其将Excel的数据计算、分析处理等优点与决策树的直观清晰的分析处理能力相结合,最重要的是使用方便,无需进行一门新软件或新语言,仅需在Excel的基础上进行操作,即可进行决策分析,已经可满足大部分医药院校大学生对普通决策分析的要求。本文的决策树插件仅仅演示了使用ID3算法进行决策分析,若需进行更深入的决策树分析,可采用ID3的改进版本C4.5算法进行决策分析。后续版本将开发CART算法版本的插件。
决策树技术是一种简单而又使用的分类、预测技术,可辅助决策者进行决策分析,其商业价值的强大将促进其在未来得到更好的法发展,其简单易用性将促进它的使用人群将越来越多,但是,决策树技术也会面临许多挑战和问题,如果能以更加简便的方式使用决策树分析,可以在很大的程度上提高医护人员的数据决策能力。
参考文献
[1]曹燕.决策分析模型在药物经济学中的应用[J].中国药房,2007,(8):15~17.
[2]Mehmed Kantardzi.数据挖掘-概念、模型、方法和算法[M].闪四清等译.北京:清华大学出版社,2003.
决策树学习研究综述 篇3
决策树是构建人工智能系统的主要方法之一, 随着数据挖掘技术在商业智能等方面的应用, 决策树技术将在未来发挥越来越强大的作用[1]。自从Quinlan在1979年提出构造决策树ID3算法以来, 决策树的实现已经有很多算法, 常见的有:CLS (concept learning system) 学习算法, ID4、ID5R、C4.5算法, 以及CART、C5.0、Fuzzy C4.5、0C1、QUEST和CAL5等[2]。
现在, 许多学者在规则学习与决策树学习的结合方面, 做了大量的研究工作。Brako等的ASSISTANT, 将AQ15中的近似匹配方法引入决策树中。Clark等的CN2, 将ID3算法和AQ算法编织在一起, 用户可选择其中任何一种算法使用。Utgoff等的ID5R算法, 不要求一次性提供所有的训练实例, 训练实例可以逐次提供, 生成的决策树逐次精化, 以支持增量式学习。洪家荣教授结合实际应用问题对ID3算法作了一些改进, 提出了两个ID3和AQ结合的改进算法, IDAQ和AQID, 此外, 还陆续出现了处理大规模数据集的决策树算法, 如SLIQ, SPRINT等等[3]。
2 决策树算法研究
2.1 构造决策树算法
决策树学习是从无次序、无规则的样本数据集中推理出决策树表示形式、逼近离散值目标函数的分类规则方法。它采用自顶向下的递归方式, 在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支, 在决策树的叶结点得到结论, 因此从根结点到叶结点的一条路径就对应着一条规则, 整棵决策树就对应着一组表达式规则。我们可将决策树看成是定义布尔函数的一种方法。其输入是一组属性描述的对象, 输出为yes/no决策。决策树代表一个假设, 可以写成逻辑公式。决策树的表达能力限于命题逻辑, 该对象的任一个属性的任一次测试均是一个命题。在命题逻辑范围内, 决策树的表达能力是完全的。一棵决策树可以代表一个决定训练例集分类的决策过程, 树的每个结点对应于一个属性名或一个特定的测试, 该测试在此结点根据测试的可能结果对训练例集进行划分。划分出的每个部分都对应于相应训练例集子空间的一个分类子问题, 该分类子问题可以由一棵决策树来解决。因此, 一棵决策树可以看作是一个对目标分类的划分和获取策略[4]。
2.2 处理大规模数据集的决策树算法
ID3或者C4.5算法都是在建树时将训练集一次性装载入内存的。但当面对大型的有着上百万条纪录的数据库时, 就无法实际应用这些算法。针对这一问题, 前人提出了不少改进方法, 如数据采样法、连续属性离散化法或将数据分为若干小块分别建树然后综合成一个最终的树, 但这些改进都以降低了树的准确性为代价。直到Metha, Agrawal和Rissane在1996年提出了SLIQ方法, 以及在此基础上进行改进得到的SPRINT[6]方法。
3 决策树学习的常见问题
3.1 过度拟合
在利用决策树归纳学习时, 需要事先给定一个假设空间, 且必须在这个假设空间中选择一个, 使之与训练实例集相匹配。我们知道任何一个学习算法不可能在没有任何偏置的情况下学习。如果事先知道所要学习的函数属于整个假设空间中的一个很小的子集, 那么即使训练实例不完整, 也有可能从已有的训练实例集中学习到有用的假设, 使它对未来的实例进行正确的分类。当然, 我们往往无法事先知道所要学习的函数属于整个假设空间中的哪个很小的子集, 即使是知道, 我们还是希望有一个大的训练实例集。因为训练实例集越大, 关于分类的信息就越多。这时, 即使随机地从与训练实例集相匹配的假设集中选择一个, 它也能对未知实例的分类进行预测。相反, 如果训练实例集与整个假设空间相比过小, 即使在有偏置的情况下, 仍有过多的假设与训练实例集相匹配, 这时作出假设的泛化能力将很差。当有过多的假设与训练实例集相匹配, 便称为过度拟合 (overfit) 。
3.2 树剪枝
对决策树进行修剪可以控制决策树的复杂程度, 避免决策树过于复杂和庞大。此外, 还可以解决过度拟合的问题。
修剪决策树有多种算法, 通常分为这样五类。最为常用的是通过预剪枝 (pre-pruning) 和后剪枝 (post-pruning) 完成, 或逐步调整树的大小;其次是扩展测试集方法, 首先按特征构成是数据驱动还是假设驱动的差别, 将建立的特征组合或分割, 然后在此基础上引进多变量测试集。第三类方法包括选择不同的测试集评价函数, 通过改善连续特征的描述或修改搜索算法本身实现;第四类方法使用数据库约束, 即通过削减数据库或实例描述特征集来简化决策树;第五类方法是将决策树转化成另一种数据结构。这些方法通常可以在同另一种算法相互结合中, 增强各自的功能。
4 决策树在工程中的应用
决策树在工程中的诸多领域获得了非常广泛的应用, 主要有以下几个方面:
4.1 决策树技术应用于机器人导航
E.Swere和D.J.Mulvaney将决策树技术应用于移动机器人导航并取得了一定的成功。
4.2 决策树技术应用于地铁中的事故处理
法国的Brezillon等人成功地将决策树技术应用于地铁交通调度智能系统。他们根据决策树的基本思想开发出上下文图表来帮助驾驶员针对事故做出正确的处理。
4.3 决策树技术应用于图像识别
决策树技术应用于包括图像在内的科学数据分析。如利用决策树对上百万个天体进行分类, 利用决策树对卫星图像进行分析以估计落叶林和针叶林的基部面积值。
4.4 决策树应用于制造业
决策树技术已经成功应用于焊接质量的检测以及大规模集成电路的设计, 它不仅可以规划印刷电路板的布线, 波音公司甚至将它用于波音飞机生产过程的故障诊断以及质量控制。
5 决策树技术面临的问题和挑战
发展至今, 决策树技术面临的问题和挑战表现在以下几个方面:
5.1 决策树方法的效率亟待提高
数据挖掘面临的数据往往是海量的, 对实时性要求较高的决策场所, 数据挖掘方法的主动性和快速性显得日益重要。应用实时性技术、主动数据库技术和分布并行算法设计技术等现代计算机先进技术, 是数据挖掘方法实用化的有效途径。
5.2 适应多数据类型、容噪的决策树挖掘方法
随着计算机网络和信息的社会化, 数据挖掘的对象已不是关系数据库模型, 而是分布、异构的多类型数据库, 数据的非结构化程度、噪声等现象越来越突出, 这也是决策树技术面临的困难问题。
6 结论
决策树技术早已被证明是利用计算机模仿人类决策的有效方法, 已经得到广泛的应用, 并且已经有了许多成熟的系统。但是, 解决一个复杂的数据挖掘问题的任何算法都要面临以下问题:从错误的数据中学习、从分布的数据中学习、从有偏的数据中学习、学习有弹性的概念、学习那些抽象程度不同的概念、整合定性与定量的发现等, 因此, 还有很多未开发的课题等待研究。若将决策树技术与其他新兴的技术相结合, 决策树技术将焕发出新的生命力。
摘要:决策树分类学习算法是使用广泛、实用性很强的归纳推理方法之一, 在机器学习、数据挖掘等人工智能领域有相当重要的理论意义与实用价值。在详细阐述决策树技术的几种典型算法以及它的一些常见问题后, 介绍了它在工程上的实际应用, 最后提出了它的研究方向以及它所面临的问题和挑战。
关键词:决策树,决策树算法,ID3,C4.5,SLIQ,SPRINT
参考文献
[1]J Han, M Kamber.范明, 孟小峰, 等译.数据挖掘:慨念与技术[M].北京:机械工业出版社, 2001.
[2]史忠植.知识发现[M].北京:清华大学出版社, 2002.1.
[3]王珏, 石纯一.机器学习研究[J].广西师范大学学报 (自然科学版) .June2003.Vol.21, Issue 2:1-15
遥感监督分类的决策树算法研究 篇4
一、决策树算法的图像分类研究
1. 常用的决策树算法简介
决策树是一个类似流程图的树型结构, 其中树的每个内部节点代表对一个属性的测试, 其分支代表测试的每个结果, 而树的每个叶子节点代表一个类别, 树的最高层节点就是根节点, 是整个决策树的开始。这类算法无须相关领域知识, 且相对于基于模糊理论的分类方法, 具有更高的分类准确率和更快的处理速度。在很多领域特别是数据挖掘中, 决策树是一种经常要用到的技术, 它可以用于分析数据, 也可以用来作预测, 常用的算法有ID3, CART, C4.5等。
(1) ID3算法是最有影响和最早的决策树算法之一, 其建立在推理系统和概念学习系统的基础上, 但它是非递增学习算法。每当一个或数个新例子进来, 就必须重新执行一次该算法, 把新来的例子和以前旧的全部例子集合变成决策树, 因此效率非常低。而且它是基于单变量的, 难以表达复杂概念, 抗噪性差。
(2) C4.5是ID3的改进版本。它主要在以下几个方面对ID3作了改进:缺省值的预测属性仍可用, 提出了修剪思想, 可以进行规则推导。
(3) CART (ClassificationandRegressio nTree, 分类回归树) 是一种数据勘测和预测算法。它用一种非常简单的方法来选择问题, 即将每个问题均试一次, 然后挑出最好的一个, 用它把数据分成更有序的两个分割, 再对新的分割分别提出所有可能的问题。因此该算法得到的决策树每个节点有两个分支, 即二叉树。
2. 改进决策树生成算法
为了更好地将决策树算法应用于遥感图像分类中, 本文在CART算法的基础上作了以下改进。
(1) 常用的决策树算法均由用户提供训练样本集, 计算机执行算法生成决策树, 整个过程由计算机自动完成, 不需要任何人工干预。由于遥感图像训练集的属性取值太多, 而有些取值是用不到的, 需要把这些用不到的取值过滤掉, 否则会影响整颗树的质量。因此本文在决策树的生成过程中引入人机交互技术, 将用户的先验知识用于决策树的生成过程中, 使得生成的决策树更加合理可信。基于人机交互的决策树方法由用户与计算机相互交互, 共同完成, 故要求计算机提供可视化环境和工具, 友好的界面方便用户输入先验知识。
(2) 建立一棵树首先需要选择一个属性作为根节点, 然后将该属性的每一个可能值作为一个分支;再在每个分支所剩余的属性中找出一个属性作为该分支的下一个节点, 如此循环到所有属性均被选用为止。常用的决策树算法均采用信息熵作为选择标准。由于遥感图像中的噪音比较多, 而基于信息熵属性选择标准往往抗干扰能力不强且以对数计算为累加计算的计算量较大, 故本文采用了一种新型的属性选择标准:属性重要性来提高属性选择的效率。该方法是用训练值的变化而引起输出变化的累加值作为衡量属性重要性的标准, 即对于某个属性, 如果训练值的变化而引起的输出变化越大, 说明该属性就越重要。可用式 (1) 表示为C (K) =∑x (i, k) -x (j, k) ×signy (i) -y (j) (i≠j) (1) 式中:C (K) 表示第k个属性的输入/输出关联值;x (i, k) , x (j, k) 表示第i, j个样本的第k个条件属性值;y (i) , y (j) 表示第i, j个样本的决策属性值;sign (x) 表示符号函数。
3. 一种自定义的数据结构
数据结构的设计在程序设计中很关键, 一个好的数据结构可以让算法更加精练, 大大提高开发效率。本文采用的算法是在CART算法的基础上改进过来的, 因此生成的也是一棵二叉树。但由于在生成算法中要频繁地查找和调整决策树 (添加或者删除子树) , 传统的二叉树结构在速度上不能满足算法的需求, 故笔者在设计系统时创新了一种类二叉树的结构。在树的每一层都设置了一个头节点, 且树的每个节点只有指向父节点和左右兄弟节点的指针。
4. 系统实现
图3为系统架构图。其中D是训练集合, A为分类属性集合。另有测试数据集合T用来评估生成决策树的误差ε。整个过程分为两个部分进行: (1) 决策树构造, 也称学习过程, 主要工作是输入训练集, 采用改进的决策树生成算法生成决策树, 并作好分类前的预备工作, 即提取分类规则; (2) 决策树预测, 也称分类过程, 主要工作是应用分类规则进行分类, 并根据测试集, 计算出分类误差, 误差较大的对决策树作裁剪算法。误差较小的就输出其分类结果, 分类结果有两种: (1) 将分类结果写入新的遥感图像文件 (如MIG文件) 中; (2) 可视化的树结构, 在树的叶子节点保存着每一类的属性。
二、结语
通过本文研究发现:决策树算法对于输入数据的空间特征和分类标志具有更好的弹性和坚韧性, 它用于遥感数据分类的优势主要在于对数字图像数据特征空间的分割上, 其分类结构简单明了, 尤其是二叉树结构的单一决策树结构十分容易解释。因此, 当遥感图像数据特征的空间分布很复杂, 或者源数据各维具有不同的统计分布和尺度时, 基于决策树算法的分类方法能够获得较为理想的分类结果。
参考文献
[1]李宁, 等.决策树算法及其常见问题的解决[J].计算机与数字工程, 2010, 3 (33) :60264.
一种改进的决策树学习算法 篇5
分类是数据挖掘领域的重要研究课题之一。目前, 有多种分类方法, 如:贝叶斯、决策树、神经网络等。其中决策树是一种非常直观的知识表示方法, 同时也是高效的分类器。在各种决策树算法中, 最有影响的是J.R.Quinlan1986年提出的以信息熵下降速度为启发信息选取节点的ID 3算法[1]、C 4.5算法[2]等。这种方法已广泛应用于实际分类问题, 但C.45采用的是分而治之的策略, 在构造树的内部节点时是局部最优的搜索方式, 所以它所得到的最终结果尽管有很高的准确性, 仍然达不到全局最优的结果。为此, 现引入平衡度系数对传统C 4.5算法进行改进, 最终使建立的决策树具有更高的准确性。
1 C 4.5算法简介
在决策树学习算法中, 最有影响力的是Quinlan提出的ID 3算法。C 4.5算法是Quinlan于1993年提出的, 是对ID 3算法的改进, 主要是克服了ID 3算法选择偏向于取值多的属性的不足, 但难以获得全局的最优解[3,4]。
C 4.5算法主要步骤如下。
设T为数据集, 类别集合为{C1, C2, …, Ck}, 选择一个属性V把T分为多个子集。V有互不重合的n个取值{v1, v2, …, vn}, 则T被分为n个子集T1, T2, …, Tn, 其中Ti中所有实例的取值均为vi。令T为数据集T的例子数, Ti为V=vi的例子数, Cj=freq (Cj, T) 为Cj的例子数, Cjv是V=vi例子中具有类别Cj的例子数。则有:
(1) 类别Cj的发生概率为:
(2) 属性V=vi的发生概率为:
(3) 属性V=vi的例子中, 具有类别Cj的条件概率为:
(4) 类别信息熵计算:
H (C) =-∑j P (Cj) lgP (Cj) =-∑kj=1freq (Cj, T) T lg freq (Cj, T) T=Info (T) (1)
(5) 类别条件熵:
(6) 信息增益:
(7) 属性V的信息熵:
(8) 信息增益率:
C.45算法的一些不足。
第一, C.45采用的是分而治之的策略, 在构造树的内部节点时是局部最优的搜索方式, 所以它所得到的最终结果尽管有很高的准确性, 仍然达不到全局最优的结果;
第二, C 4.5评价决策最主要的依据是决策树的错误率, 而对树的深度、节点的个数等不进行考虑, 而树平均深度直接对应着决策树的预测速度, 树的节点个数则代表树的规模;
第三, 一边构造决策树, 一边进行评价, 决策树构造出来之后, 很难再调整树的结构和内容, 决策树性能的改善十分困难;
第四, C 4.5在进行属性值分组时逐个试探, 没有一种使用启发搜索的机制, 分组时的效率较低。
2 C 4.5算法的改进
C 4.5算法在构造树的内部节点的时候是局部最优的搜索方式, 所以它所得到的最终结果尽管有很高的准确性, 仍然达不到全局最优。对此下面提出一个平衡度系数λ (0<λ<1) , 它是一个模糊的概念, 其大小由决策者根据先验知识或领域知识来确定[5]。
改进的C 4.5算法是针对规则生成方法即属性选择标准算法进行了改进。通过对式 (2) 和式 (4) 中的加权和引入一平衡度系数, 降低了某些属性的信息熵, 相应地提高了其他属性的信息熵。把加权和转换为加权和加平衡度系数, 最终使建立的决策树在特定环境下具有更高的准确性。
现指定某一属性的平衡度系数为λ, 引入平衡度系数后式 (2) 、式 (4) 、式 (5) 分别变形为式 (6) 式 (7) 和式 (8) 所示。
改进的C 4.5算法就是把式 (6) 、式 (7) 和式 (8) 作为测试属性的选择标准来构造决策树。现实应用中可以首先用C 4.5算法构造决策树, 如果结果中出现了某些重要属性比非重要属性离根结点的距离远的情况, 则可设定此平衡度系数, 再利用改进后的C 4.5算法重新构造决策树并进行规则提取, 来达到特定环境下具有更高准确率的特性。
3实例分析
下面表1给出了根据天气情况决定是否适合做运动的几个相关指标的数据集合, 共有4个属性:outlook、temperature、humidity和windy。这4个属性被分为play和dontplay两类。 (见表1)
现将以此样本数据集为训练集, 采用C 4.5算法构造决策树对训练数据进行分类。经计算可知:Gain ratio (outlook) (=0.3058) >Gain ratio (humidity) (=0.0618) >Gain ratio (temperature) (=0.0269) >Gain ratio (windy) (=0.0031) , 因此首先选取“outlook”作为划分属性对上述样本训练集进行分类, 可得决策树如下图1所示。
但是在实际生活中, 人们判断某天天气是否适合出去作某项运动, 虽然在很大程度上受outlook属性的影响很大, 但是对于一些比较特别的一些室内运动却受outlook属性的影响相对较小。所以在这种特殊情况下必须降低outlook属性在判断天气情况中的重要性, 相应提高其他Attributes在判断天气情况中的重要性, 才能建立更符合实际情况的决策树以便作出更加准确合理的决策。
下面用改进后的算法对表1样本数据集重新生成决策树。指定outlook属性的平衡度系数λ=0.3, 其它属性的平衡度系数设为0。根据改进算法条件熵、属性信息熵的计算公式, 同样利用表1的数据来生成决策树。首先对根结点进行分类, 则由表1可知, play类实例个数为9个, don't play类实例个数为11个, 将上述实例数据代入公式 (6) 、 (7) 、 (8) :
由改进后的算法重新构造的决策树如下图2所示:
比较图2和表图可以看出outlook属性离根结点距离变远, humidity、temperature属性离根节点距离缩短。即改进算法基本上降低了在特定情况下不能作为判断天气情况的次要因素-outlook属性在分类中的重要性, 同时提高了humidity、temperature属性在分类中的重要性。令分类结果更为准确合理, 可以更为准确的判断天气情况, 便于决策者做出正确的决策。但因样本数据集太小的原因, 生成的规则中会有少数与实际情况不符, 如果增大训练集并对数据进行预处理消除噪音干扰等则效果更好[5,6]。
4 结论
改进的C4.5算法是在传统C4.5算法的基础上加进平衡度系数构成的, 它可以依靠先验知识或领域知识在特定环境下人工增大某些属性信息的信息熵, 相应降低其他属性信息的信息熵, 最终使建立的决策树具有更高的准确性。文章在特定环境下人工协调了各属性信息增益率, 用改进的算法构造出的决策树进行分类更为准确、合理。这不仅拓展了决策树分类算法在实际领域中的应用, 对数据挖掘技术的研究和发展也起到了一定的推动作用。
参考文献
[1] Quinlan J R.Induction of decision tree.Machine Learning, 1986; (1) :81—106
[2] Quinlan J R.C 4.5:program for machine learning.San Marteo:Mor-gan Kaufmann Publisher-s, 1993:21—301
[3]毛聪莉, 易波.基于决策协调度的最简决策树生成算法.计算机工程与设计, 2008;29 (5) :1250—1252
[4]史长琼, 易昂.基于多决策树算法的网络入侵检测.计算机工程与设计, 2004;25 (4) :518—519
[5]曲开社, 成文丽, 王俊红.ID3算法的一种改进算法.计算机工程与应用, 2003; (25) :104—107
一种改进的决策树算法研究 篇6
决策树分类算法中的ID3算法是Quilan在1986年提出来的,也是决策树构造中的经典算法[1]。ID3算法是以信息论为基础,它使用信息熵和信息增益两个指标为衡量标准,选择信息增益最大的属性划分训练样本,从而生成决策树。
定义1、按类标签对训练集D的属m性集A进行划分,信息熵为:
Pi为训练集D中属于第i类的概率。
定义2、按属性集A中每个属性进行划分,得到一组信息熵:
Dj为属性集中每个属性的出现的次数,D为所有属性的总次数。
定义3、信息增益为:
ID3算法对每个节点中选择Gain(A)中最大的属性A作为选择分支的属性。这种算法的缺点是:倾向于选择取值较多的属性[2],在有些情况下这类属性可能不会提供什么有意义的信息,ID3学习简单逻辑表达式的能力差[3]。此外,ID3将注意力集中在属性的选择方面,而属性的选择对决策树的影响如何, 仍无定论[4]。
2 改进的ID3算法
1)调整信息增益
针对ID3算法偏向于选择取值较多但实际中并不总是最优的属性作为测试属性的缺点,调整信息增益。Gain’(A)=Gain(A) /X,其中X的取值大于等于1,主要由属性A的取值个数和使用者根据经验及领域知识来确定,一般取值个数越多则X越大。改进的ID3算法通过调整每个属性的信息增益,使生成决策树时数量少但又很重要的属性不会被淹没,最终使决策树克服了对取值多的属性的偏爱,因为属性取值越多,调整后的信息增益就越小,这个属性当然就很难被选中为判断属性了。
2)剪枝
剪枝方法主要是考虑在决策树的哪个位置产生叶子合适 [5]。剪枝算法分前剪枝和后剪枝。前剪枝是在决策树构造过程中选取某个预定义的阀值,使得某些节点不再继续分裂,限制树的生长。后剪枝是将已生成的决策树做去分支处理[6]。前剪枝由于很难选取一个合适的阀值,应用困难。后剪枝的时间复杂度高,但生成的决策树准确度高,但主要应用的几种后剪枝算法都存在过剪枝或欠剪枝现象。由于各种剪枝算法都有缺点,所以本文提出采用灵活的剪枝方法进行剪枝。
剪枝方法为:首先,根据具体需要设定生成决策树的高度、精确度等信息,设定主要依据经验和领域知识来确定。然后, 针对决策树节点a来说,对a进行剪枝,则产生的错误分配样本数为:
未剪枝的子树错误分配样本数为:
未剪枝的子树误差为:
其中,e(a)为a节点的错误分配样本数,Ti(i=1,2,…,n)是Ta节点的子节点,Ca是Ta节点的子节点数。如果叶子节点的成立,那么Ta可以剪枝。
3实验测试结果
实验所用数据为UCI数据库中的Iris数据集(样本数209个,属性7个)、Breast数据集(样本数817个,属性11个)和Seg-mentation数据集(样本数2932个,属性26个)。对这三个数据集所有连续值的属性使用DBChi2算法对数据进行离散,随机抽取每个数据集中的2/3用于训练样本集,其余的1/3用作测试样本集,然后分别用传统的ID3算法和改进的ID3算法构建决策树,最后通过测试样本集测试准确度。上述构造决策树的方法反复进行十次,得出的结果如表1。
从表1中能明显的得出,改进的ID3算法平均的分类准确度更高,生成决策树的平均叶子数也高过传统的ID3算法,具有更低的复杂性。从实验还得出改进的ID3算法通过不断的学习调整信息增益,从而克服了传统ID3算法倾向于选择取值较多的属性的缺点,但是改进的ID3算法通过实验得出在时间复杂度上和传统ID3几乎一致。
4 结束语
改进的ID3算法调整了传统的ID3算法的信息增益计算方法,又加入了灵活的剪枝策略。它可以依靠经验或领域知识人工增强重要属性在分类决策中调整信息增益,从而减少非重要属性的信息量,特别是它可以减少ID3算法对取值较多的属性的依赖性,从而改善分类规则和结果。
摘要:决策树算法是数据挖掘中的一个常用算法,它通过构造决策树来发现数据中蕴含的分类规则,如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树算法中常用的一种是ID3算法,该文针对传统ID3算法的缺点,提出一种改进的ID3算法,通过实验证实,改进的ID3算法在生成的决策树的规模和精度方面都比传统的ID3算法好,使用这种改进的ID3算法可以提高性能。
故障决策树 篇7
1 资产管理公司的现状及业务发展
1999年, 为了降低国有商业银行的不良资产, 具有中国特色的4家资产管理公司——信达、华融、东方、长城相继成立。
经过近10年的处置, 第一批剥离的政策性商业银行不良债权已基本处置完毕。近年来, 在积极参与商业银行不良债权的商业化收购与处置的基础上, 金融资产管理公司积极推进市场化转型, 不断完善综合金融服务功能, 搭建了包括银行、证券、保险、信托、基金、期货、租赁的金融全牌照平台。目前, 金融资产管理公司在保持不良资产经营主业优势的同时, 也积极投入高附加值、高技术含量的资产管理与投资业务。
2 竞争压力和流程优化的必要性
以中国信达资产管理股份有限公司为例, 在完成市场化转型, 成功构建具备全牌照的金融集团平台后, 信达的各项业务均受到了其他金融机构的激烈竞争。
综合金融服务类业务, 信达受到了中信、平安等大型金融控股集团的激烈竞争;投资类业务, 则需要与小型商业银行、信托公司抢占市场;即便传统类商业银行不良债权处置类业务, 也受到了国外不良资产处置机构、地方资产管理公司和商业银行自身设立的处置中心等对市场份额的侵蚀。可以说, 面对市场激烈的竞争, 资产管理公司在资金成本、品牌认知度、规模效应等方面均不具备显著优势。如何运用多年处置不良债权所沉淀的经验和社会资源, 挖掘多年积累的全能化人才的潜力, 提供小而灵活的服务成为资产管理公司能够在市场竞争中不断发展的关键。
作为一线业务人员, 笔者发现资产管理公司目前在流程上仍存在决策时间过长, 决策思路、流程不清晰等问题, 而此类问题极可能加剧客户流失, 使得资产管理公司在市场竞争中更显被动。所以, 优化业务流程, 在业务拓展过程中引入直观易懂、易操作、高效的决策模型, 对资产管理公司掌握主动、赢得时间、争取客户有着重要意义。
3 决策树分析模型
来源:http://wiki.mbalib.com/wiki
因为具备操作简单、显示直观并且结果一目了然等特性, 决策树分析模型是目前热门的项目决策、项目管理的方法之一。简单来讲, 决策树分析模型就是将决策过程的各个阶段信息 (如相关可供选择的方案、在不同情景下发生的概率、收益等) 汇总, 绘制出一张箭线图。并通过相应计算, 得出考量过风险损失后的潜在收益, 最终进行方案甄选的方法。
决策树分析模型一般由方块结点、圆形结点、决策枝、概率枝等组成, 方块结点称为决策结点, 由结点引出若干条细支, 每条细支代表一个方案, 称为决策枝;圆形结点称为状态结点, 由状态结点引出若干条细支, 表示不同的自然状态, 称为概率枝。每条概率枝代表一种自然状态。在每条细枝上标明客观状态的内容和其出现概率。在概率枝的最末梢标明该方案在该自然状态下所达到的结果 (收益值或损失值) , 见图1、图2。
也就是说, 企业需要决断的行为发生在决策结点;而在状态结点, 使用者能够获得考虑了变动因素后的预期收益或损失值。
4 决策树分析模型的实际运用
在上文中, 笔者简单介绍了决策树分析模型的基本概念和基本使用原理。此处, 笔者将通过两个简化的虚拟案例具体介绍决策树在资产管理公司中的运用。
4.1 决策树分析模型在收购传统商业银行债权中的运用
假设2015年6月, 当地商业银行B将推出一本金规模约10亿元的不良债权包, 经过初步沟通和测算, 资产管理公司A获悉收购成本约为1亿元, 该资产管理公司只参与年化收益率超过10%的项目。而根据当时不良债权处置市场的情况, 该不良债权包能够于1年、2年或3年处置完全的可能性分别为20%、50%和30%。3年中的处置可能值不发生变化, 分别为1.1亿元和1.3亿元, 概率均等。根据以上信息, 资产管理公司A是否应积极参与B银行资产包收购项目?根据上述条件, 笔者绘出的决策树如图3所示。
注:计算过程中已通过贴现计算, 考虑了A资产管理公司10%的收益率要求。
根据图3可以判定, 本次拟收购项目不符合A资产管理公司10%收益率的标准, 故不应参加本次收购。
4.2 决策树分析模型在投资类业务中的运用
假设2016年10月, 资产管理公司C与客户D公司洽谈规模约10亿元的投资类业务。客户D可接受单利年化12%的资金成本, 即若无提前还款, 2年后客户D将偿还12.4亿元。资产管理公司C只投资于年化收益率超过10%的项目, 双方初步拟定的收益率为年化12%。该项目拟投资时间为2年, 客户D可于资金投放1年后提前还款。若提前还款, 1年收益率加提前还款补偿, 年化收益率为12.5%, 客户D提前还款的概率为40%。2年后若市场严重恶化, 资产管理公司C仅能收回80%的本金, 即8亿元。市场严重恶化的可能性为10%。根据上述条件, 资产管理公司C是否应该投资于客户D?
根据上述条件, 笔者绘出的决策树如图4所示。
注:计算过程中已通过贴现计算, 考虑了A资产管理公司年化10%的收益率要求。
根据图4可以判定, 本次投资收益率超过资产管理公司C要求的10%收益率, 资产管理公司C应该积极推动本次投资。
以上两案例均为笔者虚拟的案例, 对现实因素进行了简化, 但通过上述案例中决策树分析模型的具体运用, 很好地展现了在进行初步投资判断时, 决策树分析模型展示出的直观、高效、简洁的优势。
5 可行性分析
笔者认为运用决策树进行项目初步判定较为可行, 原因如下。
(1) 操作可行性。决策树分析模型操作简便, 直观易懂的, 运作成本较低。只需要对资产管理公司内人员进行短期的培训, 就可上手操作。对于常规的项目, 决策树分析模型甚至无须借助计算机完成, 这也便于增进前台人员与审核人员及客户的有效沟通。
(2) 数据可用性。在模型中我们可能会用到较多数据, 但部分数据 (如投资额、贴现率、未出现意外事件的预期回收额等) 都为已知或可通过预测得到。笔者认为模型预测出的数据即便不能保证精准, 但也可起到提供模糊值, 为初步判定提供帮助。
6 决策树分析模型的积极影响
决策树分析模型因其自身优势已被广泛地应用于企业的投资决策之中。当面对多种执行方案且每种执行方案会有多种后续选择时, 决策树会不失为一种好选择。它有效地控制了决策带来的风险。
对于资产管理公司而言, 决策树分析模型所具备的高效、灵活的特性与资产管理公司业务模式的多样灵活性相契合。另外, 决策树分析模型的直观易懂也便于对客户资源的拓展。
7 决策树分析方法的局限性
(1) 适用于初步判定。由于决策树分析模型对于处理某些主观、复杂信息仍具备局限性, 较适合用于前期业务拓展及项目初步判定阶段。
(2) 决策树分析模型预测数据的主观性。决策树分析模型的操作并不复杂, 但却要求使用者具备一定经济预测能力。从上述两个案例中, 可以看出, 使用者需要预测出市场变化的概率及市场收益在不同市场情况下的收益值。这些输入变量预测的准确性将直接影响到所绘制决策树模型的分析结果, 并最终影响使用者的决策能力。但事实上, 不同使用者对于经济的预测势必会带有主观色彩, 这些主观性有可能会影响最终判断的准确性。
(3) 市场剧烈变动情况下分析模型的无效性。必须认识到, 在某些时期, 市场环境会发生大幅度波动。此时, 基于经验的预测值很有可能失去价值。所以, 决策树分析模型只是在既有的市场预期下为我们的决策提供参考, 却不能保证决策结果的最终的正确性。
摘要:为了应对市场的激烈竞争, 资产管理公司在业务推进过程中引入了决策树分析模型。本文通过介绍资产管理公司业务发展的现状, 并根据现有业务拓展中所存在的困境, 引出目前较热的决策树分析模型。通过这些案例, 可以看出决策树分析模型在操作上简单易行, 具备整合决策信息、缩短决策时间、简化分析流程, 以及有利于增进一线业务人员与客户、审核部门沟通等优势。最后, 总结了该分析方法的优势及运用中可能出现的问题。
关键词:资产管理公司,流程优化,决策树分析模型
参考文献