随机森林

2024-06-12

随机森林(共8篇)

随机森林 篇1

1传统的房价预测模型简介

1.1 ARMA模型

ARMA即自回归滑动平均模型, 是研究时间序列的重要方法, 可以研究并预测房价随时间的变化, 由AR (Auto-Regressive) 和MA (Moving-Average) 两个部分组成, 若时间序列yt服从 (p, q) 阶的ARMA模型, 则其满足形式为:

其中εt是独立同分布随机变量序列, 且E (εt) =0, 一般的对序列要进行平稳性检验, 若序列不平稳, 则进行差分平稳化处理及白噪声检验[1,2]。

1.2多元线性回归模型

多元线性回归模型经常用来刻画一个变量受多个变量影响时的情况, 适用于自变量与因变量之间呈现密切的线性相关且自变量之间具有一定的互斥性的情形, 其基本模型如下:

其中β0为常数项, β0, β1, …, βk是回归系数, ε是误差项且ε~N (0, σ2) , 一般的还需要对回归方程和参数进行显著性检验。

2随机森林模型的建立

2.1随机森林建模的步骤

随机森林在建立模型及预测的流程如图1所示:

其基本思想是通过自助法重采样技术从原始训练样本集中抽取样本生成新的训练样本集合, 由此生成多棵决策树组成随机森林, 分类数采取投票方式、回归数利用均值来进行结果预测, 具体步骤为: (1) 确定生成一棵决策树时用到的特征变量个数m (<M) , M表示特征变量数目; (2) 应用bootstrap法有放回随机抽取k个新的自助样本集, 并由此构建K棵决策树, 每次未被抽到的样本组成k个袋外数据, 即out-of-bag (OOB) ; (3) 每个自助样本集生长为单棵决策树, 每个节点处按照节点不纯度最小原则选取特征进行充分生长, 不进行剪枝操作; (4) 根据生成的决策树分类器对预测集进行预测, 对每棵树的预测结果求均值即为最终预测结果[3]。

2.2模型的建立与优化

整合2012年襄阳房贷数据, 得到6354条有效数据, 其中特征变量有房子所在楼层、总楼层、所在区域、房子面积、交易时间等, 解释变量为每平方米单价 (千元) 。以总数据的75%作为训练集构造随机森林, 剩下的25%数据作为测试集用来检验模型。每次抽取若干数据和特征变量, 以信息增益或基尼指数作为衡量标准来选择节点处特征, 然后进行充分生长构建决策树。

随机森林中最重要的两个参数有树节点预选的特征变量个数、随机森林中决策树的个数。特征变量个数决定了每棵树的规模, 太多会导致每棵决策树差别不大, 产生过拟合现象;太少则不能从数据中有效学习模型。同理, 决策树数量太多会浪费很多时间进行计算, 太少则预测效果很差。

图2中a图是利用R语言计算的默认的特征变量个数为1时的绝对累积误差和, 可以发现当决策树的数量大于150以后, 模型累积误差趋于稳定;对特征变量的个数进行遍历, 可以发现预选个数为2时误差和最小, 如b图所示。

3预测结果的对比

根据整合的房贷数据, 由训练集建立模型, 利用测试集来对房价进行预测, 随机森林与传统的ARMA模型和多元线性回归模型预测的部分房价 (单位:千元/平方米) 数据如表1所示。

4结果分析

由预测结果可以看出, 随机森林模型取得了较好的预测效果, 基于OOB数据和测试集数据的绝对误差均值分别为大约0.08 (千元/平方米) 和0.2 (千元/平方米) , 相对误差分别只有1.6%和4%, 虽然上述预测结果相对于ARMA等传统模型优势并不明显, 这是由于文章采用的数据特征变量数较少所导致的。实际中影响房子价格的可能还有小区的停车位、环境、运动设施、物业管理费用, 周边的交通如公交线路、地铁线路的数量, 到医院、学校、银行、商场、菜市场、CBD的距离等因素[4], 随机森林的优势在当特征变量数增加时会更加明显, 其预测精度会进一步提升。

摘要:根据襄阳2012年的房贷数据, 考虑影响房价的各种特征变量, 尝试建立随机森林模型, 利用其优秀的集成学习能力和泛化能力对测试样本进行房价预测, 并与学者应用较多的ARMA模型及经典的多元线性回归模型预测的房价和实际房价进行对比, 取得了较好的效果。

关键词:随机森林,房价,ARMA模型,多元线性回归模型

参考文献

[1]常振海, 刘薇.基于非参数自回归模型的房价预测[J].天水师范学院学报, 2010, 3 (2) :56-58.

[2]刘忠璐.ARIMA模型在房价预测中的应用[J].决策与信息, 2011 (4) :3-4.

[3]黄文, 王正林.数据挖掘:R语言实战[M].电子工业出版社, 2014:220-241.

[4]孙宪华, 张臣曦.房屋质量及其对房地产价格指数的影响[J].统计与信息论坛, 2009 (9) :43-47.

随机森林 篇2

摘 要:调查张掖地区义务教育阶段数学课程教学的现状,采用随机森林分类的方法,按照对新课改的态度不同,对教师、实习生以及学生进行分类,发现新课改施行过程中存在的问题,探讨解决办法。

关键词:调查问卷;随机森林;泛化误差;教育资源

一、调查形式设计

主要采用访谈、听课以及调查问卷的形式调查了张掖地区部分学校数学课程新课改的实施现状。其中访谈骨干教师六位;听课二十课时;从教师、学生以及实习生三个不同角度设计了不同的调查问卷。教师的调查问卷发出去100份,收回96份;实习生的发出100份,收回100份;学生的发出100份,收回90份。

教师的调查问卷讨论了数学课程实施的总体情况,教师的教学理念的改变,教学方式的变化,对《数学课程改革纲要》的理解、认可度;教学过程中遇到的问题;教学目标对知识、技能、情感以及态度的体现;教学组织形式上师师互动、师生互动、生生互动的情况;知识讲授与学习方法能力的培养等。实习生既充当着课程改革的被实施者,又充当着实施者,针对他们的调查问卷都是以比较形式出现的,主要有:从不同角度看课程改革,对课程改革教学实现的接受程度,学生所使用的教材与后续课程的衔接度,教学实施者对课程改革的态度,课程改革中遇到的主要问题,心目中好课程的标准,参与课程改革之后对学习方法有无促进等方面。

二、数据分析

分别就教师、学生、实习生的调查问卷的数据应用随机森林方法进行分类,随机森林是由Leo Breiman于2001年提出的一个统计方法,操作步骤如下:

1.设原始样本中共有N个样本,利用bootstrap重抽样方法从原始样本中有放回地抽取N个样本,作为训练集,此时原始训练集中每个样本未被抽取的概率为1-(1)N,当N足够大时,有,因而每次抽取的样本数大约为N个,将没有抽中的N样本作为袋外数据。

2.根据训练集样本向量的属性,对每个节点,随机选取向量属性的子集,选择分类效果最好的一位特征作为节点分裂属性,进行分类。

3.决策树生成过程中不做剪枝处理。

4.重复步骤(1)~(3)K次,由于每次抽取的样本均不同,因而不容易出现过拟合现象,得到随机森林,然后组合多棵决策树的结果,通过求众数得出最终的预测结果。

5.应用袋外数据估计泛化误差,这是一个无偏估计。

对调查问卷结果按上述算法进行分类,得出分类结果,将每个袋外数据代入训练集建立的决策树上,得到准确率的估计ε1,同时计算每个自助样本的准确率accs,得到准确率公式:

对所有的随机误差项求均值得到随机森林的泛化误差估计为11.6。

三、结果分析

1.由于各种客观原因,数学课程教学仍然存在很明显的“穿新鞋,走老路”的问题。《普通高中数学课程标准》改变了教材、理念、方式,但是评价学生学习程度好坏的评价体系仍然围绕考试成绩。特殊情况时才准备一节符合课程标准的“表演课”。

2.新教材里仍然存在一些思想超前,但执行起来受制于客观条件的内容。新课程有的内容很难,这已经远远超过了这一年龄阶段学生的认知能力;再如由于新课改教材对教学模块的改变,打乱了过去的模块结构,淡化了知识内在的联系,设置了大量的探究性、事件性活动,对学生学习能力的要求更高。

3.由于一系列历史遗留、制度惯性、利益格局、身份壁垒以及思维定式等原因,教育发展仍然存在各方面的配备不均衡现象。造成了资源稀缺的学校在新课程实施中的扭曲,这也是一些教师不太实施新课改的主要原因。解决这一问题,需要长期的以制度打破区域壁垒、行政壁垒和体制壁垒,促进教育资源在不同区域之间的合理流动和优化配置。

总体来说,新课改是基础教育领域的一项重大改革。张掖市中小学校新课改进行的这些年,数学教辅教材,数学教师的教学理念、教学方法,学生的学习方式都有了全新的改变。但是在实践中还是存在一些客观问题,需要不断发现问题、解决问题、总结问题。

参考文献:

[1]方匡南.随机森林组合预测理论极其在金融中的应用[M].厦门大学出版社,2012-05.

[2]徐立.坚持城乡统筹,引领教师成长,促进课堂教学:浙江嘉兴市新一轮基础教育课程改革取得阶段性成效[J].基础教育改革动态,2006(02).

(作者单位 甘肃省张掖市河西学院数学与统计学院)

编辑 薛直艳endprint

摘 要:调查张掖地区义务教育阶段数学课程教学的现状,采用随机森林分类的方法,按照对新课改的态度不同,对教师、实习生以及学生进行分类,发现新课改施行过程中存在的问题,探讨解决办法。

关键词:调查问卷;随机森林;泛化误差;教育资源

一、调查形式设计

主要采用访谈、听课以及调查问卷的形式调查了张掖地区部分学校数学课程新课改的实施现状。其中访谈骨干教师六位;听课二十课时;从教师、学生以及实习生三个不同角度设计了不同的调查问卷。教师的调查问卷发出去100份,收回96份;实习生的发出100份,收回100份;学生的发出100份,收回90份。

教师的调查问卷讨论了数学课程实施的总体情况,教师的教学理念的改变,教学方式的变化,对《数学课程改革纲要》的理解、认可度;教学过程中遇到的问题;教学目标对知识、技能、情感以及态度的体现;教学组织形式上师师互动、师生互动、生生互动的情况;知识讲授与学习方法能力的培养等。实习生既充当着课程改革的被实施者,又充当着实施者,针对他们的调查问卷都是以比较形式出现的,主要有:从不同角度看课程改革,对课程改革教学实现的接受程度,学生所使用的教材与后续课程的衔接度,教学实施者对课程改革的态度,课程改革中遇到的主要问题,心目中好课程的标准,参与课程改革之后对学习方法有无促进等方面。

二、数据分析

分别就教师、学生、实习生的调查问卷的数据应用随机森林方法进行分类,随机森林是由Leo Breiman于2001年提出的一个统计方法,操作步骤如下:

1.设原始样本中共有N个样本,利用bootstrap重抽样方法从原始样本中有放回地抽取N个样本,作为训练集,此时原始训练集中每个样本未被抽取的概率为1-(1)N,当N足够大时,有,因而每次抽取的样本数大约为N个,将没有抽中的N样本作为袋外数据。

2.根据训练集样本向量的属性,对每个节点,随机选取向量属性的子集,选择分类效果最好的一位特征作为节点分裂属性,进行分类。

3.决策树生成过程中不做剪枝处理。

4.重复步骤(1)~(3)K次,由于每次抽取的样本均不同,因而不容易出现过拟合现象,得到随机森林,然后组合多棵决策树的结果,通过求众数得出最终的预测结果。

5.应用袋外数据估计泛化误差,这是一个无偏估计。

对调查问卷结果按上述算法进行分类,得出分类结果,将每个袋外数据代入训练集建立的决策树上,得到准确率的估计ε1,同时计算每个自助样本的准确率accs,得到准确率公式:

对所有的随机误差项求均值得到随机森林的泛化误差估计为11.6。

三、结果分析

1.由于各种客观原因,数学课程教学仍然存在很明显的“穿新鞋,走老路”的问题。《普通高中数学课程标准》改变了教材、理念、方式,但是评价学生学习程度好坏的评价体系仍然围绕考试成绩。特殊情况时才准备一节符合课程标准的“表演课”。

2.新教材里仍然存在一些思想超前,但执行起来受制于客观条件的内容。新课程有的内容很难,这已经远远超过了这一年龄阶段学生的认知能力;再如由于新课改教材对教学模块的改变,打乱了过去的模块结构,淡化了知识内在的联系,设置了大量的探究性、事件性活动,对学生学习能力的要求更高。

3.由于一系列历史遗留、制度惯性、利益格局、身份壁垒以及思维定式等原因,教育发展仍然存在各方面的配备不均衡现象。造成了资源稀缺的学校在新课程实施中的扭曲,这也是一些教师不太实施新课改的主要原因。解决这一问题,需要长期的以制度打破区域壁垒、行政壁垒和体制壁垒,促进教育资源在不同区域之间的合理流动和优化配置。

总体来说,新课改是基础教育领域的一项重大改革。张掖市中小学校新课改进行的这些年,数学教辅教材,数学教师的教学理念、教学方法,学生的学习方式都有了全新的改变。但是在实践中还是存在一些客观问题,需要不断发现问题、解决问题、总结问题。

参考文献:

[1]方匡南.随机森林组合预测理论极其在金融中的应用[M].厦门大学出版社,2012-05.

[2]徐立.坚持城乡统筹,引领教师成长,促进课堂教学:浙江嘉兴市新一轮基础教育课程改革取得阶段性成效[J].基础教育改革动态,2006(02).

(作者单位 甘肃省张掖市河西学院数学与统计学院)

编辑 薛直艳endprint

摘 要:调查张掖地区义务教育阶段数学课程教学的现状,采用随机森林分类的方法,按照对新课改的态度不同,对教师、实习生以及学生进行分类,发现新课改施行过程中存在的问题,探讨解决办法。

关键词:调查问卷;随机森林;泛化误差;教育资源

一、调查形式设计

主要采用访谈、听课以及调查问卷的形式调查了张掖地区部分学校数学课程新课改的实施现状。其中访谈骨干教师六位;听课二十课时;从教师、学生以及实习生三个不同角度设计了不同的调查问卷。教师的调查问卷发出去100份,收回96份;实习生的发出100份,收回100份;学生的发出100份,收回90份。

教师的调查问卷讨论了数学课程实施的总体情况,教师的教学理念的改变,教学方式的变化,对《数学课程改革纲要》的理解、认可度;教学过程中遇到的问题;教学目标对知识、技能、情感以及态度的体现;教学组织形式上师师互动、师生互动、生生互动的情况;知识讲授与学习方法能力的培养等。实习生既充当着课程改革的被实施者,又充当着实施者,针对他们的调查问卷都是以比较形式出现的,主要有:从不同角度看课程改革,对课程改革教学实现的接受程度,学生所使用的教材与后续课程的衔接度,教学实施者对课程改革的态度,课程改革中遇到的主要问题,心目中好课程的标准,参与课程改革之后对学习方法有无促进等方面。

二、数据分析

分别就教师、学生、实习生的调查问卷的数据应用随机森林方法进行分类,随机森林是由Leo Breiman于2001年提出的一个统计方法,操作步骤如下:

1.设原始样本中共有N个样本,利用bootstrap重抽样方法从原始样本中有放回地抽取N个样本,作为训练集,此时原始训练集中每个样本未被抽取的概率为1-(1)N,当N足够大时,有,因而每次抽取的样本数大约为N个,将没有抽中的N样本作为袋外数据。

2.根据训练集样本向量的属性,对每个节点,随机选取向量属性的子集,选择分类效果最好的一位特征作为节点分裂属性,进行分类。

3.决策树生成过程中不做剪枝处理。

4.重复步骤(1)~(3)K次,由于每次抽取的样本均不同,因而不容易出现过拟合现象,得到随机森林,然后组合多棵决策树的结果,通过求众数得出最终的预测结果。

5.应用袋外数据估计泛化误差,这是一个无偏估计。

对调查问卷结果按上述算法进行分类,得出分类结果,将每个袋外数据代入训练集建立的决策树上,得到准确率的估计ε1,同时计算每个自助样本的准确率accs,得到准确率公式:

对所有的随机误差项求均值得到随机森林的泛化误差估计为11.6。

三、结果分析

1.由于各种客观原因,数学课程教学仍然存在很明显的“穿新鞋,走老路”的问题。《普通高中数学课程标准》改变了教材、理念、方式,但是评价学生学习程度好坏的评价体系仍然围绕考试成绩。特殊情况时才准备一节符合课程标准的“表演课”。

2.新教材里仍然存在一些思想超前,但执行起来受制于客观条件的内容。新课程有的内容很难,这已经远远超过了这一年龄阶段学生的认知能力;再如由于新课改教材对教学模块的改变,打乱了过去的模块结构,淡化了知识内在的联系,设置了大量的探究性、事件性活动,对学生学习能力的要求更高。

3.由于一系列历史遗留、制度惯性、利益格局、身份壁垒以及思维定式等原因,教育发展仍然存在各方面的配备不均衡现象。造成了资源稀缺的学校在新课程实施中的扭曲,这也是一些教师不太实施新课改的主要原因。解决这一问题,需要长期的以制度打破区域壁垒、行政壁垒和体制壁垒,促进教育资源在不同区域之间的合理流动和优化配置。

总体来说,新课改是基础教育领域的一项重大改革。张掖市中小学校新课改进行的这些年,数学教辅教材,数学教师的教学理念、教学方法,学生的学习方式都有了全新的改变。但是在实践中还是存在一些客观问题,需要不断发现问题、解决问题、总结问题。

参考文献:

[1]方匡南.随机森林组合预测理论极其在金融中的应用[M].厦门大学出版社,2012-05.

[2]徐立.坚持城乡统筹,引领教师成长,促进课堂教学:浙江嘉兴市新一轮基础教育课程改革取得阶段性成效[J].基础教育改革动态,2006(02).

(作者单位 甘肃省张掖市河西学院数学与统计学院)

基于随机森林的基金评级模型选择 篇3

基金评级有利于投资者挑选适合自己偏好的基金,同时也方便监督部门监管。但是,由于市场上众多评级机构的评级体系各异,评级结果往往出现不一致的情况。其主要原因是各评价体系对基金绩效考察的侧重点不同。从具体的评级方法看,即选取的绩效指标不同。关于如何选择指标以便更有效地评价基金绩效的研究已经很多,但综合各种指标对基金进行全面评价的研究则较少。因此,综合众多绩效指标,建立基金业绩综合评级体系是一个值得研究的方向。

本文汇集基金绩效评价的多个方面的指标,构建一个能对基金进行全面评价的评级指标体系。然后采用人工智能的关键技术,即机器学习的方法从历史数据中学习得到一个评级模型,用于对基金绩效级别进行预测评定。机器学习方法通过模仿人类从实例中学习的能力进行数据分析和建模,能够从有限学习数据中发现隐藏的、复杂的模型信息。具体地,采用随机森林(random forests,RF)方法构建一个高维、非线性的模型,实现对基金的分类评级.随机森林是树形分类器的组合,是处理高维、非线性模型的前沿理论和工具,作为一种高效的集成学习方法已被广泛应用在各个领域。它把基金评级指标体系看作是一个高维空间,基金的每一个指标都是空间的一个维度上。通过不断对基金历史数据进行学习最终刻画出这些基金所描述的模型结构。本文内容安排如下:第二部分概述基金评级相关理论研究,第三部分叙述基于随机森林方法的建模原理,第四部分是数据实证,第五部分是总结。

二基金评级相关理论研究

1、常用基金评价指标

构造一个完善的基金评级体系应该包括三类指标:(1)度量基金收益的指标和风险的指标;(2)度量基金风险调整收益的指标;(3)度量基金管理人管理能力的指标。基金绩效指标的数量已达几十个之多,一些典型的基金绩效指标汇总如表1所示。

在表1中,指标5~7是收益衡量指标,但衡量的角度略有不同.比如,几何平均收益率利用复利计算规则,每期投资红利计入下一期投资.这种方式以一个连续的、稳定的收益率水平来衡量过去几年投资的实际业绩,因此更能与真实值保持一致.指标10~11是风险衡量指标,指标15~17是经理人能力衡量指标。其它指标则从不同侧面描述风险调整收益绩效和经理人能力。比如贝塔系数反映的是基金投资组合的收益率相对于基准指数收益率的变异程度,它同时考虑了系统性风险和非系统性风险,能够反映基金经理分散和降低非系统性风险的能力。特雷诺指数表示的是基金承受每单位系统风险所获取的风险收益,其只考虑系统性风险,也能衡量基金经理分散和降低非系统风险的能力。詹森指数衡量的是基金投资组合的实际收益率与相同系统风险水平下市场基准组合收益率的差异,被用来衡量基金经理的超常选股能力。

2. 主流评级机构

各评级机构选取不同的指标体系进行基金绩效评价,部分主流评级机构的信息汇总如表2所示:

从表2中可以看出,各个评级结构的评级理念具有差异。晨星评级体系认为同一类型的基金资产的风险特征是相似的,基金之间收益的差异来源于基金经理能力。万得和晨星的评级风格接近。理柏评价体系注重收益,银河与此类似.各评级体系和评价方法的差异,直接反映在对同一只基金的评级结果往往并不相同。表3汇总了上述4家评级机构从2007年1月到12月对基金市场评级结果的差异情况。

从表3的统计结果可以看到,4家评级机构只对很少一部分基金取得一致的评级结果。当一只基金被4个体系都评价一致时,也就是说,这只基金获得基金评价行业相同的评价结果,说明这只基金从各个侧面(各评价机构所刻画的侧面)看都处于同类基金同一时期的同等层次,这种数据就是构建评价模型的训练样本,本文汇总了这种基金数据作为模型学习的训练数据。

三、建模方法

1. 基于随机森林的基金评级模型选择

本研究旨在汇集基金绩效评价的多个方面的指标,构建一个能对基金进行全面评价的评级指标体系。然后基于历史数据学习得到一个评级模型,用于对基金绩效级别进行预测评定。如上所述,这些历史数据具有以下特点:

(1)高维,本研究尽可能汇集评价基金各方面表现的指标,指标个数达到18个;

(2)小样本,本研究的历史数据选取被主流评级机构评价一致的基金作为历史数据。但是如表格3所示,这样的数据非常少,样本数在数十到数百级别;

(3)大量噪声,中国基金评价行业正处于起步发展阶段,基金信息披露还不完善,因此采集的基金数据颇具有大量的随机噪声、系统噪声、人为污染和影响。

一般不认为在金融经济领域存在一个简单的“真实模型”,可以认为,建模是在某个总体(population)或过程(process)下,对经验数据中可解释信息的一种近似操作和应用。选择一个最佳的近似模型就是对数据的推理。“高维小样本”的特点给统计学方法带来巨大挑战,传统统计学方法不再可行;各种机器学习算法应运而生,例如人工神经网络(ANN)、线性判别(LDA)和基于统计学习理论的标准技术-支持向量机(SVM)等,在这种数据上表现出了卓越的性能和优势.然而,这些复杂方法对数据质量要求非常高,具有冗余信息和噪声的数据对模型的可解释性产生的偏离性非常高。

随机森林适合对高维输入数据进行建模仿真,当数据含噪声时,也表现出良好的性能.而且,由于分类树本身的特点,其对特征之间的相关性不敏感,因此不用对数据进行特征选择和主成分分析。总之,鉴于评级模型的数据特征较多,噪声较大,并且建模数据数量有限等特点,于是考虑将随机森林引入到建模中。

2. 随机森林简介

随机森林是Leo Breiman于2001年提出的一个组合分类器算法,是由许多单棵分类回归树(CART)组合而成的,最后由投票法决定分类结果。单棵树的生成依赖于一个独立同分布的随机向量;整体的泛化误差取决于森林中单棵树的分类效能和各分类树之间的相关程度。Breiman采用Bagging和Randomization相结合的方法,在保证单棵分类树效能的同时,减少各分类树之间的相关度,提高了组合分类器的性能。

(1)分类树分类树是一个类似树形结构的流程图,每个内部节点表示一个基于特征的测试,树枝描述测试结果,叶子节点指明分类结果(通常是一个类别名称)。分类树的构建取决于训练样本数据和每个内部节点用来分裂的特征.要构造一个好的分类树,关键在于恰当地选择特征进行分裂.通常,选取包含信息较多的特征先进行分裂。常用的选择特征分裂的方法有两种:信息增益度量方法和基尼指数度量方法.分类树对新的测试数据的分类准确率,称作分类树的分类效能(strength)。

(2)使用Bagging方法形成新的训练集假设原始训练集的样本数为N,Bagging方法有放回地随机从原始训练集中抽取N个样本,组成一个新的训练集。通过简单计算得知,每次产生的新训练集中有近37%的数据可能未被选中,这部分数据称为袋外数据(Out-Of-Bag,简称:OOB),可以用来作为测试数据对该分类树的泛化性能进行估计,这种估计方法被称为“Out-Of-Bag Estimation”.设原始训练集T={(xn,yn),n=1,…,N},用Bagging方法生成的单个分类树的训练集系列为:T1,B,…TK,B,其中K表示森林中树的数目.对于原始训练集中的某一特定样本(x,y),大约有37%的分类树所对应的训练集T.,B中不包含此(x,y),因此该数据可以用来对这些分类树的准确性进行估计.选择Bagging方法生成新的训练集有两个优点:(1)可以用OOB估计计算泛化误差,也可用来估计各分类树的效能(strength)和分类树之间的相关度(correlation)以及各输入特征的重要性。(2)Bagging方法结合Randomization方法能增加随机森林的分类准确性。

(3)Randomization方法(随机选择特征对内部节点进行分裂)随机森林的重要特征是针对树的内部节点随机地选择特征进行分裂,用CART方法生成单棵分类树。每棵分类树任其发展,不需要剪枝,直至叶子节点;这样可以增加单棵树的分类效能,同时增加各分类树之间的差异性。随机选择特征分裂有两种方式:(1)Forest-RI:先确定用于每次分裂的候选特征的个数F,然后随机地从特征全集中选出F个特征,再根据最优分裂准则对节点进行分裂。(2)Forest-RC:随机选出L个特征,再随机地选择系数对其进行线性组合,生成F个新特征,然后根据最优分裂准则对节点进行分裂。

Bagging方法和Randomization都能有效降低噪声的影响,因此二者的结合使得随机森林具有良好的容忍噪声的能力。

(4)随机森林的泛化误差设学习器的输入向量为X,理想输出标记为Y,Θ为表示决策树节点特征的随机向量,基于X和Θ的分类器输出记为h(X,Θ)。定义随机森林的间隔函数为:

其中,j为该学习器的实际输出值。间隔函数mr(X,Y)表示样本数据被分对与分错的概率之差;间隔函数的值越大,表明分类器的泛化性能越好。

组合分类器{h(X,Θ}的总体分类效能S定义为:

若用表示各分类树之间相关度的平均值,则可得到随机森林的泛化误差PE*的上界:

显然,为使组合分类器能达到好的泛化性能,应尽量增大单棵分类树的效能,而减小分类树之间的相关性。可以证明:假定,当森林中的分类树足够多时,随机森林的泛化误差几乎处处收敛于一个有限值。因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。

(5)分类树利用随机森林进行特征重要性排序特征重要性的度量基于以下启发式思维:当对一个相关特征(即对预测准确率可能起重要作用的特征)加入噪声后,随机森林的预测准确率将显著降低.其具体计算方法可表述为:(1)对已生成的随机森林中的每棵树进行OOB准确率估计;(2)随机地改变OOB数据中某个特征v的值(即为特征v人为地加入噪声干扰),再用加入噪声后的OOB数据估计得到一个新的OOB准确率;(3)原始OOB准确率与加入噪声后的OOB准确率之差作为相应特征v在该分类树上的重要性度量值。将随机森林中所有树计算出的特征v的重要性度量值取平均后,就得到特征v的重要性度量值。用同样的方法,可以得到所有特征的重要性度量值。

四、实验与讨论

1. 样本集创建

鉴于中国基金信息披露还不完善,采集市场上所有评级机构的基金数据颇具难度.本文仅选取晨星、理柏、银河和万得这4家主流评级机构的数据进行实证研究.每一个基金数据由表1所列的18个绩效指标表达,即每一个数据具有18个特征.数据采集自万得资讯网(www.wind.com.cn),市场组合基准选择上证综合指数,无风险收益率选择同期的银行一年期定期储蓄存款利率.

2. 基金评级模型构建

构建模型所用的训练样本选取被上述4家评级机构评价都一致的股票型和混合型基金数据.从2006年9月到2007年12月期间总共有229个数据符合条件.实验在R语言环境中进行,采用随机森林工具包random Forest执行建模和变量重要性度量.通过改变模型的分类特征数(数量从1,2,3,4,5变化)和森林的规模(数量从1000,2000,5000,10000等选择)等参数,进行OOB性能测试.最后确定实验的参数如下:分类特征数为4,森林规模为2000.模型的性能用OOB准确率和测试数据的准确率来衡量,其值由重复20次实验的平均值求得.其中测试数据的选取如下:选取2007年4月的11个样本为测试数据,因为这些数据在各星级分布的数量较均衡;其它218个数据作为训练数据,用于建立随机森林模型.训练数据中,包含5星87个;4星63个;3星32个;2星21个;1星15个.结果如表4所示。

由表4b可知,模型的OOB性能达到优良水平.其中,5星判别准确率最高,1星最低。其原因是训练数据中5星的数据量远大于1星的数据量,呈现类不平衡特征。测试性能看起来不够优秀,但这是由于测试数据太少的缘故。如能采集到更多的数据,模型的各种性能将大大提高。但鉴于目前中国基金评价行业的实际情况,这种要求还不可能实现。

3. 基金评级模型的变量重要性分析

利用随机森林进行基金各个特征的重要性排序,18个属性(也就是基金评价指标)的重要性平均度量值分布见图1,横坐标代表各个属性的标号,纵坐标代表重要性度量值.对其进行降序排列如下:18、13、9、5、14、16、17、4、7、15、10、11、1、2、6、8、12.

由排序结果得到,18号指标即信息比率的重要性远超过其它指标,因此被排在首位.信息比率衡量了单位波动性产生的平均超额收益率.对信息比率更直观的解释是当基金管理人被限定投资于市场投资组合,且必须与市场投资组合保持同样的系统风险时,单位跟踪误差下基金超越市场投资组合所产生的超额收益率.信息比率可类比为工程学的“信躁比”,其中超额收益为“信号”,非系统风险是“噪声”这种评价和国外众多评价体系相符合,他们认为信息比率是评价基金经理人充分利用其信息优势积极管理投资组合的最优单因素测定法。

从某种意义上讲,金融市场是一个信息的市场市场投资主体的信息生产和信息处理能力在很大程度上决定了其投资的收益和效率.基金经理与个人投资者相比具有规模经济和信息优势,能够从共同的信息中发现新的有价值的内容,为投资者带来更高的投资收益.中国的金融市场还处在"弱式有效阶段,勤勉的基金经理人更容易利用其所具有的信息优势为他们的委托人提供专业理财服务,其所管理的基金必然呈现好的绩效.信息比率有效刻画了基金经理的服务态度和能力,体现基金投资相对于个人投资的优势所在,是一个非常关键和重要的指标。信息比率已经被广泛应用于基金管理人的年度考核等方面.随机森林方法对信息比率的重要性评价与金融学者的研究不谋而合,这反过来也说明随机森林方法用在基金评价模式构建方面的可行性。

从排序结果看,13号指标即可决系数的重要性排在第二,这种判断也和现实情况非常吻合.可决系数被定义为基金投资组合和市场基准组合相关系数的平方。当前主流的基于资本资产定价模型(CAPM)的参数回归方法对市场基准组合的选取非常敏感,不同比较基准下得出的结论会有差别.可决系数的重要性说明,在基金评价时应充分考虑基金投资组合的特点,选取适合的参照物作为市场基准组合。其它指标的重要性水平相差不多,且水平值与上述两个指标差距较大,这里就不再一一分析了。

五、结论

本文汇集了基金绩效评价的多个方面的指标,构建一个能对基金进行全面评价的评级指标体系。然后基于历史数据学习得到一个评级模型,用于对基金绩效级别进行预测评定。由于基金数据具有高维,非线性相关,噪声等特点,而随机森林适合对高维非线性,噪声数据,相关性强的数据进行建模仿真,因此本文采用随机森林方法构建了基金业绩综合评级模型。该模型综合了不同评级机构的评价理念,能够挖掘基金各个方面的绩效信息,具有多方面综合的特点。从测试结果看,该模型的稳健性和准确性都达到优良水平。这说明,随机森林作为一种性能出众的机器学习方法,能够有效地处理高维的、非线性复杂数据,能够更有效地从有限的实例数据中学习到隐藏的、复杂的金融信息。将随机森林方法用于基金等金融领域的数据挖掘和模式识别,是一个值得研究的方向。

本文还利用随机森林方法评价基金各个绩效指标的重要性。信息比率和可决系数被随机森林评判为最重要的指标,且重要性远大于其它指标。这种结果与众多金融学者的研究相一致,这也说明了随机森林应用的有效性和可行性。

摘要:首先汇集基金常用评价指标,建立一个统一的基金评级指标体系;其次利用随机森林建立基金评级模型;最后通过实验验证了该方法的有效性和优越性.本研究将为投资者提供一个投资决策的优良工具.

随机森林 篇4

关键词:随机森林,随机森林模型,R语言

0 引言

现今的中药药性研究方法有许多种, 大致可以归纳为文献学方法、药理学方法、化学方法、物理学方法等。在分类研究中, 传统的单分类模型往往精度不高, 且容易出现过拟合问题。因此, 很多学者尝试将各分类器进行有效整合, 集中优势来提高预测精度, 从而解决了许多单分类器无法解决或难以取得有效结果的问题。

随机森林 (random forests, RF) [1]是由美国科学家Leo Breiman于2001年发表的一种机器学习算法, 它利用随机重采样技术bootstrap和节点随机分裂技术构建多棵决策树, 通过投票得到最终分类结果[1,2]。大量的理论和实证研究都证明了RF具有很高的预测准确率, 对异常值和噪声具有很好的容忍度, 且不容易出现过拟合[3], 是目前数据挖掘、生物信息学领域的研究热点之一。

1 随机森林算法分类基本原理

图1展示了随机森林分类基本原理。首先利用自助法重采样技术从原始训练集抽取K个自助样本集, 形成K个训练集, 未被抽到的样本为袋外数据 (out-of-bag, OOB) ;其次, 在树的每个节点处, 从M个特征中随机选取m个特征 (mM) 作为分裂属性, 以m个属性中最好的分裂方式对节点进行分裂, 任其生长形成K个决策树;最后, 根据K种分类结果对每个记录进行投票表决决定其最终分类。

1.1 袋外数据估计

当使用Bootstrap抽样时, 原始训练集D中每个样本未被抽取的概率为 (, 将收敛于。其中, N为原始训练集D中样本的个数, 且足够大, 这表明原始样本集D中有近37%的样本总是抽不到。这些未被抽到的样本, 称为袋外样本数据。

袋外数据OOB估计, 指利用袋外数据来估计随机森林所构模型的分类预测能力。当随机森林中的分类决策树足够多, 使测试误差收敛时, OOB估计为无偏估计。OOB估计是高效的, 其结果近似于需要大量计算的K折交叉验证。

1.2 特征选择

在对决策树每个节点进行分裂时, 从全部属性中等概率随机抽取一个属性子集 (通常取[log2 (M) ]+1个属性, M为特征总数) , 再从该子集中选择一个最优属性来分裂节点, 通常采用不纯度最小原则来选择。

1.3 变量重要性评分及变量选择

随机森林算法对变量重要性评价[2,3,4]包含4种方法, 其中用于回归分析的有2种:一种是使用基于随机置换的残差均方减小量进行衡量, 另一种是节点分裂时的不纯度下降差均值, 即残差平方和。

随机森林变量重要性评价的基本思想是采用启发式算法, 通过对一个相关变量 (即对预测准确率可能起重要作用的变量) 加入噪声后的预测准确性差异来判断变量的重要性, 其具体算法过程如下:

(1) 用自助样本形成每一棵分类树的同时, 对相应的OOB数据进行投票, 得到k个自助样本OOB中每一个样本的投票分数, 记为vote1, vote2…, votek。

(2) 将变量xi的数值在k个OOB样本中的顺序作随机改变, 形成新的OOB测试样本, 然后用已建立的随机森林对新的OOB进行投票, 根据判别正确的样品数得到每一个样本的投票分数, 所得结果可以表示为:

(3) 用vote1, vote2…, votek与公式 (1) 对应的向量和i行向量相减, 求和平均后得变量xi的重要性评分, 即:

1.4 分类结果评价

随机森林通过构造不同的训练集, 增加分类模型间的差异, 从而提高组合分类模型的外推预测能力。设I (·) 是示标函数, nhi, c是树hi对类C的分类结果, nhi是树hi的叶子节点个数, 对测试样本x, 预测类标签cp为:

经投票后, 生成混淆表CM, 它是一个nc×nc表, 表中的元素cm (i, j) (i≠j) 表示类型i被分类为类型j的次数, 仅当i=j时, cm (i, i) 表示类型i被分类正确的个数。

随机森林分类正确率[5]correct为:

式中, nc是类别的总个数。

2 基于RF的中药寒热药性判别模型构建

2.1 样本预处理

中药寒、热药性相关数据来源于国家重点基础研究发展计划课题:中药寒、热药性生物效应评价模式研究。R语言是一种自由软件编程语言与操作环境, 主要用于统计分析、绘图、数据挖掘。R的源代码可自由下载使用, 在多种平台下运行, 参阅网址http://www.r-project.org/。所有R的函数和数据集保存在程序包 (Packages) 里, 只有当一个包被载入时, 其内容才可以被访问[6], 随机森林分析需要randomForest包以及varSelRF包, 分析前先将数据进行t转置, 接着通过scale () 将数据进行标准化。

2.2 重要变量指标选取

寒热数据中有838个不同的质荷比变量, 都可能影响到中药的寒热药性。为了提高中药寒热药性的预测以及判别能力, 需要对数据进行特征选择。特征选择即从许多特征中找到最能反映模型性能的特征, 也即找到最能影响中药寒热药性的变量, 通过随机森林中的OOB估计得到OOB误差率变量的重要性度量。人们习惯把机器学习中的特征选择技术分为3类:Wrapper、Fliter、集成学习3种方法[7], 本实验采用Wrapper方法开展研究。

2.2.1 变量重要性计算

实验数据一共有96个样本, 按照7∶3随机抽取数据, 将70%的数据作为训练集, 30%的数据作为测试集。通过R语言中的randomForest包以及varSelRF包通过对训练集的分析来确定每个变量的重要性度量, 以OOB误差率的平均上升值作为度量, 该度量值大, 则表明对应特征对分类结果起重要作用, 如图2所示。

从图2可以看到变量重要性度量, 质荷比为408.2、419.2、489.4、547.5等的度量值比其它变量都要大, 说明这些变量对实验的预测精度起到了很大的影响作用。

2.2.2 重要变量个数确定

虽然从图2可以看出一些相对于实验来说较为重要的变量, 但不同个数的变量会导致不同的OOB误差结果, 选取多少个重要性变量才能使预测精度达到最佳, 实验效果更加理想, 值得研究。文中将通过R语言加载varSelRF包来确定变量的最佳数量, 分析不同ntree下得到的OOB误差率来计算指标数量[8]。图3-图9中, 三线分别代表空白组、寒药组和热药组, 横坐标表示变量选取个数, 纵坐标表示袋外数据估计误差。

ntree不同时, 表现最佳的重要变量个数也不同。当ntree=500, 变量个数为6~40个时, OOB误差率最小;当ntree=400, 变量个数为6~60个时, OOB误差率最小;当ntree=300, 变量个数在6~30个时, OOB误差率最小;当ntree=200, 变量个数在5, 10~40个时, OOB误差率最小;当ntree=150, 变量个数为12~30, 48个时, OOB误差率最小;当ntree=100, 变量个数为10~25, 30~48个时, OOB误差率最小;当ntree=80, 变量个数为12~30个时, OOB误差率最小。综上所述, 发现变量个数为15~25时, OOB误差率最小次数较多。由于重要变量个数较少或者较多时, 会给实验带来较大误差, 为了保证其稳定性, 选取20个重要变量。本实验选取20个重要变量构建评价体系, 它们分别为X408.2、X419.2、X489.4、X547.5、X416.3、X717.7、X388.5、X394.4、X464.5、X106.1、X719.6、X409.3、X741.6、X389.5、X352.3、X355.3、X435.4、X525.4、X680.7、X718.7。

2.3 模型参数确立

2.3.1 ntree值确立

当设定生成100课子树时, 读入样本数据, 编写如下代码:

其分类效果较好, 如图10所示。由图10可知当生成100棵子树时, 模型的误差率很小, 并趋于稳定, 所以选择ntree=100。

2.3.2 ntry确立

由随机森林的原理可知, ntry表示在分割数据时抽取多少个变量, 通常的做法是选择解释变量数目的平方根[9], 本文选取了20个变量, 所以设定ntry=4。得到如表1所示模型参数。

2.4 基于RF模型分类及预测

样本按照训练集:测试集=7∶3的比例进行随机抽取。

(1) 训练集随机森林模型程序如下:

(2) 训练结果如图11所示。

由图11可知, 基于RF预测的准确率为95.83%, 其中blank、cold、hot的准确率分别为86.7%、96.8%、100%。

(3) 随机森林模型对预测集预测程序如下:

(4) 预测结果如12所示。

由预测结果可知, 一共24个测试集, 其中blank空白组全对, cold寒药组错2个, hot热药组错1个, 总体准确率为91.7%。

3 随机森林、RPART、SVM算法模型比较

基于RF构建中药寒热药性判别模型并和RPART、SVM算法模型进行比较。其中RPART包是R语言中的一个包, 其功能是实现递归分割和回归树[10]。而SVM法即支持向量机, 可以自动寻找出那些对分类有较好区分能力的支持向量, 由此构造出的分类器可以最大化累与类的间隔[11]。

3.1 总体样本准确率比较

分别用3种算法建立分类预测模型, 对总体样本进行预测, 比较它们的准确率, 得到如表2所示数据。

3.2 训练集数据准确率比较 (训练集:测试集为7∶3)

分别用3种算法对训练集构建分类预测模型, 并进行预测, 比较它们的准确率, 得到如表3数据。

(单位:%)

3.3 测试集数据准确率比较

(单位:%)

由此可以看出, 3种方法都能很好地实现分类预测。

4 结语

实验表明, 随机森林、RPART、SVM 3种方法都能实现中药寒热药性分类预测, 且效果良好。

参考文献

[1]BREIMAN L.Random forests[J].Machine learning, 2001, 45 (1) :5-32.

[2]姚登举, 杨静, 詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报:工学版, 2014, 44 (1) :137-141.

[3]方匡南, 吴见彬, 朱建平, 等.随机森林方法综述[J].统计与信息论坛, 2011, 26 (3) :32-38.

[4]庄进发, 罗键, 彭彦卿, 等.基于改进随机森林的故障诊断方法研究[J].计算机集成制造系统, 2009 (4) :777-785.

[5]张洪强, 刘光远, 赖祥伟.随机森林算法在肌电的重要特征选择中的应用[J].计算机科学, 2013 (1) :200-202.

[6]杨中庆.基于R语言的空间统计分析研究与应用[D].广州:暨南大学, 2006.

[7]王全才.随机森林特征选择[D].大连:大连理工大学, 2011.

[8]李丽.基于随机森林算法的企业信用风险评价研究——以我国电力生产行业上市公司为例[D].成都:西南财经大学, 2012.

[9]明均仁, 肖凯.基于R语言的面向需水预测的随机森林方法[J].统计与决策, 2012 (9) :81-83.

[10]谢益辉.基于R软件的RPART包的分类与回归树应用[J].统计与信息论坛, 2007, 22 (5) :67-70.

随机森林 篇5

关键词:随机森林,形态特征,大豆外观品质

0 引言

大豆具有很高的营养价值, 被称为“豆中之王”“田中之肉”, 对人类有非常重要的作用。随着经济的发展, 大豆的生产与加工已经迅速发展成为一个成熟的产业;但农业产出的大豆质量参差不齐, 使我国大豆产业在国际市场上缺少竞争力。大豆外观品质与大豆的营养价值有着重要的关系。我国已于2009年9月1日正式实施《大豆》 (GB 1352-2009) 国家标准, 此标准与国际发达国家处于相同水平[1]。

人类的智慧有一个重要方面体现在对外界事物的分类和识别上。比较常用的模式识别分类有神经网络、决策树及支持向量机等, 具有各自的性能特点。本文研究的随机森林 (Random Forests, RF) 是一种基于多棵决策树的组合分类器, 同Bagging方法、ADA-boost方法及随机划分选择法相似[2]。它的优越性使其在国内外众多领域应用比较广泛[3]。例如, 韩亮采用二次训练法, 构造了改进的随机森林分类器对行人检测进行分析[4];赵显通过提取图像灰度空间中的像素点的灰度值对手势进行检测[5]等。

1 模式识别方法

1.1 概念介绍

模式识别 (Pattern Recognition) 是在计算机上对信息进行处理、判别的一种分类过程。判别与分类在理论研究和生产实践中的应用是不可或缺的。若需要处理的问题特别繁琐复杂、影响因素过多, 就会增加解决问题的困难程度, 此时模式识别的优越性就能体现出来。其能解决计算机中较复杂的问题, 对实际问题的解决与处理具有指导意义和应用价值, 由此在计算机领域获得广泛应用, 并获得一定成功[6]。

1.2 随机森林

随机森林 (Random Forests, RF) 是由Leo Breiman和Adele Cutler发展并推论出的, 它由许多单棵分类回归树组成, 最后进行投票从而分类[7]。换而言之就是有很多决策树{h (X, θk) , k=1, 2, 3, …}构建的, X为输入向量, {θk}为同分布且独立的随机向量, 变为一个决策树的“森林”。RF在保证每棵树功能同时, 也降低了各树之间的相关度, 提高了分类器的性能。随机森林分类器模型如图1所示。

要想实现随机森林算法, 就要利用Open CV算法库中的CvRTrees类。Open CV是开源计算机视觉库, 其中包含了一系列C函数和少量C++类。并且它还提供了MATLAB语言的接口, 这样就使计算机视觉和图像处理实现了通用算法。因为CvRTrees类对随机森林算法进行了封装, 所以对随机森林算法的分类就变得十分简单, 只需要调用其接口就可以。

随机森林虽然在某些噪音较大的分类或回归问题上产生过拟, 但其鲁棒性优越, 对于数据的随机性有很好的处理能力, 面对大量的输入数据也拥有较好的处理能力, 并可以在决定类别时, 评估变量的重要性。由于其具有相似的分类器结构, 所以得出的效果比较相似, 投票的方法还比较简单。

2 分类器设计

设计的总体思想:通过对大豆图像的研究与分析, 提取特征向量, 设计分类器。分类器的构建大概分为以下3步。

1) 建立训练样本集。根据试验需要, 选择4种大豆为例进行基于随机森林的大豆外观品质识别分类器的设计, 4种试验大豆分别为灰病斑大豆、霉变大豆、虫蚀大豆、破碎大豆。经过处理可以得到去除背景的单颗病害大豆籽粒图像, 如图2所示。

2) 采用点对比较特征对样本进行特征描述。即从样本图像中随机选择两个像素点, 并比较其的像素值。要选取10×10个像素点均匀分布在样本图像中, 如图3所示。

这样就会有4 950个点对比较特征, 对于构建一个随机森林分类器4 950个点对比较特征是足够的。然后, 从这些像素点中随意抽取2个像素点, 比较它们之间差值大小, 比较规则为

其中, 任意两个像素点用p1、p2表示, τ是设定的一个像素差值的阈值。为了使鲁棒性能更加优越, 要求像素点的值是由每个像素点3×3邻域内的取平均决定的, 则有

Float CvRtees::predict (const Mat&sample, const Mat&missing=Mat () ) const是用于样本识别的分类函数。

3) 训练分类器。训练集中所有样本进入一棵树都要通过根节点, 然后所有样本按照对应准则进行分裂。样本在分裂后按照如下公式进入左边或者右边的子节点, 分别对这两个子节点重复上一步, 进行递归分裂[8], 则有

当分裂达到某一节点的样本数量少于预设值M (20) 时, 或者分裂层数达到树的深度D (10) 时, 分裂就会停止;最后决定叶子节点的标签。预先设定好样本标签b, 取值分别为0、1、2、3, 各自对应灰病斑大豆、霉变大豆、虫蚀大豆、破碎大豆4种样本, 则

其中, 根节点处总样本的数目为N, 表示根节点处j类样本的数目为Nj;某一叶子节点处样本总数目为n, 叶子节点中j类样本的数目为nj。

Bool Cvrtrees::train (const Mat&train Data.int tflag.const Mat&responses.const Mat&varldx=Mat () .const Mat&sampleldx=Mat () .const Mat&varType=Mat () .const Mat&missing Data Mask=Mat () .CvRTParams params=CvRTParams () ) 是用于训练分类器的分类函数

3 实验结果

病害大豆具有一定的特征。患有灰病斑大豆的籽粒其病斑呈现圆形或不规则形, 中间灰白色, 边缘呈暗褐色。大豆霉变后, 它的籽粒会变色变味, 表面变的褶皱。大豆一旦破损, 其外形有明显的变化, 形态各异[9]。虫蚀过的大豆会感染细菌, 外形也会发生明显变化, 但与破损大豆外形有所差异, 可以通过对不同种类大豆的形态、颜色、纹理特征提取从而进行识别。本文基于Mat Lab平台, 应用随机森林方法, 对大豆的形态特征进行试验研究。

首先, 选取10粒大豆试验, 标号为1~10, 其中2、9、10号为灰病斑豆粒, 3、4、7号为霉变豆粒, 1、8号为虫蚀豆粒, 6号为破碎豆粒, 5号为标准豆粒。实验结果如图4所示。

通过仿真结果可知:当灰病斑大豆训练步数为660、霉变大豆训练步数为87、虫蚀大豆训练步数为906及破碎大豆训练步数为870时, 仿真结果误差小且效果好。10粒大豆分类结果如图5所示。

其中, 纵坐标1~5分别代表破碎、虫蚀、霉变、灰病斑和标准大豆。实验结果与选取样本一一对应。由结果图可以看出, 此分类器可以有效的检测出大豆病害种类。

对于少量的大豆样本进行过实验后, 对训练结果进行保存, 再重新选取正常大豆100粒, 其他病害大豆各100粒, 利用随机森林算法进行试验。识别结果如图6所示。

从图6可以看出:随机森林对于病害大豆籽粒有较高的检验能力, 就整体效果看来在一定程度上它具有一定的实际应用能力。

4 结论

应用随机森林方法对病害大豆进行检测, 根据随机森林方法训练分类器, 实现了少量和大量病害大豆识别系统。随机森林方法具有以下优点:面对大量数据, 分类较为精准;与其他分类方法比较, 噪音影响对其影响较低;利用大数定律可以得到其不容易过拟合;分类器建立时, 可以内部估算出泛化误差, 这是利用OOB数据得到的;面对分类器数据集不平衡时, 它可以平衡误差。随机森林算法已经变为越来越重要的一种数据分析工具, 科学研究领域应用广泛, 如核磁共振光谱、人脸识别、土地覆盖及3D跟踪等[10]。

参考文献

[1]中华人民共和国国家技术监督局.GB 1352—2009, 中华人民共和国国家标准-大豆[S].北京:中国标准出版社, 2009.

[2]Breiman L.Bagging forests[J].Machine Learning, 1996, 26 (2) :123-140.

[3]方匡南, 吴见彬, 朱建平, 等.随机森林方法研究综述[J].统计与信息论坛, 2011, 26 (3) :32-38.

[4]韩亮.基于随机森林的行人检测算法研究[D].北京:北方工业大学, 2014:24-26.

[5]赵显.基于随机森林的手势检测与识别系统的研究[D].湘潭:湘潭大学, 2012:7-10.

[6]田赵喜林, 赵喜玲, 江祥奎.模式识别方法及其比较分析[J].信阳农业高等专科学校学报, 2004, 14 (3) :37-40.

[7]张学工.模式识别[M].北京:清华大学出版社, 2010:87.

[8]Leo Breiman.Random forests[J].Machine Learning, 2001, 45 (1) :5-32.

[9]赵丹婷.基于图像处理技术的大豆外观品质检测系统的研究[D].哈尔滨:东北农业大学, 2012:26.

随机森林 篇6

一、文献综述

目前, 财务舞弊识别研究主要涉及定性研究和定量研究两方面, 定性研究主要通过对企业会计报表进行深度考察并试图发现其中的矛盾, 以此来甄别舞弊。如, 刘姝威 (2002) 就利用这种方法揭发了曾轰动一时的银广夏和蓝田股份的财务舞弊案。

定量研究则主要依托于统计学和数据挖掘方法, 对舞弊企业与非舞弊企业控制样本进行建模, 并通过模型来预测企业是否舞弊。常用的方法诸如逻辑回归模型、判别分析、神经网络、决策树、支持向量机等。如Beneish (1999) 利用Probit判别方法建立模型, 模型的准确预测率达到75%, 并在实际中得到了一定程度的运用。顾宁生等 (2009) 用学习矢量量化 (LVQ) 神经网络进行建模, 同时将模型与BP神经网络、支持向量机的预测效果进行对比, 发现LVQ神经网络的效果最好。王敏 (2011) 结合舞弊三角理论采用逻辑回归模型建模, 研究表明, 法人股比例越高、监事会会议次数越多、当年的审计意见类型为非标准审计意见的公司越容易发生财务舞弊行为。

二、研究方法

近年来, 很多学者采用数据挖掘方法进行财务舞弊识别研究, 但这些方法的实际效果往往有限, 究其原因, Breiman (1996) 认为数据挖掘领域很多算法都是不稳定的, 当训练集稍微有变动都会使识别效果大打折扣。在这种不稳定的情况下, 将分类器组合起来能大大提升分类器的分类效果。

本文采用随机森林方法进行研究, 随机森林是Breiman在2001年提出的一种组合分类方法, 它主要是利用自助重抽样法对原始样本进行抽样, 再用这些样本分别建立决策树, 最后根据这些树的分类结果投票得出最终预测结果。在分类问题中, 随机森林得到的组合模型如下:

其中, HR (X) 是组合分类模型, h表示单棵树的预测结果, I是示性函数, 公式表示使用得票最多的结果进行预测。

目前, 随机森林主要应用于生物信息领域, 在财务舞弊识别的研究上, 国内尚无相关文献。

三、实证研究

(一) 样本选择。

本文选取2000~2008年之间被证监会公开处罚的财务舞弊上市公司, 除去涉及中报、季报、临时公告, 只保留涉及年报的舞弊企业, 最终剩余116家舞弊企业, 以舞弊当年为一个样本, 涉及多年舞弊的企业以其初次舞弊的年份为样本。为了保证控制样本的企业不涉及舞弊, 对控制样本的选择采取下列限制:

1、在与舞弊企业同行业同年度的企业中进行选择, 即保证舞弊样本和控制样本在行业和年度的分布要类似。

2、除去被ST、S、PT的上市公司。

3、控制样本前后3年的审计报告意见都是标准无保留意见。

通过筛选, 本文最终选择116家舞弊企业和116家非舞弊企业。样本数据及下文的变量数据都来自国泰安数据库。

(二) 变量选择。

本文从公司财务状况和公司治理两个方面对变量进行选择, 具体变量如表1所示。 (表1)

(三) 模型建立过程。

整个模型的构建过程基于R语言环境并采用R语言的varSelRF包和CORElearn包进行, R语言是一种集统计计算和图形绘画为一体的程序语言, 在R的镜像站上有接近4, 000多个程序包, 涉及统计学、机器学习、计量经济学等多个学科, varSelRF和CORE-learn包里包括了用随机森林进行变量筛选和建模的相关函数。

1、变量筛选。

随机森林变量筛选的主旨思想是从备选的变量中选取使分类效果达到最优且数量最少的变量组合。经过筛选, 财务杠杆系数、流动资产周转率、实际所得税率、销售期间费用率、应收账款周转率、营业利润率、债务保障率、资产报酬率、资产负债率9个指标成为入选的变量。

2、训练集、测试集划分。

从样本中随机抽取75%作为训练集, 剩余的25%为测试集。

3、RF模型建模。

大量实证研究的结果表明, 在模型的建立过程中对参数进行相应的调整能使模型达到更好的效果, RF需要调整的参数主要有rfNoTrees (建模需要的树的个数) 和minNodeWeightRF (每个节点处候选特征的个数) , 经反复试验发现当rfNoTrees设置为100, minN-odeWeightRF设置为3时, 模型拟合的效果最好, 最终得到的预测结果如表2所示。 (表2)

四、结论

本文基于上市公司财务舞弊相关数据用随机森林对数据进行变量筛选及对筛选后的变量建模, 变量筛选的指标集中分布在盈利能力、营运能力两个方面。同时, 模型最后的预测正确率在训练集达到95.4%, 在测试集上也达到72.4, 预测效果良好。预测效果表明可以将随机森林方法引入财务舞弊识别的实际应用中。

参考文献

[1]王敏.舞弊三角与财务舞弊识别[J].财会月刊, 2011.10.

[2]Beneish M.D.Implications for as-sessing ernings management among firms with extreme.Financial per-formance[J].Journal of Accounting and Public Policy, 1997.16.2.

[3]Breiman, Leo.Heuristics of Insta-bility and Stabilization in Model Slection[J].The Annals of Statis-tics, 1996.24.16.

随机森林 篇7

3D立体图像质量评价(Stereo Image Quality Assessment, SIQA)是立体视频技术的一个重要组成部分。立体图像/视频在采集、存储、处理以及传输中会不可避免地引入噪声或失真,造成立体图像/视频质量的下降。因此,对其质量的评价是一个需要研究和解决的重要问题[1,2]。立体图像质量评价方法一般分为主观和客观两类评价方法。主观方法因其费时、费力、成本高的缺点,不易实现和应用;而客观方法是集成化的算法、模型,能够快速方便的得到立体图像的质量,无需人工干预,但其评价方法尚未成熟,有待于深入研究,因此客观评价方法成为研究的重点。

近些年,立体图像客观质量评价的研究取得了一系列成果[3,4,5,6,7,8],总体上可以划分为两类: 1) 将平面图像的评价方法直接应用于立体图像的质量评价。You等人[3]将经典的平面图像质量评价方法,如PSNR、 MS-SSIM[9]、VIF[10]等直接用于左、右视点,取平均值作为立体图像的质量。然而,立体图像与平面图像的质量评价有很大的区别,深度感失真程度是影响立体图像感知质量的重要因素。2) 在平面评价方法的基础上加入视差信息改善立体图像的评价模型。Yang等人[4]通过左右视点加绝对差值图进行立体图像质量评价。文献[5]将深度信息与平面评价方法结合评价立体图像质量;Hachicha等人[6]提出了基于双目恰可察觉失真的立体图像质量评价方法,并用双目融合竞争衡量立体感的变化。

本文以视觉感知特征图的失真程度衡量立体图像的失真程度。首先,提取立体图像的视觉感知特征图, 包括显著图(Saliency Map, SM)、恰可感知失真图(Just-Noticeable-Distortion Map, JM)、梯度图(Gradient Map,GM)和视差图(Disparity Map, DM),以感知特征图失真程度构成感知特征集作为立体图像的特征参数;然后,通过随机森林分类算法表述HVS进行特征融合,建立特征参数与主观评价值的关系,预测得到立体图像质量的客观评价值。

1结合视觉感知特征集和随机森林的评价模型

人眼对立体图像的特征信息比较敏感,超过察觉阈值的失真会导致特征信息的改变,引起感知特征图的失真,因此本文通过融合4种感知特征图的失真程度来预测立体图像的客观质量。首先,提取参考和失真立体图像对的4种感知特征图;然后,分别计算参考和失真特征图的均方差(Mean Squared Error, MSE), 由左、右视点的参考和失真显著图、JND图、梯度图分别可以得到2个特征值,再由参考和失真视差图得到1个特征值,四种感知特征图总共得到7个特征参数,构成感知特征集;最后,用随机森林分类算法融合感知特征集预测立体图像质量。图1是本文提出的立体图像客观质量评价模型的系统框架。训练过程用已知主观评价值的立体图像对提取特征参数训练随机森林,建立输入与输出之间的映射关系,完成模型的建立,随后就可以用本文模型预测立体图像的质量。

1.1感知特征图和感知特征集

由于超过感知阈值的失真会引起立体图像的感知特征图的改变,因此本文提取立体图像对的感知特性图,包括显著图、JND图、梯度图和视差图,以感知特征图的失真情况构建感知特征集衡量立体图像的失真情况。感知特征集是原始特征图和失真特征图的均方差(MSE)的集合,其中每个元素表示一种感知特征图的失真程度,整个集合表示立体图像的失真程度。

1.1.1显著图

人眼对显著区域更感兴趣,同时,超过察觉阈值的失真会引起显著图的改变。对于人眼关注度较高的区域,如果有超过察觉阈值的失真,那么这个失真属于敏感失真,在计算显著图时会产生较大影响;而在关注度较低的区域,失真属于不易察觉失真,在计算显著图时变化较小。这个过程非常接近HVS特性, 可以模拟人眼在观看有失真的图像时的机制,因此本文用显著图作为一种感知特征图。考虑到计算效率和提取特征的精准,单视点图像的显著性主要采用了频率调谐方法[12]。首先,将RGB图像转换到Lab色彩空间;然后,利用高斯滤波器对图像进行模糊,并计算模糊图像的颜色均值;最后,计算原图像中每个像素和颜色均值之间的距离得到平面显著图S,计算公式如下:

其中:Iμ是Lab颜色空间所有通道像素矢量的平均值,Iω(x, y)是经高斯过滤后的原始图像对应的Lab颜色空间的像素值。

1.1.2 JND 图

恰可感知失真模型表示在人眼无法察觉的情况下,图像中每个像素点所能容忍的最大失真。JND图也是感知特征图中的一种,与显著图相似,超过察觉阈值的失真同样会引起JND阈值的改变。每个像素点的JND值是由当前像素点和附近像素点共同决定的,不易察觉的细微失真不会引起JND阈值的改变,而当该像素点和附近像素点同时失真时,这种失真属于敏感失真,此时JND值也会产生较大的改变,因此JND图的失真都是由敏感失真引起的,可以用JND图的失真情况作为特征来衡量图像的失真情况。本文采用空域JND模型[13],主要包括亮度掩蔽效应和纹理掩蔽效应两部分。

亮度掩蔽效应是指人类视觉特性对图像的感知不仅仅依赖图像本身的亮度变化,更重要的是背景对象的局部变化。亮度掩盖因子为

其中是(x, y)位置点的图像背景亮度值。

纹理掩蔽效应是指纹理区域主要体现图像的纹理和细节,人眼视觉对这部分的可视性较低,因此纹理区域中较光滑或边缘区域可以容忍较多的失真。纹理掩蔽效应可以由空间局部的活动性来确定,如周围像素的梯度等。为了能够更精确的描述纹理阈值,需要对边缘与非边缘的纹理掩蔽效应区分处理,纹理掩盖因子定义为

其中:η 是调节因子,We(x, y)为图像在点(x,y)上的边缘加权因子,G(x, y)为在像素点(x, y)周围不同方向处最大的梯度平均值,其计算公式为

其中:Ak(x ,y)为四个方向的高通滤波算子。图像中像素点(x, y)处的空域 Ω 计算公式为

其中:Tl(x, y)是该点的亮度掩蔽因子,Tt(x, y)是该点的纹理掩蔽因子,c是调节因子。

1.1.3梯度图

梯度反映图像局部亮度变化最显著的部分,梯度算法的实质是利用模板提取出图像中对象与背景之间的显著变化。梯度是图像的边缘信息,人眼对于边缘信息非常敏感,失真图像会产生或者丢失图像的边缘信息,比如JPEG压缩会产生伪边缘,而高斯模糊会丢失图像的细节边缘信息,因此梯度图的改变可以反映图像的失真情况。本文通过Sobel算子卷积掩模计算梯度图。

1.1.4视差图

人类在观看立体图像时会产生立体感,是因为左右视点同时看到的同一物体或场景的相同部分和不同部分,人眼会自动进行融合和抑制,立体感的失真情况也是进行立体图像的质量评价时应该考虑的。本文用视差图的相似程度作为衡量立体感失真程度的特征,而准确、完整的视差信息是衡量立体感失真情况的关键,因此本文采用中值滤波器改进的光流法[14]作为视差匹配方法,选择水平向的匹配矢量作为立体图像的视差图。

以NBU-3D库中的horse图像为例,取其左视点图像和相应的JPEG压缩失真的图像,分别提取以上4种感知特征图,结果如图2所示。

1.2基于随机森林分类算法的特征参数融合

由于目前对人类视觉系统的研究还很不全面,而HVS是提高客观模型预测准确性的关键,因此本文用机器学习方法模拟HVS进行感知特征的融合,进行高维样本的非线性回归,使特征参数以最佳的融合方式预测立体图像的质量。

随机森林(Random Forest, RF)是Breiman[15]在2001年提出的一种统计学习机器学习算法,首先从训练样本中利用bootsrap重抽样方法抽取一系列样本,用每个样本建立一棵决策树,然后所有决策树都对每个输入进行预测,通过投票表决算法得出最终预测结果。很多的理论和研究都证明RF的预测准确率很高, 而且对噪声和异常值的鲁棒性很好,不易出现过拟合。本文利用随机森林分类算法进行感知特征集的融合, 输入的训练集就是感知特征集,通过决策分类,得到最终的分类结果就是立体图像的预测质量。在本文模型中,随机森林由20 000棵决策树构成,训练集的特征数为7,构造决策树的特征数为2。

2实验结果

在宁波大学建立的对称失真立体图像测试库(NBU-3D[16])上进行评价实验,检验本文提出的结合感知特征失真和随机森林的立体图像质量评价模型的准确性和有效性。NBU-3D立体图像库包含12对原始图像和312对失真图像,包括5种失真类型,分别是:JPEG2000压缩失真(60对),JPEG压缩失真(60对),高斯白噪声WN(60对),高斯模糊Gblur(60对),H.264压缩失真(72对),并给出了每对失真立体图像的平均主观分数差值(Difference of Mean Opinion Score, DMOS)。本文使用VQEG对客观质量评价的4个检验标准, 即Pearson线性相关性系数(Pearson Linear Correlation Coefficients, PLCC)、Spearman秩相关系数(Spearman Rank Order Correlation Coefficients, SROCC)、Kendall秩相关系数(Kendall Rank Order Correlation Coefficients,KROCC)以及均方根误差(Root Mean Square Error, RMSE)。PLCC越大,RMSE越小,说明模型的准确性越好;SROCC和KROCC越大,说明模型的单调性越好。

首先将本文模型与其他评价方法的各项性能指标进行比较,包括4种平面评价方法(PSNR、MSVD[11]、 MS-SSIM[9]、VIF[10])的加权平均方法和2种立体评价方法(Benoit[5]、You[3]),结果如表1所示。可以看出, 本文方法在单一失真类型情况下的PLCC和SROCC都在0.90以上,尤其是在JPEG失真、JP2000失真和H.264压缩失真时评价效果很好,就总体性能,本文方法的PLCC值和SROCC都在0.94以上,KROCC在0.79以上,RMSE接近5.7,均优于其他评价方法的各项评价指标,说明本文提出的客观评价模型性能优良。

然后将本文基于随机森林的特征融合模型与另外两种机器学习算法进行对比,即支持向量基(Support Vector Machine, SVM)和自反馈神经网络(Back Propagation Neural Network, BPNN),结果如表2所示。从各项指标可以看出,基于RF和SVM的模型预测结果要比BPNN好很多,同时根据本文提取的特征,基于RF的融合模型的预测准确性和泛化能力都比SVM好。

3结论

本文从人类视觉系统观看图像时对图像的理解方式出发,分析了视觉感知特征图的失真程度和立体图像质量直接的联系,提取立体图像的四种感知特征图(显著图、JND图、梯度图和视差图)构成感知特征集衡量立体图像的失真程度,通过训练随机森林分类算法建立特征融合模型模拟人类视觉系统对感知特征集进行融合,预测得到立体图像的客观评价值。实验结果表明,本文模型与主观评价结果有较高的一致性, 能够较好地预测人眼对立体图像的主观感知。在本文的基础上,接下来将进一步改进感知特征图的提取方法,提高感知特性图和人眼感知的一致性,进一步完善本文的模型。

摘要:本文从感知特征图与立体图像质量的关系出发,提出了一种立体图像感知特征图失真程度预测立体图像质量的评价模型。首先,从人类视觉系统对图像的理解方式出发,提取立体图像的视觉感知特性相关的特征图像;然后,计算感知特征图的失真程度,构成感知特征集并作为立体图像的特征参数;最后,用随机森林分类算法进行特征融合,建立立体图像质量评价模型。实验结果表明,本文模型符合人眼视觉特性,能够较好地预测立体图像质量。

随机森林 篇8

1 光伏企业技术创新动力相关概念与要素识别

1.1 技术创新与技术创新动力概念

技术创新理论最初是由熊彼特提出来的。技术创新不是一种单纯的技术上的发明和成功, 它的特征是在于第一次商业应用, 一个创新产品只有在被用户使用或获得承认以后, 才算是创新成功[1]。不同的学者对技术创新动力概念有不同的理解, 每种理解都有各自的侧重点。比较典型的有: (1) 集合论[2]:创新主体受到内外部各种因素的推动。 (2) 价值判断论[2]:企业从事技术创新活动的目的是获取创新收益。 (3) 心理状态论[2]:从事创新活动的行为主体的一种心理状态。 (4) 相关因素论[2,3]:对企业技术创新动力影响因素的研究。本文认为技术创新动力是促使创新主体产生创新欲望和要求, 并进行技术创新活动的一系列因素和条件。

1.2 技术创新动力要素识别

国内学者研究技术创新动力时, 所考虑的因素很多, 而且越来越复杂。全面考虑无可厚非, 但加入过多因素往往会掩盖企业技术创新的原始动力。而且缺少分类研究, 我国企业有多种类型, 不同类型的企业创新动力存在一定的差别。目前的研究基本上是在理论层面, 缺少实证研究。所以本文针对光伏企业技术创新核心动力进行实证研究来弥补分类研究较少的缺憾。企业技术创新的内在动力是创新动机和创新需要。企业技术创新的内在动机在外部环境因素的刺激下得到加强。文中从企业进行创新的内因和外因来进行技术创新动力要素的识别。

(1) 提升企业市场地位的追求是首要因素。光伏产业属于战略新兴产业[4], 是为了应对环境污染和资源短缺而出现的一个产业。因此在这个新兴行业里充满着各种不确定性, 投入大, 风险也比较大。同时光伏产业现阶段处于生命周期的成长期。本文主要讨论在成长期阶段, 光伏企业在这样的一个环境中能够促使企业创新主体进行创新的动力应该是该创新能够提升企业市场地位的诱惑。因为我国处于光伏产业价值链的中低端, 这些企业或大或小, 但大多大而不强, 乘着光伏需求旺盛的东风能够大捞一笔, 当产能过剩时只能坐以待毙。即使创新也只能是价值链低端的创新获得的收益与资金成本和时间成本往往不成正比, 因此即使有利益诱惑这些企业也未必能够进行技术创新, 他们更愿意引进别人的成果。而如果这个创新成果能够使企业获得一个更高的市场地位的时候, 企业就愿意花费成本来进行技术创新。因为这个市场地位的提高意味着企业开辟了一个崭新的发展空间。

(2) 其次是企业家精神的推动作用不容忽视。战略新兴产业本身就是一个不同于传统产业的一个新领域。是一个资金、技术密集型的行业。进入这个产业需要具备远见卓识及过人胆识, 敢于冒风险、敢于勇为人先。如无锡尚德施正荣当初带着技术回国艰难创业, 带领尚德辉煌一时。苗连生的远见卓识也是有目共睹, 研发多晶硅技术, 建设研究院等等。只有想要在这个产业一直坚持下去的决心和毅力才能够全身心的投入到技术创新中去。如果只想要分得战略新兴产业的一杯羹而不思进取, 那么这些企业必定会在市场竞争的大浪中洗涤出去的。

(3) 人的因素 (人才和人力) 。我国光伏企业在产业化方面起步较晚, 缺乏本土相关技术人才 (正向推动) 。应该大力培养相关从业人员壮大光伏产业人才队伍。产学研要紧密合作。而随着我国经济的发展, 人力成本 (逆向推动) 也在发生变化人力成本的升高也促使企业开始使用新技术新设备降低成本, 这样也能够推进企业进行技术创新。

(4) 政策的支持必不可少[5]。从光伏产业的发展史可以看到, 光伏产业最初就是在政府的大力支持下发展起来的。因为新兴产业相较于传统产业不具有成本优势, 竞争力弱, 如果没有政府的支持就会迅速的衰落。政策的支持表现在对中小企业技术创新资金的支持、标杆电价、金太阳工程、特许权招标、建筑光伏补贴等, 提高可再生能源补贴。每次政府政策出台都会引起光伏产业不晓得震荡, 甚至会雨后春笋搬得出现很多企业在政府补贴巨大的诱惑下纷纷上马光伏项目。这样就会导致光伏产业的恶性竞争, 抢占资源现象, 反而不利于那些真正想要进行技术创新的企业进行创新。因此政策在核准此类信息时应该更加谨慎。

2 光伏企业技术创新动力模型构建与模型构成分析

2.1 构建光伏企业技术创新动力模型

基于上述光伏企业技术创新动力要素, 构建光伏企业技术创新动力模型如图1所示[6]。

将企业技术创新动力要素分为最为核心的企业提升市场地位的目标、企业家精神、政府政策、人的因素这四大类。企业家精神能够激发创新意识, 而一个企业有了创新意识就能够加速创新的发生。企业对提升市场地位的目标能够更加坚定地帮助企业事实创新项目的展开。而在企业外部政府的政策支持与鼓励是必不可少的, 尤其是对于战略性性产业更是需要国家和政府来完善各项制度的建设及规范市场环境, 创建一个有序竞争两性竞争的市场环境。在进行创新的过程中最必不可少的就是人才的作用了。科技人才是创新研发的基础条件, 而人力是创新成果产业化的基础条件。所以离开了这两类人创新是不可能完成的, 因此这两类人对创新的重要性也是不言而喻的。当创新获得成功的时候, 创新就反过来对推动创新的因素产生新的影响。这样就形成一个动态的良性循环系统, 使创新不断进行。

2.2 光伏企业技术创新动力模型构成分析

本文针对光伏企业技术创新动力模型的构成要素, 提出相应的解释指标, 作为定量参考的依据。光伏企业技术创新动力要素及动力要素的解释指标如表1所示。

3 基于随机森林的光伏企业技术创新动力模型分析

随机森林[9,10,11] (Random Forests) 是一种统计学习理论。它是利用bootstrap重抽样方法从原始样本中抽取多个样本, 对每个bootstrap样本进行决策树建模, 然后组合多棵决策树的预测, 通过投票得出最终预测结果。大量的理论和实证研究都证明了RF具有很高的预测准确率, 对异常值和噪声具有很好的容忍度, 且不容易出现过拟合, 可以说RF是一种自然的非线性建模工具。而光伏企业技术创新动力模型动力要素间的互动就是一种非线性关系, 所以RF能够很好地模拟这种互动机制, 分析结果可信度高。

3.1 方法分析

随机森林分类 (RFC) 是由很多决策树分类模型{h (X, δk) , k=1, …}组成的组合分类模型, 且参数集{δk}是独立同分布的随机向量, 在给定自变量X下, 每个决策树分类模型都由一般投票权来选择最优的分类结果。RFC的基本思想:首先, 利用bootstrap抽样从原始训练集抽取k个样本, 且每个样本的样本容量都与原始训练集一样;其次, 对k个样本分别建立k个决策树模型, 得到k种分类结果;最后, 根据k种分类结果对每个记录进行投票表决决定其最终分类, 如图2。

在随机森林算法中如果一个对模型预测起到重要作用的特征被噪声干扰, RF算法的预测准确率将明显降低。具体方法阐述如下:首先对随机森林中已经形成的树, 利用袋外数据来测试, 会获得一个袋外数据准确率v1, 然后对袋外数据加入噪声, 通常是改变袋外数据中某特征R的值的大小, 再按第一步操作, 会获得一个袋外数据准确率v2。两次测试得到的准确率之差:v0=v2–v1即为所测试的树中特征R的重要性度量值, 同理可以求出其他特征的重要性度量值。当研究数据的特征非常多时, 就可以利用随机森林模型计算特征的重要性, 进行排序。这是随机森林一个非常优良的特性, 本文利用随机森林的这个对特征重要性度量对本文提出的13个方面进行排序。

本文中使用的是Open CV的random tree类, 它是根据Leo Breiman的随机森林方法执行的。在训练时, 通过设置CvRTarams::cal_var_importance, 就可以通过以下函数获得每一个变量的相对重要性。const Cv Mat*CvRTrees::get_var_importance () const;

3.2 数据分析

本研究采用专家访谈及问卷调查的方式收集数据。访谈对象是江苏省光伏企业的中高层管理人员。中高层人员对企业的远景战略以及市场现状能够清晰地把握, 能够很好的回答相关问题, 数据具有可靠性。同时根据光伏企业技术创新动力模型构成设计调查问卷, 经过整理回收的调查问卷答案及访谈记录, 并将其做定量化处理得到原始数据。

从调查问卷的回收情况来看, 大家一致认为研发人员保持在中等比重会最有利于技术创新, 而研发人员如果过少就算人员素质很高的话, 对技术创新的推动能力也是有限的。这也正印证了企业要组建自己的科研团队。就算内部科研人员不足也要和外界诸如科研院校及其他企业的合作, 加强人员优势来更好的进行技术创新。

将其他数据运用随机森林方法进行处理, 如果要使得随机森林训练的结果比较优良, 必须要对其参数进行仔细的寻找, 即参数的寻优。经过反复的试验, 得到以下随机森林的参数。

按照此参数及收集的数据进行分析得到以下结果, 如表3所示。

由分析结果得到, 企业家强烈的创新欲望、预期市场竞争力的提高、政府对光伏企业的补贴、完整的技术链的形成以及对科研人员的物质激励最能够推动企业进行技术创新。

回到光伏企业技术创新动力模型中, 可以合理解释这样的现象。企业希望能够提升自身在市场中的竞争地位, 而在新兴技术领域[6]只有提升了自己的技术水平才能取得成本优势及客户优势。而完善的技术链或是在技术链中的重要位置能够快速拉动企业的市场地位的提高。俗话说“一只羊带领一群狼的部队是打不赢一匹狼带领一群羊的部队的”, 这就说明了领导力的重要性。一个强势有主见并且有创新欲望的企业家是最能够鼓舞士气, 带领企业走向创新成功之路的。对研究人员除了要给予精神上的鼓舞, 物质奖励也是必不可少的。适当的物质奖励不但能够满足个人在精神上的被认可而且也能够极大的调动员工的积极性。除了这些企业内部的内因外, 外在的市场环境对企业的创新动力也是有非常大影响的。尤其是战略新兴产业, 国内市场还不成熟, 同与之相对的传统企业在成本及相关的市场方面还有较大的差距。如果没有政府的补贴, 这些企业根本不具备成本优势, 从而也就不利于市场的扩大。而没有市场需求拉动的企业是不愿意进行投入巨大的创新研发的。他们更愿意在这个狭小的市场里维持原样, 避免投入到时间不确定、需求不确定的创新中去。

4 结论与建议

本文通过调查问卷及专家访谈的方法获得批量数据运用随机森林的方法进行处理。得到企业技术创新最大的技术推动力为得到预期市场竞争力的提高、完整的技术链的形成、企业家强烈的创新欲望、对科研人员的物质激励以及政府对光伏企业的补贴。针对这些要素对企业与政府提出如下建议。

(1) 企业要加强与科研院校及产业链上的其他企业的合作。因为这些合作不仅能够互补新知识而且能够这对产业链上新需求做出快速反应, 有利于及时抓住市场机遇。同时能够弥补企业内科研人员不足的劣势。

(2) 企业要重视对科研人员的物质激励。物质激励要遵循适度原则, 按其贡献大小给予奖励, 这样才能够真正调动员工的积极性。同时要注重员工的精神激励, 对员工的优秀表现要不吝赞扬, 有些人更愿意得到精神上的满足。

(3) 政府要严格审核光伏企业的成立。由于政府的大力补贴政策使得一些光伏企业如雨后春笋般涌现, 但是却形成了量多而不强的局面。究其原因是有些企业的成立就是为了这些补贴而想要获取短期收益。这些企业只是单纯引进生产设备进行低端的加工制造。虽然这些企业有存在的必要但是在数量与质量上要予以控制, 否则会扰乱市场环境, 不利于良性竞争环境的形成。

摘要:以光伏企业为例, 提出光伏企业技术创新动力要素, 提升企业市场地位的目标、企业家精神、人的因素、政策的支持。并由此构建光伏企业技术创新动力模型。在专家访谈及问卷调查的基础上使用随机森林法, 分析技术创新动力要素的权重排序、动力要素间的互动关系。研究结果表明, 企业家强烈的创新欲望、预期市场竞争力的提高、政府对光伏企业的补贴、完整技术链的形成以及对科研人员的物质激励是光伏企业进行技术创新的最大动力。

关键词:光伏企业,技术创新动力要素,随机森林,模型

参考文献

[1]厉怒江.关于技术创新动力理论的研究[J].科学管理研究, 1993, 11 (1) :67-70

[2]王海燕.企业创新动力研究评述[J].科学管理研究, 2011, 29 (6) :11-14

[3]孙冰.企业技术创新动力的理论研究评述[J].现代管理科学, 2008 (4) :8-10

[4]王新新.战略性新兴产业发展规律及发展对策分析研究[J].科学管理研究, 2011, 29 (4) :1-5

[5]杜伟.企业技术创新动力的基本构成分析及现实启示[J].软科学, 2005, 19 (4) :77-80

[6]李垣, 汪应洛.企业技术创新动力机制构成要素的探讨[J].科学管理研究, 1994, 12 (4) :43-45

[7]孙冰, 王为.企业自主创新动力系统的建构[J].现代管理科学, 2010, 23 (138) :19-22

[8]孙冰, 王为.企业自主创新动力仿真分析[J].商业经济与管理, 2010, 8 (226) :28-33

[9]LEO BREIMAN.Random Forests[J].Machine Learning, 2001 (1) :45

[10]LIAW A, WIENER M.Classification and regression by random Forest[J].R News, 2002 (3) :18-22

上一篇:积极努力下一篇:法学