投影寻踪分类模型(精选7篇)
投影寻踪分类模型 篇1
1 问题的提出
Friedman等[1]于1974 年建立的投影寻踪分类 ( Projection Pursuit Clustering, 简称PPC) 模型是一种适用于非线性、非正态高维数据处理的新兴统计建模方法, 首先将高维数据投影到1 ~ 3 维子空间上, 再分析其数据结构以达到研究高维数据的目的, 由成平等[2]和李国英[3]最早引入到国内。虽然此后Huber[4]等学者又提出了多个PPC模型, 但国内绝大部分学者均采用一维PPC模型, 发表了很多有关PPC建模方面的论文, 取得了一定的成就[5 - 14], 但几乎没有学者对投影指标函数和约束条件等的特性进行过深入研究, 都认为PPC建模是一个高维复杂非线性最优化问题, 传统最优化方法难以求解, 而先后将遗传算法 ( GA) [5 - 6]、多智能体遗传算法 ( MGA) [7]、单纯形法 ( SA) [8]、基于实数编码的加速遗传算法 ( RAGA) [9 - 12]和改进双链量子遗传算法 ( ADCOGA) [13]等10 余种最优化算法应用于PPC建模, 并且都认为取得了更好的效果。另一方面, 由于至今还没有研究提出判断最优化过程是否真正求得了全局最优解的准则或者判据, 因此目前发表的不少论文存在明显的错误。PPC建模文献存在着诸多乱象, 主要表现为:
一是三种约束条件, 即并且[5,6,7,12] (条件1) 、并且[8,9,10,11,13,14] (条件2) 和并且[15] (条件3) 混用, 不少文献的实际建模结果甚至不满足条件 (如文献[12]的8个指标的权重分别0.3705、0.3474、0.4537、0.4168、0.4232、0.3917、0.3046和0.4658, 其权重平方和不等于1, 为1.280;文献[13]的6个指标的权重分别为0.6540、0.1475、0.4983、0.5617、0.2477和0.1538, 其权重平方和等于1.098, 不等于1) 。
二是在采用约束条件2 的不少文献中, 部分指标的投影向量系数 ( 以下也称为权重) 等于 “0”或非常接近于 “0” ( 以下统称为等于 “0”) ( 如文献[8] 的15 个指标中有8 个指标的权重为0; 文献[9] 的18 个指标中有15 个指标的权重小于0. 1, 远小于其他三个指标的权重; 文献[10] 的23 个指标中有16 个指标的权重等于0, 等等) 。
三是在采用约束条件1 的文献中, 部分正向指标的权重小于 “0”[5 - 6] ( 如文献[5] 的正向指标2、3、9、11、17、18、19 的权重小于0; 文献[6]的所有正向指标的权重都小于0) , 即建模结果与事先假设或已有的专业知识或理论相矛盾。
四是样本值始终保持不变的指标的权重不等于“0”[10] ( 如文献[10] 的指标6 的值始终保持不变, 但其权重却为0. 1504) 。
五是 ( 归一化后) 数值完全相同的两个指标的权重却不相等[5,10] ( 如文献[5] 的指标8 和17 的归一化值相同, 但权重分别为0. 2380 和- 0. 1316) 。
现有文献对出现上述现象都没有展开讨论和分析, 但是, 这些错误现象已极大地限制了PPC模型在综合评价、预测等管理学、工程学和社会科学等领域的正确应用。是什么原因导致出现上述现象?如何解释上述现象? 我们必须对此进行深入研究。为此, 本文从PPC投影指标函数、约束条件和样本投影值等的特性出发, 分析和研究上述现象, 从而提出了PPC建模的基本原则和步骤, 以便使PPC建模获得更可靠的结果和更广泛的应用。
2 投影寻踪分类建模原理
2. 1 投影指标函数及其最优化求解
最常用的一维PPC分类建模的投影指标函数等于样本投影值z ( Xi) 的标准差Sz和局部密度Dz的乘积[1,7], 即Q ( a) = Sz* Dz, 通过求解投影指标函数的最大值就可以求得PPC模型的最佳权重aj, 即:
其中Sz和Dz的计算公式为:
ar ( a1, a2, …, ap) 为p维单位投影向量 ( aj为系数或权重) , 第i个样本的投影值, xi,j为第i个样本、第j个指标的归一化数据 ( i = 1, 2, …, n; j = 1, 2, …, p) ; E ( z) 为所有样本投影值z ( Xi) 的平均值; R为密度窗宽; u ( R - ri,k为单位阶跃函数, 当时为1, 否则为0; ri,k= | z ( Xi) - z ( Xk) | 为样本i与样本k之间的距离。
为了消除各指标量纲不一致对建模结果的不利影响, 须对样本原始数据进行归一化预处理, 一般采用极大极小归一化方式, 即对越大越好 (即正向指标) 和越小越好指标 (即逆向指标) 分别采用 (方式一) 和 (方式二) 进行归一化, 其中maxxj和minxj分别为第j个指标原始数据x*i, j的最大值和最小值。
2. 2 密度窗宽R值的选取
由 ( 1) 式和 ( 2) 式知, 给定样本指标值后, 密度窗宽R值是决定权重大小的唯一参数, 一般要求选取合理的R值, 既使包含在视窗内的样本个数不能太少, 又不能随着样本的增多而增加太多[1]。目前有三种推荐方法选取R值: ( 1) 文献[5] 和[11] 等推荐取, 一般取R = p, 即视窗内包含了所有样本点; ( 2 ) 文献[1]、[8]、[10] 和[15] 等推荐取R = 0. 1Sz, 该值很小, 即每个视窗内的样本点很少; ( 3) 文献[7] 推荐取, 即始终有约 (1/3~1/3) 的样本点在视窗内。
2. 3 约束条件分析
Friedman等[1]给出了约束条件, 但没有限定aj的取值范围。李建明等[16]建立和证明了可用于投影寻踪分类建模的p维单位正交基ra为:
其中:。由 (3) 式知, ra满足并且, 即约束条件1是正确的。
3 PPC建模的投影指标函数和样本投影值的特性
3. 1 PPC建模的投影指标函数、样本投影值和权重的特性
笔者通过大量实证建模研究, 并从理论证明了PPC建模的投影指标函数、样本投影值和权重具有如下特性[7]:
特性一, 如果某一个指标分别采用方式一或二进行归一化, 其权重必定互为相反数 ( 即ak或-ak) , 而且任意两个样本之间的距离、样本标准差、局部密度和投影指标函数值等均保持不变。
特性二, ( 归一化后) 数值完全相同的两个指标的权重必定是相等的。
特性三, 若某指标的值始终保持不变, 则其权重必定等于 “0”。
特性四, 若ar是最优解, 则-ar也必定是最优解。
特性五, 采用约束条件2 时, 逆向指标的权重必定等于 “0”; 正向指标如果采用方式二进行归一化, 则其权重也必定为 “0”。
因此, 采用约束条件2 建模时, 如果某些指标的权重等于 “0”, 必须引起我们的高度重视, 这些指标很可能是逆向指标, 或者是对正向指标进行了错误的归一化所致。从上述特性可知, 前述的现象二至五都是错误的。
3. 2 样本数据预处理方式对投影指标函数和样本值的影响
实践中绝大部分文献采用极大极小归一化数据预处理方法, 但也有 “0”均值标准化[14] ( 即正向指标和逆向指标分别采用和、极值规格化[6] ( 即正向指标和逆向指标分别采用和xi,j= 1 - xi*, j/maxxj) 等处理方法 ( 其中j和 σj分别是指标j的均值和标准差, 其他符号意义同上) 。针对上述数据预处理方法, 特性一至五也始终成立。
4 PPC分类建模的基本原则和步骤
为保证最优化过程求得真正的全局最优解, 根据上述特性一至五, 特提出如下建模原则和步骤:
( 1) 收集样本数据, 初步设定各指标性质和进行正向归一化处理。为便于判断最优化过程是否真正求得了全局最优解, 建模时应增加三个虚拟指标:xp + 1≡1, xp + 2= xp和xp + 3= ( 1 - xk) 。建议取, 采用约束条件1。
( 2) 调整有关最优化参数, 直至满足ap + 1≈0、ap + 2≈ap和ap + 3≈ - ak, 可基本保证选取的最优化参数是合理和有效的; 再删除指标xp + 2和xp + 3重新建模, 并满足ap + 1≈0, 得权重aj、标准差S2、局部密度Dz和投影指标函数值Q ( a) ; 继而分两次分别改变约一半指标的归一化方式重新建模, 如果这些指标权重变为相反数, 而且ri,k、Sz、Dz和Q ( a) 都保持不变, 说明求得了真正的全局最优解, 进而计算各样本投影值z ( Xi) 。
( 3) 如果指标权重大于 “0”, 说明指标的性质与先前设定的一致, 否则, 先前设定的指标性质是错误的。如果出现指标性质不一致的情况, 则须参考指标之间的相关性分析建模结果的有效性。
( 4) 根据指标权重大小对指标重要性进行排序和分类; 根据z ( Xi) 值的大小对样本进行排序和分类研究。
5 实证分析
参照文献[14], 笔者根据2007 年 《中国统计年鉴》整理了28 个指标 ( 其中经济发展指标6 个、社会发展指标14 个、资源环境指标8 个) 和我国30个省市自治区 ( 因为西藏缺少能源利用方面3 个指标和失业率共4 个指标的数据, 故建模时不包括西藏) 的原始数据, 并参照文献[14] 进行归一化和取R = max ( ri,k) + p /2, 采用约束条件1, 建模时增加虚拟指标x29≡1、x30= x28和x31= ( 1 - x27) 。建模结果如表1 所示。情况一是文献[14] 的结果;情况二是增加了3 个虚拟指标的结果; 情况三是删除了虚拟指标x30和x31的结果; 情况四是改变指标x1~ x10归一化方式后的结果; 情况五是改变所有逆向指标x4、x6~ x8、x10、x13、x15、x21~ x23、x25和x28归一化方式后的结果; 情况六是改变所有指标归一化方式后的结果。为便于比较, 我们又计算了采用约束条件2 的结果, 列于表1 的右侧。
注:a、b、c为虚拟指标
表1 实证结果再次证实: ( 1) 采用约束条件1时, 改变指标归一化方式前后其权重必定互为相反数, 而样本标准差Sk、局部密度Dz和投影指标函数值Q ( a) 均保持不变 ( 特性一) 。 ( 2) 归一化后数值完全相同的指标28 和30 的权重相等 ( 特性二) 。 ( 3) 数值始终不变的指标29 的权重必定等于 “0” ( 特性三) 。 ( 4) 如ar是最优解, 则-ar也必定是最优解值 ( 对照情况三和六的结果, 特性四) 。 ( 5) 采用约束条件2 时, 逆向指标的权重必定等于 “0” ( 对照约束条件1 和2 下情况三至六的结果, 特性五) , 即采用约束条件2 时权重等于 “0”的指标不一定是 “无效用”的, 很可能是逆向指标。 ( 6) 文献[14] 的结果存在诸多错误。首先是设定 ( j = 1, 2, …, 28) , 实际上, PPC分类模型各指标权重的正确取值范围应该是 ( j = 1, 2, …, 28) , 实际建模结果也发现有12 个指标的权重小于0; 即使采用约束条件2, 即并且, 文献[14] 目标函数的最大值也仅为47689. 80, 远远小于本文的66 522. 00。说明由于缺乏判断最优化过程是否求得了真正全局最优解的准则, 文献[14] 远没有求得真正的全局最优解。在其他很多文献中也经常出现这种情况。文献[14] 排名前六位的最重要指标分别是x28、x21、x22、x15、x25和x26, 本文结果其分别排名27、13、14、26、28 和18 位, 差异很大; 而本文结果排名前六位的指标分别是x11、x18、x16、x9、x3和x19, 其在文献[14]中分别排名18、9、7、23、12 和19。在文献[14]中, 资源环境指标 ( 平均权重为0. 2688) 比人口社会指标 ( 平均权重为0. 1378) 重要, 远比经济发展指标 ( 平均权重仅为0. 0606) 重要 ( 平均权重大5倍左右) , 而本文的结果是人口社会指标最重要 ( 平均权重为0. 1954) , 比经济发展指标 ( 平均权重为0. 1766) 稍重要或者基本相当, 而资源环境指标 ( 平均权重仅为0. 1253) 最不重要。由此可知, 建模结果正确与否对影响因素的分析及其应制定相关的政策、采取的措施等都有很大的影响。
6 讨论与分析
6. 1 理论上是 “正向指标”, 其权重却出现了小于“0”的情况, 反之亦然
文献[5] 有20 个正向化指标, 其中7 个指标 ( 指标3、9、11、15、17、18 和19) 的权重为小于“0”; 文献[6] 的所有正向指标的权重都小于“0”。理论上是 “正向指标”, 而建模结果却出现权重小于 “0”的论文还有不少, 在此不再一一列举, 但这些论文的结果显然都是错误的。分析这些论文的建模过程发现, 出现正向指标权重小于 “0” 的主要原因大致有:
( 1) 因为实践中缺少判断准则, 最优化过程没有求得真正的全局最优解。例如, 文献[5] 的建模结果为a1 - 23= ( 0. 2350, 0. 2381, - 0. 2381, - 0. 2150, 0. 1651, 0. 2381, - 0. 2148, 0. 2380, - 0. 2240, 0. 2344, - 0. 0046, 0. 2381, 0. 1699, 0. 2381, - 0. 2381, 0. 0638, - 0. 1316, - 0. 0188, - 0. 2381, 0. 2381, 0. 2381, 0. 2233, 0. 2297 ) , Sz= 0. 7640, Dz= 555. 68, Q ( a ) =424. 54, 但笔者采用相同的数据和参数的建模结果却为a1 - 23= ( 0. 1644, 0. 2196, 0. 2460, - 0. 2725, 0. 2231, 0. 1717, - 0. 2021, 0. 2377, 0. 2458, 0. 2550, 0. 2381, 0. 1785, 0. 1785, 0. 1981, - 0. 2575, 0. 0965, 0. 2377, 0. 1188, 0. 1554, 0. 2078, 0. 1903, 0. 1981, 0. 1980) , Sz= 1. 3303, Dz= 541. 35, Q ( a ) = 720. 15。文献[5] 的目标函数值Q ( a) 远小于笔者的最优化计算结果, 说明文献[5] 没有求得真正的全局最优解; 其次, 笔者的计算结果中, 只有逆向指标4、7 和15 的权重小于 “0”, 而文献[5] 却有7 个正向指标的权重出现了小于 “0” 的情况; 第三, 指标8 和17 的归一化数值完全相同, 笔者的计算结果是他们的权重也相等, 都等于0. 2377, 而文献[5] 中其权重不仅不相等, 而且指标17 的权重还出现了小于 “0”的情况 ( - 0. 1316) 。从上述三个方面都可以看出, 文献[5] 的建模结果的错误显然是由于最优化过程没有求得真正全局最优解造成的。
( 2) 理论上是正向指标, 但实际的样本数据却呈现出逆向指标的规律。例如: 在文献[14] 中, 理论上所有指标都是正向的, 但收集到的实际数据却表明有些指标之间存在负相关关系, 此处仅列出了指标11 ( 因其权重最大) 与其他所有指标之间的相关系数, 即: 0. 0517、- 0. 0197、0. 8571、- 0. 5345、0. 8090、 - 0. 2015、 - 0. 3763、 - 0. 3342、0. 8582、- 0. 4225、0. 9215、 - 0. 3172、0. 7349、 - 0. 2131、0. 9278、0. 8526、0. 9489、0. 8762、0. 3610、- 0. 2790、- 0. 3626、 - 0. 2043、0. 3486、 - 0. 2139、0. 2156、0. 3244 和- 0. 2321。这些相关系数值表明, 指标11与指标2、4、6、7、8、10、13、15、21、22、23、25 和28 之间存在着负相关关系; 建模结果也表明, 这些指标中, 除指标2 ( 因为相关系数很小) 的权重大于0 ( 数值也很小) 以外, 其他指标的权重都小于0, 建模结果当然是可靠的。因此, 理论上是正向指标, 但如果实际样本数据是逆向的, 他们的权重也肯定小于 “0”, 这是由于数据本身的负相关特性造成的。
6. 2 正向指标和逆向指标的判定
根据特性一, 可以很方便地判定指标的性质。如果对指标进行越大 ( 小) 越好的归一化处理, PPC建模的权重又大于 “0 ”, 则该指标为正 ( 逆) 向指标; 若权重小于 “0”, 则该指标实际上是逆 ( 正) 向的。因此, 在研究实际问题时, 不仅要求得指标的权重, 更要根据权重是否大于 “0” 来判定指标的性质; 对于出现指标性质与事先假设不一致的情况, 必须认真加以研究分析, 找出问题所在, 而不能置之不理。如对于文献[5] 和[14] 中数据的建模结果就是最好的例证: 根据文献[5] 的评价指标分级标准, 显然只有指标4、7 和15 是逆向指标, 如果其他指标的权重出现了小于0 的情况, 结果肯定是错误的, 必须找出造成这些错误的原因, 并加以改正; 文献[14] 中的人口自然增长率 ( 指标8) 当然越小越好, 其权重小于0 是正确的, 反之肯定是错误的, 而人均地区生产总值 ( 指标3) 当然是越高越好, 其权重应该大于0, 否则结果肯定是错误的, 等等。
6. 3 选用约束条件
正确的约束条件为并且, 任何情况下都应该优先采用。
6. 4 最优化过程求得真正全局最优解的重要性及其改善区域协调发展水平的建议
投影寻踪建模的最终目的就是既要求得各个评价指标的最佳权重以及各个样本的得分, 又要对各个指标和样本进行排序和分类研究, 据此提出改进措施和建议, 因此, 如果最优化过程没有求得真正全局最优解, 这样就可能出现完全错误的结果, 甚至出现正好相反的情况, 则据此采取的措施不但完全无益, 而且可能适得其反。
对于文献[14] 研究的区域协调发展问题, 文献[14] 的错误 ( 建模结果是错误的) 结论是: 8个资源环境类指标的权重占总权重的64. 9% , 应该采取措施优先发展资源环境类指标, 这样最有利于改善区域协调发展水平, 可以起到事半功倍的效果。而6 个经济发展指标的权重仅仅占总权重的4. 5% , 如果优先改善经济发展指标, 则将事倍功半; 同时, 社会发展指标的权重占总权重的30. 6% , 约不到1 /3。可能文献[14] 的作者也已经意识到了其研究结果的错误, 所以没有从其研究结果出发提出相应的建议, 而是反其道 ( 其结果) 而行之, 从已有的认识 ( 常识) 出发, 提出应优先发展经济、调整经济结构和提高人口素质等建议, 这正好是我们研究的正确结论的部分内容。本文建立的正确的PPC建模结论是: 应该采取措施, 优先改善社会发展指标和经济发展指标 ( 因为这些指标的平均权重基本相当) , 这样可以起到事半功倍的效果, 最有利于改善区域协调发展水平。从子系统的权重来看, 社会发展指标的权重占总权重的61. 7% , 经济发展指标权重占总权重的22. 3% , 而资源环境指标的权重仅占总权重的16. 0% , 如果优先发展资源环境指标将导致事倍功半的结果。从单个指标的重要性来讲, 可以根据求得的各个指标权重的绝对值大小对指标的重要性进行排序和分类。文献[14] 的结论是森林覆盖率最重要, 约占总权重的20. 6% , 即一个指标就占了28 个指标的1 /5 多, 是第二重要指标权重的2 倍多; 同时, 28 个指标中有10 个指标的权重占总权重的1% 以下, 实在是难以想象的。而笔者的建模结论是, 前5 个指标 ( 大专及其以上学历占人口比重、每千人拥有卫生人员数、人均教育经费、城镇人口比例和人均地区GDP) 的重要性基本相当, 分别占总权重的8. 2% 、8. 0% 、7. 6% 、7. 1% 和7. 1% , 并且只有5 个指标的权重占总权重的1% 以下。文献[14] 认为最重要的6 个指标即28、21、22、15、25 和26 在正确模型中分别仅排名第27、13、14、26、28 和18 位, 两者之间的差异非常大;与此对应, 正确模型中重要性排名前六位的是指标11、18、16、9、3 和19, 而其在文献[14] 中分别排名第18、9、7、23、12 和19 位。
由表1 可知, 权重占比大于1% 的8 个逆向指标是城乡消费水平对比 ( x4) 、最终消费率 ( x6) 、人口自然增长率 ( x8) 、失业率 ( x10) 、专业技术人员占城镇就业人口的比重 ( x13) 、单位地区GDP能耗指标值 ( x21) 、单位工业增加值能耗指标值 ( x22) 和单位地区GDP电耗指标值 ( x23) 。显然, x8、x10、x21、x22和x23与区域协调发展水平之间呈负相关关系 ( 即是逆向指标) 是毫无疑问的, 而其他的几个逆向指标似乎与我们已有的认识不太一致。事实上, 城乡消费水平对比 ( x4) 越大, 表明该区域的城乡差异就越大, 当然导致区域的发展越不协调; 同理, 最终消费率越低 ( x6) , 则投资率就越高, 这样不仅可以直接带动生产的增长, 还会带动居民消费的增长, 从而达到更好的区域协调发展, 所以, x6是逆向指标也是正确的。表面上看, 专业技术人员占城镇就业人口的比重 ( x13) 越高, 表明该区域的劳动力素质越高, 但事实上却进一步扩大城乡差别, 使城镇发展得更好、更快, 而农村发展得更慢、更差, 因此, x13实质上是逆向指标是正确的。事实上, 文献[14] 并没有明确说明哪些是正向指标或者是逆向指标。
此外, 可以根据求得的各个区域的投影值大小对区域的协调发展水平进行排序和分类研究。
因此, 在PPC建模中, 仅靠最优化算法本身并不能判定最优化过程是否已经求得了真正的全局最优解, 必须依据投影指标函数和样本投影值等的特性才能判定和确保求得真正的全局最优解。
7结语
PPC建模的核心和关键是求得投影指标函数真正的全局最优解, 但目前因缺少判断准则, 不少文献没有求得真正的全局最优解, 出现了正向指标的权重小于 “0”、逆向指标的权重大于 “0”、 ( 归一化后) 数值相同的指标的权重不等、各样本数据保持不变的指标权重不等于 “0”等等错误现象。
笔者提出和实证分析了PPC分类模型的五个特性: ( 1) 改变指标归一化方式前后权重互为相反数; ( 2) 采用约束条件2 建模时逆向指标的权重必定等于 “0”; ( 3) ( 归一化后) 数值完全相同的指标的权重必定是相等的; ( 4) 样本数据保持不变的指标的权重必定等于 “0”; ( 5) ar是最优解, 则-a也必定是最优解。这五个特性对判定PPC建模是否求得了真正的全局最优解以及分析指标性质等都具有重要的理论意义, 对建立可靠、合理和正确的PPC模型具有重要的实践价值; 而且, 建立可靠的PPC模型对后续采取正确的措施和策略, 提出合理的建议, 发挥事半功倍的作用具有决定性的意义。
投影寻踪分类模型 篇2
关键词:遗传算法,投影寻踪分类模型,评标
0 引言
工程项目评标目前常采用综合评标法, 工程项目评标属于典型的多目标决策问题。存在较大的主观性和人为干扰因素[1]。本文提出了基于实码加速遗传算法 (Real coding based Accelerating Genetic Algorithm, 简称RAGA) 的投影寻踪 (Projecting Pursuit Classification, 简称PPC) 分类模型[2], 能够克服以往数学方法的诸多弊端。
1 PPC模型的原理及步骤
1.1 投影寻踪的原理
投影寻踪是一种可用于高维数据分析的方法, 是由Friedman和Tukey (1974年) 模仿有经验的数据分析工作者的做法, 提出的一种把整体上散布程度和局部凝聚程度结合起来的新指标来做聚类和分类分析[2]。投影寻踪 (Projecting Pursuit, 简称PP) 方法能克服高维数据的“维数祸根”所带来的严重困难, 这是因为它对数据的分析是在低维子空间上进行的, 对一至三维的投影空间数据点来说, 足以发现数据在投影空间中的结构或特征。它可以排除与数据结构和特征无关的, 或关系很小的变量的干扰。另外, PP方法可以将高维数据投影到一维子空间上, 再对投影后的一维数据进行分析, 比较不同一维投影的分析结果, 找出好的投影。PP方法与其他非参数方法一样可以用来解决某种非线性问题。PP方法虽然是以数据的线性投影为基础, 但它找的是线性投影中的非线性结构, 因此它可以用来解决一定程度的非线性问题。
1.2 投影寻踪建模步骤
PPC模型的建模过程包括以下几点[3]:
1) 样本评价指标集的归一化处理。设各指标值的样本集为{x* (i, j) |i=1~n, j=1~p}, 其中, x* (i, j) 为第i个样本第j个指标值;n, p分别为样本的个数 (样本容量) 和指标的数目。为消除各指标值的量纲和统一各指标值的变化范围, 可以用极值归一化处理。
对于越大越优的指标, 处理为:
对于越小越优的指标, 处理为:
其中, xmax (j) , xmin (j) 分别为第j个指标的最大值和最小值;x (i, j) 为指标特征值归一化的序列。
2) 构造投影指标函数Q (a) 。PP方法就是把P维数据{x* (i, j) |j=1~p}综合成以a={a (1) , a (2) , a (3) , …, a (p) }为投影方向的一维投影值Z (i) , 即:
然后根据{Z (i) }的一维散布图进行分类。综合投影指标值时, 要求投影值Z (i) 的散步特征应为:局部投影点尽可能密集, 最好凝聚成若干个点团;而在整体上投影点团之间尽可能散开。因此, 投影指标函数可以表达成:
Q (a) =SzDz (4)
其中, Sz为投影值Z (i) 的标准差;Dz为投影值Z (i) 的局部密度。
其中, E (z) 为序列{z (i) |i=1~n}的平均值;R为局部密度的窗口半径, 它的选取既要使包含在窗口内的投影点的平均个数不太少, 避免滑动偏差值太大, 又不能使它随着n的增大而增加太高, R可以根据实验来确定, 一般可取值为0.1Sz;r (i, j) 为样本之间的距离, r (i, j) =|Z (i) -Z (j) |;u (t) 为一单位阶越函数, 当t≥0时, 其值为1, 当t<0时, 其值为0。
3) 优化投影指标函数。当各指标值的样本集给定时, 投影指标函数Q (a) 只随着投影方向a变化, 不同的投影方向反应不同的数据特征, 最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向, 因此可以通过求解投影指标函数最大化问题来估计最佳投影方向, 即:
这是一个以{a (j) |j=1~p}为优化变量的复杂非线性优化问题, 用传统的优化方法处理较难。因此, 本文应用模拟生物优胜劣汰与群体内部染色体信息交换机制的、基于实数编码的加速遗传算法 (RAGA) 来解决其高维全局寻优问题[4]。
第一, 以目标函数表达需求优化解的问题:
第二, 优化变量的实数编码。
采用如下线性变换:
x (j) =a (j) +y (j) [b (j) -a (j) ], j=1~p (8)
式 (8) 把初始变量区间[a (j) , b (j) ]上的第j个待优化变量x (j) 对应到[0, 1]区间上的实数y (j) , y (j) 即为RAGA中的遗传基因。
第三, 父代群体的初始化。
设父代群体规模为n, 生成n组[0, 1]区间上的均匀随机数, 每组有p个, 即{u (j, i) |j=1~p, i=1~n}, 把各u (j, i) 作为初始群体的父代个体值y (j, i) 代入式 (8) , 得优化变量值x (j, i) , 再经式 (7) 得到相应的目标函数值f (i) , 把{f (i) |i=1~n}按从大到小排序, 对应个体{y (j, i) }也跟着排序, 目标函数值越大则个体适应能力越强, 称排序后最前面的k个个体为优秀个体, 使其直接进入下一代。
第四, 计算父代群体的适应度评价。
评价函数用来对种群中的每个染色体y (j, i) 设定一个概率, 以使该染色体被选择的可能性与其种群其他染色体的适应性成比例。设参数α∈ (0, 1) 给定, 定义基于序的评价函数为:
eval (y (j, i) ) =α (1-α) i-1, i=1~N (9)
这里i=1意味着染色体是最好的, i=N说明是最差的。
第五, 进行选择操作, 产生第一个子代群体{y1 (j, i) |j=1~p}。
选择过程是以旋转赌轮N次为基础的。每次旋转都为新的种群选择一个染色体。赌轮按每个染色体的适应度来选择染色体。选择的过程可以表述如下:
每个染色体y (j, i) 计算累积概率qi (i=0~N) 为:
从区间[0, qi]中产生一个随机数r;若qi-1<r<qi, 则选择第i个染色体y (j, i) ;重复步骤3和步骤4共N次, 这样可得到N个复制的染色体, 组成新一代个体。
4) 分类 (优序排列) 。把由步骤3) 求得的最佳投影方向a*代入式 (7) 后可得各样本点的投影值Z* (i) 。将Z* (i) 与Z* (j) 进行比较, 二者越接近, 表示样本i与j越倾向于分为同一类。若按Z* (i) 值从大到小排序, 则可以将样本从优到劣进行排序。
1.3 模型实现过程[5]
将基于RAGA的投影寻踪分类模型 (PPC) 具体应用到评标分析上, 首先是将指标体系 (高维数据) 投影到一维子空间上, 借助RAGA算法, 建立投影寻踪分类模型, 多次运算, 寻找最佳投影方向, 形成评价指标值, 按大小进行排序。
2 应用实例
位于某市的回迁楼项目, 总建筑面积37 000 m2, 共有A, B, C三家单位竞标。业主从投标单位资质, 施工经历, 投标价, 施工工期, 施工布置, 施工方法六个方面进行评议。其数据见表1。
2.1 计算过程
将表1中的数据进行归一化处理, 得出归一化矩阵:
将X*依次代入式 (3) ~式 (6) 得出投影指标函数, 然后用RAGA进行优化处理。选定种群数为400, 交叉概率Pc=0.8, 变异概率Pm=0.8, a=0.05, 加速循环20次, 得出最大指标函数值0.422 0, 最佳投影方向:
a*= (0.122 0, 0.374 2, 0.021 5, 0.416 8, 0.268 4, 0.118 2) 。
然后将a*代入式 (8) , 即可得各个方案的综合评价投影值。最优排序为:
Z* (j) = (1.737, 1.523, 1.651) 。
通过程序计算, 从Z* (j) 排序的结果中可以看出, 三家竞标单位选择排名为A, C, B。
2.2 结果分析
通过程序计算, 评标结果与业主评标小组的结论基本吻合, 总体来讲基于RAGA的PPC模型在评标中的应用是一个有积极性的尝试, 为评标中排除人为因素干扰, 公正的评判开拓了新的思路。当然, 该模型在工程评标中的应用还有一些需要改进的地方:1) 采摘的数据要更加全面, 指标要尽可能的完全体现各承包商的特性、优势和劣势。2) 要尽可能减少业主评标小组人为因素的干扰。
3 结语
1) 投影寻踪分类模型 (PPC) 直接采取各样本的原始数据进行分析, 信息量不会丢失。2) 基于RAGA的PPC模型能够将高维数据通过寻求最佳投影方向映射到低维子空间, 从而形成综合评价指标, 为解决具有模糊性、不确定性的高维数据的综合评价、排序提供了一种新的方法与思路。3) 基于RAGA的PPC模型在工程评标中得以应用, 不仅得出各个方案的综合评判优劣排序, 而且从数据本身找出其结构和特征, 应用效果较好。
参考文献
[1]刘钟莹, 卜龙章, 李泉.灰色关联投影法在工程项目评标中的应用[J].扬州大学学报, 2003, 6 (1) :57-60.
[2]FRIEDMAN J H, TURKEY J W.A projection algorithm forexploratory data analysis[J].IEEE Trans on Computer, 1974, 23 (9) :881-890.
[3]付强, 赵小勇.投影寻踪模型原理及其应用[M].北京:科学出版社, 2006:47-50.
[4]金菊良, 丁晶.遗传算法及其在水科学中的应用[M].成都:四川大学出版社, 2000.
软件质量综合评价的投影寻踪模型 篇3
随着计算机应用的日益普及和信息化水平的不断提高,开发软件系统的质量要求越来越高和系统的体系结构也越来越复杂。然而由于系统的功能和复杂度越来越高,由此产生的系统可靠性问题便日益突出。并且当前的软件系统承载着大量的信息,一旦发生崩溃将会带来巨大的损失,因此设计和开发出高质量的软件系统,提高软件质量的研究已成为当前软件工程研究领域中的一个热点。
软件质量评价直接影响软件的开发、使用和维护,对软件进行客观、科学地评价对提高软件的质量有着重要的意义,至今已提出了很多的研究方法,如模糊综合评价方法[1,2]、人工神经网络[3,4]、投影寻踪[5]评价方法等。但模糊综合评价方法指标的权重一般都要由专家给定,而且定性信息也多是通过人的主观判断给予量化,由于这些受专家个人认知差异和专家弃权行为等因素的影响,存在着主观随意性和思维的不确定性,直接影响着评价结果的准确性。人工神经网络方法是一个黑箱模型,建模过程十分复杂、繁琐,而且算法很容易陷入局部最优值。文献[3]采用人工神经网络和文献[4]采用投影寻踪模型对软件质量分析,但把5个软件产品20个专家的打分情况看成是20个软件样本,然后对20个软件样本进行建模综合分析,曲解了原始论文[2]中的数据涵义,因此分析结果是错误的;并且文献[4]采用遗传算法对投影寻踪计算寻找最优解,但遗传算法随着维数的增多,搜索空间迅速变大,容易收敛到局部最优,并且稳定性较差,本文的研究表明,文献[4]也没有求得全局最优解。本文将粒子群(PSO)[6]算法和多智能体遗传(MGA)[7]算法应用于投影寻踪模型对软件质量进行综合评价。投影寻踪模型分析影响软件质量指标的权重取决于样本的客观数据,无需人为给定,使得分析更加客观和科学;粒子群算法通过个体间的竞争与合作来实现高维空间中的最优解的搜索,可以解决复杂优化问题;多智能体遗传算法是通过将遗传算法与多智能体结合,有效地解决了遗传算法容易陷入局部最优值问题,并且收敛速度远高于遗传算法。
1 基于投影寻踪模型的评价方法
1.1 投影寻踪模型
投影寻踪是一种处理和分析高维数据的新兴统计方法,在二十世纪八十年代由Friedman[8]等人提出的用于解决非线性、非正态分布和高维数据的处理算法,有效地解决了高维数据中的“维数灾难”。它是一种集特质提取与数据压缩于一体的数据处理方法与理论,具有稳健性好、抗干扰能力强和准确度高等优点。
1.2 投影寻踪建模过程
投影寻踪模型基本思想就是构造投影指标函数,把高维数据投影到低维空间上,利用投影指标函数找出最佳投影向量,根据最佳投影向量来分析和研究高维样本数据的结构特征,从而对样本进行综合评价。其中构造投影指标函数及其优化投影方向是应用投影寻踪方法能否成功的关键。投影寻踪建模过程如下:
(1)样本数据的归一化处理
为了消除量纲不一致和统一指标的变化范围,需要对样本原始数据进行归一化处理,将数据中的各指标变量归一到0和1区间之内。设样本集为。其中为第i个样本第j个指标值,n为样本数量,p为指标个数。本文采用越大越好的归一化方法,即,其中maxxj和minxj分别为第j个样本指标的最大值和最小值。
(2)构造投影指标函数
投影寻踪模型就是把多维样本数据投影成以向量的一维投影值z(i),即,并且要求投影值在整体上各个样本团的投影值区间应尽可能地分散开,在局部上各投影值区间内部应尽可能地密集,最常用的投影指标函数等于各样本投影值标准差Sz和局部密度DZ之积,即投影指标函数为Q(a)=Sz*DZ,其中:
E(z)为样本投影值z(i)的均值;r(i,k)表示样本之间的距离即;R为局部密度的窗口半径,u(R-r(i,k))为单位阶跃函数,当R-r(i,k)≥0时,其值为1,当R-r(i,k)≤0时,其值为0。
上述中密度窗口半径R的取值与投影向量的取值有着密切的关系,一般要求密度窗口的选取既要包含在视窗口的样本点个数不能太少,以免样本滑动平均时的偏差太大,同时也不能随着样本的数量增大而增加太大[9]。
(3)优化投影指标函数
当各样本指标值给定时,投影指标函数Q(a)只随着投影向量的变化而变化。不同的投影方向能反映出不同的高维数据结构特征,能最大暴露高维数据某类特征结构的投影方向就是最佳投影向量,因此可以通过求解投影指标函数的最大值来确定最佳投影方向,即
上式是一个求解投影向量的复杂非线性函数优化问题,用传统的优化处理方法非常困难。因此本文采用粒子群算法和多智能体遗传算法对上式进行优化以求出最佳投影方向
通过求得的最佳投影向量代入公式后,可得到各样本的综合投影值z(i)。将z(i)的值从大到小进行排序,则可以得到软件质量从优到差的排序。
2 软件质量的综合评价
2.1 评价指标的选取
在软件质量度量模型的研究中,目前比较常见的软件质量评价模型有Boehm模型、McCall模型和ISO/IEC9126软件质量模型[10]。研究软件质量标准能够直观地反映出软件的质量,正确合理地对软件质量进行分析,可以使人们在软件开发过程中判断出软件质量的变化趋势,指导开发人员对软件开发中的资源进行重新配置,使软件质量进一步的提高,并能够对软件产品进行量化预测和评价。以上模型分别定义了不同的应用软件应满足的一些质量因素。在实际的软件质量评价中应该综合考虑不同的应用软件需要满足的质量因素,本文根据文献[2]中选取的22个因素作为软件评价体系中的指标,分别为正确性X1、可靠性X2、完整性X3、可用性X4、效率X5、可维护性X6、可测试性X7、互操作性X8、灵活性X9、复用性X10、移植性X11、明确性X12、可修改性X13、文档性X14、可理解性X15、有效性X16、功能性X17、普遍性X18、经济性X19、连接性X20、安全性X21、适用性X22。指标的评价准则参照McCall定义的评分准则,评价分级为优m1、良m2、中m3和及格m4。
2.2 软件质量综合评价的实例
本文以文献[2]中5个软件产品,由20个专家对软件评价的数据作为实例样本。用粒子群算法(PSO)和多智能体遗传算法(MGA)对投影寻踪建模,其中PSO算法中的参数为:种群规模数为3000,迭代次数为500次,学习因子c1=c2=2,惯性因子wmax=0.9,wmin=0.4。MGA算法中的参数为:交叉概率Pc=0.1,变异概率Pm=0.08,竞争概率Po=0.2,智能体网格大小Lsize=20,正交矩阵相关参数Q2=3,迭代次数为600次。密度窗口半径都为R=maxr(i,k)/3。根据文献[9]中所述,在投影寻踪模型中,若某个指标的所有样本值都相等,则其权重必定等于0;同一指标进行不同的归一化后权重互为相反数;数值完全相同的两个指标权重必相同。因此本文在预处理数据中增加三个虚拟变量,计算出结果满足上述要求,说明本文的最优化过程确保求得了全局最优解,并且选用的参数合理有效。在Matlab环境下仿真,用PSO求得的最佳投影向量
根据文献[2]中对评价等级优m1、良m2、中m3和及格m4的评价空间V={v1,v2,v3,v4}={1.0,0.85,0.7,0.5}。对软件质量而言,评价等级优、良对软件会产生正面的影响,中和及格对软件产生负面的影响,因此建立软件评价模型S=m1*v1+m2*v2-m3*v3-m4*v4,通过最终计算得到各软件综合评价结果如表2所示。
从表1和表2可以得出:
(1)PSO算法和MGA算法与投影寻踪模型结合分析出软件质量评价结果排序一致,只有软件4与文献[2]的评价结果排名有点差异,其余软件质量排序先后顺序一致。投影寻踪模型和文献[2]的一致性排序率为80%,则说明采用投影寻踪模型对软件质量综合评价结果是可靠的。
(2)由于文献[2]模糊推理评价模型中指标的权重一般都要由专家给定,存在着主观随意性和思维的不确定性,直接影响评价结果。基于投影寻踪模型的软件质量评价模型中避免了专家权重赋值的主观随意性,并且方法简单、稳定性和适用性强等优点,提高了评价结果的准确性和客观性。
(3)由表2可知软件3、软件4、软件5的质量明显高于软件1和软件2的质量,因此在软件开发过程中应尽可能地采用前者的开发模式,使开发出的软件具有更高的质量。并且最佳投影向量系数可以反映出各软件指标对软件质量的影响程度,因此利用投影寻踪模型对软件质量评价,还可以逆向查出哪种指标导致了软件质量变差的趋势,这样可以在软件开发过程中及时发现问题,并采取有效的补救措施。
实验结果表明,利用投影寻踪模型对软件质量模型进行综合分析,能够快速地评价出软件的综合质量,克服了专家经验不足产生的影响,可以正确地反映出软件质量的优劣。并且该模型适用于样本历史数据不足的情况下,可以很好地提取出样本的特征数据,可以大大提高软件评价的效率。
2.3 软件质量评价的指标重要性分析
本文在投影寻踪模型中指标归一化采用的是越大越好的归一化方式,则根据投影指标向量系数的大小可以判定各评价指标的重要性。即最佳投影向量的系数大小本质上反映了各指标对软件质量的影响程度,投影向量指标系数越大说明对软件质量的影响程度越大,因此可以正确合理地分析出软件开发过程中各指标对软件质量主次的影响,根据每个指标影响程度的大小,有针对性地改进软件质量;并且通过综合投影值的大小可以确定软件质量的优劣,实现同类软件质量之间的相互比较。根据投影寻踪模型求出投影向量系数的分布图如图1所示。
从图1可以看出,投影寻踪模型计算出各指标变量的系数之间存在着较大的差异,并且所有指标的投影向量系数都大于零,表明各指标对软件质量都有不同程度正向的影响,说明了本软件质量评价中指标选取的合理性。评价指标中X3、X4、X8、X10、X11、X13、X14、X18、X19指标系数较大,对软件质量综合评价具有较大的影响;评价指标中X2、X5、X7、X12、X16、X22指标系数较小,对软件质量综合评价的影响次之;其余评价指标对软件质量影响较小。
因此在软件开发过程中,尽量提高投影指标系数较大的指标对软件质量的影响,及时发现软件开发过程中存在的问题和软件质量的变化趋势,可以有效地提高和确保软件开发产品的综合质量。
3 结束语
(1)为解决软件质量评价中涉及多维指标难于综合评估的问题,本文采用投影寻踪模型,解决了软件评价模型中多维指标难以评价的问题;并且把软件质量评价中的多维指标投影到一维指标,利用该一维投影值的大小对不同软件进行综合评价,构造出能反映多维指标的综合评价模型,说明利用投影寻踪可以在多维指标复杂的系统评价中分析与应用,为软件质量评价研究领域提供了一种新的方法和思路。
(2)实例结果表明,将粒子群算法和多智能体遗传算法应用于投影寻踪模型,有效地利用投影寻踪降维分析和处理数据的能力、粒子群算法和多智能体遗传算法全局快速搜索的能力,能够很好地避免模糊综合评价等的主观随意性和思维的不确定性,使得软件质量评价结果更稳定、客观和准确。并且该模型的评价结果可以作为分析软件质量的变化规律,发现软件开发过程中的问题提供参考和依据。
(3)本文对现行业软件质量模型一般涉及的质量因素作为投影寻踪建模的输入,但是在实际的软件开发应用过程中,应该根据不同的应用软件综合考虑应满足的一些质量因素,可以增加或者减少某些特性指标来实现评价标准。
摘要:软件质量评价直接影响到软件开发的质量,软件质量是由多维指标因素决定的,投影寻踪模型能够将多维指标综合投影成一维投影指标,根据该投影指标值的大小可以对软件质量进行优劣排序。为了有效地利用投影寻踪模型降维分析和处理数据的能力、粒子群算法和多智能体遗传算法全局快速搜索的能力,文中将粒子群算法和多智能体遗传算法应用于投影寻踪模型,建立了软件质量的综合评价模型。实验结果表明投影寻踪模型为软件质量综合评价提供了一种新的客观、正确可靠的综合分析方法。
关键词:粒子群算法,多智能体遗传算法,投影寻踪,软件质量,综合评价
参考文献
[1]李良宝,韩喜双.软件质量的多级模糊综合评价[J].哈尔滨工业大学学报,2003,35(7):812-814.
[2]刘宏兵.基于模糊推理的软件质量评价模型[J].计算机工程与设计,2005,26(8):2146-2148.
[3]王李进,吴保国,郑德祥.基于人工神经网络的软件质量评价[J].计算机应用与软件,2008,25(12):133-134.
[4]楼文高,姜丽,孟祥辉.计算机软件质量综合评判的人工神经网络模型[J].上海理工大学学报,2007,30(5):479-482.
[5]梁忠,王李进,周术诚.投影寻踪模型在软件质量评价中的应用[J].计算机工程与设计,2009,30(15):3584-3586.
[6]张群.改进粒子群优化算法在投影寻踪聚类一般的应用研究[D].西安:陕西师范大学,2010.
[7]钟伟才.多智能体进化模型和算法模型研究[D].西安:西安电子科技大学,2004.
[8]付强,赵小勇.投影寻踪模型原理及其应用[M].北京:科学出版社,2005.
[9]楼文高,乔龙.多智能体遗传算法投影寻踪建模与实证研究[J/OL].计算机工程与应用:[2012-08-01].http://www.cnki.net/kcms/detail/11.2127.TP.20120801.1653.025.html.
投影寻踪分类模型 篇4
农田水利是农业和农村发展的基础设施,是现代农业的重要物质条件。受经济基础、自然条件和地理位置等因素的影响,各地区农田水利发展存在较大差异。农田水利发展综合评价就是对各地区的农田水利发展水平进行排序和分类, 以便在宏观上掌握各地的农田水利发展现状, 为更好地指导和规划今后农田水利发展提供科学分析依据。由于农田水利是一个多目标系统,单项指标的大小很难评价农田水利发展程度的高低。因此,农田水利发展评价的焦点,是如何合理地将多个评价指标转化成单个的综合评价指标,也就是在一维空间上能够较为直观地实现综合评价。然而,由于存在着各指标量纲不尽 相同以及权重较难确定等问题,难以客观反映各评价指标数据所携带的数字信息,容易偏离评价目标。因此,对于评价指标不太多、数据结构较为简单的问题则不适合使用综合指数法、主成分分析法等评价方法。投影寻踪模型(Projection Pursuit Model 简称PP模型)不受限于问题规模和数据结构,可实现高维数据降维操作,并在低维空间内对数据进行统一评价。1974年,Friedman和Tukey[1]对PP模型进行了深入的研究,目前,PP模型已广泛应用于很多领域。叶浩[2]等利用基于序列二次规划算法的PP模型对徐州市张集水源地地下水水质进行了评价,取得了较为吻合的结果;王斌[3]等利用基于自由搜索的PP模型对黑龙江甘蓝县农业基本旱情进行了评估,结果均与当年的实际干旱情况相符;汪丽娜[4]等利用基于人工鱼群算法的PP模型对宜昌水文站12次历史洪水进行了分类,揭示了长江流域宜昌站多年洪水的变化规律,为长江流域的水资源综合治理及其优化配置提供了理论参考。但PP模型在农田水利评价方面还没有研究。本文基于PP模型的优点,采用此模型对农田水利发展指标进行综合评价,并将此应用于我国北方某大型灌区农田水利发展上来,得出各指标对农田水利发展水平的贡献大小及灌区各子区农田水利发展水平的排序,找出发展滞后子区和关键指标,希望能为相关部门提供决策参考信息。
1 农田水利发展综合评价的投影寻踪模型[5,6,7]
用投影寻踪模型进行农田水利发展的综合评价,其基本方法是将灌区的多个子区或多个地区多个评价指标产生的高维数据通过某种组合投影到低维子空间上,用低维空间中投影散点的分布结构提示高维数据的结构特征。根据建立的投影指标函数,找出在函数值达到最大时的投影方向,然后计算投影值并对其进行排序,投影值大的即为农田水利发展较好的。由此可见,投影指标函数的构造及其优化问题是应用PP法进行农田水利发展综合评价的关键。其建模过程包括如下步骤:
(1)评价指标值的归一化处理。设本研究综合评价集为:
式中:i为第i个评价地区;j为第i个评价地区的第j个评价指标;n、p分别为综合评价的地区数目和评价指标的数目;x*(i,j)为第i个评价地区的第j个评价指标值。
由于投影指标值在量纲和数量级上存在较大差异,因此为消除各评价指标的量纲和统一各评价指标的变化范围, 需对评价指标进行一致无量纲化处理。
对于越小越优的目标可以采用式(1)进行处理:
对于越大越优的目标可以采用式(2)进行处理:
式中:xmin(j)、xmax(j)分别为综合评价中第i个评价子区的第j个评价指标的最小值和最大值,x(i,j)归一处理后的评价指标值。
(2)构造投影指标函数。PP模型就是把p维数据{x(i,j)|j=1,2,…,p}综合成以a={a(1),a(2),…,a(p)}为投影方向的一维投影值,a为单位向量。则x(i,j)的一维投影值z(i)按如下公式计算:
然后根据{z(i)|i=1,2,…,n}值的大小进行农田水利发展的综合评价。在综合投影值时,要求z(i)的散布特征为:局部投影点尽可能密集,最好凝聚成若干个点团;而在整体上投影点团之间尽可能散开,尽可能多地提供x(i,j)中的变异信息。设S(a)为投影值的标准差,D(a)为投影值的局部密度,投影目标函数可构造为:
式中:E(z)为投影值{z(i)|i=1,2,…,n}的均值;R为局部密度的窗口半径,它的选取既要使包含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着n值的增大而增加太高,一般可取为0.1S(a);rij=|z(i)-z(j)|为投影值间距离;u(t)为单位阶跃函数,当t=R-rij≥0时,其值为1,当t<0时,其值为0。
(3)优化投影指标函数。投影目标函数Q(a)随着投影方向a变化而变化,因此,投影目标函数的优化问题最终就转化成为寻找最优投影方向。可以通过求解Q(a)最大化问题来估计最佳投影方向a*。
最大化目标函数为:
约束条件为:
(4)根据投影值进行综合评价。将所求得的最佳投影方向a*代入式(3),就可得各子区农田水利发展指标的综合评价投影值z(i)。按照z(i)的大小进行评价,值越大,表明该地区农田水利发展的程度越好。
2 应用实例
北方某一大型灌区,设计灌溉面积13.3余万hm2,有干渠2条,支渠20余条,主要种植作物有小麦、玉米、大豆、果树以及一定面积的现代设施农业。为更好地促进灌区内农田水利的均衡发展,找出灌区建设的薄弱环节,使投资更具有倾向性,现对灌区内各个子区农田水利发展水平进行统一综合评价,以确定各子区发展水平的高低。考虑不同子区经济发展水平、自然地理及水土资源等条件差异性,以每个支渠控制区域为一个子区,选择具有代表性的10个典型子区2011年农田水利发展关键指标进行分析,并根据投影值的大小确定各个子区农田水利发展水平的高低。
2.1 评价指标的确定
农田水利发展综合评价的关键是评价指标的确定,合理的评价指标选取是综合评价的基础。在数据便于取得、准确度有保证以及指标具有代表性的前提下,本文选取6个评价关键指标,分别是耕地面积洪旱成灾率、耕地面积5年一遇以上除涝率、耕地面积有效灌溉率、灌溉水利用系数、灌溉面积节水灌溉率和灌排工程完好率。具体情况见表1。
2.2 投影寻踪模型的求解方法
本文所采用的模型是一个以投影方向a(j)为优化变量的非线性优化问题,用传统的优化方法处理较难,遗传算法(Genetic Algorithm简称GA)可以很好地解决这个问题。遗传算法由美国密执安大学Holland教授提出的,是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,主要包括选择、交叉和变异等操作。但由于其采用二进制编码方式存在较多弊端,故需对其进行改进。本文参照文献[8],应用基于实数编码的加速遗传算法(Real coding based Accelerating Genetic Algorithm 简称RAGA)来解决其高维全局寻优问题,非常简便和有效。通过求得的投影指标函数的最大值可以得出最佳投影方向 ,从而根据所选的评价指标和表1所列的指标值及式(3)求出投影值,进而进行排序和综合评价。
2.3 评价结果与分析
表1列出了该灌区2011年10个典型子区农田水利发展关键指标值。其中,只有耕地面积洪旱成灾率为越小越优型指标,在对数据进行归一化处理时,可将此项指标按照其相对面进行处理,然后全部6项指标统一按式(2)进行归一化处理,处理结果见表2。通过对这6项指标进行综合分析,可以对这10个子区农田水利发展状况作出综合评价。
采用基于RAGA的投影寻踪模型对上述10个子区6个关键指标进行综合评价,运用Matlab7.0遗传算法优化工具箱[9,10]进行编程处理。选定父代初始种群规模为n=400,交叉概率pc=0.5,变异概率pm=0.6,优秀个体数目选定为20个,α=0.05,加速次数为10,可以得到最优投影方向a*=(0.177 2,0.253 4,0.651 1, 0.588 5,0.152 6,0.332 9)。将a*代入式(3)可以得到各地区综合评价投影值 ,并按z(i)值的大小进行排序。具体见表2。
由表2可以看出:支渠2、支渠1投影值z(i)较大,农田水利发展水平相对较好,支渠5、支渠10投影值最小,农田水利发展水平相对滞后。其原因可能是:第一,支渠2、支渠1所在区域,经济水平较为发达,在农田水利投入上可能较其他区域多,管理水平也相对较高;第二,经济发展水平虽然不高,但在灌溉水利用系数、耕地面积有效灌溉率、灌排工程完好率等较为重要指标上发展较好的区域,农田水利发展综合评价值较高。
最优投影方向a*=(0.177 2,0.253 4,0.651 1, 0.588 5,0.152 6,0.332 9)的各分量分别代表耕地面积洪旱成灾率、耕地面积5年一遇以上除涝率、耕地面积有效灌溉率、灌溉水利用系数、灌溉面积节水灌溉率和灌排工程完好率在综合评价中的贡献大小。可以看出:第一,耕地面积有效灌溉率、灌溉水利用系数与灌排工程完好率的投影向量分量值最大,说明其在农田水利发展综合评价中的贡献最大,在农田水利发展过程中的地位最为重要。第二,将投影值从大到小进行排序,值越大,农田水利发展水平越好,今后灌区管理部门在农田水利建设时在发展水平较低的子区可以适当地加大投资力度和提高管理水平。第三,将同一指标归一处理值进行纵向比较,管理部门在今后农田水利建设中可以重点解决灌区薄弱环节,提高灌区整体生产水平。
3 结 语
(1)投影寻踪模型直接采取各样本的原始数据进行分析,信息量不会丢失。投影寻踪模型将指标体系(高维数据)投影到一维子空间上,借助RAGA 算法建立投影寻踪模型,经多次运算寻找最佳投影方向, 形成评价指标值, 按大小进行排序。避免了专家主观赋权的人为干扰,克服了传统方法的不足。投影寻踪模型对于农田水利发展综合评价具有较好的效果,为该方面研究提供了一条新的方法和思路。
(2)通过投影值的大小,可以看出灌区不同子区农田水利发展水平的差异,为灌区管理者在规划今后农田水利方面就不同子区可以在政策上适当倾斜。通过最优投影方向,可以看出农田水利发展的关键所在,为灌区管理者在农田水利基本建设中抓住重点,提高薄弱环节提供了依据。
(3)基于RAGA的投影寻踪模型在农田水利发展上的综合评价,不仅可以应用于某个灌区,也可以推广至地区及区域,为农田水利发展综合评价开辟了新的准确的方法,为农田水利建设提供了科学的依据。
摘要:农田水利发展综合评价对指导和规划农田水利发展具有重要意义。将投影寻踪模型应用于农田水利发展综合评价,利用基于实数编码的遗传算法求解,得出最佳投影方向和投影值,并对某大型灌区10个典型子区农田水利发展做出综合评价,对推动区域农田水利发展具有一定的指导作用。
关键词:投影寻踪模型,RAGA,农田水利发展,综合评价
参考文献
[1]Friedman,JH,Turkey,JWA.Projection pursuit algorithm for ex-ploratory data analysis[J].IEEE Tansactions on Computer,1974,23(9):881-890.
[2]叶浩,钱家忠,黄夕川,等.投影寻踪模型在地下水水质评价中的应用[J].水文地质工程地质,2005,(5):9-12.(下转第95页)
[3]王斌,张展羽,魏永霞,等.基于投影寻踪的农业基本旱情评估[J].农业工程学报,2009,25(4):157-162.
[4]汪丽娜,陈晓宏,李粤安.投影寻踪和人工鱼群算法的洪水分类[J].人民长江,2008,39(24):34-37.
[5]刘仁涛,付强,盖兆梅,等.三江平原地下水脆弱性评价的投影寻踪模型[J].东北农业大学学报,2008,39(2):184-190.
[6]张欣莉.投影寻踪及其在水文水资源中的应用[D].成都:四川大学,2000.
[7]金菊良.遗传算法在水资源工程中的应用研究[D].成都:四川大学,2000.
[8]付强,金菊良,梁川.基于实码加速遗传算法的投影寻踪分类模型在水稻灌溉制度优化中的应用[J].水利学报,2002,(10):39-45.
[9]陈广洲,解华明,鲁翔友.Matlab遗传算法工具箱在非线性优化中的应用[J].计算机技术与发展,2008,18(3):246-248.
投影寻踪分类模型 篇5
实施交通诱导及控制, 有效利用道路资源, 充分发挥车辆功能是提高交通效率、减少交通拥挤和改善交通安全状况的重要途径, 而实施交通诱导及控制的前提与关键是交通流的预测[1]。交通流预测是指根据已有的交通流数据, 在时刻t对下一时刻t+Δt乃至以后若干时刻的交通流做出实时预测。一般认为t到t+Δt之间的预测时间跨度不超过15 min的预测为短时交通流预测。按照预测的内容, 交通流预测可分为交通流量、交通速度、交通密度3个基本参数的预测以及车辆占有率预测等[2]。本文所研究的是交通流量的短时预测。
由于交通流量数据具有高度复杂性、随机性和不确定性, 卡尔曼滤波、MA、ARIMA 等传统的预测模型和技术方法已经不能满足实践中越来越高的精度要求[3];经典的数学方法预测精度不高, 加上不具备自适应和自学习的能力, 因而预测效果不能满足实际需要。而投影寻踪方法能从不符合正态分布的或没有多少先验信息的数据本身中找出其结构或特征, 并能在线性投影中解决非线性结构的问题。近年来, 一些学者把投影寻踪回归方法及其与其他模型融合的方法引入信息预测领域, 在环境、水利及土木行业得到有效应用, 取得了一定的成果[4,5,6,7]。针对目前交通流预测实时性差、寻优速度慢、预测模型对路网参数的依赖性强、模型假定条件多等不足之处, 本文运用投影寻踪回归方法对交通量实施滚动预测, 实验结果证实该方法具有可行性、可靠性, 有一定的实用价值。
1 模型基本理论及算法流程
1.1 投影寻踪回归模型的基本原理
投影寻踪回归模型是将投影寻踪与回归分析相结合的一种模型, 其原理如下[8]。
设 (X, Y) 是一对随机变量, 其中X是p维的自变量, Y是一维的响应变量 (预测量) , 且令:
回归问题就是要用 (X, Y) 的大量观测样本 (x1, y1) , …, (xn, yn) 来估计回归函数F (x) 。投影寻踪回归采用一系列岭函数的和来逼近回归函数, 即令:
式中:Gm (ATm·x) 为第m个岭函数;Am第m个岭函数p×1的投影矩阵, 可以用增大M的办法来减少模型误差。
投影寻踪回归通过多重平滑回归计算来实现, 式 (1) 的分立式可写为如下形式:
式中:
式中:q为响应变量的个数;Wi为第3个响应变量的权重。
目前比较常用的投影寻踪回归模型根据岭函数形式的不同主要有3种, 分别是基于非参数的投影寻踪回归模型、基于Hermite多项式的投影寻踪回归模型和基于核函数的样条平滑的投影寻踪模型。本文采用的是基于Hermite多项式的投影寻踪回归模型, 下面对该模型进行介绍[9]。
在参数投影寻踪中, 为了避免使用庞大的函数表, 且能保证逼近的精度, 采用可变阶的正交Hermite多项式拟合其中的一维岭函数, 其数学表达式为:
式中:z=aTX, φ为标准高斯方程, Hr (z) 为Hermite多项式采用递推的形式给出, 如H0 (z) =1, H1 (z) =2z, Hr (z) =2 (zHr-1 (z) - (r-1) Hr-2 (z) ) 。
此时投影寻踪回归模型的表达式为:
式中:R为多项式的阶数, C是多项式系数, h表示正交Hermite多项式, 根据式 (5) 计算。
1.2 投影寻踪回归模型的算法流程
根据基于Hermite多项式的投影寻踪回归算法, 利用C++编程将其算法实现, 具体算法流程见图1。
2 模型短时交通量预测实例
2.1 短时交通量预测步骤
应用在本案例中的具体算法步骤如下:
步骤1。将交通流数据按照时间排列, x1, x2, x3, …xt+1, xt+2, …, xn-1, xn, 选取序列中x1, x2, x3, …, xt作为自变量预测xt+1, 实施动态滚动预测, 不断更新数据, 弃用陈旧数据。针对本例, 笔者经过多次数据试验, 选取4参数模型, 即t=4。自变量X=[x1, x2, x3, x4], 因变量Y=[y]1×1, 计算投影值:
式中:aj (j=1, 2, 3, 4) 为投影方向, xij已进行归一化处理。
步骤2。对散布点 (z, y) , 用基于正交Hermite多项式拟合, 参见式 (5) 。此时基于Hermite多项式的投影寻踪回归模型为
式中:r为多项式阶数;C为多项式系数;h为正交Hermite多项式。令r=R, 本案例中r取4, m取1。
步骤3。计算多项式系数C。根据计算得到的正交Hermite多项式hr, 组成矩阵H
可以用最小二乘法求得使多项式拟合值与残差最小时的C值。
设C= (c1, c2, …, cR) t, 求系数C, 使:
将以上2个算式代入上式, 求导后可以得到:
2.2 交通量数据预处理
2.2.1 交通量数据预处理
作为预测模型应用实例, 本文选用武汉市某快速路单一断面的实测短时交通量数据, 进行预测仿真试验。选取06:45-09:00的数据, 为了研究需要, 按照间隔5 min进行统计, 共计28个数据。整理后的交通量数据格式如表1所示, 该表中数据是部分实测数据。
2.2.2 预测思路
预测思路说明:x1, x2, x3, x4分别对应06:45, 06:50, 06:55, 07:00的交通量数据, 用以预测07:05时的交通流量。预测07:10时段的数据时x1, x2, x3, x4则分别对应06:50, 06:55, 07:00, 07:05时的交通流量。以此类推, 直至完成预测。
2.3 模型预测结果分析
图2给出了本文构建的模型用于短时交通流流量预测的结果。
预测结果表明, 所建模型的预测效果较回归分析有显著提高, 图3显示, 除极少数时段除外, 绝大多数时段投影寻踪回归模型的预测值和短时交通流流量的实际观测值其相对误差在7%以内, 预测效果令人满意。
3 结束语
针对短时交通量高度复杂性、随机性、非线性和不确定性等特性, 本文利用投影寻踪方法能从不符合正态分布的或没有多少先验信息的数据本身中找出其结构或特征, 并能在线性投影中解决非线性结构的问题的优点, 建立了投影寻踪回归方法作为路段短时交通量的实时预测模型, 并编写了相应程序算法, 选取实测交通量进行预测实验, 并对此预测方法效果进行评估, 发现所建模型的预测效果较回归分析有显著提高, 其预测误差有明显缩小, 预测结果也显示其预测精度较高, 这说明此预测方法是可行的, 可作为短时交通量预测的一种有效手段。
参考文献
[1]LiuYuanlin, Hu Wusheng, Xin Shujie.The short-term traffic flow prediction based on genetic bp neuralnetwork[C]∥The 10th International Conference ofChinese Transportation Professionals, Beijing:BeijingUniversity of Technology, 2010, 8:1835-1843.
[2]田晶, 杨玉珍, 陈阳舟.短时交通流量两种预测方法的研究[J].公路交通科技, 2006, 23 (4) :103-106.
[3]Smith B L, Demetsky M J.Traffic flow forecas-ting:Comparison of Modeling Approaches[J].Journal of Transportation Engineering, 1997, 123 (4) :261-266.
[4]李祚泳, 汪嘉杨, 金相灿, 等.基于进化算法的湖泊富营养化投影寻踪回归预测模型[J].四川大学学报:工程科学版, 2007, 39 (2) :1-8.
[5]胡庆芳, 尚松浩, 温守光.基于投影寻踪的径向基函数网络在参考腾发量预测中的应用[J].水利学报, 2006, 37 (9) :1151-1154.
[6]于国荣, 叶辉, 夏自强, 等.投影寻踪自回归模型在长江径流量预测中的应用[J].河海学报:自然科学版, 2009, 37 (3) :263-266.
[7]尹盛斌, 丁红岩.深基坑施工时地表沉降预测的时序-投影寻踪回归模型[J].岩土力学, 2011, 32 (2) :369-374.
[8]Friedman J H, Stuetzle W.Projection pursuit re-gression[J].Journal of the American StatisticalAssociation, 1981, 76:817-823.
投影寻踪分类模型 篇6
随着城市化进程不断推进,交通需求日益增加,而城市土地资源有限,由此导致交通拥挤日常化、交通事故频繁化。科学合理地解决这些问题已成为全社会的共识,但从近年来国内城市治理情况来看,单纯依靠增加交通供给的策略已经无法从根本上缓解交通压力。实施交通诱导及控制,有效利用道路资源,充分发挥车辆功能才是提高交通效率、减少交通拥挤和改善交通安全状况的重要途径,而实施交通诱导及控制的前提与关键是交通流的预测[1]。本文研究交通流预测中受到广泛关注的短时交通流量预测。
由于交通流量具有高度复杂性、随机性、非线性和不确定性等特性,卡尔曼滤波、MA、ARIMA等传统的预测模型和技术已经不能满足实践中越来越高的精度要求[2];经典的数学方法预测精度不高,加上不具备自适应和自学习的能力,因而预测效果不能满足实际需要。而人工神经网络具有极强的非线性映射能力,在信息预测领域得到了广泛的应用。近年来,一些学者把人工神经网络及其相关组合模型引入交通流的预测,取得了一定的成功[3,4,5,6,7]。本文在已有研究的基础上,综合运用投影寻踪技术和BP神经网络的优点,设计出了一种新型而有效的短时交通流量的组合预测模型。
1 模型基本原理及其算法流程
1.1 投影寻踪技术的基本理论及算法流程
投影寻踪是处理和分析高维数据的一类新兴的统计方法,其基本思想是将高维数据投影到低维子空间上,寻找出反映原高维数据的结构或特征的投影,以达到研究和分析高维数据的目的。由于投影寻踪回归模型对于高维非正态,非线性数据的分析处理与信息预测具有较强的能力,故在土木、水利及交通行业信息预测领域取得到了一定的效果[8,9,10,11]。投影寻踪回归模型的基本理论及算法流程详见文献[11]。
1.2 神经网络BP算法原理
BP算法是目前神经网络工程应用中最广泛的一种,网络包含输入层、输出层和隐含层,网络结构如图1所示[12]。节点的激活函数通常选取标准Sigmoid型函数。
BP算法的核心思想是把学习过程分为2个阶段:正向传播过程和反向传播过程。
1.3 神经网络BP算法程序
反向传播算法的步骤一般如下[13]:
1) 选定权系数初值wij(0)。
2) 重复下述过程直至收敛:①正向过程计算:从输入节点开始向前逐层计算各节点的输入值I
本文预测模型BP算法程序如图2所示。
2 短时交通流量预测实例
2.1 实测数据预处理
作为预测应用实例,本文选用某一快速路单一断面,采集获取一周内实测短时交通量数据,进行预测仿真试验。表1为周三交通流量数据的实测值,表中对应时间点的数据实际为每5 min时间段内的交通流量数据的统计值。
2.2 预测基本思路
将交通流量数据按照观测时间顺序排列,x1,x2,…,xt,xt+1,xt+2,…,xn-1,xn,选取序列中,x1,x2,x3,…xt,另外提取一周内同一检测点相同时间段的平均值也作为1个参数,共t+1个参数作为自变量预测xt+1,实施动态滚动预测,不断更新数据,弃用陈旧数据,直至完成预测。针对本例,笔者经过多次数据试验,选取t=3,外加本周平均值,即自变量个数为4。
2.3 投影寻踪回归模型预测
选用投影寻踪回归程序,经过计算,本实例多项式系数C=[0.441 434,0.558 946,0.682 760,0.162 957]T,预测结果见表2(为了便于比较各方法的预测效果,预测误差在比较过程中取一位小数,但最终预测结果以整数形式出现)。
2.4 BP神经网络模型预测
输入变量各参数取值相同的情况下,如果选用BP神经网络进行计算,预测结果如下表3所示:
2.5 “投影寻踪+BP神经网络”组合模型预测
考虑到BP神经网络具有很强的模型误差补偿能力,因此,本文提出了1种短时交通流量预测新方法——“投影寻踪+BP神经网络”法,用BP神经网络技术补偿由投影寻踪回归方法带来的车流量预测的模型误差。该方法的具体计算过程如下:
1) 用投影寻踪回归法求取本时段的预测回归值LP,计算其与实际流量的差值ΔL。
2) 将LP与流量的前3个时段的值和周平均值一起组成BP神经网络的输入层,输出层为ΔL。
3) 将投影寻踪回归求取的预测回归值LP,加上BP神经网络输出的ΔL模,就是本模型预测的流量。
通过计算,“投影寻踪+BP神经网络”流量预测模型的预测结果见表4,表名中“投影寻踪+BP神经网络”流量预测模型简称为组合模型。
3 预测结果分析
由表2~4各模型的预测结果可知:从预测中误差来看,选用“投影寻踪+BP神经网络”短时交通流量综合预测模型的预测精度为±4.4辆,比单一选用投影寻踪回归模型的预测精度提高了约54%,比单一选用BP神经网络模型计算结果的预测精度提高了23%,显示了出组合模型具有较强的优越性。
投影寻踪回归模型(PP)、BP神经网络模型(BP)及两者的组合模型(PP+BP)等3种方法预测结果(数据按照四舍五入方法取整),见表5。
若用如图3所示折线图展示其规律,可更直接看出各种方法的不同效果,“投影寻踪+神经网络”(PP+BP)组合模型效果明显较单一模型好。
4 结束语
针对短时交通量的高度复杂性、随机性、非线性和不确定性等特性,本文综合利用投影寻踪技术和BP神经网络的优点,提出运用神经网络和投影寻踪技术相结合的方法,建立了组合模型应用于路段短时交通量的实时预测,并编写出相应程序算法,将之运用于短时交通流预测实例。
预测结果表明:所建“投影寻踪+BP神经网络”组合模型能够综合运用投影寻踪技术与神经网络技术的优点,将该组合模型预测结果与常规BP神经网络算法、投影寻踪回归方法所得结果进行比较,组合模型预测精度较两种单一模型预测精度高、误差有明显缩小、计算结果稳定性也更强,能够满足短时交通流量预测误差的要求,显示出组合模型具有较大的优越性,也表明该组合模型在短时交通流量预测领域具有较好的预测能力和较强时效性,对建立一套操作可行短时交通流量预测模型具有实际应用意义和一定的参考价值。
投影寻踪分类模型 篇7
随着我国股票市场的迅速发展, 股票投资已经成为人们日常生活的一个重要组成部分, 也是人们投资理财的一种重要方式。然而, 股票投资的收益与风险往往是成正比的, 即投资收益越高, 风险越大[1,2,3,4]。自有股票市场以来, 众多学者和投资者就一直致力于股票市场行为的预测研究, 希望能从预测结果中找到一些规律, 探究股市价格的形成机制、评价证券市场的有效性, 进一步使政府金融部门更有效地对股票市场实施监管, 防范金融风险;同时也能使投资者在最小化投资风险的情况下获得最大化投资收益。因此对上市公司股票指数和股票价格的未来走势的预测, 都具有极其重要的应用价值[5,6,7,8]。
在传统的股票市场预测建模研究中, 均采用了“假定—模拟—预测” 这样一种证实性数据分析思路, 如多元回归分析、时间序列分析、指数平滑等[9,10,11,12]。然而股票市场是一个复杂的非线性动力学系统, 它的预测是一个非线性函数值的估计和外推问题, 而且市场行为受多种因素交互影响, 具有显著的非线性、时变性特征, 利用传统的统计预测技术, 均难以适应股票市场千变万化的规律, 无法真正找到数据的内在规律, 而且当它被用于高维、非线性、非正态分布数据预测建模时, 很难收到好的效果。
近年来, 人工神经网络ANN (Artifical Neutral Network) 发展非常迅速, 而且具有很强的处理非线性问题的能力, 与传统的线性统计预测方法相比, 人工神经网络具有更好的预测能力[13,14,15], 它已经成为股票市场预测的一种新技术、新方法。目前在股市的预测中以多层前馈 (Back Propagation) 神经网络模型[16]、径向基 (Radial Basis Function) 神经网络模型[17]、Elman神经网络模型为主[18]。但是由于神经网络技术没有严密理论体系作指导, 其应用效果完全取决于使用者的经验。在实际应用中, 研究人员由于缺乏相应的先验知识, 往往需要进行大量费力耗时的实验摸索, 才能确定合适的网络模型和各种参数的设置, 有时就算采用同样的方法解决同样的问题, 由于操作者不同, 其结果也可能大相径庭, 也就是说, 在所得到的实验结果中, 神经网络对训练样本的拟合精度很高, 而对新样本的预测精度却较差, 这样就大大限制了神经网络模型在实际股市预测中的应用。
神经网络集成是用有限个神经网络对同一个问题进行学习, 集成在某输入示例下的输出由构成集成的各神经网络在该示例下的输出共同决定[19,20,21]。神经网络集成本身克服了单一神经网络的缺陷, 可以显著地提高神经网络系统的泛化性能, 即使是缺乏神经计算经验的普通工程技术人员也可以从中受益, 被视为一种非常有效的工程化神经计算方法。目前神经网络集成技术已经被成功地应用到很多领域中, 如光学字符识别、人脸识别、地震分类、医学等领域[22,23,24,25]。
本文采用遗传算法优化投影方向, 将影响股市的高维非线性数据投影到低维空间, 来构造神经网络输入矩阵, 再利用Bagging技术和不同的神经网络学习算法生成集成个体, 进一步用遗传算法—投影寻踪技术提取神经网络的集成个体, 建立基于遗传算法优化的投影寻踪技术神经网络集成模型, 并对上证指数进行预测。计算结果表明该方法具有较好的学习能力和泛化能力, 在股市上证指数开盘、收盘的预测中, 其预测精度高、稳定性好, 具有一定的普遍适用性。
1 基于遗传算法的投影寻踪技术的神经网络集成方法
1.1 遗传算法优化投影寻踪技术构建神经网络输入矩阵
股票市场是一个复杂的系统, 受多种因素影响, 如政治、经济、社会、民生等因素的影响, 目前利用神经网络建立股市预测模型中, 构造输入矩阵的方法主要可以分成两大类:一是利用混沌时间序列的相空间重构生成输入矩阵;二是利用上证指数的技术指标, 如最高价、最低价、移动平均线 (MA5) 、随机指标K、相对强弱指标 (RSI) 等[26,27]。
在本文所建立的预测模型中, 考虑到各种技术指标记录市场行为重要信息, 并结合我国股市情况, 特选取32项股市技术指标作为输入变量[28], 即DIF, DEA, DIF-DEA, +DI, -DI, DX, ADX5, K, D, K-D, BIAS10, BIAS30, BIAS72, PSY5, PSY10, PSY15, RIS5, RIS10, RIS5-RIS10, RIS10-RIS15, AR5, AR10, RSV, 平均成交量5, 平均成交量10, 平均成交量5-平均成交量10, WMS%R10, Open, High, Close, Low, Vol, 令其为影响股市的变量因子:
众多的技术指标之间存在相互依赖关系, 而且输入节点过多会使得预测规模变大, 增加了预测模型的复杂性, 容易导致神经网络训练时间长、收敛慢, 这样会降低网络的预测能力, 为此本文利用遗传算法优化投影寻踪技术在尽量减少信息丢失的前提下对原始技术指标降维, 构建预测变量。
在20 世纪 70 年代后期, 国际统计界发展了一类处理和分析高维数据的新兴统计方法—投影寻踪PP (Projection Pursuit) 方法, 它采用“审视数据→模拟→预测”探索性数据分析EDA (Exploratory Data Analysis) 的新途径, 适宜于非线性、非正态分布数据的处理, 并能避免“维数祸根”, 在许多领域获得成功应用[29,30]。其基本思想是:利用计算机技术, 把高维数据通过某种组合投影到低维子空间上, 并通过极小化某个投影指标, 寻找出能反映原数据结构或特征的投影, 以达到研究和分析高维数据的目的。投影寻踪回归模型如下:
设Y=f (X) 和X= (x1, x2, …, xp) 分别是一维和p维随机变量, 为了能客观反映高维非线性数据结构特征, 投影寻踪回归采用一系列岭函数的“和”去逼近回归函数, 即:
其中, Gm (Zm) 为第m个岭函数, M为岭函数的个数;Zm=a
达到极小, 即要求Zm=a
利用遗传算法GA (Genetic Algorithm) 来求解投影方向, 定义遗传算法的适应度函数为:
f (w) =Q (a) (5)
具体操作过程如下:
(1) 随机生成初始群体, 其由L个个体构成, 每个个体由{w1, w2, …, w32}组成, wi为[0, 1]上的32个均匀分布的随机数。
(2) 按照 (5) 式计算群体中每个个体的适应度。
(3) 保留群体中适应度最高的个体, 它不参与交叉和变异运算, 而直接将其复制到下一代。对群体中的其它个体, 采用轮盘赌选择法进行选择。
(4) 权重系数采用浮点数编码, 需要设计新的交叉算子和变异算子。以pc的概率对选择后的个体进行交叉。设在第i个体和第i+1个体之间进行交叉, 交叉算子如下:
式中X
X
式中X
(5) 生成新一代群体, 反复进行 (2) ~ (4) , 每进行一次, 群体就进化一代, 直到适应度满足要求或者达到总的进化代数。
(6) 从进化到最后一代中选取3个适应度较高的个体, 得到3个较优投影方向, 令其为 Z
1.2 神经网络集成个体的生成
在神经网络集成实现方法的研究中, 研究者们试图设计出更有效的神经网络集成个体, 目前最主要的是Boosting和Bagging技术[32,33], 都是通过扰动训练数据来获得较大差异的个体网络。本文通过两种方法获取神经网络集成个体: (1) 不同的初始连接权、不同的网络结构、不同的训练子集获得较大差异神经网络集成个体; (2) 不同神经网络训练算法, 如用Matlab软件的神经网络工具箱中的Powell-Beale共轭梯度反向传播算法 (traincgb) 、自适应学习速率梯度下降反向传播算法 (traingda) 、Levenberg-Marquardt反向传播算法 (trainlm) 、弹性反向传播算法 (trainrp) 、贝叶斯正则化神经网络 (ANN) 得到神经网络集成个体。通过Bagging技术生成不同的训练子集并采用不同的网络结构各自训练10个神经网络, 包含输入层、隐层、输出层的三层前向神经网络作为基本模型, 这样可以得到50个神经网络集成个体。
1.3 投影寻踪技术的神经网络集成
通过Bagging技术和不同训练算法产生最初50个神经网络集成个体。由于学习算法的差异或者学习算法的随机性, 加之不同的算法其特点也不同以及训练样本不同, 每种方法往往时好时坏。每一个神经网络个体都能从不同程度上对训练样本学习能力提供一些有用信息, 但是各个神经网络个体对检测样本泛化性能会存在差异, 也可能会有一些个体对系统的泛化能力的提高没有作用或者作用比较小, 但是它和其它个体组合以后整个系统会有很好的泛化能力。对于50个个体的组合, 需要计算250-1次组合试验, 才能求解最佳组合, 计算量相当大, 我们利用基于加速遗传算法的投影寻踪技术进行神经网络集成, 这实质相当于是利用投影寻踪技术对多个神经网络的输出组成的矩阵进行降维处理, 再采用逻辑斯谛曲线回归, 建立投影寻踪技术的神经网络集成股市预测模型。
利用50个神经网络个体进行集成:设第j个神经网络训练后的输出为Zij, 构造矩阵:
利用1.1节中的步骤1至步骤6对上述输入矩阵进行降维处理, 最后得到神经网络集成的计算值z (i) :
再用逻辑斯谛曲线 (Logistic Curve) 进行回归计算, 得:
式中, Z* (i) 为股市交易日中第i天的计算值;c1、c2为待定参数, 分别表示该曲线的积分常数和增长率。
以上方法可以归纳为:首先用遗传算法优化投影寻踪技术从众多股市技术指标中提取神经网络输入矩阵, 再利用不同的神经网络算法、不同的网络初始连接权、不同的网络结构和不同的训练子集生成神经网络集成个体, 对集成个体再次利用遗传算法优化投影寻踪技术提取综合信息建立逻辑斯谛曲线回归股市预测模型。
本文选取2006年1月4日到2007年11月19日共456个交易日的上证综合指数开盘价数据[18], 利用遗传算法投影寻踪技术建立神经网络集成预测模型, 对后续30个交易日 (11月20日-12月28日) 的数据预测来检验模型的效果, 我们采取滚动预测方式, 即用前456个交易日实际数据建立模型, 对第457个交易日的数据预测, 进一步用前457个交易日实际数据建立模型, 对第458交易日的数据预测, 依次类推进行, 以下对第457个交易日的预测说明建模过程, 建模样本为神经网络输出变量矩阵:
Y0={yn1, n=1, 2, …, 456}T (12)
2 应用实例及其结果分析
为考察模型的效果, 我们通过Bagging技术和不同训练算法产生最初50个神经网络集成个体, 建立简单加权平均集成模型SA (Simple Average Ensemble) , 逐步线性回归集成模型SLR (Stepwise Linear Regression Ensemble) , 用遗传算法的投影寻踪技术建立神经网络集成模型PP-GA (Projection Pursuit Technology based Genetic Algorithms) , 分别对456个样本拟合和对30个后续样本预测, 比较结果用来检验预测模型的效果。为了定量比较模型的效果, 引入4种误差:平均绝对百分比误差MAPE (the Mean Absolute Percentage Error) 、均方根误差RMSE (the Root Mean Squares Error) 、平均绝对误差MAE (the Mean Absolute Error) 、Pearson相关系数PRC (Pearson Relative Coefficient) , 具体定义见文献[21]。
表1是三种模型对456个训练样本的拟合和对30个样本预测的各种统计指标, 图1是三种模型对456个训练样本拟合效果, 图2是三种模型对30个检测样本预测效果, 从表1的三个模型的拟合和预测数据, 以及图1、图2可以看出PP-GA模型、无论是拟合还是预测效果均要优于SA、SLR模型。 PP-GA模型的每一种指标均小于SA、SLR模型, 由此可以看出PP-GA模型拟合能力优于SA、SLR模型, 显示出PP-GA模型有很好的学习能力;从图2和表1预测数据可以看出, PP-GA模型预测能力优于SA、SLR模型, 进一步说明PP-GA模型有较强的泛化能力。
这三种模型都是用对上证指数的32项技术指标建立的非线性模型, 从表1和图1、图2可以看出PP-GA模型无论是在趋势预测, 还是预测精度方面明显优于SA、SLR模型。由于SA模型是对50个集成个体简单平均, 没有对集成个体权重做任何优化, 而SLR是50个集成个体逐步回归, 它是选用一些对集成有显著影响的因子, 并以误差平方和最小来集成, 对集成个体的权重优化, 故其效果要好于SA模型;PP-GA模型是采用遗传算法投影寻踪技术对50个集成个体降维再采用逻辑斯谛曲线回归, 建立集成模型, 最大化提取集成个体信息, 并采用对系统稳健性较好的逻辑斯谛曲线回归方法集成, 故此效果好于SLR模型。同时我们也对上证指数的收盘价利用上述方法建模, 结果同样表明, PP-GA模型均优于SA、SLR模型。这说明PP-GA模型具有较好的学习能力和泛化能力, 在股市预测中预测精度较高、稳定性好。
3 结 论
股票市场系统是经济系统中最为活跃、相互作用最为复杂的经济系统之一, 并且由于股票市场受众多变化因素的影响, 预测十分困难。本文利用遗传算法投影寻踪技术从众多技术指标中提取有用信息作为神经网络的输入因子, 并利用不同神经网络算法和Bagging技术生成一组神经网络集成个体, 再用遗传投影寻踪技术建立神经网络集成模型, 并对上证指数进行预测。计算结果表明该方法具有:
(1) 由于引起股市波动的因素异常复杂, 很难确定对股市波动起最主要作用的因子, 因此, 要建立精度很高的股市预测模型, 并非易事。本文利用PP-GA对众多技术指标降维, 提取影响股市的主要信息, 避免维数灾难, 直接审视数据并计算机寻优, 客观性较好;又可以对神经网络的输入矩阵降维, 使得网络结构规模变小, 增强网络的稳定性。
(2) 由于神经网络具有很强的非线性关系概括能力, 它不需要建立复杂非线性系统的显式关系或者数学模型, 只需要建立其中一些变量之间的广义影射关系, 而众多的神经网络训练算法有各自优缺点, 都能从一定程度上提供一些有用预测信息。本文利用不同的神经网络算法和Bagging技术生成集成个体, 为集成系统提供更多有用的信息, 集成个体差异性较大, 极大提高系统的预测效果。
(3) 集成时采用遗传算法投影寻踪技术提取集成个体信息, 并采用逻辑斯谛曲线回归方法, 提取集成个体信息并采用非线性方法集成。在建模样本、预报因子相同的条件下, 该方法能明显提高预报精度, 预报结果稳定, 而且具有较好的学习能力和泛化能力, 在股市上证指数开盘、收盘的预测中, 为利用神经网络方法进行建模预报提供了一种新的思路和方法。