遗传投影寻踪

2024-10-02

遗传投影寻踪(精选8篇)

遗传投影寻踪 篇1

1 引言

常规的系统评价方法存在一个共同特点,即采用“对数据结果或分布特征先作某种假定——按照一定准则建立显式评价函数——对建立的评价函数模型进行证实”这样一条证实性数据分析方法。目前常用的评价方法有:模糊综合评价方法在对各指标进行“特征化”处理后,会出现不同程度的信息丢失,为评价结论带来误差;AHP法和灰色关联评价法具有能解决多目标、多层次、多准则决策问题的优势,但评价结果往往受主观因素的支配与干扰;基于特征向量的最优综合评价法,不需人为确定权重,评价结果接近实际,但难于从系统各层次把握被评对象的综合水平及应采取的技术措施。而且由于数学化、形式化等局限性,这类方法对于处理某些高维度、非线性,非正态评价问题的适应能力不强。

针对上述问题, 学术界提出了直接由样本数据驱动的探索性数据分析方法,投影寻踪(Projection Pursuit,PP)方法[1,2]是这类方法的典型代表。所谓投影寻踪就是将高维数据向低维空间投影, 通过分析低维空间的投影特性进而来研究高维数据的特征, 是处理多因素复杂问题的统计方法。投影寻踪聚类(Projection Pursuit Cluster,PPC)模型则是依据投影寻踪思想建立的聚类分析模型, 它已被广泛应用于模式识别和多因素分析领域[3,4,5,6,7,8,9,10,11,12]。其基本思想是:把高维度的数据通过一定的组合投影到低维度子空间上,对于投影到的构型,采用投影指标函数(目标函数)来描述投影值,进而暴露原系统综合评价问题某种分类排序结构的可能性大小,寻找出使投影指标函数达到最优(即能反映高维度数据结构或者特征)的投影值,然后根据该投影值来分析高维度数据的分类结构特征(即投影寻踪聚类评价模型)。其中,投影指标函数的构造及其优化问题是应用PP方法能否成功的关键因素,其复杂性在一定程度上限制了PP方法的深入研究和广泛应用。为此,本文提出基于实数编码的加速遗传算法(Real coding based Accelerating Genetic Algorithm,RAGA)的投影寻踪聚类评价模型,并开展了相应的应用研究。

2 基于遗传算法的投影寻踪聚类评价模型

基于RAGA的投影寻踪聚类评价模型(Projection Pursuit Classification model based on RAGA,RAGA—PPC模型)的建模过程包括以下四个步骤:

(1)评价指标值的无量纲化

设各指标值的样本集(评价对象集)为{x*(i, j)|i=1~n, j=1~p}。其中x*(i,j)为第i个样本第j个指标值,分别为样本的个数(样本容量)和指标的数目。为消除各指标值的量纲和同意各指标值的变化范围,采用下式进行极值归一化处理:

x(i,j)={x*(i,j)-xmin(j)xmax(j)-xmin(j),x*(i,j):xmax(j)-x*(i,j)xmax(j)-xmin(j),x*(i,j):(1)

式中, xmax(j), xmin(j)分别为样本集中第j个指标值的最大值和最小值。

(2)构建投影指标函数

PP方法就是把p维数据{x(i,j)|j=1~p}综合成以a=(a(1),a(2),…,a(p))为投影方向的一维投影值z(i):

z(i)=j=1pa(j)x(i,j),i=1,2,,n(2)

然后根据{z(i)|i=1~n}的一维散布图进行分类。式(2)中的a为单位长度向量,即j=1pa2(j)=1

在综合投影值时,要求投影值z(i)的散布特征应为:局部投影点尽可能密集,最好凝聚成若干个点团;而在整体上投影点团之间尽可能分散开。基于此,投影指标函数可构造为

Q(a)=SzDz(3)

式中, Sz为投影值z(i)的标准差, Dz为投影值z(i)的局部密度,即

Sz=i=1n(z(i)-z¯)2n-1(4)Dz=i=1nj=1n(R-rij)u(R-rij)(5)

式中,z¯为序列{z(i)|i=1~n}的均值; R为求局部密度的窗口半径, 它的选取既要使包含在窗口内的投影点的平均个数不太少,避免滑动平均偏差过大,又不能使它随着n的增大太快,R一般可取值为0.1Sz;距离rij=|z(i)-z(j)|; u(t)为单位阶跃函数, 当t≥0时其函数值为1,当t<0时其函数值为0。

(3)优化投影指标函数

① 投影指标函数的优化

当各指标值的样本集给定时,投影指标函数Q(a)只随投影方向a的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维度数据某类特征结构的投影方向。可通过求解投影指标函数最大化问题来估计最佳投影方向,即

maxQ(a)=SzDz(6)s.t.j=1pa2(j)=1,a(j)[0,1](7)

这是一个以{a(j)|j=1~p}为优化变量的复杂非线性优化问题,用常规优化方法处理较困难。模拟生物优胜劣汰规则与群体内部染色体信息交换机制的加速遗传算法(RAGA)是一种通用的全局优化方法,可用它来求解上述问题较为简便和有效。

② 基于实码的加速遗传算法原理及实现的流程

基于实码加速遗传算法(RAGA)的选择、交叉、变异是并行处理的,因此RAGA实际搜索范围广,得到全局最优点的机会也大。RAGA的循环可逐步调整、缩小优化变量的寻优区间,解的精度随着循环次数的增加可望逐步提高。

基于实码的加速遗传算法是分别在父代群体的基础上通过选择、交叉、变异算子得到3个子代群体,选择N(群体规模)个优秀个体作为下一代父代群体。有限次运算后进行加速遗传,缩小优秀个体选择的区间(分别将M次演化迭代的S个优秀个体共M×S个体的变化区间作为下一次加速遗传的变量区间),这样演化迭代与加速遗传的反复交替进行可实现遗传进化逐步向最优个体逼近,并且随着接近优秀个体,个体的密度加大,这样可在一定程度上减少早熟收敛的机率。加速遗传算法的流程见图1。

(4)聚类(优序排列)

把由(3)求得的最佳投影方向a*带入式(2)后即得各样本点的投影值z*(i)。投影值z*(i)与z*(j)越接近,表示样本i与样本j越倾向于归为一类。按z*(i)值从大到小排序,据此可把对样本集进行分类。

3 实例运用与分析

现以南京地区(5县4区)的农业生产力综合评价为例[13],进一步说明RAGA—PPC模型的应用。农业生产力综合评价指标体系包括劳动生产率、土地生产率、农业总产值、化肥用量、机械总动力、农村用电量、有效灌溉率、耕地复种指数、每劳动力负担耕地能力、净产值率、水稻气候生产力和小麦气候生产力共12项评价指标,因而指标样本集共有9个(5县4区),12个评价指标(已归一化处理),详见表1。

把该样本集依次代入式(2)、式(4)、式(5)、式(3),即得此例的投影指标函数,然后根据式(6)和式(7)所确定的问题,用RAGA进行优化,即可得到最大投影指标函数为1.02, 最佳投影方向a*=(0.348,0.125,0.095,0.046,0.279,0.503,0.188,0.302,0.286,0.427,0.249,0.262)。把a*代入式(6)后即得个样本的投影值z*(i),结果见表1和图2。

由表1和图2可知:

①该样本集按投影值的大小(即农业生产力综合水平从高到低)排序的样本序号依次为3(江宁县)、9(雨花区)、5(高淳县)、8(栖霞区)、1(六合区)、4(溧水县)、6(浦口区)、7(大厂区)和2(江浦县)。其中样本3和9可评为优,样本5、8和1可评为良,样本4、6和7可评为中等,样本2可评为差。该评价结果于文献[13]的最优综合评价法和多层次灰色关联评价法的结论基本一致。

②根据最佳投影方向,可进一步分析各评价指标对评价结果的影响程度。在本例中, a*值说明, 评价指标6、10、1、8、9、5、12、11、7、2、3和4对评价结果的影响程度依次减小,这可为各地区进一步提高农业生产力水平提供决策依据。

4 结论

投影寻踪模型(PPC)作为一种统计方法,将高维数据通过寻求最佳投影方向映射到低维子空间,将多项系统指标压缩为单向指标进行系统决策评价,可在很大程啡上避免个人主观因素对决策的不良影响,适用于数据量丰富、指标层明晰的评价体系。将基于实码的加速遗传算法(RAGA)与投影寻踪相结合, 解决了高维数据全局寻优的难题, 大大减少了寻优工作量,为高维指标评价与决策研究提供一条新的方法与思路。

本文给出了RAGA—PPC建模的详细步骤,采用实码加速遗传算法简化了投影寻踪的实现过程,克服了传统投影寻踪方法计算复杂、编程实现困难的缺点,并将其应用于农业生产力综合水平评价决策中,不仅得出南京各个区县的综合评判优劣排序, 而且由优化投影方向反映出各个评价指标对各样本总体评判的重要程度,其计算简便,适用性强,评价结果更加准确客观,为投影寻踪方法在各种综合评价中的推广应用提供了强有力的工具。

摘要:针对农业生产力综合评价这类高维指标体系决策问题,采用降维技术:投影寻踪分类模型,利用基于实数编码的加速遗传算法优化其投影方向,将多维数据指标(样本评价指标)转换到低维子空间,根据投影函数值的大小评价出样本的优劣,从而做出决策。该模型最大限度地避免了传统评判中权重取值的人为干扰,评价结果更为准确客观,为农业生产力综合评价决策及其它评判决策问题提供一条新的方法与思路。

关键词:投影寻踪,加速遗传算法,聚类,农业综合生产力,高维指标

遗传投影寻踪 篇2

提出了水资源工程方案优选的投影寻踪(PP)模型的新方法.利用PP模型可把方案多维评价指标值综合成一维投影值,投影值越大表示该方案优选,根据投影值的大小就可对方案集进行优选.采用实码加速遗传算法进行PP建模,简化了投影寻踪技术的.实现过程,克服了目前投影寻踪技术计算复杂、编程实现困难的缺点,为投影寻踪技术在水资源系统工程中的广泛应用提供了新的有力工具.应用实例的结果说明,直接由样本数据驱动的PP模型用于水资源工程方案优选简便可行,PP模型的投影值比较分散、易于决策,适用性和可操作性强,不需确定评价指标的权重,优选结果较为客观.

作 者:金菊良 刘永芳 丁晶 付强 作者单位:金菊良,刘永芳(合肥工业大学,土木建筑工程学院,合肥,230009)

丁晶,付强(四川大学,水电学院,成都,610065)

遗传投影寻踪 篇3

随着我国股票市场的迅速发展, 股票投资已经成为人们日常生活的一个重要组成部分, 也是人们投资理财的一种重要方式。然而, 股票投资的收益与风险往往是成正比的, 即投资收益越高, 风险越大[1,2,3,4]。自有股票市场以来, 众多学者和投资者就一直致力于股票市场行为的预测研究, 希望能从预测结果中找到一些规律, 探究股市价格的形成机制、评价证券市场的有效性, 进一步使政府金融部门更有效地对股票市场实施监管, 防范金融风险;同时也能使投资者在最小化投资风险的情况下获得最大化投资收益。因此对上市公司股票指数和股票价格的未来走势的预测, 都具有极其重要的应用价值[5,6,7,8]。

在传统的股票市场预测建模研究中, 均采用了“假定—模拟—预测” 这样一种证实性数据分析思路, 如多元回归分析、时间序列分析、指数平滑等[9,10,11,12]。然而股票市场是一个复杂的非线性动力学系统, 它的预测是一个非线性函数值的估计和外推问题, 而且市场行为受多种因素交互影响, 具有显著的非线性、时变性特征, 利用传统的统计预测技术, 均难以适应股票市场千变万化的规律, 无法真正找到数据的内在规律, 而且当它被用于高维、非线性、非正态分布数据预测建模时, 很难收到好的效果。

近年来, 人工神经网络ANN (Artifical Neutral Network) 发展非常迅速, 而且具有很强的处理非线性问题的能力, 与传统的线性统计预测方法相比, 人工神经网络具有更好的预测能力[13,14,15], 它已经成为股票市场预测的一种新技术、新方法。目前在股市的预测中以多层前馈 (Back Propagation) 神经网络模型[16]、径向基 (Radial Basis Function) 神经网络模型[17]、Elman神经网络模型为主[18]。但是由于神经网络技术没有严密理论体系作指导, 其应用效果完全取决于使用者的经验。在实际应用中, 研究人员由于缺乏相应的先验知识, 往往需要进行大量费力耗时的实验摸索, 才能确定合适的网络模型和各种参数的设置, 有时就算采用同样的方法解决同样的问题, 由于操作者不同, 其结果也可能大相径庭, 也就是说, 在所得到的实验结果中, 神经网络对训练样本的拟合精度很高, 而对新样本的预测精度却较差, 这样就大大限制了神经网络模型在实际股市预测中的应用。

神经网络集成是用有限个神经网络对同一个问题进行学习, 集成在某输入示例下的输出由构成集成的各神经网络在该示例下的输出共同决定[19,20,21]。神经网络集成本身克服了单一神经网络的缺陷, 可以显著地提高神经网络系统的泛化性能, 即使是缺乏神经计算经验的普通工程技术人员也可以从中受益, 被视为一种非常有效的工程化神经计算方法。目前神经网络集成技术已经被成功地应用到很多领域中, 如光学字符识别、人脸识别、地震分类、医学等领域[22,23,24,25]。

本文采用遗传算法优化投影方向, 将影响股市的高维非线性数据投影到低维空间, 来构造神经网络输入矩阵, 再利用Bagging技术和不同的神经网络学习算法生成集成个体, 进一步用遗传算法—投影寻踪技术提取神经网络的集成个体, 建立基于遗传算法优化的投影寻踪技术神经网络集成模型, 并对上证指数进行预测。计算结果表明该方法具有较好的学习能力和泛化能力, 在股市上证指数开盘、收盘的预测中, 其预测精度高、稳定性好, 具有一定的普遍适用性。

1 基于遗传算法的投影寻踪技术的神经网络集成方法

1.1 遗传算法优化投影寻踪技术构建神经网络输入矩阵

股票市场是一个复杂的系统, 受多种因素影响, 如政治、经济、社会、民生等因素的影响, 目前利用神经网络建立股市预测模型中, 构造输入矩阵的方法主要可以分成两大类:一是利用混沌时间序列的相空间重构生成输入矩阵;二是利用上证指数的技术指标, 如最高价、最低价、移动平均线 (MA5) 、随机指标K、相对强弱指标 (RSI) 等[26,27]。

在本文所建立的预测模型中, 考虑到各种技术指标记录市场行为重要信息, 并结合我国股市情况, 特选取32项股市技术指标作为输入变量[28], 即DIF, DEA, DIF-DEA, +DI, -DI, DX, ADX5, K, D, K-D, BIAS10, BIAS30, BIAS72, PSY5, PSY10, PSY15, RIS5, RIS10, RIS5-RIS10, RIS10-RIS15, AR5, AR10, RSV, 平均成交量5, 平均成交量10, 平均成交量5-平均成交量10, WMS%R10, Open, High, Close, Low, Vol, 令其为影响股市的变量因子:

X= (X1, X2, , X32) =[x1, 1, x1, 2, , x1, 32x2, 1, x2, 2, , x2, 32xn, 1, xn, 2, , xn, 32] (1)

众多的技术指标之间存在相互依赖关系, 而且输入节点过多会使得预测规模变大, 增加了预测模型的复杂性, 容易导致神经网络训练时间长、收敛慢, 这样会降低网络的预测能力, 为此本文利用遗传算法优化投影寻踪技术在尽量减少信息丢失的前提下对原始技术指标降维, 构建预测变量。

在20 世纪 70 年代后期, 国际统计界发展了一类处理和分析高维数据的新兴统计方法—投影寻踪PP (Projection Pursuit) 方法, 它采用“审视数据→模拟→预测”探索性数据分析EDA (Exploratory Data Analysis) 的新途径, 适宜于非线性、非正态分布数据的处理, 并能避免“维数祸根”, 在许多领域获得成功应用[29,30]。其基本思想是:利用计算机技术, 把高维数据通过某种组合投影到低维子空间上, 并通过极小化某个投影指标, 寻找出能反映原数据结构或特征的投影, 以达到研究和分析高维数据的目的。投影寻踪回归模型如下:

Y=f (X) 和X= (x1, x2, …, xp) 分别是一维和p维随机变量, 为了能客观反映高维非线性数据结构特征, 投影寻踪回归采用一系列岭函数的“和”去逼近回归函数, 即:

f (X) m=1ΜGm (Ζm) =m=1ΜGm (amΤX) =m=1ΜGm[j=1pamjxj] (2)

其中, Gm (Zm) 为第m个岭函数, M为岭函数的个数;Zm=amΤX为岭函数的自变量, 它是p维随机变量Xam方向上的投影, am为投影方向。投影寻踪回归模型仍采用最小二乘法作为极小化判别准则, 即选择式 (2) 中的参数amj和岭函数个数M的适当组合, 使下式:

L2=minE[Y-m=1ΜGm[j=1pamjxj]]2 (3)

达到极小, 即要求Zm=amΤX最大化。目前建立投影寻踪回归模型一般采用Friedman和Stuetzle提出的多重平滑回归技术[31], 鉴于该方法涉及许多复杂的数学知识, 不易编程, 限制了其在实际工程中的应用。为了从32个技术指标中提取股市预测变量, 构造如下规划模型并用遗传算法优化求解:

利用遗传算法GA (Genetic Algorithm) 来求解投影方向, 定义遗传算法的适应度函数为:

f (w) =Q (a) (5)

具体操作过程如下:

(1) 随机生成初始群体, 其由L个个体构成, 每个个体由{w1, w2, …, w32}组成, wi为[0, 1]上的32个均匀分布的随机数。

(2) 按照 (5) 式计算群体中每个个体的适应度。

(3) 保留群体中适应度最高的个体, 它不参与交叉和变异运算, 而直接将其复制到下一代。对群体中的其它个体, 采用轮盘赌选择法进行选择。

(4) 权重系数采用浮点数编码, 需要设计新的交叉算子和变异算子。以pc的概率对选择后的个体进行交叉。设在第i个体和第i+1个体之间进行交叉, 交叉算子如下:

式中XitXi+1t是一对交叉前的个体, Xit+1Xi+1t+1是交叉后的个体, ci是区间[0, 1]的均匀分布的随机数。以pm的概率对交叉后的个体进行变异, 设对第i个体进行变异, 变异算子如下:

Xit+1=Xit+ci (7)

式中Xit是变异前的个体, Xit+1是变异后的个体, ci是区间[umin-δ1-Xit, umax+δ2+Xit]上的均匀分布随机数。这样可以保证变异后的个体仍在搜索区间内。

(5) 生成新一代群体, 反复进行 (2) ~ (4) , 每进行一次, 群体就进化一代, 直到适应度满足要求或者达到总的进化代数。

(6) 从进化到最后一代中选取3个适应度较高的个体, 得到3个较优投影方向, 令其为 Zm*=amΤX, m=1, 2, …, n, 作为神经网络训练矩阵, 即:

1.2 神经网络集成个体的生成

在神经网络集成实现方法的研究中, 研究者们试图设计出更有效的神经网络集成个体, 目前最主要的是Boosting和Bagging技术[32,33], 都是通过扰动训练数据来获得较大差异的个体网络。本文通过两种方法获取神经网络集成个体: (1) 不同的初始连接权、不同的网络结构、不同的训练子集获得较大差异神经网络集成个体; (2) 不同神经网络训练算法, 如用Matlab软件的神经网络工具箱中的Powell-Beale共轭梯度反向传播算法 (traincgb) 、自适应学习速率梯度下降反向传播算法 (traingda) 、Levenberg-Marquardt反向传播算法 (trainlm) 、弹性反向传播算法 (trainrp) 、贝叶斯正则化神经网络 (ANN) 得到神经网络集成个体。通过Bagging技术生成不同的训练子集并采用不同的网络结构各自训练10个神经网络, 包含输入层、隐层、输出层的三层前向神经网络作为基本模型, 这样可以得到50个神经网络集成个体。

1.3 投影寻踪技术的神经网络集成

通过Bagging技术和不同训练算法产生最初50个神经网络集成个体。由于学习算法的差异或者学习算法的随机性, 加之不同的算法其特点也不同以及训练样本不同, 每种方法往往时好时坏。每一个神经网络个体都能从不同程度上对训练样本学习能力提供一些有用信息, 但是各个神经网络个体对检测样本泛化性能会存在差异, 也可能会有一些个体对系统的泛化能力的提高没有作用或者作用比较小, 但是它和其它个体组合以后整个系统会有很好的泛化能力。对于50个个体的组合, 需要计算250-1次组合试验, 才能求解最佳组合, 计算量相当大, 我们利用基于加速遗传算法的投影寻踪技术进行神经网络集成, 这实质相当于是利用投影寻踪技术对多个神经网络的输出组成的矩阵进行降维处理, 再采用逻辑斯谛曲线回归, 建立投影寻踪技术的神经网络集成股市预测模型。

利用50个神经网络个体进行集成:设第j个神经网络训练后的输出为Zij, 构造矩阵:

(zij) n×50=[z1, 1, z1, 2, , z1, 50z2, 1, z2, 2, , z2, 50zn, 1, zn, 2, , zn, 50] (9)

利用1.1节中的步骤1至步骤6对上述输入矩阵进行降维处理, 最后得到神经网络集成的计算值z (i) :

z (i) =j=150a (j) zij (10)

再用逻辑斯谛曲线 (Logistic Curve) 进行回归计算, 得:

Ζ* (i) =Ν1+e (c1-c2) Ζ (i) (11)

式中, Z* (i) 为股市交易日中第i天的计算值;c1、c2为待定参数, 分别表示该曲线的积分常数和增长率。

以上方法可以归纳为:首先用遗传算法优化投影寻踪技术从众多股市技术指标中提取神经网络输入矩阵, 再利用不同的神经网络算法、不同的网络初始连接权、不同的网络结构和不同的训练子集生成神经网络集成个体, 对集成个体再次利用遗传算法优化投影寻踪技术提取综合信息建立逻辑斯谛曲线回归股市预测模型。

本文选取2006年1月4日到2007年11月19日共456个交易日的上证综合指数开盘价数据[18], 利用遗传算法投影寻踪技术建立神经网络集成预测模型, 对后续30个交易日 (11月20日-12月28日) 的数据预测来检验模型的效果, 我们采取滚动预测方式, 即用前456个交易日实际数据建立模型, 对第457个交易日的数据预测, 进一步用前457个交易日实际数据建立模型, 对第458交易日的数据预测, 依次类推进行, 以下对第457个交易日的预测说明建模过程, 建模样本为神经网络输出变量矩阵:

Y0={yn1, n=1, 2, …, 456}T (12)

2 应用实例及其结果分析

为考察模型的效果, 我们通过Bagging技术和不同训练算法产生最初50个神经网络集成个体, 建立简单加权平均集成模型SA (Simple Average Ensemble) , 逐步线性回归集成模型SLR (Stepwise Linear Regression Ensemble) , 用遗传算法的投影寻踪技术建立神经网络集成模型PP-GA (Projection Pursuit Technology based Genetic Algorithms) , 分别对456个样本拟合和对30个后续样本预测, 比较结果用来检验预测模型的效果。为了定量比较模型的效果, 引入4种误差:平均绝对百分比误差MAPE (the Mean Absolute Percentage Error) 、均方根误差RMSE (the Root Mean Squares Error) 、平均绝对误差MAE (the Mean Absolute Error) 、Pearson相关系数PRC (Pearson Relative Coefficient) , 具体定义见文献[21]。

表1是三种模型对456个训练样本的拟合和对30个样本预测的各种统计指标, 图1是三种模型对456个训练样本拟合效果, 图2是三种模型对30个检测样本预测效果, 从表1的三个模型的拟合和预测数据, 以及图1、图2可以看出PP-GA模型、无论是拟合还是预测效果均要优于SA、SLR模型。 PP-GA模型的每一种指标均小于SA、SLR模型, 由此可以看出PP-GA模型拟合能力优于SA、SLR模型, 显示出PP-GA模型有很好的学习能力;从图2和表1预测数据可以看出, PP-GA模型预测能力优于SA、SLR模型, 进一步说明PP-GA模型有较强的泛化能力。

这三种模型都是用对上证指数的32项技术指标建立的非线性模型, 从表1和图1、图2可以看出PP-GA模型无论是在趋势预测, 还是预测精度方面明显优于SA、SLR模型。由于SA模型是对50个集成个体简单平均, 没有对集成个体权重做任何优化, 而SLR是50个集成个体逐步回归, 它是选用一些对集成有显著影响的因子, 并以误差平方和最小来集成, 对集成个体的权重优化, 故其效果要好于SA模型;PP-GA模型是采用遗传算法投影寻踪技术对50个集成个体降维再采用逻辑斯谛曲线回归, 建立集成模型, 最大化提取集成个体信息, 并采用对系统稳健性较好的逻辑斯谛曲线回归方法集成, 故此效果好于SLR模型。同时我们也对上证指数的收盘价利用上述方法建模, 结果同样表明, PP-GA模型均优于SA、SLR模型。这说明PP-GA模型具有较好的学习能力和泛化能力, 在股市预测中预测精度较高、稳定性好。

3 结 论

股票市场系统是经济系统中最为活跃、相互作用最为复杂的经济系统之一, 并且由于股票市场受众多变化因素的影响, 预测十分困难。本文利用遗传算法投影寻踪技术从众多技术指标中提取有用信息作为神经网络的输入因子, 并利用不同神经网络算法和Bagging技术生成一组神经网络集成个体, 再用遗传投影寻踪技术建立神经网络集成模型, 并对上证指数进行预测。计算结果表明该方法具有:

(1) 由于引起股市波动的因素异常复杂, 很难确定对股市波动起最主要作用的因子, 因此, 要建立精度很高的股市预测模型, 并非易事。本文利用PP-GA对众多技术指标降维, 提取影响股市的主要信息, 避免维数灾难, 直接审视数据并计算机寻优, 客观性较好;又可以对神经网络的输入矩阵降维, 使得网络结构规模变小, 增强网络的稳定性。

(2) 由于神经网络具有很强的非线性关系概括能力, 它不需要建立复杂非线性系统的显式关系或者数学模型, 只需要建立其中一些变量之间的广义影射关系, 而众多的神经网络训练算法有各自优缺点, 都能从一定程度上提供一些有用预测信息。本文利用不同的神经网络算法和Bagging技术生成集成个体, 为集成系统提供更多有用的信息, 集成个体差异性较大, 极大提高系统的预测效果。

(3) 集成时采用遗传算法投影寻踪技术提取集成个体信息, 并采用逻辑斯谛曲线回归方法, 提取集成个体信息并采用非线性方法集成。在建模样本、预报因子相同的条件下, 该方法能明显提高预报精度, 预报结果稳定, 而且具有较好的学习能力和泛化能力, 在股市上证指数开盘、收盘的预测中, 为利用神经网络方法进行建模预报提供了一种新的思路和方法。

遗传投影寻踪 篇4

目前, 国内众多学者从不同的角对房地产公司现金流量进行了深入的分析研究, 宋戈 (2002) 认为随着社会主义市场经济体制改革的建立和发展, 房地产成为国民经济的一个重要投资领域。面对这样一个投资巨大的领域, 投资决策仅停留在经验决策或简单的会计计算水平上是远远不够的. 需要采取专门的方法, 科学地、最大限度地分析和预测投入与产出的关系, 为房地产投资决策莫定基础是十分必要的。谯谦, 吴楠 (2009) 认为在我国, 前两年房地产市场持续升温, 然而, 汶川大地震对内地房地产市场造成了巨大负面影响, 内地居民的住房消费与投资观念均产生了改变。这些都严重影响内地房地产市场的供求关系。资金, 作为房地产企业运营的命脉, 关系到房地产企业的发展。特别对于房地产开发企业, 现金流的管理至关重要, 作者浅析了我国房地产企业现金流的现状和存在的问题, 并提出了解决对策。卢馨等 (2011) 对房地产上市公司现金流状况进行了深入分析, 研究结果表时, 由于销售不畅使得房地产商经营资金流入不足, 收现能力下降, 加之前期购地所需支付, 房地产商面临巨大的资金压力。乐正俊 (2011) 对建筑施工企业现金流量进行了分析, 认为建筑施工企业目前存在着内部约束机制不健全, 消弱了监控力度、工程结算具有滞后性、盲目投标导致施工企业周转困难、施工企业的现金流量管理混乱等问题, 并根据这些问题, 给出了具体的建议及对策。

一、我国上市房地产公司现金流量评价指标体系构建

参考已有学者对现金流量评价指标体系分析, 结合房企自身状况, 制定如下评价指标体系 (见图1) 。

二、房地产数据现金流量指标年报整理

选取8家上市房地产公司的2011年数据为研究参考, 得出表1上市房地产公司现金流量相关比率数据 (见表1) 。

三、基于遗传算法的投影寻踪聚类模型简介

美国Stanford大学的Friedman和Tukey在1974年首次将该方法命名Projection Pursuit, 即投影寻踪。投影建踪是用处理高维数据的一种新兴的统计方法, 其基本指导思想是通过先进科学的降维的技术将高维数据投影到低维, 从而用代维的数据来反映高维数据的特征, 寻找高维数据结构特征。基于遗传算法 (RAGA) 的投影寻踪聚类模型最大的特点在于与普通降维数据相比, 其在降维过程中具有很好的稳健性, 能够保持数据的本质特征, 从而最大程度保证聚类评价结果的客观性, 能够克服人为主观对数据的影响。

四、基于遗传算法的投影踪模型的构建

(一) 投影指标值的归一化处理。

设数据集合为:{Y* (i, j) |i=1, 2, …n;j=1, 2, …p}, 将指标分成两部分, 做归一化处理:

对于正向指标:undefined

对于负向指标:undefined

(二) 构造投影指标函数。

利用MATLAB R2010a编程将p维数据{Y* (i, j) ︱j=1-p}合成以向量a的投影值E (i)

undefined

undefined

注:R为窗口半径, E (z) 为均值, R=0.1Sz, 当t〈0时u (t) =0, 当t〉0时, u (t) =1。

(三) 优化投影指标函数。

MaxQ (a) =Sz·Dz, 其中undefined, 采取RAGA (遗传算法) 对{a (j) ︱j=1, 2…, p}进行非线性优化。

(四) 评价 (优序排列)

将以上得到的优化向量a (j) 代入undefined, 按照M (a) 值大小接近程度进行分类, 其大小代表样本的综合能力指标。

注:经营指数:经营活动现金流量与营业净利润比率;现金利润率:净现金流量与净利润比率;资产现金流量回报率:经营活动的现金流量与净资产总额比率

五、实证应用分析

采用MATLAB R2010a按照上述建模步聚进行编程建模。对于遗传算法, 选父代种群规模为n=400, 交叉概率为0.8, 变异概率为0.8, 优良个体为20, a=0.05, 加速次数为11次, 通过MATLAB R2010a对程序进行运行, 得到最大投影值为0.5913。最佳投影方向为 (0.3793 0.5189 0.054 0.0583 0.5438 0.0358 0.2672 0.4607) 。最佳投影方向实至上是代表了各影响指标权重比例, 由此, 各得到在评价过程中各指标的影响因子权重, 如图2所示:

根据投影方向, 可得到各个样本单位间的综合值评价, 如图3所示

从图中可以看出, C与G 、及H上市房产公司现金流量运行质量最好, B与E公司现金流量质量较差, A, D, F公司现金运行质量较差。

参考文献

[1].宋戈.现金流量法在房产投资决策中的应用[J].商业研究, 2002, 4:P93~94

[2].谯谦、吴楠.浅析房地产行业中现金流量问题[J].现代商业, 2009, 7:P58

[3].卢馨、鲁成方、李皓.我国房地产上市公司现金流状况分析[J].财会月刊.2011, 11:P21~23

[4].乐正俊.建筑施工企业现金流量管理的问题及对策[J].现代商业, 2011, 3:250~251

[5].葛桓志.用层次分析法对上市公司现金流量进行综合评价[J].云南财经大学学报 (社会科学版) .2006, 4:P86~87

软件质量综合评价的投影寻踪模型 篇5

随着计算机应用的日益普及和信息化水平的不断提高,开发软件系统的质量要求越来越高和系统的体系结构也越来越复杂。然而由于系统的功能和复杂度越来越高,由此产生的系统可靠性问题便日益突出。并且当前的软件系统承载着大量的信息,一旦发生崩溃将会带来巨大的损失,因此设计和开发出高质量的软件系统,提高软件质量的研究已成为当前软件工程研究领域中的一个热点。

软件质量评价直接影响软件的开发、使用和维护,对软件进行客观、科学地评价对提高软件的质量有着重要的意义,至今已提出了很多的研究方法,如模糊综合评价方法[1,2]、人工神经网络[3,4]、投影寻踪[5]评价方法等。但模糊综合评价方法指标的权重一般都要由专家给定,而且定性信息也多是通过人的主观判断给予量化,由于这些受专家个人认知差异和专家弃权行为等因素的影响,存在着主观随意性和思维的不确定性,直接影响着评价结果的准确性。人工神经网络方法是一个黑箱模型,建模过程十分复杂、繁琐,而且算法很容易陷入局部最优值。文献[3]采用人工神经网络和文献[4]采用投影寻踪模型对软件质量分析,但把5个软件产品20个专家的打分情况看成是20个软件样本,然后对20个软件样本进行建模综合分析,曲解了原始论文[2]中的数据涵义,因此分析结果是错误的;并且文献[4]采用遗传算法对投影寻踪计算寻找最优解,但遗传算法随着维数的增多,搜索空间迅速变大,容易收敛到局部最优,并且稳定性较差,本文的研究表明,文献[4]也没有求得全局最优解。本文将粒子群(PSO)[6]算法和多智能体遗传(MGA)[7]算法应用于投影寻踪模型对软件质量进行综合评价。投影寻踪模型分析影响软件质量指标的权重取决于样本的客观数据,无需人为给定,使得分析更加客观和科学;粒子群算法通过个体间的竞争与合作来实现高维空间中的最优解的搜索,可以解决复杂优化问题;多智能体遗传算法是通过将遗传算法与多智能体结合,有效地解决了遗传算法容易陷入局部最优值问题,并且收敛速度远高于遗传算法。

1 基于投影寻踪模型的评价方法

1.1 投影寻踪模型

投影寻踪是一种处理和分析高维数据的新兴统计方法,在二十世纪八十年代由Friedman[8]等人提出的用于解决非线性、非正态分布和高维数据的处理算法,有效地解决了高维数据中的“维数灾难”。它是一种集特质提取与数据压缩于一体的数据处理方法与理论,具有稳健性好、抗干扰能力强和准确度高等优点。

1.2 投影寻踪建模过程

投影寻踪模型基本思想就是构造投影指标函数,把高维数据投影到低维空间上,利用投影指标函数找出最佳投影向量,根据最佳投影向量来分析和研究高维样本数据的结构特征,从而对样本进行综合评价。其中构造投影指标函数及其优化投影方向是应用投影寻踪方法能否成功的关键。投影寻踪建模过程如下:

(1)样本数据的归一化处理

为了消除量纲不一致和统一指标的变化范围,需要对样本原始数据进行归一化处理,将数据中的各指标变量归一到0和1区间之内。设样本集为。其中为第i个样本第j个指标值,n为样本数量,p为指标个数。本文采用越大越好的归一化方法,即,其中maxxj和minxj分别为第j个样本指标的最大值和最小值。

(2)构造投影指标函数

投影寻踪模型就是把多维样本数据投影成以向量的一维投影值z(i),即,并且要求投影值在整体上各个样本团的投影值区间应尽可能地分散开,在局部上各投影值区间内部应尽可能地密集,最常用的投影指标函数等于各样本投影值标准差Sz和局部密度DZ之积,即投影指标函数为Q(a)=Sz*DZ,其中:

E(z)为样本投影值z(i)的均值;r(i,k)表示样本之间的距离即;R为局部密度的窗口半径,u(R-r(i,k))为单位阶跃函数,当R-r(i,k)≥0时,其值为1,当R-r(i,k)≤0时,其值为0。

上述中密度窗口半径R的取值与投影向量的取值有着密切的关系,一般要求密度窗口的选取既要包含在视窗口的样本点个数不能太少,以免样本滑动平均时的偏差太大,同时也不能随着样本的数量增大而增加太大[9]。

(3)优化投影指标函数

当各样本指标值给定时,投影指标函数Q(a)只随着投影向量的变化而变化。不同的投影方向能反映出不同的高维数据结构特征,能最大暴露高维数据某类特征结构的投影方向就是最佳投影向量,因此可以通过求解投影指标函数的最大值来确定最佳投影方向,即

上式是一个求解投影向量的复杂非线性函数优化问题,用传统的优化处理方法非常困难。因此本文采用粒子群算法和多智能体遗传算法对上式进行优化以求出最佳投影方向

通过求得的最佳投影向量代入公式后,可得到各样本的综合投影值z(i)。将z(i)的值从大到小进行排序,则可以得到软件质量从优到差的排序。

2 软件质量的综合评价

2.1 评价指标的选取

在软件质量度量模型的研究中,目前比较常见的软件质量评价模型有Boehm模型、McCall模型和ISO/IEC9126软件质量模型[10]。研究软件质量标准能够直观地反映出软件的质量,正确合理地对软件质量进行分析,可以使人们在软件开发过程中判断出软件质量的变化趋势,指导开发人员对软件开发中的资源进行重新配置,使软件质量进一步的提高,并能够对软件产品进行量化预测和评价。以上模型分别定义了不同的应用软件应满足的一些质量因素。在实际的软件质量评价中应该综合考虑不同的应用软件需要满足的质量因素,本文根据文献[2]中选取的22个因素作为软件评价体系中的指标,分别为正确性X1、可靠性X2、完整性X3、可用性X4、效率X5、可维护性X6、可测试性X7、互操作性X8、灵活性X9、复用性X10、移植性X11、明确性X12、可修改性X13、文档性X14、可理解性X15、有效性X16、功能性X17、普遍性X18、经济性X19、连接性X20、安全性X21、适用性X22。指标的评价准则参照McCall定义的评分准则,评价分级为优m1、良m2、中m3和及格m4。

2.2 软件质量综合评价的实例

本文以文献[2]中5个软件产品,由20个专家对软件评价的数据作为实例样本。用粒子群算法(PSO)和多智能体遗传算法(MGA)对投影寻踪建模,其中PSO算法中的参数为:种群规模数为3000,迭代次数为500次,学习因子c1=c2=2,惯性因子wmax=0.9,wmin=0.4。MGA算法中的参数为:交叉概率Pc=0.1,变异概率Pm=0.08,竞争概率Po=0.2,智能体网格大小Lsize=20,正交矩阵相关参数Q2=3,迭代次数为600次。密度窗口半径都为R=maxr(i,k)/3。根据文献[9]中所述,在投影寻踪模型中,若某个指标的所有样本值都相等,则其权重必定等于0;同一指标进行不同的归一化后权重互为相反数;数值完全相同的两个指标权重必相同。因此本文在预处理数据中增加三个虚拟变量,计算出结果满足上述要求,说明本文的最优化过程确保求得了全局最优解,并且选用的参数合理有效。在Matlab环境下仿真,用PSO求得的最佳投影向量

根据文献[2]中对评价等级优m1、良m2、中m3和及格m4的评价空间V={v1,v2,v3,v4}={1.0,0.85,0.7,0.5}。对软件质量而言,评价等级优、良对软件会产生正面的影响,中和及格对软件产生负面的影响,因此建立软件评价模型S=m1*v1+m2*v2-m3*v3-m4*v4,通过最终计算得到各软件综合评价结果如表2所示。

从表1和表2可以得出:

(1)PSO算法和MGA算法与投影寻踪模型结合分析出软件质量评价结果排序一致,只有软件4与文献[2]的评价结果排名有点差异,其余软件质量排序先后顺序一致。投影寻踪模型和文献[2]的一致性排序率为80%,则说明采用投影寻踪模型对软件质量综合评价结果是可靠的。

(2)由于文献[2]模糊推理评价模型中指标的权重一般都要由专家给定,存在着主观随意性和思维的不确定性,直接影响评价结果。基于投影寻踪模型的软件质量评价模型中避免了专家权重赋值的主观随意性,并且方法简单、稳定性和适用性强等优点,提高了评价结果的准确性和客观性。

(3)由表2可知软件3、软件4、软件5的质量明显高于软件1和软件2的质量,因此在软件开发过程中应尽可能地采用前者的开发模式,使开发出的软件具有更高的质量。并且最佳投影向量系数可以反映出各软件指标对软件质量的影响程度,因此利用投影寻踪模型对软件质量评价,还可以逆向查出哪种指标导致了软件质量变差的趋势,这样可以在软件开发过程中及时发现问题,并采取有效的补救措施。

实验结果表明,利用投影寻踪模型对软件质量模型进行综合分析,能够快速地评价出软件的综合质量,克服了专家经验不足产生的影响,可以正确地反映出软件质量的优劣。并且该模型适用于样本历史数据不足的情况下,可以很好地提取出样本的特征数据,可以大大提高软件评价的效率。

2.3 软件质量评价的指标重要性分析

本文在投影寻踪模型中指标归一化采用的是越大越好的归一化方式,则根据投影指标向量系数的大小可以判定各评价指标的重要性。即最佳投影向量的系数大小本质上反映了各指标对软件质量的影响程度,投影向量指标系数越大说明对软件质量的影响程度越大,因此可以正确合理地分析出软件开发过程中各指标对软件质量主次的影响,根据每个指标影响程度的大小,有针对性地改进软件质量;并且通过综合投影值的大小可以确定软件质量的优劣,实现同类软件质量之间的相互比较。根据投影寻踪模型求出投影向量系数的分布图如图1所示。

从图1可以看出,投影寻踪模型计算出各指标变量的系数之间存在着较大的差异,并且所有指标的投影向量系数都大于零,表明各指标对软件质量都有不同程度正向的影响,说明了本软件质量评价中指标选取的合理性。评价指标中X3、X4、X8、X10、X11、X13、X14、X18、X19指标系数较大,对软件质量综合评价具有较大的影响;评价指标中X2、X5、X7、X12、X16、X22指标系数较小,对软件质量综合评价的影响次之;其余评价指标对软件质量影响较小。

因此在软件开发过程中,尽量提高投影指标系数较大的指标对软件质量的影响,及时发现软件开发过程中存在的问题和软件质量的变化趋势,可以有效地提高和确保软件开发产品的综合质量。

3 结束语

(1)为解决软件质量评价中涉及多维指标难于综合评估的问题,本文采用投影寻踪模型,解决了软件评价模型中多维指标难以评价的问题;并且把软件质量评价中的多维指标投影到一维指标,利用该一维投影值的大小对不同软件进行综合评价,构造出能反映多维指标的综合评价模型,说明利用投影寻踪可以在多维指标复杂的系统评价中分析与应用,为软件质量评价研究领域提供了一种新的方法和思路。

(2)实例结果表明,将粒子群算法和多智能体遗传算法应用于投影寻踪模型,有效地利用投影寻踪降维分析和处理数据的能力、粒子群算法和多智能体遗传算法全局快速搜索的能力,能够很好地避免模糊综合评价等的主观随意性和思维的不确定性,使得软件质量评价结果更稳定、客观和准确。并且该模型的评价结果可以作为分析软件质量的变化规律,发现软件开发过程中的问题提供参考和依据。

(3)本文对现行业软件质量模型一般涉及的质量因素作为投影寻踪建模的输入,但是在实际的软件开发应用过程中,应该根据不同的应用软件综合考虑应满足的一些质量因素,可以增加或者减少某些特性指标来实现评价标准。

摘要:软件质量评价直接影响到软件开发的质量,软件质量是由多维指标因素决定的,投影寻踪模型能够将多维指标综合投影成一维投影指标,根据该投影指标值的大小可以对软件质量进行优劣排序。为了有效地利用投影寻踪模型降维分析和处理数据的能力、粒子群算法和多智能体遗传算法全局快速搜索的能力,文中将粒子群算法和多智能体遗传算法应用于投影寻踪模型,建立了软件质量的综合评价模型。实验结果表明投影寻踪模型为软件质量综合评价提供了一种新的客观、正确可靠的综合分析方法。

关键词:粒子群算法,多智能体遗传算法,投影寻踪,软件质量,综合评价

参考文献

[1]李良宝,韩喜双.软件质量的多级模糊综合评价[J].哈尔滨工业大学学报,2003,35(7):812-814.

[2]刘宏兵.基于模糊推理的软件质量评价模型[J].计算机工程与设计,2005,26(8):2146-2148.

[3]王李进,吴保国,郑德祥.基于人工神经网络的软件质量评价[J].计算机应用与软件,2008,25(12):133-134.

[4]楼文高,姜丽,孟祥辉.计算机软件质量综合评判的人工神经网络模型[J].上海理工大学学报,2007,30(5):479-482.

[5]梁忠,王李进,周术诚.投影寻踪模型在软件质量评价中的应用[J].计算机工程与设计,2009,30(15):3584-3586.

[6]张群.改进粒子群优化算法在投影寻踪聚类一般的应用研究[D].西安:陕西师范大学,2010.

[7]钟伟才.多智能体进化模型和算法模型研究[D].西安:西安电子科技大学,2004.

[8]付强,赵小勇.投影寻踪模型原理及其应用[M].北京:科学出版社,2005.

[9]楼文高,乔龙.多智能体遗传算法投影寻踪建模与实证研究[J/OL].计算机工程与应用:[2012-08-01].http://www.cnki.net/kcms/detail/11.2127.TP.20120801.1653.025.html.

遗传投影寻踪 篇6

农田水利是农业和农村发展的基础设施,是现代农业的重要物质条件。受经济基础、自然条件和地理位置等因素的影响,各地区农田水利发展存在较大差异。农田水利发展综合评价就是对各地区的农田水利发展水平进行排序和分类, 以便在宏观上掌握各地的农田水利发展现状, 为更好地指导和规划今后农田水利发展提供科学分析依据。由于农田水利是一个多目标系统,单项指标的大小很难评价农田水利发展程度的高低。因此,农田水利发展评价的焦点,是如何合理地将多个评价指标转化成单个的综合评价指标,也就是在一维空间上能够较为直观地实现综合评价。然而,由于存在着各指标量纲不尽 相同以及权重较难确定等问题,难以客观反映各评价指标数据所携带的数字信息,容易偏离评价目标。因此,对于评价指标不太多、数据结构较为简单的问题则不适合使用综合指数法、主成分分析法等评价方法。投影寻踪模型(Projection Pursuit Model 简称PP模型)不受限于问题规模和数据结构,可实现高维数据降维操作,并在低维空间内对数据进行统一评价。1974年,Friedman和Tukey[1]对PP模型进行了深入的研究,目前,PP模型已广泛应用于很多领域。叶浩[2]等利用基于序列二次规划算法的PP模型对徐州市张集水源地地下水水质进行了评价,取得了较为吻合的结果;王斌[3]等利用基于自由搜索的PP模型对黑龙江甘蓝县农业基本旱情进行了评估,结果均与当年的实际干旱情况相符;汪丽娜[4]等利用基于人工鱼群算法的PP模型对宜昌水文站12次历史洪水进行了分类,揭示了长江流域宜昌站多年洪水的变化规律,为长江流域的水资源综合治理及其优化配置提供了理论参考。但PP模型在农田水利评价方面还没有研究。本文基于PP模型的优点,采用此模型对农田水利发展指标进行综合评价,并将此应用于我国北方某大型灌区农田水利发展上来,得出各指标对农田水利发展水平的贡献大小及灌区各子区农田水利发展水平的排序,找出发展滞后子区和关键指标,希望能为相关部门提供决策参考信息。

1 农田水利发展综合评价的投影寻踪模型[5,6,7]

用投影寻踪模型进行农田水利发展的综合评价,其基本方法是将灌区的多个子区或多个地区多个评价指标产生的高维数据通过某种组合投影到低维子空间上,用低维空间中投影散点的分布结构提示高维数据的结构特征。根据建立的投影指标函数,找出在函数值达到最大时的投影方向,然后计算投影值并对其进行排序,投影值大的即为农田水利发展较好的。由此可见,投影指标函数的构造及其优化问题是应用PP法进行农田水利发展综合评价的关键。其建模过程包括如下步骤:

(1)评价指标值的归一化处理。设本研究综合评价集为:

{x*(i,j)|i=1,2,,n;j=1,2,,p}

式中:i为第i个评价地区;j为第i个评价地区的第j个评价指标;np分别为综合评价的地区数目和评价指标的数目;x*(i,j)为第i个评价地区的第j个评价指标值。

由于投影指标值在量纲和数量级上存在较大差异,因此为消除各评价指标的量纲和统一各评价指标的变化范围, 需对评价指标进行一致无量纲化处理。

对于越小越优的目标可以采用式(1)进行处理:

x(i,j)=xmax(j)-x*(i,j)xmax(j)-xmin(j)(1)

对于越大越优的目标可以采用式(2)进行处理:

x(i,j)=x*(i,j)-xmin(j)xmax(j)-xmin(j)(2)

式中:xmin(j)、xmax(j)分别为综合评价中第i个评价子区的第j个评价指标的最小值和最大值,x(i,j)归一处理后的评价指标值。

(2)构造投影指标函数。PP模型就是把p维数据{x(i,j)|j=1,2,…,p}综合成以a={a(1),a(2),…,a(p)}为投影方向的一维投影值,a为单位向量。则x(i,j)的一维投影值z(i)按如下公式计算:

z(i)=j=1pa(j)x(i,j)(i=1,2,,n)(3)

然后根据{z(i)|i=1,2,…,n}值的大小进行农田水利发展的综合评价。在综合投影值时,要求z(i)的散布特征为:局部投影点尽可能密集,最好凝聚成若干个点团;而在整体上投影点团之间尽可能散开,尽可能多地提供x(i,j)中的变异信息。设S(a)为投影值的标准差,D(a)为投影值的局部密度,投影目标函数可构造为:

Q(a)=S(a)D(a)(4)S(a)=i=1n[z(i)-E(z)]2n-1(5)D(z)=i=1nj=1n(R-rij)u(t)(6)

式中:E(z)为投影值{z(i)|i=1,2,…,n}的均值;R为局部密度的窗口半径,它的选取既要使包含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着n值的增大而增加太高,一般可取为0.1S(a);rij=|z(i)-z(j)|为投影值间距离;u(t)为单位阶跃函数,当t=R-rij≥0时,其值为1,当t<0时,其值为0。

(3)优化投影指标函数。投影目标函数Q(a)随着投影方向a变化而变化,因此,投影目标函数的优化问题最终就转化成为寻找最优投影方向。可以通过求解Q(a)最大化问题来估计最佳投影方向a*。

最大化目标函数为:

maxQ(a)=S(a)D(a)(7)

约束条件为:

s.t.:j=1pa2(j)=1(8)

(4)根据投影值进行综合评价。将所求得的最佳投影方向a*代入式(3),就可得各子区农田水利发展指标的综合评价投影值z(i)。按照z(i)的大小进行评价,值越大,表明该地区农田水利发展的程度越好。

2 应用实例

北方某一大型灌区,设计灌溉面积13.3余万hm2,有干渠2条,支渠20余条,主要种植作物有小麦、玉米、大豆、果树以及一定面积的现代设施农业。为更好地促进灌区内农田水利的均衡发展,找出灌区建设的薄弱环节,使投资更具有倾向性,现对灌区内各个子区农田水利发展水平进行统一综合评价,以确定各子区发展水平的高低。考虑不同子区经济发展水平、自然地理及水土资源等条件差异性,以每个支渠控制区域为一个子区,选择具有代表性的10个典型子区2011年农田水利发展关键指标进行分析,并根据投影值的大小确定各个子区农田水利发展水平的高低。

2.1 评价指标的确定

农田水利发展综合评价的关键是评价指标的确定,合理的评价指标选取是综合评价的基础。在数据便于取得、准确度有保证以及指标具有代表性的前提下,本文选取6个评价关键指标,分别是耕地面积洪旱成灾率、耕地面积5年一遇以上除涝率、耕地面积有效灌溉率、灌溉水利用系数、灌溉面积节水灌溉率和灌排工程完好率。具体情况见表1。

2.2 投影寻踪模型的求解方法

本文所采用的模型是一个以投影方向a(j)为优化变量的非线性优化问题,用传统的优化方法处理较难,遗传算法(Genetic Algorithm简称GA)可以很好地解决这个问题。遗传算法由美国密执安大学Holland教授提出的,是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法,主要包括选择、交叉和变异等操作。但由于其采用二进制编码方式存在较多弊端,故需对其进行改进。本文参照文献[8],应用基于实数编码的加速遗传算法(Real coding based Accelerating Genetic Algorithm 简称RAGA)来解决其高维全局寻优问题,非常简便和有效。通过求得的投影指标函数的最大值可以得出最佳投影方向 ,从而根据所选的评价指标和表1所列的指标值及式(3)求出投影值,进而进行排序和综合评价。

2.3 评价结果与分析

表1列出了该灌区2011年10个典型子区农田水利发展关键指标值。其中,只有耕地面积洪旱成灾率为越小越优型指标,在对数据进行归一化处理时,可将此项指标按照其相对面进行处理,然后全部6项指标统一按式(2)进行归一化处理,处理结果见表2。通过对这6项指标进行综合分析,可以对这10个子区农田水利发展状况作出综合评价。

采用基于RAGA的投影寻踪模型对上述10个子区6个关键指标进行综合评价,运用Matlab7.0遗传算法优化工具箱[9,10]进行编程处理。选定父代初始种群规模为n=400,交叉概率pc=0.5,变异概率pm=0.6,优秀个体数目选定为20个,α=0.05,加速次数为10,可以得到最优投影方向a*=(0.177 2,0.253 4,0.651 1, 0.588 5,0.152 6,0.332 9)。将a*代入式(3)可以得到各地区综合评价投影值 ,并按z(i)值的大小进行排序。具体见表2。

由表2可以看出:支渠2、支渠1投影值z(i)较大,农田水利发展水平相对较好,支渠5、支渠10投影值最小,农田水利发展水平相对滞后。其原因可能是:第一,支渠2、支渠1所在区域,经济水平较为发达,在农田水利投入上可能较其他区域多,管理水平也相对较高;第二,经济发展水平虽然不高,但在灌溉水利用系数、耕地面积有效灌溉率、灌排工程完好率等较为重要指标上发展较好的区域,农田水利发展综合评价值较高。

最优投影方向a*=(0.177 2,0.253 4,0.651 1, 0.588 5,0.152 6,0.332 9)的各分量分别代表耕地面积洪旱成灾率、耕地面积5年一遇以上除涝率、耕地面积有效灌溉率、灌溉水利用系数、灌溉面积节水灌溉率和灌排工程完好率在综合评价中的贡献大小。可以看出:第一,耕地面积有效灌溉率、灌溉水利用系数与灌排工程完好率的投影向量分量值最大,说明其在农田水利发展综合评价中的贡献最大,在农田水利发展过程中的地位最为重要。第二,将投影值从大到小进行排序,值越大,农田水利发展水平越好,今后灌区管理部门在农田水利建设时在发展水平较低的子区可以适当地加大投资力度和提高管理水平。第三,将同一指标归一处理值进行纵向比较,管理部门在今后农田水利建设中可以重点解决灌区薄弱环节,提高灌区整体生产水平。

3 结 语

(1)投影寻踪模型直接采取各样本的原始数据进行分析,信息量不会丢失。投影寻踪模型将指标体系(高维数据)投影到一维子空间上,借助RAGA 算法建立投影寻踪模型,经多次运算寻找最佳投影方向, 形成评价指标值, 按大小进行排序。避免了专家主观赋权的人为干扰,克服了传统方法的不足。投影寻踪模型对于农田水利发展综合评价具有较好的效果,为该方面研究提供了一条新的方法和思路。

(2)通过投影值的大小,可以看出灌区不同子区农田水利发展水平的差异,为灌区管理者在规划今后农田水利方面就不同子区可以在政策上适当倾斜。通过最优投影方向,可以看出农田水利发展的关键所在,为灌区管理者在农田水利基本建设中抓住重点,提高薄弱环节提供了依据。

(3)基于RAGA的投影寻踪模型在农田水利发展上的综合评价,不仅可以应用于某个灌区,也可以推广至地区及区域,为农田水利发展综合评价开辟了新的准确的方法,为农田水利建设提供了科学的依据。

摘要:农田水利发展综合评价对指导和规划农田水利发展具有重要意义。将投影寻踪模型应用于农田水利发展综合评价,利用基于实数编码的遗传算法求解,得出最佳投影方向和投影值,并对某大型灌区10个典型子区农田水利发展做出综合评价,对推动区域农田水利发展具有一定的指导作用。

关键词:投影寻踪模型,RAGA,农田水利发展,综合评价

参考文献

[1]Friedman,JH,Turkey,JWA.Projection pursuit algorithm for ex-ploratory data analysis[J].IEEE Tansactions on Computer,1974,23(9):881-890.

[2]叶浩,钱家忠,黄夕川,等.投影寻踪模型在地下水水质评价中的应用[J].水文地质工程地质,2005,(5):9-12.(下转第95页)

[3]王斌,张展羽,魏永霞,等.基于投影寻踪的农业基本旱情评估[J].农业工程学报,2009,25(4):157-162.

[4]汪丽娜,陈晓宏,李粤安.投影寻踪和人工鱼群算法的洪水分类[J].人民长江,2008,39(24):34-37.

[5]刘仁涛,付强,盖兆梅,等.三江平原地下水脆弱性评价的投影寻踪模型[J].东北农业大学学报,2008,39(2):184-190.

[6]张欣莉.投影寻踪及其在水文水资源中的应用[D].成都:四川大学,2000.

[7]金菊良.遗传算法在水资源工程中的应用研究[D].成都:四川大学,2000.

[8]付强,金菊良,梁川.基于实码加速遗传算法的投影寻踪分类模型在水稻灌溉制度优化中的应用[J].水利学报,2002,(10):39-45.

[9]陈广洲,解华明,鲁翔友.Matlab遗传算法工具箱在非线性优化中的应用[J].计算机技术与发展,2008,18(3):246-248.

遗传投影寻踪 篇7

准确预测矿井或采掘工作面的瓦斯涌出量,是煤矿安全生产和管理的重要保障[1]。煤矿瓦斯监测数据具有高维、非正态性特点,因此需要对监测数据进行降维处 理,再利用神 经网络[2,3]、多元线性 回归[4,5]等方法进行预测。常用的降维方法有灰色关联分析法、主成分分析法、因子分析法、粗糙集属性约简法和逐步回归分析法等[6],但这些降维方法会不同程度地造成数据信息丢失,导致预测精度降低。 投影寻踪是一种分析和处理非正态、非线性和高维数据的统计方法[7,8],能够将高维数 据向低维 空间 (或方向)进行线性投影,转化为1—3维数据,且原数据信息几乎不丢失。本文利用投影寻踪原理将影响瓦斯涌出量的多维样本数据转化为1维样本投影值,将所得1维样本投影值视为自变量,对应的瓦斯涌出量视为因变量,运用Matlab曲线拟合工具箱构建一元非线性正弦和函数,从而建立瓦斯涌出量预测模型,并对建模样本和测试样本进行拟合预测,取得了较高的预测精度。

1投影寻踪原理及瓦斯涌出量预测模型

投影寻踪的基本思想:找到一个最佳的投影方向,将高维数据向该方向投影,使高维数据变成低维数据,根据低维数据的分布特点来研究和分析高维数据的结构特征。

1.1标准化指标值

设影响瓦斯 涌出量的 各指标的 样本集为 {x*(i,j)|i=1,2,…,n;j=1,2,…,p},x*(i,j)为第i个样本的第j个指标值,n,p分别为样本和指标的个数。为消除各指标值的数量级和量纲不同造成的影响,可采用式(1)进行标准化处理:

式中:x(i,j)为标准化 指标值,x(i,j)∈ [0,1];为第j个指标值的最大值。

1.2计算投影值

投影寻踪就是将p维数据{x(i,j)|i=1,2,…,n;j=1,2,…,p}综合成以a= (a(1),a(2),…, a(p))为投影方向的1维投影值:

式中:a(j)为单位长度向量。

综合投影值时,要求投影值z(i)应尽可能多地提取序列{x(i,j)}中的变异信息,即z(i)的标准差Sz应尽可能大;同时要求z(i)与第i个样本对应瓦斯涌出量y(i)的相关系 数的绝对 值Ryz尽可能大。据此构建投影指标函数:

1.3优化投影指标函数

当给定瓦斯涌出量{y(i)|i=1,2,…,n}及其对应的各指标的样本集{x*(i,j)|i=1,2,…,n;j=1, 2,…,p}时,投影指标函数Q(a)只随投影方向向量a的变化而变化。使投影指标函数达到最大时的投影方向为最佳投影方向,因此有如下约束优化问题:

式(4)是以a(j)为优化变量的非线性约束优化问题,本文将采用差分进化算法[9]求解该优化问题。

1.4建立基于投影寻踪的瓦斯涌出量预测模型

按式(4)求出最佳投影方向a*并结合式(2)可计算出第i个样本数据投影值z*(i),根据z*(i)与y(i)之间的散点图选择拟合函数建立瓦斯涌出量预测数学模型。本文利用Matlab2012b曲线拟合工具箱[10]的GUI可方便快速地建立正弦和函数作为瓦斯涌出量预测模型。

2应用实例

2.1数据来源

参考文献[2]给出了影响瓦斯涌出量的14个指标及相应的18个样本数据,选用其中序号1—15的样本数据为建模样本数据,序号16—18的样本数据为测试样本数据。

2.2最佳投影方向和指标投影值

差分进化算法的参数设置:变异因子为0.8,交叉因子为0.6,种群规模为80,优化参数个数为14, 参数的取值范围为[0,1],最大迭代次数为500。

利用建模样本数据、式(1)-式(4)及差分进化算法可快速求出14个指标的最佳投影方向a*= (0.327 4,0.298 9,0.498 2,0.191 0,0.499 3, 0.144 8,0.076 9,0.104 7,0.250 4,0.178 0, 0.116 7,0.109 2,0.149 3,0.298 9)。

将a*代入式(2)分别计算出建模样本的投影值z1*=(1.846 2,1.784 9,1.896 8,1.971 9,2.068 1, 2.163 6,2.156 9,2.099 4,2.199 2,2.274 1, 2.825 5,2.898 5,2.859 2,3.053 1,2.942 7)和测试样本的投影值z2*=(1.960 9,2.147 7,3.039 6)。

根据参考文献[2]中数据,可知建模样本对应的瓦斯涌出量测量 值y1= (3.34,2.97,3.56,3.62, 4.17,4.60,4.92,4.78,5.23,5.56,7.24,7.80, 7.68,8.51,7.95),测试样本对应的瓦斯涌出量测量值y2=(4.06,4.92,8.04)。

2.3预测模型建立和检验

用x表示投影值z1*中的元素,表示x对应的瓦斯涌出量计算值,根据z1*1与y1之间的散点图选择正弦和函数为预测模型。利用Matlab曲线拟合工具箱的GUI估计模型的待定参数d1,d2, d3;b1,b2,b3;c1,c2,c3。求解模型参数的目标函数为

式中:y1(i),分别为第i个样本瓦斯涌出量的测量值和计算值。

使目标函数g达到最小值时的参数即为所求模型参数,得到正弦和函数预测模型为

正弦和函数的拟合曲线如图1所示,可看出正弦和函数对建模样本数据的拟合效果非常好。

利用建模样本的瓦斯涌出量和对应的拟合值检验预测模型的显著性:误差平方和为0.452 9;判定系数为0.992 3;调整后的判定系数为0.985 5,可看出预测模型具有很好的拟合优度,且整体的显著性较好 。另外 ,残差检验表明 ,残差服从均值为0、固定方差为σ2的正态分布,说明模型拟合正确,可以用该模型进行瓦斯涌出量的预测。

2.4比较分析

利用2.3节建立的正弦和函数预测模型分别对参考文献[2]中序号16—18的测试样本的瓦斯涌出量进行预测(只需将测试样本的投影值z2*代入模型即可),同时给出BP神经网络分源预测模型[2]、 自变量降维的神经网络预测模型[3]和模糊多元线性回归预测模型[4]的预测结果,见表1。

从表1可看出,本文所建的正弦和函数预测模型取得了理想的预测效果,优于参考文献[2,4]中的预测模型。参考文献[3]中的预测模型预测效果优于本文模型,但其模型结构复杂,运算量较大,可操作性较差。而本文所建模型结构简单,是一种一元非线性初等模型,其精度能够满足实际需要,且模型易于程序实现,具有较强的可操作性和稳定性。

3结语

利用投影寻踪原理和Matlab曲线拟合工具箱建立了一种正弦和函数瓦斯涌出量预测模型,该模型将高维原始数据转化为1维数据,几乎不损失原数据信息,且模型结构简单,只需通过增减模型表达式正弦函数的个数便可提高模型预测的精度,具有较强的可操作性。通过对测试样本进行检验,表明该模型具有较高的预测精度。

摘要:针对瓦斯涌出量预测时常用的瓦斯监测数据降维方法会不同程度地造成数据信息丢失、导致预测精度降低的问题,利用投影寻踪原理并结合差分进化算法将高维样本数据转化成1维投影数据,运用Matlab曲线拟合工具箱建立了一种正弦和函数瓦斯涌出量预测模型。实验结果表明,该模型具有较高的预测精度和可操作性。

遗传投影寻踪 篇8

Friedman等[1]于1974 年建立的投影寻踪分类 ( Projection Pursuit Clustering, 简称PPC) 模型是一种适用于非线性、非正态高维数据处理的新兴统计建模方法, 首先将高维数据投影到1 ~ 3 维子空间上, 再分析其数据结构以达到研究高维数据的目的, 由成平等[2]和李国英[3]最早引入到国内。虽然此后Huber[4]等学者又提出了多个PPC模型, 但国内绝大部分学者均采用一维PPC模型, 发表了很多有关PPC建模方面的论文, 取得了一定的成就[5 - 14], 但几乎没有学者对投影指标函数和约束条件等的特性进行过深入研究, 都认为PPC建模是一个高维复杂非线性最优化问题, 传统最优化方法难以求解, 而先后将遗传算法 ( GA) [5 - 6]、多智能体遗传算法 ( MGA) [7]、单纯形法 ( SA) [8]、基于实数编码的加速遗传算法 ( RAGA) [9 - 12]和改进双链量子遗传算法 ( ADCOGA) [13]等10 余种最优化算法应用于PPC建模, 并且都认为取得了更好的效果。另一方面, 由于至今还没有研究提出判断最优化过程是否真正求得了全局最优解的准则或者判据, 因此目前发表的不少论文存在明显的错误。PPC建模文献存在着诸多乱象, 主要表现为:

一是三种约束条件, 即并且[5,6,7,12] (条件1) 、并且[8,9,10,11,13,14] (条件2) 和并且[15] (条件3) 混用, 不少文献的实际建模结果甚至不满足条件 (如文献[12]的8个指标的权重分别0.3705、0.3474、0.4537、0.4168、0.4232、0.3917、0.3046和0.4658, 其权重平方和不等于1, 为1.280;文献[13]的6个指标的权重分别为0.6540、0.1475、0.4983、0.5617、0.2477和0.1538, 其权重平方和等于1.098, 不等于1) 。

二是在采用约束条件2 的不少文献中, 部分指标的投影向量系数 ( 以下也称为权重) 等于 “0”或非常接近于 “0” ( 以下统称为等于 “0”) ( 如文献[8] 的15 个指标中有8 个指标的权重为0; 文献[9] 的18 个指标中有15 个指标的权重小于0. 1, 远小于其他三个指标的权重; 文献[10] 的23 个指标中有16 个指标的权重等于0, 等等) 。

三是在采用约束条件1 的文献中, 部分正向指标的权重小于 “0”[5 - 6] ( 如文献[5] 的正向指标2、3、9、11、17、18、19 的权重小于0; 文献[6]的所有正向指标的权重都小于0) , 即建模结果与事先假设或已有的专业知识或理论相矛盾。

四是样本值始终保持不变的指标的权重不等于“0”[10] ( 如文献[10] 的指标6 的值始终保持不变, 但其权重却为0. 1504) 。

五是 ( 归一化后) 数值完全相同的两个指标的权重却不相等[5,10] ( 如文献[5] 的指标8 和17 的归一化值相同, 但权重分别为0. 2380 和- 0. 1316) 。

现有文献对出现上述现象都没有展开讨论和分析, 但是, 这些错误现象已极大地限制了PPC模型在综合评价、预测等管理学、工程学和社会科学等领域的正确应用。是什么原因导致出现上述现象?如何解释上述现象? 我们必须对此进行深入研究。为此, 本文从PPC投影指标函数、约束条件和样本投影值等的特性出发, 分析和研究上述现象, 从而提出了PPC建模的基本原则和步骤, 以便使PPC建模获得更可靠的结果和更广泛的应用。

2 投影寻踪分类建模原理

2. 1 投影指标函数及其最优化求解

最常用的一维PPC分类建模的投影指标函数等于样本投影值z ( Xi) 的标准差Sz和局部密度Dz的乘积[1,7], 即Q ( a) = Sz* Dz, 通过求解投影指标函数的最大值就可以求得PPC模型的最佳权重aj, 即:

其中Sz和Dz的计算公式为:

ar ( a1, a2, …, ap) 为p维单位投影向量 ( aj为系数或权重) , 第i个样本的投影值, xi,j为第i个样本、第j个指标的归一化数据 ( i = 1, 2, …, n; j = 1, 2, …, p) ; E ( z) 为所有样本投影值z ( Xi) 的平均值; R为密度窗宽; u ( R - ri,k为单位阶跃函数, 当时为1, 否则为0; ri,k= | z ( Xi) - z ( Xk) | 为样本i与样本k之间的距离。

为了消除各指标量纲不一致对建模结果的不利影响, 须对样本原始数据进行归一化预处理, 一般采用极大极小归一化方式, 即对越大越好 (即正向指标) 和越小越好指标 (即逆向指标) 分别采用 (方式一) 和 (方式二) 进行归一化, 其中maxxj和minxj分别为第j个指标原始数据x*i, j的最大值和最小值。

2. 2 密度窗宽R值的选取

由 ( 1) 式和 ( 2) 式知, 给定样本指标值后, 密度窗宽R值是决定权重大小的唯一参数, 一般要求选取合理的R值, 既使包含在视窗内的样本个数不能太少, 又不能随着样本的增多而增加太多[1]。目前有三种推荐方法选取R值: ( 1) 文献[5] 和[11] 等推荐取, 一般取R = p, 即视窗内包含了所有样本点; ( 2 ) 文献[1]、[8]、[10] 和[15] 等推荐取R = 0. 1Sz, 该值很小, 即每个视窗内的样本点很少; ( 3) 文献[7] 推荐取, 即始终有约 (1/3~1/3) 的样本点在视窗内。

2. 3 约束条件分析

Friedman等[1]给出了约束条件, 但没有限定aj的取值范围。李建明等[16]建立和证明了可用于投影寻踪分类建模的p维单位正交基ra为:

其中:。由 (3) 式知, ra满足并且, 即约束条件1是正确的。

3 PPC建模的投影指标函数和样本投影值的特性

3. 1 PPC建模的投影指标函数、样本投影值和权重的特性

笔者通过大量实证建模研究, 并从理论证明了PPC建模的投影指标函数、样本投影值和权重具有如下特性[7]:

特性一, 如果某一个指标分别采用方式一或二进行归一化, 其权重必定互为相反数 ( 即ak或-ak) , 而且任意两个样本之间的距离、样本标准差、局部密度和投影指标函数值等均保持不变。

特性二, ( 归一化后) 数值完全相同的两个指标的权重必定是相等的。

特性三, 若某指标的值始终保持不变, 则其权重必定等于 “0”。

特性四, 若ar是最优解, 则-ar也必定是最优解。

特性五, 采用约束条件2 时, 逆向指标的权重必定等于 “0”; 正向指标如果采用方式二进行归一化, 则其权重也必定为 “0”。

因此, 采用约束条件2 建模时, 如果某些指标的权重等于 “0”, 必须引起我们的高度重视, 这些指标很可能是逆向指标, 或者是对正向指标进行了错误的归一化所致。从上述特性可知, 前述的现象二至五都是错误的。

3. 2 样本数据预处理方式对投影指标函数和样本值的影响

实践中绝大部分文献采用极大极小归一化数据预处理方法, 但也有 “0”均值标准化[14] ( 即正向指标和逆向指标分别采用和、极值规格化[6] ( 即正向指标和逆向指标分别采用和xi,j= 1 - xi*, j/maxxj) 等处理方法 ( 其中j和 σj分别是指标j的均值和标准差, 其他符号意义同上) 。针对上述数据预处理方法, 特性一至五也始终成立。

4 PPC分类建模的基本原则和步骤

为保证最优化过程求得真正的全局最优解, 根据上述特性一至五, 特提出如下建模原则和步骤:

( 1) 收集样本数据, 初步设定各指标性质和进行正向归一化处理。为便于判断最优化过程是否真正求得了全局最优解, 建模时应增加三个虚拟指标:xp + 1≡1, xp + 2= xp和xp + 3= ( 1 - xk) 。建议取, 采用约束条件1。

( 2) 调整有关最优化参数, 直至满足ap + 1≈0、ap + 2≈ap和ap + 3≈ - ak, 可基本保证选取的最优化参数是合理和有效的; 再删除指标xp + 2和xp + 3重新建模, 并满足ap + 1≈0, 得权重aj、标准差S2、局部密度Dz和投影指标函数值Q ( a) ; 继而分两次分别改变约一半指标的归一化方式重新建模, 如果这些指标权重变为相反数, 而且ri,k、Sz、Dz和Q ( a) 都保持不变, 说明求得了真正的全局最优解, 进而计算各样本投影值z ( Xi) 。

( 3) 如果指标权重大于 “0”, 说明指标的性质与先前设定的一致, 否则, 先前设定的指标性质是错误的。如果出现指标性质不一致的情况, 则须参考指标之间的相关性分析建模结果的有效性。

( 4) 根据指标权重大小对指标重要性进行排序和分类; 根据z ( Xi) 值的大小对样本进行排序和分类研究。

5 实证分析

参照文献[14], 笔者根据2007 年 《中国统计年鉴》整理了28 个指标 ( 其中经济发展指标6 个、社会发展指标14 个、资源环境指标8 个) 和我国30个省市自治区 ( 因为西藏缺少能源利用方面3 个指标和失业率共4 个指标的数据, 故建模时不包括西藏) 的原始数据, 并参照文献[14] 进行归一化和取R = max ( ri,k) + p /2, 采用约束条件1, 建模时增加虚拟指标x29≡1、x30= x28和x31= ( 1 - x27) 。建模结果如表1 所示。情况一是文献[14] 的结果;情况二是增加了3 个虚拟指标的结果; 情况三是删除了虚拟指标x30和x31的结果; 情况四是改变指标x1~ x10归一化方式后的结果; 情况五是改变所有逆向指标x4、x6~ x8、x10、x13、x15、x21~ x23、x25和x28归一化方式后的结果; 情况六是改变所有指标归一化方式后的结果。为便于比较, 我们又计算了采用约束条件2 的结果, 列于表1 的右侧。

注:a、b、c为虚拟指标

表1 实证结果再次证实: ( 1) 采用约束条件1时, 改变指标归一化方式前后其权重必定互为相反数, 而样本标准差Sk、局部密度Dz和投影指标函数值Q ( a) 均保持不变 ( 特性一) 。 ( 2) 归一化后数值完全相同的指标28 和30 的权重相等 ( 特性二) 。 ( 3) 数值始终不变的指标29 的权重必定等于 “0” ( 特性三) 。 ( 4) 如ar是最优解, 则-ar也必定是最优解值 ( 对照情况三和六的结果, 特性四) 。 ( 5) 采用约束条件2 时, 逆向指标的权重必定等于 “0” ( 对照约束条件1 和2 下情况三至六的结果, 特性五) , 即采用约束条件2 时权重等于 “0”的指标不一定是 “无效用”的, 很可能是逆向指标。 ( 6) 文献[14] 的结果存在诸多错误。首先是设定 ( j = 1, 2, …, 28) , 实际上, PPC分类模型各指标权重的正确取值范围应该是 ( j = 1, 2, …, 28) , 实际建模结果也发现有12 个指标的权重小于0; 即使采用约束条件2, 即并且, 文献[14] 目标函数的最大值也仅为47689. 80, 远远小于本文的66 522. 00。说明由于缺乏判断最优化过程是否求得了真正全局最优解的准则, 文献[14] 远没有求得真正的全局最优解。在其他很多文献中也经常出现这种情况。文献[14] 排名前六位的最重要指标分别是x28、x21、x22、x15、x25和x26, 本文结果其分别排名27、13、14、26、28 和18 位, 差异很大; 而本文结果排名前六位的指标分别是x11、x18、x16、x9、x3和x19, 其在文献[14]中分别排名18、9、7、23、12 和19。在文献[14]中, 资源环境指标 ( 平均权重为0. 2688) 比人口社会指标 ( 平均权重为0. 1378) 重要, 远比经济发展指标 ( 平均权重仅为0. 0606) 重要 ( 平均权重大5倍左右) , 而本文的结果是人口社会指标最重要 ( 平均权重为0. 1954) , 比经济发展指标 ( 平均权重为0. 1766) 稍重要或者基本相当, 而资源环境指标 ( 平均权重仅为0. 1253) 最不重要。由此可知, 建模结果正确与否对影响因素的分析及其应制定相关的政策、采取的措施等都有很大的影响。

6 讨论与分析

6. 1 理论上是 “正向指标”, 其权重却出现了小于“0”的情况, 反之亦然

文献[5] 有20 个正向化指标, 其中7 个指标 ( 指标3、9、11、15、17、18 和19) 的权重为小于“0”; 文献[6] 的所有正向指标的权重都小于“0”。理论上是 “正向指标”, 而建模结果却出现权重小于 “0”的论文还有不少, 在此不再一一列举, 但这些论文的结果显然都是错误的。分析这些论文的建模过程发现, 出现正向指标权重小于 “0” 的主要原因大致有:

( 1) 因为实践中缺少判断准则, 最优化过程没有求得真正的全局最优解。例如, 文献[5] 的建模结果为a1 - 23= ( 0. 2350, 0. 2381, - 0. 2381, - 0. 2150, 0. 1651, 0. 2381, - 0. 2148, 0. 2380, - 0. 2240, 0. 2344, - 0. 0046, 0. 2381, 0. 1699, 0. 2381, - 0. 2381, 0. 0638, - 0. 1316, - 0. 0188, - 0. 2381, 0. 2381, 0. 2381, 0. 2233, 0. 2297 ) , Sz= 0. 7640, Dz= 555. 68, Q ( a ) =424. 54, 但笔者采用相同的数据和参数的建模结果却为a1 - 23= ( 0. 1644, 0. 2196, 0. 2460, - 0. 2725, 0. 2231, 0. 1717, - 0. 2021, 0. 2377, 0. 2458, 0. 2550, 0. 2381, 0. 1785, 0. 1785, 0. 1981, - 0. 2575, 0. 0965, 0. 2377, 0. 1188, 0. 1554, 0. 2078, 0. 1903, 0. 1981, 0. 1980) , Sz= 1. 3303, Dz= 541. 35, Q ( a ) = 720. 15。文献[5] 的目标函数值Q ( a) 远小于笔者的最优化计算结果, 说明文献[5] 没有求得真正的全局最优解; 其次, 笔者的计算结果中, 只有逆向指标4、7 和15 的权重小于 “0”, 而文献[5] 却有7 个正向指标的权重出现了小于 “0” 的情况; 第三, 指标8 和17 的归一化数值完全相同, 笔者的计算结果是他们的权重也相等, 都等于0. 2377, 而文献[5] 中其权重不仅不相等, 而且指标17 的权重还出现了小于 “0”的情况 ( - 0. 1316) 。从上述三个方面都可以看出, 文献[5] 的建模结果的错误显然是由于最优化过程没有求得真正全局最优解造成的。

( 2) 理论上是正向指标, 但实际的样本数据却呈现出逆向指标的规律。例如: 在文献[14] 中, 理论上所有指标都是正向的, 但收集到的实际数据却表明有些指标之间存在负相关关系, 此处仅列出了指标11 ( 因其权重最大) 与其他所有指标之间的相关系数, 即: 0. 0517、- 0. 0197、0. 8571、- 0. 5345、0. 8090、 - 0. 2015、 - 0. 3763、 - 0. 3342、0. 8582、- 0. 4225、0. 9215、 - 0. 3172、0. 7349、 - 0. 2131、0. 9278、0. 8526、0. 9489、0. 8762、0. 3610、- 0. 2790、- 0. 3626、 - 0. 2043、0. 3486、 - 0. 2139、0. 2156、0. 3244 和- 0. 2321。这些相关系数值表明, 指标11与指标2、4、6、7、8、10、13、15、21、22、23、25 和28 之间存在着负相关关系; 建模结果也表明, 这些指标中, 除指标2 ( 因为相关系数很小) 的权重大于0 ( 数值也很小) 以外, 其他指标的权重都小于0, 建模结果当然是可靠的。因此, 理论上是正向指标, 但如果实际样本数据是逆向的, 他们的权重也肯定小于 “0”, 这是由于数据本身的负相关特性造成的。

6. 2 正向指标和逆向指标的判定

根据特性一, 可以很方便地判定指标的性质。如果对指标进行越大 ( 小) 越好的归一化处理, PPC建模的权重又大于 “0 ”, 则该指标为正 ( 逆) 向指标; 若权重小于 “0”, 则该指标实际上是逆 ( 正) 向的。因此, 在研究实际问题时, 不仅要求得指标的权重, 更要根据权重是否大于 “0” 来判定指标的性质; 对于出现指标性质与事先假设不一致的情况, 必须认真加以研究分析, 找出问题所在, 而不能置之不理。如对于文献[5] 和[14] 中数据的建模结果就是最好的例证: 根据文献[5] 的评价指标分级标准, 显然只有指标4、7 和15 是逆向指标, 如果其他指标的权重出现了小于0 的情况, 结果肯定是错误的, 必须找出造成这些错误的原因, 并加以改正; 文献[14] 中的人口自然增长率 ( 指标8) 当然越小越好, 其权重小于0 是正确的, 反之肯定是错误的, 而人均地区生产总值 ( 指标3) 当然是越高越好, 其权重应该大于0, 否则结果肯定是错误的, 等等。

6. 3 选用约束条件

正确的约束条件为并且, 任何情况下都应该优先采用。

6. 4 最优化过程求得真正全局最优解的重要性及其改善区域协调发展水平的建议

投影寻踪建模的最终目的就是既要求得各个评价指标的最佳权重以及各个样本的得分, 又要对各个指标和样本进行排序和分类研究, 据此提出改进措施和建议, 因此, 如果最优化过程没有求得真正全局最优解, 这样就可能出现完全错误的结果, 甚至出现正好相反的情况, 则据此采取的措施不但完全无益, 而且可能适得其反。

对于文献[14] 研究的区域协调发展问题, 文献[14] 的错误 ( 建模结果是错误的) 结论是: 8个资源环境类指标的权重占总权重的64. 9% , 应该采取措施优先发展资源环境类指标, 这样最有利于改善区域协调发展水平, 可以起到事半功倍的效果。而6 个经济发展指标的权重仅仅占总权重的4. 5% , 如果优先改善经济发展指标, 则将事倍功半; 同时, 社会发展指标的权重占总权重的30. 6% , 约不到1 /3。可能文献[14] 的作者也已经意识到了其研究结果的错误, 所以没有从其研究结果出发提出相应的建议, 而是反其道 ( 其结果) 而行之, 从已有的认识 ( 常识) 出发, 提出应优先发展经济、调整经济结构和提高人口素质等建议, 这正好是我们研究的正确结论的部分内容。本文建立的正确的PPC建模结论是: 应该采取措施, 优先改善社会发展指标和经济发展指标 ( 因为这些指标的平均权重基本相当) , 这样可以起到事半功倍的效果, 最有利于改善区域协调发展水平。从子系统的权重来看, 社会发展指标的权重占总权重的61. 7% , 经济发展指标权重占总权重的22. 3% , 而资源环境指标的权重仅占总权重的16. 0% , 如果优先发展资源环境指标将导致事倍功半的结果。从单个指标的重要性来讲, 可以根据求得的各个指标权重的绝对值大小对指标的重要性进行排序和分类。文献[14] 的结论是森林覆盖率最重要, 约占总权重的20. 6% , 即一个指标就占了28 个指标的1 /5 多, 是第二重要指标权重的2 倍多; 同时, 28 个指标中有10 个指标的权重占总权重的1% 以下, 实在是难以想象的。而笔者的建模结论是, 前5 个指标 ( 大专及其以上学历占人口比重、每千人拥有卫生人员数、人均教育经费、城镇人口比例和人均地区GDP) 的重要性基本相当, 分别占总权重的8. 2% 、8. 0% 、7. 6% 、7. 1% 和7. 1% , 并且只有5 个指标的权重占总权重的1% 以下。文献[14] 认为最重要的6 个指标即28、21、22、15、25 和26 在正确模型中分别仅排名第27、13、14、26、28 和18 位, 两者之间的差异非常大;与此对应, 正确模型中重要性排名前六位的是指标11、18、16、9、3 和19, 而其在文献[14] 中分别排名第18、9、7、23、12 和19 位。

由表1 可知, 权重占比大于1% 的8 个逆向指标是城乡消费水平对比 ( x4) 、最终消费率 ( x6) 、人口自然增长率 ( x8) 、失业率 ( x10) 、专业技术人员占城镇就业人口的比重 ( x13) 、单位地区GDP能耗指标值 ( x21) 、单位工业增加值能耗指标值 ( x22) 和单位地区GDP电耗指标值 ( x23) 。显然, x8、x10、x21、x22和x23与区域协调发展水平之间呈负相关关系 ( 即是逆向指标) 是毫无疑问的, 而其他的几个逆向指标似乎与我们已有的认识不太一致。事实上, 城乡消费水平对比 ( x4) 越大, 表明该区域的城乡差异就越大, 当然导致区域的发展越不协调; 同理, 最终消费率越低 ( x6) , 则投资率就越高, 这样不仅可以直接带动生产的增长, 还会带动居民消费的增长, 从而达到更好的区域协调发展, 所以, x6是逆向指标也是正确的。表面上看, 专业技术人员占城镇就业人口的比重 ( x13) 越高, 表明该区域的劳动力素质越高, 但事实上却进一步扩大城乡差别, 使城镇发展得更好、更快, 而农村发展得更慢、更差, 因此, x13实质上是逆向指标是正确的。事实上, 文献[14] 并没有明确说明哪些是正向指标或者是逆向指标。

此外, 可以根据求得的各个区域的投影值大小对区域的协调发展水平进行排序和分类研究。

因此, 在PPC建模中, 仅靠最优化算法本身并不能判定最优化过程是否已经求得了真正的全局最优解, 必须依据投影指标函数和样本投影值等的特性才能判定和确保求得真正的全局最优解。

7结语

PPC建模的核心和关键是求得投影指标函数真正的全局最优解, 但目前因缺少判断准则, 不少文献没有求得真正的全局最优解, 出现了正向指标的权重小于 “0”、逆向指标的权重大于 “0”、 ( 归一化后) 数值相同的指标的权重不等、各样本数据保持不变的指标权重不等于 “0”等等错误现象。

【遗传投影寻踪】推荐阅读:

投影寻踪分类模型07-20

无线投影05-29

投影媒体06-22

坐标投影07-30

投影计算08-22

投影技术08-30

投影教学09-01

投影电视09-19

投影环境10-01

投影中心10-01

上一篇:建筑灌注桩施工技术下一篇:资产管理机制