组合模型集

2024-07-24

组合模型集(共7篇)

组合模型集 篇1

1 引言及文献综述

随着国家对知识和人才的不断重视,科技奖励评价结果的科学性、公平性、客观性越来越受到人们的关注。科技成果作为衡量科技进步的重要标志之一,既是科技工作者劳动和智慧的结晶,也是国家创新进程和社会发展的重要体现。如何合理、科学、有效地评价科技成果,为指导科技奖励评价提供理论和方法依据,显得尤为重要。因此,构建全面合理的科技奖励评价指标体系并将科学评价理论、方法和技术运用到科技奖励评审工作中成为未来科技奖励研究的重点内容。

美国社会学家、结构功能主义的代表人物之一默顿首次提出科技奖励这一概念。之后,科技奖励在各国家得到了不同程度的完善和发展。我国有不少专家和学者在这方面做了诸多有价值的研究。在科技奖励评价指标体系的相关问题研究上,主要集中在科技奖励指标体系的构建、设计原则、结构划分及与国外科技奖励体系的异同,如钟书华等、尚宇红等、郭远峰等、徐安等[1,2,3,4]。在科技奖励评价的方法上,传统的科技奖励评价方法有德尔菲法、同行评议法、层次分析法、模糊综合评价法。由于传统的评价方法主观性强,容易受到专家个人的情感、知识等因素的影响,不能很好的保证评价结果的科学性和公平性。为此,一些学者提出了一些新的评价模型,如胡宗义等、王瑛等、张立军等[5,6,7,8,9]。这些模型能够较好的提高评价的准确性和精确度。但由于不同模型的评价机理不同,对原始信息提取的角度不同,所以评价结果并不完全相同。采用单一模型对科技奖励进行评价显然具有一定的片面性。为了解决单一模型评价的片面性,马溪骏等提出了基于兼容一致性方法集成组合评价模型[10]。陈国宏等分别运用大量的随机模拟数据和实例数据对不同评价方法的组合和再组合进行计算机模拟,经过若干次组合后,得到了一致性的评价结果[11]。毛定祥提出了一种最小二乘意义下主客观评价一致性的组合评价方法[12]。唐俊等从概率的角度对3种组合评价方法的有效性进行了比较分析[13]。

综上所述,组合评价模型的基本思想是博采众多模型的优点,将多个不同模型的信息进行组合以便有效地改善模型的评价能力,提高模型的精度。组合评价模型的关键在权重系数的确定上,这也是组合模型的难点所在。而现有文献在确定每种模型的权重系数时主观性强,很难准确反映每种模型在组合模型中的权重,这会严重降低评价结果的可信度。针对这种问题,本文提出综合运用多种模型对科技奖励进行评价的组合模型,利用粗糙集理论确定每种模型的权重系数,以减少主观赋权的随意性,这样能够充分提取原始评价信息,最大限度的减少由单一科技奖励评价模型产生的片面性,提高评价结果的客观性、可靠性。

2 基于粗糙集的组合评价模型

2.1 粗糙集理论的预备知识[14]

粗糙集理论是由波兰学者Pawlak Z在1982年提出的。粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识简约,导出问题的决策或分类规则。目前,粗糙集理论已被成功地运用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。

(1)知识、知识库

假设U≠∅是我们研究对象组成的有限集合,称为论域。任何子集XU,称为U中的一个概念。U中的任何概念族称为关于U的抽象知识,简称知识。我们将在U上能形成划分的那些知识作为研究对象。一个划分U上的一族划分称为关于U上的一个知识库(knowledge base)。RU上的一个等价关系,U/R表示R的所有等价类(或者U上的分类)构成的集合,[x]R表示包含元素xUR等价类。一个知识库就是一个关系系统K=(U,R),其中RU上的一族等价关系。

(2)上近似、下近似

QR,且P≠∅,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分(indiscernibility)关系,记为ind(P),且有,给定知识库K=(U,R),对于每个子集XU和一个等价关系Rind(K),定义两个子集:

分别称他们为XR下近似集合R上近似集.

集合称为XR边界域;称为XR正域;称X为的R负域。显然:是由那些根据知识R判断肯定属于XU中元素组成的集合;是那些根据知识R判断可能属于XU中元素组成的集合;bnR(X)是那些根据知识R既不能肯定判断肯定属于X又不能判断肯定属于~X(即U-X)的U中元素组成的集合;negR(X)是那些根据知识R判断肯定不属于XU中元素组成的集合。

(3)精度

集合的不精确性是由于边界域的存在而引起的。集合的边界域越大,其精确性则越低,为了更准确地表达这一点,引入精度的概念。由等价关系R定义的集合X的近似精度为

其中X≠∅,|X|表示集合X的基数。

精度αR(X)用来反映对于了解集合X的知识的完全程度。显然,对于每一个RXU有0≤αR(X)≤1。当αR(X)=1时,XR边界域为空集,集合XR可定义的;当αR(X)<1时,集合X有非空边R界域,集合XR不可定义的。

(4)知识的依赖性

K=(U,R)为一知识库,且P,QR

k=rp(Q)=|posp(Q)|/|U| (2)

称知识Qk(0≤k≤1)度依赖于知识P的,记作PkQ。当k=1时,称Q完全依赖于P;当0<k<1时,称Q粗糙依赖于P;当k=0时,称Q完全独立于P

(5)属性的重要性

s=(U,A,V,f)为一知识表达系统,A=CD,CD=∅,C称为条件属性集,D称为决策属性集。具有条件属性和决策属性的知识表达系统称为决策表。

在决策表中,不同的属性可能具有不同的重要性。为了找出某些属性的重要性,可从表中去掉一些属性,再来考察没有该属性后分类会怎样变化。若去掉该属性相应分类变化较大,则说明该属性的强度大,即重要性高;反正,说明该属性的强度小,即重要性低。

CD分别为条件属性和决策属性,属性子集C' ⊆C关于D的重要性定义为:

σCD(C' )=γC(D)-γC-C'(D) (3)

2.2 组合评价模型的构建

利用粗糙集理论和信息熵,初步筛选出符合条件的评价模型,分别运用各种模型对科技奖励进行评价,并对模型结果进行一致性检验,进一步筛选出符合条件的模型,形成模型集,计算每种模型的重要程度,运用归一化法得到每种模型的权重系数,最后得到组合评价的最终结果。

(1)评价模型的筛选

假设有n个项目的评价数据,由于粗糙集只能对离散型的数据进行处理,因此有必要对数据进行离散化。单一模型之间是存在漂移度的,因此每种模型重要性不同。在对同一个项目进行评价时,适用的模型在组合过程中的权重是不一样的,而有些模型是多余的,因此有必要进行模型的筛选。

第一次筛选:首先计算模型子集MA的信息熵[15]

其中等价关系ind(M),MA构成U的一个划分,U/ind(M)={X1,X2……Xn};表示集合Xi的基数,i=1,2,……n

对于知识表达系统S=(U,A,V,f),单一的模型在可行模型集合A的重要性定义为:

S(b)=abs(M(A)-M(A-{a})) (5)

abs(y)表示y的绝对值,当S(b)大于0时称该模型是必要的,保留该模型;等于0时该模型是冗余的,删除该模型。将保留下来的模型记为D={d1,d2,……ds};

第二次筛选:利用新的信息表再次计算模型集D中各模型的重要程度S(dj),同时计算模型集合D各模型的相关性,若两种模型的相关程度大于某一个给定的阈值,依据重要性程度把相对重要性小的单一模型删除。

经过两次筛选,最终得到了较科学的模型集E={e1,e2,……ep}。

(2)模型结果的一致性检验

分别运用可行模型集对科技奖励进行评价,得到各种模型下各项目的排序结果;然后采用Kendall's W 协和系数对评价结果的排序进行一致性检验。

Kendall's W协和系数的计算公式如下[16]。

式中S为项目jK种评价模型下的秩和Rj与其平均值之差的平方和。即

;

Rij为项目ji模型中的秩,K为所用评价模型的种数,N为待评价项目的个数。

W的检验:

H0:K种评价模型所得的秩评不具有一致性。

H1:K种评价模型所得的秩评具有一致性。

N>7,检验统计量X2=k(N-1)W近似服从自由度为N-1的χ2分布。当(α为置信水平)时拒绝原假设,认为K中评价模型所得的秩评之间具有一致性。否则需要针对不一致性采取相应的处理措施。

(3)确定各模型的权重系数

应用信息熵计算可行模型集E中各单一模型的重要程度S(ei),对所得的数值进行归一化处理即可得到单一模型的权重系数。归一化的处理公式为

所形成的权重向量为

W=(w1,w2,w3…wm)1×mT

(4)项目得分的标准化处理

将每一种评价模型所得的项目评分值进行标准化处理。为了使标准化以后的数据范围落在[0,1]上,采用极值法对数据进行标准化,计算公式如下:

标准化后,所形成的标准得分矩阵为

其中:yij代表第i个项目第j模型的标准分,xij代表第i个项目第j种评价模型的得分值,max{xij}、min{xij}分别为第j种模型项目得分的最大值与最小值。

(5)计算每个项目的组合评价值

Y'=(y'i)n×1=Y×W (7)

其中y'i为第i个项目的最终评价值。

2.3 基于粗糙集的科技奖励组合评价模型的流程图

3 实证分析及结果

3.1 原始数据来源

本文结合国家科技五大奖之一的国家科学技术进步奖(社会公益项目),选用25位专家对24个项目的5个指标(技术创新程度、技术经济指标的先进程度、技术创新对提高市场竞争力的作用、已获经济效益、推动科技进步的作用)打分的数据进行实证研究(资料来源:科技部国家科技奖励办公室,原始数据略)。

3.2 多种模型的应用与筛选

运用Matlab7.0软件进行编程,分别采用未确知测度评分模型、模糊灰色关联分析模型、E-BP神经网络模型、基于路径系数权重模型、模糊多属性投影模型(以下分别简称:模型1、模型2、模型3、模型4、模型5)对24个项目评价。整理结果如表1所示(括号内数字为项目得分,括号外数字为项目排名,Ii表示第i个项目):

然后应用公式(4)、(5),通过二次筛选后,删除模型3,保留模型1、模型2、模型4、模型5。

3.3 模型的一致性检验

由表1可以看出,不同模型对项目的评价结果不尽相同。运用SPSS18.0中的非参检验对评价结果进行一致性检验。检验结果如表2:

如表2所示:Kendall's W协和系数检验W=0.943,P值为.000远远小于0.05,说明4种模型对项目的评价具有一致性,可进一步做系统综合评价。

3.4 模型权重系数的确定

利用公式(6),可以计算得到四种单一模型组合方法的权重系数分别为

3.5 项目得分标准化处理

将项目得分值标准化处理后,所形成的标准得分矩阵为:

3.6 计算最终评价结果

由公式(7),可计算每个项目的组合得分及排名,结果见表3:

4 结论

针对科技奖励评价中单一评价模型的不全面性问题,提出了基于粗糙集理论的组合评价模型,并结合国家科技五大奖之一的国家科技进步奖(社会公益项目)进行了实证研究。结果表明该模型能够弥补单一评价模型的不足,使评价结果更加准确。模型优点主要体现在:该组合模型在选取模型集时,综合运用了粗糙集、信息熵及非参数统计的相关理论,使组合模型集更加科学,利用了各种模型的评价信息对科技奖励进行评价,结果更符合客观事实;运用粗糙集的信息熵理论确定模型的权重系数,该方法可行性强,能够保证在对各模型评价信息不损失的情况下从各模型中所含信息量的大小来确定权重系数,避免了主观因素对权重分配的影响,具有相对客观性,为下一步的综合评价准备了条件;该模型亦可推广到对其他领域的综合评价问题。科技奖励综合评价是一个系统工程,从指标体系的构建、指标权重的确定到模型的选取,这些环节是环环相扣的,只有保证每一环节达到最优,才能最大限度的提高评价结果的真实性。

集流式电磁流量组合测井的应用 篇2

随着油田注聚合物区块和井数的增多,常规注入剖面测井技术已不能满足油田注聚开发需求,而电磁流量测井能够克服传统的注入剖面测井示踪剂沾污、沉积、地层漏失以及不能在聚合物中均匀扩散等影响,现有的注聚合物井一般都采用脉冲中子氧活化测井,而集流式电磁流量测井对于笼统注聚井测量精度更高,对油田增产提供有力依据。

1 原理介绍

1.1 测井原理

集流式电磁流量组合测井采用了新研制的内流式电磁流量计,井内注入流体被集流后,流体通过截面积固定的内流道,消除由于流动截面积不规则变化对流量测量结果的影响;使用集流点测施工方式测量井下油层的注聚剖面,集流后通过内流道内的流体流速大大增加,提高了流量测量的精度和分辨率,从而提高了流量的测量准确度和分辨能力,并组合了井温、压力、磁定位等测量参数,可为用户提供精确可靠的井下油层的温度、压力、流量等参数剖面,适合笼统井注聚、注三元液的注入剖面的测试,能精确测量薄差油层小层注入量和厚油层内注入剖面的精细测量。

1.2

仪器结构

1.3 主要技术指标

仪器外径:42mm;内流道直径:20mm;流量测量范围:0.5m3/d~80m3/d(聚合物溶液);流量测量精度:±1%;流量测量灵敏度:10Hz/(m3/d);零流量测量误差:±0.1m3/d;温度测量范围:0℃~100℃;温度测量精度:0.5%;压力测量范围:0MPa~35Mpa;压力测量精度:0.5%;耐温:125℃;耐压:60Mpa;应用范围:笼统井注聚、注三元液的注入剖面的测试。

2 集流式电磁流量与氧活化测试资料对比分析

对X13-D3-P340、X13-22-P38两口井分别用集流电磁流量和氧活化两种方式对同一井进行注入剖面测试。以下分别对测试结果进行分析:

X13-D2-P340井集流式电磁流量测试结果如图2所示:P1312层注入量分别为12.5m3/d、7.3m3/d,P1322层注入量为5.9m3/d,P133a1层注入量为4.3m3/d。

X13-D2-P340井脉冲中子氧活化测试结果如图3所示:P1312层注入量分别为9.6m3/d、20.4m3/d,下面各层注入量均为0m3/d。

X13-D2-P340点测结果如表1所示,该井在1098.2米处合层注入量氧活化测试20.4m3/d,集流电磁流量测试17.5m3/d,液量相近;而在1104.0米处氧活化测试注入量为0m3/d,集流电磁流量注入量为10.2m3/d,并且在1110.0米处集流电磁流量仍测出4.3m3/d的液量。

X13-22-P38井集流式电磁流量测试结果如图4所示:P131层注入量分别为6.1m3/d、22m3/d、13.5m3/d,P1321、P1322层注入量均为0m3/d,P133a层注入量为8.4m3/d。

X13-22-P38井脉冲中子氧活化测试结果如图5所示:P131层注入量分别为4.93m3/d、23.4m3/d、21.59m3/d,下面各层注入量均为0m3/d。

X13-22-P38井点测结果如表2所示,该井在1091.6米处两种测试方式测量结果相近,分别为21.59m3/d、21.9m3/d;在其下一点氧活化测试注入量为0m3/d,集流电磁流量测试注入量为8.4m3/d。

3 结论及存在的不足

3.1 集流式电磁流量计测试下限相对较低

由以上两井测试结果可看出,氧活化测井在套注井中测量下限较高,由于注聚井的全井注入量不高,因此在套注井测试中受到一定的限制,影响最终的测试结果。而集流电磁流量在套注井中的测试克服了这方面的缺点。

3.2 集流电磁流量测井对于厚层细分点测效果好

实验井为葡Ⅰ2-3油层组以三角洲分流平原相及内前缘相沉积的河道砂为主,单层发育厚度大,地质要求了解厚层细分层的注入状况。在点测过程中,氧活化测井仪的发射探头和接收探头之间有一定距离,因此在定点过程中存在一定的误差,影响最终测量结果。集流电磁流量测井仪在定点过程中,以集流伞张开集流平面深度为定点深度,真正实现了定点测量,消除了由于测量深度引起的误差。

3.3 稳定性好

点测流量曲线比较稳定。X13-22-P38井在1072.3米和1075.4米不同测点测得全井注入量相差0.3Hz,在1103米、1110米处两点测得零流量误差为0.1Hz,说明在零流量下具有较高的稳定性。

3.4 不足

集流式电磁流量组合测井适用范围小,主要适用于中低注入量的笼统注聚井。

参考文献

[1]吕殿龙,魏云飞,韦旺.电磁流量计及其在注聚井中的应用[J].石油仪器,2001,15(3):34-36.

[2]单宏宽.电磁流量与示踪相关组合测井方法[J].测井技术,2010,34(4):386-388.

[3]焦燕.集流式电磁流量测井技术及其在海拉尔油田的应用[J].内蒙古石油化工,2011,7:193-194.

组合模型集 篇3

基于粗糙集与分类回归树的“病例组合”分类研究这个课题, 是在数据挖掘技术迅速发展的基础上, 针对国内外对“病例组合”研究的深入及我国的医疗费用呈急剧上升的趋势的情况下提出来的。基于“病例组合”的付费方式作为控制和缓解医疗费用的方法已经在世界各国得到广泛的关注和研究, 并且在世界多个国家开始应用。基于“病例组合”的付费方式被公认为是缓解医疗费用最有效的方法, 它在卫生政策、医疗管理以及卫生经济等很多领域都有应用意义。我国自1990年代起开始研究“病例组合”, 出现了AID算法及病例分型等几种“病例组合”的方法, 这些研究从不同角度对DRGs机制进行了探讨, 对促进我国医疗保健制度的改革, 充分合理地利用现有卫生资源具有一定的理论价值和实用价值。但由于我国对这些研究起步较晚及医疗条件的局限性, 目前我国对“病例组合”的统计分类尚无系统的研究。

在数据分析与分类中, 粗糙集与决策树都显示了无穷的魅力。然而由于两者思想不同, 因而具有不同特点。粗糙集理论是一个强大的数据分析工具, 它不需要预先给出关于数据的任何附加信息, 能表达和处理不完备的数据以及拥有众多变量的数据、能在保留关键信息的前提下对数据进行化简并求得知识的最小表达、能识别并评估数据之间的依赖关系、能从经验数据中获取最小规则。粗糙集理论在处理大数据量, 消除冗余信息等方面具有一定的优势。因此广泛应用于数据挖掘的数据预处理、属性约简等方面。但是, 由于粗糙集理论的分类通常是确定的, 且缺乏交互验证功能, 所以其结果往往不稳定, 精度不高。[1,2]分类回归树具有分类精度高, 有良好的自学习能力和简单的树形结构, 以及直观明了导出规则, 适合于处理几乎未经过预处理的数据, 有较强的鲁棒性和容错能力。但决策树不能预先确定哪些知识是有用的, 哪些知识是冗余的。在冗余信息甚至错误信息的干扰下, 容易导致树结构复杂, 构造一棵决策树的耗费快速膨胀, 计算量也会迅速变大, 使得决策树的应用受到了一定的限制, 这就需要对传统的决策树模型作新的改进。粗糙集方法可以描述知识表达中不同属性的重要性, 简化知识表达空间。

由此可以看出二者间具有很强的优势互补性。粗糙集的属性约简, 可以成功地剔除知识库中的冗余属性 (知识) , 发现知识中隐藏的关联和规则, 帮助人们做出正确简洁的决策。这是决策树所需要的。而决策树的分类精度高, 有良好的自学习能力和简单的树形结构, 都是粗糙集所求之不得的。因此, 如果将两种方法有机结合, 即采用粗糙集进行数据约简, 去除冗余属性, 然后利用决策树方法来产生分类规则, 有可能形成新的有效分类方法。所以将粗糙集跟决策树结合是很有意义的。

二、资料和方法

(一) 数据来源。

本研究的数据来源于广西桂林医学院附属医院提供的1, 356条肝癌症病例。

(二) 数据预处理。

(1) 对原始数据进行预处理, 删除缺项、漏项及不符合逻辑的病例。如, 滤过合计费用大于50, 000元及小于50元的病例;住院天数小于1天的病例和大于100天的病例, 治疗结果为无效、未治、其它等。这部分病例不属于标准医疗消耗的人群, 不参与费用标准的制定。[3] (2) 将各库中的伴随病、护理、抢救、院内感染、院内并发症及次要手术等变量化成1和2定量变量, 其中1表示无, 2表示有;有伴随病的指的是有第二诊断的, 有护理的指一级护理天数不为空的, 有次要手术的指第二手术编码不为空的病人。 (3) 删除缺失病例。

(三) 分类变量的选择。

美国新版本的诊断相关分类法 (DRGs) 的分类主要考虑了八个因素为:主要诊断、次要诊断、主要手术、重要的合并伴随病和合并症伴随病、年龄、新生儿体重、昏迷时间、是否死亡。在我国根据病例首页所提供的信息中选择主要诊断、手术、抢救、护理、入院方式、年龄、入院情况、入院次数、并发症、院内感染、伴随病、特护天数、是否死亡13个影响住院费用的变量作为分类变量。国内有些专家在内科病人中引入护理、伴随病、感染、并发症4个因素。外科病人中引入护理、伴随病、感染、并发症和次要手术5个因素。经过本人与医院方讨论及参考国内外其它算法的作法, 我们决定在系统中设计灵活选择属性的方法, 再在粗糙集算法中把与测试目标无关的属性滤掉, 这样就不会产生漏掉重要属性的问题。

属性变量字段的设置如下表1所示。

利用系统进行对学习样本的重新编码, 对连续属性进行降低属性向量基数处理后的部分样本如表1所示: (年龄分为4类:1:0~20, 2:21~40, 3:41~60, 4:61~100)

(四) 分类原则。

(1) 同一组病人需要消耗的资源是相同的; (2) 同一组病人在临床特征是相似的及所需要的检查和诊断也是相似; (3) 要根据一定的分类变量进行分组; (4) 分组数目要少且各组病人没有重复。

三、分类方法及结果分析

(一) 分类方法。

(1) 利用粗糙集对医院数据属性维数进行约简, 找出约简属性集, 简化分类回归树的输入。 (2) 以住院日期为测试目标 (不管是美国DRGs还是英国的HRG采用都是住院天数作为病例组合的结果, 而在本研究也是采用住院日。住院天数与住院费用呈线性关系 (β=0.446) [4]) 。其中2/3的记录用于最大分类回归树的构造, 1/3的记录对剪枝生成的一系列子树进行误分类代价比较, 从而选择最优子树。再从生成的规则中得到该病的组合。 (3) 按照GINI分裂准则, 寻找一树节点的分裂属性, 构造一棵充分大的分类回归树。 (4) 采用后剪枝方法, 对生成的分类回归树进行剪枝, 生成一系列嵌套的分类树。并用测试数据对各分类树进行测试, 找最优分类树。 (5) 根据“病例组合”特点, 利用二次优化程序对最优树进行重新组合, 找出最适合的病例组合来。 (6) 验证本系统分类的可行性与有效性。

(二) 研究结果。

1.粗糙集与分类回归树结合的效果。

把粗糙集与分类回归树相结合并应用于“病例组合”分类中是本文研究的课题, 本人首先把各输入属性数字化及离散化。然后利用计算粗糙集属性约简的信息熵的观点来计算属性的重要程度与依赖程度。再根据病例组合的“影响病例组合的节点数不应超过3个”的特点, [5]选择重要程度最大的两到四个属性向量作为约简属性集输入到分类回归树中。得到的对比效果如下表2所示。

由表2可以看出, (1) 此样本有许多多余的属性向量, 如果不使用属性约简, 无疑给建树及剪枝增添了不少的时间开支, 使树的复杂度也随着增加。 (2) 用属性约简后的最优树平均误分代价比未用属性约简的小, 说明其精度有所增加。由此可以看出利用粗糙集的属性约简作为分类回归树的前置模块这个方法是可行而且有效的。

2.病例组合结果及分类合理性评价。

(1) 病例组合结果。经系统分析后, 系统提供出两种方案供用户选择。

第一个方案里, 肝癌病人可以分为2个组合:转归为死亡或治愈的病例为一组, 转归为未愈或好转的病例为一组, 如表3所示。

第二个方案里, 肝癌病人可以分为3个组合:转归为死亡或治愈且年龄小于等于40的病例为一组, 转归为死亡或治愈且年龄大于40的病例为一组, 转归为未愈或好转的病例为一组, 如表4所示。

(2) 病例组合结果分类合理性评价及比较。

①第一种方案中, 有2个组合, 检验假设 (α=0.01) :H0:μ1=μ2

H1:μ1, μ2不全相等。

其中s=2, n1=126, n2=547, n=673;则方案一的方差分析如表5所示。

因F0.01 (1, 671) =6.63<27.6, 故在水平0.01下拒绝H0, 认为各组合之间有显著的差异。所以说第一种方案的分类是合理的, 也就说明这个分类方法是可行的。

②第二种方案中, 有3个组合, 检验假设 (α=0.01) :

H0:μ1=μ2=μ3,

H1:μ1, μ2, μ3不全相等。

其中s=3, n1=22, n2=104, n3=547, n=673;同理得出第二种方案的方差分析如表6所示。

因F0.01 (2, 670) =4.61<16.13, 故在水平0.01下拒绝H0, 认为各组合之间有显著的差异。所以说第二种方案的分类是合理的。

③用RIV指标来比较上面两个方案。RIV ( Reduction in Variance) 指一个数据集被分解成n个子集后, 子集间的变异对总变异解释程度的指标。计算公式为:

RIV= (TSSQ-TWGSSQ) /TSSQ (公式1)

其中, TSSQ ( Total Sum of Squares ) 是数据集的总离均差平方和, TWGSSQ ( Total Within Groups Sum of Squares) 是n个子集的离均差平方和的总计。RIV反映了数据集分成子集后, 子集间数据的异质性程度。RIV值越大, 说明组间异质性越强, 分组效果越好。

计算公式如下:

undefined (公式2)

undefined (公式3)

经计算得:

RIV1=0.040 //第一方案的异质性指标

RIV2=0.046 //第二方案的异质性指标

从RIV1

四、结语

在用粗糙集方法和决策树方法处理信息的过程中, 存在两个差别。第一个差别是决策树处理信息不能将输入的属性维数简化, 当输入的属性维数较大时, 由于对每个属性都必须对数据集进行扫描, 因此不仅构造时间长, 而且树结构复杂, 分类容易出错;粗糙集通过属性的约简, 可以去掉冗余信息, 简化输入信息的表达维数。第二个差别是当输入数据噪声较大时, 决策树分类精度不高, 语意难以理解;而粗糙集有较好的抑制噪声的能力。因而将两者结合起来, 把粗糙集的属性约简方法作为决策树分类的前置系统, 具有以下几个优点: (1) 粗糙集属性约简的方法减少了信息表达的属性维数, 减小了决策树结构的复杂性, 减少了计算时间和训练代价。 (2) 通过粗糙集属性约简的方法去掉冗余信息, 使训练集简化, 同样减少决策树的训练时间。 (3) 使用决策树作为后置的分类识别系统, 具有分类精度高、简单直观等特点。 (4) 粗糙集属性约简的方法对数据的预处理提高了决策树的分类精度, 决策树模型的应用更体现了粗糙集属性约简的方法的强大功能, 两者相互补充, 相得益彰。

五、讨论

经过上述算法得到的组合, 是根据节点变量分组后变异有无统计学差别完成的, 虽然已基本满足组内病例医疗住院日或费用的方差小、组间方差大的原则, 但一般尚不能直接用作费用标准, 除了上述节点变量外, 还有许多环境因素影响医疗费用。如医院规模、医院所在地理位置、当地物价指数等。还需用这些因素对标准费用进行调整, 如针对医院规模的影响而进行调整的方案有:[6] (1) 计算病例组合指数CMI, 用以综合反映医疗机构的产出情况; (2) 对每个病种形成各类医院的比例系数, 用该系数乘病种内各组合的标准费用, 用作各类医院的标准费用。

参考文献

[1].吴成东, 许可.软计算方法在数据挖掘中的应用[J].计算机测量与控制, 2005, 13 (3) :294~297

[2].李永敏.基于粗糙集理论的数据挖掘模型[J].清华大学学报, 1999, 39 (1) :29~33

[3].朱士俊.医院管理学-质量管理分册[M].北京:人民卫生出版社, 2003:242

[4].阎玉霞.住院病人“病例组合”统计分类方法研究[D].第四军医大学预防医学系卫生统计学教研室, 2001

[5].NCMO.Project Progress Report.NHS Executive, 1997 (12)

组合模型集 篇4

1 对组合测试的理解

组合测试是用来检测带有覆盖数组的测试用例集,这些测试用例集能够覆盖待测系统中的所有参数值。组合测试的优点就是能够发现测试用例集中各参数之间的相互制约而导致测试失败。因此,对待测系统中的参数和各参数之间所产生的影响进行全面的考虑,是组合测试方法对软件故障有较强的判断和检测能力。

1)用形式化来表述

若在系统待测软件中设有变量m个,在第i个值可能取值有Ni个可能性。Wi代表第i个变量的某个取值,t=(W0,W1,..., Wm-1), 所有可能出现的测试用例集由T代表,则t包含T,S表示某个并属于T。

所有参数在通常情况下都要进行组合测试,如果,参数的个数m和取值个数为N时,用例集将会发生大的增加。

2)约束条件的应用

我们通过图表来展示,以下为某系统在软件测试过程中的情况,观察测试用例,可预想到,如果是大型的软件系统是不切实际的。

表1中,括号内的几个参数不能在系统的测试用例的过程中同时出现。如,(M3, N1)表示一个测试用例中不能同时出现, 经过约束之后,测试用例个数大大减少,说明约束条件很大程度上优化了组合测试方法。约束出现的情况非常复杂。比如说,因为硬件条件的不统一,内存大小、软件情况以及营销方面的不同。

2 布尔的可满足性理解

1)对SAT问题的理解

布尔可满足性问题即“SAT问题”,是目前计算机科学技术、人工智能研究的重要的、核心内容,在逻辑学领域中有较高的地位。

概念:通过对存在的变量进行赋值,来决定命题公式是否成立。即,对变量进行真值赋值后,经化简归约束等技术,最后得到的命题公式的值是否为真,称为可满足性问题。

2)对合取范式的理解

概念:通过对少量的简单的析取式所合成的合取式,我们把它称为合取范式。

如果设A(i=l,2,…,y)为简单的、有限的析取式,则A=A∧A1∧A2∧…∧Ay称为:合取范式。当所有的赋值为真值的合取范式所包含的所有子句都满足性求解,通常都是合取范式的范围。

3 约束条件组合测试用例集的生成

1)生成算法优化组合测试用例集

本文为了缩小覆盖的矩阵,采用将AETG算法和SAT方法结合。

2)AETG、AETG—SAT两种算法的分析

AETG算法:通过给定的测试用例,运用贪心算法将软件测试中的一个能覆盖最多未被覆盖的多维组合测试用例,循环迭代……直至所有的多维组合都被覆盖的计算过程。

AETG--SAT算法:将待测软件中约束条件转化为合取范式,然后利用相关的SAT求解器精简测试用例,最后设计AETG-SAT算法来得出较优的约束组合测试用例集,如下所示:

具体算法如下(在原基础上加入了约束条件,进行了3处修改):

(1)一致性检测,使得部分约束行受扩充部分行的满足。

(2)约束条件在参数组合中必须存在,并且对涉及的条件要近一步检测。

(3)如果一次性检测失败将结束检测,不必对参数值进行约束并进行二次检测。

算法设计过程:

初始化环节:

未被覆盖的多维组合个数=M;案例测试候选的个数=100、案例测试个数=n;案例测试总数=Q。

程序环节:

While M>=0 do

For n=1 t0 100 do

生成空测试案例的个数是0

布尔可满足性问题不存在

将显示X。

它是安全测试中的第一出现的值,也从中出现最多的值。

若布尔可满足性=参数值X的参数S取反∨测试案例进行一次测试匹配;

所剩的参数将自动排序,形成新的集合Q;

For M属于Q do

一次测试匹配次数从l到X;

While可满足性不存在,同时测试匹配<=X;

显示y;

若布尔可满足性=参数S的值取反X案例测试相匹配;

次数+1、第2个参数就是测试案例的值;

案例测试的总数会增加,并做为候选案例,将会选择最佳的案例候选做测试,来更新未覆盖的。

测试案例个数+1:

End while;

End while;

End while;

3)通过两种算法生成配对组合测试用例集的比较分析

提取不同大小的样本系统,通过两种算法得出测试用例集个数,并详细说明和分析了生成环节。如表2所示。

通过对比,这两种算法都得到了最优化的测试用例集。但后者比前者更精简,当参数的指数在不断增大时,变化就会越明显,这说明AETG-SAT算法节约了软件测试成本,大大提高了测试效率。

4 结束语

本文对含有约束条件的待测系统通过添加对约束条件的转换及提出新的算法进行处理的生成环节,去除不满足约束条件的测试用例,大大缩小了组合测试用例集的数量,同时,在保证测试质量的前提条件下,大大节约了测试的成本。最后通过实验得出AETG-SAT算法是一个较优的用于组合测试用例的算法。

摘要:该文充分深入地利用了待测系统中的约束条件,并在组合测试用例集中筛选出最优的测试用例。欲采取的方法是先将约束条件转化为布尔表达式,再将布尔表达式转化为合取范式,然后运用AETG--SAT算法,并通过实验表明了AETG--SAT算法的优越性。在该过程中,此翻译方法和调用工具的方式是较为可行的研究,值得深入学习。

联盟组合混沌演化模型研究 篇5

在全球信息化背景下,大数据为企业预测和把握产业方向、市场规律提供了重要信息,而同时信息混杂的大数据又给企业带来了大量决策噪音与失真信息等,为企业的技术创新带来诸多挑战。在这样数字化的商业生态环境中,任何企业都不可能不依赖于合作而进行技术创新。复杂的外部市场环境使由不同创新主体合作构建的联盟成为企业合作创新活动的重要组织形式。在实际商业情境中,企业很少依赖于单个联盟,而是同期建立多个联盟来满足获取资源、 削减成本、降低风险、实现扩张 等战略目 标。Gulati[1]在九十年代就指出,企业在不断地构建自身的联盟,康宁、摩托罗拉、IBM、HP等公司同时拥有数百个联盟。Lavie[2]研究发现,美国软件行业在1990年仅有32%上市企业建立了联盟,平均每家企业拥有4个联盟;而到2000年,该行业中上市企业拥有联盟的比例高达95%,且平均每家企业拥有的联盟数量跃升至32个,部分企业的联盟数量超过50个。企业与外部组织机构建立多个以自身为核心的联盟组织,这些联盟组织的集合即为联盟组合(Alliance Portfolio)[2,3],它包括了一个核心企业以及与其直接联结的伙伴集合。

联盟组合不仅集合了单个联盟的资源,还集聚了特殊的网络资源。通过联盟网络中合作伙伴间的学习效应、溢出效应、协作效应和互补效应,联盟组合中各个成员企业之间的结构关系和联接互动会影响联盟组合的整体价值,使之超出任一单个联盟价值的简单相加。通过构建联盟组合,中石化集团、华为等企业在技术创新、经济收益及风险控制等方面的显著成效,但是联盟组合演化过程的不稳定性和高失败率是阻碍联盟 组合取得 更大成功 的壁垒。Heimeriks, Klijn et al.[4]对192家企业共涉及3 477家联盟的问卷调研发现,46%的管理者认为联盟失败率维持在40%以上(其中27%的管理者认为联盟失败率超出60%)。同时,波音公司在787梦幻客机项目上的失败也使我们认识到探究联盟组合演化过程的重要性。 联盟组合的不稳定性和高失败率凸显了其复杂性和无序状态,然而复杂中存在规律,无序中隐含秩序,可以运用混沌理论分析联盟组合演化过程的机制,本文将联盟组合作为复杂系统,在分析其分形和混沌特性的基础上,建立联盟组合演化模型,为企业把握联盟组合动态演化规律,利用其优势进行技术创新提供了一定的借鉴参考。

2研究评述

联盟组合是指以核心企业为中心,所有与其具有联盟关系企业的集合。既有研究认为,企业构建联盟组合可以获取联盟伙伴 有价值资源[5],减少交易成本[6]、降低管理风险,应对环境的不确定性[7],并且通过联盟 关系进行 组织学习[8],改进自身 的竞争地 位[9]。在联盟组合构型与企业的关系研究中,学者们运用资源基础观、社会网络、基础经济理论等理论对联盟组合的规模、宽度、广度和密度等构型特征与核心企业绩效的关系进行了大量的研究,但这些研究得出了不甚一致甚至相互矛盾的结论,尚未完全打开联盟组合这个复杂组织系统的“黑箱”。

由于联盟组合结构是动态变化的[2],核心企业通过联盟组合所获取网络资源的数量和质量、网络资源的效率以及核心企业在联盟组合中地位的稳定性都会影响联盟组合结构的变化。因此需要剖析联盟组合的演化过程,企业才能掌握管理联盟组合的复杂任务的能力,以此最大化获取联盟组合的合作利益,创造竞争优势。

混沌是指在确定性系统中出现的一种貌似无规则的、随机的现象,它不等同于无序和混乱,也不是具有周期性或是对称性的有序态,而是系统中产生的一种复杂的、貌似无规则却又有一定规律性的运动,呈现出“混沌中存 在着有序,有序中存 在着混沌”[10]。 李天岩和Yorke在1975年率先在数学文献中引入 “混沌”,提出了著 名的Li-Yoke定理[11]。McBride将混沌理论定义为对确定性非线性动力系统中不稳定非周期行为的定性研究[12]。随着复杂性科学的发展,混沌理论的研究逐渐深入并在气象学、生物医学、 地质学、经济管理等学科取得了突破性进展,诸如雪花的形状、生物的体态特征、河流山川的形成、金融股市的周期等都蕴含着混沌现象。

在经济管理领域,刘景江[13]利用不连续生长曲线、吸引子、吸子盆、匹配图景、分形和非线性发展模式等复杂系统理论与方法探讨了企业组织创新的系统行为及其复杂性;蒋军锋[14]建立时间过程与层次分解相统一的技术创新网络结构演变模型,分析了技术创新网络结构在不同观察尺度下的遗传与变异特性。韩蓉,林润辉[15]分析了知识创新的混沌特性,建立基于创新能力的知识创新的混沌动力学模型。韩亚品,胡珑瑛[16]基于演化博弈理论和混沌理论,分析了创新网络中组织间信任的复杂性、初值敏感性、分岔行为及内随机性等混沌特性,建立了创新网络中组织间信任演化模型。混沌理论在经济系统的演化及创新管理等方面有着成熟的应用,但目前尚未有对联盟组合演化的混沌现象进行研究。

3混沌演化的基础:复杂性与分形

3.1联盟组合的复杂特性研究

联盟组合是一个多个联盟组成的,具有各种正负反馈结构和非线性作用相互“耦合”、交织在一起的复杂系统。对于成员企业个体来说,联盟组合是具有协作特性的整体。虽然联盟成员具有个体的诸多差异性,但这些成员的运行规则却具有相似性,单个联盟子系统独立完成自身的那部分功能,并以核心企业为中心,通过相互间的联盟联接关系,集成化的发挥整体功能。联盟组合的主体企业都具有某种资源或专业技术能力,同时还具有嵌套在联盟组合内的协调成员间相互关系的能力,这使得单个联盟在平行分布式的运作过程中,在关系上表现出了以核心企业为中心的相互交织形态,而联盟组合的复杂特性正是通过这些联盟主体直接的非线性联结关系中突现出来的,从而使联盟组合的结构或功能具备了超越各单个联盟部分特性累加起来的超单元特性,呈现出了涌现性质的耦合行为。

联盟组合的演化过程是企业改变环境的适应性行为,核心企业可以随时根据外部环境的变化以及战略目标的需求,有选择的修正联盟组合,构建补充新的联盟关系,淘汰失去存在价值的对象关系,即核心企业可以影响其所嵌入的组织间空间,而组织间空间的改变也会影响联盟组合与企业发展。企业可以采取适应战略(形成多重平行研发联盟)、塑造战略(如形成探索联盟联合)、稳定战略(如形成利用型联盟) 和混合战略 (结合多种 类型的联 盟)来影响外 部环境[3]:当企业采取适应型联盟战略时,其联盟组合往往表现出联盟数量多、多样化程度高、冗余性较低、弱联系为主的构型特征;当企业采取塑造型联盟战略时,其联盟组合往往表现出联盟数量少、多样化程度较低、冗余性较高、强联系稍偏多的构型特征;当企业采取稳定型联盟战略时,其联盟组合则会呈现联盟数量少、多样化程度低、高冗余性、强联系为主的构型特征。

可见联盟组合对所有成员的开放性是联盟组合复杂性的重要根源,核心企业与战略合作伙伴的动态关系是联盟组合复杂性的重要表现。由于外部环境 (市场、技术)改变、核心企业的战略调整、战略伙伴的机会主义等因素,会导致联盟组合内部的各个联盟关系处于不断的变动之中,远离彼此间平衡的态势,从而不断产生出创新和变迁的力量,使联盟的稳定性处于远离平衡态的不断变动之中。在内部和外部要素的作用下,联盟组合成为了一个动态变化的动力学系统,自组织地产生出复杂性,能够产生出分岔、突变、 混沌等行为。

3.2联盟组合的分形研究

分形的概念是由数学家Mandelbrot在20世纪70年代提出的[17],联盟组合不仅是混沌系统,同时也是分形体,分形最重要的特征就是自相似性,它是指某种结构或过程的特征从不同空间或时间尺度上看都是相似的,即局域结构与整体相似。

联盟组合作为分形体首先表现为复杂结构的层面结构分形。联盟组合是由多个联盟系统组成的,每个联盟系统又由许多子系统构成,都有相对独立的结构、功能与行为。在图1中,可以看到,节点企业B至O是核心企业A的联结伙伴,他们一起构成了核心企业的联盟组合。而核心企业的联盟伙伴也有自己的自我中心网络,如图中的F、K、M,除有焦点公司作为伙伴外,还构建了以自己为中心的联盟关系;并且I和J的联结关系将F与K的联盟联系在一起。 构成联盟组合的联盟在结构层次上显示出多样性和复杂性,整个联盟组合呈现出良好的结构性和自相似性,表现出结构分形。

图1 联盟组合的结构

联盟组合系统作为分形体还表现为复杂的过程分形。联盟组合的演化是复杂的系统化过程,存在多极企业主体间的相互作用,这些非线性相互作用构成了纵横交错的关系,企业间的相互作用突出地体现了他们的竞争与合作,并且合作与竞争是以信息交流、 知识外溢为核心。

最后,联盟组合还表现为功能分形。联盟组合系统的功能就是其与外部环境相互联系和相互作用中表现出来的性质、能力和功效。在层次结构与合理的运行机制下,联盟组合的功能受到其环境和结构的影响,并与环境之间产生物质、信息和能量的交流,是核心企业与其联盟伙伴相对稳定的联系方式、组织秩序及时空形式的外在表现形式。从组成联盟组合的节点企业来看,联盟组合的资源禀赋包括核心企业和结盟伙伴投入联盟组合的共享资源、核心企业的非共享资源和伙伴的非共享资源[18]。从联盟组合内节点间的关系来看,可以将联盟层组合的结构特征分为关系强度和关系类型等。关系越强,联盟组合绩效越高, 强关系有助于创造关系租金,还可以促进伙伴之间的沟通、信任、冲突解决等[19];其次是关系类型。现有文献常用“直接”和“间接”来区分关系,直接关系或间接关系既可以产生协同,又可能导致冲突[3],拥有不同关系类型或者不同职能联盟的联盟组合在资本市场上会有更高的收益[20]。大量的企业通过相互的关系联接,组成了以核心企业为中心的复杂网络,伴随着结构分形及过程分形,联盟组合运行的结果就是提高了企业的核心竞争力与组织绩效(经济绩效、创新绩效等)。

4联盟组合的混沌演化模型

4.1联盟组合的形成机理

联盟组合的形成是一个复杂的过程。由于市场不完全和市场信息不对称,企业必须通过一定的战略行为,扩大自身的竞争优势或弥补竞争劣势,以获得较高收益。而组织资源的异质性使企业不能摆脱对外部资源的依赖,联盟组合则是企业所采取的一种战略行为来重构这种依赖关系。

联盟组合是核心企业建立多个联盟以响应外部环境(政治、技术、经济、制度)变化来达到特定目标而形成的网络。

核心企业的自发组合与被组合过程是联盟组合的形成方式。核心企业自发组合的过程即是主动搜寻并联结外部伙伴,此过程体现了核心企业的战略动机及主动性活动;外部组织以同样的方式邀约到核心企业成为自己的战略伙伴,此过程对核心企业而言是被动的,是一种被组合的过程,体现出外部组织的战略动机及其主动性活动。两种活动过程交织的总体结果,构成了核心企业联盟组合中的所有联结。在这两种活动过程中,由于主体间存在战略、文化、价值观、行为习惯等方面的差异性,企业主体必然会调整自身的结构及运行规则,来适应其它企业主体以及外界环境的变化。这种调整的结果客观上导致了主体逐步完善自身,最终完全融入环境。

图2 联盟组合的形成

联盟组合演化到一定的程度以后,核心企业与各个联盟之间、以及各个联盟相互之间的创新协作关系不断地发展和完善,规模逐渐稳定,整个联盟组合变成一个网络价值链群。从混沌理论来看,当外部环境和内部条件发生改变时,联盟组合内部的结构和秩序就会发生突然变化,呈现出不稳定的特点,从稳定的平衡态到达远离平衡态的分岔点,它可能走向毁灭性混沌,表现为联盟组合内部的联盟关系的破裂,甚至整体联盟组合失败,也可能跃迁到下一个具有更高复杂性水平的状态,进入一个新的生命周期,形成规模更大、联盟关系更复杂的网络结构(图3)。在演化过程中,联盟组合要不断地经历四个状态:平衡态、近平衡态、远离平衡态和毁灭性混沌态[21]。在平衡态、近平衡态或非平衡态的线性区域时,联盟组合的演化具有确定性;除此之外,系统的演化将出现分岔,特别是表现出混沌和内在随机性。联盟组合的演化是遵循 “有序→分岔→混沌→突变→跃迁到新的高级有序” 的过程,反映了联盟组合中的企业对外部环境和内部环境的适应性行为。

4.2混沌演化模型的构建

在联盟组合演化过程中,核心企业会根据其战略需求陆续构建多个联盟,新建立的联盟会将其自身结构、文化、能力融入到整个联盟组合当中,而联盟组合中原有的联盟也会对自身结构、文化、能力进行改变, 以适应当前环境的变化。设联盟组合在第n阶段的演化状态为Pn,以反映它内在的稳定程度。那么,第n阶段的演化状态Pn,第n+1阶段演化状态Pn+1存在如下关系[22,23]:

联盟组合的演化受到外部环境和内部动力的制约,如外部环境中政府政策、市场变化等;内部动力中如企业技术能力、联盟关系、联盟组合治理能力等,以 σ表示这些因素的综合影响。假设联盟组合演化的最大状态为Pmax,其演化状态Pn与Pn+1的关系可以表示为:

由不动点线性部分的Jacobian行列式可知联盟组合演化状态的稳定性取决于参数μ,随着控制参数产的变化,联盟组合的状态会从平衡态、近平衡态、远离平衡态、经过不断分岔进入倍增周期状态,并进入混沌。为清晰地表现联盟组合演化过程和取值随参数μ的变化情况,取μ∈(1,4)区间,用maltab2012绘制模型的Logistic迭代图。通过图中Logistic迭代的极限形态可看到模型的分岔特性。

μ∈[0,1)时,存在稳定的不动点,即没有Xn的解。联盟组合处于资源、技术、能力的匮乏阶段,缺乏生存环境,不具备相应的结构与机制,并可能会对初始的联盟关系建立起遏制作用。

μ=1时,出现越临界值分岔,此时的Xn结构出现不稳定。μ∈(1,3)时,联盟组合处于生成阶段,随着资源的投入,联盟组合稳定发展。当μ =3时,演化过程出现分岔,使Xn周期变为周期2。随着μ值继续增加,发生霍夫 (Hopf)分岔,演化过程不再稳定,依次出现 周期4解、周期8解、周期16解 ……[24],Xn的取值不会重复出现以前出现过的值, 联盟组合的演化过程呈现混沌状态。

根据前面的理论分析,联盟组合演化进入混沌状态后,可能走向毁灭性混沌,联盟组合内部的联盟关系的破裂,甚至整体联盟组合失败,也可能跃迁到下一个具有更高复杂性水平的状态,形成规模更大、联盟关系更复杂的网络结构。联盟组合演化出现混沌是内部动力和外部要素之间的非线性相互作用机制产生,它是一个质变的过程。将联盟组合演化的混沌区域分为良性临界点和恶性临界点,在良性临界点附近,量变积累到质变,进入混沌区以后,联盟组合从低级向高级水平跃升,企业间联接关系更复杂,联盟组合的组织结构的弹性越大,应对创新需求和市场环境变化的能力越强,联盟组合的组织结构更稳定;在恶性临界点附近,系统内外环境的不利因素诱发蝴蝶效应,导致联盟组合内部企业主体间合作不顺利,系统运行效率低下,甚至造成联盟组合解体失败。

联盟组合具有作为复杂系统的混沌特性,混沌理论的蝴蝶效应描述了这一特点:系统对初始条件具有极为敏感的依赖性,在系统的运行过程中,如果起始状态稍微有一点改变,随着联盟组合的演化,这种变化将受到系统非线性反馈过程的不断放大,并最终导致系统行为发生巨大的变化。因此可以通过调节控制参数影响联盟组合的演化过程,影响联盟组合演化的控制参数包括外部因素和联盟组合的内部动力。

联盟组合是开放的复杂系统,它从环境中获取资源,将其转化为产品或服务,又输出给环境,同时联盟组合的活动又受到环境对其行为反馈的影响。影响联盟组合演化外部环境因素可以分为:政府政策、技术条件、市场经济、社会与文化制度。这些环境要素主要以直接或间接的方式影响联盟组合,引导其演化符合环境的要求。

联盟组合演化的内部动力来源于偏差,偏差即为涨落。由于目标利益与实际利益的偏差,联盟组合内各个子系统的相互作用和相互联系不断推动系统的运行,由此产生随机涨落,由于蝴蝶效应的存在,使各种涨落不断地通过非线性作用放大形成巨涨落,当涨落达到某一阈值时,联盟组合远离平衡态,并失去在原有状态的稳定性。联盟组合内部引发潮落的动力来源主要有:联盟组合内的联接关系,联盟伙伴的资源与能力以及联盟组合的治理机制。

1)联盟组合内的联接关系影响着企业间的资源交流。企业间的紧密联接能够提高信息交换的质量和效率,促进网络成员之间形成信任和承诺,共同规范制约投机行为[25]。信任和承诺是企业成功构建联盟组合的重要因素[26,27],并且信任对联盟绩效有显著的正向作用,这种相互依赖关系可以形成联盟组合内部的经济一体化,共同规范制约机会主义行为,有利于联盟组合的稳定。

2)联盟伙伴的资源与能力影响着联盟组合的整体绩效,与优秀的伙伴构建联盟关系是形成高绩效联盟组合的重要途径。拥有良好地位、资源优势以及丰富经验的联盟伙伴可以增加企业获取联盟收益的可能性[28,29]。

3)联盟组合的治理机制是核心企业与其伙伴之间互动的规则及规范,它约定了核心企业与其伙伴之间交易、交换、分享以及共同开发的行为遵守准则,是联盟组合的一种制度性的安排。伙伴间缺乏合作以及伙伴的投机行为是造成联盟高失败率的最主要原因[30],因此完善的治理机制可以尽量消除伙伴间的投机行为、激励伙伴共同进行价值及创新、提高联盟决策效率,达到联盟组合稳定演化的目的。

联盟组合运行分岔进入混沌状态时,意味着联盟组合面临诸多发展道路可以选择,不同的内部动力将把联盟组合推进到不同的发展轨道和前进方向。当联盟组合的规模不断扩大,主体企业间联系越加复杂,技术创新能力提高时,联盟组合很有可能演化进入一种不稳定的混沌状态,此时可以通过控制合理的内部动力参数,使得联盟组合状态进入更好的发展轨道和模式。

5结论与展望

联盟组合是企业获取外部资源和提升创新能力的重要组织形式,上述研究表明:1联盟组合是一个动态演化的系统,混沌与分形是其复杂性特征的重要反映,这为我们从非稳定、非均衡的角度研究联盟组合的构型、功能、演化及系统整体与局部的关系提供了新的理论方法和研究思路;2外部环境和内部动力的微小变化将影响到联盟组合演化的最终结果,混沌状态的产生是其走向新的有序、新的稳定态的一种契机,是联盟组合质变的一个必然过程;3在混沌区可以分为良性混沌临界点和恶性混沌临界点,前者有利于联盟组合演化至更高水平以及保持联盟网络结构的稳定性,后者要进行混沌控制。联盟组合的混沌演化规律对管理者的能力和方法提出了更高的要求,应学会在混沌状态下实施动态控制和管理。

基于区域信息的水平集模型 篇6

基于参数的轮廓演化模型已经被广泛地应用于图像分割, snake模型[1]为解决图像分割问题展现了令人鼓舞的前景, Lada Amini等人提出了基于DCM的分割模型[2]。该模型运用形态学、FCM、以及阈值法成功解决了弱边界问题, 但其结果强烈地依赖于曲线的初始位置, 进入凹陷区困难, 常陷于局部最优, 而且snake模型拓扑不可变。针对这个缺点, Osher和Sethian[3]提出依赖于时间的演变曲线水平集模型。水平集模型避免了曲线演变过程对拓扑结构变化的处理, 计算稳定, 已在图像处理和计算机视觉等领域得到了广泛的应用。许多学者对水平集方法做了大量的研究和应用工作[4,5,6,7,8]。

本文提出了一种改进的水平集方法研究核磁共振图像的分割问题, 该方法通过区域及背景信息构造新的速度函数, 使得速度函数具有选择性、全局性, 改善了分割效果。

1图像预处理

数学形态学是一门新兴科学, 近年来得到了不断的丰富和发展, 并且已经成为一种新的图像处理理论和方法。数学形态学里的开运算、闭运算可以对图像进行去噪以及估计初始背景。本文利用文献[9]的方法估计图像的背景。设ICI为当前系统中的原始图像, ICB为当前系统中保存的背景图像, 计算二者的差分图像IDI, IDI=|ICI-ICB|。设定阈值T, 构造即时背景IB

然后使用下式更新背景图像:

ICB (x, y) =α·IB (x, y) + (1-α) ·ICB (x, y) (2)

式中α为加权系数。

图1是米粒图像提取背景实验结果。

图1 (a) 为米粒图像, 形态学开运算操作结构元素取半径为15的圆形结构元, 得到图1 (b) 。从图1 (b) 中看效果很好, 能完整地估计出原始图像的背景。以图2 (a) 为测试图像, 形态学开运算操作结构元素取半径为15的圆形结构元, 得到图2 (b) 。但这样提取出来的背景受结构元素的形状及大小的影响, 无法准确地提取图像背景。图2 (c) 是利用式 (1) 、 (2) (α=0.5) 进行20次迭代的结果, 这种方法能减少结构元素的选取对结果的影响, 较好地提取出背景信息。

2水平集方法在图像分割中的应用

2.1水平集方法

Osher[3]等人提出的水平集方法在图像处理中得到了广泛的应用。设给定运动界面Γ, 其包含的区域为Ω, 运动速度为F, 水平集方法处理界面运动的思想就是把运动界面作为零水平集嵌入到高一维的光滑函数ϕ中, 不断地通过更新ϕ来达到演化隐含在其中的Γ的目的。ϕ (x, y, t) 的演变方程可表示为:

ϕt=F|ϕ| (3)

其中, 表示|ᐁϕ|为水平集函数的梯度范数, 速度函数F与界面位置、几何特性以及运动时间和外部物理特性有关。应用水平集方法进行边界轮廓提取的关键是选取合适的速度函数FF一般包括两项, 即与图像信息有关的项 (如梯度信息) 以及与轮廓曲线的几何形状有关的项 (如曲线的曲率) 。传统的水平集方法定义的速度函数为:

F=g (|ᐁI|) · (K+V) (4)

其中, K为水平集函数的曲率, V为常数, g (·) 为非递增函数, 一般取:

g (|Ι|) =11+|Gσ*Ι|p (5)

其中, Gσ是方差为的高斯函数, *表示卷积, p取1或2。传统水平集方法在构造速度函数时仅仅依靠图像的梯度信息, 而没有充分地利用图像区域信息, 在出现弱边界的情况下, 常常会发生边界泄露现象, 同时对噪声较为敏感, 分割效果不理想。文献[8]提出了一种运用于运动目标检测的速度函数, 但无法应用于心脏和大脑MR图像分割。文献[11]提出了一种基于区域信息的速度函数。其基本思想是先计算待分割目标的近似统计特征, 再根据水平集所在的区域与目标区域统计特征的相似度信息来定义速度函数。该方法有效地抑制了边界泄露和噪声的影响, 但该方法依赖阈值并且在分割具有细长拓扑结构的目标时并不能得到真实解。本文对该方法进行改进, 提出一种新的相似度计算方法并且在其基础之上提出了一个改进的水平集模型, 其速度函数利用了上述的改进的相似度信息场。

2.2改进的水平集模型

2.2.1 改进的相似度信息场

(1) 获取目标的统计特征, 我们将当前水平集所围成的区域的统计特征近似地看作目标的统计特征, 记为{SF0, jΙ|1≤jm}, 其中m表示统计特征的个数, 其大小可根据图像的性质来决定。本文只用灰度均值和灰度方差这两个统计特征, 设SF0, 1Ι是该区域内的灰度均值, SF0, 2Ι是该区域内的灰度方差。

(2) 获取背景的统计特征SF0, jb, SF0, 1b是该区域内的灰度均值, SF0, 2b是该区域内的灰度方差 。

(3) 考察当前水平集上的点所在区域的相应统计特征, 分别计算他们与目标统计特征和背景统计特征的相似度:XSiΙXBib, 计算公式见 (10) 和 (11) 。

2.2.2 改进的速度函数

本文在改进的相似度信息场的基础上定义新的速度函数:

式中|ᐁId (x, y) |为差分图像Id (x, y) 的梯度图像。

式中:σI为目标的灰度方差, σb为背景的灰度方差, M为梯度图像|ᐁId (x, y) |中的最大值。M1为梯度图像|ᐁId (x, y) |中的点 (x, y) 在某一领域中最大梯度值, TT1为预先设定的阈值。

该模型通过计算区域及背景信息, 构造了新的相似度信息场, 这种相似度信息场不需要提前计算阈值, 并且根据新的相似度算法确定曲线演化的方向, 使得曲线演化时的速度函数具有选择性。

2.2.3 本文算法

综上, 下面给出本文的整个分割步骤:

假设I (x, y) 为待分割的图像, 用开运算估计背景IB (x, y) , 利用式 (2) 得到背景图像ILB (x, y) 。

Step1 计算I (x, y) 和ILB (x, y) 的差分图像Id (x, y) :

Id (x, y) =|I (x, y) -ILB (x, y) | (9)

Step2 设当前水平集所围成的区域为Ω, Ω的特征可近似看作待分割目标的统计特征。计算SF0, 1ΙSF0, 2Ι

对每一个点采取下面Step3—Step5进行迭代。

Step3 计算当前点所在区域 (实验取大小为3×3的区域) 与背景图像ILB (x, y) 的相似度:

XSib=1mj=1m|SFi, j-SF0, jb| (10)

Step4 计算当前点所在区域与目标的相似度XSiΙ:

XSiΙ=1mj=1m|SFi, j-SF0, jΙ| (11)

Step5 利用本文提出的改进的水平集 (利用新的速度函数替代原始速度函数) 的窄带法进行演化。

Step6 加上背景图像即得最终分割结果。

3实验结果及分析

以下实验在P 1.6G/256M微机上用Matlab实现。

图3是肾脏MR图像, 大小为134×120, 图3 (a) 是原始图像。图3 (b) 是差分图像, 在它上面取得初始曲线。图3 (c) 是是利用传统的水平集模型迭代30次的分割结果。图3 (d) 是采用本文的方法迭代30次的结果, 尚未分割结束。从结果中可以看出本文的方法可以较精确地分割肾脏边界, 而且分割效率比传统水平集效率更高。

图4是大小为108×96的心脏MR图像, 具有细长拓扑结构。图4 (a) 是原始图像, 图4 (b) 是差分图像以及初始曲线。图4 (c) 是利用文献[11]提出的相似度信息场构造的水平集模型迭代30次的分割结果, 从图4中可以看出在具有细长拓扑部分分割效果不好, 无法完全得到真实边界。图4 (d) 是采用本文的方法迭代20次的结果, 从结果中可以看出本文的方法相比于传统相似度算法可以更精确的分割心脏边界, 并且本文算法无需提前计算阈值。

图5是人脑MR图像, 大小为512×507, 结构复杂, 细长拓扑结构较多。图5 (a) 是原始图像。图5 (b) 是差分图像和初始曲线。图5 (c) 是文献[11]的演化结果 (其相似度的阈值随机选取) , 因为受相似度的阈值选取的影响分割效果不好。图5 (d) 是采用本文的方法迭代300次的结果。该方法不需要提前计算相似度的阈值, 演化速度由新的相似度算法实现自动判断。从结果中看本文方法可以更好地分割大脑边界。

4结语

本文提出了一种改进的水平集方法研究核磁共振图像的分割问题, 该方法通过区域及背景信息构造新的速度函数改进水平集模型, 使得速度函数具有选择性、全局性。本文模型能够很好地改善分割效果, 提高分割效率, 应用于心脏以及大脑等MR图像的分割, 得到了较精确的分割结果。

对江苏省省人民医院放射科主任王德航教授给与指导并对算法进行测试表示感谢。

参考文献

[1]Kass M, Witkin A, Terzopuplos D.Snakes:Active contour models[J].International Journal of Computer Vision, 1988, 1 (4) :321-331.

[2]Amini A A, Weymouth TE, Jain TC.Using dynamic programming for solving variational problems in vision[J].IEEE Trans on Patten analy-sis and machine intelligence, 1990, 12 (9) :855-867.

[3]Osher S, Sethian J A.Fronts propagating with curvature dependent speed:Algorithms based on the Hamilton-Jacobi formulation[J].Jour-nal of Computational Physics, 1988, 79 (1) :12-49.

[4]Mansouri A R, Konrad J.Multiple motion segmentation with level sets[J].IEEE Transaction on Image Processing, 2003, 12 (2) :201-220.

[5]Adalsteinsson A, Sethian J A.Fast level set method for propagation in-terfaces[J].Journal of Computational Physics, 1995, 118 (2) :269-277.

[6]Freedman, Zhang D.Active contours for tracking distributions[J].IEEE Transaction on Image Processing, 2004, 13 (4) :518-526.

[7]Adalsteinsson D, Sethian1J A.The fast construction of extension veloc-ities in level set methods[J].Journal of Computational Physics, 1999, 148 (1) :2-22.

[8]于惠敏, 尤育赛.基于水平集的多运动目标检测和分割[J].浙江大学学报, 2007, 41 (3) :412-417.

[9]罗军辉, 冯平, 哈力旦A.MATLAB7.0在图像处理中的应用[M].北京:机械工业出版社, 2005.

[10]Gupte O, Masoud R F K, Martin NP.Detection and classification of ve-hicles[J].IEEE Transactions on Intelligent Transportation Systems, 2002, 3 (1) :37-47.

融资性投资组合模型之构建 篇7

一、关于投资组合的理论研究综述

投资组合亦称组合投资, 它是通过把投资资金分散到多个资产上以求在获取一定收益的同时能分散投资资产许多非系统性的风险。投资组合是提高投资效率的一种投资策略, 优良的投资组合能为投资者带来可观的投资绩效。

目前证券市场上用到的各种投资组合的理论依据大多都是Markowtiz在1952年提出的Markowtiz投资组合模型理论。后来有许多学者在Markowtiz理论的基础上提出更多的改进模型, 1966年Swalm基于Markowtiz组合模型理论提出均值-半方差的组合投资模型, 指出投资者只关心未来不确定收益低于期望收益的那部分风险。1968年Mossin用动态规划的方法把Markowitz模型原始的一次性投资改进为多阶段的投资, 这一投资策略的改变很有实效。因为投资者往往为了获取最大的投资效率会不断地对投资模型进行修正, 而不是作出投资选择后就一成不变。2001年Basak和Shapiro研究了以Va R作为风险度量指标的投资组合模型, 此模型是以1994年J.P.Morgan投资银行推出的Value at Risk (Va R) 基于Markowitz模型而建立的Va R的投资组合优化模型。

在我国也有不少学者提出了许多有价值的模型和研究方法。如2000年马永开和唐小我利用套利定价理论, 提出了改进的不允许卖空的多因素证券组合投资决策模型;2003年张卫国和聂赞坎研究给定各投资资产投资比例, 提出了限制投资下界风险证券有效组合模型等;2004年陈科燕在Markowitz模型中加入无风险资产和交易费用, 建立多目标决策投资组合模型, 并采用模糊优选法将多目标转化为单目标规划。在近几年, 考虑到市场交易的实际情况, 许多学者开始将实际交易中的交易费用、融资费用等因素加进模型中进行研究。如2005年天津大学的李楠以《考虑完整交易费用组合投资模型的混合遗传算法求解》将交易费用融入投资组合模型中。

综合目前学者对投资组合模型的研究, 结合我国证券市场上证券交易的实际情况, 本文在考虑交易费用、资产买卖最小单位和投资者拥有资金这三个因素的基础上, 建立了一个符合我国证券市场上实际交易情况存在交易费用、存在最小交易单位和存在融资的投资组合模型。在双目标投资组合模型求解的启发式算法研究上, 以往的研究大多是通过将双目标转化为单目标, 再使用传统遗传算法或是模拟退化等算法进行求解。这种将双目标进行转化为单目标的方法, 虽然在一定程度上能得到模型的解, 但是其解集的多样性和可选择性较差, 不能给各类投资者根据自己对风险的喜好程度提供最优解选择。为此, 本文基于双目标投资组合模型的特点, 通过对多目标模型求解算法文献进行研究, 设计了基于传统遗传算法的改进非支配排序遗传算法 (NSGAII) , 这种方法是一种基于pareto最优解集、用于求解低维多目标优化模型的计算方法, 它较好地解决了投资者的风险爱好所产生的策略选择问题, 通过实际案例验证, 该模型的算法是有效的。

二、投资组合模型理论及建立

(一) 考虑存在交易费用

Markowitz的投资组合模型中, 隐含的一个假设就是投资者是允许卖空的, 即可以无限制借入资产。但在证券交易运作中, 投资者每进行一次交易都要按事先约定比例交纳一定的交易费用, 包括佣金、手续费和税金等。根据证券市场实际交易情况, 本文采用常用的V-型函数来表示交易费用。

根据研究需要, 本文将投资产品分成两大类:一类是风险性产品, 如股票、基金、期货等;另一类是无风险性产品, 如银行存款和政府债券等。无风险产品主要是用来平衡风险, 收益率设为银行存款利率。

设投资者要投资n项风险资产和1项无风险资产产品, 并将其投资的无风险产品记为第n+1项;又假设金融市场是有效的, 且n项风险资产的收益率是随机的, 无风险资产的收益率为常数, 记为r0。在投资者拥有n项风险资产的T期历史收益率数据的基础上, 设xi为投资在资产i上的金额数量, rij是风险投资i在第j期的收益率, 用Ri=E (rij) 表示风险资产i的期望收益率, ki是风险资产i的单位交易费用, ci表示风险资产i的交易费用。由于银行存款是不需要任何手续费的, 故投资在无风险资产上的交易费用, 可取cn+1=0, 而使用费用函数用V-型函数表示, 则有交易费用如下模型:

式中, xi0表示已经投资在风险资产i (i=1, 2, …, n) 上的投资金额数量。根据交易费用可得到模型的收益目标如下:

风险在传统的Markowitz均值-方差模型中是用收益率的方差来表示的, 而实际上对于大于期望收益率那部分收益不仅不是投资者的风险, 反而是投资者所希望的, 因此可以把此部分差值平方作为无意义风险, 因为这里仅考虑了低于期望收益率的那部分风险, 即半方差风险。

半方差风险由两部分组成:一部分是同一证券内的半方差S1 (x) , 另一部分是各证券间的半方差S2 (x) 。令dij表示风险资产i收益率小于其期望收益率的偏差, Di表示风险资产i期望收益率小于整个投资组合期望收益率的偏差。用R表示整个投资组合期望收益率, 则可得到用评价风险的半方差S (x) , 可用模型表示如下:

根据上述不允许卖空买空的情况, 可建立存在交易费用的双目标优化的投资组合模型如下:

式中, M0表示投资者拥有的投资资金。

(二) 考虑存在融资情况

融资实际上是证券市场中由券商或者其他专门信用机构为投资者购买证券提供的一种服务过程。通过这一过程投资者将获得的融资资金新投入市场, 将对市场产生积极的效果。我国证券市场经过二十多年的发展, 已由一个新兴资本市场发展成为具有世界影响的资本市场, 很多具有较大实力的证券公司都在积极争取拿到融资资格, 这将成为我国证券市场未来的一大趋势。所以说考虑融资情况对我国证券市场的实际交易具有非常重要的现实意义。

投资者进行融资必须支付融资成本。根据市场的交易情况, 本文合理地用银行贷款利率表示融资成本。实际操作中, 提供融资的机构都会根据投资者的财务等信用情况给予一定融资金额限制, 因此本文令N0为能融资资金的最大值, 同时用f表示单位融资成本 (本文用银行贷款利率来代替) , 则式 (1) 中的总交易费用C (x) 修正为:

将式 (2) 中的总收益函数Q (x) 修正为:

因此, 在考虑交易费用的基础上, 式 (4) (模型) 可修正为如下模型:

(三) 考虑存在最小交易单位

在传统的Markowitz均值-方差投资组合模型中, 投资者的投资金额是任意的。而实际上根据证券交易规则, 投资金额一般存在最小交易单位, 在我国上海和深圳证券市场上A股1手 (100股) 为最小交易单位, 即投资者每次在进行证券交易时都只能买卖1手或是1手的整倍数。

在每次进行证券操作的交易量必须是100股的整倍数的前提下, 在传统模型中用份额概念来分配投资比例将不再行得通。本文前面定义xi为投资在资产i上的金额, 为了适应A股投资交易量在我国证券市场最小单位为一手, 现修正前面xi定义, 即定义xi为投资在资产i上的手数, 且其必须为非负整数。本文同时引进每手股票的价格为Pi, Pi是指资产i每手交易的市场价格, 故将式 (5) 的总交易费用修正为:

同时, 将式 (6) 和风险评估函数相应地修正为:

考虑到前面使用半方差评价风险在计算第二次或者多次费用时有一定的难度, 且半方差实际上是半偏差的平方, 因此本文使用半偏差代替半方差。根据上述加入考虑最小交易单位, 并因在matlab工具箱中适应度函数是默认搜索最小适应度, 所以利用matlab工具箱遗传算法求解模型需先将目标函数都转化成最小, 即利用负号进行转化, 因此本文可建立如下考虑投资组合问题的双目标优化模型:

上述各式中:N为非负整数的数学代号;R (x) 是表示原收益的负值。

上述双目标优化投资组合模型, 本文选取的是基于传统遗传算法改进的NSGAII算法。

三、实例应用分析

本文选取能源、医药、机械、汽车和农业五个行业各2只共10只股票作为样本进行研究。样本数据资料均摘自10只股票2010年5月至2012年5月有关财务公告, 研究样本10只股票月收益率情况受篇幅限制已省略。

本文假定投资者拥有资金100万元, 投资者能融到最大资金50万元, 交易费用系数根据实际交易费用的情况和有关文献数据将其设为0.004, 融资成本采用贷款月利率5.31%, 所以融资成本为:f=5.13%÷12=0.004 425;设Pi为投资者购买股票价格。此处由收集的历史数据是截止到2012年5月, 故以2012年6月为投资基期。则相对应为:

基于matlab7.8 (matlab2009a) 平台, 运用改进NSGAII算法进行求解此双目标模型, 可得到此双目标优化txt格式的所有解数据solution.txt和对应的pareto解集图如下所示:

根据上图, 可知此双目标优化模型可得到很多解, 投资者也有多种投资策略选择, 即可以根据自己对风险的承受能力进行选择适合自己的投资策略。

四、结论分析说明

本文在前人研究成果的基础上, 基于我国沪深两市实际交易情况, 建立了考虑交易费用、最小交易单位和融资情况的投资组合模型, 并采用改进了的NSGAII算法进行求解。

本文研究的亮点在于: (1) 本文建立的模型结合了沪深两个证券交易所的实际交易情况, 使得模型对投资者更具有参考价值。 (2) 本文基于传统遗传算法改进NSGAII算法, 并建立求解双目标优化投资组合模型, 解决了不同投资者对风险的承受能力不同而需采取不同的投资策略问题, 输出的解集可供不同投资者选取, 因而具有一定的投资参考价值。

参考文献

[1].Harry Markowitz.Portfolio seleetion.Fiance, 1952;7

[2].Swalm R.O..Utility theory-insights into risk taking.Harvard Business Review, 1966;44

[3].Mossin J..Optimal multi-period portfolio policies.Business, 1968

[4].Basak S., Shapiro A.Value-at-Risk Based risk manage-ment:Optimal policies and asset prices.The Review of Financial Studies Summer, 2001

[5].马永开, 唐小我.不允许卖空的多因素证券组合投资决策模型.系统工程理论与实践, 2000;20

[6].李楠.考虑完整交易费用组合投资模型的混合遗传算法求解.天津大学硕士论文, 2005

[7].刘金兰, 陈丽华, 郝建春.石油行业基于模糊决策理论的投资组合优化模型方法.工业工程, 2005;4

上一篇:胃癌切除手术下一篇:进行企业财务管理