演化稳定策略

2024-06-02

演化稳定策略（精选7篇）

演化稳定策略篇1

摘要：基于科技银行和科技型中小企业之间的信息不对称, 利用演化博弈理论和非线性微分方程稳定性理论, 建立和分析银企博弈的复制动态模型并进行数值仿真, 从深层次研究银企如何通过长期演化达到稳定合作状态。研究得出, 科技银行应根据借款对象的类型和自身特点以及预期效果来合理设置抵押担保价值和奖惩金额, 同时给出相应的设置依据和临界额度, 为科技银行风险管理提供了有效的方法和建议。

关键词：科技银行,信息不对称,演化博弈,复制动态方程,中心焦点

中小企业融资难问题由来已久, 尤其是带有高新技术的科技型中小企业, 这类企业从事科技项目研发, 具有高风险、高成长的特征, 由于其自身规模小、信用级别低、抵押担保不足, 加之信息不对称, 银行难以准确衡量其风险度, 导致其融资难上加难[1]。科技银行的出现为科技型中小企业融资提供了重要的解决途径。科技银行是主要为科技型中小企业提供科技贷款等金融服务的专业性、职能型银行金融机构的统称[2]。由于它高风险的特征, 在美国被称为风险银行。

早在20世纪后期, 美欧发达国家就已出现了科技银行, 其中当属美国的硅谷银行最为著名。我国的科技银行起步较晚, 当“科技是第一生产力”的理念上升为政府理念, 当各级政府都将科技产业作为战略性新兴产业发展时, 利用现存银行体系为新兴科技产业输送金融资源无疑会成为政府的不二选择[3]。近10年间我国积极推进科技金融发展, 科技银行发展迅速, 从2003年科学技术部开始着手制定科技开发银行方案, 到2009年四川成都市率先设立两家科技支行 (科技支行是商业银行设立的专营科技型中小企业贷款的支行, 并不具备独立法人资格, 可看作是科技银行的初级形式) , 至今全国共设立科技支行20余家, 唯一具有独立法人的科技银行———浦发硅谷银行也于2012年8月正式成立, 不同程度地缓解了当地科技型中小企业融资难的问题。当前社会各界对科技银行也开始有了越来越多的关注, 如何建设和发展科技银行, 如何促成科技银行和科技型中小企业长期稳定合作、互惠互利成为解决科技型中小企业融资问题的一大重要课题。基于此项课题, 本文的研究试图从风险管理的角度深层次探究科技银行和科技型中小银行如何通过长期演化达到稳定合作状态, 给出银企演化稳定策略。

1 相关研究评述

针对风险贷款以及科技银行在建立和发展中出现的问题, 学术界进行了一些有益的探讨, 现有文献的研究主要从两个方面进行:一是以宏观的视角探索了科技银行发展道路;二是针对科技银行高风险的特质, 重点着眼于科技银行的风险管理。

1.1 科技银行发展道路

DM Ibrahim认为风险贷款就是“向高速成长的企业发放的贷款”, 他研究了美国的银行类“科技银行”与非银行类“科技银行”之间的异同, 强调以企业是否有风险投资支持和是否拥有知识产权作为信号来判断企业质量, 重视创投提供的后续融资, 视其为还款来源[4]。根据中国国情, 国内学者也对科技银行的中国模式进行了探索, 如:崔兵、朱鸿鸣等[3,5]研究了何为科技银行最优的中国模式, 比较和分析了我国现有的主流模式———科技支行与科技小贷公司各自的优势和劣势;王春蕾等[6]立足我国经济科技最发达的上海地区, 分析了上海开展科技银行业务的优势, 并结合科技银行业务的国际经验提出上海开展中国式科技银行业务的实施策略;朱鸿鸣等[7]针对中美科技银行, 从发展演变、外部环境、运营机制等方面进行了系统比较, 分析了我国在创业投资市场和监管环境的滞后或不足, 从营造良好外部环境和优化内部运营机制 (包括商业模式、风险控制机制等) 角度提出发展我国科技银行的相关建议。这些文献基于对美国硅谷银行模式的分析, 给出了中国发展科技银行的相关政策建议。我国科技银行的实践证明, 我国科技支行因难以复制硅谷银行模式及其他因素而发展缓慢, 需要摸索一条适合我国金融外部环境的科技银行发展之路。

1.2 科技银行风险管理

科技银行为高风险的中小企业服务, 而信息不对称是造成中小企业融资难的主要原因之一。Rajan[8]提出信息不对称是融资需求和融资供给之间矛盾的本源。Stiglitz和Weiss[9]认为信息不对称会引起道德风险问题, 从而导致银行严厉限制贷款审批比例从而产生信贷配给现象。因此, 减少信息不对称带来的风险是科技银行风险管理的重要组成部分。王文轲等[10]考虑了在贷款合同签订前的信贷决策问题, 利用实物期权的方法建立了基于不同专利战略的科技银行信贷动态决策模型, 客观地对高新技术项目价值进行了评估, 对科技银行评估和选择贷款企业进行了指导。

同样的, 贷款后偿还阶段依然存在信息不对称。高风险等科技型中小企业有可能项目失败, 也有可能在利益的驱动下采取改变贷款用途 (投资风险更高的项目) 、做假账、资产重组等方式, 利用独占信息的优势有意逃避银行债务, 造成科技银行的坏账呆账, 因此, 为防范贷后道德风险, 提高科技银行信贷风险管理水平, 要合理设计贷款合同和奖惩机制, 把握好贷后跟踪监督力度。James[11]提出信用信息共享可以降低银行信贷风险, 并且有效的失信惩戒机制, 特别是利率惩戒机制可以起到关键性作用。李延喜[12]通过设置激励条件构造出防范道德风险的一般模型。程鹏等[13]通过对显性和隐形激励机制的分析, 建立了防范道德风险的激励模型。田银华等[14]基于企业对其声誉的考虑, 论述了银企信贷重复博弈的理性选择路径, 从而最大限度地预防和解决银企单次信贷博弈的负面作用和影响。贺学会等[15]讨论了信用资本的性质、价值度量及其对企业借贷行为的影响, 建立了一个失信惩戒模型。庞素琳[16]从考虑违约风险和项目成功率角度出发建立信贷决策模型, 给出了有抵押贷款和信用贷款的信贷决策机制。

上述文献的研究基本采用的是把信贷问题转化为最优控制问题或者经典博弈问题, 寻求一个最优的配给量、抵押品价值和惩罚力度等。这类方法的缺点是假设条件过于理想, 并且把银行企业孤立起来, 要求银企都是“理性人”的前提假设, 而现实中银行和企业是两个群体, 群体里的银行 (企业) 个体决策会受到其他银行 (企业) 个体决策的影响, 且几乎不存在“完全理性”。而演化博弈理论正好可以解决这种情形下的问题。该理论就是从“有限理性”出发, 个体的决策会通过互相模仿、学习和突变等过程互相影响实现, 动态地分析博弈双方的决策行为, 由此得到的结论更加准确地反映长期发展的现实情况。Taylor等[17]最早提出演化博弈的复制动态模型, 该模型源于生物进化论, 将演化稳定策略 (ESS) 和复制者动态 (Replicators Dynamic) 相结合, 模拟种群演化过程和稳定状态, 之后很多学者进行了深入研究。近些年来, 演化博弈理论也逐渐被运用在经济管理方面, 如企业间合作[18]、产业集群竞合行为[19]、金融创新[20]、信用担保[21]、企业信贷[22]等问题的研究。但这类文献在利用演化博弈解决实际问题时对于稳定点分析不够透彻和深入, 并且缺乏数据仿真。本文根据科技银行及其贷款对象自身独有的特征, 在文献[23]、[24]关于演化博弈理论研究的基础上, 结合非线性微分方程稳定性理论, 研究了科技银行如何设计贷款合同和建立奖惩机制, 使得科技银行和科技型中小企业在贷后长期演化达到稳定合作状态, 有效地防范贷后违约风险和道德风险。

2 演化博弈模型的建立

2.1 模型假设及银企决策支付矩阵

科技银行和科技型中小企业满足以下假设:

(1) 假设科技型中小企业拥有的自有资金为W, 投资一高新技术项目需要资金I, 需要向银行贷款B, 投资项目成功后收益率为r', 收益为R (R= (B+W) (1+r') ) 。假设项目成功率为p, 企业违约拖欠还款率为s, 贷款利率为r, 无风险利率为ρ。

(2) 科技型中小企业具有信用级别低、抵押不足的特点, 但从科技银行成功的案例来看, 单纯的信用贷款仅占科技型中小企业贷款的很少比例, 科技银行一般会通过抵押、质押及第三方担保等方式来控制贷款的风险, 因此我们假设银行提供的抵押担保价值为C0。

(3) 科技型中小企业获得贷款后, 资金的运用不再受到科技银行的控制, 企业为追求高利润和自身目的, 把资金运用到更高风险的项目或者其他用途中去 (和申请合同不一致) , 或者未能善用资金、懈怠管理而造成不必要的亏本, 增加了违约风险;另外, 由于银企信息不对称, 在贷后偿还阶段, 项目成功的企业有可能伪装成项目失败, 从而拖欠还款。

(4) 为防范企业贷后道德风险及违约还款行为, 银行建立对企业的贷后跟踪监督机制和奖惩机制, 从而增加银行贷后跟踪监督成本Cb。当科技型中小企业按时还款时, 如果企业是按照合同投资 (假设概率为q) 而获得成功的 (假设成功概率为p) , 则获得奖励M, 否则没有奖励;当企业出现违约情况时, 如果原因是项目失败, 则将会受到资金和信用的惩罚N1, 但是如果企业项目成功却因为骗贷对银行谎称失败, 一经查实, 将受到惩罚N2 (N2>N1) , 企业还要付出欺骗成本Ce。假设银行监督核查的效率为100%。

根据以上假设, 相应的银行和企业博弈双方支付矩阵如表1所示。

2.2 演化博弈过程的平衡点

假设X为科技银行群体采取跟踪监督策略的比例, 则采取不跟踪监督策略的比例为1-X;设Y为科技型中小企业群体采取按时还款策略的比例, 则采取逾期违约策略比例为1-Y;适应度函数用期望收益来表示。

科技银行采取跟踪监督、不跟踪监督策略的适应度函数和平均适应度函数分别为:

同样的, 可得科技型中小企业采取按时还款、逾期违约的适应度函数和平均适应度函数分别为:

根据复制者动态方程[17], 可得如下二维微分动力系统:

令, 得到方程的5个平衡点分别为A (0, 0) 、B (0, 1) 、C (1, 0) 、D (1, 1) 、E (X0, Y0) , 其中X0, Y0∈[0, 1], 且:

2.3 演化稳定策略

由非线性微分方程稳定性理论[25], 平衡点的稳定性由其雅可比行列式的特征根符号决定。计算该微分动力系统 (式 (1) ) 的雅可比矩阵J的行列式和迹, 得:

计算上述行列式Det J和迹tr J在各平衡点值及符号可判断其稳定性状况, 计算结果如表2所示。

从而得到以下科技银行和科技型中小企业博弈的演化稳定策略:

命题1:当p (1+r) B-C0<0, 即科技型中小企业贷款的抵押担保价值足以补偿银行贷款的本息时, 不管为何种初始贷款环境, 科技银行不需要跟踪监督, 企业必然按时还款。

证明:由表2中情形1可知, 此时系统只有一个稳定点B (0, 1) , 不管银行和企业群体采取策略的初始比例值为多少, 博弈双方会趋向于稳定点 (如表2中图1) , 即银企双方博弈的演化稳定策略是不跟踪监督和按时还款。

命题1为银企博弈最期望的理想状态, 但是由于科技型中小企业所提供的抵押价值有限, 包括寻求第三方担保也比较困难, 因此这种情况适用于政府担保的高科技项目或者可寻求担保的有一定声誉的企业。

命题2:当0

证明:由表2中情形2可知, 此时系统只有一个稳定点C (1, 0) 。不管初始比例值为多少, 博弈的银企双方会趋向于稳定点, 即银企双方演化的稳定结果是选择策略跟踪监督和逾期违约, 这是银企关系最不理想的状态。

由命题2可知, 当科技型中小企业提供的抵押担保不足时, 要想银企长期稳定合作, 设置奖惩机制至关重要, 但奖惩总额太小不能达到预期效果。

命题3:当0

情况 (1) :如果pq M+p N2+p Ce+ (1-p) N1≈p (1+r) B-C0且M、Cb相对于p N2+ (1-p) N1来说数值非常小, 即银行设置的奖惩金额要远远大于临界值, 并且惩罚额度远远大于奖励额度和监督成本, 那么企业选择按时还款, 而银行也就无需进行监督;

情况 (2) :如果pq M+p N2+p Ce+ (1-p) N1≈p (1+r) B-C0且M、Cb相对于p N2+ (1-p) N1来说数值非常小, 即银行设置的奖惩总额在临界值附近, 并且惩罚额度远远大于奖励额和监督成本, 此时企业在银行的跟踪监督下可以做到按时还款。

证明:由表2中情形3可看出, 此时博弈双方不会达到一个稳定点, 因此文献[20]提出如果出现这种类似情况, 需要政府、担保机构的加入才能使得企业和银行的关系向理想的状态发展。但是利用微分方程稳定性理论深入研究发现, 此时平衡点 (X0, Y0) 为中心焦点, 它的性质是随着时间的演化, (X, Y) 会在 (X0, Y0) 点上下波动并且振幅越来越小, 直至无限接近于中心焦点, 因此如果设置合理的参数值, 使得 (X0, Y0) 充分靠近银企期望的理想状态, 则 (X, Y) 也会无限地趋向理想状态。

情况 (1) : (X0, Y0) 接近于 (0, 1) 。由 (2) 式可知, 当pq M+p N2+p Ce+ (1-p) N1≈p (1+r) B-C0且M、Cb相对于p N2+ (1-p) N1来说数值非常小, 此时平衡点 (X0, Y0) 接近于 (0, 1) , 则 (X, Y) 也无限趋向靠近于 (0, 1) , 即若银行给予的惩罚金额和企业伪装成本很大, 并且远远大于奖励和监督成本, 此时经过时间的推移, 企业在高额的惩罚面前、在不断学习演化后, 演化结果会在理想状态附近小幅度振动, 即分别充分靠近采取不跟踪监督和按时还款策略。

情况 (2) : (X0, Y0) 接近于 (1, 1) 。当pq M+p N2+p Ce+ (1-p) N1接近于p (1+r) B-C0, 且相对于p N2+ (1-p) N1来说M、Cb值非常小, 此时平衡点 (X0, Y0) 接近于 (1, 1) , 则 (X, Y) 也无限靠近趋向于 (1, 1) , 即惩罚金额和企业伪装成本适度, 使得奖惩金加上抵押品价值差不多接近于贷款本息和, 此时银企关系经过不断学习演化后分别充分靠近采取跟踪监督和按时还款策略。

命题3中的两种结果对于科技银行建立奖惩机制中金额大小的设定有着非常重要的意义。在实际中, 与情况 (1) 的条件相比, 情况 (2) 的条件较容易执行, 可以根据贷款本息和企业可提供的抵押担保价值, 即可建立一个合理的奖惩机制, 最终使得中小企业按时还款。

3 银企演化博弈模型的数值仿真

在以上理论分析的基础上, 对上述模型进行数值模拟, 使得更加直观地展现银企关系的演化博弈情况并作进一步的讨论。

假设某科技型中小企业向科技银行贷款B=100万元 (考虑1年期贷款) , 贷款利率r=7%, 安全投资利率ρ=2.5%, 科技银行监督成本Cb=0.5万元, 企业投资高新技术项目成功率p=0.7, 企业按照合同投资的概率q=0.9。

3.1 参数满足命题1条件

抵押品价值C0大于本息和, 设为110万元。下面假设两组不同的奖惩值: (1) 奖惩较小时, 奖励M=0.2万元, 惩罚N1=2万元, N2=4万元, 企业伪装成本Ce=1万元; (2) 奖惩较大时, 奖励M=0.25万元, 惩罚N1=4万元, N2=8万元, 企业伪装成本Ce=2万元。如图1和图2所示分别描述了该系统在这两种情况下的演化路径 (相图) , 可以看出两幅图都有4个平衡点, 解的趋势最终都跑向 (0, 1) 点, 表明不管奖惩设置的大小, 都具有稳定点 (0, 1) 。

分别取 (X, Y) 的初始值为 (0.5, 0.1) 、 (0.9, 0.6) 和 (0.9, 0.4) 、 (0.5, 0.6) , 对以上两种情况进行仿真, 如图3和图4所示。结果表明, 当抵押品价值C0大于本息和的时候, 银行的奖惩各项参数不管大还是小, 博弈双方都趋向于 (0, 1) 点, 即银企博弈演化结果是分别选择不跟踪监督和按时还款策略。

3.2 参数满足命题2条件

抵押品价值C0小于本息和, 设为90万元, 并且奖惩值较小, 假设奖励M=0.2万元, 惩罚N1=2万元, N2=4万元, 企业伪装成本Ce=1万元, 如图5所示描述了该系统在此情况下的演化路径 (相图) 。可以看出图5有4个平衡点, 解的趋势最终都跑向 (1, 0) 点, 表明具有稳定点 (1, 0) 。

取 (X, Y) 的初始值为 (0.6, 0.9) 、 (0.9, 0.6) 对模型进行仿真, 如图6所示。结果表明, 当抵押品价值C0小于本息和, 银行的奖惩各项参数也很小的时候, 两者之和不能补偿贷款本息和, 博弈双方都趋向于 (1, 0) 点, 即银企博弈演化结果是分别选择跟踪监督和逾期违约策略。

3.3 参数满足命题3条件

同样的抵押品价值C0小于本息和, 设为90万元, 此时奖惩值较大, 设置奖励M=0.25万元, 惩罚N1=4万元, N2=8万元, 企业伪装成本Ce=2万元, 如图7所示描述了该系统在此情况下的演化路径 (相图) 。可以看出图7有5个平衡点, 没有稳定点, 其中中心焦点周围的解为相互螺旋连接的闭轨线, 解的趋势无限靠近中心焦点。

取 (X, Y) 的初始值为 (0.6, 0.9) 、 (0.3, 0.8) 对模型进行仿真, 如图8所示。结果表明, 当抵押品价值C0小于本息和, 而银行的奖惩各项参数较大的时候, 两者之和大于贷款本息和, 系统没有稳定点, 但是演化结果在中心焦点 (0.6683, 0.9309) 上下波动, 随着时间的增加, 波动幅度越来越小, 无限接近于中心位置。

接下来模拟命题3中的两种不同情况:

情况 (1) :中心焦点 (X0, Y0) 接近于 (0, 1) 。设置奖励M=0.1万元, 惩罚N1=30万元, N2=50万元, 银行监督成本Cb=0.1万元, 企业伪装成本Ce=20万元。计算得 (X0, Y0) = (0.0954, 0.9976) , 分别取初值为 (0.09, 0.98) 和 (0.15, 0.8) , 如图9所示, (X, Y) 接近于 (0, 1) , 即接近于100%的银企群体分别选择策略不跟踪监督和按时还款。

情况 (2) :中心焦点 (X0, Y0) 接近于 (1, 1) 。设置奖励M=0.1万元, 惩罚N1=3万元, N2=6万元, 银行监督成本Cb=0.1万元, 企业伪装成本Ce=0.7万元。计算得 (X0, Y0) = (0.9931, 0.9801) , 分别取初值为 (0.9, 0.9) 和 (0.7, 0.8) , 如图10所示, (X, Y) 接近于 (1, 1) , 即接近于100%的银企群体分别选择策略跟踪监督和按时还款。

4 结论与启示

本文建立的科技银行和科技型中小企业演化博弈模型及思路将有助于科技银行进行正确有效的信贷风险管理并促进科技银行与科技型中小企业的长期合作发展。研究结果表明, 贷款抵押担保价值以及科技银行建立的奖惩机制对于防范道德风险、有效减少坏账呆账有着重要的意义。基于演化博弈的复制动态模型和非线性微分方程稳定性理论得到了在各类情况下设置抵押担保额度和奖惩金额的有效办法, 并且利用“中心焦点”的性质为解决此类问题提出了一种新的思路。

首先, 若科技型中小企业可提供的抵押品担保价值足以补偿贷款本息, 科技银行无需跟踪监督, 企业一定是按时还款。因此, 对于较为成熟的科技型中小企业, 或者自身有一定实力的企业家投资的高科技中小企业, 可以在设计贷款合同的时候提高抵押品的价值以确保资金的安全, 避免企业或企业家利用银行和国家资源来为自己谋利。

其次, 对于有专利但前景未明、财力薄弱的高新技术小企业来说, 很难提供高价值的抵押和担保, 此时需要通过建立合理的奖惩机制来防范贷后道德风险和违约风险。具体包括3个方面: (1) 设置奖惩总额至少大于贷款本息与抵押担保价值之差, 才能有可能达到防范道德风险的效果; (2) 对于刚刚起步的小型科技银行, 因其缺少人力财力, 在跟踪监督贷款方面心有余而力不足, 可以通过设置较高的惩罚机制 (即欺骗惩罚金额和企业伪装成本远远大于奖励和监督成本) 来维持与中小企业的稳定合作关系, 有效控制风险; (3) 对于一般的科技银行, 通过设置适度的惩罚金额 (奖惩金额接近于贷款本息与抵押品价值之差) , 科技银行和中小企业的稳定策略会分别充分靠近跟踪监督和按时还款, 从而达到银企博弈的理想状态。

综上, 科技银行要根据借款对象的类型、自身特点以及预期达到的效果来合理地建立与完善信贷机制和奖惩机制, 有效地控制贷后违约风险和道德风险。

演化稳定策略篇2

物流需求企业与第三方物流合作过程中,二者成功的关键在于第三方物流企业是否积极努力,而第三方物流是否积极努力又与物流需求企业的监督有关。为了促使第三方物流努力完成任务,物流需求企业可以对第三方物流进行监督,为了研究两者之间的合作关系以及稳定性,本文采用演化博弈模型对两者的合作状态进行研究,试图寻找两者之间的最优状态。

2 模型构建

物流需求企业与第三方物流企业的合作过程中,物流需求企业可选择对第三方物流监督或不监督,在物流需求企业的( 监督,不监督) 策略下,第三方物流则考虑( 努力,不努力) ,双方的策略选择主要依据成本与收益的大小。模型基本假设如下:

假设1: 物流需求企业与第三方物流的行动在时间和信息上是一致的;

假设2: 物流需求企业支付第三方物流的固定服务费用为P;

假设3: 当第三方物流努力服务时,物流需求企业所获得的收益为V0,当第三方物流企业不努力服务时,物流需求企业所获收益为V1,V0> V1;

假设4: 第三方物流企业努力的成本为C1,不努力的成本为C2,C1> C2;

假设5: 物流需求企业对第三方物流的监督成本是C0;

假设6: 当物流需求企业对第三方物流进行监督时,发现物流需求企业不努力,则对其进行惩罚,惩罚金额为F,惩罚金额要大于物流需求企业选择监督的成本,即F > C0,此外惩罚金额还要大于第三方物流节省下来的成本,即F > C1—C2。

假设7: 物流需求企业选择监督的概率为x,不监督的概率为1 - x; 第三方物流选择努力的概率为y,不努力的概率为1 - y,0≤x,y≤1。

两者之间的博弈收益矩阵如图1所示。

3 物流供需企业演化博弈分析

物流需求企业采取监督、不监督策略时的期望收益与平均收益分别为E1e,E1n,1。

物流需求企业的“监督”复制动态为:

物流需求企业在以上三种情况下的动态趋势及稳定性如图2所示。

第三方物流采取努力、不努力策略时的期望收益与平均收益分别为E2e,E2n,2。

第三方物流“努力”的复制动态为:

第三方物流在以上三种情况下的动态趋势及稳定性如图3所示。

上述的复制动态描述了物流需求企业与第三方物流监督与努力的演化动态,根据两者的复制动态可以得到复制动态方程的雅可比矩阵J以及其行列式Det( J) 和迹Tr( J) 。

根据F ( x ) = 0 , F ( y ) = 0得出5个均衡点,分别是( 0 , 0 ) ,( 0 , 1 ) ,( 1 , 0 ) ,( 1 , 1）(（C1- C2）/F , (F - C0)/F ) ,将5个均衡点分别带入雅克比矩阵,得到其稳定性分析结果,如表1所示。

由表1我们可以知道,在5个局部均衡点中,没有ESS。进一步,将上述两个群体类型比例变化复制动态的关系用坐标平面相位图来表示,如图4所示。

图中,如果初始状态落在Ⅰ区域中,演化博弈将会收敛于平衡点x =0,y =1,即物流需求企业选择不监督,第三方物流选择努力; 若落在Ⅱ区域中,演化博弈将会收敛于平衡点x = 0,y = 0, 物流需求企业选择不监督,第三方物流选择不努力; 若落在Ⅲ区域,演化博弈将会收敛于x = 1,y = 0,物流需求企业选择监督, 第三方物流选择不努力; 若落在Ⅳ区域中,演化博弈将会收敛于x =1,y =1,物流需求企业选择监督,第三方物流选择努力。根据四个区域面积的大小,可以得出影响其面积因素是F, C0,C1,C2,这些因素的大小将会决定四个区域面积的大小,区域面积的大小则会影响两者初始状态选择的概率。

我们将综合相位图转化成轨迹走向图,如图5所示。从轨迹走向图我们可以看出,x,y的轨迹走向是闭合式轨迹圈, 并没有趋于一个极限环,所以我们可以说该博弈没有演化稳定策略,物流需求企业与第三方物流在演化博弈中处于一种周期行为模式。

4 结论

演化稳定策略篇3

尽管建立战略联盟的企业的收益要比没有形成联盟的企业平均高出40%[2], 但根据Wildeman的相关研究, 企业战略联盟的失败率高达70%[3]。战略联盟的高失败率引发了理论界对联盟不稳定原因及稳定性构建方法的探讨。近年来, 国内外学者对产学研合作问题的关注度持续升温, Hazlett、Santoro等[4,5]分别从组织学习理论和资源依赖理论几个角度探讨了产学研联盟形成的动因。刘炜等[6]探讨了企业产学研合作倾向的影响因素及其作用程度。段晶晶等[7]认为集体理性与个体理性之间的矛盾所导致的利益有限理性是造成产学研联盟不稳定的根本原因。李嘉明等[8]认为将政府纳入产学研联盟既能克服传统自组织不稳定性, 又能克服被组织的内耗缺陷。叶金凤等[9]得出可以通过提高惩罚力度、实际成绩水平和收益预期以保持联盟稳定性。胡冬雪等[10]运用对比分析方法, 对国内外产学研合作的法律现状进行比较分析, 为我国产学研合作立法提供借鉴。

在以往关于产学研合作的研究著作中, 传统博弈论模型被广泛利用。多数学者倾向用完全且完美信息条件下的重复博弈理论说明产学研合作的动因形成、利益分配、稳定性及对象选择等问题。但是, 结合产学研联盟供需双方、所处环境的现实特征可知:企业、学校及研究机构在产学研联盟博弈中常处在不断调整自身策略以获得更大利益的“进化”中。这一具有生态学特征的行为特点使演化博弈论更适合用于产学研联盟中的利益博弈分析。因此, 本文通过构建产学研演化博弈模型, 对产学研合作的联盟稳定性进行分析, 探讨有限理性条件下双方的相互作用机制。

1 产学研演化博弈模型

1.1 模型构建

按照博弈中获得收益所需投入的不同, 将产学研联盟中的三方参与者企业、学校、研究机构划分为产方 (企业) 及学研方 (学校、研究机构) 。

1.1.1 产方。

产方通过对学研方进行投资获得预期收益。本文将产方决策空间界定为{A1提供充分物质支撑, A2不提供充分物质支持}, A1指产方在产学研联盟形成过程中, 为学研方提供充足的物质支撑, A2表示产方仅提供能维持学研方进行研究开发的最低物质保障, 采取消极合作态度。∏1表示产学研联盟形成后即能为产方带来的净收益 (为研究方便, 此处将产方选择策略A2时所需的必要成本囊括在内) , Ch表示产方对联盟提供充分支持时的额外合作成本, R表示通过积极的产学研合作, 给产方带来的额外收益, T1、T2表示双方因合作而带来的长期效益及未来合作几率等, K表示在对方进行充分合作而己方采取机会主义行为时, 己方对对方利益的倾占。

1.1.2 学研方。

学研方通过利用产方投资资金、实验设备等进行相关研究以获得预期收益。本文将学研方决策空间界定为{B1进行充分研发, B2不进行充分研发}, B1指学研方在产学研联盟中倾力投入, 积极参与。B2指学研方消极投入, 仅能维持最低的创新水平。∏2表示产学研联盟形成后即能为产方带来的净收益, Eh表示学研方进行充分研究时的合作成本 (除去完成B2策略以外的成本费用) 。综上可得两方得益矩阵如表1所示。

1.1.3 演化博弈模型。

假设产学研联盟中, 产方提供充分物质支持的概率为X, 学研方进行充分研发的概率为Y。根据演化博弈论思想, 计算博弈双方适应度与平均适应度:

产方选择为联盟提供充分物质支持的期望收益

产方选择不为联盟提供充分物质支持的期望收益UA2=y (∏1+K1) + (1-y) ∏1

产方平均期望收益

产方复制动态方程

同理, 学研方复制动态方程

在产学研联盟中, 产方与学研方投入水平的演化过程可由复制动态方程 (a) (b) 进行描述。动态方程 (a) (b) 的雅可比矩阵J

令dx/dt=0, dy/dt=0, 得出5个均衡点分别为 (0, 0) , (1, 1) , (0, 1) , (1, 0) , (Eh/ (T2+R-K2) , Ch/ (T1+R-K1) ) 其稳定性分析如表2所示[11,12,13]。

由表2可知在产学研双方合作博弈中, 有 (0, 0) 、 (1, 1) 两个进化稳定策略, 即: (A1, B1) 产方提供充分物质支撑, 学研方进行充分研发; (A2, B2) 产方不提供充分物质支撑, 学研方不进行充分研发。产方与学研方博弈的动态过程可由图1进行描述。

图1-1中为鞍点。鞍点与两个不稳定点B (0, 1) 、C (1, 0) 连接而成的折线可理解为整个博弈过程最终收敛于O (0, 0) 或F (1, 1) 的临界线。即OCMB收敛于O, 为非良性收敛, 相反FCMB收敛于F, 为良性收敛。M点能决定OCMB与FCMB的面积大小, 即能决定博弈合作结果收敛于O或F的相对概率大小。

1.2 模型稳定性分析

由的参数可知, 等式右边表示学研方进行充分合作投入的成本与其进行积极合作后可能获得的剩余利益的比例。

当产学研各方积极合作的成本一定时, 产方因合作带来的额外收益及长远利益的增大或学研方采取机会主义行为对产方利益侵占的减少 (即积极合作剩余利益的增大) 能有效地使X变小, 系统收敛于F点即模式 (A1, B1) 的概率增大, 即产方倾向于积极合作, 进行充分投入的几率增加。当积极合作剩余利益一定时, 积极合作成本的增加必然导致X的增大, 系统收敛于O点即模式 (A2, B2) 的概率增大, 即学研方倾向于消极合作, 进行不充分投入的几率增加。对学研方的分析结果亦如此。

在产学研合作博弈过程中, 为达到良性进化稳定策略, 必须对以上参数进行综合考虑。

1.2.1 系统参数T、R。

由上分析, 参数T、R的增大可以增加系统收敛于良性进化稳定策略的几率, 但在产学研合作中, 合作成果具有一定风险性, 对合作双方而言, 对额外收益R的初始界定一般较低, R只能随着合作的不断深化逐渐提高。长远利益T主要包括合作双方结束本次合作后再次合作的可能性、双方各自社会影响力的提升等。双方对长远利益初始值的界定, 亦建立在合作的持续性及项目创新性之上。为增大此两项参数的初始预估, 产学研双方需在合作前认真考察合作对象能力, 调研项目创新性, 建立长期合作和信任机制。另外, 为提高联盟合作趋向良性稳定策略的几率, 产方可采用非一次支付的方式, 这样的做法相当于引进与T、R相似的另外一个参数L。相较而言, 对L的控制明显更为容易。

1.2.2 系统参数K。

与上诉参数不同, 减少采取机会主义行为时对对方利益的侵占K的值, 才能有效的促进系统获得良性稳定。产学研合作过程中, 由于双方合作监督机制的不健全, 可能出现机会主义现象。在己方未进行充分投入而对方进行了充分投入情况下, 己方获得收益K, 而对方损失积极合作成本。降低侵占K的初始值, 主要在于对机会主义行为的控制。联盟合作前, 合作双方需共同设定完备的联盟监督机制, 包括研发过程中的监督考核、对合作成果知识产权的的有效保护等。

1.2.3 积极合作成本Ch、Eh。

积极合作成本的增大会使系统非良性收敛的概率增大, 因此为增大系统收敛于F点的概率, 需补贴合作双方因积极合作充分投入而产生的额外合作成本, 提高产学研合作成功概率。从产学研联盟发展的现状以及世界各国的经验来看, 能够扮演这种第三方角色的主体只能是政府, 政府的专项补贴是产学研联盟中资金的重要来源之一[14]。由于产方与学研方进行合作时, 双方对创新项目的产出风险有一定的顾忌, 因此很难保证倾力研发、投入。此时, 需要政府通过专项资金, 作为对产学研双方的成本补贴, 减小项目风险, 促使博弈系统趋向良性稳定。

2 结论与不足

本研究通过建立产学研联盟合作双方的演化博弈模型, 分析了影响产学研合作稳定性的各项系统参数。结合经模型求解的稳定状态, 提出促进系统收敛于良性进化稳定策略的建议。进化稳定策略依赖于产学研双方的初始状态, 实现联盟的良性稳定合作, 关键在合作双方是否拥有长期合作的信心、良好的合作效益预估, 另外政府部门对稳定结果有着重大影响。相关建议主要内容如下。

2.1 适合联盟双方的合作机制

联盟双方选择合作之前, 必须充分考虑双方的能力差异, 是否具有互补性, 对方是否可以满足己方的诉求。成功的联盟合作需建立在充分的权衡之上, 同样, 合作机制的选择对合作成败的影响也颇为重要。合适的合作机制能激发合作双方的研发潜力, 本研究认为产-学研双方风险共担 (非一次性支付) 的合作形式对系统进行良性收敛有正向影响。

2.2 完备的联盟监督机制及合作信任机制

完备的联盟监督机制及合作信任机制能有效预防合作双方机会主义行为的发生。产方与学研方进行联盟合作的动机不尽相同, 同时合作过程中的信息不对称现象进一步增加双方进行机会主义行为的几率。如果合作双方都从各自利益出发获取最大利益, 那么产学研联盟将难以维系。要想实现长期有效的合作, 双方必须建立起有效的合作信任机制, 明确联盟合作中信息的交流, 减少灰色信息地带, 减少机会主义行为, 增强双方长期合作的信心。

2.3 政府部门的专项补贴机制

产学研合作双方应积极寻求政府的政策、专项资金支持。政府应当从社会发展的长远角度出发, 充分发挥调控作用, 通过相关政策法规的制定为产学研各方提供良性的合作环境, 政府可以通过建立专项资金, 对产学研双方进行成本补贴, 减小项目风险, 从而促使博弈系统趋向良性稳定, 政府资助对产学研合作效率有显著的正向影响, 且政府资助的影响效果具有长效性[15]。

在本研究的假设条件下, 产学研合作系统能自发的进行演化, 但应当明确, 在产学研合作过程中, 整个博弈系统会受到外界因素的影响。但在本研究中此类因素未通过量化引入假设的博弈模型当中。另外, 由我国现实状况可知, 产学研联盟合作博弈的参与方不仅为产方及学研方, 政府同样扮演着相当重要的角色, 因此可将政府作为第三方博弈者引入构建的博弈模型, 并对此模型进行分析讨论。

摘要：为研究产学研联盟中产方及学研方的合作博弈行为, 以演化博弈为主要分析工具, 构建产学研合作演化博弈模型。通过分析不同策略下产学研双方的行为及收益, 得出在博弈过程中, 双方应充分考虑额外收益、合作成本等因素, 按照收益最大化原则, 权衡合作过程中机会主义行为的利弊, 避免短视。另外, 政府相关政策的制定将有利于促进产学研合作联盟的稳定性。

演化稳定策略篇4

在由美国次债引发的国际金融风暴的背景下,传统金融机构融资低迷的同时以Prosper & Lending Club为代表的P2P网贷业务发展迅速。作为金融创新的一种模式,P2P网络借贷为调节信贷市场的供需失衡提供了新途径。P2P网贷短周期、高利率的特点得到投资者的广泛青睐,无抵押的贷款模式也吸引了众多因信用状况不佳而被银行拒之门外的中低收入人群[1]。相较于传统的银行贷款形式,P2P网贷具有三大特点: 借款人的每一笔贷款可以有多个投资者、投资者的行为会受到其他投资者的行为影响,且投资者不具备甄别借款人信用的能力[2]。Herzenstein et al.[3]、Yum et al.[4]等学者的研究均表明在P2P网络借贷中投资者并不是完全理性的,投资者在进行投资决策的过程中存在相互模仿的羊群效应。Zhang & Liu在Herzenstein研究的基础上进一步证实了投资者的羊群行为是理性的。由信息不对称造成的逆向选择[5]问题在P2P行业中尤为突出[6],很多学者用实证的方法研究了借款人提供的软信息对网络借贷成功率、借贷利率以及违约率的影响[7]。为解决信息不对称问题,还有学者通过挖掘借款人的朋友、团队等社交网络关系来甄别借款人的信誉质量。Chen[8]等利用785 个拍拍贷的在线出借人数据探究了哪些因素驱动了出借人对贷款者的信任。

相较于国外,国内部分学者也开展了P2P网贷平台的实证研究。李焰等[9]研究了借款人描述性信息对投资人决策的影响,研究发现描述性信息中包含的不同特征对投资人决策的影响不同,表明自己是稳定的更有助于成功借款。廖理等[10]基于人人贷平台数据发现我国信贷市场中的投资者具有良好的风险判断能力,投资者能够借助借款人的公开信息识别相同利率背后所包含的不同违约风险。王会娟和廖理[11]从信息不对称的理论框架出发,研究网络借贷平台的信用认证机制对借贷行为的影响。庄雷和周勤[12]研究了P2P网络借贷平台的身份歧视现象。国内较多学者对P2P网贷行业中凸显的监管缺失问题进行关注,这与P2P平台在我国的发展紧密相关。继2007 年我国第一家网贷公司上线以来,出借人的缺乏、坏账的攀升、还本退息的承诺,增大了P2P平台资金链断裂的危机,P2P平台跑路事件频发。2011 年7 月,哈哈贷因市场信用问题、运营资金短缺等原因宣布关闭,其 “善后”方案仅仅是垫付截至8 月20 日借出者的未收回款。后有贝尔创投、淘金贷、融宜宝、尤易网等多个网贷平台频繁出现风险的事件,涉及金额数千万元。2013 年,东方创投、家家贷、力合创投等15 家P2P公司相继倒闭,“福翔创投”的网贷平台更是创造了开业不到3 天即 “跑路”的最短 “跑路史”。2014 年,国临创投、富豪创投出现提现困难。同年,国内首家拥有 “担保”背景的旺旺贷平台跑路,卷走资金700 万元。

P2P平台的倒闭潮对金融监管体系与腐败防治体系提出了巨大挑战,成为了2015 年两会的热点话题,促使央行出台对互联网金融进行适度监管的新措施。我国P2P网贷行业中凸显的监管缺失问题不仅受到了政界的巨大关注,也引起了国内学者的研究热情。很多学者从理论层面展开了论述分析,为P2P行业的监管提出了合理可行的建议。也有少数学者采用博弈论的方法对P2P网贷行业的监管问题进行了有益的探索与研究。帅青红[13]构建了监管机构与P2P网络借贷公司的静态博弈模型,在完全理性的前提下分析了监管机构与P2P网络借贷公司双方的最优效用,研究了监管机构与被监管公司的博弈策略。宫晓林[14]在系统支付矩阵收益完全确定的条件下,运用前景理论和演化博弈论分析了P2P平台的主要风险,探讨了政府、P2P网络借贷平台和贷款人这三大网络借贷利益相关方的策略选择论述了政府监管的必要性。当前基于经济学模型对P2P网贷行业监管问题的研究有待深入探讨。邹辉霞和刘义[15]将信号传递博弈模型引入到P2P网络借贷行为的研究当中,分析小微企业和出借方在追求各自利益最大化的前提下达到双方利益均衡的博弈过程。

当前相关研究一般假定博弈双方收益大小是完全确定的,而忽略了博弈双方收益大小不完全确定的现实情况。因此,本文在博弈双方收益大小不完全确定的框架下,考虑P2P网贷平台与政府两大博弈群体的有限理性特征,基于演化博弈的思想建立P2P网贷平台选择合规运营与违规运营、政府对P2P网贷平台强监管与弱监管各自两种策略的非对称动态复制系统。收益大小不完全确定的条件给系统动态博弈稳定性的分析带来了困难,通过分析不同的参数取值条件,我们解析了系统在九种不种的参数取值情形下的演化稳定状态,为P2P网贷行业运营与监管的长期演化趋势做出更为真实和准确的预测,为监管部门监管政策与约束机制的设计提供参考。

二、模型参数说明

博弈方为两类群体: 一方为P2P网贷平台,另一方为监管官员。在P2P网贷平台与监管官员反复博弈的演化过程中,博弈双方具有有限理性特征,虽无事先预测能力但有事后判断能力。当博弈方在所得利益较差时迟早会发现改变策略才能对自己更有利,并开始模仿另一种策略的博弈方。因此,博弈双方的策略选择是一个动态演化的过程,在P2P网贷平台与和监管官员两大群体成员随机配对反复博弈的演化过程中,博弈双方的行为都是在不断调整和改进的,即博弈双方的策略类型比例均是随时间动态变化的。

为分析P2P网贷平台与监管机构官员群体成员通过模仿学习向优势策略转变的渐进过程,探讨系统演化的均衡点及其稳定性,本文作了如下假设: 假设每次博弈都由监管官员与P2P网络借贷平台随机配对进行,P2P网贷平台的行为集为( 合规运营,违规运营) ,监管官员的行为集为( 强监管,弱监管) ;假设在强监管力度下,违规运营的P2P网贷平台一定能被政府官员发现。而在弱监管力度下,违规运营的P2P网贷平台有一定概率被媒体曝光。

模型中使用的符号及说明见表1。

三、P2P网贷平台和政府监管演化博弈支付矩阵构建

本文在由P2P网贷平台和监管官员两大类有限理性博弈方组成的群体成员随机配对反复博弈的分析框架内分析该博弈。基于上一节的假设,分析双方的收益: 当监管官员选择强监管时,P2P网贷平台在合规运营的效用为 Μ - cH,违规运营的效用为N - cL- Ζ ; 当监管官员选择弱监管时,P2P网贷平台在合规运营的效用仍为 Μ - cH,而选择违规运营则可能被媒体曝光,其得到的效用为N - cL- θΖ 。

分析监管官员的效用值: 当P2P网贷平台合规运营时,此时监管官员选择强监管的效用值为S+-ωH,选择弱监管的效用值为- ωL; 当P2P网贷平台违规运营,此时监管官员选择强监管时的效用值仍为S++ ΔS - ωH,选择弱监管时官员的效用值为- ωL- θS 。综上,可以得出P2P网贷平台和政府官员在不同策略选择下的支付矩阵如表2 所示。

P2P网贷平台选择合规运营的期望收益Up1与违规运营的期望收益Up2分别为:

将P2P网贷平台运营商群体的平均收益记为

监管官员强监管的期望收益U1q与违规运营的期望收益U2q分别为:

记监管官员群体的平均收益为

按照生物进化复制动态的思想,采用的策略收益较低的博弈方会改变自己的策略,转向模仿有较高收益的策略,因此群体中采用不同策略成员的比例就会发生变化。如果采取该策略的个体适应度或收益高于整个群体的平均适应度,那么选择该策略比例会增长。

因此,P2P网贷平台与监管官员两类有限理性博弈方的动态学习速度可用以下两个微分方程表示。

令,将式( 1) 、式( 2) 代入F( p) ,将式( 4) 、式( 5) 代入F( q) ,整理得:

F( p) 表示选择 “合规运营” 的P2P网贷平台的比例随时间的变化率,F( q) 表示选择 “强监管” 策略的监管官员的比例随时间的变化率。

四、稳定状态及其稳定性分析

考虑动态方程( 9) ,当F( p) = 0 ,意味着所有的p都是系统的稳定状态。即当p = 0 ,p = 1 ,以及时,P2P 网贷平台群体中采取 “合规运营”策略的平台所占的比例是稳定的。

同样,考虑动态方程( 10) ,当F( q) = 0 ,意味着所有的q都是系统的稳定状态。当q = 0 ,q = 1 ,以及时,监管官员群众中采取 “强监管”策略的官员所占的比例是稳定的。

令可以得到系统的5 个稳定状态,分别为( 0,0) ,( 0,1) ,( 1,0) ,( 1,1) ,。这5 个稳定状态并非都是系统的进化稳定策略ESS。

在此基础上,用雅可比矩阵判断式( 9) 与式( 10) 这两个微分方程系统的5 个稳定状态是否为演化稳定策略。当某个稳定状态的值使得雅可比矩阵满足期行列式值大于0,同时其迹的值小于0 这两个条件时,系统的稳定状态将成ESS ( Friedman) 。由式( 9) 与式( 10) 可得系统的雅可比矩阵为:

式中,分别为:

系统5 个稳定状态对应的的具体取值见表3。

从表3 的数值可知,稳定状态对应的雅可比矩阵的迹为0,因此该稳定状态不可能成为系统的ESS。对于系统另外4 个稳定状态( 0,0) 、( 0,1) 、( 1,0) 、( 1,1) ,我们接下来分析不同情形下稳定状态的演化稳定性,探讨这4 个稳定状态成为ESS的可能性。

令 ΔR = ( N - cL- θΖ) - ( Μ - cH) ,ΔZ = ( N - cL- Ζ) - ( Μ - cH) ,ΔP = ( S++ ΔS - ωH) - ( - ωL- θS ) ,ΔQ = ( S+- ωH) - ( - ωL) 。ΔR代表P2P网贷平台在有 θ 概率被媒体曝光的可能性下,违规运营相较于合规运营的差额效用,该差额效用与违规运营被媒体曝光的概率 θ 负相关; ΔZ代表在政府官员采取强监管力度时,P2P网贷平台违规运营相较于合规运营的差额效用; ΔP代表当P2P网贷平台采取违规运营策略时,监管官员选择强监管相较于弱监管的差额效用; ΔQ代表当P2P网贷平台采取合规运营策略时,监管官员选择强监管相较于弱监管的差额效用,且存在 ΔR > ΔZ ,ΔP > ΔQ 。

情形一: ΔZ > 0 且 ΔQ > 0

此种情形表示: ①不管监管官员采取何种监管策略,P2P网贷平台违规运营的效用始终比合规运营的效用高; ②P2P网贷平台选择合规运营时,监管官员选择强监管的效用大于弱监管效用。此时系统4 个稳定状态的稳定性分析见表4。

从表4 分析可知,( 0,1) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于违规运营,同时监管官员的行为将全部趋向于强监管。这说明,监管官员努力监管得到的激励较高,因而会采取强监管策略。但同时不管官员采取何种行为策略,P2P网贷平台采用合规经营策略的效用始终要低于违规经营的效用,因此违规运营将成为P2P网贷平台群体的理性选择。

情形二: ΔZ < 0 < ΔR且 ΔQ > 0

此种情形表示: ①P2P网贷平台在有 θ 概率被媒体曝光的可能性下,违规运营的效用高于合规运营的效用,但是在监管官员采取强监管力度的条件下,P2P网贷平台违规运营的效用低于合规运营的效用; ②P2P网贷平台选择合规运营时,监管官员选择强监管的效用大于弱监管效用。系统4 个稳定状态的稳定性分析见表5。

从表5 分析可知,( 1,1) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于合规运营,同时监管官员的行为将全部趋向于强监管。这说明,监管官员努力监管得到的激励较高,因而会采取强监管策略,但同时在官员的这种行为策略下,P2P网贷平台采用违规经营策略的效用要小于合规经营的效用,因此合规运营将成为P2P网贷平台群体的理性选择。

情形三: ΔR < 0 且 ΔQ > 0

此种情形表示: ①不管监管官员采取何种行为策略,P2P网贷平台选择违规运营的效用始终低于合规运营的效用; ②P2P网贷平台选择合规运营时,监管官员选择强监管的效用大于弱监管效用。系统4 个稳定状态的稳定性分析见表6。

从表6 分析可知,( 1,1) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于合规运营,同时监管官员的行为将全部趋向于强监管。这说明,监管官员努力监管得到的激励较高,因而会采取强监管策略。但同时对于P2P网贷平台而言,不管监管官员采取何种行为策略,P2P网贷平台选择违规运营的效用始终低于合规运营的效用,因此合规运营将成为P2P网贷平台群体的理性选择。

情形四: ΔZ > 0 且 ΔQ < 0 < ΔP

此种情形表示: ①不管监管官员采取何种监管策略,P2P网贷平台违规运营的效用始终比合规运营的效用高; ②P2P网贷平台选择合规运营时,监管官员由于没有额外的奖励致使其选择强监管的效用低于弱监管,而当P2P网贷平台采取违规运营被监管官员发现时,监管官员因为有额外的奖励、社会对官员认可度致使其选择强监管的效用高于弱监管。系统4 个稳定状态的稳定性分析见表7。

从表7 分析可知,( 0,1) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于违规运营,同时监管官员的行为将全部趋向于强监管。这说明,P2P网贷平台违规运营的效用比合规运营的效用高,因而会采取违规运营策略。但同时而当P2P网贷平台采取违规运营一定会被监管官员发现,此时监管官员因为有额外的奖励、社会对官员认可度致使其选择强监管的效用高于弱监管,因此强监管将成为监管官员群体的理性选择。

情形五: ΔZ < 0 < ΔR且 ΔQ < 0 < ΔP

此种情形表示: ① P2P网贷平台在有 θ 概率被媒体曝光的可能性下,违规运营的效用高于合规运营的效用,但是在监管官员采取强监管力度的条件下,P2P网贷平台违规运营的效用低于合规运营的效用;② P2P网贷平台选择合规运营时,监管官员由于没有额外的奖励致使其选择强监管的效用低于弱监管,而当P2P网贷平台采取违规运营被监管官员发现时,监管官员因为有额外的奖励、社会对官员认可度致使其选择强监管的效用高于弱监管。系统4 个稳定状态的稳定性分析见表8。

从表8 分析可知,所有的稳定状态都不是系统的演化稳定策略,这说明这种情形下P2P网贷平台群体与监管官员群体无法趋向于一个稳定点,整个系统处于周期振荡状态。

情形六: ΔR < 0 且 ΔQ < 0 < ΔP

此种情形表示: ①不管监管官员采取何种行为策略,P2P网贷平台选择违规运营的效用始终低于合规运营的效用; ② P2P网贷平台选择合规运营时,监管官员由于没有额外的奖励致使其选择强监管的效用低于弱监管,而当P2P网贷平台采取违规运营被监管官员发现时,监管官员因为有额外的奖励、社会对官员认可度致使其选择强监管的效用高于弱监管。系统4 个稳定状态的稳定性分析见表9。

从表9 分析可知,( 1,0) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于合规运营,同时监管官员的行为将全部趋向于弱监管。这说明,P2P网贷平台违规运营的效用比合规运营的效用低,因而会采取合规运营策略。但同时而当P2P网贷平台采取合规运营时,监管官员由于没有额外的奖励致使其选择强监管的效用低于弱监管,因此弱监管将成为监管官员群体的理性选择。

情形七: ΔZ > 0 且 ΔP < 0

此种情形表示: ①不管监管官员采取何种监管策略,P2P网贷平台违规运营的效用始终比合规运营的效用高; ②不管P2P网贷平台采取何种运营行为,监管官员选择强监管的效用始终低于弱监管的效用。系统4 个稳定状态的稳定性分析见表10。

从表10 分析可知,( 0,0) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于违规运营,同时监管官员的行为将全部趋向于弱监管。此时市场将是一个不诚信的失败状态。这说明,P2P网贷平台违规运营的效用比合规运营的效用高,因而会采取违规运营策略。但同时监管官员选择强监管的效用始终低于弱监管,因此弱监管将成为监管官员群体的理性选择。

情形八: ΔZ < 0 < ΔR且 ΔP < 0

此种情形表示: ① P2P网贷平台在有 θ 概率被媒体曝光的可能性下,违规运营的效用高于合规运营的效用,但是在监管官员采取强监管力度的条件下,P2P网贷平台违规运营的效用低于合规运营的效用;②不管P2P网贷平台采取何种运营行为,监管官员选择强监管的效用始终低于弱监管的效用。系统4 个稳定状态的稳定性分析见表11。

从表11 分析可知,( 0,0) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于违规运营,同时监管官员的行为将全部趋向于弱监管。由于监管官员选择强监管的效用始终低于弱监管,因此弱监管将成为监管官员群体的理性选择。而当监管官员采取弱监管时,P2P网贷平台在有 θ 概率被媒体曝光的可能性下,违规运营的效用高于合规运营的效用,因而采取违规运营策略将成为P2P网贷平台的理性选择。

情形九: ΔR < 0 且 ΔP < 0

此种情形表示: ①不管监管官员采取何种行为策略,P2P网贷平台选择违规运营的效用始终低于合规运营的效用; ②不管P2P网贷平台采取何种运营行为,监管官员选择强监管的效用始终低于弱监管的效用。系统4 个稳定状态的稳定性分析见表12。

从表12 分析可知,( 1,0) 是系统的演化稳定策略,即P2P网贷平台的策略选择将全部趋向于合规运营,同时监管官员的行为将全部趋向于弱监管。这说明,P2P网贷平台选择违规运营的效用始终低于合规运营的效用,同时监管官员选择强监管的效用始终低于弱监管,因此合规运营、弱监管将分别成为P2P网贷平台与监管官员群体的理性选择。

五、总结与展望

P2P网贷平台运营与监管的均衡状态是由P2P网贷平台与监管官员的行为共同决定的。P2P网贷平台与监管官员有着各自的效用函数和策略空间,在P2P网贷平台与和监管官员两大群体成员随机配对反复博弈的演化过程中,博弈双方的行为在不断调整和改进。本文在P2P网贷平台运营与监管博弈支付矩阵中各方收益大小不完全确定的框架下,分析了9 种情形下系统稳定状态的演化稳定性。综合这9 种不同的参数取值条件的分析,本文将监管部门的两个决策参数( 强监管力度下监管部门给官员的正向激励效用,以及政府对违规运营网贷平台的惩罚) 对系统演化稳定策略的影响进行了归纳,如表13 所示。

演化稳定策略篇5

基于技术标准的技术进步策略演化模式, 其机理近似于一种自组织机制。多西 (G.Dosi) 把自组织过程分为两个阶段, 即在原有范式中的自稳定过程和新旧范式交替出现时表现出来的自重组过程。在这一过程中, 经济力量、机构组织、市场和其他社会因素等共同起着“选择装置”的作用。在策略的演化过程中, 主要表现为新旧两种基于技术标准的技术进步策略效应的比较, 因此, 选择装置首先选择“突变方向”, 然后以一种达尔文主义的方式选择突变途径, 即主导的技术进步策略, 基于路径依赖, 进行一种强选择的进化活动, 这是一个试图说明技术进步策略具有连续性变化和非连续性变化的动态过程模式。

自稳定过程是指在由原有的基于技术标准的技术进步策略指导下的一系列技术标准引进或自主创新活动。即在分岔以前, 某一主导技术进步策略具有累积性和连续性的特点, 通过自稳定过程来实现技术进步策略的自组织进化。而自重组过程是指, 新旧主导的技术进步策略交替下的路径选择活动, 即高于临界状态时, 系统失稳出现分岔以后, 一种新的主导技术进步策略对原有技术进步策略的取代。如国外专利费用的提高使得我国选择技术标准的自主创新策略来取代技术标准引进策略。这种非连续性使得技术进步策略的演化过程由于某一随机涨落而使未来发展情况无法预测, 只有通过环境选择机制的非线性放大作用成为巨涨落, 才能实现主导技术进步策略的转化, 从而实现通过自重组过程来实现技术进步策略的自组织进化这种自组织的自然选择模式多见于两种类型的国家, 一种是技术早发型国家, 由于其科技实力的强大, 一直处于世界科技创新的最前端, 因此, 它们必然通过自组织机制选择自主创新策略;另一种是科技实力最不发达的国家, 自主创新能力极低, 而只能采用引进策略。这两种类型国家的技术进步策略表现为自组织的自然选择。

二、人为选择模式

这种人为选择模式与自组织的自然选择模式恰恰相反, 技术进步的每一个环节都有人为干预的痕迹。这种情况多见于具有一定创新能力, 但科技实力相对于技术早发型国家相比还有一定差距的国家。这类国家往往在每一次技术创新中都面临着两难选择, 要通过成本与收益的考察, 经济效益与社会效益的分析, 来决定是选择引进策略还是自主创新策略。

如前文所述, 经济全球化条件下, 竞争形式已经从技术竞争转变为争夺技术标准主导权的竞争。如果单纯一项技术, 是引进还是自主创新, 可能引发的成本与收益、经济效益与社会效益之间的差别还不是很大。因为单纯一个技术项目的策略选择的失误还可以通过其它技术项目予以弥补。然而, 对于技术标准来说, 由于其所具有的极强的网络效应和路径依赖特性, 一种技术标准的引进, 就意味着整个产业都选择了这种技术标准, 再加上技术标准的代际性, 会导致整个产业都会沿着这一技术范式产生路径依赖。而选择技术标准的自主创新又缺乏一定的自主创新能力。正是由于这种外部因素的影响, 所以, 每一种基于技术标准的技术进步策略的选择, 都掺杂着人为的选择, 而并非是一种自组织进化。

人为选择模式, 可以有效地防范市场失灵。从经济学的角度来讲, 私人的帕累托最优并不意味着整个社会的帕累托最优。每一个厂商选择了对自身能够产生收益最大化的选择, 并不意味着整个社会的收益最大化。例如, 在当今标准竞争时代, 每一个厂商都选择成本较低的技术标准引进策略, 那么整个产业甚至整个国家都将陷入对国外技术标准的路径依赖, 其结果只能是付出高额的专利使用费, 甚至是在高额专利使用费的压迫下使得企业倒闭, 产业消亡。中国的VCD产业惨痛的教训就是对这一结论的最好诠释。

三、自组织进化和人为选择相结合的模式

以上所分析的基于技术标准的技术进步策略的自组织自然选择模式和人为选择模式两种情况, 属于从学术研究的角度出发的两种极端情况。现实的经济生活中, 完全符合这两种情况的案例极为少见, 而更多的是表现为两种情况的结合。即自组织的进化模式也掺杂着人为干预的因素, 而人为选择模式还有自组织的自然选择的机制产生作用。

两种模式相结合的方式, 其合理性在于:首先, 可以规避完全依靠自组织, 即所谓市场决定论所带来的路径依赖, 如欧洲国家在1G中, 各国同时开发自己的技术标准, 多种标准共存于市场中, 兼容性极差, 导致模拟信号技术的频谱资源利用效率极低。还有一个更大的缺陷就是无法提供在欧洲各国之间的漫游服务, 最终导致每一种技术标准和市场规模都受到很大限制。因此, 欧洲各国在2G的开发中更多的采用了政府的间接管制, 通过构建技术联盟, 使成员广泛参与其中的开发, 最终成功的推出了GSM (Globa Standard for Mobile Communication) 标准, 使欧洲在2G市场上获得了巨大的成功。其次, 在技术标准的引进与自主创新策略选择中, 可以通过其自组织机制有效的避免行政干预所带来的竞争效率的缺失。美国司法部最终没有对微软进行拆分, 而承认其Windows操作系统的合法垄断地位, 正是缘于其深信在市场力量推动下产生的主导技术标准能够保证国内标准秩序的均衡发展。

因此, 无论是自组织的自然选择模式, 还是外部因素影响的人为选择模式, 可以说都是各有利弊。各国在技术标准引进与自主创新策略的选择中要认真权衡, 要充分利用这两种机制的有利方面, 以选择更适合于本国的技术进步策略。

摘要：技术标准作为技术创新链条中的重要环节和当今各国高新技术产业竞争的制高点, 对其主导权的争夺, 其实质已发展成为国家之间对国际市场利益的分割。通过对各国在技术标准研发过程中所采取的技术进步策略模式分析, 探寻其演化本质, 总结其优缺点, 为技术后发国家的技术进步策略的选择提供参考。

关键词：银行股,股价,相关性

参考文献

[1]叶金国:技术创新系统自组织论.中国社会科学出版社, 2006

演化稳定策略篇6

科技创新在经济社会发展中的主导作用日益显著。教育部“高等学校创新能力提升计划” (简称“2011计划”) , 自2012年启动实施, 四年为一个周期, 旨在建立一批“2011协同创新中心”, 大力推进高校与高校、科研院所、行业企业、地方政府以及国外科研机构的深度合作, 探索适应于不同需求的协同创新模式, 营造有利于协同创新的环境和氛围[2]。在高职院校中, 通过“2011协同创新中心”的培育组建, 积极联合政府、行业、企业等校内外创新力量, 有效聚集创新要素和资源, 构建协同创新的新模式, 形成系统创新的新优势, 吸引和培养一批拔尖创新人才, 产生一批重大研究成果, 提升服务区域经济社会发展的能力, 成为促进区域经济发展和社会创新发展的引领阵地。

《国家中长期教育改革和发展规划纲要 (2010-2020) 》对职业教育的发展, 特别是高等职业教育改革与发展作了整体性的规划, 并期望在今后10年, 中国高等职业教育发展要努力建设世界水平的有中国特色的现代高等职业教育体系。在职业教育基础能力建设工程里, 要能使高职院校办出特色、创建示范校, 关键是师资队伍的建设和人才的储备。高职院校的特殊性要求教师具备较强的专业实践能力。专业和学科知识共享的协同创新方法为教师专业发展研究提供了新的途径和理论依据, 对于高职院校凝练办学特色、全面提升核心竞争力意义非常深远。本文采用演化博弈方法, 选取高职教师专业发展中的核心点——知识作为研究对象, 分析主体间知识协同共享的进化稳定策略。

一、知识协同共享的内涵

教师彼此之间相互交流专业知识、作为系统的创新主体共同分享各种资源, 知识由个体的经验扩散到系统的层面。这样在系统内部, 教师可以通过查询共享的显性知识 (由隐性知识转化而来) 获得解决问题的方法和工具。反过来, 教师好的方法和工具通过反馈系统可以扩散到系统知识里, 让更多的教师来使用, 从系统层面上讲, 可以提高系统的效率。教师个体的专业发展也同时获得了更多的优质资源。

推动高职教师知识协同共享体系的发展, 需要以学校为主导, 强化知识及资源开放共享建立开放共享机制。协同共享是一种动态的过程, “协同”为“共享”提供条件, “共享”为“创新”提供基础, 创新资源和要素有效汇聚, 通过突破协同共享主体间的壁垒, 充分释放彼此间异质性资源、信息、技术、科研成果等创新要素活力而实现深度合作, 且在系统内得到有效地流动和配置。良好的创新资源共享机制是提高协同创新中存量资源和增量资源利用效率的一个新视角。在创建国家示范性高职院校过程中, 需要学校发挥政策引导与协调监督作用, 建立教师知识协同共享机制的创新模式, 在加强协同创新中知识共享能够充分挖掘现有潜力, 提高资源使用效率。在协同共享系统中, 主体将相互联系、互相影响, 在共享中不断推进系统的创新发展。知识协同共享系统如图1所示。

就目前而言, 知识协同共享中的资源共享问题的研究多数是宏观、静态的研究, 系统的目标性体现为系统主体通过协同的基础搭建共享平台来实现交互共享的需求, 促进知识的隐性转移和显性化。基于博弈理论聚焦教师知识协同共享机制问题, 把知识协同共享视为一个渐进演化的系统, 分析演化模型的动态平衡及影响因素, 并提出对策建议。

二、知识协同共享的演化博弈分析

演化博弈论是把博弈理论分析和动态演化过程分析结合起来的一种理论。演化博弈论源于生物进化论, 相当成功地解释了生物进化过程中的某些现象, 并在分析社会习惯、规范、制度或体制的形成及其影响因素等方面, 取得了令人瞩目的成绩, 并逐渐发展成一个经济学的新领域。演化博弈论从有限理性出发, 以参与人为研究对象, 基于演化稳定策略的基本概念, 强调博弈的动态过程, 而在多重均衡中究竟能达到哪种均衡则依赖于演化的初始条件及演化路径[3]。演化博弈的基本思路是:在具有一定规模的博弈群体中, 博弈方进行着反复的博弈活动。由于有限理性, 博弈方不可能在每一次博弈中都能找到最优的均衡点。于是, 他的最佳策略就是模仿和改进过去自己和别人的最有利战略。通过这个长期的模仿和改进, 所有的博弈方会趋于某个稳定的策略, 这个稳定的策略被称为“演化稳定策略” (Evolutionary Stable strategy, ESS) 。当某个系统中的所有参与者都采取演化稳定策略时, 那么采用其他策略的个体将无法侵入这个系统, 或者说, 它将在自然选择的压力下改变策略或退出系统。

1. 构造协同共享博弈模型

演化博弈理论的应用方法很多, 本文讨论在相同专业或学科内, 协同共享主体 (高职教师) 进行知识共享的策略博弈, 双方的策略集合都为{知识共享, 知识不共享}。由于知识协同共享主体的行为多是一种缓慢演化的过程, 因此, 可用生物演化的复制动态机制模型对其进行分析。在具体的共享博弈过程中, 每个成员根据自身在系统中的相对适应性来选择和调整各自的策略, 具备有限信息的协同共享主体根据创新既得利益不断在边际上调整策略, 以追求自身利益的改善, 最终达到动态平衡。协同共享得益矩阵见表1。

在得益矩阵中, πi表示协同共享主体i采取知识不共享策略时获得的正常收益;ai表示协同共享主体i所拥有的知识水平;ri为收益系数, 表示协同共享主体i对其他协同共享主体共享知识的吸收转化能力, riaj, rjai分别为博弈双方选择共享策略时得到的超额收益;li为风险系数, 表示系统环境给协同共享主体i采取共享策略时带来的风险水平, liai为协同共享主体i采取共享策略时所付出的初始成本。考虑在一般情况下大博弈双方都采取知识共享策略时所获得的超额收益大于其初始成本, 即riaj>liai, rjai>ljaj。

假设协同共享主体i中选择共享策略的比例为x, 那么选择不共享策略的比例为1-x;假设j中选择共享策略的比例为y, 那么选择不共享策略的比例为1-y。构造协同共享模型的演算步骤如下:

①协同共享主体i选择共享策略时的收益为:uis=y (πi+riaj-liai) + (1-y) (πiliai)

②协同共享主体i选择不共享策略时的收益为:uin=yπi+ (1-y) πi

③协同共享主体i的平均收益为:uixuis (1x) uin (1x) (riajyliai)

④同理可得, 协同共享主体j的平均收益为:uj (1y) (rjaixljaj)

⑤分别构造协同共享主体i, j的复制动态方程

2. 协同共享博弈模型

由于协同主体参与共享和不参与共享的得益存在差异, 协同主体会选择有利的策略, 因此任意系统内参与共享的协同主体比例是随时间变化的, 其动态变化的速度取决于模仿对象的数量大小和成功程度。在协同主体反复博弈过程中, 通过动态调整可以达到的ESS, 即进化稳定策略, 该策略对少量偏离的扰动具有稳健性[4]。

当时, 方程 (1) 的解为x=0, 1或y=liai/riaj, 此时系统内协同共享主体i策略类型的动态变化速度为0, 即达到稳定。当时, 表明系统内协同共享主体i采用共享策略获得的期望得益超过平均得益的幅度为正, 测试满足y>liai/riaj。所以协同共享主体最终都会趋向于选择共享策略, 即x=1是ESS。反之, 当时, 表明系统内协同共享主体i采用共享策略获得的期望得益低于平均得益, 此时满足y

由Friendman提出的方法[5]构造雅可比矩阵, 通过分析雅可比矩阵的局部稳定性确定演化系统均衡点的稳定性。构造的雅可比矩阵如下:

通过对上述雅可比矩阵的稳定点分析, 我们发现存在5个局部平衡点, 分别是O (0, 0) 、A (1, 0) 、B (0, 1) 、C (1, 1) 和D (ljaj/rjai, liai/riaj) , 那么该协同共享系统的动态演化如图2所示。

图2描述了协同共享系统主体间知识共享的动态过程。其中, A、B是不稳定均衡点, O、C是稳定均衡点, D为鞍点。区域AOBD收敛于O点, 表示所有协同共享主体均采取不共享策略, 通过自我学习实现提升。区域ADBC收敛于C点, 表示所有协同共享主体均采取共享策略。系统将在较长时间内保持共享与不共享模式并存的状态, 这也就是系统演化的动态过程。

三、基于参数变化的协同共享策略及主体行为分析

基于上述分析, 可以得出协同共享系统的长期稳定结构可能处于完全共享与完全不共享两种状态。构成博弈双方得益函数的参数值及其变化成为演化系统收敛于不同均衡点的决定因素, 且与博弈发生时的初始状态密切相关。

(1) 收益系数r。从图2可以看出, 协同共享主体的收益系数与区域ADBC的面积正相关, 即随着r值的增加, 系统收敛于稳定均衡点C的概率也增加, 系统主体间采取共享策略的意愿就会增加。在实践中, 主体知识内化能力强弱和日益增加的竞争压力对协同共享主体参与共享意愿的影响导致其认为拥有的知识是在组织中价值和地位的保证, 不愿意无偿分享。因此, 高职院校应该以学校政策引导为主, 采取多种奖励激励措施, 主动营造教师之间正式、非正式的沟通交流环境, 统一认识, 消除教师对知识共享心理上的负面因素, 提升教师共享知识的吸收和转化能力, 建立和维护稳定的协同共享关系。

(2) 风险系数l。风险系数主要由高职院校的组织文化环境和政策制度所决定。教师间的互信程度会在良好的组织文化环境下逐渐增强, 彼此具有合作或协作关系, 从而体现出较强的协同共享意愿。完善的政策引导和制度保障, 使教师易于寻找并评估愿意知识共享的其他协同主体。因此, 在风险系数较低的情况下, 协同共享主体更易于选择知识共享策略。

(3) 知识水平a。协同共享主体的知识水平与其知识和专业结构、学历呈正相关关系。其知识结构越完善, 知识存量越多、学历越高, 拥有的知识水平也会越高。协同主体间知识水平的差距越大的直接体现为图2区域ACBD面积小, 系统收敛于C点的概率就越小, 协同主体间采取知识共享策略的意愿降低。因此, 高职院校在师资队伍建设及教师专业发展方面应更多地以开放共享为核心, 加强协同组织管理, 搭建知识共享服务平台[6], 选择知识与能力互补的协同合作伙伴, 有效降低协同共享主体间的知识水平差距。

(4) 信息技术能力系数。在模型中引入系数参与博弈双方选择共享策略时得到的超额收益的运算, 表示协同共享主体运用现代信息技术的能力。随着信息技术的发展, 知识管理活动在深度和广度方面都有了很大程度的增长[7]。博弈双方参与知识共享策略的超额收益为ra, 其中随着主体运用现代信息技术的能力提升, 超额收益将不断扩大。即在图3中, 鞍点D逐渐趋近于原点O, 区域ADBC面积逐渐增加, 系统收敛于C点的概率逐渐增大, 协同主体间采取知识共享策略的意愿增加。

在实际情况中, 高职教师通过社交网络、MSN、QQ、微博、微信等现代信息技术工具, 很容易找到协同伙伴并建立协同共享关系。因此, 建立高职教师间协同共享还需要教师个体不断提高现代信息技术运用的能力和水平, 高职院校应制定相关的教师现代信息技术能力培训计划, 鼓励教师在专业成长和教育教学中充分运用现代信息技术。同时, 结合学校情况开展数字化校园等校园信息化工程建设, 逐步提升高职院校的信息化能力。

四、结语

围绕知识共享寻求协同共享主体间的协同, 能加速知识在协同主体间的传播, 促使知识创新效率的提升, 然而协同共享行为为协同主体带来得益的同时, 也将会付出知识共享成本以及产生知识外溢等风险。高职教师的知识协同共享策略是在反复寻求利益最大化的动态学习中, 最终达到进化稳定策略, 基于协同互补与合作等因素, 体现协同的优势, 将有助于高职教师专业发展途径和思路的拓展。同时, 为高职院校专业学科的建设, 尤其是交叉学科、边缘学科的发展提供了理论基础。

参考文献

[1]刘西林.构架知识共享的对策研究[J].企业科技与发展, 2012 (18) :1-3.

[2]百度百科.协同创新[EB/OL].http://baike.baidu.com/view/8530733.htm, 2013-04-09.

[3]李煜化, 武晓锋, 胡瑶瑛.基于演化博弈的战略性新兴产业集群协同创新策略研究[J].科技进步与对策, 2013 (1) :70-73.

[4]谢识予.经济博弈论 (3版) [M].上海:复旦大学出版社, 2007:211-212, 364.

[5]Flesch J, Thuijsman F, Vrieze O J.Average-discounted equilibria in stochastic games[J].Eur Opean Journal of Operationgal Reaserch, 1999 (112) :187-195.

[6]戚湧, 张明, 丁刚.基于演化博弈的协同创新主体资源共享策略研究[J].中国软科学, 2013 (1) :149-154.

演化稳定策略篇7

关键词：差分演化算法,变异策略,基准函数,优化

1 引言

自然界生物体优胜劣汰, 不断由低级向高级进化。人们通过观察发现适者生存的进化规律可以形式化而构成一些优化算法。优化算法研究的本质是在众多方案中寻找最优方案, 即在满足一定的约束条件下, 寻找一组参数值, 使得系统某些性能指标达到最大或最小。优化技术是用来求解优化问题的方法, 它作为一个重要的科学分支一直受到人们的广泛关注, 并在诸多领域得到应用, 如人工智能领域、模式识别领域、系统控制领域、工程设计领域等。应用一定的优化技术来求解优化问题具有很重要的意义, 国内外研究表明, 在同样条件下经过优化技术的处理, 对系统效率的提高、能耗的降低、资源的合理利用及经济效益提高均有显著的效果, 而且随着处理对象规模的增大, 这种效果也会更加显著[1]。

目前常用的优化算法有遗传算法 (Genetic Algorithm, GA) 、模拟退火算法 (Simulated Annealing, SA) 、粒子群算法 (Particle Swarm Optimization, PSO) 、蚁群算法 (Ant Colony Optimization, ACO) 、差分演化算法 (Differential Evolution, DE) 等。研究表明, 在数值函数优化方面, 差分演化算法的性能要优于上述其它的优化算法。

2 差分演化算法

差分演化是Storm和Rice提出的一种简单有效的算法, 目前差分演化算法在机器智能和控制领域很流行, 同时逐渐被应用到其它科学和工程领域, 如机械工程设计、信号处理和模式识别等。根据最近的研究报告表明[2], 差分演化算法在覆盖率以及解决一些全局优化问题上比遗传算法和粒子群算法具有更好的性能。

经典的差分演化算法通常有几个变异策略和三个控制参数, 控制参数分别为群体规模ps、比例因子F和交叉率CR。除了针对所有基于群体搜索算法的参数ps外, 差分变异策略、参数F和CR是经典的差分演化算法研究中最重要的部分。在这几个方向的研究中, 目前已开展了很多工作。Qin和Suganthan提出一种针对数值优化的自适应DE算法 (SaDE) [3], 这种算法主要研究参数CR和变异策略的自适应性;Brest提出一种针对SaDE采用参数集方法以减少参数影响的策略[4]。Ali和Torn提出一种针对参数F采用辅助群体和自动计算的方法[5]。Yang提出一种针对DE的相邻搜索策略 (NSDE) [6], 这种策略是从Gaussian和Cauchy分布随机数中产生F, 而不是事先定义一个常数F。在NSDE的基础上Yang结合了SaDE和NSDE提出新的DE改进模式[7], 即SaNSDE。

除了上述在控制参数上进行的工作外, 也进行了一些新的针对差分演化变异策略的工作。Sun结合DE和分布估计算法 (EDA) 提出了DE/EDA策略[8];Rahnamayan将OBL引入到DE, 形成了新的DE变异 (ODE) [9], 在此方法中, DE除了估计当前的搜索点外, 也要考虑其对立点, 通过同时评估当前的搜索点和对立点, 可获得更接近全局最优的结果。

本文通过改进经典DE的变异策略, 提出一种新型的DE算法。在此策略中, 每个个体学习它之前的最佳经验以及其他个体的经验。在十个著名的基准函数上进行仿真, 结果显示这种改进的方法, 相对经典的DE、SaDE和SaNSDE在大部分问题上都取得了更优效果。

3 经典差分演化算法

经典差分演化是一个基于群体和方向搜索的方法, 和其他的演化计算 (EA) 方法一样, 从一个初始群体个体出发, 这个初始群体个体是在没有可用的解空间情况下随机产生的。对DE有几种改进方法, 最流行的方法称作“DE/rand/1/bin”, 也是在参考文献[4]和[9]中常用的方法。

假设Xi, G (i=1, 2, …, ps) 是某一代G产生的解集, 其中ps是群体规模, 算法是基于DE策略。DE的主要思想是产生一个试验个体, 差分和交叉建立新的变异试验个体, 并决定哪一个个体能够进入下一代G。对于每一个G中的个体Xi, G, 变异个体Vi, G的定义为:

Vi, G=Xr1, G+F (Xr2, G-Xr3, G) (1)

式中:i=1, 2, …, ps;r1, r2, 和r3——当i从1到ps取不同值时所选的不同随机整数索引值。

与其他的演化算法一样, DE也采用交叉操作, 通过结合两个不同的个体来建立试验个体, 试验个体定义如下:

Ui, G= (U1i, G, U2i, G, …, Uji, G)

式中:j=1, 2, …, D (D为问题的维数) 且

undefined

式中:CR——预定义的交叉概率;randj (0, 1) ——针对i维的一个0～1的随机数;k——一个随机索引参数, k∈{1, 2, …, D}。

该方法必须决定某个个体 (Ui, G或Xi, G) 是否是下一个迭代G的成员。对于最大化问题, 最适合的个体将被选中。

经典的DE算法:

Begin

While NE

For每个独立的Xido

根据式 (1) 生成一个变异个体Vi;

根据式 (2) 生成一个试验个体Ui;

计算Ui个体的适应值;

NE++;

从Xi和Ui两个当中选取一个作为新的Xi;

End For

End While

End

其中:Xi——群体中的第i个个体;Vi——Xi的变异个体;Ui——试验个体;NE——评估函数列举的数值;MAXNE——评估函数的最大列举数值。

4 基于改进变异策略的差分演化算法

除了上面给出式 (1) 外, 还有如下几个变异策略:

DE/best/1:

Vi, G=Xbest, G+F (Xr1, G-Xr2, G) (3)

DE/target-to-best/1:

Vi, G=Xi, G+F (Xbest, G-Xi, G) +F (Xr1, G-Xr2, G) (4)

DE/best/2:

Vi, G=Xbest, G+F (Xr1, G-Xr2, G) +F (Xr3, G-Xr4, G) (5)

DE/rand/2:

Vi, G=Xr1, G+F (Xr2, G-Xr3, G) +F (Xr4, G-Xr5, G) (6)

式 (1) 和式 (4) 因其良好的性能, 在实际中用得最多。本文重点介绍对式 (4) “DE/target-to-best/1”策略进行改进。方法是采用一个随机个体和前面的最佳个体pbest代替当前个体Xi和最佳个体Xbest, 改进的方法描述如下:

Vi, G=Xr1, G+F (pbesti, G-Xi, G) +F (Xr2, G-Xr3, G) (7)

式中:r1, r2, r3——[1, ps]中三个不同的随机整数, ps——群体规模;pbesti——前面个体Xi的最佳个体。和其他变异策略一样, 我们用式 (7) 产生变异个体Xi, 再将算法1中的式 (1) 用式 (7) 替换。改进后算法描述如下:

改进的DE算法 (简称IDE) :

Begin

While NE

For每个独立的Xi do

根据式 (7) 生成一个变异个体Vi;

根据式 (2) 生成一个试验个体Ui;

计算Ui个体的适应值;

NE++;

从Xi和Ui两个当中选择一个合适的作为新的Xi;

End For

End While

End

5 仿真测试

5.1 测试函数

实验选取十个不同的全局优化问题, 包括四个峰函数 (f1～f4) 和六个多模函数 (f5～f10) , 在文献[3]中对这些函数已经进行了相关的研究。在本文中用到的所有函数都是最小化的, 测试基准函数的描述和全局优化如下:

f1=∑undefinedxundefined, 其中xi∈[-100, 100], D=30, 全局最优值是0;

undefined, 其中xi∈[-10, 10], D=30, 全局最优值是0;

f3=∑Di=1 (⎣xi+0.5」) 2, 其中xi∈[-100, 100], D=30, 全局最优值是0;

f4=∑undefinedixundefined+rand[0, 1) , 其中xi∈[-1.28, 1.28], D=30, 全局最优值是0;

undefined, 其中xi∈[-500, 500], D=30, 全局最优值是-12 569.5;

f6=∑undefined[xundefined-10cos (2πxi) +10], 其中xi∈[-5.12, 5.12], D=30, 全局最优值是0;

undefined, 其中xi∈[-32, 32], D=30, 全局最优值是0;

undefined, 其中xi∈[-600, 600], D=30, 全局最优值是0;

f9=0.1{sin2 (3πx1) +∑undefined (xi-1) 2[1+sin2 (3πxi+1) ]+ (xD-1) 2[1+sin2 (2πxD) ]}+∑undefinedu (xi, 10, 100, 4) , 其中xi∈[-50, 50], D=30, 全局最优值是0;

undefined, 其中xi∈[-50, 50], D=30, 全局最优值是0。

5.2 IDE和经典DE的比较

下面对改进的DE和经典DE进行比较, 参数设定如下:改进DE的控制参数CR, F分别设定为0.5和0.2, 对DE和IDE, 群体大小ps都设定为100, 最大列举函数MAXNE设定为100 000。此数值对所有测试函数适用。两个算法针对每个函数都运行30次。记录最佳值和结果的标准差。

表1中给出DE和IDE两种算法运行的结果, 其中“Mean”的含义是表示该函数最佳值, “Std Dev”表示标准偏差。从结果中可以看到, 除f3外, 在所有的测试案例中, IDE的性能均超过DE。在函数f3中, DE和IDE也达到了相同效果。IDE使得f2和f5性能得到显著提高。证明改进的变异策略是有效的。图1显示了IDE和DE在四个函数f1、f2、f4、f5中的演化过程, 可以看到, 在整个演化过程中, IDE的覆盖比DE更快。

5.3 IDE与SaDE、NSDE对比

将IDE与SaDE和NSDE进行比较, IDE中除MAXNE外, 其余参数值与前面设定相同, IDE、SaDE和NSDE的MAXNE对所有测试函数都设定为150 000。

经过十个基准函数仿真测试, 结果如表2所示, 其中“Mean”表示该函数最佳值。SaDE和NSDE的测试结果来自于文献[7]的表2和表3。从结果中可以得出, 在所有测试案例中, 除f3和f5外, IDE性能优于NSDE。而在f3和f5中, IDE和NSDE都能够找出全局优化值。SaDE在f6、f9和f10结果优于IDE, 而IDE在f1、f2、f4、f7和f8上优于SaDE, 对余下的函数IDE和SaDE几乎获得相同的性能。

6 总结

本文从粒子群优化算法中个体学习之前的最优和其他个体的经验方法得到启示[10], 提出一个基于改进变异策略的DE算法 (IDE算法) 。为了验证IDE的性能, 在十个著名的基准函数上做了测试。仿真结果表明, 在测试主要问题上, IDE优于DE、NSDE和SaDE, 这表明我们提出的变异策略是有效的。然而IDE和DE一样, 在解决f6上没有很好的效果, 而NSDE和SaDE在f6上却能够达到比较好的效果。为了解决这一问题, 未来的工作可以放在将本文提出的变异策略与一个自适应控制参数进行结合上。

参考文献

[1]周艳平, 顾幸生.差分进化算法研究进展[J].化工自动化及仪表, 2007, 34 (3) :1-5.

[2]VESTERSTROMJ, THOMSEN R.A Comparative Study of Dif-ferential Evolution, Particle Swarm Optimization, and Evolution-ary Algorithms on Numerical Benchmark Problems[C]//Pro-ceedings of Congress on Evolutionary Computation.NewJersey:IEEE, 2004:1980-1987.

[3]QIN A K, SUGANTHAN P N.Self-adaptive Differential Evo-lution Algorithm for Numerical Optimization[C]//Proceedingsof Congress on Evolutionary Computation.New Jersey:IEEE, 2005:1785-1791.

[4]BRESTJ, GREINER S, BOSKOVIC B, et al.Self-adapting Con-trol Parameters in Differential Evolution:a Comparative Studyon Numerical Benchmark Problems[C]//Proceedings of Con-gress on Evolutionary Computation.New Jersey:IEEE, 2006:646-657.

[5]ALI M M, TORN A.Population Set-Based Global OptimizationAlgorithms:Some Modifications and Numerical Studies[J].Computers&Operations Research, 2004:1703-1725.

[6]YANG Z, HE J, YAO X.Advance in Metaheuristics for HardOptimization[M].Berlin:Springer Berlin Heidelberg, 2008:397-414.

[7]YANG Z, TANG K, YAO X.Self-adaptive Differential Evolutionwith Neighborhood Search[C]//Proceedings of Congress onEvolutionary Computation.New Jersey:IEEE, 2008:1110-1116.

[8]SUN J, ZHANG Q, TSANG E.DE/EDA:A New EvolutionaryAlgorithm for Global Optimization[J].Information Sciences, 2005, 169 (3-4) :249-262.

[9]RAHNAMAYAN S, TIZHOOSH H R.Opposition-based Differ-ential Evolution[C]//Transactions on Evolutionary Computa-tion, New Jersey:IEEE, 2008:64-79.

【演化稳定策略】推荐阅读：

动态演化06-19

社区演化06-28

能力演化07-01

战略演化07-29

演化研究08-01

产业演化08-16

问题演化09-01

构造演化特征05-15

沉积环境演化05-18