动态规划技术

2024-11-01

动态规划技术（通用12篇）

动态规划技术篇1

目前,配电网评价工作主要包括对可靠性、安全性、供电质量等单项指标进行的传统评价[1],评价方法也主要是层次分析法[2]、模糊综合评价法[3]、主成分分析法[4]等静态评价,没有从动态评价角度考虑与可持续发展的适应程度。动态评价较静态评价复杂得多,其核心问题是降低维数[5,6,7]。动态评价方法如拉开档次评价法[8,9]、TOPSIS评价法[10]等,但关于配电网规划的动态评价已有的研究并不多。例如,文献[11]提出一种基于系统动力学的配电网动态分析评估体系与模型,通过技术经济指标的模拟,得到电网规划方案的评价结论;文献[12]在文献[11]的基础上进行改进,建立熵权与系统动力学相结合的配电网规划综合动态评价模型,得到方案的评判结果。

在上述背景下,本文基于时序动态视角对配电网规划技术评价进行了研究。本文的构成如下:第二部分阐述了基于时序动态视角的评价方法;第三部分以吉林省3个地级市的配电网为算例,对配电网规划技术指标进行了评价;第四部分是本文的结论。

1 基于时序动态视角的评价方法

基于时序动态视角的评价方法可以分为五个步骤:1指标筛选;2指标类型一致化;3指标无量纲化;4应用“纵横向”拉开档次法确定不同时刻的排序;5应用TOWGA算子计算最终评价值。

1.1 指标筛选

本文采用最小均方差法筛选指标。对于n个取定的被评价对象,每个被评价对象可用m个指标的观测值xij(i=1,2,…,n;j=1,2,…,m )表示。

其算法流程为:

1.2 指标类型一致化

在评价之前,必须将指标x1,x2,…,xm的类型做一致化处理。对于极小型指标xij,令

或

1 xij*=(x >0或x <0)(2)

式中,M为指标xij的一个允许上界。

1.3 指标无量纲化

本文采用极值处理法进行指标的无量纲化。这种方法的优点是无量纲化后xij*∈[0,1],取值具有区间稳定性。

对于指标xij,极值处理法的公式为

1.4 “纵横向”拉开档次法

为了既在 “横向”上体现时刻tk(k = 1,2,…,N )评价对象之间的差异,又在“纵向”上体现各评价对象总的分布情况,本文采用“纵横向”拉开档次法确定时刻tk评价对象的排序。

“纵横向”拉开档次法的算法流程为:

1)对于时刻tk,给定m个指标的n个评价对象的数值,用矩阵Ak表示,即

2)对于每个k,计算m ×m阶对称矩阵Hk= AkT·Ak;

3)如果Hk>0,计算与Hk相对应的经归一化的权重系数向量ω(tk),转到(5);

4)如果存在某个k,使Hk中有负元素时,权重系数向量ω(tk)可由下式得出

转到(5);

5)计算评价函数

1.5 TOWGA算子评价法

为了将评价对象在多个时间点上的评价值集结为一个点值,本文采用基于TOWGA算子[13]的二次加权评价法来集成指标维和时间维的数据。

TOWGA算子评价法的算法流程为:

1)给出评价对象si在时刻tk的评价值yi(tk);

2)确定时间权向量。时间权向量 ω = (ω1,ω2,…,ωN)T可由如下的非线性规划问题得出

式中,λ表示“时间度”。本文取λ=0.1,即评价时非常重视近期的数据。

3)利用TOWGA算子对第一次加权的评价值进行第二次加权数据集结。最终的评价值为

式中,hi为最终评价值,G为n维TOWGA算子,tk为时间分量,yi(tk)为评价对象si在时刻tk的第一次加权评价值,〈ti,yi(tk)〉为TOWGA算子对,ω = (ω1,ω2,…,ωN)T为时间权向量,bik为tk中第k时刻所对应的TOWGA算子对中的yi(tk)。

2 配电网规划技术评价

2.1 指标选择

根据实际调研,本文选取供电可靠率、综合线损率、单位投资增供负荷、容载比、满足N-1主变比例、联络率、线路电缆化率、架空线路绝缘化率8个指标对配电网规划技术进行综合评价。其中,供电可靠率、综合线损率属于整体效果指标,单位投资增供负荷属于效益分析指标,容载比、满足N-1主变比例、联络率、线路电缆化率、架空线路绝缘化率属于成效分析指标。

以吉林省3个地级市的配电网作为算例进行分析,地区A、地区B、地区C的2012~2014年配电网规划技术指标观测值如表1所示。

2.2 算例分析

步骤1:通过指标筛选计算,供电可靠率的样本均方差为0.007,由此认为存在sk0≈0,则删除供电可靠率指标,配电网规划技术评价指标简化为7个。

步骤2:综合线损率属于极小型指标,单位投资增供负荷、满足N-1主变比例、联络率、线路电缆化率、架空线路绝缘化率属于极大型指标,容载比可以认为属于极大型指标。应用公式(1)对极小型指标综合线损率进行一致化处理,取M =1。

步骤3:应用公式(3),对一致化处理后的指标进行无量纲化。

步骤4:对无量纲化后的数据采用“纵横向”拉开档次法,应用MATLAB软件,计算出权重系数向量和评价值,分别如表2和表3所示。

步骤5:应用LINGO软件求解公式(6)中的非线性规划问题,得到时间权向量ω = (0.026 3,0.147 4,0.826 3)T。利用TOWGA算子计算得出地区A、 B、C的2012~2014年配电网规划技术评价的综合排序如表4所示。

从表4可以看出,整体排序结果为地区B优于地区C优于地区A。

3 结论

本文从整体效果、效益分析、成效分析三个方面选取8个指标,基于时序动态视角对配电网规划技术评价进行了研究,解决了配电网规划技术评价只停留在静态评价阶段的问题。以吉林省3个地级市的配电网为算例进行分析,研究结果表明本文构建的动态评价方法较为客观合理,证明了建立的指标体系在实际决策中的有效性和应用价值。同时,本文的方法和指标体系对其他相关问题的研究,也具有参考意义。本文的后续工作是通过进一步深入地调研建立多层次指标体系。

动态规划技术篇2

要求n个物品中，任取若干个装入箱内，使箱子的剩余空间为最小。输入格式第一行为一个整数，表示箱子容量;

第二行为一个整数，表示有n个物品;

接下来n行，每行一个整数表示这n个物品的各自体积。输出格式一个整数，表示箱子剩余空间。样例输入 24

7 样例输出 0 这题读完之后多思考思考，其实就能发现就是0-1背包问题每个物品的体积就是花费同时也是价值，也就是说这题可以转化为在总体积为w下，可以得到最大的价值最后用总体积减去最大的价值就是剩下最少的空间状态转移方程d[j] = max(d[j], d[j - a[i]] + a[i]);

人才规划实施的动态管理探析篇3

一、健全规划目标落实的管理机制

各级党委与政府要把人才规划的实施管理摆上重要议事日程，加强规划实施过程中的统筹协调，建立目标责任制度和督促检查制度。健全规划与年度工作计划有机结合的工作机制，分年度抓好规划目标任务的落实，使规划的各项措施落到实处，保证重点目标、重点任务的完成。

（一）分解量化目标、任务

实行规划分级负责制。研究制定规划实施方案及年度实施计划，搞好规划与年度计划的结合。制定规划任务分解书，明确政府职能部门的职责，将目标任务分解、量化到各相关职能部门，明确牵头部门、协同部门的职责和任务，即责任到部门、责任到人。按时间节点要求，分阶段推进，出阶段性成果，有计划、有步骤、有重点地切实推进规划的落实，确保规划目标任务的实现。

（二）建立责任制度，纳入年度考核

建立规划实施考核机制。推进规划实施应有一个好的考核机制作保障，要把实施规划作为各级党委与政府部门政绩考核的重要内容，纳入政绩指标体系，建立“第一把手”抓“第一资源”的考核制度，确保人力资源和社会保障工作主体到位、责任落实。加强规划实施管理的必要手段建设，建立规划执行的问责机制、协调机制和行政效能监察机制。

（三）注重规划实施的督促检查

明确规划监督主体。总体规划由各级党委组织部门、政府人社部门监督实施，专项规划由规划主管部门监督实施。实行经常性的人力资源和社会保障工作督查落实制度，在规划实施督察过程中，及时通报有关情况，交流工作经验，推动规划实施。

建立项目运作激励机制。召开规划实施交流会，及时推广各地好的经验和做法，在实践中不断探索规划实施的有效途径，对在实施规划项目中做出突出贡献的单位和个人进行宣传，给予表彰。

二、加强规划跟踪与评估的工作机制建设

人才规划实施的跟踪与评估包括日常追踪、年度小结、中期评估和终期总结。规划实施的跟踪与评估工作由该规划的主要编制部门组织开展，吸纳有关部门参与，也可以委托其他社会组织或中立的独立机构进行评估。应建立健全规划评估指标体系及实施过程中的跟踪、反馈、调整机制。

（一）加强规划跟踪与评估的管理

明确规划跟踪与评估主体，原则上各类规划应由规划编制部门与上级主管部门负责跟踪与评估工作。应大力加强规划实施情况定期通报、中期评估和终期总结制度建设，有计划、分阶段地对规划实施情况进行跟踪督促检查，重点抓好中期评估和年度评估。对各单位任务执行情况进行监控，及时总结规划实施效果，研究分析实施过程中出现的新情况、新问题，提出工作改进建议及年度计划调整建议，并根据未来环境变化和规划实施进度情况适度修订规划内容，确保规划的科学性和指导性。

（二）跟踪与评估的方法

1．定期组织部署。规划跟踪与评估可分为日常跟踪、中期评估和终期总结，应与经济社会发展规划跟踪与评估工作同步进行。原则上规划跟踪与评估工作由规划发布部门组织开展，各相关部门分工协作。开展规划跟踪评估工作，可对规划确定的目标、任务和政策措施执行情况进行阶段性总结，综合评价实施效果，也是对规划期内人才事业发展进程的总体判断和各相关部门履行职责的督促与检查。

2．确定评估重点。依据规划目标任务要求及年度实施计划，确定评估重点。评估应根据规划要求，对照规划任务分解书确定的职责开展。如规划中的预期目标完成情况，约束性指标、量化指标的实施进展情况及配套政策支持进展情况等，要紧扣规划提出的发展目标和重点任务，突出政府履行职责的情况。

3．建立科学的评估指标体系。制定规划评估指标体系，目的是为了摸清规划实施管理工作现状，做到“心中有数”，进一步增强规划的针对性与实效性。规划评估指标体系应反映规划实施管理工作的全过程，反映规划实施中人力资源和社会保障工作的新变化、新特点以及新成效，促进各级党委政府制定符合实际的规划、政策，发布信息，调控配置，充分开发人力资源。建立科学合理、完善规范的规划评估指标体系是一项创新性的工作，必须在实践中经受检验，不断完善。这就需要我们以求真务实的态度，与时俱进的精神，根据不断变化发展的新情况，不断修正完善规划评估指标及评价标准，开展经常化、规范化、制度化的统计工作，使之在规划评估中发挥积极作用。

4．开展专家评估。由规划评估主体组织邀请有关方面专家学者参与评估论证，广泛听取专家意见，应客观评价规划确定的发展目标、重点任务、政策措施等落实情况，评价判断规划实施取得的成效和存在的问题及原因，并根据国内外发展环境变化提出进一步推动规划实施的对策建议，形成评估报告并由评估主体汇总上报主管部门。

5．委托第三方独立评估。由规划评估主体组织邀请国内外独立的相关机构参与评估，广泛听取社会各界意见，并由其提出独立的分析评估报告。评估报告由评估主体汇总上报主管部门。

（三）跟踪与评估的程序

1．跟踪与评估的主体。为保证规划实施跟踪评估工作的连续性与规范化，应明确规划评估主体。原则上各类规划的跟踪与评估工作由规划发布部门负责。规划发布部门牵头组成评估小组，各有关部门按照分工要求，协调配合，各司其职。

2．跟踪与评估结果的归纳、汇总。评估工作结束后，须根据评估结果，形成评估报告。报告可包括如下内容：①目标和任务的完成情况；②政策措施贯彻落实情况及主要成效；③存在的主要问题及其原因；④评估结论及对今后发展情况的预测；⑤结合新形势，提出需要调整的内容、发展思路与对策建议。

nlc202309010901

3．形成评估报告并上报。评估报告经评估主体汇总后，应送规划发布部门参考、采纳，并报上级主管部门备案。

三、建立规划调整修订的管理工作机制

应适时对人才规划进行调整和修订。规划中期评估和终期总结要形成评估报告，评估报告经论证后由规划评估主体报规划审批机关，作为对规划进行调整修订的重要依据。经评估或者因其他原因需要对规划进行调整修订时，或当外部环境发生重大变化，规划已明显不适应形势时，应及时对规划进行调整和修订，并由原规划编制单位提出调整修改意见，按照原审批程序报批和公布。

（一）适时对规划进行调整修订

经评估或者因其他原因需要对规划进行修订的，规划编制部门应当提出规划修订方案（需要报批、公布的要履行报批、公布手续）。总体规划涉及的特定领域或区域发展方向等内容有重大变化的，专项规划或区域规划也要相应调整和修订。

（二）调整修订的依据

1．根据国家新战略、新政策进行调整。一般而言，人才规划的规划期短则3年，长则5年，也可能超过10年。因此，规划的实施需要一个长期的过程，在这样长的时期内，规划实施的外部环境不可能是一成不变的。如果规划期内国家的发展战略、政策法规出现新的重大调整，那么，人才规划必然要进行调整，以保障国家新战略、新政策对人力资源的需求。

2．根据经济社会发展变化进行调整。人才规划作为经济社会发展规划的子规划，应服从并服务于经济社会的发展。因此，当经济社会发展出现重大变化时，人才规划就应进行相应的调整，以保障人力资源开发、管理、配置等能够满足经济社会发展的需要。

3．根据规划评估报告进行调整。人才规划作为一项规划，具有一定的前瞻性，而规划的实施环境则会有很多的不确定性，就需要对规划的实施进行跟踪与评估。当评估结果出来后，应根据评估中发现的问题，适时对规划进行必要的调整。

（三）调整修订的程序

1．调整修订的主体。明确规划调整的主体，原则上应由规划编制部门根据需要对规划进行调整修订。

2．调整修订的论证、审批。当规划经评估或其他原因需要进行调整修订时，规划编制部门要组织相关部门和专家对调整修订后的规划进行论证，多方征求意见。调整修订的规划通过论证后应报原审批机关批准。

3．调整修订后的发布。调整修订后的规划自获得批准后30天内应及时发布。

（作者系中国人事科学研究院副研究员）

动态规划技术篇4

针对车辆动态调度问题,国内外专家学者开展了一系列研究。Gendreau等[1]着重研究了车辆动态调度问题中出现的各种不确定性信息的影响,指出在求解此问题时,对这些不确定性信息应加以全面考虑;Powell[2]详细分析了车辆动态调度问题中一类随机车辆调度模型,采用改进的A-priori两阶段优化方法求解了该问题;Minkoff[3]以马尔可夫决策模型为基础,完成了车辆动态调度问题基于马尔可夫决策过程的建模求解,研究提出的算法在中小规模(10个需求)的车辆动态调度问题求解中可以得到比较满意的解,但因其模型的局限性,算法对大规模的问题难以求解。针对动态车辆调度问题实时性强的特点,张景玲等[4]、王旭等[5]研究了车辆的动态调度问题,通过基于两阶段优化的方法对该类问题进行了有效求解。袁建清[6]以解决车辆利用效率最大化为目标,建立了几类随机数学模型,提出了相应的智能算法,解决了车辆调度的不确定调度问题。文献[7-9]针对车辆动态调度中的不同问题提出了相应的解决方法。

本文以军事行动中车辆动态调度问题为背景,提出了基于近似动态规划的车辆动态调度算法。通过对车辆调度问题进行形式化描述,利用近似动态规划方法对车辆动态调度问题进行建模,根据近似动态规划的思想,设计实现求解大规模、多类型车辆调度的算法,并对算法进行了仿真性实验,验证了算法的有效性和优越性。

1动态车辆调度的问题

车辆调度问题对实时性有较高要求,即在尽可能短的时间内,通过合理的运输方式、运输路径、运输工具组合来完成调度任务,是动态车辆调度问题领域关注的重点。对于动态车辆调度问题,本文以一个有关的军事任务中的车辆调度情景予以描述,如图1所示。

在某次军事演习中,共涉及有1个车辆调度中心和N个驻防要点,车辆调度中心拥有载重车、乘坐车、牵引车和特种车四种类型的运力资源,共K辆运输工具。每个驻防要点拥有兵员、物资、装备等参演要素。演习中,需要在这N个驻防要点之间完成兵员、物资和装备的调运服务。演习过程中无法预知哪个驻防要点具有运输任务请求。根据描述情况,可对上述场景进行抽象,得到如表1所示的信息。

将本文研究的问题看作一个系统,问题中每个时刻的调度场景就可看作是该系统的一个状态,那么每个时刻的系统状态与该时刻的调度决策是一一对应的,不同的调度决策导致系统到达不同的状态,因此,每个时刻不同的系统状态价值,可以反映不同调度决策的优劣。由此,文中系统状态价值的含义可以描述为:每个时刻不同的调度决策会对系统的现状和将来产生不同的贡献,由此,每个时刻的系统状态价值就是该时刻对应调度决策对系统的贡献值。

本文涉及的大规模、多类型车辆动态调度问题中,由于不同的运输车辆具有不同的代价权重,因此,当执行不同任务时,动用的车辆不同,相应的收益权重也不同。例如执行任务类别mi,它的回报权重为ζi,t时刻需要被满足的任务数(决策作用前)为nit,t时刻满足的任务数(决策作用后)为n′it;车辆类别为cj,代价权重为ηj,t时刻可调度的车辆数(决策作用前)为kjt,t时刻可调度的车辆数(决策作用后)为k′jt,那么定义贡献函数为

由此,我们用系统状态价值来定义本文研究问题的优化目标:根据每个时刻不断出现的运输任务请求和不断变化更新的车辆状态,在一定条件下(如运输任务类型、任务起止时间、车辆剩余载重、单次最大行驶里程等),动态查询所有车辆状态,挑选合适的车辆,规划合理的路线,尽可能地满足任务点的运输任务请求,使得每个时刻的系统状态价值最大。

2动态车辆调度问题模型

根据上述情景分析,对此调度场景建立相应的模型,主要包括车辆资源、任务信息和调度决策等。

2.1车辆资源

车辆资源建模的基本思想是抽象出车辆资源的重要属性,明确车辆资源的使用规则,从而约束车辆属性向量的空间取值。车辆属性主要包括静态属性和动态属性:静态属性描述车辆资源的基本特点;动态属性刻画车辆资源的状态。

C为车辆资源类型集合,C = {c1(载重车),c2(客车),c3(特种车),c4(牵引车)};a为车辆资源属性向量,a=(a1(车辆编号),a2(车辆类型),a3(实时位置),a4(额定载重/员),a5(剩余载重/员),a6(额定里程),a7(剩余行驶里程),a8(平均速度),a9(下一任务点),a10(起效时间),a11(上一次接受调度的任务点));A为车辆资源的向量空间;Rt,t′a为t时刻获知的,具有属性a、在t′时刻可用的车辆资源的数量,t′>t;Rta 为t时刻获知的,具有属性a、在当前时刻可用的车辆资源的数量,Rta=(Rt,t′a)t′=t;^Rta 为t时刻获知的,t-1时刻和t时刻之间发生的,由外部信息导致的、具有属性a的、可调度车辆资源的数量,其中外部信息包括:车辆故障停驶、故障车辆恢复行驶等。

通过以上对车辆资源的建模,可以得到:t时刻,可以调度的具有属性a的车辆资源的数量为

t时刻,可以调度的车辆资源的数量为

2.2任务信息

任务请求信息也可以看作是系统资源,为了刻画运输任务的多方面属性以及运输任务的静态属性和动态属性,笔者建立了调度决策模型。通过属性向量来描述和刻画运输任务的状态;通过明确运输任务的使用规则,来约束其属性向量的空间取值。

M为运输任务类型集合,M = {m1(物资运输),m2(兵员运输),m3(弹药运输),m4(装备运输)};b为运输任务属性向量,b = {b1(任务编号),b2(任务类型),b3(任务开始时间),b4(任务结束时间),b5(任务起始点),b6(任务结束点),b7(任务量),b8(任务完成状态)};B为运输任务属性的空间向量;Mt,t′b为t时刻获知的,在t′时刻需要被满足的、具有属性b的运输任务请求的数量;Mtb为t时刻获知的,在当前时刻需要被满足的、具有属性b的运输任务请求的数量,即Mtb=(Mt,t′b)t′=t;^Mtb 为t时刻获知的,在t-1时刻和t时刻之间随机出现的,具有属性b的运输任务请求的数量。

那么,t时刻需要被满足的、具有属性b的运输任务请求的数量为

t时刻需要被满足的任务数量为

2.3调度决策

调度决策属于动态系统的内部信息,为了刻画调度决策的内容以及调度决策如何起效作用于车辆资源和运输任务,对调度决策的建模要从对车辆资源和运输任务的状态影响出发,抽象其重要属性,通过定义调度决策的策略集,来约束其属性向量的空间取值。

d为调度决策的属性向量,d = (d1(当前派遣),d2(暂不派遣),d3(执行车辆编号),d4(执行任务编号),d5(预派遣时刻));Da为可以作用于具有属性a的车辆资源向量;Π为可行调度策略的集合。调度策略是指在给定系统状态信息的前提下,决定一个调度决策的规则。在本文的研究中,调度策略由贡献函数(反映当前调度决策对系统当前贡献的影响)和近似价值函数(反映当前调度决策对系统未来的影响)共同来反映。xtad为t时刻,具有属性a的,被决策d作用的车辆的数量,则

σtad 为决策结果指示函数,用来捕获决策的结果,且

那么t时刻,被派遣执行运输任务的、具有属性a的车辆数量为σtadxtad;χt为t时刻,在给定有效信息下的可行调度策略的集合。

为了通过数学形式来反映决策结果,需要定义一个决策函数,一些调度策略,在每个取样时刻,给定系统的状态信息,返回调度决策。

Xtπ(Rt)为决策函数。t时刻,在调度策略π下,给定车辆资源状态Rt,返回一个决策值xt,其中Rt为t时刻系统的状态信息:

其中,γ为折扣因子,介于0和1之间,是指价值经过一段时间后等同的现在的价值,因为价值函数是对未来的一个预测价值,所以需要加上一个折扣因子;t为近似价值函数;Ct(Rt-1,ωt,xt)为系统贡献函数;RM(Rt-1,ωt,xt)=Rt为车辆资源状态转换函数;ωt为t时刻系统外部信息的一次取样。

本文在车辆调度决策过程中,考虑了两种车辆调度方式:一是单车多任务,二是多车单任务。

此外,为了计算的方便,对时间采取离散时间模型,如图2所示。在前述的对车辆资源、运输任务、调度决策的符号中,右下角的时间角标“t”,表示的是离散时间点t时刻或第t期,第t期指t=(t-1,t]。

2.4目标方程

把大规模、多类型车辆动态调度问题看作是一个“动态系统”,把每次作调度决策的场景看作是该系统在时间轴上的一个“状态”St。St由车辆资源状态Rt-1、运输任务信息Mt和调度决策xt 共同描述。St的价值是由贡献函数和近似价值函数共同决定。贡献函数捕获调度决策xt对当前系统状态的影响;近似价值函数捕获调度决策xt对未来系统状态的影响。本文优化目标为:“每期决策,使得在尽可能完成运输任务的前提下,动用的车辆数最少;长期目标是在完成尽可能多的任务前提下,车辆动用率最低。”,那么,大规模、多类型车辆动态调度问题的目标方程可以形式化表达为

其中,xt为式(3)的解,^vtn为系统状态从St条件转移到St+1的近似价值的数学期望。

当然,式(3)还要满足一定的约束条件:1调度决策作用的车辆资源数量不能超过当前已知的可调度车辆资源的数量;2每个时刻的调度决策满足的任务请求数不能超过当期已知的任务请求数;3调度决策作用的车辆资源数量、运输任务数量都是正整数。

3基于近似动态规划的动态车辆调度方法

动态规划是基于多阶段决策过程寻优问题提出的,广泛应用于工程学、运筹学、经济学等多个领域[10]。但是,经典动态规划所面临的“维数灾难”使其只能解决小规模问题,限制了其应用[11]。通过上面的建模,本文采用近似动态规划(ADP)的思想设计动态车辆调度算法。

3.1基本思路和设计流程

基于ADP方法求解大规模、多类型的车辆动态调度问题需要划分为两个阶段,第一阶段是训练获取近似价值函数的表达式,第二阶段是应用训练得到的近似价值函数的表达式指导车辆调度。ADP在训练数据阶段是用本次系统产生的数据去更新上一次假设的数据,即将来对过去的影响,不断地更新进而产生出近似价值函数;在应用阶段就是利用训练阶段产生的近似价值函数来生成任务到来时的决策,即对未来的影响。

在第一阶段中,算法基于 “观察-更新”的思想,预先设定总的取样次数N和取样路径长度τ,给定每条取样路径上每个取样时刻对应的系统状态近似估计值的初值t0,然后利用价值迭代的策略,迭代计算目标方程(式(3))。在每次迭代中,通过在取样路径ωn计算得到的新的系统状态值tn更新上一时刻系统状态的近似估计值tn-1,以此来不断逼近系统状态的真实值。算法运行最后得到N组系统状态近似值tn= {(t1)tτ=1,(t2)tτ=1,…,(tN)tτ=1},然后通过一组达到稳态的系统状态近似值,以线性拟合的思想,拟合这组稳态值,来得到近似价值函数的线性表达式。

因此,第一阶段算法的输入是仿真得到的任务信息,输出为训练周期中每期系统状态价值的近似值。通过仿真任务信息来获得、辨识和测量训练阶段算法的各种参数,比如折扣因子、步长以及系统状态初值等。在第二阶段,应用第一阶段训练得到的近似价值函数表达式,根据当前的运输任务信息,求解决策函数(式(2))以得到优化调度决策xt。因此,第二阶段算法的输入为当前运输任务信息,算法的输出为优化的调度决策xt。

3.2调度策略的启发式规则

在求解大规模、多类型车辆动态调度问题中,本文中车辆调度策略的启发式算法规则集如下:

(1)对于每期出现的新运输任务,尽量从已经派出在外执行任务的车辆中挑选满足新运输任务要求的车辆,而尽量避免从调度中心增派车辆去满足新任务,以此来减少每期的车辆动用数量。

(2)对于当期出现的多个运输任务,按照任务开始时间的紧急程度,优先满足任务开始时间早的任务。

(3)对于在当期随机出现的运输任务请求,在任务开始时间和任务量满足的前提下,优先考虑与现有任务是否可以合并执行,以减少车辆动用的数量。

(4)对于可以满足某一运输任务的多辆可调度车辆,先将这些车辆按照剩余载重的大小进行排序,然后依次挑选剩余载重大的车辆去执行该运输任务;对于剩余载重也相同的车辆,按照可以到达任务起始点的时间排序,依次选择可以最早到达任务起始点的车辆执行该运输任务,这样可以在多车单任务中,减少车辆动用的数量,从而降低车辆的动用率。

启发式规则的输入为当前时刻的运输任务信息,即需要被满足、具有某属性的多个运输任务;输出为可调度的车辆序列和已调度的车辆序列。算法具体步骤描述如下。

(1)查询当期任务信息Mt,按任务类型分类汇总得到每种类型任务数量Mtb2。

(2)对于当期出现的每个任务Mtb,按当期任务的开始时刻从小(早)到大(晚)排序。

(3)for当期出现的、开始时间最早的任务:

do按任务类型要求、开始时间要求查询是否有在外执行任务的、可调度的相应类型的车辆资源状态。

if有在外执行任务的、可调度的车辆,do返回在外执行任务的、可调度的车辆资源序列。

else查询在调度中心的车辆资源,返回可调度的车辆资源序列:

(4)将步骤(3)中得到的可调度车辆按剩余载重/员从大到小进行排序,得到每种类型可调度的车辆序列:

(5)对步骤(4)中挑选出来的可调度车辆序列中,再对剩余载重相同的车辆按照起效时间从小(早)到大(晚)进行排序,得到每种类型可调度的车辆新序列如下:

(6)计算单车是否可以满足该任务。

if单车满足,do转至步骤(7),else转至步

骤(8)。

(7)从步骤(5)中挑选第一辆车。

(8)从步骤(3)中依次挑选车辆,直到车辆组合剩余载重之和满足任务量要求。

(9)按照贡献函数的定义式计算不同调度决策的贡献值,按当前最大贡献值对应的调度决策调度车辆执行任务。

(10)将当期没有车辆满足的任务顺延至下一期转至步骤(1)。

3.3采用价值迭代和平滑策略训练近似价值函数的算法设计

大规模、多类型车辆调度问题训练阶段的算法采用价值迭代和平滑策略来获取系统状态的真实值。具体算法步骤如下:

(1)初始化。

2设置n=1,N =100,n为取样路径标记,N为总的取样次数;

3初始化车辆资源状态R10。

(2)选择一条取样路径ωn,ωtn=Mtn。

(3)对于训练阶段的每一个取样时刻,t=1,2,…,30。

1令ωtn=Wt(ωn),进行取样的实现;

2调用前述的启发式规则算法,筛选得到最优的执行车辆;

3将执行车辆中可以推迟派遣的,推迟一期派遣;

4根据步骤3计算式 (3),xtn为式(3)的解。

5更新价值函数:

6计算车辆资源状态转换函数,更新车辆资源状态:

(4)n加1,如果n≤N,跳转至步骤(2)。

(5)返回每条取样路径的每组状态价值,即

定义的近似价值函数是关于车辆资源状态和运输任务的线性函数,而车辆资源状态和运输任务状态都是用向量描述的,如果以向量进行近似价值函数计算,其取值空间巨大,容易陷入“维度灾难”,难以求解;因此,笔者对这些向量的维度进行了一定程度的聚集,即忽略对车辆调度决策影响不大的维度。对于本文中的大规模、多类型车辆动态调度问题,每期可调度的车辆数量和已满足的任务数量对于车辆调度决策影响较大,因此,将车辆资源属性向量(Rtna)a∈A聚集为当前时刻可调度的车辆数数量(Rtna)a;将运输任务属性向量聚集(Mtnb)b∈B聚集为当前已被满足的运输任务数量(Mtnb)b。

接下来可计算近似价值函数的线性表达式:

其中,θ1、θ2和θ3为待定参数,根据上述ADP求解问题的算法步骤(5)达到稳态的一组有效值,采用线性回归的方法求解得到待定参数θ1、θ2和θ3,从而得到近似价值函数的线性表达式。

3.4应用近似值函数进行大规模、多类型车辆调度算法设计

大规模、多类型车辆动态调度问题应用阶段算法是对训练阶段获得的近似价值函数进行调度应用,具体算法步骤如下:

(1)初始化车辆资源的状态R0。

(2)输入当前时刻的运输任务信息Mt。

(3)调用前述的启发式规则算法,求解决策函数:

其中,调度决策xt为式(5)的解。

(4)更新车辆资源状态:

4实验

4.1实验场景以及训练结果

根据上文中算法的描述,进行了相应的实验。实验过程中,假定有4种不同类型的车辆,每种类型的车辆有10辆,10个任务点,4种不同的任务。价值迭代算法需要为其设计合理的收敛准则。实验中,在取样时间轴上,具有相同周期长度和固定期数的一组连续的系统状态,本文尝试分别取样50次和取样100次,观察每条取样路径上某一相同时刻系统状态价值的近似值是否趋于稳态,用MATLAB分析,结果如图3所示。

由图3观察比较可以发现:算法在迭代50次后系统状态近似值依然呈现出稳步上升趋势,说明值迭代策略还未逼近到系统状态的真实值;在迭代100次后,观察发现系统状态近似值已经趋于稳态,说明值迭代策略已经逼近到系统状态的真实值,算法已经收敛,所以算法可以终止。

取第100次迭代的最后一组系统状态近似值进行拟合求解,求得近似价值函数的线性表达式,如表2所示。

由此得到近似价值函数的线性表达式如下:

这里采用粒度比较大的线性拟合方式,拟合前这组系统状态近似值的空间表现形式和拟合后近似价值函数的空间展现形式分别如图4和图5所示,由于线性函数存在的误差较大,因此本文用尽可能多的离散值,用非线性的表达方式来得出这个函数。

图4、图5中,z轴为当期系统系统状态近似值,x轴为当期车辆动用数量,y轴为当期任务满足数量,由图可见近似价值函数的线性表达式能够比较好地匹配解空间的值。

4.2算法正确性验证

得到了近似价值函数的表达式之后,我们首先进行算法正确性的验证。利用单期决策(忽略一期以后的影响)的满意度“D”来反映算法的正确性,决策满意度的计算如下:

其中,N1表示当期应该被满足的运输请求任务数,N2表示应用近似价值函数计算后得到的当期实际被满足的任务数。决策满意度越高,说明算法越正确。

通过近似价值函数的表达式(式(6))求解决策函数(式(1)),得到的调度决策结果为x1ad=5,x2ad =1,即1时刻的任务全部派遣车辆执行,2时刻的任务执行任务6。

算法正确性分析:最优的调度决策为1时刻和2时刻的7个任务应该全部执行,即N1=7,而近似价值函数求解决策函数给出的调度决策是实际执行6个任务,即N2=6。如果下一时刻还能满足条件的话,会延期调度剩余的任务。

决策满意度由式(7)计算为85.71%,即正确性为85.71%。可见,算法能够在较短时间内,得到正确性较高的近似满意解。

4.3算法优越性验证

为了进行算法的优越性验证,首先从算法的策略角度进行分析。基于ADP的大规模、多类型车辆动态调度算法的优越性,主要体现在算法在每期的调度决策中不但都考虑了当期决策对当期系统状态的影响,还考虑了当期决策对系统未来各期的影响。由此,如果我们仅以基于ADP算法中的启发式规则集为基础,只考虑当期决策对当前系统贡献值的影响而不考虑对将来各期的影响,设计一个大规模、多类型车辆动态调度的贪心算法,贪心算法实现就是任务到达只要有车辆满足条件就立即调度,这样就可以比较出两种调度策略的差异,从而判断哪种调度策略更为优越。

为了评判两种调度策略的优劣,我们根据问题的目标函数定义如下评判指标:

其中,R为目标值,N(t)为每期被满足的任务数,N(v)为每期调度动用的车辆数。对于本文的问题,我们的优化目标是:对于每期调度决策,在尽可能完成任务的前提下,动用车辆数最少。那么,式(8)中的目标值越大,则表明每期执行相同任务数的前提下,车辆动用的数量越少。

对两种算法给定同一组算例参数:取样次数N为100,训练周期T为30,每期任务数为1~15的随机数。

经过运行后,两种算法的各期目标值的平均值的整体图和局部图分别如图6和图7所示。

由图6和图7可见,基于ADP的算法策略目标值的平均值在1.4左右,而贪心算法目标值的平均值在1.2左右,这表明,按照ADP算法策略进行车辆调度,任务完成数量与车辆动用数量比值的平均值要比按照贪心算法策略高16.7%,即对于同样的任务,按ADP的调度策略进行车辆调度比按照贪心策略调度进行车辆调度,平均每期的车辆动用数量要少16.7%。这说明,既考虑每期调度决策的当期贡献值,又考虑对未来各期影响的ADP策略,要比只考虑当期贡献值的贪心策略优越,从而验证了算法的优越性。

5结语

宣传工作动态-江苏社科规划网篇5

社科基金成果专刊

第7期

中共江苏省委宣传部 2017年4月30日

进一步发展江苏绿色经济的对策建议

摘要：我省绿色经济发展已取得诸多成就，具体表现在产业结构升级加速、节能减排初见成效、资源利用效率提升、生态环保建设水平提高等方面。但仍面临能源消费结构不合理、循环经济运作模式缺乏、绿色经济创新发展趋势受阻、政策法规尚不系统以及制度体系仍需完善等建设问题。面对上述困境，建议应以改善省内能源消费结构、建设有效循环经济运作模式、推进绿色创新健康发展与构建绿色经济发展配套机制来应对，促进我省绿色经济进一步发展。

党的十八大报告指出绿色发展作为推进生态文明建设的基本途径和有效方式，是转变我国经济发展方式的重点任务。东南大学徐盈之老师承担的江苏省社科基金项目“江苏发展绿色、低碳、循环经济研究”分析江苏绿色经济发展面临的2 3.绿色经济创新发展趋势受阻。据课题组长期考察发现，我省粗放式的经济发展特征限制了绿色经济的创新发展，主要体现在三个方面：一是绿色发展理念未深入人心。如省内厂商、利益集团与民众对于既有能源体系、技术体系和生产方式产生了路径依赖，自发进行绿色创新的动力不足。二是绿色市场不够开放。具体表现为先进技术、创新人才、绿色金融等绿色经济创新发展要素在省内的自由流动受阻。三是绿色创新通道不畅。这主要体现在省内有关绿色创新的政产学研合作模式有待进一步协调和推广上。

4.相关政策法规不够完善。一是当前江苏省关于低碳发展和气候变化的立法体系不够完善，且在执法过程中对相关法律之间冲突的协调机制考虑不够充分，法规可操作性不足，相关处罚较轻。这些不足导致违法风险低，使节能减排暂无法完全成为市场主体的自觉行为。二是关于江苏省促进循环经济发展的激励政策尚不完善，如对节能节水产品和低油耗、低排量汽车及发展节能建筑等财税扶持仍有不足。

5.相关制度体系不够系统。一是绿色经济的市场机制发展不成熟，省内碳排放交易、排污权交易等市场刚刚起步，市场活跃水平较低，导致市场作用在环境与资源价格形成中影响较弱，省内排污权市场价格远低于其本身价值。二是环境生态保护的区域合作机制尚不成熟。如在面对雾霾等跨区域污染事件时，地方政府各自为政，环境治理协调机制不够健全，付出较多但整体治理效果欠佳。

三、进一步促进江苏省绿色经济发展的对策建议 1.改善能源消费结构。一是建议进一步推动能源结构变

革，着重发展水电、风能、太阳能等清洁能源，逐步形成清洁能源为主导、化石能源为辅助的能源供给体系，并将特高压电网发展列入能源发展规划。二是要推动能源技术革新，加大对清洁能源和可再生能源的科研投资，以低碳技术的应用、创新和扩散为重点，加大对我省企业能源科技投入，实施节能减排技术更新改造。三是要推动能源消费革命，建议以“先控增量，后减存量”的方针，对新增的化石能源消费量进行控制，逐步减少既有化石燃料需求量，优化绿色制造体系，降低高耗能产业比重，同时积极推广新能源汽车。

2.建设有效的循环经济运作模式。一是建议建立基于资源全部成本的完全价格体系，通过税收理顺原生资源与可再生资源的价格关系。二是建议发展废物代谢网络，塑造生产循环链，将生产中流失的物料或废料重新引入生产流程。三是应加强顶层设计，由政府主管部门对所辖企业进行废物代谢网络调研，建设生态工业园，促使企业在发展横向耦合和纵向闭合关系的过程中向生态园集聚。四是招商引资中重视构建循环经济产业链条和网络，形成共享资源和互换副产品的生产共生组合。五是建议结合特色小镇建设，为城市空间层面循环经济发展提供导向，规划建设条例清晰、功能复合、宜产宜居的循环小镇以促进我省绿色经济发展。

城市规划管理审批档案的动态管理篇6

一、动态管理

按照《中华人民共和国城乡规划法》的要求，我国实行“一书两证”的规划审批制度，即项目建设应取得城市规划主管部门核发的选址意见书、建设用地规划许可证和建设工程规划许可证。然而一个建设项目在其完整的生命周期中会不断发生属性的变化，例如建设用地的用地性质、位置和界限的变更，建设工程的扩建、改建、翻建及道路改造，项目产权变更等等。这些变化客观上要求城市规划主管部门不断变更原有规划审批的结果，而从项目的成套性出发，在对规划管理审批档案（以下简称审批档案）的管理中，就要始终保持动态跟踪的机制，这样才能确保审批档案内容的完整、准确。因此，动态管理是审批档案管理的基本方式。

所谓动态管理就是指为保证审批档案内容始终与其记录的规划审批业务的一致性，档案内容应根据其记录对象的变化而变化，其管理方式必须适应档案内容不断变化的要求，随时反映规划审批管理的最新状况，提供及时、有效的档案服务。

二、审批档案动态管理的实现

审批档案的动态管理在不同的历史时期有不同的实现方式。

1、实体完全撤并卷方式

从上世纪50年代至90年代末，审批档案的动态管理普遍采用这种方式。所谓“实体撤并卷”是撤卷与并卷的统称。在传统的档案整理原则指导下，审批档案以建设项目为保管单位进行立卷。“撤”指当原有审批结果被撤销时，将内容已被废止的档案从原案卷中撤出，进行单独保管或定期销毁；“并卷”指当不改变原有审批结果时，原档案内容及顺序不变，只是将新形成的反映变更内容的档案插入相应案卷。

实体完全撤并卷是审批档案动态管理的原始方式，即项目规划审批结果的所有变更都是通过档案实体排列方式的变化来完成的。其特点是项目成套和符合经办人员的利用习惯。规划审批的经办人员在受理一个项目的变更申请时，必须调阅该项目以往的审批结果。档案实体的撤并卷方式正好将项目全部档案集中，在提供利用上信息完整的优势非常明显。

但是，实体完全撤并卷方式也存在很多问题。一是档案实体整编工作量大。不仅档案实体有频繁的“撤”、“并卷”操作，当原有案卷内容改变后，与之相关的各种登记、目录、备考等信息都要做出相应调整。二是难以保证档案的完整。档案实体的撤并卷是以许可证为核心进行的，而如果一个项目的变更未通过许可，其文件材料的归属就成为了问题。这部分未通过许可的文件被称为过程资料，习惯上由经办人负责保存，因此遗失比较严重。随着计算机技术的发展，这一方式已逐步被淘汰。

2、“半撤并卷”方式

20世纪90年代前后，随着城市建设的不断发展，规划审批业务量越来越大，规划审批变更的情况也越来越多。档案部门为了缓解频繁的“撤并卷”压力，在计算机辅助管理条件下,对前一时期实体完全撤并卷的方式进行了改良，根据是否有行政许可结果的变更（即是否核发新的许可证）来区分是否进行并卷。如果项目或土地情况的变更经过行政审批颁发了新证书，过程完整，则新产生的文件单独立卷，不进行前期有关文件实体的并卷，只在原有证书上作注销标记，同时利用计算机建立新旧案卷间的信息关联；如果审批结果未获通过，即未核发新的许可证，则办理过程中新形成的各种函复、复函文件还必须与原项目的档案案卷进行并卷保管。

这种管理方式虽然也是以项目为单位组织案卷，但在项目内保持了许可证的相对独立性，这样既可以保证档案实体的相对稳定，同时又减少了档案整编的工作量，也基本能满足现实的利用需求。与完全撤并卷不同的是，这一方式的实施需要依赖计算机辅助管理。

3、按规划审批阶段管理方式

按规划审批阶段管理（以下简称阶段管理）方式，是2000年以后普遍采用的一种动态管理方式。它主要以信息技术为依托，不再以档案实体的变动来反映一个项目规划审批的历史变更，而是完全利用计算机的信息处理能力实现一个项目全部规划审批信息的动态关联。

阶段管理方式的特点是：1）简化整编工作。按照这种管理方式，档案部门无需再进行组卷和档案文件的撤并卷操作，实体管理稳定，避免了卷内文件目录等各种档案登记内容的频繁变更和调整。2）档案完整性得以保证。按阶段管理后，由于不再需要以许可证为核心进行案卷的组织，从源头上解决了过程资料的问题。

当然，阶段管理方式也存在一些不足。一是档案实体利用过程比较麻烦，需要在几个阶段文件中分别调取。如果实体档案利用率居高不下的话，将增加档案部门的工作压力。二是项目之间的信息关联完全靠计算机实现，一旦出现数据错误或实体排列错误，死档将难以避免。三是库房压力明显增加。按阶段管理方式将各阶段内的文件按时间流水排列，各阶段档案又不能摆放在一起，必须预留保管空间，增大了档案库房的压力。

三、当前审批档案动态管理中普遍存在的问题

现代信息技术的应用将档案人员从繁重的撤并卷工作中解放出来，但无论是半撤并卷方式还是阶段管理方式，动态管理的实现都仅局限于档案管理环节，缺乏过程控制是当前审批档案动态管理中普遍存在的问题。

1、缺乏有效控制档案完整、准确的措施

当前，审批档案的管理普遍是由规划行政主管部门形成并移交档案，由城建档案馆负责保管和提供服务的。这种形成、管理与利用相分离的管理体制显示档案部门的工作是以被动接收档案为开端的,缺乏对文件形成过程的监督和控制，这也就导致了档案质量缺乏保障。

2、档案管理基础数据的重复采集

目前，审批档案管理系统存储与检索所需要的基础数据依然是由城建档案馆工作人员以手工录入的方式来完成的，不能有效利用规划审批业务系统中的数据，造成大量的重复劳动，工作效率低下；同时也增加了由于著录数据错误而导致档案无法利用的风险。

3、审批档案分散管理，难以实现规划审批业务的“一站式”服务

当前，各地审批档案的搜集范围基本局限在规划审批业务环节，但实际上在规划编制、公文流转和行政审批环节中还有一部分文件和规划审批业务的关系十分密切，是规划审批的依据性文件。由于档案类别的划分问题，这部分以公文形式存在的文件被作为机关的文书档案或其他类别的档案，与审批档案实行分别管理，而且没有与相关项目审批信息之间建立关联关系，一个项目完整的历史联系被人为地割裂。这种分散管理导致经办人在经办案件的过程中必须从不同来源查询信息，难以得到“一站式”的高效服务。

四、深化审批档案动态管理的思考

解决当前审批档案动态管理中存在的问题，深化动态管理要从前端控制和过程控制入手，同时要充分发挥现代信息技术的作用。

1、实行前端控制，确保审批档案的完整和准确。

如前所述，审批档案形成与管理和提供利用相分离的体制是难以有效保证档案完整、准确的关键因素，也是导致档案部门整编工作中大量重复劳动的主要原因。因此，档案管理部门必须进行前端控制，如制定科学的归档制度，统一数据格式，将档案管理的要求纳入规划审批业务系统，在文件形成的同时采集档案管理所需数据等。实际上，这些前端控制措施的实行并不仅仅是技术层面的问题，更重要的是观念的问题，档案部门应努力沟通，尽早落实，这样才能使审批档案这种重要的政府信息资源更充分地发挥作用。

2、运用现代信息技术，将对结果的控制延伸到对过程的控制。

目前，审批档案的动态管理大都是在档案管理环节实现的，即在城建档案馆的检索系统，通过数据库方式实现项目信息的关联，以此提供利用服务。这种方式是造成档案数据错误和工作效率低的主要原因。在规划审批过程中，大多数工程项目在申请立项时首先都要进入收件窗口。如果在窗口收件过程中自动生成条形码，并对其信息归属进行相应的处理，这样既能准确揭示档案内容的历史联系，又有助于对项目审批过程的动态跟踪。但是在项目审批环节利用条形码建立的项目信息需包括：1）着眼于建设项目的全程管理，揭示项目不同规划审批过程的信息；2）反映项目内容交叉或包含、撤销等关系的信息，如工程分期建设、地上和地下建设、建设主体加层、建设主体变更等相关信息；3）与其他类别相关档案信息的关联信息。在完整建立以项目为核心的审批档案信息关联的过程中，将分散在办文和公文管理中的审批档案信息包含其中，这样才能真正完整地实现全部审批档案的完整揭示和便捷利用。

*该文是北京市档案科技项目成果，项目编号2008－02。

动态规划算法综述篇7

在现实生活中, 有一类活动的过程, 由于它的特殊性, 可将过程分成若干个互相联系的阶段, 在它的每一阶段都需要做出决策, 从而使整个过程达到最好的活动效果。因此各个阶段决策的选取不能任意确定, 它依赖于当前面临的状态, 又影响以后的发展。当各个阶段决策确定后, 就组成一个决策序列, 因而也就确定了整个过程的一条活动路线。这种把一个问题看作是一个前后关联具有链状结构的多阶段过程就称为多阶段决策过程, 这种问题称为多阶段决策最优化问题。这种多阶段最优化决策解决问题的过程就称为动态规划。

2 动态规划基本思想

动态规划算法通常用于求解具有某种最优性质的问题。在这类问题中, 可能会有许多可行解。每一个解都对应于一个值, 我们希望找到具有最优值的解。动态规划算法与分治法类似, 其基本思想也是将待求解问题分解成若干个子问题, 先求解子问题, 然后从这些子问题的解得到原问题的解。与分治法不同的是, 适合于用动态规划求解的问题, 经分解得到子问题往往不是互相独立的。若用分治法来解这类问题, 则分解得到的子问题数目太多, 有些子问题被重复计算了很多次。如果我们能够保存已解决的子问题的答案, 而在需要时再找出已求得的答案, 这样就可以避免大量的重复计算, 节省时间。我们可以用一个表来记录所有已解的子问题的答案。不管该子问题以后是否被用到, 只要它被计算过, 就将其结果填入表中。这就是动态规划法的基本思路。具体的动态规划算法多种多样, 但它们具有相同的填表格式。

3 动态规划适用的情况

任何思想方法都有一定的局限性, 超出了特定条件, 它就失去了作用。同样, 动态规划也并不是万能的。适用动态规划的问题必须满足以下三点:

3.1 最优化原理 (最优子结构性质)

一个最优化策略具有这样的性质, 不论过去状态和决策如何, 对前面的决策所形成的状态而言, 余下的诸决策必须构成最优策略。简而言之, 一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。

3.2 无后向性

将各阶段按照一定的次序排列好之后, 对于某个给定的阶段状态, 它以前各阶段的状态无法直接影响它未来的决策, 而只能通过当前的这个状态。换句话说, 每个状态都是过去历史的一个完整总结。这就是无后向性, 又称为无后效性。

3.3 子问题的重叠性

动态规划算法的关键在于解决冗余, 这是动态规划算法的根本目的。动态规划实质上是一种以空间换时间的技术, 它在实现的过程中, 不得不存储产生过程中的各种状态, 所以它的空间复杂度要大于其它的算法。选择动态规划算法是因为动态规划算法在空间上可以承受, 而搜索算法在时间上却无法承受, 所以舍空间而取时间。

4 求解的基本步骤

动态规划所处理的问题是一个多阶段决策问题, 一般由初始状态开始, 通过对中间阶段决策的选择, 达到结束状态。这些决策形成了一个决策序列, 同时确定了完成整个过程的一条活动路线 (通常是求最优的活动路线) 。动态规划的设计都有着一定的模式, 一般要经历以下几个步骤:初始状态—决策1—决策2—……—决策n—结束状态。

4.1 划分阶段

按照问题的时间或空间特征, 把问题分为若干个阶段。在划分阶段时, 注意划分后的阶段一定要是有序的或者是可排序的, 否则问题就无法求解。

4.2 确定状态和状态变量

将问题发展到各个阶段时所处于的各种客观情况用不同的状态表示出来。当然, 状态的选择要满足无后效性。

4.3 确定决策并写出状态转移方程

因为决策和状态转移有着天然的联系, 状态转移就是根据上一阶段的状态和决策来导出本阶段的状态。所以如果确定了决策, 状态转移方程也就可写出。但事实上常常是反过来做, 根据相邻两个阶段的状态之间的关系来确定决策方法和状态转移方程。

4.4 寻找边界条件

给出的状态转移方程是一个递推式, 需要一个递推的终止条件或边界条件。

一般, 只要解决问题的阶段、状态和状态转移决策确定了, 就可以写出状态转移方程 (包括边界条件) 。实际应用中可以按以下几个简化的步骤进行设计:

(1) 分析最优解的性质, 并刻画其结构特征。

(2) 递归的定义最优解。

(3) 以自底向上或自顶向下的记忆化方式 (备忘录法) 计算出最优值。

(4) 根据计算最优值时得到的信息, 构造问题的最优解。

5 动态规划实现的说明

动态规划的主要难点在于理论上的设计, 也就是上面4个步骤的确定, 一旦设计完成, 实现部分就会非常简单。使用动态规划求解问题, 最重要的就是确定动态规划三要素:

(1) 问题的阶段。

(2) 每个阶段的状态。

(3) 从前一个阶段转化到后一个阶段之间的递推关系。

递推关系必须是从次小的问题开始到较大的问题之间的转化, 从这个角度来说, 动态规划往往可以用递归程序来实现, 不过因为递推可以充分利用前面保存的子问题的解来减少重复计算, 所以对于大规模问题来说, 有递归不可比拟的优势, 这也是动态规划算法的核心之处。

确定了动态规划的这三要素, 整个求解过程就可以用一个最优决策表来描述, 最优决策表是一个二维表, 其中行表示决策的阶段, 列表示问题状态, 表格需要填写的数据一般对应此问题的在某个阶段某个状态下的最优值 (如最短路径, 最长公共子序列, 最大价值等) , 填表的过程就是根据递推关系, 从1行1列开始, 以行或者列优先的顺序, 依次填写表格, 最后根据整个表格的数据通过简单的取舍或者运算求得问题的最优解。

6 动态规划算法基本框架

代码如下所示:

摘要：本文通过系统的介绍动态规划算法的基本概念、基本思想、适用情况分析、基础求解步骤、实现的说明和算法的基本框架, 对动态规划算法进行了总结和概述。

关键词：算法,动态规划,最长公共子序列

参考文献

[1]网上的文献 (举例:最长公共子序列-动态规划-算法导论实践[EB/OL].http://hi.baidu.com/jiaxiaobosuper/item/5f0e7510979bb0413b176e4b, 2011-03-27.

动态规划技术篇8

为克服遗传算法由于染色体重新排列导致的链式问题,分布估计算法(estimation of Distribution Algorithm, EDA)不使用交叉和变异操作,而是通过从发现的信息来优化解集,并使用这些信息生成新的概率分布模型和解。概率模型使用全新的进化计算的思路,成为EDA算法的理论基础。EDA算法[1]的概念最初在1996年提出并得到了快速发展,近年来成为智能进化领域的研究热点。EDA算法[2,3,4]提出了一种全新的进化模式,通过概率模型描述候选解的空间分布,并利用概率模型随机采样生产新种群,实现种群的进化过程。避免盲目地重组和混合染色体的基因,能有效的增强搜索效率,快速生成高可靠性的解,这是传统的遗传算法无法解决的问题。

2基于近似动态规划的EDA算法

2.1问题描述

分析发现现存的分布估计算法没有较好的执行效果大多是因为概率向量通常都采用一种固定的策略来进行更新,这种方式不仅无法保证整个进化过程的策略的有效性,同时没有考虑到进化基因位的差异。如果每个基因位概率的相应值在进化更新过程中能够被自适应更新,将有助于改进进化搜索的执行效率。为了获取自适应更新的概率向量,将每个基因位与Agent相关联,并根据动作选择概率更新规则。这样,每一次更新的概率值转换为agent执行一个动作。如果群组随着环境进一步的进化,每个agent都能够使用强化学习的方法,与环境交互来寻找最优的动作策略。

Q学习作为经典的强化学习算法不需要估计环境模型,只需要通过Q函数的迭代计算来获得最优的动作策略,动作策略将会随着agent的不断学习而更新。该文提出的基于Q学习的分布估计算法(QEDA)就是基于这个概念。

2.2算法设计

基于Q学习的分布估计算法能够解决二进制编码,种群规模位N,编码长度为m,初始的概率向量表示为p(t)=(p1(t), p2(t)……pm(t)),其中pi(t)表示第i个基因位取1的概率。每次迭代包括选择、更新概率模型和采样以及其他操作。

采样操作与PBIL、UMDA等相似的算法使用蒙特卡罗方法,根据概率向量随机产生N个个体的种群。根据每一代的最优子群的适应度来选择参数,同时根据选择比r(0<r<1)选择最差子群。子群的规模为M =[r N] 。然后分别更新概率分布模型及优化操作的第一个和较差的子群的频率,计为gi(t)和bi(t),然后更新概率pi(t)。

Q学习算法更新pi(t),需要每个基因位都与一个agent相关联,而且与相应的每一代的组群位作为环境同步进化。环境状态的定义是能够识别基因位在在进化过程的不同阶段,因此,根据gi(t)和bi(t)来定义状态之间的关系。,Agentit

定义一个较大的频阈集θhigh,较小的频阈定义为θlow,θdiff被定义为频率差,Agenti前t代的状态被划分为:

3) 不满足上述条件的其他情况

Agenti,第一代种群的动作t集合包括如下概率更新规则:

1)动作1:概率降低

2) 动作2:概率增加3) 3

3) 动作3:概率值不变

ri(t - 1) 表示Agenti在t-1时刻获得的直接回报。

基于Q学习的分布估计算法可以描述为以下步骤。算法代替精英策略群组,保证最优解搜索而不发生退化。

算法:基于学习的分布估计算法

步骤2:初始化Qi=0,i=1,2……m;设置P(1)=(0.5,0.5……0.5),t=1。

步骤3:While(终止条件不满足)do

步骤4:根据P(t)采样第N-1代的种群,并使用最优的个体代表当前群组。新个体确定第i位值:生成一个随机数ξ∈[0,1] ,如果ξ≤pi(t) 第i位选择1,否则第i为选择0;

步骤5:计算N个个体的适应度函数并排序;

步骤6:根据频率gi(t)和bi(t),i=1,2…m,选择M个最优个体和最差个体;

步骤7:对每个基因位i,记录t-1时刻的状态s和采取的动作a,通过gi(t)和bi(t)确定当前状态s’;使用式(5)计算直接回报,根据式(3) 、(4) 更新Q表值Qi(s ,a ) 。

步骤8:生成随机数ξi∈[0,1] ,如果,则随即选择一个动作a’,否则使用a' = arg max Qi(s',a') 选择动作。

步骤9:根据式(0)~(2)以及动作a,根据相应的公式计算pi(t+1)的新概率值。

步骤10:结束。

2.3改进策略

算法每次更新概率pi(t),Agenti使用ε贪婪策略随机选择动作,使用1- ε概率按照当前状态最大Q值选择动作。由于ε贪婪策略不会总能选择到最佳的动作,所有总是以较小的概率进行随机选择动作。通过增加随机选择的概率,能够让Agent探索新知识,比ε贪婪策略获得更好的结果。

然而,使用固定的ε值具有一定的局限性,尤其是当Agent经过足够多次学习以后,当前的策略已经接近于最有策略,如果仍然以ε概率随机选择动作的话,将会影响算法的收敛速度。如果可以逐渐的减少探索概率的影响,能很大程度上提高基于Q学习的分布估计算法的执行效率。使用模拟退火法算法的Metro Polis规则能够解决这个问题,它通过随着温度的降低逐步降低发生劣质解得概率。

下面给出使用改进的Metro Plis规则的基于Q学习的分布估计算法的设计规则。

算法2:改进的基于Q学习的分布估计算法

步骤1:初始化Qi=0,i=1,2……m;初始温度temperatureτ = τ0 ;设置P(1)=(0.5,0.5……0.5),t=1。

步骤2:While(终止条件不满足)do

步骤3:根据P(t)采样第N-1代的种群,在t-1时刻使用最优的个体代表当前群组。

步骤4:计算N个个体的适应度函数并排序;

步骤5:根据频率gi(t)和bi(t),i=1,2…m,选择M个最优个体和最差个体;

步骤6:对每个基因位i,记录t-1时刻的状态s和采取的动作a,通过gi(t)和bi(t)确定当前状态s’;使用式(5)计算直接回报,根据式(4)更新Q表值Qi(s ,a ) 。

步骤7:使用) 选择动作ar,根据如下概率确定动作a' 。

步骤8:根据式(0)~(2)以及动作a’重新计算pi(t+1)的概率值;

步骤9:结束。

冷却:τ←λτ;

t ← t + 1.

几何冷却策略算法使τ←λτ ,其中λ∈(0,1) 是温度系数。随着温度的降低,Agenti随机选择动作的概率越来越小,当温度趋于0时,策略相当于贪婪策略。

3对比实验

3.1测试函数

为了评价基于Q学习的分布估计算法的执行效率,用本算法与经典的UMDA、PBIL、MIMIC算法、遗传算法进行比较。选择个标准测试函数进行测试。Sphere函数、Quadric函数、Schaffer函数、griewank函数、Rosenbrock函数和Rastrigin函数。不同形式的标准测试函数具有较好额运行效果。Schaffer函数、Griewank函数和Rastrigin函数是多峰函数,具有多个局部最小值,通常更难以找到全局最小解。算法用于测试其跳过局部最小进行全局寻优的能力。Rosenbrock函数式单峰、非凸病态函数值域上具有单调特性。全局最优点的收敛于远方,可以使用有效算法来对其进行估计。Sphere函数和Quadric函数式单峰函数,能够测量优化算法的准确性,检验算法的实现程度。

3.2实验结果分析

经过测试,基于Q学习的分布估计算法参数如下:频阈θhigh=0.75,θlow=0.25,θdiff=0.35,选择γ =0.2,调节率β =0.9,学习因子α =0.2,折扣因子为0.9。比较UMDA算法选择率设置为0.2,PBIL算法学习率设置为0.1,MIMIC算法选择率设置为0.4,遗传算法使用单点交叉,交叉率为0.7,变异率为0.1。所有算法的种群规模设置为50,终止条件设置为找到全局最有接或者进化代数为T,T设置为200。

考虑的上述算法都具有一定的随机性,使用函数f1~f6分别独立测试50次,实验结果如表所示。表1显示了每个算法获得全局最优解的个数。表2显示了50次测试的平均值、标准差和最差值。表3显示了每种方法的平均运行时间(单位:秒)。其中QEDA表示基于Q学习的分布估计算法,MEDA表示使用Metro Polis和ε贪婪策略的基于Q学习的分布估计算法。QEDA选择ξ =0.5,MEDA的初始温度设为τ0 = 50 ,温度系数λ = 0.9。

动态规划技术篇9

随着全球能源和环境问题的日益突出,风能等可再生能源发电技术得到迅速发展,风电并网的规模也越来越大[1,2]。由于风电出力具有很强的不确定性,含风电场的电网日前发电调度问题常描述成为一个含有随机变量的动态经济调度(DED)问题[3,4]。为了使获得的发电调度计划对于风电场出力不确定性具有适应性,通常采用场景法,通过对风电场出力随机变量进行抽样模拟,进而将随机模型转换为确定性DED模型[5,6,7,8,9,10]。由于随着抽样的场景数目的增多,场景法求解随机DED问题的模型维数将快速增大,直接求解非常费时,因而目前该方法主要应用于中小型系统的优化调度,应用于实际大型电网将面临模型维数太大、求解时间太长的问题。

另一方面,由于发电机组相邻时段出力的变化量存在爬坡率的限制,含风电场的电网日前发电调度问题是一个含有一天所有时段变量的联合优化模型,所有时段变量的同时求解是导致问题维数太大的另一个关键因素。动态规划(DP)法根据最优性原理,即Bellman方程可实现对于日前发电优化调度问题各个时段决策量的解耦求解[11,12]。然而,实际大电网机组众多,每个时段各个机组出力组成的状态维数非常之大,DP法应用于大电网发电调度问题将不可避免地面临着“维数灾”难题。

近似动态规划(ADP)理论通过近似描述值函数与状态量之间的关系来克服“维数灾”难题,文献[13,14]应用ADP理论求解大规模机组组合(UC)问题,不过没有考虑风电随机性对于电网UC的影响。文献[15,16]将ADP理论应用于含风电和储能装置的小型系统优化调度。文献[17]将含有单一风电场和抽水蓄能电站的电力系统随机DED问题描述为随机型存储模型,以抽水蓄能电站水库的储水电量作为系统的存储水平,并采用ADP算法克服随机规划问题中目标函数含有数学期望计算的难题。然而,所提方法只适用于必须含有抽水蓄能电站的电网调度问题;且建立的模型中并没有考虑网络安全约束,获得的调度计划无法满足工程应用需求;另外,目标函数采用机组出力的一次函数,能否适应于DED问题通常采用的二次目标函数还有待进一步验证。

由于目前国内大部分省级电网中不含有抽水蓄能电站,对于不含有抽蓄电站的大型电网,如何应用ADP算法求解其随机DED问题,同时考虑网络安全约束的影响,对于扩大ADP算法在求解随机优化调度问题方面的适用范围,无疑具有重要的实用意义。因而,本文以系统中多个风电场出力的日前预测曲线为基础场景,借助拉丁超立方抽样生成风电场出力误差场景。以当前时段的系统正旋转备用容量作为资源存储量,列写了相邻时段关系的系统状态转移方程,从而建立了不含抽水蓄能电站电网的随机DED问题的随机型虚拟存储器模型(VSM)。在考虑网络安全约束的条件下利用误差场景对随机DED问题各个时段的值函数进行训练,利用训练得到的值函数对预测场景下的VSM进行求解,得到考虑风电出力随机性影响的常规机组日前发电出力计划。

1 随机型VSM描述

存储模型通过设置一个表示系统资源存储量的变量作为系统的状态变量,很好地解决动态规划问题状态的“维数灾”。由文献[17]可知,对于含有抽水蓄能电站的电网,可以方便地以抽水蓄能电站水库的储水电量作为系统的资源存储量,但对不含抽水蓄能电站的电网,在系统中难以找到可直接表示系统资源存储量的变量,因此如何选取系统的资源存储量,成为此类系统存储模型构建的难点和应用ADP算法求解该类系统随机DED问题的关键。

由于在一般电力系统中,系统的旋转备用容量反映了系统的可调控发电能力,相当于存储在系统中可用于平衡风电场出力随机波动和负荷需求变化的容量,由于存储模型只设置一个表示资源存储量的变量,故本文选取系统的正旋转备用容量作为系统的资源存储量,并根据相邻时段的系统正旋转备用容量的变化关系,列写出系统的状态转移方程,从而建立适用于一般电力系统随机DED问题的VSM,并采用ADP算法求解。

1.1 目标函数

优化目标取常规机组总发电燃料耗量最小,由于风电出力的随机性,目标函数应表示为风电的各种可能出力下对应的常规机组总发电燃料耗量的期望值最小,如式(1)所示。

式中:T为调度周期总的时段数,本文取T=96;ΔT为每个时段的持续时间,即15min;St为t时段系统所处状态;xt为决策变量向量;Ct(St,xt)为时段t所有NgNg台常规机组的燃料耗量,

,其中,Pi,t为第i台常规机组在时段t的发电功率,Ai,2,Ai,1,Ai,0为第i台常规机组的耗量特性系数,对于水电机组,有Ai,2=Ai,1=Ai,0=0;E{·}为期望函数;Πt为xt的可行域。

1.2 约束条件

1)基本约束

式中:Ploadj,t为负荷节点j在时段t的功率预测值;Nd为负荷节点数;Pwk,t为风电场k在时段t的出力值,为随机变量;Pi-和P-i分别为机组i的有功出力上、下限;rdi和rui分别为机组i的向下、上爬坡率。

其中,第1个式子为功率平衡方程,第2个式子为常规机组的有功出力上、下限约束,第3个式子为常规机组的爬坡约束。

2)网络安全约束

式中:Fl,t为时段t第l条支路的传输功率;Flmin和Flmax分别为第l条支路传输功率的下限和上限,一般Flmin直接取Flmax的负值;Fij,t为第i个安全断面中第j条支路在时段t的传输功率;Ωi为第i个断面包含的支路集合;FΩimin和FΩimax分别为第i个断面的安全下限和上限。

其中,第1个式子为输电线路安全约束,第2个式子为断面安全约束。支路传输功率Fl,t可由直流潮流模型近似表示为:

式中:Gl,i,Dl,j,Wl,k分别为第i台常规机组、第j个负荷和第k个风电场对支路l的功率转移分布因子,其值由网络结构和支路参数确定[18]。

由于实际大电网支路数众多,若在模型中加入所有的支路安全约束,优化模型的规模会大幅度增加,进而导致求解速度的快速下降。本文采用“求解→安全校验→添加越限支路约束再求解”循环的方法,直至所有支路功率都通过安全校验,这样可加快求解速度,并得到满足所有支路安全约束的最优解[19]。

3)旋转备用约束

为应对风电出力的不确定性和负荷预测误差,系统中应保留一定的旋转备用容量以保证系统安全可靠运行。系统及各常规机组备用约束如下:

式中:sui,t和sdi,t分别为机组i在时段t能够提供的正旋转备用容量和负旋转备用容量;T10为要求的机组旋转备用响应时间,取10min;Su,t和Sd,t分别为系统在时段t的正、负旋转备用容量;Lu和Ld分别为负荷对系统正、负旋转备用的需求系数,通常设定为2%~5%;wu和wd分别为风电场出力对系统正、负旋转备用的需求系数,根据目前国内风电功率预测系统的预测误差范围,可设定为10%~25%;P-wk为风电场k的额定出力。

4)状态转移方程约束

通过将系统正旋转备用容量Su,t设置为系统在时段t的资源存储量,取系统时段t的状态向量为St=(Su,t,Pw,t),则系统的状态转移方程如下:

式中:Ps,t为时段t系统正旋转备用容量相对上一时段的变化量;Pw,t为时段t所有风电场出力组成的向量。Ps,t既与时段t风电场出力随机变量Pw,t有关,又与时段t常规机组出力决策变量xt有关。该方程的物理意义是系统状态在随机变量和决策变量共同作用下的演化形式,体现了相邻两个时段系统正旋转备用容量之间的耦合关系。

5)系统旋转备用变化量约束

每一时段系统正旋转备用容量相对上一时段的变化量有一定的范围限制,这个范围可由风电出力变化量与负荷变化量确定。当风电出力增加大于负荷增长时,系统正旋转备用变化量应满足:

当风电出力增加小于负荷增长时,系统正旋转备用变化量应满足:

2 ADP思想与模型处理

2.1 DP的局限性

基于Bellman的最优性原理,求解多阶段决策问题时,严格意义上DP可以求得全局最优解[20]。对初值问题DP的求解决策过程如图1所示。图中:Jt为时段t的收益;St=fs(St-1,xt)为时段t-1到时段t的状态转移方程。令xt*为时段t的最优决策,求解时先从最后时段开始往前逐一时段递推,依次得到各时段最优决策和值函数与状态关系xT*(ST),VT(ST),x*T-1(ST-1),VT-1(ST-1),…,x1*(S1),V1(S1)的表达式,其中,Vt为时段t的值函数,即从时段t到末时段T内所有阶段收益总和的最优值,然后代入初始状态S0并结合状态转移方程,从前往后逐一求得各时段的最优决策和值函数。

由DP的求解过程可以看出,应用DP求解DED问题,当机组出力连续时,由于爬坡率约束的存在,相邻时段之间的决策变量具有耦合,机组出力可行域也是随不同时段变化的,难以用解析表达式描述决策、收益与状态之间的关系;当机组出力离散时,可以对所有的机组出力组合情况进行评估,但随着机组数、时段数、状态变量数的增加,组合情况呈指数式增长,将面临“维数灾”问题。

2.2 ADP思想

由DP的决策过程可知,DP在求解DED问题时虽然能够求得全局最优解,但对于实际大型电网来说其推导过程过于繁琐,求解的复杂程度难以接受。近年来,Powell等人将ADP方法运用到具有随机性可再生能源接入的电力系统调度中,很好地克服了DP求解DED问题的局限性。

由2.1节可知,DP在决策前需从后往前逐一推导每一状态St对应的值函数Vt(St)的表达式,这是DP求解的关键和难点。如果假定各时段值函数的表达式Vt(St)已知,则在求解当前时段t时,只需在St-1的基础上结合状态转移方程St=fs(St-1,xt)和当前时段值函数Vt(St),即可求得当前时段t的最优决策xt*。但各时段值函数的精确表达式Vt(St)事先无法预知,这为模型的解耦求解带来困难,ADP的思想就是通过采用近似值函数来逼近描述时段t的值函数与状态St的关系,从而实现模型的时段解耦求解,进而可依次求得各时段的近似最优决策xt。由此可以看出,ADP算法的关键就是近似值函数的合理表示。

2.3 模型处理

为了方便应用ADP对随机DED问题的VSM进行求解,需对模型进行一些必要的处理。为此将每个时段假想成两个阶段,分别对应决策前状态(Su,t,Pw,t)和决策后状态(Sxu,t,Pw,t)[21],并定义S^u,t(Pw,t)为时段t观察到随机变量的实现值后状态的变化量。其中,决策前状态(Su,t,Pw,t)表示仅考虑随机变量引起的状态变化量S^u,t(Pw,t)的作用,而未做出决策前的系统状态;决策后状态(Sxu,t,Pw,t)表示做出最优决策后系统的状态。因此系统状态转移方程转化为:

式(9)表示假定时段t观察到的风电变化量直接作用于系统正旋转备用容量,由Sxu,t-1增加演化为Su,t;式(10)表示做出决策得到常规机组出力值xt后,Su,t加上系统正旋转备用容量的实际变化量Ps,t(xt),并扣除没有实际作用效果的后,最终得到决策后系统正旋转备用容量Sxu,t。引入决策前状态和决策后状态后,可得时段t的决策前状态值函数Vt*(Su,t,Pw,t)和决策后状态值函数Vtx(Sxu,t,Pw,t)如下:

此处Πt为由式(2)至式(5)和式(7)、式(8)所确定的xt的可行域。

由式(9)可知,从时段t的决策后状态到时段t+1的决策前状态,仅考虑随机因素的作用,所以式(12)中含期望计算,这给求解带来不便。因此在应用ADP算法求解随机DED问题时,除了要解决近似值函数的合理描述问题,还要处理好系统中随机因素引起的期望计算。

根据文献[21]可知,对于资源分配问题,对于没有明显特性的值函数,可以通过查表与聚类、参数模型、非参数模型等一般工具获得近似值函数;而对于值函数相对资源存储量具有连续、线性或近似线性、非线性(凹性或凸性)性质的,可以采用接近其特性的函数对值函数进行近似。文献[22]给出了对于线性目标函数存储模型采用满足凸性的分段线性函数近似值函数的收敛证明,由于上述VSM的目标函数是二次函数,和线性函数一样具有凸函数特性,因而本文采用满足凸性的分段线性函数来逼近其决策后状态的值函数Vtx(Sxu,t,Pw,t)。因此,通过在决策后状态Sux,t的取值区间上取离散断点R=ρ,2ρ,…,mρ,令vt(Pw,t)=[vt(Pw,t,ρ),vt(Pw,t,2ρ),…,vt(Pw,t,mρ)]T为时段t值函数的斜率向量,其中,m为存储量的所有分段数,ρ为每段长度,则t时段决策后状态的近似值函数可表示如下:

式中:Vtb为时段t值函数的截距;ytr为第r段的存储量。

将式(13)代入式(11),则随机DED问题的VSM可转化为如下不含期望运算的确定性二次规划模型:

3 VSM的ADP求解

3.1 近似值函数的求取

应用ADP求解VSM时,近似值函数t(Sxu,t,Pw,t)对精确值函数Vtx(Sxu,t,Pw,t)的近似精度越高,则近似最优决策xt越接近xt*。为获得高质量的近似值函数,首先根据确定性优化模型求解结果对近似值函数的斜率向量和截距进行初始化,然后扫描误差场景,在每个场景下逐个时间段求解二次规划问题(式(14)),并根据求解结果采用逐次投影近似路径(SPAR)算法[16]修正每次迭代的近似斜率值vtn(Pw,t)和截距值Vntb,直到得到收敛的近似值函数tn(Sxu,t,Pw,t)。SPAR算法对近似值函数的求取过程如图2所示。图中,tn(Sxu,t,Pw,t)为第n次迭代所得近似值函数,Vtx(Sxu,t,Pw,t)为事先未知的精确值函数,和vtx分别为第n次迭代时段t值函数的斜率近似值和时段t值函数斜率的精确值。

斜率向量和截距初始化时,首先根据确定性优化模型的决策结果,获得各时段的资源存储水平Sux,,t0及相应时段的值函数值Vt0。斜率初值设定时以(Sux,,t0,Vt0)作为该时段值函数的极小值点,且其两边各段的斜率符号相反,与极小值点相邻的两段关键点的斜率初始值可根据优化目标的物理意义合理设定,本文主要根据常规机组的煤耗特性系数确定,其余段的斜率根据满足值函数凸性的斜率单调递增特性依次设定。在初始斜率向量给定后,初始截距V0tb根据式(15)确定。

式中:为时段t值函数的斜率初始值。

给定初始斜率向量和截距后,依次在每个场景下逐个时段求解二次规划模型(式(14)),再进行斜率和截距修正,斜率修正过程参见文献[17],得到第n个场景迭代的近似斜率分量和近似值函数值tn(·,Pnw,t)后,根据式(16)计算截距修正值Vntb为:

实际计算中,可只对图2所示关键区域的两段斜率进行修正,再结合截距修正,以节省值函数训练时间,提高计算速度。

3.2 ADP求解过程

ADP求解随机DED问题VSM的步骤如下。

步骤1:求解预测场景对应的确定性经济调度模型,得到各时段决策xt0、存储量和值函数值Vt0。

步骤2:初始化各时段的近似斜率向量,根据初始斜率值和来确定初始截距V0tb。

步骤3:借助拉丁超立方抽样生成基于预测场景P0w,1,P0w,2,…,P0w,T的误差场景样本,获得N个误差场景Pnw,1,Pnw,2,…,Pnw,T(n=1,2,…,N)[23];令n=1,t=1。

步骤4:若n>N则转步骤11,否则继续。

步骤5:若t>T则转步骤9;若t=1,则令的上限和下限设置为;否则计算决策前的资源存储量

步骤6:求解式(14)的二次规划模型,得到最优决策xtn,并计算得到决策后的资源存储量

步骤7:若t<T,则进行斜率和截距修正。

步骤8:t增加1,转步骤5。

步骤9:对场景n的求解结果进行网络安全校验,若存在支路越限,则将越限支路的安全约束加到式(14)所示模型,令t=1,转步骤5;若不存在支路越限,则转步骤10。

步骤10:n增加1,转步骤4。

步骤11:求解预测场景的VSM,获得调度计划。

4 算例分析

为验证本文所建立的随机DED问题的VSM和ADP求解算法的有效性,对某个不含抽水蓄能电站省级电网的发电调度进行建模和求解。以该省网2015年1月5号的数据为例,共有85台常规机组,其中火电机组46台,装机容量为14 560 MW;水电机组39台,装机容量为8 208 MW。风电场5座,额定容量分别为3 958.5,1 140,192,99,49.6 MW,其并网站点见附录A图A1,其中前两个风电场的出力预测曲线,以及系统日前负荷预测曲线和外送功率曲线见附录A图A2和图A3。系统共有线路498条,3个安全断面,各断面数据见附录A表A1。

假定风电出力预测误差服从正态分布,数学期望为各时刻的风电出力预测值,标准差为预测值的20%,借助拉丁超立方抽样方法分别生成20,50,100,200个误差场景进行求解。以20个场景的求解为例,训练过程中值函数变化如图3所示。可以看出,训练刚开始时误差场景的值函数与由确定性模型优化结果反推的值函数非常接近,随着训练的进行,后面误差场景求解得到的值函数慢慢趋向收敛,整个训练过程耗时198.39s。

本文构建的随机VSM和ADP算法求解结果与场景法求解结果的值函数对比见附录A图A4。采用本文模型和ADP算法求得的一天总发电燃料耗量为7.572 027万t,场景法求得的总发电燃料耗量为7.487 056万t,且由附录A图A4中各时段的值函数比较可以看出,ADP算法与场景法求得的燃料耗量结果十分接近。以上比较充分说明了本文建立的不含抽水蓄能电站的随机DED问题的VSM及ADP算法求解的正确有效性。

ADP算法求得的系统正旋转备用与场景法优化结果比较如图4所示。可以看出,两种方法得到的系统正旋转备用的整体变化趋势也基本一致,只是ADP算法得到的系统正旋转备用整体上比场景法略微大一些。

两种方法得到的机组出力计划比较如图5和图6所示。由图5可以看出,两种方法得到的火电机组的出力计划基本一致,部分机组在某些时段出力存在微小偏差。由图6可以看出,场景法得到的水电机组出力存在很大的跳跃,而ADP算法得到的水电机组出力则变化比较缓慢,这是由于水电机组功率调节速度快,每个时段可调节功率范围较大,因此场景法求解时在满足各种约束的条件下为了优化目标函数而使得机组出力会有较大的波动跳跃,这与水电机组自身的调节特性相吻合,而在采用VSM和ADP算法求解时由于式(6)至式(8)的约束,限制了系统正旋转备用的变化,使得备用响应容量较大的水电机组的出力变化也较为缓慢,这更符合实际电网运行调度中对机组出力的调控要求。

同时,由于模型中添加了断面安全约束,能够保证所获得调度方案下系统的安全运行。以20个误差场景的优化为例,与不含断面安全约束求解结果对应的安全断面2的输电功率对比如表1所示。可以看到,在未加断面约束时优化得到的总燃料耗量为75 706.61t,但断面2在某些时段存在功率越限;加入断面约束后,总燃料耗量为75 720.27t,比不加断面约束时增加了13.66t,但断面2功率都小于安全极限。因此,在模型中加入网络安全约束后,为了使系统的关键线路和断面的输送功率在限定范围内,机组的出力安排可能会使得系统总的燃料耗量有所增加,这在一定程度上使得系统的经济效益有所下降,但却避免了系统运行在不安全状态,对系统的安全可靠运行具有重要意义。

接下来分别将该算法与场景法在20,50,100,200个场景的情况下进行比较,验证该算法的计算性能。使用计算机为Intel(R)Core(TM)i7-4900MQ CPU 2.80GHz/32GB内存,计算结果如表2所示。由表2可见,场景法在场景数较少时具有较快的计算速度,但随着场景数的增加,计算所需内存和时间都大幅增长,这在很大程度上限制了场景法的应用,尤其是对于风电场数目多需要抽样很多个场景来准确模拟风电出力特性的大型电网调度问题,场景法求解将会受到计算机内存容量限制。而ADP算法由于实现了对各个场景和各个时段的解耦求解,将大规模优化问题分解成若干个小规模优化问题逐个求解,所以随着场景数的增加,所需内存无明显增长,求解时间也基本只增加了新增加场景进行值函数训练所增加的时间。对于100个场景求解时间只有16min左右,约为场景法的1/12;即使对于200个场景求解时间也只有33min左右,计算速度明显提高。

同时,将所提出算法与基于极限场景集的鲁棒优化调度(RS)方法比较[24]。为保证极限场景能覆盖95%的可能风电出力,取风电功率的变化范围为[μ-2σ,μ+2σ],其中,μ为期望值,σ为标准差值,由于系统中含有5个风电场,故共有25即32个极限场景,RS方法求解总耗时6 378.83s,优化结果的总燃料耗量为75 654.04t。

由此可以看出,虽然RS方法比场景法更能保证对风电出力大范围波动的适应性,但其目标函数值也更大,且在极限场景只有32个的情况下,其求解时间已经分别达到50个场景下场景法和ADP算法的3.3倍和12.9倍,当系统中风电场数目增大时,其求解时间将增加得更为明显。因此,ADP算法与RS方法比较同样能够大幅提高计算速度。

另外,由于极限场景的数目与风电场数目呈指数关系增长,随着风电场数目的增大,RS方法和场景法一样会面临由于问题规模过大超出计算机内存容量限制进而无法求解的问题。因此,ADP算法对于含多个风电场的大型电网随机优化调度问题具有更好的适应性,在求解速度上相对RS方法及场景法具有明显的优势,能够很好地满足应用于实际大型电网日前发电调度的要求。

5 结语

本文将ADP理论推广应用于不含抽水蓄能电站的电网随机DED问题,以正旋转备用容量为存储量,建立不含抽水蓄能电站的电网安全约束随机DED问题的VSM,并通过与场景法和鲁棒优化调度方法求解结果的比较分析验证了所建模型和求解算法的正确有效性,为ADP理论应用于快速求解一般大型电网的随机DED问题提供了新途径。ADP算法实现了对随机优化调度模型各个场景和各个时段的解耦求解,将一个大规模优化问题分解为一系列小规模优化问题,有效提高了对大电网随机优化调度模型的求解速度。采用ADP算法求解随机型VSM的优化结果中对应的水电机组出力变化比场景法更加合理,符合实际电网运行调度中对机组出力的调控要求。另外,对于含有抽水蓄能电站的电网调度问题,也可以采用本文提出的VSM建模方法并通过ADP算法快速求解;即便是对于含有多个抽水蓄能电站的电网调度问题,文献[17]的建模方法由于只适用于含单一抽水蓄能电站的电网,会存在建模困难,而本文的VSM建模方法同样能够适用。

本文研究中采用分段线性函数对值函数进行近似,所得调度方案对应的目标函数值比场景法的结果有所增大,如何提高值函数的近似精度,以获得更优的调度方案是本文下一步工作重点;同时,本文建立模型中未考虑不同时段机组启停状态的变化,如何应用ADP算法求解随机机组组合问题是本文的进一步研究方向。

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。

摘要：针对大电网安全约束随机动态经济调度(DED)问题的求解时间太长,提出了应用近似动态规划算法快速求解不含抽水蓄能电站电网的安全约束随机DED问题的方法。建立了随机DED问题的虚拟存储器模型,以系统的正旋转备用容量作为存储变量,构建系统相邻时段的状态转移方程,并考虑了各输电线路和断面的安全约束。以风电场日前功率预测曲线为基础,通过拉丁超立方抽样产生风电场出力的误差场景,并逐一场景递推求解每个时段的二次规划模型以对各个时段的值函数进行训练,形成收敛的值函数,再代入预测场景求解以获得最终的优化调度方案。该方法实现了对随机DED模型各个场景和各个时段的解耦求解,将一个大规模优化问题分解为一系列的小规模优化问题,有效提高了对大电网随机DED模型的求解速度。以某一实际省级电网为算例,通过与场景法和鲁棒优化调度方法的比较验证了所提出模型和求解方法的正确有效性。

如何运用动态规划分配供货时间篇10

动态规划是运筹学的一个分支, 它是解决多阶段决策过程最优化的一种数学方法。其中资源分配问题应用尤其广泛, 而问题中分配资源不分先后, 由已有的时间安排问题, 现举一例如下:某公司还有7天就要进行4种货物的供应, 想尽可能有效安排这7天时间, 每种货物至少1天准备, 而假设每天只准备一种货物, 每种货物准备时间不同获得利润如表1, 如何安排时间获得最高总利润?

一般动态规划解决问题都假设同时交货, 实际上交货时间是有先后的, 这又应该怎么解决呢?

2 实际的供货问题

供货时间安排如下:A在10日上午;B在12日上午;C在13日下午;D在15日上午。由于种种原因, 该公司在7日才开始准备。因为时间有限, 不可能每种货物都达到最高利润。通常来说上午供货后, 下午还是可以准备其他货物的, 为了研究方便我们认为准备一种货物只占去半天时间, 而时间是紧迫的, 所以将时间以半天为单位, 此处只为说明问题, 实际可以将一天分成很多份, 处理方法一样。分配不同时间时获得的利润如表2所示, 问如何安排各种货物的准备时间, 达到总利润最高 (即最满意)

续表

一般来说, 准备时间越长利润越高, 空白的表格是因为不会发生此种情况, 故不用填写相应数据, 解释如下:

每种货物可以在供货前任何一天进行准备, 但实际上多数人都会尽量将准备时间靠近供货时间。比如D货, 若只有一天时间, 多数人会安排在14日, 而不会安排在7日, 原因一是间隔久了, 容易忘记;原因二是会占用前面货物的准备时间, 所以不合算, 这点对于该问题的研究很重要。表3中将7日上午定为序号1, 半天为一个单位进行标识, A、B、C、D分别在7、11、14、17上。因为A第一个供应, 所以只有7～9日三天时间, 共有6个半天;B还要加上10日下午和11日一天, 所以共有9个半天;C在此基础上还要加上12日下午和13日上午, 共有11个半天;D则不同, 14日全天都只会准备这一种, 共有13个半天。从以上分析中我们可以知道:1～6可能会进行A、B、C、D的准备;8～10进行B、C、D的准备;12～13会进行C、D准备;而15～16只会准备D, 由于时间比较紧迫, 最后不会有剩余。

该问题明显对4种货物的时间分配有先后顺序, 即不是同时的, 所以多阶段决策分配的顺序组合就不能任意排列。D是最后一个, 理论上将涉及资源时间最长的一个, 其次为C、B、A。资源总数为13个半天, 后面的备货可能占用前面的时间, 而前面的准备不能占用后面的时间, 故而我们先分配D, 再将分配的天数从13中去除, 剩下的时间才一定是包含C、B、A, 以次类推下去, 下一个分配的是C……这么处理需要重要的前提:时间比较紧迫;每种货物都尽量靠近各自的考试时间, 我们前面已经提到, 符合实际情况。所以该问题的分配顺序一定是D、C、B、A。

3 问题求解

求解步骤:

①N=4, k=1, 2, 3, 4, 依次为D、C、B、A (多阶段决策问题求解是逆序递推) ;

②Sk——k阶段初剩余的天数 (半天) ;

③xk——分配给k种货物的天数;

④状态转移方程Sk+1=Sk-xk;

⑤权函数wk为表1中利润;

⑥递推方程

undefined

k=4 Aundefined

中间过程省略掉, 读者可以自己完成!

k=1 D S1=13, 0≤S2-x2≤11

4 结论

该公司最后的时间安排应为:A——1.5天, B——1.5天, C——2天, D——1.5天。考虑实际情况时, 具体的安排不唯一, 这里列举一种方案:7日、9日下午准备A;8日、11日下午准备B;9日上午、10日下午、11日上午、13日上午准备C;12日下午、14日准备D。

参考文献

[1]郭耀煌, 李军.管理运筹学[M].西安:西安交通大学出版社, 2001:206.209.

动态规划技术篇11

北京市经信委中小企业处荆甫智处长在开班仪式上致辞并讲了第一课。他指出，全市25万家小企业，仅靠银行信贷难以满足企业的融资需求。解决中小微企业融资难的问题，必须多方位、多渠道、多措并举，其中包括对企业金融人才的培养。融资规划师培训，就是为中小微企业培训金融人才，帮助企业学会组合运用金融工具，破解融资难题。2012年北京市中小微企业的创新融资达到一个新的高度，相当于一家中型银行对中小企业的贷款。他的演讲务实生动，反映小微企业需求，针砭金融市场流弊，博得学员热烈掌声。

银企互联教育机构董事长、融资规划师培训项目创始人巩宇航就中小微型企业融资难问题进行了深度剖析，提出了化解小微企业融资难必需解决好的问题，然后简单介绍了融资规划师培训的使命和方法，近期目标就是针对金融市场乱象，帮助企业“睁开眼睛看金融市场”。

中国外汇投资研究院院长、中国银行高级研究员、著名金融经济专家谭雅玲从全球经济-金融一体化视角，阐述了我国应对金融动荡的政策和策略。她特别指出：处在当今这个全球金融动荡时代，融资规划师应具备阅读国内外金融市场运行的能力，协助企业有效应对风险，抓住与危机共存的机遇。

动态规划技术篇12

近年来,国内对配电网进行大规模地改造和建设,接线方式从简单的辐射型网络到“手拉手”接线,再到多分段多联络接线,以及分布式电源的接入使配电网变成了辐射型多电源配电网,配电网的结构日益复杂。配电网安装分段开关、接入分布式电源和架设联络线是提高供电可靠性有效技术措施。当线路发生故障时,配电网的联络线起着负荷转移和供电恢复的作用,在整个配电系统规划中占有举足轻重的位置,对配电网联络线进行科学合理的规划具有非常重要的现实意义。

文献[1]以用户停电损失、线路建设费用和运行费用为目标,应用改进的最小生成树算法求解变电站之间的网架电网规划。文献[2]应用内外两层规划方法实现配网线路网架和分布式电源接入的规划,考虑了内外层规划结果的相互影响。文献[3]构建分布式电源接入规划的低碳化目标函数,研究分布式电源接入规划。文献[4]构建DG投资商、配电公司和用户多利益体的分布式电源接入模型。文献[5]建立了含分布式发电的配电网网架双层规划模型,上层规划以年综合费用最小为目标,下层规划是以分布式电源出力切除量最小为目标。文献[6]以所有联络线总投资费用最小寻优站内联络和站间联络的两联络线路的配置。文献[7]在优化辐射状网架结构基础上对站内、站间的联络线和联络开关进行优化配置,实现多分段多联络。文献[8]考虑基态运行方式下的过负荷约束和辐射状网络约束,以线路的年综合费用和过负荷惩罚费用之和最小为目标函数,确定最经济的配电网络方案。文献[9]以线路综合造价最小为目标,实现负荷分配及变电站选址并对变电站及负荷进行连线规划,满足辐射性和连通性的约束条件且距离最短。文献[10]考虑潮流约束,以一次性建设投资、运行费用和网损费用为多目标,进行输电网规划。文献[11-12]建立了考虑分段开关、联络线等配网设备投资最小和事故负荷损失指标(CLLI)最小的多目标规划模型,实现了配网规划中分段开关和联络线的优化配置。文献[13-14]建立了分布式风电源和联络线投资综合最小、网损最小以及供电可靠性最佳的多目标规划模型。文献[13]先规划联络线,再确定DG位置和容量。文献[14]将DG接入容量和联络线位置统一编码优化。但文中事故负荷损失指标仅考虑N -1 运行时切过载负荷的损失作为可靠性指标。文献[15] 分析MG发用电特性对配电网网损和用户供电可靠性的影响效应的基础上,建立含MG配电网的规划的数学模型,应用细菌群体趋药性(BCC)算法求解树状网架结构。文献[16]将系统动力学与熵权法有机结合,提出了配电网规划带时间标度的动态综合评价指标。

上述文献主要是在配网馈线之间进行联络构成两端供电或多端供电的手拉手式的联络接线方式。目前,配电网中还有相当一部分树状馈线在没有备用电源引入,也没有邻近馈线的情况下,架设联络线使树状配电网自成环网是提高供电可靠性的唯一措施。因此本文以单电源树状配电网架为基础,研究树状馈线自成环网的联络线优化规划,对提高供电可靠性和保证二级及以上负荷供电具有重要的意义。

1 联络线优化的数学模型

联络线投资与维护费用反映了供电方投资和运营成本的经济性;联络线位置直接影响用户的停电损失费用,反映了供电的可靠性,也是用户对供电部门满意度的直接体现。如果只考虑单方利益是片面的,不能让供受双方都满意,因此本文综合考虑供电方的联络线投资维护费用和不同用户停电损失,通过权系数反映供电方投资费用和用户停电损失费用的权重,对联络线的位置进行规划的数学模型为

式中:Ce表示联络线的等年值投资与维护费用,反应经济性;CI为系统年停电损失费用,反应可靠性;α1、α2为权系数,根据配电网所带负荷级分别取值,一二级负荷α1<0.5 ,三级负荷α1>0.5 ,且满足α1+α2=1 。

1.1 投资与维护费用

联络线建设费用通常用等值年计算,年维护费用按等值年投资费用比例支出。因此,联络线路的年等值投资和维护费用为

式中:Ce为年费用;m为联络线的数量;C为每千米联络线投资费用,通常10 k V线路综合投资费用取8 万元/km;l(i) 为第i条联络线的长度; k为曲折系数,取1.1;α% 为维护费用所占投资费用的比例(取5% );γ 为年利率,取0.1; n为联络线使用寿命,取20 年。

1.2 停电损失费用

在树状配电网每段线路上均安装分段开关一方面增加了设备投资,另一方面由于系统设备数量增加造成故障的几率有可能增大,反而造成系统可靠性降低,因此在工程实践中,只有一部分线路段安装分段开关,当配电网发生短路故障时,通过馈线自动化实现故障定位和隔离,并对非故障区域恢复供电。非故障区间相对于故障区间又分为上游和下游,上游负荷不停电,发生故障时没有停电损失,下游负荷停电损失与联络线的规划方案有关,联络线将树状配电网联络成一个或多个环,称为联络环。为了计算下游负荷的停电损失,首先要建立配电网络的联通矩阵,分析任一点为发点或收点的联通子图,确定任一点的上游节点集合和下游节点集合,然后基于故障区间和联络环的从属关系对配电网进行停电损失的分区计算。

如图1 所示环网设计的配电网络,通常联络线(虚线)开断呈树状开环运行。

用节点-节点的连通矩阵G来表示配电网的连通拓扑结构,Gij=1 表示节点i和节点j连通,Gij=0表示节点i和节点j不连通(在联通矩阵中以空表示)。对应图1 所示配电网的树状拓扑图的节点-节点连通矩阵G为式(3)。

连通矩阵第i行中对应Gij=1 的列号j的集合构成了以该节点i为发点的子连通图,对应着节点i的下游节点集合;连通矩阵的第j列中对应Gij=1 的行号i的集合,构成了以该节点j为收点的子连通图,对应着节点j的上游节点集合。针对支路两端的节点编号,取大的节点号作为线路编号。

联络线规划就是在树状网络添加连支,每条联络线构成一个基本回路,对网络各节点编码构成联络线控制变量码串,且要求码串只有两个非零元素,例如图1 所示联络线L的控制变量码串为

联络线L的两端节点号为[5 14],与编码中非零元对应的列号nonzero Colum(L) =[5 14]一致。

根据联络线编码中非零元的列号和联通矩阵可以搜索联络线L构成的环中包含的节点集合,即联通矩阵G第5 列和第14 列非零元所对应的行号节点集合loop(除去公共行号1):

设配电网有n个节点,m个分段开关,其中,第k个分段开关与其所在线路段的首端节点编号i的对应关系表示为s(k) =i 。线路i故障的定位区间为[s(k),s(k +1)],判断故障区间的两端节点是否属于环内节点集合loop,并根据所属情况按下列方法分区进行停电损失的计算。

a. 当故障区间在环内,则停电损失包括故障区间负荷在故障检修期间的停电损失和下游负荷恢复期间的停电损失,即

式中:λj为第j段线路的故障率,次/(km.年);lj为第j段线路的长度,km;t1为故障检修时间,h;t2为备用联络线备自投合闸时间,h;iP为负荷点i的有功功率,k W;Ci为用户单位停电损失费用,元/k Wh,不同负荷类型取值不同。

b. 其他情况:当故障区间[s(k),s(k +1)] 在环外;或当故障区间一部分为环内的节点,另一部分为环外节点。则联络线不能实现负荷的转移,故障区间负荷和下游负荷停电时间均为故障检修停电时间t1,则停电损失为

式中各物理量的意义同式(4)。

因此,任一故障区间造成的停电损失,根据联络线规划方案进行环内判断,按式(4)或式(5)进行计算,系统年停电损失费用按故障率对任一分段开关形成的故障区间的停电损失累加求和

1.3 约束条件

为了保证配电网调度的灵活性和运行的可靠性,通常配电网闭环设计开环运行,只有线路首端设有电流保护装置,可以保护线路全长。本文在树状配电网基础上规划联络线,当N -1故障时通过联络线和开关操作改变运行方式,提高供电可靠性。为了保证线路首端继电保护装置在各种运行方式下能可靠动作,应满足配电网N -1运行方式下的最长供电路径不大于正常N运行方式下最长供电路径的长度,其约束条件表示为

式中:G() 表示联通矩阵的元素;li、lj为各段线路的长度;node1、node2分别为联络线两端节点编号;为N -1运行方式下联络线路上游供电路径;为N -1运行方式下联络线路下游供电路径;lmax为正常N运行方式下最长供电路径的长度。

2 联络线优化的动态规划模型

2.1 动态规划法的基本原理

动态规划是解决多阶段决策最优化问题的一种有效方法,每一阶段的决策必须相对于前一阶段的状态和决策,产生当前状态。动态规划法的阶段数可以是确定的,也可以是不确定的。

联络线的规划建设有时由于资金限制或其他方面的考虑并不是一次性就完成的,要分阶段进行建设,将联络线的优化看成一个多阶段决策问题,从而建立了与动态规划的桥梁,以联络线的数目为阶段,联络线的位置为状态,以投资维护费用与停电损失加权和作为指标函数。根据最优化原理,能保证每个阶段联络线的位置都是最优的,具有很好的继承性。不论是对于已确定联络线数目,还是对不确定联络线数目的联络线优化问题,动态规划法都能很好的解决。本文应用动态规划法求解不确定联络线条数,通过目标函数最优确定联络线规划的阶段数,即联络线的条数。

设配电网的节点数为n,规划联络线的条数为m。对应用动态规划求解联络线优化规划的状态量和关键变量函数进行设计。

(1) 阶段:将一个问题分为几个阶段,这些阶段是相互联系的,可分阶段依次进行求解。本文将联络线的条数定为阶段数,首先求解第一条联络线的优化位置,在此基础上依次优化第二条、第三条、……联络线的位置。阶段变量用k表示。

(2) 状态:每个阶段开始时所处的自然状况叫做状态。联络线规划的一个状态就代表一条联络线。首先要形成每一阶段的状态,每个状态有两个节点集合的子码串组成,码串用0、1 编码表示联络线的节点位置状态,码串的长度对应着候选节点数。例如第一阶段的码串对应着:第一条分支线的节点编码子串和其他分支线与主干线(除去分支节点)的节点编码子串,第二阶段的码串组成对应着:第二条分支节点(除去第一阶段码串为1 的节点)编码子串、其他分支线与主干线(除去分支节点)的节点(除去第一阶段码串为1 的节点)编码子串,依此类推,随着阶段数k的增加,码串的位数依次递减2 位,则第k阶段状态用Xk变量表示

xk1、xk2分别为两个子码串,每个子码串中0、1 随机取值,且满足每个子码串只有一位1,其余为0,从而保证一条分支线只与其他分支线或主干线相连节点相连的约束。

(3) 决策:决策可看成是两个不同阶段状态之间的“桥梁”,是某一状态可做出的选择的集合。本文的决策就是如何选择下一条联络线的规划位置,即从k条联络线到k+1 条联络线的决策,第k阶段状态Xk的决策用决策变量uk(Xk)表示,规划各条联络线的位置相互影响,因此第k阶段状态Xk的决策是状态Xk的函数。

(4) 策略:策略是各阶段决策的有序组合。对于每一个多阶段决策问题都有一个最优策略,是所有策略中能使指标函数取得最优值的策略。本文的策略就是各阶段各联络线规划方案的组合{u1(X1),,uk(Xk),,uL(Xm)},最优策略就是各阶段满足规划数学模型最优的联络线规划方案的组合{optu1(X1),, optuk(Xk),, optuL(Xm)}。

(5) 状态转移方程:状态转移方程表示第k阶段状态Xk做出决策uk(Xk)而转移到第k+1 阶段状态Xk+1,是相邻两个阶段状态转移关系的表达式,记为Xk+1=Tk(Xk,uk)。

(6) 指标函数和最优值函数:指标函数是衡量一个策略的重要指标,本文以满足约束的停电损失与投资费用加权和为指标函数。最优函数是指标函数的最小值,用按公式(1)表示第k阶段的指标函数fk和最优函数minfk。

3 算例分析

3.1 IEEE33 节点配电网算例分析

以IEEE33 节点电网[17]为例来研究联络线的优化配置方案,其拓扑结构如图2 所示。

图2 所示配电网各段线路上均安装分段开关,应用本文提出的动态规划法,取线路故障率为0.1次/km.年,进行的联络线优化规划,其第一阶段的最小目标函数为59.6017 万元/年,联络线规划方案为20-26;第二阶段的最小目标函数51.9127 万元/年,联络线规划方案为5-22;第三阶段的最小目标函数为53.6758 万元/年,比第二阶段的最小目标函数还要大,联络线规划方案为16-23,所以联络线的最优数目为2,位置为5-22 和20—26。

在配电网各段线路上均安装分段开关,投资大,设备数量多,安全隐患也增大,实际配电网工程选择几个优化位置配置分段开关。以线路段末端节点号作为线路编号,在图3 中主干线分段开关优化配置的位置是:1、6、12、22、26、29,分支线分段开关优化配置的位置是2、7、13、16。具有不同分段开关数目的树状网络,其两条联络线规划方案和相应的各项经济指标如表1 所示。

由表1 可知,配电网安装分段开关数目越多,停电损失越少,树状配电网分段开关位置和数量不同,联络线的优化结果也不同;可见联络线起到了故障时负荷转移的作用,分段开关起到了故障时减少停电范围的作用。因此,安装分段开关和架设联络线都能减少停电损失,提高供电可靠性。

假设在配电网各段线路全部安装分段开关(与IEEE33 节点系统所示结构和开关配置一致)。针对大用户、工业用户、商业用户、农业用户和居民用户不同负荷类型,其单位功率停电损失不同,取线路故障率为0.1/km.年,应用本文提出的联络线动态规划法得到的联络线优化结果、年等值建设费用和年停电损失等经济指标见表2。

由表2 可知,在同一故障率下,对于不同类型的负荷进行联络线优化时,单位停电损失越大(如工业用户、商业用户和大用户),优化后减少的停电损失费用越多,供电可靠性越高。因此,对于工业、商业和大用户这些重要负荷,采用单电源环网架构可以大大减少停电损失,提高供电可靠性。对于农业和居民负荷,优化后减少的停电损失费用有限,相对于投资成本,优化后可靠性和经济效果不明显,宜采用辐射网网架即可。

配电网的架设方式和架设环境不同,线路故障率也不同,针对工业用户,在0.01~0.7 范围内分别取不同故障率,树状配电网联络线规划方案和各项经济效益也不同,如表3 所示。

由表3 可知,线路故障率不同,联络线的位置和条数不同,当故障率为0.01 次/km.年,说明原网络可靠性较高,只需架设1 条联络线,该联络线带来的年经济效益不明显。随着故障率增大,当故障率为0.03~0.7 次/km.年,则需要架设2 条联络线;随着故障率的增大,架设联络线减少的停电损失更加明显,年经济收益大幅增大。因此,同样的负荷类型,故障率越大,架设联络线减少的停电损失越大,可靠性越高,经济效果越好。

3.2 油田10 k V树状电网算例分析

我国大庆油田、胜利油田、华北油田、中原油田和辽河油田等供用电规模相当于几个地级市的供用规模,一般由自备电厂和国网供电,用电负荷主要是油井开采和油气集输负荷,均属于二级负荷。油田配电网的供电半径随着油田野外滚动式开采不断延伸,供电范围和负荷不断增加,但相当数量的配电线路是单电源供电,一旦发生故障严重影响油井产量。某油田一条10 k V树状线路为油区采油设备供电,采油设备均为二级负荷,其拓扑结构如图3所示,线路上配置了5个分段开关,其位置位于线路段6、10、16、19、21。在油区附近没有备用电源引入,也无邻近馈线。

应用本文提出的动态规划法对树状配电网构成自环网的联络线优化规划方案如表4 所示。

由表4 可知,联络线规划前线路的停电损失为23.1789 万元/年,基于动态规划法进行联络线优化规划,联络线的最优位置为5-8、9-16,联络线的年投资与维护费用1.3301 万元/年,年停电损失费用为19.0276 万元/年,每年减少的停电损失费用为4.1522 万元/年。架设联络线不仅提高了二级负荷的供电可靠性,而且有经济效益。

5 结论

基于动态规划法能够给出合理的树状配电网构成自环网的联络线优化配置方案,对于二级负荷的树状配电网的改造具有重要的工程应用价值。

(1) 不同故障率、不同负荷类型对网络结构要求不同,只有故障率比较高的二级及以上负荷的树状配电网络架设联络线对提高供电可靠性有显著作用。

(2) 基于节点连通矩阵计算的线路最长路经,并约束各种N -1 运行方式下最长路径不超过N运行方式下的最长路径,满足配电网运行方式的灵活性和继电保护动作的可靠性。

【动态规划技术】推荐阅读：

神经动态规划06-06

动态路径规划06-08

近似动态规划12-08