分布式聚类

2024-07-08

分布式聚类（精选5篇）

分布式聚类篇1

0引言

为了解决大规模数据计算、完成分布在不同地理位置的数据集成、局域网与广域网的无缝结合、环境监测传感器数据聚类等应用, 分布式数据流挖掘技术[1]已经成为数据挖掘技术的研究的主要内容, 数据流聚类作为流数据挖掘的一个重要分支, 其研究将进一步促进知识发现, 发现事物的变化趋势。

目前分布式结构主要呈“三角形”或“倒立树”结构, 而这种结构也是分布式数据流聚类的主要框架结构。数据流聚类研究的主要目标是将数据流划分为若干个有意义的类, 根据生成的类来预测事物变化趋势。由于数据流的迅速变化性、流动性和持续性, 产生数据流的底层模型可能会发生变化, 这种随时间或者连接结构变化的数据流, 我们将其称为进化的数据流。

为了找到不断变化数据聚类有效的算法, Clu Stream[2,3]提供了一个解决数据流中聚类问题的框架, 虽然该框架十分优秀, 但是还是有需要改进的地方。它使用一个在线的微簇过程对数据流进行初步聚类, 使用另一个离线的微簇过程对聚类结果再次分析, 将数据流看成是一个随着时间推移而不断变化的过程, 由于Clu Stream基于K-means聚类, 对球形的聚类有较好的聚类结果, 对于除了球形的其他形状的聚类, 聚类效果仍不令人满意。

本文提出一种分布式密度和中心点的数据流聚类算法DDCS-Clustering算法, 构建了分布式环境, 实验结果表明, 该算法具有较高的数据流聚类质量, 并且有效降低系统的通信代价。

1基本概念

由于实际数据流应用中大多为进化的数据流, 即随着时间的推移, 其聚类模型可能发生改变, 生成的簇不可预测, 最近元组所蕴含的知识往往比历史元组更有价值。因此本文研究的对象将是进化的数据流, 数据流将在衰减窗口模型[4]下进行。

下面给出本文用到的一些名词的定义。

定义1密度给定对象集合D, 对空间中任何一点p及距离ε, 以p为中心, ε为半径的区域内数据点的个数称为点p关于距离ε的密度D (p, ε) 。

定义2核心对象对空间任一点p、距离ε及给定阈值ξ, 若D (p, ε) ≥ξ, 则称p为核心对象。

定义3Nε (q) 邻域每个核心对象q代表了以该点为中心, ε为半径的圆形区域, 即{q∈D|dist (p, q) ≤ε}, 该区域称为核心对象的Nε (q) 邻域。

定义4密度可达存在对象链p1, p2, …, pn, pn=q, 对于pi∈D, 满足D (pi, pi+1) <ε, 称pi+1是从pi关于ε和ξ直接密度可达的。

定义5边界点、噪声不是核心对象, 但在簇中, 即至少从一个核心对象直接可达, 不在任何簇中的点称为噪声。

定义6微簇在t时刻, 假设簇mc中维护了一组带有时间标签Ti1, Ti2, …, Tin的d维数据点集Xi1, Xi2, …, Xin, 此时可用五元组结构特征来对其进行定义, 称簇mc为微簇[5]。

其中矢量分别是每位数据值的平方和及累加和, 如第p维的分别是:

w为权重和, 其值为

t为最后到达该簇的时间;τ反映了该簇为候选核心簇或者是离群核心簇, 当权重w≥βμ时, τ=1, 该簇为候选核心簇, 否则该簇为离群核心簇。

根据以上数据可以得到微簇的中心为:

微簇的半径为:

定义7核心微簇在t时刻, 假设微簇mc中存在一组带有时间标签Ti1, Ti2, …, Tin的d维数据点集Xi1, Xi2, …, Xin, 此时可以用三元组的特征结构CMC (w, c, r) 对其进行定义:

称这种情况下的微簇为核心微簇。其中, 满足w>μ, w为权重, c为中心, r为半径。

2 DDCS-Clustering算法

下面先来介绍一下算法的基本思想, 然后再给出算法具体的执行步骤, 对算法性能进行简要分析, 最后给出完整的DDCS-Clustering算法。

2.1算法的基本思想

DDCS-Clustering算法可分为三个部分:

(1) 局部站点接收数据流, 判断数据流属性, 并进行数据流的预处理;

(2) 微簇在线维护。局部站点针对衰减窗口内的数据流进行处理, 根据窗口周期、权重阈值、半径大小、误差因子和衰减系数等参数来计算数据的权重, 并存储数据流中数据所包含的信息, 动态地更新维护数据流的概要数据结构, 在线生成微簇;

(3) 局部数据上传至中心站点, 在中心站点根据用户请求用DBSCAN算法[6]完成数据流全局聚类。

算法执行的第一步, 分布在一定区域内的局部站点接收数据流, 并对数据流的维数进行判断, 如果不需要降维则直接进行第 (2) 步, 使用衰减窗口截取并存储数据流信息, 根据密度形成中心点集, 进而形成核心微簇, 完成核心对象的聚类。当各个局部站点完成聚类后, 将聚类的结果传送至中心站点, 用DBSCAN形成全局聚类, 满足用户的查询请求。

2.2生成中心点 (GCP) 算法

为了计算对象之间的距离, 必须记录每个中心点的坐标, 中心点并不是实际输入的数据, 而是其对应区域内所有点的代表。在该算法中记录每个中心点的所在区域内所有对象的各个坐标分量之和, 以便更新中心点的坐标。此外需要每个代表区域内的数据点的数目, 为后面的密度做准备。

中心点的选取按如下两个步骤进行: (1) 生成候选中心点集合; (2) 根据阈值大小对中心点集过滤。过滤候选中心点集需要对其进行一次单遍扫描。生成核心对象GCP (Generate CenterPoints) 算法如下:

其中, 判断核心对象是否包含某个数据点为一个Check方法, 该方法的返回值为一个布尔值, 对于核心对象集合c Set, 遍历其中的每一对象, 如果某对象是核心对象, 就将该对象的坐标信息加入到候选对象集, 并返回true, 否则返回false。

2.3局部站点聚类

局部站点数据流处理采用滑动时间窗口模型, 随着时间的推移, 到达的数据流有着不同的权重, 先到达的权重较小, 后到达的权重较大。局部站点之所以采用时间滑动窗口模型, 是因为不必一次性将所有数据载入内存, 只需保存当前时间窗口内的数据即可, 从而节省了内存的开销。

记动态数据流为DS, 时间滑动窗口的周期为Td, 权重阈值为μ, 半径阈值为ε, 误差因子为β, 衰减系数λ。那么局部站点聚类算法描述如下:

(1) 初始化微簇。应用GCP算法生成中心点, 即核心微簇;

(2) 添加数据对象。在窗口Bi中, 对于新到的数据对象p, 若满足rp≤ε, 则将其归入到离群核心簇, 同时修改其数据结构概要为

(3) 建立新的离群核心簇。在离群核心簇中, 若w≥βμ, 即当离群核心簇中某对象的权重大于权重阈值和误差因子的乘积时, 则新建一个离群微簇, 将该对象转移到这个新的离群微簇中;

(4) 微簇衰减。一段时间内没有新的数据到达时, 需要增量更新聚类微簇的特征, 其特征按照衰减函数f=2-λΔt变化, 即

(5) 过期微簇的删除。数据不断到达, 离群核心簇的数量迅速增加, 增大了系统的负载, 同时, 当从滑动窗口中移除历史记录时, 有些微簇的权重可能已经衰减到小于给定阈值, 因此需要对离群或者过期的微簇进行删除。假设当前时刻为tc, 窗口的时间周期为T, 删除周期为Td, 且Td∈[T, 2T) , 则有:

对于微簇mc, 若|mc.t-tc|≥Td, 那么mc属于过期微簇, 应删除。

对于微簇mc, 若|mc.t-tc|

(6) 保存聚类微簇的特征向量。将时间滑动窗口与微簇特征向量保存。

2.4全局聚类

局部站点聚类结束之后, 要将聚类结果传至中心站点进行全局聚类, 本文中全局聚类采用DBSCAN算法, 因为DBSCAN算法在密度聚类中是最为经典的算法, 无论在异常数据处理方面还是在聚类的质量上效果都很好。按照分布式聚类模型, 各个局部站点将聚类的结果上传至主站点, 然后进行全局聚类。由于局部核心对象的聚类半径为ε, 在全局聚类时, 为了避免聚类结果被划分为过多的小类, 需要适当地扩大聚类半径。

设Si表示第i个子站点上的聚类集合, cSeti={ci1, ci2, …, cin}表示该站点上已经确定下来的前n个元素, 第n+1个元素的半径εn+1可以设为εn+1=max{ε1, ε2, …, εn+1}。这时在主站点第i个核心对象pi的查询半径为εpi=ε+εi, 全局聚类算法的伪代码如下:

方法Expand (S, ε, MinPts, Cluster Id, current Obj) 用来判断当前对象current Obj是否为核心对象, 判断的标准仍是和MinPts大小比较, 如果该对象包含的数目大于MinPts, 则形成以current Obj对象为中心的聚类, 并返回true, 否则视current Obj为噪声数据, 函数返回false。

3实验评估

3.1建立实验

本文对DDCS-Clustering算法的聚类质量与通信代价进行实验评估。算法的编程环境为JDK 1.7.0, MyEclipse 6.5 (Blue Edition) , WEKA (Waikato Environment for Knowledge Analysis) 3.7.5[7]以及MOA (Massive Online Analysis) 20111103[8], 操作系统为Microsoft Windows XP。实验在计算机网络实验室3台配置为2.8 GHz Pentium4 CPU以及1GB内存的PC机上进行, 利用实验室的锐捷交换机将三台计算机组建成微型分布式系统。

WEKA是由新西兰怀卡托 (Waikato) 大学开发的智能数据分析软件, 该软件由Java技术开发, 而且代码开源, 遵循GNU General Public License, 是数据挖掘与知识探索与发现领域的一款最为完备的挖掘工具之一。其源代码开源, 开发者可以在其基础上进行修改和创新, 是数据挖掘研究人员必须掌握的一种开发工具。

MOA是一个基于WEKA用Java实现的数据流在线分类、聚类软件平台, 可以实现数据流在线学习、产生仿真数据流并进行算法评估。本实验分析了MOA的源代码, 并在此基础上实现MOA的相关接口, 将本章的算法部署到MOA平台上, 与Clu S-tream等数据流挖掘算法进行了对比。

本实验中所用到的数据流为RandomRBFGenerator (随机径向基函数生成器) 产生的随机数据流, 参数如表1所示。所生成的数据如表2所示, 其值为0至1的双精度类型数据。

MOA数据生成器产生数据流的速度是与计算机软硬件环境直接相关的, 数据维数和噪声是影响数据流的两个重要因素。实验中由于硬件条件所限, 数据流速与噪声比例设得都比较小, 将算法DDCS-Clustering与Clu Stream进行比较分析, DDCS-Clustering算法选取参数为ε=0.01, minPoint=10, β=0.001, μ=1.1, init Point=1 000, window Size=1 000。Clu Stream算法的参数为window Size=1 000, max Num Kernals=80, kernalRad Factor=2。在MOA中主界面如图1所示, 运行界面如图2所示, 图2 (a) 为DDCS-Clustering算法的运行窗口, 图2 (b) 为Clu Stream算法运行窗口。

3.2聚类质量分析

图3为DDCS-Clustering算法与Clu Stream算法在上述参数下的聚类质量分析图。聚类的质量主要体现在聚类的纯度 (Purity) , 该图显示了6 000条实例的聚类纯度, 由图3可以看出, DDCS-Clustering算法的聚类质量最少不低于Clu Stream算法, 从图2中也可以看出, DDCS-Clustering算法对噪声不敏感, 在处理噪声方面也优于Clu Stream。

DDCS-Clustering算法有效的删除机制保证了较高的聚类质量, 在删除噪声点的同时维护了数据流中的潜在微簇, 对潜在微簇进行聚类分析 (核心微簇或者离群微簇) , 而Clu Stream却没有这种机制来区分潜在微簇, 因此浪费了大量的内存来处理噪声。

3.3通信代价分析

实验中共有三台计算机, 其中一台作为主站点, 在此实验中比较了DDCS-Clustering算法与Clu Stream算法的通信代价 (单位为Kbit) , 如图4所示。由图4可以看出, 在分布式环境下, DDCS-Clustering算法的数据流聚类通信代价和Clu Stream算法变化趋势总体上保持一致, 但总体上DDCS-Clustering的通信代价要比Clu Stream低。

4结语

分布式数据流聚类是数据流挖掘中的重要研究内容, 当前的研究仍然面临着很大的挑战, 也有很多的机遇。本文主要介绍了数据流聚类中的若干概念, 提出一种分布式密度和中心点的数据流聚类算法DDCS-Clustering, 通过局部站点数据流聚类和中心站点聚类两个主要步骤完成数据流聚类, 用人工产生数据流模拟数据流进行试验。分析了该算法的聚类质量和通信代价, 证明了该算法的可行性。

参考文献

[1]Minos Garofalakis.Distributed Data Streams.Yahoo!Research and Univ.of California, Berkely[R/OL].http://www.softnet.tuc.gr/~minos/Papers/eds09dstreams.pdf.

[2]Charu C Aggarwal, Han Jiawei, Wang Jianyong, et al.A Framework for Clustering Evolving Data Streams[C]//Proceedings of the 29th VLDB Conference, Berlin, Germany, 2003.

[3]Luo Ke, Wang Lin.Data Streams Clustering Algorithm Based on Grid and Particle Swarm Optimization[C]//2009-International Forum on Computer Science-Technology and Applications.

[4]张晓龙, 曾伟.基于衰减窗口与剪枝维度树的实时数据流聚类[J].计算机应用研究, 2009 (4) :1331-1341.

[5]Amineh Amini, The Ying Wah.Density Micro-Clusteirng Algorithms on Data Streams:A Review[C]//Proceedings of the International MultiConference of Engineers and Computer Scientists 2011-Vol I, IMECS 2011, March 16-18, 2011, Hong Kong.

[6]Martin Ester, Hans-Peter Kriegel, Jorg Sander, et al.A Density Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]//Proceedings of 2ndInternational Conference on Knowledge Discovery and Data Mining (KDD-96) .

[7]Aadtiya Desai, Dr.Sunil Rai.Analysis of Machine Learning Algorithms using WEKA[C]//International Conference&Workshop on Recent Trends in Technology, (TCET) 2012, Proceedings published in International Journal of Computer Applications (IJCA) .

[8]Albert Brief, Geoff Holmes, Bernhard Pfahringer, et al.MOA:Massive Online Analysis, a Framework for Stream Classification and Clustering[C]//JMLR:Workshop and Conference Proceedings 2010, 11:44-50.

分布式聚类篇2

目前,我国城市配电网存在网架结构薄弱、电压合格率普遍较低、供电可靠性低等问题[1]。同时,随着主动配电网研究[2]中分布式发电DG(Distributed Generation)的广泛接入,其不确定性给网架规划带来新挑战,如何构建具有较强适应性的配电网网架具有重要意义。

近年来,国内外学者对配电网网架规划进行了大量的研究。文献[3]构建以投资、维护、网损总费用最低为目标函数,考虑电压降落和电力平衡等约束的配电网规划模型;文献[4]以总体负荷矩最小为目标函数综合考虑变电站规划和配电网线路规划的数学模型;文献[5]基于设备全寿命周期成本,考虑规划方案初始投资、运行维护成本、停电成本、报废成本,建立了配电网多阶段网架规划模型。然而文献[3-5]未考虑实际负荷点的地理信息情况。实际上,空间负荷信息对配电网规划具有较大的影响,不宜忽视。文献[6]探索考虑地理信息的网架规划研究,利用GIS坐标系统标示规划区域,进而辅助动态馈线路径的寻优,但2点间仅考虑直线距离。传统配电网规划方案往往一次计及全部负荷节点,某种程度上加大了求解难度,尤其当配电网规模达到一定程度且DG渗透率较高时,问题复杂度进一步增加,故而在网架规划中可考虑分区的方法。文献[7]提出了用于孤岛划分的分区方法,对网架规划具有一定的参考价值;文献[8]运用分区对模型降维,得到了较好的应用效果,但仅考虑辐射状网络结构,可靠性有待提高。此外,主动配电网背景下DG的渗透率逐渐提高,DG主要以具有较强波动出力特性的风电和光伏为主被纳入规划[9,10],其出力时序性在传统规划中较少涉及。由上可知,传统配电网网架规划中依靠分区的方法,可减少决策变量,降低计算维度,避免陷入局部解,且随着网络中DG渗透率的增长,网络分层与分区有效结合可明确整个配电网层级关系,快速进行负荷溯源,充分挖掘各区DG的潜在利用率和负荷资源的均衡配置,提高配电网综合规划品质。

配电网规划包含众多内容,本文从网架结构着眼,在变电站容量、位置既定的情况下提出一种基于负荷聚类分区及DG时序特性的主次网架规划方法。首先,基于勒贝格公式的K-means聚类方法对供区进行最优分块,并引入等效负荷点概念,对多个具有不确定性的负荷和DG的不确定性进行聚类;其次,充分考虑负荷和DG的时序出力特性,建立花瓣式结构的主级网架,并运用雨刷摇摆搜索算法进行求解;然后,以等效负荷点为电源点构建辐射状次级网架,并以失负荷总量最小为目标进行联络设计;最后,通过算例仿真验证分层模型的有效性。

1 配电网主次网架结构

配电网供区通常具有负荷点数目庞大且布局离散的特点,本文针对单一变电站供电半径内各负荷进行分区处理。假设已知规划年负荷位置和初始容量、DG的安装位置和容量变化,配电网网架规划分层分区模型结构见图1(横轴X、纵轴Y表示地理尺寸)。

该网架为双层结构,图中三角形表示变电站,即电源点;叉形点为等效负荷点;圆圈表示实际负荷点。定义等效负荷点的地理位置为子区聚类中心,主级网架由电源点与等效负荷点间的连线构成,如图1中4条虚线所示;次级网架为表征实际负荷点与等效负荷点连接关系的供电路径,如图中实线所示。由图可知,构建主次网架的特点包括:配电网结构层次分明,脉络清晰,便于运行人员管理调度;实现主次有别,各层各区可按各自需求合理规划,提高设备利用率,并降低投资;缩短源荷间电气距离,提升电压水平;分区可等效区域内负荷/DG的随机波动,且实现规划决策模型降维。

此外,为缩短线路长度,降低建设成本,本文网架基于最短路径原则构建。有研究表明,线路长度与线路故障次数呈现一定的正相关性[11],长度的削减可进一步缩减维修和运行成本。

2 配电网主次网架的规划方法

2.1 基于地理信息的负荷及DG聚类分区

由图1知,在获取规划年负荷及DG二维地理信息基础上,结合聚类理论合理划分供区,并将聚类中心视为等效负荷点,用以代替各子区内的负载情况。一般而言,规划区内子区数越多,则整个供区的供电能力就越强,但随着子区数的增加,供电能力的提升幅度将逐渐降低,反而造成结构复杂性的增加和经济性的下降[12,13];另一方面,过多的子区数会增加线路总长度,增大建设投资。因此,有必要在分区前确定最优分区数目。

现有聚类分析算法大体可分为基于划分、基于层次、基于密度、基于网格和基于模型的方法[14]。其中,K-means算法是一种启发式划分方法,具有简单、快速的优点,从而得到广泛应用。配电馈线一般沿公路和楼房的边缘布线,布置限制在类矩形网中,K-means聚类的勒贝格公式计算的是2点间横坐标的差值和纵坐标的差值之和,较好地反映了线路走向和实际长度[15]。以式(1)为目标函数,获取最优子区数M及分区结果,式(2)为勒贝格公式。

其中,Dni为第n个实际负荷点和第i个聚类中心的距离;ΔXij、ΔYij分别为节点i和节点j间横坐标差值和纵坐标差值;Dio为变电站至第i个聚类中心的距离;Si为i子区内实际负荷点的集合;M为总子区数;SM为聚类中心的集合。式(1)前半部分表明实际负荷点到所属聚类中心的距离和,后半部分阐明聚类中心到变电站的距离之和。其中,DG的处理方法与负荷点一致。

结合K-means算法的聚类分区步骤如图2所示。

2.2 主级网架的构建方法

2.2.1 时序模型

DG出力具有不确定性和波动性的特点,研究表明[16,17]时序出力对规划的最终结果有一定的影响,故而本文在主级网架构建中应充分考虑等效负荷点的时序性,包含负荷节点的波动性和DG出力的不确定性,采用蒙特卡罗抽样获得时序数据。

a.负荷。

本文在文献[18]的负荷模型基础上扩展延伸,考虑不同负荷类型特性差异,分别将需求水平因子细分为24种日因子和12类月因子,计入负荷波动和增长,可实现以小时为时间粒度,模拟任意时间尺度负荷量的功能。因此,负荷类型为m的节点i在t时刻的负荷量可描述为:

其中,SDi,m,base为负荷类型为m的节点i的基准负荷;MFm,t和DFm,t分别为m型负荷在t时刻对应的月需求水平因子和日需求水平因子;αm为负荷年增长率;T为年份;R为波动因子,通常取0.9~1.1。

b.风电出力。

风机的实际输出功率主要受风速的影响。在规划研究中,风速通常认为符合威布尔分布,根据历史气象数据可以得出规划区的风速时序特性曲线,按月分析求得12组形状参数kt和比例参数ct,可得t时刻改进的概率密度函数:

其中,vt为t时刻抽取的风速;kt和ct分别为t时刻对应的形状参数与比例参数。风电的输出功率Pt与风速vt之间的函数关系可描述为[19]:

其中,vrated、vincut、voutcut分别为额定风速、切入风速和切出风速;Prated为额定功率。

c.光伏出力。

光伏发电的基本原理是根据光生伏打效应,利用光伏板组件将太阳能转化为电能。光伏电池板在t时刻的输出功率模型利用式(6)计算[20]:

其中,PSTC、rSTC分别为标准测试条件下光伏电池组件的最大输出功率和辐射强度;rt为t时刻实际辐射强度,其数值参考当地历史气象数据;q、Tt、Tτ分别为功率温度系数、电池温度和参考温度。

2.2.2 主级网架模型

现有馈线系统主要有辐射状、环状、网状3类。辐射状网架成本低且易于控制,但供电可靠性差;网状馈线系统有非常高的可靠性,但造价也相应大幅提高,且运行分析复杂;环状结构在投资成本不显著增大的同时供电可靠性能达到较高的水平[15];花瓣式结构[21]由于集合多环状网特点,具有高可靠性而得到应用,本文采用此结构搭建主级网架,并采用“闭环设计,开环运行”模式,馈线按50%的负荷设计,其基本结构如图3所示。图中三角形代表变电站/电源点,其余各点均为等效负荷点。虚线表示此线路配备常开开关,将回路中两侧总负荷量差值最小的线路设置为常开状态,可使正常运行状态下线路的负荷较为均衡。

考虑到配电网复杂多样的运行工况,本节根据模拟所得时序场景数据,统计分析得到各等效负荷点数值,进而构建主级网架,基本步骤如下。

首先,确定各等效负荷点的数值,采用时序数据场景削减[22]的方法实现。统计求取模拟时段中各等效负荷点对应的最大总负荷量和总DG安装容量,分别十等分制成10×10的框格,以1 h为时间粒度逐个将场景计入相应框格,一个时序场景计为1 h,统计各框格的持续小时数。等效负荷点数值的获取用如下公式表述:

其中,Dm为第m个等效负荷点的数值;K为场景削减后的场景总数;εk为场景k的权重;αk和βk分别为场景k下的负荷百分比和DG百分比;n、p分别为在m子区内的负荷节点总数和DG节点总数;di,t为第i个负荷节点在t时刻的负荷需求值,此处求和后应取最大值;gj为第j个DG的安装容量;tk为场景k所表征框格的持续小时数;ttotal为总模拟小时数。以图4为例,箭头所指圆柱表示负荷需求在总量40%~50%区间内,DG出力值为安装容量0~10%的场景的统计持续小时数是712 h,用式(8)求得权重,在计算等效负荷点数值时用αk=50%和βk=10%表征此框格内的场景集。

其次,确定花瓣式结构的“瓣”数。选定主级网架的线型,If为其载流量,运用式(9)确定回路数:

其中,Dm为第m个等效负荷点的数值;n为供区内等效负荷点总数;Un为额定电压;α为馈线裕度;表示向上取整。式(9)中分母表示单条线路的额定容量,该式表示至少需要Nh条线路才可供应电力。

最后,采用均质线路构建主级网架。以线路负荷方差最小为目标将所有等效负荷点均衡划分至不同环形回路中,以提升线路利用率,降低网架损耗,平衡电压水平。主级网架模型如下所示,模型采用2.2.3节中所述雨刷摇摆搜索算法求解。

其中,Nh为花瓣中含有的回路数;H为回路h中等效负荷点集合;S为变电站出线间隔数。其中,模型中采用平方的算式一方面可保证结果非负,另一方面可理解为惩罚因子,使得求解所得各回路负荷量更均衡。

2.2.3 雨刷摇摆搜索算法

本文以雨刷摇摆搜索算法求解主级网架模型,图5为该算法实施步骤。左上图为网架初态,设定主级网由3个环网组成,X轴为基准线,直线1、2、3与其夹角分别为θ1、θ2、θ3,利用3条分割线将供区均分为A环、B环、C环区,其中A环区为θ1~θ2范围,B环区为θ2~θ3范围,C环区为θ3~θ1范围;为搜索出最优结果,如右上图所示,3条分割线以旋转角度Δα的整数倍左右摇摆,按式(10)计算得到最优结果,重新确定3个环的范围;左下图计算结果显示,3条分割线的位置均发生变动,部分等效负荷点所属环有别于初态。运用该算法得到最优结果后,即可构建花瓣式主级网架,见图5右下图。主级网架构建成本为线路总长度(含虚线)与单位长度造价的乘积。

2.3 次级网架的构建方法

次级网架将等效负荷点视为电源点(非变电站),采用各子区并行同步方式进行构建。首先将实际负荷点以辐射状结构连接于所属等效负荷点,继而于各子区内部设置联络,故同区应采用均质线路连接。各子区可按负荷需求选定线型,依据式(12)确定次级线路应满足的最低电流值,选线原则为所选线路额定电流不小于该计算结果,即所选线路容量应满足该区负荷需求。

其中,If,m为m分区的计算电流值;β为线路电流裕度。

2.3.1 辐射状网架模型

次级网架单区域构建决策的数学模型如下,其中2点间距离依旧采用式(2)计算。

其中,Em为子区线路集合;S为实际负荷点集合;n为节点总数;xij为0/1变量,代表线路ij的连接情况,1为连接,0为不连接;Cij和Lij分别为所选线型的单位造价和线路ij的长度;Iij和Ijp为线路电流,i为j的父节点,p为j的子节点;dj为节点j的负荷;Ui和Uj分别为节点i和j的电压;Iij(max)为线路ij的最大额定电流值;Un(max)为节点最大额定电压值;Rij为线路阻抗。式(14)表述电力电量平衡,式(15)、(16)确保网架连接为辐射状,式(17)表述线路的电压降,式(18)、(19)为线路电流约束和节点电压约束。该模型是0-1整数规划模型,采用粒子群算法求解得出路径寻优方案,得到连接矩阵X即可完成辐射状网架构建。其中,常数矩阵L包含了各节点间的地理距离。

2.3.2 联络设置策略

在辐射状网架基础上,次级网络各子区内部需加设联络线以提高电力传输的可靠性,其设置目标为使子区内失负荷总量最小。任意选取子区内两实际负荷点连接作为联络线,即对于n个节点的区域,共有Cn2种连接方案,每种方案依据式(21)求得失负荷总量Etotal,选择Etotal最小的方案设置联络。

其中,Mt为子区内线路总数(不含联络);P为线路单位长度故障率;Lm为线路m的长度;n为实际负荷点总数;Em,j为线路m切除后节点j的失负荷量,若节点j在线路m切断后不受其影响或可通过联络进行负荷转供,则Em,j=0。此外,若某子区的实际负荷点均直接连接于等效负荷点,没有多点串联的情况,则不考虑加设联络。

3 算例分析

3.1 算例数据

算例采用33节点的待规划区,网架电压等级为10 k V,首端电压设置为1.05 p.u.,将其设计于100×100的坐标系中,代表实际建设区域为1 km2的范围。负荷和分布式发电出力时序模型采用2.2.1节所构建模型,各实际负荷点的坐标、负荷有功功率初始值、无功功率初始值、负荷类型、负荷年增长率见表1,其中,节点0为电源点。分布式发电接入类型、接入节点及容量信息见表2,其中,风速服从威布尔分布,其额定风速、切入风速和切出风速分别设置为13.5 m/s、3 m/s、25 m/s;光照强度参考值、电池温度参考值、光伏板的功率温度系数分别为1000 W/m2、25℃、0.002 5。架空线参数信息见表3。

3.2 算例实施

(1)聚类分区。

以实际负荷点二维坐标为输入数据,运用式(1)、(2)计算不同分区数下的结果,如图6所示。当分区数M=6时存在最优解,可将6个聚类中心作为等效负荷点(节点a—f),并统计各区的实际负荷点信息,结果见表4。

(2)时序模拟。

运用负荷、DG时序模型模拟规划年节点的全年数据,此数据涵盖负荷的增长、DG安装容量的变化。图7展示了24 h内不同负荷类型的时序需求、风机时序出力和光伏时序出力;图8为单负荷、单风机和单光伏时序模拟抽样的数据示意图,用于展示全景信息。

(3)构建主级网架。

各实际负荷点聚类结果如表4所示,统计前一步骤所得时序模拟数据,由式(7)、(8)计算求得各等效负荷点(节点a—f)的数值,见表4功率列结果。

经计算,供区的负荷总量为6337+j1086 k V·A。主级网架拟定采用JKLYJ-10/240型线路铺设,查询表3可知该线型的If=0.6 k A,同时设置馈线裕度α=0.5,依据式(9)求解回路数为2。运用雨刷摇摆搜索算法确定主级网架。

首先为两“雨刷”设置初始位置。如图9左图所示,将过变电站节点的横轴设置为基准轴,则雨刷1、2与基准轴的夹角分别为θ1、θ2,将供区分为M环区(θ1~θ2)和N环区(θ2~θ1),初态下M环区有2个等效负荷点d、e,N环区有4个等效负荷点a、b、c、f。2条分割线以旋转角度Δα=5°的整数倍左右摇摆,按式(10)计算求取最优解。最终结果如图9右图所示,雨刷1、2的位置均发生变动,M环区含有等效负荷点a、c、e,N环区含有等效负荷点b、d、f。两环形回路的连接如图9所示,其中虚线代表常开线路,其设置原则为线路两侧总负荷量差值最小,故将联络线设置于c、e间和b、f间。

(4)构建次级网架。

次级网架建立前必先选定线型。结合式(12)计算各子区线路需满足的最低电流值,结果见表5,其中,线路电流裕度β=0.75,依据计算结果在表3中选定各区适宜线型。

用粒子群算法求解辐射状网架模型得到各区连接矩阵,建立辐射状网架如图10所示。

依据2.3.2节策略,将在A、B、E、F 4个子区的次级网架中设置联络,以A区为例说明:该区共有5个实际负荷点,则有C52=10种联络设置方案,按照式(21)计算失负荷总量,筛选出Etotal最小方案,得到联络设置位置。完成以上设计,最终得到的主次网架接线如图11所示。

3.3 对比分析

为说明主次网架特点,将其与IEEE 33节点标准接线方式(如图12所示)作对比分析。依据式(12)计算得线型为JKLYJ-10/240,时序模拟两者全年的运行,分析仿真数据,对比电压水平、网架损耗和网架建设投资等指标。

由于全年数据量过于庞大,故着重展示2种接线结构某天的电压平均值和最低值,如图13所示,其中,实线代表主次网架的计算结果,虚线代表标准接线网架的结论。直线为平均电压值,带三角形的线条为最低电压值。表6为2种网架各指标的计算结果。

根据以上计算结果,可得如下结论。

a.对比图11和图12可知,主次网架是双层结构,主级网为提高供电可靠性采用环形回路设计,组成花瓣式结构,次级网以失负荷量最小的目标加设联络,进一步提升网络可靠性;而标准接线模式为单层辐射状网架,仅在线路末梢少量考虑联络。

b.据表6分析可知,主次网架可依据各子区负荷需求的差异设置不同线型,同时,双层网架采用不同的线路铺设,相比于标准接线模式,其经济性有一定的提升。此外,总网损及其方差数据表明,主次网架不仅有更少的平均网损,并且网损更集中于平均值附近,进一步表征了该网架较少出现网损特别严重的场景,其在网损方面的表现更优。

c.电压方面,据图13显示,主次网架在此24 h内的电压平均值和最低值均高于标准接线模式下的电压水平,表明主次网架在电压方面的性能较优。表6中电压均值和方差的结果亦表明,即使在长时间尺度下,主次网架同样具有较高的电压值和较稳定的电压。这主要得益于主次网的构建方法,由网架层次对比可知,主次网的6层网架明显低于18层的标准接线网络,使得源荷间的电气距离减小,提升了电压质量。

4 结语

分布式聚类篇3

交通拥堵现象的频发,导致机动车在怠速、低速、急加速和急减速等非稳定行驶状态下的时间增加,使机动车排放物大量增加。为量化城市交通网络中机动车的污染物排放量,文献[1]的学者对应用排放因子展开了广泛研究。排放因子(emission factor,EF)是指机动车行驶单位距离后产生的不同排放物的质量,g/km,不仅可以反映某类型车的微观排放特征,也可反映区域内不同交通状况下的宏观排放特征[1]。因此,选择排放因子作为量化机动车尾气控制对策研究的依据。

同时,随着科学技术的发展,依托智能化的交通信息采集技术,实时的道路交通运行状态评估成为热门研究方向。国内外交通管理部门和研究机构展开了大量的交通拥堵评价相关研究,如拥堵指数(congestion index)[2,3]、道路拥堵指数(roadway congestion index,RCI)[4]、出行率指数(travel rate index,TRI)[5]、出行时间指数(travel time index,TTI)[6]、LKDIF(lane kilometer duration index under LOS F)[7]、Tomtom congestion index(CI)[8],交通运行指数(traffic performance index,TPI)[9]等。目前,交通运行指数(以下简称交通指数)在世界各大城市具有广泛的应用,且随着智能交通技术的发展,将来的应用会更加普遍。

在交通与环境的双重压力下,城市交通管理部门和环境保护部门已经开始联合行动,旨在通过采取治污与治堵一体化的措施,在改善交通拥堵的同时也取得节能减排的改善效果,因此,对交通规划、交通政策乃至交通项目节能减排效果进行科学评价的需求日益迫切。但是,由于研究角度的差异,目前尚缺少城市路网拥堵强度和机动车排放的定量关系的研究,尽管部分研究从城市路网着手,但是并没有开展交通拥堵评价指标与城市路网机动车排放强度的关系研究,《道路交通信息服务、交通状况描述》[10]中的交通拥堵评价指标———道路交通运行指数为例进行具体研究。

1 交通指数与机动车排放因子定量关系的分析方法

为构建交通运行指数与排放因子的关系量化模型,以浮动车数据为基础,设计交通运行指数下的速度分布算法。从微观角度,建立单车的速度与排放因子的定量关系模型,从宏观角度,利用不同交通运行指数下的速度分布,结合速度与排放因子的定量关系,以速度为衔接点,建立交通指数与排放因子的关系模型。研究框架见图1。

1.1 交通指数下的速度分布测算方法

依托北京市浮动车交通信息采集系统,可实时获取浮动车平均运行速度数据,以此为基础,利用北京市交通指数测算模型,后台数据处理中心便可测算同一时间粒度下的交通指数TPI[11]。利用已有数据库中的路段速度和交通指数的数据,以时间字段为中间变量进行相关联。考虑到不同道路等级上车辆的运行特性存在显著差异,笔者分道路等级,将同一时间粒度下的路段速度数据和交通指数数据相关联,测算不同速度区间的路段VKT之和占路网VKT总量的比例,建立某一指数条件下速度分布规律计算模型,见式(1)。车辆行驶里程(vehicle kilometers traveled,VKT)是衡量机动车行驶量多少的基本单位,表示的是特定路网中所有车辆的行驶里程之和)。由于在现有的技术条件下,不可能得到每辆车行驶里程的精确值,因此,选用交通量和路段长度的乘积来估算VKT,具体如式(2)所示。由于车辆在次干路和支路上的交通运行状态相似,作为一类分析,统称为“次支路”。

式中:PTPI,RC,v,VKTTPI,RC,v为某一时刻,速度区间v所占的百分比、机动车行驶里程,对于特定的交通指数TPI和道路等级RC;v为速度区间。以5km/h为步长划分速度区间,快速路速度大于等于80km/h的为一个速度区间,主干路和次支路速度大于等于75km/h的为一个速度区间;RC为道路等级,包括快速路、主干路、次支路;nv为速度区间的数量;l为某一时刻,平均速度位于速度区间v的路段编号;Ql为路段l的流量;Ll为路段l的长度;nl为路段的数量。

基于北京市浮动车交通信息采集系统,共获得2013年1月—2014年10月约800万条有效记录,数据以5min为间隔,数据示例见表1。

1.2 速度与排放因子的关系量化模型

在分析交通指数与机动车排放因子关系时,排放因子是一个关键参数。利用基于VSP的排放因子测算方法,分析速度与排放因子的关系[12]。利用车载测试、台架测试和手持式GPS设备,采集机动车排放数据和工况数据。由式(3)可得按照排放标准、道路等级、排放物类型、速度分类的排放因子。

式中:k为以1km/h为步长划分的速度区间;EFES,RC,i,k为排放因子,对于特定的排放标准ES,道路等级RC,排放物类型i,速度区间k;ERES,RC,i,j为第j个VSP bin的平均排放率;VSP binES,RC,j,k为第j个VSP bin的分布值;nj为VSP bin的数目;vk为平均速度区间k的中值。

考虑到交通指数下的速度分布是对路网上各种车型的统计结果,因此,有必要结合实际交通流中各排放标准车辆的构成比例,综合反映道路上速度与排放因子的量化关系。其中速度与CO2综合排放因子的关系曲线见图2。

1.3 交通运行指数与排放因子的关系量化模型

1)基于交通运行指数的排放因子模型。基于对交通指数和机动车排放因子的产生机理的分析,选择速度为衔接变量,将交通指数和排放因子相结合,建立交通指数与机动车排放因子的关系量化模型,见式(4)。

式中,EFTPI,RC,i为交通指数TPI的排放因子,对于特定的道路等级RC,排放物类型i;EFRC,i,v为速度区间v的排放因子;PTPI,RC,v为速度区间v的分布概率,由公式(1)所得;nv为速度区间的数量。

2)交通运行指数与排放因子的不确定性关系。交通指数是从路段到路网不断积聚而形成的综合性评价指标,因此,用交通指数下的速度分布来反映复杂多变的路网交通拥堵状况,存在一定的不确定性。进而导致交通指数与排放因子间关系存在一定的不确定性。为此,在90%的置信度下,统计各交通指数排放因子的置信上限、置信下限,即某一指数的排放因子分布带,使得排放因子处在分布带之中的概率达到90%。并统计了排放因子偏差率,即测算得到的排放因子平均值在其上下浮动值范围的百分比,来量化交通指数与排放因子之间的不确定关系,计算方法如式(5)所示。

式中,为排放因子的平均值;σTPI,RC,i,φTPI,RC,i为排放因子的标准差、偏差率。

2 交通指数下的速度分布聚类

交通指数是从路段到路网不断积聚而形成的综合性评价指标,因此,用交通指数下的速度分布来反映复杂多变的路网交通拥堵状况,存在一定的不确定性。由于交通出行在不同日期、时间段具有规律性、重复性,若根据交通特性相似的日期或时间段对城市交通运行指数的速度分布数据聚类分析,有可能降低交通指数的速度分布不确定性,进而降低机动车排放强度与交通指数关系的不确定性,故拟对各交通指数下的速度分布数据聚类分析。

2.1 影响城市交通网络速度分布的因素

从空间维度和时间维度,分析影响城市交通网络速度分布的因素,主要包括以下几个方面:(1)道路等级。由于物理特征的差异,导致车辆在各道路等级上的交通流特性不同。(2)交通需求。北京从2008年实施机动车按车牌尾号限行的交通管理措施,导致每天出行的车辆存在差异,交通状态存在不同。笔者对全路网在各工作日和周末速度随时间的变化规律进行分析,具体结果见图3。由图3可知,工作日的变化趋势大致相同,周末的变化趋势基本一致。其中星期二、星期三、星期四的变化趋势一致性较高,星期六比星期日更拥堵,同时,在全天24h的行驶速度特性也存在差异。在工作日07:00-09:00时出现早高峰。由于到达目的地为工作单位,目标单一且明确,是刚性需求;在17:00-19:00时出现晚高峰,出行目的多样化,是柔性需求;在周末,10:00-12:00时出现早高峰,16:00-18:00时出现晚高峰。(3)恶劣天气。研究表明雨雪等不利天气对交通流速度及流量有显著的影响[13,14]。(4)开学周。入学、接送孩子等行为导致出行车辆增加,交通需求增加。(5)节假日。在国家法定假日,各工作单位放假,路网中出行的车辆不集中,没有早高峰和晚高峰出行特征。同时,探亲访友、出行郊游、朋友聚会等活动增加,导致额外的交通需求。所以,节假日交通运行状态差别于非节假日。图3为全路网速度随时间变化曲线。

2.2 聚类方案评价指标

为评价各方案的聚类效果,借助于变异系数(标准差与其平均数的比值)的概念,笔者设计了速度分布变异系数(coefficient of variation of speed distribution,CVSD)和排放因子变异系数(coefficient of variation of emission factor,CVEF)2个评价指标,分别用来衡量交通指数与速度分布、交通指数和机动车排放因子关系的不确定性。通过测算各方案的CVSD和CVEF,从而选择不确定性最低、聚类效果最好的方案,对交通指数与速度分布数据聚类分析,为交通指数与排放因子间的关系研究提供数据支撑。

假设满足聚类方案c,对于特定的交通指数TPI和道路等级RC,存在多个速度分布样本。速度区间v的平均概率为μc,TPI,RC,v、标准差为σc,TPI,RC,v,则利用式(6)计算得到速度区间v的变异系数CVc,TPI,RC,v。通过加权集计可得TPI的变异系数,计算方法见式(7)。

式中,

为速度区间v的变异系数、标准差、平均概率值、权重,对于特定的TPI和RC;CVc,TPI,RC为交通指数TPI的变异系数。

1)速度分布变异系数(CVSD)。权重取值为各个速度区间的概率平均值。意指该速度区间概率越大,其重要性越高,见式(8)。

2)排放因子变异系数(CVEF)。权重取值为各个速度区间CO2排放因子所占比率,意指该速度区间CO2排放因子越大,其重要性越高,见式(9)。考虑到低碳已发展成为城市环境和交通管理者的共识,近年来对碳排放的日益关注,笔者选用CO2排放因子为例。

式中:为速度区间v的CO2排放因子,对于特定的RC。

2.3 聚类对速度分布不确定性与排放因子不确定性的影响

结合城市交通网络速度分布的影响因素,针对交通需求稳定的特征,剔除节假日、开学周、恶劣天气数据。为排除夜间及凌晨噪声点数据的干扰,采用06:00-22:00时共16h,以15min为时间粒度的全路网速度数据作为聚类指标,则1d拥有64个指标,可被看作64维欧氏空间中的点。借助Matlab软件开发平台编写程序,利用K-Means聚类方法,结合基于Silhouette测度的最佳聚类数函数[15],对数据进行聚类分析,从而分析不同日期数据的潜在相似规律。

通过聚类分析发现,根据相似性特征数据被分为6组,分别为星期日、星期一、普通工作日(星期二、星期三和星期四)、49限行工作日(车牌尾号为4和9的车辆限制行驶)、星期五、星期六。星期一是工作日的第1d,交通状态区别于其他工作日,早高峰较拥堵;星期五为工作日的最后1d,其晚高峰较拥堵;49限行工作日为较拥堵的工作日。而且由于星期六是双休日的第1d,出行集中,交通状况比星期日更拥堵。

考虑到交通出行的时间特征,在对城市交通指数的速度分布数据按照日期分类的基础上,拟对其再按时间段进行更细致粒度的分类。为此,提出了2个时段聚类方案,方案一为(00:00-12:00时)和(12:00-24:00时),方案二为(06:00-12:00时)、(12:00-22:00时)和(22:00-06:00时)。

通过研究发现,按道路等级、交通规律相似的工作日、周末和时间段(06:00-12:00时、12:00-22:00时、22:00-06:00时)交叉组合分类,快速路、主干路、次支路速度分布不确定性降低了10.1%,13.6%,14.6%,排放因子不确定性降低了10.1%,13.4%,14.2%,降低效果最显著,具体如图4和图5所示。故被选为本研究的聚类方案。

3 交通指数与机动车排放因子间的定量关系及其不确定性

利用交通指数与排放因子的关系量化模型,对不同聚类条件下交通指数与排放因子的关系进行测算(分道路等级、日期、时间段、排放物类型等)。由于篇幅的限制,笔者仅列举了普通工作日交通指数与CO2排放因子的量化关系。在其他日期和时间段交通指数与排放因子的关系变化趋势与普通工作日大体一致,仅相邻指数排放因子的增长率存在差异。

由图6可知,交通指数在(2.0,8.0]时,随着指数的增加,CO2排放因子随之增长,增长速度较为平缓;当交通指数在(0.6,2.0]和大于8.0时,随着指数的增加,排放因子增长趋势变大。

从道路等级来看,同一交通指数,在次支路上机动车排放因子最高,主干路次之,快速路上最低。此外,考虑到实际应用,通过拟合得交通指数与CO2综合排放因子的函数关系式,拟合度均达到99%以上,可靠性较高。

同时,笔者测算了聚类前后交通指数与CO2排放因子偏差率,见如图7。由图7可知,通过所提出的聚类方案,快速路、主干路、次支路的CO2排放因子偏差率均显著降低,分别降低74.0%,80.5%,75.9%。验证所提出的聚类方案的聚类效果。

4 结束语

1)将交通运行指数与速度分布数据,按道路等级、上午/下午/夜间、交通规律相似的工作日/周末交叉组合分类分析,与不分类相比,可使速度分布不确定性和排放因子不确定性显著降低;

2)从道路等级来看,次支路CO2排放因子最大,主干路次之,快速路最小。随着指数的增加,排放因子均随之增长。当交通指数位于(2.0,8.0]时,增长趋势较平缓;当交通指数在(0.6,2.0]和大于8.0时,排放因子快速增加;

3)交通指数数据按道路等级、交通规律相似的工作日、周末和时间段(06:00-12:00时,12:00-22:00时,22:00-06:00时)交叉组合分类,快速路、主干路、次支路的CO2排放因子偏差率均显著降低,分别降低74.0%,80.5%,75.9%。

分布式聚类篇4

甘肃地处青藏高原, 内蒙古高原和黄土高原交汇地带。境内山地、高原、平川、河谷、沙漠、戈壁交错分布, 具有亚热带、暖温带、温带及高寒等多种气候类型。多变的地貌和气候孕育了复杂多样的植物种类, 其中药用植物共计2000余种[2,3], 蕴藏量约占全国第五位[4]。

1 研究对象与方法

为了更加客观地反映甘肃药用植物分布特征, 本研究选取药典收载的分布在甘肃以239种药用植物为代表[2,3,5], 应用SPSS软件, 选择类间平均链锁法 (Between-groups linkage) 和欧氏距离系数 (Euclidean distances) 对它们在甘肃的地理分布状况进行聚类分析[6], 依据聚类结果并结合甘肃各地区所处地理位置、气候特征及植被特点[7]进行分区。

2 结果与分析

2.1 药用植物地理分布聚类分析

对239种甘肃药用植物地理分布的聚类结果如图1所示。

聚类结果反映出甘肃药用植物的地理分布具有明显的地域性, 如酒泉、张掖、武威、嘉峪关、金昌的聚类, 代表了河西走廊区;白银、兰州的聚类代表了陇中黄土高原北部;平凉、庆阳的聚类代表了陇东黄土高原;而陇南、天水的聚类代表了陇南山地。

1.酒泉, 2.张掖, 3.武威, 4.嘉峪关, 5.金昌, 6.白银, 7.兰州, 8.临夏, 9.定西, 10.平凉, 11.庆阳, 12.天水, 13.陇南, 14.甘南, 15祁连山.

从图1可以看出, 甘肃主要药用植物地理分布可以聚为两大类, 一类是陇南、天水地区, 另一类是除此以外的其它地区, 由此可见相对甘肃境内其它地区而言, 陇南、天水地区在药用植物分布方面有其特殊性, 其形成主要源于上述地区自然环境的特殊性, 其中陇南山地是全省地理纬度最低且最接近四川盆地的自然区, 这一地理位置对其主要气候特征有着显著的影响, 形成了几个“全省之最”, 如热量指标最高、降水量最大、水热组合状况最佳等[8], 这些自然条件上的优势使本小区的药用植物种数远远超过了甘肃其它地区。

二级聚类一处将甘南与陇南、天水之外的其它地区分开, 一处将陇南与天水地区分开。甘南地区的特殊性在于它是青藏高原的组成部分之一, 气候寒冷湿润, 太阳辐射和日照时数在甘肃仅次于河西地区, 集中分布着适应青藏高原特殊环境的药用植物。陇南与天水地区分开的原因在于陇南南部属亚热带气候, 天水地区属暖温带气候, 许多南亚热带性质的药用植物仅分布至陇南文县等地, 而不再向北分布, 天水地区则汇聚了更多温带性质的药用植物。

其中陇中黄土高原北部没有和陇东黄土高原聚在一起, 而是和河西走廊区聚在了一起。其原因是本区地处东亚季风区的西北边缘, 气候由半干旱迅速向干旱过渡, 年降水量由300mm骤降至150mm以下, 其沙化程度越向北越高, 分布着某些与河西走廊相同的古地中海及荒漠成分的药用植物。

在欧式距离为11.5处, 地理分布聚为8类, 从上至下分别代表了河西、陇中、祁连山、陇东、定西、甘南、天水和陇南地区。其中定西地区单独聚为1类的原因是定西处于甘南、陇南、天水、陇东、陇中5区的交汇处, 这种特殊的地理位置使药用植物在组成上汇聚了多种地理成分, 如渭源、岷县一带分布有青藏高原成分, 而定西、通渭一带则渗透了黄土高原成分等。

2.2 药用植物地理分区

本研究依据上述聚类结果, 并结合甘肃各地区所处地理位置、气候特征及植被特点[7], 将甘肃药用植物地理分布划分为5区6小区。

一是陇南山地区, 这一地区的位置大致在宕昌、武都、文县以东, 渭河以南与四川、陕西交界的区域。该区山大沟深, 地势陡峭, 草木茂盛, 气候温和, 素有“天然药库” 之称, 有药用植物1600多种, 木本及林下药用植物种类丰富, 区系组成上以东亚和华中成分为主。这一地区可以分为南秦岭山地小区和北秦岭山地2个小区。

南秦岭山地小区包括文县、武都大部及康县南部, 是亚热带向北延伸的边缘地带。境内山高谷深, 海拔550～4000m, 年平均气温14℃以上, 无霜期250～280d, 年平均降水量500～800mm, 土壤主要为黄褐土类。在海拔较低的河谷和山麓地带为亚热带湿润气候, 小区的热量和降水均居全陇南和全省最丰富之列[8], 是甘肃药用植物种类最丰富的地区, 甘肃药用植物中许多热带成分和华南成分仅分布于此, 如大血藤 (Sargentodoxa cuneata) 、飞龙掌血 (Toddalia asiatica) 、宽叶金粟兰 (Chloranthus henryi) 等, 本区缺乏山间盆地, 耕地面积比例低, 利用本区丰富的药用植物种质资源进行珍稀濒危药用植物的引种栽培将是促进当地发展多种经营的有效途径。

北秦岭山地小区包括武都、康县北部, 向北至渭河各地, 西界甘南高原临潭、迭部一线以东的山区。海拔从东部的1500m上升到西部的3500m, 年平均气温8～12℃, 无霜期180～220d, 年平均降水量500～800mm, 土壤为棕壤和褐土。属于暖温带湿润、半湿润气候。与南秦岭地区相比较, 热带成分及华南成分已近绝迹, 主要为中国-日本及华中成分。本小区适合天麻 (Gastrodia elata) 、党参 (Codonopsis pilosula) 、五味子 (Schisandra chinensis) 等的GMP基地建设。

二是甘南高原山地区, 本区位于夏河、临潭一线以南, 宕昌、舟曲一线以西, 西止文县北部, 属于青藏高原的边缘。该区高寒阴湿, 气候冷凉, 有药用植物700种左右。本区包括东部洮岷山地小区和西部甘南高原小区。

洮岷山地小区包括包括临潭、卓尼、迭部、舟曲、岷县、宕昌、以及夏河、碌曲、文县的一部分, 属青藏高原边缘与秦岭西段的接触部分。区内从南向北, 地势逐渐升高, 气温逐渐降低, 如舟曲 (海拔1400m) 年均温为13.3℃, 宕昌 (海拔1753.2m) 为8.9℃, 岷县 (海拔2314.60m) 为5.7℃, 夏河 (海拔2931m) 为2.6℃。但降水量变化不大, 都在400mm上。药用植物中横断山成分较多, 如当归 (Angelica sinensis) 、金花小檗 (sinensisBerberis wilsonae) 、宝兴百合 (Lilium duchartrei) 等。岷县、宕县等地是甘肃地道药材当归的主产区, 其中岷县西寨镇种植的当归已于2007年3月通过国家药监局中药材GAP认证, 标志着甘肃省中药材GAP认证实现了零的突破。

甘南高原小区包括玛曲县全部、碌曲、夏河县大半部。它与洮岷山地的分界线大体是从郎木寺起, 向北沿分水岭至贡去乎, 然后顺洮河谷地而至博拉, 顺大夏河谷北进止于达里加山。本小区海拔都在3000m以上, 气温很低, 年均温0～2℃, ≥10℃积温都在1000℃以下, 无霜期只有30～85天。而年降水量却有500～700mm。药用植物主要为青藏高原成分, 适合多种雪莲、红景天、秦艽、羌活、大黄等珍稀藏药的GMP基地建设。

三是黄土高原区, 其范围是天水 (渭河) 、岷县、临潭一线以北, 永登、康乐一线以东, 古浪、景泰一线以南。东与陕北黄土高原相邻, 西抵青藏高原的东北缘。该区土层深厚, 光照充足, 干旱少雨, 适宜于喜阳耐旱药材的生长, 有药用植物1000种左右。本区包括甘肃中部黄土区和陇东黄土高原区2个小区。

甘肃中部黄土小区指六盘山以西、乌鞘岭以东, 陇南山地以北的整个黄土地区;海拔2000m左右, 年平均气温6～9℃, 无霜期160～180d, 年降水量200～500mm, 气候类型为温带半干旱类型。本小区以华北和温带亚洲成分为主, 北部靠近腾格里沙漠处, 分布有肉苁蓉 (Cistanche deserticola) 、木贼麻黄 (Ephedra equisetina) 等蒙新荒漠、中亚成分的药用植物, 适合黄芪 (Astragalus membranaceus) 、百合 (Lilium brownii) 等药材的GAP基地建设。

陇东黄土高原小区指六盘山以东的甘肃境内的整个陇东黄土高原, 包括庆阳地区及平凉地区东部各县。海拔1200～1600m, 年平均气温8～10℃, 无霜期160～200d, 年降水量500～550mm, 气候类型为温带半湿润类型, 湿度大于甘肃中部黄土高原小区, 因此本小区的药用植物除华北成分外, 还有许多东亚、华中成分延伸至此, 如苍术 (Atractylodes lancea) 、白首乌 (Cynanchum bungei) 、薯蓣 (Dioscorea opposita) 。本小区适合柴胡 (Bupleurum chinense) 、冬花 (Tussilago farfara) 、防风 (Saposhnikovia divaricata) 、知母 (Anemarrhena asphodeloides) 等药材的GAP基地建设。

四是河西走廊区, 东起乌鞘岭, 西至甘新边界, 南依祁连山和阿尔金山, 北接腾格里和巴丹吉林沙漠, 大部分地区为典型的内陆干旱区。海拔1000～2500m, 年降水量50～250mm, 年均气温5～10℃ , 大陆性荒漠气候特征明显。有药用植物400余。本区药用植物单位面积种类少, 但产量大, 是甘肃旱生、沙生药材主产区, 药用植物主要为蒙新荒漠、中亚成分, 适合甘草 (Glycyrrhiza uralensis) 、麻黄 (Ephedra intermedia) 、锁阳 (Cynomorium songaricum) 、肉苁蓉 (Cistanche deserticola) 、枸杞 (Lycium chinense) 等的GAP基地建设。

五是祁连山地区, 包括祁连山北坡, 东起鹿寿山, 永登、康乐、临潭一线以西, 西抵阿尔金山。大体为西北至东南走向, 平均海拔3000～4500 m, 海拔4 000m以上多有积雪, 气候由东向西变得干燥, 区内植被也由森林植被向荒漠植被演变。有药用植物200余种, 西部中低海拔段与河西走廊的药用植物种类组成相近, 如密花柽柳 (Tamarix arceuthoides) 、戈壁天门冬 (Asparagus gobicus) 等, 高海拔段则分布有青藏高原成分麻花艽 (Gentiana straminea) 、唐古特雪莲 (Saussurea tangtutica) 、唐古特红景天 (Rhodiola algida) 等。

3 讨论

对药用植物地理分布进行分区可以更好地揭示药用植物资源的地域分异规律, 明确各区域开发中草药资源和发展中草药生产的优势, 为因地制宜地调整中药材生产结构和布局, 正确地选建优质药材商品生产基地, 逐步实现区域化、专业化生产提供科学依据[9]。

用聚类分析方法探讨甘肃药用植物分布规律, 相对于按照传统经验进行分区的方法来说, 可以较客观地反映各地区之间的联系和区别。方子森等[10]根据省内各区气候、地形地貌特征参数, 结合药材的分布状况, 将全省药植资源的分布划分为5个区域, 即陇南暖温带亚热带秦药集中区;河西走廊温带干旱西药区;陇东、陇中黄土高原温带暖温带干旱—半干旱疏散分布区;青藏高原东部沿山冷凉高寒西药、藏药集中区;祁连山、北山山地荒漠冷凉干旱西药区。本研究分区结果总体上支持了传统分区结论, 但突出了同一地区内小区之间的差别, 主要为陇南山地内的南秦岭山地小区和北秦岭山地小区、甘南高原山地区内的洮岷山地小区和甘南高原小区、黄土高原区内的甘肃中部黄土区和陇东黄土高原区。

参考文献

[1]张小波, 郭兰萍, 周涛, 等.关于中药区划理论和区划指标体系的探讨[J].中国中药, 2010, 35 (17) :2350-2354.

[2]赵汝能.甘肃中草药资源志 (上册) [M].兰州:甘肃科学技术出版社, 2004.

[3]赵汝能.甘肃中草药资源志 (下册) [M].兰州:甘肃科学技术出版社, 2007.

[4]庄起明, 马骥, 李俊祯, 等.甘肃药用植物资源多样性及其保护利用[J].中国野生植物资源, 2003, 22 (1) :11-13.

[5]国家药典委员会.中国药典 (一部) [S].北京:中国医药科技出版社, 2010.

[6]宇传华, SPSS与统计分析[M].电子工业出版社, 2007.

[7]黄大燊.甘肃植被[M].兰州:甘肃科技出版社, 1997.

[8]伍光和, 江存远.甘肃省综合自然区划[M].兰州:甘肃科学技术出版社, 1998.

[9]冉懋雄, 张惠源.中国中药区划的研究与建立[J].中国中药, 1995, 20 (9) :518-521.

分布式聚类篇5

近年来, 青年研究者逐渐成为人文社会科学研究的主要力量和创新的源泉, 在教育部人文社会科学基金的申报和立项中, 青年基金项目申报和立项数均有大幅的提高, 2010年, 青年基金项目的整体立项率达到了25%左右。这反映出青年研究者在人文社会科学研究中的重要作用和巨大的研究潜力。本文基于2009年和2010年教育部人文社会科学项目申报和立项的数据, 用聚类的方法分析了青年研究者的研究力分布和影响。

目前关于科学基金项目分布的研究已有一些, 国内学者选取特定的项目, 从跨省区、跨学科的视角, 选取一定的时间段进行了研究;还有学者针对某些省市各学科的基金资助情况进行对比研究, 分析了各学科在项目支持方面的力度和优势;另外, 也有研究从个别特定的学科立项分布的视角分析了这些学科的发展趋势。刘彦庆[1]运用计量学的研究方法, 选取“十一五”期间国家社会科学基金项目的数据, 从系统、学科、地区、行政大区以及西部项目、机构等角度做了详细的分析和研究。吕国光[2]在分析了1993-2008年国家社会科学基金的立项总体情况基础上, 从地区、学科等角度研究了项目的分布。范全青、凤元杰[3]对1993-2004年国家社科基金的立项项目进行了综合分析。

上述研究发现, 教育部直属综合性大学是国内承担人文社科项目研究的主力军, 从立项的研究人员年龄分布来看, 青年研究人员在人文社会科学领域具有较强的研究实力。国内外的研究表明, 不论是人文社会科学还是自然科学, 青年研究者都具有不可忽视的研究潜力和能力。Svein Kyvik[4]做的研究认为人文社会科学领域45岁之前研究者的科研产出都处在递增阶段, 并且在45-55岁达到顶峰;40岁之前的青年期研究人员的科研产出始终处在不断上升的状态[5]。因此, 对青年研究人员的资助项目在科技政策制定中有着非常重要的地位, 而如何利用各类项目扩大青年研究者的学术影响力也是非常值得研究的。

1 青年研究者申报和立项的地区分布聚类分析

1.1 聚类分析数据及分析过程

根据中国高校人文社科管理数据中心2010年的数据, 以教育部人文社会科学一般项目青年研究者在申报和立项的各省区数据为样本, 运用分层聚类的方法对申报涵盖的31个地区进行聚类分析, 其聚类的过程见表1。

在表1所示的31个地区凝聚详细过程中, 阶是聚类步骤号, 群集组合是该步被合并的其他类的观测量号。系数是距离测度值, 这里选择欧式距离平方函数作为距离函数, 因此数值较小的两项比数值较大的两项先行合并。

“首次出现阶群集”是合并的两项第一次出现的聚类步骤号。群集1、群集2均为0的是两个观测量合并;两个值均为非0值是两个类合并;其中有一个为0的是观测量与类合并。

图1反映的是地区分布的聚类过程的冰柱图。图中x轴为参与聚类的各个观测量, y轴为群集数的个数。冰柱图清楚地显示出项目涵盖的31个地区从整体的一类到四类的每一个步骤的过程。

1.2 地区分布聚类结果的分析

由地区分布的聚类结果, 可将青年研究者的分布划分为四类研究区域。

1.2.1 中心集中区

由地区聚类的冰柱图可以看到, 在2009年和2010年两个年度教育部人文社会科学一般项目中, 北京的立项数和申报数都领先其他省市、自治区, 因此可将北京市作为人文社科青年研究者分布的中心集中区。这个区域中高校云集, 学术气氛活跃, 吸引了众多的青年研究者, 整个区域人文社会科学发展实力和潜力巨大, 青年研究者在国内和国际上有一定的影响力, 是我国人文社会科学研究的前沿和导向地区。

1.2.2 沿江、沿海区

该分布地区包括长江中下游的湖北省、江苏省、上海市、浙江省、珠江三角洲的广东省。该类区域多处于沿海和沿江地带, 经济发达, 与国外学术同行交流频繁。此外, 该类地区同样拥有众多高校, 吸引了大批的青年科研人员, 是社会科学研究影响力较大和研究力量较强的分布地区。

1.2.3 发展区

发展区主要包括中部的一些省区, 分别是山东省、安徽省、江西省、陕西省、湖南省、四川省等9个省市。这一区域多为中部科技较发达地区, 大部分的省份都拥有一所或几所人文社会科学研究方面实力较为突出的高校, 区域内青年研究者的分布比例也较大, 但他们的分布较为分散, 在人文社科研究领域所产生的影响具有区域性的特征。

1.2.4 弱势区

这一区域涵盖的范围最大, 包括了吉林省、黑龙江省、河南省、新疆维吾尔自治区等16个省市。区域中有一些属于地理区位和经济相对薄弱的西部, 这里人文社会科学的学术交流十分匮乏, 学科范围也较为狭窄, 民族学、宗教学等带有民族特色的学科是这里最为有代表性的学科。所以, 该区域中人文社会科学研究人员的分布较少, 青年研究者更少, 人文社科的整体素质不高, 影响力较弱。而且, 这一地区对青年人才的吸引力相对也较弱。此外, 国家对这些地区的自然科学研究投入较大, 相比之下, 在人文社会科学方面的投入显得不足, 这也使得该地区高校难以吸引和留住青年研究者。

2 青年研究者高校类型分布的聚类分析

2.1 高校类型分布的聚类过程

根据2010年教育部人文社会科学一般项目在不同高校类型的青年研究人员的申报、立项数据, 选取2010年各省市、自治区申报、立项数据为样本, 采用分层聚类的方法对12种高校类型进行聚类分析。聚类过程见表2。

在表2中, 12种类型的高校经过11个步骤完成了聚类的过程。

图2是高校类型的聚类过程冰柱图。图中整个聚类过程将12种高校类型划分为5个大类, 从中可以分析得到青年研究者的高校分布情况。

2.2 高校类型分布聚类结果分析

从高校类型分布的聚类结果, 可以得出青年研究者在国内各类高校的分布情况。

2.2.1 综合性院校

综合性院校主要是由国内人文社会科学研究实力强, 尤其是交叉学科实力较强的高校组成, 因此积聚和吸引了大量的青年人才从事人文社科的研究, 他们在申报和立项的数量上都呈现出绝对的优势, 也反映出青年研究者较为集中于这类院校, 虽然他们所产生的影响力非常大, 但就总体而言, 青年研究者分布还是不均衡的。

2.2.2 财经类高校

财经类高校在教育部人文社科项目的申报和立项中, 很多都是围绕国家宏观经济政策、国际国内贸易领域的热点问题, 各地区经济发展问题, 国内就业状况, 以及企业经营管理, 农村经济发展等为研究课题。这些研究有很强的实践意义, 研究成果具有很高的社会价值和应用性。另外, 近年我国国家社会科学基金、各级省 (部) 社会科学基金对应用研究的资助和评奖力度都十分大, 这也刺激了人文社科青年研究者的申报热情。所以, 财经类院校中的青年研究者以较高的申报数和立项数自成一类, 显示出青年研究者在这类高校的分布密度较为密集, 他们的活跃度很高, 由此产生的影响力也较大。

2.2.3 师范院校和理工类高校

师范类院校的主导专业包括教育学、管理学、经济学以及其他师范类专业, 它们与人文社会科学的主要学科门类有着密切的关联。师范类高校的青年研究者居多, 且相对集中于985和211的高校, 这些有着研究实力的高校, 其人文社科的影响力不容小觑。国内理工类院校数量众多, 随着国内经济的发展和教育的变革, 近年很大一部分理工类高校都加大了人文社会科学的投入, 并且扩大了学科的融合, 大力发展交叉学科, 吸引了大量的青年学者, 在各类项目的申报和立项中凸显出研究实力, 从而扩大了研究的影响力。

2.2.4 农业、语言、民族、政法、医药院校

相比其他类型的高校, 国内的农业、语言、民族、政法、医药类专业院校数量较少, 这些类型的高校, 其研究方向和专业与教育部人文社科项目申报指南的设置有一定的差别, 特别是农业类院校和医药类院校, 专业的研究和教育部人文社会科学一般项目的申报学科相符度不大, 因此, 人文社科青年研究者在这类学校的分布较少。

2.2.5 艺术、体育、林业类院校

国内艺术、体育、林业类院校总数在整个高校的比例极少, 由于专业性的原因, 艺术类院校、体育类院校申报课题多与音乐、美术、影视、舞蹈、运动相关, 所申报和立项的学科范围较为狭窄, 虽然这些院校拥有一批青年研究者, 但他们的活跃度不足, 获得立项数量较少, 影响力也不大。

3 结论及建议

根据地区和高校类型聚类分析结果不难看出人文社科青年研究者多集中分布在北京、上海、江苏、浙江、广东、湖北等中央科技区和沿海、沿江科技发展区。这些地区2010年青年研究者立项数量大, 研究者的活跃度和影响力较大;而新疆、甘肃、云南、吉林、河南、黑龙江、广西等16个地区立项总数偏少, 地区聚类结果显示项目的分布及研究者的分布差距明显, 这也直接造成青年研究者学术影响力分布的不均衡。另外, 各地区内部研究者的分布也不平衡, 如科技欠发达地区申报和立项多集中于省会城市, 非省会城市人文社会科学研究实力十分欠缺, 使得人文社科的研究影响力偏弱;分析结果还表明, 在一些科技发展地区的省会城市, 青年研究者的分布集中度高, 辐射力弱, 其主干作用并不强, 使得人文社会科学研究实力较为分散。

从高校类型的聚类分析结果来看, 40岁以下青年研究者多集中分布在综合、理工、师范、财经类院校中。

针对青年研究者分布地区、分布高校较为集中的趋势, 国家各级部门不仅需要从宏观政策、项目资助的灵活性、项目类型的多样性等方面加以平衡, 还要从项目的相关保障措施方面加以引导, 使项目资源的投入达到相对均衡, 进而使项目的产出最大化, 并以此加快青年研究者的流动性, 使得青年研究者的分布趋于合理化, 从而扩大人文社科项目以及研究者本人的影响力, 促进国内人文社科研究的快速发展。具体包括以下几个方面:

①进一步规范人文社科项目申报和管理的流程, 从高校类型、地区和学科等方面对申报的项目进行优化, 在力求均衡的同时, 优选出质量高的研究项目, 避免项目的重复研究和资源的浪费。

②相关的部门可以通过设立小额专项研究基金, 为从事人文社科研究的青年学者提供研究的资金和环境, 帮助他们开展自己的研究, 这样做一方面可以为青年研究者提供经费的支持, 另一方面, 也能激励他们做后续的研究, 使他们能更快地成长, 从而发挥他们在人文社科研究中的影响力。

③在继续支持科技欠发达的中部和西部的人文社会科学研究的同时, 对于各地区内部, 也应注意突出人文社会科学研究中重要城市的主干作用, 利用其辐射作用, 通过项目的合作研究方式, 鼓励有影响力的青年研究者跨地区、跨高校流动, 从而带动周边城市高校的研究力量, 减少地区研究水平的差异, 并进一步扩大该地区的人文社科研究实力和影响力。

④关注各地区的优势学科, 注意培养和发挥此类学科优势, 通过更加灵活的方式, 促进高校的特色和优势学科申报项目, 在项目立项和中后期管理上给与持续支持, 使这些高校在人文社会科学研究方面有突出的特色和影响, 并通过项目吸引和培养大量青年人才, 扩大这些优势学科在国内和国际的影响力。

⑤国内人文社会科学研究和管理的相关部门在继续扩大各类人文社会科学项目的影响力的过程中, 必须进一步规范和改善项目的管理, 细化项目的类型、扩大资助范围和资助来源、强化项目的监管, 在各类项目的申报条件和项目设置方面则应更为灵活和宽泛, 以激励青年社科研究人员申报的积极性。

参考文献

[1]刘彦庆.“十五”期间国家社科基金项目的计量学研究[J].现代情报, 2007 (4) :23-26.

[2]吕国光.我国社会科学学术生产力布局研究——国家社科基金项目立项课题的视角[J].武汉理工大学学报 (社会科学版) , 2008, 21 (4) :500-505.

[3]范全青, 凤元杰.对国家社科基金立项项目的统计分析[J].现代情报, 2006 (2) :201-206.

[4]Svein Kyvik.Age and scientific productivity.Differences between fields of learning[J].Higher Education, 1990, 19 (1) :37-55.

【分布式聚类】推荐阅读：

组合分布式07-17

分布式基站10-18

分布式协议01-21

分布式处理05-13