混合属性数据

2024-05-20

混合属性数据(共7篇)

混合属性数据 篇1

聚类分析是数据挖掘领域中的一个重要研究课题。将蚁群算法用于聚类分析,根据数据间的相似性,让蚂蚁随机移动、拾起或放下数据,已达到聚类的目的。数据集中的数据通常既包含数值属性也包含类属性。传统方法是将类属值转化为数值的,不是总能得到有效的结果,目前只有少数几种算法能较好的处理这类问题,例如K-原型算法等。

本文在现有蚁群算法的基础上进行改进,并引用了一种距离测度函数,实现了混合属性数据的聚类,仿真结果表明该算法能加快聚类进程,得到较优的结果。

1 混合属性数据聚类中的距离函数

令X={x1,x2,…,xn}表示一组具有n个样本的数据集,其中x1=[xi1,xi2,…,xim]表示第i个样本的m个特征值。对X聚类的目的就是要找到一个划分,将X中的数据按相似程度进行分类。

对单一的数值型数据集,d(g)通常采用欧氏距离,数据xi和xj在属性空间中的距离

其中,m为属性个数。

当样本具有数值和类属特征时,我们假设每个样本用xi=[xri1,…,xril,xci,l+1,xcim]表示,混合属性数据xi和xj之间的相异性测度[1]可由下式计算:

其中第一个和式是数值属性的欧氏距离平方,第二个和式是类属性的简单相异匹配测度。δ(g)定义为

权值λ用来调节两种特征在距离函数中的比例,以避免偏向任何一种特征。

2 标准蚁群聚类算法(LF算法)

最早的蚁群聚类算法由Deneubourg提出[2],Lumer等首先改进此算法,提出了LF算法[3],其原理如下:

定义数据xi与其邻域数据的平均相似性为:

式中d(xi,xj)∈[0,1]表示数据xi和xj在属性空间中的距离;s2是xi周围邻域的表格数,一般s2∈{9,25},从而邻域半径;α∈[0,1]是相异性常数。

数据xi的拾起概率和放下概率分别定义为:

其中,k+、k-是两个参数,Deneubourg将它们分别设置为0.1和0.3。

将数据随机均匀散布在二维表格中,每个表格至多容纳一个,然后每个蚂蚁随机选择一个数据,根据该数据在局部邻域的相似性所得到的概率,据此决定蚂蚁是否拾起、移动或放下该数据。经过有限次的迭代,表格内的数据按其相似性而聚集,最后得到聚类结果和聚类数目。

3 改进的蚁群聚类算法(ILF算法)

3.1 公式改进

定义数据xi与其邻域数据的平均相似性为

其中,,从而保证。

拾起概率和放下概率分别为

这样改进使算法初期相似性小,拾起概率大,数据被拾起的可能性大;后期相似性大,放下概率大,数据被放下的可能性大,从而使聚类结果紧凑,界线分明。

3.2 半径递增

由公式(7)可以看出,条件的约束,数据xi与其邻域数据的平均相似性始终小于1,而由公式(9)可知这时蚂蚁的放下概率相对来说比较小,导致部分蚂蚁拾起数据后长时间放不下,从而使算法时间延长。因此,我们采用增加邻域半径的策略,加快聚类过程。具体做法是将迭代次数平均分成5段,使半径r在同一段内保持不变,不同段顺序由1增加到5。需要说明的是,在这里我们只改变邻域半径的大小,而使公式(7)中s2保持不变。这样一来,f(i)值的范围发生变化,在算法开始阶段f(i)的值被限制在[0,1]范围内,随着半径的逐渐增加,f(i)的值最终会被限定在[0,13]内。因此,拾起操作完全在开始阶段进行,放下操作只会发生在数据密集的地方。渐渐随着f(i)的增大,拾起操作就趋向于孤立或者密度小的区域的数据,这样做会使聚类性能得到改善。

3.3 短期记忆

在LF算法中,数据是由蚂蚁随机选择的,这样就不能充分利用已有信息,影响算法效率。因此,Lumer等人提出了短期记忆的思想[3],让每个蚂蚁记住它们最近几次放下的数据及其位置。当新的数据被拾起后,分别计算该数据与各记忆数据的距离d(xi,xj),选择其中最小值所在位置为最佳匹配位置,然后蚂蚁直接跳到该位置,放下数据。

在本文中,为了提高算法的稳定性,我们用拾起数据与所记忆位置的平均相似性来代替d(xi,xj),让蚂蚁跳到其最大值所在处,然后计算在该位置的放下概率ppick。如果ppick大于一个随机概率,蚂蚁就直接将其放下(若该位置已被其它数据占据,就放在其相邻空格内),否则,记忆失效,随机移到其它位置,当成功放下后,更新该蚂蚁的记忆。在多蚁群系统中,让每个蚂蚁拥有各自的记忆,互不影响。

3.4 空间分割

在LF中,当迭代初期小聚类慢慢形成后,随着迭代次数的增加逐渐变成几个大的聚类,但如果参数选择不好,数据最终就有可能聚为一类,以后就无法再分开了,所以我们在迭代次数达到Nstarl(见后面的参数设置)时,将替换为,其中Noccupied是数据邻域内实际数据的个数,这样一方面可以把大的聚类分开,另一方面可以把独立点拾起来。但这样却会导致这一阶段的相似性比较小,蚂蚁放下数据的概率变小,出现数据长时间放不下。因此当达到Nend(见后面参数设置)时,再将重新改为,这样就能使相似性变大,放下概率同时也变大,蚂蚁就能快速放下数据,同时也能使聚类界线分明。

3.5 参数设置

蚁群聚类算法需要设置许多参数,通过仿真实验我们得到较理想的参数值,列举如下:蚂蚁个数Nant=10;蚂蚁短期记忆的次数Nmenory=10;表格数,其中Ndata表示数据的个数,为了防止邻域落在边界外,在周围加上5行5列,这些表格始终不放置数据;迭代次数;空间分割迭代次数Nstart=0.4NiterationNiteration,Nend=0.6Niteration;参数α的初始值设置为[0,1]之间的随机数,然后根据放下数据的失败次数Nfail进行自适应调整,更新规则为

3.6 算法(ILF)

根据前面的讨论,给出算法如下:

4 实验结果

4.1 测试数据

笔者首先用四组正态分布数据集进行测试。每组选200个数据,共有800个,各组数据符合均值为μ,方差为σ=1.5的高斯分布G[μ,σ]。具体如下:

为了进一步测试该算法,我们又用UCI机器学习数据库[5](表1)对新算法ILF和K-mean算法进行测试,这些数据库有自己的分类,可以用于聚类性能的评价。

4.2 结果分析

我们分别用ILF和LF两种算法对生成的数据集进行聚类,经过16万次迭代,得到了相应的聚类结果和误差函数随迭代次数变化的曲线。

从图3可以看出ILF算法比LF算法有较好的收敛性能,能快速聚类。另外,两种算法经过16万次迭代后的F-measure值[4ILF为0.998,LF为0.404.而两种聚类算法的聚类结果也有很大的区别,这里只是给出了ILF的聚类结果。

此外,笔者还将ILF算法与K-means算法进行了比较,每种算法各运行50次取平均值,比较结果如下表所示:

从上表可以看出ILF算法可以得到比较满意的结果。

5 结束语

本文介绍了一种改进的蚁群聚类算法ILF。实验结果表明,该算法比原有算法有更好的性能。同时我们对大量具有混合属性特征的数据进行聚类分析时,发现ILF算法具有收敛速度快,能够自动确定聚类的个数,不需要人为的设定。

参考文献

[1]李洁,高新波,焦李成.一种基于GA的混合属性特征大数据集聚类算法[J].电子与信息学报,2004,26(8).

[2]J.Deneubourg,S.Goss,N.Franks.The dynamics of collective sorting:robot-like ant and ant-like robot[A].In:A.Meyer,W.Wilson ed.Proceedings first conference on simulation of adaptive behavior:from animals toanimates[C].Cambridge,MA:MITPress,1991.356-365.

[3]E.Lumer,B.Faieta.Diversityand adaptation in populations ofclustering ants.In Proceedings of the Third International Conference on Simulation of Adaptive Behavior:From Animals to Animates3,501-508.MITPress.Cambridge,MA,1994.91-95.

[4]C.van Rijsbergen.Information Retrieval,2nd edition[M].London Butterworths,1979.

[5]Murpy P.M.Aha D.W.UCI repository of machine learning databases[EB/OL].http://www.ics.uci.deu/mlearn/ML-Repository.html,Irvine,CA:University of California,1998.

混合属性数据 篇2

作为数据挖掘的重要手段,流数据聚类得到了普遍的关注与深入的研究。Aggarwal提出了一个流数据聚类的算法CluStream[1],它的核心思想是把聚类的过程分为两个阶段:在线聚类和离线聚类。在线聚类阶段对有序到达的数据点进行处理,生成微簇来计算和存储信息的概要统计,并按照金字塔时间模型存储所有微簇。在离线聚类阶段,用户指定聚类的数量及时间段,在第一阶段得到的微簇基础上进行聚类、分析,满足用户的查询要求。很多流数据聚类算法都借鉴了CluStream的这种两阶段框架,但CluStream的缺点是不能发现任意形状的聚类,而且只能处理连续型属性。杨春宇等提出了混合属性数据流的聚类算法HCluStream,该算法使用CluStream算法的框架,有效地解决了CluStream只能处理连续型属性的不足。但是该算法在处理分类属性时对每一个属性的取值都进行比配,所以当分类属性的阈值很大或分类属性很多时,算法执行效率要比CluStream低[2]。本文提出的混合属性流数据聚类算法使用了网格及最小生成树技术,能够发现任意形状的聚类,并且具有较快的执行速度。

1 算法相关概念

X1,X2,…,Xi…为一个按时序到达流数据序列,每个数据样本到达的时间分别是T1,T2,…,Ti…。每个数据对象具有d维属性包括c维数值属性与b维分类属性,d=b+c,数据对象可以表示为Xi=Ci:Bi=[xi1,…,xic,yi1,…yib],其中Ci是数据对象的连续属性xi1,…,xic构成的向量,Bi是数据对象的分类属性yi1,…yib构成的向量。A={A1,…Ac,…Ad}为所有属性集合。

数据对象之间的相似度是聚类的重要依据之一,本文采用的是文献[3]中一种基于信息增益和几何相邻的混合类型数据相似度量方法。max(Ak)、min(Ak)分别表示数值型属性Ak值域的最大值和最小值。W(Xik,Xjk)是数据对象Xi和Xj在Ak上的权值。S(Xik,Xjk)∈[0,1]是数据对象Xi和Xj在Ak上的相似度。

当Ak是数值型属性时:

当Ak是分类属性时:

如果Xik=Xjk,则S(Xik,Xjk)=1,W(Xik,Xjk)=1。否则S(Xik,Xjk)=0,W(Xik,Xjk)=1。

定义1两个混合类型对象间的相似度:

下面给出一组对象间的相似度计算方法,令X={X1,X2,…Xn}为一个d维属性数据的数据组,A={A1,…Ac,…Ad}为所有属性集合。

当Ak是数值型属性时:

当Ak是分类型属性时:

假设一组对象X在属性Ak上有m个不同取值:ak1,ak2,…akm,出现频率分别为fkj,即。X在Ak上的相似性:

定义2一组对象间的相似度:

定义3设当前时刻已有n个d维数据对象已经到达一网格。网格单元的特征向量为(LS,SS,H,n,tc)。其中LS表示n个对象数值型属性的线性和向量,SS是表示n个对象数值型属性的平方和向量,H是分类属性的频度直方图,记录网格中每一维分类属性的可能取值及这个值的出现频率。n表示网格包含的数据对象的个数。tc为最近一个数据对象到达网格的时间。

定义4我们定义密度Density大于θ,相似度S大于τ的网格单元为成熟格簇,其余的非空网格单元为候选格簇。

为了减小历史数据对当前聚类结果的影响,引入衰减因子w,对格簇进行衰减,Density=Density×w,S=S×w,w=2-λ(t-tc),t为衰减时刻。

成熟格簇的质心可以通过对网格的特征向量的计算得出。。hjmax表示第j维分类属性出现频率最大的取值。

定义5最小生成树[4]。最小生成树是一个子图,它包含图的所有节点,在所有可能的生成树中的总的边权值最小。术语最小生成树假定我们只能使用相异度或距离,然而这不是一种限制,我们可以将相似度转换成相异度,或者修改最小生成树的概念以使用相似度。在本文中,采用将成熟格簇质心的相似度转换成相异度的方法,从而构造最小生成树。

2 基于网格和MST的混合属性流数据聚类算法GTMS

算法引用CluStream算法的框架思想,把聚类过程分为在线聚类与离线聚类两个阶段。通过数据空间进行网格化处理,从而提高在线阶段对流数据的处理速度,并发现任意形状的聚类。在离线阶段利用最小生成树技术,以每个成熟格簇为节点,以格簇质心的相异度为边的权值构造最小生成树,得到最终聚类结果。

2.1 在线阶段

1)使用网格将数据空间划分成若干个不相交的矩形单元。我们根据相似度阈值可以确定每一维连续属性的区间长度。若选择区间长度sk≤(1-τ)×(max(Ak)-min(Ak)),那么一组对象在每一维上的相似度都不小于τ,它们在全部属性上的相似度也不小于τ。

2)对流数据对象进行预处理,主要包括对数据的清洗和对数据的转换。并把处理后的数据映射到对应的网格单元中,更新该网格单元的特征向量为(LS+X,SS+X2,H+h,n+1,tc)。此时网格单元密度Density即为n+1。

3)如果成熟格簇与候选格簇在一段时间内没有新的数据加入,则对网格单元进行衰减,Density=Density×w,S=S×w。当密度和相似度小于阈值时,成熟格簇会转化成候选格簇。

4)随着数据不断流入,新增的网格单元越来越多,在内存空间有限的情况下,就要删除一些网格单元。删除的对象是密度值最小网格单元。

5)根据用户的要求,保存所有的成熟格簇的特征向量。作为离线阶段聚类的材料。

2.2 离线阶段

1)计算在线阶段得到的各个成熟格簇的质心。LS为n个对象连续型属性的线性和,hjmax表示第j维分类属性出现频率最大的取值。按照定义1提供的方法计算成熟格簇质心间的相似度S(Xicentro,Xjcentro),然后得到成熟格簇质心间的相异度D(Xicentro,Xjcentro)。在这里,我们采用一种直截了当的变换方法,因为相似度S落在区间[0,1]内,则相异度可以定义为D=1-S。

2)以各个成熟格簇的中心点为顶点,以中心点的相异度为最小生成树边的权值,初始化图G=(V,E),V是格簇中心点集合,E是中心点相异度的集合,U为最小生成树的顶点集合。任选一格簇中心点V0放入U。在所有u∈U,v∈V-U的边(u,v)∈E中找一条相异度最小的边,加入生成树。并且把相应的顶点加入U,如果U中已经包含所有顶点,则结束,否则继续。

3)为得到K个聚类,将最小生成树中的边从大到小排序。先断开最小生成树中对应于最大相异度的边,得到一个新的聚类,这样依次进行K-1次,最后得到K个聚类。

3 实验结果与分析

实验平台配置如下:IntelGHz/1G,Suse10.0操作系统,所用代码均用C++编程实现。

实验使用网络入侵检测数据集KDDCUP99,它是由MIT林肯实验室收集的网络入侵检测数据集,KDDCUP99共包含494020条记录,每条记录包含34维连续属性与7维分类属性。

算法处理的流数据是混合类型属性的数据,所以不适合基于平方距离和的质量评价方式,因此我们采用文献[5]中的聚类纯度以及聚类效率作为度量与Clustream算法进行比较。我们取相似度阈值τ为0.6,离线聚类个数为4。在一些时间点上的聚类纯度比较如图1。

两个算法在不同流数据记录下执行时间如图2。

在图1中我们看到在时间点160上GTMS算法比CluStream算法聚类纯度略差,在时间点320及640上,GTMS聚类纯度都远高于CluStream,在时间点1280上两种算法的聚类纯度都很高。图2展示两种算法的执行时间随着数据量的增大而变化的情况。从图中可以发现,在数据量小于5000时,两者的执行时间并没有明显的差距,但随着数据量的增大,CluStream的执行时间的增大很明显,而GTMS执行时间的增长率明显地较前者要小。当数据量很大时,GTMS的执行效率优势明显。

从以上实验结果来看,GTMS在聚类纯度上要好于CluStream,由于采用了网格作为摘要数据结构,随着流数据记录增多,执行时间的增加量比较小。而且具有发现任意形状的聚类的能力。通过以上分析表明GTMS算法能够处理大规模混合类型的流数据。

摘要:现有的流数据聚类算法往往只能处理单一属性类型的流数据,或是不能发现任意形状的聚类。针对这个问题,该文提出一种混合属性流数据聚类算法GTMS,算法使用了网格及MST(最小生成树)技术,采用基于信息增益和几何相邻的方法来计算混合类型数据相似度。实验表明该算法能够有效地处理混合属性流数据。

关键词:流数据聚类,混合属性,网格,最小生成树

参考文献

[1]Aggarwal C,Han J,Wang.A framework for clustering evolving data streams[C]//Berlin,Germany:Proceedings29th Conference Very Large Data Bases,2003:81-92.

[2]万仁霞,陈镜超,王立新.基于相异度矩阵的混合属性数据流聚类算法[J].计算机工程与应用,2008,44(25):149-151.

[3]陈宁,陈安,周龙骧.混合类型数据相似度及网格聚类算法[J].计算机科学,2001,28(8):150-153.

[4]Tan Pangning,Steinbach M,Kumar V.Introduction to Data Mining[M].Pearson Education,2006:380-381.

混合属性数据 篇3

云技术的快速发展和大数据时代的来临, 导致网络中的数据量以指数级趋势膨胀, 用户不得不面对浩如烟海的网络信息, 加大了在其中寻找对用户有益信息的难度, 这就是信息过载。作为一种信息过滤手段, 推荐系统可以根据每个用户的兴趣给用户提供个性化推荐, 是当前有效解决上述问题的方法[1]。在网络时代之前, 人们往往会从与自己有相同喜好的同伴那里获得各种建议以帮助自己决策, 这就是协同过滤的出发点。协同过滤通过计算用户或项目间的相似性, 找出有相似偏好的用户或相似的项目, 根据相似用户的偏好预测目标用户的喜好, 或者根据相似项目的受欢迎情况预测用户对目标项目的倾向程度, 进而作出推荐, 独立于项目本身的内容, 且易于实现, 目前已取得广泛应用。条件概率[2], 贝叶斯方法[3], 图论[4]等方法也被应用于推荐系统。与此同时, 云环境下网络中的数据不断增长, 每一个用户不可能对众多的项目都有评分信息, 进而使用户对项目的评分矩阵高度稀疏, 传统协同过滤相似性计算方法也逐渐暴露了其局限性, 无法适应在大数据时代下的要求, 在数据稀疏情况下推荐效果不佳, 我们在后面的介绍中会分析传统相似性计算方法存在的弊端。另外, 对于新加入系统的用户, 其对项目的评分太少, 以至于无法提供使推荐系统分析出该用户的偏好情况的信息, 系统不能对该用户做出准确的推荐, 这种情况被称为新用户问题。对于新加入系统的项目, 用户对该项目评分太少, 系统也不能将这个项目推荐给用户, 这种情况被称为新项目问题[10]。新用户和新项目问题都属于冷启动问题[10]。针对用户评分数据高度稀疏的情况, 一些学者提出种种改进措施, 文献[5]提出基于项目的项目评分相似性和项目属性相似性自适应权值加权结合, 以解决新项目问题, 但不能解决新用户问题。文献[6]提出基于阈值的对余弦相似性的改进, 该方法可以提高推荐的多样性, 但不能保证推荐准确度。文献[7]提出基于交叠的邻居集选择方法, 该方法要求设置合适的参数。文献[8]提出基于用户的项目评分池方法, 根据用户对项目的评分将用户分成多个独立子集分别对总评分做出贡献, 该方法一定程度上提高了推荐准确度, 但并不能解决数据稀疏问题, 而且需要调整的参数较多。

因此, 本文提出一种基于多向测度和项目属性的相似性计算方法, 利用用户对项目属性的偏好程度和多向测度相似性计算方法加权结合, 得到用户间相似性, 最后生成推荐。实验表明该方法较传统相似性计算方法具有了更好的准确度, 在数据稀疏的情况下, 结果仍较好。

1 传统相似性计算方法分析

基于用户的协同过滤推荐技术利用某种相似性计算方法计算所有用户与目标用户的相似性。取前k个相似性最大用户的组成目标用户的最近邻居集, 由于当前用户的最近邻居对当前项目的评分与目标用户的评分比较类似, 所以可以根据近邻用户对当前项目的评分预测目标用户对当前项目的评分, 然后选择预测评分最高的前若干项目作为推荐结果反馈给用户, 作出推荐。可见, 相似性计算的准确与否, 将影响最终做出的推荐。

1.1 数据表示

推荐系统存储的信息一般包括用户ID, 项目ID以及用户对项目的评分等。设m表示用户数, n表示项目数, 则U={u1, u2, …, um}表示用户集合, I={i1, i2, …, in}表示项目集合, 用ru, i表示用户u对项目i的评分, 取值在1~5之间, 反映了用户对项目的倾向程度, 评分越高表明用户对该项目越倾向。如果用户对项目没有评分, 则其相应评分为0。也有的推荐系统用0表示用户不喜欢该项目或未对该项目评分, 1表示用户喜欢该项目。如表1所示。可用评分矩阵中值为0的项所占的比例来反映数据稀疏度, 比例越大, 数据越稀疏。

1.2 相似性计算

传统的相似性计算方法主要有皮尔逊相似性、余弦相似性和修正的余弦相似性。皮尔逊相似性是依据用户间的共同评分项计算相似性来度量。其计算公式如下:

其中ru, i, rv, i分别表示用户u对项目i的评分和用户v对项目i的评分, 珋ru, 珋rv分别表示用户u和用户v的平均评分, Iu, v表示用户u, v共同评分的项目集。

皮尔逊相似性仍有许多不足之处, 其计算的是两个用户间的线性相关度, 而非相似性, 当两用户的评分向量线性匹配时, 由该公式计算的相似性较高, 但用户在共同评分项上的评分局部不完全匹配时, 其相似性低, 不能反映出用户局部相似的事实。当用户间共同评分项过少时, 该计算方法的结果往往具有误导性, 不能反映用户间真实相似性, 极端情况下, 用户间共同评分项为1个, 则不能用皮尔逊方法计算相似性。当用户评分是形如{2, 2, 2, …}这样平整的情况时, 平均分与评分相等, 也不能用该方法计算。

余弦相似性中用户相似性通过计算向量间夹角的余弦值反映, 余弦值越大, 用户相似性越大。其计算公式如下:

由于余弦相似性没有考虑用户个人的评分尺度, 修正的余弦相似性则引入用户平均评分来反映用户的评分尺度。其公式如下:

2 多向测度结合项目属性相似性计算方法

由于传统相似性计算方法仅从向量角度考虑用户或项目间的相似性, 结果反映的是向量间的整体相关性, 抹煞了评分向量中包含的局部信息, 所以我们从单个评分的角度出发, 使每个共同评分得以反映出更多信息。

2.1 多向测度的相似性计算方法

众所周知, 对一个封闭系统, 外界掌握的信息越多, 就越能反映该系统的实际情况。传统相似性计算方法考虑的是用户评分向量的整体匹配程度, 从用户-项目评分矩阵这个系统中获得的信息较少, 不能很好地反映用户间的真实相似性。本文提出多向测度的相似性度量方法, 综合考虑用户评分在三种距离上的表现。通过对用户间评分在绝对距离, 用户相对距离, 项目相对距离三个方面的综合情况, 反映用户的相似度。

设两用户u, v以及他们的共同评分项目i, u和v的平均评分分别是, 项目i的平均评分是, 用户u, v对项目i的评分分别是ru, i, rv, i。对于项目i, 若两用户对其评分同时大于或小于各自的平均评分, 即, 就认为用户u和v对项目i持相同的偏好, 即同时喜欢或同时不喜欢, 否则, 视为偏好不同。

下面给出多向测度中绝对距离, 用户相对距离, 项目相对距离的定义:

(1) 绝对距离:偏好相同时, AD=ru, i+rv, i;否则AD=|ru, i-rv, i|+1。

(2) 用户相对距离:偏好相同时, , 以各用户的平均评分划分用户的偏好区间, 则用户相对距离反映了当前项目在用户偏好区间的位置, 以此反映用户对前项目的偏好情况。

(3) 项目相对距离:偏好相同时, ;以项目的平均评分划分当前项目的用户偏好区间, 则项目相对距离反映了用户在当前项目的喜好区间的相对位置。

则ru, i, rv, i间的相似性计算如下:

用户u和用户v的相似性计算如下:

其中, Iu, v表示用户u, v共同评分的项目集。

2.2 项目属性相似性

通常, 推荐系统至少保存了三部分数据信息, 即用户-项目评分信息、项目属性信息、用户信息。传统的协同过滤算法是通过用户对项目评分信息计算相似性, 而项目的属性相似性则是利用项目属性信息进行计算的。文献[9]提出项目属性偏好相似度作为相似性度量的一部分, 取得了较好效果, 该方法中用户u对项目属性j偏好程度的计算方法如下:

其中sum (u, j) 表示用户u对具有属性j的项目的总评分, sum (u) 表示用户u的总评分。

该方法反映的是用户总评分在项目属性上的分布情况, 并不能反映用户对项目属性的偏好情况。若某用户评分如表2, 其中i1, i2, i3, i4, i5有属性A, i6, i7, i8有属性B。

则由上式计算得到pref (u, A) =0.53, pref (u, B) =0.47, 用户对属性A更加偏好, 但由表2可知用户对属性B更偏爱。故本文中用户对项目属性偏好程度用式 (7) 计算:

其中num (u, j) 表示用户u对有属性j的项目的评分次数, 该式反映了用户对该项目属性的平均评分。由该式得pref (u, A) =1.6, pref (u, B) =4, 由表2可知反映了实际情况。

2.3 算法描述

Step1 读入用户-项目评分矩阵和项目属性矩阵。项目属性矩阵是n×k矩阵, n是项目数, k是属性数, 元素s (i, j) =1表示项目i有属性j, s (i, j) =0表示项目i没有属性j。

Step2 计算每个用户的平均评分和每个项目的平均评分。

Step3 按式 (7) 计算用户对项目属性的评分, 并计算出每个用户对项目属性的平均评分和每个属性的平均评分。

Step4 按式 (5) 计算用户间对项目评分的多向测度相似度, 结果是m×m矩阵, 用simi表示;计算用户对项目属性的多向测度相似度, 结果是m×m矩阵, 用sims表示。simi中元素simi (u, v) 表示用户u和用户v间的项目评分相似性, sims中元素sims (u, v) 表示用户u和用户v间的项目属性相似性。

Step5 将simi和sims中相应元素simi (u, v) , sims (u, v) 加权结合, 权重为E。由于simi和sims计算的维度不同, 故要先对simi和sims进行归一化, 其公式如下:

max, min分别是simi中的最大相似度, 最小相似度。归一化后simi (u, v) ∈[0, 1], 值越大, 表示对应用户间越相似。同理, 对sims归一化, 最后得到混合相似度sim。

Step6 获得近邻。采用Top-k方法选择前k个与目标用户相似度最大的用户作为目标用户近邻, 组成近邻集。

Step7 预测评分。按式 (10) 计算用户u对待测项目评分i的预测评分:

其中分别是用户u, v的平均分, rv, i表示用户v对项目i的评分, Pu, i是用户u对项目i的预测评分, Neighbor (u) 表示用户u的近邻集合。

3 实验分析

3.1 实验数据集

本文实验中采用的数据集是Grouplens (http://movielens.umn.edu) 工作组提供的公开数据集, 该数据集包含的信息有用户数:943, 电影项目:1682, 用户对项目的评价数据:100 000, 评分值:1~5。可知该数据集用户对项目评分的稀疏性为1-100 000/ (943×1682) =0.936953。实验中将用户对项目的100 000条评分记录按照4∶1的比例划分成训练集和测试集。

3.2 度量标准

实验各相似性计算方法的度量效果采用平均绝对误差MAE (Mean Absolute Error) 来衡量, 通过计算预测的用户评分与用户实际评分之间的差值来衡量预测的准确性, MAE越小, 相似性计算方法的度量准确度越高。假设预测的用户评分集为P={p, p2, …, pn}, 相应的实际评分集合为Q={q1, q2, …, qn}, 则:

其中n表示预测评分集P中的元素个数。

3.3 实验结果

实验先对皮尔逊相似性和多向测度相似性作比较。我们分别在基于用户和基于项目的情况下, 将多向测度与UBPS做了比较, 近邻数依次取为5、10、20、30、40、50, 图1显示了实验结果, 多向测度相似性准确度更好, 并在N=20左右效果最好, 同时在近邻数大于20后, MAE有上升趋势也反映多向测度相似性计算公式仍可以改进, 以提取出更多信息, 准确反映用户间真正相似性。在基于项目的情况下, 多向测度推荐精度较基于用户多向测度有一定提高, 尤其在小邻居集下, 效果提升明显。

接着, 对多向测度相似性和属性偏好相似性加权结合, 为确定混合过滤效果最好时的权值, 对E从0到1, 以0.1为间隔, 依次计算近邻数为5、10、20、30、40、50的MAE, 结果如图2所示, 除了近邻数为5时MAE在0.2时取最小值, 其他情况当E=0.1时MAE最小, 效果最好, 故选用E=0.1。

最后将基于用户的混合过滤与其他方法做了比较, 由图3可知, 基于用户的混合相似性小幅提高了推荐准确度, 并在用户近邻数较少时, 提升效果明显, 说明该方法对缓解数据稀疏有帮助。

4 结语

本文提出基于多向测度和属性偏好相似性的混合过滤方法, 以更好地度量相似性。本文在基于用户和基于项目的情况下, 对皮尔逊相似性和多项测度相似性做了对比, 多向测度相似性的结果比皮尔逊相似性有显著提高, 取得了更好的推荐精度。接着, 在基于用户多向测度相似性的基础上, 进一步考虑用户对属性的偏好作为相似性的一部分, 推荐精度有小幅提高。下一步工作可以考虑对多向测度相似性进行改进, 对项目属性的主成分提取, 以更好地描述用户或项目信息, 还可以考虑从用户文件中提取有效信息。

摘要:传统协同过滤算法中相似性度量方法存在度量不准确, 不能如实反映信息的问题, 导致推荐质量不高。针对这一问题, 提出一种新的基于多向测度和项目属性的相似性计算方法。利用多向测度方法计算用户对项目的评分相似性, 同时结合项目属性计算用户对项目属性的偏好相似度, 通过加权因子得到用户间的最终相似性。实验结果表明该方法较传统方法显著提高了推荐精度。

关键词:协同过滤,属性偏好,相似性度量

参考文献

[1]刘建国, 周涛, 汪秉宏.个性化推荐系统的研究进展[J].自然科学进展, 2009, 19 (1) :1-15.

[2]Iguchi M.Anonymous P2P web browse history sharing for web page recommendation[J].IEICE TRANSACTIONS on Information and Systems, 2007, 90 (9) :1343-1353.

[3]Velasquez J D, Palade V.Building a knowledge base for implementing a web-based computerized recommendation system[J].International Journal on Artificial Intelligence Tools, 2007, 16 (5) :793-828.

[4]Segrera Saddys, Moreno Maria.Application of multiclassifiers in web mining for a recommender system[J].Maria N.WSEAS Transactions on Information Science and Applications, 2006, 3 (12) :2471-2476.

[5]Wu Y, Zheng J.A collaborative filtering recommendation algorithm based on improved similarity measure method[C]//Progress in Informatics and Computing (PIC) , 2010 IEEE International Conference on.IEEE, 2010, 1:246-249.

[6]Feng Xie Zhen, Chen Hongfeng, Xu Xiwei, et al.TST:Threshold Based Similarity Transitivity Method in Collaborative Filtering with Cloud Computing[J].Tsinghua Science and Technology, 2013, 3:318-327.

[7]Bellogín A, Castells P, Cantador I.Improving memory-based collaborative filtering by neighbour selection based on user preference overlap[C]//Proceedings of the 10th Conference on Open Research Areas in Information Retrieval.LE CENTRE DE HAUTES ETUDES INTERNATIONALES D’INFORMATIQUE DOCUMENTAIRE, 2013:145-148.

[8]Sobhanam H, Mariappan A K.Addressing cold start problem in recommender systems using association rules and clustering technique[C]//Computer Communication and Informatics (ICCCI) , 2013 International Conference on.IEEE, 2013:1-5.

[9]夏培勇.个性化推荐技术中的协同过滤算法研究[D].中国海洋大学, 2011.

混合属性数据 篇4

有序用电是电力需求侧管理的重要内容之一。科学合理实施有序用电能够保障用电秩序,改善电能利用效率,促进电力资源优化配置,对于经济与社会发展具有重要意义。文献[1-2]就浙江、河南等地开展有序用电工作所带来的社会、经济效益进行了介绍。国家发改委在2011年发布了《有序用电管理办法》,对开展有序用电工作提出了要求,但对于用户用电排序设计问题并没有给出具体实施方法。文献[3]从时间、类属等多个维度对用户用电特征进行了精细化挖掘和分析。文献[4]提出了多时间尺度协调的有序用电决策模型,并计及了用户用电价值。文献[5]建立了一种有序用电综合评价模型,利用著名的K-means聚类算法进行相关评价,并计算了其所带来的经济效益。文献[6]所建立的评价体系则考虑了负荷用电容量和用电能耗等因素,并编制了有序用电方案。

上述文献在用户有序用电决策方面做了较多的研究工作,但所讨论的决策信息类型单一。实际上,不同用户的用电特性不同,适于采用的数据描述方式也未必一致。在实际决策问题中,有关指标的数据形式不局限于实数,也可能更适于采用随机数、区间数、模糊数等多种类型,这样就形成了混合多属性决策问题。近年来,混合多属性决策问题逐步引起广泛关注。 文献[7]将TOPSIS (technique for order of preference by similarity to ideal solution)方法运用到包含实数、区间数和三角模糊数的混合多属性决策问题中,对不同类型数据设计了相应度量空间,采用不同方法计算不同类型属性值同理想方案之间的距离。文献[8]提出了一种基于广义属性值空间的广义相似度计算方法,采用统一量度空间描述不同类型的属性值同正负理想方案之间的相似度,通过计算各待选方案的综合关联度来进行排序。文献[9]通过建立混合模糊偏序关系模型来处理不同类型的数据信息,采用对模糊偏序关系进行集结以对候选方案进行排序。文献[10]将灰色关联分析方法运用到混合多属性决策问题之中,将不同类型的数据统一转换为区间数,通过求解多目标优化模型确定各属性权重,计算每个方案对正理想方案的相对关联度,进而实现多属性决策。文献[11]针对含多种数据形式的随机多属性决策问题,提出了一种基于混合优势度的随机多属性决策方法,在建立混合优势度矩阵的基础上利用PROMETHEE(preference ranking organization method for enrichment evaluation)Ⅱ 方法对方案进行排序;PROMETHEEⅡ方法的基本思想是利用决策者对每一属性值选择的偏好函数和权重信息,首先确定方案之间的优劣关系,进而确定方案的排序。

混合多属性决策问题的一个重要方面在于如何对不同形式的数据信息进行处理,以便对待决策对象进行相应排序。有鉴于此,本文在文献[11]的基础上,采用一种基于混合占优的混合多属性决策方法来解决用户有序用电排序问题。以有序用电环节中的错峰用电预案编排为例,首先针对参与有序用电的企业用户设计了考虑经济性、社会影响和环保性的评价指标体系,接着基于不同数据类型的累积分布函数,在对指标进行归一化后计算参加预案编排的用户在不同属性指标下的混合占优度;之后,分别根据基于改进层次分析法(analytic hierarchy process,AHP)和基于贴近度思想的权重计算方法确定主观权重和客观权重,在考虑主客观综合赋权的基础上,通过计算用户的加权贴近度来对参与预案编排的用户进行排序。最后,用实际例子对所提出的方法做了说明。

1 有序用电排序评价体系

有序用电包括错峰用电、避峰用电以及限电拉闸等。在《有序用电管理办法》中指出,“编制年度有序用电方案原则上应按照先错峰、后避峰、再限电、最后拉闸的顺序安排电力电量平衡”。本文着重考虑针对有序用电中的错峰用电问题研究排序评价体系。

为对用户参与有序用电进行合理排序,在已有研究成果的基础上[5],首先建立对参与有序用电的企业用户进行排序的评价指标体系。文献[5]从客户贡献、客户信用、社会效益、客户潜力及配合程度、供电线路及变电成本等几个方面建立了有序用电的评价指标体系,包括了用户的直接或间接价值,但未能清晰地对用户在经济、社会及环保等方面的影响进行归类;虽然给出了相当多的指标,但仍然不够完整(如没有考虑用户对地区形象的贡献),有些指标难以有效量化如“节能减排政策影响度”。需要指出,现有的有序用电方案是由供电公司编制的,但其需要通过地方政府主管部门(如经信委)批准后才能实施,并不是完全由供电公司自主确定的。本文的研究工作就是从地方政府的角度出发,研究应该怎样确定用户的有序用电排序表,即应该采用哪些指标和怎样的方法来进行这样的评估。有鉴于此,本文在这方面做了进一步的工作,从经济性、社会影响和环保三个方面建立了指标评价体系,如图1所示。

在图1所描述的评估体系中,经济性、社会影响及环保指标能够从宏观上较为完整地对用户进行测评;而从微观层面来看,该指标体系覆盖了有序用电排序中需要考虑的几个主要方面,除了文献[5]给出的一些指标外,还包括用户效益、用户软实力以及环保治污代价等,这些指标能够获取或便于计算。指标数据获取主要可通过两种渠道:①企业上报数据了解其生产经营情况;②统计年鉴、信息手册等。

在图1所示的评价体系中,用于有序用电排序评价的一级指标包括“经济性评价”“社会影响评价”和“环保性评价”;每个一级指标下包含如图1所示的若干个二级指标。经济性评价主要衡量企业有序用电为自身和整个社会直接或间接带来的经济效益,社会影响评价评估企业发展对其所在区域的社会形象及社会发展的提升情况,而环保性评价则用于分析企业用电对生态环境所产生的影响。下面介绍各项指标的含义,并给出计算公式。

1)错峰用电所节省电费及燃料费用CE

CE表示企业将高峰时段用电转移到非高峰时段时所节省的电费以及企业通过错峰用电为发电侧所节省的燃料成本,直接反映了用户参与有序用电对企业自身运营和社会所带来的经济利益。计算公式为:

式中:Δpe为高峰时段与非高峰时段的电价差;Δfc为高峰时段同非高峰时段的单位电量燃料成本之差;Pshift为每日可错峰用电电量。

一般而言,用电预案中允许用户移峰填平、移峰填谷,但为使评价结果能优先安排移峰填谷效益较大的用户错峰运行,这里只按峰、谷时段的发电燃料成本差计算移荷效益;此外,从社会效益最大化的角度来看,企业将峰时段用电转移到谷时段对改善社会效益最为有效,因为这样做可提高发电设备利用率,能更好地起到拉平负荷曲线的作用,对改善电力系统安全和经济运行的作用更为显著。因此,可用Δpe表示高峰时段同低谷时段的电价差,Δfc表示高峰时段同低谷时段的单位电量燃料成本之差。

2)企业单位电量产值OE

OE反映企业单位用电量的经济贡献,也反映自身经济效益。企业的OE越高,越应优先保障其用电。计算公式为:

式中:Ototal表示企业年产值总额;Ptotal表示企业年用电量。

3)削减高峰备用容量效益RB[5]

RB表示企业通过有序用电所避免的用于应对高峰负荷所需新增装机容量的成本,反映了有序用电进而给社会带来的效益。计算公式为:

式中:Lshift为用户可错峰负荷量;uc表示机组单位投资成本;γ 为可避免峰荷容量系数,该系数可在[1.32,1.63]之间取值[5]。

4)企业单位电量纳税额TE

TE表示企业平均每单位用电量所缴纳的税额,反映了用户参与经济活动所产生的社会影响力。计算公式为:

式中:Ttotal表示企业年纳税金额。

5)产业增加值占区域比重 ΔVR

ΔVR表示企业的产业增加值与所在区域内产业总增加值的比值,反映企业对该区域社会发展所做出的贡献。计算公式为:

式中:ΔVadd为企业产业年增加值;ΔVtotal为企业所属区域产业年总增加值。

6)对地区形象的贡献S

S反映企业的产品或服务对社会所产生的影响,可用公众反映和社会评价来体现,并用语言值描述。语言值可以采用模糊数如三角模糊数来量化描述[8]。

7)单位电量污染物排放量QE

QE反映企业平均每单位用电所产生的污染物,表示企业用电生产对生态环境的影响。此处的污染物主要指SO2、NOx等空气污染物。计算公式为:

式中:Qtotal表示企业年度污染物总排放量。

8)治理污染物费用CP

CP表示用于治理错峰用电时间段内企业生产排放的污染物所需成本,反映用电生产后进行环境治理的成本。计算公式为:

式中:pctrl为单位污染物的治理成本。

移峰填谷本身并不能减少排污量和治污费用,此处考虑移峰填谷这部分电量所对应治污费是基于如下考虑:用户错峰用电所带来的治理污染费多,表示要么企业单位电量污染物排放多,要么在未转变生产方式的前提下其可错峰电量潜力大。通过考察该项指标,可以敦促企业用户通过技术手段自觉降低单位电量污染物排放量或提前安排好生产运营时段,以便将生产安排提前转移到非高峰负荷时段,从而避免被动错峰限电情形的发生。

需要指出,虽然图1所示的指标体系主要针对错峰用电情形,但经过适当改进后也可应用于对避峰用电排序。考虑到避峰用电一般比错峰用电对企业用户造成的经济损失更大,在避峰用电排序指标体系中就需要考虑能够适当反映避峰生产所导致的生产损失等指标。此外,本文所提出的错峰用电机制仅当被优先错峰的用户真正将峰荷移至谷时才能实现评估时预期的相关效益,属于事前确定的所谓静态方案编制。在用电预案实施过程中,决策者可根据有序用电的实际执行情况进行相应的动态调整。

上述各项指标的数据类型并不一致。例如,对于企业单位电量产值,若根据历史统计资料进行判断,用区间数描述更为合适;若计及生产中的不确定性,则用随机数描述就更为合理。这样,在基于上述指标对用户进行用电预案编制/排序时,就需要能够对不同类型的数据进行适当处理。下面将介绍相应的方法。

2 混合占优

随机占优理论于20世纪90年代被应用到多属性决策领域[12],其基本思想是利用待选对象在各属性值下的已有信息,形成待选对象的偏序关系进行决策。在应用随机占优方法解决多属性评价问题时,常常会遇到随机占优准则无法判定用户之间的随机占优关系、无法定量衡量其优势关系等问题。这里参照文献[13],引入一种混合占优关系及其优势度定义,用于判断待选用户之间的优劣关系,量化分析待选用户之间的占优程度。

2.1 混合数据类型的累积分布函数及其归一化方法

对于所研究的预案编制/排序评价问题,假定共有m个待选用户,n个评价指标。给定aij为第i个用户在第j个评价指标下的属性值,且aij包括四种类型,即确定的实数、区间数、随机变量、模糊数。通常来讲,需要进行决策的属性值从总体上可分为效益型和成本型两大类。对于效益型属性值,属性值越大越好;对于成本型属性值,则属性值越小越优。可按照改变用电方式给用户和社会所带来的效益情况来确定各个属性值为效益型还是成本型。在此前提下,若某项指标越大所能带来的用户和社会效益越大则判定为效益型指标,反之则相反。依据该准则,错峰用电所节省电费及燃料费用、削减高峰备用容量效益、单位电量污染物排放量以及治理污染物费用为效益型指标;企业单位电量产值、企业单位电量纳税额、产业增加值占区域比重以及对地区形象的贡献为成本型指标。为消除属性值类型及其量纲的影响,需要对每种类型的数据进行规范化处理。参照文献[11]和[14],本小节就这四种取值类型的累积分布函数及其指标归一化方法进行分别讨论。

1)aij为实数

对于第j项属性,令。若属性j为效益型,令aij′=(aij-mjL)/(mjU-mjL);若属性j为成本型,则令aij′=(mjU-aij)/(mjU-mjL)。则经过指标归一化变换后的累积分布函数为:

2)aij为区间数

设aij=[aLij,aUij],假设aij在该区间内随机取值并设其概率密度函数为fij(x)。则其累积分布函数可以表示为:

对属性指标进行归一化变换,对于第j项属性,令。若属性j为效益型,令x′=(x-mjL)/(mjU-mjL),则可求得线性变换后的概率密度函数为:

若属性j为成本型,令x′=(mjU-x)/(mjU-mjL),则可求得线性变换后的概率密度函数为:

对于经过归一化变换后的属性指标x′,其概率密度函数满足:。基于fij′(x′),不难求出x′ 的累积分布函数Fij′(x′)。

3)aij为随机变量

设aij为一连续型随机变量,其概率密度函数为fij(x),则有。在实际的多属性决策问题中,决策者虽然一般不能判断随机变量的具体取值,但可借助可用信息如历史数据估计其概率分布,例如对于正态分布的随机变量可以依据 “3σ原则”确定其大概的取值范围。 令aij的取值范围为[aLij,aUij], 则其累积分布函数为:,其中x ∈ [aLij,aUij]。可以看出,aij为连续型随机变量时的累积分布函数表达形式同区间数类型的相同,故其经过归一化变换后的概率密度函数如式(10)和式(11)所示,由此可求得归一化变换后的累积分布函数。

4)aij为模糊数

模糊数可分为定量模糊数和定性模糊数。

假定定量模糊数aij的论域为Uij= {x|xLij≤x≤xUij},xLij和xUij分别表示对第i个用户而言,该项指标的最小可能取值和最大可能取值。设aij的隶属函数为uij(x),其可借鉴文献[15]中描述的指派方法或其他方法确定。

定性模糊数可用语言形式描述。借鉴语言值标度[8],可将语言值转换为相应的三角模糊数,并确定相应的隶属函数uij(x)。对uij(x)作线性变换,令fij(x)=cuij(x),c为确保成立的常数,即相当于对原模糊隶属函数的纵坐标进行了变换,从而将模糊隶属函数转化为相应的概率密度函数[16]。由此可得其累积分布函数为:

对属性指标进行归一化变换,对于第j项属性,令。若属性j为效益型,令x′=(x-mjL)/(mjU-mjL),则可求得线性变换后的概率密度函数为:

若属性j为成本型,令x′=(mjU-x)/(mjU-mjL),则可求得线性变换后的概率密度函数为:

由此可求得相应的累积分布函数Fij′(x′)。

为便于描述,在下文中将指标归一化后所得的累积分布函数Fij′(x′)仍记为Fij(x)。这样,采用上述方法就可以得到“确定的实数”“区间数”“随机变量”“模糊数”这四种不同类型属性值经过归一化后的累积分布函数。

2.2 混合占优度计算

对于同一属性j下用户i和用户k的累积分布函数Fij(x)和Fkj(x),当Fij(x)≠Fkj(x)时,x∈Ω,Ω={x|x∈[a,b]},定义如下的一阶、二阶及三阶混合占优准则[13]。

1)一阶混合占优准则。若H1(x)=Fij(x)-Fkj(x)≤0,则称Fij(x)一阶混合占优于Fkj(x),记为Fij(x)FMD Fkj(x)。FMD表示一阶混合占优关系,该准则在图像上表现为两累积分布函数曲线不发生交叉,处于下方的函数曲线所表示的方案为较优方案。

2)二阶混合占优准则。 若H2(x) =∫axH1(t)dt≤0,则称Fij(x)二阶混合占优于Fkj(x),记为Fij(x)SMD Fkj(x)。SMD表示二阶混合占优关系,该准则可在一阶混合占优准则不成立时对混合占优关系做进一步判断,即对H1(x)做积分运算后再进行判断。

3)三阶混合占优准则。若,且,则称Fij(x)三阶混合占优于Fkj(x),记为Fij(x)TMD Fkj(x)。TMD表示三阶混合占优关系,该准则可在二阶混合占优准则不成立时对混合占优关系做进一步判断,即对H2(x)做积分运算后再进行判断。

用MD(mixed-data dominance)统一表示混合占优关系,MD可为上述三种混合占优关系的任意一种。 由混合占优关系的性质可知[13],若存在Fij(x)MD Fkj(x),则不存在Fkj(x)MD Fij(x)。在判定混合占优关系后,即可得到两两比较的混合占优度矩阵Dj= (djik)m×m;djik表示在同一属性j下,用户i同用户k相比较的混合优势度,其计算公式为[11]:

通过指标归一化运算后,对各类型数据的运算都转换到[0,1]区间上进行。因而,a表征运算下界,在数值上为0;b表征运算上界,在数值上为1。在矩阵Dj中,djii=0;若不存在Fij(x) MD Fkj(x),则djik=0。

3 权重计算

在综合评价的排序问题中,如何合理确定各项指标的权重是一个非常重要的问题,因为其影响最终评价结果的合理性和科学性。在确定指标权重时,不仅要考虑已有的专家主观经验,还应考虑各项指标数据间的客观差异。现有的一些考虑多种信息形式的混合多属性评价方面的文献[13,17]并没有给出确定各项指标权重的方法。这里采用综合了主观和客观赋权方法的综合赋权法来确定指标权重。

3.1 主观权重计算

这里采用文献[18]中提出的基于改进AHP法的主观权重计算方法。传统的AHP法在针对两两指标间的相对重要程度构造判断矩阵时,通常选择使用1-9的评价等级标度,从而可能导致判断矩阵一致性检验错误;依据AHP改进型标度,即对指标间相对重要性的等级标度数值进行改进[18],能够在满足指标传递性的基础上判断两两指标间的相对重要程度并构造判断矩阵,该矩阵可以满足一致性检验的前提要求。通过求取判断矩阵最大特征值所对应的特征向量[19],即可求得主观权重向量W′=[w1′,w2′,…,wn′]。

3.2 基于贴近度思想的客观权重计算

在求得两两比较的混合占优度矩阵Dj=(djik)m×m后,即可计算用户i关于属性j优于其他用户的累积优势度dij+和累积劣势度dij-:

令;dj+max和dj-max分别为用户i关于属性j优于其他用户的最优累积优势度和最劣累积劣势度。给定cij+和cij-分别为用户i同最优累积优势度和最劣累积优势度的贴近度,计算公式为:

显然,两个用户在同一属性j下进行比较时,若用户i越占优势,则其同最优累积优势度的贴近度越小,同最劣累积优势度的贴近度越大。 借鉴TOPSIS法的排序思想,即通过衡量评价对象同最优解和最劣解的距离来进行排序,可定义综合贴近度指标θij:

设各项指标的客观赋权为W″=[w1″,w2″,…,wn″]。可建立如下的客观权重优化求解模型求解相应的客观权重:

式(21)的客观权重设置方法旨在通过最大化用户整体的加权贴近度差异,进而以加权贴近度的差异来确定客观权重。 在求解该模型后,通过归一化处理即可求得客观权重。 通过综合集成赋权[19]即可求取计及主客观权重的综合权重系数W = [w1,w2,…,wn],其中。

在求得综合权重系数W后,计算各用户的加权贴近度

按照加权贴近度从大到小的顺序对用户进行排序。用户的加权贴近度越大,说明其在图1所示的排序体系下的综合评价结果越贴合优先参与有序用电的衡量标准,从而越应优先保障该用户用电。

综上,以错峰用电为例,所提出的基于混合多属性评价的预案编制/排序方法的步骤如下。

1)根据每个属性值aij的数据类型,采用相应指标进行归一化处理,确定aij的累积分布函数Fij(x)。

2)对各用户在不同属性指标下的累积分布函数进行混合占优判断,可求取各用户在同一属性j下的混合占优度矩阵Dj=(djik)m×m。

3)分别计算决策者的主观赋权值和由混合占优度矩阵计算得到的客观权值,求取综合考虑了主观和客观权值的综合权重系数。

4)利用综合权重系数计算各个待排序用户的加权贴近度,并按从大到小排序;用户的加权贴近度越大,则越应优先安排其用电。

在MATLAB环境下对上述方法进行了实现。

4 算例分析

基于广州市2013年10kV工业专线用户的相关信息,采用前文所提出的方法对相关用户进行预案编制/排序。假设需对7个用户进行排序,这些用户在所提出的评价指标体系下的数据信息如表1所示。其中,错峰用电所节省电费及燃料费用和产业增加值占区域比重均用实数表示,企业单位电量产值用正态分布的随机变量描述,削减高峰备用容量效益、单位电量污染物排放量及治理污染物费用均采用均匀分布的区间数表示,企业单位电量纳税额采用数值型三角模糊数描述,对地区形象的贡献采用文献[8]中所给出的语言值进行评价并用三角模糊数量化。其中,语言评价值“极低”“很低”“低”“较低”“稍低”“一般”“稍高”“较高”“高”“很高”“极高”所对应的三角模糊数分别为[0,0,0.1],[0,0.1,0.2],[0.1,0.2,0.3],[0.2,0.3,0.4],[0.3,0.4,0.5],[0.4,0.5,0.6],[0.5,0.6,0.7],[0.6,0.7,0.8],[0.7,0.8,0.9],[0.8,0.9,1.0],[0.9,1.0,1.0]。限于篇幅,这里不对三角模糊数量化做详细描述。

对每种类型的数据先按照式(8)至式(14)求取指标归一化后的累积分布函数。之后,按照前述的混合占优关系准则进行混合占优判断,采用式(15)计算各个用户在属性j(j=1,2,…,n)下的混合占优度矩阵Dj=(djik)m×m。根据式(16)至式(22)计算各用户在不同属性指标下的综合贴近度,如表2所示。

利用表2中的数据,在MATLAB环境下采用fmincon函数求解式(21)所描述的客观权重优化模型,之后对如此求得的权重进行归一化处理,得到各属性指标的客观权重。采用改进的AHP法求解一级评价指标的主观权重,可得其权重向量为W1=[0.200,0.600,0.200]。同理,对8个二级指标权重进行相应计算,可得它们的主观权重;之后,采用综合集成赋权方法求得各项指标的综合权重。各指标的主观权重、客观权重及综合权重如表3所示。

根据各指标综合权重和各用户在不同属性指标下的综合贴近度,即可按照式(22)计算加权贴近度进而对用户参与有序用电进行排序。求得的各用户加权贴近度如表4所示。

对7个用户的加权贴近度从大到小进行排序,可知他们优先用电的顺序依次为用户7,6,4,5,3,2,1。以用户7和用户6为例,二者的社会评价都为“极高”,可见二者都为社会声誉很好的企业;从用户生产特性上来看,用户7同用户6相比,虽然单位电量产值少,但其单位电量纳税额较大,产业增加值占区域比重大。对于这两个用户若仅从经济性、社会影响和环保性评价中的某一指标进行排序,可能会得到完全不同的排序,不同信息形式的数据也给决策带来困难,而采用本文前述方法可以有效处理这一问题,得到合理的排序结果。需要指出,权重大小对最终结果是有影响的;以用户4为例,其具有单位电量产值和纳税额高、产业增加值占区域比重大但单位电量污染物大的特点,究其最终排序结果的原因在于决策者较为看重用户的单位电量产值、产业增加值占区域比重以及地区形象,而对污染物指标则不太看重。

各用户也可以根据各项指标的评价情况对生产经营情况进行改善,以争取在有序用电顺序表中排到前列,从而在电力供应紧张时不至于被中断供电,避免由此给生产和经营带来负面影响。例如,若某用户在经济性评价下的各项指标贴近度较小,说明该用户应积极改善生产效益,合理安排生产时间,在生产实际允许的情况下主动错峰或避峰用电。

本文所提方法能够处理属性数据为实数、区间数、随机数和模糊数等不同数据类型的情形。传统的多属性决策方法一般默认属性数据类型为单一数据类型,如实数或区间数,难以同时处理不同信息形式的数据。基于混合占优的处理方法可有效解决信息形式不一致的问题。

5 结语

混合属性数据 篇5

系统使用MVC 3层结构,数据模型,业务逻辑和控制的代码分开编写,这种类型的数据库改动只需要修改数据模型的代码就可以,大大提高了代码的通用型和健壮性。

系统对数据实现了R/O映射,将数据库的表结构映射为C#中的对象,这样处理的好处是使得代码具有很高的可读性,并且在编写业务逻辑的时候可以受数据库结构和数据类型的约束,只需要按照对象的变量类型给其赋值,或者调用对象中的已知方法就可以了。这样可以大大提高软件开发的效率。具体实现步骤是第一步通过Select(string sql)方法,得到Data Table,第二步是Data Row->Mod_表名,每个表对应一个类:Mod_表名,Get Models就是通过一个for循环,就获取到的Data Table将每一行转换为一个模型(就是一个类),那么最终返回一个模型的数组。

创建数据模型层所用到的底层方法和对象都源自ADO.NET组件,这是.net平台上的一套数据库操作集,他的特点就是面向对象。

ADO.NET对Microsoft SQL Server和XML等数据源以及通过OLE DB和XML公开的数据源提供一致的访问。数据共享使用者应用程序可以使用ADO.NET来连接到这些数据源,并检索、处理和更新所包含的数据[1,2]。

ADO.NET通过数据处理将数据访问分解为多个可以单独使用或一前一后使用的不连续组件。ADO.NET包含用于连接到数据库、执行命令和检索结果的.NET Framework数据提供程序。您可以直接处理检索到的结果,或将其放入ADO.NET Data Set对象,以便与来自多个源的数据与在层之间进行远程处理的数据组合在一起,以特殊方式向用户公开。ADO.NET Data Set对象也可以独立于.NET Framework数据提供程序使用,以管理应用程序本地的数据或源自XML的数据[3]。

系统中数据库连接字符串是保存在db.text.txt里面的一行文字。其中记录了数据库的位置和用户名密码。

疾病数据通过cc Web.Data Access.dac Region_Dim.Method().Get Mode()方法获得,得到的是乡镇数据的一个模型,是自定义的一个类。代码如下:

class Town Draw Info

{public String town Name;//乡镇名称

public String draw Info;//绘制信息

public DPoint draw Position;//镇的中心位置

public Multi Polygon draw Polygon;//镇的区域范围

public String town Annouce;//通知

public String town Leader;//乡镇负责人

public String town Leader Tel;//乡镇负责人联系方式

public int town Total People;//乡镇总人口

public String new Disease Info;//最新发病信息

public String new Disease Report Time;//最新发病时间

public Listhospitals;//医院信息}

这样获得的数据,比如town Info,通过town Info.town Name就能得到乡镇名称,初始化完成后不需要经常访问数据库,可以很大的提高程序的执行效率,节约系统资源。

同样的,发病的统计样本数据也是一个定义为类的模型,通过cc Web.Data Access.dac Join_Info.Method().Get Models()方法获得。该模型的定义代码如下:

class Disease Event

{public String disease Name;//病名

public Date Time disease Reg Date;//注册时间

public int disease People Num;//生病人数数量

public int died People Num;//死亡人数名单

public int disease Pending;//正在接受治疗的病人数量

public int disease Treated;//治愈人数

public int disease As Lin Chuan Num;//显示临床诊断病例

public int disease As Shi Yan Shi Num;//实验室诊断病例

public int disease As Yi Si Num;//疑似病例

public int disease As Bi Yuan Xie Dai Num;//病原携带者}

数据库连接以后,就是与地图数据的关联,只有与地图数据关联才可以实现在地图上的定位显示。这是系统最根本的功能。以下详细介绍空间数据和属性数据的关联:

空间数据是指目标的位置信息数据、拓扑关系等。属性数据是指与空间位置没有直接关系的代表特定地理意义的数据,既可以是独立于专题地图的社会经济统计数据,也可以是与专题地图相关,表示地物类别、数量、等级的字符串或数字。属性数据库设计是指属性数据文件设计、属性数据库结构设计、属性数据管理系统的功能设计和相应软件编写等。目前有的系统把属性数据与图形数据组织在数据文件的同一个目录中,这种方式既不灵活,又造成很大的冗余;更多的系统则把属性数据以单独的数据文件方式与图形数据文件并存于文件系统中,其优点是对于某些特定的个体应用比较简单.且容易操作,但局限性很大,结构不灵活,难以实现数据共享。属性数据库设计时应当和空间图形数据库综合考虑,其数据结构应既能表达实体的数据特征,又能满足使用力强、灵活性好、冗余度小、管理程度高、逻辑操作方便等要求。因此,目前较为流行的设计是面向对象的设计方法和混合数据结构设计。

在GIS中常用的关系数据库管理系统有DBASE,Oracle,SQL Server,Informinx,INFo等。在本系统中我们使用SQL Servers 2000作为关系数据库管理卫生状况的属性数据。管理均采用现有的数据库管理系统和空间信息数据库的结合来实现GIS数据的管理。

一个大的空间数据库通常将空间数据与属性数据分别存储[4,5]。空间数据通常由各种GIS软件提供的数据模型方式存储,而属性数据则使用BDBMS存储,两者通过关键项进行连接,或通过指针连接。属性数据与空间数据常规的连接方法是通过一定标识码进行,如图1所示。

在本系统中系统在数据的存储上采用了属性数据与空间数据分离的机制[6,7,8]。首先,采用空间数据库引擎管理空间数据,企业级关系数据库系统SQL server管理属性数据。其中,SQL server存储的是基础数据,在地图中进行查询时实际使用的是基础数据的汇总,对病例的不同属性和不同类型的汇总统计,主要有按疾病名称的统计,按时间的统计,按发病区域的统计,按病例的临床分类的统计等。

本文的地理信息系统主要采用的是分区图表示法[9],将地理信息以分区的形式在其上加以载入图形符号、结构图和其他统计图来表示信息。对于分区图中的每一个分区表示的信息是不同的,要使用不同的颜色加以区分,在属性数据库中添加相应的颜色字段,在使用Geo Beans做格式转换的时候,将其设置为属性数据库中添加的颜色字段,通过这种方式不同的地图分区可以获得不同的颜色表现。然后就是对图形数据和属性数据编辑。再将图形数据数字化到GIS中的时候,不可避免的出现错误,这里要对这些数据检查修正。另一方面则是对于属性数据的处理。

在空间数据库与属性数据库之间的数据交互主要是通过关系表中的关键项来维系的。关键项有两种,即主关键项和外部关键项。主关键项是用来定义存在性和惟一性的,即一个地理特征存在的话,主关键项将在该关系表中加入一个记录,而且只加入这一个记录,没有重复。通常在定义一个关键项时,它应该是个没有实际意义的项。例如对地籍数据来说,假若用地籍拥有者的名称做主关键项,那么当这个拥有者更换以后,表与表之间的关系便失去了,而使用地籍编码则能保证该地块在数据库中的惟一性。因为地块编码是人为赋给不具任何实际意义的项,一个地块一旦被划分,它的编码也就被确定了。这样属性数据通过唯一标示的关键项,使图形数据与属性数据加载在信息系统中得以表现。

本文针对当前突发性公共卫生事件防治工作的迫切需求,利用GIS的较强的地理信息表现能力,将卫生状况的属性数据反映在地图当中,以便于进行可视化分析查询,从而快速做出相应决策。

参考文献

[1]吴信才.WebGIS地理信息系统参考手册[M].武汉:中国地质大学(武汉)信息工程学院,2001.

[2]乌伦,张晶,唐大仕,等.基于WebGIS的体系结构研究[J].地理学与国土研究,2001.11(4):20-24.

[3]郝启堂.wndowsNT4/Windows95高级开发指南[M].北京:电子工业出版社,1998.

[4]张超,陈丙咸,乌肠伦.地理信息系统[M].北京:高等教育出版社,1995.

[5]webGIS用户使用手册[M].北京大学数字地球工作室,2000.

[6]杨崇俊,王羽翔,王兴玲.万维网地理信息系统发展及前景[J].中国图象图形学报,2001,6(9):886-894.

[7]毕硕本,王桥,徐秀华.地理信息系统软件工程的原理与方法[M].北京:科学出版社,2003.

[8]宋关福,钟耳顺.WebGIS—基于Internet的地理信息系统[J].中国图象图形学报,1998,3(3):251-254.

城市居民个体属性数据获取方法 篇6

传统的交通规划方法已经越来越无法满足日益增长的城市交通需求,基于活动的交通需求预测模型逐渐成为交通规划的新方法。这类微观层次的模型需要居民的个体属性作为输入,而这类数据在我国面临着数据稀缺的制约。考虑到居民隐私安全的因素,很多统计部门的居民个体属性数据不对外公开,仅仅公开集计的统计数据,而为了获取非集计的个体数据进行大规模的调查,会耗费极大的人力物力财力。笔者引入基于IPU算法[1](iterative proportional update)的城市居民个体属性仿真方法。以绵阳市为案例,根据国内现有的数据环境,对居民个体属性分布数据获取方法进行了探索。所研究的方法可以填补国内在居民个体属性获取研究上的空白,成功地将我国宏观统计数据和小规模的居民出行调查数据生成适合IPF算法的输入数据,得到每个城市居民的详细属性,并对生成的数据进行精度评价。

这类属性数据是MATSim所必需的输入数据。基于该软件平台,可以实现大规模交通网络的多种交通方式仿真[2]。在MATSim中,每个a-gent都有自己的活动计划,他们对自己的活动链进行排序,排序的依据是计算每个活动的效用值,计算方法遵从微观经济学原理[3]。

在国外,居民属性生成的发展经历3 个阶段[4]。

第1阶段,用传统的IPF算法直接生成agent属性。1940年,由Deming和Stephen[5,6]首先提出了迭代比例拟合算法(iterative proportional fitting,IPF),利用已知的源列联表生成符合一定边缘分布的高维列联表。Mosteller[7]证明了源列联表(样本数据)对生成目标矩阵的重要性,最终得到的目标矩阵的分布与源数据的分布的内在机制是一致的。Ireland和Kullback[8]也指出,由IPF算法得到的列联表与真实列联表的偏差信息是最小的,也称为“相对熵(relative entropy)”最小。Little和Wu[9]从理论上证明了IPF算法得到的列联表是真实列联表的最大似然估计值。Beckman等人将IPF算法引入agent合成领域,并用于TRANSIMS软件的算法[10]。

第2阶段,利用调整权重法生成agent属性。该方法适用于属性数量较多的情况;同时生成代表家庭与个人的agent。由Williamson等[11]提出了调整权重法(reweight approach)以代替传统的IPF算法,利用最优化算法不断迭代过程中调整每行的权重值。

第3 阶段,由Arentze等[12]提出另一种算法。利用关系矩阵将个人的属性分布转化为家庭的属性分布,从而同时满足家庭与个人的仿真精度需要。Ye等在前人研究的基础上进一步改进,提出了一种启发式算法(iterative proportional updating,IPU),这种算法基于不断地调整家庭数据的权重值,使得所有家庭包含的个人属性信息也尽量接近实际的分布情况。

近年来有一些学者研究其他类型的算法,Si-varamakrishnan[13]提出了一种新的FBS算法,并与IPF算法进行了比较。Jooyoung Kim等[14]提出基于模拟退火算法(SA)的方法,可以避免IPF算法中的稀疏矩阵问题。Johan Barthelemy等[15]研究如何在没有样本数据的前提下进行居民属性获取,并在比利时435万家庭,1 000万人口的数据环境下进行了实证。

国内在获取城市居民属性数据方法方面的研究较少,龙瀛[16]等提出了一种居民属性反演方法,该方法主要采用蒙特卡洛随机模拟的方法,与IPF算法相比,其数学模型比较简单,缺乏对各类属性之间的相互影响关系的分析。

1 数学模型

1.1 已知数据

合成活动模型的个体属性时,主要问题和难点在于如何在已知的宏观数据基础上进行分解反演。个体样本一般具有相应的社会、经济等方面的基本属性,例如,人口样本的年龄、收入、教育程度、职业等属性[13],家庭样本的家庭成员数量、收入、地址等属性。首先,必须选择一组感兴趣的人口统计学变量,例如家庭人口数、年龄、性别、收入、汽车保有量、工作地点等。这些人口统计数据一般从不同的数据源获取,尤其是家庭或个体的居住地信息。不同来源的数据,其空间尺度可能是乡镇、街道办、居委会,甚至是确切的坐标信息。要获得能输入个体获得模型的数据,必须要对已知数据进行处理。

一般已知的数据包括:(1)官方的统计数据,如人口普查、统计年鉴数据等;(2)抽样调查数据,如居民出行调查数据等。前者可以作为合成模拟人口的列联表边缘分布数据,后者可以作为合成人口的迭代初始数据。表1、表2 为部分居民属性边缘分布的列表和抽样样本数据示例。

1.2 IPF算法

迭代比例拟合算法(iterative proportional fitting,IPF)最早由Deming和Stephen提出,用于求解已知边缘分布的列联表。利用IPF算法合成人口的传统方法包括两个步骤:(1)通过已有边缘分布数据和抽样数据合成个体属性的联合分布;(2)根据联合分布从样本数据中抽取对应属性的个体样本作为最终的人口。

这里以二维列联表为例说明IPF算法。要由表1得到表2,实际上可以把问题简化为如图1所示的问题,已知数据是样本的属性边缘分布(ni·和n·j)和联合分布(nij),总体的边缘分布(Ni·和N·j),需要求解的是总体的属性联合分布(Nij)。矩阵nij归一化后得到Πij,它们之间的关系如下。

式中:ni·和n·j表示二维列联表的边缘分布。

二维列联表的一次迭代分为2个步骤

式中:πij(0)为初始迭代数据,即图1中的πij矩阵。可以获取的一些样本数据,如居民出行调查数据得到。

1.3 改进的IPU算法

IPF算法虽然在精度和运算速度上满足需求,但是只能单独生成家庭或者个人的属性分布。IPU算法则可以以同时满足家庭和个人的合成要求。IPU算法的思路是每个家庭属性类型都有相应的权重,将家庭的权重在个人属性分布的基础上进行调整,可以使各类型家庭的权重与个人的权重同时得到满足。IPU算法的数据结构见表5。

纵向每一列数据表示家庭的ID、权重、家庭属性类型、个人属性类型;横向则是样本中的单个家庭。IPU算法实际上是将属性列联表的每个单元格作为独立的一列,且将家庭和个人的属性同时进行迭代。具体步骤如下。

1)生成如表3的N×m的频数矩阵D。N为样本中的家庭数量;m为家庭属性类型和个人属性类型。矩阵中的每个元素dij为家庭i的第j个属性类型的属性值。例如,d11为家庭ID为1的家庭,其家庭属性类型1的值为1。

2)根据IPF算法得到各个属性类型的分布Cj,j为各个属性类型的编号,j = 1,2,…,m 。Cj也是算法中的约束条件。

3)为样本中各个家庭的初始权重wj赋值,令所有wj= 1;同时令拟合优度变量

4)令r=1,表示迭代的次数。

5)令向量Sj为第j列不为0的行号,例如,表3第一列household type 1中,不为0 的行号为1,2,因此S1包括1和2。

6)令k=1,表示第k个修正的约束条件。

7)计算第k列的修正系数

8)对第k个属性类型的权重进行修正wsqk=ρwsqk。

9)k=k+1。

10)判断若k≤m,则转向步骤7;否则转向步骤10。

11)更新 δprgv= δ,计算新的

12)计算拟合优度提升值=|δ-δprgv。

13)r=r+1,更新δmin。若Δ>ε,则转向步骤6;否则结束算法。

得到的权重值如表5最右列所示,表示各个样本家庭的权重分布。在最终挑选被选入仿真结果的家庭时,遵从以下规则:属性组合严格相符的家庭,按照权重值的大小,随机选入最终结果。若属性组合完全相同的家庭集合为J,其中每个家庭为pj,每个家庭被选择的可能性按下式计算。

2 案例分析———以绵阳为例

采用2010年四川省绵阳市居民出行调查的数据作为IPU算法样本数据。这里仅针对绵阳市区范围,对于境内,外出行和跨境出行暂不考虑,最小空间尺度为居委会。本文在家庭和个人层面主要提取以下属性:年龄、职业、性别、月均家庭总收入、家庭总人口、家庭小汽车数。

IPU算法输入数据包括样本数据和边缘分布数据。

2.1 样本数据

样本中的数据包含涪城区和游仙区共88个居委会,17 738条个人记录,8 933个家庭。原始数据格式见表6。

为满足迭代算法的数据格式要求,需要对原始数据进行处理,包括剔除错误数据和数据格式的整理。

样本的属性可分为连续型和离散型2种,本文中的人口属性中年龄为连续型变量,其他均为离散型变量。在绵阳居民出行调查中,各个属性以整型的字段表示,连续型的变量需要以一定的区间转化为离散型的变量,得到离散的属性值后,根据所属区间,用蒙特卡洛模拟法得到每个居民的连续型变量值。

6种属性的取值范围见表7。

将属性值溢出取值范围的记录删除后,得到的样本量为8 712 条个人记录、4 093 条家庭记录。格式见表8~9。

2.2 边缘分布数据

边缘分布数据分为家庭边缘分布和个人边缘分布两部分。由于我国统计数据的稀疏性,空间尺度上越小,可以获取的数据就越少。本文的边缘分布根据统计年鉴数据得到。格式见表10~表11。

以表10第1条记录为例,这条记录表示编号为1的古泉居委会中性别为男的人口有855人,性别为女的人口有635人;6岁以下人口108人,65岁以上人口为184人,等等。

注:表11中“拥车量”即为前文“家庭小汽车数”,其他变量意义均与前文相同。

2.3 算法运行与结果分析

将以上样本数据与边缘分布数据输入基于IPU算法的软件平台PopGen,得到最终的仿真数据。以1号居委会为例,其中家庭和个人各个属性的边缘分布情况误差见图2~7。

从图中可以看出,除了家庭规模属性分布的2,3,4三组分布有细微偏差,其他属性的各个分组仿真值均与实际值全部吻合。IPU算法在家庭层面很好地模拟了实际的家庭属性分布情况。

从个人层面看,各个属性分布的误差值均大于家庭,这与IPU算法的特性相符。在基于活动的交通需求模型中,一般考虑个人的属性与出行特征的联系,因此采用百分误差APD这个指标来量化个人属性分布的误差值。

式中:j为编号;kj为属性j的第k个取值;n为仿真值;c为实际值。这个指标反映了j属性分布的仿真误差的加权百分误差平均值。APDage均值为12.4%,APDgender均值为11.1%,APDwork均值为13.8%。大多数居委会的误差在20% 以下。有少数居委会的误差值比较大,其原因是人口数据扩样过程中,没有与家庭规模属性之间完全匹配。

绵阳城区总人口约为52万,仿真结果的居民样本总数约49万,总人口数量的误差约在6%左右。部分个人属性的仿真结果见表12。这些属性可以用于基于活动的交通需求预测模型和仿真工具中。

2.4 运行时间

需要仿真的样本数量越大,属性组合越复杂,计算机需要的运行时间会越久。本文中案例在CPU为2.5GHz×2,4G内存的工作站上测试,算法收敛阈值设为0.000 1的情况下,仿真49万的样本所需时间约为250s。这样的运行时间满足一般的工作或研究需要。

3 结束语

IPU算法已经在苏黎世等地得到了实际应用,但是在我国尚未有合适的获取居民属性方法。本文引入了IPU算法,结合我国数据统计的实际情况,应用于绵阳市。在家庭层面,算法的精度和收敛速度均可以满足需求;在个人层面,仿真误差稍大,但绝大多数居委会的个人属性分布精度均在20%以内,均值在11%~13%之间,较好地满足了精度需求。在运算时间方面,生成49万条样本的时间仅仅在250s左右。研究填补了国内在居民属性数据获取方法方面的空白,提出了利用各居委会属性分布的百分误差APD来进行结果精度评价,验证了IPU算法完全可以适用我国的数据环境,对构建各类微观模型具有重要意义。

简论CIP数据的法律属性及应用 篇7

一、CIP数据属于国家推荐性标准而非强制性标准

笔者查阅了一些论著, 发现在CIP标准的理解上存在一些偏差。一些论者和管理部门有意无意的回避了该标准的法律属性。有些论者只是就标准谈标准, 局限于具体内容的分析。新闻出版署的文件对该标准的理解也存在偏差, 把本来的推荐性标准当做了国家强制性标准来执行。如新闻出版署的文件竟如此规定“国家标准《图书在版编目数据》 (GB12451-90) 系强制性标准, 全国各出版社均应认真贯彻实施, 定期自查, 勿得缺漏。国家各级出版管理部门, 应将实施图书在版编目 (CIP) 数据标准工作纳入图书出版行业标准化规范性管理范畴。对未实施图书在版编目 (CIP) 数据标准的出版单位, 要根据有关规定给予行政处罚。”这会直接影响依法行政。

《中华人民共和国标准化法》对于标准的制定有专条。具有法律属性, 在一定范围内通过法律、行政法规等手段强制执行的标准是强制性标准, 其它标准是推荐性标准。该法第六条规定:对需要在全国范围内统一的技术要求, 应当制定国家标准。国家标准由国务院标准化行政主管部门制定。对没有国家标准而又需要在全国某个行业范围内统一的技术要求, 可以制定行业标准。行业标准由国务院有关行政主管部门制定, 并报国务院标准化行政主管部门备案, 在公布国家标准之后, 该项行业标准即行废止。对没有国家标准和行业标准而又需要在省、自治区、直辖市范围内统一的工业产品的安全、卫生要求, 可以制定地方标准。地方标准由省、自治区、直辖市标准化行政主管部门制定, 并报国务院标准化行政主管部门和国务院有关行政主管部门备案, 在公布国家标准或者行业标准之后, 该项地方标准即行废止。企业生产的产品没有国家标准和行业标准的, 应当制定企业标准, 作为组织生产的依据。企业的产品标准须报当地政府标准化行政主管部门和有关行政主管部门备案。已有国家标准或者行业标准的, 国家鼓励企业制定严于国家标准或者行业标准的企业标准, 在企业内部适用。法律对标准的制定另有规定的, 依照法律的规定执行。该法第七条:国家标准、行业标准分为强制性标准和推荐性标准。保障人体健康, 人身、财产安全的标准和法律、行政法规规定强制执行的标准是强制性标准, 其他标准是推荐性标准。省、自治区、直辖市标准化行政主管部门制定的工业产品的安全、卫生要求的地方标准, 在本行政区域内是强制性标准

强制性国家标准、强制性行业标准和强制性地方标准。强制性标准可分为全文强制和条文强制两种形式: (1) 标准的全部技术内容需要强制时, 为全文强制形式; (2) 标准中部分技术内容需要强制时, 为条文强制形式。

强制性内容的范围包括: (1) 有关国家安全的技术要求; (2) 保障人体健康和人身、财产安全的要求; (3) 产品及产品生产、储运和使用中的安全、卫生、环境保护、电磁兼容等技术要求; (4) 工程建设的质量、安全、卫生、环境保护要求及国家需要控制的工程建设的其他要求; (5) 污染物排放限值和环境质量要求; (6) 保护动植物生命安全和健康的要求; (7) 防止欺骗、保护消费者利益的要求; (8) 国家需要控制的重要产品的技术要求。

强制性标准的编写方法: (1) 强制性标准的编写方法按GB/T系列标准的规定; (2) 标准中的同一个条中不应同时出现强制性内容和推荐性内容 (用表格方式表达技术指标的情况除外) 。

由以上论述可以看出, GB/T12451-2001属于推荐性标准。《中华人民共和国标准化法》第十四条明文规定:强制性标准, 必须执行。不符合强制性标准的产品, 禁止生产、销售和进口。推荐就是将好的、比较合适的标准介绍给企业, 供企业选用, 希望企业采用。推荐的含义有三层:第一是介绍, 第二是引导、导向, 第三是不强迫。依据标准化法鼓励企业自愿采用推荐性标准。既然“推荐”意味着自愿采用, 不强迫执行, 那当然就允许企业根据用户和市场需要自己制定企业标准, 而不采用相应的推荐性国家标准或行业标准。推荐性标准, 国家鼓励企业自愿采用。因此新闻出版署等相关部门应该鼓励相关出版企业采用该标准, 不能采用或变相采用行政命令的方式强迫出版企业采用该标准。因此, 新闻出版署把推荐性标准当做强制性标准来执行是不适当的。

二、关于国家标准《图书在版编目数据》修改与执行的建议

(一) 把推荐性标准修改为强制性标准, 并加以具体完善。

出版业是对民族思想文化素质起导向作用的大规模社会活动, 不能没有强有力的法律规范手段。由于推荐性标准缺乏推行的强制性, 再加上有一些出版单位片面追求经济效益, 忽略了出版业的社会责任, 结果一些出版企业对推行该标准存在许多问题。作为国家标准而印在每本图书书名页背面的图书在版编目 (英文缩写为CIP) 数据的准确度却让人不敢恭维。根据近几年来图书馆利用CIP数据的情况看, 该数据中确实存在着不少的错误, 主要有两大类:一类是分类标引技术错误, 其出错率远远超过了图书分类工作允许的范围。主要表现为主题相似的丛书分类不一致;主题标引与分类标引不一致;分类标引中总论、专论混淆。另一类是排版印刷错误。如在书名、著者、字母和数字等方面的误排和漏排现象。当然, 也不能排除个别出版商出于某种不良目的而有意配上一个错误的数据。以上诸种错误的出现不仅要使图书馆的工作人员花费大量的时间和精力来纠正, 而且还会因为CIP数据本身的权威性而产生误导, 从而影响整个编目工作标准化的实现。擅自杜撰核字号和对CIP数据核字号的任何改动, 都会造成核字号使用的混乱, 损害图书出版信息的准确性, 侵害被盗用核字号图书的相关权益。从知识经济发展的趋势和更好同国际接轨来看, 在一段时间内, 是有把推荐性标准改为强制性标准之必要。只有等出版业形成习惯后再回归推荐性标准的本来面目。

(二) 业务管理部门加大监督管理力度。

出版社是精神产品的中介性生产单位, 其具体生产经营活动, 不宜受到过多的行政干预。作为国家机关的出版行政主管部门, 其主要职责是监督党的方针政策、国家的法律法规、行政机关的条例规定在出版界的贯彻执行情况, 管理图书出版的规模、趋势、结构、质量以及出版队伍的组织建设、思想建设和业务培训, 制裁违法违纪经营活动, 总结推广经验, 奖优罚劣。以上各项, 都与图书质量密切相关。同时, 图书在版编目是一项专业性很强的业务工作, 对从业人员的专业素质和综合能力有着较高的要求, 出版社一般不具有此类专业人员, 难以胜任此项工作。由于长期缺乏有效的监管措施, 致使不报、漏报CIP数据的现象屡禁不止, 自制、仿制伪CIP数据的行为屡见不鲜。前者直接导致了CIP数据库的数据不全, 无法据此为行业主管部门及社会各界提供可靠的信息服务;后者则鱼目混珠, 张冠李戴, 错误百出, 自制、仿制伪CIP数据的高差错率严重败坏了CIP工作的声誉, 直接影响社会各界对CIP数据的使用。这种违规行为, 不仅损害了新闻出版总署信息中心的业务声誉, 也损害了落实国家标准工作的严肃性和权威性, 同时也不利于我国图书出版信息的质量建设。新闻出版总署信息中心是新闻出版总署指定的组织和实施我国图书在版编目工作的唯一单位, 其他单位和个人没有权利和资格制作CIP数据。总之, 执行国家标准的监管主要存在以下问题需要解决:首先, 缺乏必要的监督管理机构, 以致监管不力。其次, 缺乏必要的奖惩制度, 即“做与不做一个样”。积极参与CIP工作的出版社得不到鼓励, 拒不申报也得不到惩罚。第三, 缺乏必要的CIP数据质量评审, 即“做得好坏一个样”。CIP数据的质量始终游离于图书质量之外, 致使责任编辑只关心图书上是否印有CIP数据而从不关注其质量的优劣。

摘要:国家标准《图书在版编目数据》在实施中遇到较多问题, 其中很重要原因是对该标准的法律属性没有正确理解。C IP数据我国法律规定属于推荐性标准, 出版单位应具有选择权。但考虑到文化产品的社会影响, 在一定时期可以规定为国家强制执行标准, 并在应用中加以规范。

关键词:CIP数据,推荐性标准,强制性标准

参考文献

[1].张晓燕.试论图书在版编目[CIP]数据的标准性[J].农业图书情报学刊, 2006, 2:164~166

【混合属性数据】推荐阅读:

大学属性07-17

法律属性05-12

景观属性05-28

分析属性06-12

道德属性06-19

属性知识06-25

属性处理06-28

属性特征08-07

技术属性08-20

住房属性08-24

上一篇:UG三维建模下一篇:控制权配置