结构相似性

2024-08-20

结构相似性(精选9篇)

结构相似性 篇1

传统视频压缩技术的设计目标是在有限带宽的前提下取得最优的峰值信噪比 (PSNR) 。在大多数视频通信应用中, 人眼是最终的接收者。然而, 峰值信噪比往往不能反映人眼的视觉特性。结构相似性 (SSIM) 指数提供了一种更好的图像质量评估的方法, 其优越性在很多独立测试中得到证实。目前, 基于结构相似性的图像质量评估方法是国际图像与视频处理和压缩领域最为广泛接受并且引用率最高的方法。

作为结构相似性指数的提出者和倡导者, 滑铁卢大学的王舟副教授及其研究团队最近发明了一种基于结构相似性的感知视频压缩技术。此技术可以在不提高带宽的前提下, 明显提高解压缩后的视频质量, 或者在不影响视频质量的前提下, 比现行最高质的H.264/MPEG4-AVC视频压缩标准进一步降低带宽最多达30%至40%。此项技术已得到国际学术界与工业界的广泛关注, 在智能手机、高清电视、网络电视、可视电话、视频点播等领域具有广泛的应用前景。

技术成熟度:专利、实验室成果。

外方提议合作方式:技术转让、技术入股、投资。

结构相似性 篇2

二阶欧拉方程的一类边界问题的相似结构解

研究了二阶欧拉方程的一类边界问题的求解及其解的结构的相似性,得到了二阶欧拉方程的边界问题(1)的特解的.统一表达式.

作 者:严娟 李顺初 邢承林 YAN Juan LI Shun-chu XING Cheng-lin 作者单位:西华大学数学与计算机学院,四川,成都,610039刊 名:西华大学学报(自然科学版) ISTIC英文刊名:JOURNAL OF XIHUA UNIVERSITY(NATURAL SCIENCE EDITION)年,卷(期):28(6)分类号:O175关键词:二阶欧拉方程 边界问题 相似性

结构相似性 篇3

从很多方面看, 贵州茅台 (600519) 和苏宁云商 (002024) 都存在巨大差异。贵州茅台是主营生产和销售白酒的制造商, 苏宁云商是主营家电零售的经销商;贵州茅台是国有企业, 苏宁云商是民营企业;贵州茅台股票2001年在上海证券交易所挂牌交易, 苏宁云商 (苏宁电器) 2004年在深圳证券交易所上市;贵州茅台位于西部, 地处贵州省仁怀市茅台镇, 而苏宁云商的总部在东部, 地处江苏省南京市。但通过2004-2012年年度报告可以发现, 贵州茅台和苏宁云商的资产结构和负债结构非常相似。为什么在主营业务、经济性质、地理位置等方面存在巨大差异的两家公司, 资产结构和负债结构安排却很相似?这种相似性究竟说明了什么?

二、贵州茅台与苏宁云商的资产结构和负债结构比较

(一) 资产结构的相似性

资产结构是指流动资产占资产总额的比例和非流动资产占资产总额的比例。贵州茅台和苏宁云商的资产结构如表1和图1所示。从表1和图1可以发现: (1) 流动资产占资产总额的大部分, 非流动资产占资产总额的比例较小。2004-2012年流动资产占资产总额的平均数, 贵州茅台为76.37%, 苏宁云商为82.12%;2004-2012年非流动资产占资产总额的平均数, 贵州茅台为23.63%, 苏宁云商为17.88%。 (2) 从2004年到2012年, 贵州茅台和苏宁云商资产结构的变化都不大。在图1中, 贵州茅台和苏宁云商流动资产占资产总额的比例曲线和非流动资产占资产总额的比例曲线几乎与横坐标平行。

如表2所示, 在贵州茅台和苏宁云商的流动资产中, 货币资金占的比例最大, 2004-2012年年平均数分别是63.86%和49.13%;其次是存货, 2004-2012年存货占流动资产比例的年平均数分别是28.84%和34.55%;而应收款项 (包括应收账款、应收票据和预付账款) 占流动资产的比例都很小, 2004-2012年年平均数分别是6.46%和12.77%。相应地, 应收账款周转率都很大, 2004-2012年年平均数分别是1 690次和205次。

(二) 负债结构的相似性

负债结构是指流动负债占负债总额的比例和非流动负债占负债总额的比例。贵州茅台和苏宁云商的负债结构如表3和图2所示。从表3和图2中可以发现: (1) 流动负债占负债总额的绝大部分, 非流动负债占负债总额的比例很小。2004-2012年流动负债占负债总额的平均数, 贵州茅台高达99.92%, 苏宁云商高达97.90%;2004-2012年非流动负债占负债总额的平均数, 贵州茅台仅为0.08%, 苏宁云商仅为2.10%。 (2) 从2004年到2012年, 贵州茅台的负债结构变化很小。在图2中, 贵州茅台流动负债占负债总额比例接近一条直线。除了2012年之外, 苏宁云商负债结构的变化也很小, 流动负债占负债总额比例曲线几乎与横坐标平行。2004-2012年年度报告还显示, 贵州茅台和苏宁云商都没有长期借款。

如表4所示, 在贵州茅台和苏宁云商的流动负债中, 应付款项 (包括应付票据、应付账款和预收账款) 占绝大部分, 而短期借款很少或没有。2004-2012年, 贵州茅台应付款项占流动负债比例年平均为63.50%, 苏宁云商应付款项占流动负债比例年平均为88.22%;贵州茅台没有短期借款, 苏宁云商短期借款占流动负债比例年平均仅为2.35%。在应付款项中, 贵州茅台绝大部分是预收账款, 苏宁云商绝大部分是应付票据和应付账款。2004-2012年, 贵州茅台预收账款占流动负债比例年平均为61.17%, 苏宁云商应付票据和应付账款占流动负债比例年平均分别为51.82%和33.41%。2004-2012年年度报告还显示, 贵州茅台和苏宁云商的应付账款周转次数都较少, 年平均分别为12.4次和11.9次。

三、启示

合理安排资产负债结构, 保持流动性、收益性和风险性的平衡, 是现代企业财务管理中一个十分重要的问题。一般认为, 在资产总额中, 如果流动资产所占的比例较大, 非流动资产所占的比例较小, 那么, 一方面流动性较强, 另一方面收益率较低;在负债总额中, 如果流动负债所占的比例较大, 非流动负债所占的比例较小, 那么, 一方面使用资金的成本较低, 另一方面偿债风险较大, 因为流动负债需要在短期内偿还。

显然, 贵州茅台与苏宁云商在资产结构和负债结构安排上的做法, 与一般财务管理理论的要求很不一样, 值得深入探讨: (1) 为什么贵州茅台与苏宁云商都持有大量的流动资产, 包括大量的货币资金?持有大量的流动资产是否会影响公司的盈利能力? (2) 为什么贵州茅台与苏宁云商的负债绝大部分都是流动负债, 长期负债很少或者没有?很高的流动负债是否会导致很大的财务风险? (3) 从理论上讲, “不规范”的商业信用的融资成本高于“规范”的银行信用, 但为什么贵州茅台与苏宁云商都偏好商业信用, 而远离银行信用? (4) 应收账款周转次数大、应付账款周转次数小意味着提供的商业信用少和接受的商业信用多, 为什么贵州茅台与苏宁云商都这样做呢?通过深入思考上述问题, 可以得到很多启示。

第一, 大量持有流动资产 (包括大量的货币资金) 并不一定会影响公司的盈利能力。贵州茅台与苏宁云商流动资产占资产总额的比例相差无几, 但盈利能力却有明显的差异, 见表5。按2004-2012年的年平均数计算, 贵州茅台的每股收益、净资产收益率、资产净利率和销售净利率分别是苏宁云商的5.29倍、1.16倍、2.37倍和11.14倍。行业、产品、销售政策、市场地位或议价能力等, 都是影响流动资产持有量的重要因素。贵州茅台与苏宁云商流动资产 (包括货币资金) 持有量多与其在行业中的地位, 以及在供应链中的议价能力具有直接的关系。此外, 茅台酒生产工艺和市场地位的特殊性, 以及预收货款政策, 也决定了贵州茅台流动资产多、货币资金多。

第二, 流动负债多并不一定意味着财务风险大。根据流动负债的多少或流动比率的大小衡量财务风险具有很大的片面性, 流动资产结构和流动负债结构对财务风险具有直接影响。现金储备多、资金周转快、盈利能力强是财务风险的“防火墙”。相对于银行借款, 商业信用的财务风险较小。贵州茅台与苏宁云商大量持有现金, 而很少向银行借款, 是一种防范风险的财务策略。

第三, 在投资收益率大于借款利率的情况下, 使用银行借款可以增加收益总额, 提高每股收益, 有助于实现股东价值最大化。而且, 使用银行借款具有税盾效应, 还可以限制经理人员自由支配的现金流, 从而减轻公司中的代理问题, 降低代理成本。凭借规模、经济实力、社会影响力和声誉, 贵州茅台和苏宁云商要取得银行借款应该是很容易的, 但为什么都不使用或很少使用银行借款, 而使用应付票据、应付账款和预收账款呢?对此, 可能的原因有: (1) 对于贵州茅台、苏宁云商等强势企业而言, 使用商业信用比使用银行信用更便利, 成本更低, 风险更小。使用供应商和客户资金的“类金融”模式比使用银行借款更能获得竞争优势。 (2) 公司的资金需求可以通过商业信用和发行股票来满足, 不需要向银行贷款。但这与优序融资理论, 即按照“内部自有资金融资—债务融资—股权融资”的顺序融资不一致。 (3) 贵州茅台和苏宁云商不存在严重的代理问题, 不需要通过银行借款来降低代理成本。 (4) 对于贵州茅台和苏宁云商的管理层而言, 银行借款带来的激励与产生的风险不对称, 因而不愿意利用银行借款。

并列成分中心语语义相似性考察 篇4

并列成分中心语语义相似性考察

本文基于中文概念词典CCD,从<人民日报>语料中抽取了2101个名词性并列结构,对并列成分中心语的语义相似性进行了定量考察.结果表明,90%的并列结构的并列成分中心语的语义类是相同的,而有10%的`并列结构其并列成分中心语的语义类不同.并列成分中心语在绝大多数情况下呈现出语义相似性,少数情况下呈现出语义相关性.并列成分中心语语义相似是一种客观存在,这提供了一个很好的视角来观察词语之间的语义距离.并列成分中心语语义相似这一特性将帮助计算机自动识别出文本中的名词性并列结构.

作 者:吴云芳 Wu, Yunfang  作者单位:北京大学 刊 名:当代语言学  PKU CSSCI英文刊名:CONTEMPORARY LINGUISTICS 年,卷(期): 7(4) 分类号:H0 关键词:并列结构   并列成分   语义类   语义相似   语义相关  

结构相似性 篇5

关键词:XML文档,DOM解析,路径特征,结构相似性,评价指标

0 引言

可扩展标记语言XML作为互联网上一种信息表示和交换的标准,蕴含了大量的信息,对XML文档进行数据挖掘在许多数据应用领域(如信息检索、数据集成、文档分类和查询处理[1]等)起着重要作用并已成为研究热点。相似度计算是XML文档挖掘的关键,其精确程度将直接影响到最终的处理结果。由于XML文档的逻辑结构(元素、边的从属和嵌套关系等)能够在很大程度上体现该文档所蕴含的信息,因此可通过XML文档的结构特征来进行相似度的计算。但在计算过程中如何充分利用这些结构信息,以提高相似度计算的有效性,仍是目前面临的一个主要问题。所以,寻求一种基于结构特征的更加合理有效的相似度计算方法显得十分必要。

现有基于结构的XML文档相似性度量方法主要从元素、边集及路径等来进行考虑。利用XML文档中的最小构件元素进行相似度的计算,是以两个文档中公共元素占所有元素的比值大小[2]来决定相似性的,该方法较少反映XML文档的结构信息,过于简单,因此精确度不高。Lian W[3]等通过结构图来表示XML文档,并以边匹配方式(两个文档中相同边数占其中较大边数的比值)来确定的相似性,该方法同样丢失了较多结构信息,准确度也不高。Zhang K[4]等在Tai K C[5]的基础上通过指定插入删除等部分编辑操作的代价,提高了执行效率,但其编辑操作代价的确定对不同的数据集合缺乏普适性。Joshi S[6]等提出的树路径模型与树编辑距离相比更为简单,利用树路径计算相似度,时间复杂度有了明显降低,但该方法是以完全匹配方式来对路径序列进行匹配,不能在非完全匹配时更精确的描述路径间的相似性。Leung H[7]和杨厚群[8]等通过找出XML文档的频繁路径来对其进行聚类,但其最小支持度大小通常需要通过多次实验得出,难以设定。朴勇[9]等提出了一种带有位置权重的基于树路径的XML文档结构相似度计算方法,对属于不同DTD的XML文档取得了较好的聚类效果,但其没有考虑路径位置和频率对相似度的影响。廖浩伟[10]等提出了一种基于树路径匹配的网页结构相似度算法,该算法对结构差异性较小的文档能够较好地进行区分,但其相似度计算过程未考虑节点位置和路径频率对相似度的影响,同样忽略了部分结构信息。

本文针对上述相似度计算方法的不足,基于扩展的树路径模型,充分利用提取的路径特征,对文献[10]中提到的树路径序列和位置相似度进行了改进,并将路径频率作为路径相似度的一部分,以三者的加权和作为整个路径的相似度,提出了一种更符合实际的基于路径特征的XML文档结构相似性度量方法SSPF。通过K-means算法进行聚类,并与文献[10]及传统路径相似度计算方法进行比较,实验结果验证了该方法的有效性。

1 XML文档预处理

1.1 XML文档解析

XML文档解析是指通过对XML文档按从头到尾的顺序进行分析,以提取其中的结构信息的操作[11]。本文对XML文档的解析采用的是文档对象模型DOM方式,它是将整篇XML文档以树状结构一次性解析并读入内存,保存为一个对象供用户访问,较为灵活。

例如对于图1(a)所示的XML文档,经过DOM解析,在计算机内存中将生成该文档的DOM解析树,如图1(b)所示。

1.2 路径特征提取

本文提出的相似度计算方法涉及到路径的序列、位置和频率信息,因此需要首先根据树路径模型对路径特征进行提取。

定义1(树路径模型)DTPath Model=(f,v1v2…vn,t1t2…tf)。其中(v1,v2,…,vn)为DOM树中某一路径从根节点到叶子节点所经历的所有标签节点的序列,f为该路径在整个DOM树中出现的次数,(t1,t2,…,tf)表示这f次出现的相对位置,也就是将叶子节点从左到右依次进行排序,该序号即为树路径在DOM树中的位置。

基于该树路径模型的路径特征提取可将每个XML文档重新表示为一个树路径的集合。该模型去除了重复路径,在不丢失结构信息的情况下,能够有效减小路径集合的规模。

2 基于路径特征的相似性度量方法SSPF

基于路径特征的XML文档结构相似性度量本质上是路径相似度的计算。为了能更充分地反映文档结构特征,本文提出的SSPF相似度计算方法的路径相似度分为序列相似度、位置相似度和频率相似度三部分。传统路径相似度计算方法中的路径相似性及文献[10]中的序列相似性都仅仅是以最长公共子序列长度与路径间最长路径长度的比值来计算的,而本文序列相似度考虑了节点位置权重对序列相似度的影响,并对计算公式进行了重新定义。而在计算位置相似度时,文献[10]是将位置和频率合在一起考虑,这样不利于真正位置相似度的计算,因此本文将其分离,然后重新定义了新的位置相似度的计算公式,并提出了路径频率相似度,而路径相似度则为三者的加权和。

定义2(序列相似度)设树路径Pi=(fi,vi1vi2…vim,ti1ti2…tifi),Pj=(fj,vj1vj2…vjn,tj1tj2…tjfj),Pi、Pj的最长公共子序列LCS=(v1,v2,…,vk),LCS中各节点对应于树路径Pi、Pj中的下标序列分别为(l1,l2,…,lk)和(h1,h2,…,hk),则树路径Pi、Pj的序列相似度计算公式为:

式中,k为最长公共子序列的长度,max(m,n)表示取Pi、Pj中路径较长者,wi表示路径序列中相应节点的位置权重,其详细说明参见定义3。

定义3(节点位置权重)设i表示树路径中节点在DOM树中所处的层次位置,则节点位置权重函数定义如下:

从中可以看出,wi随i值的增大而减小,且具有如下性质:

在计算路径序列相似度时,之所以引入节点位置权重,而不是简单的通过最长公共子序列的长度与最长路径长度的比值来计算,是因为处于不同层次的节点对DOM树结构的重要程度不同,高层节点较低层节点对XML文档结构相似性的影响更大。例如,对路径序列P1=(a,b,c,d)、P2=(a,b,x)和P3=(a,y,b),虽然P2、P3同P1的最长公共子序列均为(a,b),但实际P2与P1的相似度较P3与P1的相似度要更高。

定义4(位置相似度)设树路径Pi=(fi,vi1vi2…vim,ti1ti2…tifi),Pj=(fj,vj1vj2…vjn,tj1tj2…tjfj),则Pi、Pj的位置相似度计算公式如下:

式中,d(tik)表示路径Pi在tik位置处同路径Pj间的最近距离,d(tjk)同理,其用公式表示[10]为:

设dni、dnj表示路径Pi、Pj所属DOM树中各自总的叶节点个数,即树路径位置编号的最大值,则dn、dni的计算公式为:

定义5(频率相似度)若树路径Pi和Pj在各自DOM树中的频率(出现次数)分别为fi和fj,则路径Pi和Pj的频率相似度计算公式定义为:

路径频率作为路径特征的一部分,理应对树路径相似度有所贡献。对于属于不同类型的文档,若二者的频率(出现次数)相近,其频率之比反而较大,这种偶然因素有可能违背本文提出频率相似度的初衷。因此式(7)对频率相似度的定义不是单纯的频率之比,而是通过引入文档路径总数dni来尽可能地使频率相似度更加准确,对最终路径相似度的计算有所帮助。而上述定义是基于本文认为属于同一类别文档的路径数目差别不大(相近的可能性更大),而不同类型间文档的路径条数出现较大差异的可能性越大;同时频率相似度能够在一定程度上反映出树路径在DOM树中出现的频次是否一致。频率相似度大(出现次数较接近),说明两条路径更可能属于同一类DOM树;反之,频率相似度小(出现次数差别较大),则说明两条路径归于同一类DOM树的可能性越小。

定义6(路径相似度)基于上述定义,若树路径P1与P2的序列、位置和频率相似度分别为ss、sp和sf,则P1、P2的路径相似度表示为:

其中,系数u、v以及(1-u-v)分别为路径序列、位置和频率相似度的权重,通过动态调节u、v的值,可以改变这三部分在整个路径相似性中的重要程度,系数u、v满足0≤u、v≤1,0≤u+v≤1。

在树路径相似度的基础上,XML文档结构相似度可通过最大路径相似度来计算。

定义7(文档相似度)给定两个XML文档doc1、doc2,其树路径集合XMLDTPS1=(P1,P2,…,Pm)、XMLDTPS2=(P1,P2,…,Pn),且n≤m。将XMLDTPS1和XMLDTPS2中的每条路径两两匹配进行路径相似度的计算,从而得到一个最大路径相似度的集合Smax=(S1,S2,…,Sn),则文档doc1和doc2的结构相似度[9]可表示为:

定义8(相似度矩阵)在对XML文档集进行聚类挖掘时,相似度矩阵将作为度量类间距离的依据。若有n个XML文档需要进行相似度的计算,根据前面定义的相似度计算方法,计算所有XML文档间的相似度,其结果可保存为一个n×n的矩阵,该矩阵即被称为相似度矩阵,表示如下:

其中,aij=simdoc(doci,docj),表示文档i与文档j的相似度值,且aij∈[0,1]。该矩阵是一个对称矩阵,即aij=aji,且主对角线元素均为1。

3 SSPF方法流程及描述

3.1 方法流程

XML文档结构相似度计算的算法流程如图2所示。

3.2 过程描述

输入:XML文档集{doc1,doc2,…,docn}

输出:相似度矩阵similarity matrixn×n

(1)对输入的XML文档集中的元素进行预处理(包括单词大小写统一,根据Word Net同义词集进行语义消岐等),并通过XML文档解析模块将其解析为DOM树模型;

(2)根据DOM树提取XML文档的路径序列、位置和频率特征,构造树路径集合XMLDTPS。//通过DOM树的叶子节点进行提取

(3)根据提取的路径特征求XML文档间的相似度:

4 实验结果与分析

为了验证本文所提SSPF相似度计算方法的有效性,采用C++语言进行了编程实现。实验用的PC机配置为CPU2.1 GHz,2 GB内存,160 GB硬盘,Windows XP操作系统,仿真平台为Visual Studio 2008和matlab 7.11。

实验数据来自两个不同的数据集,其中一个为现实生活中真实的数据集Texas[12],包括automobile、movie、reference和software 4个类别,共有20个不同网站的101个XML文档。其中automobile、movie和software各20个,reference有41个。另外一个数据集为美国威斯康星大学用于XML检索研究的NIAGA-RA[13]数据集,本实验从中选取xml-movies类别的25个XML文档,作为第一个实验数据集的补充。

4.1 相似度比较

好的相似度计算方法应该使属于同一类别文档之间的相似度尽可能大,但同时也能在一定程度上反映出同类型文档间的细微差别。为了验证本文所提相似度计算方法SSPF(u=v=1/3)在改善XML文档相似度计算上的效果,与传统树路径方法和本文所改进的文献[10]中的方法进行比较,相似度计算结果如表1所列。表中C1至C5分别对应实验数据集中的automobile、movie、reference、software和xml-movies这5个类别。其中,每个类别下的相似度为该类别中所有文档间相似度的平均值。

从表1可以看出,对于C1-C4这几个类别,传统树路径方法所得的相似度计算结果均不是很高,而文献[10]中的方法和本文改进的SSPF方法对这4类各自的相似度计算结果均有所提高,其中SSPF方法更甚,这说明本文提出的SSPF方法能在一定程度上使原本属于同一类别文档之间的相似度尽可能的大。同时可以看到,对于C5类别,传统树路径方法的相似度计算结果较大,这与其对C1-C4的计算结果形成了较大的反差。通过对C5类别中XML文档的分析发现,该类别中文档的结构差异性非常之小(路径序列基本一致),其文档间的差异性主要体现在路径位置和频率上,因此采用仅基于路径序列来计算相似度地传统树路径方法,计算出的相似度值自然很高,但却不能很好地体现文档间在路径位置和频率上的差异。正是由于以上原因,文献[10]加入了位置相似度,而本文改进的SSPF方法在优化序列和位置相似度的基础上,又加入了频率相似度的计算,使得相似度计算结果能更加真实地反映XML文档间的实际相似性。

4.2 聚类分析

在相似度计算的基础上,本文采用K-means聚类算法进行聚类,然后以信息检索中常用的准确率、召回率和F1测度来对实验结果进行评价,评价指标的计算公式如下:

其中,A为正确聚类的文档数,B为属于不同类但被聚到一起的文档数,C为属于同一类但未被聚到一起的文档数。

由式(8)可知,当u、v取不同的值时,SSPF方法得到的相似度结果会有所不同,值越大,其所对应的子相似度对整个路径相似度的影响就越大。为了测试每个子相似度在整个路径相似度中所起的作用,下面分别对u、v赋予不同的值,每一种取值都对应一种新的SSPF方法。当u=0.8,v=0.1时,记为方法SSPF-1;当u=v=0.5时,记为方法SSPF-2;当u=v=1/3时,记为方法SPFS-3;当u=0.1,v=0.8时,记为方法SPFS-4;当u=v=0.1时,记为方法SPFS-5。上述方法与文献[10]中的方法在聚类的准确率、召回率和F1测度的比较分别如图3至图5所示。

上述实验结果是通过多次随机选取初始聚类中心,找出效果最好的3次,对这3次聚类的准确率、召回率和F1测度分别求平均值得到的。从中可以看出,方法SSPF-1(u=0.8,v=0.1)和方法SSPF-2(u=v=0.5)在聚类的召回率、准确率和F1测度上均优于文献[10]中的方法。即当为序列相似度、位置相似度和频率相似度赋予合适的权重时,SSPF方法具有较好的聚类效果。这也正验证了SSPF方法与文献[10]的方法相比,因为考虑了节点位置权重,优化了序列、位置相似度的定义,并引入了频率相似度,从而更能反映XML文档的结构特征,使得相似度计算方法更为合理。而方法SSPF-3(u=v=1/3)、方法SSPF-4(u=0.1,v=0.8)和方法SSPF-5(u=v=0.1)的聚类效果较文献[10]中的方法有了明显的降低。分析发现,随着u取值的减小,其对应方法的聚类效果也越来越差。这是因为本文基于路径特征的XML文档结构相似度计算是建立在路径序列基础之上的,路径的位置和频率相似度则是作为路径序列相似度的补充,从而保证相似度的计算结果更为精确合理。因此在相似度计算过程中,必须保证以序列相似度作为整个路径相似度的主体,否则计算出的相似度值将产生较大失真,从而影响聚类效果。另外,从图5中可以看出,在不同方法下某些类别的召回率相对较低(如C4),这是因为同一类XML文档可能来自不同的DTD,对于同一事物的表示可能有多种方法。例如,在C4所代表的software类别中,software和component都用来表示“软件”,但在Word Net中这二者不属于同义词,而本文在对XML文档进行预处理时,是以Word Net所提供的同义词集为基础的,从而导致某些在语义上相似的标签序列无法匹配,使召回率降低。而C5类由于结构形式较统一,因此召回率相对较高。

5 结语

结构相似性 篇6

RDF (Resource Description Framework) 资源描述框架用于表达资源的元数据信息, 如页面标题、作者、摘要、修改时间等, RDF已经成为W3C的推荐标准。RDF数据有两种表述方式, 一种是使用元组的形式<subject, predicate, object>, 该元组表示主语 (subject) 属性 (predicate) 的值是 (object) ;第二种表示形式是使用图的模式表示, 每一个subject和object都是图中的顶点, 而predicate表示由subject指向object的有向边[1]。

目前对高性能的单机RDF数据管理系统, 如Sesame、Jena、3store和RDFSuite等的研究已经取得了很大的进步, 这些系统在处理数百万甚至数十亿的元组上都有很高的性能, 但随着RDF数据量规模的不断扩大, 将整个数据集存储在单个机器上并要达到很高的访问性能已经不可能。因此, 对RDF数据采用分布式组织存储, 建立高效分布式的RDF数据库处理系统变得越来越重要[2]。实现RDF数据的分布式存储需要解决的关键问题是根据某种策略对RDF数据进行分割。由于RDF数据实质是一个有向连接图, 因此本文利用P-Rank (Penetrating Rank) 基于结构的节点相似度度量方式计算图结点间的相似度, 使用AP聚类算法对度量结果进行聚类, 完成RDF数据的有效分割。

1 基于RDF有向图节点相似性度量

P-Rank是一种在有向图中非常有效的相似性度量方法。该方法是针对Sim Rank相似度过分依赖入邻点结构的不足, 由Zhao等人[3]在Sim Rank[4]基础上提出了P-Rank模型, 当前P-Rank己成为一种重要的结构相似度模型, 广泛地应用在协同过滤、网络图聚类、KNN查询等数掘挖掘领域。

P-Rank的基本思想包含两重含义:

①如果两个对象被相似对象引用, 那么这两个对象相似。

②如果两个对象引用了相似的对象, 则这两个对象相似。

设给定图G (V, E) , V表示节点的集合, E表示边的集合。对于任意节点v∈V, 用I (v) 表示对象v的入邻接点集合, O (v) 表示对象v的出邻接点集合。|I (v) |和|O (v) |分别表示I (v) 和O (v) 集合中元素的个数。s (u, v) 表示任意两点u, v∈V之间P-Rank相似度, 则:

其中, λ∈[0, 1]表示权重系数, Cin与Cout∈ (0, 1) 分别表示入边和出边的阻尼因子。I (u) 或I (v) =φ时, 入度部分为0;O (u) 或O (v) =φ时, 出度部分为0;I (u) 或I (v) =φ、并且O (u) 或O (v) =φ, 则s (u, v) =0。

P-Rank的“不动点迭代”采用如下迭代方法:

当迭代次数k=1, 2, …时, 有:

这里, sk+1 (u, v) 表示对象u, v之间在第k+1次迭代时的P-Rank相似度。当k→#时, 时, 迭代序列{sk (u, v) }以单调递减的方式趋向于P-Rank的精确解s (u, v) 。

2 AP聚类算法

聚类分析是数据挖掘领域的一个重要研究内容, 用来发现数据内在结构。聚类是将数据集合划分成多个类簇, 同一类簇中的数据具有较高的相似度, 不同类簇的数据之间具有最大程度的差异性。

为了能够更好地发现RDF图中的潜在结构, 本文选择一种高效的信息传递算法 (Afinity Propagation clustering, 简称AP聚类) 对RDF图进行聚类。信息传递聚类算法是一种基于信息传递的高效聚类算法, 是由Frey和Dueck在2007年发表《Science》上提出的[5]。AP聚类通过在图中的顶点之间进行信息传递来发现最优聚类中心的集合, 满足所有顶点到最近的聚类中心的相似度之和最大。

2.1 AP聚类算法相关定义

①聚类中心:数据集中各个簇的中心点, AP聚类算法的目标使得簇中的所有节点与聚类中心点的相似度之和最大。

②偏向参数p:相似度矩阵S对角线上的值s (i, i) , 表示节点i被选择聚类中心的倾向性。偏向参数越大, 表示节点i作为聚类中心的可能性就越大。因为初始时, AP聚类算法将每一个节点都看做是潜在的聚类中心, 因此所有节点具有相同的p值。通常情况下, p值越大, 聚类输出的簇数越多, 反之越小。

③吸引度r (vi, vj) :表示节点vj适合作为顶点vi的聚类中心的程度。N个节点两两之间的吸引度组成N×N维矩阵R。

④归属度a (vi, vj) :表示节点vi选择顶点vj作为其聚类中心的适合程度。N个节点两两之间的归属度组成N×N维矩阵A。

⑤阻尼因子:为避免振荡引入的一个重要参数lam, 当AP聚类算法发生振荡而不能收敛时, 增大lam可以消除振荡, 收敛算法[6]。

2.2 AP聚类的基本思想

AP算法通过迭代过程不断更新每一个点的吸引度r (vi, vj) 和归属度a (vi, vj) 。其中:

吸引度矩阵Ri和归属度矩阵Ai更新的结果都是由迭代过程中当前的Ri和Ai与上一步迭代值Ri-1和Ai-1通过阻尼因子lam进行加权得到。加权公式为:

3 实验分析

3.1 数据集

本文选择数据集DBLP作为实验数据, 数据集中包括2555篇文章和6101个引用关系[7], 文章的标题、发表时间、期刊名称和作者。数据集涉及计算机领域中的10个方向, 通过对数据的处理, 形成10个RDF有向图, 有向图中顶点数和边数如表1所示。

3.2 实验环境

选择实验环境为:Inter i3处理器, 4GB内存, Windows XP操作系统, MATLABR2009a编程环境。

3.3 实验分析

为验证P-Rank算法度量有向图节点相似性对聚类效果的性能影响, 文中将P-Rank算法同Sim Rank算法进行对比, 实验中算法权重系数λ的值是0.5, 阻尼因子C的值是0.8。为比较两种度量方法, 文中分别从聚类压缩比和聚类数目两个方面衡量聚类效果。

设两个节点间u, v∈G的结构距离为d (u, v)

其中, sf (u, v) 表示由P-Rank算法或Sim Rank算法产生两个节点之间的相似度。

其中, K表示产生的聚类个数, Ci表示第i个类, mi, mj分别表示类i和类j的聚类中心, 公式 (9) 分子表示类内距离, 分母表示类间距离。

图1表示使用P-Rank和Sim Rank聚类后的压缩比, 从图中可以看出P-Rank使聚类产生更大的压缩比, 其原因主要是①P-Rank从入度和出度两种信息传递方式计算节点相似度。②Sim Rank只根据节点入度度量相似性, 只度量了图中的一部分顶点对, 即在Sim Rank中不相似的顶点有可能在P-Rank中是相似的, 因此P-Rank的聚类压缩比要比Sim Rank高。

图2描述了分别使用两种不同的算法后产生的聚类数目的差别, 从图中可以看出P-Rank在同样的RDF图上产生的聚类数目相对Sim Rank算法少, 其原因主要由于P-Rank使更多节点间存在相似性, 从而使聚类更集中。

4 结束语

文中使用P-Rank节点相似性度量方法度量RDF有向图节点之间的相似性, 实现利用AP聚类算法对RDF有向图进行聚类分割。实验表明, P-Rank算法能够有效地完成RDF数据的分割, 使得类间相似度较小, 而类内相似度较大。

参考文献

[1]汪锦岭, 金蓓弘, 李京.一种高效的RDF图模式匹配算法[J].计算机研究与发展, 2005, 42 (10) :1763-1770.

[2]杜方, 陈跃国, 杜小勇.RDF数据查询处理技术综述[J].软件学报, 2013, 24 (6) :1222-1241.

[3]Zhao P, Han J, Sun Y.P-rank:A comprehensive structural similarity measure over information networks[C]∥International Conference on Information and Knowledge Management, 2009:553-562.

[4]Jeh G, Widom J.Sim Rank:a measure of structural-context similarity[C]∥Proceedings of the eighth ACM SIGKDD conference (KDD’02) , 2002:538-543.

[5]Frey B, Dueck D.Clustering by passing messages between data points[J].Science, 2007, 315 (5814) :972-976.

[6]朱牧, 孟凡荣, 周勇.基于仿射传播的有向网络聚类算法[J].计算机应用研究, 2013, 30 (7) :1950-1952.

结构相似性 篇7

一、文献回顾

产业结构相似性, 在很多文献中与“产业结构同构性”含义相同, 笔者认为二者没有太大区别, 但与“产业结构趋同”这一概念是有区别的。“产业结构相似性”和“产业结构同构性”都是从静态的角度来考察某一地区或两地区之间产业结构现状的, 而“产业结构趋同”则是从动态的角度来考察[1]。本文中“产业结构相似性”则既包含了静态分析又有对该地区产业结构的动态分析。我国学者在产业结构相似性研究方面起步于20世纪90年代初, 而且对该问题的主流观点发生了转变。最初的学者对产业结构相似性多持消极意见, 把产业结构相似性看做是区域经济发展的瓶颈, 如:李荣国、陈君 (2000) [2]认为, 地方利益、宏观调控不利等非市场原因导致了产业结构趋同, 抵消了宏观效应发挥;韩宝江 (2001) [3]认为, 产业结构趋同导致生产能力闲置、产品过度竞争、阻碍技术升级等。

后来, 许多学者将目光投向产业结构相似性的合理成分上:陈耀 (1998) [4]指出, 产业结构趋同不仅具有非合意性, 而且具有合意性。非合意性趋同指与区域化分工相背离的倾向;合意性趋同主要指围绕专业化部门区域经济综合发展倾向。陈建军 (2004) [5]在分析长三角各次区域产业结构趋同的原因时提出长三角内部产业结构趋同有其必然性, 我们应当重视的是产业同构反映出来的制度问题。将产业结构相似性运用于分析泛珠三角地区的研究尚不多见, 且大部分处于实证分析阶段。左证 (2006) [6]对泛珠九省区的产业结构进行分类与比较, 运用分层聚类分析方法对产业结构相似性大小进行聚类计算, 得出划分结果:广东、福建为第一类;海南为第二类;云南与其他5省区为第三类。即云、贵、川、湘、赣、黔产业结构相似性较大。廖春花和明庆忠 (2006) [7]对云南省参与泛珠区域经济合作所需要进行的产业结构调整进行了初步探索, 提出云南省与泛珠其他区域产业结构趋同是云南当前产业结构存在的主要问题, 其中, 趋同产业包括能源、有色金属、机械、矿产、旅游等。张银银、闵晓莹 (2007) [8]在制造业层面分析了我国西南地区与东盟国家产业结构相似性, 得出我国西南地区与东盟三次产业相似度较高而制造业层面相似度偏低, 具有互补性的结论。

虽然我国学者对于产业结构的研究已有很大进展, 但在某些问题上还有些不足:首先, 产业结构相似性测度方法不同, 所得结果也不同, 有的认为相似程度高, 有的认为相似程度较低, 所得结论个人主观性较强;其次, 对于产业结构相似性程度较高产生的原因, 主流观点是包含了体制内 (即政府) 因素和体制外 (即市场) 因素, 但这两种因素分别在多大程度上影响产业结构的相似性并没有详细的论述。而对于云南与泛珠三角其他省区的产业结构相似性大多停留在定性分析上, 且不够全面。本文尝试从产业结构相似性角度分析云南与泛珠三角其他省区的区域经济合作基础, 剖析其相似性形成原因, 并以此提出相关建议。

二、云南与泛珠三角区域其他省区产业结构相似性分析

(一) 泛珠三角区域产业结构现状

数据来源:国家统计局统计公报

泛珠三角区域陆地面积占全国的20.88%, 人口4.5亿, 占全国的34.8%, GDP总量达到94 327.12, 占全国的31.4%。 (由于香港、澳门两特别行政区经济发展水平远高于内陆大部分省区, 其产业结构也于内陆各省区相去甚远, 本文暂不将其纳入研究范围) 。根据表1, 内地9个省区按产业结构以及发展水平大致可分为三个层次:第一层次是广东和福建两省, 不但经济总量较大, 而且人均GDP均超过3万, 第一产业比重较低, 第二产业比重超过50%, 处于工业化中后期阶段;第二层次是海南省, 虽然人均GDP水平较高, 但经济总量小, 第一产业比重较大, 产业结构水平低, 处于工业化初始阶段;第三层次包括剩下的湘、赣、川、桂、黔、云六省, 除贵州外, 人均GDP都在12 000~17 000之间, 第一产业比重仍然较大, 都在15%~20%之间, 但第三产业均达到42%以上, 进入了工业化中期阶段。

(二) 三次产业变动趋势

数据来源:2005、2006、2007中国统计年鉴

根据统计数据得出泛珠三角区域各省区2005—2007年三次产业结构 (见表2) 。总的来说, 各省区产业结构波动并不明显, 但有些省区仍能看出一些趋势。湖南、四川、广西、江西四省产业结构变化趋势大致相同:第一产业相对稳定, 第二产业有明显上升趋势, 而第三产业有下降趋势, 四省都处于工业化的初、中期, 工业发展迅速, 但第三产业发展速度稍慢。所不同的是湖南、四川两省都是农业大省, 农业生产相对稳定;广西、江西农业发展稍慢, 第一产业所占比重逐年下降。云南、海南产业结构变动趋势相同:第一产业比重持续下降, 第二产业比重持续增加, 第三产业有些波动。两省的工业化都处于起步阶段, 第二产业发展速度有望进一步加快;不同的是:虽然两省都有丰富的旅游资源, 云南的第三产业所占比重远不如海南。海南产业结构调整目标是由三、一、二逐步向三、二、一调整。云南则在现有基础上努力调整提高第二产业, 大力发展第三产业。广东和福建经济发展水平较高, 处于工业化中后期, 第二产业发展稳定, 第三产业迅速发展起来。

(三) 产业结构相似性分析

产业结构相似性的分析方法有很多种, 本文采用相似性系数来衡量。产业结构相似性系数是由联合国工业发展组织 (UNIDO) 国际工业研究中心提出的。所谓相似性系数是指一个地区与另一个地区同种产业结构的相似程度。相似性系数公式为:

在公式中, Xik, Xjk分别表示区域i和区域j产业部门k在产业结构中所占比重, S代表两区域产业结构的相似系数。S=1时, 说明两区域产业结构完全相同;S=0时, 说明两区域产业结构完全不同。通常情况S介于0和1之间, S数值越大, 两个区域产业结构越是相似, S越小, 两区域产业结构越不相似。以表2数据分析云南与其他8省区产业结构相似性系数, 见表3。

从表3中可以看出, 云南与泛珠三角区域内其他省区相似系数非常高, 尤其是湖南、江西、广西、四川、贵州五省, 相似系数都在0.99以上, 广东、福建相似性稍低, 海南最低。广东、福建由于发展水平远高于云南, 产业结构优化程度也较高:第一产业比重低, 第二产业发达, 比重较大, 第三产业比重也在逐年加大。相比之下, 云南第一产业比重较高, 第二产业正处于发展初期, 第三产业虽然比重较高但主要集中在传统的旅游、交通运输、餐饮业, 广东第三产业则集中在信息服务、现代物流、金融、保险等现代服务业。云南与海南相似性系数最低, 主要由于海南第一产业比重远高于云南, 而第二产业又低于云南。海南与云南一样也是处于工业化的起步阶段, 但其产业结构仍处于较低阶段。而其他五省区与云南的相似性系数极高, 他们是处于近似发展水平和发展阶段的区域, 他们的供给和需求结构也具有很高的相似性, 进而形成相近的资源结构、生产函数和需求偏好。因此, 怎样解决云南与这五省产业结构高度相似带来的一系列问题, 将是本文分析的重点。从发展趋势上看, 云南与湖南、广西在原本相似度极高的基础上进一步提高, 使得这三省之间竞争程度更加激烈, 但相似度的提高具体表现在哪些行业还需要进一步在更微观的层面分析。而江西、四川、贵州三省与云南的相似度在逐渐降低, 广东、福建、海南则进一步提高。

三次产业结构相似系数仅反映整体相似度, 不可能指出具体行业和产品的趋同情况, 从而缺乏政策调控的针对性。因此, 本文将从制造业层面进一步分析云南省与泛珠三角区域其他省区的相似性。

从表4中大体可以看出泛珠三角区域内各省区的主要制造业之间的异同。广东、福建、海南三省主要制造业中都有电子信息、服装等轻工业。由于地理位置优越, 三省的制造业都与外贸进出口紧密联系, 从而形成出口导向型的制造业。云南与这三省制造业产业结构相差较大, 而内陆的各省区制造业主要集中在电力、金属冶炼、化学原料、机械等, 产业趋同现象严重。由于区位差、工业基础薄弱, 云南在电力、有色金属、机械方面竞争力明显不如其他省区同类产业。

下面用相对区位商[9]指标进一步分析云南与其他省区的主要制造业相似性。相对区位商公式:

其中a, b分别表示a, b两地区, qai表示a地区第i部门的生产总值, qa表示a地区总产业产值, Lab为两地区的区位商。两区域间所有产业部门的相对区位商用来衡量两个区域之间产业结构的相似程度, 该指标越接近1, 说明两区域之间的产业结构 (就i产业部门的比例而言) 差异越小;该指标越远离1 (有可能大于也有可能小于1) 说明两区域产业结构差异越小。现用云南省制造业产值前五位的产业分析云南与其它省区制造业产业结构相似性, 得出表5如下:

云南省前5位制造业 (以2007年工业增加值为依据) 中, 金属冶炼行业区位商大于0.7小于1.1的有四川、江西、贵州、广西四省, 他们在金属冶炼行业中与云南有较高的相似性, 其中, 贵州、广西、四川三省在地理位置上相近, 使得该行业在我国西南地区趋同现象更为严重。由于云南特有的土壤、气候等自然因素, 烟草业在云南省占有举足轻重的地位, 而其他省区没有如此得天独厚的自然条件, 反应在区位商数据中就是其他省区与云南省在烟草行业中的区位商偏低, 最高的是贵州的0.296892, 还不到0.3, 因而烟草业在泛珠三角区内相似性并不明显。和烟草业正好相反电力热力行业区位商数据普遍偏高, 最低的是江西的0.597512, 其他省区都在0.6以上, 四川省的数据更是高达0.979784。而贵州的数据为1.98246, 与云南的相似性不高, 主要是由于贵州电力行业占该省工业总产值中比重远高于云南。由此可见, 电力热力行业在泛珠三角区域各省中相似性程度都很高。化工行业数据中福建与海南相似性较低, 四川、贵州的数据表现出的相似性也不是很明显, 其他省区的数据在0.9~1.3之间, 相似性较高。农副产品加工行业中各省数据表现的相似性不高, 只有广东、江西两省相似性较高, 其他省区表现的数据都距1较远。总的来说, 云南主要制造业与其他省区相似性虽然较高, 但与表3中得出的结论比较来说还是较低的, 即三次产业结构相似性较高, 而具体到制造业, 相似性程度有所降低。

三、对策建议

云南省经济在泛珠三角区内处于较低水平, 与广东、福建等发达省区产业结构相似性并不高, 有较强的互补性;与西南部几个省区产业结构相似性较高, 但也要具体分析。

在有关区域经济发展问题的探讨中, 区域间产业同构一直被认为是区域间重复建设和恶性竞争的后果。而实际上, 泛珠三角区的产业相似还有其内在的必然性, 是与区域资源禀赋、经济发展水平、产业结构的演进规律以及政府的体制障碍等因素有着密切的关系。即产业结构相似性既有体制内因素, 又有体制外因素。具体分析如下。

(一) 产业结构的相似性和资源禀赋的相似性有关

泛珠三角地区尤其是西南地区广西、四川、贵州、云南几省的的资源禀赋, 包括自然条件、人文历史背景、文化传统、要素禀赋以及经济发展的初始条件、制约因素都有一定程度上的类似, 由此决定各地政府在选择本地区发展战略和主导产业时, 必然会有相同或类似的选择。因为客观地说, 只有选择吻合本地区资源禀赋和要素结构的发展战略, 才是理性的

(二) 泛珠三角内部产业结构相似与经济发展水平相关

理论表明经济发展水平越接近, 产业结构相似程度越大, 这是因为, 处于近似发展水平和发展阶段的不同区域, 其供给和需求结构必然具有很高的相似性, 进而形成相近的资源结构、生产函数和需求偏好, 因此, 在这些地区, 产业结构必然具有一定的相似性。在泛珠三角区内, 云南与贵州、广西、江西、四川、湖南发展水平相差不大, 贵州稍差, 四川、湖南经济总量较高, 由于西南六省的经济发展水平接近而形成相近的生产函数和需求偏好必然会导致相似的产业结构。

以上两点都是属于体制外因素, 这些因素不可避免地导致产业结构相似性的逐步提高, 但其中的合理成分还是占大部分。

(三) 地方政府对产业结构相似性提高影响因素, 即体制内因素

地方政府为保护税基和财政收入, 不顾经济规模和现有技术条件, 盲目上马一些利润较高的项目, 从而使产业趋同的“囚徒困境”[10]反复出现。政府干扰因素最主要的表现是地方保护主义限制了资源的自由流通、设置了商品交易壁垒。

综上所述, 体制外因素是经济发展过程中由经济发展模式带来的必然产物, 它引起的产业结构相似性提高对经济带来的负面影响有限, 不必过于担心。与此相反, 体制内因素, 即政府因素才是导致区域间产业结构相似性提高产生负面影响的主要原因。其负面影响主要包括:大量生产能力闲置;过度竞争, 影响区域间结构效益;分散生产, 损害了规模效益;加剧了地方保护主义, 限制了区域间要素流动。

为应对体制内因素导致的产业结构相似性提高带来的负面影响, 本文从云南省的角度提出以下建议:

1. 加强地区经济合作

各省政府应当充分发挥协调和宏观调控作用, 加强各省政府之间的经济协作, 协商制定区域性的产业政策以调控产业发展和产业结构的升级, 提升区域产业的整体竞争力。

联合设立区域协调机构。通过与区域内相关城市政府之间的协商机制, 建立云南参与泛珠三角区域发展协调委员会, 联合设立各省共同参与的区域协调机构, 构建发挥协调作用及各利益主体参与的协商机制;推进建设泛珠三角区域产业信息平台, 积极推动产业信息合作, 实现泛珠区域内的产业信息共享, 为泛珠三角经济圈、大产业集群的构建和区域经济互动创造有利条件。

2. 继续推进市场化进程

随着经济改革的推进, 逐步引入市场机制和市场竞争, 并逐步取消对要素流动与商品贸易的限制, 企业逐步成为自主经营的市场主体, 面对激烈市场竞争, 企业势必考虑竞争优势, 其区位选择受成本和利润驱使, 比较优势、集聚经济、产业联系等显著影响企业区位。因此, 随着市场化发展, 产业将越来越集中在具有比较优势以及集聚效应显著的省区, 从而实现基于比较优势的专业化分工。因此随着经济转型, 各省区发挥比较优势, 可能导致资源禀赋相似的省区产业结构趋于一致, 而发展条件差异较大的省区产业结构则不同。对于资源禀赋相似而形成的产业结构相似, 应当由各省政府协商解决, 可以引导适当的符合经济发展规律的产业结构趋同, 但需要避免恶性竞争。

3. 集中发展云南本省优势产业

由于云南本省的资源禀赋优势, 烟草、水电、旅游、花卉、现代医药、矿产等产业竞争力较强。集中发展这些优势产业, 有利于云南参与泛珠三角区的经济分工与合作, 有利于云南产业结构调整升级。

云南与泛珠三角其他省区尤其是西南几省如四川、广西、贵州、湖南产业结构相似性较高, 但从计算结构相似系数得出产业同构严重仅仅只是一种表象, 片面地认为这种同构现象对经济的不利影响的结果还有待探讨。当然不能否认产业同构现象在某种程度上折射出泛珠三角经济在转轨中出现的制度层面的问题, 但解决这一问题的主要手段是积极推进泛珠三角区域经济一体化。

参考文献

[1]王志华.长江三角洲地区制造业同构若干问题研究[D].南京:南京航空航天大学, 2006.

[2]李荣国, 陈君.区域产业结构趋同及发展对策[J].财经问题研究, 2000, (8) :45-48.

[3]韩宝江.走出产业结构趋同的误区[J].领导之友, 2001, (1) :27-28.

[4]陈耀.产业结构趋同的度量及合意性与非合意性[J].中国工业经济, 1998, (4) :37-43.

[5]陈建军.长江三角洲地区的产业同构及产业定位[J].中国工业经济, 2004, (2) :19-26.

[6]左证, 范海英.泛珠三角9省区产业结构的分类与比较[J].暨南学报, 2006, (4) :63-68.

[7]廖春花, 明庆忠.泛珠三角区域合作背景下的云南产业结构调整初探[J].经济问题探索, 2006, (2) :84-88.

[8]张银银, 闵小莹, 李立民.中国西南地区与东盟国家产业结构相似性分析——以制造业为例[J].东南亚纵横, 2007, (7) :16-20.

[9]安虎森.新区域经济学[M]大连:东北财经大学出版社, 2008.

结构相似性 篇8

一、双重谓语与复合谓语的区别

双重谓语与名词性复合谓语的区分可用下列三种方法来处理。

1.删除。含双重谓语结构的句子中的第一谓语 (动词) 具有完整的句法功能和完全的词汇意义, 若去掉句子中的第二谓语, 第一谓语的词汇意义和句法功能不发生变化。试比较:He stood there embarrassed.-He stood there.

这里, 去掉第二谓语embarrassed后, 第一谓语 (动词) stood的谓语功能仍保留, 其词汇意义“站”亦不发生变化。而在含名词性复合谓语结构的句子中, 如果将表语略去, 谓语动词的词汇意义则随之产生变化。

2.替代。在含名词性复合谓语结构的句子中, 联系动词通常可用于另外的连系动词来替代, 其词汇意义不产生变化;而在含双重谓语结构的句子中, 如果将句子中的实义动词换成连系动词, 尽管句子仍然成立, 但原来动词的实际意义且不复存在。试比较:The leave turned yellow. —Theleaves became yellow.

句子中的连系动词turned换成became后, 其意义无变化。因此, 这是一个名词性复合谓语句。

3.分解。双重谓语结构中的第一谓语和第二谓语具有相对的独立性, 而且第二谓语是在主语实施的行为过程中来说明主语的, 因此一般情况下, 我们可以将含双重谓语结构的句子分解成一个由并列连词and连接的并列句, 或一个含有由关系词when引导的状语从句的主从复合句。试比较:My sistermarried very old.=My sister was very old when she was married.

然而含名词性复合谓语结构的句子则不能用上述方法来分解。试比较:Mother looked worried.≠Mother looked andshe was worried.≠When Mother looked, she was worried

二、双重谓语与复合宾语的区别

在语言的实际运用中, 双重谓语与复合宾语具有明显的差异, 但第一谓语为及物动词的双重谓语常常容易与复合宾语混淆。让我们看下面两个例句:

Green left my office crestfallen after our talk.

They had got everything ready for the journey when I cameback.

从句子的形式上看, 上面两个例句都是“动词+宾语+形容词”结构。但认真分析一下, 则不难看出, 他们属于两个不同的语法范畴。前者是双重谓语结构, 而后者则为复合宾语结构。

我们知道, 复合宾语结构中的动词宾语在句子中充当双重角色。语法意义上它作谓语动词的宾语, 逻辑意义上又充作其补足语的逻辑主语。换言之, 其补足语表示的状态、特征等是用来对句子中的宾语进行说明的。如上面所举第二个例句中的ready是说明句子中的宾语everything的状态的。在句子中, ready是句子中宾语everything的补足语, 两者之间构成了逻辑上的主谓关系, 而ready同句子的主语They在逻辑上则无任何联系。

三、双重谓语与“动状”结构的区别

在英语语法中, 所谓“动状”结构可分成下列几类:1.“动词+形容词形副词”结构;2.“动词+分词 (短语) ”结构;3.“动词+介词短语”结构;4.“动词+副词”结构。

上述四种“动状”结构中的“动词+介词短语”结构, 绝大多数情况下都是“动状”结构, 在少数语言实例中也可看成是双重谓语结构。例如:The old man came into the roombreathless.—The old man came into the room out of breath. (用out of breath替代breathless, 意义不变)

而“动词+副词”结构中所说的副词指的是一眼就看得出的副词。由于双重谓语不存在“动词+副词”的现象, 因而我们不可能将这种结构看成双重谓语。这里, 我们主要探讨一下双重谓语与“动词+形容词形副词”结构和“动词+分词 (短语) ”结构的区别方法。

1.双重谓语与“动词+形容词形副词”结构的区别。要想分辨双重谓语与“动词+形容词形副词”结构, 首先需要弄清什么是形容词形副词。弄清了形容词形副词, 便为区别双重谓语与“动词+形容词形副词”结构提供了方便。在语言实例中, 若动词后的词属于形容词形副词, 那么这种句子就是含“动状”结构的句子, 否则, 就可能是含双重谓语结构句。试比较:At the meeting, the dean spoke loud and clear. (“动状”结构, loud和clear是模糊副词) 。此句可变为At themeeting, the dean spoke loudly and clearly.)

2.我们知道, 状语在句子中的位置比较灵活, 可以在句末、句中或句首出现;而双重谓语中的第二谓语则一般放在笫一谓语之后, 有时在描写性语篇中偶尔出现在句首, 但不能放在句中。例如:I came home, exhausted. (这句话为“动状”结构句, 可将过去分词exhausted移到句首或句中, 变成“Exhausted, I came home.”。

I came home exhausted. (双重谓语句, 过去分词exhausted般不能移动)

摘要:双重谓语由两个部分组成 (即第一谓语和第二谓语) , 同时用来说明主语。本文旨在探讨区别双重谓语与“名词性复合谓语”、“复合宾语”、“动状”几种相似结构的方法。

关键词:英语,双重谓语,相似结构

参考文献

[1]Sideny Green Baum, Good English and the Grammar, Longman World Publishing Corp., 1988.

结构相似性 篇9

近年来,由于多输入多输出(Multiple-Input Multiple-Output,MIMO)、正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)等技术的采用,LTE(Long Term Evolution长期演进)网络的数据传输能力比以往3G系统有了很大的提升。同时,智能终端的普及使得无线视频应用,如视频电话、实时视频监控、视频分享等,变得无处不在。然而,由于无线移动信道的易衰弱与时变性,LTE网络下的视频应用的用户体验仍较难以得到保证。而且,LTE上行链路所分配的信道资源往往少于下行链路,因此,LTE上行视频应用中的高码率视频流的可靠传输面临着很大的挑战。

首先,LTE网络上行信道的时变性与易错性使得其所提供的信道带宽是动态变化的,而且会导致视频数据传输过程中误码或视频丢包等情况的出现。此外,压缩后的视频数据在时间上和空间上具有很强的依赖性,一个视频包的错误解码可能会导致后续编码过程中依赖此视频包的视频数据解码错误,从而导致解码传递失真的出现,因此针对提高无线易错传输环境下的视频质量用户体验的研究变得越来越重要。

近年来,针对LTE网络下的视频传输优化,很多研究[1,2,3,4]表明跨层优化能够从全局的角度通过对各协议层资源合理配置,达到传输资源的有效利用,从而提高端到端的视频质量用户体验。文献[1]中,通过跨层优化控制器研究者综合考虑了系统传输容量、视频体验质量以及系统调度资源的公平性等方面,对LTE系统下的视频传输进行了优化取得了较好的性能提升。文献[2]提出了一种动态调整可分层视频数据以适应实时信道带宽变化的跨层优化方案,对基于LTE上行视频传输的健康医疗系统进行了优化。为了进一步提升端到端视频传输的体验质量,研究者们[3,4]将体验质量(Quality of Experience,QoE)引入到了跨层优化设计中。另外,为了抑制传递失真引起的解码视频质量下降,研究者们针对易错传输环境下的容错视频编码算法进行了相关研究[5,6]。文献[5]中,研究者提出了一种基于像素递归的失真估计算法(Recursive Optimal Per-Pixel Estimation,ROPE)的端到端视频失真预测方法,并将预测得到的视频失真引入到了编码端的率失真优化过程中进行易错传输环境下的编码模式选择。在以往的工作[6]中,基于结构相似(Structural SIMilarity,SSIM)[7]的视频失真描述方式被引入到了具有容错的率失真编码过程中以提高解码视频的视觉质量体验,并且对易错传输环境下率失真优化过程中的拉格朗日优化因子进行了自适应调整。

尽管以往的易错传输环境下的视频优化方案能够在一定程度上提高用户视频体验质量,但仍然存在几个值得讨论的问题。首先,以往的视频传输优化方案采用的视频失真描述方案一般都是基于像素失真来计算的,如均方误差(Mean Squared Error,MSE)或者误差平方和(Sum of Squared Error,SSE),这些视频描述方式计算简单且具有明确的物理意义,然而研究表明它们描述的视频失真有时候并不能很好的描述人眼感知到的视觉体验相匹配[8,9]。虽然QoE能够很好的描述视频应用中的人眼视觉体验,但它很难被客观刻画,而且往往需要很多的先验知识来对其进行描述。最近,研究者们提出了几种新的视频失真描述方法,其中SSIM具有计算简单且能够很好的与人眼视觉体验相匹配而被广泛应用和研究。此外,以往的跨层传输优化虽然能够通过综合的配置各个协议层的参数以保证传输资源的有效利用和视频传输的可靠性,但视频传输丢包只能够尽量降低,并不能够完全被抑制,因此,当出现视频丢包时,需要将容错编码引入到视频编码过程中以抑制传递失真对解码视频质量的影响,然而以往的跨层优化视频传输方案并没有考虑这一点。

本文中,针对实时的LTE上行视频传输应用,提出了一种具有传递差错抑制的跨层优化方案,优化过程中利用SSIM来预测端到端的视频失真以使得接收端的视频能够保持更多的结构信息,从而提高视觉体验质量。本文提出的跨层优化算法通过对LTE上行物理层的调制编码模式以及视频编码应用层的量化参数进行跨层配置,使得编码视频数据能够很好地匹配当前的物理信道,从而提高视频包传输的可靠性、降低视频丢包。同时,将具有差错传递抑制的率失真优化引入到跨层优化过程中来,对视频编码过程中每个编码宏块的编码模式进行选择,从而增强传输视频数据的容错性。

2 具有传递差错抑制的跨层优化方案

实时的LTE上行视频应用中,由于从用户(UE)到基站(eNodeB)这段链路具有带宽受限且信道状态动态变化的特点,使得其成为了整条视频传输链路的瓶颈所在。因此,在本文中我们主要针对UE到eNodeB这段链路的视频传输质量提出了优化方案。如图1所示,物理层的传输链路适配如调制编码模式(Modulation and Coding Scheme,MCS)的选择,以及应用层视频数据的自适应调整如视频码率、宏块的编码模式根据信道的动态变化进行了相关的跨层优化。视频上行发送端的跨层优化过程需要接收端的一些反馈信息的帮助,其中主要包括以往发送视频包是否正确接收的信息、信道的链路状态等,这些信息可以帮助视频发送端实时的追踪解码端的传递差错,利于预测端到端的视频失真,从而为视频发送端的跨层优化提供依据。

2.1 上行链路适配

不同的调制编码模式(Modulation and Coding Scheme,MCS)会使得传输链路具有不同的传输能力和容错能力。LTE上行传输链路中,共有15个备选MCS模式,在数据传输过程中,UE端所采用的MCS模式往往由eNodeB端利用信道侦测技术来选择。基于时域和频域的划分,上行信道频段被分为很多独立的资源块(Resource Block,RB),每个资源块时域上占用一个时隙(0.5ms),频域上占用12个子载波(180kHz)。通常情况下,每个资源块运载数据过程中所采用的MCS模式是通过使得资源块的丢块率(BLock Error Rate,BLER)小于10%来选择的。

已有研究表明[10],对于MCS模式m所运载的资源块的丢块率BLERm(SINR)可根据当前信道的信号干扰噪声比(Signal Interference Noise Ratio,SINR)SINR预测得到如公式(1)所示。

其中erfc(·)是余误差函数,b(m)和c(m)分别为余误差函数的转变中心和转变宽度。b(m)和c(m)的值可以通过对建模丢块公式1趋近真实的信道状态和丢包状态得到。在本文中,我们利用LTE链路仿真器[11]对加性高斯白噪声(Additive white Gaussion Noise,A WGN)的LTE上行信道进行了仿真,15个MCS模式的BLER-SINR曲线如图2所示,相应的建模得到的b(m)和c(m)值如表1所示。

注:从左往右依次为MCS模式1-15

LTE上行视频传输过程中,一个视频条带(slice)会在应用层打包为一个视频包,每个视频包的数据都共享一个解码同步标志,而在物理层一个视频包往往会占用几个资源块,一个资源块的丢失往往会导致整个视频包的不正确解码。定义sn,i为第n帧视频中的第i个视频条带,则对于由MCS模式m运载的视频条带sn,i,其所在视频包的丢包率pn,i(m)可有其占用的所有资源块的丢块率计算得到,如公式(2)所示。

其中,Bnum为当前视频包所占用的资源块数目,BLERkm(SANR)为第k个资源块的丢块率。由此可见为了保证上行视频传输应用的视频质量体验,跨层传输优化过程中应选择合理的MCS模式以保证传输视频包的可靠传输。

2.2 应用层视频数据调整

在不同的信道状态下,LTE上行链路的传输能力根据所选择的MCS模式不同会动态变化,因此,为了充分利用上行链路所提供的带宽以及保证视频数据能够及时传送到接收端,传输视频码率需要进行相应的动态调整。我们已知,通常情况下的视频压缩是有损压缩,不同的量化参数(Quantization Parameter,QP)会编码出具有不同码率和质量的视频流,较大的量化参数一般会编码出具有较小码率但量化失真较大的视频流。在本文提出的跨层优化方案中,每个视频包的量化参数会根据当前信道能够提供的信道带宽以及当前视频内容的特性进行动态调整,以使得压缩后的视频流能够实时的传送到接收端的同时,充分利用上行链路的运载能力,减少过度压缩带来的量化失真对接收端视频质量的影响。

此外,压缩后的视频数据在时域上和空间域上具有很强的相关性。一个视频包的丢失与不正确解码,往往会引起后续的参考其解码的视频包的解码错误。为了抑制这种传递差错带来的解码视频质量的下降,本文中,将基于结构相似的具有容错特性的率失真优化编码引入到应用层的视频编码过程中,针对每个编码宏块(Macroblock,MB)选择最优的能够均衡端到端失真和编码码率的编码模式。

3 跨层优化建模与解决方案

针对视频条带sn,i,视频发送端的跨层控制器根据动态变化的信道状况对传输视频包的MCS模式Mn,i以及量化参数Qn,i进行自适应调整,以保证视频包的可靠传输以及对LTE上行链路所提供的带宽资源充分利用,从而达到在最大传输时延限制下最小化端到端的视频失真期望的目的;同时,针对视频条带sn,i中任意的一个第j个宏块mbn,i,j,利用基于结构相似的容错率失真优化编码通过最优化宏块的端到端解码失真与编码比特数之间的均衡,以选择出能够达到易错传输环境下最小拉格朗日消耗代价Jn,i,j的编码模式EMn,i,j。以上优化过程可以建模为如公式(3)所示。

其中,分别为视频包的传输延时和容错率失真优化过程中的基于结构相似的拉格朗日优化因子。假设接收端视频播放帧率为fr帧/秒,那么,在实时的视频应用中,视频条带sn,i的最大传输时延可以由公式(4)计算得到。

其中sn表示第n帧视频中所包含的视频条带数。

为了实现如式3所示的跨层优化,需要在编码端预测端到端的视频解码失真。首先,给出两个编码宏块x和y的基于结构相似的失真计算方式如公式(5)所示。

其中,SSIM(x,y)是两个宏块间的结构相似值,μx和σx分别为宏块像素值的均值和标准差,σxy为两个宏块像素值间的互相关系数。C1和C2用于保证当均值和标准差趋于0时失真计算式的稳定性。无线视频传输过程中,接收端的解码失真不仅由不可逆的量化失真引起,还会受到丢包和传递失真的影响。当视频条带sn,i在传输过程中丢失时,其包含的所有宏块将采用错误隐藏的方式进行解码。对于宏块mbn,i,j,定义bn,i,j和分别为原始宏块像素和错误隐藏解码的宏块像素,那么视频条带丢失时,宏块mbn,i,j的基于结构相似的解码失真即为。当视频条带sn,i被接收端正确接收时,其包含的宏块将利用帧内预测、帧间预测等相关解码工具进行解码,定义此时宏块mbn,i,j的解码宏块像素为,解码失真即为1-SSIM()。综上所述,对于宏块mbn,i,j,其期望的基于结构相似的解码失真E{}可由公式(6)计算得到,视频条带sn,i的丢包率ρn,i可由公式(2)计算得到。

宏块解码像素值和可通过递归解码预测的方式得到[6]。进一步,视频条带sn,i的基于结构相似的端到端解码期望可由公式(7)计算得到,公式(7)中的表示视频条带sn,i所包含的宏块数目。

宏块级进行容错的率失真优化编码过程中,基于结构相似的拉格朗日优化因子由对无丢包传输环境下的拉格朗日优化因子调整而来[6],如公式(8)所示。

4 实验结果

基于H.264/AVC提供的参考编码程序JM16.1[12]与LTE上行链路仿真平台[1],我们对上述提出的LTE上行视频跨层优化方案进行了仿真实验,主要的实验参数如表2所示。

为了验证引入的具有差错传递抑制的率失真优化在跨层优化中的有效性,基于结构相似的无差错传递抑制的跨层优化作为对比方案进行了性能测试。图3(a)中展示了不同信道状态下序列Football (CIF)的解码视频结构相似值与信噪比的曲线,可以看出提出的方案在不同信道状态下取得更高的结构相似值,即提出的跨层方案优化后接收端的解码视频保持了更多的结构信息,此性能的提升主要得益于视频丢包发生时具有差错抑制的容错编码的引入。此外,图3(b)中展示了在平均信号干扰噪声比=9dB的情况下两种方案的视频序列Football(CIF)100帧解码视频的结构相似值,可以看出提出的方案当丢包发生时(结构相似值突然下降),后续的解码帧能够通过差错截断快速的恢复视频质量,而不具有差错传递抑制的跨层优化方案会因为差错传递的影响,后续解码帧的解码质量随着前面视频丢包解码错误的出现明显下降。

此外,我们验证了与基于SSE的具有差错传递抑制的跨层优化方案相比,提出的方案能够减少基于结构的视觉失真情况。表3中展示了在平均信号干扰噪声比=4dB和,=14dB状态下两种方案优化的视频序列Football(CIF),Foreman(CIF),Soccer(CIF),Mobacal(720P),Parkrun(720P)和Shield(720P)解码视频的结构相似失真值,从表中可以看出,在,=4dB和=14dB的信道状态下,提出的跨层优化方案能够取得7.30%和7.62%的结构相似失真下降,这意味着提出的跨层优化方案优化后的视频能够更好地保持结构信息,从而相应的提高接收端解码视频的视觉体验质量。

5 结束语

本文针对LTE上行视频传输应用,提出了一种基于结构相似的具有差错传递抑制的跨层传输优化方案。提出的优化方案不仅对物理层的调制编码模式以及应用层上的视频量化编码参数根据信道状态进行了优化配置以保持视频包传输的可靠性与信道传输资源的有效利用,而且将具有差错传递抑制的率失真优化引入到了跨层优化中进行易错传输环境下的编码模式选择。同时,视频传输优化过程中,我们采用了与以往视频失真描述相比更能够与人眼视觉相匹配的基于结构相似的失真计算方式。实验表明,提出的算法能够较好的保证LTE上行视频流传输的可靠性与容错能力,而且优化后的解码视频能够较好的保持视频的结构信息,与以往的优化方案相比,能够更有效地提升解码端的视频质量体验。

参考文献

[1]H.Luo,S.Ci,D.Wu,et al.Quality-driven cross-layer optimized video delivery over LTE[J].IEEE Communications Magazine,2010,48(2):102-109

[2]S.Cicalo,Mazzotti,S.Moretti,et al.Cross-layer optimization for m-health SVC multiple video transmission over LTE uplink f C].IEEE International Conference on e-Health Networking,Application&Services,2013.

[3]M.Shehada,B.Fu,S.Thakolsri,et al.QoE-based resource reservation for unperceivable video quality fluctuation during Handover in LTE[C].IEEE Consumer Communications and Networking Conference,2013.

[4]R.Vishwanath and O.Ozgur.Video-QoE aware radio resource allocation for HTTP adaptive streaming[C].IEEE Conference on Communications,2014.

[5]R.Zhang,S.L.Regunathan,and K.Rose.Video coding with optimal inter/intra-mode switching for packet loss resilience[J].IEEE Journal on Selected Area in Communications,2000,18(6):966-976

[6]P.Zhao,Y.Liu,J.Liu,et al.SSIM-based error-resilient rate-distortion optimization of H.264/AVC video coding for wireless streaming[J].Signal Processing:Image Communication,2014,29(3):303-315

[7]Z.Wang,L.Lu,and A.C.Bovik.Video quality assessment based on structural distortion measurement[J].Signal Processing:Image Communication,2004,19(2):121-132

[8]Z.Wang and A.C.Bovik.Mean squared error:love it or leave it?-a new look at signal fidelity measures[J].IEEE Signal Processing Magazine,2009,26(1):98-117

[9]L.Toni,P.Frossard.MSE cross-layer optimization criteria:what else?[J].IEEE COMSOC MMTC E-Letter,2011,6(2):13-16

[10]K.Sayana,J.Zhang,K.Stewart.Link performance abstraction based on mean mutual information per bit(MMIB)of the LLR channel.IEEE 802.16 Broadband Wireless Access Working Group,2007.

[11][Online].Available:http://www.Nt.tuwien.ac.at/ltesimulator/.

上一篇:社会性实践活动下一篇:大承气汤/治疗应用