空间关联分析(通用8篇)
空间关联分析 篇1
1 问题的提出与大数据数据挖掘、地理空间关联挖掘
在实现生活中, 经常会发现这样的一些地理物体或者现象之间有某种联系, 例如: 通常与高尔夫球场相邻的对象是停车场; 距离植被近的电线杆塔故障率高; 林地多的地方往往耕地、 住宅用地偏少; 处于气温低区域的森林, 发生病虫灾害概率小等。 这些地理空间中对象或者现象的相互关系可以被定义为地理空间关联规则, 地理空间关联规则用于描述大量空间数据 (对象或者现象) 之间有趣的相互联系。 从哲学层面上来说, 存在于的联系不是个别事物之间暂时的、 单独的、 特殊的关系, 而是一切所有事物、 现象和过程所共有的客观的、 普遍的本质之一; 所有事物都不能孤立地存在, 都会联系其他事物。 事物多种多样的联系普遍存在于宇宙中。
大数据 (big data) , 是指目前无法在可承受的时间范围内用常规软件工具进行捕捉、 管理和处理的数据集合。 大数据其特有的性质, 在Viktor Mayer-Sch nberger编写的 《大数据时代》 中大数据指不用随机分析 (非全面调查) 这样的手段, 而是对所有数据进行分析处理。 大数据的5 个特点: Volume ( 海量) 、 Velocity ( 快速度) 、 Variety ( 多样) 、 Value ( 价值) Veracity (真实性) 。 而地理信息大数据是大数据组成一部分, 是天生的大数据。 地理信息数据是关于地理数据所蕴含和表达的地理含义, 是与地理环境位置有关的对象或者现象的定量或者定性描述总称。 地理信息数据有区别于非地理信息数据的特点, 其主要区别是具有地理空间性质即地理定位信息 (坐标或位置描述) 。 而像经典的” 啤酒和尿布” 案例只是非空间的关联规则发现, 遇到更复杂的地理空间数据就无能为力了。
地理空间关联挖掘 (发现) 是利用地理空间关联规则提取算法发现空间对象或者现象间的关联程度, 从地理空间数据集合中抽取隐含知识、 空间关系或非显式的有意义的特征或模式, 挖掘地理空间数据集合的空间特性, 如地理位置、地理方位、 地理距离、 地理几何拓扑关系、 地理空间属性 (长度、 面积等) 等。 挖掘和发现日常生活中接触到的地理空间对象之间的空间关联模式或相互关系是目前地理空间关联规则挖掘的主要目的。 在地理空间分析中, 除了传统要素之间的关联 (简单、 时序和因果等关联) 规则的发现, 关联规则分析还可用于探索存在地理空间环境中上下不同事件之间的关联性, 如某地的气候异常与该地或者其他地方的灾害之间在地理空间分布上的关联关系, 或者多种事件/现象在某个地理空间上成群出现 (空间同位) , 都是关联规则的例子。 例如, 植物学家根据共生植被的分布, 发现 “半湿润常绿阔叶林”生长的地方80%有 “兰类” 植物生长。
参考目前使用最广泛的关联规则在数据挖掘中表达, 空间关联规则的基本形式为:
该公式可解释为 “满足A地理空间的条件常常也满足B地理空间的条件”, 其中A、 B是地理空间谓词集合 (A∩B =Ø, A∪B至少包含一个地理空间谓词) , Support (A→B) 为地理空间规则的支持度, Confidence (A→B) 为地理空间规则的置信度。 一般认为地理空间谓词的形式有4 种: 表示拓扑结构的、 表示空间方向的、 表示距离的和其他的。 各种各样的地理空间谓词是地理空间关联规则构成重要组成部分。 如, 地理空间距离关系 (如Close_to (靠近) 、 Far_away (远离) ) 、 地理空间拓扑关系 (Intersect (相交) 、 Overlap (覆盖) 、 Disjoin ( 分离) ) 和地理空间关系 ( 如Left_of ( 左边) 、 East_of ( 东边) ) 。每个这种空间关系的关联性都有一个支持度或有效性的度量 (是否具有恰当维持性) , 支持度表达式:
而有效性称为置信度 (是否具有适当的信任性) , 其表达式为:
一般用最小的置信度与支持度来提取有效的规则, 满足置信度与支持度条件即可认为是数据集的待求关联规则。
在此所要讨论的是在大地理数据环境下, 选取特定区域内的地理POI (Point of Interest) 数据, 集成利用空间分析中的聚类、 凸包、 叠置等分析, 分析在空间位置上有一定关联关系的空间对象, 挖掘出该区域内符合最小的置信度与支持度的地理空间关联规则。 挖掘地理空间关联规则在现实世界中极其有价值, 已经有一些非常经典的应用。 例如: 因为某区域气候 (如海洋) 异常对某区域气候 (如陆地) 异常事件的发生具有重要的诱发作用, 可以将两者进行地理空间关联挖掘, 可以得到区域之间相关的关联关系 (如发现出 “厄尔尼诺” 空间关联现象, 就是太平洋东部和中部区域热带海洋的海水水温异常地在某时间段持续变暖, 而整个世界区域气候模式发生一系列变化, 造成某些地区偏干旱而另一些地区又降雨量过多) 。探究异常和极端气候在空间上的发生规律乃至更深层次的原因, 可以对极端气候的发生提供预警依据, 如图1 所示。
2 Apriori算法与其地理空间化
Apriori算法 (Agrawal 1993) 是一种以概率 (频率) 为度量基础、 著名的提取和发现布尔型关联规则频繁项集 (item set) 的算法, 它使用循环渐进扫描数据集合的方式以求找到数据间的关系, 以形成规则。 Apriori算法包含两个重要的步骤: (1) 连接; (2) 剪枝 (去掉那些没必要的中间结果) 。 Apriori算法中常出现项集的概念, 项集简单地说就是项的集合, 包含K个项的集合为K -项集。 项集的出现频率就是指包含项集的事务数, 称为项集的频率。 如果项集满足最小支持度, 那么称它为频繁项集, 频繁项集k-项集的集合记作Lk。 然而, 该算法主要针对非地理空间数据的挖掘, 对地理空间数据挖掘能力不足。
相对于传统Apriori算法, 地理信息数据挖掘算法较为复杂, 其主要原因在于其挖掘对象地理空间数据本身的复杂性。地理空间数据具有地理空间位置和方位、 距离、 几何拓扑等地理空间属性, 并且其本身就具有一定的相关性 (距离近的地理空间对象和现象的特征越相近) 。 因此, Apriori算法必须进行地理空间化改造后才能适合地理信息数据的关联规则发现。
空间化改造后, 地理空间关联规则发现的优化算法可通过5 个步骤实现:
(1) 根据要求获得相关的地理空间数据。
(2) 运用地理学第一定律的相邻等原则描述空间属性和特定属性。
(3) 过滤和筛选重要的数据, 剔除不满足最小支持度的地理空间谓词。
(4) 运用空间度量度 (地理面积支持度和地理相交面积确信度等) 等其他手段对数据进一步提纯。
(5) 提取和发现地理空间关联规则。
地理空间关联规则的发现关键是地理空间关联规则的提取, 地理空间关联规则的提取关键是由最小支持度和置信度的计算。 式 (1) 、 式 (2) 、 式 (3) 可知, 地理空间关联规则的支持度和置信度计算都依赖于地理空间谓词集的支持度计算, 这个计算的基础不同于非地理空间的度量 (基于统计频度) , 而是地理空间的度量 (基于地理几何面积计算) 。
对地理空间POI点集ps中的点进行聚类分析, 所得聚类的凸包分析 (轮廓) 所覆盖的区域称为满足ps的区域, 记作polygon ( ps) 。 对于POI点合集合POIS = { ps1, ps2, … , psn}, 称polygon (ps1) 、 polygon (ps2) 到polygon (psn) 的交 (叠置分析-intersection运算) 为满足POIS区域, 记作polygon (POIS) 。 进行特定区域聚类地理空间关联规则提取时, 将一个POI类别点集看作一个地理空间谓词, 将该区域所有POI类别点集看作是地理空间谓词集。 称满足特定区域地理空间谓词集相交POIS的面积与研究区域R总面积之比为POIS的聚类-凸包-叠置支持度 (Cluster-Convex hull-Over Layer support) , 记为CCOS (POIS) , 则有:
其中calc Area () 为计算面积的函数, 将式 (4) 分别代入式 ( 2) 和式 ( 3) , 就可以得到规则A →B的聚类支持度CCOS (A→B) 和聚类置信度CCOC (A→B) 公式:
要实现的具体功能是从互联网上的地理信息服务 (腾讯地图开发平台) 获取POI集, 将POI集分类进行聚类分析生成聚类集, 对聚类集生成分析外轮廓凸包面集, 将这些面集进行叠置分析后计算面积, 根据面积计算最小支持度和置信度得到POI主题以Close_to (临近) 地理空间谓词的关联规则, 最后挖掘出来的地理空间关联规则以文本、 图表、 电子地图、街景全景的方式表达展示。 功能设计框架设计如图2 所示, 空间关联规则多方式表达如图3 所示。
3 空间关联规则的提取中的面积计算
Apriori算法空间化最基本思路是地理空间的最小支持度和置信度以多边形的面积计算为基础, 因此地理几何面积计算是地理空间关联规则提取实现的一个关键点。
所取得的数据为经纬度坐标, 因此所涉及的计算是地球面上的多边形, 计算比较平面系统复杂。 程序实现将地球简化为一个球体, 在地球球面上, 两点间最短的距离是最大圆的弧线段的长度。 所谓球面上的最大圆, 指的是在球面上圆心与球面的球心重合的圆 (例如地球的经线都是最大圆, 而纬线只有赤道是最大圆) 。 连接球体曲面上两点的最短弧线称为测地线, 它是由古代的科学家们测量地球两地点之间距离时发现的。 而一个球面上的曲面n边形, 是由n条测地线段首尾相连所构成的闭合多边图形。 与平面几何的情形类似, 每条空间球体测地线段定义为曲面多边形的边, 空间球体测地线段的交点定义为顶点。 顶点处两条空间球体测地线的切线的夹角就是空间多边形的内角。
设地球的半径为R (设为6378000 米) , ABC是地球上一个球面三角形。 分别以 α, β, γ 代表地球表面3 个顶点的内角, 仍然沿用符号△ABC表示它的地理空间面积。 沿着地球球面延长该三角形的3 条边, 将其延长为完整的地球球体的大圆。 地球球面上的这两个大圆会在地理空间中有两个交点, 这两个交点是在球面上以球心为中心的一条直径的端点, 这样的两个交点称为对径点。 记A, B, C的对径点分別是A', B', C', 如图4 所示。
考察球体的球面上半圆弧ABA' 和半圆弧ACA' 包围形成的区面区域。 由于球面上关于直径AA' 是三位空间旋转对称的, 因此很容易推理出这块区面区域与整个球面的面积之比为 α/2π。 已知球面的面积公式是4πR2。 所以这块区面区域的面积是2αR2, 即
△ABC + △A' BC = 2αR2
按照同样的方法, 还可以求得出:
△ABC+△AB'C=2βR2
△ABC+△ABC'=2γR2
因为△ABC' 和△A'B'C关于球心对称, 所以它们的地理面积相等:
△ABC' = △A' B' C
又由于上述三角形的其中4 个可以拼成半个球面, 即:
△ABC + △A'BC + △AB'C + △A'B'C = 2πR2
所以根据以上5 个方程, 可以解出:
公式7 就是地球球面三角形面积公式。 它最早是由英国籍数学家托马斯.哈里奥特发现的, 以笛沙格定理命名, 因为最早地将这个公式发表的是法国籍数学家吉拉德.笛沙格。
以公式7 为基础, 球面多边形面积计算需要将经纬度坐标换算成为弧度。 球面多边形计算面积的关键在于计算多边形所有角的度数。
对于球面n边形, 所有角的和为S, 球的半径为R, 那么其面积就是
根据公式8, 空间关联规则的支持度和置信度的筛选量度中的基础—地球表面多边形面积就可以计算了。 具体代码实现如下:
4 显示地图、街景地图以及线获取POI点集
4.1 腾讯地图开发
在线获取地理信息数据与地图展示 (二维矢量和街景景) 时主要用到了腾讯地图开放平台的Java Script API V2、 Web-Service API。
Java Script API V2 可用于在网站中加入交互性强的地图, 能很好地支持PC及手机设备, 目前是免费服务, 任何提供免费访问的网站都可以调用。 Java Script API中包含街景API, 是构建在v2 版本上的全新应用接口, 对于目的地, 可以让用户足不出户, 得到直观的浏览体验。
Web Service API是基于网络服务HTTP协议的数据接口, 开发者可以使用任何开发语言在客户端、 服务器按照腾讯地图Web Service API参数规范, 按需构建HTTP请求, 并获取结果数据 (目前支持json/jsonp方式返回) 。
4.2 Java Script API V2 创建地图及添加Marker、Label、Polygon
HTML文件中用腾讯地图Java Script API创建了以武汉为中心的铺满div的地图。 HTML中包含Java Script程序, 其功能是根据参数绘制标注Marker、 标签Label及多边形Polygon等覆盖物。 绘制参数由C# 后台计算提供, Java Script负责解析并绘制地图数据。
4.3 街景地图
街景地图是一种基于街道的实景地图服务。 中国街景地图的产生比较早, 甚至早于谷歌地图。 街景地图表达地理信息比较充分和详细, 是对传统二维矢量地图的一个有力补充。由于传统地图 (包括统计的电子地图) 对地理信息进行了抽象、 综合, 会对人的地理空间认知造成一定的影响, 因此街景地图的出现是解决 “最后100 米识别” 问题一个有效工具。
文中街景主要的参数是场景 (pano) 、 视角 (pov) 。 场景 (pano) 是一个360 度的全景 ( 街景是由无数个场景组成的) , 每一个场景都有自己的一个唯一标识Pano Id。 视角 (pov) 主要由偏航角 (heading) 俯仰角 (pitch) 、 缩放 (zoom) 3 个参数构成。 在JS程序中, 还使用一个重要的API对象qq.maps.Panorama Service, 其方法get Pano (position:Lat Lng, radius:Number, callback:Function) 的功能是通过某点经纬度获取指定半径内其最近街景场景信息 (包括pano Id、 场景所在坐标等) 。
本功能实现的JS代码如下:
其中函数get Args From Href的功能是获取坐标参数, change的功能根据坐标调用pano_service街景场景服务获取当前实景。
程序运行街景地图效果如图5 所示。
4.4 利用腾讯地图Web Service API及Java Script API V2 获取POI数据、行政区域范围
(1) 使用的POI数据通过腾讯地图Web Service API的地点搜索 (Search接口) 功能获取。
(2) 使用的行政区域范围坐标数据获取通过Java Script API V1.3 中的BMap.Boundary对象的get方法, 具体实现代码为:
JS前端获取的POI及行政界线数据将返回到C# 桌面程序处理。
5 聚类分析、凸包分析、叠置分析的集成及Apriori算法空间化的实现
在大数据时代, 数据挖掘和知识发现是最有价值和关键的工作。 大数据的挖掘和知识发现是大量、 可能有缺陷的 (不完全的、 有噪声的、 模糊的、 随机的) 非样本中发现隐含在其中有价值的、 潜在有用的信息和知识的过程, 也是一种决策支持过程。 程序实现的地理空间关联规则挖掘和发现主要基于聚类分析、 凸包分析、 叠置分析、 面积计算等, 通过对地理信息大数据高度自动化地分析, 做出归纳性的推理, 实现方法的实质就是Apriori算法空间化。 地理空间关联规则分析需要进行多项前序的分析和预处理工作, 传统的非空间化的Apriori算法需要量度的空间化, 计算统计对象的面积而不是一般事务性的频度, 而计算的面积是通过多边形叠置分析得到, 叠置分析的输入—待分析Polygon (面) 集由凸包分析得到, 凸包分析的输入—待分析离散点集由聚类分析得到, 聚类分析的源数据从Internet上在线获取。 聚类分析、 凸包分析的集成是叠置分析关键的前置处理流程, 而叠置分析是与Apriori算法集成在了一起。 整个程序处理流程图如图6 所示。
5.1 聚类分析、凸包分析、叠置分析的集成
将聚类分析、 凸包分析、 叠置分析分别编译为DBSCANDll.dll、 Convex Hull Dll.dll、 Over Lay Dll等.dll文件, 然后引用到叠置分析程序的解决方案中。 聚类分析、 凸包分析、 叠置分析具体实现见文献3、 4、 5, dll文件引用方法见文献5。
5.2 空间关联规则挖掘的程序实现说明
地理空间关联规则的地理空间谓词是由C# 的Dictionary类表达的。 Dictionary是一种泛型类 (封闭不同的数据类型) , 提供了从一组键到一组值的映射。 字典中的每个添加项都由一个值及其相关联的键组成。 通过键来检索值的速度是非常快的, 接近于O (1) , 这是因为Dictionary类是哈希表。 从程序的运行效果看, Dictionary类表达地理空间谓词进行快速查找和排序都十分方便。
(1) 判断是否为频繁集, 该功能为空间关联规则提取的核心function之一
其中, Split Poly Array Intersect是叠置分析交运算的函数, Split Poly Array Area是计算经纬度多边形集面积和的函数。
(2) 根据谓词名称, 查询得到谓词对应相关图层, 可以获取图层边界坐标
该功能主要依赖Dictionary的查询和排序功能。
(3) 得到1阶的频繁POI图层集
Split Poly Array Area函数也在该部分的程序中用到, 主要也是面积计算, 因为是一元谓词, 因此不需要进行叠置交运算。
(4) 根据频繁1-谓语集得到所有频繁集
这一部分根据频繁1-空间谓语集得到所有频繁集, 是空间关联规则提取必不可少的一步。
(5) 根据所有频繁集进行连接、 剪枝, 得到候选集
本程序是找出所有空间频繁k项集的集合, 为找出k项空间频繁集做准备, 该程序分为两步空间频繁集连接和空间频繁集剪枝, 具体过程为:
1) 连接处理: 为找出Lk ( 所有的频繁k空间项集的集合) , 通过将Lk-1 (所有的频繁k-1 空间项集的集合) 与自身连接产生候选k空间项集的集合。 候选集合记作Ck。 设l1 和l2 是Lk-1 中的成员。 记li [j] 表示li中的第j项。 假设Apriori算法对空间对象或空间项集中的项按字典次序排序, 即对于 (k-1) 空间项集li, li [1] <li [2] <……….<li [k-1]。 将Lk-1 与自身连接, 如果 (l1 [1] =l2 [1]) && ( l1 [2] =l2 [2]) && … … ..&& (l1 [k-2] =l2 [k-2]) && (l1 [k-1] <l2 [k-1]) , 则认为l1 和l2 是可连接。 连接l1 和l2 产生的结果是{l1[1] , l1 [2] , … …, l1 [k-1] , l2 [k-1]}。
2) 剪枝处理: CK是LK的超集, 也就是说, CK的成员可能是也可能不是频繁的。 通过扫描所有的空间对象或者空间现象, 确定CK中每个候选的计数, 判断是否小于最小支持度计数, 如果不是, 则认为该候选是频繁的。 为了压缩Ck, 可以利用Apriori性质: 任一频繁空间项集的所有非空子集也必须是频繁的, 反之, 如果某个候选的非空子集不是频繁的, 那么该候选肯定不是频繁的, 从而可以将其从CK中删除。
(6) 根据确信度过滤频繁集, 最后得到空间关联规则
该部分根据生成的可能频繁集进行确信值的度量, 进行了叠置分析交运算Split Poly Array Intersect和面积计算Split Poly Array Area, 对是否能够确定为关联规则进行了考理, 最终确定哪些频繁集可能构成空间关联规则。
6 空间关联规则挖掘结果的多形式表达与实例测试
6.1 空间关联规则挖掘结果的表达
如何展示挖掘结果, 要看数据挖掘的结果是什么形式, 由于是地理信息数据, 因此考虑以地图与文本、 图表结果的形式, 特别是集成了街景表达。 前面地图与文本、 街景已有介绍, 这一段重点介绍图表的表达。
图表实现是基于dotnetcharting控件完成。 dotnetcharting是一个很好用的图表控件, 能画出很漂亮的报表, 一般常用到的主要有柱状图、 饼图、 折线图3 种。 具体代码如下:
(1) 根据dotnetcharting封装了一个Charting类
(2) 根据空间关联规则生成chart
其中程序可以按照参数type的设置绘制柱状图、 饼图和拆线图。
6.2 挖掘实例测试
在实例测试中, 规则挖掘的空间谓词为距离关系-Close_to (临近) , 挖掘某个中心点范围内的POI数据, 挖掘的关联模式是Co-location Pattern Discovery (同位模式挖掘) 。 它是空间关联规则挖掘的一种, 地理同位模型表达为: (POIs, Location) , 比如 ({餐馆, 咖啡店}, 关山) 。 对地理信息进行分类, 针对不同的POI类别进行同位模式挖掘, 可以挖掘出这几类不同的POI之间组合的空间关联关系, 从而可以提供地理位置的推荐服务, 比如餐馆经常和咖啡店在关山这个位置同时出现, 那么在用户查询餐馆时系统就可以推荐给用户相应的服务 (如咖啡店查询) 。 基于区域大小, 根据颗粒粗细, 空间关联关系可以分为global pattern (全局关联模型) 和local pattern (局域关联模型) , 分别指所挖掘出来的空间同位模型到底是普遍性的还是只针对某些特定的地方。 比如上面说的餐馆和咖啡店经常一起出现, 可能只在关山这个区域存在而已, 这就是local pattern, 表示这是关山地区特有的特点。 从实用来说, local pattern可能更有用的, 因为global pattern经常挖掘出来的是常识 (common knowledge) , 不具备新颖性, 一般可能无需使用data mining技术来做。
实现的程序主界面中, 待分析数据选择的参数是 “所在区域”、“挖掘地点”、“挖掘级别” 和 “最小支持度”、“最小可信度” 等5 个输入设置; 电子地图的覆盖物绘制约束是设置是否 “绘制POI”, 设置是否 “绘制规则范围”。 其中挖掘级别是设置POI类别的颗粒大小, 级别数值越大则类别越处于底层信息越详细, 越小则类别越处于顶层信息越抽象。
设置5 个输入参数分别为 “武汉”、 “武汉大学”、 “1”、“0.0005”、 “0.7”, 程序运行结果如图7 所示。
设置5 个输入参数分别为 “杭州”、 “浙江大学”、 “1”、“0.0005”、 “0.7”, 程序运行结果如图8 所示。
设置5 个输入参数分别为 “北京”、 “北京大学”、 “1”、“0.0001”、 “0.7”, 程序运行结果如图9 所示。
设置5 个输入参数分别为 “北京”、 “清华大学”、 “1”、“0.0001”、 “0.7”, 程序运行结果如图10 所示。
设置5 个输入参数分别为 “上海”、 “复旦大学”、 “2”、“0.0002”、 “0.7”, 程序运行结果如图11 所示。
从以上测试结果来看, 关联规则挖掘的结果相对比较合理, 体现与地理位置背景相关的一些特性, 与实际情况接近。测试的大学附近POI中餐饮所占比例大, 各个学校略有差异。如图7 所示, 武汉大学附近是基础设施和美食餐饮相关联; 如图8 所示, 浙江大学附近是宾馆酒店与美食餐饮相关联 (可能是由于杭州是旅游城市) ; 如图9、 10 所示, 北京大学和清华大学附近是房产小区与美食餐饮相关联; 而如图11 所示, 复旦大学附近是以冷饮与西餐等相关联 (设置了比较详细颗粒的关联运算) 。 从能够挖掘出地理空间关联规则的支持度来看, 武汉与杭州是设置的数值较小, 而北京和上海设置的数值较大。 从地理面积的意义上考察, 这反映了武汉、 杭州与北京、上海按照城市面积大小可归为两种不同的类别, 而武汉、 杭州可归为一类, 北京、 上海可归为一类。 总体来看, 程序通过分析数据挖掘规则发现了新的知识, 而通过地图、 街景地图、 图表、 文本等表达, 使规则描述更清晰、 更直观。
7 结语
介绍了关联规则的Apriori算法, 并研究了该算法, 然后对该算法进行了空间化处理。 通过程序的运行情况可以看出, 集成多种地理空间分析工具对地理信息数据进行数据挖掘和知识, 能够发现某特定区域的地理信息潜在的关联关系, 得出的结论也和其地理背景知识相一致。 故此, 认为在实际应用中, 地理地理空间关联规则的数据挖掘与知识发现对地理信息数据有着非常重要的现实意义。 例如, 数字高程模型 (DEM) 含有地理坐标 (经度和纬度) 和海拔高等地理信息, 通过对DEM数据进行数据挖掘, 采用地理空间关联分析法, 提取与果树生长环境密切相关的信息, 如坡度、 坡向、 坡位、果树生长地理纬度、 离海洋的距离等地理因子。 通过对农业气候生态及其地理分布特征的研究, 结合历史气象资料、 实地考察、 现实种植等相关情况, 进行地理地理空间关联规则发现, 实现果树种植生态区域选择和规划, 指导果树种植, 为精细化农业提供辅助决策。 该应用具有很重要的科学意义和潜在的经济价值。 目前, 这个程序只是初浅地实现了地理空间数据关联规则的挖掘功能, 最小支持度和置信度设置也不灵活, 需要人工调整, 该程序将继续改进, 集成地理信息背景知识的约束, 使挖掘的规则和发现的知识更加符合真实情况。
参考文献
[1]Koperski K, Adhihary J, Han J.Mining knowledge in geographical data[J].communications of ACM, 1999.
[2]K Koperski, J Han.Discovery of Spatial Association Rules in Geographic Information Databases[A].Procof Fourth International Symposium on Large Spatial Databases[C].Maine, 1995:47-66.
[3]董志.利用DBSCAN实现约束条件下的空间聚类分析[J].电脑编程技巧与维护, 2013, (17) :65-75+87.
[4]董志.利用Monotone Chain算法集成在线地理信息数据生成凸包[J].电脑编程技巧与维护, 2014, (20) :72-81.
[5]董志.利用空间面-面叠置分析实现在线地理数据的信息挖掘[J].电脑编程技巧与维护, 2015, (13) :5-16.
[6]董林, 舒红, 牛宵.利用叠置分析和面积计算实现空间关联规则挖掘[J].武汉大学学报:信息科学版, 2013, 38 (01) :95-99.
色彩设计与空间营造之关联性 篇2
关键词:色彩;流动空间;设计
1 色彩与环境空间之关联性
空间作为一种客观存在,大致由自然空和社会空间(人文空间)两大类组成,不同的空间多因人的存在而具有不同甚至是多重的含义。本文所述空间概念主要是指具有一定观赏、使用价值,且旨在为人的游憩而塑造的环境空间。并借用电影这一具有流动空间特性之艺术形式,进而展开对其他诸如人在景观中的流动、城市与城市之间的关系、人与人之间的关系、室内与室外之间的关系等,具有流动空间性质的空间概念之关联性的论述。其间,主要以色彩为论述点,略述这些存在于上述空间中的色彩设计及其发挥的重要意义。
色彩,作为客观存在,本身并不具有任何的情感特征,但由于人与之长期共存并由此产生的关联性的联想,有了现实的意义。
2 电影——流动空间与色彩设计
色彩作为现代电影艺术中最为重要的表现语言之一,对电影作品本身有着塑造主体、叙事传情、渲染气氛的功能,且还起着重要甚至是决定性的作用。由此,本节试以《自殺专卖店》这一电影为例,通过对其色彩设计及其环境空间的关联性进行研究,以示证其存在的关联性意义。因为该片贯穿全剧的整体色彩规划设计,与表达故事及空间氛围的烘托、人物心理的表现等诸方面均有着精妙的运用,尤其是在色彩的设计及其表现方面具有较强的代表性。
2.1 色彩设计与剧情变化之关联性
《自杀专卖店》所描述的是法国某小镇,这一主体环境空间的色彩设计与人物的精神世界的关联性,在整部片子内的脉络大致表现如下:开篇对精神世界所描画的环境空间中,所呈现的色彩多以压抑、绝望的情感变化为主,只包含了极少数具有积极乐观精神状态的色彩设计画面。但随着男主人公的出生及其在成长过程中所发生各种故事的进一步叙述,使得生活在其周围的人们也逐渐地变得乐观起来了,之后的小镇也呈现出了真正幸福快乐的空间色彩氛围。在此过程中,从其色彩方面设计的演变来看,该片运用了丰富的“黄与蓝”这一对比色之冷暖性的变化,并以“暖偏冷——冷——较暖——暖”,并以“冷”再偏“暖”的色彩变幻之节奏的设计手法来表现这一圆满性的结局,高度概括地表现了色彩与情节变化相对应的关联性,尽管最终所呈现出的整体色调仍旧较为灰暗,但已预示了该店的空间氛围终将慢慢地改变整个城市的空间气象这一大结果。从而一方面为进一步深化电影画面、空间叙事、人物心理情感的变化特征埋下了伏笔;另一方面也诠释了色彩设计在空间中的分量及其作用。
2.2 色彩设计与镜头变化之关联性
(1)镜头之时间变化。《自杀专卖店》反复地出现了在其商店门口的同一位置的街景,且色彩也表现出与电影中时间变化相对应的设计效果。如影片仅通过使同一个镜头中场景的色彩不断地变化来表现主人公的成长历程:其一,在长期的时间变化方面,这种色彩设计表现为从代表春季的黄灰色调过渡到代表冬季的蓝灰色调这一时间变化性;其二,在短期的时间变化方面,其色彩设计是通过从清晨的浅黄色灯光及黄色背景到晚间的亮黄色灯光及深蓝色背景这一色彩变化,来表现这一街景的镜头所对准的空间是始终保持不变的这一时间变化性。
(2)镜头之空间变化。在《自杀专卖店》中因多次地表现出了各配角在家中自杀的场景,所以在该片中对不同室内空间色彩的设计也呈现出了不同的具有丰富性的视觉效果。例如,在主体商店的空间设计中,无论是对其墙面还是物品的色彩设计均采用了高明度、高彩度的色调,还是在其他自杀时具体的室内场景这一配角空间中,则多采用了低纯度的深褐色及灰蓝色等色彩进行设计。又如,电影中发生主要事件的几个场景的色彩的明度及纯度均高于其它次要场景之色彩的明度及纯度,这种针对不同主次空间而进行的色彩设计手法深化了电影的主旨与内涵。
3 色彩设计与环境空间营造之关联性
3.1 色彩设计之视觉审美特征
(1)连续性。电影中的色彩设计往往会随着剧情的推进而发生变化,所以能使空间产生动态的连贯性,这种连贯性能使空间产生连续性这一具有节奏美的特征。这就是在现实生活中,当人在空间中活动时,周围环境的色彩均会以突显或隐现的形式反映于人的视觉感官中,并能产生不同的心理感受之原因所在。同理,这种体验亦犹如观影过程,甚至人们在空间中所感受到的色彩变化较之于在电影中所能感受到的色彩变化这一精神感受会显得更加具有真实性。由此可见,当设计师设计作品时,在规划前期就应从受众的视角出发,且须从物质、精神两个方面进行分析与研究,尽可能全面地考虑到影响空间色彩意象效果的各种因素,从而创造出具有连贯性且令人愉悦的环境空间。
(2)地域性。在自然界中,不同的空间因其所在地理位置的不同,所呈现出的色彩变化也会随之产生较大的差异。正如电影能通过色彩设计来描述和凸显不同时空环境对于情节的适应性及空间中个体特征进行独特的描绘性一样,此乃与自然界中所呈现的色彩变化及其审美特征有着异曲同工之处。由此,现实生活中,设计师在设计过程中只有在调查研究其地域特色之后,再提出相应的色彩规划方案才能提升空间的可读性与独特性,才能使置身于其中的观者深刻地感受到与不同的景观对应的地域性的特色,进而加深人们对于空间感知及理解。
3.2 色彩设计之表意功能
色彩设计在电影这一流动空间中,表现剧情起伏、人物情感等方面有着近乎超越语言的强大作用。作为一种视觉表现语言,其所描述的已不仅仅是电影本身了,它更能表现在内容之外所具有的隐喻意义与象征意义。例如,《自杀专卖店》就通过深紫色、深蓝色等有着抑郁、低沉含义色彩的大量运用设计,来暗示和象征动荡且令人压抑的与当时电影情节相适应的社会景象。因此,无论是自然环境之色彩研究,抑或是针对某一特定空间而进行的色彩设计或规划,这种通过色彩而设计出的不同的、有针对性的表现语言的表意而发挥的作用,能使空间中的人物在其视觉层面与心理层面二者之间达到完整的契合。从而使空间更深层次的价值得以提升,这也就是通过不同流动空间进而运用色彩变幻设计手法来发挥其表意功能的重要体现。
4 结语
色彩作为构筑空间的重要视觉元素之一,在空间营造中发挥着不可替代的作用。本文仅以电影这一流动的环境空间为研究对象,从色彩设计的视觉审美特征及表意功能等两方面,及与环境空间之间的关联性进行浅显的探讨,借以说明作为在今天人们所生活的这一流动空间的营造者,应充分地认识到色彩之于空间设计的重要性及色彩对空间可能会产生的影响。若能认知至此,并积极地主动地掌控色彩之于人的感官体验及其心理感受之间的关系,就能营造出更加连贯、丰富且独具特色的现代环境空间设计。
参考文献:
[1] 朱兰.动画电影色彩的视觉审美特征与表意功能研究[D].昆明理工大学,2009.
空间关联分析 篇3
长期以来, 由于煤炭作为能源的特殊商品性质, 煤炭空间区域市场存在一定的垄断性, 我国煤炭价格体现出区域性与封闭性。2012年底, 国务院发文取消了煤炭重点合同和电煤价格双轨制, 我国煤炭价格开始进入完全市场化的轨道。我国煤炭空间区域市场的价格以及我国煤炭价格的均值与国际煤炭价格的关联程度都会发生变化。同一空间区域市场具有市场同质性, 而煤炭价格的全国均值具有市场异质性。随着煤炭市场化程度的提高, 同一市场内不同煤质的价格会相互影响, 不同空间区域市场 (1) 的煤炭价格之间也会相互作用, 使影响煤炭价格波动的因素更加复杂多样。了解不同煤质和不同空间区域市场煤炭价格之间的因果关系和相互作用机理, 探寻煤炭价格波动的主导因素和主导市场, 这些都是研究煤炭价格波动机制和煤炭区域市场之间的关系亟待解决的问题。国外学者的研究主要集中在煤炭价格对经济的影响和全球煤炭供需情况等方面。Chi-Jen Yang (2012) 指出中国的经济改革是中国煤价变化的关键因素, 同时也对全球能源经济有重要影响。Jianliang Wang (2013) 分析了煤炭对中国经济发展的重要影响, 指出煤炭价格的上涨会对经济发展产生不利影响。国内学者对煤炭价格的形成和波动、煤炭价格与经济增长之间的关系等各方面进行了研究。谭章禄 (2009) 对我国煤炭价格的影响因素进行实证研究发现, 影响煤炭价格的主要因素是铁路运输、煤炭储量、下游产品需求量、国际煤炭价格和煤炭产量。王可 (2011) 研究了煤炭的进出口贸易量与煤炭价格的关系, 其研究表明煤炭价格对煤炭的进出口额的带动作用较强, 而煤炭的进出口额对煤炭价格的的作用较弱。丁志华 (2011) 运用协整分析方法, 对煤炭价格影响因素进行实证研究, 测量了各因素对煤炭价格影响的权重及大小。雷强 (2013) 利用BDS法和替代数据法对秦皇岛大同优混、山西优混和国外煤炭价格进行了非线性特征研究, 说明国际煤炭市场化程度高于国内煤炭市场。
以上研究主要集中于煤炭价格的影响因素和煤炭价格与经济之间的关系, 对不同煤质及不同空间区域市场间煤炭价格关系研究较少。笔者运用Granger因果关系检验和协整分析的方法, 研究不同煤质和空间区域市场煤炭价格之间的关系, 以探寻煤炭价格波动的主导因素。在此, 还分析不同煤质和空间区域市场在煤炭价格波动中的地位差异, 并运用协整回归模型描述煤炭价格间的长期均衡关系。
二、煤炭价格波动及相互关系的模型构建
煤炭价格周数据是时间序列数据, Eviews5对数据的检验结果表明不同煤质之间和不同区域市场之间的煤炭价格具有协整关系, 据此构建了煤炭价格序列间的协整关系模型。
不同煤炭价格长期均衡关系 (OLS) (以PNH和PNM为例) :
PNH:高发热量全国煤炭均价;PNM:中等发热量全国煤炭均价;C:常数项;ε:随机误差项。后文给出了上述模型的实证用OLS分析煤炭价格间的长期均衡关系。
三、煤炭价格关系分析
(一) 样本数据的选取
秦皇岛港是以能源运输为主的综合性国际贸易口岸, 世界上最大的煤炭输出港和散货港, 2011年、2012年煤炭发运量分别占北方港口煤炭发运总量的40%和37.7%。山西大同是我国最大运煤铁路大秦铁路的起点, 来自山西、陕西、内蒙古的煤炭经过这里发往秦皇岛港, 继而运往全国各地。澳大利亚纽卡斯港是世界最大煤炭出口码头, 每年处理超过十万公吨煤炭, 大部分出口至中国及日本。以上三个地点的煤炭价格在区域市场中具有较强的代表性。考虑煤炭价格的代表性及各种煤炭价格的影响, 本文选取了8个煤炭价格变量2009-2013年的周数据共261组2088个数据 (表1) :
注:数据来源:中国煤炭资源网 (http://www.sxcoal.com/)
全国煤炭均价为全国主要产煤城市的煤炭价格的均值, 秦皇岛煤炭价格是秦皇岛港煤炭交易价格的均值, 大同煤价为大同市煤炭含税参考价, NEWC动力煤价格是由环球煤炭公司发布的澳大利亚动力煤现货交易价格, 它反映了煤炭买卖双方对现货动力煤的合同价。为了对比不同发热量的煤炭价格, 把煤炭全国均价和秦皇岛价格分别分为高 (high) 、中 (middle) 、低 (low) 三种类型并命名变量。
(二) 相关性分析
为了了解各变量之间的相关关系, 求出了各变量间的相关系数 (由于篇幅限制, 具体结果略) , 各变量间的相关系数均在0.8以上且在1%的置信水平下可信。同一区域市场不同煤质的煤炭价格相关性较强, 全国和秦皇岛不同种类煤炭价格间的相关系数均大于0.95, 区域市场内不同煤质煤炭价格之间的竞争性和替代性较强。不同市场间煤炭价格的相关性各有不同, 不同的相关性反映了区域市场间关联程度的差异。全国与秦皇岛的各种煤炭价格之间具有较明显的相关性, 相关系数均大于0.85。大同的煤炭价格与全国均价相关性较强, 相关系数均大于0.95;与秦皇岛煤炭价格的相关系数相对偏小, 区间为 (0.843, 0.878) 。纽卡斯港煤炭价格与其他区域市场煤炭价格的相关系数均小于0.9。相关系数较小的是大同煤炭与纽卡斯港煤炭, 相关系数低于0.8, 可见大同煤炭市场与纽卡斯港煤炭市场的关联程度较低。
(三) 协整检验
运用ADF检验方法对煤炭价格序列进行单位根检验, 确定各个序列数据的平稳性。ADF检验的结果表明所有的时间序列均为非平稳序列, 而它们的一阶差分序列均为平稳序列。
根据序列平稳性检验结果, 运用EG两步法进行协整关系检验, 分析结果如表2。
注: (C, T, K) 分别表示常数项、趋势项和滞后期, **表示1%的显著水平。
对表2进行分析发现:第一、同一市场不同煤炭价格间的协整关系较明显, 全国均价中三种不同种类煤炭间均存在显著的协整关系, 秦皇岛煤炭中仅有高发热量与低发热量煤炭之间不存在显著协整关系, 各个空间区域市场中的中等发热量煤炭均与其他煤炭存在协整, 说明中等发热量煤炭价格在同质市场中的主导作用;第二、对于不同区域市场, 煤炭交易量较大的“大市场”之间的协整关系较为显著, 全国均价和秦皇岛煤价、纽卡斯港煤价之间均存在协整关系, 而纽卡斯港煤价和秦皇岛煤价、大同煤价均不存在显著的协整关系 (2) 。第三、纽卡斯港煤价和我国各个区域市场煤价协整关系均不显著, 说明我国煤价和国际煤价的市场关联程度较低。
同一区域市场不同煤质煤价间的协整关系较好说明区域内煤炭价格市场关联程度较高。煤炭全国均价和秦皇岛煤价协整关系较好说明秦皇岛煤价与全国煤价联系紧密, 与全国煤价的市场关联程度较高。大同煤价和秦皇岛煤价协整关系较好, 原因是大同和秦皇岛由我国最大的铁路运煤通道大秦铁路连接, 空间区域间存在很强的物流运输关联度。通过上面的分析发现, 空间中物流运输的关联度是影响区域间煤炭价格关联度的重要因素, 并且表现出同向变化的趋势, 这与经验是相符的。
(四) 格兰杰检验
在序列平稳性检验和协整检验的基础上, 对存在显著协整关系的煤价的一阶差分序列进行格兰杰非因果性分析 (表3) 。
注:**表示1%的显著水平, *表示5%的显著水平。
格兰杰非因果性检验结果表明, 中等发热量全国煤价的一阶差分是高发热量和低发热量煤价一阶差分的格兰杰原因。由此可以判断, 中等发热量的煤炭价格波动在煤价市场波动占据主导地位, 原因是中等发热量的煤炭发热水平与煤炭原始赋存发热量水平较为接近, 产量和交易量均占有较大比重。在秦皇岛市场中, 高发热量和中等发热量煤价的一阶差分互为因果关系, 低发热量煤价的一阶差分是中等发热量煤价一阶差分的格兰杰原因, 结合上文协整检验结果发现, 秦皇岛港区域市场内不同煤质煤炭价格波动不存在显著的单向因果关系, 中等发热量煤价的主导作用不明显。不同区域市场间煤价的格兰杰因果关系相对较弱。中等发热量秦皇岛煤炭价格的一阶差分和大同煤价均为全国中等发热量煤价均值一阶差分的格兰杰原因, 说明秦皇岛煤炭市场和大同煤炭市场在全国煤炭市场中的“风向标”地位。
(五) 模型实证结果
根据上文的协整检验和格兰杰检验结果, 我国煤炭价格间存在长期均衡关系。本文运用OLS方程对煤炭价格间长期均衡关系进行描述, 结果如表4。
四、结论与建议
笔者对同一区域不同煤质和不同区域煤价进行因果关系检验和协整分析, 得出以下四个结论:第一、同一区域市场煤炭价格波动关系紧密, 价格关联程度较高, 中等发热量煤价在价格波动中处于主导地位;第二、区域联系紧密的市场煤价关联程度较高, 其他区域市场煤价关联程度相对较低, 我国煤价和国际煤价市场关联程度较低;第三、秦皇岛煤价和大同煤价波动是全国煤价波动的“风向标”;第四、全国煤炭均价形成因素复杂多样, 秦皇岛煤价和大同煤价只是全国煤价形成因素的一部分。政府应采取有效措施保证我国煤炭市场的平稳运行并加速煤炭市场化进程, 包括提高煤炭铁路运输的市场化程度, 提高铁路运输的调配能力, 在我国中东部地区建立大型煤炭中转基地, 建立全国煤炭信息共享平台等。煤炭企业应积极转变思想, 主动参与市场竞争, 提高企业对煤价波动和供需波动的适应能力, 以市场化为契机转变经济增长方式, 提高自身竞争力, 实现企业的长远发展。
注:表内的所有模型系数均在1%的置信水平下通过T检验。
参考文献
[1]Jianliang Wang, Lianyong Feng, Gail E.Tverberg.An analysis of China’s coal supply and its impact on China’s future economic growth[J].Energy Policy, 57 (2013) .
[2]雷强.国内外煤炭价格的非线性特征研究[J].资源科学, 2013 (10) .
[3]丁志华, 赵洁, 周梅华.基于VEC模型的煤炭价格影响因素研究[J].经济问题, 2011 (3) .
[4]张华明, 赵国浩.煤炭价格形成机制存在的问题及对策分析[J].资源科学, 2010 (11) .
[5]林伯强.危机下的能源需求和能源价格走势以及对宏观经济的影响[J].资源科学, 2010 (1) .
[6]邹绍辉, 张金锁.我国煤炭价格变动模型实证研究[J].煤炭学报, 2010 (3) .
[7]许兆波, 张同建.我国煤炭价格季节性效应研究[J].湖北工业职业技术学院学报, 2014 (2) .
[8]冯雨, 谢守祥.我国煤炭价格周期波动特征研究[J].价格理论与实践, 2014 (1) .
空间关联分析 篇4
关键词:经济增长,空间关联性,Moran’s I指数,纵向阶段性,横向差异性
一、经济活动空间关联性的统计分析方法:Moran’s I指数
经济活动空间关联性的统计分析逐步受到应有的关注[1~8]。空间统计探索检验方法包括空间直方图、盒子图、分位数图和系列空间自相关指标。最常用的空间自相关指标是Moran指数(Moran,1950)和G系数(Ord&Getis,1995),这里具体只介绍前者。用Moran’s I度量目标变量的空间相关性分为全局指标(global Moran’s I)和局部指标(local Moran’s I),前者用于验证整个研究区域某一要素的空间模式,后者用于分析整个大区域中,局部小区域单元上的某种现象或属性值与相邻局部小区域单元上同一现象或属性值的相关程度。Global Moran’s I的定义是:
Local Moran’s I的定义是:
其中,n是空间单元总数,xi,xj为目标变量x在地区i和j的观测值,x是变量x的平均值。wi j是二元相邻权重矩阵的元素,当地区i和j边界相连接时,wi j的值为1,否则即为0。由I和Ii的公式及二者的关系可知,Local Moran’s I所测量的内容与Global Moran’s I类似,都是变量x在地区i和j的空间相关性。I和Ii的取值在-1~1之间[5]。
Global Moran’s I的统计意义:若各地区间变量x对应的经济行为是空间正相关的,则I的数值应当较大;若负相关则较小。当目标区域数据在空间区位上相似的同时也有相似的属性值时,空间模式整体上就显示出正的空间自相关性且有聚集现象;而当在空间上邻接的目标区域数据不同寻常地具有不相似的属性值时,就呈现为负的空间自相关性;零空间自相关性出现在当属性值的分布与区位数据的分布相互独立的情况。
Local Moran’s I的统计意义:当Ii=0时,表明地区i的属性值xi与所有相邻地区j的属性值xj不相关,地区i的目标变量x对应的经济行为不受相邻地区影响,不存在空间依赖性;当为Ii正值时,表明地区i的属性值xi与所有相邻地区j的属性值xj是正相关关系,有相似的属性;当Ii为负值时,表明地区i的属性值xi与所有相邻地区j的属性值xj是负相关关系。
值得注意的是Local Moran’s I值的总和与Global Moran’s I有一个倍数(r)关系:I=r×Σni=1Ii。Global Moran’s I能描述经济变量整体的空间自相关模式,但不能反映具体各地区的空间依赖情况,或与整体模式不同的地区,而Local Moran’s I为分析各地区的情况提供了信息。另外,标准化的经济变量与空间滞后经济变量的Local Moran散点图(四个象限)还能够显示不同的局部空间关联性。一般地,在空间经济计量建模之前需要检验判断地区间的空间相关存在与否,主要的检验方法包括Moran’s I检验、最大似然LM-Error检验及最大似然LM-Lag检验等空间效应检验来进行(Anselin1988)[9~10]。
二、指标选择、数据来源与Moran’s I指数
为了用Moran’s I指数区域经济增长的自相关性,这里从省级市区和地级市区两个层面选择经济增长指标。省级市区经济增长的指标包括1978—2007年国内生产总值GDP、第三产业国内生产总值GDP3和人均国内生产总值GDPP,地级市区经济增长的指标包括2000—2006年人均国内生产总值GDPP和人均国内生产总值的自然对数Ln GDPP。数据来源于《新中国五十五年统计资料汇编1949—2004》、《中国统计年鉴2006—2008》和《中国区域经济统计年鉴2001—2007》。Moran’s I指数用Geoda095i空间统计软件进行计算,空间权重矩阵选取一阶的空间邻近权重(Contiguity Weight)矩阵。
(一)1978—2007年省级市区经济增长的Moran’s I指数
1978—2007年省级市区GDP、GDP3和GDPP的Moran’s I指数分别用GDP_MI、GDP3_MI和GDPP_MI表示,计算结果如表1所示,趋势变化如图1所示。表1中的Moran’s I指数如果在区间[0.10,0.20]、[0.20,0.40]和[0.40,0.50],统计显著性检验就分别达到0.10、0.05、0.01的水平。
(二)2000—2006年地级市区经济增长的Moran’s I指数
2000—2006年地级市区人均国内生产总值GDPP和人均国内生产总值自然对数Ln GDPP的Moran’s I指数可进行全国整体与分地带的计算。其中,考虑到行政区划的变动,地级市区的样本数分别为:全国31省市区336个,东北3省36个,东部10省市87个,中部6省82个,西部12省区131个。Moran’s I指数的计算结果如表2所示。
三、区域经济增长的空间关联性分析
区域分工演进推动了经济活动的区域聚集和空间关联,对这一过程的深入理解可以从区域经济增长的空间自相关性方面进行定量分析。
改革开放三十年来,中国省级市区经济增长的Moran’s I指数明显表现了变化的阶段性。Moran’s I指数GDP_MI、GDP3_MI和GDPP_MI都有长期增大和短期波动的现象,从图1可以直观地看到比较短的和比较长的波动周期,如果按照三个阶段划分,那么可以表现为1978—1991年、1991—2003年和2003—2007年这三个较长的波动周期。回顾几十年的历程,这与重大的经济发展战略与政策的实施基本一致。例如,在20世纪90年代开始推进社会主义市场化进程、深化城市改革,在新世纪初全面推进区域统筹协调发展、加入世界贸易组织推进经济国际化。当然,其中也能够折射国际政治、经济形势变动的影响。值得注意的是,Moran’s I指数GDP_MI、GDP3_MI的变动基本上是同步的,而且1995—2003年间GDP3_MI大于GDP_MI。GDPP_MI的长期增大趋势最为明显,1986年首次赶上GDP3_MI,在1986—1995年间紧跟GDP3_MI,到了1996—2003年间有一个高位回落和上升的过程,最终在2004年明显超过GDP_MI、GDP3_MI两者。
在加入WTO过渡期,中国地级市区经济增长的Moran’s I指数既表现了一定的纵向变化,又表现了明显的横向差异。这里Moran’s I指数的纵向变化(普遍增大)是非常明显的,恕不赘述。下面就Moran’s I指数的横向差异予以简要分析。虽然Moran’s I指数的计算受到样本大小的影响,但是从地级市区样本大小相近的东部10省市(87个)和中部6省(82个)两大地带来看,人均国内生产总值GDPP和人均国内生产总值自然对数Ln GDPP的Moran’s I指数都是东部10省市远远大于中部6省。而且,尽管西部12省区有131个地级市区,对应经济增长指标的Moran’s I指数都比东部10省市的要小一些。另外,东北3省36个地级市区经济增长指标的Moran’s I指数除了Ln GDPP在2003—2005年大于中部6省以外,其余情况的Moran’s I指数横向来看都是最小的,这恰好显示了用Moran’s I指数测度经济活动空间关联性的优越性和局限性。总之,经济发达的地带经济增长的空间关联性明显要强于经济欠发达的地带。
基于以上分析可以看出,深入进行区域经济活动空间关联性的定量分析,既能够为时空特征整合的经济统计建模提供方法支持,又能够为全面推进区域经济协调发展、协同演进提供决策的数据支持,具有一定的理论意义和实践价值。
参考文献
[1]美国国家研究委员会.振兴美国的数学——20世纪90年代的计划[M].叶其孝,等,译.北京:世界图书出版公司:北京公司出版,1993.
[2]张尧庭.空间统计学简介[J].统计教育,1996,(1):35-40.
[3]何江.中国区域人均GDP增长速度的探索性空间数据分析[J].统计与决策,2006,(22):72-74.
[4]马骊.空间统计与空间计量经济方法在经济研究中的应用[J].统计与决策,2007,(19):29-31.
[5]吴玉鸣.中国区域研发、知识溢出与创新的空间计量经济研究:第1版[J].北京:人民出版社,2007.
[6]张晓旭,冯宗宪.中国人均GDP的空间相关与地区收敛:1978—2000[J].经济学:季刊,2008,(1):399-415.
[7]解垩.公共卫生投资的空间计量经济分析[J].统计与信息论坛,2008,(6):88-92.
[8]管驰明.50多年来中国空港布局演变及其影响因素——基于空间分析和数理统计的方法[J].经济地理,2008,(1):445-449.
[9]Anselin L.Spatial econometrics:methods and models[M].Dordrecht,Kluwer Academic Publishers,1988:1-13.
空间关联分析 篇5
熊彼特认为, 创新是社会经济增长和发展的动力, 没有创新就没有社会的发展和进步。内生增长理论指出, 一国的经济增长主要取决于由创新引起的技术进步, 而其中研发是推动技术创新最为重要的供给因素。目前我国要建设创新型国家, 但是创新投入的资金和高素质的研发人员还是比较稀缺的, 这就要求国家在对创新投入进行决策时, 要努力提高对研发资金和研发人力投入的利用效率。
国内外学者一般以专利申请量指标来衡量技术创新, 以研发经费数与研发人员数来表示研发投入。利用专利来分析创新的投入产出问题始于20 世纪60年代, Schmookler、Scherer是早期研究专利与R&D关系的两位学者。Pakes & Griliches[1]采用1968 -1975 年121 家美国公司的专利和研发投入数据的研究发现, 研发投入对专利产出的累计效应弹性大约为0. 6。Bound利用在美国公开上市的大中型制造业企业作为研究对象, 结果发现对于大企业来说, 随着R&D项目的增大, 获得的专利数有所下降[2]。de Rassenfosse & van Pottelsberghe[3]研究发现, 研发生产率和专利化倾向是决定专利产出的两个重要因素, 教育、知识产权和科学技术政策决定了研发与专利产出之间的关系。
国内学者杜鹃等[4]的研究发现, 我国的研发经费的投入比起研发人员对专利产出的贡献水平更高, 在专利生产活动中具有更重要的作用。吉利平等[5]发现专利对科研资金的产出弹性为0. 465, 而专利对科学家和工程师的产出弹性高达1. 201。王俊[6]采用中国28 个行业大中型企业的面板数据检验了政府R&D补贴对企业R&D投入与自主创新的影响, 发现R&D补贴对企业自主创新的正面影响存在一定的不确定性。吴和成[7]利用2001 - 2005 年截面数据的研究发现, 经费对发明专利的影响程度要大于科技人员对发明专利的影响程度。黄静等[8]运用面板数据模型, 利用高技术产业2000 - 2007 年的统计数据, 对我国高技术产业的R&D投入产出关系进行实证研究发现, 经费投入对产出成果有着较强的促进作用, 而人员投入对部分产业的产出成果贡献较小。逄淑媛等[9]以132 家全球顶尖研发企业10 年的面板数据为样本, 通过对12 个行业的研究发现, 对几乎所有行业来说, 研发经费投入与专利产出的相关性较高。朱平芳等[10]运用面板数据分析中的随机效应模型实证研究了上海市政府的科技激励政策对大中型工业企业自筹的R&D投入及其专利产出的影响, 研究发现自筹的R&D支出对专利产出有着显著的正面作用。张小蒂等[11]将R&D资本存量与高技术产业各个产出指标进行了回归分析发现, R&D资本与高技术产业的专利申请数量、产品销售收入、利润、新产品销售收入是正相关关系。
与现有文献只利用时间序列数据对研发投入与技术创新之间的关系进行静态实证研究不同, 本文采用状态空间模型的Kalman滤波法来分析研发资金投入与研发人力投入对技术创新的弹性系数, 并对其阶段波动性的成因和系数大小进行深入研究。
2 研究方法
2. 1 协整理论
研发投入与技术创新数据属于时间序列数据, 而对时间序列数据直接进行回归分析, 可能会出现伪回归问题。为了克服伪回归现象, 采用1987 年Engle和Granger提出的协整理论及其方法对研发投入与技术创新问题进行研究。
2. 2 状态空间模型
状态空间模型一般应用于多变量时间序列。设yt是包含k个经济变量的k × 1 维可观测向量。这些变量与m × 1 维向量有 αt关, αt被称为状态向量。定义“量测方程” ( measurement equation) 或称 “信号方程” ( signal equation) 为:
其中: T表示样本长度, Zt表示k × m矩阵, 称为量测矩阵, dt表示k × 1 向量, ut表示k × 1 向量, 是均值为0, 协方差矩阵为Ht的不相关扰动项, 即:
一般地, αt的元素是不可观测的, 然而可表示成一阶马尔可夫 ( Markov) 过程。定义转移方程 ( transition equation ) 或称状态方程 ( state equation) 为:
其中: Tt表示m × m矩阵, 称为状态矩阵, Ct表示m × 1 向量, Rt表示m × g矩阵, εt表示g × 1向量, 是均值为0, 协方差矩阵为Qt的连续的不相关扰动项, 即
量测方程和状态方程的扰动项的协方差矩阵用Ω 表示:
当k = 1 时, 变为单变量模型, 量测方程可以写为:
若使上述的状态空间模型成立, 还需要满足下面两个假定:
( 1) 初始状态向量 α0的均值为 α0, 协方差矩阵为P0, 即
( 2) 在所有的时间区间上, 扰动项ut和 εt相互独立, 而且它们和初始状态 α0也不相关, 即
且
量测方程中的矩阵Zt, dt, Ht与转移方程中的矩阵Tt, Ct, Rt, Qt统称为系统矩阵。如不特殊指出, 它们都被假定为非随机的。因此, 尽管它们能随时间改变, 但是都是可以预先确定的。对于任一时刻t, yt能够被表示为当前的和过去的ut和 εt及初始向量 α0的线性组合, 所以模型是线性的[12]。
3 变量及数据来源
选取国内专利申请量来表示技术创新, 可以记为PAT。国外学者常采用专利申请量而不是专利授权量来衡量创新。Griliches证明了专利申请量比专利授权量更能反映创新的真实水平, 因为专利授权量受政府专利机构等人为因素的影响比较大, 使专利授权量由于不确定性因素增大而容易出现异常变动。研发投入一般包括财力和人力投入。本文选取研究与发展经费支出 ( R&D) 额代表研发的财力投入, 记为RDE。为了消除通货膨胀因素的影响, 研发经费按商品零售价格指数对其名义值进行了对应调整处理 ( 按1990 年不变价格进行了换算) 。为了与国际接轨, 从2009 年起, 我国科技统计中不再使用 “R&D科学家工程师”这一指标, 代之以国际常用的 “R&D研究人员 ( Researcher) ”指标。 “R&D研究人员”是指从事新知识、新产品、新工艺、新方法、新系统的构想或创造的专业人员及R&D课题的高级管理人员。为了保证数据的一致性和研究结果的可靠性, 本文选取R&D人员全时当量作为研发的人力投入, 记为RDP。
为了消除时间序列数据中存在的异方差现象, 对3 个变量分别取自然对数, 记为LNPAT、LNRDE和LNRDP, 其相应的一级差分序列记为△LNPAT、△LNRDE、△LNRDP。本研究采用的数据 ( 见表1) 来源于 《中国统计年鉴 ( 2012) 》 和 《中国科技统计年鉴 ( 2012) 》。
数据来源:根据《中国统计年鉴 (2012) 》和《中国科技统计年鉴 (2012) 》整理和计算而得
4 实证检验
4. 1 平稳性检验与协整检验
首先要对LNPAT、LNRDE和LNRDP进行平稳性检验, 以确定其平稳性及单整阶数。检验结果见表2。
通过表2 可知, LNPAT、LNRDE和LNRDP经过一级差分已经没有单位根, 是平稳时间序列, 即LNPAT ~ I ( 1 ) , LNRDE ~ I ( 1 ) , LNRDP ~ I ( 1 ) , 满足协整检验的前提, 所以可以对3 个变量进行Jo-hansen检验, 结果见表3。表3 表明最大特征根统计量在5% 的水平上存在1 个协整关系。
注: 特征根为最大值
协整回归方程为:
协整回归方程表明, 研发资金投入对技术创新产出的系数要小于研发人力投入对技术创新产出的系数, 这个结果与我们对技术创新活动的直觉认识是一致的。在传统的部门中, 我国资本的产出弹性一直大于劳动力的产出弹性, 而在科技研发领域, 则是人力资本对科技成果产出的贡献率会更大, 因为研发领域是知识密集性行业, 它的生产效率高度依赖于掌握了先进知识的人力资本。中国的技术创新资金投入产出弹性为0. 613, 说明我国研发资金投入每增加1% , 我国的专利将增加0. 613% , 这个结果和美国是类似的, 美国专利对R&D的弹性在0. 3% ~ 0. 6% 之间。我国R&D人员全时当量对专利产出的弹性高达0. 848, 意味着增加1% 的研发人员, 专利产出将增加0. 848% 。残差序列的ADF检验结果见表4, 方程的残差通过ADF检验, 说明3个变量之间存在长期均衡关系, 也说明协整方程是可靠的。图1 分别显示了残差、观测值与拟合值的线性趋势, 也说明了变量之间存在协整关系。
研究认为研发投入与专利申请几乎没有滞后效应 ( Jaffe) , 或者说滞后效应对研究结论的影响不是很明显 ( Griliches) , 所以本文没有考虑研发投入与专利产出之间的滞后效应。
4. 2 基于状态空间模型的变参数分析
建立研发资金投入和研发人力投入对技术创新的可变参数空间状态模型, 用卡尔曼滤波 ( Kalman Filtering) 对弹性系数进行估计, 模型为:
可变参数模型定义为:
通过计量分析, 从表5 可以看出, 可变参数空间状态模型的估计值通过检验, 模型形式选择正确。技术创新资金投入产出弹性在0. 5980 ~ 1. 5884 之间, 技术创新人力投入产出弹性在- 0. 3712 ~0. 8754 之间。变系数估计值见表6。
通过图2 可以看出, 1992 - 1998 年间 ( 1997 年除外) , 研发资本产出弹性大于研发人力产出弹性, 但是研发资本产出弹性在1993 - 1997 逐渐下降, 而研发人力产出弹性在此期间却是逐渐上升的。可能的原因: ( 1) R&D经费投入比较低。原因在于要素的产出弹性大小与其相对稀缺性密切相关, 要素越是稀缺, 其产出弹性越比较高。模型结果表明在技术创新中, R&D经费较于R&D人员是稀缺要素。1992 年我国才刚刚确定了市场经济体制, 资本短缺是当时经济中面临的突出问题。 ( 2) 1992 - 1998 年研发人员的产出弹性低, 说明研发人员的素质还有待进一步提高。 ( 3) 对研发人员的激励机制不健全。虽然我国1985 年颁布了 《专利法》激发了科技人员的创新激情, 但由于没有从根本上建立起对人才管理的合理体制, 导致科技人员的创新积极性尚未得到充分发挥。尽管近20 年来高学历人才逐渐增加, 但整体的创造力没有得到较大提升。
1999 年后, 研发人力产出弹性大于研发资本产出弹性。可能的原因: ( 1) 研发人员的素质得到提高。1998 年我国实施科教兴国战略, 教育得到了重视, 各地加大了对人力资本投资, 研发人员素质提高后, 其产出弹性就随之增加。 ( 2) 为了建设创新型国家, 国家加大了对科技的投入, 使得研发资本的稀缺性得到有效缓解。
4. 3 脉冲响应函数与预测方差分解
向量自回归 ( VAR) 模型可以测定随机扰动对变量系统的动态影响, 其数学表达式为:
其中: yt是M维内生变量向量, Xt是d维外生变量向量, A1…AP和B1…Bt是待估计的参数矩阵, 内生变量和外生变量分别有p和r阶滞后期, εt是随机扰动项。
图3 是基于VAR ( 2) 和渐近解析法 ( Analtic) 模拟的脉冲响应函数曲线。
从图3 可以看出, 研发资金投入对技术创新新息的一个标准差扰动的响应呈现出比较稳定的响应并且持续时间也比较长 ( 尤其是从第3 年开始) , 这说明了研发资金投入与技术创新之间存在着紧密的联系, 并且这种联系也具有长期性。研发人力对技术创新新息的一个标准差扰动的响应也呈现出较为稳定的持续性 ( 尤其是从第3 年开始) 。但是, 图3也显示了研发人力投入与技术创新之间的互动关系要强于研发资金投入与技术创新的关系。这一研究结论又进一步支持了协整的实证结果, 也说明了研发投入与技术创新之间存在密切的长期关系。
方差分解模型采用近似的相对方差贡献率 ( RVC) :
其中: cqij是脉冲响应函数, σij是第j个变量的标准差, yit是自回归向量的第个变量。RVCj→t ( s) 是根据第j个变量基于冲击的方差对yit的相对贡献度来反映第j个变量对第i个变量的影响程度。RVCj→t ( s) 的值越大, 意味着第j个变量对第个变量的影响越大。基于VAR ( 2) 模型和渐近解析法对技术创新、研发资金投入与研发人力投入的方差分解, 见图4、图5 和图6。横轴表示冲击作用的滞后期间数, 纵轴表示对应于不同滞后期各变量的贡献率。由图4 可知, 在第1 期, 技术创新的全部预测误差主要来自自身, 随后下降, 而研发资金投入、研发人力投入对技术创新预测误差的影响在第2 期后逐步提高, 研发人力对技术创新的贡献率在第4 期后明显要大于研发资金投入, 最后稳定在14% 左右。由图5 可知, 在1 - 2 期, 研发资金投入的全部预测误差也主要来自自身, 技术创新对研发资金投入贡献率在第2 期后明显要大于研发人力投入, 最后稳定在76% 左右。由图6 可知, 在1 - 2 期, 研发资金投入对研发人力投入的贡献率比较大, 但从第3 期开始, 技术创新对研发人力投入的贡献率比较大, 最后稳定在76% 左右。
5 基本结论及政策建议
本文基于协整理论和状态空间模型实证分析了研发投入与技术创新的动态关系, 协整检验研究发现: 研发资金投入、研发人力投入与技术创新之间具有很强的正向关联性, 三者之间存在长期均衡关系。基于状态空间模型的可变参数模型研究发现, 技术创新资金投入产出弹性在0. 5980 ~ 1. 5884 之间, 技术创新人力投入产出弹性在- 0. 3712 ~0. 8754 之间。研发资金投入和研发人力投入对技术创新均产生积极影响, 科研投入确实可以极大提高我国的技术创新能力。但总体而言, 研发人力投入对技术创新的贡献要大于研发资金投入。因为研发领域是知识密集性行业, 它的生产效率高度依赖于掌握了先进知识的人力资本, 可见培养高素质科研人员, 对其进行有效激励, 对提高我国创新能力具有特别重要的意义。
基于此, 本文特提出以下对策建议:
( 1) 通过制度性安排继续加大R&D经费投入, 促进技术创新。2011 年我国R&D经费投入总量虽然达到了8687 亿元, 但是R&D经费投入强度不高, 只有1. 84% , 没有达到国家 “十一五”科学和技术发展规划 ( 2006 - 2010 年) 2% 的目标, 远低于韩国2010 年的3. 74% 、日本2010 年的3. 26% 、美国2009 年的2. 9% 、德国2010 年的2. 82% 、法国2010年的2. 25% 。一个地区的科技投入力度应与其经济社会发展所处的阶段相适应, 低水平的科技投入会延滞社会经济发展, 因此, 要按照 《中华人民共和国科学技术进步法》的要求, 在编制年初预算和预算执行中的超收分配时, 都要体现法定增长的要求, 保证科技经费的增长幅度明显高于财政经常性收入的增长幅度[13]。
空间关联分析 篇6
关键词:利率波动,国际利率,空间关联,经济距离,广义虚拟经济
一、引言
在开放经济下,各国利率市场存在着较强的关联性,即呈现出同涨同跌的运动特征。这一关联效应一般可以从利率平价角度来进行解释。而从另一个角度来说,通过对不同国家间利率联动程度差异性比较,也可以反映出不同国家金融市场开放程度。
Lo等[1]通过对日本市场上的日元利率数据和英国伦敦同业拆借市场上的日元利率数据进行相关性分析后发现,日本市场和英国伦敦市场间日元利率存在着长期稳定的均衡关系。Karfakis和Moschos[2]研究了欧洲货币组织各成员国之间的利率联动效应,发现这些国家之间利率变化的同步性,并将这一同步性的出现归结为欧洲货币组织各成员国之间金融市场的高度开放性。李成等[3]对次贷危机前后中美两国的利率联动关系进行了研究,发现两者间存在着明显的波动溢出效应。刘亚等[4]研究了银行间利率互换、国债与离岸市场人民币利率互换之间的联动效应,发现境内和境外的人民币利率间存在着双向报酬溢出效应。郭树华等[3]借助协整检验、格兰杰因果检验和方差分解检验等方法对中美利率、汇率间的相关性进行了分析,发现两国间短期内联动较弱而长期来看存在着协整关系。郝中中[6]借助SVAR模型分析了人民币汇率、中美利差和资本流动净额三者间关系,发现中美利差变化与资本流动净额变化有关。
现有的对全球利率市场关联效应分析从国与国之间联动角度分析较多,而对于全球利率市场联动整体效应,以及这一联动与国家间地理距离和经济发展水平间的关联性研究较为缺乏。本文将结合复杂网络分析方法和二次指派程序分析方法(QAP方法),对金融市场波动的空间关联整体效应进行深入探讨。文中所涉原始数据来自世界银行数据库、Wind及同花顺iFind。
二、利率波动关联网络构建与分析
(一)利率波动关联网络构建方法
在构建利率波动关联网络中,需要相关国家利率市场时间序列数据。本文搜集了143个国家从2003年到2012年的年度实际利率数据。在网络构建中,143个国家就代表143个网络节点,节点之间是否存在着连边用两个国家利率变化乘积值大小来判断。
设ri(t)为第i个国家t时刻实际利率值,该值在Δt时间内变化量为Ri(t-Δt,t)=ri(t)-ri(t-Δt)。对其进行归一化处理,得到。其中σi表示Ri在整个时间段T内标准偏差,,<…>表示时间段T内平均值。国家i和j之间利率变化关联值为,得到所有143个国家间2003—2012年这一关联值的平均值为。定义两个国家利率波动存在关联的条件为:
即两个国家利率变化乘积大于等于平均值ζ时,两个国家间有连边eij=1;两个国家利率变化乘积小于平均值ζ时,两个国家间没有连边eij=0。这样就建立了整个利率波动关联网络。
(二)利率波动关联网络集聚特征及其时间演化
可通过求网络集聚系数来观察利率波动关联网络集聚性,从而反映全球利率波动集聚效应。
网络集聚系数定义如下。设网络中节点i与网络中其他节点间存在着ki条连边。这ki个与节点i相连的节点相互间也有可能存在连边,其最大值为ki(ki-1)/2。若这ki个节点间实际存在的连边数为Ei,那么节点i的集聚系数C,定义为Ci=2Ei/[ki(ki-1)]。即Ci=与点i相连的三角形实际数量/与点i相连的三角形最大可能数量。通过求网络中所有节点集聚系数Ci的平均值,就可以得到整个网络的集聚系数值C。从集聚系数定义中可以看出,如果整个网络任意两点间都有连接,常称为全连通网络,那么C=1。如果整个网络所有节点间都没有连边,那么C=0。所以,集聚系数应该满足0≤C≤1这一条件。集聚系数值越大,说明国际利率市场联动性越强;集聚系数值越小,说明国际利率市场联动性越弱。
图1为利率波动关联网络的集聚系数随时间变化图。从图1可以看出,2004—2012年,全球利率波动关联网络的集聚系数先是逐渐上升,到2009年达到最大值。随后集聚系数连续两年急剧下挫,后续逐步趋于稳定。而从现实的国际金融市场发展的时间节点上看,2007—2009年期间,正是美国次贷危机从发生到逐步向其它国家扩散的时期。即从集聚系数变化中可以看出,在美国次贷危机发生发展时期,全球利率市场走势趋于高度一致。而随着美国为应对次贷危机所实施的各项经济政策逐步调整到位,国际利率市场联动性也逐步恢复到次贷危机前水平。
三、国际利率市场波动关联与地理空间关联或经济空间关联的相关性检验
国际利率市场波动关联反映的是国家与国家间利率波动联动效应。对于各个国家来说,它们间有地理空间上的关联性。即某些国家之间距离较近,属于同一大洲;某些国家之间距离较远,分属于不同的洲。同时,这些国家之间还存在着经济空间上的关联性。即某些国家之间人均GDP值接近,属于经济发展水平相近国家;某些国家间人均GDP值相差较大,属于经济发展水平差异较大国家。在国际利率市场上所存在的利率波动联动效应,与地理空间或经济空间中所存在的国家与国家间的关系是否存在着联系呢?或者说,是否地理距离越接近的国家,利率波动联动性程度越大?经济发展水平越接近的国家,利率波动联动性程度也越大?下面通过借助二次指派程序,即QAP (Quadratic Assignment Procedure)方法,对这种“关系—关系”之间可能存在的联系进行检验。
(一)二次指派程序分析方法
在传统计量经济学方法中,在进行参数估计或统计检验时,要求各变量间相互独立。对于非独立变量,是无法通过标准的统计程序来进行相关参数估计或者统计检验的。不然,就会出现“多重共线性”问题,从而使得对变量的显著性检验失去意义,借助模型来进行相关预测的功能也就会失效。例如,在近似共线性下,使用普通最小二乘法所得到的各参数估计量是无效的。而在完全共线性下,将无法得到相关参数的估计量。在本文所构建的波动关系、空间距离关系、经济发展水平关系等各类关系矩阵中,体现的都是数据间的关联性。要对这些关系间的关系进行检验,需要用到一些新的方法。研究人员经常采用的是随机化检验(randomization test)方法,QAP分析方法即为此类方法。
二次指派程序分析方法(QAP)主要用于两个矩阵间相关性分析。其相关性分析步骤主要分为四步。首先,将每个矩阵中的所有取值都看成是一个长向量。在这个长向量中,包含着n(n-1)个数(不考虑对角线上的数)。其次,计算这两个长向量之间的相关系数。再次,通过对其中一个矩阵的行和相应的列同时随机置换,计算置换后的矩阵与另一矩阵的相关系数,多次进行这样的置换过程求得相应的多个相关系数值。将这些经矩阵置换后得到的相关系数与原来的两个矩阵的相关系数值进行比较,求得其中大于等于原矩阵相关系数值的那些相关系数数量比例。最后,通过对这些置换所得的相关系数分布特征的观察,判断两个矩阵之间是否存在着统计意义上的强关系。
(二)利率波动关联与地理空间关联的QAP检验
首先,定义两个国家间空间关联如下。如果两个国家属于同一大洲,那么这两个国家地理空间关联;如果两个国家不属于同一大洲,那么这两个国家地理空间不关联。按照利率波动关联矩阵的构造方法,可以构造地理空间关联矩阵。
在利率波动关联与地理空间关联相互关系上,假设两国间地理空间关联性程度越高,两国利率波动联动程度越强。借助QAP分析方法对经过二值化处理的利率波动关联矩阵和地理空间关联矩阵进行相关性检验,可得到检验结果。
在进行利率波动关联和地理空间关联的相关性检验中,选取了利率波动关联程度最强的2009年度数据进行检验。同时还选取了四种不同大小的阈值ζ,2ζ,3ζ,4ζ分别进行检验,考察阈值取值对检验结果影响。表1为利率波动关联和地理空间关联相关性检验结果。
从表1检验结果中可以发现,利率波动关联和地理空间关联间相关性并不显著。即在本文所设定的各个阈值下,并没有反映出两国若属于同一大洲,那么两国间利率联动程度会越强。这可以理解为全球利率波动关联更多地体现为金融市场关联。而金融市场关联与一国经济开放程度等有关。某些国家虽然处于同一大洲,但在经济开放程度上存在很大差异,相互间经济往来也比较少。这种现象表现在利率波动关联与地理空间关联上,就是两个国家利率波动联动性强弱与这两个国家是否处于同一大洲,是否地理邻近没有直接关系。
(三)利率波动关联与经济空间关联的QAP检验
在分析利率波动关联与经济空间关联前,先引入经济空间距离变量λij。定义λij为经济空间中的距离,用两国间人均GDP差的绝对值表示[7],λij=|λi-λj|,其中,λi为i国人均GDP,λj为j国人均GDP。λij数值越大,表示两国间经济发展水平差距越大;λij数值越小,表示两国间经济发展水平差距越小。本文根据人均GDP来计算经济空间距离,而不是根据一国GDP总量来计算经济空间距离,是为了避免因不同国家地域面积、人口数量等因素差异性较大而对统计结果可靠性造成影响。
参照构造利率波动关联网络方法,即阈值法来构造经济空间关联网络,得到经济空间中的关联矩阵。具体构造步骤如下。首先,计算两两国家间GDP差的绝对值的平均值。其次,依据该平均值设置阈值,将所确定的阈值与λij比较,若λij值小于等于阈值,则国家i和国家j间的经济空间关联值设为1,否则设为0。最后,构建经二值化处理的经济空间关联矩阵。借助QAP分析方法检验经济空间关联矩阵和利率波动关联矩阵间相关性。
从表2的检验结果中可以发现,取不同阈值ζ,2ζ,3ζ,4ζ时,利率波动关联和经济空间关联都成显著正相关关系。说明在与利率波动关联相关的因素中,两国间经济发展水平差距起到很大影响。两国经济发展水平越接近,两国利率波动联动性越强。这种关联性可以从两个方面来理解。一方面,对于经济发展水平相当的国家,两国开放程度和发展模式可能十分相近。利率波动关联性高低反映了两国在开放程度和发展模式上的差异性大小。另一方面,对于经济发展水平相当的国家,两国金融市场间联系可能更为紧密。利率波动关联性高低反映了两国间经济联系强度大小。
四、结论
从全球利率市场波动关联时间演化效应来看,在金融危机时期,各国金融市场联动程度明显增强。从影响国家与国家间金融市场波动的联动性程度高低相关因素来看,在经济发展水平相当的国家间,利率市场波动更容易产生相互影响。而在地理空间临近的相关国家间,地理邻近效应并没有在两国间利率波动联动性强度上反映出来。
参考文献
[1]Lo W C,Fung H G,Morse J N.A Note on Euroyen and Domestic Yen Interest Rates[J].Journal of Banking and Finance,1995,19(7):1309-1321.
[2]Karfakis C,Moschos D M.Interest Rate Linkages Within the European Monetary System:A Time Series Analysis[J]Journal of Money,Credit and Banking,1990(22):388-394.
[3]李成,王彬,黎克俊.次贷危机前后中美利率联动机制的实证研究[J].国际金融研究,2010(9).
[4]刘亚,张曙东,许萍.境内外人民币利率联动效应研究——基于离岸无本金交割利率互换[J].金融研究,2009(10).
[5]郭树华,王华,王俐娴.中美利率与汇率联动关系的实证研究:2005-2008[J].国际金融研究,2009(4).
[6]郝中中.人民币汇率与中美利率联动机制分析[J].金融论坛,2015(1).
空间关联分析 篇7
电子商务是以电子通讯网络为载体, 通过网络对含有经济价值的商品和服务进行宣传、交易与结算, 它是随着第三次科技革命和计算机网络的普及而出现的一种新型商业模式, 主要包括B2B、B2C、C2C、C2B等形式, 具有受众广、成本低、信息传输快等优点。电子商务的兴起, 正加速改变着传统的企业经营方式, 带动了全产业链的升级, 2015年全国电子商务交易额达18.2万亿元, 同比增长35%, 在网上做生意者日众。在国家层面上, “十三五”时期电子商务产业发展的顶层设计中也认为“要促进电子商务进农村进社区, 推进服务业电子商务应用, 开展电子商务与物流快递协同发展试点, 推动跨境电子商务健康发展”等目标。基于此, 本文旨在探究电子商务产业在空间分布上的特点及与各影响因素在空间上的关联度。
2 研究基础与文献综述
电子商务的诸多优点与巨大影响力吸引了不少学者的目光, 近些年来学者们尝试从不同角度对电子商务产业进行研究。李博群 (2015) 从宏观角度出发, 认为我国电子商务产业整体发展势头迅猛, 但是也存在区域间发展态势不平衡, 法律风险、交易信用和安全风险突出, 配套设施欠缺等弊端, 指出我国应加强电子商务产业的信用体系建设和相关基础设施投入。游贵巧 (2011) 则从经济、技术、社会、理念等角度考察了影响电子商务网络发展的因素, 认为电子商务的发展要从经营、技术创新、资源整合方面入手。产业集群也是该领域研究的重点方向, 凌守兴 (2015) 通过对不同地区个案的比较分析了农村电子商务产业集群的萌芽、成长、成熟三个阶段的状况与特征。蒋定福等 (2012) 对上海市电子商务产业集群的发展现状进行了探讨, 指出应从培养行业发展环境, 第三方机构建设, 产业载体建设, 发挥龙头企业带动作用这四个方面入手, 推动电子商务产业集群的健康发展。由于电子商务的发展深受居民分布, 交通因素的影响, 故也有学者从空间地理的视角对此加以研究。总体而言, 我国电子商务的分布具有明显的地域差异, 以长三角为核心, 呈由东南向西北的阶梯分布, 且主要受到物流业、互联网技术、居民文化程度等因素影响。钱海东等 (2014) 通过对我国C2C卖家在空间上的分布进行了研究, 同样认为C2C卖家区域分布差距较大, 且向沿海和特大城市聚集。
基于此, 本文在梳理文献的基础上, 旨在从空间计量经济学的视角出发, 对以往学者的研究结论加以辨析和发展, 分析电子商务产业在空间地域单元之间互相影响的效应与表现, 以及电子商务产业发展程度与当地的经济发展水平、交通便利程度、网络普及程度等变量的影响。
3 研究方法
3.1 数据来源与自变量设定
本文假设电子商务产业的发展与当地的人口规模、经济基础、互联网基础设施、交通便利程度有关。故本文选取人均电子商务销售额为因变量, 并将人口密度、人均生产总值、互联网普及率、公路密度作为自变量, 从空间计量的角度考察其对电子商务产业发展水平的影响。本文数据来源于《中国统计年鉴》、《中国第三产业统计年鉴》及各省市区的相关统计数据。
3.2 空间关联性测量指标
某一变量在空间上发生集聚, 则意味着在一定的区域内, 该变量在各个地域单元之间具有空间自相关性。Moran在1950年提出全局Moran I指数, 反映各个地域单元与邻近地域单元的相似性。单变量全局莫兰指数I (又称自关联性全局莫兰指数I) 的计算公式:
双变量莫兰指数Ixy (又称交叉莫兰指数I) 的计算公式为:
其中, n是研究地域内的单元数, wij是空间权重矩阵的元素值, xi是地域单元i的x变量值, yi是地域单元i的y变量值。莫兰指数的取值范围在-1至1之间, Moran I大于0表示正相关, 越接近于1表示属性相似的值集聚的特征越明显, Moran I越接近0则表示值的属性分布越趋向于随机分布, 空间自相关性就越弱。此外, Anselin在1995年提出用局部莫兰指数来检验局部地区是否存在变量聚集现象。其计算公式为:, 在局部莫兰指数中, 正的I值表示高值被高值所包围或者低值被低值所包围, 而负的I值则表示低值被高值所包围或者是高值被低值所包围。
3.3 空间权重矩阵的确定
空间权重矩阵是用来表示地域单元之间邻接性的工具, 若邻接则表示为1, 不邻接则表示为0。常用的空间权重矩阵设定方式有线性邻接、车邻接、后邻接、象邻接等, 本文采用后邻接来生成空间权重矩阵, 若两个地域单元之间存在共同的边或共同的顶点, 就定义它们邻接, 即Wij=1, 否则Wij=0。
4 空间相关性研究
4.1 全国电子商务产业发展水平的地域分布
根据各地区人均电子商务销售额 (单位:亿元) 制作了相应的四分位图和LISA图, 如图1、图2所示, 我国人均电子商务销售额呈现了东中西部梯级分布格局, 由东部沿海往西北内陆, 人均电子商务销售额呈递减趋势。就空间集聚性而言, 仅有天津呈现了高-高分布, 而西北地区则呈现了低-低分布, 内蒙古、甘肃、青海均处在电子商务产业较不发达的区域。此外, 经计算可得人均电子商务销售额的Moran I指数为0.135215, 说明其在空间分布上呈现出较弱的空间正相关。
4.2 自变量的空间分布情况
本文使用Geoda软件制作了四个被解释变量的Moran I散点图, 与人均电子商务销售额类似, 我国的人口密度在空间上也呈现了东中西梯级分布的特征, 如图3所示, 其Moran I指数为0.198985, 大部分散点位于第一和第三象限, 说明人口密度的地域分布呈现了较大的空间正相关性。究其原因, 一是因为东部地区多为平原, 气候宜人, 且为我国主要的粮食生产基地, 为大量人口的生存提供了物质基础, 而西部地区则气候恶劣, 经济落后, 对人口的吸引力不足。
在人均GDP的空间分布上, 也大致呈现了东高西低的局面, 如图4所示, 其Moran I指数为0.228949, 具有正的空间相关性, 江浙沪以及环渤海、珠三角地区均呈现高-高分布, 而云南、贵州、广西则为低人均GDP的集聚区。人均GDP较高的地区要么因为地处沿海, 拥有良好的地理区位, 要么则是因为当地矿产等自然资源丰富。
在互联网普及率方面, 东部沿海地区的普及率普遍超过50%, 明显高于全国其他地区, 西北边疆地区的普及率也较高, 中部和西南地区的普及率则较低, 部分省份的普及率甚至低于35%。如图5所示, 其Moran I指数为-0.0681794, 指数较小, 倾向于随机分布, 可以认为互联网普及率不具有明显的空间相关性。一方面, 东部地区经济发达, 互联网的普及具有良好的经济基础。另一方面, 新疆、内蒙古、青海、陕西等西部地区虽然经济水平不算发达, 但是当地地广人稀, 互联网的需求量较少, 出现了供大于求的局面, 也有助于互联网的普及。而中部和西南则经济欠发达且人口众多, 多山地, 基础设施建设成本大, 于是出现了互联网资源供不应求的局面。
电子商务的发展离不开物流与交通运输行业的支撑。当地公路密度决定了当地电子商务产业运输成本的高低。如图6可知, 其Moran I指数为0.449661, 呈现了显著的空间自相关。具体而言, 山东、河南、安徽、江苏四省为我国公路密度最为稠密的区域, 这可能与当地的人口规模与地形有关, 华东、华北均为人口聚集区, 庞大的人口规模增加了对于公路交通的需求, 且当地又位于华北平原和江淮平原这两类地形区, 平原地形无疑为公路的修建提供了自然便利。
5 空间回归模型分析
在利用空间数据分析不同变量相互关系时, 往往需要在经典线性回归模型中加入空间自相关因素, 从而形成空间自回归模型, 所谓空间自回归就是在因变量中包含因变量其他地域单元的值。由于本文试图探究地区之间相互作用因所处位置不同而产生的差异, 故采用空间误差模型进行回归分析, 得到的结果如表1所示。
注:*、**、***分别代表系数在10%、5%、1%的水平上显著。
由表1可知, 互联网普及率对电子商务产业的发展具有显著的正向促进作用, 充分说明了互联网作为电子商务产业重要的信息基础设施, 直接关系到电子商务产业的应用程度, 没有互联网的普及, 电子商务产业的发展也就无从谈起。而自变量人均国内生产总值前面的系数是-0.1550, 说明经济发展水平与电子商务产业的发展水平之间存在负相关关系, 这似乎与人们通常的认识不同。究其原因, 可能有两点, 一方面, 可能与样本的选择有关, 如内蒙古、陕西、吉林等省份由于蕴藏有大量的石油、天然气、稀土等自然资源, 属于自然资源富集地区, 所以其人均国内生产总值较高, 但资源的富集并不完全等同于经济基础的雄厚, 实际上, 这些地区人民生活水平和工业基础、产业结构在我国并不占优势, 这一误差可能最终导致了模拟结果与假设的不一致。另一方面, 经济落后地区往往城镇化水平较低, 如云南、贵州、广西等地农村人口较多, 且地形崎岖, 实体店不如其他地区那样集聚, B2C形式电子商务的出现反而在当地获得了较大的市场, 降低了当地人外出购物的时间成本和交通成本, 导致当地人可能更倾向于电子商务这一新兴商业模式。
6 政策与建议
根据上述的空间计量分析以及文献研究, 笔者认为我国电子商务产业近些年虽然得到了显著的发展, 也仍然存在诸多问题和发展障碍, 针对上文分析, 提出如下政策建议。
第一, 加大信息基础设施建设, 提高互联网普及率。由上文可知, 互联网普及率的提升可以极大地促进电子商务销售额的提升。但目前我国信息化程度的区域差异非常明显, 江苏、浙江、广东、北京、上海等地发达的信息基础设施为电子商务产业提供了良好的发展环境, 广东众多的中小企业则促进了B2B业务的扩大。作为基础设施投资, 互联网的建设具有投资大、周期长、风险大的特点, 一般私人资本难以承担, 因此需要政府介入, 通过财政出资和社会融资相结合的方式, 为边远地区、地形复杂地区架设互联网线路, 补齐当地限制电子商务产业发展的短板。此外, 还要发展大数据和云计算等配套产业, 同时降低用户上网费用, 提高互联网的服务质量和水平, 提升企业的信息化水平。
第二, 加大电子商务产业的相关立法与信用体系建设。电子商务产业在我国发展时间并不长, 相关领域的法律法规建设相对滞后, 导致不少企业个人可以钻法律的漏洞, 引发了诈骗、侵犯知识产权、产品质量无保证等一系列问题。因此, 相关部门应加强电子商务产业的法制建设, 出台一批与国际接轨的管理规定, 使电子商务企业的经营做到有法可依, 有章可循。此外, 电子商务作为虚拟交易平台, 建立在契约的基础上, 对交易双方的信用要求较高, 故要加强该领域的诚信体系建设, 建立失信惩戒制度。因此, 不仅要关注卖家的诚信度, 也要加强公共电子商务交易平台之类的媒介建设, 促使电子商务媒介走上正规化、诚信化的经营道路, 努力营造公平竞争的外部环境, 促进电子商务产业的健康有序发展。
参考文献
[1]李博群.我国电子商务发展现状及前景展望研究[J].调研世界, 2015, (1) :15-18.
[3]游贵巧.论影响电子商务网络成长的因素[J].中国商贸, 2011, (25) :29-30.
[4]凌守兴.我国农村电子商务产业集群形成及演进机理研究[J].商业研究, 2015, (1) :104-109.
[5]蒋鼎福, 岳焱.上海电子商务产业集群推进策略研究[J].商业时代, 2012, (16) :129-130.
[6]浩飞龙, 关皓明, 王士君.中国城市电子商务发展水平空间分布特征及影响因素[J].经济地理, 2016, 36 (2) .
[7]王贤文, 徐申萌.我国C2C电子商务的地理格局及其演化机制[J].经济地理, 2011, 31 (7) .
空间关联分析 篇8
在本文的研究中,我们用主题表示文档,将文档和主题间的关系描述成事务的形式,根据臻于成熟的关联规则挖掘算法初步划分文档类。然后依照类间耦合度和类的内聚性进行聚类确认。算法的基本思想是:首先利用向量空间模型对文档进行结构化处理,用文档主题特征向量形成文档主题事务矩阵。然后运用空间粒度分析的方法对样本事务矩阵实现最优聚类即关联规则的空间粒度聚类算法,并与经典的k-均值模糊算法进行比较,关联规则的空间粒度聚类算法的精度比k-均值模糊算法提高了很多,并用实验证明了其有效性和可行性。
1 文档结构矩阵加权关联规则
在向量空间模型中我们设T=是一个文档数据库,tj表示文档数据库中的第j个记录表示文档数据库的特征词项集,用于表示特征词项ip在文档数据库中的矩阵权值[2,3]。其中,若ip不在tj中,则。我们则有特征词项集(X,Y)的矩阵加权关联规则可以表示为X→Y[4]。设某数据库中有2个文档,第一个文档表示为,第二个文档表示为',用表示文档词语对文档'的关联度,则可以用矩阵表示为:
1.1 矩阵加权关联规则支持度和可信度
支持度表示规则的频度。若文档数据集T中包含项目集K的事务数称为项目集K的支持数,可用公式表示为:
其中,k为项集{X∪Y}的项目数,n为数据库的记录数。
可信度表示规则的强度,我们定义矩阵加权关联规则可信度为:
用minsupport表示最小矩阵加权支持度阈值,则有support(x,y)≥minsupport。同理用minconf表示最小矩阵加权可信度阈值,则有conf(x,y)≥minconf。令Il奂I是q-项集。Il项集在文档数据库中的出现次数为SC(Il),若包含q-项集Il的k-项集是频繁的,那么包含项集Il的k-项集最大权值之和为max w(Il,k)可表示为:
由公式(3)和(4)可以推导出包含q-项集Il的k-项集权值阈值我们用kiwt(Il,k)表示即可以得出以下公式:
若q-项集Il的k-项集权值之和大于等于k-项集权值阈值,则包含Il的k-项集很有可能是频繁项集。对于矩阵加权k-项集的任何子集,只要至少存在一个子集的权值之和小于其k-权值阈值,则该k-项集一定是非频繁项集。
1.2 矩阵加权关联算法
矩阵加权关联算法思想为根据包含(k-1)-项集的k-权值阈值找出可能生成频繁k-项集的(k-1)-项集组成新的项集C(k-1)并进行剪枝候选项集。经过剪枝后的矩阵候选项集将大幅度减少。再由C(k-1)产生矩阵加权频繁k-项集L(k-1)并进行剪枝候选项集。重复运用k-权值阈值逐层迭代。直到矩阵加权候选项集集合为空时结束。最后根据矩阵加权可信度由矩阵加权频繁项集生成文档词语之间的相关度(相似度)。其算法描述如下:
1)扫描文档数据库T,找出可能的最大项目集的项目个数(Item_Maxsize)、项目总数(Item_count)和事务记录总数(record_count)。
2)扫描文档数据库T,累加各个1-项集的权值(SumWeight(C1)和支持数(SC(C1)),找出各1-项集的最大权值(MaxWeight[C1])以及计算包含l-项集的2-权值阈值(Kiwt(C1,2)),最后产生C1,C1,L1。
3)根据Apriori连接相似算法,由Ck-1连接生成Ck。累加候选项集Ck在数据库T中出现的频度。
4)统计Ck中所有候选项集的权值之和SumWeight(Ck)和包含Ck的(k-1)-权值阈值(Kiwt(Ck,k+1)),进行剪枝。
5)生成频繁项目集,并入库。
6)输出繁项目集,产生文档词语之间的相关度(相似度)。
相似度得出后,根据计算结果就可以执行聚类空间粒度聚类算法。
2 基于空间粒度的聚类算法
2.1 空间粒度分析理论及粒度分析
在文档的归类的问题上将所研究的问题用一个三元组(X,F,T)进行描述[6],其中X表示主题的论域,即考虑基本元素的集合。若F为属性函数,则可以定义为F:X→Y,其中Y表述基本元素的属性集合。T表示论域的结构,我们把它定义为论域中各个基本元素之间的关系。从一个较“粗”的角度看问题,实际上是对X进行简化,把性质相近的元素看成是等价的,把它们归入一类,整体作为一个新元素,这样就形成一个粒度较大的论域,从而把原问题(X,F,T)可以转化成新层次上的问题([X],[Y],[T])。可以单独进行处理关系。
聚类算法是一种有效的数据分析方法,从划分角度来看,聚类算法事实上每一种聚类结果都是对应该数据集上的一种划分,而一个等价关系就定义了数据集合的一个划分。在不同的聚类阈值处得出不同的聚类结果。即使在某一次具体的聚类过程中簇内部的粒度是相同的,但簇间的粒度可能很相似。本文所需要的结果应该是划分后的各个簇,其粒度差别大于一定的阈值,即簇间的粒度差异明显,而簇内的粒度相同。此时的关键就是选择合适的簇间相似度,这是粒度基本思想在簇间的表现。
本文采用粒度分析方法即一个不断分析比较的动态过程,合并和分解法选择来调整粒度。对于给定的相似度函数,取不同的阈值,必然得到一聚类,这些聚类一般是不同的。当采用较大的阈值时,展现在我们面前的是样本点集比较“粗’的轮廓,一些细枝末节被忽略掉了;而采用较小的阈值时,就能够比较精细地刻画样本点之间一些细微差别。当阈值R>R1时,所有样本被聚一类,称粗粒度聚类,而R
因此在进行聚类分析时,以“最优”相似度函数为基础,在所有可能的粒度中,寻找出一个“最优”合适粒度。
2.2 基于关联规则的空间粒度聚类算法
根据矩阵加权关联算法的计算结果,把空间粒度原理应用到聚类中,就可以设计出相应的聚类算法:
1)求所有文档样本的重心,并以离该重心最近的样本作为中心点。
2)求出其它未聚类的所有样本与中心点的平均距离D。
3)以平均距离为初始聚类,求出球形圆环。
4)求当前球形的重心,获得新的球形,直到球形的样本数不再增加为止。
5)找离当前球形的重最远的点作为下一步球形的圆心。
6)重复2)~5)直到球形包含所有的样本为程序结束条件。
7)采用粒度分析法对得到的聚类结果进行分析。根据矩阵加权关联算法得出的相似度、人对文档感兴趣情况及结合实际情况判断聚类结果。若粒度偏大即平均距离偏大,重新选择新的D,返回(3);若粒度偏小转步骤(8),若粒度合适,则转到步骤(4)。
8)求出聚类结果中簇与簇两两之间的相似度,并对所有相似度值中求出最大的相似度值MAXSIM。
9)初始化一个相似度阈值S。如果最大相似度MAXSIM
10)根据矩阵加权关联算法得出的相似度、人对文档感兴趣情况及结合实际情况调整确定合适的粒度,再次对聚类结果进行分析并适当调整相似度阈值S,得到最后的聚类结果。该文的聚类算法在矩阵的初始构造和关联算法计算机相似的结果上都应用到。再用粒度的粗细阀值进行空间粒度聚类,进一步对文档的精确度进行提高。
4 实验和结论
在实验中我们采用聚类准确率来表示聚类精确度,即在一个类别中的正确分类与算法在该类上的所有分类的百分比。准确率越高表明聚类算法在该类上出错的概率越小。则聚类精确度可定义为:
其中fpi是错分到簇Ci且属于其他簇的文档数。tpi是正确分到簇Ci中的文档数。
为了对本文提出的算法进行分析、评价,我们将它和K-Means算法及Apriori算法进行比较。实验中采用文档集从Internet上搜索得到的。整个实验在Windows 2003 server上进行,计算机CPU为Inte3.5GHZ。从Internet上搜索的文档由历史、地理、数学、科技、文物、计算机、体育、生物、艺术、文化等10个大类,每类30篇文章。通过加权矩阵关联规则来构造文档的空间矩阵,并根据式(3)计算词频及文档矢量矩阵中各个元素的权值,我们以3个特征词项为例(对多个特征词项也一样构造),然后利用式(1)和式(2)计算支持度support和可信度conf,得到表1的关联规则表。其中support1表示特征词项1对特征词项2的支持度,support2表示特征词项2对特征词项3的支持度,同理conf1示特征词项1对特征词项2的可信度,conf2示特征词项2对特征词项3的可信度。
其中特征词项的“中国”,“人们”,“共产党”的平均支持度为Avgsupport为0.3146,可信度为:0.6058。然后根据矩阵加权关联算法进行相似度计算。根据计算结果可以得到聚类数目及聚类精确度,如表2所示。
从表2可以看出矩阵关联规则的空间粒度算法的执行时间比Apriori及K-均值算法的时间都要略长,影响时间的主要因数是迭代的次数增加及增加了矩阵关联规则算法。但我们从表(2)的结果上发现矩阵关联规则的空间粒度算法的正确率大大地提高,比Apriori提高了11.6%,比K-均值提高了9.1%,主要是因为进行了对矩阵的初始化进行聚类,然后利用了矩阵关联规则算法进行进一步分析,得到结果后再次根据计算结果的相似度进行聚类。使得正确率大大的提高。以上是针对小文档进行的关联聚类分析,接着我们分析针对大型文档数据库的文档数随时间的变化,由图1可以看出矩阵关联规则的空间粒度算法和K-均值算法在500-800之间的程序执行时间比较接近。但在900以上矩阵关联规则的空间粒度算法的时间明显比K-均值算法的时间要少很多,这主要由于新算法在执行剪枝后矩阵的元数变小的原因。实验表明该算法对于大文档的时间复杂度比较理想。
5 结束语
该文在原有的关联算法的基础上,提出了一种矩阵加权关联规则的空间粒度算法。该算法的核心是根据文档的特征向量提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项目集。在粒度空间中采用相似度阀值进行调整粒度的粗细问题。通过矩阵加权关联规则算法进行聚类,因此在精度上有较大的提高。该方法是一个新的思路,实验结果表明在解决多维数据有很好的效果。但在中小文档中的时间复杂度比以往的算法略高点,但在对混合数据的处理能力上有一定的欠缺,下阶段将继续进行算法的改进以期望能对混合数据进行处理。
参考文献
[1]HUANG M X,YAN X W,ZHANG S C.Review and perspective of query expansion techniques.Computer Applications and Software,2007,24(11):1-4(in Chinese with English abstract).
[2]KURAMOCHI M.Karypis G Frequent Subgraph Discovery//Pro-caedings of the2001IEEE International Conference on Data Mining.San Jose,Cali-fornia,USA,2001:313-320.
[3]BEBEL B,KROLIKOWSLD Z,WREMBL R.Formal Approach to Modeling a Multiversion Data Warehouse[J].Bulletin of the Polish Academy of Sci-ences,2006,54(1):51-62.
[4]AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Database[C]//Proceedings of the ACM SIGM OD Conference on Management of Data.Washington,USA:ACM Press,1993.
[5]MEIDLDI W,NIEDERREITER H.Counting functions and expected values for the k-error linear complexity[J].Finite Fields Appl,2002,8:142-154.
[6]MEIDLDI W,NIEDERREITER H.Linear complexity k-error linear complexity,and the discrete fourier transform[J].Complexity,2002,18:87-103.
[7]MULLER K,MIKA S,RATSCH G.An Introduction to Kernel-based Learning Algorithms[J].IEEE Trans.on Neural Networks,2001,12(2):181-201.
[8]王伦文.聚类的粒度分析[J].计算机工程与应用,2006,42(5):29-31,65.
[9]卜东坡,白硕,李国杰.聚类、分类中的粒度原理[J].计算机学报,2002,25(8):810-816.