关联行业

2024-09-28

关联行业(精选8篇)

关联行业 篇1

数据挖掘是通过具体的建模分析手法, 对客户的行为规律进行挖掘分析的方法。在数据挖掘方法诞生之初, 并没有受到应有的重视, 一些研究人员在通过数据挖掘后得到了比较明显的结果, 但这些成果并不具有实质性的作用。当“啤酒和尿布”的关联被挖掘后, 人们对数据挖掘开始有了足够的重视, 特别是数据挖掘中的关联规则挖掘更是受到广泛关注。在数据关联挖掘的整体上, 并没有出现很多有价值的关联信息。本文将多年研究与通讯行业的实际工作相结合, 举出一个相对典型的行为关联挖掘案例, 并对其进行深入剖析。

一、从实例角度观察证实行为关联的重要意义

下面从具体案例的入手, 通过数学建模的方式进行深入剖析。

笔者多年前曾在国内一家大型科技公司 (A公司) 任职, A公司的业务主体是全球国际通讯和国际传真业务。业务的具体流程是A公司通过两个特定的终端服务器进行信息转换, 从而实现国际传真的传递, 其工作模式本质是通过互联网低廉的费用代替两个公司之间的国际电话费用, 从而使沟通费用大幅度降低。技术的核心是服务器的性能转换。这种低廉的成本使A公司在对外报价方面相对同行业其他公司低很多, 大量来自中国台湾、日本、马来西亚、新加坡等亚洲国家和地区的公司成为A公司的客户。在当时这种情况下, A公司大力拓展这项业务, 聘请专业人员并在更多地区架设服务器。

随着业务范围的急速扩大, A公司的业务渐渐拓展到美洲大陆。要拓展这些区域的业务, 就需要在美国架设服务器, 这种跨越大洋建设服务器的行为, 需要几百万美元的成本。在公司董事会集体探讨这项计划时, 笔者通过对通讯行业客户行为关联的数据挖掘后, 得到了一个相当有价值的想法, 并在董事会上提出。经过董事会的集体讨论, 基于对行业客户行为的关联挖掘得出的科学依据, 彻底否定了在美洲拓展业务的计划。后来在经济危机中, 美国许多高科技公司都受到波及并大幅度亏损, 而A公司则在这场经济危机中避免了大量损失。可见, 在通讯行业对客户行为进行数据关联挖掘具有相当重要的意义。

笔者从大量的信息中截取了各个区域的原始数据, 将其按照时间进行分类比对, 并通过图片和表格的形式体现出来。通过前期算法, 共有N个地区将这些目标进行划分类别, 在具体操作过程中, 各既定客户会向N个客户中的其他客户再次发送不同数量的传真, 在如此众多的客户和海量的数据中抽取信息衡量用户指标, 进行数据挖掘研究工作的难度很高, 所以对数据进行简约处理是必须步骤。一旦建立起企业关系, 这种客户之间的数据收发量不可能是单项和单次的, 两个地区传真通讯量的总和很高。基于这种实际情况, 用三角矩阵的方式进行表述, 通过具体的研究得出结论, 这个地区里没有相应的坐标值, 只有相互间的距离, 根据“距离”的具体特性, 由于坐标的相对缺乏, 分析很难出现完整性和全面性。同时, 这个距离存在“柔软”特性, 通过具体的数学公式来描述, 也很难找到其中的问题。进入深层次的考虑阶段, 在美洲地区的通讯用户数量较小, 转换成距离之后就会产生很大的距离, 用数学公式来表达根本无法在同一个平面上画出。结合通讯客户的实际, 通过数据关联的方式, 有效避开了一些难以理解的数学公式, 进一步开展有效的行为挖掘工作。

二、对客户行为关联规则角度进行模型构造分析

通过数学的方式进行模型构造, 目标没有准确的坐标, 在形成聚类的这一过程中, 质心、半径、直径等方面都不好定义, 那么可以判定, 用作刚体聚类的方法在这里并不合适, 常见的聚类方法在这里同样行不通。经过多次实践, 笔者决定从通讯行业客户行为的关联挖掘角度入手来解决问题。关联规则用起来比较简单, 但是在实际应用中的作用比较大, 其本质是一种对条件概率和联合概率的精简, 关联规则用简单有效的方式处理了相关问题。在这个简化过程中, 为了实现算法的实用化和最优化, 在这个过程中多数据库进行多次扫描, 对其工作效率进行有效改进。同时, 基于关联规则的算法对多个事务同时出现的情况进行了详细检查。例如在批发零售行业, 要通过数据挖掘的方式进行业务拓展, 将业务范围铺设到其他行业, 就必须合理利用这种数据挖掘算法。本文利用对通信行业的客户行为挖掘, 进行深度建模分析。

1.以“距离”为切入角度, 建立准事务库和事务库

将前面介绍中提到的“距离”事务进行列举, 将这N个地区的时间按照月份的顺序进行排列, 对准事务按照地区进行分化调研, 形成相对应的数据库。针对其中的某一个月, 只要某个特定值K给出的距离同时小于给定值, 就衍变成了K个距离, 将这些距离按照一定的方式组成一个数据库。

2.用定义方式进行描述, 对距离事务连通性深入探究

通过关联规则挖掘出来的事务, 还可以分为不同的类簇, 这些簇之间也存在连通关系, 这种连通确保了距离事务的实际意义。如果在N个地区中出现相应的网状结构, 我们将这种网状结构称为图;在这N个地区的图中如果能够直接或者间接产生一种连通结构, 就称为连通图;如果在某个途中包含两个更小的图, 并且这两个图中没有相互连通的部分, 则称为非连通图。

三、通过对客户行为关联挖掘得出具体价值规律

挖掘的最终目的是找到有价值的规律, 在对客户行为关联挖掘中, 发现大多数亚洲客户都是向亚洲其他国家发送传真, 很少有公司将传真发到美洲, 产生一种“近邻”生意关联。亚洲人更加倾向于跟亚洲人做生意, 在行为关联挖掘中, 把这种现象当成一个既定存在的“模式”。通过类推方法进行比较, 美洲人在做生意的时候同样也存在这种“近邻”生意关联, 如果A公司不经过客户行为关联挖掘而盲目将业务拓展向北美洲的美国、加拿大和南美洲的巴西、阿根廷, 花费大量资金在当地建立服务器的话, 就会使公司的支出增多, 从根本上来讲并没有获得实质性的效益。

在某种程度上讲, A公司的数据挖掘是为了公司业务服务的。当前由于互联网电话的广泛应用, 传真业务已经被取代, 但是在实际行为关联挖掘工作中, 通讯行业的“近邻”生意效益的价值不可估量。从理论角度来讲, A公司在实际经营中通过关联价值的挖掘进行一系列的转换应用到实际工作中, 将有价值的信息从“原始”价值信息转换为“衍生”的价值信息, 使用相关技巧进行处理。从应用角度上来讲, 我们还可以将这条规律推广到更多的经营领域, 如通讯用户在使用手机时, 大多是本地通话, 长途通话所占的比重较小, 在通讯行业合理利用“近邻”价值规律, 可以有效降低费用, 提升企业总体效益, 为企业发展指出明确的方向。

四、结束语

随着科技化的高速发展, 通讯行业在经济主体中占有相当大的比重, 是人们生活中必不可少的一部分。在通讯企业发展过程中, 对客户行为进行关联挖掘非常必要, 有价值的信息能成为企业发展的无形基石。通讯企业的领导层也要充分认识到关联挖掘的必要性, 从科学、理性的角度探寻行业发展的关键所在, 将企业经营理念提升到一个崭新的高度。

参考文献

[1]梁循.通讯行业客户行为的关联挖掘[J].计算机技术与发展, 2012, (3) :1-4.

[2]自动化技术、计算机技术[J].中国无线电电子学文摘, 2011, (4) :172-249.

[3]冯海涛, 谷文星.一种洞察客户的“价值-行为”数据挖掘方法及应用[J].西安邮电学院学报, 2012, (5) :116-121.

关联行业 篇2

【关键词】区域经济;烟草行业;发展

一、烟草种植的区域性

我国具有广阔的烟草种植面积,其主要分布在五大区域:北方烟草种植区、黄淮烟草种植区与西南烟草种植区等。从分省份来看,湖南、甘肃与河南等省是我国主要的烟草种植区域。在西南种植区中,其重要涵盖了广西西部、四川四南部与贵州省全部等,是主要的烤烟产区,在我国烟草烤烟中占据60%的面积与产量。在东南烟草种植区中,其主要涵盖的省份有浙江、江西与两广等,因为这些地区具有发达的经济,烟草种植面积与产量占全国的17%,其中浙江桐乡在我国产的最好的烟是包皮烟远原料与雪茄烟。其包含了长江中下游种植区,烤烟种植面积占12%,产量占据全国的10%。黄淮烟草种植区主要包含的区域有安徽、江苏与河北等,种植面积与产量占全国的12%,其生产的烟叶具有浓郁的特征。北方烟草种植区主要包括甘肃、山西与东北地区等,烟草种植面积与生产量在在全国的5%。

二、烟草消费的区域性

我国烟草行业具有明显的区域特征,如上海生产的“红双喜”、“中华”与“牡丹”在本地销量中占据第一、二、五名,福建龙岩卷烟厂生产的“乘风“与“七匹狼”在当地消费中占有第四名与第一名,厦门卷烟厂生产的“石狮”在区域消费中占了第二,山东将军集团与一颐中生产的“将军”与“大鸡”在区域消费中居于首选。烟草消费表现出区域特征,主要表现在地方保护主义。我国烟草行业的地区封锁产生已久,其中最主要的原因是烟草行业能带来巨大的经济利润与税收,因为烟草税收给当地财政带来最大化的利润,各地对卷草厂大力保护,而对外地卷烟厂进行严厉的封锁,此种做法严重损害了烟草行业整体效率的提升。在各地区烟草行业封闭政策中,受影响最深的是以外地卷烟厂为依托的大型卷烟厂。当前,地方保护主义对我国卷烟厂的正常发展带来了严重的阻碍,也成为了限制我国大型卷烟厂发展的因素,不利于这些企业的发展与壮大。

三、烟草行业未来发展对策

1.构建诚信的长效机制

从企业到个人都要用到诚信。企业中的失信现象将严重破坏市场诚信体制的建立,违背了社会的诚信道德。目前,我国烟草行业诚信源于从烟农,经过烟叶供应商与卷烟企业,再到卷烟经销商,最终是卷烟消费者。此条完整产业链条中的每个节点都会产生不同程度的信用危机。企业信用也是生产力一种形式,促使企业降低交易成本、提高效率与竞争力等。从内部看,企业竞争力是职工的凝聚力;烟草行业是我国传统的产业,给人留下的印象始终是政府庇佑下的“官商”形象。当人们提及官商,头脑中的形象往往是“放不下,臭架子”的形象。要想改变烟草行业在人们头脑中的不好印象,烟草行业就要为他们树立积极向上的形象,为区域经济发展起带头作用。

2.以内部营销深化烟草企业人力资源管理

目前,我国市场营销专业人才整体素质不高,普遍缺乏实践能力,不能满足市场经济发展的需要。市场营销人才存在数量上的滞后。我国市场营销人才供应远远满足不了需求。经济全球化的发展导致国家不断加深了垄断行业的改革,我国烟草行业也同样面临着改革局面。烟草行业引入内部营销理论,通过内部营销理念与方法,针对本行业的战略目标,重新构建人力资源体系,践行人力资源管理,这是一种非常有效的探索与尝试。内部营销根本在于把員工放在管理的中心地位,使内外部员工感到满意,获得外部竞争优势。实施内部营销将规章制定作为保障前提,充分落实内部营销,构建完善的制度体系,采用组织与管理手段,落实制度。内部营销理念中心在于实现 “人本管理”,此种理念如果付诸实效,将显著改变企业与员工双方的地位。

3.提升烟草行业竞争力

随着我国加入世界贸易组织,烟草行业也逐渐向外界开放,国内市场逐渐向国际市场进军,这种趋势势不可挡,与国外烟草行业产生了激烈的竞争,强烈冲击了我国烟草专卖制度,面临着严峻的形式。中国烟草行业自2003年实现工商分离以来,工商职能得以明确,地方封锁得到有效遏制。作为发展中国家的我国烟草行业因为不具有足够的竞争力,在相当长的一段时间内,还需要体制的呵护,这样才能使其在与国外同行业竞争时,具有充足的时间准备。所有的烟草行业都将自身发展与区域经济、国家的利益联系起来。烟草业是国民经济的重要支柱性产业,对促进国民经济发展具有十分重要的作用。毫无疑问,烟草行业应将国家利益、消费者利益与自身价值观联系起来,严格按照专卖法的要求,推动区域经济更好地发展。

四、结束语

烟草行业在经济管理上具有特殊性,世界各国都对其进行严格的管理,为此,竞争机制很难被引入,从而也出现了各种问题。然而政策壁垒也给烟草行业的发展带来保护伞,烟草行业将此作为发展契机,通过多种手段,如强化内部管理、实施品牌延伸等来提高自身经营效益,从而改善区域经济,缩小全球烟草行业发展的差距,为未来市场的拓展奠定基础。

参考文献:

[1]向为民.房地产产业属性及产业关联度研究[D].重庆大学,2014.

零售行业的关联挖掘实施方案探讨 篇3

全球最大的零售商沃尔玛通过对顾客购物清单的数据挖掘发现了“尿布→啤酒”的关联规则, 沃尔玛就把尿布和啤酒摆放在一起, 从而双双促进了尿布和啤酒的销量。然而, 用关联规则挖掘对清单的分析方法简单, 但是对每一个零售企业实施起来却又不少的困难, 问题主要出现这几个环节:1.如今的超市POS收银软件数据分析功能简单, 往往只能实现数据的统计功能, 无法从众多的数据中发现更多有价值的知识。2.超市管理系统模块多样, 数据格式不统一, 而数据挖掘所需的数据格式要求严格。3.超市本身存储的数据量大, 光靠人工去处理数据不仅慢, 而且容易出现误差。

二、关联挖掘原理及其算法简介

在超市营销管理中, 关联挖掘主要用于购物篮分析, 目的是从海量的销售清单里发现消费者购买的物品的联系, 然后针对这些有关联的物品进行有目的的陈列, 达到双双促进产品销售的目的。

Agrawal等于1993年首先提出了挖掘销售数据库中项集间的关联规则问题, 设计了基于频繁集理论的Apriori算法。这是一个基于两阶段频繁集思想的方法, 将关联规则挖掘算法的设计分解为两个子问题:1.找到所有支持度大于最小支持度的项集, 这些项集称为频繁集;2.使用第一步找到的频繁集产生期望的规则。为了生成所有频繁集, 使用了递推的方法。对于关联规则A→B[S, C, ], 其中S是支持度support, 表示S%的顾客同时买尿布和啤酒;C是置信度confidence, 表示C%购买尿布的顾客还会购买啤酒。Apriori算法有一个最基本的性质:一个频繁项集的子集必然也是频繁项集。

三、超市关联挖掘的实施步骤

超市销售数据量大, 内容繁杂, 格式不一, 要用权威的数据挖掘软件进行分析, 必须经历以下步骤 (如图1) :

目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等.而事实上数据挖掘对所处理的数据有严格的质量要求.在数据挖掘过程中数据预处理至关重要.根据统计, 在一个完整的数据挖掘过程中, 数据预处理要花费60%左右的时间, 而后的挖掘工作仅占总工作量的10%左右。

1. 数据搜集

超市每天营业数据繁多, 目前大部分超市都实现了POS机收银, 通过POS机记录大量的销售数据, 并且这些数据大都保存到超市的数据库系统中, 有些以数据库文件的形式保存 (如图2) , 有些可以导出为EXCEL表, 这为购物篮分析提供了大量的最真实数据, 下面以卡斯特pos软件的数据为例子进行分析 (如表1) 。

2. 数据预处理

数据预处理主要包括数据清理、集成和归约.数据清理是处理数据中的遗漏和清洗脏数据。数据集成将多数据源 (如上图2) 中的数据进行合并处理, 解决语义模糊性并整合成一致的数据存储.数据归约将辨别出需要挖掘的数据集合, 缩小处理范围。

表1包括了许多数据:商品条码、商品名称、购买数量、销售价、金额、小记、销售单号, 作为关联挖掘, 我们只需用知道每个顾客买了那些产品, 所需的数据是商品条码、数量、销售单号。

对数据进行预处理, 先后分别是数据筛选, 数据转换, 数据修整。过程如表2。

对比以上三张图表, 从筛选数据到数据转换再到数据修整, 如果数据较少处理起来还比较简单, 可以用EXCEL实现, 但是超市每天的销售数据是上万甚至几十万, 人工处理显然效率低下, 差错率极高。

为了提高数据处理的效率, 可以编写简单的软件来实现, 这样大量的数据处理起来就简单了许多, 针对超市零售行业, 在销售数据表中, 一般不会出现脏数据, 所有的销售记录都是以数量的形式保存, 空缺的数据都是0, 并且数据集成的功能只有在多维数据挖掘里面才需用到。所以如若编写软件来实现数据预处理, 软件只要包含三种功能:数据筛选, 数据转换, 数据修整。

(1) 数据筛选, 主要是从POS机收银系统的数据库中筛选出所需数据。一般为销售单号、条码、数量。

(2) 数据转换, 将筛选好的数据进行行列转换, 统计合并相同销售单号所买的商品并进行横向排列。

(3) 数据修整, 将数值型数据转换成逻辑型数据, T (true) 代表购买了该商品, F (false) 反之, 逻辑性的数据有利于关联挖掘的分析, 对于数据挖掘软件所不认可的销售单号数据, 在数据修整的过程中, 也必须将其转化成软件认可的数据格式。

以上过程仅仅是对超市营业数据库里面的销售数据表进行的单一分析, 其实, 如果需要对客户进行分析, 还可以集成数据库中客户数据表, 进而对消费者进行分析, 但因篇幅所限, 在此不好展开说明。

3. 数据挖掘

数据挖掘的工具现在有很多, 而且大多数都依托强大的IT技术, 算法的实现方面十分全面, 这里主要利用apriori算法, 根据以上处理好的数据, 设置符合条件的置信度C和支持度S.在此不再去探讨数据挖掘的算法, 仅在此列举一些较好的软件, 仅供大家参考 (如表3) 。

4. 结果分析

利用数据挖掘软件对销售数据进行分析之后, 就得将字符性数据还原成文字型、描述型的通俗的规则, 比如最后分析的结果是代码001~006之间关联度很大, 则要提取商品信息表里面的商品详细信息, 001对应喜糖之果冻, 006对应小孩子用玩具, 这样才能够方便理货员进行操作、码放。

另外, 特别需要注意的是提取结果的有效性和可行性, 比如发现一条关联规则置信度和支持度都很高, 但是自习一看, 规则为洁厕灵——蔬菜, 这时候就得将规则定义为无效规则, 因为洁厕灵和蔬菜放在一起, 容易造成蔬菜被污染, 严重的还会产生食品安全事故, 所以必须删除该规则。同样的道理, 对于关联规则最后形成有效决策信息之前, 必须结合超市管理的方方面面, 综合考虑各种约束条件, 做到既保证超市的安全有序的经营, 又能较大地促进超市的营业状况。

四、总论

对于超市购物篮分析的数据挖掘, 关键的问题是对超市历史数据的预处理, 数据预处理不到位, 数据挖掘分析就很难通畅的进行, 甚至导致截然不同的结果, 通过以上的过程, 可以看出一条简单明了的数据处理思路:搜集历史数据、提取目标数据、删除无用数据、剔除虚假数据、转换数据格式、进行数据挖掘、分析结果、提取有效信息、形成挖掘与陈列报告。有了这样一条明确的指导思路, 就能将不同pos系统中的数据统一进行数据处理, 实现企业数据的价值, 提高数据挖掘的效率。

参考文献

[1]朱玉全杨鹤标孙蕾编著:数据挖掘技术.南京:东南大学出版社, 2006

[2] (加) Jiawei Han, Micheline Kamber著.范明, 孟小峰译.数据挖掘概念与技术.北京:机械工业出版社, 2008

关联行业 篇4

1 概化处理

数据挖掘的目的是从大量日常业务数据中抽取一些有价值的知识或信息。原始业务数据是知识和信息提取的源泉,对于数据挖掘十分重要。数据挖掘算法中的数据往往受噪声数据、丢失数据和不一致数据的侵扰,一般都具有不完整性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。对财务报表来说,由于每个公司季度报表推出时间不一致,在行业内的公司没有全部推出季报时进行数据挖掘分析,就存在数据不完整的现象。所以对不理想的原始数据进行有效的归纳和预处理成为数据挖掘的关键问题。

数据预处理是数据挖掘前的准备工作,一方面保证挖掘数据的正确性与有效性;另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。对财务报表预处理包括对财务报表进行数据清理与数据变换。数据清理目的是填写缺失的报表数据,数据变换是对连续的财务指标数据进行离散化,进而进行概化处理。

概化处理完成数据预处理工作,其获取行业内个股财务信息,求取行业平均值,并存入数据库,利用行业均值,对个股财务记录信息做数值型数据转化处理,生成事务表。

1.1 数据清理

对于每一项财务报表指标,求取一个行业平均水平值,所有的财务指标均值,即统计中的算数平均值,组成的报表,也在此称为行业均值报表。

对每一个行业,查询行业内上市公司财务报表中的各指标值,统计和并计算均值,构成均值报表后写入数据库保存。例如:资产负债的行业均值表,如表1。

每项均值的计算为所统计的上市公司该项财务指标值的和除于参加统计公司数,例行业的流动比率均值为:

因为上市公司的财务报表公布不同步,对于未公布数据的空缺项,用均值来补充,即假定该公司在该项取得行业均值。这样处理后,为后续的处理过程准备完整的数据。

1.2 数据概化处理

由于财务报表指标数据为数值型数据,所以首先概化处理为布尔型,以便在后续的数据挖掘中用布尔型关联规则挖掘方法进行挖掘。进行布尔型转换的第一步是将数值型数据进行概念分层,将数值型财务指标概化为三个数值区间{Ei-K==Ei+K},其中FINi为第i项财务指标,Ei为FINi的期望值,即FINi的行业均值,K为行业分析师对该指标期望值得一个评估估算值,当FINi在(Ei-K,Ei+K)时行业分析师认为该指标处于行业的平均水平。每个区间映射成一个变量,上述三个区间映射为{FINi1,FINi2,FINi3}。公司的该项FINi数值落在哪个区间,则取值为1,否则为0。财务指标数据转化规则表,如下表2。

例如:取某个行业的某季度的主营业务收入增长率,流动比率,每股收益增长率构成数据挖掘前的事务表,该数据转化规则表如表3。

该行业内上市公司该季度的这三项实际数据表,如表4。

该行业内上市公司该季度的这三项转化后的财务指标的布尔数据表,如表5。

在表中如果有多个取值一样的行,则添加一个属性统计记录相同行数,而证劵代码的属性取值较多,由数据概化中基于属性的归纳法原理可知当一个属性的属性值有许多个不同的值,且没有合适的泛化操作,应该做删除该属性处理。如表6所示。

2 关联规则挖掘

对之前做的概化处理都是为关联规则的挖掘做准备工作的,关联规则的挖掘工作将在概化处理形成的事务表上进行。将前面的布尔数据表每行中列为1的项取出组成一个事务,如表5第一行{FIN11,FIN22,FIN32},下面对数据挖掘的基础知识做简要介绍。

2.1 关联规则理论概述

定义1关联规则挖掘的数据集记为D(D一般为事务数据库D={t1,t2,t3,t4,t5,…tn},tk(k=1,2,…,n)称为事务,im(m=1,2,…,p)称为项。

定义2 I={i1,i2,i3,…,ip}是D中全体数据项组成的集合,I的任何子集X称为D中的项集,若|X|=k,称集合X为k-项集。tK和X分别为D中的事务和项集,如果X t K,称事务tK包含项集X。

定义3数据集D中包含项集X的事务数称为项集X的支持数,记为σX。项集X的支持度记为support(X),

support(X)=σX/|D|×100%(1-1)

其中,|D|是数据集D中的事务数,若support(X)不小于用户指定的最小支持度阈值minsup,则称为X为频繁项集,否则成X为非频繁项集。

对于项集和其子集在支持度上的关系有定理如下:

定理1 X、Y是数据集D中的项集

(1)X Y,则support(X)≥support(Y)

(2)X Y,如果X是频繁项集,则Y也是频繁项集

(3)X Y,如果Y是频繁项集,则X也是频繁项集

频繁项集是进行关联规则挖掘的基础,找出频繁项集后,关联规则的定义如下:

定义4若X、Y为项集,且X∩Y=ø,蕴涵式X=>Y称为关联规则,X、Y分别称为关联规则X=>Y的前提与结论。项集X∪Y的支持度称为关联规则X=>Y的支持度,记为support(X=>Y)

support(X=>Y)=support(X∪Y)(1-2)

关联规则X=>Y的置信度记为:confi dence(X=>Y)

confidence(X=>Y)=support(X∪Y)/support(X)×100%(1-3)

最小置信度阈值记为minconf。

定义5若support(X=>Y)≥minsup且confi dence(X=>Y)≥minconf,称为关联规则X=>Y为强关联规则。

上述两个定义中的X、Y项集在应用中为频繁项集的子集。所以关联规则的挖掘分为两个问题:

(1)根据minsup找出数据集D中的所以频繁项集

(2)在频繁项集的子集中找出满足minconf的子集

对于第二步在实际应用中,对于每个找出的频繁项集S,输出所有的规则a=>S–a,其中a是S的一个子集,检验confi dence(a=>S–a)≥minconf成立,则a=>S–a为强关联规则。根据定理1,若果有a的子集ã,则ã的支持度不小于a的支持度,所以confi dence(ã=>S–ã)≥minconf如果成立,则confi dence(a=>S–a)≥minconf也成立,因为confi dence(a=>S–a)大于confi dence(ã=>S–ã)。

频繁项集的寻找采用算法Apriori,Apriori使用逐层搜索的迭代算法,利用k-项集来探索(k+1)-项集。

2.2 行业财务指标的关联规则挖掘

由上节中表6某行业的某季度财务指标转化后的布尔数据统计表,来说明采用算法Apriori寻找频繁项集。设最小支持度为20%,最小置信度阈值为60%。

首先由表6得到事务集表,如表7:

最小支持度minsup=(2+2+3+4+5+2+3)×20%=4.2

(1)所有的项构成候选1-项集,如表8。

构成频繁项集支持度个数要满足大于4.2,项集中的支持度计数大于4.2的项集构成频繁1-项集,如表9。

(2)对表9频繁1-项集中的项集做连接操作得到候选2-项集,在这里有一个数据类型约束条件,即同类型属性的不同取值的连接操作是无效的,如{FIN11,FIN12},或{FIN12,FIN13},因为FIN11,FIN12,FIN13是同一个财务指标的不同取值,一个财务指标不可能有两个值,所以他们的连接是无效的。候选2-项集如表10。

提取支持度个数满足大于4.2的项集构成频繁2-项集如表11。

(3)对表11频繁2-项集中的项集做连接操作得到候选3-项集,在连接时同理要考虑到数据类型约束条件,候选3-项集如表12。

提取支持度个数满足大于4.2的项集构成频繁3-项集如表13。

(4)因为事务表项中事务最大项集个数为3,不可能有包含频繁4-项集,即频繁4-项集为空。算法停止。

根据所得频繁3-项集生成关联规则如下:

FIN12=>FIN22∪FIN32置信度为:

满足最小置信度60%要求的规则有FIN12=>FIN22∪FIN32,

根据上述项集与其子集的关联规则关系,ã为a的子集,则confi dence(ã=>S–ã)≥minconf如果成立,则confi dence(a=>S–a)≥minconf也成立。所以可知,因为FIN12=>FIN22∪FIN32能满足最小置信度,所以其超集FIN12∪FIN22,FIN12∪FIN32构成的规则:

都能满足最小置信度,所以得到上述两个满足条件的关联规则。

对于不满足最小置信度的两条规则

FIN22的超集有FIN12∪FIN22和FIN2∪FIN32,FIN32∪FIN12,这里只有FIN2∪FIN32=>FIN12未知其置信度是否满足最小置信度。

FIN22∪FIN32=>FIN12的置信度为:

该规则不满足最小置信度,舍弃。最后得到的符合条件的关联规则有:

由FIN12,FIN22,FIN32的财务指标意义来看,FIN2是主营业务收入增长率的取值,FIN22是流动比率取值,FIN32是每股收益增长率取值。

规则(1)说明了当主营业务收入增长率取得平均水平时,该行业的流动比率或每股收益增长率取值也会取得平均水平。

规则(2)说明了当主营业务收入增长率或每股收益增长率取得平均水平时,该行业的流动比率或取值也会取得平均水平。

规则(3)说明了当主营业务收入增长率或流动比率取得平均水平时,该行业的流动比率或每股收益增长率取值也会取得平均水平。

在实际应用中,因为每股收益是企业经营成果的指标,是对某个季度结束后经营结果的综合体现。而主营业务收入增长率或流动比率是反映企业财务某一方面的指标,所以规则(1)和规则(3)更有应用意义。根据挖掘出来的关联规则在查询该行业时的上市公司财务是,就可以进行有目的选择主营业务收入增长率和流动比率进行查看,从而形成该企业经营成果是否有增长的佐证。

每次将挖掘出来的关联规则进行存储进数据库,以便查询时提供给用户参考。

摘要:在一个行业的财务报表中,蕴含着行业的经营规律,找出这些规律对投资者在做财务分析时有潜在的价值。本文介绍一种运用数据挖掘理论中的关联规则挖掘算法来发现这些行业经营规律的方法,文中重点讨论了如何在财务报表数据的支持下运用关联规则算法探寻这些规律。

关键词:数据挖掘算法,关联规则,概化处理事务表,频繁项集,置信度

参考文献

[1]lan H.Witten Eibe Frank.Data Mining Practical Machine Learning Tools and Techniques with Java Implementations.China Machine Press.2003.9,57-116.

[2]朱济生,徐全智,朱宏.概率论与数理统计[M].成都:电子科技大学出版社,1995,155-156.

[3][美]Pang-Ning Tan,Michael Steinbach.,Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2006,53-83.

关联行业 篇5

区域产业系统作为国民经济系统最为复杂的子系统之一, 必须综合复杂系统理论和宏观经济数量分析来进行统筹规划。与整个国民经济系统相比较, 区域产业系统虽然是一个开放性的系统, 但也是由物质生产部门和非物质生产部门等众多子系统组成, 各个层次的系统之间存在着相互依存、相互制约的关系, 因而区域内某个产业的调整和演化必然会影响其他产业, 甚至影响整个区域经济系统。随着科学技术的发展和产业分类的完善, 产业之间的联系也越来越复杂和密切, 这就需要通过研究产业间投入产出关联的数量关系来研究区域产业系统的一些特性。

1 产业结构网络的模型构建

将区域范围内的产业部门视为节点, 产业部门之间的投入产出关系为边, 关系的大小为权, 为边的权重, 构成了由节点集V, 边集E和权重集W组成的图G= (V, E, W) 。节点集V由区域内的所有产业部门组成, 节点数记为n=|V|。边集E由代表区域内产业之间的投入产出关系的边组成, 用邻接矩阵A={aij}中aij的值来进行表征。如果产业i对产业j存在投入关系, 则在产业i和产业j之间存在一条有相边eij, 表示为aij=1;反之, 则aij=0, 其中i, j∈{1, 2, …, n}。由于2个产业之间投入 (消耗) 的非对称性, 所以一般有aij≠aji;由于产业可能同时对其他产业既投入又消耗, 所以这时网络中存在对称边 (Symmetric Edges) ;因为网络的构建是要研究产业之间的经济关系, 所以不考虑产业自身的投入 (消耗) , 即令邻接矩阵对角线上的aii=0;另外, 由于区域产业系统是一个开放性的系统, 所以可能出现i=1naij=0j=1naij=0的情况, 即可能存在某个产业的所有投入和产出不与区域内部其他产业发生关系, 表现为投入产出网络上的某些节点没有与之相连的边。

为了体现投入产出网络与现实的映射关系, 必须考虑到边对应的投入产出关系在价值上的度量, 所以引入权重集W={wij}, i, j∈{1, 2, …, n}且wii=0。其中wij为产业i对产业j的直接消耗系数, 表示的是一种相似权, 其权值越大说明两个产业部门之间的投入或消耗越大。这样既综合了产业之间投入产出关系所反应供需关系, 将网络化简为没有重边的无向网, 又免去了考察产业对自身的产品的消耗, 避免了网络中存在环 (Loop) 。

本文根据《中国投入产出表2007》构建了一个产业结构网络, 该网络的出度分布较为平均, 但是具有较高出度的节点频率较高, 由此可见整个网络中节点的连接紧密程度非常高。从全国数据形成的产业结构网络的边权分布和节点出权分布来看, 该网络也具有无标度网络的拓扑结构特点, 即网络特征值的分布基本遵循幂率分布, 双对数坐标下拟合的直线斜率分别为-1.782和-1.199, 判定系数R2分别为0.894和0.806。

此外, 该网络的集聚系数为0.787, 拓扑平均最短路径为1.235 (22008/ (135-2) *134, 从网络中剔除两个孤立节点) , 网络直径为6, 可以看出该网络符合一个小世界网络的两大特征——较短的平均距离和较大的集聚系数。因此, 根据全国投入产出数据构建起来的产业结构网络具有小世界网络效应。

2 产业结构网络的演化模型

计算网络拓扑结构的平均最短路径是为了衡量网络整体的联通程度, 但是实际的产业研究中往往更关注的是最强、最显著的影响路径, 通过这种路径可以更高效、更直接地分析上下游产业之间的技术经济联系。因此, 论文提出建立产业结构网络的最长距离矩阵LPL, 通过改良的Dijkstra算法将公式d˜ij (k) =maxijk{12Ν}{d˜ij (k-1) d˜ik (k-1) d˜kj (k-1) d˜ik (k-1) +d˜kj (k-1) }反复迭代, 进而选取较大值作为影响路径走向。最长距离矩阵能够反映出产业部门i通过n个中间部门逐级的强相关经济联系, 最终对产业部门j造成的最大化影响, 类似于供应链上下游产业对上游产业产生的牛鞭效应。

2.1 加权最长距离矩阵

通过最长距离矩阵LPL表征技术经济联系的计算方式与完全消耗系数的有所不同, 体现的是国民经济各部门之间的通过线性运算得出的直接和间接的联系。因为计算加权最长距离d˜的过程中, 作为基础的边权采用的是投入产出表中的直接消耗指数, 得出的结果反映的是产业部门i通过更加“直接”的路径“间接”地影响到产业部门j, 表征产业部门之间的强关联。

从图2可以看出, 网络的最长路径分布也符合幂律分布的特点, 双对数坐标下的直线拟合斜率为-2.11, 判定系数R2为0.880。可见, 产业结构网络虽然节点数量偏少, 但是在有向加权网络的基础上进行研究, 已经可以发现较为明显的无标度网络特性。

通过对最长距离矩阵LPL和产业结构网络的邻接矩阵A相比较, 可以发现2个矩阵中对应位置处有部分元素的数值相等, 即最大不完全消耗系数与直接消耗系数相等, 表明这些产业之间具有最为直接的产业关联关系和最为快速的产业带动效应。因此, 本文将矩阵LPL和矩阵A的重合元素按照原有位置构成矩阵A˜={a˜ij}, 公式为:

2.2 产业间最强关联网络的构建

以矩阵A˜为邻接矩阵, 形成了新的产业结构网络, 本文将其定义为产业间最强关联网络, 该网络实际上是区域产业结构网络演化形成的子网络, 体现的是原网络中具有最快反应速度的投入产出关系。本文根据产业结构网络最长距离矩阵LPL和公式 (1) , 得到了2007年中国投入产出的产业间最强关联网络, 示意图如图3所示。

图4中的 (a) 表示的是以2007年全国投入产出表为基础形成的产业结构网络的稀疏矩阵分布, (b) 表示的是产业间最强关联网络的稀疏矩阵分布。两个网络的节点数量虽然一致, 但是边的数量大大减少, 邻接矩阵A˜中只保留了邻接矩阵A中不到10%的矩阵元素, 即原来的产业结构网络中只有极少的一部分边承载了产业间最显著的影响力。

此外, 从 (b) 中可以看出矩阵A˜一些特点:矩阵元素大多集中在矩阵的对角线附近, 说明产业部门i与产业部门i+1在界定上往往具有很强的关联性, 这是因为投入产出表编制的规则造成的。例如, “水泥、石灰和石膏制造业”的下一个部门即为“水泥及石膏制品制造业”, 从部门25到部门29依次为“棉、化纤纺织及印染精加工业”、“毛纺织和染整精加工业”、“麻纺织、丝绢纺织及精加工业”、“纺织制成品制造业”和“针织品、编织品及其制品制造业”, 根据中国2007年投入产出表部门分类解释及代码, 这5个Ⅱ级部门都从属于Ⅱ级部门分类中的“纺织业”。

3 以汽车行业为核心的产业集群分析

根据国家发改委最新颁布的《中华人民共和国国民经济和社会发展第十二个五年规划纲要》, 装备制造行业、船舶行业、汽车行业、冶金和建材行业、石化行业、包装行业、电子信息行业、建筑业等八大类别行业, 将成为我国“十二五”时期推进重点产业结构调整的领域。对应本文的产业间最强关联网络模型, 如果某个区域在制定“十二五”时期产业规划时, 计划将汽车行业作为主导产业, 那么可以将网络进一步简化为以汽车制造业为核心的子网络, 只保留与该产业部门直接相连的其他产业部门, 这样就可以更加直观地认识到需要引导区域内那些产业的发展, 最终达到充实和完善有针对性的区域产业集群的目的。

3.1 以汽车行业为核心的产业集群发展关联网络模型的构建

汽车行业主要是指汽车制造业, 它涵盖汽车整车制造、改装汽车制造、电车制造、汽车车身、挂车的制造、汽车零部件及配件制造和汽车修理。图5描绘了以汽车制造业为核心、以拓扑距离1为半径的产业集群网络, 共有23个产业部门构成。网络拓扑结构的平均路径长度为1.4801, 直径为5, 集聚系数为0.372。

产业集群网络作为产业间最强关联网路的子网络, 其有向边的连接可分为3类。

(1) 网络中以汽车制造业为产出部门、以其他部门为投入的投入产出关系, 说明了扶持重点产业发展所必须营造的产业环境, 这些支撑性产业部门包括“皮革、毛皮、羽毛 (绒) 及其制品业”、“家具制造业”、“橡胶制品业”、“塑料制品业”、“钢压延加工业”、“锅炉及原动机制造业”、“泵、阀门、压缩机及类似机械的制造业”、“其他通用设备制造业”、“其他电气机械及器材制造业”、“批发零售业”、“研究与试验发展业”等11个投入部门。

(2) 网络中以汽车制造业为投入部门、以其他部门为产出部门的投入产出关系, 表现出重点产业对于区域发展的产业带动效应, 这些受到影响的产业部门包括“起重运输设备制造业”、“农林牧渔专用机械制造业”、“道路运输业”、“城市公共交通业”、“计算机服务业”、“租赁业”、“商务服务业”、“科技交流和推广服务业”、“环境管理业”、“公共设施管理业”、“其他服务业”、“公共管理和社会组织”等12个产出部门。

(3) 与汽车制造业存在投入产出关系的产业部门之间也有资本的流动, 比如“钢压延加工业”与“起重运输设备制造业”、“其他通用设备制造业”与“锅炉及原动机制造业”等等, 这类产业关联共有53对。

3.2 以汽车行业为核心的产业集群发展关联网络模型的演化

实际中, 区域产业的规划不仅要考虑到产业配套的平衡性, 还必须兼顾产业集群的必要性, 这种必要性在网络模型中可以用边权来进行衡量。网络中边权的赋值w来自投入产出表的直接消耗系数, 如果w值较小, 说明产业之间的经济技术联系不是非常紧密。虽然产业集群网络是产业间最强关联网络的子网络, 呈现的产业关联已经是较为快速和直接的, 但是仍然有许多较弱的关联对于整个网络来说可以忽略。因此, 如果给网络的边权设定阈值, 从而凸出对于集群化发展更为重要的产业部门, 那么对于区域产业规划来说是非常必要的。

本文将以汽车制造业为核心的产业集群网络的w阈值设定为0.02, 剔除较弱产业关联关系后的网络如图6所示。新网络拓扑结构的平均路径长度为0.4964, 直径为4, 集聚系数为0.352, 网络的连通性得到了提高。

3.3 以汽车行业为核心的产业集群发展关联网络模型的分析

从阈值设定前后的两个网络对比来看, 后者中一些产业部门不再与作为核心产业的汽车制造业有明显的产业关联, 但是彼此之间还存在着相互支撑的关系。此时根据网络节点的点权s值就可以判断哪些产业部门对于形成产业集群更为重要, 而次要的产业部门可以视区域产业的承载能力进行取舍。

更为重要的一点, 网络的变化显现出了我国产业结构的不合理之处。“研究与试验发展业”与“汽车制造业”之间的w值为0.007333, 在新的网络中这条边被剔除, 而实际上这两个产业之间的投入产出应该更为紧密。参照汽车制造业最为发达的日本同时期的投入产出表, 就会发现日本的“研究”部门对“乘用画”部门的直接消耗系数为0.039011, 是我国的5.3倍。

与汽车制造业密切相关的研究与试验发展业主要指的是汽车研发设计服务业。我国整车开发的关键技术研究有较好的积累, 但是由于处于产业发展初期, 缺乏整合资源的集成创新机制, 缺少数据库和经验积累, 汽车研发主要靠逆向、模仿, 汽车性能核心环节的流程、标准、技术、信息比较薄弱, 极大地影响着汽车设计与研发整体水平的提升, 设计出的产品实际需求和应用差距较大。在汽车设计产业链下游, 处于前端的设计公司和龙头整车厂商尚未形成战略联盟的关系, 或仅仅是停留在形式联盟的阶段。在汽车设计产业链上游, 汽车制造业较为集中区域周边的小型模具制造、样件试制企业较少, 需要跨区域寻求支撑。因此, 样件生产周期、运输成本、性能参数等各方面条件都受到制约, 更不要说部分需要手工打磨制作的关键部件, 基本要在全国范围内寻觅才可能找到合适的企业进行生产和加工。这种地理范围上的产业链脱节, 极大的影响设计公司的产品研发和项目进度, 甚至可能由于某个部件的缺货导致整个项目的失败。因此, “十二五”时期汽车制造业发展的关键, 不仅是完善配套周边产业, 更是加大对汽车研发设计服务业的资金投入和政策扶持。

4 以石化行业为核心的产业集群分析

石化行业作为基础型重化工业, 具有产业链条长、产业关联度高、产业附加值高的特点, 是各个国家重要的基础产业。我国正处于重化工业阶段, 成品油及石化产品消费量大幅增长, 石化行业在国民经济中的地位日益突出。

4.1 以石化行业为核心的产业集群发展关联网络模型的构建

石化行业涵盖3个Ⅰ级产业部门分类, 分别是“石油和天然气开采业”、“石油加工、炼焦及核燃料加工业”和“化学工业”, 其中化学工业又包括从39~49等11个Ⅱ级产业部门。石化行业产业集群网络拓扑结构的平均路径长度为2.6850, 直径为6, 集聚系数为0.173。

根据石化相关产业部门的性质, 可将它们从产业链的角度分为上游、中游和下游3个层次。上游产业为“石油和天然气开采业”, 指在陆地或海洋对天然原油、液态或气态天然气的开采等活动;中游产业为“石油及核燃料加工业”和“炼焦业”, 包括原油加工及制品制造, 从硬煤和褐煤中生产焦炭、干馏炭及煤焦油或沥青等副产品;下游产业具体包括了“基础化学原料制造业”、“肥料制造业”、“农药制造业”、“涂料、油墨、颜料及类似产品制造业”、“合成材料制造业”、“专用化学产品制造业”、“日用化学产品制造业”、“医药制造业”、“化学纤维制造业”、“橡胶制品业”、“塑料制品业”等11个化学工业部门。本文将石化行业的3个层次产业部门分别作为产业集群网络的3个核心, 中游产业和下游产业作为组团形式存在。在图7所示的集群网络中, 总共涉及到了国民经济体系中的99个产业部门, 由此可见石化行业的重要性。

4.2 以石化行业为核心的产业集群发展关联网络模型的演化

石化企业尤其是大型综合石化企业、石化基地对区域的经济和全国的石化行业格局都会产生巨大的影响, 相关研究中将石化企业的空间布局分为临海型、内陆型、市场型和原料基地型, 根据所在区域特点可分为大型石化企业主导型、精细化工型、城市规划型和开发区依托型, 根据布局模式又可分为原料地布局模式、消费地布局模式、临港型布局模式。由此可见, 石化行业的区域集群化发展必须考虑到区域的许多先决条件。

因此, 本文将研究以上游开采和中游初加工为核心的石化行业集群网络, 为了突出产业之间的较强关联, 同样将w阈值设定为0.02, 新的网络如图8所示。新网络拓扑结构的平均路径长度为1.9840, 直径为10, 集聚系数为0.183, 网络的连通性同样得到了提高。

4.3 以石化行业为核心的产业集群发展关联网络模型的分析

在新的产业集群网络中, 其他部门以上游和中游石化产业为核心进行布局, 而且位于下游精细加工的6个石化产业与核心产业关联非常密切, 说明这9个石化产业适合于集群化发展, 并且属于典型的原料地布局模式。

纵观我国的区域产业发展进程, 曹妃甸工业区的规划布局很好地验证了论文提出的石化行业产业集群发展关联网络模型。曹妃甸工业区致力于打造以“大港口、大钢铁、大化工、大电能”等四大主导产业为核心的功能区域, 这不仅是因为曹妃甸自身具有得天独厚的区位优势和环境资源, 更是因为在其内部的产业部门之间本身就有着很强的技术经济关联。

历史上京津唐三大城市是我国重要的钢铁、石化工业基地。首钢和唐钢、燕山石化都分布在城市的市区和附近地区。随着城市规模的扩大, 城市功能的转型, 这些大型重工业企业与城市发展矛盾日益突出, 同时自身也无法进行规模扩张, 形成合理生产规模, 需要向城市市区以外适宜地区迁移。综合考虑矿产资源、能源、水资源和利用国外资源等因素, 城市重工业向沿海深水港口地区转移是发展趋势。因此, 在曹妃甸产业区依托深水港口, 新建大型钢铁企业, 不仅开创了中国大城市重工业布局区域间调整的先例, 也为沿海地区大城市重工业布局调整和结构优化开辟了一条发展途径。在区域产业规划方面, 曹妃甸产业区采用循环经济理念, 建设以钢铁和石化生产为中心的循环生态链并与其他行业生态链相互交叉、互为资源提供、互为污染物处理、资源再生循环, 与整个社会协调发展的钢铁和石化生态型工业区。形成钢铁企业内部小循环、行业之间中循环和城市生活大循环的产业循环经济新模式, 将会为沿海地区大城市优化产业结构, 建设资源节约、生态友好型产业区起到示范带动作用。

5 主要结论

区域产业规划是一个非常复杂的运筹问题, 即使排除规划者主观因素, 众多不可量化的因素也对研究造成了很大的制约。从系统学角度来看, 区域作为一个远离平衡态的开放性、非线性系统, 必须建立能够科学地反映这个系统某方面特征的模型才能进一步研究。本文首先根据投入产出表的直接消耗系数表, 结合复杂网络理论的建模思想构建了一类有向加权网络——区域产业结构网络, 然后运用2007年全国投入产出数据研究了该网络的一系列特征值, 为下一步深入该网络统计特性和演化机制以及这些机制对产业组织产生的影响奠定基础。在研究网络的路径问题时, 考虑到网络边权是一种相似权, 进而转向研究网络的最长路径及其蕴含的产业经济意义。以此为基础, 本文又构建了产业间最强关联网络和产业集群发展关联网络, 并选取了汽车行业和石化行业进行了产业集群发展可行性方面的实证分析。

本文主要得出以下4点结论:

(1) 根据复杂网络理论和投入产出理论建立起来的区域产业结构网络, 从拓扑结构上看是具有小世界网络效应, 但是如果考虑到其作为加权有向网络的特征值, 可以发现网络同时具有无标度网络特性。

(2) 直接消耗系数作为网络的边权权值, 决定了研究网络连通性能时不仅要考虑拓扑结构的最短路径, 也要考虑到加权网络的最长路径, 这样才能解释相似权网络中, 某个产业节点如何更加直接和快速地影响到其他产业节点。

(3) 加权最长距离矩阵与原网络邻接矩阵的映射, 形成了产业间最强关联网络, 该网络实际上体现的是原网络中具有最快反应速度的投入产出关系。

(4) 分析以某个具体产业部门为核心的产业间最强关联网络, 即产业集群发展关联网络, 可以梳理出区域产业规划过程中的关键产业部门, 还可以通过与发达国家和地区进行比较, 识别出产业集群化过程中存在的问题。

关联行业 篇6

不同于传统制造业, 测试是计算机软件工程中的一个重要环节。目前各类计算机软件系统的初次测试通过率只有30%~40%, 绝大部分的计算机软件系统的功能测试可以通过穷举枚举法进行, 而软件系统的可用性和性能测试则需构建同构的计算机软件平台进行, 而且需要大量正式或仿真业务交易的数据流进行回放实时处理, 并观察和记录系统处理的准确性、并发性、资源使用状况、异常数据处理机制、关键数据备份/恢复机制、系统备份/恢复机制和性能等诸方面的实际表现。只有通过功能、可用性和性能方面测试的软件系统才能进一步被考虑部署或取代已有的系统, 按设定的上线计划上线应用[1,2]。

由于目前市场上主机、存储、网络、数据库和中间件等产品几乎每过两年就面临着一次升级或换代, 随着业务拓展、交易数据量增加和并发处理性能要求提高, 遗留系统的扩容和升级要求在人口众多的大城市显得日趋频繁。一般, 生产线系统水平方向的扩容升级会引起应用软件系统结构和部署方面的较大改动, 因此围绕上述诸方面的软件测试显得尤为重要。相比之下, 生产线系统垂直方向的扩容升级, 一般不会引起应用软件系统结构和部署方面的太大变化, 测试一般主要关注软件的可用性和性能方面。

测试方案的完善性将确定所有被测内容需与实际功能需求、可用性和性能等质量属性保持一致, 是证明软件系统是否能投入实际上线运行的其重要决定因素[3]。一般用于生产线的计算机应用系统, 如城市医保系统、城市个人公积金缴纳系统、城市公共交通一卡通系统和城市轨道交通自动售检票系统等都是生产线计算机应用系统的范例, 它们维系着某个行业业务的日常运营, 直接面向大众服务。这类系统一旦上线运行, 其重要性不言而喻, 事关每个人的日常生活和出行。因此, 这类系统关于功能、可用性和性能等方面的测试需尽可能仿真生产系统的真实数据进行, 业务模块的协同处理测试需完全符合真实的业务流程, 并发处理性能需满足最大负载时序数据的处理需要。

1 医保业务特点与相应测试方法匮乏

对于医保行业来说, 其核心是7×24小时运行的医疗费用实时交易系统, 直接关系到广大群众的“治病救命”, 可谓“性命交关”, 社会影响巨大。因此, 对系统的性能、安全性和可用性要求甚至比金融行业和其它一些在线交易系统都高, 其扩容升级改造的难度很大, 测试的要求也很高, 不仅涉及复杂的系统环境, 同时又必须在扩容升级期间保证其业务系统正常运行和数据的一致性。这就更需要搭建一个与真实环境尽量接近的同构测试平台, 完全模拟现有业务系统流程, 在仿真环境下测试新系统的运行状态、性能和功能准确性, 以保证升级后的系统能够稳定、高效、正确地运行。

另一方面, 我国现阶段的医疗保险政策决定了医疗费用的结算并不是一个简单的记帐操作, 必须依据参保人员的当前帐户情况与历史累计数据进行实时分析和分摊结算[4]。医疗费用的结算是一种前后关联性很强的实时在线交易, 交易数据的不同顺序, 就可能会使费用结算的分摊计算产生不同的结果。同样, 挂号/登记-就诊-结算-退款的业务流程, 也对交易顺序提出了限定要求。例如, 某位就诊病人先支付50元治疗费、再支付100元检查费, 与先支付100元检查费、再支付50元治疗费, 最终的帐户数据可能完全不同。如果在尚未执行某类大病登记操作的情况下, 先执行了该类大病结算操作, 其结果也必然是失败的。因此, 只有精确地按序逐一重做各笔业务, 才能真实反映出系统原有的运行轨迹, 得到相同的计算结果。

传统的自动化测试方法, 通常是先批量化地生成模拟测试基准数据, 然后通过测试程序或测试工具模拟执行业务逻辑来测试系统的准确性和性能[5]。这种测试方法, 存在着以下弊端:

1) 测试的无序随机测试特性, 就易使前后关联性要求较高的业务出现成批失败, 导致测试有效性大大下降。例如, 生成的模拟测试数据中有一笔是大病结算操作, 在测试时就可能由于没有执行相应的登记操作而失败;类似地, 如果有一笔报销操作, 也可能完全没有对应的结算操作而失败。这样, 当失败的比例达到一定程度, 就必然会对验证系统负载和功能准确性产生很大影响。

2) 测试的随机性, 使得每次的测试结果各不相同, 是无法预知的。这一方面给验证数据带来了很大的难度, 几乎无法完成应用功能的准确性比对;另一方面, 每轮测试的可比性很差, 也不便于评估性能测试中参数调整的效果。

3) 测试数据与实际数据之间, 在多样性上存在着一定的差距。相对单调的测试数据, 会使得在同等负载压力下, 系统的资源消耗远低于实际生产环境[6], 导致性能测试效果的偏差。在某地医保系统上线之前, 通过传统测试方法进行压力测试, 并根据测试结果调整了某个数据库参数, 延长cursor在内存的驻留时间, 以提高cursor解析的效率。但是, 由于医保参数人数多、交易类型复杂, 测试数据与生产数据在多样性上存在很大差距, 投产以后cursor资源的消耗远远超过了压力测试时的消耗, 最终达到内存上限导致数据库挂起, 这实际就是传统测试方法中测试数据单调性弊端的一个反面例证。

2 测试平台的架构和实现方法

基于医保费用结算算法要求数据必须连续与关联的这一特点, 同时为了避免传统自动化测试方法的弊端, 本文介绍的测试方法有针对性地搭建了一个高度仿真的交易回放测试平台。利用升级的目标设备或通过与生产系统相近的设备, 构建测试平台, 并与生产系统保持系统架构完全一致[7]。这样, 可以直接评估升级的目标系统的性能表现, 并通过比较测试平台与生产系统的资源配置推算出生产系统的性能表现[8]。

为最大程度地模拟生产系统的运行环境与负载情况, 通过从生产系统中抽取一段时间的真实业务数据, 以初始时间点的帐户数据为基础, 利用该构建的测试平台逐条还原和模拟重做医院的交易数据, 然后再比对结束时间点的帐户数据。这种类似“录像回放”的方式真实重现了生产系统的运行轨迹, 可以精确地验证出应用系统在新的生产环境下的运行状态、性能和准确度。

这种模拟仿真回放测试方案的关键特点概述如下:

1) 必须采集并保存生产系统上某一初始时刻与终止时刻的生产数据, 分别作为测试的基准数据与最终比对的结果数据。

2) 必须采集以上初始时刻与终止时刻之间的交易数据, 并还原为原始的交易请求, 进行回放重做。

对于条件1, 根据生产系统的具体环境, 有不同的采集方法。如果生产系统的存储设备比较陈旧, 可以基于数据库日志重做技术并结合Standby数据库来采集初始时刻与终止时刻的生产数据。但现在一般生产系统中的存储设备大都已采用了中高端的SAN存储系统, 就可以直接利用存储设备的快照功能。如图1所示的第1、第2步, 在采样初始时刻对生产数据库“拍”一个快照, 然后从相应的快照数据库中采集数据, 保存到测试数据库中, 作为测试的基准数据。类似地, 如图1所示的第3、第4步, 在采样终止时刻也同样操作, 再对生产数据库“拍”一个快照, 并将相关数据也保存到测试数据库中, 作为比对的结果数据。

对于条件2, 则如图1所示的第5步, 利用医院前置机上保存的这段时期内的交易流水日志, 通过一个专门的处理程序, 重新按照真实交易消息体的格式模拟生成测试数据文件, 供测试平台进行回放重做。

这样, 如图1所示的第6、第7步, 基于采样初始时刻采集到的测试基准数据, 再根据模拟生成的测试数据文件, 逐条进行回放重做, 直至测试数据文件中的所有交易均被完成。如图1所示的第8步, 再将此时测试数据库中的数据与采样终止时刻采集到的结果数据进行比对和分析, 就可以充分验证出应用系统的运行是否正确, 达到功能的精确测试。

图2是仿真回放测试平台的逻辑组成图。

如图2所示, 仿真回放测试平台主要由“数据准备”、“数据执行”和“比较分析”三大模块组成。

1) 数据准备模块:包含“基准点数据准备”和“交易数据准备”两个子模块。其中, 基准点数据准备子模块, 主要完成测试基准数据采集 (图1中的第1、第2步) 和测试终止数据采集 (图1中的第3、第4步) ;交易数据准备子模块, 主要完成原始交易日志数据的采集和抽取, 并按照格式要求进行转换、生成测试数据文件 (图1中的第5步) 。

2) 数据执行模块:即图1中的第6、第7步, 基于测试基准数据, 读取各测试数据文件中重现的交易数据, 进行回放重做测试。

3) 比较分析模块:即图1中的第8步, 包含“帐户数据比对”和“交易数据比对”两个子模块。其中帐户数据比对子模块, 比较测试结果数据与前期采集的测试终止数据中的帐户数据是否存在差异;交易数据比对子模块, 则比较测试结果数据与前期采集的测试终止数据中的各交易明细数据是否存在差异。

3 测试平台的特点和效果

从上述数据的采集方法可以看到, 仿真回放测试平台的数据具有以下特点:

1) 数据准备基于真实数据。测试基准数据和测试终止数据都是从生产环境复制到测试环境中的, 这样的方式决定了测试时的帐户基础数据是真实的;而测试交易数据, 也是通过医保结算的反向算法, 从生产环境中的真实交易信息计算得到, 这样的测试交易数据, 反映了真实环境下的交易情况。综合以上可知, 测试平台的数据准备都是对真实数据的最大贴合, 而不是基于其它机制的模拟数据。测试过程采用真实数据, 大大提高了测试的可靠性和代表性。

2) 数据执行基于真实的时间顺序。在数据执行过程中, 如果同一个参保人在实际就医中有多次费用结算, 或是先进行了大病登记然后再进行大病结算, 则测试过程的交易结算顺序, 也将完全按照真实环境中参保人的结算顺序。通过这种方式, 保证了参保人的帐户在测试中的变化过程, 与真实环境中其帐户的变化过程完全一致。

3) 测试结果的比较对象是真实数据。测试过程结束后得到的测试结果数据, 与从生产环境复制所得的测试终止数据进行比较, 来判断测试结果是否与目标一致。由于测试终止数据也是真实的生产数据, 具有相当的权威性。而通过与真实数据进行比较, 来对测试过程进行分析, 并判断测试是否成功, 大大提高了测试的有效性。

正是基于这些特点, 与传统测试方法相比, 仿真回放测试平台具有以下优势:

1) 所有用于测试的数据实际上是真实数据的按序回放, 规避了无序测试产生的交易失败情况, 也解决了由于模拟数据多样性不足而导致系统资源消耗与实际负载会远低于实际生产系统的问题。

2) 每一轮的测试结果都是可以预期, 即是所采集的“测试终止数据”。这样, 功能测试时, 只需要将测试结果数据与测试终止数据进行比对。如果测试结果数据与测试终止数据完全相符, 就说明应用模块实现的功能是准确的;如果有不同之处, 则可以根据数据的差异来推断出错的问题。

3) 每一轮的测试轨迹是完全相同的, 对系统的负载也应该是完全相同的。因此, 性能测试时, 通过存储的快照功能, 每轮测试后我们可以方便地将测试数据库恢复到采样初始时刻的状态, 并根据需要修改某些参数, 然后再次回放重做各笔交易至采样终止时刻。这样往复多次, 就可以在完全相同的业务负载下比对每轮的系统运行性能情况, 从而取得一个最佳的参数设定配置。

综上所述, 本文设计、实施和描述的仿真回放测试平台在实现功能测试精确比对的同时, 充分保证了性能测试的真实性、有效性。

4 测试流程

图3描述了构建测试平台及实施测试流程的关键步骤。

各关键步骤简洁描述如下:

1) 参考生产环境的软、硬件配置, 搭建测试平台, 在测试平台上安装系统软件, 进行相应的参数设置;

2) 在测试平台上部署完全相同的应用模块;

3) 基于存储快照技术, 从生产系统中抽取某一时间点的业务数据, 存入测试平台的存储设备中, 作为测试基准数据;

4) 在一定时间段之后, 通过相同方法从生产系统中抽取此时的业务数据, 存入测试平台的存储设备中, 作为测试终止数据;

5) 通过采集交易日志中的操作记录, 对基准数据和终止数据之间产生的增量交易数据, 按照真实交易消息体的格式生成测试数据文件;

6) 在测试平台上以测试基准数据为初始值, 通过读取测试数据文件, 以数据回放的方式, 对已生成的测试数据逐笔进行交易, 并记录真实的测试结果;

7) 对上述产生的测试结果数据和测试终止数据进行比对, 检查测试平台和生产环境在相同数据、相同应用、相同业务的情况下, 最终结果是否一致, 从而判断测试平台的功能准确性;

8) 同时, 在测试平台上根据需要设置回放交易的速度, 进行加压测试, 并监控和记录系统平台设备的性能运行参数, 观察系统的稳定性表现, 从而判断测试平台的性能表现;

9) 在一轮回放测试全部结束后, 根据测试结果与测试目标修正发现的错误, 调整软、硬件参数;

10) 通过存储快照功能, 将测试平台的数据恢复为测试基准数据, 重新开始新一轮回放测试, 直至系统功能、性能都已满足目标要求。

5 结语

通过上述高度仿真的回放测试平台, 可以做到完全基于真实数据、真实业务发生时间顺序的全真业务回放, 实现了功能测试和性能测试的真实化和准确性。正是利用这一平台充分、有效的测试, 在上海、宁波、温州、青岛等地医保系统的升级改造工程中, 即使面临主机、存储、数据库和中间件全面跨版本升级的复杂环境, 也保证了医保核心系统一次性升级成功, 未对老百姓在医院的就诊与费用结算产生影响。该项技术也已获得了专利, 并望在更多的医保系统中发挥作用。

参考文献

[1]付剑平, 陆民燕.软件测试性定义研究[J].计算机应用与软件, 2010, 27 (2) :141-143, 153.

[2]王谦.基于评价软件测试的有效性问题研究[J].计算机光盘软件与应用, 2012 (4) :182-183.

[3]王强, 纪晓青.软件测试重要度的决策分析[J].计算机应用, 2011, 31 (6) :1495-1497.

[4]梁鸿, 芦炜.支付制度改革与市场机制[J].中国医疗保险, 2013, 53 (2) :19-21.

[5]干晓鸣.软件自动化测试的合理应用[J].计算机应用与软件, 2010, 27 (8) :172-174, 214.

[6]肖良, 杨根兴, 蔡立志.软件测试用例可复用性度量[J].计算机应用与软件, 2010, 27 (6) :46-49, 69.

[7]段念.软件性能测试过程详解与案例剖析[M].2版.北京:清华大学出版社, 2012.

关联行业 篇7

本文主要通过统计分析沪市A股上市公司2007~2009年关联方交易具体数据, 研究我国上市公司关联方交易规模、结构及行业差异等问题, 以促进我国上市公司的关联方交易行为规范发展。

一、关联方交易规模研究

本文拟以关联方交易平均发生率这一指标研究我国上市公司关联方交易的规模。通过整理收集沪市A股上市公司2007~2009年各行业关联方交易发生次数, 并计算出这三年来各行业关联方交易平均发生率以及行业总的关联方交易平均发生率。

1. 样本数据选取。

样本数据均来源于CCER关联方交易数据库, 以2007~2009年发生关联方交易的沪市A股上市公司数为样本数据, 其中2007年13类行业总共771家公司发生了关联方交易行为, 2008年543家, 2009年800家。截至目前沪市A股上市公司总共为949家, 这一数据用于计算关联方交易行业平均发生率指标的基数。

2. 统计结果。

从表1中可以看出: (1) 各行业总的关联方交易发生次数呈明显U型结构, 2008年呈下降趋势, 2009年又有所增长, 这种先降后增的局面可能与2008年的经济危机有关; (2) 各行业的关联方交易发生比例都很高, 其中信息技术业以93.33%居于首位, 最低比例的金融保险业关联方交易行业平均发生率也达到了50%, 行业总的关联方交易平均发生率为74.25%。

统计结果说明, 关联方交易行为在上市公司生产经营中是一种很普遍的现象。

表1中, “关联方交易行业平均发生率”栏是前3列总数的平均数除以该行业上市公司总数得到的, 综合类一栏没有该指标主要是因为2011年该行业公司数小于2007、2009年关联方交易发生数, 可能是有公司退市了, 为不影响比较故不计算该项指标。

二、关联方交易类型研究

现行会计准则下, 关联方交易的类型与之前相比有部分变化调整, 取消了“管理方面的合同”类型, 新增了“关键管理人员薪酬”类型, 主要原因是考虑到关键管理人员对报告主体具有控制或重大影响的权利, 故而企业给关键管理人员的薪金相当于是关联方之间的交易行为。现行会计准则规定的关联方交易主要包括以下11种类型: (1) 购买或销售商品; (2) 购买或销售除商品以外的其他资产; (3) 提供或接受劳务; (4) 担保; (5) 提供资金 (贷款或股权投资) ; (6) 租赁; (7) 代理; (8) 研究与开发项目的转移; (9) 许可协议; (10) 代表企业或由企业代表另一方进行债务结算; (11) 关键管理人员薪酬。

本文拟按现行会计准则规定的关联方交易类型分类整理样本上市公司2007~2009年关联方交易数据, 分别统计这三年中各类关联方交易的发生次数和发生额, 再计算出每类关联方交易在当年所占的比例, 进而找出关联方交易的结构分布特征。

1. 样本数据选取。

样本数据来源于CCER关联方交易数据库, 通过分行业统计沪市A股上市公司2007年关联方交易发生额, 选取每个行业关联方交易总额前十名的公司作为样本公司进行研究分析。

剔除金融、保险业及传播与文化产业后从剩下的11个行业中每个行业选取10家公司, 然后收集整理选出的110家样本公司2007~2009年的关联方交易数据作为关联方交易结构特征分析的样本数据。

2. 统计结果。

分类统计各类型关联方交易2007~2009年这三年的发生次数和发生金额, 见表2、表3。由表2可知, 关联方交易发生次数总体上呈现出逐年增长的趋势, 其中以关联购买或销售商品、提供或接受劳务、担保抵押这三种日常关联方交易类型发生最为频繁, 债务重组发生率最低。

表2中, “研究开发项目”2007年比例栏、“债务重组”2008年比例栏以及“许可协议”2009年比例栏经过微调, 从而使比例合计数达到100%。

由表3可知, 关联方交易总额呈逐年下降趋势, 2008年下降幅度更是达到了87.66%。这主要是由于2007年“提供资金”和“担保抵押”两项交易金额异常之大, 分别占到53.37%和38.81%, 成为2007年发生额第一、第二的关联方交易类型, 而2008、2009年两年的发生额比例大幅度下降且均未超过关联购买或销售商品的发生额比例。这可能与2003年证监会发布的56号文《关于规范上市公司与关联方资金往来及上市公司对外担保若干问题的通知》有关。然而, 我国证券监管的执行力和监管力度不够, 大部分上市公司才会存有侥幸心理, 从而出现2007年提供资金和担保抵押这两类关联方交易额相对2008年和2009年的巨大涨幅。

单位:亿元

表3中, “租赁”2007年比例栏、“许可协议”2008年比例栏以及“债务重组”2009年比例栏经过微调, 从而使比例合计数达到100%。

三、关联方交易行业差异研究

证监会根据各企业生产性质以及组织结构体系的不同, 将上市公司分为农、林、牧、渔业, 采掘业, 制造业, 电力、煤气及水的生产和供应业, 建筑业, 交通运输、仓储业, 信息技术业, 批发和零售贸易, 金融、保险业, 房地产业, 社会服务业, 传播与文化产业, 综合类共13个大类。

本文以2009年沪市A股上市公司数据为样本统计各行业关联购销商品、提供接受劳务以及担保抵押这三类最常见且发生最为频繁的关联方交易的发生额, 并计算出各行业平均发生额占总平均发生额的比例。拟通过上述统计分析研究我国上市公司关联方交易的行业差异, 促进我国资本市场规范健康发展。

1. 样本数据选取。

样本数据均来源于CCER关联方交易数据库, 以2009年沪市A股上市公司发生关联购销商品等日常关联方交易额为样本数据 (具体见表4) 。

2. 统计结果。

由表4可以看出, 采掘业的日常关联方交易发生比例最高, 其次是建筑业、制造业和交通运输、仓储业, 而金融、保险业以及传播与文化产业的发生比率分别只有0.77%和0.9%。

表4中, “平均数”栏是用前3列合计数除以该行业上市公司总数得到 (“合计”栏除外) ;“比例”栏是各行业平均数除以合计平均数得到;“综合类”比例栏经过微调, 从而使比例合计数达到100%。

单位:亿元

四、研究发现与结论

1. 关联方交易行为的普遍性。

一方面, 关联方之间的特殊关系使得关联方交易可以节约交易成本, 减少违约风险, 在一定程度上还能进行恰当的盈余管理, 提高公司的市场竞争力。这种优势使得关联方交易在上市公司中大量存在。另一方面, 关联方交易在我国上市公司中普遍存在与我国特殊的市场经济体制有着直接的关系。由于我国上市公司大多由国有企业改制而来, 剥离出来的上市公司与改组前的母体公司和下属公司之间存在着千丝万缕的联系, 这种紧密关系很容易产生关联方交易。同时, 我国资本市场发展还不够完善, 规范关联方交易的法律法规不够全面系统, 市场监管制度还存在着相应的缺陷, 这些都给非公允关联方交易提供了宽松的操作环境, 使之得不到有效的约束。

2. 日常关联方交易是关联方交易的主要形式。

一方面, 日常关联方交易能降低交易成本, 从而使企业资源得到更有效的配置, 有益于企业的长期发展;另一方面, 相对其他类型关联方交易日常关联方交易的手法更不容易被监管机构识破, 可操作空间较大。相关学者的实证研究也表明, 大多数的非公允关联方交易发生在日常交易上。相对而言, 非日常关联方交易因其交易金额比较明确, 利益流向比较清晰, 容易引起监管部门的关注, 所以发生频率比较低。

3. 关联方交易行为的行业差异性。

不同行业的关联方交易行为发生率不同证明, 日常关联方交易额在各个行业也有较大的差异, 采掘业、建筑业、制造业以及交通运输仓储业的交易额明显高于其他行业。呈现这种行业差异的原因可能是这几个行业要么是资金密集型行业要么是供产销环节联系较为紧密的行业, 而“剥离上市”、“分割上市”导致独立性不强, 行业内的生产和销售基本上要靠控股股东等关联方进行。

五、规范关联方交易行为的相关建议

1. 加强证券市场的监管。主要有以下三个方面:

(1) 制定系统全面的法律法规。目前, 我国关于关联方交易的法律法规不够全面和系统, 存在关联方认定范围不全面、披露要求不严格等问题。我国对关联方认定存在的主要问题是缺乏对关联方关系时间的界定, 导致忽视潜在关联人, 进而引发上市公司隐性关联方交易的发生, 这个问题应该引起有关部门的重视。同时, 我国主要通过披露达到对上市公司关联方交易的规范, 准确、公开地披露关联方关系及其交易能保证会计信息质量, 从而减少信息不对称带来的负面影响。目前正是因为披露原则不够规范, 才导致上市公司非公允关联方交易的行为时有发生, 因此进一步建立有效的关联方交易披露原则非常必要。

(2) 完善公司治理结构。我国上市公司大部分是由国有企业改制而来, 但不少企业的改制不够彻底, 导致公司股权结构不合理、股权过于集中、“一股独大”的现象非常普遍。一些大股东通过关联方交易实现对中小股东利益的侵占, 即大股东的“掏空”行为频繁发生。当然, 股权过于分散也会导致公司决策低效率、股东监督高成本的问题, 所以我国上市公司应适当分散大股东股权, 同时发挥监事会的监督作用和强化独立董事制度, 这样方可既治标又治本。

(3) 加强执法力度。对于非公允关联方交易行为, 如果没有具体惩罚措施或是有关部门执法力度不够, 纵使有再全面再系统的法律法规来约束也无济于事, 因为对于很多资本雄厚的大企业而言, 采取非公允关联方交易带来的利远大于由此带来的弊, 所以它们才会肆无忌惮地蔑视法律规范。

2. 提高信息使用者素质。

由于我国资本市场起步较晚, 广大投资者尤其是中小投资者普遍缺乏投资决策所必需的金融和会计等方面的知识, 不能理解公司财务报告的内涵, 热衷于打听“小道消息”或者是采取“跟风”的方式进行投资决策, 很少质疑上市公司会计信息的质量。正因为信息使用者对会计信息需求不足、要求不高, 无疑给发布会计信息的公司形成宽松的环境以致加剧非公允关联方交易的发生。若信息使用者专业素质得到提升, 自然而然会增加对高质量会计信息的需求加强市场监管的要求, 这一定程度上会限制上市公司的非公允关联方交易行为。

总的来说, 关联方交易行为作为市场经济体制改革的必然产物, 利用得当则能稳定经营环境、降低交易成本, 从而提高企业市场竞争力;利用不当则可能导致关联方交易缺乏公允性和透明性, 从而扰乱资本市场的正常运营, 这就需要通过加强监管和提升信息使用者素质使之得到更好的规范。

参考文献

[1].李端生等.关联方交易会计研究.北京:中国财政经济出版社, 2007

[2].叶铟.中国上市公司关联方交易特征分析.广东广播电视大学学报, 2007;16

[3].李增泉等.“掏空”与所有权安排———来自我国上市公司大股东资金占用的经验证据.会计研究, 2004;12

关联行业 篇8

关键词:房地产行业,贡献度,灰色关联度

一、研究背景

房地产行业在中国的发展是呈由不太成熟到逐渐成熟的曲折的周期性成长的。尤其是在改革开放之后。1992—1993年全国范围出现房地产热, 在紧缩性宏观政策的作用之下, 房地产业进入收缩阶段。1996年将住宅建设作为经济增长点、1998年取消福利分房等政策为标志, 中国房地产业进入相对稳定的发展时期。2007年, 美国爆发了次贷危机并引发了全球的金融海啸, 美国的房地产价格、交易量及新屋开工数量等指标都步入了熊市, 而中国的房地产市场同样是每况愈下。2008年, 住房价格短期的下降后, 天津、沈阳、南京、西安等城市先后出台了救市政策。于是, 2009年中国房地产在美国房地产价格跌幅扩大的同时, 却出现了逆势上扬, 北京、上海等城市的交易量大幅度增加, 甚至部分城市的月均交易量创出历史新高。2010年房地产各项指标全面上扬, 房地产开发投资同比增长33.2%, 施工面积同比增长26%, 房地产开发企业完成土地购置面积同比增长33.2%, 施工面积同比增长10.1%, 房地产开发企业资金来源同比增长25.4%。房地产投资占城镇固定资产投资比例从2009年的18.7%上升到2010年的20%, 新增房地产信贷总额占新增信贷总额比例也从20.5%上升到25.4%。因此, 2011年房价上升的压力依然较大[1]。

房地产业产业链长, 关联度大, 能够直接或间接地拉动和影响相关产业的发展。房地产市场的发展主要体现在住宅市场的快速发展上, 它的发展带动了建材、冶金、纺织、化工、机械、交通、邮电通信、家电家具、金融等50多个生产部门的发展, 据统计, 每100元的房地产销售能够带动相关产业170元的销售, 其连带和关联效应极其明显[2]。行业需求的增加会刺激消费需求, 进而再次提高其他行业的总产额。因此, 房地产的开发和投资与关联产业的带动有着不可替代的作用。1998—2009年, 房地产开放投资对经济增长的贡献率平均为10.4%, 拉动经济增长平均为1个百分点。2009年, 房地产对经济增长的贡献率达到19.4%, 拉动经济增长1.77个百分点[1]。

较高的住房价格, 尤其是过高的住房价格是柄双刃剑, 在给房地产业的发展提供较大的动力的同时, 也会给经济发展带来一定的负面影响:首先, 加大了市场风险。房地产业与金融业之间具有高度关联性。房价波动的风险将通过这种关联性直接影响到中国的金融稳定甚至金融安全;同时, 房地产业与其他行业之间的高度关联性也会导致国民经济的剧烈震荡。其次, 扭曲了居民的消费和储蓄行为。目前房价大幅上涨, 特别是一些大中城市房价上涨过快直接导致居民购房负担加重, 最终导致市场失灵, 甚至演化成严重的社会问题。

因此, 我们有必要研究房地产行业与国民经济其他部门的关系。

二、房地产行业对国民经济其他部门的影响[3~4]

通过研究房地产业与国民经济其他相关产业的灰色关联度, 可以确定与房地产关联度大的产业及对相关产业发展做出预测;并从产业关联角度分析相关产业协调发展问题, 并提出相应的的建议。

1. 模型的建立。

设ηj是第j个方案向量Xj从属于向量G的比例, 则Xj从属于向量B的比例为 (1-ηj) 。

那么, 在最小二乘估计的要求下的目标函数为:

其中η即为系统的最优解向量:η= (η1, η2, …, ηn) 。

同时, 最优解向量也为鄣F (η) /鄣η=0的解, 可得:

其中j=1, 2, …, n。

2. 模型的修正。

为使灰色预测更加准确全面, 减少估计的误差, 可以利用特尔菲法邀请专家打分对模型进行修正, 设评价向量为:

此时, η=u (η1, η2, …, ηn)

3. 模型分析。

假设:A代表农林牧渔业总产值, B代表工业总产值, C代表建筑业总产值, D代表交通运输业客运量, E代表邮电业务总量, F代表股票等筹资额, G代表社会消费品零售总额, H代表货物进出口总额, I代表房地产开发额。

中国房地产与各行业产值 (如表1所示) :

(亿元)

由此, 我们可以得到各相关产业与房地产业国内生产总值的绝对差值。然后, 可知规格化之后的矩阵, 再由规格化矩阵, 可知:

优向量为G= (1, 1, 1, 1, 1, 1, 1, 1) ;次向量为B= (0, 0, 0, 0, 0, 0, 0, 0)

则又得出优向量G和的关联系数, 相关行业与最优向量G之间的关联度为:

相关行业与最优向量B之间的关联度为:

由此可知, 系统的解向量为:

利用特尔菲法邀请有关专家对房地产业与相关产业关联性进行评价。

由该表可以看出, 房地产业与建筑业、金融、交通、邮电、工业等行业关联性比较强, 根据以上计算, 可知, 各行业与房地产业的灰色关联度为:

三、结论

由计算结果可知, 房地产业与建筑业的关联性比较强的是建筑业、金融、交通、邮电、工业等行业。按照福利经济学的观点, 市场经济是以帕累托最优作为资源配置目标的。如果房地产企业存在过多的泡沫, 引起房价的扭曲, 对社会资源配置产生了异常的作用, 虽然这样实现了资源的优化配置, 但也造成了资源的巨大浪费;一旦泡沫破裂, 会引起相关产业的剧烈动荡, 拖垮整个国民经济, 甚至造成金融危机。

根据以上的计算结果, 我们可以得到以下结论:

1.与房地产企业最相关的是建筑业。与其他行业相比, 建筑业在国民经济中的占的比重名列前茅, 其增长速度与房地产业相比也只是稍有逊色, 2001—2009年, 房地产开放的评价增长速度为25.6%, 而建筑业同期的平均增长速度是22.35%。因此, 房地产业可以通过建筑业带来国民经济的成倍增长。由供需模型我们可以看出, 在中国, 供需不平衡, 在城市化加快发展的现阶段, 中国面临巨大的住房需求, 但是, 由于现在居民的购买力还无法解决现在房地产供需不平衡的问题, 造成内需不足, 容易引发泡沫。因此, 为扩大住房消费和投资, 扩大内需, 在对房价进行控制的同时, 加大经济适用房、限价房、廉租房的供给, 使房地产供给价格保持在合理的范围之内。同时, 该措施同时, 还支持了建筑业的发展, 对其他相关行业, 也有一定的带动作用。

2.由于房地产和金融两行业长久以来就存在较强的依赖性, 房地产企业对金融企业的影响是双向的, 即房地产业作为一个资金密集型行业, 在房地产开发、建设、经营、流通和消费的整个过程中, 进行的筹资、融资及相关金融服务的一系列金融活动, 在既将金融行业提供的资源作为自己的生产要素的同时, 还推动着金融行业的发展。由于这个特性, 使房地产与金融在长期存在显著的风险双向传染效应, 二者的行业的波动会受对方显著的影响, 2007年的次贷危机而引发的次贷危机也证明, 在房地产过热的形势下, 要做好两者的风险管理, 二者积累的风险在对自己产生威胁的同时, 也会通过传染给另一方, 造成风险效应的扩大, 形成连锁性的行业危机。

参考文献

[1]聂梅生.房地产市场与调控政策分析[J].金融发展评论, 2011, (4) .

[2]罗辉.论房地产经济对宏观经济的影响[J].企业家天地, 2011, (7) .

[3]孔凡文, 刘宁, 娄春媛子.房地产业与相关产业关联度分析[J].沈阳建筑大学学报, 2005, (3) .

上一篇:生化检验技术下一篇:行业建筑管理