分析数据模型(共12篇)
分析数据模型 篇1
数据中心是信息系统的中枢和大脑,为信息系统提供数据的应用、交换与存储等核心功能。所以从表现形式上看,数据中心是信息革命的集大成者,涵盖建筑、结构、电气、制冷与空调、网络与布线、装饰装修、信息设备、软件与数据库、监控与管理等各个行业。
因为数据中心处于信息系统的核心地位,有着庞大而复杂的系统组成,所以研究数据中心的模型,是数据中心研究与建设、管理与维护的理论基础工作之一。
对数据中心的属性和各个子系统分析、归纳、总结后,我们可以将数据中心模型分为物理模型、可靠性模型、能效模型、生命周期模型、经济模型等。
本文希望共享出这些初步的研究成果,能够吸引更多的专家学者加入到数据中心的模型研究中来,为我国数据中心建设提供坚实的理论与模型基础。
1 数据中心物理模型
随着全球电信产业界的融合趋势,电话网、计算机网、有线电视网趋于融合,传统网络面临着负荷在不断增大,用户的业务需求也趋于多样化的趋势,如图1所示。
传统的通信网络中,人们的信息传递过程可简化为如图2所示。
到了21世纪初,基于软交换技术的NGN网络应运而生。NGN (Next Generation Network)又称为下一代网络,是一种综合、开放的网络构架,可以在统一的分组网络上融合通信、信息、电子商务和交易等业务,满足多样化、个性化业务需求,在继承的基础上实现与各种业务网络(PSTN/ISDN、PLMN、IN、Internet)之间的互通,在全网内快速提供新的语音、数据、图像融合业务,如图3所示。
第一层为边缘层。又称为综合接入层。在上一代通信网络中,不同网络的接入方式是不同的。固定通信网(简称固网)有模块实现接入,移动通信网采用无线方式接入。而在NGN网络中,固话、手机、宽带、电视等终端设备,实现统一接入,所以又被称为综合接入层。
第二层为核心层。实现数据、信息的高速传输、互联互通。通常由城域传输网络、省域传输网、国家干线传输网络等构成。
第三层为软交换控制层。NGN的核心或本质不同在于采用软交换方式,大大简化了通信、信息的网络架构,并支持业务的无限拓展。
第四层为业务层。所谓业务(business),即服务和数据、信息应用等通称。业务层表现形式为各种形式的数据中心、信息中心、控制中心等。显然,在NGN网络中,业务层才是网络架构的大脑、中枢和价值中心。
新的网络架构下,业务层就是数据中心,也决定了数据中心是NGN网络的大脑、中枢,如图4所示。
数据中心的内容涵盖从站点、基础架构、技术与系统架构、应用及数据、业务和IT流程、组织与运营、企业与信息化战略等全方位内容,如图5所示。
2 数据中心可靠性模型
数据中心是一个复杂的系统,大型数据中心的每一个子系统都有对应的可靠性/可用度模型。工程上选用相应标准如表1、表2所示。
3 数据中心能效模型
美国绿格组织(Green Grid)定义了广为使用的PUE指标,衡量数据中心的能效参数。
能量使用效率PUE:Power Usage Effectiveness;数据中心基础设施效率DCi E:Data Center Infrastructure Efficiency。
PUE和DCiE两者成倒数关系,如图6所示。
PUE指标分解为:
CLF代表在单位功率IT负载上消耗的制冷用电量,而PLF代表在单位功率IT负载上供电系统的损耗,1.0代表IT负载和自己的比率。这样,就可通过一些子指标来定量表征数据中心能效模型。
当前实践中,数据中心多采用风冷型机房空调制冷,在节能措施到位下,最低可达到1.65,通常为1.8~2.0(夏天工况)。
在我国北方建设数据中心,可采用水系统制冷方式(或制冷剂泵循环节能技术),可利用北方地区丰富的冷空气资源。设计与工程优良时,最低可达1.45~1.60(夏天工况),结合北方3到6个月冬天自然冷工况,全年平均PUE最低可达1.25~1.35左右如图6所示。国际PUE最佳实践(Best Practice)为1.30,最完美值1.2。
4 数据中心生命周期模型
数据中心生命周期从5~15年不等,包括需求评估、规划、建设、设计实施、管理运营、优化扩容等阶段,如图7所示。
5 数据中心经济模型
经济模型是衡量数据中心成本或收入成本等经济指标的模型,分为TCO模型与ROI模型。
(1)成本项目范围
投资成本(Capital Expense,简称CAPEX)
数据中心基础设施的投资成本是一笔十分可观的支出。这包括设备的成本以及与设计和部署设备相关的成本。投资成本将以资产折旧与摊销费用计入项目。
折旧与摊销费用:是把资产支出在生产经营期各年度中进行分摊,以核算当年应付的所得税和可以分配的利润。
折旧费估算:年折旧额=(固定资产原值一预计净残值) /折旧年限。
摊销费估算:摊销费是指无形资产和递延资产等一次性投入费用的分摊,其性质与固定资产折旧相同。年摊销费=待摊费用/有效使用期限。
运营成本(Operation Expense,简称OPEX)
运营成本是与维护业务相关的所有成本。数据中心基础设施的运营成本,包括能源成本、运营人员工资福利、培训支出以及维护和维修成本等。
能源成本:数据中心的服务器交换机、机房空调等设备是非常耗能的设备,其用电负荷密度远高于普通办公楼与厂房,所以能源成本是数据中心成本的主要组成部分之一。
人力成本:数据中心工作人员包括信息技术人员、技术管理人员等。人员的多少视工程的规模、信息系统的大小和工作的性质而定,成本开销包括工资、奖金、福利和各种保险等。
培训费:培训包括技术人员的专业培训和使用人员的操作培训,这两方面都需要经费。
设备维护与更新成本:维护成本包括计算机耗材、机器维修、配件更换以及购买小型工具/软件的费用。
财务费用:财务费用是指筹集资金等财务活动中所发生的费用,包括项目实施运用期间发生的利息净支出、银行手续费以及为筹集资金发生的其他费用。
其他费用:主要指管理费用,管理费用是数据中心管理部门为管理和组织数据中心设施与运行发生的各项费用,包括管理部门人员工资及福利费、折旧费、修理费、办公费、差旅费等。
(2)收益项目
数据中心运行有两类方式,一类为商业型数据中心,一类为自用型数据中心。
商业型数据中心
根据市场定价向用户提供服务,并获取收益。如用于服务器托管、主机租用等用途的数据中心;外包类的生产型数据中心、灾备数据中心等。
托管类数据中心在中国电信、中国联通等企业大量存在,也是我国数据中心的主力军之一。
通常托管类数据中心按照机柜数量、机柜服务器台数、网络带宽等收费,每个机柜每个月的租用费用从数千元到数万元不等。
自用型数据中心
数据中心是“信息革命”的集大成者,大大提升了企业运营与管理、社会沟通交流的效率。所以越来越多的企业、政府机构、社会团体建设数据中心,而这些数据中心仅仅为自用,不对外提供业务,称为自用型数据中心。
最典型的自用型数据中心是银行信息中心、企业ERP与信息中心、政府(如税务海关等)信息中心等。
自用型数据中心带来的效率提升、管理规范等指标为非经济型指标,无法用简单的经济模型进行定量分析,只能定性分析,简述如下:
效率提升:信息革命及其数据中心带来了全人类社会沟通交流、生产生活等效率的巨大提升。以人们日常生活中接触最多的银行系统来说,信息革命之前都采用手工记账,为每个账户提供书面的资金记录,显然这样的方式,效率低下,成本高昂,处理能力低。而在信息革命之后,所有的资金记录均在网络上,通过数据中心进行交换与处理,转账汇款将在数秒钟内完成,并且为银行资金往来记录、处理提供了安全高效平台。
管理规范化:通过数据中心承载,将先进的管理理念融合在信息系统设计之中。把最先进的管理理念贯彻到整个企业,摆脱手工作业的随意性和不规范性,提升企业设计、生产、销售、服务等过程中自动化、智能化能力,真正实现企业的现代化管理。
(3)经济分析方法
自用型数据中心没有收入项目,只能采用TCO方法分析经济性。商业型数据中心有收益,可采用各类ROI (Return of Investment)方法分析经济性。
摘要:本文在业内首次全面完整归纳了数据中心的模型, 为数据中心的研究与建设提供了理论分析的模型、工具与方法。数据中心模型包括物理模型、可靠性模型、能效模型、生命周期模型、经济模型等, 这些模型将为数据中心的规划、设计、建设提供深入的理论支持。
关键词:数据中心,模型分析,物理模型,可靠性模型,能效模型,生命周期模型,经济模型
分析数据模型 篇2
0引言
随着统计数据规模的快速增长,数据特征日趋复杂,数据收集渠道多样,统计学相关领域研究已进入大数据时代。如何高效收集样本数据、挖掘信息,从海量数据中提取有用的信息特征,将信息及时提供给相关部门决策,成为当前统计学研究热点之一。与国外相比,我国在统计分析工作中存在信息资源整合程度不高、数据共享匮乏、信息不完整等问题。随着大数据时代的到来,对大数据分析与挖掘的研究和应用越来越重视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内采集、处理、管理与分析海量数据。
目前政府部门间借助政务平台可以实现数据资源共享,但是企业与政府间缺乏数据的分享平台,造成了信息隔离,对此,统计部门要构建起全方位的海量数据共享和分布式存储的安全统计分析平台,实现跨地区的统计信息交流,满足海量信息数据的.实时分享和处理。
1大数据
大数据是一种大规模的数据集合,数据分析人员无法在一定时间内用一般软件对其进行提取、处理、分析和管理。处理大数据的关键技术包括大规模数据集的并行处理技术、分布式数据库、分布式文件存储与处理系统、数据挖掘、云计算等。大数据具有5V特点:Volume(体量浩大)、Variety(类型多样)、Velocity(生成快速)、Veracity(真实性高)、Value(价值巨大)。
1.1云计算
云计算(Cloud Computing)是传统信息技术发展融合的产物,基于效用计算(Utility Computing)、并行计算(Parallel Computing)、分布式计算(Distributed Computing),它提供便捷的、可用的、按需付费的网络访问。云计算平台可以提供IaaS(基础设施即服务)、PaaS(平台即服务)、 SaaS(软件即服务),同时负责数据安全、分布式网络存储、虚拟化、负载均衡、热备份冗余等,用户在使用资源时不需考虑底层基础架构。
大数据应用不在于掌握庞大的数据信息,而在于对获取的数据进行专业化处理,以挖掘出数据的价值。大数据处理任务无法用单机串行计算方式处理,必须采用分布式架构进行计算。其特点在于依托云计算的分布式处理、云存储、分布式数据库和虚拟化技术对海量数据进行挖掘。
1.2大数据处理技术
1.2.1大数据研究现状
Science、Nature等国际顶级学术期刊出专刊探讨了大数据处理与分析研究,介绍海量数据给社会生产和人们生活带来的挑战和机遇,学者们断言:“数据将是未来举足轻重的资源。在应用方面,目前已有很多企业开始做大数据处理的相关研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数据处理架构和计算模式。谷歌首先提出了分布式存储系统GFS文件系统、大型分布式数据库BigTable。美国政府斥资2亿美元启动了大数据研究和发展计划,大力发展数据信息化基础设施建设。
1.2.2大数据处理关键技术
处理和分析大数据的关键在于具备分布式存储功能和强大的计算能力,数据处理的基础在于数据存储,数据分析的关键在于强劲的处理能力。 Hadoop是一个可扩展、可靠、开源的分布式计算系统,该框架能够实现在计算机集群中用简单的计算模式处理海量数据,同依赖高性能服务器相比,Hadoop扩展性较好,同时集群中的节点都可以提供本地存储和计算。
1.3基于大数据的统计分析研究
统计是一项数据处理工程,面对大数据集的处理,统计样本变大、数据特征复杂等使得统计工作也变得繁琐,而数据挖掘是从大量数据中取得有用信息的过程,利用现代信息技术及挖掘算法,可以高效地对有用数据获取与处理。不妨将数据挖掘理解为一个大数据状态下精确处理数据的统计模型,对挖掘后的数据再引入统计学的思想进行相关数据处理与分析,将两种方法有机结合起来。
分析数据模型 篇3
一桶牛奶可以在甲车间用12h加工3kg ,或者在乙车间用8h加工4kg 。假定能全部售出,且每千克 获利24元,每千克 获利16元,现在加工厂每天能得到50桶牛奶,正式工人总劳动时间为480h,甲车间的设备每天至多能加工100kg ,乙车间的设备的加工能力足够大。请制定生产计划使获利最大,并讨论:
若用35元可以买1桶牛奶,是否作这项投资?若投资,每天最多买多少桶牛奶?
若可以聘用临时工人以增加劳动时间,付给临时工人的工资最多是每小时几元?
若每千克 的获利增加到30元,是否应改变生产计划?
二、问题分析
该优化的目标是使每天的获利最大,要作的决策是生产计划,决策受牛奶供应、劳动时间、甲车间生产能力的限制。将决策变量、目标函数、和约束条件用数学符号及式子表示出来,就得到了这个问题的优化模型。
三、优化模型
1.决策变量
设每天用X1桶牛奶生产A1,用X2桶牛奶生产A2。
2.目标函数
设每天获利为Z(元),X1桶牛奶生产3X1(kg)A1,获利24×3X1,X2桶牛奶生产4X2(kg)A2,获利16×4X2故Z=72X1+64X2。
3.约束条件
(1)牛奶供应:X1+X2≤50(桶);
(2)劳动时间:12X1-8X2≤480(h);
(3)设备能力:3X1≤100;
(4)非负约束:X1,X2≥0。
4.优化模型
Max Z=72X1+64X2 (1)
S.t.X1+X2≤50(2)
12X1+8X2=480 (3)
3X1≤100(4)
X1,X2 ≥0 (5)
四、模型分析与假设
1.该实际问题的优化模型的性质
(1)比例性:决策变量对目标函数的贡献,与该决策变量的取值成正比;决策变量对约束条件右端项的贡献,与该决策变量的取值成正比。
(2)可加性:决策变量对目标函数的贡献,与其它决策变量的取值无关;决策变量对约束条件右端项的贡献,与其它决策变量的取值无关。
(3)连续性:决策变量的取值是连续的。
2.假设
(1)A1、A2奶制品单位获利是与各自产量无关的常数,每桶牛奶加工出 、 的数量和所需时间是与产量无关的常数;
(2)A1、A2每千克的获利是与相互间产量无关的常数,每桶牛奶加工出 、 的数量和所需的时间是与相互间产量无关的常数;
(3)加工A1、A2的牛奶可以是任意正实数。
五、模型求解
将约束条件(2)~(5)中的不等号改为等号,在X1~X2平面上作五条直线,即L1:X1+X2=50,L2:12X2+8X2=480,L3:3X1=100 L4:X1=0,L5:X2=0。这五条上的线段围成五边形OABCD(如图1),顶点的坐标为O(0,0),A(0,50),B(20,30),C(100/3,10),D(100/3,0)。
目标函数(1)中z取不同数值时,可以作一组平行直线,即等值线族,当其向右上方移动到过B点时,z达到最大值3360,B点的坐标(20,30)为最优解,即X1=20,X2=30。
六、灵敏度分析
1.利用LINDO/LINGO软件对该问题进行敏感性分析
在LINDO/LINGO模型窗口中输入模型:
max72x1+64x2
st
milk)x1+x2<50
time)12x1+8x2<480
shop)3x1<100
end
则在报告窗口(ReportsWindow)中输出如下结果:
LPOPTIMUMFOUNDATSTEP 2
OBJECTIVEFUNCTIONVALUE
(1)3360.000
VARIABLE VALUEREDUCEDCOST
X1 20.000000 0.000000
X2 30.000000 0.000000
ROWSLACK OR SURPLUS DUAL PRICES
MILK)0.000000 48.000000
TIME)0.0000002.000000
SHOP) 40.0000000.000000
NO.ITERATION=2
RANGESINWHICHTHEBASISUNCHANGED
OBJ COEFFICIENT RANGES
VARIABLE CURRENTALLOWABLE ALLOWABLE
COEFINCREASE DECREASE
X1 72.000000 24.0000008.000000
X2 64.0000008.000000 16.000000
RIGHTHAND SIDE RANGES
ROWCURRENT ALLOWABLE ALLOWABLE
RHSINCREASEDECREASE
MILK 50.000000 10.0000006.666667
TIME 480.00000053.00000080.000000
SHOP 100.000000INFINITY 40.000000
2.答案
(1)若用35元可以买1桶牛奶,应作这项投资;若投资,每天最多增加10桶牛奶。
(2)付给临时工人的工资低于劳动时间的影子价格才能增加利润,故工资最多是2元/h。
(3)若每千克A1的获利增加到30元,则X1的系数变为
30×3=90在允许范围内,所以不应改变生产计划,此时最优解为90×20+64×30=3720。
七、模型推广及应用
这是一个二维优化模型,可以推广到n维的情况。此外,它可以广泛地应用于企业生产计划的诸多方面。
(作者单位:张守平,湖北职业技术学院应用技术分院;
基于数据仓库模型的运营分析系统 篇4
进入21世纪,信息科技迅猛发展,市场瞬息万变,企业要想在激烈的市场竞争中立于不败之地,就需要对客户和市场的信息做出快速、及时地搜集与响应,同时对自身的运营状况也要做出全面的预测与分析。企业要想通过信息化的手段,按照自身的需求以全方位、精确的粒度来分析自身生产、经营的情况,使用数据仓库是一个行之有效的方法。
本系统的设计完成了从类似于ERP等相关的联机业务系统(OLTP)到联机分析系统(OLAP)的数据抽取与清洗(ETL)过程、运营分析系统基础数据的定义过程、数据仓库模型的建立过程以及分析指标的多维度查询与分析过程四个步骤。四个步骤紧密相连、相互支撑、缺一不可,共同构建起基于数据仓库模型的运营分析系统。
1 基本概念
1.1 运营分析系统
本系统为企业的中高层管理者提供及时、全面、详细的综合数据分析。为企业的决策层分析企业经营状况,制定战略计划,以及考核体系提供最全面的分析结果。
1.2 数据仓库
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
面向主题:操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
集成:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
相对稳定:数据仓库所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
2 系统软件平台及构造
2.1 软件平台
软件主要包括前台展现页面、WEB应用程序服务器、后台数据库系统。其中前台展现页面是基于B/S架构的JSP页面;WEB应用服务器使用IBM公司的WebSpere Application Server 6.0;后台数据库使用Oracle 10g 10.2.0。
2.2 系统结构
图1展示了基于数据仓库模型的运营分析系统的体系结构:其中ETL包括:数据抽取、转换、清洗、过滤、装载这几个步骤;业务数据经过ETL的过程,以另一种方式存入一个逻辑上独立于业务系统的新数据库中。这个数据库对业务系统是完全封闭的,并且是按照待分析的指标存放在多个类似于“数据集市”的多个表中。基于海量的分析数据,我们按之前设定好的参数来进行数据仓库模型的建立,也就是所谓的“多维度”的数据模型,模型建立好以后,就可以在模型框架的基础上进行多角度的海量数据的查询分析。
结构特点:
1)独立性
本系统和外界的业务系统是完全独立的、不依赖于某种特定的业务系统而存在的。数据的抽取实际上是实现和外部业务系统的数据接口,而接口是可以由多种方式来实现的,如数据库后台的存储过程、JAVA程序等。
外界业务系统数据的变化也不会实时的、直接的影响到分析系统的数据,分析系统反应的只是某一个时点上业务数据的情况。
2)安全性
由于系统数据存放在独立于外部业务系统的数据库中,拥有外部业务系统访问权限的用户不一定可以访问分析系统。本系统通过基础数据定义中角色的授权来控制访问、查询分析分析数据的权限。对于后台存储的数据也进行了加密的处理。
3 系统的多维度数据模型
多维度结构模型是基于多张维度表和一张事实表的星型模型结构,如图2所示。每个维度表存放的是按属性分类的维成员。如时间维度表中的时间维成员有:2009年、2008年、2007年...组织维度表中的组织维成员有:销售部、国际业务部...往来单位维度表中的维成员有:客户A、客户B、客户C...那么在指标事实表中的数据就可以查询到如“2008年国际业务部与客户A所签的订单额度”、“2009年销售部与客户C所签的订单额度”、“2009年所有部门与所有客户所签的订单额度”...
可见每个维度表的主键构成了事实表的外键,这样的结构保证事实表中存在每个维度的每个维成员组合的数据。我们可以把事实看成是各个维交叉点上的值。
我们把业务系统中待分析的数据归类,每一类称为一个“指标”。如销售收入、成本总额、应收账款都是指标,指标之间大多数没有彼此的关联,但有一类指标是需要通过其它指标的公式计算得到数据值的,如主营业务利润率=主营业务利润/主营业务收入×100%。所以我们把指标分为非计算类指标和计算类指标两大类。而非计算类指标的数据值来源于业务系统。
4 运营分析系统的设计
4.1 ETL数据抽取、转换、装载模块的设计
系统设置自动的数据库任务,定时地执行存储过程(或者通过定时启用JAVA的线程)将外部业务系统中的数据写入到每个指标的中间表中。
4.2 基础数据定义模块的设计
基础数据定义的步骤:
1)定义分析指标及相关属性
2)定义统一的维度与维成员
3)定义与每个指标相关联的维度与维成员
4)定义系统角色,为角色指定有权限的指标与维成员
5)定义登录系统的用户分配角色
4.3 数据仓库建模的设计
1)生成每个指标的维度表
2)生成每个指标的事实表
数据仓库的建模需要根据基础数据的定义模块的相关数据,由指标与维度的关联可以动态生成每个指标的维度表;由指标与维成员的关联可以生成每个指标维度表中的数据;由每个指标的维度表可以动态生成其事实表。
4.4 数据查询与分析的设计
数据的查询与分析其实是对所有指标在多维度模型上的一个展示。包括某个指标在同一个维度的不同层次的维成员上做“上卷”、“下钻”的查询操作、某个指标在某年度的指标值进行“同比”、“环比”的查询操作。此外,针对分析查询的结果,系统支持多维度报表的生成、打印等功能。
5 结论
本系统将企业的联机业务系统与联机分析系统很好的联系起来,定义灵活、人机交互界面友好。解决了企业管理者以灵活的方式从各个角度全方面的了解企业生产运营状况的需求。提高了其决策的效率,降低了分析的成本,反应了企业存在的问题。为今后企业的发展方向与领导的决策提供了准确的数据依据。
摘要:本文介绍了运营分析系统及数据仓库的基本概念,系统软件平台的结构特点,特别重点阐述了数据仓库的多维度结构的模型,又简要描述了系统整体的设计思路。将整个系统从模型的建立到系统设计的实现有机地结合了起来。
关键词:数据分析系统,多维度模型,多维度查询与分析
参考文献
分析数据模型 篇5
GPS数据后处理中精度分析的简明数学模型
直接从微分关系式出发,导出了参心空间直角坐标到大地坐标、大地坐标到高斯坐标的误差传播规律.与现有方法相比,该方法具有表达式简捷,公式严密的`特点.
作 者:范东明 作者单位:西南交通大学土木工程学院,四川,成都,610031刊 名:西南交通大学学报 ISTIC EI PKU英文刊名:JOURNAL OF SOUTHWEST JIAOTONG UNIVERSITY年,卷(期):37(3)分类号:P25关键词:数学模型 数据处理 GPS 大地坐标 精度分析
基于云计算的数据模型探讨 篇6
关键词:云计算 数据模型 云数据库 NoSQL数据库
0 引言
从2006年Google提出“云计算”的概念至今,云计算正以史无前例的速度发展,国内外各大IT企业都在开发布署各自的云计算平台,云计算的应用更趋多样化,目前在互联网上我们看到的很多应用都可以看到“云”的身影,诸如“云存储”、“云安全”、“云物联”、“云邮件”、“云输入法”等等。总的来说云计算包括三个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。云服务模式实现了资源集中配置和管理,实现按需采购、配置,避免资源浪费,能够更好满足用户不断变化的需求。同时降低管理维护成本,随着云计算技术的不断发展,系统的可靠性、扩展性、稳定性也会更好,云计算将影响传统数据库的发展趋势,云服务模式将逐步得到市场认可,反过来讲,传统数据库必须能更好适应云计算环境的需求。传统的关系型数据库由于其天生的限制,已经越来越无法满足目前时代的要求,云计算时代对数据库技术提出了新的需求,主要表现在海量数据处理,大规模集群管理,低延迟读写速度,建设及运营成本。虽然它在数据存储方面占据了不可动摇的地位,但对数据扩展、读写速度、支撑容量以及建设和运营成本的要求方面,就稍显逊色。下面我们来探讨适应于云计算的数据库所支持的数据模型。
1 云数据模型的类型
无论是关系型数据库还是非关系型数据库,都是某种数据模型的实现,不同的数据模型可以满足不同的应用需求。数据模型会影响客户端通过API对数据的操作,决定了客户端如何对数据进行编码存储。云数据库的设计可以采用不同的数据模型,目前适应于云计算平台的数据模型有以下几类:
1.1 基于云计算的关系模型。关系型云数据库的数据模型涉及行组和表组等相关概念。此模型的数据结构为一个表是一个逻辑关系,它包含一个分区键,用来对表进行分区。具有相同分区键的多个表的集合称为表组。在表组中,具有相同分区键值的多个行的集合称为行组。一个行组中包含的行总是被分配到同一个数据节点上。每个表组会包含多个行组,这些行组会被分配到不同的数据节点上。一个数据分区包含了多个行组。因此,每个数据节点都存储了位于某个分区键值区间内的所有行。微软的SQL Azure云数据库就是基于此模型的。
1.2 NoSQL数据库数据模型。由于在设计上和传统的关系型数据库相比有很大的不同,故称此类数据库为“NoSQL(Not only SQL)”系列数据库,即非关系型的数据库。与关系型数据库相比,此类数据库非常关注对数据高并发读写和海量数据的存储,在架构和数据模型方面做了简化,而在扩展和并发等方面做了增强。此类数据库种类繁多,且各有优缺点,其数据模型有如下四类:①键值(key-value)存储模型。使用一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。其数据模型为一系列的键值对。它能提供非常快的查询速度、大的数据存放量和高并发操作,非常适合通过主键对数据进行查询和修改等操作,缺点是存储的数据缺少结构化,不支持复杂的操作。运用此模型的数据库有BigTable、Tokyo cabinet/Tyrant、Redis、Voldmort、Berkeley DB等。②列式存储模型。列式存储和关系模型相似,与关系模型存储记录不同,列式存储以流的方式在列中存储所有的数据。其数据模型为以列簇式存储,将同一列数据存放在一起。属于同一列的数据会尽可能地存储在硬盘同一个页中,而不是将属于同一个行的数据存放在一起。使用列式数据库,将会节省大量I/O,并且大多数列式数据库都支持Column Family这个特性,能将多个列并为一个小组。总体而言,这种数据模型的优点是查找速度快,可扩展性强,更容易进行分布式扩展,缺点是功能相对局限。运用此模型的数据库有Cassandra、HBase、Riak等。③文档模型。在数据结构上,文档型和键值型很相似,也是一个key对应一个value,但是这个Value主要以JSON或者XML等格式的文档来进行存储,是有语义的,并且文档数据库一般可以对Value来创建Secondary Index来方便上层的应用,而这点是普通键值数据库所无法支持的。这种数据模型的优点是对数据结构要求不严格,缺点是对查询性能不高,而且缺乏统一的查询语法。运用此类模型的数据库有MongoDB、CouchDB等。④图形模型。图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。其数据模型为图结构,其优点是可以很方便地利用图的相关算法,缺点是需要对整个图做计算才能得出结果,不容易做分布式的集群方案。运用此类模型的数据库有Neo4J、InfoGrid、Infinite Graph等。数据模型有着各自的优缺点,它们适用于不同的领域。不管选择关系模型,还是非关系模型,都要根据实际应用的场景做出选择。有时候单一的数据模型并不能满足我们的需求,对于许多大型的应用可能需要集成多种数据模型。
2 NoSQL数据库的优劣势分析
2.1 NoSQL数据库的优点:①易扩展。NoSQL数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。也无形之间,在架构的层面上带来了可扩展的能力。②大数据量,高性能。NoSQL数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。③高可用。NoSQL在不太影响性能的情况,就可以方便的实现高可用的架构。比如Cassandra,HBase模型,通过复制模型也能实现高可用。④灵活的数据模型。NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。这点在大数据量的web2.0时代尤其明显。
2.2 NoSQL数据库的缺点:①不提供对SQL的支持:如果不支持SQL这样的工业标准,将会对用户产生一定的学习和应用迁移成本。②支持的特性不够丰富:现有产品所提供的功能都比较有限,大多数NoSQL数据库都不支持事务,也不像MS SQL Server和Oracle那样能提供各种附加功能,比如BI和报表等。③现有产品的不够成熟:大多数产品都还处于初创期,和关系型数据库几十年的完善不可同日而语。
3 常见的云数据库产品
①基于关系模型的微软SQL Azure云数据库。SQL Azure是由微软SQL Server 2008为主,建构在Windows Azure云操作系统之上,运行云计算的关系数据库服务,是一种云存储的实现,提供网络型的应用程序数据存储的服务。SQL Azure 架构在数据中心可分为三个部份:a服务提供层;b平台提供层;c基础建设层。②基于键值模型的Google BigTable云数据库。BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。是一个稀疏的、分布式的、持久化存储的多维度排序Map。BigTable的设计目的是可靠的处理PB级别的数据,并且能够部署到上千台机器上。BigTable已经实现了下面的几个目标:适用性广泛、可扩展、高性能和高可用性。③基于列式存储模型的Facebook Cassandra云数据库。Cassandra项目是Facebook在2008年开源出来的,随后Facebook自己使用Cassandra的另外一个不开源的分支,而开源出来的Cassandra主要被Amazon的Dynamite团队来维护,并且Cassandra被认为是Dynamite2.0版本。目前除了Facebook之外,twitter和digg.com都在使用Cassandra。Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。其主要特征:分布式,基于column的结构化,高伸展性。
4 结束语
如今,云数据库随着云计算平台的日益盛行和普及,云数据库势必会成为未来数据库的发展趁势,鉴于云数据库还处在发展阶段,诸如不支持事务,没有统一的标准,以及数据存放在云端如何保证数据的安全性等一些问题的存在,以及传统数据库如何能更好地适应云计算环境的需求,这些都迫使我们有必要研究出一种新的数据模型,更好地适应未来云计算的各种应用需求。
参考文献:
[1]程莹,张云勇,房秉毅,徐雷.云计算时代的数据库研究[J].电信技术,2011(1):27-28.
[2]林子雨,赖永炫,林琛,谢怡,邹权.云数据库研究[J].软件学报,2012,23(5):1148-1166.
[3]廖峰,成静静.基于云计算的数据库云方案的研究与设计[J].数据通信,2012(3):45-48.
[4]张瑞.NoSQL数据库的类型分析[EB/OL].圣才学习网.http://it.100xuexi.com/ExtendItem/OTDetail_cc71997d-776b-4381-a2cc-97b687ccc268.htm.
作者简介:
基于大数据的统计分析模型设计 篇7
随着统计数据规模的快速增长,数据特征日趋复杂,数据收集渠道多样,统计学相关领域研究已进入大数据时代。如何高效收集样本数据、挖掘信息,从海量数据中提取有用的信息特征,将信息及时提供给相关部门决策,成为当前统计学研究热点之一。与国外相比,我国在统计分析工作中存在信息资源整合程度不高、数据共享匮乏、信息不完整等问题[1]。随着大数据时代的到来,对大数据分析与挖掘的研究和应用越来越重视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内采集、处理、管理与分析海量数据[2]。
目前政府部门间借助政务平台可以实现数据资源共享,但是企业与政府间缺乏数据的分享平台,造成了信息隔离,对此,统计部门要构建起全方位的海量数据共享和分布式存储的安全统计分析平台,实现跨地区的统计信息交流,满足海量信息数据的实时分享和处理[3]。
1 大数据
大数据是一种大规模的数据集合,数据分析人员无法在一定时间内用一般软件对其进行提取、处理、分析和管理[4]。处理大数据的关键技术包括大规模数据集的并行处理技术、分布式数据库、分布式文件存储与处理系统、数据挖掘、云计算等。大数据具有5V特点:Volume(体量浩大)、Variety(类型多样)、Velocity(生成快速)、Veracity(真实性高)、Value(价值巨大)。
1.1 云计算
云计算(Cloud Computing)是传统信息技术发展融合的产物,基于效用计算(Utility Computing)、并行计算(Parallel Computing)、分布式计算(Distributed Computing),它提供便捷的、可用的、按需付费的网络访问。云计算平台[5]可以提供IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务),同时负责数据安全、分布式网络存储、虚拟化、负载均衡、热备份冗余等,用户在使用资源时不需考虑底层基础架构。
大数据应用不在于掌握庞大的数据信息,而在于对获取的数据进行专业化处理,以挖掘出数据的价值。大数据处理任务无法用单机串行计算方式处理,必须采用分布式架构进行计算。其特点在于依托云计算的分布式处理、云存储、分布式数据库和虚拟化技术对海量数据进行挖掘。
1.2 大数据处理技术
1.2.1 大数据研究现状
Science、Nature等国际顶级学术期刊出专刊探讨了大数据处理与分析研究,介绍海量数据给社会生产和人们生活带来的挑战和机遇,学者们断言:“数据将是未来举足轻重的资源。在应用方面,目前已有很多企业开始做大数据处理的相关研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数据处理架构和计算模式。谷歌首先提出了分布式存储系统GFS文件系统、大型分布式数据库BigTable。2012年美国政府斥资2亿美元启动了大数据研究和发展计划,大力发展数据信息化基础设施建设。
1.2.2 大数据处理关键技术
处理和分析大数据的关键在于具备分布式存储功能和强大的计算能力,数据处理的基础在于数据存储,数据分析的关键在于强劲的处理能力。Hadoop是一个可扩展、可靠、开源的分布式计算系统,该框架能够实现在计算机集群中用简单的计算模式处理海量数据,同依赖高性能服务器相比,Hadoop扩展性较好,同时集群中的节点都可以提供本地存储和计算。
1.3 基于大数据的统计分析研究
统计是一项数据处理工程[6],面对大数据集的处理,统计样本变大、数据特征复杂等使得统计工作也变得繁琐,而数据挖掘是从大量数据中取得有用信息的过程,利用现代信息技术及挖掘算法,可以高效地对有用数据获取与处理。不妨将数据挖掘理解为一个大数据状态下精确处理数据的统计模型,对挖掘后的数据再引入统计学的思想进行相关数据处理与分析,将两种方法有机结合起来。
Hadoop为统计分析工作提供了一个稳定可靠的分析系统和共享存储,它包含两个核心技术:MapReduce和HDFS。MapReduce实现数据的处理和分析,HDFS负责数据的共享存储[7]。如图1所示,大数据环境下,统计工作的基本架构包含数据采集中心和统计分析处理中心。数据采集中心主要是通过部署在云计算环境下的服务器集群去完成数据采集工作,数据主要存放在HDFS分布式数据库中;统计管理部门设立总的服务器集群,为保证系统的可扩展性,还可以将基层的服务器随时纳入该集群中,利用MapReduce机制分配和处理计算任务[8];统计分析处理中心主要是智能算法池,通过算法的应用对采集到的数据进行分析。
2 基于Hadoop的大数据统计分析模型构建
大数据环境下的统计分析系统以海量数据挖掘为基础,传统的统计分析系统采用定期对数据进行处理和分析的方式来更新模型。由于是定期被动更新,模型无法保持实时性,容易造成统计结果不连续。
系统的设计关键在于海量数据的实时采集获取、统计分析处理和存储,目的在于实现统计信息资源的共享。基于Hadoop的层次化统计分析模型如图2所示,自上而下包括云平台应用层、逻辑与接口层、计算层、文件系统管理层、物理资源层。
物理资源层:负责管理平台的基础设施,为平台提供物理设施,除包含分布式集群、数据采集终端、基础网络外,还包括围绕应用相关的基础组件。
文件系统管理层:主要用于存储数据文件和日志文件,同时具备高可用数据备份功能。该层主要采用HDFS分布式存储,提供很强的数据吞吐能力。针对不同的数据统计终端,该层设计使用不同的操作系统,以便于数据的统一性。
计算层是该统计模型的核心层,所有的运算机制和数据处理任务都在该层完成。其基础框架是基于Hadoop MapReduce并行计算框架,采用对数据“分而治之”的方法来完成并行化的大数据统计分析工作,用Map和Reduce函数提供两个高层的并行编程抽象模型和接口,工作人员只需要实现这两个基本接口即可快速完成并行化数据处理程序设计。此外该层还包含了Hadoop平台的流数据处理storm和实时处理spark,用于对数据源的实时分析处理和更新,以满足统计部门的高效快速响应要求。
逻辑与接口层:该层主要功能是实现上层应用层的基础管理功能,主要包含用户管理、安全身份认证、统计任务的分配以及连接各地统计部门的接口等,该层还负责整体功能的性能监控。
应用层:该层是模型的最高层,是面向用户的一层,主要实现统计结果的发布和统计决策的可视化。该层包含算法池、数据挖掘模块,主要是根据不同的数据来源,使用相应的统计算法和数据挖掘算法,如聚类、分类关联规则挖掘、序列模式挖掘、智能推荐等,从海量数据中提取有用的信息特征,有效地收集样本数据,挖掘知识,并将信息及时提供给相关部门决策。
基于大数据的统计分析工作,统计的对象往往是一些结构化和非结构化混合的数据,诸如文本、图像、音视频等,本文设计模型基本思想就是采用底层挖掘收集,通过中间件的数据管理,实现上层处理分析,筛选和整理出有价值的数据和信息,最终达到可视化统计结果的要求。
3 结语
大数据时代,数据即样本,也就不存在统计样本概念。掌握了大数据处理技术,也就实现了海量数据的统计分析。海量数据的处理分析和知识挖掘工作,往往离不开大数据的统计处理。如果数据挖掘是为了给决策者提供深度有价值的信息,那么统计分析工作可以看成是数据的预处理,两者都是大数据处理方式。而在复杂的大数据环境下,面临复杂的网络结构和异构的数据,建立合理的统计分析模型非常必要。
参考文献
[1]栾爽.省以下统计体制改革问题的研究[D].长春:吉林大学,2008.
[2]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):1741-1752.
[3]程开明,庄燕杰.大数据背景下的统计——第十七次全国统计科学讨论会综述[J].统计研究,2014,8(1):106-112.
[4]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.
[5]刘刚,侯宾,翟周伟.Hadoop开源云计算平台[M].北京:北京邮电大学出版社,2011.
[6]许琴.浅谈大数据背景下的统计信息化建设策略[J].商场现代化,2015,9(11):287-288.
[7]许春玲,张广泉.分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J].苏州大学学报:工科版,2010,30(8):5-9.
三角挂篮预压及简化模型数据分析 篇8
β值越低,表示承受节段单位重量使用的挂篮材料越省,整个挂篮(包括模板)设计越合理;β'值越低,表示挂篮主承重构件使用的材料越省,设计越合理。另外,减轻挂篮自重采用的手段除优化结构形式外,最重要的措施是不设平衡重,并改善滑移系统,同时改进力的传递系统。
三角形挂篮降低了前横梁高度,即挂篮重心位置大大降低,从而提高了挂篮走行时的稳定性;其结构简单,拆装方便,重量较轻,设计中三角形挂篮主桁架和主要结构体系采用钢板和型钢焊制的箱形结构,单件重量较轻,主桁架杆件间采用法兰结构用高强螺栓连接,易于搬运和拆装;三角形挂篮平衡重系统利用已成形梁段竖向预应力钢筋作为后锚点,取消了平衡重的压重结构;三角挂篮走行采用液压走行系统,由导梁、走行轮、反扣轮、走行油缸组成,行走系统具有挂篮就位准确、走行速度快、安全可靠等特点;三角挂篮通用性强,稍做改装即可用于其它幅宽和梁高的桥上。
1 挂蓝的预压方案比较
为了检验挂篮使用的安全性、检测并获取挂篮的弹性变形量、消除其非弹性变形等为挂篮的后续使用提供可靠的技术参数和安全保障措施,也为监控单位发布施工指令提供相应的依据。
挂篮预压试验主要有袋装砂预压、水箱预压、千斤顶预压三种预压方式:
(1)袋装砂预压法
袋装砂预压的优点是:对密封性不作要求,也不需要太大的投入。缺点是:装袋、称量、拆除的劳动强度大,而且周期长,如遇暴雨天气,砂吸水可能造成挂篮过荷的安全影响。
(2)水箱预压法
水箱预压水箱预压可利用挂篮底模及腹板外模作为水箱的底、侧壁。水箱预压的优点是:加载、卸载方法简单,而且准确,容易控制。缺点是:水箱高度超过了根部梁高,而且水箱侧压力相当大;水箱高度很大,对水箱的密封性和水箱侧壁的刚度要求很高;同时侧壁的空钢结构焊接量大,危险性大,施工周期长,经济效益低。
(3)千斤顶预压法
千斤顶预压可使用已有的张拉设备,准确、方便,而且安全、经济,劳动强度低、周期短,而且不受天气的影响。先期施工的承台或箱梁都需要设置预压所需要的反力预埋构件,否则无法进行张拉或顶压。
2 工程实例
2.1 工程概况
云南省昭巧路田坝大桥其主桥(60+110+110+60)m采用变截面预应力混凝土连续刚构箱梁,使用总重量约为45T三角形挂蓝施工。在考虑了以上几种预压方法的可操作性,结合现有的操作条件,利用已有的挂篮预压数据,决定只对挂篮主桁进行预应力斜拉试验,以达到挂篮预压的目的和效果。预压方案如图1所示进行分级预压,实测ZB4-500型千斤顶张拉70T时,实测主桁稳定变形为41.451 mm。
图2简化计算简图所示挂篮预压受力位置弯矩:实际受力位置弯矩:即实际受力弯矩是预压受力弯矩的一半。
2.2 MIDAS建立验算模型
按空间结构建立挂篮浇筑砼1#块(组合一:混凝土重量+动力附加荷载+挂篮自重+施工人员及机具荷载约140T)主桁内力模型,全部采用梁单元,根据实际工况对部分单元采用了刚性连接和释放端部约束。MIDAS输出内力图如下:
主桁纵梁采用[36a槽钢:
根据MIDAS对挂篮计算成果分析:结构变形累计位移14.642mm。
2.3 数据对比分析
田坝大桥6号墩1#块浇筑完成预应力张拉前实测挂篮变形数据,如下表2所示:
根据图2计算主桁实际受力弯矩是预压受力弯矩的一半,其变形值为预压变形值的一半20.726mm;对比MIDAS建主桁模型,误差是6.082mm;再对比表1实测数据分析,误差是2.726mm;综合以上得出简化计算弯矩值推算变形值有较高的实用价值。
结论
1)主桁架预压法能方便有效的消除非弹性变形,根据简化受力图计算弯矩能较准确的得到挂篮变形值。
2)主桁架预压法缺点是不能验证挂篮整体强度以及拼装工艺所带来的数据误差。
3) MIDAS软件计算变形数据与实际预压数据比较偏小,值得进一步研究。.
摘要:本文分析了采用悬灌挂蓝施工的预应力混凝土桥梁在挂篮形式上选取了有比较优势的三角形挂篮。结合云南昭巧路田坝大桥三角挂蓝的分级预压实际数据以及浇筑1#块实测数据,并建立MIDAS空间有限元模型,详细分析了挂篮主桁等的受力和变形情况,并对比作者提出的简化计算模型数据说明简化计算模型有一定的实用性。
关键词:连续刚构,悬臂施工,三角挂篮预压,有限元
参考文献
[1]范立础.桥梁工程(上)[M].北京:人民交通出版社.2001.7
[2]傅汉江,范建海,徐明浩.汉川汉江公路大桥无平衡重液压挂篮设计与施工[J].筑路机??械与施工机械化工机械化,1999,(5):42-44.
[3]刘锋.大跨度连续刚构轻型挂篮的设计[J].铁道建筑技术,2003(04).
[4]周水兴等.路桥施工计算手册[M].北京:人民交通出版社2001.3.
考虑模型选择的退化数据分析方法 篇9
对于许多高可靠的电子、机电产品来说, 其失效往往是由于产品发生了一系列物理或化学变化, 并随着时间逐步累积, 最终导致产品失效, 表现为产品的性能指标随时间呈稳定的单调上升或单调下降趋势, 通过收集产品的性能退化数据, 能得到比单纯通过寿命试验所获得的失效数据更多的可靠性信息, 因此基于性能退化数据的可靠性分析已成为一种经济有效的可靠性评估方法。
近十几年来, 国内外许多学者对退化数据进行了深入研究, 目前主要有2种退化建模方法被广泛应用:退化轨迹曲线方法和基于退化量分布方法。
退化轨迹曲线方法主要通过研究产品性能退化随时间的变化轨迹曲线来估计产品的可靠性[1,2], 但此方法要求已知物理或化学退化模型。为了更加方便地处理退化可靠性数据, 人们提出了基于退化量分布的研究方法[3,4], 即通过假设退化量分布, 然后估计每个检测时刻的退化量分布参数, 再通过拟合分布参数随时间变化的曲线来估计产品的可靠性。然而对许多复杂退化型产品而言, 很难保证在每个检测时刻点的退化量服从同种分布族, 这容易导致保守或冒进的产品可靠性预计。
本文针对基于退化量分布方法的不足, 提出一种考虑各检测时刻的退化量分布优化选择的分析方法, 该方法充分重视每个检测时刻的退化数据分布情况, 通过不同检测时刻的可靠性评估结果拟合产品的寿命分布, 该方法具有不依赖于退化轨迹的优点, 并通过实例分析比较, 验证了该方法的有效性和适用性。
2 退化数据分析模型
2.1 模型假设
①对退化型产品, 退化量Y (t) =g (t, θ) 是时间t的增函数或减函数。 本文主要的讨论是假定Y (t) 是t的增函数。
②假设性能退化试验为平衡试验。即选择相同的检测时刻ti (i=1, 2, …, n) 对m个产品的退化量进行检测, 共测得n×m个性能退化数据yij (i=1, 2, …, n;j=1, 2, …, m) 。
③各检测时刻点ti (i=1, 2, …, n) 的性能退化数据服从某种分布族, 即yi~Fi (y, θi) , 而退化数据
④确定了退化失效阀值yc, 当产品的退化量高于或低于yc就判定产品为失效。
⑤对于退化失效的高可靠性产品而言, 产品在早期阶段的可靠性相当高, 其失效概率可近似为零。
2.2 退化量分布与产品寿命分布的关系
假设产品的退化量为Y (t) =g (t, θ) , θ为未知参量, 则产品的寿命达到退化失效阀值yc的寿命T (yc) =g-1 (yc, θ) 。记寿命变量T (yc) 的分布函数为FT (t|yc) , 退化量Y (t) 在时刻t的分布函数为FY (y|t) , 当g (t, θ) 是t的增函数时, 可推出
2.3 退化量分布模型选择
利用退化量分布与产品寿命分布的关系就可以得到产品在各个检测时刻的可靠度, 因此对各检测时刻的退化量的分布模型进行合理的选择是很重要的。
为了充分利用各检测时刻退化量的信息, 利用模型选择[5]的方法, 假设第i个检测时刻的退化数据
由于Fi (y) 的分布未知, 利用渐近方法, 可将式 (2) 表示为
其中, Fni (y) 为第i个检测时刻退化量的经验分布函数,
通过计算Gθ中不同分布的最小经验分布差异, 选取差异值最小的分布作为拟合分布函数。
3 寿命分布估计
3.1 确定各检测时刻点产品的可靠度
对各检测时刻的退化数据, 进行模型选择后, 利用退化量分布与产品寿命分布的关系得到产品在各个检测时刻的可靠度
3.2 寿命分布参数估计
一般退化型产品在初期阶段的退化是比较缓慢的, 表现为初期阶段产品的可靠度很高, 即可认为经过这一初期阶段产品的质量状态保持了出厂时的质量状态, 假设 (5) 正是从这一工程实际作出的合理假设, 因此退化产品一般服从具有保证参数γ的分布族F (t) , 即
当t<γ时 F (t) =0
当t>γ时 F (t) >0
产品的寿命分布类型需要根据产品的失效机理和工程经验确定。对于很多退化产品 (尤其是机电产品) , 可用威布尔分布来描述寿命变化规律, 因此, 后面的实例分析中假定产品寿命服从三参数威布尔分布, 即
其中, γ为保证参数, m、η分别为形状参数和尺度参数。在以下的讨论中, 本文将假定产品寿命服从三参数威布尔分布。
对 (6) 作一个平移变换t′=t-γ, 并令y=lnt′, μ=lnη, σ=1/m, 则威布尔分布可以转化为极值分布, 即
用
其中, εi是用
在保证参数γ已知的情况下, 利用最小二乘法对参数μ, σ进行估计, 得
在式 (8) 中, 由于保证参数γ是未知的, 因此式 (8) 实际上无法得到参数μ, σ的估计, 在此可利用
为标准, 搜索得到参数γ、μ、σ的估计。
4 应用实例
某高可靠产品GaAs激光器的工作电流在80℃温度下进行退化试验[6], 当增加电流达到原电流的10%时就认为失效, 共有15个样本进行试验, 每250小时测试一次数据, 至4000小时为止, 具体测试数据见表1。
运用本文提出的方法对其进行可靠性评估。具体处理过程:
①对各检测时刻的退化数据, 进行分布模型选择, 以4000小时检测时刻的退化数据为例, 设逼近分布族包括正态分布、对数正态分布、Γ分布和威布尔分布。分别计算其最小的经验分布差异, 结果为2.0113, 1.9144, 1.9412, 2.0610。由此可判断对数正态分布描述该时刻的退化量分布最合适。类似地, 可以对其余各个检测时刻进行分布模型选择, 并得到分布函数的估计。
②估计各检测时刻的可靠度, 利用式 (5) , 可以计算各检测时刻激光器正常工作的可靠度。各检测时刻的可靠度估计结果见表2。
③寿命分布拟合与可靠性评估
从表2的各检测点的可靠度值来看, 直到2000小时, 产品的可靠度仍高达0.99997。从表2可看出保证参数γ选在1750和2000之间较为合适。
取间隔为10小时在[1750, 2000]内对γ进行搜索, 得到参数γ、m、η的估计为
④比较分析
文献[6]采用基于退化量分布方法评估的平均寿命为5.202×103小时。为了便于分析比较, 在图1中也给出了基于退化量分布方法得到可靠度曲线。
从平均寿命来看, 两种处理方法结果基本一致。然而从可靠度曲线来看, 在可靠度不小于0.2时, 基本上用本文方法获得可靠度要高于文献[6]采用基于退化量分布方法得到可靠度值。 事实上若对各检测时刻的退化量进行正态性检验, 可以发现有些柬测时刻的退化量分布用正态分布描述并不理想, 如采用Shapiro-Wilk检验法, 算得在3250和4000小时检测时刻退化数据的W检验统计量值为0.832和0.812, 而在显著性水平α=0.01时, Wα=0.835, 由此拒绝了这两时刻的退化量的正态性假设, 而在显著性水平α=0.05时, Wα=0.881, 可得到2750小时以后的5个检测时刻的退化量的正态性假设都不成立的结论, 由此可看到基于退化量分布方法为了能拟合分布参数曲线牺牲了退化量分布的精确性, 而本文方法充分考虑各时刻点的退化量分布情况, 从而提高了可靠度的预测精度。
5 结论
本文应用模型选择结合分布拟合给出了一个退化数据的可靠性评估方法, 该方法充分利用了各检测时刻退化数据的信息, 且不依赖于退化轨迹假设, 计算简单, 结合例子比较分析得出本方法对高可靠退化型产品进行可靠性评估具有很好的灵活性和优良性, 可以广泛适用于一些退化轨道未知或难于判断的产品, 具有广阔的应用前景。
摘要:对于高可靠长寿命产品, 利用产品的退化数据进行可靠性评估的一种常用方法是基于退化量分布的方法。这种方法需要假设产品各检测时刻退化量分布服从相同的分布形式, 这在实际中往往不能满足。本文提出的方法充分利用各检测时刻退化数据的信息, 利用模型选择的方法获得产品在各检测时刻的退化量分布, 在不依赖分布参数的退化轨迹前提下, 通过分布拟合估计产品寿命分布参数进行可靠性评估。最后通过实例分析, 验证了本方法的灵活性和有效性。
关键词:退化数据,模型选择,三参数威布尔分布,最小二乘法估计
参考文献
[1]Lu J C, Meeker W Q.Using degradation measuresto estimate a time-to failure distribution[J].Technometrics, 1993, 35 (2) :161~174.
[2]庄东辰.退化失效模型及其统计分析[D].上海:华东师范大学, 1994.
[3]Zuo M J, et al.Approaches for reliability modelingof continuous-state devices[J].IEEE Transactionson Reliability, 1999, 48 (1) :9~18.
[4]赵建印, 刘芳, 孙权.基于性能退化数据的金属化膜电容器可靠性评估[J].电子学报, 2005, 33 (2) :378~381.
[5]Linhart H, Zucchini W.Model selection[M].NewYork:John Wiley&Sons, Inc., 1986.
分析数据模型 篇10
1 用户心智模型的概念、特征以及影响因素分析
1.1 心智模型概念与特征
从理论知识上来讲, 心智模型是基于一个试图对某件事作出合理解释的一种个人会发展可行方法的假设, 是在有限领域知识与信息处理能力上产生的一种合理解释。心智模型属于思维的高级建构, 表现的是主观的知识, 而通过不同的理解来解释心智模型的概念、特征与功用。心智模型最早是由讯息刺激产生, 经由个人运用与观察来得到进一步的信息回馈, 若个体主观认为是好的结果将会保留下来成为心智模式的一种过程。心智模型会不断地接受新讯息刺激, 这个过程则分为强化和修正。心智模型的特征主要有不完整性、局限性以及不稳定性, 其没有明确的边界, 科学性不足, 大多比较简约, 都是通过人的心智规划来代替行动的一种行为。
1.2 影响心智模型的因素分析
文献数据库用户心智模型的形成其实是一个复杂的过程, 在此过程中, 通过不断的完善与成熟, 因某些因素与心智模型的形成产生因果关系。这些因素主要包括个人因素以及个性因素。首先, 因个人因素不同, 不同的人在心智模型的发展与形成过程中对待经历的事件是有差异的。可能是因年龄因素的不同, 经历的事物不同, 其认知也就不同;也可能是因为性别差异的不同, 导致认知偏好上存在差异, 都有可能影响心智模型的形成。另外, 由于个人的性格特点不同, 对于个体的偏好因素以及能力因素的不同, 在进行文献数据库的相关操作时的效率也不同, 最终导致对于文献数据库的评价也就不同。
2 怎样促进文献数据库用户心智模型演进模式构建
2.1 提高训练模式
对文献数据库与用户心智模型的形成个体差异研究中表明, 不同的个体在使用文献数据库时, 对系统的认知与检索存在着一定的差异。因此, 在进行文献数据库的优化设计时应充分考虑个体之间的特质, 通过个性化的培训模式, 对心智模型形成困难的用户加以关注。对于风格不一的用户进行划分, 按照其落定的风格进行区间划分, 但并不是所有的都是用户都会按照某种特定的风格进行分类, 因此心智模型还要形成一定的中立性。例如对于理科用户来讲, 因尽可能针对其进行信息素养培训, 着重于检索策略方面的知识提高, 以保障文献数据库的使用效率。
2.2 加强内容设计
在进行文献数据库的优化设计时, 应坚持以用户心智模型的构成维度和元素为核心, 设计出适当的培训内容, 实现提高用户心智模型向文献数据库的模型靠拢, 并不断补充不被用户心智模型所关注的有用的方法和知识。对于文献数据库来讲, 还需要对数据库的内容认知、期刊、会议、硕士、博士论文等方面进行提高, 针对专利、标准、年鉴等信息资源进行有效利用。而在检索策略上, 更应偏向与用户的偏爱文献数据库首页默认检索方式, 重点教授高级检索的方式, 提高文献数据库的检索功能。
2.3 创新内容
多数情况下, 当用户在文献数据库中找不到相关的信息时, 就会根据自己的认知知识和相关使用类似产品的经验来进行检索, 事实上, 这是一个非常重要的自学习过程。这种过程是很难完成的, 不仅要求要有信息检索的专业知识, 更要有相关的经验和网站以及系统本身要有的外在结构知识。因此, 文献数据库的用户心智模型构建还应注重对用户的信息检所培训上, 加以借鉴类似的检索系统或者网站来优化自身, 以达到提高资源利用率的目的。
3 结语
总的来说, 文献数据库用户心智模型的形成是一个较为复杂的过程, 受到多种因素的限制, 用户个体之间的心智模型形成会有所差异。但只要采取一定的措施, 站在用户心智模型的角度来优化和完善文献数据库, 就能实现文献数据库的高效率检索, 进一步服务于多样化的用户需求。
摘要:为了满足多样化的用户需求, 在与用户的交流互动研究中, 文献数据库一直以来都秉承技术路线与用户路线结合的方式进行优化。基于用户心智模型演进模式的文献数据库设计, 是站在用户的视角来实现对文献数据库的优化和设计。本文就用户心智模型的概念、特征及其影响因素进行研究, 其如何构建文献数据库用户心智模型演进模式进行分析。
关键词:文献数据库,心智模型,演进模式,优化设计
参考文献
[1]韩正彪.综合性文献数据库用户心智模型理论问题初探[J].图书情报工作, 2013 (18) :67-72.
[2]韩正彪.基于访谈法的综合性文献数据库用户心智模型研究[J].图书情报知识, 2014 (01) :90-96.
[3]白晨, 甘利人, 朱宪辰.基于信息用户决策心智模型的实验研究[J].情报理论与实践, 2009 (10) :94-98.
分析数据模型 篇11
关键词:土地调查历史数据;时空数据模型;面向对象;土地时空信息
中图分类号: S127文献标志码: A文章编号:1002-1302(2014)09-0387-04
收稿日期:2013-11-28
基金项目:国家科技支撑计划(编号:2012BAJ23B04)。
作者简介:胡彦波(1987—),男,河南濮阳人,硕士研究生,主要从事时态数据模型方面研究。
通信作者:朱华吉,山东潍坊人,博士,副研究员,主要从事时态GIS理论方面研究。E-mail:zhuhuaji@126.com。自全国土地第1次调查以来,我国进行了全面的土地调查工作。到目前為止,共获得了第1次全国土地调查、过渡期、第2次全国土地调查3个时期的土地调查资料,得到了海量的土地调查历史数据,特别是农村土地调查数据。如何有效地管理这些数据,需找到一种合适的时空数据模型,关键问题是时空数据模型的构建方法。一种合理时空数据模型要能有效地组织、管理和完善时态地理数据的空间、属性和时间语义,提高时空数据的输入、检索、查询和更新及操作效率,以便重建历史状态、跟踪变化、预测未来[1]。
农村土地调查数据具有显著的时态特征,信息变更频繁、复杂,但相对缓慢。包含有明显的土地对象,即地类图斑、线状地物和零星地物。本研究结合面向对象的思想,在基态修正模型的基础上,提出了一种适合农村土地调查数据面向对象的建模方法,对农村土地调查数据进行组织管理,自然、充分地表示了农村土地的的真实面貌。
1时空数据建模理论
时空数据建模是针对如何合理有效地表达、记录和管理现实世界时空变化实体及其关系与行为的研究,是建立时态地理信息系统的重要基础。而时态地理信息系统是面向时空数据进行组织、管理和分析,任何信息系统的表达能力在很大程度上取决于底层数据模型的设计。因此,一个合理的数据模型必须考虑:节省存储空间、加快存取速度、表现时空语义[2]。
1.1时空建模层次
数据模型设计目的是将客观事物抽象成计算机可以表示的形式。通过对地理实体从现实世界到计算机内部表示的不断抽象,GIS数据模型由概念模型、逻辑模型、物理模型3个有机联系的层次组成[3]。对现实世界的抽象和概括综合,逻辑模型通过一系列表格和数据记录实现概念模型与用计算机语言描述实体之间的转换,而物理模型则涉及存储设备、文件格式、访问方法、数据位置等,从物理上来实现这些描述的方法(图1)。
1.2地理实体建模成分分析
地理空间是由具有各种关系的地理实体组成的,地理实体不断发生着各种变化,具有空间特征、时间特征、属性特征。时空数据模型就应该是对地理实体的空间特征、时间特征、属性特征及其关系的完整描述。分析地理实体的3种成分的基本语义,以便形成正确、语义丰富的数据模型。(1)空间特征。地理实体存在于地理空间中,其位置、形状、大小等由空间特征表达,是GIS系统描述的主要内容。(2)时间特征。通过对时间描述来表达地理实体随时间变化的特性。(3)属性特征。表达了地理实体具体的领域语义,如果没有属性特征,则地理实体在GIS中的表达是没有意义的几何图形,无法描述地理空间中纷繁复杂的地理现象。
2面向对象时空数据模型
2.1基态修正模型
农村土地调查数据现实性比较强,变更频繁,但变化相对缓慢,因此存储时,为了减少数据冗余,选择基态修正模型。设立使用最为频繁的现在的状态作为基态,每次变化后将前一状态相对于最新状态的变化部分存入历史库。它经存储或入库后,其数据内容会被变更数据不断修正。而差文件主要描述局部地区的变更数据,包括土地空间变化信息、土地属性变化信息、创建时间、土地对象操作和与其他差文件的关联信息。基态修正模型对变更数据的有效组织显得尤为重要,它关系到时空信息的快速更新和历史数据的高效查询。
2.2基于面向对象的基态修正模型
在基态修正模型的基础上,引入面向对象技术,对时空数据模型进行进一步扩展,设计基于基态修正的面向对象时空数据模型,是构建土地信息时空数据模型的关键。面向对象技术数据组织方式更符合客观世界的本质特征,为时空数据组织提供了有效方法,从而解决了时空数据的存储问题。
每个时空数据对象由空间信息、属性信息、时间信息3部分构成,在时空数据库中它作为一条记录被存储,方便了时空对象的查找。该模型为地理对象赋予时态属性,建立一个有效的时间类,来描述该对象在现实世界中的实际变化历史。从地理信息更新或历史时空信息查询的角度来看,操作都是针对具体的时空数据对象,这些操作的实现一般都借助于对象的 ID 和时间信息。不同数据对象被标志以不同的 ID,整个生命周期其 ID 也将保持不变[1]。基于基态修正的面向对象时空数据模型理论在时空数据建模中具有指导性的作用,时空数据模型组成见图2。
3农村土地调查时空数据建模过程
3.1农村土地对象
本研究中以农村土地信息管理为例,建立农村土地调查时空数据模型。农村土地信息作为土地对象,将空间信息、属性信息、时间信息封装起来,构成一个不可分割的独立单元,与其他对象发生联系。土地对象可以分为面状土地对象(地类图斑)、线状土地对象(线状地物)和点状土地对象(零星地物),土地对象构成见图3。
nlc202309021928
3.2农村土地对象变更
农村土地对象空间特征通过空间类定义,时态特征通过有效时间标记,属性通过面积、权属单位、权属性质等描述。每个对象具有唯一的ID,时空对象的操作有创建、消亡等[4]。土地对象随时间的变化主要分为3种:空间变化、属性变化、属性和空间信息同时变化(图4)[5]。(1)空间变化。包括地类图斑分割、合并、地类界线调整、复杂变更,线状地物调整,增加线状地物、减少线状地物,增加零星地物、减少零星地物等。(2)属性变化。包括地类图斑属性变更,线状地物属性变更,零星地物属性变更等。
3.3农村土地调查时空数据模型创建
农村土地调查数据包含有明显的时空对象:地类图斑、线状地物和零星地物。在进行数据组织时,选择面向对象的数据模型,可以更自然直观地以丰富的语义来描述复杂的农村土地对象[6]。
3.3.1地理实体抽象农村土地是一个不断变化的地理空间,按照面向对象的观点,从建模的角度,每个地理实体可被看作一个对象,是独立封装的具有唯一标志的概念实体。每个对象中封装了对象的时态性、空间特性、属性特性和相关的行为操作及与其他对象的关系(图5)
。
每个对象有3个基本特征,时间、空间、属性,可被抽象表达为3个基本类:空间类(Spatial Class)、时间类(Temporal Class)、属性类(Attribute Class)。面向对象的时空数据模型可以更加完整、正确地表达地理实体的各种语义,可以表示为对象Object(ID,Spatial,Temporal,Attribute,Operation,Relationship)。其中,ID为该模型的唯一对象标志,在整个生存周期中不发生变化;Spatial、Temporal、Attribute分别对应对象的空间、时间、属性特征;Operation表示该对象的各种时空操作,主要包括时间操作、空间操作、属性操作及时空属性联合操作;Relationship表示该对象与其他对象的关系,包括父子关系等。
3.3.2概念模型面向对象的分析和设计就是建立系统的模型,将所有对象组织为一个分层结构来表达客观实体及其之间的关系,真实模拟现实世界。面向对象的方法为系统模型的建立提供了分类、概括、联合、聚集4种语义抽象技术和继承、传播2种语义抽象工具[7]。本研究采用为统一建模语言UML(unified modeling language),对数据模型进行描述。图6为UML的部分图例:
根据对农村土地调查数据的分析与抽象,按照基态修正的面向对象模型观点,将土地对象归纳为时空属性点对象、时空属性线对象和时空属性面对象,并建立农村土地调查数据时空概念模型[8],时空概念模型见图7。
3.3.3逻辑模型基于基态修正的面向对象时空逻辑模型需要建立基态库和差文件库[9]。基态库和差文件库构成见图8。根据面向对象的观点,基态库存储基态对象信息和土地对象信息。基态对象信息包括基态对象的时间信息和所包含的土地对象等:土地对象信息包括空间信息、属性信息、时间信息、关联信息、操作信息等。差文件库是存储每次土地对象发生变化产生的差文件信息。差文件库是一个时间序列数据库,存储土地对象时间序列差文件数据。对于任意给定时刻或时段,都可以在差文件库中查询相对于基态的变化量,对基态进行时空运算,得出给定时刻或时段的土地对象信息。
3.3.3.1土地对象逻辑结构土地对象分为地类图斑、线状地物、零星地物,内容包括空间信息、属性信息、时间信息、关联信息、操作信息。結构表示为:
(1)
地类图斑对象(ID,Geometry,要素代码,地类代码,地类名称,权属性质,……,Create Time,End Time,父差文件ID,操作)。
(2)
线状地物对象(ID,Geometry,要素代码,地类代码,地类名称,长度,宽度,……,Create Time,End Time,父差文件ID,操作)。
(3)
零星地物对象(ID,Geometry,要素代码,地类代码,地类名称,权属单位代码,权属单位名称,……,Create Time,End Time,父差文件ID,操作)。
其中,ID为土地对象的唯一标志符;Geometry表示土地对象的空间几何信息;Create Time表示土地对象的创建时间;End Time表示土地对象的消亡时间;父差文件ID是将土地对象与父差文件进行关联;操作是对土地对象的创建和消亡操作。
3.3.3.2差文件逻辑结构差文件包括土地空间变化信息、土地属性变化信息、时间信息、土地对象操作和与其他差文件的关系信息。结构表示如下:差文件(CID,Geometry,要素代码,属性字段代码,属性字段值,Create Time,End Time,父差文件ID,操作)。
3.3.3.3基态逻辑结构当差文件数达到基态距时,则设立基态,在整个过程中,有N个基态,每个基态需要记录基态设立时刻和该时刻的土地对象信息。基态的结构表示为基态(JID,ID,Record Time)。
3.3.4物理模型物理数据模型是概念模型在计算机内部具体的存储形式和操作机制,是系统抽象的最低层,它必须转化为计算机能够处理的方式才能实现。主要包括空间数据的物理组织、空间存取及索引方法、数据库总体存储结构等。按照面向对象分析和设计思想,物理数据模型的设计和实现的主要内容如下:(1)存储方式选择。选择较为灵活动态多级索引的基态修正方法。(2)定义字段。主要是将逻辑数据模型中的各属性映射为字段(Fields),包括数据类型定义和数据完整性控制。(3)物理表设计。目的是主存和二级存储的高效利用以及数据的高速处理。基于面向对象的农村土地调查时空数据模型的时空对象类的划分从空间、时间、属性、操作和关系5个方面来设计,分别为空间类表(零星地物表、线状地物表、地类图斑表)、时间类表、属性类表、操作类表和关系类表5种表结构[10]。5种表结构的表头统一由字段名称、字段类型和说明3部分组成,以地类图斑为例,5种关系表见图9。(4)文件组织。进行时空索引的设计,实现数据的快速存取。
nlc202309021928
4结束语
通过研究在基态修正模型的基础上,结合面向对象的思想,提出一种适用于农村土地调查数据的时空数据模型,有效组织、存储、管理农村土地对象的时间、空间和属性3方面的完整描述信息,表达实体随时间的变化。从概念模型、逻辑模型、物理模型3个层次对地理信息进行抽象和建模。就模型中时空对象类、时空关系表达、存储方式以及模型应用等方面进行了系统的研究。至于后期数据库的创建还有数据的组织和查询,需要进行下一步研究。
参考文献:
[1]王华敏,陈继祥,于雷易. 基于基态修正模型的地籍时空数据库设计与实现[J]. 测绘信息与工程,2003,28(3):9-11.
[2]舒红,陈军,杜道生,等. 面向对象的时空数据模型[J]. 武汉测绘科技大学学报,1997,22(3):43-47.
[3]王盛校. 时空数据库模型研究与实现[D]. 北京:中国测绘科学研究院,2006.
[4]缪建明. 土地利用变更调查特点分析[J]. 中国农业资源与区划,2001,22(4):58-61.
[5]陆纳纳,李景文,苏浩,等. 面向对象的基态修正模型改进及查询方法[J]. 测绘科学技术学报,2012,29(4):299-302.
[6]Worboys M F. Object-oriented Approaches to Geo-referenced Information[J]. International Journal of Geographical Information Systems,1994,8(4):225-245.
[7]黃永忠. 面向对象方法与技术基础[M]. 北京:国防工业出版社,2006.
[8]周文婷. 基于TGIS的土地信息时空数据模型构建与应用[D]. 桂林:桂林理工大学,2009.
[9]宋玮. 时空数据模型及其在土地管理中的应用研究[D]. 郑州:解放军信息工程大学,2005.
[10]杜哲. GIS时空数据模型研究[D]. 北京:北京林业大学,2011.王强,吴华瑞,朱华吉,等. 农村土地利用数据集成的模式匹配方法[J]. 江苏农业科学,2014,42(9):391-394.
分析数据模型 篇12
(一) 劳动就业弹性的文献回顾
蔡昉、都阳和高文书 (2004) 认为, 20世纪90年代以来, 中国主要依靠民营企业、非正规经济以及逐渐发展的劳动力市场机制来实现就业增长 (蔡昉, 2004) 。中央于1998年开始施行的扩张性财政政策和货币政策, 虽然推动了经济增长, 但是由于投资领域大多为吸纳就业能力较低的公共事业、农林水利等基建行业, 所以并没有显著地推动就业;同时, 大型国有企业较民营企业更易得到贷款, 对于这些国有企业而言, 资本价格相对较低, 使得其在创造产值的过程中倾向于用资本替代劳动, 因而产值的增长未能使就业随之相应地增长。【1】方明月、聂辉华、江艇和谭松涛 (2010) 的关于中国工业企业就业弹性的文献, 运用动态面板方法分别估计了外资、民营、集体及国有企业的就业弹性。其研究结果表明:从短期来看, 港澳台和外资企业的就业弹性最高, 私营和集体企业居中, 国有和其他企业最低;从长期来看, 港澳台、外资和私营企业的就业弹性与国有和集体企业相比依然较高, 因此, 为解决就业难的问题, 政府应当支持劳动密集型行业的发展, 从政策上鼓励对民营企业的投资。【2】此外, 简新华和余江 (2007) 在增加了冗员因素之后对我国就业弹性进行了重新估计, 研究结果显示, 如果考虑到公有制企业的冗员状况, 中国20世纪80年代末至90年代初的就业人数大于实际就业机会, 经济增长拉动就业的能力被高估, 而20世纪90年代末的国有企业改革使大量隐性就业的员工“下岗”失业, 因而该时期新增就业人数低于实际创造的就业机会, 就业弹性被低估。从冗员的角度考虑, “1995年之后中国GDP对就业的拉动能力并没有下降”。【3】
(二) 企业生产函数的文献回顾
国内外对生产函数的估计文献众多, 其中最关键的技术环节为对资本存量的估计。张军 (2003) 从“基年 (1952年) 资本存量的确定、固定资产投资价格指数的确定、对当年投资的取舍、对折旧的处理方法和关于人力资本存量的测算”五个方面详细讨论了测算我国资本存量可能存在的问题, 并用固定资产投资价格指数对资本存量进行价格调整, 估计了我国各省1958年的资本存量。【4】郭玉清 (2006) 运用永续盘存法系统分析了中国总量生产函数, 对总量生产函数进行技术修正后, 得出人均资本存量与人均产出之间的关系, 结果表明, “中国经济并没有达到资本饱和, 因此政府在鼓励居民消费、拉动内需的同时也应当合理引导民间投资的增加, 实现经济稳定内生增长”;郭玉清 (2006) 还认为, 1980—2005年中国总量函数的最佳拟合形式是柯布—道格拉斯函数形式, 这对本文的总量生产函数的选择提供了理论和实证的依据。【5】范九利、白暴力、潘泉 (2004) 应用柯布—道格拉斯生产函数, 分析我国1981年至2001年基础设施资本对经济增长的产出弹性, 结果表明, “包含基础设施要素的总量生产函数规模报酬显著递增”。【6】曹吉云 (2007) 将柯布—道格拉斯生产函数与索罗余值法相结合, 对我国企业生产函数进行实证估计, 得出我国总量生产函数规模报酬不变的结论, 并分析了技术进步对我国生产函数的影响。【7】马赞甫、刘妍珺 (2010) 认为, 用常用的参数或非参数方法估计技术状况的方法存在种种缺陷, 因而提出了一种基于数据包络分析的估计生产函数的方法, 并以柯布—道格拉斯为例具体描述了数据包络分析方法的步骤与优越性。【8】
二、劳动就业弹性的测算
(一) 就业弹性模型
由于我国劳动力市场化改革时间较短, 单一的时间序列数据估计就业弹性准确性较差;尤其是非公有制经济体的就业岗位数统计工作从1999年起步, 无法满足时间序列数据样本充分性的要求, 所以运用传统的时间序列模型无法准确估计出分部门的就业弹性。因此本文运用面板模型综合我国31个省 (除港澳台) 的实际GDP增长率和单位就业人数变化率的数据对公有制企业与非公有制企业的就业弹性进行估计, 以增加样本数量和模型估计的准确性。本文选取标准的就业弹性估计方程构造省际面板模型, 分别运用各省总体就业岗位变化率、国有企业以及集体所有制企业就业岗位变化率和非公有制经济就业岗位变化率和该省实际GDP增长率进行拟合, 方程如下:
其中, (1) dlocal GDP:经GDP平减指数调整后的省GDP增长率; (2) dt L:在岗职工平均人数年变化率; (3) dp L:公有制企业在岗职工平均人数年变化率; (4) dpr L:非公有制企业在岗职工平均人数年变化率; (5) i=1, …, 31;t=2000, …, 2010。
方程 (1) 、 (2) 、 (3) 分别用来估计岗位人数相对于省实际GDP增长率的弹性, 代表每1%的省实际GDP变化率能够引起的就业岗位变化的百分比。方程 (1) 用来描述各省内全部就业岗位对各省实际GDP的弹性, 方程 (2) 用来描述各省内国有企业与集体所有制企业岗位数对各省实际GDP的弹性, 方程 (3) 用来描述各省非公有制企业岗位数对各省实际GDP的弹性, 系数β1、β1’、β1’’分别代表这三种弹性的大小。然而, 不同省份的人口、地理区位、自然禀赋等有着很大差异, 就业岗位的变化仍然有很大一部分受各省间其他因素的影响, 因此各省份之间的差异不是随机的, 即我们有充分的理由认为各面板的截距项也不是随机的, 各面板间的效应固定, 表示在模型中就是β0、β0’、β0’’三个常数项, 分别代表了不同省份除GDP以外的因素对就业岗位的影响。
(二) 两部门就业弹性的比较与分析
运用固定效应模型对方程 (1) 、 (2) 、 (3) 分别进行估计, 结果如表1所示。根据表1回归的结果, 全部岗位数量对GDP的弹性约为0.28, 并且在99%的置信区间内显著, 意味着GDP每提升一个百分点, 全部岗位数量提高0.28个百分点。这也就是说, 随着经济的增长, 就业也相应地增长。在99%的置信区间内, 公有制企业岗位数量对GDP的弹性约为0.21, 即GDP每提升一个百分点, 公有制企业岗位数量提高约0.21个百分点, 意味着GDP增长对公有制企业岗位数量的促进作用不及对全部企业的促进作用大。考虑到公有制企业往往集中在能源、通信、基础设施建设等关系到国家命脉的大型资本密集行业, 对劳动力的需求较少, 而其他企业多集中在服务业等劳动力密集行业, 对劳动力需求高, 因此公有制企业对就业拉动的效果不及非公有制企业是合理的, 大力发展公有制经济对促进就业的效果较差。最后, 非公有制企业的岗位数量对GDP的弹性约为0.015, 大大低于公有制企业, 但是这一弹性系数的显著性很差, t值无法通过显著性检验, 因此非公有制企业的岗位创造和GDP的关系并不显著。笔者认为, 造成这一现象的主要原因是, 非公有制企业就业岗位创造能力和政策及制度因素相关性更高。目前我国正处于从计划经济向市场经济过渡的过程中, 20世纪90年代末以来国企改制和市场经济制度建设逐步进行, 东西部经济发展不均衡, 在经济制度改革过程中, 公有制企业释放出大量劳动力和其他生产要素, 资源重新在市场力量的主导下进行配置, 非公有制企业岗位数量在这十年间有了爆炸式的增长, 并且在东西部省份分布不均, 造成了GDP对非公有制企业岗位数量的解释能力低下。
为了更加深入地探讨我国公有制企业与非公有制企业的就业岗位创造能力, 本文将对两部门生产函数分别进行估计。
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
三、企业生产函数的估计
(一) 样本数据的说明
借鉴张军 (2003) 所测算出的我国分省资本存量数据, 【9】以2000年为基期年份, 运用GDP平减指数作为资本产品的通货膨胀指数, 将资本价格转换为当期价格, 假设新增资本为每年固定资本完成额减折旧 (本文假设我国资本存量年折旧率为8%) , 得出我国各省从2000年至2010年的资本存量值。假设2000年公有制企业占有80%的资本存量, 考虑到我国上个世纪末的国有企业改革, 非公有制经济的蓬勃发展始于本世纪初, 这一假设具备一定的合理性;分省的公有制企业总产出为各省国有及集体企业销售额加当期产成品库存, 由于数据的可得性, 在产品的数据并不包括在内, 可能对产值存在一定的低估, 本文只是做一个生产函数的估算以体现公有制企业和非公有制企业对就业的影响, 因此一定的低估是可以接受的;各省非公有制企业的产值用本省的GDP减去公有制企业的产出得出。
(二) 两部门生产函数的估计
运用对数型柯布—道格拉斯生产函数估计我国公有制企业及非公有制企业的生产函数:
(4) 式中, Y为总产出, 用GDP或者工业产值的实际值代表;L为总劳动力人数, 用就业人数代表;K为资本存量;A是技术因素。本文重点研究劳动力和资本的替代关系, 且选取的面板截面较大, 时间序列较短, 忽略这10年间的技术进步, 根据 (4) 式的模型构造改进的面板数据生产函数模型:
运用面板数据对 (5) 式进行估计, 得出产出对劳动力和资本弹性的估计值。为了验证估计值的可靠性, 本文将测算估计系数对折旧系数的敏感性。
1. 生产函数的估计。
分别用公有制企业和非公有制企业的数据估计各自的生产函数, 结果如表2。根据表2, 在99%置信区间下, 公有制企业生产函数的劳动力弹性系数约为0.47, 资本存量的弹性系数约为0.59, 生产函数的修正R方为0.766, 解释了约76.6%的产值变动, 由于只考虑了劳动力和资本两个因素对生产函数的影响, 解释力度较低是合理的;非公有制企业生产函数的劳动力弹性系数约为0.12, 而资本存量弹性系数约为0.87, 与公有制企业生产函数类似, 没有考虑其他因素的非公有制企业生产函数修正R方约为0.738, 解释了约73.8%的产值波动。这表明, 非公有制企业资本要素投入对产出的影响明显大于劳动力投入对产出的影响, 而公有制企业资本和劳动的投入对产出的影响差别不大。
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
2. 敏感性测算。
在生产函数的估计中, 本文选取的年资本折旧率为8%。折旧率的估计影响到资本存量的大小, 进而影响劳动力弹性和资本弹性估计的准确性。由于各个行业资产特点不同, 只能大致估计年折旧率。为了考察不同折旧率对生产函数的估计造成的影响, 本文对折旧率进行敏感性分析, 分别估计折旧率为5%、8%、10%、15%时生产函数的系数估计值。表3为对折旧率敏感分析的拟合结果, 是在不同资本折旧率下的劳动力对产出的弹性系数估计值和资本存量对产出的单行系数估计值。伴随折旧率从5%提高至15%, 劳动力弹性系数逐渐减小, 而资本弹性系数逐渐增大, 各系数都在99%的置信区间下显著。折旧率变化10个百分点, 各估计系数变化在正负0.03左右, 且并没有对生产函数的规模报酬性质以及公有制企业和非公有制企业之间对劳动力、资本要素的关系产生根本性的影响, 由此可以得出, 本文的结论对折旧率的选择并不敏感, 因此本文将继续以折旧率为8%对生产函数进行深入分析。
(三) 两部门规模报酬的比较和分析
从规模报酬看, 公有制企业的规模报酬为1.06, 而非公有制企业的规模报酬为0.99 (由表2的数据计算得出) , 因此公有制企业为规模报酬递增企业, 而非公有制企业为规模报酬递减企业。为了进一步检验上述规模报酬的准确性, 本文运用Wald检验对规模报酬进行检验。
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
由表4可得, 根据Wald检验我们可以在99%置信度下拒绝公有制企业的规模报酬为1, 但不能拒绝非公有制企业的规模报酬为1, 只能接受原假设。结合生产函数估计的回归结果得出, 公有制企业的规模报酬为递增, 而非公有制企业的规模报酬不变。两部门企业的生产函数都在1附近, 是符合常理的, 因为如果规模报酬显著大于1, 则企业只需要等比例大幅增加各要素的投入, 就能获得超额的规模收益, 即任何规模的扩大都是有益的;而如果规模报酬显著的小于1, 则企业只要等比例大量减少生产要素的投入即可以获得少量的产出下降, 从而节约了要素的成本, 增加了利润, 那么任何规模的缩小都是有益的。规模报酬在1附近说明模型构造较为合理, 系数是显著且可信的。模型中的国有企业和集体企业规模报酬更高的原因, 可能是公有制企业往往集中在垄断行业, 凭借其垄断地位拥有定价权, 通过追加生产要素的投入就能够获得更大的产出, 而非公有制企业大多处于完全竞争行业, 受市场供求影响, 无法撼动市场价格, 因此规模报酬不变的结果更为合理。
(四) 两部门劳动和资本边际生产率比较与分析
根据生产函数可以推导出, 两部门的劳动边际生产率和资本边际生产率为:
(6) 式与 (7) 式中, 表示劳动边际生产率, 表示资本边际生产率。本文用2010年两部门的资本存量和岗位数量对边际生产率进行计算, 结果见表5。
如表5所示, 2010年我国各省公有制企业平均资本边际产出约为0.15亿元, 经济意义为资本存量增加1亿, 公有制企业产出增加0.15亿元, 远小于非公有制企业平均资本边际产出0.44亿元, 即非公有制企业资本存量每增加1亿元, 非公有制企业产出增加0.44亿元, 而且国有企业和集体所有制企业资本边际产出过低的现象在全国都很普遍, 并没有因为各省的地域分布或经济增长不一致而有任何改变 (见图1) 。根据图1显示, 不论是东北老工业基地、长三角城市圈、西部落后省份, 以及广东沿海地区, 国有企业和集体所有制企业的资本边际产出都大大低于其他所有制企业的资本边际产出, 说明这一现象并不受其他经济因素的干扰。根据边际递减规律, 边际产出随着资本存量的增加而减少。由于资本边际生产率是企业运用资本的机会成本, 因此, 过低的资本边际生产率说明, 公有制企业由于得到贷款较容易, 发债较便利, 过度利用了资本, 从而对劳动力的需求有所减少, 就业岗位创造能力较低。劳动力边际产出方面, 虽然公有制企业资本边际产出较低, 但在劳动力边际产出方面仍然较差。
根据表5显示, 2010年公有制企业劳动力边际产出为7.14亿每万人, 低于非公有制企业的9.96亿每万人, 说明公有制企业在两项生产要素的利用方面都表现较差。然而, 劳动的两部门边际生产率并不如资本两部门边际生产率差距明显, 除了西藏的其他所有制企业的劳动力边际产出极大幅度地超过国有企业和集体所有制企业以外, 其他省份的两部门边际劳动生产率差异并不大 (见图2) 。计算表明, 剔除西藏后, 国有企业和集体所有制企业的边际劳动产出为7.13亿每万人, 而其他所有制企业的边际劳动产出为8.19亿每万人, 其他所有制企业的优势并不大。由此可见, 经过这些年的国企改革, 我国国有企业和集体企业的人员设置已经趋于合理, 有些地区甚至高于其他所有制企业, 但整体上仍然效率较低。众所周知, 公有制企业常常集中在资本密集型的垄断行业, 过于庞大的机构设置和官僚体系作风使得企业运营效率低下, 因此劳动力资源和资本过度向公有制企业集中并不利于我国经济的发展, 这也印证了本文之前得出的公有制企业就业弹性低, 在经济发展过程中就业岗位创造能力较差的结论。此外, 过度发展公有制企业不仅不利于增加就业, 还会影响其他所有制企业对生产要素的获取能力, 进一步挤出资质优良的其他所有制企业, 阻碍就业岗位的创造, 进一步扭曲经济资源的配置。
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
四、结论及政策建议
(一) 就业弹性的结论和政策建议
计量模型的估计结果显示, 我国近10年的就业平均弹性约为0.27, 大于公有制企业的就业弹性0.20, 可见其他所有制企业的就业弹性大于公有制企业。然而, 其他所有制企业的数据在模型中拟合并不显著, 其主要原因在于2000年以来我国经济体制改革和国企改革进展快速, 非公有制企业有了爆发式的发展, 非公有制企业的就业岗位创造能力更多地受制度因素的影响, 受GDP的影响并不显著。这一违背劳动经济学基本原理的现象意味着我国经济体制改革还不完善, 大量的其他所有制企业并不是按照经济形势制定生产发展计划, 而是更多地被政府政策所左右, 这就要求我们政府进一步深化经济改革, 理顺市场关系, 给民营企业创造更合理的经营环境和条件从而创造更多的就业岗位, 解决就业难的问题。
(二) 生产函数的结论和政策建议
根据边际劳动生产率和边际资本生产率的测算, 公有制企业效率显著低于其他所有制企业。虽然低下的效率可能是由于自然垄断的需要造成的, 但更多的还是由于公有制企业自身管理混乱, 权责不明, 法人治理结构缺失, 行政干预多, 市场导向不足等等诸多根源。主要问题在于, 公有制企业资本边际生产率过低, 边际生产率代表了资本的边际成本, 说明公有制企业获得贷款与财政拨款等资源的能力过强, 抢占了太多的资本要素, 与此同时, 非公有制企业资本边际生产率较高, 理应得到更多的贷款或债券发行资源等资本投入要素, 然而国有银行体系和管制的资本市场限制了其他所有制企业得到资源的途径和能力, 使得非公有制企业大部分的产出来自劳动力的贡献, 这一由公有制企业和非公有制企业分割的市场大大限制了公平的市场竞争。即便如此, 过度利用劳动力资源的非公有制企业的劳动边际生产率仍然高于公有制企业。
(三) 企业就业岗位创造能力与大学生就业的政策建议
认清我国企业的就业岗位创造能力, 对大学生职业生涯规划有积极的作用。大学生作为就业的主角, 应当努力转变就业观念, 主动积极地进入非公有制企业工作, 拓宽就业面, 提高就业率。用人单位是大学生就业市场的一个主体, 其对大学生资源管理使用的科学与否, 直接影响到大学生资源配置的合理性和使用的有效性。【10】非公有制企业是解决就业的主力军, 在就业形势严峻的大背景下, 非公有制企业更应承担起应尽的社会责任, 在加快自身发展的同时, 充分挖掘就业岗位, 客观接收大学毕业生, 促进大学生就业。大力发展非公有制经济, 特别是民营企业, 对我国经济的增长和就业的促进有着重大意义;此外, 加速公有制企业整合, 使其逐步退出非自然垄断行业, 可以给予非公有制企业更多的发展空间, 有助于创造更多的岗位, 解决我国大学生就业面临的难题。
资料来源:Wind资讯金融数据库[DB/OL].http://www.wind.com.cn/product/Wind.Data Feed.html.2012-3-29.
摘要:经济体创造就业的能力是关系民生的核心问题。通过运用省际面板数据模型, 预估中国公有制企业和非公有制企业的就业弹性及生产函数。以国有企业和集体所有制企业为主的公有制企业就业弹性小, 规模报酬递增, 资本边际产出低, 劳动力报酬率低, 创造就业岗位能力较差;以民营企业和外资企业为主的非公有制企业就业弹性显著大于公有制企业, 规模报酬基本不变, 资本边际产出高, 劳动规模报酬率高, 创造就业岗位的能力较强。大力发展非公有制经济, 有助于创造更多的岗位, 解决我国大学生就业面临的难题.
关键词:就业岗位创造能力,就业弹性,企业生产函数
参考文献
[1]蔡昉, 都阳, 高文书.就业弹性、自然失业和宏观经济政策——为什么经济增长没有带来显性就业?[J].经济研究, 2004 (9) :18-25
[2]方明月, 聂辉华, 江艇, 谭松涛.中国工业企业就业弹性估计[J].世界经济, 2010 (8) :3-15
[3]简新华, 余江.基于冗员的中国就业弹性估计[J].经济研究, 2007 (6) :131-140
[4]张军, 章元.对中国资本存量K的再估计[J].经济研究, 2003 (7) :35-42
[5]郭玉清.资本积累、技术变迁与总量生产函数——基于中国1980-2005年经验数据的分析[J].南开经济研究, 2006 (3) :79-88
[6]范九利, 白暴力, 潘泉.我国基础设施资本对经济增长的影响——用生产函数法估计[J].人文杂志, 2004 (4) :68-74
[7]曹吉云.我国总量生产函数与技术进步贡献率[J].数量经济技术经济研究, 2007 (11) :37-46
[8]马赞甫, 刘妍珺.基于DEA的生产函数估计[J].管理学报, 2010 (8) :1237-1240
[9]张军, 章元.对中国资本存量K的再估计[J].经济研究, 2003 (7) :35-42
【分析数据模型】推荐阅读:
GPS数据后处理中精度分析的简明数学模型06-01
港视电玩城企业运营管理和数据分析模型07-16
农业生产力定量模型研究-基于广西面板数据的实证分析06-03
数据整合分析08-05
数据业务分析08-05
数据分析09-06
数据分析师和大数据10-18
调研数据分析10-19
医疗数据分析05-15
分析实验数据策略05-24