规模数据

2024-07-27

规模数据（精选10篇）

规模数据篇1

1 数据挖掘技术

1.1 数据库的数据挖掘系统

数据库的挖掘在广义上是数据挖掘过程中从存储在数据库中的大量数据中挖掘出有用的信息。从这个角度看, 数据库挖掘系统包括以下几个部分。

(1) 数据库:数据库可以恢复信息, 它可以整理数据库中的数据;

(2) 数据仓库服务器:根据用户的数据挖掘需求, 提取相关数据的数据仓库服务器;

(3) 知识库:它是一种领域知识用来评估结果的有趣程度模式或指导研究。这种知识库的概念是有层次的, 包括了解用户的认可;

(4) 数据挖掘引擎:这是数据挖掘的重要组成部分, 它是由一组功能模块的组合, 用来进行描述, 分类, 转换和偏差分析等;

(5) 数据评价模块:它通常是由有趣度去衡量, 并且能够与数据挖掘模块进行交互, 使得搜索专注于有趣程度的模型;

(6) 图形用户界面:用户和数据挖掘系统在这个模块之间的通信, 这使得系统与用户进行交互, 并且为数据搜索, 提供信息, 帮助搜索聚焦, 和探索性数据挖掘。

1.2 数据挖掘系统的功能

1.2.1 清洗泛化

数据挖掘系统可以把现有的数据提高到一个更高的水平。利用GDBR广义积分算法, 通过空间和时间上的复杂性的相关性, 然后采用N-gram方法可以有效地搜索和准确的重复记录系统中的相似信息, 然后进行排序和测试。智能化操作, 如规范的插入, 删除, 交换和置换可以处理常见的拼写错误, 数据清洗。但也有一些偏差, 采用精度检测正常消除基本算法, 本系统提高了基本消除算法, 利用统计原理, 结合合理的直接和逆重复矩阵, 能够提高拼写错误的检测和正确的修改。

1.2.2 数据挖掘的功能

根据相关的关联规则和序列规则, 系统的分类以及数据聚集的数据挖掘方法, 实现了数据挖掘系统的预期的应用目标。通过搜索与集成的频繁项目集之间的数据实现Apriori算法。频繁项集产生关联规则的基本思想是:通过记录I的频繁项, 并记录下I所有非空子集内容。如果值的支持 (I) /支持 (a) 大于最小置信度, 规则=> (1-a) 将直接输出。如果I中的非空子集不符合条件, 相关规则将不输出。换句话说, 关联规则不是由a形成的, 但时间序列规则往往与系统中的项目集的时间相关联。该系统中的时间序列规则是由Aprion AII决定的。在广泛的意义上说, 关联规则包含强烈规则, 例外规则和随机规则。规则的少量数据服从的例外规则的代表。虽然数量少, 其有趣性高。它是未知的信息在这个阶段的和不可预知的信息规则。该系统中的最小可信度的关联规则设置了例外。因此, 系统可以形成分类关联规则 (CAR) 和分类关联规则 (ECAR) 和虚假的规则 (SCAR) 。

这些定义数据和分类数据, 代表可以形成的数据类别, 并根据分类标准中属于未知类别的数据来形成分类。在这个系统中, 应用区间分类器可以提高正确率和分类精度水平、降低过深树扩展的决策树分类器。

聚类算法结合高密度集群采用CURE算法进行标记的许多不同的簇代表点。所以能够形成一定的集群分布式架构。然后有效地识别特殊的形态, 使数据处理更高效和提高处理能力。利用数据挖掘之前, 系统会自动划分空间分布, 使信息对象形成了许多数据单元。然后, 根据本单位的特点, 计算机集群分布。另一个独特的聚类算法是基于密度的聚类算法。通过改进Dbscan算法, 数据部门可以实现由小部门集群, 实现和算法的加速速度通过选择代表扩大种子点的相邻对象, 和整个数据库集群实现样本数据的聚类。它使系统的聚类算法更有效。

2 基于大规模数据库的数据挖掘系统的构建方法

2.1 整体框架结构的设置

该系统集成了各种模块密切相关, 形成数据结构层次, 包括多个独特的输出操作功能, 具有多数据源、多参数的特点。因此, 每个挖掘操作模块之间的可以是相互独立的, 这可以产生更多的功能和更稳定的系统。作为一个集成系统, 有一个协调统一的模块进行模块之间的关联, 从而提高并实现数据的传递、标准化系统的操作和数据源的挖掘结果。

在数据挖掘系统的基础上考虑一个庞大的数据库, 本系统的数据挖掘的范围必须要扩大, 因此实现挖掘对象不应该仅存在于数据库中, 也应该在文件中。因此, 根据文件系统提供的信息处理方法。呈现更容易挖掘结果, 实现远程决策支持分析, 该系统还具有自动恢复的功能挖掘结果, 扩大应用范围。因为它是操作电脑的人, 该系统配备了良好的操作界面, 这能够很方便用户的操作和帮助决策者做决策分析并做出准确的决定。

2.2 模块设置

根据本系统的上述结构, 以下模块设置是实现数据挖掘系统的相关功能。

(1) 挖掘模块可以实现挖掘工作功能, 采集不同数据库中的数据。每个挖掘模块是独立的。数据库管理模块可以控制单个模块。存储模块的数据源, 通过挖掘读入相应的数据挖掘基础, 为其他模块提供的基础数据。

(2) 在预处理模块的主要功能是过滤, 定义和格式的数据源, 进一步提高整个系统的可操作性和实用性。主要的子模块进行数据映射操作, 映射的列映射和类型映射。数据映射到地图源表成为身份类型, 并形成相应的对照表。不同的数据映射并形成一个统一的模块。列映射到数据源中提取有用的柱, 有利于减少数据量, 加快了计算速度。类型映射是将不同的数据源的类型强制性转换成统一数据库中的数据类型, 有利于挖掘。

(3) 存储模块操作整个数据库中的数据。然而, 首先必须导入外部文件, 然后存储和控制。采用ODBC技术底层界面。利用内存索引和缓冲功能, 加快系统的计算能力。

整个系统的核心模块是挖掘管理模块。各种信息用户实现从数据库的挖掘应存放在挖掘基地。挖掘基地直接设置在系统数据库中, 便于传输和管理。挖掘库管理包括所有类型的数据挖掘过程, 数据准备和数据存储。数据挖掘操作在整个挖掘过程中依赖一个其他数据挖掘和生成的一个新挖掘的运行结果。此外, 新的结果可能是另一个挖掘过程中的数据源。

3 结论

本文探讨了基于大数据的数据挖掘系统的构建。首先, 介绍了数据挖掘技术, 包括数据挖掘的内容和实质, 数据库挖掘过程和挖掘系统的组成, 以及数据挖掘系统的功能。然后, 论述了构建数据挖掘系统的方法, 包括总体框架结构设置, 模块设置界面设置。越来越多的相关数据集成系统进行发布和得到认可, 企业应当根据自己的特点和需求构建数据挖掘系统, 来为他们自己提供更好的服务和完善的应用及经济效益。

摘要：随着信息技术的发展, 数据库技术已经从最初的文件处理演变成一个复杂而且强大的数据库系统。如何更快、更好的提取有用的信息是大数据领域的重要研究课题。本文探讨了大规模数据库的数据挖掘系统的构建。构建数据挖掘系统可以进一步探讨基于大数据的数据库的功能, 并且有利于决策者能够快速、准确地找到有用的资料。从而根据这些数据能做出最合理、有效的决策。

关键词：大数据,数据挖掘,决策

参考文献

[1]王元卓等, 网络大数据:现状与展望[J].计算机学报, 2013, 36 (06) .

[2]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域--大数据的研究现状与科学思考[J].中国科学院院刊, 2012 (06) :647-657.

[3]程学旗等.网络大数据计算技术与应用综述[J].科研信息化技术与应用, 2013 (06) .

规模数据篇2

2018-08-14 20:08 来源：人民银行网站

初步统计，7月末社会融资规模存量为187.45万亿元，同比增长10.3%。其中，对实体经济发放的人民币贷款余额为129.07万亿元，同比增长12.9%；对实体经济发放的外币贷款折合人民币余额为2.52万亿元，同比下降2%；委托贷款余额为13.07万亿元，同比下降5.4%；信托贷款余额为8.23万亿元，同比增长6.8%；未贴现的银行承兑汇票余额为3.89万亿元，同比下降8.7%；企业债券余额为19.28万亿元，同比增长7.8%；非金融企业境内股票余额为6.92万亿元，同比增长10.5%。

从结构看，7月末对实体经济发放的人民币贷款余额占同期社会融资规模存量的68.9%，同比高1.6个百分点；对实体经济发放的外币贷款余额占比1.3%，同比低0.2个百分点；委托贷款余额占比7%，同比低1.1个百分点；信托贷款余额占比4.4%，同比低0.1个百分点；未贴现的银行承兑汇票余额占比2.1%，同比低0.4个百分点；企业债券余额占比10.3%，同比低0.2个百分点；非金融企业境内股票余额占比3.7%，同比持平。

注1：社会融资规模存量是指一定时期末（月末、季末或年末）实体经济（境内非金融企业和个人）从金融体系获得的资金余额。

注2：数据来源于中国人民银行、中国银行保险监督管理委员会、中国证券监督管理委员会、中央国债登记结算有限责任公司和银行间市场交易商协会等部门。

注3：2018年7月起，人民银行完善社会融资规模统计方法，将“存款类金融机构资产支持证券”和“贷款核销”纳入社会融资规模统计，在“其他融资”项下反映。完善后，2017年以来各月社会融资规模存量余额和可比口径同比增速如下：

表1：2017年以来各月完善后的社会融资规模存量余额

规模数据篇3

基建配套融资为新高主因

中泰证券分析师表示，一般来看，贷款的高速增长不乏与1月季节性>中贷有关，银行普遍存在早放贷早收益的想法，但单月增量创下新高，可能与支持基建项目的配套贷款密集投放有关，主要是地方融资平台的贷款投放与专项金融债相关的配套贷款投放，去年8月以来财政支出持续大幅扩张，2015年信贷额度用完后，项目积累或于年初集中放贷。安信证券也表达了类似的观点，2015年三四季度，一些建筑企业的基建订单有所改善。同时今年是十三五开局之年，储备项目开始投放。而国开基金的运作，为一些项目注入了资本金，缓解了资本金困难，均可成为基建配套融资刺激信贷扩张的证据。

华泰证券同时指出，从宏观层面看，由于股权融资受股市表现影响持续下滑，一部分过去通过定增和股权质押直接融资的需求转向企业贷款。非金融企业及机关团体中长期贷款增加与年初债务置换、基建投资扩大、专项金融债配套贷款等因素的叠加效应有关，但也不排除传统产业利润持续下滑、负债滚雪球越滚越大的情况下，被动融资需求大幅增加。

信贷扩张趋势或难持续

对于信贷扩张的未来趋势，中信证券表示，从资金供给的角度看，银行年初放贷>中动释放后，资金供给会减弱，同时随着供给侧改革的真正落地，银行将会面临较大的债务违约风险，将促使银行惜贷。

从需求的角度看，无论是居民购房需求还是基建投资需求，都受到政府严格调控。政府后续或将会进一步控制居民购房和基建投资需求，以保证全面信贷增长适度。

当前信贷高速增长对于后续经济的影响，众多机构也给出了不同的观点。安信证券指出，信用数据的强劲，也许预示着基建投资和经济活动可能脉冲式的反弹，这也会对市场形成刺激。

中泰证券分析师也持有相对乐观的态度，表示从信贷扩张的传导来看，持续的财政支出增长和地产大力去库存下，基建投资实现持续增长、地产投资增速由负转正可能性较大，二季度经济企稳有很大可能，或将达到“L”型底部。而上海证券分析师则认为，信贷爆涨无助经济反弹。1月份信贷投放的长期化特征，仅是高杠杆下融资性信贷需求上涨的结果。对金融机构而言，满足非金融部门的融资性信贷，也是有效化解信贷风险的基础。可以说，金融部门主动扩张信贷，是在当前不良风险暴露压力下的“自救”行为。在投资仍是中国经济增长第一动力情况下，投资的非货币性低迷，表明经济增长将持续目前低位态势。

大规模图数据路径查询分析篇4

图的距离查询和路径查询有重要而广泛的应用:地理导航, 因特网路由, SNS模型, 语义网……存在网络的地方就存在这样的查询。为了便于描述, 我们首先建立符号标识。对于图G中的任意两个顶点u、v:定义1.u到v的最短距离记作shtt Dist (u, v) :定义2.u到v的最短路径记作shtt Path (u, v) , 通常它包含起点u和终点v。对于图G=以E) , n=}vl, m=}El。为了回答shtt Dist (u, v) , 有两种极端的方法。一个是通过DFS (深度优先搜索) 遍历该图, 这将耗费o (n+m) *109 (m) 的时间;另一个是预存任意两个节点间的距离, 这需要o (n2) 的空间。对大图而言, 以上方法均不可取:前者所花时间过多, 后者所占空间过大。提出的穿行次数算法以时空折中为方针, 权衡了时间与空间。穿行次数算法是一个全新的处理方案, 它从节点在图中的重要性为出发点, 提出了节点地位的概念, 并给出了量化节点地位的方法-穿行次数。

基于穿行次数制定了一个启发式规则, 进而遵循该规则为每个节点创建标签序列, 并保证仅通过标签序列就能正确地回答距离查询和路径查询, 从而避免了图的遍历。我们首先介绍该算法, 然后讨论距离查询和路径查询。

2 相关工作

图中节点间的查询有很多种:可达性查询、距离查询、路径查询等等。图的距离查询有一个著名的算法——“2跳”覆盖算法, 它由Cohen等人在SODA 02中提出。该算法描述了一种基于标签的数据结构, 通过这些标签可以快速地回答距离查询。该算法为图中每个顶点赋予两组标签, 并保证这些标签包含所有的最短距离信息。下面对该算法进行简单的阐述。

设图G= (V, E) , 任意顶点v∈V, v有两个标签序列:in List和out List, 其内容都是顶点的相关信息;其中v.in List是可达v的顶点, v.out List是v可达的顶点。对于标签序列, 有如下说明:

2.1 v.out List中的顶点可能是v直接可达的, 也可能是v间接可达的。

2.2 v.in List中的顶点可能是直接可达v的, 也可能是间接可达v的。

2.3 可达v的顶点未必都在v.in List中, v可达的顶点未必都在v.out List中。有7个节点、9个有向边, 顶点对应的标签序列有多种形式, 对应的一组标签序列, 括弧中的数字表示相应的距离。这些标签包含了所有的最短距离信息。例如, 要查询顶点a到顶点f的距离, 可以比较a和f对应的标签序列:a可达b, c, d, 而c, d可达f;那么a经c可达f, a经d也可达f, 且两者距离都为3。所以a到f最短距离为3。为了描述方便, 现就该问题中的某些概念定义如下。

3 最短距离查询

在计算出最终的标签阵列之后便可以进行最短距离查询。例如要查询shtt Dist (1, 5) , 那么相应的标签序列如下表1、表2所示。

标签序列中节点1可达2, 4, 7, 节点2, 4, 7可达5。

a.节点1经2到5的距离是24+71=95。

b.节点1经4到5的距离是42+36=78。

c.节点1经7到5的距离是97+21=118。

可见节点1经4到5距离更近, 那么查询shtt Dist (1, 5) 将返回78。设L为标签序列的平均长度, 那么该查询算法的时间复杂度为O (L) 。对本算法稍作扩展即可进行最短路径查询。

4 最短路径查询

最短距离查询shtt Dis (source, target) 的计算过程中涉及到了最短路径所经过的中间节点。将该节点记录下来可以用于最短路径查询。但在此之前需要修改数据结构:每个标签中增加一个节点ID, 该ID的含义是:

4.1 对于out List, 该ID是标签头到该标签的最短路径中, 与标签头相邻的顶点;

4.2 对于in List, 该ID是从该标签到标签头的最短路径中, 与该标签相邻的顶点。例如查询shtt Path (1, 5) , 其out List标签序列与in List标签序列分别如表3、表4所示。

我们需要遍历1的out List和5的in List, 遍历过程类似于上一节的最短距离查询。遍历后发现, 节点1经4到5是最短路径, 那么下一步就是寻找1到4的最短路径和4到5的最短路径。a.节点1的out List显示:1到4的路径中, 1邻接于4, 故1到4的最短路径是“1→4”;b.节点5的in List显示:4到5的路径中, 4邻接于5, 故4到5的最短路径是“4→5”。所以1到5的最短路径是1→4→5。设标签序列的平均长度是L, 而待查询路径的长度为s, 那么路径查询的时间复杂度为O (L×s) 。

5 实验数据

5.1 两种策略的空间性能对比

从采用GPC策略和LPC策略所得标签阵列的空间因子对比图观察, X轴为节点个数, Y轴为空间因子。

可以看出:LPC策略在大多数情况下优于GPC策略;且随着节点个数的增长, LPC策略对GPC策略的优势逐步明显并趋于稳定。可以认为:折线图中的几个例外情况仅仅是节点个数较少时的特例。

5.2 初始标签序列最优大小的实验

从初始标签序列大小对于最终空间因子的影响效果图看。顶点个数为1000, 两条曲线对应边数分别为2200和2981。X轴是初始标签序列大小, Y轴是空间因子。两条曲线各有一个低谷。

5.3 预处理阶段所需时间与空间

通过预处理阶段所费时间的变化曲线。因为check算法的时间复杂度为。 (n Z) , 所以时间曲线是按照指数变化的。预处理需要临时存储所有n Z个最短距离, 所以其空间复杂度也是O (n2) 。

5.4 查询阶段的时空性能对比

本算法以“时空折中”为指导方针, 其查询阶段有很好的时空性能。空间因子的变化曲线。节点个数到达20000的时候, 空间因子己降至0.0078, 即平均每个节点的标签个数为156。而20000的算术平方根是144, 可见此时算法在空间上很接近。 (n'.s) 。PC算法与Dijkstra算法的时间性能对比, 所用方法是对n Z个最短路径进行地毯式查询。其中X轴为节点个数, Y轴为所用时间, 单为秒。根据实验可知:PC算法查询阶段的空间复杂度已经接近。 (n'.s) , 而其时间复杂度也远远低于Dijkstra算法。

参考文献

[1]张铭, 王腾蛟, 赵海燕.数据结构与算法[M].北京:高等教育出版社, 2008.

[2]许卓群, 杨冬青, 唐世渭等.数据结构与算法[M].北京:高等教育出版社, 2004.

[3]耿素云, 曲婉玲, 王捍贫.离散数学教程[M].北京:北京大学出版社, 2002.

规模数据篇5

1云计算环境下大数据处理模式

1.1大规模廉价计算平台

利用虛拟化技术，能够实现大规模廉价计算平台，将存储、应用程序、网络、计算等资源作为虛拟化实体。对闲散的计算资源进行抽象，使之形成相互之间完全独立的虛拟服务器实例，从而独立的完成数据处理和计算。通过这种方式，就能够实现底层硬件的虛拟化。构建可扩展计算节点资源池，并在其中实现集成管理虛拟计算流程和计算节点。这样，大规模数据子处理任务就能够完成实时迁移、资源转换、系统监控和任务部署。

建设大规模计算平台的过程，也是云计算环境下大规模数据处理的一个重要步骤。具体来说，首先要对数据处理需要的资源进行参数化的配置，根据相应的要求进行定制。通过这一过程，用户能够获取自己需要的资源。在不同的操作模式下为用户提供参数服务。在设置参数完成定制之后，以此为基础，在大规模数据处理的时候，部署存储和计算资源，设定计算流程和数据处理方案。将相关参数设置信息在存储和计算资源的配置文件当中进行写入之后，以此对计算流程进行分配，从而在计算节点中启动相关的资源，并且管理和部署计算节点的定制处理服务。

部署工具通过网络连接到目标计算节点和计算流程，然后执行大规模数据处理方案。然后根据相应的方案，通过代码对存储和计算资源进行分配和执行。将部署在计算节点进行进行启动，利用网络在各个计算节点发送数据处理命令，从而完成调度和部署计算流程的工作。

1.2Map Reduce技术的支持

采用Map Reduce分布式和并行式编程模型，从而在模型内部对任务容错处理、计算节点负载均衡、空间局部性优化、并行任务调度等方加以实现。在Map Reduce的开发过程中，只需对Map、Reduce两个接口进行定义，通过计算机集群，对用户编写程序进行运行，拆分大规模数据集合，使之形成若干数据片段，从而得到一系列键值对[4]。然后向一个Map任务中分配一个数据片段，在Map Reduce框架下，向大规模计算集群中的节点进行子任务的分配。最后，结合得到的键值对进行计算，生成键值对集合，向Reduce当中进行输出。

Reduce当中每一个Reduce任务，都会向二元组集合当中进行分配，输入集合片段，运行Reduce函数，输出二元组键值对。如果数据处理任务失败，也能够自动重新进行计算。在大规模数据处理当中，是高度并行操作Map的，这一步骤对于大规模数据的高效处理来说，具有不可忽视的意义。基于云计算环境下，对规模数据信息大都能够达到TB级别或GB级别。在长时间处理大规模数据的时候，如果发生数据处理任务失败的情况，能够防止发生计算任务重新执行的情况。由于数据块是被复制的，因此在容错性方面，还会关系到负载均衡的情况。

2云计算环境下大数据处理的框架模型

在大规模数据资源和计算资源当中，对云计算技术、计算机网络技术进行引入，建立大规模数据处理框架模型。主要包含了两级结构，其一是虛拟资源体系、大规模廉价计算机集群，其二是大规模数据处理分析的处理监测管理体系、数据处理服务请求、以及相应的基础架构。利用限制的计算机资源，对虛拟资源层和物理设备进行构建，从而形成最底层的物理资源，形成同构的数据处理资源池或接近于同构的数据处理资源池。在第二级结构当中，最为重要的就是软件体系，能够为大规模数据处理提供服务。采用Hadoop核心技术，对数据处理接口进行编写。通过这种方式，在不同的学科和领域当中，能够提供相应的大规模数据处理服务，从而使用户能够享有良好的计算平台软件支持。

在这一框架的设计与实现当中，对Hadoop分布式开源计算机框架进行了应用，对其中的HDFS分布式文件系统，以及Map Reduce进行应用，从而对大规模数据处理业务进行处理和协调。在计算节点当中，对放置在Map Reduce任务进行映射，对大规模数据进行划分，使之形成若干子块，并对数据块的数量、规格等参数加以掌握。通过HDFS功能，可以在每一个计算节点当中，对数据块副块进行智能的放置，同时针对各个节点，对具体的角色进行设计。在大规模数据处理的过程当中，需要利用Reduce函数、Map函数、以及相关的程序进行分布化处理。在Hadoop当中，为了对Map Reduce进行运行，提供了一个API进行支持。

3结论

规模数据篇6

《中共中央国务院关于深化医药卫生体制改革的意见》提出“严格控制公立医院建设规模、标准和贷款行为”;《医疗机构设置规划指导原则(2009版)》指出“各级卫生行政部门要依据《规划》设置卫生区域内的各级各类医疗机构,引导医疗资源合理配置,避免医疗卫生资源配置重复、盲目扩大规模”;《2011年公立医院改革试点工作安排》进一步强调“各地区要在区域卫生规划、区域医疗机构设置规划的框架下,制定公立医院设置与发展规划,确定公立医院的功能、种类、数量、规模和布局”;2014年国家卫生计生委下发《关于控制公立医院规模过快扩张的紧急通知》;2015年3月,国务院办公厅印发《全国医疗卫生服务体系规划纲要(2015-2020年)》,对我国各类医疗机构资源配置提出了明确要求。

关于医院床位规模的问题,在2015年《全国医疗卫生服务体系规划纲要(2015-2020年)》出台之前,政策可参考的只有原卫生部2006年颁发的《综合医院分级管理标准(试行草案)》,其中要求一级医院床位不得少于20张、二级医院床位不少于100张、三级医院床位不少于500张。随着时间的推移和社会、经济、医疗市场的发展,单体医院床位规模增长迅速,许多医院,特别是三级综合医院,纷纷通过合并、组建医疗集团、新建分院等多种形式实现床位规模的扩张。2012年,全国医院床位数合计为416.15万张,较之5年前(2007年,267.51万张)增加了55.56%。医院人员编制、财政支持、物资设备分配的确定都要依据其床位规模。医院床位规模的扩大,可以在某种程度上满足人们日益增长的医疗保健需要,但也带来一些问题[1,2,3,4,5],如使医疗行业垄断加剧,威胁医疗保健的可及性和公平性;医疗成本增加过快导致医疗费用增加过快,易出现诱导需求、重复诊疗,增加患者经济负担;医院床位规模过大,医院内部各组织和各部门之间的协调成本将增加,对外界变化的应对能力和应对速度将下降,医疗安全和医疗质量的隐患增多。同时,医院规模过大,其经营财务风险也将增大。因此,怎样使医院建设和保持适宜的床位规模,已成为各级卫生行政部门和医院管理层非常关注的紧迫而重要的课题。

那么,医院的适宜床位规模到底是怎样呢?国外开展关于医院适宜规模的实证研究比较早。Hollingsworth[6]认为,从投入和产出效益分析,综合性医院800!1200张床位规模最适宜。Polyzos[7]运用相关、回归分析医院效率发现,区级医院及综合医院床位数在250!400张时医院效率比较高。近年来,国内关于医院适宜规模的实证研究也比较多。雷海潮等[8]基于数据包络分析方法分析1991-2011年北京市三级医院规模报酬状态,确定北京市三级医院适宜规模严格控制标准为619张床位,较宽松控制标准为844张床位。孙菁等[9]研究结果发现,床位规模位于891!1230张时,军队总医院显示规模经济。刘岩[10]应用单因素相关分析、因子分析、建立生产函数数学模型等方法分析医院床位规模收益,发现医院综合评判得分在床位规模为1100张时达到最高,床位小于1100张时综合评分随着床位的增加递增,床位超过1100张后综合评分随着床位的增加递减。马丹[11]运用数据包络分析法以及建立多元线形回归模型分析样本医院成本运营情况,发现样本医院规模建设的有效投入范围主要集中在800!1300张。

三级医院是国家高层次的医疗机构,是医疗、预防、教学和科研相结合的技术中心,能够向覆盖多个地区的区域提供高水平医疗服务和预防、保健、康复服务。过去20多年以来,中国三级医院的规模从500!700张床位迅速扩增到2000多张,有的甚至超过5000张,还有愈演愈烈之势。合理设置三级医院床位数是优化卫生资源配置、提高整个社会医疗水平的重要举措,意义重大。因此,本研究旨在通过数据包络分析方法来探索当前三级医院的适宜床位规模,为控制三级医院规模无序扩张,保证三级医院功能发挥,提高三级医院运行效率提供参考,以促进三级医院更好发展,同时为三级医院人员编制、政府财政投入、设备资源配置等提供理论依据。

2 理论模型

数据包络分析(data envelopment analysis,DEA)是一种综合评价方法,被广泛应用于多种行业和部门。DEA方法主要是根据投入指标和产出指标进行线性规划分析,对一组同类型的若干单位进行相对效率的评价。近年来,医疗成本大幅上涨已成为世界各国卫生领域越来越严重的现象,如何控制医疗成本、提高医疗卫生组织的效率,是卫生经济学研究中的重要课题[12]。许多研究都运用DEA方法研究卫生系统的效率情况。

DEA方法主要有两种基本模型:规模报酬不变模型(CRS模型,又称CCR模型)和规模收益变化模型(VRS模型,又称BCC模型)。本研究应用DEA-CCR模型和DEA-BCC模型对医院的适宜床位规模进行探索。运用CCR模型测定医院的技术效率(TE,也称综合效率),运用BCC模型将技术效率(TE)进一步分解为纯技术效率(PTE)和规模效率(SE)。根据“技术效率=纯技术效率×规模效率”,可以得到该院的规模效率=技术效率/纯技术效率,即SE=TE/PTE。

3 投入产出指标体系的构建

从国内外相关文献来看,对医院效率的研究所选取的投入指标主要包括医院的人力资源数量、床位数量、固定资产总值、业务支出值等。由于医疗行业产出主要是患者疾病的恢复、治愈及群众健康水平的提高,很难以量化,因此,选取的产出指标一般包括出院人次数、手术人次数、门诊人次数、急诊人次数、业务收入值等。

本研究主要采用文献优选法选取所查相关文献中使用次数较多的指标,然后考虑指标选择应遵循的原则,即指标要精练,具代表性、核心性、简明性和独立性,相关数据可获得性强、具有较高可靠性和准确性[13]。最终确定了3个投入指标和3个产出指标。投入指标为实际开放床位数、总支出值、固定资产值;产出指标为出院人数、门急诊人次数、总收入值。

4 实证分析

4.1 数据来源与分析方法

本研究选取某中部省份34所公立三级综合医院作为研究对象,其中包括省级医院和地市级医院。收集34所医院2008-2012年3个投入指标值和3个产出指标值,一共形成170个决策单元(DMU)。利用DEA分析软件DEAP2.1进行计算。

4.2 结果与分析

将170个决策单元纳入计算,得到各决策单元的技术效率、纯技术效率、规模效率以及所处的规模报酬区间。

4.2.1 按规模效率值分组分析。

若规模效率=1,说明医院处于规模相对有效状态,该规模下投入和产出达到最优,实现了规模报酬不变;如果规模效率<1,说明医院处于规模效率不佳或者无效状态,规模报酬可变,如果要达到相对有效,需要在投入或产出项上加以改善。规模效率值越接近1表示有效程度越高;0.9<规模效率<1时称边缘无效;规模效率<0.9时称明显无效。根据结果显示的规模效率值,可以将170个决策单元分为3组:相对有效组(SE=1.0)有28个单元(占总单元数的16.47%),平均床位为811张,离散范围为500-1638张;边缘无效组(0.90<SE<1)有117个单元(占68.82%),平均床位为914张,离散范围为500!1700张;明显无效组(SE<0.9)有25个单元(占14.71%),平均床位为812张,离散范围为422!2113张。

4.2.2 按规模报酬区间分析。

规模报酬不变,即处于适宜规模阶段;规模报酬递增,则说明规模偏小,还可以适当扩大规模;规模报酬递减,则说明规模偏大,已呈现规模不经济。根据结果显示的规模效率值,170个决策单元中,处于规模报酬不变的有28个单元(占16.47%),平均床位811张,离散范围500!1638张;处于规模报酬递增的有65个单元(占38.24%),平均床位580张,离散范围为422!1000张;规模报酬递减的有77个单元(占45.29%),平均床位1164张,离散范围为678!2113张。

4.2.3 三级医院的适度规模区域。

为了较准确地判断规模效率和床位规模的关系,将所有单元从400床起,每增加100床为一组,1800床位以上设为一组,观察各组平均规模效率的变化情况(图1)。由图1可见,平均规模效率在800!899床位组时达到最高峰,600!1299床位组时规模效率都较高,1300床位以后规模效率有所下降(除1600!1699床位组规模效率突然升高外),床位达1800张以上后,规模效率明显下降,说明1800床以上明显规模偏大。

按上述分组办法计算各组规模报酬递增单元所占百分比。如图2所示,400!499床位组规模报酬递增单元数量比例最高,为100%,然后逐渐下降,到1100床则降为0,说明1100床之前规模偏小,可以适当扩大床位规模;当床位继续扩大后,将经历规模报酬不变,然后是规模报酬递减。

综合考虑不同床位规模组医院的规模效率情况以及规模报酬区间情况,可以得出三级医院适宜床位规模范围为600!1300张,以1100!1300张为佳,因为在此范围内,规模效率较高且规模报酬递减或不变。

5 讨论

总体来说,在一定范围内,医院床位规模的增加能带来效率和效益的递增,而在达到一定程度以后,床位规模的增加会带来效率和效益的递减,因此在研究医院的床位规模时,要充分考虑到医院的规模效率和效益。本文运用数据包络分析法(DEA)来探索公立三级医院床位规模正是出于此考虑。《全国医疗卫生服务体系规划纲要(2015-2020年)》要求,市办综合性医院床位数一般以800张左右为宜,原则上不超过1200张;省办及以上综合性医院床位数一般以1000张左右为宜,原则上不超过1500张。本研究结果显示,某中部省份三级医院适宜床位规模以1100!1300张为佳。此结果与《全国医疗卫生服务体系规划纲要(2015-2020年)》中对医院单体规模的要求基本吻合,且对三级医院适宜规模的具体范围给予了补充和参考。

医院的床位规模还必须与该区域的实际情况相符合,要充分考虑区域人口数量和当地社会经济发展状况,考虑居民的卫生服务需求,考虑医院的等级、类型、服务项目、特殊地位,因此各地三级医院适宜规模可在本研究基础上,根据实际情况加以适当调整。

摘要：目前中国医疗行业普遍存在医院不合理大规模扩张情况,给医院内部管理和自身发展带来了许多问题,同时也引发了一些社会问题。这是当前各级卫生行政管理部门、医院决策层乃至全社会共同关注的一个十分重要而紧迫的课题。通过运用数据包络分析法,根据多项投入指标和产出指标对某中部省份2008-2012年34所公立三级医院的相对效率进行综合评价,以探索公立医院的适宜规模。研究发现,当医院规模过小或过大时,医院均处于规模效率不佳的状态;该省份公立三级医院床位规模在1100!1300张范围内比较适宜;各地区三级医院适宜规模可根据人口、经济、社会发展状况进行适当调整。

规模数据篇7

1 分布式文件系统概述

近年来, 为方便处理与存储海量数据, 类似于Google等商业公司都陆续开展了云计算平台构建工作, 相继开发出GFS、Map Reduce、Big Table等技术。笔者主要通过对Google的GFS与Hadoop的HDFS进行分析, 以此论述云计算平台的存储技术。

1.1 GFS分布式文件系统

GFS本质属于可扩展分布式文件系统, 主要应用于诸多分布式数据管理层面, 并由许多价值较低硬件构成。其中, GFS分布式文件系统架构是由单个Master与诸多chunk server共同构成单个GFS集群, 最突出特点是可由多个客户进行数据访问。

1.2 HDFS分布式文件系统

Hadoop属于一个包含开源代码的分布式文件系统, 也属于一个并行处理的Map Reduce框架。它的创作灵感主要源自谷歌GFS文件系统与Map Reduce项目。开源Hadoop系统的诞生, 有效避免了云计算技术出现的种种问题。不少新起的国际IT公司, 都着重通过Hadoop系统来搭建自身云计算系统, 如Facebook与Twitter。Hadoop经过多年发展, 终于基本形成了云计算生态系统。它主要通过HBase分布式数据、Hive分布式数据仓库、Zoo Keeper分布式应用来统筹服务, 诸多部件几乎全部建立在价格低廉的硬件服务基础上, 且依靠强大容错能力与普遍拓展性, 逐步占领商业云计算的主流市场。其中, HDFS分布式文件系统架构能有效保障分布式、数据集中并行应用程序执行, 主要处理特征为:大任务分为小任务, 大规模数据集分为小分区, 最终实现各任务于不同分区的并行处理效果。HDFS技术主要特征为:通过“块”方式对文件进行存储, 并应用复制方式实现容错效果。无论是数据分区、处理、复制、布局, 还是数据块放置等措施, 都是有效提升HDFS性能的技术战略。

2 云计算平台下的大规模数据存储技术研究

大规模数据存储模型主要通过诸多存储节点搭建大容量存储系统进行工作。这些存储节点并行工作可获取高效磁盘访问吞吐率。系统缓存目的在于减少磁盘访问, 从而提升系统吞吐率。多个存储节点容错可提升其数据准确性, 最终实现大规模数据存储系统高性能、大容量及高度可靠的效果。但随着大规模交易数据与交互处理数据不断增多, 大规模数据存储管理开始暴露出一些新问题亟待解决。笔者基于分布式文件系统背景下, 从容错性、可扩展性、延迟性、大规模数据存储实时性等层面对当下存储技术进行论述。

2.1 数据存储可扩展性与延迟性

数据存储可扩展性与延迟性是准确衡量系统性能的两大指标。Google GFS与Hadoop HDFS分布式文件系统在大型文件处理上优势突出, 但在处理小型文件过程中, 常出现读写时间较长问题。原因在于, 并行1/0 接口与小型文件处理不相适应, 主节点难以在云存储系统中实现拓展。有业内人士曾做出研究:设置一种建立在P2P基础上的小型文件分布式存储系统, 主要通过中心路由节点来加快资源发现速度, 客户端发出消息命令去执行寻找数据行为。节点与路由信息由中心路由节点进行存储, 数据量较少时客户端可预取信息, 小文件数量较多时客户端可对其进行缓存, 以大幅减少读写次数, 但此研究难点在于中心节点的可扩展性不佳。为方便小型文件数据大规模存储, 也有学者在分布式文件系统基础上集成Memcached, 以实现存储优化效果。Memcached本质是高性能分布式内存对象缓存系统, 主要常见于Web应用来减少数据库负载。以数据缓存方式减少数据库读取次数, 最终加快动态数据库对网站的驱动速度。实践发展经验证明, 对当下分布式文件系统处理小型文件缺陷的优化方式可分为:第一, 优化HDFS的1/0 接口, 从而改变数据节点管理方式;第二, 运用索引方式将小文件向大文件合并;其三第三, 为减少访问次数, 设置缓存机制。

2.2 数据存储的容错性

Hadoop支持数据并行处理, 节点最高扩展可超过1 000个。大数据时代带动Hadoop技术普及。Hadoop建立在廉价硬件基础上, 小部件失灵可能性较大。所以, 数据容错成为其重要的研究内容。除以上提到的复制方式来保证数据高度可靠性外, 部分学者也提出通过纠删码容错机制来避免云存储集中数据存在的缺陷。节点失效问题是云计算环境下大规模数据存储面临的主要问题之一, 对云平台影响重大。HDFS是一种新型并行文件系统, 可实现大规模文件存储, 并以GB作为文件大小衡量单位。副本技术也是其中的一项重要技术, 可有效提升容错能力, 防止数据丢失造成损失。数据冗余技术中纠删码技术的应用, 很好解决了服务器崩溃与数据容错等方面存在的缺陷, 用户云端数据使用准确率提升。实践表明, 复制与纠删码是通用的两种数据容错技术, 其效率与节点可用性存在密切联系。纠删码技术下的冗余容错为分布式存储系统提供便捷容错机制, 复制技术下的冗余容错可在节点失效情况发生时快速恢复数据。

2.3 海量数据存储的实时性

实时性作为数据存储性能的重要标准, 主要体现在数据存储量越大, 实时性越高方面。Hadoop系统擅长处理大规模数据分析, 此类设计理念使其在PB级别离线数据工作中有着惊人的速度。Hadoop分布式文件系统包含诸多名称与数据节点通信, 当系统面临超负荷运转情况时, 此项技术可大幅减少运行性能。因此, 怎样提升分布式文件系统文件实时获取能力, 成为业界重点关注的话题。这种对实时性要求较高的云计算环境一般有较强个性化服务特征, 用户消费与集成数据生成时间相对较短, 数据实时性要求较高, 有差别化个人数据管理。当前, 我国Hadoop技术应用实时性有待提升, 未来着眼点也不应仅停留在大规模数据处理上, 实时数据访问处理也应提上日程。

3 结语

综上所述, 云计算环境下大规模数据存储技术有待进一步改进。当下, 我国数据实时化处理处于初始阶段, 云服务要尽快处理好用户调度数据, 需把研究重点从实时动态资源分析、资源实时调度等方面转移到核心技术的研究开发上。

参考文献

[1]王培建.云计算环境下大规模数据存储技术研究[J].北京邮电大学, 2013 (9) :22-27.

[2]杨静.云计算环境下的大数据可靠存储关键技术概述[J].电脑知识与技术, 2014 (11) :7574-7575.

规模数据篇8

Jim Gray基准排序包含若干种基准,每个基准由多个规则构成,用于度量不同记录排序时间。约定情况下,每条记录长度为100字节,其中前10个字节是键,后面部分是值。Minute Sort用于比较一分钟内执行排序的数据量大小,而Gray Sort用于比较100TB以上的大规模数据的排序速度(TBs/minute)。基准规则约定如下:

1)输入数据和生成数据匹配且输入/输出数据都是未压缩的;

2)任务开始前不允许在操作系统内缓存数据;

3)分发程序到集群上的时间和抽样时间都要计入总时长;

4)如果输出多个文件,就必须是有序的;

5)必须计算出每个Key/Value对的CRC32校验值(128位),保证输入输出相对应;

6)输出文件保存到磁盘上;

7)输出数据不能改写输入数据。

根据Yahoo!测试结果显示:利用Hadoop平台下3 658个集群节点排列1PB数据用了975分钟,具体如表1所示。

2 Hadoop排序策略

首先设计3个Hadoop应用程序用于数据排序:Tera Gen、Tera Sort和Tera Validate。在此,给出概括分析论述如下。

1)Tera Gen。用于生成数据,可根据待执行任务数目给所有map分配任务,每个map生成所分配的行数范围内的数据。Tera Gen利用1 800个map任务产生100亿行数据并存储到HDFS中,每个存储块设定为512MB;

2)Tera Sort。是map/reduce程序,用于数据排序。首先利用N-1个有序的抽样值为reduce任务分配待排序数据行数范围。比如,把键值在[sample[i-1],sample[i])范围内的数据分配给第i个任务,因此第i个任务任意输出数据比第i+1个任务输出数据小。这里采用两层索引树策略加速数据分配。由于数据不需要复制到多个节点,可以将副本数设成1。在本实验中,相应分配1 800个map和reduce任务进行排序,为防止中间数据溢出,需要为任务的栈分布足够的空间;

3)Tera Validate。用于验证输出数据,具体为每个输出文件分配一个map任务(如图1所示),用于检查当前值是否全部大于等于前面的值,同时验证第i个输出文件中的最小值是否大于等于第i-1个文件中的最大值,否则抛出错误。

该测试中,Hadoop集群配置如下:

1)910个节点;

2)节点配置:8 GB内存、1 GB以太网带宽,4个2.0 GHz双核处理器和4个SATA硬盘;

3)40节点/rack,rack到核心有8 GB带宽的以太网;

4)Red Hat Enterprise Linux Server 5.1操作系统;

5)JDK1.6.0,整个排序使用209 s。

依托910个节点的集群,Hadoop在209 s(3.48 min)完成了对1TB数据的排序。

3 Hadoop在Gray Sort基准排序中的改进

为适应于Gray Sort基准排序时,研究员在原map/reduce程序的基础上,对Hadoop进行适应性修改,将整个程序划分成4个模块:Tera Gen、Tera Sort、Tera Sum和Tera Validate。各模块实现功能如下:

1)Tera Gen利用map/reduce方法生成数据;

2)Tera Sort负责数据取样,并使用map/reduce进行数据排序;

3)Tera Sum负责计算每个Key/Value对的CRC32校验和,用于检查排序输出的正确性;

4)Tera Validate负责验证输出数据是否有序,计算校验和之总和。

本次基准排序测试运行在Yahoo!的Hammer集群上,集群配置如下:

1)3 800个节点(大规模集群下需要冗余节点);

2)每个节点配备4个SATA硬盘、2.5 GHz的Xeons CPU、8 GB内存、1 GB以太网;

3)每个rack放置40个节点,rack到核心以太网带宽8 GB;

4)采用Red Hat Enterprise Linux Server Realease 5.1操作系统;

5)采用Sun Java JDK 1.6.0 05(32 or 64 bit)。

在Hadoop平台方面的改进主要呈现在如下研究设计中:

1)重新构建Hadoopshuffle阶段的reducer部分,提高了shuffle性能,增加了代码的可维护性和易读性;

2)重构后shuffle过程可以从某一个节点获取多个map结果,减少了连接和传输开销;

3)允许配置shuffle连接建立时超时时间。小规模排序时减少shuffle超时时间,减少任务延迟时间;

4)把TCP设置成无延迟,增加Job Tracker和Task Tracker之间的频率(配置成默认值的2倍,2秒/1 000节点),减少延迟时间;

5)增加用于检测shuffle数据正确性的代码块,防止reduce任务的失败;

6)在map输出时采用LZO压缩;

7)在shuffle阶段,在内存聚集输出map结果集的时候实现内存到内存的聚集,减少reduce运行工作量;

8)使用多线程进行抽样并建立一个基于键平均值的分配器;

9)Job Tracker为Task Tracker分配任务的默认策略时先来先服务(FCFS),这种贪心算法不能很好地适应分布式数据。Tera Sort实现了一次性分配的全局调度策略;

10)删除硬编码等待循环,禁用Hadoop 0.20的自动安装/清除任务功能以减少开始和结束的任务延迟;

11)日志级别设置成WARN以减少日志内容,提高系统性能。

实验表明,Hadoop经过改进后可以在更短时间内处理更多的数据。小规模的数据需要更快的网络和更短的延迟,因此使用集群的小部分节点进行计算;小规模计算过程短、集群规模小,节点故障率低,因此可以把计算输出副本数量设置为1。对于大规模计算,节点故障率高,需将输出副本数量设成2,且放置在不同节点上,保证某个节点出现故障时,数据不致丢失。

图2显示了不同时间点下的任务数量。maps只有一个阶段,reduces有shuffle、merge和reduce3个阶段.其中,shuffle用于从maps中转移数据,reduce负责将聚集数据写入到HDFS中。在图1中,Hadoop每次心跳只能建立一个任务,所有任务的建立需要40 s,而现在每次心跳可以设置一个Task Tracker,明显降低了任务开销。与图1比较发现,任务建立的速度明显变快了。

值得注意的是,数据传输规模和次数对数据排序性能的影响很大。例如在PB级别的数据排序中,把每个map处理的数据设成15GB,而不是默认的128 MB。因此,为了增加吞吐量,拓延每个块容量则至关重要。随着Hadoop的不断改进和优化,其在处理大规模数据排序方面的能力也将不断完善与增强。

参考文献

[1]陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2011.

[2]Tom White.Hadoop权威指南[M].2版.北京:清华大学出版社,2011.

规模数据篇9

关键词：影子银行,规模测算,月度数据

1影子银行的界定

由于影子银行是次贷危机后的新创金融术语,所以,并没有一个统一且权威的定义,各学者和各机构对影子银行的统计口径从大至小各不相同。美国1929年大萧条股灾的导火索事件是对银行的挤兑,从而产生了流动性危机。而2008年次贷危机就是对影子银行的挤兑,从而产生的流动性危机。影子银行良性发展对金融市场流动性有积极作用,比如重庆市市长黄奇帆曾指出:“社会需要影子银行,2013年重庆市社会融资增量接近一半都是来自影子银行,对重庆的经济发展起到了重要作用。”

2009年,作为权威机构银监会工作年报最早提出了中国影子银行一词,但并无详细阐述。2011年,银监会在上半年经济形势分析会上将影子银行列为银行业三大风险之一,并首次提出了影子银行统计口径方面的范畴不包含信托公司、财务公司、汽车金融公司、金融租赁公司、货币经纪公司、消费金融公司以及非银行金融机构。2012年,银监会在监管任务部署中再次将影子银行列为四大重点监管领域之一。2014年,一行三会与外管局联合发布了9号文《关于规范金融机构同业业务的通知》,首次将理财产品、信托产品、银行同业业务在内的整个影子银行体系纳入监管。同年,国务院办公厅颁发了被称为“中国影子银行基本法”的107号文《国务院办公厅关于加强影子银行监管若干问题的通知》,将影子银行大大扩围,根据一行三会“谁批设机构谁负责”的原则,由相关部门分工实施归口监管。文中界定了影子银行:第三方理财机构、无监管的信用中介、网络金融公司、存在监管不足的货币市场基金、证券化资产、部分理财产品。这是界定影子银行的首次官方发文,但是文中并没有具体到哪种资金属于影子银行范畴,而是仅仅罗列了影子银行机构类型。107号文彰显了监管层清晰化了监管思路,但对影子银行认识仍然处于模糊状态,无法有效统计银子银行。在107号文之前,中国学术界和金融市场都对中国影子银行有所研究,但对其统计的口径并没有达成一个较为统一的看法。

2中国影子银行的统计方法

107号文后,学术界对影子银行规模的测算方法有了进一步的实践,胡碧等(2014)指出从1990—2012年,M2增长了63倍,但GDP仅仅增长了27倍,M2/GDP由1990年的0.94倍增长到了2012年的1.88倍,而中国CPI最高5%,说明M2虚夸了实体经济真实货币供应,影子银行导致货币供应统计失真。胡碧和曹宝玉(2015)对之前学者对影子银行规模统计口径算法进行了修正:利用M2/GDP以GDP为权重的加权平均值测算出货币需求系数β,然后用名义GDP乘以需求系数算出各年份货币需求量Md,假设本年份的信贷规模为Sc,即影子银行规模公式为:Shadow Banking=Md-Sc,流入到虚拟经济的货币规模为:SX=MS-Md。假设货币供求在E点达到平衡,此时利率为I,货币需求量为X0,从银行获得信贷规模为X1,则影子银行提供的资金为(X0-X1),而市场实际货币供应为X2,则流入虚拟经济的货币为(X2-X0)。以上方法修正了以前统计方法的两个不足:一是从银行获得信贷不能反映实体经济对资金的真实需求,比如银行主要贷款给央企国企,而中小微民营企业却无法从商业银行获得贷款,只能寻求影子银行;二是没有统计流入虚拟经济的货币,比如商业银行放贷后,央企国企由于产能过剩,资金无法流入实体后进入了虚拟经济,类似股市、房地产市场和货币市场。如图1所示。

本文认为胡碧等的影子银行统计方法较为合理有效,故利用其方法来测算中国影子银行规模。首先,需要确认利用哪些年的M2和GDP为基数测算出未来货币需求系数β,即哪几年的M2/GDP算出来的β最有意义。那么,我们就需要理解中国M2发展情况。程国平和刘丁平(2015)研究了中国M2/GDP的比值和世界其他国家的比值,发现中国作为发展中国家,并且作为中等收入国家,M2/GDP在1996年后超过了100%,高达106%。这说明中国金融脱媒程度较低,沉淀在商业银行的资金较多,社会直接融资水平仍然较低,资金无法绕开银行进行交易,无法有效降低M2/GDP。

事实上,中国M2从1996年开始快速增长,与GDP比重有效超过了100%,即意味着再没有出现低于100%的现象。如图2所示,可以明显看出中国M2的同比增速是大于中国GDP增速的。这说明了一些重要的问题:一是CPI增速在1996年后在显著下降,甚至在1998年时跌为负值,而GDP增速和M2增速下降低于CPI,说明1996年后,城乡居民收入没有跑赢GDP增长,居民对未来的教育、医疗、养老、就业有很强的不确定性与不安全感,遏制了国内消费,不断缩减开支增加储蓄,导致M2增速加大,而价格指数CPI由于需求减少而下降,有显著的通缩迹象。二是1996年后货币显著的超发,贫富差距也是一个重要的关注点,大量的超发货币实际上集中在少数人手里,通过股票市场和房地产市场在低通胀水平下资产快速增值,尤其房地产市场,1998年被称为中国房地产元年,房地产改革的大幕在那一年彻底掀开。股市价格上涨吸收了大量的货币供应,而很多资金在这两个市场里空转一圈后赚得盆满钵满,大量超发货币对中国的实际GDP增长甚微,只会显得M2/GDP越来越高。三是M2居高不下说明中国货币流通率较慢,以国有经济为主体的体制下,商业银行惜贷民营企业,国有企业由于没有有效的资源配置,导致产能过剩,杠杆率较高,这又进一步催化了商业银行的不良贷款率,这些信贷长期沉淀在国企账户上,无法有效盘活导致进一步流动性放缓。四是中国的银行存款处在一个长期居高不下的状态,如果经济现在和未来向好,那么无论个人还是企业都会增加开支,扩大生产、扩大消费。所以,1996年后,中国经济给市场的信心实际是较低的。

西方学者普遍认为M2/GDP畸高是金融市场不发达的信号,而高度成熟的金融市场这一比例反而较低,因为后者通常持有与之经济相适应的货币量。理由是最高收入经济体和地区金融市场发达,相对不依赖银行来筹款,而是直接到股票或债券市场筹集资金,M2的功能及其需求就减少。如果以美国为标准的话,100%的比值或许是一个衡量货币超发与否的分水岭。所以,将利用中国M2/GDP超过100%的年份作为统计序列,则以1996年后的月度M2和GDP来测算中国影子银行规模。

3实证研究

为了计算中国影子银行月度规模数据,首先需要收集GDP月度数据、M2月度数据和信贷规模月度数据。人民银行公布的M2和信贷规模都为月度数据,不需要进行处理。而国家统计局公布的GDP为季度数据,且存在显著的季节波动性,所以本文需要对GDP季度数据进行处理。如图3所示,中国GDP季度累计值在每年的一季度最低,在四季度时达到顶峰,这些要素会掩盖经济发展中的客观变化。

通过对图3的GDP季度数据图进行X-12法处理后,季节调整序列为GDP-SA、季节因子为GDP-SF、趋势循环序列为GDP-TC、不规则要素为GDP-IR,如图4所示。

从图4也可以明显地看出:季节因子要素对GDP影响最为显著,如图GDP-SF,季节调整后的GDP季度数据GDP-SA有了经济意义。然而,由于GDP数据为季度数据,所以需要转换低频数据为高频数据,即从季度数据转换到月度数据,为了使曲线光滑更贴近现实,利用三次样条插入法,从而得到了GDP的月度时间序列,如图5所示。

本文利用月度M2/GDP乘以GDP为权重的加权平均值得出货币需求系数β,由于要实证检验的时间序列为月度数据,所以,利用各年的月度名义GDP乘以β得到各个月的货币需求量Md,最后利用Md减去月度信贷规模Sc得到月度影子银行规模,如表1和表2所示。

数据来源:Wind资讯。

从图6可以看出,影子银行规模主要经历了三段显著的趋势,第一段是1996—2003年年底;第二段是2004—2011年年底;第三段是2012—2015年。实际上,从周期上看影子银行规模的发展趋势有很强的政治周期性,三段显著的趋势正好处于三界中央政府的执政期。具体来看,第一段趋势期(1996—2003年)影子银行发展平稳,基本稳定在5万亿~8万亿箱体内上下波动。第二段趋势期(2004—2011年)影子银行出现了高速的发展,2004年年底,规模快速突破了10万亿整数大关,一路上扬至2011年年底的近30万亿元,这段趋势中有过一次较大的波动,就是在次贷危机时期,影子银行规模快速下降后又逐渐反弹上升,原因是2008年年底的四万亿计划导致社会流动性泛滥,短期内冲淡了影子银行的需求。第三段趋势期(2012—2015年)影子银行规模再次出现了第一阶段的平稳发展状态,呈现25万亿~30万亿元箱体内波动状态,尤其是在2015年开始,影子银行规模开始显著的下降。结合本届政府的供给侧改革经济方针,说明了本届中央政府对货币的管理能力有了显著加强,货币发行将逐渐适量化,而不是长期的超发状态。对“僵尸企业、产能过剩产业”将逐渐执行破产、兼并或重组,截断对这些企业的无效输血,破旧立新,使货币在宏观经济领域更有效的配置。

参考文献

[1]程国平,刘丁平.我国金融中介目标M2/GDP国际比较研究[J].河南工业大学学报:社会科学版,2015(3):92-95.

[2]高铁梅.计量经济分析方法与建模:EViews应用及实例[M].2版.北京:清华大学出版社,2009.

[3]胡碧,曹宝玉.影子银行对我国货币供应量统计的影响分析[J].统计与决策,2015(22):143-147.

规模数据篇10

传统方法中,对大规模数据的并行计算处理技术有基于LU分解、QR分解等特征分解的并行计算方法,采用最小二乘分解技术对大规模数据信息流进行特征分解,挖掘大数据信息流的动态信息特征,实现数据并行计算优化,取得了一定的研究成果。但是,随着数据规模的不断扩大,传统方法在并行计算中将会出现时滞和失真,并行计算的收敛性不好。针对上述问题,提出基于奇异值特征分解的大规模数据并行计算方法。进行大规模数据的结构分析,基于奇异值特征分解对大规模数据信息流进行特征分解,实现数据的降维处理,提高并行计算的效率。最后通过仿真实验进行了性能测试,得出有效性结论。

1 大规模数据的分布式结构特征分析和信息流模型构建

为了实现对大规模数据的并行计算处理,首先构建大规模数据的并行计算数据流的传输调度和控制模型,构建HDFS平台进行大规模数据的分片处理,采用Hadoop分布式文件得到大规模数据的核心函数,假设Y为大规模数据的状态特征变量,X1,X2…Xm-1为HDFS输入的数据分片自变量,HDFS在执行数据分片过程中的输入输出线性关系描述为:

其中e为单模式匹配扰动误差项,它表示小于块大小的数据时间片的测量误差。采用Hash列表分解方法得到大规模数据集的n组观测值为:

当满足以下数学模型:

在整个大规模数据集文件中的偏移量误差项e满足高斯-马尔科夫假设,根据上述数学模型构建大规模数据的分布式数据结构传输模型如图1所示。

在图1所示的大规模数据的分布式数据结构传输模型构建的基础上,构建大规模数据的信息流模型,构建Hash、Prefix和Shit表,对大规模数据信息流通过最小二乘分解写成矩阵形式为:

其中Y为n×1的大规模数据并行计算的时间成本,X为n×m的空间特征向量矩阵,β为m×1的测量向量,e为n×1的随机误差向量。通过将大数据信息流的高维矩阵转换为低维矩阵,降低数据并行计算成本,考虑数据在并行计算中融特征亏损的情况,即r<m,则在网格空间中数据的融合子空间∑可表示为:

其中∑1=diag(δi),i=1,2,…,r,通过对簇内数据相似度特征分解,采用奇异值分解,可以把数据特征值U与V分解为:

其中U1与V1均为各个网格计算节点的r列特征矢量,通过上述分析构建了大规模数据信息流模型,为改进并行计算提供准确的数据输入基础。

2 大规模数据并行计算改进设计与实现

在上述进行的大规模数据信息流并行计算的数据分布式结构分析和信息流模型构建的基础上,进行并行计算的算法改进设计,提出基于奇异值特征分解的大规模数据并行计算方法。基于奇异值特征分解对大规模数据信息流进行特征分解,首先构建模糊隶属函数,根据特征空间奇异值的正交矩阵的保范性,得到大规模数据的每个特征值混合融合矩阵为:

为了提高并行计算的效率,进行数据的降维处理,假设数据融合差异性函数C与β无关,采用自相关匹配检测,输出的数据特征匹配适应度值为:

对上述进行最小二乘解求解,估计数据融合误差的上下限为:

在k阶累积量的高维空间中对大规模数据进行奇异值分解,求解大规模数据的奇异值矩阵有Y→U1TY,X→∑1V1T,通过子空间降维降低了矩阵维数,从而减小了大规模数据并行计算的运算规模。输入为观测数据集,对大数据的特征求解过程变成求β的过程,通过最小二乘估计,使得|Y-Xβ|达到最小,其中||||表示欧式范数中的F范数,大规模数据并行计算的输出特征解X(i+1)和Y(i+1)的行数为:

从上文可见,采用本文方法进行数据并行计算的开销降低,维数减少,计算效率提高。

3 仿真实验与结果分析

为了测试本文设计的并行计算方法在实现大规模数据的网格并行计算中的性能,进行仿真实验,实验硬件环境为CPU Intel®Core TM,数据信息源来自于KDD2015网络数据库,数据的特征采样周期为1.45ms,采样频率为15KHz,根据上述仿真环境和参数设定,进行大规模数据信息采样,得到时间序列波形如图2所示。

以上述数据为测试数据,以加速比为测试指标,得到本文并行计算方法进行大规模数据计算的加速比如图3所示。从图3可见,采用该算法进行大规模数据的并行计算的加速比较高,计算时间降低,数据处理能力提高。

4 结语

本文一种基于奇异值特征分解的大规模数据并行计算方法。基于奇异值特征分解对大规模数据信息流进行特征分解,实现数据的降维处理,提高并行计算的效率。仿真结果表明,采用该算法进行大规模数据的并行计算的加速比较高,计算时间降低,数据处理能力提高。

参考文献

[1]陆兴华,陈平华.基于定量递归联合熵特征重构的缓冲区流量预测算法[J].计算机科学,2015,42(4):68-71.

[2]赵梦,李蜀瑜.云计算环境下基于蚁群优化的任务负载均衡调度算法[J].电子设计工程,2016(8):30-33.

【规模数据】推荐阅读：

综合规模10-16

规模养殖10-17

规模影响05-23

规模研究06-01

规模栽培06-05