广西统计

2024-08-09

广西统计（通用7篇）

广西统计篇1

1 引言

经济与人口之间的关系是区域可持续发展研究的重要内容之一, 而人口分布、人口增长与经济发展两方面的关系组成了人口与经济之间的关系。早期的学者主要关注人口数量与宏观经济之间的关系, 对于人口空间分布与经济之间的关系研究甚少。近年来, 探索人口与经济的重点主要从以下三方面发生变化, 第一, 由分析经济发展与人口规模的关联性向分析人口质量、构成影响经济发展转移[1,2,3,4,5];第二, 对经济增长与人口的关系的分析由发达国家向发展中国家转移;第三, 由人口与经济增长的动因研究向分析人口与经济的空间关系转移, 用空间化的形式表达人口与经济之间的关联性成为了区域经济研究的焦点[6,7,8,9,10]。影响人口分布的因素及人口分布对经济的影响的研究构成了人口分布与区域经济关系的重要内容, 如王桂新[11]通过分析中国不同地区的收入水平、收入差距的省际人口迁移情况, 比较全面地研究了中国人口的省际迁移与省际经济之间的关系, 得出了地区的经济发展水平及其差异性对80年代后半期的省际人口迁移方向及分布有决定性作用。韩光辉[12]等利用人口密度指标数据对近三十年来我国的人口的空间结构及变化趋势进行研究, 其认为自然地理条件及经济开发类型直接影响了人口分布的数量规模、疏密程度及聚落性质。韩惠[13]等探讨了中国人口分布格局和其影响因素, 发现经济发展是决定人口分布的关键因素, 主要体现在社会生产力的提高会促进人口的集聚, 反过来人口的集聚又会带动区域经济的发展。范红忠[14]对比了中国、美国、日本等6国的人口分布与生产后, 发现导致我国的地区经济差异较大的原因是人口分布与生产分布不一致即生产集中并未引起人口对应的集聚。

2 研究区域概况

广西壮族自治区位于中国南部, 位于东经104°26'~112°04', 北纬20°54'~26°24'之间, 总面积为23.6万平方公里。广西壮族自治区2000年的国内生产总值 (GDP) 为2050.15亿元, 第一产业总产值为538.70亿元, 第二产业总产值为748亿元, 第三产业为763.45亿元, 总人口为4751万人;2005年GDP为4075.75亿元, 第一产业总产值为912.50亿元, 第二产业总产值为1510.68亿元, 第三产业总产值为1652.57亿元, 总人口为4925万人;2010年GDP为9569.85亿元, 第一产业总产值为1675.06亿元, 第二产业总产值为4511.68亿元, 第三产业总产值为3383.11亿元, 总人口为5159万人。从以上数据大致可以看出2000年至2010年十年期间, 广西壮族自治区的国内生产总值和三大产业及总人口有着明显的增长, 第二产业及第三产业尤为突出。

广西壮族自治区东连广东, 东北接湖南, 背靠贵州, 西临云南, 南临北部湾, 西南与越南接壤, 是中国西部唯一具有沿海、沿江、沿边区位优势的省区。2004年东盟博览会、2008年广西北部湾经济开发区的成立都极大地促进了广西的经济发展, 这两者对于中国经济的增长及均衡性的调整乃至世界经济的增长都有着重要的作用。但是广西地形复杂多样, 资源分布不均等因素造成了各县市的经济发展和人口分布出现不均衡。为此研究广西各县市的经济与人口分布之间的关联性利于了解社会经济发展情况, 推断社会经济发展趋势及为各地政策部门提供可靠、科学的决策依据。本文把广西壮族自治区14个地级市、7个县级市、56个县、12个民族自治县作为研究对象, 以广西2001年、2006年、2011年统计年鉴作为数据源, 选取国内生产总值 (GDP) 、三大产业总产值、年末总人口信息来探讨人口分布 (人口密度=年末总人口/行政单位面积) 与经济发展 (人均GDP=GDP/年末总人口、三大产业) 之间的关联。建立人口分布与三大产业相关性分析及线性回归方程初步了解两者的关联性, 将人口密度、人均GDP划分等级进一步探讨经济与人口之间的关联, 基于局部Moran’s I确立空间过程中的不稳定性即研究对象观测值的高值或低值的局部空间集聚, 反映对象内部之间的差异性。

3 人口分布与区域经济关联性分析

3.1 人口密度与人均GDP

近年来GIS技术发展迅猛, 越来越多的应用领域涉及到GIS技术, 尤其是分析各种地理现象及过程都需要GIS技术作为支撑。由于人口和经济数据都有各自的空间特性或与空间地理位置有关, 所以许多学者将空间分析方法与区域经济研究结合起来, 基于空间维的角度来揭示各种经济现象和社会现象。GIS技术基于空间角度来表示及分析各种数据, 使得区域之间存在的各种关系一目了然, 提供了新的区域经济研究方法即将空间维度融入到传统的经济分析与决策当中。传统统计分析方法与GIS技术相结合既能很好地实现定量研究又能充分利用GIS的数据可视化、分析、管理功能。研究人口分布与区域经济之间的关联性时, 只有将人口数据和经济数据与空间特征结合起来, 才能更好地揭示和掌握两者之间的空间分布特征、空间规律及人口与经济、环境、资源的关系, 才能实现两者的实际意义和统计价值。经济要素的分布能充分地体现地区在区域经济发展中的地位, 但经济要素的分布与人口分布又存在着不可或缺的关联性, 为此以广西89个县市行政区域单元作为底图, 以人均GDP和人口密度作为数据源与行政图关联起来, 实现人口数据和经济数据的空间分布、配置、组合情况的直观化, 以此为基础揭示人口与经济总体特征, 结果如图1、图2。

图1结果表明, 2000年人均GDP处于第一等级的有南宁市区、柳州市区、桂林市区、梧州辖区、东兴市、北海市, 处于第二级别有南丹县、金城江区、右江区、凭祥市、防城港市区占总县市数的12.4%。2005年处于第二等级以上的有11个县市, 也占总县市数的12.4%, 这表明这五年期间, 广西人均GDP没有大的增加幅度, 人们生活水平应该变化不大。直至2010年处于第一等级有钦州辖区、东兴市、玉州区等6个区域, 第二等级增至11个区域占总县市数的20%, 比2000年、2005年有了较大的提升, 这与东盟博览会及北部湾经济开发区的建立有着密不可分的关系。但总体上而言, 广西整体的水平仍比不上其他沿海省市, 这与广西的各种资源条件及交通等因素有关。图2表明, 2000年至2010年人口密度较大的区域都集中在桂中南地区, 这与广西的地形地貌等自然条件相关, 因为桂中南地区地势相对平坦, 交通较便利, 且东盟博览会及北部湾经济开发区的活动范围也集中在这些区域, 为此人口密度也会相对较大。将人均GDP与人口密度等级分割图对比, 可以看出两者之间的关联性即人均GDP高的区域, 人口密度也相对较大, 这再次证明了人口分布与区域经济之间的关联性即经济的发展会引起人口的集聚, 人口的集聚反过来会带来产业的发展。

3.2 探索性空间统计的人口分布与产业分析

传统的统计分析方法并没有赋予人口和经济数据空间特征, 对于两者之间的空间关系难以直接表达。为此基于空间统计分析方法可以使得人口与区域经济两者的关系通过图形直接表达出来。传统的统计分析方法是假设样本即对象之间是相互独立的, 不存在任何空间联系, 但是从地理角度出发来看, 许多数据往往与空间位置关联, 空间统计分析是揭示空间数据的关联性、依赖性的最佳研究方法。空间统计分析方法并不是完全抛弃传统的统计分析技术, 而是在传统方法的基础上进行修改, 进而符合空间统计分析的需要。与传统的统计分析方法相比, 空间统计分析方法特色在于在研究空间对象的联系之前, 首先要为对象定义相互之间的空间邻接关系即建立空间权重矩阵, 空间权重矩阵是空间统计分析的前提和基础。

空间权重矩阵的建立有许多方法, 常用的有简单的二进制邻接矩阵和基于距离的二进制空间权重矩阵[15]。本研究基于Geo DA平台采用简单的二进制建立空间对象的权重矩阵, 具体如公式1。

全局的空间自相关性会忽略了空间过程中存在的不稳定性即无法找出空间关联中的热点与盲点, 为了找出广西区域经济与人口分布关联显著的区域, 基于Geo DA软件采用局部自相关指标 (LISA) 来探讨对象属性与其周边对象属性的相似 (集聚) 或差异 (离散) 程度, 结果为图3、图4、图5。

红色区域为High-High, 蓝色区域为Low-Low, 浅紫色部分为Low-High。从上图可以看出, 在显著性水平a=0.05的条件下, 桂南、桂西北地区的第一、二、三产业与人口分布 (人口密度) 的关联性呈显著性。第一产业与人口分布的低增量区域 (Low-Low) 集中在桂西北地区, 这说明桂西北地区的第一产业值与人口分布的关联性局部低于平均水平, 与周围地区的空间差异性小, 呈现集聚现象, 广西西北部大部分为喀斯特地貌, 可种植的土地面积较少, 为此第一产业的产值会较低, 对于人口的吸引力也会较小;较高区域集中在桂南区域, 这与桂南地区地势平坦, 可利用的资源相对较多有关。第二产业与人口分布的关联性显著的区域并不多, 柳州市区的第二产业与人口分布的关联性高于周围区域, 与周边区域存在异质性, 2000年至2010年间, 横县、钦州辖区、南宁市区呈现高高增量趋势, 表明其自身及周围区域的第二产业与人口分布的关联性高于平均水平, 有着较强的空间自相关性即集聚热点区域。第三产业与人口分布的关联性自2000年至2010年波动性不大, 但是低低增量的区域增多, 可能是由于局部地区的第三产业发展较快, 造成整个区域的平均水平上升, 但是桂西北地区的第三产业产值及人口密度都相对较小, 为此出现低值区域增多。

4 结论

(1) 从三个年份的人均GDP等级图可以发现, 处于第二等级以上的区域不断增加, 表明广西壮族自治区的经济是不断发展, 人们生活水平也不断提高;人口分布受到诸多因素的影响, 广西人口密度大的区域集中在桂南地区和柳州、桂林市辖区, 这与地形地貌、经济活动及社会条件密切关联。

(2) 对比各年份的人口密度分布图与人均GDP的等级分割图可以看出, 人均GDP高的区域, 人口密度也大。这说明人口分布与经济活动有着密切的联系, 主要体现在人力资源是经济活动中最活跃的要素之一, 人口的集聚会创造出更多的经济效益, 而经济的不断发展会促进人口的集聚。

(3) 从广西壮族自治区的三大产业与人口分布聚类增量图可以看出, 第一产业较显著的区域集中在桂西北和桂南地区, 这与两个大区域的自然条件和经济活动有一定的关联性。第二、三产业的显著性较好的区域并不多, 这可能与广西的第二、三产业主要集中在少数的几个地区相关联。

摘要：研究主要以广西2001、2006、2011年统计年鉴的GDP、人口数据、三大产业值作为数据源。为了确定其两者之间的关联, 将人均GDP和人口密度数据进行等级划分及进行基于地统计的局部关联分析。结果表明人均GDP较大的区域, 人口密度也较高, 说明人口分布与区域经济相互有正效应作用即人口的集聚会带来更多的经济效应, 产业的发展反过来也会引起人口的集聚。基于地统计的局部相关的增量聚类图表明, 第一产业与人口分布的较显著的区域集中在桂南和桂西北地区, 而第二、三产业的较显著的区域只有少数几个, 这与广西的地形地貌等诸多因素有关。

关键词：人口分布,GDP,三大产业,关联性

广西统计篇2

（用作业本做，当堂完成，可以不抄题，写清题号）

一．填空题：(每小题4分,共40分)

1.设X~N(2,4),YX3, 则EY,DY.2.某电子管的寿命服从指数分布，它的平均寿命为1200小时,则 P（1200<ξ<1800）=_____________.3.进行20次独立重复试验，事件A在每次实验中出现的概率是0.7，则A出现次数的平均值是_________.4．某种机器的重量服从正态分布，它的平均重量为2000公斤,则 P（ξ=2500）=_____________.25.若,相互独立且都服从N(3,2)，则D(ξ+η)=

6．设服从正态分布N(2,22)，则P(04)0-0。

7.对随机变量ξ，Eξ=2,Dξ=9,由切比谢夫不式，有P(26)______.8B(n,p),由拉普拉斯积分极限定理,有P(ab)0(___)-0(____).8．X1,X2,,Xn为来自ξ的样本，X为样本均值，ξ服从[0，1]上的均匀分布，则E（X）=_________.9.设总体ξ服从正态分布N(,2)，X1,X2,,Xn为来自ξ的样本，X为样本均值，则 E(X)______.10.设总体ξ服从参数为的泊松分布，X1,X2,,Xn为来自ξ的样本，X为样本均值，则 D(X)______.二.计算题:(60分)

1.某厂生产的滚球直径D~N(2.05,0.01).合格品的规格规定直径为20.2.求该厂滚球的合格率.2．某专业学生英语考试的平均成绩为70分，标准差为7分，用切贝谢夫不等式估计该专业的学生英语考试成绩大于60分且小于80分的概率.3.一批产品的废品率为0.03，现从中任取1000件，用切贝谢夫不等式估计：废品数多于20件且少于40件的概率。

4．灯泡的合格品率为0.8，利用拉普拉斯积分极限定理计算10000个灯泡中合格灯泡数在7900—8100的概率。

5．产品的优等品率为0.9，利用拉普拉斯积分极限独立计算10000个产品中优等品数在不少于9060个的概率。

广西统计篇3

一、总体概况

2010年第四季度通过广西人才网联系统招聘的单位共4006家，招聘职位数71300个，登记求职人才248866人，人才供求比为3.49（即人才需求或职位数为1时，人才供给或求职人才数为3.49，下同）。

二、人才供给情况

2010年第四季度，广西人才网联系统共登记求职人才248866人，较第三季度下降5.22%。其中求职人才数量处于前十名的职位类型见下图：

如图所示，上述十个职位类型的求职人才数量总计149356人，占总求职人数的60.01%，其中求职人才数量超过2万人的职位类型有销售类、行政/文职/后勤类和建筑/工程类。

求职人才学历分布如下：

三、人才需求情况

2010年第四季度，通过广西人才网联系统招聘的单位共4006家，较第三季度下降了41.27%，其单位性质分布见下表：

2010年第四季度，广西人才网联系统中人才需求量即招聘职位数为71300个，较第三季度下降20.15%。招聘职位数处于前十位的职位类型见下图：

如图所示，上述十个职位类型的招聘职位数总计43914个，占总招聘职位数的53.74%，其中销售类的招聘职位数为16775个，占比达23.53%。

四、人才供求特点

2010年第四季度，广西人才网联系统人才需求量季节性大幅下降，总体供大于求趋势明显，人才供求比由第三季度的2.94上升至3.49。

（一）各职位类型的人才供给总体小幅下降，少数波幅较大

各职位类型的人才供给量与第三季度相比，小幅下降5.22%，但总体而言，多数职位类型的人才供给量仍很充足，仅有3个职位类型的人才供求比小于1。

1、机械制造类和财务/税务/审计/统计类人才供给大幅下降

第四季度，进入求职淡季，人才求职意愿不是太强烈，导致半数职位类型求职人才数出现下滑，部分职位类型的求职人才数下滑较大，例如机械制造类和财务/税务/审计/统计类的求职人才数较第三季度分别减少4453人和3858人，降幅分别达到47.90%和16.31%。

2、法律/法务类、计算机软件类和证券/金融/投资类等职位人才供给大增

2010年第四季度，也有少数职位类型的求职人才数保持较大幅度的增长，其中法律/法务类、计算机软件类和证券/金融/投资类等职位类型的求职人才数较第三季度分别增加512人、666人和568人，涨幅分别达到30.48%、24.87%和20.44%。

（二）受季节性变化影响，第四季度招聘单位数量下降较大，人才需求较弱

年底是用人单位招聘淡季，在广西人才网联系统中进行招聘的用人单位数量大幅下降，较第三季度下降了41.27%，对应的招聘职位数也较第三季度下降20.15%，这是导致第四季度供求矛盾加剧的主要原因。

1、多数职位类型的人才需求大幅下降

2010年第四季度，仅有6个职位类型的招聘职位数出现小幅增长，其余职位类型的招聘职位数均出现较大幅度下降，其中销售类、机械制造类、建筑/工程类、百货/连锁/超市/零售类和市场/策划/推广类等职位类型的招聘职位数较第三季度分别减少3472个、1837个、1766个、1705个和1097个，降幅分别达到17.15%、65.98%、24.64%、28.28%和38.75%。

2、人才需求骤降导致部分职位类型的竞争更加激烈

由于人才需求下降幅度大，部分职位类型的人才供求比变化剧烈，例如市场/策划/推广类的招聘职位数下降了1097个，降幅达38.78%，对应求职人才数增加88人，人才供求比从2.93上升为4.84，近5人竞争一个职位；人力资源/人事类的招聘职位数下降了390个，降幅达30.42%，对应求职人才数仅减少42人，人才供求比从7.54上升為10.78，超过10人竞争一个职位。

（三）高校毕业生求职人数回升

2010年第四季度招聘进入淡季，用人单位在网上招聘高校毕业生的意愿不是很强烈，提供适合高校毕业生的职位也有所减少，同时用人单位进入校园进行招聘也使得广西人才网联系统中适合高校毕业生的招聘职位数下降较大，仅有14092个，较第三季度下降22.44%；但是2011年的高校毕业生逐渐开始关注就业，第四季度有85866人上网求职，较第三季度上升了15.04%，高校毕业生供求比达到6.09。2010年各季度高校毕业生求职人数见下图：

同时适合高校毕业生的各类职位人才供求比差异较大，如行政/文职/后勤类为17.59，文教/科研类为15.75，财务/税务/审计/统计类为22.08，而百货/连锁/超市/零售类为0.48，房地产/中介类为0.89。第四季度广西人才网联系统高校毕业生的人才供求对比情况见下表：

广西统计篇4

一、t/u检验的常见错误

(一) t检验计算结果错误或判断不确切

这类的情况在广西的医学类期刊出现相对多些。计算结果错误多数是编辑未认真复核引起的, t检验的判断一般先通过公式计算出t值, 然后根据t值判断P值大小, 通常可分为P<0.05 (有统计学意义) 或P<0.01 (有极显著统计学意义) 。如果应该判断为P<0.01而判断为P<0.05则为判断不确切。如表1即为t值计算结果错误, 表2为t值判断不确切。

表1两组的样本均为40例, 作者目的是比较两组治疗后各种微量元素测量结果是否有差异, 原结果P值判断是正确的, 但t值计算错误, 括号外为原来的结果, 而括号内为正确的结果。出现这样的错误应该是编辑在审核修改过程中未对统计结果进行复核, 或缺乏统计学知识, 从而随作者原来的结果所致。而表2中各t值均比较大, 经查t界值表, P均<0.001, 差异是有极显著性统计学意义的, 而非P<0.05, 因此, 作者在判断上是不够准确的。

(二) 以两两t检验替代方差分析及q检验

这类错误在广西医学类期刊中相对少见。t检验每次只能比较二个平均数, 仅适用于单因素一、二水平的实验设计类型。而对于单因素多水平或多因素多水平等的设计, 则不宜使用t检验, 因为这样会破坏原来的整体设计, 使结果出现假阳性的概率大大增加, 其结果的可信度明显下降。因此, 对于多个样本均数的比较, 应根据资料是否符合正态分布、总体方差是否齐来选择统计学方法, 如资料服从正态分布, 且各组资料的总体方差齐, 则选择方差分析。我们看下面的例子 (表3) 。

本例采用方差分析结果为:F=2.60, P=0.0785>0.05, 即各组间麻醉持续时间差异无统计学意义, 没有必要再进一步两两q检验。而本如果采用两两比较t检验, 其结果为ⅠvsⅡ:t=1.2271, P=0.2235;ⅠvsⅢ:t=2.5024, P=0.0144;ⅡvsⅢ:t=0.9487, P=0.3457。从结果看, Ⅰ组与Ⅲ组比较是有统计学意义的, 这与采用方差分析的结果完全相反。

(三) 误以成组t检验替代配对t检验

配对设计主要有几种情况: (1) 同一受试对象处理前后的数据; (2) 同一受试对象两个部位的数据; (3) 同一批样本用两种方法检验; (4) 配对的两个受试对象分别接受两种处理所得到的数据。配对设计能缩小实验对象间的个体差异, 减少实验误差, 提高效率。如将成组t检验替代配对t检验, 则无形中扩大了样本数量, 增大标准差和标准误, 从而使P值也增大, 这样就有可能得出假阴性结果 (从有统计学意义变为无统计学意义) 。举例 (表4) :

本例是比较治疗前后AST的变化, 采用自身对照研究, 错误采用两样本成组设计的t检验, 把同一样本视为两个样本, 扩大的观察样本, 使得检验效能降低。本例正确的处理方法是通过原始数据, 计算出治疗前后AST的差值平均值和差值标准差, 采用配对t检验进行处理, 具体方法可查阅相关统计学书籍。

(四) 误用配对t检验替代重复测量方差分析

重复测量数据是临床试验中常用的数据, 是指同一观察对象的同一指标在多个不同时间点 (3个或3个以上) 进行多次测量所获得的资料, 主要用来观察受试对象的观察指标在不同时间点的动态变化情况, 如观察麻醉过程中的血压、心率等的变化, 都属重复测量数据。该类数据常采用重复测量方差进行分析。表5即为典型的多样本重复测量的均数比较, 如要比较A组 (或B组) 不同时间测量值是否有统计学差异, 首选单因素重复测量资料的方差分析, 推断不同时间测得的总体均数是否相等, 若不同时间测得的总体均数不相等或不全相等, 则进一步进行不同时间两两比较。

二、χ2检验常见错误

(一) 误将四格表χ2检验替代校正χ2检验或确切概率法

目前, 关于四格表资料各种检验方法的应用条件虽仍有不同意见, 但一般可根据以下三种条件选择: (1) 总例数<40或最小的理论频数<1, 应选择“确切概率法”; (2) 总例数≥40且最小的理论频数≥1, 但最小的理论频数<5, 应选择“校正法”; (3) 总例数≥40且最小的理论频数≥5, 应选择“非校正法”。目前, 在部分期刊中, 误将四格表χ2检验替代校正χ2检验或确切概率法的现象仍不少, 但只要掌握好四格表资料的检验方法的应用条件, 该类错误是比较容易避免的。由于相关的报道比较多, 在此不再举例。

(二) 误将四格表χ2检验替代配对四格表χ2检验

举例 (表6) , 应用高频彩色多普勒超声血流能量图 (PDI) 与弹性成像两种方法鉴别92个乳腺肿块良恶性, 比较两种方法的鉴别情况。作者采用一般的四格表χ2检验, 所得结果为χ2=11.52, P<0.01。而此例为比较典型的配对资料, 应采用配对四格表χ2检验, 结果为卡方值 (校正) =0.1379, P=0.7103。

(三) 误用χ2检验代替秩和检验

对于单向有序分类资料 (等级资料) , 一般宜采用成组设计两样本比较的秩和检验 (Wilcoxon两样本比较法) 或用Ridit分析, 但运用Ridit分析时要求样本含量足够大, 因此, 大多情况选择秩和检验。举例 (表7) , 观察两组治疗后的临床效果。本例为典型的等级资料, 经Wilcoxon两样本比较秩和检验, u=-1.1099, P=0.2670。而不宜采用2×C表资料的χ2检验, 因为2×C表资料的χ2检验不考虑等级的差别, 只能说明各组的“构成比”是否相同, 而不宜判断各组在程度上的差异。所以, 对于单向有序分类资料, 最好用秩和检验或Ridit分析进行假设检验。此外, 既往对应本例, 也有界定“治愈+显效+好转=总有效”之后, 进行四格表卡方检验的做法, 检验结果为:χ2=2.2487, P=0.1337, 看似统计判断结果与Wilcoxon两样本比较秩和检验一致, 但实际上两者统计内涵不同, 四格表卡方检验是推断两组总体率有无差别, 而Wilcoxon两样本比较秩和检验是推断两组总体分布是否相同, 显然, 秩和检验或Ridit分析更能准确地反映表7的实际情况, 是更合适的统计学方法。

总之, 以上所列举的部分医学统计学常见的错误类型, 应该说大部分还是可以避免的, 这就需要广大科研工作者及编者要加强自身统计学知识的积累, 掌握最基本的统计学分析方法及经典统计学方法的应用。这样通过对论文的二重把关, 统计学错误的概率就会小很多。但对于编辑也无法把握的统计学内容, 还是要聘请统计学专家审稿, 这样才能进一步保证论文的科学性及结论的可靠性。

参考文献

[1]潘明志, 梁明佩, 唐毓金, 等.广西14种医学类科技期刊统计学应用调查研究[J].右江医学, 2014 (4)

[2]邱春晖, 郭明兴, 邱源.医学论文中统计学方法的误用及其防范措施[J].山东教育学院学报, 2009 (5)

广西统计篇5

1 广西高新区统计情况

广西高新技术产业开发区建设始于20世纪80年代后期,1988年,桂林、南宁高新技术产业开发区相继成立,并分别于1991年和1992年被批准成为国家级高新区。1992年和2001年又分别成立柳州、北海高新技术产业开发区(园区),2010年柳州高新区升级为国家级高新区。2012年又分别成立梧州、钦州高新区。目前,广西共有6个高新区。近年来,高新区加快建设步伐,在经济建设、特色主导产业发展、创新能力提升、招商引资和园区环境建设等方面取得了显著的成效。

1.1 广西高新区统计范围

广西从2001年起开展高新区统计工作,2013年以前主要对桂林、南宁、柳州、北海4个高新区进行统计监测。2013年1月起,将梧州、钦州高新区纳入统计范畴。而各高新区也根据自身的实际,若统计范围有增减的,行文报备。经过十几年的工作实践,广西科技主管部门在广泛征求各高新区意见的基础上,结合广西高新区经济科技发展的特点,对高新区的统计报表进行不断的改进。到目前为止,已经形成了一套相对稳定的统计体系。

1.2 广西高新区统计报表的组成

2012年,广西参考国家科技部下发的相关高新区统计评价指标体系,确定广西高新区统计评价指标的内容,包括科技、经济指标2个部分,由19个一级指标,33个二级指标。

广西高新区的统计监测报表由月报、季报和年报组成。修订后的统计报表增加了专利和科技研发机构等数据统计工作。删除因政策环境变化而失去统计意义的部分指标,如“高新技术产品”“新建区”“在孵项目数”等指标;增加“规模以上企业”的“工业总产值”“增加值”“总收入”“出口创汇”“净利润”“交税总额”等经济指标;而“工业增加值占所在市比重”这一指标仅在季度报表中体现;鉴于一些工作指标具有突发性或年度性,月度可比意义不大的,取消其月度统计,于12月份进行全年情况统计,如人才引进、认定高企、科技企业孵化器等指标。

1.3 广西高新区统计报表的报送形式

统计报表由各高新区管委会指定固定的机构和人员负责填报。具体负责人于每月20日前通过网上高新区统计系统进行填报,同时报送纸质报表,纸质报表需经高新区管委会主要领导核准签发并加盖公章后提交。上级统计人员对各高新区提交的报表进行审核,对报表没有异议的,审核通过。若对报表填报的数据和数据波动解释说明有异议的,退回各高新区由具体工作人员进行修改。全部审核通过后,上级统计人员对报表进行汇总,撰写分析报告,最终形成月报后提交相关部门领导核发。

2 广西高新区统计工作存在的主要问题

目前,广西在高新区统计工作上取得了较好的成绩,在统计体系和工作机制上有较好的建设。经调查研究发现,当前依然存在着诸如领导重视不够、队伍建设不力等问题。

2.1 高新区领导不够重视统计工作

目前,广西6个高新区发展的速度和进度不均衡,如南宁、柳州高新区的发展较快,人员和企业较多,规模较大,但梧州、钦州高新区仍处于起步和成长阶段。由于各高新区处在不同的发展阶段,所以要让各高新区使用同一套规范的统计报表还存在诸多困难。起步阶段,高新区领导的主要精力放在如何招商引资和吸引更多企业入园上,对高新区的发展考虑较多,但对统计工作未摆到足够重视的位置。因此,如何确定合适的统计对象,确保统计质量,不漏掉重要监测对象,是一个需要认真对待的问题,需要领导的高度重视。

2.2 高新区统计人员队伍建设不力

统计工作人员是统计数据搜集过程中的重要环节,统计工作人员的工作态度直接决定统计数据质量的好坏。目前,部分高新区对统计工作还不够重视,一些高新区的统计力量相对薄弱,统计队伍不稳定。大部分高新区安排的具体工作人员为非统计专业学科的人员,人员不固定且新手多,对统计方面的基础知识等把握不够,而且由于时间和经费的限制,对高新区统计人员的系统培训十分有限。加上个别高新区的统计人员更换频繁,经常出现刚刚上手又换人的情况,统计人员的频繁更换无法保证统计工作的衔接,而且缺少考核激励、奖惩措施,统计人员工作积极性普遍不高,进而严重影响了高新区统计数据的准确性、时效性及全面性。

2.3 高新区网络统计系统不完善

自从广西高新区统计工作采用网络统计系统以后,给统计工作带来了便利,虽然系统也一再升级改进,但也存在一些缺陷。例如,6个高新区汇总的数据不能自动生成同比,不能实现自动纠错和增降幅异常数据的提醒,系统自动分析更是无从谈起。加上网络统计系统不稳定,关键时候常常掉链子,各高新区统计人员对此意见比较大。在新媒体社会时代背景下,如果不能完善网络统计系统,将直接影响到统计工作的及时性和准确性。

2.4 高新区统计数据收集渠道不畅通

高新区的统计工作主要面向企业。近年来,随着企业投资主体、经济组织的多元化,私营经济总体规模迅速扩大。而这些企业往往缺乏专业统计人员,企业统计报表由财务人员兼报,但企业的财务人员往往身兼数职,工作量大,对高新区的统计指标理解不清,应付上报的情况很常见。一些高新区的统计人员反映,由于新接手,资历较浅,高新区统计部门与企业间缺少有效的沟通,协调难度较大,常常为了一些数据跑断腿、磨破嘴,导致数据质量难以保证。

3 提高广西高新区统计效果的对策建议

3.1 加强对高新区统计工作的领导

高新区的统计工作事关整个高新区经济科技发展的全局,必须引起各高新区管理部门领导的重视。因此,要加强对高新区统计工作的领导,让领导全面细致地了解统计工作,明确各个高新区统计部门的职责,配备一定数量的统计人员从事高新区统计工作,稳定统计人员队伍,明确高新区统计机构和人员的地位。同时,要加强与相关部门的联系与协调,让统计人员可以顺利无阻地得到准确数据,保障高新区统计数据的准确性。

3.2 完善高新区统计网络系统的建设

现行的高新区网络统计系统还存在一些缺陷,因此要想提高高新区统计数据的时效性,客观上需要加大投入力度,完善网络统计系统,实现报表的自动汇总、自动纠错和增降幅异常数据的提醒功能,减轻高新区统计工作人员的工作量,减少操作出错。同时,也可以通过网络系统实现对统计资料的自动分析,制成一定时间段内高新区发展情况的动态走势,综合分析高新区统计情况,给决策者提供参考依据。

3.3 加大高新区统计人员的培训力度

高新区统计工作不同于其他部门的工作,它要求统计人员不仅要具备业务能力,而且要了解所在高新区的经济总量、产业规模、重大项目引进情况等。高素质的统计人员不仅是各项统计改革发展的动力,更是开创统计工作新局面的关键。因此,建立和完善高新区统计人员的培训机制,做好统计队伍的建设,关键要加强对统计人员的培训。每年至少召集具体的统计人员召开2次会议,加强各高新区统计人员间的信息沟通和经验交流,不断提高统计人员的业务水平,充分发挥统计人员的作用,把高新区的统计工作做好。

3.4 建立高新区统计工作的激励机制

激励是人力资源管理中最重要的组成部分,只有激励好了,人才能留住,工作才能做得更好。高新区统计工作涉及很多部门,但是由于缺乏专项资金的支持,广西的高新区统计工作远未发挥应有的作用。一是建议设立广西高新区统计专项资金,专门支持各高新区的统计工作,各高新区也可以根据实际情况,设立高新区统计专项资金,确保高新区统计工作顺利推进。二是建立和完善高新区统计奖励办法,对高新区统计工作做得好的单位和个人给予表彰奖励,激励各方积极性。

总之,高新区的统计数据是实现高新区管理和科学决策的依据,只有及时、准确、科学的统计数据才能真实反映高新区经济科技运行的情况。因此,只有不断地提高统计质量、加强统计人员队伍的培养、完善高新区统计系统的建设、建立健全激励机制及充分发挥统计工作在高新区发展中的作用,才能使高新区的统计工作起到服务高新区的作用。

参考文献

[1]阎文圣.高新技术产业开发区统计监测工作的研究[J].统计研究,2003(2):62-63.

广西统计篇6

1 研究对象与方法

1.1 数据来源

以清华同方中文系列数据库 (简称CNKI) 的中国期刊全文数据库为检索依据。该库是目前世界上最大的连续动态更新的中国期刊全文数据库, 收录国内9 100多种重要期刊, 以学术、技术、政策指导、高等科普及教育类为主, 同时收录部分基础教育、大众科普、大众文化和文艺作品类刊物, 内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域, 全文文献3 252多万篇。本文中核心期刊以《中文核心期刊要目总览》 (2008年版) 为准。该核心期刊目录是当前职称评审中公认的论文评判指标。

1.2 研究对象

目前, 广西有高等医学院校5所, 即广西医科大学、广西中医学院 (现已更名为广西中医药大学) 、桂林医学院、右江民族医学院、广西中医学院赛恩斯新医药学院 (现已更名为广西中医药大学赛恩斯新医药学院) 。前4所高校为普通本科院校, 广西中医学院赛恩斯新医药学院为独立学院。为统一入选标准, 本研究选取广西医科大学、广西中医学院、桂林医学院、右江民族医学院4所高校作为研究对象。

1.3 统计方法

分别以“广西医科大学”“广西中医学院”“桂林医学院”“右江民族医学院”及出版年份“2008”“2009”“2010”为关键词在中国期刊全文数据库中检索论文。然后逐一人工排除非教学类论文。为便于统计, 对第一作者非该校 (包括附属医院) 的论文以及发表在增刊上的论文予以剔除。对检获论文数、刊登的期刊、作者人数等多项指标进行逐条核对、统计, 最后汇总分析。

2 统计分析

2.1 发表论文数量情况 (见表1)

由表1可知, 4所高等医学院校3年发文数量均在300篇以上, 发文最多的是桂林医学院, 有391篇。按照年度数量分布来看, 广西中医学院和桂林医学院逐年递增, 桂林医学院2010年发表150篇论文, 居于各校各年度首位。

2.2 发表在核心期刊上的论文数量

能否发表于核心期刊是评价论文质量和水平的重要依据。我们将统计的文章与《中文核心期刊要目总览》 (2008年版) 进行了逐一核对, 结果见表2。核文率=发表在核心期刊上的论文数÷发表论文总数×100%。由表2可知, 广西医科大学和桂林医学院的核文率呈逐年递增趋势。3年总核文率最高的为广西医科大学, 达13.50%。

2.3 期刊分布情况 (见表3、4)

由表3可知, 广西医科大学和桂林医学院发文期刊较分散, 广西医科大学发表在核心期刊的种数最多。由表4可知, 广西中医学院、右江民族医学院和桂林医学院发文主要集中在本校的学报上, 广西中医学院发表在本校学报上的论文比例达50.15%。

2.4 作者分布情况 (见表5、6)

对论文作者的分析是研究和评价高校论文作者群的重要途径。为便于统计, 本研究只统计论文第一作者。由表5可知, 4所高等医学院校作者群较为分散, 广西中医学院和桂林医学院论文作者数量呈逐年递增趋势。3年来累计发表3篇及以上教育教学论文的作者可以视为各校的核心作者。从我们的统计来看, 各校均形成了稳定的核心作者群。4所高等医学院校第一作者发表论文最多的是右江民族医学院的许世华老师, 达到了14篇。

3 讨论

教育教学论文数量是衡量教育教学研究与改革成果的重要指标之一。从2008—2010年4所高等医学院校发表教育教学论文统计结果来看, 学校对教育教学研究与改革成果的总结或提炼均较重视, 广大教师和管理人员较重视开展教育教学研究活动。在各校发表教育教学论文的作者中, 既有学校领导、知名度较高的教授专家、行政管理人员, 也有中青年教学骨干和参加工作不久的年轻教师, 作者分布广泛。但从研究内容来看, 大多数为描述性研究, 实验性、测量性研究较少。各校教育教学论文发表主要集中在本校学报或《高教论坛》《广西医学》等地方刊物上, 有就近投稿趋向。各校发表在核心期刊的论文数较少, 一方面是由于目前医学教育没有核心期刊, 同时也与广西核心期刊数量较少有关。广西高等医学院校教育教学论文发表的刊物级别和教育教学研究水平还有待进一步提升。此外, 有些作者发表论文的数量在某一特定时间内 (如职称评定前) 较集中, 发表论文的目的性较为明显。

4 结语

教育教学研究工作是一项有难度的工作, 不可能一蹴而就。因此, 高等医学院校应建立有效的激励机制, 加强对教师和管理人员教育教学研究意识的培养, 争取多出成果, 出好成果。在广泛宣传、全面动员的同时, 抓典型、树榜样, 以典型引路。对于优秀的教育教学研究项目、成果或总结报告、论文, 学校应给予作者一定的精神和物质奖励, 并在各项评优中予以优先考虑。同时, 结合医学教育的特殊性, 开辟新的研究领域, 遵循由现象到本质的研究方式, 使经验论操作转变为系统、普适的机理研究[1]。只有这样, 才能激励广大教师和教学管理人员积极投身于教育教学研究与改革工作, 不断提高教学质量, 促进高等教育健康发展。

参考文献

广西统计篇7

同时, 为了保障后续地理国情普查数据统计分析、应用以及地理国情监测等任务的顺利开展, 故亟待在国情普查数据库上建立地理国情数据库管理与分析系统, 以实现对广西第一次全国地理国情普查数据的集成管理、地理国情的统计分析、数据库的更新维护, 以及成果的应用服务。

1 地理国情分析子系统概述

1.1 地理国情数据类型

1) 地理国情普查成果数据分为地形地貌数据、遥感影像数据、遥感影像解译样本数据、地表覆盖数据、地理国情要素数据、元数据、相关文档数据等;

2) 专题数据是为更好地支持地理国情统计分析, 从相关权威部门收集整理的社会经济统计数据以及可用于对比分析的相关行业普查 (调查) 成果数据;

3) 地理国情统计分析成果数据是在普查成果数据和专题数据基础上统计分析形成的成果。

1.2 地理国情数据特点

1) 数据种类多、总量大;

2) 数据汇交、处理、统计分析的时延低、规模大、手段复杂;

3) 数据成果发布的实效性、灵活度要求高;

4) 数据安全保密等级要求高。

1.3 地理国情统计分析的目标

开展地理国情统计分析是对地理国情普查数据建库的核心需求。地理国情统计分析是根据多种统计单元, 对地理国情信息数据进行统计、分析、模拟与预测、挖掘等处理, 综合反映各种信息的空间分布特征、地域差异、空间结构、空间关系、变化量、变化频率及变化趋势, 客观准确地揭示其空间分布规律和发展演化趋势, 形成客观、标准、丰富的地理国情信息统计分析成果。

1.4 地理国情统计分析的基本形式

统计分析包括两个方面:

一是以地理国情普查成果为基础, 对地形地貌、地表覆盖、地理界线等自然和人文地理要素的数量、长度、面积、范围、构成比例等进行基本统计, 反映地理要素的基本描述性特征;

二是结合社会、经济统计数据和专业部门普查 (调查) 数据, 基于不同统计分析单元, 对人口、资源、经济、社会、生态、环境等要素的空间分布、空间结构、空间关系、空间作用等进行综合统计分析, 揭示资源分布与利用、生态协调性、基本公共服务均等化、区域经济潜能、城镇发展等状况, 准确反映国情国力。

1.5 地理国情普查统计分析系统亟待解决的问题

地理国情普查统计分析系统是典型的O LA P (O nline A nalytical Processing) 联机分析系统, 在这样的系统中, 语句的执行量不是考核标准, 因为一个语句的执行时间可能会非常长, 读取的数据也非常多。这样的系统中, 考核的标准往往决定于磁盘子系统的吞吐量。

通过国家测绘局在生产环境下测试的表格可以看出影响国情普查数据库的关键指标是I/O。

磁盘子系统的I/O的计算公式:每秒I/O吞吐量=IO PS*平均I/OSIZE

从公式中我们可以看出, 在高I/O需求的系统中, 假设平均I/0尺寸固定的情况下, 需要磁盘子系统的高IO PS配置。

传统的磁盘子系统需要磁盘的大量堆积才能满足高I/O需求, 例如:如果一个15K的磁盘的IO量每秒13M, 那么, 100个磁盘, 最多能提供的吞吐量则是1300M/s (实际上, 也基本达不到这个值) 。

如果在磁盘子系统中添加SSD盘做数据分层, 在一定程度上可以提高系统的IO PS值, 但这同样会带来新的问题, 首先, SSD盘的寿命无法保障, 在传统的混合存储构架中, 对于SSD盘使用R A ID技术进行数据保护, 会造成数据写入放大 (R A ID 5写入放大2倍, R A ID 6写放大3倍) , 特别在地理国情统计分析系统中, 热点数据是难以固定的, 这也增加了闪存盘的写频率。

其次, 较多的磁盘配置意味着磁盘系统的延迟较高, 这在实时统计分析系统中是无法接受的。

再次, 在磁盘系统的管理上, 大量的磁盘增加了运维的成本, 包括人员成本, 用电成本与备件成本。

2 全闪存技术

有没有一种技术?既满足高IO PS、低延迟需求, 又能降低运营成本呢?全闪存技术是一个很好的解决方案。

2.1 全闪存技术概述

闪存SSD相较于传统的磁盘驱动器 (H D D) 具备更高的IO PS、更低的能耗、降低制冷需求和更低的故障率, 一个15K的高速H D D的IO PS峰值在200左右, 与SSD高达几千的IO PS显得微不足道。

2.2 全闪存系统一般具备几个技术特点

2.2.1 性能

无论系统多么繁忙, 无论存储容量利用率如何, 延迟和吞吐量始终可以预测, 并保持不变。阵列内一个I/O请求的延迟通常远远低于一毫秒。

2.2.2 横向扩展

传统双控架构的存储阵列, 往往只支持纵向的存储容量扩展, 在存储容量不断增加的情况下, 控制器成为系统的瓶颈, 采用横向扩展体系架构的好处:

1) 性能和容量可以同步增长, 不会受限于控制器, 控制器的数量可以同步扩展;

2) 所有数据和元数据在整个群集中都均匀分布;

3) 当系统扩展时, 资源保持平衡, 阵列中的数据自动分布在所有模块中, 不存在局部热点, 可保持一致的性能和同等的闪存损耗水平。

2.2.3 数据存储效率

全闪存系统包含重复数据删除和压缩等存储效率技术, 在数据进入系统后, 全闪存系统会对重复数据进行自动全局消重、压缩。可以带来以下的益处:

1) 系统资源的均衡使用, 从而使系统性能达到最佳;

2) 最少次数的闪存操作, 从而使闪存的使用寿命达到最长;

3) 均等的数据分配, 从而使整个系统内的闪存损耗保持均衡;

4) SSD容量的智能使用, 从而使存储成本达到最低。

2.2.4 新一代数据保护

R A ID (独立磁盘冗余阵列) 技术允许数据分布于多个驱动器以保证性能, 而且能够在磁盘驱动器发生故障时保护数据, R A ID算法从诞生以来一直是以机械硬盘为介质基础而创建的, 因此被迫在性能、容量开销以及期望的数据保护水平之间做出取舍。

目前传统阵列的R A ID技术中主流的数据保护机制为R A ID 1, R A ID 5, R A ID 6。

面向全闪存系统数据保护的核心是这种算法能够在任何SSD的任何位置上放置和访问数据, 过去R A ID算法必须考虑如何保持数据连续, 以避免磁盘驱动器磁头寻道, 而由于全闪存系统随机访问介质的特性, 使得全闪存系统能够高效的布局数据和读回, 无需进行复杂的顺序化操作, 全闪存系统数据保护的需求如下:

1) 低容量开销:闪存容量的成本比机械硬盘成本更高, 因此其理想状态是用非常宽的条带以降低容量开销;

2) 高水平的数据保护:提供与R A ID 6相似的数据保护级别, 能承受同时两个SSD出现故障;

3) 快速重建时间:实现快速的重建, 不仅是由于闪存介质的速度, 同时基于内容感知的重建技术, 重建时能够略过空白块, 更快的完成重建;

4) 闪存耐用性:与任何R A ID算法相比, 全闪存的数据保护需要进行的每条带写入更新会更少, 即写放大效应会减少, 以提高闪存的耐用性;

5) 性能:因为写放大效应的减少, 因此有更多的资源去响应主机I/O。

2.2.5 即时快照

在全闪存系统中快照的执行完全是由元数据驱动的, 结合系统的重复数据删除技术。在创建快照卷或克隆卷时, 数据完全无需在阵列上进行数据拷贝, 因为数据完全一致, 只需对元数据进行复制即可, 这样就可以保存许多快照, 全闪存系统快照的特点:

1) 无需预留快照空间。

2) 允许创建只读和/或可读写的克隆卷。

3) 可即时创建。

4) 对源卷和快照本身的性能影响微不足道。

3 全闪存技术在地理国情统计分析系统中的应用

地理国情普查统计分析系统是典型的O LA P (O nline A nalytical Processing) 联机分析系统, 地理普查统计分析工作除了O LA P业务并结合业务部门的的实际情况, 呈现出以下需求特点:

1) 业务系统对高带宽的需求, 系统进行查询分析时的高带宽, 及大量频繁的数据加载, 提取, 如ETL过程对系统产生的性能压力, 同时由于涉及到大量复杂的运算, 因此服务延时也是一个重要的指标, 需要提供一致性的可预测的延时指标, 不会出现随着吞吐量增大及阵列使用容量的增多, 而导致延时出现大幅度的抖动, 影响服务质量;

2) 由于普查分析系统的全天候特性, 使得管理人员没有太多的时间进行存储层的性能优化, 同时存储性能分析工具一般都过于复杂, 如果采取混合阵列的模式, 管理人员必须手动或者通过软件来确定哪些数据需要最高性能, 并通过分层架构进行移动, “热点数据”或者说最常被访问的数据, 会随着时间的推移而变化, 这意味将要时刻监控数据并进行相应的移动, 效率和时效性都会存在问题, 因此需要提供一种简化敏捷的运维方式, 系统能够自动实现性能的最优配置, 无需人工干预, 没有局部性能热点。

3) 对于成本的考量, 为满足高业务性能的要求, 假定以15万的IO PS为基准, 传统磁盘阵列在不考虑任何R A ID开销的情况下, 需要800块15K磁盘, 大量的机械磁盘增加了运维的成本, 包括人员成本, 用电成本与备件成本, 因此需要一种新的解决方案来取代传统磁盘阵列。

通过对全闪存技术特点的分析, 在地理国情普查统计分析系统中应用此技术是能够满足需求的, 在实际应用中还需与数据处理系统、统计分析软件及数据库管理软件优化系统运行环境, 进一步提高统计分析效率。

4 结束语

经过分析, 全闪存技术在广西第一次全国地理国情普查统计分析系统中的应用是可行的, 但由于全闪存设备的价格相对较高, 在应用中应根据实际容量进行配置, 同时, 在统计系统支撑环境解决方案中, 还有利用数据库一体机、小型机等搭建运行环境方式, 还应根据应用的灵活性、性价比等进行选择。

摘要：文章阐述了广西第一次全国地理国情普查数据建库的主要任务, 统计分析系统需求分析, 全闪存技术的应用场景, 在统计分析系统中的应用优势。

关键词：地理国情普查,统计分析,全闪存技术

参考文献

[1]国地普办.第一次全国地理国情普查数据库建设技术设计.

[2]国家基础地理信息中心.国情监测项目数据库运行环境建设及运维技术资料.

[3]刘芳, 陈志广, 刘勇攀, 肖侬.固态存储技术的发展和展望.

广西钦州10-13

广西民俗10-14