多元协方差分析(精选8篇)
多元协方差分析 篇1
1 前言
区域间工业化发展的差异表现为区域经济的差异。区域工业化发展不平衡直接影响到该区域经济发展的整体效率,不利于资源的合理配置。我国中部地区具有连接东西、纵贯南北的独特区位优势,是我国区域经济等各方面联系度最强的地区。随着近几年来中部地区工业化进程的加快,中部地区各省域之间的工业化差距日趋严重,如果这种差距在一定时期内得不到缓解,势必会严重影响中部地区经济的协调发展。因此,在这样的大背景下,中部地区如何在有限的资源条件下,从自身实际出发,发挥各自的比较优势,加快新型工业化进程,推动经济发展与资源、环境相协调,已成为一个非常重要的研究课题。纵观国内外现有的文献,国内外学者对我国新型工业化的研究主要集中在指标体系的构建(汪晓昀,等;游达明,等)[1,2]、综合评价和实现途径等方面(陈佳贵,等;薛伟贤,等;李世英,等;杨建仁,等)[3,4,5,6]。本文采用多元方差分析的方法,研究我国中部六省的新型工业化水平的差异状况及形成差异的原因。
2 分析指标的选取
2.1 综合评价指标体系的建立
到目前为止,对新型工业化水平进行综合评价的指标体系还没有权威的确定,因此,根据新型工业化评价指标体系科学性、系统性、新型性、数据可得性的构建原则,在对现有文献中的指标体系进行研究整合的基础上,以新型工业化水平的综合评价为总目标,从工业化经济发展水平、人力资源利用、工业化结构变动、科技含量、经济效益、资源消耗和信息化等方面提出一套全面可行的区域新型工业化评价指标体系,即选取人均GDP、第一产业从业人员占全社会就业人员的比重、第三产业从业人员占全社会就业人员的比重、第三产业产值占GDP比重、研究与开发(R&D)经费占GDP比重、大中型工业企业专利申请数、大中型工业企业总资产贡献率、大中型工业企业成本费用利润率、万户移动电话用户数、万户固定电话用户数、万人互联网上网人数、城镇化率、万元GDP能耗、万元GDP电耗、万元GDP二氧化硫排放量、万元工业增加值能耗、城镇登记失业率、R&D人员全时当量、每十万人口拥有大专及以上学历人员数,教育经费这20个指标来反映新型工业化水平。
2.2 差异分析指标的选取
本文对上述的20个指标采用全国31个省、自治区、直辖市2010年的截面数据,运用多元统计中的因子分析方法来分析新型工业化水平的状况。对2010年全国31个省(市区)的城镇化率和万元工业增加值能耗这两个指标的缺失数值,采用差值法对其进行补充。同时,由于各指标对于区域新型工业化的影响方向不一致,对于正向指标,其值越大则表示区域新型工业化程度越高;对于逆向指标,则需要进行逆向处理。由于逆向数据均为正数,本文采用取倒数的方法对万元GDP能耗、万元GDP电耗、万元GDP二氧化硫排放量、万元工业增加值能耗、城镇登记失业率这几个指标做了处理。另外,为了消除因数据量纲不统一及大小悬殊而导致的不合理影响,对人均GDP、专利申请数、移动电话用户数、固定电话用户数、互联网上网人数、万元GDP能耗、万元GDP电耗、万元GDP二氧化硫排放量、万元工业增加值能耗、R&D人员全时当量、每十万人口拥有大专及以上学历人员数、教育经费这几个指标的原始数据进行标准化处理。本文数据均选自于《中国统计年鉴》(2009—2011)和《中国信息年鉴》(2009—2010)[7,8]。
运用SPSS16.0软件对数据进行计算,KMO值为0.744,显示所用数据适合做因子分析。按照特征值大于1的原则提取了4个主因子,其方差的累计贡献率达到86.358%,旋转后的因子载荷矩阵如表1所示。
正交旋转后,从20个指标中提取4个公因子,分别反映了各地区新型工业化程度的八个方面的主要特征:(1)公因子1在固定电话用户数、互联网上网人数、教育经费、移动电话用户数、R&D人员全时当量、专利申请数、R&D经费占GDP比重这7个指标上有较大载荷量,该公因子反映了工业化过程中的信息化水平和科技含量两个方面的指标,其贡献率达到了32.432%;(2)公因子2在人均GDP、第一产业从业人员占全社会就业人员的比重、城镇化率、第三产业就业人占全部就业人员的比重、第三产业产值占GDP比重、每十万人口拥有大专及以上学历人员数、城镇登记失业率的倒数这7个指标上有较大载荷量,该公因子反映经济发展水平、结构变动与人力资源利用三个方面的指标,其贡献率达到了27.454%;(3)公因子3在万元GDP二氧化硫排放量、万元GDP电耗、万元GDP能耗、万元工业增加值能耗这4个指标上有较大的载荷量,该公因子反映工业化进程中环境状况与资源消耗两个方面的指标,其贡献率为15.506%;(4)公因子4在大中型工业企业总资产贡献率、大中型工业企业成本费用利润率这两个指标上有较大的载荷量,该公因子反映了工业化进程中的经济效益指标,其贡献率为9.319%。
结合实际情况并参考每个变量在公因子上的载荷量,把在相应公因子上载荷量较大的指标确定为多元方差分析的指标,由此,选择了以下8个指标来代表相应的新型工业化的八个方面内容,即人均GDP(元)X1、第三产业从业人员(万人)X2、大专及以上学历人员(万人)X3、大中型工业企业总资产贡献率(%)X4、R&D经费(万元)X5、互联网上网人数(万人)X6、能源消耗总量(万吨标准煤)X7、万元GDP二氧化硫排放量(吨/万元)X8。用这8个指标作为因变量,把中部六省作为分组变量V,用1代表山西省、2代表安徽省、3代表江西省、4代表河南省、5代表湖北省、6代表湖南省,以每个省2001—2010年的数据作为一个样本(数据来源于2002—2011年的中国统计年鉴),以此对中部六省的新型工业化水平的差异性进行多元方差分析。
3 差异性分析
3.1 多元方差分析的基本原理
方差分析方法的基本思想是:在相同的方差假设前提下,对方差进行变异分解,将总体方差分解到不同因素的不同水平上,考察不同因素、不同水平是否对总体变异具有显著的影响,进而考察多个总体之间的均值是否有明显的不同。本文采用单因素多元方差分析,它是同时分析和检验不同类别在多个间距测度等级变量上是否存在显著差别,其无差异假设为:
其中,下标g代表分组数,i代表因变量数,undefined代表第g组在第i个指标上观测值的平均值。
多元方差分析的基本假设条件为:(1)因变量之间有一定的相关性;(2)各因变量的联合分布为多元正态分布且方差相等;(3)各组间的方差—协方差矩阵应相同。在进行方差分析前,需要对数据进行检验,看是否满足上述假设条件,如不满足则需要对数据进行相应的转换。
3.2 数据的预处理
3.2.1 因变量之间相关性检验
做巴特利球形检验,由计算可知:p=0<0.05,拒绝原假设,可以认为因变量之间是相关的,初步具备多元方差分析的条件。
3.2.2 因变量联合分布的正态性检验
经过试验,变量X5、X6、X7、X8分别取对数后,对变量X1、X2、X3、X4、lgX5、lgX6、lgX7、lgX8做Kolmogorov-Smirnov正态性检验,变量均满足正态性假设。
3.2.3 方差齐性的Levene’s检验
对变量X1、X2、X3、X4、lgX5、lgX6、lgX7、lgX8做Levene’s方差齐性检验,因变量X2的p=0.004<0.05,变量X4的p=0.037<0.05,拒绝原假设,说明X2和X4这两个变量的误差方差在各组中是不相等的,其余变量的误差方差在各组间是相等的,因此,需要对X2和X4这两个变量进行调整,采用幂转换的方法对变量X2和X4进行转换。画幅度—水平图求得,变量X2的幂转换指数为1-1.365=-0.365,最接近-1/2,即采用平方根的转换方法;变量X4的幂转换指数为1-2.475=-1.475,接近-1,即采用取倒数的转换方法。对转换之后各因变量再做Levene’s方差齐性检验可知,所有因变量的p>0.05,说明所有因变量均满足方差齐性条件,可以进行多元方差分析。
3.2.4 调整后变量的正态性检验
在对变量进行方差齐性检验时,对变量X2和X4进行了转换,那么转换之后的变量X2和X4不一定满足正态性,因此,需要对所有转换后的变量进行正态性检验。计算结果显示,转换后的所有变量的p值均大于0.05,因此,转换后的所有变量均满足正态性。
3.2.5 协方差矩阵的齐性检验
Box’s M检验的零假设是因变量的协方差矩阵在各组之间是相等的。用调整后的变量,即X1、sqrt X2、X3、1/X4、lgX5、lgX5、lgX6、lgX7、lgX8这8个指标做Box’s M检验,计算结果p=0<0.05,拒绝原假设,说明因变量的协方差矩阵在各组之间是不相等的,不满足多元方差分析的前提条件。但是,如果各样本组的容量相近,即最大组样本容量/最小样本容量<1.5,F检验对此方差齐性假设是稳健的。也就是说,此时即便违反了方差齐性假设,F检验受到的影响也很小。由于本文中最大组样本容量为9,最小组样本容量为8,且9/8=1.125<1.5,说明即使 Box’s M检验没通过,但F检验基本不受此影响,也就是说其后的方差分析结果是可信的。因此,可以进行多元方差分析。
3.3 多元方差分析计算
用SPSS16.0软件做多元方差分析,计算结果如表2、表3和表4所示。
表2多元检验表对每个模型效应显示了四种显著性检验,可以看出,分组变量V对模型贡献很大,且这四个统计量的p=0<0.05。说明中部六省中至少有一个省的新型工业化水平与其他省不同。
表3是多元方差分析检验结果,可知:X1的p=0.669>0.05,lgX6的p=0.267>0.05。说明中部六省在人均GDP和互联网上网人数这两个指标上无差异,在其他指标上有差异。也即中部六省在经济发展水平和信息化方面无差异,在其他因子上有差异。
表4显示了中部六个省份分组的8个指标均值的比较结果,湖南省是指定的参考类。
level1与level6均值比较即山西省与湖南省相比,在以下四个方面存在显著性差异:平均第三产业从业人员的平方根少11.069;平均大专及以上学历人员数少135.086万人;平均大中型工业企业总资产贡献率的倒数多0.034;平均二氧化硫排放量的对数多0.196万吨。
Level2与level6均值比较即安徽省与湖南省相比,在以下两个方面存在显著性差异:平均大专及以上学历人员数少84.533万人;平均二氧化硫排放量的对数少0.15。
Level3与level6均值比较即江西省与湖南省相比,在以下五个方面存在显著性差异:平均第三产业从业人员的平方根少6.789;平均大专及以上学历人员数少120.262万人;平均大中型工业企业总资产贡献率的对数多0.022;平均能源消耗总量的对数少0.33;平均二氧化硫排放量的对数少0.211万吨。
Level4与level6均值比较即河南省与湖南省相比,在以下三个方面存在显著性差异:平均第三产业从业人员的平方根多3.065;平均能源消耗总量的对数多0.193;平均二氧化硫排放量的对数多0.184万吨。
Level5与level6均值比较即湖北省与湖南省相比,在以下两个方面存在显著性差异:平均大中型工业企业总资产贡献率的倒数多0.031;平均二氧化硫排放量的对数少0.11万吨。
由于我们在选择指标时用人均GDP代表经济发展水平因子,用第三产业从业人员代表工业化结构变动因子,用大专及以上学历人员代表人力资源利用因子,用大中型工业企业的总资产贡献率代表经济效益指标,用能源消耗总量代表资源消耗因子,用二氧化硫排放量代表环境状况因子,用互联网上网人数代表信息化技术应用因子,用R&D经费代表科技含量因子,因此,从以上计算结果可以得出结论:中部六省在工业化结构变动、人力资源状况的利用、经济效益、环境状况与资源消耗和科技含量这些因子上有差异,在经济发展水平和信息化水平这两个因子上无差异。具体来说,我们以湖南省为参考类,山西省与湖南省相比,在人力资源状况、工业化结构、经济效益和环境状况这四个方面有差异;安徽省与湖南省相比,在人力资源状况和环境状况这两个方面有差异;江西省与湖南省相比,在工业化结构、人力资源状况、经济效益、环境状况和资源消耗这五个方面有差异;河南省与湖南省相比,在工业化结构、环境状况和资源消耗这三个方面有差异。湖北省与湖南省相比,在经济效益和环境状况这两方面有差异。
4 差异性成因分析
4.1 矿产及水资源条件的差异
自然资源条件的优劣和自然资源的分布特征能直接或间接地影响区域产业的形成和发展以及资源的开发与利用,进而对区域工业化水平产生影响。中部六省的矿产种类齐全,储量丰富,各省都拥有自己的优势矿种,自然资源存在着明显的区域分布差异。按照矿产的储量及分布情况来看,中部六省已形成以下三大基地,即:以江西、湖北、湖南为三角带的有色金属基地;以湖北、湖南为中心的磷化矿基地;以山西省、河南、安徽为三角带的煤炭基地。其次,从水资源拥有量来看(如图1),江西省境内水系发达,湖泊水库星罗棋布,拥有全国最大的淡水湖——鄱阳湖,人均水资源占有量5 116立方米,是全国人均水资源的220%,高出全国平均水平;湖南北靠长江,与湖北隔江相望,通江达海,属长江中下游开放开发带,人均水资源占有量是全国人均水资源的127%;湖北省有世界上最大的三峡水利枢纽工程、葛洲坝水库等,人均水资源占有量是全国人均水资源的95%;安徽地处暖温带与亚热带过渡地区,境内水系湖泊众多,人均水资源占有量是全国人均水资源的66%;而河南省人均水资源占有量是全国人均水资源的24%;山西省人均水资源占有量仅占全国人均水资源的11%。
4.2 工业区位的差异
区域工业化发展存在差距的根源在于工业区位的差异,工业区位优越的地区在工业化的进程中具有绝对优势。中部六省地处中国内陆腹地(见图2),具有独特的承东启西、连南贯北的各自区位优势,在全国综合交通体系中发挥着不可替代的重要作用。铁路、公路、水运、航空等多种现代化运输方式,组成了一个四通八达、方便快捷的立体交通运输网络。山西省地处我国华北西部的黄土高原地带,东邻河北,西界陕西,南接河南,北连内蒙古自治区;安徽省位于中国华东地区,是中国经济最具发展活力的长江三角洲的腹地,东邻江苏、浙江,北接山东,是承接沿海发达地区经济辐射和产业转移的前沿地带,西有湖北、河南,南有江西,是中国实施西部大开发、加快中西部发展战略的桥头堡;江西省北临长枉,南接五岭,向来是我国南方水陆交通的要冲;河南省位于京津唐、长三角、珠三角和成渝城市带之间,是国家南北、东西交通大动脉的枢纽要冲;湖北省地处我国中心,北靠河南,东连安徽,南接江西、湖南,西邻四川,西北与陕西毗邻,是国家的经济中心。湖南省位于我国东南腹地、长江中游,是连接东部沿海省(市区)与西部内陆省(市区)的桥梁地带。正是由于中部六省各自的区位差异导致了其工业化程度的差异。
4.3 产业结构的差异
产业结构的差异是影响区域工业化发展不平衡的一个主要原因。2010年的统计数据显示,中部六省各省的三次产业结构均呈现“二三一”结构态势,其中山西省、安徽省、江西省和河南省这四个省的第二产业在其地区的经济发展中占据重要的支配作用,对其GDP的贡献率达到50%左右;但第三产业比重除了山西省的相对较高外,安徽省和江西省达到33%,而河南省的第三产业比重不足30%。安徽省、湖北省和湖南省这三个省的第二产业所占比重相对较低,但其第三产业发展较为迅速,达到45%左右。正是由于中部六省各自三次产业结构的不同才导致其工业化程度的不同,虽然中部六省均是第二产业占据主导地位,但由于湖南省、湖北省和安徽省的第三产业所占比重较高,所以工业化程度较高;而山西省、江西省和河南省的第三产业所占比重较低,因此,其工业化程度较低。
4.4 人力资源状况的差异
在影响地区经济发展的众多因素中,人力资源是最能发挥主观能动性和创造力的宝贵资源。中部六省,尤其是河南、湖南和安徽这三省,劳动力资源总量都比较丰富,并且山西省、河南省、湖北省和湖南省的劳动力资源占总人口的比重较高,但江西省和安徽省的劳动力资源占总人口的比重较低。值得指出的是,湖北省的劳动力资源总量在中部地区增长速度最快,另外,湖北省是全世界在校大学生最多的地区。截止2010年底数据表明,每十万人口中大专及以上学历人员数湖北省在中部六省中处在第一位,山西省第二、湖南省第三,江西与安徽省差别不大,河南省处在最后。
4.5 资源利用效率与环境保护能力
我国作为一个发展中国家,各区域之间的经济发展很不平衡,在工业化的过程中,对资源的选择和利用的途径及方式也大不相同。本文主要选择单位GDP能耗、单位工业增加值能耗、单位GDP电耗和万元GDP二氧化硫排放量等这些指标来衡量资源的利用效率与环境的保护能力,这些指标与工业化发展进程是负相关,因此,在做因子分析时对这些指标采用取倒数的形式。由计算结果得知,工业化程度较高的湖南省在资源消耗与环境保护因子上得分排名位于全国第八位,而工业化程度较低的山西省在资源消耗与环境保护因子上得分排名位于全国倒数第二位。这说明湖南省在资源消耗与环境保护方面做得比较好,进而工业化程度高;而山西省在工业化进程中伴随着高的资源消耗和高的环境污染,需要加强这方面政策的执法力度,降低资源的消耗量与环境的污染程度,提高工业化水平,缩小与其他省份之间的差距。
中部六省区域新型工业化差异的形成是多方面原因造成的,本文主要分析了在自然资源条件、工业区位、产业结构、人力资源状况和资源利用效率与环境保护能力这五个方面各省具有的优势与劣势。只有联系地、全面地、系统地分析和找出各区域新型工业化差异的影响因素,才能客观正确地推进中部地区新型工业化的协调发展。
参考文献
[1]汪晓昀,吴纪宁.新型工业化综合评价指标体系设计研究[J].财经理论与实践,2006(6):122-124
[2]游达明,陈国潘.中部地区新型工业化评价指标体系研究与实证分析[J].湖南社会科学,2010(5):116-119
[3]陈佳贵,黄群慧,钟宏武.中国地区工业化进程的综合评价和特征分析[J].经济研究,2006(6):4-14
[4]薛伟贤,孟娟.中国工业化阶段性评价实证研究[J].经济理论与经济管理,2006(1):18-23
[5]李世英,李亚.新型工业化发展水平评价指标体系的构建及实证研究——基于陕西的数据[J].当代经济科学,2009(5):28-35
[6]杨建仁,刘卫东.基于灰色关联分析和层次分析法的新型工业化水平综合评价——以中部六省为例[J].数学的实践与认识,2011(2):122-131
[7]中华人民共和国国家统计局.中国统计年鉴2010[M].北京:中国统计出版社,2011
[8]国家信息中心,中国信息协会.中国信息年鉴2010[M].北京:中国信息年鉴期刊社,2011
多元协方差分析 篇2
对于这个实例,可以采用R软件进行解决,过程如下:
解:将零部件强度设为此次实例的考察因素。3个工厂生产能力不同,存在3个水平,对各个工厂的产品强度进行检测,强度值为3个正态分布总体的样本观测值。
由上述程序可以看出,aov函数对方差分析表进行了计算,运行结果所得数据与方差分析表2中的内容相符合,其中Df表示自由度,Sum Sq表示平方和,Mean Sq表示为均方,F value表示为F值,Pr(>F)表示为P值,A为因素A,Residuals表示残差或者误差。
由上述运行结果可以看出,P 参考文献:
[1] 闫杰.地区差异对农村金融发展影响的实证研究――基于单因素方差分析[J].山东纺织经济,,2(10).
[2] 张永兵.分析数学模型思想的建立[J].家教世界,,2(06).
多元协方差分析 篇3
目前, 以上海为核心, 以江苏和浙江组成的地区是我国经济增长最迅速、发展潜力最大的地区之一, 也是促进我国经济快速发展的重要的区域之一。近些年来, 社会财富不断增加, 人民的生活在总体上也渐渐富足, 但与此同时, 居民收入分配格局和收入差距也出现了显著性的变化。收入差距问题已经越来越成为人们关注的焦点, 对收入差距的相关研究也成为研究的热点。但是目前国内学者对收入差距的研究大多都集中在地区之间、城乡之间以及阶层之间人均收入差距, 而对城镇居民人均可支配收入差距的研究并不多。在这种背景下, 本文将从人均可支配收入的角度, 研究该地区内部区域之间城镇居民收入差距的演变过程及其特征。这对于该地区实现协调发展和可持续发展有着重大的意义。
二、协方差分析的必要性及其思路
研究n个总体的试验指标的均值是否存在显著差异, 可以采用方差分析法。如果试验指标会受一些不可控因素的影响, 这时仍采用方差分析法, 可能得到的结论会不准确。为了提高试验的准确度和精确度, 必须是所有试验单元或区组内的试验单元的试验条件一致。由于这三个省份经济水平的差异, 人们工资水平会有不同, 而工资水平的不同必然会影响居民的人均可支配收入, 因此, 在研究区域间人均可支配收入的差异时, 就不应忽略职工平均工资的影响, 这样才能更真实的反映可支配收入差距的大小。协方差分析就是把回归分析和方差分析相结合起来, 用来检验两个或多个修正均数间有无差异的一种统计检验方法。它将排除协变量对分析结果的影响, 从而更加准确地对试验指标进行评价。因此, 在本文的研究中选取了协方差分析法, 在研究三个省份的人均可支配收入时, 考虑到职工平均工资这样难以控制的影响因素, 得出的结果将更为精确有效。
1、模型的设计
我们通过对只有一个协变量的单因素试验实验设计来说明协方差分析的基本方法, 假定响应变量和协变量之间存在线性关系, 恰当的统计模型是:
其中yij是在单因素的第i种处理或水平下的响应变量的第j个观察值, xij是对应于yij的 (即第ij个试验) 的协变量或伴随变量上的度量, x..是xij的平均值, μ是总平均值, τi是第i次处理的效应, β是线性回归系数, 表示yij对xij的相依性, εij是随机误差分量, 假定εij是服从正态分布NID (0, σ2) 。
2、协方差分析的一般步骤
第一步, 分别计算总的、处理 (组间) 的以及误差 (组内) 的平方和与交叉积和
一般, S=T+E, 其中符号S、T、E分别表示对总、处理、以及误差的平方和与交叉积和。对x和y的平方和必须是非负的, 但是交叉积 (xy) 的和可以是非负的。
第二步, 构造F值, 检验是否存在协变量的效应
如果F显著, 说明处理间存在显著差异, 协变量的效应是存在的, 是引起观测变量变动的主要因素之一, 可以用协方差分析法进行调节, 接着可进行多重比较。
第三步, 调节处理平均值, 进行协方差分析
注意, 协方差分析是利用回归关系, 把协变量x化为相等后再进行各组y的修正均数间比较的假设检验。通过上面的调节公式, 我们可以消除协变量的影响, 在排除了协变量线形影响之后, 控制变量对观测变量的影响分析同方差分析。
三、实证分析
本文中将人均可支配收入 (y) 作为响应变量, 职工平均工资 (x) 作为协变量。将江苏、上海、浙江这三个地区看作是三个不同的处理。这里我们可以将搜集到的2000~2007年这三个地区的人均可支配收入, 职工平均工资的数据看作是重复八次的实验, 其具体数据如表1所示
数据来源:《江苏省统计年鉴》
(一) 假设条件的检验
1、正态性检验
根据表1中的数据, 运用SPSS软件进行正态性检验, 经Kolmogorow-Smirnor’s检验, 得到Kolmogorow-Smirnor的统计值为0.092, 其相应的伴随概率P=0.2。经Shapirowilk检验, Shapiro-wilk统计值为0.974, 其伴随概率P=0.768。可见, 在给定显著水平α=0.05水平上, 两种检验都可以得出表1中的数据是符合正态分布的。
2、独立随机性检验
表1中所搜集的江苏省, 上海市, 浙江省的近8年的人均可支配收入、职工平均工资的数据均是来自2001-2008年《江苏省统计年鉴》。数据满足随机独立性的要求。
3、方差齐性检验
方差齐性检验就是检验各观测变量在控制变量不同水平下的方差是否相等。运用SPSS软件, 进行Levene’s检验, 得到Levene的统计值为0.206, 其相应的伴随概率P=0.815, 在显著水平α=0.05时, 实验所选取的这些数据是满足方差齐性的要求的。
4、各组的回归系数的检验
从图1中可以看出, y与x呈明显的线性关系, 并且是高度正相关, 三条直线的斜率基本保持相同, 并且不为零。
根据以上对假设检验进行的分析, 文章中所搜集的数据满足协方差分析的基本条件, 因此可以对所搜集的数据进行协方差分析。
(二) 简单协方差分析
首先分析没有考虑协变量因素影响时的情况, 也就是不考虑职工的平均工资 (x) , 对三个地区的人均可支配收入 (y) 进行一般的方差分析, 运用SPSS软件进行分析, 分析结果如表2所示。
表2中, 第二列给出了组间差平方和、组内离差平方和及总离差平方和, 第三列给出了它们对应的自由度, 第四列是对应的均方差;第五列和第六列分别给出了F统计量和它对应的p值。由于p=0.018<0.05, F统计值也大于在自由度分别为2和21时F的临界值。因此, 我们应该拒绝原假设, 也就是说, 我们认为在江苏、上海、浙江这三个地区人均可支配收入是存在着差异性的。于是我们可以进一步进行多重检验, 由于这里选取的实验数据满足了不同因素水平下的方差齐性的要求, 所以我们就采用LSD检验法进行多重比较。在给定的显著性水平α=0.05时, 江苏省的人均可支配收入与上海的人均可支配收入存在着显著性的差异, 浙江省的人均可支配收入与江苏省、上海市的人均可支配收入并没有什么显著的差异。并且可以通过均值散点图可以发现, 上海市的人均可支配收入最高, 其次是浙江省和江苏省。
通过上面的分析得出拒绝了零假设的结论, 也就是说协变量对观测变量的线形影响是显著的, 由于方差分析没有考虑到协变量的影响, 为了保证分析结果的准确性、更真实性, 应进行协方差分析, 分析结果如表3。表3中协变量职工平均工资对应的P值为0, 说明职工平均工资对人均可支配收入的影响是显著的。F值大于相应的临界值, 其伴随概率在α=0.05的显著水平下是显著的, 因此我们也得出江苏、上海、浙江这三个地方的人均可支配收入存在着显著差异, 且F值170.916比方差分析中的F值4.862大得多。
接下来我们可以通过协方差分析进行调节, 来消除协变量对观测变量的影响, 然后对修正的均值进行对比。这里, 修正是将各个水平下协变量对观测变量影响中高于协变量总体平均影响的部分扣除, 计算方法前面已经介绍。运用SPSS软件, 进行修正后的均值比较, 从而可以进一步对这三个地区的人均可支配收入进行多重比较, 比较结果如下:
从表4中我们发现, 江苏、上海、浙江三个地区的人均可支配收入均存在着显著性的差异, 但不如未调整前差异那么大了, 因为这里已经消除了职工平均工资的影响。差异的显著性依次降低:上海的和浙江的, 江苏的和浙江的, 江苏的和上海的。江苏的人均可支配收入比浙江的人均可支配收入平均少1497.640元, 上海的人均可支配收入比浙江的人均可支配收入平均少1877.639。浙江的人均可支配收入最高, 第二是江苏, 上海的最低, 可见, 该结论与一般方差分析法得出的结论是不完全一致的, 同时, 这里上海的人均可支配收入与浙江的相比是有差异的。
四、结论
文章采用了协方差分析方法, 分析了江苏、上海、浙江的地区区域间人均可支配收入的差异, 在消除了职工平均工资对人均可支配收入的影响后, 得出了浙江省的人均可支配收入最高, 其次是江苏, 最后的是上海。可见职工平均工资在这三个省份的差异很大, 并对上海的人均可支配收入影响最大, 也就是说上海的职工平均工资应该最高。这与直接根据人均可支配收入来分析的单因素方差分析法相比, 实验精度更高, 更符合实际。
由于江浙沪地区吸引着绝大多数的外来投资, 在外来投资上, 目前的现实情况是:制造业去江浙, 商业服务业去上海, 中小企业去江浙, 大型企业去上海。而商业服务业和大型企业的职工平均工资都要高于制造业和中小企业, 因而导致这三个地区的职工平均工资有很大差异, 其必然会影响到地区居民的人均可支配收入。于是在用方差分析时, 得出了三个地区差异很大的结论, 在剔除职工平均工资的影响后, 差异变小, 但同时上海的人均可支配收入也从最高降到最低。这是由于上海与另两个省相比, 商业服务业、金融业等高增加值产业发达, 大型企业更多, 使得上海的职工平均工资更高。因此, 在除去这一因素的影响后, 对上海的人均可支配收入影响非常显著。浙江省的人均可支配收入是一直高于江苏省, 这也与两个省的经济发展模式有着重要的关系, 浙江省的中小企业经济发展的要比江苏省好, 使得浙江省的居民比较富裕, 是一种藏富与民的模式。而江苏省相比之下是集体经济比较发达, 更多的是集体的富裕, 因而也就使得江苏省的人均可支配收入一直没有浙江的高。
参考文献
[1]Douglas C.Montgomery著, 汪仁官, 陈荣昭译.实验设计与分析 (第三版) [M].中国统计出版社, 1998.
[2]朱建平, 殷瑞飞.SPSS在统计分析中的应用[M].清华大学出版社, 2007.
[3]薛薇主编.SPSS统计分析方法及应用[M].电子工业出版社, 2004.
[4]袁志发, 周静芋.试验设计与分析[M].高等教育出版社, 2000.
多元协方差分析 篇4
1 理论方法
(1) 协方差分析的基本思路。无论单因素方差分析还是多因素方差分析, 它们都有一个共同的特点就是控制变量的各个水平是人为可以控制的。但在许多实际问题中, 有些因素的不同水平很难人为控制, 但它们确确实实对观察变量产生较为显著的影响。在方差分析中, 如果忽略这些因素的存在而单纯去分析其他因素对观察变量的影响, 往往会夸大或缩小这些因素的作用, 使得分析结论不准确。因此, 为了更加准确地研究控制变量不同水平对观察变量的影响, 应尽量排除其他能够排除的因素对分析的影响作用。协方差分析是将那些很难控制的因素作为协变量, 在排除协变量影响的条件下, 分析控制变量对观察变量的影响, 从而更加准确地对控制因素进行评价。
(2) 一个协变量的单因素协方差模型设计。一个协变量的单因素的模型为:
undefined
其中yij是在单因素的第i个处理或水平下取得的第j个观测值, xij是协变量在第i个处理上的第j个观测值, μ是一般平均值, αi是第i个处理的效应, β是线性回归系数, εij是随机误差项, 服从标准正态分布。
(3) 应用协方差分析的主要前提条件。①理论上要求各处理组样本均来自方差相同的正态总体, 并且各样本是相互独立的随机样本。但在实际问题中, 正态分布的要求不太严格。②各组的实验样本和协变量存在线性关系, 且各组的回归系数相同并不为0。
(4) 协方差分析的一般步骤:
①检验应用条件是否满足
②计算总平方和及协方和
undefined
undefined
③计算处理 (组) 间的总平方和及协方和
undefined
undefined
④计算组内平方和及协方和
Eyy=Syy-Tyy, Exx=Sxx-Txx
Exy=Sxy-Txy
⑤构造F值
undefined
其中undefined
⑥如果F显著, 则说明处理间存在显著差异, 接着可进行多重比较。
⑦调节处理平均值, 进行协方差分析
undefined, 其中undefined
协方差分析是利用回归关系, 把协变量x化为相等后再进行各组y的修正均数间比较的假设检验。通过调节公式, 我们可以消除协变量的影响, 在排除了协变量线性影响之后, 控制变量对观测变量的影响分析同方差分析。
3 实证分析
本文将人均社会消费品零售总额 (y) 作为响应变量, 城镇居民人均可支配收入作为协变量 (x) 。将江苏省、上海市、浙江省这三个地区看做是三个不同的处理。本文收集了2003—2008年这6年来的人均社会消费品零售总额及城镇居民人均可支配收入的数据, 看做是重复试验, 共重复6次, 得到数据如表1所示。
(1) 基本假设检验。由于方差分析对于正态分布要求不太严格, 并且表1中的数据基本满足独立性, 故主要检验方差齐性是否满足。经Levene检验, Levene统计值为0.429, 其伴随概率P=0.659, 在显著性水平在α=0.05上, 试验指标满足方差齐性。从下图中可以看出, y与x高度线性正相关, 且三条直线的斜率基本相同。
注:y表示人均社会消费品零售总额;x表示城镇居民人均可支配收入。数据来源:《江苏省统计年鉴》、《上海市统计年鉴》、《浙江省统计年鉴》。
以上分析表明本资料满足协方差分析的基本条件, 故可对本资料进行协方差分析。
(2) 协方差分析。首先, 不考虑协变量的影响, 进行方差分析, 结果如表2所示。
根据表2中的结果, 由于P=0.000<0.05, F统计量也大于自由度为2和15的F临界值, 所以我们拒绝原假设, 认为江苏省、上海市、浙江省这三个地区的人均社会消费品零售总额是存在显著差异的。接着采用SNK法进行多重检验, 在给定的显著性水平α=0.05下, 上海市的人均社会消费品零售总额与江苏省、浙江省的人均社会消费品零售总额存在显著差异, 而江苏省的人均社会消费品零售总额与浙江省的社会消费品零售总额没有显著差异。
由于方差分析未考虑到协变量的影响, 为了保证分析结果的准确性、真实性, 应进行协方差分析, 分析结果如表3所示。结果显示协变量城镇居民人均可支配收入对应的P值为0, 表明协变量对人均社会消费品零售总额的影响是显著的, F值远大于相应的临界值, 且其伴随概率在α=0.05的水平下是显著的, 因此我们得出江苏省、上海市、浙江省这三个地区的人均社会消费品零售总额是存在显著差异的, 并且其F值比方差分析中的F值大很多。
接下来我们可以通过协方差分析进行调节, 来消除协变量对观测变量的影响, 然后对修正的均值进行对比。调整公式为undefined, 其中undefined。结果如表4所示。
综上所述, 近6年来江苏省、上海市、浙江省这三个地区的人均社会消费品零售总额 (消除了城镇居民人均可支配收入的影响) 均存在显著差异, 但不如未调整前的差距那么大, 这是因为三个地区的城镇居民人均可支配收入水平存在差异, 可见协方差分析结果更符合实际。从表4中可以看出, 如果江苏省的城镇居民人均可支配收入与上海相同, 则人均社会消费品零售总额要比现实水平高;如果未消除协变量的影响, 上海市的人均社会消费品零售总额最高, 第二是浙江省, 第三是江苏省, 如果消除了协变量的影响, 上海市的人均社会消费品零售总额仍然最高, 不过第二变为江苏省, 第三是浙江省。可见, 该结论与一般方差分析法得出的结论是不完全一致的。
4 结论
本文采用了协方差分析方法, 分析了江苏省、上海市及浙江省这三个地区的人均社会消费品零售总额的差异, 有效地消除了城镇居民人均可支配收入的影响, 得出江苏省、上海市、浙江省的人均社会消费品零售总额的差距虽有减小, 但仍显著的结论, 比直接依据人均社会消费品零售总额来分析的方差分析法更切合实际。从文中的实证分析也验证了, 当协变量的作用较明显, 且数据资料满足协方差分析条件时, 使用协方差分析法便能有效地剔除协变量的影响, 使得到的结论更符合实际。
参考文献
[1]Douglas C.Montgomery.实验设计与分析[M].3版.汪仁官, 陈荣昭, 译.北京:中国统计出版社, 1998.
多元协方差分析 篇5
关键词:国际旅游外汇收入,区域经济发展,协方差分析
一、引言
福布斯于2014年12月在上海第三次发布了中国大陆旅游业最发达城市的中文版榜单。前三名为北京、上海、重庆。旅游产业不仅为无烟工业, 而且在创造GDP以及带动就业方面都有巨大潜力, 既能促进国家低碳经济的发展, 也能大大增加国民消费的需求。目前, 中国旅游业面临非常好的发展机遇。预计到2020年, 我国将成为世界第一大旅游目的地, 其中入境游客达到2.1亿人次, 旅游外汇收入也将达580亿美元。
近几年来, 我国的旅游业经历了快速发展阶段, 作为旅游业重要组成部分, 入境旅游是衡量一个国家或地区旅游业的综合发展水平重要指标, 是既能增加旅游收入同时提高旅游效益的有效途径, 也是促进对外交流合作、扩大对外开放的重要手段。作为区域国民经济重要组成部分的旅游外汇收入为区域经济的快速发展提供了保证。科学且系统地评估旅游外汇收入对区域经济发展的贡献有利于区域经济和旅游业的协调发展, 研究旅游外汇收入和区域经济发展关系有重要的现实意义。本文将从旅游外汇收入角度, 从京沪渝三地旅游外汇收入和人均地区生产总值的关系作为出发点研究区域经济的发展差异。
二、方法概述
协方差分析是一种综合方差分析和回归分析的方法, 不仅可以对实验进行统计控制, 也能有效地分析实验处理效应, 因此也称它为一种统计技术。在试验设计时, 为了提高试验的准确度和精确度, 必须使所有试验单元的试验条件一致, 但这一点很难做到。由于京沪渝三个直辖市的经济发展水平存在一定的差异, 外汇旅游收入水平会不同, 而外汇旅游收入水平会影响一地旅游业给区域经济带来的经济效益, 因此, 在研究区域间生产总值的时候就不能够忽略入境旅游外汇收入。协方差就是针对在实验阶段难以控制, 或者无法严格控制的因素, 在统计分析阶段进行试验控制。因此, 在本文的研究中选取了协方差分析法, 在研究三个直辖市经济发展水平, 考虑到入境旅游外汇收入的影响因素, 得出的结果将更为精确有效。
三、数据的说明
本文将人均地区生产总值 (y) 作为响应变量, 国际旅游外汇收入作为协变量 (x) , 选择北京、上海、重庆三个地方是因为2014年福布斯中文版以综合旅游收入最高的100个地级以上城市为候选, 根据其年度国内旅游人数、入境旅游人数、国内旅游收入、旅游外汇收入、所在地的星级饭店数、4A及以上旅游景区数等六个指标加权计算以确定最终排名, 将京沪渝三地确定为前三名。本文想从入境旅游业的发展对区域经济发展水平的影响来考察一个地区经济发展情况, 收集2010年—2013年这4年京沪渝的人均地区生产总值及国际旅游外汇收入的数据。数据来源于《中国统计年鉴》 (2014, 2012) 和各地方2014年统计年鉴。
四、实证分析
本文利用人均地区生产总值 (y) 作为因变量, 国际旅游外汇收入作为协变量 (x) 。将北京、上海、重庆三个地区看作不同处理, 收集2010年—2013年这4年的人均地区生产总值及国际旅游外汇收入, 看作是重复试验, 共重复4次。
1.协方差分析
在进行协方差分析前首先进行方差齐性检验, 经Levene’s检验, Levene-test统计值为0.368, 其伴随概率为0.702, 在显著水平α=0.05上, 试验指标满足方差齐性, 故可对本资料进行协方差分析。不考虑协变量的影响, 进行方差分析。根据运行结果, P=0.00<0.05, F统计量为63.00也大于相应自由度F临界值, 因此, 我们拒绝原假设, 认为北京、上海、重庆这三个地区人均地区生产总值是存在显著差异的。
由于方差分析没有考虑到协变量的影响, 分析结果的准确性难以保证。再进行协方差分析, 结果如表1。
结果显示协变量旅游外汇收入对应的P值为0.003, 表明协变量对人均地区生产总值的影响是显著的, F值大于相应的临界值, 且伴随概率在α=0.05的水平下是显著的, 因此得出北京、上海、重庆这三个地区的人均地区生产总值是存在显著差异的。
表1“校正模型”是对模型的检验, 其P<0.001, 拒绝零假设, 说明存在对因变量有影响的因素;表1的第二、三行是对地区和国际旅游外汇收入的检验, P分别等于0.009和0.003, 所以地区、国际旅游外汇收入对人均地区生产总值的影响都有统计学意义;表1第四行是对地区和国际旅游外汇收入交互作用的检验, 其P=0.098>0.05, 说明分组和年龄无交互作用, 旅游外汇收入对区域经济发展水平的影响不随地区的不同而不同, 这也是协方差分析的基本条件之一, 这里满足。
进一步进行多重检验, 选取的实验数据满足不同因素水平间多重比较。
在给定的显著性水平α=0.05下, 重庆人均地区生产总值与北京、上海人均地区生产总值存在显著差异, 而北京人均地区生产总值与上海人均地区生产总值没有显著差异。在加入了协变量 (x) 之后, 京沪渝三地的经济发展水平差异变得更显著了。然而, 通过多重比较, 我们也发现了北京与上海两地间因变量不显著, 这也符合北京和上海近年来社会经济发展比较均衡的现实情况。
五、结论
从以上实证分析可知, 当协变量的作用较明显时, 运用协方差分析能有效剔除协变量的影响, 得到更加真实可靠的数据处理结果。京沪渝三个直辖市的人均地区生产总值与旅游外汇收入存在着线性关系, 扣除协变量 (x) 的影响后, 三地的经济发展水平并不都存在显著差异。重庆与北京和上海两地存在明显的差异, 北京与上海两地几乎没有差异。北京、上海和重庆三地作为我国的直辖市, 经济发展水平都比较高, 但是北京和上海一个主北一个主南在全国乃至全球的经济影响力不容小觑。重庆在经济上虽然与北京上海有一定差距, 但其拥有大量资源和土地, 近几年旅游业蓬勃发展, 吸引了不少外来游客, 所以本文的实证结果比较符合我国实际。旅游产业是无烟工业, 其在带动就业、创造GDP方面有巨大潜力, 既是目前中国发展低碳经济的助力, 也是区域国民经济的重要组成部分, 应当合理利用资源, 大力发展。
本文的研究也存在一定的局限性。首先, 本文的分析数据只考虑了旅游外汇收入给区域经济带来的发展, 没有考虑其他诸如国内旅游收入等对旅游业的影响进而对地区生产总值的影响, 因此可推广进行多个协变量进行协方差分析。
其次, 对于数据方面, 只选用了近四年的数据, 对于不显著的数据没有修正再进行分析, 全文实证分析还不够深入, 只停留在表面, 以期下次能进一步运用协方差分析研究旅游收入与区域经济发展的关系。
参考文献
[1]司志克.基于GIS的我国旅游外汇收入与区域经济发展关系的研究[D].江西理工大学, 2010.
[2]赵淳.江浙沪区域内社会消费品零售总额协方差分析[J].中国市场, 2011, 02:170-171.
[3]施春杰.浙闽粤农户投资行为差异的协方差分析[J].现代商贸工业, 2011, 10:72-73.
[4]饶伟.江浙沪农民人均纯收入差异的协方差分析[J].中国证券期货, 2011, 09:120.
[5]马娟, 杨益民.江苏省区域经济差异的协方差分析[J].商场现代化, 2007, 15:198-199.
[6]姜晴琼, 田应福.贵州省地区经济差异的协方差分析[J].数理统计与管理, 2012, 04:613-620.
多元协方差分析 篇6
方差分析的任务是先根据实际情况提出原假设H0与备择假设H1,然后寻找适当的检验统计量进行假设检验。
1.1 建立假设
试验因素A有S个水平A1,A2,...,As在每一个水平Aj(j=1,2...,s)下进行了n次独立试验,数据可以看成来自s个不同总体的样本值,将各个总体的均值依次记为μ1,μ2...,μs则按题意需检验假设:
H1:μ1=μ2,…,μs不全相等。
引入总平均μ:
引入水平Aj的效应δj
有n1δ1+n2δ2+…nsδs=0,δj表示水平Aj下的总体平均值与总平均的差异。
假设就等价于H0:δ1=δ2=…=δs=0
H1:δ1,δ2…,δs不全为零
因此,单因素方差分析的任务就是检验s个总体的均值μj是否相等,也就等价于检验各水平Aj的效应δj是否都等于零。
1.2 检验所需的统计量
假设各总体服从正态分布,且方差相同,即假定各个水平Aj(j=1,2...,s)下的样本来自正态总体N(μj,σ2),μj与σ2未知,且不同水平Aj下的样本之间相互独立,则单因素方差分析所需的检验统计量可以从总平方和的分解导出来。下面先引入:
水平Aj下的样本平均值:
数据的总平均:
总平方和:
ST又称为总变差,反映了全部试验数据之间的差异。将其分解为:
其中:
可以证明SA与SE相互独立,且当H0:δ1=δ2=…=δs=0为真时,SA与SE分别服从自由度为s-1,n-s的χ2分布,即
于是,当H0:δ1=δ2=…=δs=0为真时
这就是单因素方差分析所需的服从F分布的检验统计量。
1.3 假设检验的拒绝域
通过上面的分析可得,在显著性水平α下,本检验问题的拒绝域为
2 实例分析
2.1 实验样本的获取
学校本学期4个学院共1290名学生“VF数据库应用基础”课程成绩保存在文件CJ.xls中,数据的保存格式如表1所示。
2.2 检验正态性和方差齐性
Matlab提供lillietest(x)函数检验正态性;用vartestn(x)函数检验方差齐性。
Matlab的cj.m程序文件如下:
执行结果:0.0656 0.1479 0.0966 0.1286
4个学院学生的考试成绩的正态性检验值P值大于0.05,考试成绩都服务正态分布。
执行vartestn()函数,P=0.111>0.05成绩服从方差相同的正态分布。同时vartestn()函数生成分组汇总表(图1)和箱线图(图2)。
2.3 方差分析
检查不同学院的学生考试成绩有无显著差别,原假设是没有区别的,对立假设是有显著区别。
p值为0,故拒绝原假设,认为不同学院的学生考试成绩有显著的差别。anova1()函数返回的table是单因素一元方差分析表。表2所示。
2.4 多重比较
方差的结果表明不同学院的学生成绩有非常显著的差别,但这并不意味着任意两个学院学生的考试成绩都有显著的差别,使用多重比较,找出考试成绩存在显著差别的学院。在Matlab使用multcompare()函数来完成多重比较。
multcompare()函数生成交互窗口图,用于多重比较,如图3所示。返回矩阵C为6行5列表,也用于多重比较。如表3所示。
2.5 结果分析
从表3多重比较数据表来分析,若两组均值差的置信区间不包括0,则在显著水平0.05下,作比较的两个组的均值之间的差异是显著的,否则是不显著的。就可用图3交互式多重比较图形窗口进行分析,在图形窗口中,圆圈用来表示各组均值,线段则表示组均值差的置信区间,将两线段投影到X轴上,若它们的投影位置有所重叠,则说明两个组的组均值之间差异不显著,若它们的投影位置不重叠,则说明这两个组的组均值之间的差异是显著的。从以上分析看出,信息学院与外语学院考试成绩差异非常显著。
3 结语
Matlab软件为各种统计应用提供了良好的应用平台,方差分析作为一种成熟的统计分析方法被广泛地应用。通过定性、定量分析不同学院的学生考试成绩,找出了不同学院学生考试成绩的差异性,这为分析考试试题的知识结构、难易程度、学生掌握情况及老师知识传授情况提供了数据支撑,通过数据分析将为提高教学质量提供科学的教学方法和手段。
参考文献
[1]余建辉,金义富.方差分析在学生成绩分析中的应用.福建电脑,2010,(12).
[2]李莹.学生的学习风格对学习成绩的单因素方差分析.课程教育研究,2014,(25).
[3]段智力,翟淑红.高中学生学习成绩的统计分析.白城师范学院学报,2013,(05).
[4]张晶,吴玮,范洪军.统计学在成绩分析中的应用.青岛远洋船员职业学院学报,2013,(03).
影响销售量的单因素方差分析 篇7
1 问题提出
例:某厂家为了考察某种新产品的推销方式对其销售量的影响, 在其它条件尽力一样的情况下, 设计了三种不同的推销方式:A1报纸刊登广告;A2销售场所散发广告传单;A3在商店中示范使用。为了了解三种方式的推销效果, 在不同地区的条件相同的四家商店试用一个月, 其该月新产品在四家商店的销售见表1
从表1我们可以看到, 即使对于同样的商店销售方式不同产品销售量也不尽相同, 这表明产品的销售量是一个随机变量X, 另外, 由于推销方式的不同, 一般不能把这些数据当作是来自同一总体的, 而应看作是来自三个总体的三个样式, 即每个水平对应一个总体, 表中的三列数据可看成是来自三个不同总体的样本值。于是要检验三种方式在不同地区对销售量的影响是否有显著不同, 那么这三种推销方式, 哪种方式引起的销售量是最多或者说消费者最看重的是此种新产品的哪种性能?显然这个问题我们可以通过单因素方差分析来解决。
在表1中, 销售量是实验指标, 它是随机变量, 这3种推销方式的产品销售量分别用表示, 即是3个总体 (因为可以认为一个水平的销售量就是一个随机变量, 就是一个总体) , 由中心极限定理, 我们可以假定Xi~且相互独立, 其中表示第i种水平下的平均销售量。由于这3种推销方式是在相同的条件下获得的, 故可以认为这3个总体的方差相同。如果从这3个总体中分别随机抽取容量为ni的样本 (这里我们的目的是用样本Xij推断3个总体的均值是否相等?那么, 在这里我们可以有几种办法, 我们来看一个可供选择的办法是对任意的i等于j, 检验假设H0:μi=μj一共需要检验6个假设, 如果检验其中的一个假设, 犯第一类错误的概率为, 则正确地接受这个假设的概率是0.95, 如果检验是独立的, 则正确地接受这6个假设的概率是 (0.95) 10=0.6, 错误地拒绝这6个假设中的至少一个假设的概率是1-0.60=0.40。如果这样则大大增加了犯第一类错误的概率。因此, 我们不能用这种办法来解决比较3个均值问题, 为了控制犯第一类错误的概率, 我们在直接检查假设是否成立。其中3个总体的方差未知组相同, 经检验, 若拒绝H0, 则认为不同推销方式对销售量有显著差异, 反之, 就认为各推销方式间的销售量的不同是由于随机因素引起的。方差分析就是解决多个具有相同方差的正
态, 总体的均值是否有显著差异的统计方法, 可见方差分析乃是假设检验的延伸。因此, 欲判定因素各水平是否有显著差异
因此, 欲判定因素各水平是否有显著差异也就是要检验各正态总体的均值是否相等, 即要检验假设。
2 建立数学模型
2.1 采用的方法
下面, 我们将因素用大写字母A表示, 水平用带下标的大写字母表示, 如:例题是一个有三种水平的单因素重复试验, 但是, 一般我们遇到的不只是三种水平的形式, 所以为了检验上面的假设*是否成立, 各样本的观察值用Xij表示, Xij表示第i种水平第j个样本单位的观察值。假设共分r种水平, 对任何相邻两个总体检验它们的平均值是否相等。但是当因素的水平数比较大时, 我们所学到的t检验方法就相当繁琐。我们采用的是平方和分解法。平方和分解法是把整批数据的误差总平方和分解为若干部分, 在单因素实验的条件下是分解为两部分, 一部分反映因素A的效应, 称之为因素A的效应平方和, 另一部分反映随机波动所引起的误差, 称为误差平方和, 通过分析两部分平方和在总平方和中所占比例的大小来检验假设H0。
2.2 基本假设
设因素A有r种水平, 在水平 次独立实验, 得下表2的结果
假定:各个水平Ai对应的总体Xi (i=1, 2, ) 服从正态分布, 且不同水平Ai下的样本之间是相互独立的。
2.3 数学模型
由于Xij~N (μi, σ2) , 因而Xij-μi~N (0, σ2) , 记εij=Xij-μi于是
其中μi (i=1, 2, …, r) 以及σ2均为未知参数, (1) 称为一元方差分析的数学模型。
2.4 相关公及方差分析表
考察因素A对指标X的影响, 为了方便期间, 试验方案选择因素A水平A1, A2, …, Ar, 也就是有r种水平, 每个水平下重复试验ni次, 这样就共有r×ni个观察值, 为了方便分析, Xij表示第i种水平下的第j个观察值, 则
观察值的总离差平方和计算公式为:
总离差平方和可以分解为“水平”间的离差平方和及“水平”内的离差平方和。水平间的离差平方和常用QA表示。则
水平内的离差平方和用QE表示,
由于QT=QA+QE, 因此在已经计算QT和QA后, 可以直接由QE=QT-QA求得QE。将QA和QE分别除以其自由度, 得到平均方差SW2和SE2。
类间平均平方离差
类内平均平方离差
SA2就相当于SE2, SE2就是SW2。因此通过它们的比值F进行检验。为了清楚起见, 通常将上述计算结果列为方差分析表 (表3) 。
当给定显著性水平α以后, 查第一自由度为r-1, 第二自由度为n-r, 得Fa (r-1, n=r) 。若实际计算的F燮Fα, 接受H0, 结论为差异不显著。当F>Fα时, 拒绝H0, 推断为显著差异, 即r种水平的总体平均数并非完全相等。
3 实例
现在我们来解例题
解:按单因素方差分析的方法, 可以计算出推销方式对销售量影响的方差分析, 考察因素A对指标X的影响, 试验方案为选择因素A的r个水平A1, A2, …, Ar (该题r=3) , 每个水平重复试验ni=4 (i=1, 2, …, r) 次这样就共有r×ni (即3×4) 个观察值。
建立原假设
H1:μ1, μ2, μ3, 不全相等
T1.=24, T2.=40, T3.=68
则可求得总离差平方和其中T..=132
水平间的离差平方和QA=248;平内的离差平方和QE=138;类间平均平方离差SA2=124;类间平均平方离差SE2=15.333。
我们可归纳为一个方差分析表 (表4)
查表可得F0.05 (2.9) =4.260<F=8.087因此由判断知产品推销方式不同对销售量有显著差异。
由此可见, 广告A3引起的销售量最多, 所以在商店中示范使用是提高该商品销售量的最好办法, 我们应该在多种商场内进行对该商品的示范使用。
μi的置信度为1-α的置信度区间
95%的置信度区间为
4 总结
上面这道题就是单因素销售量影响的情况, 我们运用单因素方差分析, 分析了题中因素对产品销售量的影响是否显著, 不显著的我们可以任意选取一种水平即可, 对于显著的我们又通过水平观察的平均数的比较, 给其选择一种最优方案, 读者可参照例题直接运用公式进行计算。但是, 我们还要注意如果算出水平对产品销售量无显著影响则应该选取一种采用时比较经济的方案;还应注意一个问题, 从例题中我们可以看到A2, A3的销售量从数字上来看是大于A1的, 这时往往会有人认为A1可立即排删除, 他们的原因就是A1销售量太小, 虽然, 往往是这样的, 但是, 从例题中可以知道若只计算A2, A3, 它的结果是不显著, 从而造成A2, A3可任意选择一个, 这与3个水平同时计算的结果就造成了差异, 是不准确的, 所以我们在调查中不应只凭感官判断甚磨, 要用科学的方法选取最优方案。虽然我们这里只求了一道影响产品销售量的因素的例题, 但是, 方差分析是实用于有规律的各种销售量影响因素中。
摘要:本文简单的介绍了单因素方差分析模型及其方法, 运用单因素方差分析方法对产品销售量影响因素作用的大小进行了分析, 再利用F检验法, 对其影响是否显著进行了分析, 并预测最优试验条件下的观察值, 为或得较大的销售量提出了合理的建议和方案。
关键词:因素,水平
参考文献
[1]于义良, 张银生.实用概率统计[M].北京:中国人民大学出版社, 2001.
[2]许承德, 王勇.概率论与数理统计[M].北京:科学出版社, 哈尔滨工业大学数学系, 2001.
[3]孙海珍, 刘宝友, 刘响林.概率论与数理统计[M].北京:中国铁道出版社, 2002.
[4]辛益军.方差分析与实验设计[M].北京:中国财政经济出版社, 2002.
[5]施雨, 李耀武.概率论与数理统计应用[M].西安:西安交通大学出版社。
方差分析在学生成绩考核中的应用 篇8
近年来,国家通过开展教育评估工作有效地促进了高等院校的健康发展,同时各个高校内部引进教学评价机制,及时、全面的反映学校的教育情况,为校领导提供决策支持。社会对学生学习成绩下降的原因大多归为理由:教材陈旧,负担过重,考题偏难,学习环境差,教师不负责不尽职,学校的制度有问题等等。但是把影响学生学习成绩的原因完全归咎于这些客观原因,似乎也有失公正。因为能考入高等学府的学生的智力水平一般都不算太差,那么,关键性的问题出在哪里?学生进入大学后,哪些因素成为直接影响其成绩的关键?我们应选择什么评价因素才有利于消除模糊性、偶然性,有利于量化处理?那些异常情况又代表着怎样的趋势?
带着这些思考,本文通过将2010级学生作为样本对影响学生成绩的诸多因素进行方差分析,从而讨论哪些因素是显著的。由于处理数据所用软件SPSS是用线性模型的方法处理多因素方差分析,所以,我们也采用线性模型中的方差分析模型对影响学生成绩结果的因素加以分析,得到了一些对实际工作具有指导意义的结论。
2 方差分析模型的构建
2.1 方差分析概述
方差分析的实质是检验多个总体均值是否有显著性的差异,它是通过将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源地平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均值是否相等。
2.2 方差分析一般模型
①单因素方差分析的统计模型。
若考虑的因素为A,假设它有a个水平,则此问题的模型为:
undefined
其中,yij表示在第i个水平Ai之下第j次重复试验的观察值,μ为所有样本均值的总平均,αi为第i个水平对指标Y的效应。
②双因素方差分析的统计模型。
若所考虑的因素为因素A与因素B,假定A有a个水平,B有b个水平,则此模型为:
undefined
3 结合案例进行分析
3.1 针对数学期末统考成绩分析
首先,用聚类法对数据进行有序样本聚类。将数据排序后,发现最高分为606分,最低分为258分,把学生根据高考成绩分成10个类结果如下:
由表中的数据可知,类型1与类型2的数学成绩均分最为接近,分析检验应通过两步进行:
第一步:先对这两类进行方差齐性的F检验。
H0:σ2=σ3↔H1:σ2≠σ3
该检验的统计量undefined的观测值为2.048,对应的概率P值为0.156。由于概率P值>0.05,认为这两类方差无显著性差异。
第二步:对两类均值是否相等的T检验。
H0:μ2=μ3↔H1:μ2≠μ3
统计量undefined的观测值为-0.213,对应的P值为0.818。由于概率P值>0.05,认为这两类的均值无显著差异。
所以,将第一类与第二类合为一类,然后再检验与第三类是否可以合并成一类。接着我们发现表中第三类与第四类高数成绩均值较为接近,进一步检验是否可合并。首先进行方差齐性检验,结果为0.068,在α=0.05的水平下通过了检验。进而检验他们的均值是否相等,结果概率P值为0.02,在α=0.05的水平下否定了原假设,即不能合并成一类。但是通过进一步计算不难发现,两类学生数学成绩均值差的95%的置信区间为(-4.395,-0.383),怀疑是否是个别异常值影响了整体的均值。经检验其中有五个为异常值,将其删除后,两类学生的数学成绩的均值无显著性差异验,所以也可将这两类学生进行合并。同理对分类继续上面的工作,发现表1中的第五类与第六类可以合并,第七类与第八类可以合并,第九类与第十类可以合并,合并后均值差异性显著。所以可以得到一个新的分类表如下所示:
由上表分析结果如下:
①第1、2、3、4类学生的高数成绩均值基本上与高考成绩成正相关关系,可见高考成绩是影响入学后成绩的一个重要因素。
②第4类学生的数学成绩均值不及格,与其它类的差别较大,这类学生在入学成绩较低的学生中占有很大比例。
③第5类学生虽然高考成绩很低,但数学成绩均分却高于第4类学生,从原始数据发现这类学生大多来自上海,故不同省份的学生在入学后学习能力存在差异。
3.2 分析结果
方差分析基于样本服从正态分布的假设,所以首先采用χ2检验的方法,对学生的高数成绩进行正态性检验,在水平α=0.05下通过了检验。结果如下:
高考数学成绩~N(70.05,218.57)
结果按多因素方差分析表列出如下:
从Pr(F)可知,以0.05为检验显著性水平,四个因子即生源省份、教师、高考成绩、性别的不同水平之间都存在着显著差异。
4 结论
通过分析可以看出,生源省份,教师,学生性别及入学成绩及所在学院都成为影响学生在校学习成绩的重要因素,所以要想提高学生的成绩,保证学校的教学质量,以上的每一个因素都是不容忽视的。前面的数据分析结果说明,高考入学成绩与在校学习成绩成强正相关关系,在校学习的尖子生大都高考成绩高,而在校学习的差生大都高考成绩较低,而且不同生源省份的学生学习后劲显著不同,所以提高教学质量不仅仅是教学过程的问题,而应从招生环节开始抓。当然提高生源质量不仅仅是学校一厢情愿的事情,根本还是要提高学校的知名度,获得考生和社会的认可。数据分析结果也说明教师对学生学习质量有显著影响。同一门课效果最好的教师和最差的教师平均效应相差14分,由此可见教师在提高教学质量中的地位和作用。学校在教师队伍建设的管理中应以教学质量为中心,建立系列规章制度和必要的激励措施,在教师聘用、岗前培训、任课资格把关、教学过程考核等方面形成鼓励教师加大教学投入、潜心研究教学技艺、优劳优酬、优胜劣汰的机制,特别要注重建立科学合理的教师教学效果评价体系,不能只注重学历、职称,应更注重教学的实际效果。另外学校还要加强对外聘教师的管理,对其也要按照学校的统一要求进行监控与质量考核。
参考文献
[1]薛薇.SPSS统计分析方法及应用[D].北京:电子工业出版社,2004.
[2]于秀林,任雪松.多元统计分析[D].北京:中国统计出版社,2007.
[3]杨虎,刘琼荪,钟波.数理统计[D].北京:高等教育出版社,2004.
[4]刘海生.多元统计分析法在学生成绩综合评价中的应用[M].华北科技学院,2009,3:77-79.
[5]李莉,张薇,缪柏其,戴小莉.影响本科生学习成绩因素的探究与分析[M].中国高等教育研究,2004,4:44一48.