A. [(1-a)(1-b)] B. [1-a(1-b)]
C. [1-(a+b)] D. [1-b(1-a)]
9. 如图,将一个各面都涂了油漆的正方体,切割为125个同样大小的小正方体. 经过搅拌后,从中随机取一个小正方体,记它的涂漆面数为[X],则[X]的均值[E(X)=]( )
A. [126125] B. [65]
C. [168125] D. [75]
10. 设离散型随机变量[ξ]满足[Eξ=-1],[Dξ=3],则[E[3(ξ2-2)]]等于( )
A. 9 B. 6
C. 30 D. 36
二、填空题(每小题4分,共16分)
11. 若[ξ]的分布列如下表, 则[Eξ=] ,[Dξ=] .
[[ξ]\&0\&1\&[P]\&[p]\&[1-p]\&]
12. 若随机变量[X~N(μ,σ2)],则[P(X≤μ)=] .
13. 已知离散型随机变量[X]的分布列如下表.
[[X]\&-1\&0\&1\&2\&[P]\&[a]\&[b]\&[c]\&[112]\&]
若[EX=0],[DX=1],则[a=] ,[b=] .
14. 甲罐中有5个红球,2个白球和3个黑球,乙罐中有4个红球,3个白球和3个黑球.先从甲罐中随机取出一球放入乙罐,分别以[A1,A2]和[A3]表示由甲罐取出的球是红球,白球和黑球的事件;再从乙罐中随机取出一球,以[B]表示由乙罐取出的球是红球的事件,则下列结论中正确的是 .
①[P(B)=25] ②[P(B|A1)=511] ③事件[B]与事件[A1]相互独立 ④[A1,A2,A3]是两两互斥的事件 ⑤[P(B)]的值不能确定,因为它与[A1,A2,A3]中哪一个发生有关
三、解答题(共4小题,44分)
[时间][频率/组距][0.025][0.0065][0.003][20 40 60 80 100] 15. (10分)某学校随机抽取部分新生调查其上学所需时间(单位:分钟),并将所得数据绘制成频率分布直方图(如图),其中,上学所需时间的范围是[0,100],样本数据分组为[0,20),[20,40),[40,60),[60,80),[80,100).
(1)求直方图中[x]的值;
(2)如果上学所需时间不少于1小时的学生可申请在学校住宿,请估计学校600名新生中有多少名学生可以申请住宿;
(3)从学校的新生中任选4名学生,这4名学生中上学所需时间少于20分钟的人数记为[X],求[X]的分布列和数学期望.(以直方图中新生上学所需时间少于20分钟的频率作为每名学生上学所需时间少于20分钟的概率)
16. (10分)某游乐场将要举行狙击移动靶比赛. 比赛规则是:每位选手可以选择在[A]区射击3次或选择在[B]区射击2次,在[A]区每射中一次得3分,射不中得0分;在[B]区每射中一次得2分,射不中得0分. 已知参赛选手甲在[A]区和[B]区每次射中移动靶的概率分别是[14]和[p(0
(1)若选手甲在[A]区射击,求选手甲至少得3分的概率;
(2) 我们把在[A,B]两区射击得分的数学期望高者作为选择射击区的标准,如果选手甲最终选择了在[B]区射击,求[p]的取值范围.
17. (12分)一个袋子中装有大小形状完全相同的编号分别为1,2,3,4,5的5个红球与编号为1,2,3,4的4个白球,从中任意取出3个球.
(1)求取出的3个球颜色相同且编号是三个连续整数的概率;
(2)求取出的3个球中恰有2个球编号相同的概率;
(3)记[X]为取出的3个球中编号的最大值,求[X]的分布列与数学期望.
18. (12分)某公园设有自行车租车点, 租车的收费标准是每小时2元(不足1小时的部分按1小时计算).甲、乙两人各租一辆自行车,若甲、乙不超过一小时还车的概率分别为[14,12];一小时以上且不超过两小时还车的概率分别为[12,14];两人租车时间都不会超过三小时.
(1)求甲、乙两人所付租车费用相同的概率;
(2)设甲、乙两人所付的租车费用之和为随机变量[ξ],求[ξ]的分布列与数学期望[Eξ].
方差分析在短信套餐设计中的应用 篇7
1.1 统计方法介绍
统计数学最早应用于科学研究, 随着市场经济的发展, 统计方法也越来越广泛的应用于各商业应用中。商业应用中常用的统计方法包括:方差分析、相关分析、回归分析、聚类分析、判别分析、主成分分析和因子分析等。其中方差分析引用最为广泛, 也是本文重点使用的一个工具和办法, 因此在次介绍其基本原理。
方差分析可分成反差和协方差分析。方差分析和协方差分析用于在考虑非控制自变量作用的前提下, 检验因变量在控制自变量作用下的均值差异。本质上, 方差分析 (analysis of variance) 一般在两组或者两组以上均值差异检验时使用。通常零假设为各组均值相等。方差分析分成单因子方差分析和n因子方差分析。单因子方差分析只涉及一个定类变量或单一因子, n因子方差分析则涉及两个或者两个以上因子。如果自变量中既包含定类变量也保留定量变量, 则成为协方差分析 (analysis of covariance) 。
方差分析有关的统计量:
mean square, 均值, 均方是平方和除以适当的自由度。
SSR, 组间离差平方和, 各组平均值与总平均值离差的平方和。
MSR, 组间均方, 等于SSR/ (k-1) 。
SSE, 组内离差平方和, 每个样本与其组内平均值离差的平方和。
MSE, 组内均方, 等约SSE/ (n-1)
F statistic, F检验统计量, 用于检验组均值相等的零假设, 等于MSR/MSE
1.2 方差的应用介绍
方差分析一般在两组或者两组以上均值差异检验时使用, 如新势力的分3种短信套餐, 方差分析中可以将这3种短信短信套餐作为3组数据进行均值差异的检验, 从而发现这3种短信套餐的划分是否引导了用户消费, 短信消费条数是否有明确界限。方差分析必须有一个定量的因变量, 以及一个或者多个自变量, 在对新势力的短信套餐分析中我们选择使用的短信条数为因变量, 短信套餐类型为自变量。从而对各套餐的短信条数的均值、方差进行详细分析。
统计方法的应用过程中, 由于统计对象 (数据) 的日益复杂, 靠原始的数学公式手工演算显然不适合。目前流行的统计软件有:SPSS、SAS、Minitab和常用的办公软件Excel。其中SPSS、SAS最为通用, 本文选择SPSS软件进行相关的方差分析。SPSS (Statistics Package for Social Science) 中文直译为社会科学统计软件包。SPSS由美国斯坦福大学研制, 1971美国SPSS软件公司商业化, 成为一种适用于多机型、多操作系统的统计软件包, 其中SPSS11.0 for Windows版本被业界广泛应用。
为方便下文的SPSS输出表格的理解, SPSS输出表格与方差相关值的对应关系说明如下。Mean=均值;Between Groups=组间;Within Groups=组内;Mean Square=均方;Sum of Squares=离差平方和;F=F检验统计量。
2 广东联通“新势力”品牌短信套餐的方差分析
2.1“新势力”短信套餐的现况
广东联通的预付费产品分成新势力、如意通、万众卡3大类。从数据看新势力品牌在3大预付费品牌中用户数和收入占比数都处于最弱的位置, 而且在网的活动用户比例是最低的, 也就是说大部分的“新势力”用户处于无通话行为的状态。而且从“新势力”用户的新入网情况来看, 处于净流失状态。急需对用户的资费套餐进行调整以适应市场。
“新势力”短信资费如下:新势力-26元, 含600条网内外短信;新势力-16元, 含400条网内外短信;新势力-10元, 含150条网内外短信。
2.2“新势力”短信消费情况分析
通过统计数据库账单表中的短信条数、短信费用、月租费用等计算各品牌的每月平均短信使用条数和平均每条短信价格。对比数据发现:新势力用户的每月平均使用条数分别比如意通和万众卡高出189%和161%, 明显的体现了新势力品牌的功能属性, 也就是套餐设计中强调的短信套餐功能。但同时从每条短信的平均价格可以发现新势力的短信价格高出如意通和万众卡品牌14%和25%。也就是说用户多使用业务单价资费反而高, 存在一定的不合理情况。从上面分析我们可以认为新势力的短信资费存在调整空间的, 或者短信套餐的设置的合理性是值得商榷的。
为研究新势力品牌3类套餐的短信设置的合理性, 我们从月帐单表抽取586个10元套餐用户、16个套餐用户、26元套餐用户各586个用户数据, 对其使用短信条数进行统计分析, 暂不考虑网内外的短信条数进行分析。由于热信套餐号码的短信条数会对统计造成干扰 (热信的短信是免费的, 一般有此套餐用户的月短信消费次数会非常大) , 剔除有热信套餐的号码。通过SPSS软件进行方差分析, 以分析“新势力”用户的短信套餐条数设计是否合理, 与用户的消费行为是否匹配。方差分析结果如表1所示:
资料来源:通过SPSS软件计算后输出
结果说明:套餐值1.00、2.00、3.00分别10元、16元、26元套餐。F=263.077, F检验概率=0.000<α (0.005) , 故拒绝H0, 接受H1, 因此从短信使用条数看, 3种套餐产品的区分是明显的, 说明产品规划清晰。表2的mean (均值) 和表1的“平均使用条数”有所差异主要是方差分析选取的统计数据量和剔除热信套餐号码原因。从方差分析表发现, 16元套餐用户的均值为112, 95%置信度的Upper Bound (上限值) 为123, 这个区间其实落在“新势力”短信套餐的10元套餐区间内。因此绝大部分的16元套餐用户是“误选”了短信套餐。同样绝大部分的26元用户是“误选”了短信套餐。“误选”的原因可能是资费广告迷惑了用户或者相关的营销政策影响了用户。但最终这些“误选”的用户会重新选择, 也就是离网或者转套餐。可见“新势力”短信套餐的设计并非符合用户的实际消费行为, 需要做相应的调整, 降低用户的每条短信的平均资费, 缩小品牌定义和用户使用感知间的差异。
2.3“新势力”短信消费与离网的关系
通过方差分析短信使用条数与下月是否离网的关系。本次统计分析抽取下月离网和在网用户数据各1000例子。设定H0:μ1=μ2;H1:μ1≠μ2。对数据进行整理, 打开SPSS, 输入相关数据.得出结果如下:
数据来源SPSS软件计算得出
数据来源SPSS软件计算得出
结果说明:观察表2和表3的SPSS软件输出结果, 其中x=0为离网用户, x=1为在网用户, F=2323.846, F检验概率=0.000>α (0.05) , 所以拒绝H0, 接受H1。用户的短信使用条数和用户的离网关系有着显著的关系。通过表2下月离网用户的当月使用短信条数为20条, 在网用户的当月短信使用条数为126条, 两者有较大的差距。也就是说“新势力”用户短信消费多的用户下月一般不容易离网, 而短信消费少的用户, 下月的离网比率高。分析得到的结果并不能说明因为用户使用短信少所以离网了, 但能说明的是使用短信条数多的用户离网几率较低, 结合2.2话务量分析中短信套餐分析, 我们可以认为刺激“新势力”用户短信的使用量可以对用户的挽留维系有着积极的作用, 而刺激用户的短信消费可通过短信套餐的设计来实现。
3 广东联通“新势力”品牌的短信套餐调整建议
短信消费是“新势力”品牌的一个重要功能属性。在2.2的分析中发现“新势力”用户的短信消费频度远远高于其他品牌, 但也发现用户的平均每条短信的费率是高于其他品牌的, 特别是26元套餐的用户的短信资费。从用户的品牌感知来说, 用户并不觉得新势力的短信套餐性价比低, 甚至可能因此产生转到更加实惠的套餐的意愿。从用户的短信套餐方差分析表可以看到3个套餐的短信消费条数均值为76、112、270。其中前面两个短信套餐的使用条数的差异很小, 应该考虑合并。合并后均值可以设计为90、270。根据均值, 乘以合理的单条价格, 假设合理单价为0.13元, 我们可大致推算新的套餐的价格。设计用户短信消费将在门限值以内, 但产品的实际中的免费短信条数不应该小于原来的优惠条数, 避免用户购买产品产生比原来产品更贵的错觉。从表1可见目前26元套餐的95%置信度的下限值为252条, 因此需要在新的12元套餐的短信条数最好低于252, 避免再次出现重叠, 导致用户“误选”套餐。具体短信套餐设计如表4:
上述设计, 以合理短信资费为原则, 覆盖了目前用户的消费习惯, 拉开短信套餐的距离。但这只是假设的套餐设计, 是否符合市场需求还需要相关的测试和验证。但整体来说短信套餐的设计应该参考用户目前的消费情况, 套餐设计中应注意套餐间隔。
4 总结和展望
在实际的市场上, 联通也确实推出了“新势力”的新产品, 短信套餐做了相应的调整, 以刺激用户的短信使用和维护用户的品牌感知。
本文论述了方差分析在“新势力”品牌的短信套餐设计中的一些建议和想法。但套餐设计是否合理还得参考更为重要的因素——语音套餐的设计, 本文只是针对短信消费部分进行相关分析, 希望起到抛砖引玉的作用。语音方面的分析也可以使用类似的方法, 但用户消费行为的语音部分数据的量化工作的复杂度将远远超过短信部分的数据量化工作, 本文不做详细阐述。
随着数据库技术的发展, 用户消费数据越来越详细的记录到数据库中, 为在海量的数据信息中筛选出有用的数据, 数据挖掘、统计方法更有理由的广泛的应用市场产品设计中去。
参考文献
[1]卫海英.SPSS10.0for window在经济管理中的应用[M].北京:中国统计出版社, 2003
[2]Naresh K.Malhotra著.涂平译.市场营销研究:应用导向[M].北京:电子工业出版社, 2006
方差分析在学生成绩考核中的应用 篇8
近年来,国家通过开展教育评估工作有效地促进了高等院校的健康发展,同时各个高校内部引进教学评价机制,及时、全面的反映学校的教育情况,为校领导提供决策支持。社会对学生学习成绩下降的原因大多归为理由:教材陈旧,负担过重,考题偏难,学习环境差,教师不负责不尽职,学校的制度有问题等等。但是把影响学生学习成绩的原因完全归咎于这些客观原因,似乎也有失公正。因为能考入高等学府的学生的智力水平一般都不算太差,那么,关键性的问题出在哪里?学生进入大学后,哪些因素成为直接影响其成绩的关键?我们应选择什么评价因素才有利于消除模糊性、偶然性,有利于量化处理?那些异常情况又代表着怎样的趋势?
带着这些思考,本文通过将2010级学生作为样本对影响学生成绩的诸多因素进行方差分析,从而讨论哪些因素是显著的。由于处理数据所用软件SPSS是用线性模型的方法处理多因素方差分析,所以,我们也采用线性模型中的方差分析模型对影响学生成绩结果的因素加以分析,得到了一些对实际工作具有指导意义的结论。
2 方差分析模型的构建
2.1 方差分析概述
方差分析的实质是检验多个总体均值是否有显著性的差异,它是通过将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源地平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均值是否相等。
2.2 方差分析一般模型
①单因素方差分析的统计模型。
若考虑的因素为A,假设它有a个水平,则此问题的模型为:
undefined
其中,yij表示在第i个水平Ai之下第j次重复试验的观察值,μ为所有样本均值的总平均,αi为第i个水平对指标Y的效应。
②双因素方差分析的统计模型。
若所考虑的因素为因素A与因素B,假定A有a个水平,B有b个水平,则此模型为:
undefined
3 结合案例进行分析
3.1 针对数学期末统考成绩分析
首先,用聚类法对数据进行有序样本聚类。将数据排序后,发现最高分为606分,最低分为258分,把学生根据高考成绩分成10个类结果如下:
由表中的数据可知,类型1与类型2的数学成绩均分最为接近,分析检验应通过两步进行:
第一步:先对这两类进行方差齐性的F检验。
H0:σ2=σ3↔H1:σ2≠σ3
该检验的统计量undefined的观测值为2.048,对应的概率P值为0.156。由于概率P值>0.05,认为这两类方差无显著性差异。
第二步:对两类均值是否相等的T检验。
H0:μ2=μ3↔H1:μ2≠μ3
统计量undefined的观测值为-0.213,对应的P值为0.818。由于概率P值>0.05,认为这两类的均值无显著差异。
所以,将第一类与第二类合为一类,然后再检验与第三类是否可以合并成一类。接着我们发现表中第三类与第四类高数成绩均值较为接近,进一步检验是否可合并。首先进行方差齐性检验,结果为0.068,在α=0.05的水平下通过了检验。进而检验他们的均值是否相等,结果概率P值为0.02,在α=0.05的水平下否定了原假设,即不能合并成一类。但是通过进一步计算不难发现,两类学生数学成绩均值差的95%的置信区间为(-4.395,-0.383),怀疑是否是个别异常值影响了整体的均值。经检验其中有五个为异常值,将其删除后,两类学生的数学成绩的均值无显著性差异验,所以也可将这两类学生进行合并。同理对分类继续上面的工作,发现表1中的第五类与第六类可以合并,第七类与第八类可以合并,第九类与第十类可以合并,合并后均值差异性显著。所以可以得到一个新的分类表如下所示:
由上表分析结果如下:
①第1、2、3、4类学生的高数成绩均值基本上与高考成绩成正相关关系,可见高考成绩是影响入学后成绩的一个重要因素。
②第4类学生的数学成绩均值不及格,与其它类的差别较大,这类学生在入学成绩较低的学生中占有很大比例。
③第5类学生虽然高考成绩很低,但数学成绩均分却高于第4类学生,从原始数据发现这类学生大多来自上海,故不同省份的学生在入学后学习能力存在差异。
3.2 分析结果
方差分析基于样本服从正态分布的假设,所以首先采用χ2检验的方法,对学生的高数成绩进行正态性检验,在水平α=0.05下通过了检验。结果如下:
高考数学成绩~N(70.05,218.57)
结果按多因素方差分析表列出如下:
从Pr(F)可知,以0.05为检验显著性水平,四个因子即生源省份、教师、高考成绩、性别的不同水平之间都存在着显著差异。
4 结论
通过分析可以看出,生源省份,教师,学生性别及入学成绩及所在学院都成为影响学生在校学习成绩的重要因素,所以要想提高学生的成绩,保证学校的教学质量,以上的每一个因素都是不容忽视的。前面的数据分析结果说明,高考入学成绩与在校学习成绩成强正相关关系,在校学习的尖子生大都高考成绩高,而在校学习的差生大都高考成绩较低,而且不同生源省份的学生学习后劲显著不同,所以提高教学质量不仅仅是教学过程的问题,而应从招生环节开始抓。当然提高生源质量不仅仅是学校一厢情愿的事情,根本还是要提高学校的知名度,获得考生和社会的认可。数据分析结果也说明教师对学生学习质量有显著影响。同一门课效果最好的教师和最差的教师平均效应相差14分,由此可见教师在提高教学质量中的地位和作用。学校在教师队伍建设的管理中应以教学质量为中心,建立系列规章制度和必要的激励措施,在教师聘用、岗前培训、任课资格把关、教学过程考核等方面形成鼓励教师加大教学投入、潜心研究教学技艺、优劳优酬、优胜劣汰的机制,特别要注重建立科学合理的教师教学效果评价体系,不能只注重学历、职称,应更注重教学的实际效果。另外学校还要加强对外聘教师的管理,对其也要按照学校的统一要求进行监控与质量考核。
参考文献
[1]薛薇.SPSS统计分析方法及应用[D].北京:电子工业出版社,2004.
[2]于秀林,任雪松.多元统计分析[D].北京:中国统计出版社,2007.
[3]杨虎,刘琼荪,钟波.数理统计[D].北京:高等教育出版社,2004.
[4]刘海生.多元统计分析法在学生成绩综合评价中的应用[M].华北科技学院,2009,3:77-79.
[5]李莉,张薇,缪柏其,戴小莉.影响本科生学习成绩因素的探究与分析[M].中国高等教育研究,2004,4:44一48.
方差分析 篇9
目前, 以上海为核心, 以江苏和浙江组成的地区是我国经济增长最迅速、发展潜力最大的地区之一, 也是促进我国经济快速发展的重要的区域之一。近些年来, 社会财富不断增加, 人民的生活在总体上也渐渐富足, 但与此同时, 居民收入分配格局和收入差距也出现了显著性的变化。收入差距问题已经越来越成为人们关注的焦点, 对收入差距的相关研究也成为研究的热点。但是目前国内学者对收入差距的研究大多都集中在地区之间、城乡之间以及阶层之间人均收入差距, 而对城镇居民人均可支配收入差距的研究并不多。在这种背景下, 本文将从人均可支配收入的角度, 研究该地区内部区域之间城镇居民收入差距的演变过程及其特征。这对于该地区实现协调发展和可持续发展有着重大的意义。
二、协方差分析的必要性及其思路
研究n个总体的试验指标的均值是否存在显著差异, 可以采用方差分析法。如果试验指标会受一些不可控因素的影响, 这时仍采用方差分析法, 可能得到的结论会不准确。为了提高试验的准确度和精确度, 必须是所有试验单元或区组内的试验单元的试验条件一致。由于这三个省份经济水平的差异, 人们工资水平会有不同, 而工资水平的不同必然会影响居民的人均可支配收入, 因此, 在研究区域间人均可支配收入的差异时, 就不应忽略职工平均工资的影响, 这样才能更真实的反映可支配收入差距的大小。协方差分析就是把回归分析和方差分析相结合起来, 用来检验两个或多个修正均数间有无差异的一种统计检验方法。它将排除协变量对分析结果的影响, 从而更加准确地对试验指标进行评价。因此, 在本文的研究中选取了协方差分析法, 在研究三个省份的人均可支配收入时, 考虑到职工平均工资这样难以控制的影响因素, 得出的结果将更为精确有效。
1、模型的设计
我们通过对只有一个协变量的单因素试验实验设计来说明协方差分析的基本方法, 假定响应变量和协变量之间存在线性关系, 恰当的统计模型是:
其中yij是在单因素的第i种处理或水平下的响应变量的第j个观察值, xij是对应于yij的 (即第ij个试验) 的协变量或伴随变量上的度量, x..是xij的平均值, μ是总平均值, τi是第i次处理的效应, β是线性回归系数, 表示yij对xij的相依性, εij是随机误差分量, 假定εij是服从正态分布NID (0, σ2) 。
2、协方差分析的一般步骤
第一步, 分别计算总的、处理 (组间) 的以及误差 (组内) 的平方和与交叉积和
一般, S=T+E, 其中符号S、T、E分别表示对总、处理、以及误差的平方和与交叉积和。对x和y的平方和必须是非负的, 但是交叉积 (xy) 的和可以是非负的。
第二步, 构造F值, 检验是否存在协变量的效应
如果F显著, 说明处理间存在显著差异, 协变量的效应是存在的, 是引起观测变量变动的主要因素之一, 可以用协方差分析法进行调节, 接着可进行多重比较。
第三步, 调节处理平均值, 进行协方差分析
注意, 协方差分析是利用回归关系, 把协变量x化为相等后再进行各组y的修正均数间比较的假设检验。通过上面的调节公式, 我们可以消除协变量的影响, 在排除了协变量线形影响之后, 控制变量对观测变量的影响分析同方差分析。
三、实证分析
本文中将人均可支配收入 (y) 作为响应变量, 职工平均工资 (x) 作为协变量。将江苏、上海、浙江这三个地区看作是三个不同的处理。这里我们可以将搜集到的2000~2007年这三个地区的人均可支配收入, 职工平均工资的数据看作是重复八次的实验, 其具体数据如表1所示
数据来源:《江苏省统计年鉴》
(一) 假设条件的检验
1、正态性检验
根据表1中的数据, 运用SPSS软件进行正态性检验, 经Kolmogorow-Smirnor’s检验, 得到Kolmogorow-Smirnor的统计值为0.092, 其相应的伴随概率P=0.2。经Shapirowilk检验, Shapiro-wilk统计值为0.974, 其伴随概率P=0.768。可见, 在给定显著水平α=0.05水平上, 两种检验都可以得出表1中的数据是符合正态分布的。
2、独立随机性检验
表1中所搜集的江苏省, 上海市, 浙江省的近8年的人均可支配收入、职工平均工资的数据均是来自2001-2008年《江苏省统计年鉴》。数据满足随机独立性的要求。
3、方差齐性检验
方差齐性检验就是检验各观测变量在控制变量不同水平下的方差是否相等。运用SPSS软件, 进行Levene’s检验, 得到Levene的统计值为0.206, 其相应的伴随概率P=0.815, 在显著水平α=0.05时, 实验所选取的这些数据是满足方差齐性的要求的。
4、各组的回归系数的检验
从图1中可以看出, y与x呈明显的线性关系, 并且是高度正相关, 三条直线的斜率基本保持相同, 并且不为零。
根据以上对假设检验进行的分析, 文章中所搜集的数据满足协方差分析的基本条件, 因此可以对所搜集的数据进行协方差分析。
(二) 简单协方差分析
首先分析没有考虑协变量因素影响时的情况, 也就是不考虑职工的平均工资 (x) , 对三个地区的人均可支配收入 (y) 进行一般的方差分析, 运用SPSS软件进行分析, 分析结果如表2所示。
表2中, 第二列给出了组间差平方和、组内离差平方和及总离差平方和, 第三列给出了它们对应的自由度, 第四列是对应的均方差;第五列和第六列分别给出了F统计量和它对应的p值。由于p=0.018<0.05, F统计值也大于在自由度分别为2和21时F的临界值。因此, 我们应该拒绝原假设, 也就是说, 我们认为在江苏、上海、浙江这三个地区人均可支配收入是存在着差异性的。于是我们可以进一步进行多重检验, 由于这里选取的实验数据满足了不同因素水平下的方差齐性的要求, 所以我们就采用LSD检验法进行多重比较。在给定的显著性水平α=0.05时, 江苏省的人均可支配收入与上海的人均可支配收入存在着显著性的差异, 浙江省的人均可支配收入与江苏省、上海市的人均可支配收入并没有什么显著的差异。并且可以通过均值散点图可以发现, 上海市的人均可支配收入最高, 其次是浙江省和江苏省。
通过上面的分析得出拒绝了零假设的结论, 也就是说协变量对观测变量的线形影响是显著的, 由于方差分析没有考虑到协变量的影响, 为了保证分析结果的准确性、更真实性, 应进行协方差分析, 分析结果如表3。表3中协变量职工平均工资对应的P值为0, 说明职工平均工资对人均可支配收入的影响是显著的。F值大于相应的临界值, 其伴随概率在α=0.05的显著水平下是显著的, 因此我们也得出江苏、上海、浙江这三个地方的人均可支配收入存在着显著差异, 且F值170.916比方差分析中的F值4.862大得多。
接下来我们可以通过协方差分析进行调节, 来消除协变量对观测变量的影响, 然后对修正的均值进行对比。这里, 修正是将各个水平下协变量对观测变量影响中高于协变量总体平均影响的部分扣除, 计算方法前面已经介绍。运用SPSS软件, 进行修正后的均值比较, 从而可以进一步对这三个地区的人均可支配收入进行多重比较, 比较结果如下:
从表4中我们发现, 江苏、上海、浙江三个地区的人均可支配收入均存在着显著性的差异, 但不如未调整前差异那么大了, 因为这里已经消除了职工平均工资的影响。差异的显著性依次降低:上海的和浙江的, 江苏的和浙江的, 江苏的和上海的。江苏的人均可支配收入比浙江的人均可支配收入平均少1497.640元, 上海的人均可支配收入比浙江的人均可支配收入平均少1877.639。浙江的人均可支配收入最高, 第二是江苏, 上海的最低, 可见, 该结论与一般方差分析法得出的结论是不完全一致的, 同时, 这里上海的人均可支配收入与浙江的相比是有差异的。
四、结论
文章采用了协方差分析方法, 分析了江苏、上海、浙江的地区区域间人均可支配收入的差异, 在消除了职工平均工资对人均可支配收入的影响后, 得出了浙江省的人均可支配收入最高, 其次是江苏, 最后的是上海。可见职工平均工资在这三个省份的差异很大, 并对上海的人均可支配收入影响最大, 也就是说上海的职工平均工资应该最高。这与直接根据人均可支配收入来分析的单因素方差分析法相比, 实验精度更高, 更符合实际。
由于江浙沪地区吸引着绝大多数的外来投资, 在外来投资上, 目前的现实情况是:制造业去江浙, 商业服务业去上海, 中小企业去江浙, 大型企业去上海。而商业服务业和大型企业的职工平均工资都要高于制造业和中小企业, 因而导致这三个地区的职工平均工资有很大差异, 其必然会影响到地区居民的人均可支配收入。于是在用方差分析时, 得出了三个地区差异很大的结论, 在剔除职工平均工资的影响后, 差异变小, 但同时上海的人均可支配收入也从最高降到最低。这是由于上海与另两个省相比, 商业服务业、金融业等高增加值产业发达, 大型企业更多, 使得上海的职工平均工资更高。因此, 在除去这一因素的影响后, 对上海的人均可支配收入影响非常显著。浙江省的人均可支配收入是一直高于江苏省, 这也与两个省的经济发展模式有着重要的关系, 浙江省的中小企业经济发展的要比江苏省好, 使得浙江省的居民比较富裕, 是一种藏富与民的模式。而江苏省相比之下是集体经济比较发达, 更多的是集体的富裕, 因而也就使得江苏省的人均可支配收入一直没有浙江的高。
参考文献
[1]Douglas C.Montgomery著, 汪仁官, 陈荣昭译.实验设计与分析 (第三版) [M].中国统计出版社, 1998.
[2]朱建平, 殷瑞飞.SPSS在统计分析中的应用[M].清华大学出版社, 2007.
[3]薛薇主编.SPSS统计分析方法及应用[M].电子工业出版社, 2004.
[4]袁志发, 周静芋.试验设计与分析[M].高等教育出版社, 2000.
方差分析 篇10
20世纪70年代, 全世界范围内爆发第一次能源危机, 能源问题因此引起全世界各国的重视。特别近年来能源消耗呈飞速增长趋势, 能源问题已经成为制约全球经济可持续发展的重要影响因素。联合国环境署可持续建筑促进组织 (UNEP-SBCI) 2009年公布的《建筑与气候变化:决策者摘要》报告中指出, 建筑能耗已经占到全球能源消费的40%[1]。目前, 中国建筑能耗约占全社会能源总能耗的30%左右, 根据发达国家的经验, 这一比例将逐步增加到40%左右[2]。
我国农村居住面积约为2 300万m2, 占全国总居住面积的60%, 农宅建筑能耗占全国建筑总能耗的37%[3]。而北方地区冬季气候寒冷, 据清华大学调查结果显示, 北方农村住宅的供暖能耗占农宅建筑总能耗的60%以上[3]。
调查研究农宅供热能耗的影响因素和特点, 是农宅供热节能的关键。运用适宜的方法, 筛选出对农宅供热能耗有显著性影响的主要因素, 可以对国家的农宅供热节能规范和相关政策制订提供有效的理论指导作用, 对减少农村住宅能耗大有裨益。
国内关于建筑能耗影响因素的统计研究, 文献[4]对29个可能的影响因素做简单相关分析, 然后对影响年能耗的简单相关变量做偏相关分析;文献[5]对南京市居住建筑能耗分析时, 把建筑能耗分为综合电耗和综合气耗两大部分, 用简单相关分析方法来分析总能耗与综合电耗、综合气耗的相关性;文献[6]在分析农村家庭能源消费的影响因素时, 通过简单相关分析得出有明显相关的影响变量, 而后通过回归拟合的方法确立了能耗使用模型。文献[7]对天津市医院建筑能耗影响因素的研究中, 使用偏相关分析方法分析得出供暖系统热源形式对单位建筑面积年能耗量的影响最大;文献[8]对长沙市居住建筑能耗调查采用偏相关分析方法, 分析结果表明总能耗、单位建筑面积能耗与家庭年收入、常住人口密切相关。本文采用的方差分析方法, 从各控制因素变量影响农宅供热能耗的差异入手, 进行农宅供热能耗影响因素的筛选及其影响程度的深度剖析。
1 研究对象及统计方法
本文主要研究东北三省农宅供热能耗的影响因素。首先采用调查问卷对农村住宅的供热能耗进行大量调研。问卷内容主要包括家庭基本信息、建筑基本信息、供热能耗、围护结构基本情况共四大部分。初步回收有效调查问卷200余份。
采用统计分析软件SPSS19.0对数据进行分析研究。SPSS (Statistic Package for the Social Science) 即社会科学统计软件包, 是在世界社会科学范围内应用最为广泛的统计软件, 其数据管理和分析功能强大, 且具有友好的界面和简便操作特性, 支持多种统计图表的结果输出, 是我们用来进行测试分析的理想工具[9]。
研究方法采用方差分析方法。目前国内尚无人使用方差分析方法来对供热能耗影响因素进行研究。方差分析的优势在于可以对影响因素进行深入分析, 并进一步查找产生差异的来源, 通过均值的比较可以分析得出节能潜力。
所研究的农宅供热能耗影响因素因变量为年供热总能耗, 自变量为调查问卷信息中的分类变量。关于年供热总能耗, 此处需做下解释。由于农村用能行为的特殊性, 致使炊事与供热使用同类能源的, 炊事用能与供热用能无法清晰剥离, 故年供热总能耗中会包含一部分炊事用能;又由于不同农户炊事能耗所占比例不同, 所含炊事能耗无法按某一比例系数剥离, 所以此处定义的年供热总能耗是包含一部分炊事能耗的, 并不是单纯的供热总能耗。对自变量为两个因子水平的分类变量, 采用独立样本t检验的方法;对自变量为大于等于三个因子水平的分类变量, 采用单因素方差分析的方法。其中, 独立样本t检验是单因素方差分析的特例。供热系统组成形式作为供热设备及供热热源, 直接影响供热能耗, 控制供热系统组成形式与任一其他影响因素作双因素方差分析。
方差分析用于两个及两个以上样本均数差别的显著性检验, 是通过检验因变量在自变量的不同因子水平上其均值是否存在显著性差异[10]。其中独立样本t检验和单因素方差分析须满足方差齐次性, 双因素方差分析须满足误差方差齐次性。关于F检验采用Tukey和Scheffe两种事后比较检验方法在0.05显著性水平上来判断各子组间的差异显著性。在方差齐性不满足的情况下, 独立样本t检验的结果为SPSS输出结果中“假设方差不相等”一行的结果;单因素方差分析采用“未假定方差齐性”的事后比较检验方法;双因素方差分析作单纯主效应分析予以检验。运用ω2和η2两个关联强度指标来衡量自变量的不同因子水平对总变异量的贡献程度。
这其中, SSb是组间平方和, SSt是总离差平方和, MSw是组内均方和, k为因子水平个数。
通常情况下, 用ω2表示单因素方差分析时的关联强度, 用η2表示双因素方差分析时的关联强度。在关联强度指数高低判断方面, 按照文献[11]提出的标准, 解释变量在6%以下的, 表示变量间关系微弱;解释变异量在6%以上且在16%以下的, 表示变量间属中度关系;解释变异量在16%以上的, 表示变量间具有强度关系。
2 供暖能耗影响因素方差分析
2.1 单因素方差分析
针对二分变量做独立样本t检验, 显著性水平小于0.1的影响因素如表1所示。家庭人员结构、住宅类型、屋顶形式、室内气味、采暖类型、新能源使用情况、常用炊事设备为柴灶、常用炊事设备为煤炉、常用炊事设备为燃气灶、外门门斗、外门为木门、外门为金属门、外门为塑钢门、屋顶保温、屋顶吊顶、外墙厚度、外墙保温共17个影响因素不显著, 未在表中一一列出。
冬季炊事频率在0.05显著性水平上具有统计学意义, 其显著性水平为0.026, t值为-2.641。关于冬季炊事频率, 黑龙江省多数住户冬季炊事频率为2次, 依次往南, 吉林省、辽宁省多数住户冬季炊事频率为3次。t值为负值, 说明随着冬季炊事频率的增加, 年供热总能耗增加。说明研究组冬季炊事频率为3次的均值大于对照组冬季炊事频率为2次的均值。这与农村炊事用能行为的特殊性有关, 炊事用能行为均在室内, 而且这部分炊事能耗又不易从供热能耗里剥离, 包含在供热能耗中, 就又增加了供热能耗。
对因子水平大于等于3的自变量做单因素方差分析, 显著性水平小于0.1的影响因素如表2所示。经济水平、建造年代、室内平均温度、室内外温差、空气流通状况、能源类型、外窗材料、外窗结构、南向窗墙比、外窗透风程度、屋顶材料、外墙结构、外墙保温、外墙装饰材料、地面材料共15个包括衍生变量在内的影响因素不显著, 未在表内一一列出。
所在地区、常住人口数、供热系统组成形式在0.05显著性水平上具有统计学意义, 建筑面积、北向窗墙比在0.1显著性水平上具有统计学意义。
2.2 单因素方差分析结果
以常住人口数为例做单因素方差分析, 结果显示不同常住人口数的年供热总能耗的差异是显著的 (F=3.242, Sig.=0.03) , 对这种差异做事后多重比较检验, 结果显示常住人口数为两人与两人以上的年供热总能耗的差异是不显著的, 三人与大于等于五人的年供热总能耗的差异是显著的。详细结果见图1, 其中柱状图上面字母代表齐性检验。
分析结果进一步指出, 年供热总能耗的总变异量可以由家庭常住人口数解释的百分比为11.7% (η2=0.169, ω2=0.117) , 介于6%~16%之间, 说明关联强度中等。
2.3 双因素方差分析
由上述单因素方差分析结果得知, 供热系统组成形式在0.05显著性水平上具有统计学意义。与其他两个在0.05显著性水平上具有统计学意义的影响因素相比, 供热系统组成形式是供热用能的用能设备, 属于直接影响, 而所在地区、常住人口数均属于间接影响。故本次分析固定供暖设备组成形式, 做供暖设备组成形式与其它某一自变量的双因素的方差分析, 来探讨双因素之间的交互作用以及进行交互作用下的单纯主效应分析。
显著性水平小于0.1的双因素如表3所示。从表3可知, 交互作用显著的组合有10组, 分别为供暖系统组成形式与所在地区、经济水平、住宅类型、屋顶形式、建造年代、室内采暖平均温度、采暖类型、经常使用炊事设备是柴灶、北向窗墙比和屋内是否有吊顶, 他们均为在0.05显著性水平上。对这些交互作用显著的组合做单纯主效应分析, 交互作用显著的组合由10组变为5组, 分别为供暖系统组成形式与所在地区、住宅类型、建造年代、北向窗墙比和屋内是否有吊顶。
2.4 双因素方差分析结果解析
以供热系统组成形式与住宅类型为例做双因素方差分析, 不同供热系统组成形式的年供热总能耗存在显著性差异 (F=3.323, Sig.=0.045) , 供热系统组成形式与住宅类型的交互作用显著 (F=4.919, Sig.=0.012) 。这其中, 供热系统组成形式可以解释12.9%的年供热总能耗的差异量 (η2=0.179) , 交互效应可以解释17.9%年供热总能耗的差异量 (η2=0.189) 。
从图2的均值图中也可以看出, 以住宅类型分类和以供热系统组成形式分类的年供热能耗曲线均为不平行, 说明均具有交互效应。独立院落的灶+火炉+火炕+土暖气的供热系统组成形式的年供热总能耗最高;联排院落中使用灶+火炕的户均年供热总能耗最高。
对供热系统组成形式与住宅类型双因素交互效应下的各子组做单因素方差分析, 即单纯主效应分析。结果显示使用灶+火炉+火炕供热系统组成形式的年供热总能耗在两种住宅类型之间存在显著性差异, 而其他两种供热系统组成形式在不同住宅类型的年供热总能耗没有显著性差异。详细结果如下:灶+炕 (F=1.457, Sig.=0.258) , 灶+火炉+火炕 (F=7.302, Sig.=0.016) , 灶+火炉+火炕+土暖气 (F=3.156, Sig.=0.091) 。其中差异显著性可参考图3。
关联强度值分析可以显示出年供热总能耗的总变异量可以由不同住宅类型解释百分比, 分别为:灶+火炕子组能解释4.4%的年供热总能耗变异量 (η2=0.139, ω2=0.044) , 灶+火炉+火炕子组能解释27%的年供热总能耗变异量 (η2=0.313, ω2=0.27) , 灶+火炉+火炕+土暖气子组能解释9.3%的年供热总能耗变异量 (η2=0.136, ω2=0.093) 。
从图3可知, 使用灶+火炉+火炕供热系统组成形式的农户, 独立院落与联排院落的户均年供热总能耗之间存在显著性差异, 联排院落户均年供热能耗相对较低。从图4可知, 在不考虑供热系统组成形式的情况下以住宅类型进行分类, 联排院落的户均总供热能耗相比独立院落能耗偏低, 年供热总能耗降低了8.15%。
3 结论
利用方差分析方法能够深入剖析农宅供热能耗的基本特征和主要影响因素, 可为农村供热能耗节能政策和相关规范的制定提供有力依据。针对东北三省农宅供热能耗影响因素的初步分析, 得到如下结论:
(1) 运用独立样本t检验, 在0.05显著性水平上, 从20个二分变量中分析得到有显著性差异的影响因素为冬季炊事频率;
(2) 在0.05显著性水平上, 对供热能耗有显著性影响的单因素为农宅地理位置、家庭常住人口数、供热系统组成形式;
(3) 在0.05显著性水平上, 双因素分析中有显著交互作用的因素为:供热系统组成形式*地理位置、供热系统组成形式*住宅类型、供热系统组成形式*建造年代、供热系统组成形式*北向窗墙比、供热系统组成形式*屋内是否有吊顶共五组。
本文首次尝试将方差统计分析方法应用在供热能耗影响因素量化分析研究中, 随着我国村镇农宅供热能耗统计数据库的全面建立和相关因素的整合, 深入研究的分析结果可能与初步研究结果存在一定的差异。方差分析的量化研究结果可为下一步能耗统计回归模型确立、农宅供热能耗评价方法和指标体系的研究提供强有力的数据支撑。
摘要:北方农宅供热能耗影响因素的研究可为农宅供热节能改造、国家节能政策和相关规范的制定提供有力的依据。影响农宅供热能耗的因素种类繁多, 并且影响程度不同。本文运用SPSS19.0软件, 采用独立样本t检验、单因素方差分析以及控制供暖系统组成形式下的双因素方差分析, 进行农宅供热能耗影响因素的筛选及其影响程度的深度剖析。初步统计研究结果表明在0.05显著性水平上的农宅供热能耗主要影响因素为冬季炊事频率、所在地区、家庭常住人口数和供热系统组成形式。
关键词:农村住宅,供热能耗,独立样本t检验,单因素方差分析,双因素方差分析
参考文献
[1]UNEP SBCI.Buildings and Climate Change:aSummaryForDecision-Makers[EB/OL].2009.http://www.unep.org/SBCI/pdfs/SBCI-BCC Summary.pdf.
[2]仇保兴.发展节能与绿色建筑刻不容缓[J].中国经济周刊.2005 (9) :11.
[3]陈永.我国农村建筑能耗现状与节能任务分析[J].现代农业科技, 2011, 22:275-277.
[4]蒲清平.城市居住建筑能耗影响因素与预测模型构建研究[D].重庆:重庆大学, 2012.
[5]黄箐, 李念平.南京市居住建筑能耗调查与综合能耗定额[J].建筑科学, 2012, 28 (4) :34-37.
[6]王效华, 胡晓燕.农村家庭能源消费的影响因素[J].农业工程学报, 2010, 26 (3) :294-297.
[7]卢志强, 凌继红, 秦晓娜, 等.天津市医院建筑能耗影响因素的偏相关分析[J].建筑科学, 2012, 28 (8) :5-8.
[8]谢艳群, 李念平, 陈淑琴, 等.长沙市居住建筑能耗调查及偏相关分析[J].煤气与热力, 2007, 27 (5) :85-88.
[9]罗应婷, 杨钰娟.SPSS统计分析:从基础到实践[M].2版.北京:电子工业出版社, 2010.1.
[10]吴明隆, 涂金堂.SPSS与统计应用分析[M].大连:东北财经大学出版社, 2012.
运用方差解竞赛题 篇11
例1 (加拿大第七届中学生数学竞赛试题)确定最大的实数z,使得实数x,y满足:x+y+z=5,xy+yz+zx=3.
解:由已知,得x+y=5-z,xy=3-z(x+y)=3-z(5-z)=z2-5z+3.
∵x、y的方差S2=[(x2+y2)-(x+y)2]=[(x+y)2-2xy] =[(5-z)2-2(z2-5z+3)] ≥0,∴3z2-10z-13≤0,解得-1≤z≤,所以z的最大值为.
例2 (江苏省初中数学竞赛试题)已知:p3+q3=2,其中p、q是实数,则p+q的最大值为 .
解:不妨设p+q=k,由已知p3+q3=2,即 (p+q)(p2+q2-pq)=2,得k(k2-3pq)=2,∴pq=(k2-).
又∵p、q的方差是S2=[(p2+q2)-(p+q)2] =[(p+q)2-2pq]=[k2-(k2-)]≥0,即3k2≥4k2-.由k>0,得0例3 (前苏奥尔德荣尼基市第三届初中数学竞赛试题)已知x+y+z=1,求证:x2+y2+z2≥.
证明:由x、y、z的方差S2=[(x2+y2+z2)-(x+y+z)2]≥0.将x+y+z=1代人上式并整理得x2+y2+z2 ≥.
例4 (吉林省初中数学竞赛试题)设a、b满足a2-bc-8a+7=0……(1)b2+c2+bc-6a+6=0……(2)试求a的取值范围.
解:由(1)得bc=a2-8a+7…(3).
由(2)-(1),得(b+c)2=(a-1)2(4).
由(2)得b2+c2=-bc+6a-6(5).
将(3)代入(5),得b2+c2=-a2+14a-13(6).
因为b、c的方差为S2=[(b2+c2)-
(b+c)2]=[(-a2+14a-13)-(a-1)2]≥0. 化简,得a2-10a+9≤0,∴1 ≤a≤9.
从上面的几个例题可以看出,在运用方差公式解决数学中的最值问题时,只要灵活巧妙地将问题转化成公式的形式,即根据条件将问题转化成x12+x22+…+xn2及x1+x2+…+xn的代数式的形式,就能简单明了地解决问题.
方差分析 篇12
都说人往高处走, 不管是来自社会还是家人的压力, 很多人挤得头破血流也要拼个大学文凭。但随着社会不断发展, 大学文凭已经不是什么高学历了, 硕士、博士、博士后也已经不是新鲜事了。面临着就业与再深造的选择, 很多人看法不一。有人说:读那么多书没用, 高学历不代表真本事, 读书的时间还不如去挣钱攒经验, 这才是最实在的。当然那也有人说:现在高学历的人越来越多, 一旦别人的学历比你高, 很有可能面临淘汰。读书不是在浪费时间, 拿到高学历才能获得更多的回报。
看似说得都有一定的道理, 但究竟哪个选择更好呢。本文打算从方差分析的角度来探讨这个问题。当然在探讨之前有几个前提假定:首先, 我们用工资作为最终衡量的标准。理性人最终都会追求利润最大化, 工作最终的目的也是生活水平的提高, 所以工资高低能在一定程度上代表选择的好坏。其次, 我们只将本科与硕士进行比较, 因为这是大学生最常面临的选择。再者, 本科的工资我们选择工作两年以后的工资水平, 而硕士我们则选择刚毕业时的工资水平, 因为一般的硕士是读两年左右的时间, 这样两者的工资才有可比较性。最后, 每个水平组合下有3次重复试验, 分别代表:较少、一般、较高三个水平的工资。因为各行各业工资水平差距太大, 很难用一个平均数来衡量。这样分成三个档次, 取各档次的平均数作为一次重复试验的结果。
二、双因素方差分析
由于在各大城市工资的差别很大, 为了能更准确地反映出不同的学历能否带来工资差异, 我们选取了北京、上海、南京以及泰州四个城市作为另一个影响因素。前三个城市是很多人向往的工作地点, 消费水平上有差异, 在工资水平上也有差异, 而泰州是作为一个中等发达水平地级市的代表。针对现在很多人都从小城镇往大都市涌, 以为就能过上富足的生活这种现象, 笔者用泰州作为小城市代表, 分析大都市和小城市究竟该怎么选择。所以本文采用的方差分析方法为双因素等重复试验。城市和学历为两个因素, 工资水平是研究目标。
设在某次调查中, 调查城市为因素A, 调查对象的学历为因素B, 调查对象的工资为y。又假设因素A有a个水平A1, A2, …, Aa (即有a个城市) ;因素B有b个水平B1, B2, …, Bb, (即有b种学历) 。此外在水平组合AiBj下有r个调查结果 (即有r次重复试验) , 调查所得的结果为:yij1, yij2, …, yijr。其中i=1, 2, …, a;j=1, 2, …, b。把上述结果整理如表1。
在实际进行双因子方差分析时, 通常将有关的统计量连同分析结果列在一张表中, 以达到一目了然的目的。方差分析表如下表2。
双因素方差分析相当于分别进行3次独立的F检验, 基本步骤如下:
1、建立原假设
H01:因素A不同水平下观测变量的总体均值无显著差异;H11:因素A不同水平下观测变量的总体均值存在显著差异。
H02:因素B不同水平下观测变量的总体均值无显著差异;H12:因素B不同水平下观测变量的总体均值存在显著差异。
H03:因素A和B的交互效应对观测量的总体均值无显著影响;H13:因素A和B的交互效应对观测量的总体均值有显著影响。
2、构造统计量
3、利用原假设和样本数据分别计算3个F统计量和其对应的p值。
4、对比p值和α, 结合原假设做出推断。如果某个F统计量对应的p<α, 则拒绝关于这个因素的原假设, 得出此因素不同水平下观测变量各总体均值存在显著差异的结论;否则认为此因素不同水平观测变量各总体均值无显著差异, 即这个因素对观测变量没有显著的影响。当然, 这里的因素包括主效应和交互效应。
三、实证分析
下面我们用SPSS软件进行具体的实证分析。定义因素A为城市, 共4个水平。因素B为学历, 共两个水平。各个水平对应的样本观测数据见下表3。
单位:元
运用SPSS软件进行分析进而研究控制变量城市和学历的影响及交互影响。有关数据结果见表4、表5、表6。
表4给出了在不同因素水平下工资的基本描述性统计量。从表中我们发现, 总体平均来看, 硕士刚毕业的工资还是比本科毕业生工作两年以后的工资高。只有在上海, 硕士与本科有微弱的差距, 这可能是由于在上海工资的上涨程度比一般城市快。
表5给出了方差齐次检验结果。0.187的p值表示, 在0.1的显著性水平下无法拒绝方差在不同因素水平下满足齐次的原假设。
表6给出了详细的多因素方差分析结果。该表的第一列列出了观测变量方差的各种来源, 第二列给出了各项离差平方和, 第3列给出各项离差平方和对应的自由度, 第4列是均方差, 第5列和第6列分别给出了各因素对应的F统计量和p值。我们可以进行主因子和交互效应的显著性检验。首先来看一下城市因素 (A因素) 的主效应, 即在扣除学历因素 (B因素) 的影响后, 不同的城市对工资的影响。FA=2.112服从自由度为 (3, 16) 的分布, p=p (F3, 16>2.112) =0.139, 因此没有理由拒绝原假设, 所以, 城市因素的影响不显著。而对于学历因素, 由于p=0.699, 这是一个很大的概率, 没有理由拒绝原假设, 也就是说, 学历因素的影响不是显著的。最后来看两个因素的交互效应, 即在扣除两种效应后, 由不同的城市和不同的学历结合而产生的对工资的影响。P=0.981, 这是一个很大的概率, 因此没有理由拒绝原假设。也就是说, 交互效应不明显。
通过上面的分析结果, 发现所谓的读书浪费时间这种观点是不成立的。一般而言, 本科毕业生工作的这段时间不管是积累工作经验还是赚钱, 都只是暂时的。因为硕士刚毕业工作的工资并不比本科生工作两年后的工资少, 而对于其今后的发展, 如果就一般情况而言, 硕士生会比本科生更加顺利。另外现在小城市的工资虽不比大都市, 但小城市的房价以及消费水平比较低, 可能今后在小城市生活更加适合。
可以用下面的例子来验证一下硕士与本科在工作一段时间 (比如说十年) 的工资是否有显著差异。下表是一组新的数据, 城市还是上述四个:北京、上海、南京、泰州。学历还是本科和硕士。不同的是本科和硕士的两组工资都分别是刚毕业参加工作以及工作十年的平均工资。比如表中的本科与北京相对应的两个数据:3000和4500。表示本科毕业刚到北京工作的平均工资为3000元, 而在北京工作了十年的本科毕业生现在的平均工资为4500元。
下面同样用SPSS软件对表7的数据进行分析, 类似得到下面三个表格, 表8、表9、表10。由于和上述类似, 那就直接分析最后的结果。从表8很容易看出硕士与本科的工资差别。这就是在十年中反映出来的工资差别。表10中, 学历因素的p值变为0.107, 这与表6中的0.699相比小了很多, 可以说是个比较小的概率, 所以可以看出, 从长期来看, 学历的确是一个影响工资的因素。
四、结论
从上面两次的分析结果看, 高学历是一种浪费时间和金钱的说法是不太合理的。现代社会高学历是一种必然的趋势, 如果有经济条件的话, 还是多读书比较合适。当然了, 笔者也不同意麻木追求高学历, 学到最后, 什么也没学到的人, 即使是高学历, 走上工作岗位还是会被淘汰。我们要做到的就是摆正自己的位置, 尽量充实自己, 才能在社会上很好得生存下来。
参考文献
[1]潘伟, 张珍花.双因子等重复试验的方差分析在实证中应用[J].统计与决策, 2007, (19) .
[2]朱建平, 殷瑞飞.SPSS在统计分析中的应用[M].北京:清华大学出版社, 2007.
[3]罗应婷, 杨钰娟.SPSS统计分析从基础到实践[M].北京:电子工业出社, 2007.
[4]韩之俊, 蔡小军.方差分析在人力资源测评中的应用[J].南京理工大学学报2003, (05) .
[5]李克俊, 王正华.非主观因素对大学生成绩影响的方差分析[J].四川教育学院学报, 2008, (06) .
[6]张弛.应用统计与计算[M].成都:电子科技大学出版社, 1998.
[7]类淑和, 类淑萍, 刘振华, 宗先芩.非主观因素对小学生学习成绩影响的方差分析[J].数理统计与管理, 2004, (04) .