方差分析的理论与应用

2024-08-05

方差分析的理论与应用(共3篇)

方差分析的理论与应用 篇1

1 方差分析理论介绍

1.1 统计方法介绍

统计数学最早应用于科学研究, 随着市场经济的发展, 统计方法也越来越广泛的应用于各商业应用中。商业应用中常用的统计方法包括:方差分析、相关分析、回归分析、聚类分析、判别分析、主成分分析和因子分析等。其中方差分析引用最为广泛, 也是本文重点使用的一个工具和办法, 因此在次介绍其基本原理。

方差分析可分成反差和协方差分析。方差分析和协方差分析用于在考虑非控制自变量作用的前提下, 检验因变量在控制自变量作用下的均值差异。本质上, 方差分析 (analysis of variance) 一般在两组或者两组以上均值差异检验时使用。通常零假设为各组均值相等。方差分析分成单因子方差分析和n因子方差分析。单因子方差分析只涉及一个定类变量或单一因子, n因子方差分析则涉及两个或者两个以上因子。如果自变量中既包含定类变量也保留定量变量, 则成为协方差分析 (analysis of covariance) 。

方差分析有关的统计量:

mean square, 均值, 均方是平方和除以适当的自由度。

SSR, 组间离差平方和, 各组平均值与总平均值离差的平方和。

MSR, 组间均方, 等于SSR/ (k-1) 。

SSE, 组内离差平方和, 每个样本与其组内平均值离差的平方和。

MSE, 组内均方, 等约SSE/ (n-1)

F statistic, F检验统计量, 用于检验组均值相等的零假设, 等于MSR/MSE

1.2 方差的应用介绍

方差分析一般在两组或者两组以上均值差异检验时使用, 如新势力的分3种短信套餐, 方差分析中可以将这3种短信短信套餐作为3组数据进行均值差异的检验, 从而发现这3种短信套餐的划分是否引导了用户消费, 短信消费条数是否有明确界限。方差分析必须有一个定量的因变量, 以及一个或者多个自变量, 在对新势力的短信套餐分析中我们选择使用的短信条数为因变量, 短信套餐类型为自变量。从而对各套餐的短信条数的均值、方差进行详细分析。

统计方法的应用过程中, 由于统计对象 (数据) 的日益复杂, 靠原始的数学公式手工演算显然不适合。目前流行的统计软件有:SPSS、SAS、Minitab和常用的办公软件Excel。其中SPSS、SAS最为通用, 本文选择SPSS软件进行相关的方差分析。SPSS (Statistics Package for Social Science) 中文直译为社会科学统计软件包。SPSS由美国斯坦福大学研制, 1971美国SPSS软件公司商业化, 成为一种适用于多机型、多操作系统的统计软件包, 其中SPSS11.0 for Windows版本被业界广泛应用。

为方便下文的SPSS输出表格的理解, SPSS输出表格与方差相关值的对应关系说明如下。Mean=均值;Between Groups=组间;Within Groups=组内;Mean Square=均方;Sum of Squares=离差平方和;F=F检验统计量。

2 广东联通“新势力”品牌短信套餐的方差分析

2.1“新势力”短信套餐的现况

广东联通的预付费产品分成新势力、如意通、万众卡3大类。从数据看新势力品牌在3大预付费品牌中用户数和收入占比数都处于最弱的位置, 而且在网的活动用户比例是最低的, 也就是说大部分的“新势力”用户处于无通话行为的状态。而且从“新势力”用户的新入网情况来看, 处于净流失状态。急需对用户的资费套餐进行调整以适应市场。

“新势力”短信资费如下:新势力-26元, 含600条网内外短信;新势力-16元, 含400条网内外短信;新势力-10元, 含150条网内外短信。

2.2“新势力”短信消费情况分析

通过统计数据库账单表中的短信条数、短信费用、月租费用等计算各品牌的每月平均短信使用条数和平均每条短信价格。对比数据发现:新势力用户的每月平均使用条数分别比如意通和万众卡高出189%和161%, 明显的体现了新势力品牌的功能属性, 也就是套餐设计中强调的短信套餐功能。但同时从每条短信的平均价格可以发现新势力的短信价格高出如意通和万众卡品牌14%和25%。也就是说用户多使用业务单价资费反而高, 存在一定的不合理情况。从上面分析我们可以认为新势力的短信资费存在调整空间的, 或者短信套餐的设置的合理性是值得商榷的。

为研究新势力品牌3类套餐的短信设置的合理性, 我们从月帐单表抽取586个10元套餐用户、16个套餐用户、26元套餐用户各586个用户数据, 对其使用短信条数进行统计分析, 暂不考虑网内外的短信条数进行分析。由于热信套餐号码的短信条数会对统计造成干扰 (热信的短信是免费的, 一般有此套餐用户的月短信消费次数会非常大) , 剔除有热信套餐的号码。通过SPSS软件进行方差分析, 以分析“新势力”用户的短信套餐条数设计是否合理, 与用户的消费行为是否匹配。方差分析结果如表1所示:

资料来源:通过SPSS软件计算后输出

结果说明:套餐值1.00、2.00、3.00分别10元、16元、26元套餐。F=263.077, F检验概率=0.000<α (0.005) , 故拒绝H0, 接受H1, 因此从短信使用条数看, 3种套餐产品的区分是明显的, 说明产品规划清晰。表2的mean (均值) 和表1的“平均使用条数”有所差异主要是方差分析选取的统计数据量和剔除热信套餐号码原因。从方差分析表发现, 16元套餐用户的均值为112, 95%置信度的Upper Bound (上限值) 为123, 这个区间其实落在“新势力”短信套餐的10元套餐区间内。因此绝大部分的16元套餐用户是“误选”了短信套餐。同样绝大部分的26元用户是“误选”了短信套餐。“误选”的原因可能是资费广告迷惑了用户或者相关的营销政策影响了用户。但最终这些“误选”的用户会重新选择, 也就是离网或者转套餐。可见“新势力”短信套餐的设计并非符合用户的实际消费行为, 需要做相应的调整, 降低用户的每条短信的平均资费, 缩小品牌定义和用户使用感知间的差异。

2.3“新势力”短信消费与离网的关系

通过方差分析短信使用条数与下月是否离网的关系。本次统计分析抽取下月离网和在网用户数据各1000例子。设定H0:μ1=μ2;H1:μ1≠μ2。对数据进行整理, 打开SPSS, 输入相关数据.得出结果如下:

数据来源SPSS软件计算得出

数据来源SPSS软件计算得出

结果说明:观察表2和表3的SPSS软件输出结果, 其中x=0为离网用户, x=1为在网用户, F=2323.846, F检验概率=0.000>α (0.05) , 所以拒绝H0, 接受H1。用户的短信使用条数和用户的离网关系有着显著的关系。通过表2下月离网用户的当月使用短信条数为20条, 在网用户的当月短信使用条数为126条, 两者有较大的差距。也就是说“新势力”用户短信消费多的用户下月一般不容易离网, 而短信消费少的用户, 下月的离网比率高。分析得到的结果并不能说明因为用户使用短信少所以离网了, 但能说明的是使用短信条数多的用户离网几率较低, 结合2.2话务量分析中短信套餐分析, 我们可以认为刺激“新势力”用户短信的使用量可以对用户的挽留维系有着积极的作用, 而刺激用户的短信消费可通过短信套餐的设计来实现。

3 广东联通“新势力”品牌的短信套餐调整建议

短信消费是“新势力”品牌的一个重要功能属性。在2.2的分析中发现“新势力”用户的短信消费频度远远高于其他品牌, 但也发现用户的平均每条短信的费率是高于其他品牌的, 特别是26元套餐的用户的短信资费。从用户的品牌感知来说, 用户并不觉得新势力的短信套餐性价比低, 甚至可能因此产生转到更加实惠的套餐的意愿。从用户的短信套餐方差分析表可以看到3个套餐的短信消费条数均值为76、112、270。其中前面两个短信套餐的使用条数的差异很小, 应该考虑合并。合并后均值可以设计为90、270。根据均值, 乘以合理的单条价格, 假设合理单价为0.13元, 我们可大致推算新的套餐的价格。设计用户短信消费将在门限值以内, 但产品的实际中的免费短信条数不应该小于原来的优惠条数, 避免用户购买产品产生比原来产品更贵的错觉。从表1可见目前26元套餐的95%置信度的下限值为252条, 因此需要在新的12元套餐的短信条数最好低于252, 避免再次出现重叠, 导致用户“误选”套餐。具体短信套餐设计如表4:

上述设计, 以合理短信资费为原则, 覆盖了目前用户的消费习惯, 拉开短信套餐的距离。但这只是假设的套餐设计, 是否符合市场需求还需要相关的测试和验证。但整体来说短信套餐的设计应该参考用户目前的消费情况, 套餐设计中应注意套餐间隔。

4 总结和展望

在实际的市场上, 联通也确实推出了“新势力”的新产品, 短信套餐做了相应的调整, 以刺激用户的短信使用和维护用户的品牌感知。

本文论述了方差分析在“新势力”品牌的短信套餐设计中的一些建议和想法。但套餐设计是否合理还得参考更为重要的因素——语音套餐的设计, 本文只是针对短信消费部分进行相关分析, 希望起到抛砖引玉的作用。语音方面的分析也可以使用类似的方法, 但用户消费行为的语音部分数据的量化工作的复杂度将远远超过短信部分的数据量化工作, 本文不做详细阐述。

随着数据库技术的发展, 用户消费数据越来越详细的记录到数据库中, 为在海量的数据信息中筛选出有用的数据, 数据挖掘、统计方法更有理由的广泛的应用市场产品设计中去。

参考文献

[1]卫海英.SPSS10.0for window在经济管理中的应用[M].北京:中国统计出版社, 2003

[2]Naresh K.Malhotra著.涂平译.市场营销研究:应用导向[M].北京:电子工业出版社, 2006

[3]David R.Anderson等著.张建华等译.商务与经济统计[M].北京:机械工业出版社, 2006

方差分析在学生成绩考核中的应用 篇2

近年来,国家通过开展教育评估工作有效地促进了高等院校的健康发展,同时各个高校内部引进教学评价机制,及时、全面的反映学校的教育情况,为校领导提供决策支持。社会对学生学习成绩下降的原因大多归为理由:教材陈旧,负担过重,考题偏难,学习环境差,教师不负责不尽职,学校的制度有问题等等。但是把影响学生学习成绩的原因完全归咎于这些客观原因,似乎也有失公正。因为能考入高等学府的学生的智力水平一般都不算太差,那么,关键性的问题出在哪里?学生进入大学后,哪些因素成为直接影响其成绩的关键?我们应选择什么评价因素才有利于消除模糊性、偶然性,有利于量化处理?那些异常情况又代表着怎样的趋势?

带着这些思考,本文通过将2010级学生作为样本对影响学生成绩的诸多因素进行方差分析,从而讨论哪些因素是显著的。由于处理数据所用软件SPSS是用线性模型的方法处理多因素方差分析,所以,我们也采用线性模型中的方差分析模型对影响学生成绩结果的因素加以分析,得到了一些对实际工作具有指导意义的结论。

2 方差分析模型的构建

2.1 方差分析概述

方差分析的实质是检验多个总体均值是否有显著性的差异,它是通过将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源地平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均值是否相等。

2.2 方差分析一般模型

①单因素方差分析的统计模型。

若考虑的因素为A,假设它有a个水平,则此问题的模型为:

undefined

其中,yij表示在第i个水平Ai之下第j次重复试验的观察值,μ为所有样本均值的总平均,αi为第i个水平对指标Y的效应。

②双因素方差分析的统计模型。

若所考虑的因素为因素A与因素B,假定A有a个水平,B有b个水平,则此模型为:

undefined

3 结合案例进行分析

3.1 针对数学期末统考成绩分析

首先,用聚类法对数据进行有序样本聚类。将数据排序后,发现最高分为606分,最低分为258分,把学生根据高考成绩分成10个类结果如下:

由表中的数据可知,类型1与类型2的数学成绩均分最为接近,分析检验应通过两步进行:

第一步:先对这两类进行方差齐性的F检验。

H0:σ2=σ3↔H1:σ2≠σ3

该检验的统计量undefined的观测值为2.048,对应的概率P值为0.156。由于概率P值>0.05,认为这两类方差无显著性差异。

第二步:对两类均值是否相等的T检验。

H0:μ2=μ3↔H1:μ2≠μ3

统计量undefined的观测值为-0.213,对应的P值为0.818。由于概率P值>0.05,认为这两类的均值无显著差异。

所以,将第一类与第二类合为一类,然后再检验与第三类是否可以合并成一类。接着我们发现表中第三类与第四类高数成绩均值较为接近,进一步检验是否可合并。首先进行方差齐性检验,结果为0.068,在α=0.05的水平下通过了检验。进而检验他们的均值是否相等,结果概率P值为0.02,在α=0.05的水平下否定了原假设,即不能合并成一类。但是通过进一步计算不难发现,两类学生数学成绩均值差的95%的置信区间为(-4.395,-0.383),怀疑是否是个别异常值影响了整体的均值。经检验其中有五个为异常值,将其删除后,两类学生的数学成绩的均值无显著性差异验,所以也可将这两类学生进行合并。同理对分类继续上面的工作,发现表1中的第五类与第六类可以合并,第七类与第八类可以合并,第九类与第十类可以合并,合并后均值差异性显著。所以可以得到一个新的分类表如下所示:

由上表分析结果如下:

①第1、2、3、4类学生的高数成绩均值基本上与高考成绩成正相关关系,可见高考成绩是影响入学后成绩的一个重要因素。

②第4类学生的数学成绩均值不及格,与其它类的差别较大,这类学生在入学成绩较低的学生中占有很大比例。

③第5类学生虽然高考成绩很低,但数学成绩均分却高于第4类学生,从原始数据发现这类学生大多来自上海,故不同省份的学生在入学后学习能力存在差异。

3.2 分析结果

方差分析基于样本服从正态分布的假设,所以首先采用χ2检验的方法,对学生的高数成绩进行正态性检验,在水平α=0.05下通过了检验。结果如下:

高考数学成绩~N(70.05,218.57)

结果按多因素方差分析表列出如下:

从Pr(F)可知,以0.05为检验显著性水平,四个因子即生源省份、教师、高考成绩、性别的不同水平之间都存在着显著差异。

4 结论

通过分析可以看出,生源省份,教师,学生性别及入学成绩及所在学院都成为影响学生在校学习成绩的重要因素,所以要想提高学生的成绩,保证学校的教学质量,以上的每一个因素都是不容忽视的。前面的数据分析结果说明,高考入学成绩与在校学习成绩成强正相关关系,在校学习的尖子生大都高考成绩高,而在校学习的差生大都高考成绩较低,而且不同生源省份的学生学习后劲显著不同,所以提高教学质量不仅仅是教学过程的问题,而应从招生环节开始抓。当然提高生源质量不仅仅是学校一厢情愿的事情,根本还是要提高学校的知名度,获得考生和社会的认可。数据分析结果也说明教师对学生学习质量有显著影响。同一门课效果最好的教师和最差的教师平均效应相差14分,由此可见教师在提高教学质量中的地位和作用。学校在教师队伍建设的管理中应以教学质量为中心,建立系列规章制度和必要的激励措施,在教师聘用、岗前培训、任课资格把关、教学过程考核等方面形成鼓励教师加大教学投入、潜心研究教学技艺、优劳优酬、优胜劣汰的机制,特别要注重建立科学合理的教师教学效果评价体系,不能只注重学历、职称,应更注重教学的实际效果。另外学校还要加强对外聘教师的管理,对其也要按照学校的统一要求进行监控与质量考核。

参考文献

[1]薛薇.SPSS统计分析方法及应用[D].北京:电子工业出版社,2004.

[2]于秀林,任雪松.多元统计分析[D].北京:中国统计出版社,2007.

[3]杨虎,刘琼荪,钟波.数理统计[D].北京:高等教育出版社,2004.

[4]刘海生.多元统计分析法在学生成绩综合评价中的应用[M].华北科技学院,2009,3:77-79.

[5]李莉,张薇,缪柏其,戴小莉.影响本科生学习成绩因素的探究与分析[M].中国高等教育研究,2004,4:44一48.

方差分析的理论与应用 篇3

都说人往高处走, 不管是来自社会还是家人的压力, 很多人挤得头破血流也要拼个大学文凭。但随着社会不断发展, 大学文凭已经不是什么高学历了, 硕士、博士、博士后也已经不是新鲜事了。面临着就业与再深造的选择, 很多人看法不一。有人说:读那么多书没用, 高学历不代表真本事, 读书的时间还不如去挣钱攒经验, 这才是最实在的。当然那也有人说:现在高学历的人越来越多, 一旦别人的学历比你高, 很有可能面临淘汰。读书不是在浪费时间, 拿到高学历才能获得更多的回报。

看似说得都有一定的道理, 但究竟哪个选择更好呢。本文打算从方差分析的角度来探讨这个问题。当然在探讨之前有几个前提假定:首先, 我们用工资作为最终衡量的标准。理性人最终都会追求利润最大化, 工作最终的目的也是生活水平的提高, 所以工资高低能在一定程度上代表选择的好坏。其次, 我们只将本科与硕士进行比较, 因为这是大学生最常面临的选择。再者, 本科的工资我们选择工作两年以后的工资水平, 而硕士我们则选择刚毕业时的工资水平, 因为一般的硕士是读两年左右的时间, 这样两者的工资才有可比较性。最后, 每个水平组合下有3次重复试验, 分别代表:较少、一般、较高三个水平的工资。因为各行各业工资水平差距太大, 很难用一个平均数来衡量。这样分成三个档次, 取各档次的平均数作为一次重复试验的结果。

二、双因素方差分析

由于在各大城市工资的差别很大, 为了能更准确地反映出不同的学历能否带来工资差异, 我们选取了北京、上海、南京以及泰州四个城市作为另一个影响因素。前三个城市是很多人向往的工作地点, 消费水平上有差异, 在工资水平上也有差异, 而泰州是作为一个中等发达水平地级市的代表。针对现在很多人都从小城镇往大都市涌, 以为就能过上富足的生活这种现象, 笔者用泰州作为小城市代表, 分析大都市和小城市究竟该怎么选择。所以本文采用的方差分析方法为双因素等重复试验。城市和学历为两个因素, 工资水平是研究目标。

设在某次调查中, 调查城市为因素A, 调查对象的学历为因素B, 调查对象的工资为y。又假设因素A有a个水平A1, A2, …, Aa (即有a个城市) ;因素B有b个水平B1, B2, …, Bb, (即有b种学历) 。此外在水平组合AiBj下有r个调查结果 (即有r次重复试验) , 调查所得的结果为:yij1, yij2, …, yijr。其中i=1, 2, …, a;j=1, 2, …, b。把上述结果整理如表1。

在实际进行双因子方差分析时, 通常将有关的统计量连同分析结果列在一张表中, 以达到一目了然的目的。方差分析表如下表2。

双因素方差分析相当于分别进行3次独立的F检验, 基本步骤如下:

1、建立原假设

H01:因素A不同水平下观测变量的总体均值无显著差异;H11:因素A不同水平下观测变量的总体均值存在显著差异。

H02:因素B不同水平下观测变量的总体均值无显著差异;H12:因素B不同水平下观测变量的总体均值存在显著差异。

H03:因素A和B的交互效应对观测量的总体均值无显著影响;H13:因素A和B的交互效应对观测量的总体均值有显著影响。

2、构造统计量

3、利用原假设和样本数据分别计算3个F统计量和其对应的p值。

4、对比p值和α, 结合原假设做出推断。如果某个F统计量对应的p<α, 则拒绝关于这个因素的原假设, 得出此因素不同水平下观测变量各总体均值存在显著差异的结论;否则认为此因素不同水平观测变量各总体均值无显著差异, 即这个因素对观测变量没有显著的影响。当然, 这里的因素包括主效应和交互效应。

三、实证分析

下面我们用SPSS软件进行具体的实证分析。定义因素A为城市, 共4个水平。因素B为学历, 共两个水平。各个水平对应的样本观测数据见下表3。

单位:元

运用SPSS软件进行分析进而研究控制变量城市和学历的影响及交互影响。有关数据结果见表4、表5、表6。

表4给出了在不同因素水平下工资的基本描述性统计量。从表中我们发现, 总体平均来看, 硕士刚毕业的工资还是比本科毕业生工作两年以后的工资高。只有在上海, 硕士与本科有微弱的差距, 这可能是由于在上海工资的上涨程度比一般城市快。

表5给出了方差齐次检验结果。0.187的p值表示, 在0.1的显著性水平下无法拒绝方差在不同因素水平下满足齐次的原假设。

表6给出了详细的多因素方差分析结果。该表的第一列列出了观测变量方差的各种来源, 第二列给出了各项离差平方和, 第3列给出各项离差平方和对应的自由度, 第4列是均方差, 第5列和第6列分别给出了各因素对应的F统计量和p值。我们可以进行主因子和交互效应的显著性检验。首先来看一下城市因素 (A因素) 的主效应, 即在扣除学历因素 (B因素) 的影响后, 不同的城市对工资的影响。FA=2.112服从自由度为 (3, 16) 的分布, p=p (F3, 16>2.112) =0.139, 因此没有理由拒绝原假设, 所以, 城市因素的影响不显著。而对于学历因素, 由于p=0.699, 这是一个很大的概率, 没有理由拒绝原假设, 也就是说, 学历因素的影响不是显著的。最后来看两个因素的交互效应, 即在扣除两种效应后, 由不同的城市和不同的学历结合而产生的对工资的影响。P=0.981, 这是一个很大的概率, 因此没有理由拒绝原假设。也就是说, 交互效应不明显。

通过上面的分析结果, 发现所谓的读书浪费时间这种观点是不成立的。一般而言, 本科毕业生工作的这段时间不管是积累工作经验还是赚钱, 都只是暂时的。因为硕士刚毕业工作的工资并不比本科生工作两年后的工资少, 而对于其今后的发展, 如果就一般情况而言, 硕士生会比本科生更加顺利。另外现在小城市的工资虽不比大都市, 但小城市的房价以及消费水平比较低, 可能今后在小城市生活更加适合。

可以用下面的例子来验证一下硕士与本科在工作一段时间 (比如说十年) 的工资是否有显著差异。下表是一组新的数据, 城市还是上述四个:北京、上海、南京、泰州。学历还是本科和硕士。不同的是本科和硕士的两组工资都分别是刚毕业参加工作以及工作十年的平均工资。比如表中的本科与北京相对应的两个数据:3000和4500。表示本科毕业刚到北京工作的平均工资为3000元, 而在北京工作了十年的本科毕业生现在的平均工资为4500元。

下面同样用SPSS软件对表7的数据进行分析, 类似得到下面三个表格, 表8、表9、表10。由于和上述类似, 那就直接分析最后的结果。从表8很容易看出硕士与本科的工资差别。这就是在十年中反映出来的工资差别。表10中, 学历因素的p值变为0.107, 这与表6中的0.699相比小了很多, 可以说是个比较小的概率, 所以可以看出, 从长期来看, 学历的确是一个影响工资的因素。

四、结论

从上面两次的分析结果看, 高学历是一种浪费时间和金钱的说法是不太合理的。现代社会高学历是一种必然的趋势, 如果有经济条件的话, 还是多读书比较合适。当然了, 笔者也不同意麻木追求高学历, 学到最后, 什么也没学到的人, 即使是高学历, 走上工作岗位还是会被淘汰。我们要做到的就是摆正自己的位置, 尽量充实自己, 才能在社会上很好得生存下来。

参考文献

[1]潘伟, 张珍花.双因子等重复试验的方差分析在实证中应用[J].统计与决策, 2007, (19) .

[2]朱建平, 殷瑞飞.SPSS在统计分析中的应用[M].北京:清华大学出版社, 2007.

[3]罗应婷, 杨钰娟.SPSS统计分析从基础到实践[M].北京:电子工业出社, 2007.

[4]韩之俊, 蔡小军.方差分析在人力资源测评中的应用[J].南京理工大学学报2003, (05) .

[5]李克俊, 王正华.非主观因素对大学生成绩影响的方差分析[J].四川教育学院学报, 2008, (06) .

[6]张弛.应用统计与计算[M].成都:电子科技大学出版社, 1998.

[7]类淑和, 类淑萍, 刘振华, 宗先芩.非主观因素对小学生学习成绩影响的方差分析[J].数理统计与管理, 2004, (04) .

上一篇:管理信息系统实验教学下一篇:政策工具创新