多元回归(精选12篇)
多元回归 篇1
1 概述
回归分析是一种传统的应用性较强的科学方法,是现代应用统计学的一个重要的分支,在各个科学领域都得到了广泛的应用。它不仅能够把隐藏在大规模原始数据群体中的重要信息提炼出来,把握住数据群体的主要特征,从而得到变量间相关关系的数学表达式,利用概率统计知识对此关系进行分析,以判别其有效性,还可以利用关系式,由一个或多个变量值去预测和控制另一个因变量的取值,从而知道这种预测和控制达到的程度,并进行因素分析。
2 多元线性回归数学模型
设可预测的随机变量为y,它受到p个非随机因素x1,x2,…xp-1,xp,和不可预测的随机因素ε的影响。多元线性回归数学模型为
其中为回归系数
对y和x1,x2,…xp-1,xp,分别进行n次独立观测,取得n组数据(样本)
则有
其中ε1,ε2,…εn相互独立,且服从N(0,σ2)分布。
令
则式(2)用矩阵形式表示为
3 模型参数β的最小二乘法估计与误差方差σ2的估计
β的最小二乘法估计即选择β使误差项的平方和为最小值,这时β的值作为β的点估计.
为了求β,由(4)式将S(β)对β求导,并令其为零,得
4 模型检验
多元线性回归数学模型建立后,是否与实际数据有较好的拟合度,其模型线性关系的显著性如何等,还需通过数理统计进行检验。常用的统计检验有R检验和F检验。
4.1 R检验
R是复相关系数,用于测定回归模型的拟合优度,R越大,说明Y与x1,x2,…xp-1的线性关系越显著,为yi的平均值,R取值范围为0<│R│≤1。
4.2 F检验
m为自变量个数,n为数据个数。
F服从F(m,n-m-1)分布,取显著性水平为α,如果F>Fa(m,n-m-1),表明回归模型显著,可从用于预测。反之,回归模型不能用于预测。
5 应用实例
某医院为了解病人对医院工作的满意程度Y和病人的年龄X1,病情的严重程度X2和病人的忧虑程度X3之间的关系,随机调查了该医院的10位病人,得数据如表1所示。
使用MATLAB语言编程并计算得下面结果:
从结果可以得出,回归模型为
取α=0.05对方程和回归系数进行检验,查F分布表可得F0.0 5(3.6)=4.76,F0.0 5(1.6)=5.99
本例中的方程检验值F=23.7098>4.76,说明模型的回归效果高度显著。
F1=9.0886>5.99,说明x1显著。
F2=0.4105<5.99,说明x2很不显著。
F3=2.5260<5.99,说明x3不显著。
R为0.9603接近1,表明线性相关性较强。
在实际中,由于Y的影响因素还有很多,使Y与X关系更为复杂,而且记录数据的准确性,可靠性,异常数据等问题,将影响Y的预测分析。
摘要:本文研究了多元线性回归理论及应用,探讨了多元线性回归模型中未知参数的估计及其参数的检验问题,以实例进行了验证。
关键词:多元线性回归分析,回归模型,检验问题
参考文献
[1]梅长林,范金城.数据分析方法.高等教育出版社.2006,2.
[2]何晓群.现代统计分析与应用.中国人民大学出版社.2007,8.
多元回归 篇2
分析了水文预报的.主要影响因子,通过系数的最小二乘法建立方程组,采用了Matlab软件对其方程组进行求解,得出其多元回归方程,应用复相关系数对其回归效果进行了检验,结果表明,多元线性回归分析方法简单、误差较小、预报结果有效.
作 者:周文斌 车倩 ZHOU Wen-bin CHE Qian 作者单位:周文斌,ZHOU Wen-bin(东华理工大学土木与环境工程学院,江西,抚州,344000)
车倩,CHE Qian(抚州市建筑勘察设计院,江西,抚州,344000)
刊 名:山西建筑 英文刊名:SHANXI ARCHITECTURE 年,卷(期): 35(1) 分类号:P338 关键词:多元线性回归分析 复相关性 多元回归方程
多元回归 篇3
【关键词】血压;影响因素;多元线性回归
一、多元线性回归模型
首先做出散点图分析血压与年龄、血压与体重指数(体重kg/身高m的平方)之间的关系,如下所示:
从图中可以看出:(1)随着年龄的增长血压有增高趋势,随着体重增长血压也有增高趋势;(2)总体上血压与年龄、血压与体重指数存在一定的线性相关关系。
建立多元线性回归模型:
其中,a0,a1,a2,a3是回归系数,ε是随机误差。结果如表(1):
由表知a1,a3的置信区间包含零点,需要改进模型,通过残差置信区间图,剔除异常点后得到改进后的回归模型,结果如表2
由上表知,此时所有参数置信区间不包含零点,F统计量增大,可决系数从0.6855增大到0.8462,得回归模型为
最后,对模型进行检验,说明模型合理性。
(1)残差正态检验:进行jbtest检验与t检验,,故残差服从均值为零的正态分布。
(2)残差异方差检验。进行Goldfeld-Quant检验,将28个数据从小到大排列,去掉中间6个数据,得到F统计量观测值f=1.6604,F(7,7)=3.79,可知f (3)残差自相关性检验。进行D-W检验,D=1.4330,查阅表得,因为,所以残差不存在自相关性。 二、结论 由模型结果知,年龄增加1岁,血压平均升高0.4303/mmHg,体重指数上升1个单位,血压平均升高2.3449/mmHg,另外,长期吸烟对血压的变化影响巨大。 因此,对于中老年人,要注意控制体重,改掉吸烟的习惯,从而避免血压过高,出现疾病;对于偏瘦的年轻人,适当增重,从而保持血压的正常。 参考文献 [1]张宇山.多元线性回归分析的实例研究[J].科技信息,2009(9). [2]吴礼斌.经济数学实验与建模[M].国防工业出版社,2013.06. 关键词:影响因素,计量模型,房价 住房是一种特殊的、最重要的消费品, 房价是否合理关系到居民住房消费和居住权的问题。过高房价对扩大内需, 促进经济平稳增长和社会稳定都起到一定的抑制作用。房地产作为我国的支柱产业, 它的制度完善与否关系到城市化进程和国际民生, 所以对房价的影响因素的研究是非常重要的。房价普遍偏高以及金融杠杆等相关调整的措施下, 由于房贷受多种因素的限制, 一些收入不高的首次购房者就有可能丧失购买能力, 只能停留在租房阶段, 对于那些住在新商品房, 面积不足的人来说, 他们改善居住条件也遇到了一定的困难。如此一来环环相扣的“消费链”很有可能发生“断流”。这一层面的需求却在市场总需求上占很大一部分。在这样的背景下, 依据房价会围绕均衡价格变化的规律, 需要有关部门掌握房地产的均衡、稳定价格, 进而制定出正确的政策, 预防房价的大起大落和房地产泡沫的形成。这需要我们掌握房价的真实变化规律, 并能进一步预测房价的增长趋势, 使政府做出有利于房价稳定的合理决策。 本文以西安的商品房价格为例, 以构建的计量经济学模型进行实证分析。通过多元回归方程找出的房产价格和其影响因素之间的相关关系及其相关系数来建立它们之间的回归方程, 并进行检验。最后, 通过分析影响住房实际价格的因素, 找出对房价影响显著的因素。 1 理论基础 回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定, 确定一个相关的数学表达式, 以便于进行估计的统计方法x1, x2, x3……xp是p个可以精确测量或可控制的变量。如果变量y与x1, x2, x3…….xp之间的内在联系是线性的, 那么进行n次试验, 可得n组数据: (yi, xi1, xi2, …, xip) i=1, 2, …n, 它们之间的关系可表为: y1=b0+b1x11+b2x12+…+bpx1p+u1;y2=b0+b1x21+b2x22+…+bpx2p+u2…;yn=b0+b1xn1+b2xn2+…+bpxnp+un. 其中, b0, b1, …, bp是p+1个待估参数。Ui表示第i次试验中的随机因素对yi的影响。为简单起见, 将此n个方程表示成矩阵形式:y=xB+u上式便是p元线性回归的数学模型。为了求出多元线性回归模型中参数b0, b1, …, bp, 可采用最小二乘法, 即在其数学模型所属的函数类中找到一个近似的函数, 使得这个近似函数在已知的对应数据上尽可能和真实函数相接近。c0, c1, …, cp分别是b0, b1, …, bp的最小二乘估计, 则多元回归方程 (即近似函数) 为:y=c0+c1x1, …, cpxp其中, c0, c1, …, cp叫做回归方程的回归系数。 2 变量的选择与前提假设 一般, 我们选择投资额 (I) 、人均GDP值 (G) 、财政收入 (R) 、销售额 (E) 、居民消费价格指数 (S) 这些变量来研究住房的价格及其供求关系。而其假设的前提条件包括: (1) 投资额 (I) 财政收入 (R) 销售额 (E) 的增加表示住房市场发展较好, 会推动房价上升; (2) 人均GDP值的增长代表整体产值的升高, 增加住房供给量, 反而会抑制房价; (3) 居民价格指数 (S) 的升高代表整体物价的上升, 势必会影响到房价的上升。 3 相关分析 根据西安市1995-2008年14年商品房的价格、投资额、人均GDP、财政收入、销售额和居民消费价格指数的数据进行回归分析。要对房价影响因素进行多元回归分析, 首先要分析房价与各个变量的相关性, 只有与房价有一定的相关性的自变量才能对房价变动进行解释。变量间的相关关系如下: 上表是几个标量之间的相关系数表, 从表中可以看出房价与商品房均价、投资额、人均GDP、财政收入、销售额、居民价格指数正相关, 因此所选取的自变量可以解释房地产价格的变动。 4 多元回归分析 根据以上分析, 可以初步确立模型的形式为p=c0+c1I+c2E+c3G+c4R+c5S 运用eviews软件对数据进行拟合, 用最小二乘法进行拟合估计, 得回归方程为:P=4940.489-2.184742E+0.035539G-15.35354I+42.25823R-36.83878S t统计量 (2.816) (-0.754) (0.172) (-2.143) (6.0769) (-2.103) F=73.17 SE=134.91 R2=0.978 DW=1.25 当N=14, k=5时, 在0.05的显著性水平下t的临界值为1.86, F的临界值为3.69。DW值可以看出存在序列相关, 由表中看出自变量E, G, R, S, I之间有相关性, 存在多重共线性。为了达到更好的拟合效果, 必须剔除不显著的变量消除多重共线性, 在这里我们用逐个剔除法进行剔除。 逐个剔除法首先要将与预测对象有关的全部因素引入方程, 建立模型, 然后根据每个回归系数的t值大小, 逐个剔除不显著的变量, 直到模型中包含的变量都是影响变量的显著因素为止。当不显著的变量较多时, 不能同时剔除, 要从t值最小的那个系数所对应的变量逐一剔除, 若剔除一个变量后模型变化不大, 而其他统计量有所改善, 如其它回归系数的t值变大, 或者回归标准差、残差平方和有所减低等, 则认为该变量从模型中剔除是适宜的;若剔除一个变量后残差平方和变化很大, 则变量的剔除对模型不利, 应保留变量。 由回归方程可以看出, t值最小最不显著的是变量I, 因此剔除I, 残差平方和变化有点大, 继续剔除t值次小的为S, 模型结果较好, 残差平方和变化不大, 拟合优度较好, 最后三个变量建立的模型为:P=987.22+8.09588E-0.97G+31.877R t∶ (4.198) (2.175) (7.386) F=72.5当N=14, K=3时, t分布临界值为1.812, 所有变量均显著。残差平方和为0.987模型对样本数据的拟合程度比较高。 5 现状总结及其对策 从上述分析知, 模型最终可以确定为:P=987.22+8.09588E+0.97G+31.877R 其理论意义为:当其它因素不变时, 销售额变化一亿元, 房价每平方米变化8.09588元, 人均GDP变化一亿元, 房价每平方米变化0.097元, 财政收入每变化一亿元, 房价每平方米变化31.877元。 有人认为高房价可以拉动内需, 推动GDP增长, 房价的上涨是经济平稳的重要标志。然而, 中国房价的持续上涨, 正在侵蚀着政府为扩大内需而出台的一系列经济刺激政策的实施效果。从某种程度上讲, 高房价对中国扩大内需或已产生了严重的挤出效应。最近几年来北京、深圳和上海等城市的房价再创历史新高, 房价的上涨幅度“十分惊人”。造成这种状况的根本原因在于当前宽松的信贷环境, 有便利、优惠的融资条件, 以及前几年住房开发商暴富有雄厚的经济基础跟政府宏观调控抗衡。高房价现象的长期存在, 必然会对居民消费产生严重的负面影响或效应——这是因为, 高房价“挤占”了居民的即时和潜在的消费能力。北京市核心区域的房价收入比达到22∶1, 已明显高于东京、伦敦和温哥华等其他国际性大城市。此外, 从北京和上海等地方的住房绝对价格水平来看, 也已超过了美国和日本的国际大都市。对此, 我们一方面要采取适当的房地产信贷政策来保障居民的住房消费, 另一方面也要避免再次以房地产投资特别是高房价来拉动GDP增长, 以此来促进中国经济的稳定、持续发展。 参考文献 [1]高波.现代房地产经济学导论[M].南京:南京大学出版社, 2007. [2]曹振良.房地产经济学通论[M].北京:北京大学出版社, 2004. 235 基于多元回归分析和四分图模型的客户满意度研究 林 晨 (中国人民大学统计学院,北京,100872) 摘 要:在多元回归分析方法的基础上,分析各个因素对客户满意度影响的重要程度,再利用四分图模型的分析思路,利用“实际重要性”代替“客户口述的重要性”,找出企业短板,为企业提升客户满意度提出高效的解决方案。 关键词:多元回归分析 客户满意度 四分图模型 中图分类号:F426.471 文献标识码:A 文章编号:1672—7355(2013)08—0235—02 一、研究背景 当前移动通信市场上,中国移动、中国联通、中国电信三足鼎立,但是由于移动通信产品同质化,消费者离网无任何限制,三大运营商在激烈的市场竞争中陷入愈演愈烈的价格战当中。在当前的市场状况下,如何提高客户满意度,从而提升客户忠诚度成为运营商首要考虑的问题。但是在移动通信领域纷繁复杂的业务内容和管理框架下,哪些问题才是提升客户满意度的关键?除了对客户满意度的测量之外,本文说明了通过多元回归分析和四分图模型能够帮助管理者快速找到问题的关键,进而制定出区分轻重缓急的提升客户满意度的行动方案。二、四分图模型及优化思路 四分图模型又称重要因素推导模型,是一种偏于定性研究的诊断模型。它首先通过调研和访谈列出企业产品和服务的所有绩效指标,对每个绩效指标设重要度和满意度两个属性,根据顾客的衡量分值做散点图,取加权平均值或者算术平均值将横轴和纵轴划分为四个象限,将影响企业满意度的各因素归进四个象限内。企业可以针对不同象限内的指标制定不同的行动策略。 四分图分析模型: 模型的横轴表示企业的顾客满意度得分高低情况,纵轴表示企业评价顾客满意度重要性的得分高低情况。模型中A 区为优势区,B 区为修补区,C 区为机会区,D 区为维持区。 四分图模型的应用范围很广,但在实际操作时,会受到调查执行的干扰影响实际的结果。 首先,客户口述的重要性不一定就是实际的重要性。有个著名的“飞机安全性”的例子,如果调查人员问消费者“在选择航空公司时,您最先考虑的因素是什么?”多数消费者会回答:安全性。但事实上,当人们在订购机票时,在要求的时间段有提供航班班次的航空公司往往成为首选,而不是客户宣称的“安全性”最重要。究其原因,安全性固然是人们最关心的因素,但就目前来看,这个因素每个航空公司都 做得一样好,在这种情况下,最重要的“安全性”因素就被搁置到一边,人们转而去考虑其他的诸如“时间”、“价格”这样的因素。 其次,由于被调查人受教育程度的不同,面对调查人员提问的某一因素的重要性和某一因素的满意程度,被调查人是否能够真正理解题目的含义而给出恰当的打分也是调查执行中存在的一个问题。一般调查会采用直接等级标尺评分法,10分制或5分制,让被调查人对重要程度打分。这种直接评分的方法简洁明了,但存在的问题是被调查人经常会认为每个指标都是重要的,其结果是调查出来大多数指标都落在A、B 象限,这样对企业资源分配就起不到合理的调配作用。 基于以上两个方面的考虑,在实际调查研究中,建议使用“实际重要程度”来代替四分模型中的“口述重要性”,而“实际重要程度”就需要利用多元回归分析方法,计算每一个因素对整体满意度的影响程度,而影响因子的大小就是“实际重要程度”的大小。 三、实际调查数据 我们以移动通信行业的数据为实例,将四分图模型应用到移动通信行业的客户满意度研究中。 1、客户满意度建模。 首先,在建立客户满意度模型过程中,由于最终利用四分图模型的目的是找出企业短板,优化资源配置到最需要提升的环节中去,所以,在考虑模型变量的过程中,会从企业的商业环节出发,而不是通常满意度研究中的从客户接触点出发。在充分了解移动通信行业内部管理模式,广泛收集行业专家意见之后,列出影响客户满意度的十大商业过程:网络质量、新业务、促销优惠活动、话费信息、营业厅、热线、宣传、积分计划、价格水平和资费套餐。 2、问卷设计及调查方式。 问卷设计采用 李克特(Likert)5级量表,5代表“非常满意”,4代表“很满意”,3代表“满意”,2代表“一般”,1代表“不满意”,询问客户对每个商业过程的满意程度。在询问商业过程时,会进行说明,在客户充分理解后才作答。对于总体客户满意度,设计利用客户对“产品和服务的整体质量”和“品牌形象”两个方面的评价加权计算出总体客户满意度分值。 调查执行采用电话访问的方式,借用某调查机构的电话外呼中心,对北京地区某移动通信公司的用户进行随机电话外呼,共收回有效问卷150份。 3、调查结果。 由于采用5级量表进行测量,取TOP 3 Box累加百分比作为每个商业过程的满意度分值,见表1.表1.商业过程满意度表现 Std Dev Mini mum Max(3+4+5)% 网络质量 1 5 82.67 新业务1 78.66 东方企业文化・产业经济 2013年8月 236 宣传促销优惠 活动话费信息1.11 1 5 150 87.33 营业厅1 80.67 热线积分计划1.06 2 5 150 83.33 资费套餐1.17 1 5 150 78.67 价格水平0.68 1 5 150 80.66 从表1中可以发现,在所有商业过程中,客户对热线、话费信息、促销优惠活动这三个方面的评价最高,而对资费套餐、新业务、价格水平这三个方面的表现评价相对较差。分析到这里,那么下一步企业是否要针对表现最差的三个商业过程立即入手进行整改呢?答案是否定的,接下来还需要结合这些商业过程对客户满意度实际的重要程度来进行四分图模型分析。 将十个商业过程作为自变量,将总体客户满意度作为因变量,利用SAS 进行线性回归分析。选择全部变量进入方程,得到结果为: 线性方程显著性通过,但是并不是每个变量的显著性检验都通过。可能是由于选择的商业过程之间存在共线性导致,因而考虑使用逐步回归方法(Stepwise)重新建立模型,结果如下: R-Square = 0.6132 and C(p)= 5.0144 Analysis of Variance Sum of Squares Mean Square F Value Pr > F37.52 <.0001Error 142 15130 106.55214 Corrected Total 148 39116 Variable Parameter Estimate Standard Error Type II SS F Value Pr > F4.889140.0059网络质量1.1339113.42 0.0003 新业务1.09921 0.1491 宣传14.540.0002热线1.087460.0083积分计划1.08017332.711 价格水平1.39585 新模型选取了6个变量,线性回归方程的显著性通过,每个变量P 值 <0.15,符合分析需要,显著性检验也通过。从上表中可以看出,网络质量、宣传和价格水平是对客户满意度影响最大的三个因素,回归系数代表了每个因素对客户满意度影响程度的大小,也就是实际重要性。 需要说明的是,与初始模型相比,逐步回归法剔除了促销优惠活动、话费信息、营业厅和资费套餐。通过相关性分析可知,促销优惠活动、话费信息、资费套餐与宣传、价格水平的相关性较高,营业厅与热线相关性较高。这四个商业过程没有进入最终的回归模型,可视为在现阶段,企业应将资源集中投入于对客户满意度有显著影响的因素上去。另外,由于商业过程之间的相关性,提升了宣传、价格水平、营业厅的客户满意度,也会间接带动提升这四个商业过程的满意度。 接下来利用客户满意度表现和实际重要性做四分图。A 区 — 优势区(高重要性、高满意度):宣传。 表示宣传是影响客户满意度的重要因素,客户目前对此满意度评价也较高,未来需要继续保持并发扬,使之成为企业的优势。 B 区 — 修补区(高重要性、低满意度):网络质量和价格水平。 表示网络质量和价格水平对客户来说是重要的,但当前企业在这些方面的表现相对不够好,顾客满意度评价相对较低,需要重点修补、改进。网络质量和价格水平就是企业现在面临的短板,在制定行动策略时,落在B 区的就是企业要集中资源首先动手改进的因素。 C 区 — 机会区(低重要性、低满意度):新业务、积分计划。 表示这两个因素对客户不是最重要的,即便投入了精力提升该因素,对客户满意度的提升也不会有太大的帮助。落在C 的因素属于企业可以适当关注,但是无需花费太多精力的因素。 D 区 — 维持区(低重要性、高满意度):热线。 表示客服热线客户的满意度评价较高,但相对不重要。D 区的因素虽然不重要,但是客户对企业在这些因素上的表现较为满意,企业要注意分析这些因素是否可能转化为自身的竞争优势,如果有条件,可以加以维持和培养,以帮忙企业在未来激烈的竞争中先人一步,拔得头筹。 四、结论 有了四分图模型的帮助,企业就可以集中资源,重点提升网络质量和价格水平这两个商业过程的客户感知,从而最有效地提升客户满意度。下一步,再考虑其他重要商业过程的提升。 关键词:多元线性;分析;学生成绩 学生接受教育是连续的,所以评价一名学生不能只依靠某次考试成绩,要纵向地连续观察学生在各阶段情况做综合评价。中考成绩是衡量学生进入高中之前学习情况的一项重要指标,所以选择这两个变量作为二模成绩的解释变量是含有一定的合理性。 图3是学校类别x2,学生性别x3以及班级类别x4的直方图,图4表示的是二模成绩y关于中考成绩x1和一模成绩x3的散点图。通过观察可以对新添加解释变量的情况有初步了解。 R软件对样本数据做多元回归得表4.可以得到多元线性回归模型虽然已经得到回归方程,但还要对模型的合理性进行检验。由上文多元回归模型的理论可知,首先要对回归方程做显著性检验,分析数据发现该检验得到p值很小,与此同时相关系数R2为0.9298,说明建立的多元回归模型比较合理,解释变量能很好解释因变量。 接下来还要对模型的解释变量逐个进行t检验,表4中显示中考成绩、一模成绩的p值很小,说明二者对二模成绩影响很显著。 学生性别这个变量对二模成绩影响的p值为0.0271也很显著。人们通知认为高中男生的学习能力要强于女生,但分析结果表明这种说法不是很正确。学生性别变量的回归系数估计值为3.1393,表明女生成绩普遍较好。高中阶段的学习,不仅要求接受新知识能力强,而且要求有丰富的知识积累量。可能是女生学习态度较好,对知识掌握情况较好。 学校类别变量对因变量影响不是很显著,也就是说学校水平对学生成绩影响不大。样本的五所学校可以分为两个水平:重点高中和普通高中。学校水平不同对学生二模影响的功能贡献率不是很大,这个结果与只有去好学校才有优异成绩的想法不符。 二模成绩与一模成绩的散点图说明一模成绩可以很好的预测二模成绩。图中有很清晰的两条直线,可能是由于学校所处水平不同引起的,重点高中学生成绩整体上要比普通高中要好。图5是多元回归方程的残差图,图中点散乱分布在y轴的两侧,说明所选择的中考成绩,学生性别等5个解释变量可以很好的解释二模成绩,也就是说建立的模型有一定的合理性上述多元回归模型残差平方和,对上文五个解释变量做显著分析时知,学生个人对二模成绩影响很大,学生类别与班额对学生成绩影响不是很显著。残差平方和的意义在于除了学生个人之外其他所有因素对因变量的影响,其中也包括学校的教学质量。因此,我们就可以利用各自学校的残差平方和去比较学校之间教学质量差异。利用上式可以得到每所学校的学校对学生的影响程度表示为 利用样本数据计算得到的结果见表6. 从表6可以看出,C、D两所学校残差平方和比较大,表明与其他几所学校有明显差异。从实际意义上看,说明这两所学校在师资力量、办学条件、生源质量等方面与其他三所学校有很大不同。 模型拓展 本文之前的分析都是在样本数据的基础上,利用数据中包含比较直观的信息(学生成绩、性别等),从学生角度分析影响学生的二模成绩因素。在样本中没有任何关于学校办学条件,师资力量等代表学校教学质量相关信息情况下,是否可以利用简单线性回归模型挖掘出潜藏在样本中的信息,进而估测学校的教学质量的差异为学校排名。 其中表示来自第i所学校的第j学生的第二次模拟考试成绩。 表示来自第i所学校的第j 学生的中考成绩。由最小二乘法估计方法,我们有将样本数据代入上式推导出的公式中,计算结果如表7所示。 数据分析之前,已经大致了解学校的基本情况。其中学校编号为CDE的三所学校为省级示范高中,编号为AB的两所学校为普通高中,实际学校排名情况与上表现是排名大体一致。 本文建立的多元回归模型对三组学生成绩分别从学生以及学校角度进行分析,并结合统计学知识、R软件对数据分析处理的结果进行了有效的分析与合理解释。 当统计学与数据相遇总会有这样那样的火花,不一样的风景。样本只包含几次考试成绩和关于学生自身的一些信息,没有直接关联教学质量的信息。但是简单的分析就可以挖掘到许多隐藏在数据背后的信息,这就是统计学的魅力所在。通过上述分析再一次验证了数据力量是巨大的,合理、高效地利用为教学服务,将具有重大的意义。 参考文献: 1 多元线性回归的理论基础 多元线性回归模型的一般形式: 设因变量y与自变量x1, x2, …, xp的线性回归模型为 在式1中, β0, β1, β2, …, βp是p+1个未知参数, β0为回归常数, β1, β2, …, βp为回归系数, y为被解释变量也既是因变量。 多元回归方程的实现就是根据已知变量, 运用最小二乘估计, 获得回归系数的过程, 就是寻找回归系数的估计值, 并使其估计值的离差平方和达到极小[1]。 多元线性回归方程的确定需要对统计指标进行一系列的检验, 只有各个统计指标通过了检验, 才能确定最终的回归方程, 同时也是拟合度最优方程。其中包括: 1) 复相关系数。用R表示, 是自变量与因变量之间线性关系密切程度的指标, 取值范围在, 其值越接近1, 表示线性关系越强。 2) 可决系数或判定系数。用R2表示, 是对回归方程拟合程度的综合衡量, 取值范围也在0~1之间, 其值越大, 说明方程的拟合程度越好。但还应该注意, 拟合效果与预测效果并不一样, 而且无论自变量与因变量是否有显著相关性, 其个数越多, 可决系数越大。因此除了根据可决系数判定方程的拟合优度之外, 还应使用其它检测标准。如对修正可决系数进行检验等。 3) F检验。此检验是用方差分析方法来检验回归模型在一定显著性水平下整体上是否合理。在SPSS软件的输出结果中, 如果F>F1-a (k, n-k-1) , 就认为回归整体显著, 同时也可以根据输出结果中的显著性概率即p值来判别。 4) t检验。也即是偏回归系数与常数项的检验, 通过此检验可以判定各个模型的回归系数与常数项是否显著, 进而判定自变量进入方程的合理性。一般情况下, 在SPSS输出结果中通过显著性概率即可判定各个系数的t值的合理性。根据设置的显著性水平的不同, 一般如果p值小于0.01或0.05, 则可认为其回归系数或常数项具有显著性。 5) 多重共线性诊断。各自变量之间是否存在多重共线性, 可以通过VIF、容忍度、特征值以及条件指数来衡量。当VIF小于10, 容忍度接近于1, 若干特征值较大且接近于1, 条件指数小于15等情况下可以认为自变量间不存在多重共线性问题。 6) 异常值诊断。异常值是指标准差过大的观测量, 在SPSS软件中, 默认的判断标准是标准化残差的绝对值大于3, 在这种情况下就可以认为其存在异常值。 2 自变量与因变量的设定 能源既是经济的一部分, 又是经济运行的基础。能源供应保证了其他行业的需要, 支持了GDP增长, 比起自身对GDP的贡献更为显著。因为没有能源产业的发展, 就不可能保障其他行业的发展需求, 也就阻滞了国民经济的发展。能源对国家安全、社会运行、生态环境、人们生活和文明均有重大的影响, 是当代社会与经济生活中的核心问题。能源以直接或间接的方式推动或制约了经济的发展。 从人类历史的发展历程来看, 能源对于人类社会发展具有举足轻重的作用, 具体表现在: (1) 能源推动生产力的发展; (2) 能源推动经济规模的扩大; (3) 能源是提高人民物质生活的物质基础。经济增长对能源的需求和能源对经济增长的促进作用, 通常是在能源供给不能满足需求时表现得最为强烈[2]。例如, 1973年第一次石油危机期间, 美国能源短缺严重, 国内生产总值因此减少了930亿美元, 而其他发达国家的情况也大体如此。据有关资料分析, 由于能源短缺造成的国民生产总值的损失, 大约是能源本身价值的20-60倍。[3]因此认为, 能源的消耗与国内生产总值有高度相关, 同时与人口的数量有关, 对于中国的实际, 特选取需要消耗大量能源的工业作为一项变量, 检验其是否与我国能源消耗有高度相关的关系。 本研究的目的是为了建立我国未来能源消耗量的回归模型, 因此因变量y指当年的能源消耗量并以标准煤为单位 (万吨) ;选取的自变量分别为:x1为当年国内生产总值 (GDP:亿元) ;x2为当年的人口总量 (万人) ;x3为当年工业总产值 (亿元) 。选取了1992~2006年我国能源消耗量、国内生产总值、人口数量以及工业总产值的变量统计信息见表1: 数据来源:能源消费总量以及工业总产值来自《中国统计年鉴 (2007) 》, GDP总量来自《中国统计摘要 (2005) 》, 人口数量来自《中国人口统计年鉴 (2005) 》。 3 回归结果及回归检验 在进行SPSS软件操作过程中, 选取线性回归命令后, 对线性回归对话框进行设定如下, 把“能源消费总量”选入因变量空格中, 把GDP、人口和工业总产值选入自变量空格中, 然后选取逐步回归分析法;在“统计量”选项中选取“估计值”“模式适合度”“置信区间”“共线性诊断”以及“全部异常值诊断”;在“统计图”选项中选取输出“残差正态概率图”;在“保存”选项中选取输出预测区间, 并选取95%的可信区间;在“选项”对话框中选取默认选项[3]。输出结果如下: a.Dependent Variable:能源消费总量/万吨标准煤 在表2中一共显示了四个步骤, 可以看出三个自变量先后进入逐步回归过程, 只有工业总产值被剔除。其被剔除的原因可能与GDP的进入有关, 也许是因为工业总产值与GDP之间有严重的多重共线性问题, 有待于根据下面的统计指标进行确认。 a.Predictors: (Constant) , 工业总产值/亿元 b.Predictors: (Constant) , 工业总产值/亿元, 人口/万人 c.Predictors: (Constant) , 工业总产值/亿元, 人口/万人GDP/亿元 d.Predictors: (Constant) , 人口/万人, GDP/亿元 e.Dependent Variable:能源消费总量/万吨标准煤 由表3可以看出, 四个模型的复相关系数以及可决系数都大于0.9, 说明自变量与因变量之间的线性关系很强并且拟合的效果也很好;从其修正可决系数来看, 每次变量的进入与剔除都会引起其的增加, 可以判定拟合效果与预测效果都很好。同时第四个模型的DW检验值为1.726, 查DW检验上下界表 (k=3, n=15) 得dL=0.95, dU=1.54, 而dU=1.54<1.726<4-dU=2.46, 因此误差项之间无序列相关关系。 a.Predictors: (Constant) , 工业总产值/亿元 b.Predictors: (Constant) , 工业总产值/亿元, 人口/万人 c.Predictors: (Constant) , 工业总产值/亿元, 人口/万人, GDP/亿元 d.Predictors: (Constant) , 人口/万人, GDP/亿元 e.Dependent Variable:能源消费总量/万吨标准煤 由表4方差分析表可以看出, 四个模型中P值=0.000, 都通过了显著性检验, 其中最大F值是第四个模型的F值=671.626, 说明在第四个模型的x1、x2对y有高度的线性关系, 同时拟合效果也是最好的。 在表5方程系数表中, 给出了各个模型的回归系数值, 它们的t值检验的显著性系数除了模型三中“工业总产值”不显著外, 其它都通过了显著性检验, 说明其它各个自变量都与因变量有线性关系。并且在模型三中各个变量的方差膨胀因子都远远大于10, 这种情况下就可以认定其存在多重共线性, 因此在第四个模型中把“工业总产值”的变量删除之后, P值=0.000首先通过了显著性检验, 同时方差膨胀因子也都小于10, 消除了多重共线性问题。 a.Dependent Variable:能源消费总量/万吨标准煤 a.Dependent Variable:能源消费总量/万吨标准煤 由于在SPSS设置阶段选取了输出所有观测量的异常值诊断, 因此在表6中“标准化残差”显示了15个观测量的标准化残差值, 并且每个值的绝对值都小于3, 因此可以断定数据中不存在异常值。同时可以通过标准化残差图 (图1) 来断定, 图中绝大多数散点贴近对角线, 可以认为标准化残差是服从正态分布的[4]。 4 研究结论及政策建议 4.1 研究结论 通过以上的检验和分析, 可以建立一个二元线性回归模型: 其中代表每年所消耗的能源 (万吨标准煤) , x1代表当年的国内生产总值 (亿元) , x2代表当年的全国人口数量 (万人) 。 由回归模型可以看出, 在其它条件不变的情况下, 国内生产总值每增加1亿元, 就要相应地消耗1.294万吨标准煤, 而国内生产总值每增加1个标准差, 能源消耗就要增加1.706个标准差;同理, 在其它条件不变的情况下, 人口总量每增加1万人, 就要少消耗6.934万吨标准煤, 而人口总量每增加1个标准差, 能源消耗就要减少0.782个标准差。 造成人口增加而能源消耗量减少的原因, 有多方面的因素:人口的增加幅度近年来得到了有效控制, 而同时科技的进步, 其它能源的开发利用以及政府对能源高效利用的重视等原因产生了这种结果。因此, 我们还应加强新能源开发力度, 能源高效利用的措施制定, 以及人口的控制[5]。 工业总产值未能通过检验, 因而被剔除, 其原因在于:通过统计指标来看 (第一、三个模型) , 工业总产值第一个进入回归模型, 与能源消耗高度相关, 并且工业总产值与GDP的方差膨胀因子都过大, 它们之间存在多重共线性问题[6]。从实际来看, 工业的发展需要消耗的能源比重很大, 同时我国的经济结构不合理, 特别是第三产业还处于发展阶段, 因此, 我国必须加大力度调整产业结构, 大力发展那些耗能比较少, 而附加值比较高的产业。对于重工业的发展, 要控制总量, 通过技术进步, 采取高新技术进行改造, 以改变产业结构;同时对第三产业, 实行激励性政策, 鼓励第三产业的发展, 调整第三产业在所有产业中的比重, 在创造经济价值的同时减少能源的消耗。充分考虑我国的国情, 走科技含量较高能源消耗率低的新型产业化道路是我国产业发展的必然选择。 4.2 政策建议 基于上述的研究结论, 我们可以得出如下政策性建议:在未来的能源利用中, 我国应根据国民生产总值等经济指标的预测值做好对能源的战略规划, 并积极进行科技创新, 开发新能源, 制定节约措施, 在保证人们日常生活的情况下, 实现国内经济的又好又快发展。 参考文献 [1]何晓群.现代统计分析方法与应用[M].中国人民大学出版社, [3]卢纹岱.SPSS for Windows统计分析[M].电子工业出版社, 2007. [2]王皓良.我国工业企业能源消耗研究[D].江苏大学硕士学位论文, 2009.2007. [4]高祥宝, 董寒青.数据分析与SPSS应用[M].清华大学出版社, 2007. [5]何宏.我国能源消费同经济增长变动关系实证研究[M].厦门大学出版社, 2006. 1. 桥梁的建筑艺术史 桥梁建筑为什么和艺术相关联,可以通过国内外的古代桥梁建筑历史和文化中探寻。 1.1 中国古代桥梁建筑史与特点 中国古代桥梁建筑是古代灿烂文化的重要组成部分,尤其是中国特有的石桥建筑艺术文化为世人所瞩目,不仅数目百万足以举世称冠,而且在造型艺术上也颇有特色,如著名的河北赵州桥建于一千三百多年前,为世界上最早的敞肩、空腹、圆弧拱桥梁,其大拱叠小拱的巧妙构造,结构独创,观之雄伟中秀逸,稳定中轻盈,古人称之“为天下之雄胜”,被列为世界文化珍迹之一;唐朝的宝带桥是现存最长的五十三孔的薄拱薄壁墩连拱桥,其形如“长龙卧波”,甚为壮观;被称为世界拱桥之冠的北京颐和园玉带桥,以及无数的江南水乡小桥等,桥拱和周围山水相映,虚实相生,动静相济,景色十分动人;扬州瘦西湖上的玉亭桥,广西三江程阳桥等都在桥梁结构之上建有浓厚民族风格的亭屋,既可供游人小憩赏景,又可避雨遮阳等等,千姿百态美不胜收。 中国文化的特色在不少程度上是一个合理与浪漫的巧妙结合,从而在建筑工程上产生了良好的效果。古代桥梁更多依赖经验而非真正的科学,同时受到技术、材料的限制,结构形式非常单一,其建造材料多以木、石为主,因而在艺术表现上除了桥梁形态外还着重通过栏板、柱头、碑亭、桥头建筑的雕饰去体现,雕饰的题材也多取于日常生活中的美好事物及神话传说,或象征善与美、贬责丑与恶,体现人民的愿望,或借以体现所处地区的历史文化背景与风土人情,营造意境、氛围,启人心智,抒人胸怀,而正是这种局限于结构形式通过外在“装饰元素”造就了中国古代特有的桥梁艺术和文化特点。 1.2 西方桥梁建筑史 由于早期科学发展的制约,东、西方国家在桥梁建筑基本形态上并无大的区别,但由于社会发展及文化背景的不同,早期西方桥梁建筑艺术表现与中国有很大差异。如达·芬奇、米开朗基罗等既是画家、艺术家,又是科学家、工程师,人们在浪漫主义思潮影响下,崇尚古典主义建筑艺术,追求形式美,注重和谐比例、宏伟外观与细部雕饰,桥梁建筑常被看作是—种纪念性建筑。例如,装饰最为富丽堂皇的是法国巴黎的亚历山大Ⅲ桥,其外侧拱肋全部隐藏在铸铁装饰中,铸铁花束吊在立柱之间,栏杆之间布置枝状大灯柱,拱顶还有一群天使围着盾形纹章的雕饰,而桥头入口上下有三层雕像,内容十分丰富,充分展现了法国当时的艺术水平。类似这样结构形式简单而装饰的繁琐的桥梁很多,当时的这些桥梁建筑可以说既是工程设计,又是艺术创作,是一座桥梁,又是一件大型艺术品,时代性、纪念性很强。 因此,纵观中外桥梁建筑史,尽管受到当时技术条件和科学发展水平的限制,桥梁建筑体在过去辉煌的建筑史上占有重要一席,成为重要的文明的传承和连续的载体之一;同时,也在某种程度上要求当今现代桥梁设计师能够告别工程师的单纯观念,学会将更多的历史文化元素穿插于桥梁设计之中,赋予桥梁建筑更多的内涵和寓意,打破重复性的流水线设计思路和习惯。 2. 现代桥梁设计特点与表现手法 随着时代和科技的发展,新材料、新工艺的大量应用,国内桥梁的跨度不断被改写,但留给建筑的受体——人的感官体验和印象却日益下降和模糊,更多的是将桥梁看作是一种单纯的通行工具,使得桥梁在现代城市建筑体中的地位反而被削弱,这是一个非常值得桥梁工程师深刻反思的问题,同时也是桥梁工程师向桥梁设计师转型的巨大动力。 城市现代人的审美观念在不断变化,现代社会处于高科技时代,现代通讯、现代交通、现代化设施与管理,造就了现代人干练、明确、快捷的工作作风与生活节奏,也形成了相应的审美情趣与感受。对于桥梁,除了结构要求新材料、新技术外,还力图展现工程建筑与社会生产力及社会思想意识的同步发展,要求桥梁造型艺术更贴切时代,或通过修饰和造型引发人的共鸣或精神感染,加强与人的精神互动。 基于国内外现代桥梁建筑的风格,可以归纳当前桥梁设计的一些主要的基本手法:“局部适配”如主梁、主拱、桥墩、桥塔等局部构件的修饰手法和设计原则,以及“整体协调”如建筑美学中一些最基本的比例协调、色彩搭配等原则。 以单个桥梁体的构件为例,如梁桥或者组合式桥梁的主梁,一般以水平延伸的直线为基本几何形态,艺术表现重在平直、坦途、纤细、流畅,主要表现手法:一是突出缘梁形成“金边”或“饰带”达彼岸,增加连续流畅感;二是可通过梁底的加腋曲线,改变平直的单调感,并能增加跨越感;三是改变梁的断面形态,加长翼缘板,或采用倒梯型、流线型断面,使梁在光影之下更显纤细。 而对于拱桥类型的主拱,美在优美的主拱曲线,它孕育着强大的一跨而过的力动感与跨越感,并与直线形态的梁、墩结合,刚柔相济、丰姿绰约,韵律感极强。主拱形态多样,从主拱轴线上看,圆弧拱适用小跨径,施工简便、形态简洁、宁静而稳定;抛物线拱与悬链线拱适用于中、大跨径,前者力动感强,后者则趋于自然和谐。从矢跨比角度看,坦拱比陡拱更显优雅、美观、平和,跨越感强,而陡拱醒目、动人、起伏强烈。从与路面相对位置上看,上承式应用最为普遍,形态自然,桥面通畅且有较大的桥下空间,特别适宜于山区环境,中承式则有起有伏,刚柔相济,形态优美,富有弹性;而下承式桥面上空的曲线轮廊会给人留下更深刻印象,加上色彩涂装,令人赏心悦目,是突出于周围环境创造新景观的最佳选择之一。尽管拱桥形态千姿百态,但无论坦、陡、空、实或上承、下承都应力求结构新颖、构件轻巧纤细韵律优美,并与所处环境相协调。 桥梁的墩比梁更靠近人的视点,艺术表现重在轻型、美观。而以混凝土材料为主的桥墩最富可塑性,其几何体态的虚实、空透、刚柔、凹凸、光影等力求比例合谐、韵律优美并与桥梁整体协调统一。桥墩常见断面形态有矩形、多边形、圆形、椭圆形等。对有棱角的断面进行切角或圆弧过渡,以产生斜面或曲面,或者对大面积表面进行凹槽处理以增加纵向线条,都是改善桥墩表面的单调感、增加轻巧感、柔和感、韵律感的有效方法。另外采用生动活泼的上大下小或空透的T、Y、A、X、V、H形墩都可以使桥墩变得体态轻盈,梁下空间增大,视野开放。 桥塔是悬索桥、斜拉桥等不可少的主构要素,其高耸挺拨的姿态,起着象征与标志的作用,无疑是景观中的重点。悬索桥由于构造的要求,传统的桥塔无论是桁架式、刚架式都是以门型为主,艺术表现上主要在“门”的形态上下功夫,如塔柱从下向上断面逐渐收分变细,不仅结构上合理,形态上也增加高耸感,另外,柱表面的凹槽、棱角的曲面化同样可增加柔和细腻的美感。上部横梁可为斜线或曲线,以减少呆板单调而增加优美感。横梁或斜撑的安置部位要与总体布置均衡协调,尽可能地简洁、通畅。相对而言,斜拉桥的桥塔可以形式多变而对整体结构没有大的影响,因而设计自由度大是其最大的特点,从仅有1根独柱构成到双柱式、门形、A形、倒Y形、H形等都十分普遍。 3. 现代桥梁设计的多元化趋势 国外诸多建筑师非常善于应用曲线和空间元素以及完美比例打造现代桥梁的个性,譬如西班牙设计桥梁出身的桑地亚哥·拉特拉瓦的作品,总有一种腾空飞跃的感觉,轻盈而舒展,是现代建筑中很少见的一类。卡拉特拉瓦作品中秀美的结构,给人以飘逸缈远的遐想。 此外,应充分的理解桥梁景观Bridgescape的对于城市CI形象识别系统的重要性。英国桥梁景观学家Frederick Gottemoel er将Bridgescape定义为设计桥梁的艺术。Gottemoel er将桥梁景观分解成线型设计、造型设计、平面布局设计、色彩设计、肌理设计、装饰设计等六大部分。Gottemoel er还对桥梁景观设计中符号学运用、历史文化表达及技术美学特性等方面的设计创作进行了阐述,力图使桥梁功能、美学、文化与技术达到统一。 高校学费[1]的制定关系到各个家庭,是事关民生的重要教育经济问题[2],是一直研究的热点,然而如何科学、合理地分析高等教育与社会需求之间的态势,是解决高等学校合理收费问题的基础。影响高校学费的因素很多,如何去除影响较小的因素,最大限度保留影响大的因素,并很好地根据现有数据预测学费,是学者要重点研究的内容。 本文的主旨在于为相关部门的决策提供理论依据,在整个研究过程中数据量和合理数据挖掘方法的选择至关重要,起决定性作用。本文采用经典的数据处理软件MATLAB 7.11,首先运用主成分分析法,对这7个因素进行数据处理、分析、判定,得出对学费影响较大的几个因素,然后通过采用多元线性回归的方法建模,挖掘出地方高校学费与这些因素之间的导向关系。 2 分析手段 2.1 符号说明 ηi:表示第i个省对应的平均学费的估计值,; xij:表示第i个省第j个因素的值,; bj:与xij线性无关的参数变量; εi:表示不可观测的随机变量; yi:表示第i个省对应的学费值; :表示第i个省学费的回归值; :表示对bj参数的估计值; σ:表示εi所符合的标准差值; cov:协方差。 2.2 主成分分析法 主成分分析法的关键在于降维,本文从简化方差和协方差的结构来实现降维。确切讲,简化统计数据,减少次要因素,并揭示变量之间的相互关系。具体方法是将多个相关变量简化为少数几个不相关变量。这样处理使得每个主成分是初始变量的线性组合,所有的主成分之间相互正交,所以没有冗余信息,它们构成数据空间的正交基。从计算的面上观察, 主成分分析法采用以下条例顺序去进行: (1)求出协方差矩阵A(由aij构成),,其中; (2)求矩阵的特征值,并依次排序得; (3)λi的正交化的特征向量为,同时满足: c),并称为X的第k个变量的主成分; d),称为第k个主成分的付出率; (4)比较的大小,假设第个主成分的付出率最大,则依据判断ek向量中较小值,以此去掉与它们对应的x值,进而判定关键因素,以实现减少构成因素的个数的要求。 2.3 线性多元回归模型 2.3.1 建立线性回归方程 其中 现将式(1)用向量表示: 可得元线性回归模型: 设是对的估计值,得元线性回归方程: 2.3.2 回归效果检验 SR通过变量的变化来改变η,Se表现出η与之间所有因ε所引起的数据之间的变化,除线性关系之外,因此SR增大,Se减小,表明η与的线性关系是决定性的。 式中,的无偏估计。 F分布检验: 分布检验: 式中,Cij是矩阵的对角线上第个元素。 3 实验结果分析 3.1 主成分分析结果 通过MATLAB编程,将各因素作为输入量,实现了主成分分析,程序详见附录部分。由此得到7个不同成份的贡献率分别为:0.4422,0.2223,0.2094,0.0585,0.0400,0.0217,0.0055。 根据7个不同成份的贡献率,选出各成份累加达到85%以上的主要成份,所得地方高校学费分析的主成分载荷如表1所示。 城市房价的多元回归分析研究 篇4
多元回归 篇5
多元回归 篇6
我国能源消耗量多元线性回归分析 篇7
多元回归 篇8
多元回归 篇9
从表中不难看出,非学事比和人均GDP这两个因素对学费的影响,与另外5个因素比较,作用要小的多,因此予以舍弃。
3.2 多元线性模型回归分析结果
应用SPSS统计软件对地方院校的线性多元模型回归分析如表2所示。
注:G1表示国家生均拨款;F1表示家庭收入;Y1表示预算内事业性教育经费拨款占教育经费收入比重;B1表示事业性经费支出占教育经费收入比重;S1表示生均教育经费支出。
从计算值表2中不难看出,作用于学生学费的关键因素为家庭收入,国家生均拨款,生均教育经费支出,预算内事业性教育经费拨款占教育经费收入比重,学费的估计式如式(11)所示:
生均教育经费支出,家庭收入,国家生均拨款,事业性经费支出占教育经费收入比重与学费的线性关系是不是正确,通过残差的直方图来判断,如图1所示。
由图1可以看出,残差大致服从正态分布,符合线性回归分析的基本假设,从而可认为此线性模型是合理的。
4 总结
本文首先通过主成分分析法,减少了影响因素,降低维度,减少了运算,而且经过多元线性回归能够较准确的对数据进行拟合,可以准确的考虑各因素对学费的影响程度。作用于地方院校学费水平的五个因素中,作用力较大的是家庭收入、国家生均拨款和生均教育经费三项,其中家庭收入的影响最大,生均国家生均拨款和教育经费支出次之。事业性经费支出占教育经费收入比重对地方院校的学费水平的影响较预算内事业性教育经费拨款占教育经费收入比重对地方院校学费水平的影响更为显著,而后者对学费的影响在较发达地区尤为显著。
参考文献
[1]王丽颖.高等教育学费标准探讨.白城师范学院学报.2013(6),27(3):13-16.WANG Li-ying.Discussion of College Tuition.Journal of Baicheng Normal University,2013(6),27(3):13-16.
[2]王莹.基于SPSS的南京地区高校学费水平与影响因素分析.电子测试,2013,12:137-138.WANG Ying.Analysis of University Tuition Level and Influencing Factors in Nanjing Area Based on SPSS.ELECTRONIC TEST,2013,12:137-138.
[3]曾奎,何丽芳,杨晓伟.基于多线性主成分分析的支持高阶张量机.南京大学学报(自然科学),2014,50(2):219-227.ZENG Kui,HE Ling-fang,YANG Xiao-wei.Multilinear principle component analysis based support higherorder tensor machine.Journal of Nanjing University,2014,50(2):219-227.
[4]赵海峰,于雪敏.基于L1范数主成分分析的颅脑图像恢复.计算机技术与发展,2014,24(1):231-234.ZHAO Hai-feng,YU Xue-min.Cerebral Image Rocovery Based on L1-norm Principal Component Analysis.Computer technology and development,2014,24(1):231-234.
多元回归 篇10
第一步, 利用SPSS对已知的商品住宅价格、工资收入以及GDP的十年数据进行相关性分析, 得出数据间的相关系数, 根据这些相关系数的大小来判断数据间是否有强联系, 为下面进行预测模型的建立的合理性提供依据。
第二步, 本文运用多元线性回归算法进行数据预估。首先把与商品住宅有强联系的数据类作为自变量, 把商品住宅价格作为因变量, 分别对强联系的数据类和商品住宅价格进行曲线多项式拟合, 大致确定商品住宅与其强联系数据类之间的影响关系, 通过分析它们之间的关系进行多元回归数学模型的建立。
第三步, 通过历史数据对模型进行检验, 并评价预测模型。
2 多元线性回归算法
回归分析 (Regression) 是一种应用广泛的统计分析方法, 在金融、经济、医学等领域都已成功应用。他应用于分析数据间的统计关系, 侧重观察变量之间的数量变化规律, 并通过回归方程的形式描述和反映这种关系。回归分析一般解决以下问题:确定自变量与若干因变量之间关系的定量表达式, 即回归方程式, 并且确定它们关系的密切程度;运用控制可控变量的数值, 借助于所求出的方程式来预测或控制自变量的取值;运行因素分析, 从影响变量变化的因变量中, 寻找出哪些因素对因变量产生了影响[5]。
2.1 相关性判别
相关分析用于描述两个变量之间关系密切程度, 它反映的是当控制了其中一个变量的取值后, 另一个变量的变异的程度。根据所得数据, 本文应用Pearson相关系数来对数据见联系强度进行判断。
Pearson相关系数计算公式为:
其中, n为样本个数, xi和yi为要分析相关性的两变量, r即为两变量的相关系数。当0≤|r|≤0.3时两变量为弱相关, 当0.3<|r|≤0.5时为低度相关, 当0.5<|r|≤0.8时为显著相关, 当0.8<|r|≤0.1时为高度相关。
2.2 线性回归模型
回归算法的基本步骤:首先把与所要预测的因变量相关度最高的自变量引入到线性方程中去, 再把相关性次高的自变量带入方程, 在带入次高变量后, 如果模型中的变量的F检验小于0.10, 则后带入的变量将不会被模型所接纳。如此不断带入自变量进行循环, 不断排除模型不需要的变量, 直到所有变量都已经被筛选过, 就得出最优回归模型。模型形式为:
其中, F作为多元线性回归显著性检验统计量, 其定义公式为:
p为多元线性回归方程中的解释变量的个数。F服从 (p, n-p-1) 个自由度的F分布。
3 实际模型实验
3.1 相关性分析
首先分析GDP、市民收入与商品住宅价格之间的相关性。目的是观察GDP、市民收入与商品住宅之间相关性强度。
通过相关性分析得出商品住宅价格与GDP以及市民收入的相关系数分别为03.976、0.996, 皆为高度相关, 所以GDP与市民收入为影响商品住宅价格的主要影响因子。
3.2 模型建立
下面开始建立模型。根据已知数据, 用Matlab分别做出GDP、市民收入与商品住宅价格的关系拟合图, 并求得拟合曲线方程。
经过以上曲线拟合我们得出:商品住宅价格与GDP为二次函数关系, 与市民收入为一次函数关系。通过房价与GDP、市民收入之间的函数关系, 我们开始建立多元回归模型方程如下。
设商品住宅价格y与GDP为x1、市民收入x2满足如下关系:
输入数据, 利用SPSS计算出回归模型方程中的参数β0、β1、β2、β3得出方程为:
3.3 模型检测与评估
根据已知武汉商品住宅数据对模型进行检测, 检测结果如下表:
通过上表可以看出检验结果误差较小, 最大误差值为286.6150, 最小误差值为6.6280, 平均误差值为142.1266。所求得模型可以应用于实际预测之中去。
4 小结
本文所得多元线性回归模型基本能够在误差要求范围内预测3年内商品住宅价格。模型稳定性较好。对房地产市场有影响的因子很多, 本文只寻找出两种相关性较高的因子, 但房地产市场会受到一些突发性事件影响世界经济危机、国家政策调控等, 而次模型还不具备对突发性影响的应对机制, 这有待进一步研究。
摘要:随着我国住房制度的商品化改革, 我国住宅产业蓬勃发展, 逐渐成为影响国计民生的重要产业之一。本文的主要目的是挖掘武汉商品住宅价格变化数据、市民工资收入和GDP数据间的关系, 对商品住宅价格的影响因子进行全面的剖析, 运用相关性算法得出各影响因子所占权重, 通过多元线性回归模型来预测商品住宅价格走势。
关键词:商品住宅价格,多元线性回归,预测模型
参考文献
[1]张红, 李文诞.北京商品住宅价格变动实证分析[J].中国房地产金融, 2001 (3) .
[2]周京奎.房地产价格波动与投机行为[J].当代经济科学, 2005 (7) .
[3]Geoffrey Meen, Mark Andrew.Modeling Regional House Prices:A Review of the Literature by The Centre for Spatial and Real Estate Economics[D].Department of Economics, The University of Reading, 1998.
[4]Stuart A Gabriel, Joe P.Mattey'William L.Wascher.House Price Differentialsand Dynamics Evidence from the Los Angeles and San Francisco Metropolitan Areas[J].Real Estate Economic, 2000.
多元回归 篇11
关键词 PM2.5; AQI; 主成分分析; 多元回归模型
中图分类号 O213; X501 文献标识码 A
Abstract
To explore the main reason of air pollution, we analyzed the correlation between monitoring index of air pollution PM2.5 and other monitoring indexes of AQI, and found that PM2.5 was associated positively with SO2, NO2, CO, and negatively with O3 and the temperature. Then we got the numerical relationship between PM2.5 and the main factor according to multiple regression model. The results offers some references to the control of PM2.5 in Xi'an.
Key wordsPM2.5; AQI; principal component analysis; multivariate regression model
1引言
PM2.5导致的雾霾天气日益严重, 影响人们的身体健康及出行, 其引起社会的广泛关注1. 西安是典型的北方城市, 它被联合国开发计划署选列为大气颗粒物污染研究示范性城市2, 由于西安特殊的地理位置, 被称为“污染天井”, 并且冬季燃煤取暖、人口密集, 因此本文以西安市为研究对象.
大气污染的两个基本要素是大气气溶胶和气态大气污染物3. 周顺武等4利用SO2、NO2、PM10三项指标, 分析了污染物浓度的分布特征.
李伟等5利用AQI指标的六项监测数据得到PM2.5与其他五项之间的关系. 通过已经公布的历史数据可以发现PM2.5影响因素具有不确定性, 所以本文采用统计学的多元回归模型探究PM2.5与AQI其他监测指标及温度因素的关系得到精确的统计模型, 发现PM2.5的测量值在春季、冬季相对较高, 在夏季、秋季较低6, 本文对温度因素与AQI监测指标进行相关分析, 得到PM2.5与其他监测指标的数量关系, 为西安市环保部门防治空气污染提供参考意见.
2数据来源及指标选择
通过西安市环保监测站查找了2013年1月1日~2013年12月31日的AQI监测数据, 温度数据来源于中国天气网的西安市天气历史数据. 选取的9个指标, 分别是PM2.5(PM2.5日平均浓度值, 单位μg/m3)、SO2(SO2日平均浓度值, 单位μg/m3)、NO2(NO2日平均浓度值, 单位μg/m3)、CO(CO日平均浓度值, 单位μg/m3)、O3-1(臭氧1个小时平均浓度值, 单位μg/m3)、O3-8(臭氧8个小时平均浓度值, 单位μg/m3)、PM10(可吸入颗粒物PM10日平均浓度值, 单位μg/m3)、Tmax(日温度最高值, 单位℃)、Tmin(日温度最低值, 单位℃).
3数据预处理
为了保证数据的完整性, 需要对数据进行缺失值查找和填补, 利用SPSS 21.0 统计软件7对各个变量进行变量的基本统计分析, 发现2013年3月25日O3-8指标缺失, 因此本文采用回归的方法对该数据进行填补, 保证了数据的完整性. 为了消除数据变量在数量级和量纲上的不同, 将填补缺失值后的完整数据进行标准化处理. 本文采用的是Z标准化, 即数据处理后的均值为0, 方差为1.标准化公式为: x*=x-μσ, 其中μ为样本数据的均值, σ为样本数据的标准差.
4PM2.5与其他指标的多元回归分析
对AQI的7个基本监测指标及每日最高温度、最低温度的相关性进行定量分析, 尤其是对PM2.5含量与其他8项分指标数量的相关性及其数量关系进行分析, 可以从两个方面进行考虑: 第一, PM2.5与其他8项指标之间的相关性; 第二,PM2.5与其他指标间存在的数量关系.
4.1PM2.5相关因素相关性分析
复相关分析法能够反映各要素的综合影响, 几个要素与某一个要素之间的复相关程度, 用复相关系数来测定. 复相关系数可以利用相关系数和偏相关系数求得, 其假设检验与多元回归的方差分析结果一致, 因而表示回归贡献的百分比值. 复相关系数的取值介于-1与+1之间, 用其绝对值的大小来判断相关的密切程度, 绝对值越大, 相关性越大; 反之, 相关性越小. 本文利用复相关分析方法, 并利用SPSS 21.0软件进行数据分析. 具体步骤如下:
1)利用SPSS 软件对SO2、NO2、PM10、CO、O3-1、O3-8、Tmax、Tmin和PM2.5这9个指标进行相关分析, 采用Pearson相关分析法得到表2的数据. 数据结果显示PM2.5与SO2、NO2、PM10、CO、O3都是相关的, 并且存在较高的相关系数, 尤其与PM10的相关性最大.
2)利用SPSS 21.0软件先固定PM2.5, 再对其余指标进行偏相关分析, 得到表1.
3) 计算复相关系数为0.996 0.
多元线性回归在成绩分析中的应用 篇12
一﹑资料与方法
1.1 资料来源。
我校2009级经济管理学院物流、营销2个专业辽宁考区学生, 共计56人。以其高考成绩 (包括英语、数学、语文、理综合成绩) 及大学第一学期考试课 (包括大学英语、高等数学、现代基础医学概论、中医基础) 成绩为研究对象。
1.2 方法。
以4科高考成绩为自变量, 分别以大学第一学期考试课成绩为因变量, 利用SPSS17.0统计软件, 采用逐步回归方法进行多元线性回归分析。
二﹑结果
2.1 高考成绩对大学英语成绩的影响 (见表1)
注:F=3334.108, P=0.000<0.05, 因变量:大学英语, 通过原点的线性回归
如表1所示, 大学英语与高考英语成绩之间的线性伴随变化有统计学意义 (F=3334.108, P=0.000<0.05, t高考英语=57.742, P=0.000<0.05) 。回归方程为:大学英语=0.625*高考英语, 说明高考英语成绩每增加1分, 估计大学英语成绩平均升高0.625分。
2.2 高考成绩对高等数学成绩的影响 (见表2)
注:Model 2:F=7.570, P=0.001<0.05, 因变量:高等数学
如表2所示, 高等数学与高考数学、理综合成绩之间的线性伴随变化有统计学意义 (F=7.570, P=0.001<0.05, t理综合=-3.117, P=0.003<0.05, t高考数学=2.076, P=0.043<0.05) 。回归方程为:高等数学=100.052-0.250*理综合+0.269*高考数学, 说明在高考数学成绩未变化的情况下, 理综合成绩每增加1分, 估计高等数学成绩平均下降0.250分;同理, 在理综合成绩未变化的情况下, 高考数学成绩每增加1分, 估计高等数学成绩平均升高0.269分。
2.3 高考成绩对现代基础医学概论成绩的影响 (见表3)
注:F=10.008, P=0.003<0.05, 因变量:现代基础医学概论
如表3所示, 现代基础医学概论与理综合成绩之间的线性伴随变化有统计学意义 (F=10.008, P=0.003<0.05, t理综合=-3.164, P=0.003<0.05) 。回归方程为:现代基础医学概论=120.285-0.244*理综合, 说明理综合成绩每增加1分, 估计现代基础医学概论成绩平均下降0.244分。
2.4 高考成绩对中医基础成绩的影响 (见表4)
注:F=15.739, P=0.000<0.05, 因变量:中医基础
如表4所示, 中医基础与理综合成绩之间的线性伴随变化有统计学意义 (F=15.739, P=0.000<0.05, t理综合=-3.967, P=0.000<0.05) 。回归方程为:中医基础=123.310-0.219*理综合, 说明理综合成绩每增加1分, 估计中医基础成绩平均下降0.219分。
三﹑讨论
大学第一学期考试课成绩受多种因素影响, 本文仅从高考成绩这一方面进行研究。通过多元线性回归分析可以得出:大学英语与高考英语成绩之间的线性伴随变化有统计学意义;高等数学与高考数学、理综合成绩之间的线性伴随变化有统计学意义, 即大学英语和高等数学成绩分别受高考英语和高考数学成绩影响。教师在这两门学科教学过程中可根据学生的高考成绩进行有针对性的分层教学, 即要让基础好的学生取得高分, 又要保证整个学生群体的及格率。而现代基础医学概论、中医基础成绩与理综合成绩之间的线性伴随变化虽然有统计学意义, 但偏回归系数为负值, 这说明理科成绩较好的学生在大学第一学期还不太适应中医专业课的学习, 教师在授课过程中, 应结合理科生的思维特点通过案例教学、PBL教学等教学方法在充分调动学生学习积极性的前提下, 培养学生的学习兴趣, 帮助学生建立和完善适合自己的学习方法, 进而为接续的学习课程打下坚实基础。
摘要:目的 研究高考成绩是否对大学第一学期考试课成绩产生影响。方法 对经济管理学院2009级物流、营销2个专业学生的高考成绩与大学第一学期考试课成绩进行多元线性回归分析, 从而定量地确定它们之间的相互依存关系。结果 大学英语与高考英语成绩之间的线性伴随变化有统计学意义;高等数学与高考数学、理综合成绩之间的线性伴随变化有统计学意义;现代基础医学概论与理综合成绩之间的线性伴随变化有统计学意义;中医基础与理综合成绩之间的线性伴随变化有统计学意义。结论 多元线性回归分析定量的揭示了高考成绩对大学第一学期考试课成绩的影响, 为教师开展有效教学, 保证教学质量提供了一定的指导依据。
关键词:多元线性回归,大学英语,高等数学,现代基础医学概论,中医基础,成绩
参考文献
[1]赵耐青.临床医学研究设计和数据分析[M].上海:复旦大学出版社, 2005:152-173.
【多元回归】推荐阅读:
多元回归预测10-15
工业多元回归分析11-21
多元线性回归预测模型06-25
多元线性回归分析模型10-05
多元非线性回归分析07-25
多元非线性回归模型11-13
理性回归07-18
立足回归05-14
回归算法05-15
回归方法05-24