多元非线性回归分析

2024-07-25

多元非线性回归分析(精选12篇)

多元非线性回归分析 篇1

1 概述

回归分析是一种传统的应用性较强的科学方法,是现代应用统计学的一个重要的分支,在各个科学领域都得到了广泛的应用。它不仅能够把隐藏在大规模原始数据群体中的重要信息提炼出来,把握住数据群体的主要特征,从而得到变量间相关关系的数学表达式,利用概率统计知识对此关系进行分析,以判别其有效性,还可以利用关系式,由一个或多个变量值去预测和控制另一个因变量的取值,从而知道这种预测和控制达到的程度,并进行因素分析。

2 多元线性回归数学模型

设可预测的随机变量为y,它受到p个非随机因素x1,x2,…xp-1,xp,和不可预测的随机因素ε的影响。多元线性回归数学模型为

其中为回归系数

对y和x1,x2,…xp-1,xp,分别进行n次独立观测,取得n组数据(样本)

则有

其中ε1,ε2,…εn相互独立,且服从N(0,σ2)分布。

则式(2)用矩阵形式表示为

3 模型参数β的最小二乘法估计与误差方差σ2的估计

β的最小二乘法估计即选择β使误差项的平方和为最小值,这时β的值作为β的点估计.

为了求β,由(4)式将S(β)对β求导,并令其为零,得

4 模型检验

多元线性回归数学模型建立后,是否与实际数据有较好的拟合度,其模型线性关系的显著性如何等,还需通过数理统计进行检验。常用的统计检验有R检验和F检验。

4.1 R检验

R是复相关系数,用于测定回归模型的拟合优度,R越大,说明Y与x1,x2,…xp-1的线性关系越显著,为yi的平均值,R取值范围为0<│R│≤1。

4.2 F检验

m为自变量个数,n为数据个数。

F服从F(m,n-m-1)分布,取显著性水平为α,如果F>Fa(m,n-m-1),表明回归模型显著,可从用于预测。反之,回归模型不能用于预测。

5 应用实例

某医院为了解病人对医院工作的满意程度Y和病人的年龄X1,病情的严重程度X2和病人的忧虑程度X3之间的关系,随机调查了该医院的10位病人,得数据如表1所示。

使用MATLAB语言编程并计算得下面结果:

从结果可以得出,回归模型为

取α=0.05对方程和回归系数进行检验,查F分布表可得F0.0 5(3.6)=4.76,F0.0 5(1.6)=5.99

本例中的方程检验值F=23.7098>4.76,说明模型的回归效果高度显著。

F1=9.0886>5.99,说明x1显著。

F2=0.4105<5.99,说明x2很不显著。

F3=2.5260<5.99,说明x3不显著。

R为0.9603接近1,表明线性相关性较强。

在实际中,由于Y的影响因素还有很多,使Y与X关系更为复杂,而且记录数据的准确性,可靠性,异常数据等问题,将影响Y的预测分析。

摘要:本文研究了多元线性回归理论及应用,探讨了多元线性回归模型中未知参数的估计及其参数的检验问题,以实例进行了验证。

关键词:多元线性回归分析,回归模型,检验问题

参考文献

[1]梅长林,范金城.数据分析方法.高等教育出版社.2006,2.

[2]何晓群.现代统计分析与应用.中国人民大学出版社.2007,8.

多元非线性回归分析 篇2

分析了水文预报的.主要影响因子,通过系数的最小二乘法建立方程组,采用了Matlab软件对其方程组进行求解,得出其多元回归方程,应用复相关系数对其回归效果进行了检验,结果表明,多元线性回归分析方法简单、误差较小、预报结果有效.

作 者:周文斌 车倩 ZHOU Wen-bin CHE Qian  作者单位:周文斌,ZHOU Wen-bin(东华理工大学土木与环境工程学院,江西,抚州,344000)

车倩,CHE Qian(抚州市建筑勘察设计院,江西,抚州,344000)

刊 名:山西建筑 英文刊名:SHANXI ARCHITECTURE 年,卷(期): 35(1) 分类号:P338 关键词:多元线性回归分析   复相关性   多元回归方程  

多元非线性回归分析 篇3

关键词:多元线性;分析;学生成绩

学生接受教育是连续的,所以评价一名学生不能只依靠某次考试成绩,要纵向地连续观察学生在各阶段情况做综合评价。中考成绩是衡量学生进入高中之前学习情况的一项重要指标,所以选择这两个变量作为二模成绩的解释变量是含有一定的合理性。

图3是学校类别x2,学生性别x3以及班级类别x4的直方图,图4表示的是二模成绩y关于中考成绩x1和一模成绩x3的散点图。通过观察可以对新添加解释变量的情况有初步了解。

R软件对样本数据做多元回归得表4.可以得到多元线性回归模型虽然已经得到回归方程,但还要对模型的合理性进行检验。由上文多元回归模型的理论可知,首先要对回归方程做显著性检验,分析数据发现该检验得到p值很小,与此同时相关系数R2为0.9298,说明建立的多元回归模型比较合理,解释变量能很好解释因变量。

接下来还要对模型的解释变量逐个进行t检验,表4中显示中考成绩、一模成绩的p值很小,说明二者对二模成绩影响很显著。

学生性别这个变量对二模成绩影响的p值为0.0271也很显著。人们通知认为高中男生的学习能力要强于女生,但分析结果表明这种说法不是很正确。学生性别变量的回归系数估计值为3.1393,表明女生成绩普遍较好。高中阶段的学习,不仅要求接受新知识能力强,而且要求有丰富的知识积累量。可能是女生学习态度较好,对知识掌握情况较好。

学校类别变量对因变量影响不是很显著,也就是说学校水平对学生成绩影响不大。样本的五所学校可以分为两个水平:重点高中和普通高中。学校水平不同对学生二模影响的功能贡献率不是很大,这个结果与只有去好学校才有优异成绩的想法不符。

二模成绩与一模成绩的散点图说明一模成绩可以很好的预测二模成绩。图中有很清晰的两条直线,可能是由于学校所处水平不同引起的,重点高中学生成绩整体上要比普通高中要好。图5是多元回归方程的残差图,图中点散乱分布在y轴的两侧,说明所选择的中考成绩,学生性别等5个解释变量可以很好的解释二模成绩,也就是说建立的模型有一定的合理性上述多元回归模型残差平方和,对上文五个解释变量做显著分析时知,学生个人对二模成绩影响很大,学生类别与班额对学生成绩影响不是很显著。残差平方和的意义在于除了学生个人之外其他所有因素对因变量的影响,其中也包括学校的教学质量。因此,我们就可以利用各自学校的残差平方和去比较学校之间教学质量差异。利用上式可以得到每所学校的学校对学生的影响程度表示为

利用样本数据计算得到的结果见表6.

从表6可以看出,C、D两所学校残差平方和比较大,表明与其他几所学校有明显差异。从实际意义上看,说明这两所学校在师资力量、办学条件、生源质量等方面与其他三所学校有很大不同。

模型拓展

本文之前的分析都是在样本数据的基础上,利用数据中包含比较直观的信息(学生成绩、性别等),从学生角度分析影响学生的二模成绩因素。在样本中没有任何关于学校办学条件,师资力量等代表学校教学质量相关信息情况下,是否可以利用简单线性回归模型挖掘出潜藏在样本中的信息,进而估测学校的教学质量的差异为学校排名。

其中表示来自第i所学校的第j学生的第二次模拟考试成绩。

表示来自第i所学校的第j 学生的中考成绩。由最小二乘法估计方法,我们有将样本数据代入上式推导出的公式中,计算结果如表7所示。

数据分析之前,已经大致了解学校的基本情况。其中学校编号为CDE的三所学校为省级示范高中,编号为AB的两所学校为普通高中,实际学校排名情况与上表现是排名大体一致。

本文建立的多元回归模型对三组学生成绩分别从学生以及学校角度进行分析,并结合统计学知识、R软件对数据分析处理的结果进行了有效的分析与合理解释。

当统计学与数据相遇总会有这样那样的火花,不一样的风景。样本只包含几次考试成绩和关于学生自身的一些信息,没有直接关联教学质量的信息。但是简单的分析就可以挖掘到许多隐藏在数据背后的信息,这就是统计学的魅力所在。通过上述分析再一次验证了数据力量是巨大的,合理、高效地利用为教学服务,将具有重大的意义。

参考文献:

我国能源消耗量多元线性回归分析 篇4

1 多元线性回归的理论基础

多元线性回归模型的一般形式:

设因变量y与自变量x1, x2, …, xp的线性回归模型为

在式1中, β0, β1, β2, …, βp是p+1个未知参数, β0为回归常数, β1, β2, …, βp为回归系数, y为被解释变量也既是因变量。

多元回归方程的实现就是根据已知变量, 运用最小二乘估计, 获得回归系数的过程, 就是寻找回归系数的估计值, 并使其估计值的离差平方和达到极小[1]。

多元线性回归方程的确定需要对统计指标进行一系列的检验, 只有各个统计指标通过了检验, 才能确定最终的回归方程, 同时也是拟合度最优方程。其中包括:

1) 复相关系数。用R表示, 是自变量与因变量之间线性关系密切程度的指标, 取值范围在, 其值越接近1, 表示线性关系越强。

2) 可决系数或判定系数。用R2表示, 是对回归方程拟合程度的综合衡量, 取值范围也在0~1之间, 其值越大, 说明方程的拟合程度越好。但还应该注意, 拟合效果与预测效果并不一样, 而且无论自变量与因变量是否有显著相关性, 其个数越多, 可决系数越大。因此除了根据可决系数判定方程的拟合优度之外, 还应使用其它检测标准。如对修正可决系数进行检验等。

3) F检验。此检验是用方差分析方法来检验回归模型在一定显著性水平下整体上是否合理。在SPSS软件的输出结果中, 如果F>F1-a (k, n-k-1) , 就认为回归整体显著, 同时也可以根据输出结果中的显著性概率即p值来判别。

4) t检验。也即是偏回归系数与常数项的检验, 通过此检验可以判定各个模型的回归系数与常数项是否显著, 进而判定自变量进入方程的合理性。一般情况下, 在SPSS输出结果中通过显著性概率即可判定各个系数的t值的合理性。根据设置的显著性水平的不同, 一般如果p值小于0.01或0.05, 则可认为其回归系数或常数项具有显著性。

5) 多重共线性诊断。各自变量之间是否存在多重共线性, 可以通过VIF、容忍度、特征值以及条件指数来衡量。当VIF小于10, 容忍度接近于1, 若干特征值较大且接近于1, 条件指数小于15等情况下可以认为自变量间不存在多重共线性问题。

6) 异常值诊断。异常值是指标准差过大的观测量, 在SPSS软件中, 默认的判断标准是标准化残差的绝对值大于3, 在这种情况下就可以认为其存在异常值。

2 自变量与因变量的设定

能源既是经济的一部分, 又是经济运行的基础。能源供应保证了其他行业的需要, 支持了GDP增长, 比起自身对GDP的贡献更为显著。因为没有能源产业的发展, 就不可能保障其他行业的发展需求, 也就阻滞了国民经济的发展。能源对国家安全、社会运行、生态环境、人们生活和文明均有重大的影响, 是当代社会与经济生活中的核心问题。能源以直接或间接的方式推动或制约了经济的发展。

从人类历史的发展历程来看, 能源对于人类社会发展具有举足轻重的作用, 具体表现在: (1) 能源推动生产力的发展; (2) 能源推动经济规模的扩大; (3) 能源是提高人民物质生活的物质基础。经济增长对能源的需求和能源对经济增长的促进作用, 通常是在能源供给不能满足需求时表现得最为强烈[2]。例如, 1973年第一次石油危机期间, 美国能源短缺严重, 国内生产总值因此减少了930亿美元, 而其他发达国家的情况也大体如此。据有关资料分析, 由于能源短缺造成的国民生产总值的损失, 大约是能源本身价值的20-60倍。[3]因此认为, 能源的消耗与国内生产总值有高度相关, 同时与人口的数量有关, 对于中国的实际, 特选取需要消耗大量能源的工业作为一项变量, 检验其是否与我国能源消耗有高度相关的关系。

本研究的目的是为了建立我国未来能源消耗量的回归模型, 因此因变量y指当年的能源消耗量并以标准煤为单位 (万吨) ;选取的自变量分别为:x1为当年国内生产总值 (GDP:亿元) ;x2为当年的人口总量 (万人) ;x3为当年工业总产值 (亿元) 。选取了1992~2006年我国能源消耗量、国内生产总值、人口数量以及工业总产值的变量统计信息见表1:

数据来源:能源消费总量以及工业总产值来自《中国统计年鉴 (2007) 》, GDP总量来自《中国统计摘要 (2005) 》, 人口数量来自《中国人口统计年鉴 (2005) 》。

3 回归结果及回归检验

在进行SPSS软件操作过程中, 选取线性回归命令后, 对线性回归对话框进行设定如下, 把“能源消费总量”选入因变量空格中, 把GDP、人口和工业总产值选入自变量空格中, 然后选取逐步回归分析法;在“统计量”选项中选取“估计值”“模式适合度”“置信区间”“共线性诊断”以及“全部异常值诊断”;在“统计图”选项中选取输出“残差正态概率图”;在“保存”选项中选取输出预测区间, 并选取95%的可信区间;在“选项”对话框中选取默认选项[3]。输出结果如下:

a.Dependent Variable:能源消费总量/万吨标准煤

在表2中一共显示了四个步骤, 可以看出三个自变量先后进入逐步回归过程, 只有工业总产值被剔除。其被剔除的原因可能与GDP的进入有关, 也许是因为工业总产值与GDP之间有严重的多重共线性问题, 有待于根据下面的统计指标进行确认。

a.Predictors: (Constant) , 工业总产值/亿元

b.Predictors: (Constant) , 工业总产值/亿元, 人口/万人

c.Predictors: (Constant) , 工业总产值/亿元, 人口/万人GDP/亿元

d.Predictors: (Constant) , 人口/万人, GDP/亿元

e.Dependent Variable:能源消费总量/万吨标准煤

由表3可以看出, 四个模型的复相关系数以及可决系数都大于0.9, 说明自变量与因变量之间的线性关系很强并且拟合的效果也很好;从其修正可决系数来看, 每次变量的进入与剔除都会引起其的增加, 可以判定拟合效果与预测效果都很好。同时第四个模型的DW检验值为1.726, 查DW检验上下界表 (k=3, n=15) 得dL=0.95, dU=1.54, 而dU=1.54<1.726<4-dU=2.46, 因此误差项之间无序列相关关系。

a.Predictors: (Constant) , 工业总产值/亿元

b.Predictors: (Constant) , 工业总产值/亿元, 人口/万人

c.Predictors: (Constant) , 工业总产值/亿元, 人口/万人, GDP/亿元

d.Predictors: (Constant) , 人口/万人, GDP/亿元

e.Dependent Variable:能源消费总量/万吨标准煤

由表4方差分析表可以看出, 四个模型中P值=0.000, 都通过了显著性检验, 其中最大F值是第四个模型的F值=671.626, 说明在第四个模型的x1、x2对y有高度的线性关系, 同时拟合效果也是最好的。

在表5方程系数表中, 给出了各个模型的回归系数值, 它们的t值检验的显著性系数除了模型三中“工业总产值”不显著外, 其它都通过了显著性检验, 说明其它各个自变量都与因变量有线性关系。并且在模型三中各个变量的方差膨胀因子都远远大于10, 这种情况下就可以认定其存在多重共线性, 因此在第四个模型中把“工业总产值”的变量删除之后, P值=0.000首先通过了显著性检验, 同时方差膨胀因子也都小于10, 消除了多重共线性问题。

a.Dependent Variable:能源消费总量/万吨标准煤

a.Dependent Variable:能源消费总量/万吨标准煤

由于在SPSS设置阶段选取了输出所有观测量的异常值诊断, 因此在表6中“标准化残差”显示了15个观测量的标准化残差值, 并且每个值的绝对值都小于3, 因此可以断定数据中不存在异常值。同时可以通过标准化残差图 (图1) 来断定, 图中绝大多数散点贴近对角线, 可以认为标准化残差是服从正态分布的[4]。

4 研究结论及政策建议

4.1 研究结论

通过以上的检验和分析, 可以建立一个二元线性回归模型:

其中代表每年所消耗的能源 (万吨标准煤) , x1代表当年的国内生产总值 (亿元) , x2代表当年的全国人口数量 (万人) 。

由回归模型可以看出, 在其它条件不变的情况下, 国内生产总值每增加1亿元, 就要相应地消耗1.294万吨标准煤, 而国内生产总值每增加1个标准差, 能源消耗就要增加1.706个标准差;同理, 在其它条件不变的情况下, 人口总量每增加1万人, 就要少消耗6.934万吨标准煤, 而人口总量每增加1个标准差, 能源消耗就要减少0.782个标准差。

造成人口增加而能源消耗量减少的原因, 有多方面的因素:人口的增加幅度近年来得到了有效控制, 而同时科技的进步, 其它能源的开发利用以及政府对能源高效利用的重视等原因产生了这种结果。因此, 我们还应加强新能源开发力度, 能源高效利用的措施制定, 以及人口的控制[5]。

工业总产值未能通过检验, 因而被剔除, 其原因在于:通过统计指标来看 (第一、三个模型) , 工业总产值第一个进入回归模型, 与能源消耗高度相关, 并且工业总产值与GDP的方差膨胀因子都过大, 它们之间存在多重共线性问题[6]。从实际来看, 工业的发展需要消耗的能源比重很大, 同时我国的经济结构不合理, 特别是第三产业还处于发展阶段, 因此, 我国必须加大力度调整产业结构, 大力发展那些耗能比较少, 而附加值比较高的产业。对于重工业的发展, 要控制总量, 通过技术进步, 采取高新技术进行改造, 以改变产业结构;同时对第三产业, 实行激励性政策, 鼓励第三产业的发展, 调整第三产业在所有产业中的比重, 在创造经济价值的同时减少能源的消耗。充分考虑我国的国情, 走科技含量较高能源消耗率低的新型产业化道路是我国产业发展的必然选择。

4.2 政策建议

基于上述的研究结论, 我们可以得出如下政策性建议:在未来的能源利用中, 我国应根据国民生产总值等经济指标的预测值做好对能源的战略规划, 并积极进行科技创新, 开发新能源, 制定节约措施, 在保证人们日常生活的情况下, 实现国内经济的又好又快发展。

参考文献

[1]何晓群.现代统计分析方法与应用[M].中国人民大学出版社,

[3]卢纹岱.SPSS for Windows统计分析[M].电子工业出版社, 2007.

[2]王皓良.我国工业企业能源消耗研究[D].江苏大学硕士学位论文, 2009.2007.

[4]高祥宝, 董寒青.数据分析与SPSS应用[M].清华大学出版社, 2007.

[5]何宏.我国能源消费同经济增长变动关系实证研究[M].厦门大学出版社, 2006.

多元非线性回归分析 篇5

练习题

3.1为研究中国各地区入境旅游状况,建立了各省市旅游外汇收入(Y,百万美元)、旅行社职工人数(X1,人)、国际旅游人数(X2,万人次)的模型,用某年31个省市的截面数据估计结果如下:

t=(-3.066806)

(6.652983)

(3.378064)

R2=0.934331

F=191.1894

n=31

(1)

从经济意义上考察估计模型的合理性。

(2)

在5%显著性水平上,分别检验参数的显著性。

(3)

在5%显著性水平上,检验模型的整体显著性。

3.2根据下列数据试估计偏回归系数、标准误差,以及可决系数与修正的可决系数:,,,,,3.3

经研究发现,家庭书刊消费受家庭收入几户主受教育年数的影响,表中为对某地区部分家庭抽样调查得到样本数据:

家庭书刊年消费支出(元)Y

家庭月平均收入

(元)X

户主受教育年数

(年)T

家庭书刊年消费支出(元)Y

家庭月平均收入

(元)X

户主受教育年数

(年)T

450

1027.2

793.2

1998.6

507.7

1045.2

660.8

2196

613.9

1225.8

792.7

2105.4

563.4

1312.2

580.8

2147.4

501.5

1316.4

612.7

2154

781.5

1442.4

890.8

2231.4

541.8

1641

1121

2611.8

611.1

1768.8

1094.2

3143.4

1222.1

1981.2

1253

3624.6

(1)

建立家庭书刊消费的计量经济模型;

(2)利用样本数据估计模型的参数;

(3)检验户主受教育年数对家庭书刊消费是否有显著影响;

(4)分析所估计模型的经济意义和作用

3.4

考虑以下“期望扩充菲利普斯曲线(Expectations-augmented

Phillips

curve)”模型:

其中:=实际通货膨胀率(%);=失业率(%);=预期的通货膨胀率(%)

下表为某国的有关数据,表1.1970-1982年某国实际通货膨胀率Y(%),失业率X2(%)和预期通货膨胀率X3(%)

年份

实际通货膨胀率Y

(%)

失业率X2

(%)

预期的通货膨胀率X3(%)

1970

1971

1972

1973

1974

1975

1976

1977

1978

1979

1980

1981

1982

5.92

4.30

3.30

6.23

10.97

9.14

5.77

6.45

7.60

11.47

13.46

10.24

5.99

4.90

5.90

5.60

4.90

5.60

8.50

7.70

7.10

6.10

5.80

7.10

7.60

9.70

4.78

3.84

3.31

3.44

6.84

9.47

6.51

5.92

6.08

8.09

10.01

10.81

8.00

(1)对此模型作估计,并作出经济学和计量经济学的说明。

(2)根据此模型所估计结果,作计量经济学的检验。

(3)计算修正的可决系数(写出详细计算过程)。

3.5某地区城镇居民人均全年耐用消费品支出、人均年可支配收入及耐用消费品价格指数的统计资料如表所示:

年份

人均耐用消费品支出

Y(元)

人均年可支配收入

X1(元)

耐用消费品价格指数

X2(1990年=100)

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

137.16

124.56

107.91

102.96

125.24

162.45

217.43

253.42

251.07

285.85

327.26

1181.4

1375.7

1501.2

1700.6

2026.6

2577.4

3496.2

4283.0

4838.9

5160.3

5425.1

115.96

133.35

128.21

124.85

122.49

129.86

139.52

140.44

139.12

133.35

126.39

利用表中数据,建立该地区城镇居民人均全年耐用消费品支出关于人均年可支配收入和耐用消费品价格指数的回归模型,进行回归分析,并检验人均年可支配收入及耐用消费品价格指数对城镇居民人均全年耐用消费品支出是否有显著影响。

3.6下表给出的是1960—1982年间7个OECD国家的能源需求指数(Y)、实际GDP指数(X1)、能源价格指数(X2)的数据,所有指数均以1970年为基准(1970=100)

年份

能源需求指数Y

实际GDP指数X1

能源价格指数X2

年份

能源需求指数Y

实际GDP指数X1

能源价格指数X2

1960

1961

1962

1963

1964

1965

1966

1967

1968

1969

1970

1971

54.1

55.4

58.5

61.7

63.6

66.8

70.3

73.5

78.3

83.3

88.9

91.8

54.1

56.4

59.4

62.1

65.9

69.5

73.2

75.7

79.9

83.8

86.2

89.8

111.9

112.4

111.1

110.2

109.0

108.3

105.3

105.4

104.3

101.7

97.7

100.3

1972

1973

1974

1975

1976

1977

1978

1979

1980

1981

1982

97.2

100.0

97.3

93.5

99.1

100.9

103.9

106.9

101.2

98.1

95.6

94.3

100.0

101.4

100.5

105.3

109.9

114.4

118.3

119.6

121.1

120.6

98.6

100.0

120.1

131.0

129.6

137.7

133.7

144.5

179.0

189.4

190.9

(1)建立能源需求与收入和价格之间的对数需求函数,解释各回归系数的意义,用P值检验所估计回归系数是否显著。

(2)

再建立能源需求与收入和价格之间的线性回归模型,解释各回归系数的意义,用P值检验所估计回归系数是否显著。

(3)比较所建立的两个模型,如果两个模型结论不同,你将选择哪个模型,为什么?

练习题参考解答

练习题3.1参考解答

有模型估计结果可看出:旅行社职工人数和国际旅游人数均与旅游外汇收入正相关。平均说来,旅行社职工人数增加1人,旅游外汇收入将增加0.1179百万美元;国际旅游人数增加1万人次,旅游外汇收入增加1.5452百万美元。

取,查表得

因为3个参数t统计量的绝对值均大于,说明经t检验3个参数均显著不为0,即旅行社职工人数和国际旅游人数分别对旅游外汇收入都有显著影响。

取,查表得,由于,说明旅行社职工人数和国际旅游人数联合起来对旅游外汇收入有显著影响,线性回归方程显著成立。

练习题3.3参考解答

(1)建立家庭书刊消费的计量经济模型:

其中:Y为家庭书刊年消费支出、X为家庭月平均收入、T为户主受教育年数

(2)估计模型参数,结果为

(49.46026)(0.02936)

(5.20217)

t=

(-1.011244)

(2.944186)

(10.06702)

R2=0.951235

F=146.2974

(3)

检验户主受教育年数对家庭书刊消费是否有显著影响:

由估计检验结果,户主受教育年数参数对应的t

统计量为10.06702,明显大于t的临界值,同时户主受教育年数参数所对应的P值为0.0000,明显小于,均可判断户主受教育年数对家庭书刊消费支出确实有显著影响。

(4)本模型说明家庭月平均收入和户主受教育年数对家庭书刊消费支出有显著影响,家庭月平均收入增加1元,家庭书刊年消费支出将增加0.086元,户主受教育年数增加1年,家庭书刊年消费支出将增加52.37元。

练习题3.5参考解答

(1)

建立该地区城镇居民人均全年耐用消费品支出关于人均年可支配收入和耐用消费品价格指数的回归模型:

(2)估计参数结果

由估计和检验结果可看出,该地区人均年可支配收入的参数的t检验值为10.54786,其绝对值大于临界值;而且对应的P值为0.0000,也明显小于。说明人均年可支配收入对该地区城镇居民人均全年耐用消费品支出确实有显著影响。

多元非线性回归分析 篇6

关键词:多元线性回归模型;影响因素分析;统计分析;R软件

1问题的背景与分析

美国作为世界头号强国,在科技、文化、经济等各方面的发展都具有较强的竞争优势,然而其居高不下的谋杀率却在一定程度上威胁着美国人民及世界人民的安全。本文即以美国50个州的六项指标数据,包括谋杀率、人口、文盲率、平均收入、结霜天数、地理面积为研究对象,探究谋杀率的主要影响因素。数据来源为R软件自带数据包state.x77。值得强调的是,由于搜集近期数据具有一定难度,尽管本文所用数据的年限已久,不具有时效性,但是所用的研究方法却具有普遍性与可靠性,可广泛应用于不同时期的数据统计分析,不受时间年限的约束。

2模型的建立与求解

2.1多元线性回归模型的理论

多元线性回归主要是研究一个因变量与多个自变量之间的线性相关关系,模型的形式为:

其中n为观测的数目,k为预测变量的数目。建立多元线性回归模型的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数。具体而言,即使得残差平方和最小:

同时,随机误差必须满足以下四个条件,多元线性回归方程才有意义:

①正态性,即随机误差必须是符合正态分布的随机变量;

②无偏性,即随机误差的期望值为0;

③同方差性,即所有随机误差的方差都相等;

④独立性,即所有随机误差都相互独立。

2.2模型的建立与求解

2.2.1变量的选择

运用向后逐步回归方法对五个自变量进行筛选,依据的准则是AIC准则。运行结果如下:

开始时模型包含五个自变量,然后每一步提供了删除一个自变量后模型的AIC值。经过三步后,自变量结霜天数、平均收入、地理面积依次被删除,其间AIC持续下降,直到达到92.28后,选择程序终止。因此,自变量人口和文盲率为最终选定的回归自变量。

2.2.2多元线性回归模型的建立

由上一步的结果,将谋杀率作为因变量,以人口和文盲率为自变量拟合回归方程,得到回归方程:,并进行显著性检验,结果如下:

从表中可以看出,在α=0.05的水平下,F统计量的估计值为30.75,对应的P值为2.89e-09,说明回归方程是显著的,可决系数R2=0.8668,修正的可决系数R2=0.8484,说明方程的拟合效果较好;同时从回归系数的检验表中可以看出,自变量x1、x2的回归系数显著不为0,表明当控制其他变量不变时,Population、Illiteracy与Murder的线性相关关系显著,即建立的多元线性回归方程

具有统计学意义。

2.2.3回归诊断

2.2.3.1正态假设检验

首先通过残差分析对模型的正态假设进行检验,绘制出相应的学生化残差的Q-Q图和分布图:

由图可以看出,出了一个明显的离群点Nevada,误差很好地服从了正态分布,这表明正态性假设符合的很好。

2.2.3.2复共线性检验

复共线性可用统计量VIF(方差膨胀因子)进行检测。一般原则下,就表明存在复共线性问题。用R软件中的vif()函数计算各自变量的VIF值,结果如下:

由表中可以看出,所有自变量的均小于2,故模型中不存在复共线性问题。

3综合评价

由以上建模过程和结果可以看出,影响美国各州谋杀率的主要因素为人口和文盲率。通过分析可知,在人口相对较多的州部,发生谋杀案件的可能性较大,同时,犯罪率随文盲率的增加而增加,人民受教育的水平越低,则犯罪的可能性越大。除此之外,通过查阅相关的资料可得,美国的枪支合法制度也是造成美国谋杀率居高不下的重要原因之一。

参考文献:

[1][美]Robert I.Kabacoff,R语言实践,人民邮电出版社,2014版.

[2]张鹏辉,孙晚华,多元线性回归在影响分析中的应用,北方交通大学,2000.

[3]董跃娴,影响高校教师教学质量的多元线性回归分析与思考,北京:北京农学院,2009.

多元非线性回归分析 篇7

随着经济的发展与城镇化建设规模的扩大, 建筑垃圾大量出现, 据《中国建筑垃圾资源产业化 (2014年度) 发展报告》近几年我国每年产生的建筑垃圾总量约15.5亿t~24亿t。目前, 我国各地对建筑垃圾主要处置方式是堆放与填埋, 简单的处置不仅破坏自然生态, 影响卫生环境, 而且占用大量土地, 造成垃圾围城的困局。要解决建筑垃圾的长久问题, 就必须对建筑垃圾回收利用, 让废弃物变成有用资源。对各地区建筑垃圾产生总量的估算与预测是各项资源化处理的基础。

建筑垃圾是建筑工程相关建设产生的废弃物, 主要来自旧建筑物拆除、新建筑物施工及建筑物装修中产生的废弃物。由于建筑垃圾数据产量统计存在较大的难度, 很少有地区建立起对建筑垃圾量的统计体系, 只能采取可获得的影响因素的数据进行合理的估计与预测。本文在分析和确定影响建筑垃圾产生量主要因素的前提下, 以浙江省金华市的基础数据为依据, 运用多元线性回归方法, 建立多元线性回归模型, 利用灰色预测理论, 建立一元预测模型, 估算与预测该地区未来几年的相关经济指标及建筑垃圾产生量。

2 因素分析与模型建立理论分析

2.1 影响因素分析

影响建筑垃圾产生总量的因素很多, 主要集中在当地建筑业及房地产业发展状况、区域经济发展阶段以及社会因素影响的情况, 影响指标有:建筑施工面积、商品房销售面积、新开工面积、拆迁面积、GDP、居民收入、人口数量、政策影响、公共事件等。在建立预测分析模型时, 选取过多的影响因素指标, 会使模型参数不准确以至所建立的模型不可用。因根据影响的大小和相关的程度, 把握起关键作用的影响指标, 从而保证建立的预测模型可行。根据左浩坤在《建筑垃圾产生量预测及处置设施建设分布研究》中用SPSS软件对现有的关键因素与建筑垃圾产生量相关系数分析[1]影响城镇经济及建筑业发展的主要因素, 本文选取影响城镇建筑垃圾产生量的主要经济发展及建筑业发展指标, 分别是建筑施工面积、商品房销售面积、当地的GDP。

2.2 多元线性回归分析理论

回归分析是数理统计分析的重要组成部分, 当回归分析包括两个或两个以上自变量时, 且因变量与自变量之间是线性关系, 则称为多元线性回归分析, 其多元线性回归函数一般表达式为:

式中y表示因变量, xi表示自变量, i表示自变量的个数, βi表示回归系数, 当i≥2时, 公式 (1) 为多元线性回归模型方程。ε表示随机误差, 通常对ε常假定满足:

当回归模型方程用于实际问题研究时, 不能事先

判断因变量y与自变量x1、x2…xi之间是否存在线性关系, 所以在估算各回归参数βi前, 需要利用多元线性回归模型方程去拟合随机变量y与变量x1、x2…xi之间的关系。为判定回归方程对样本观测值的拟合程度, 我们通常用拟合度来表示。拟合度的检验一般用显著性统计检验方法, 本文通过回归方程显著性F检验, 回归系数显著性t检验, 同时对回归方程的拟合度R做出检验[2]。

2.3 灰色系统理论预测模型

灰色系统理论是控制理论领域中的新学科, 它是与时间序列相关的, 并在一定范围内变化的不明确过程进行预测。其理论认为:过程中杂乱无章的原始数据, 是有界的, 并有潜在的规律, 灰色系统理论预测就是利用这个内在规律建立预测模型, 对研究系统进行预测。本文采用目前使用最广泛的灰色时间序列预测模型[3]。

建预测数学模型步骤:以时间为序列值, 建原观测值原数列, 通过一次累加生成新数列, 对新数列建立一元微分方程, 利用最小二乘法, 用矩阵实验室MATLAB软件, 编程可解出微分方程的通解, 即为灰色理论预测模型。并用关联度检验、后验差比值、小误差概率, 进行预测模型的精度级别检验。

3 实例应用

本文以浙江省中部经济较发达的金华市为例, 在调研金华市经济发展、建筑业发展与建筑垃圾量相关性的基础上, 根据金华市统计年鉴[4]与有关职能部门提供的资料, 进行相关数据分析、预测模型建立、数量结果计算。建立模型的相关数据如表1、表2所示。

3.1 建立实例的回归分析模型

本文选取建筑垃圾产生量为因变量y, 建筑施工面积为自变量x1, 商品房销售面积为自变量x2, 金华市的GDP为自变量x3, 根据表1数据, 用SPSS4软件多元统计分析模块Regression处理, 得到多元线性回归方程为:

通过SPSS软件对建筑垃圾量多元线性回归方程显著性F、回归系数显著性t的判断, 回归方程的拟合度R=0.997接近于1, 说明自变量y与因变量x1、x2、x3之间的线性关系密切, 修正系数为0.994。所建立的回归方程模型 (3) 具有较好的拟合程度。

3.2 建立灰色预测模型

根据2001年~2013年金华市房屋施工面积、商品房销售面积、当地GDP的数据见表1、表2所示, 利用灰色理论模型建立了自变量房屋施工面积x1、商品房销售面积x2、GDPx3以时间k为序列的灰色预测微分方程模型, 分别为:

预测方程模型 (4) 、 (5) 、 (6) , 经过关联度、后验差比值、小误差概率三种精度级别检验, 确定所建模型的精度等级, 满足经验精度等级要求, 以此推测2015年~2020年金华市房屋施工面积x'1、商品房销售面积x'2、当地GDP x'3的量值。

3.3 建立建筑产生量预测模型

根据多元线性回归方程 (3) , 一元灰色预测方程 (4) 、 (5) 、 (6) , 得到金华市建筑垃圾产生量后续N年的预测模型:

根据灰色预测方程 (4) 、 (5) 、 (6) , 计算出金华市

2015年~2020年期间金华市房屋施工面积x'1、商品房销售面积x'2、当地GDP x'3的数据量值, 见表3, 在以上数据基础上, 根据多元回归分析方程 (7) , 计算2015年~2020年金华市建筑垃圾产生量, 其结果见表3所示。

4 结论

通过分析和计算, 可以预测到随着当地经济和建筑业的发展, 建筑垃圾产生量整体变化趋势为上升, 政府管理部门, 应该制定建筑垃圾相关产业发展的规划, 以解决经济发展必然会遇到的环境问题, 为我们社会健康、和谐、可持续的发展打下良好基础。

我们利用多元线性回归分析的理论、统计分析工具、灰色预测理论, 对金华市建筑垃圾及相关指标进行计算与分析, 得到较高精度的建筑垃圾产生量的预测模型, 这个预测模型可以用于指导建筑垃圾管理及产业的发展, 并为后续进一步深入开发新的模型, 提供良好的数据基础。

参考文献

[1]左浩坤等.建筑垃圾产生量预测及处置设施建设分布研究[J].环境卫生工程, 2011 (2) :63-64.

[2]周玉敏等.SPSS16.0与统计数据分析[M].成都:西南财经大学出版社, 2009.

[3]邓聚龙.灰色预测与决策[M].武汉:华中科技大学出版社, 1986.

多元非线性回归分析 篇8

煤质特征分析

煤质参数与煤化程度的相关性

煤的组分可通过工业分析得到, 近似区分为水分、灰分、挥发分和固定碳4 种组分, 水分和灰分可近似代表煤中的无机物, 挥发分和固定碳可近似代表煤中的有机物。煤的主要元素含量通过煤的元素分析得到。煤化程度可通过测量最大的镜质组反射率, 挥发物质的百分比或煤中碳的百分比来确定的。由于干燥无灰基挥发分能较好地反映煤化程度, 并与煤的工艺性质有关, 而且其区分能力强, 测定方法简单, 易于标准化, 很多国家用干燥无灰基挥发分来反映煤化程度。由此可知, 煤化程度与煤质参数具有一定的规律。

煤质特征实验分析

为了分析煤的煤质特征随煤化程度变化规律, 实验选取了10 种不同地区不同煤种的井下煤样, 研磨后过280 目标准筛子作为实验样品进行分析研究。参照国家标准GB/T212 - 2001《煤的工业分析方法》和国家标准GBT476 - 2001《煤的元素分析方法》CHNS模式进行了煤尘的煤质特征研究, 如表1 所示。

由工业分析得到的水分、灰分、固定碳、挥发分。其中水分是煤的重要组成部分, 是煤炭质量的重要指标。在煤的工业分析中, 水分一般指的是空气干燥基水分。灰分是指煤中矿物质在高温下产生的一系列分解、化合等复杂反应后剩下的残渣, 大部分是金属和非金属的氧化物及盐类。煤的灰分不是煤中的固有组成成分, 它是由煤中的矿物质转化而来。在900o C高温下, 将煤隔绝空气加热一定时间, 煤的有机质发生分解, 除去气态析出的, 以固体形式残留下来的有机质占煤样质量的百分数称为固定碳。由有机质热解形成并呈气态析出的化合物就是挥发分, 固定碳和挥发分反映煤的有机质组成特点。

由元素分析得到的氢元素、碳元素、氮元素、硫元素、氧元素。其中氢元素是煤中第二重要的元素, 主要存在煤分子的侧链和官能团上, 在有机质中的含量约为2.0% ~ 6.5% 左右。煤中氢的含量虽然不高, 但是发热量很高, 在判定燃料质量时应予考虑。碳元素主要以芳香族结构、脂肪族结构及脂环族结构形式存在。其中, 碳是组成煤结构中的六碳环的主要元素, 也是构成煤分子骨架最重要的元素之一。少部分碳以碳酸盐、二氧化碳形式存在, 在煤的元素中, 碳元素较任何其它元素都高。氮元素在煤中的含量较少, 在0.3%~3.5%之间波动, 较多时约为1%~2%。硫元素是煤中主要的有害元素, 有两种来源, 一是成煤植物本身所含的硫——原生硫, 二是来自煤环境及成岩变质过程中加入的硫——次生硫。对大部分煤来说, 煤中的硫主要是次生硫。氧元素也是煤中有机质的重要组成元素, 主要存在于煤分子的含氧官能团上, 如-OCH3、-COOH、-OH等基团上都含有氧原子。由于氧的反应能力很强, 煤中氧含量的多少对煤的加工使用有很大的影响, 在煤层注水方面, 含氧官能团对煤的吸水率影响较大。

根据得出的工业分析、元素分析数据作图如图1所示。

煤中挥发分和氧含量随煤质变化程度的升高呈减少趋势, 固定碳和碳含量随着煤化程度升高呈上升趋势, 水分、灰分、硫含量则受其它诸如地理环境影响较大, 随煤化程度规律性较差。褐煤和长焰煤在整个阶段挥发分含量最高, 无烟煤含量最低。氢随煤化程度的升高呈下降的趋势, 与挥发分趋势相似。由于氮的含量较低且多数来自蛋白质, 趋势不是很明显。碳是煤大分子高度缩和的石墨化结构发展产物, 化学上表现出明显的惰性, 在煤化过程中很少参与反应, 因此其含量随煤化程度升高而升高。对大部分煤来说, 其发热量也会随碳含量的增多而增大。随着煤化程度的提高, 煤中碳元素逐渐增加。特别指出, 在烟煤煤化程度段, 在挥发分含量相近的前提下, 黏结性越强的煤, 碳含量越高。

多元线性回归预测模型建立及应用

通过对煤质特征参数与煤化程度规律的研究可知, 元素分析与工业分析指标有一定的相关性。设煤质各参数如水分、灰分、挥发分等为自变量x1、x2、 x3…… xn, 元素分析指标如氢含量等为因变量y1、 y2、y3……ym。运用“循环因子迭代法”加速拟合, 即求出第一个y1之后, 令xn+1=yn, 即把已经求出的因变量当作自变量, 如此循环下去。建立如下方程:

式中εi独立分布且E (εi) = 0, xij是可精确测量的一般变量, yi是可观测的随机变量, β0、β1、β2···βn是未知参数。用最小二乘法估计未知参数。矩阵形式为:

以12 种煤质分析数据为例, 用Matlab软件分析, 采用逐步降元回归确定回归方程如下。

根据以上公式, 对各矿煤质计算结果与实测结果进行分析对比, 如表1 所示。

利用检验统计量R2、 F 、 的值判断模型的准确程度。一般认为, 相关系数R在0.8 ~ 1 范围内, 则可判断回归自变量与因变量线性较强, 越接近1, 回归效果就越好。如果F>F1-α (k, n -k -1 ) , 则拒绝原假设, 即认为因变量与自变量之间显著地具有线性相关的关系。如果P <0.01, 则称回归方程是高度显著的, 当P <0.05时, 称回归方程是显著的, 当P <0.1 时, 一般认为回归方程不显著。

现将检验统计量统计如下:

由表2、表3 可知, 计算结果与实测结果比较相近。随着自变量数目的增多, 统计模型的线性就越强, 计算结果就越准确。Hdaf%、Cdaf% 拟合结果相关系数比较均匀, Ndaf%、Sdaf%、Odaf% 在中低等煤质阶段, 计算结果几乎接近实测值, 在高等煤化阶段又少许偏差。综其原因, 可能受到煤岩相组成的影响, 此外, 所选择的煤样分布区域比较分散, 成煤环境、成煤物质、成煤作用差异比较大。

结语

(1) 煤中元素不仅表征煤化程度, 而且也反映煤的不同性质。随着煤化程度不断升高, 煤中挥发分和氧含量呈减少趋势, 而固定碳和碳含量升高, 水分、灰分、硫含量则受其他诸如地理环境影响较大, 随煤化程度变化规律较差。碳含量与氢含量的变化趋势相对稳定。这也验证了很多学者把碳含量当作煤化程度指标的原因。

(2) 基于Matlab软件对实测数据进行多元线性回归分析, 推导出关联方程组, 提出“循环因子迭代法”加速拟合, 提高拟合数据准确性。相关系数平方R2都在0.7726以上, Odaf% 的R2最接近1, 回归效果最好。分析实测数据与计算数据产生误差的原因, 煤质的差别与成煤物质、成煤环境、成煤作用有关。所建的数学模型能有效的反映煤质参数之间的关系。

多元非线性回归分析 篇9

伴随着经济全球化进程的加快,物流产业的发展程度已经成为衡量一国现代化程度和综合国力的重要标志之一。近年来,我国物流发展日益上升的态势、物流规模的迅速扩大,表明经济增长对物流需求越来越大,经济发展对物流的依赖程度也越来越高。

物流需求是指一定时期内社会经济活动对生产、流通、消费领域的原材料、成品和半成品、商品以及废旧物品、废旧材料等的配置作用而产生的对物在空间、时间和费用方面的要求[1],涉及运输、库存、包装、装卸搬运、流通加工以及与之相关的信息需求等物流活动的诸方面,是社会经济活动的重要组成部分。

我国对于物流需求方面的研究多以预测为主,方法多采用回归分析、灰色预测、加权预测等。本文拟采用多元线性回归对湖南省物流需求进行预测分析,可以对未来物流需求的变化趋势进行预测,以使物流资源合理配置,同时也为政府制定物流产业发展政策、物流基础设施建设提供了必要的理论依据。

1 指标的选取

衡量物流需求的指标较多应根据全面性、代表性、科学性及数据的可得性原则选取指标。但由于物流业是一个新兴产业,统计部门关于物流业的统计工作还在逐步建立和试点实施中,没有直接反映物流需求的相关数据。我国目前普遍采用物流量作为衡量物流需求规模的量度指标,因此在进行物流研究时,一般假定物流需求量为交通运输、仓储和邮政业需求量[2],其数值也等同于交通运输、仓储和邮政业产值,来进行物流需求的预测与分析。

根据对区域物流需求的影响因素分析,考虑到行业因素、环境因素等指标获得很难,加之经济因素是影响区域物流最直接最根本的因素,本着可操作性原则,选取各经济影响因素指标用于物流需求规模预测,具体选择的经济指标为:第一产业x1、第二产业x2、第三产业x3、区域零售总额x4、区域外贸总额x5、人均消费水平x6等。其中,三大产业不仅考虑了区域经济总量,而且鉴于商业流通也是区域物流需求的重要组成部分,设立了零售总额与人均消费水平两个经济指标。此外,考虑到湖南省的全国对外贸易因素,因此将外贸总额考虑入内。本模型中样本数据是选自2008年的《湖南省统计年鉴》。

2 模型的建立与检验

2.1 回归方程的建立。

上述物流能源消耗影响因素是根据专业知识和经验所选定的,不能说明全部自变量对因变量都有显著性影响,为了从较多的初选因子中选择出影响较大的因子,建立最优回归方程,需要借助逐步回归分析方法对影响显著的自变量进行筛选。回归模型建立后,采用逐步回归分析法,逐步剔除对物流能源消耗影响不显著的因子,利用剩余的变量再建立回归方程,再检验,再剔除,使保留下来的自变量之间尽可能互相独立最后,求得回归方程:y赞=-133.159-0.246x2+0.252x6。

2.2 回归方程的拟合度检验。

通过计算复相关系数R、决定系数R2、校正决定系数R2几个参数,检验回归方程对样本的拟合程度。用估计标准误差表示回归估计值与实际观察值的平均差异程度,如表1所示。

表1给出了模型回归的统计结果,回归统计量主要反映模型的拟合优劣程度。表1的复相关系数(0.952)、决定系数(0.907)、校正决定系数(0.880)都接近1,表明求得的回归方程拟合程度很好,因变量y的变化几乎完全由自变量x2,x6,决定。

2.3 回归方程的F检验与回归系数的t检验。

F检验就是要看自变量xi从总体上对因变量y是否有明显的影响。方差分析是将总变异分解为回归平方和与残差平方和,对整个回归方程进行F显著性检验的结果见表2,对回归系数的t检验结果见表3。

从表2及表3中的参数看出,F值检验达到了α=0.01的显著水平。通过t检验,自变量x2,x6对应的回归系数达到了P=0.05的显著水平。由此判定回归方程与各参数的检验结果都有显著性意义。所求得的多元线性回归方程y赞=-133.159-0.246x2+0.252x6是有效的。

3 结果分析与解释

通过多元线性回归分析,依据求得的回归方程:=-133.159-0.246x2+0.252x6。

可以得出以下结论:在引入的6个变量中,第二产业生产总值x1,人均消费水平x6两个因素对物流能源消耗有显著的影响,即有很强的线性关系。根据所建立的预测回归模型,就可以对未来几年湖南省物流需求进行预测,见表4。

从预测可以看出,未来5年湖南省的物流需求呈不断增长的趋势,但有效增长将是一个十分缓慢的过程,年平均增长率仅为4.14%,湖南省要扩大物流需求,有必要考虑提高居民的消费水平,降低第二产业的产业比例。

通过以上分析,若想提高湖南省的物流需求量,整体上提高物流产业的发展,我们可以提出以下建议:

(1)提高物流服务创新形式,提高居民消费水平。随着物流产业的发展与居民收入的提高,流通效率成为一个急需解决的问题,这就要求了以需求为导向的物流服务形式的不断创新。这样可以满足居民消费层次的多样化、个性化,刺激了居民消费理念的转变,提高了消费水平,间接提高了物流需求量。

(2)加强产业结构的调整,为物流发展提供了更好的发展机遇。在产业结构调整中第三产业比重的快速增长带动了批发零售贸易和交通运输仓储业等流通业的发展,为物流发展提供了良好的产业基础。因此要大力提高第三产业在地区生产总值的比例,适当的降低第二产业的生产比例,以刺激物流需求量的提高,促进物流产业的整体提高。

摘要:利用多元线性回归的方法和SPSS软件,对湖南省的物流需求情况进行了预测与分析。根据建立的模型,预测了未来五年湖南省的物流需求,分析了影响物流需求的因素。研究结果可为湖南省物流产业的科学规划提供一定的建议。

关键词:物流需求,多元线性回归,预测

参考文献

[1]赵辉.区域物流需求指标体系初探[J].物流科技,2010(2):59-60.

[2]张建武,李永杰,陈斯毅.广东外贸出口变动对就业的贡献[J].广东经济,2000(5):28-31.

多元非线性回归分析 篇10

科学技术的发展速度日趋加快,以信息技术为基础的经济全球化的进程势不可挡,企业之间在规模、资金、质量、技术、信息等方面展开了激烈的竞争,信息技术的高低已然成为各个企业之间综合实力竞争的主要内容。此外,随着我国经济快速成长和经济结构升级,中小企业近年来发展非常迅速。随着计算机科学信息技术的发展,会计电算化在我国的众多会计主体中得到了广泛的应用,中小企业更是不例外,会计电算化的应用对提高中小企业财会工作效率发挥了重要的作用。

由于中小企业自身规模、实力、人员的限制,会计工作缺乏规范性,导致会计信息质量不高。但在电算化系统下,会计业务的处理程序已经由软件进行事先的设置,只要按照规定进行数据录入就能完成会计数据的输入。同时,财务软件还能在会计人员出现错误的时候做出提示,有效地提高了会计信息的质量。实施会计电算化后,会计人员的时间和精力由会计核算转移到企业的经营管理当中,加大了在会计方面的管理程度,从而间接地发挥了中小企业规模小、生产经营灵活度高的优势,提高了中小企业自身的竞争实力,并使之在世界经济大潮中站稳脚跟。

二、相关文献综述

国外会计电算化起步较早,1954年,美国通用电器企业首次利用电子计算机计算职工薪金的举动,引起了会计数据处理技术的变革,开创了利用计算机和进行会计数据处理的新纪元。随后美国会计学会在1966年发表的《论基本会计理论》中提出了“会计是一个信息系统”的观点。国际会计师联合会(IFAC)1987年10月在日本东京召开的第十三届世界会计师大会的中心论题就是会计电算化,这标志会计电算化在全球范围内进入了新的发展阶段。从20世纪80年代至今,日本、美国及西欧各国较为普遍地实现了会计电算化。诺兰在1980年提出了为世界熟知的“诺兰模型”,他认为:“所有的组织由手工为基础的信息系统向以计算机为基础的信息系统发展时,都存在着一定的客观发展道路和规律。”

我国的会计电算化源于20世纪70年代末,从起初的缓慢发展到如今进入稳步发展阶段经历了大约30年的风雨洗礼。然而,我国对于模块框架研究还并不多见,杨周南探讨了我国会计信息化标准体系构建的理论和方法学基础,提出了会计信息化标准体系的概念框架,构建了我国会计信息化标准体系的框架结构模型。王森研究了高校会计电算化存在的问题及对策,对于研究会计电算化应用中存在的问题十分普遍。彭伟分析了地勘单位在应用会计电算化过程中存在的问题及对策,旨在推进地勘单位会计电算化工作的发展。郭常燕等人分析了在电子商务环境下我国会计电算化发展过程中存在的主要问题,提出了推进会计电算化发展的对策建议。

综上,国外学者主要集中研究会计信息系统建设以及软件开发设计和操作等方面。但是,我国学者更多关注的是会计电算化系统的实施状况,着重研究会计电算化运行过程存在的问题及对策,对企业会计电算化应用影响因素的分析却不常见。另外,中小企业已逐渐成为我国经济结构的主要组成部分,而会计电算化对中小企业的经营发展起到至关重要的作用,但是中小企业的会计电算化仍存在着诸多问题。所以,研究中小企业会计电算化应用影响因素从而促进其电算化建设是十分迫切和必要的。

三、样本选取和影响因素的假设

(一)样本选取和数据来源

文章的样本企业选取大多在北京和天津地区,其中也有部分其他省份的中小企业。将问卷录入发放平台后,通过转发微信和网页链接的方式进行传播,在问卷发放时已经设立了限定条件。问卷的填写人主要是中小企业内部高级管理人员、财务人员和维护会计电算化软件的相关人员,问卷具有较大可靠性和真实性。本次调查历时两个月,共收回问卷59份,其中有效问卷59份,无效问卷0份。本次调查共涉及12个省份,其中主要来源还是北京市和天津市的中小企业。

(二)影响因素的假设

根据以往文献的研究同时借鉴前人研究中小企业会计电算化应用有关的特征因素、管理因素、环境因素、制度因素,对影响因素进行了假设。

(1)首先考虑了中小企业成立的时间。成立时间较长说明企业持续经营能力强,这类企业会更容易实施会计电算化。企业成立时间较短,发展初期不确定因素较多,企业由于缺乏资金会影响企业会计电算化的建设。

(2)中小企业的规模大小也是影响因素之一。规模相对较大的企业发展较稳定,承担风险能力较强,规模较小的企业承担风险能力较弱,规模大的企业会优先于规模小的企业实施会计电算化。

(3)中小企业的资产负债水平。企业的负债率水平太高说明该企业的流动资金大部分是通过负债而来,也说明了企业面临的风险越高。一般企业的资产负债率应低于50%,如果企业的资产负债率超过了50%可能不利于会计电算化的实施。

(4)企业的资产增长率也是假设的影响因素。中小企业的资产增长率较高说明企业在这段时期内经营规模扩张速度较快,企业资产增长速度快一方面说明了企业的资产增加,另一方面也说明了企业可能正在高速成长阶段。在这一阶段企业可能会想要改善内部会计信息系统。

(5)中小企业高管的知识水平。如果企业高管硕士以上学历人较多,说明企业高管接受国内外各种财务相关知识的机会较大,对最新的财务政策接受能力强,选取会计电算化的机会较大。反之,企业高管文化水平较低,则在选择会计电算化时会比较保守。

总结提出以下5种假设:

H1:中小企业成立的时间(X1)越长能够促使企业提高会计电算化实施效率,它们之间呈正相关关系。

H2:中小企业的规模(X2)越大能够促使企业提高会计电算化实施效率,它们之间呈正相关关系。

H3:中小企业的资产负债率(X3)越低能够促使企业提高会计电算化实施效率,它们之间呈正相关关系。

H4:中小企业资产增长率(X4)越高能够促使企业提高会计电算化实施效率,它们之间呈正相关关系。

H5:中小企业高管知识水平(X5)越高能够促使企业提高会计电算化实施效率,它们之间呈正相关关系。

四、中小企业会计电算化应用影响因素分析

(一)方法论设计和因变量选取

文章对于影响因素的重要性分析主要采用SPSS21.0列表统计和回归分析。其中主要运用多元非线性回归分析方法对选取的自变量和因变量进行分析。运用列表统计主要是为了更方便直观的看到问卷的结果。利用回归分析的方法主要是检测之前假设的影响因素对于因变量会计电算化实施效率(Y)是否有显著影响。因变量通过调查问卷得到数据支撑,问卷显示认为在企业中实施会计电算化非常成功的占18%,较好成效的有33%;认为实施会计电算化效果一般的企业达到36%;认为实施效率较差的占9%;没有实施的占4%。

(二)假设影响因素的列表说明

根据调查问卷得到的结果进行分析,首先对假设的影响因素进行列表说明,再对这些假设影响因素做进一步的分析。如表1所示。

(三)中小企业会计电算化实施效率的回归分析

经过对问卷结果的列表统计之后笔者对假设的影响因素进行了回归分析,回归分析主要是检测假设的影响因素和因变量是否有显著性影响。下面对会计电算化实施效率Y和各假设变量进行多元回归分析。分析结果如表2所示。

对于多元非线性回归,回归分析的结果主要是看sig值的大小,一般sig<0.05说明假设的变量对自变量的影响是显著的。在此次的多元非线性回归分析X1、X2、X4和X5的sig值分别为0.002、0.032、0.013和0.000,都小于0.05,该结果表明X1、X2、X4和X5即企业成立时间、企业资产规模、企业净资产增长率和企业高管知识文化水平对中小企业会计电算化实施效果有显著影响,并且这个影响是成正相关的。另外,从分析企业资产负债率水平影响因素的sig值0.412大于0.05,说明对中小企业会计电算化实施效果的影响不显著。

经过回归分析最终得出的回归方程是:

五、总结

根据回归结果分析得出:首先,中小企业大多成立时间较晚,仍处于发展之中,企业实力较弱,规模较小,能拿出来建设会计信息系统的资金有限,企业中大部分的资金都应用于生产经营活动,因此对价格不菲的先进会计电算化软件望而却步。随着企业逐步发展,加之外界各种因素影响,企业慢慢意识到会计电算化的重要性,从而规划资金投向会计信息系统建设。再者,企业建立会计电算化的整个过程,是一项复杂的系统工程,在整个系统的实施过程中,包括会计电算化工作的规划,会计信息的建立与管理等众多内容。然而,这些实现的根本前提是需要投入大量资金,资金缺乏直接制约着中小企业会计电算化的实施。那么企业资产规模的不断扩大和企业净资产增长率的增加,可以有力地解决这一问题。最后,企业高管硕士以上学历人数越多,整体知识文化水平越高,接触到的国内外最先进的会计领域知识的机会就越多,对会计电算化建设的重视程度就会增加,所以,提高高管的重视程度既是实现会计电算化的基础,也是实现会计电算化的保障。

参考文献

[1]Scharlacken,John W.The Seven Pillars of Global Supply Chain Planning[M].Supply Chain Management Review,1998:22.

[2]常士剑.会计电算化应用[M].大连:东北财经大学出版社,2005:4-8.

[3]马芝蓓.从Nolan模型到Synnott模型——组织管理信息模式选择研究[J].情报杂志,2002,(9):52-54.

[4]杨周南,刘梅玲.会计信息化标准体系构建研究[J].会计研究,2011,(6):8-16.

[5]王森.高校会计电算化中存在的问题及对策[J].河北广播电视大学学报,2010,(6):18-20.

[6]彭伟.地勘单位应用会计电算化存在的问题及对策[J].科技广场,2013,(2):194-199.

多元非线性回归分析 篇11

【关键词】多元线性回归模型;销售价格;销售量;广告投入

一、引言

藥企的药品广告投入和药品价格对药品的销售量有一定的影响,企业的管理者在管理决策中更期望能得到药品的销售量与药品价格和广告投入定量化的关系,因此本文基于多元线性回归理论对某药品的销售量与药品的价格和广告投入的数据进行了研究,从而为管理者在决策时提供科学的理论依据。

二、基本理论

(一)多元线性回归模型

定义1:一般设 为因变量(又称为被解释变量), 为 个自变量(又称为解释变量),并且自变量与因变量之间存在线性关系,则 和 之间的多元线性回归模型为:

其中 为回归常数项, 称为偏回归系数,均为未知常数。称 为 对 的多元线性回归方程。其中 是未知参数 的经验估计值,可由 以及 的样本观测值通过使用最小二乘法求得。其中 反映了当其他变量取值不变时, 每增加一个单位对因变量 的影响。

(二)多元线性回归方程中参数的求解

若令 表示因素 在第 次试验时取的值( ), 表示被解释变量在第 次试验时的结果,则可得 的样本观测值为 ,其中 且 则根据最小二乘法和对方程组求偏导数可得:

其中 , ; , ; 。多元线性回归方程中的待定系数手工求解计算非常繁琐,因此我们常借助统计软件来求解,本文基于R软件来求解。

(三)多元线性回归方程的显著性检验

一般对多元线性回归方程的显著性检验的主要步骤为:(1)建立检验假设;(2)求离差平方和并计算检验统计量;(3)查临界值;(4)统计推断。本文主要基于R软件进行检验。

三、某药品销售量、销售价格、广告投入关系的实证研究

(一)某药品销售量、销售价格、广告投入等统计调查与分析

某医药企业为了更好地开拓其一款药品市场、优化其库存,现企业管理层要求销售部根据市场调查资料,统计分析出该款药品的销售量与销售价格和广告投入等之间的关系,从而对该药品在不同销售定价和不同广告费用投入下的销售量进行预测。为了完成该项任务,销售部的数据分析部门收集了过去30个销售周期(每个销售周期为一个季度)公司该药品的销售量、销售价格和广告投入的数据,如表1:

(二)某药品销售量的多元线性回归模型及模型检验

设 为销售量(百万盒), 为销售价格(元), 为广告投入(百万),则由R软件求得关于销售量的多元线性回归模型: 。

(三)回归模型的检验

销售量与销售价格和广告投入的多元线性回归模型的检验结果见表2:

对多元线性回归方程的 检验数据结果见表2,从表2中的数据可以分析出该多元线性回归方程中自变量对因变量的影响是显著的。

通过对回归系数进行 检验发现该回归模型中的自变量 和 对因变量 的影响也都是显著的,即销售价格和广告投入对销售量的影响都是显著的。

综上可得该多元线性回归模型具有统计学意义,可以用来进行预测和研究该药品的销售价格和广告投入对销售量的影响。

四、讨论

本文基于多元线性回归模型研究了一种药品销售价格和广告投入对销售量的影响,求得了变量间的定量关系,为该药企管理里层的决策提供了参考。

基金项目:吉林省教育厅十二五规划科学技术研究项目(2015393),吉林省科技发展计划项目(20120697)。

参考文献

[1]张忠尧.基于多元线性回归的湖南省物流需求分析[J].物流科技,2010,(9).

[2]薛毅.统计建模与R软件[M].北京:清华大学出版社,2007.

[3]方庚明.基于多元线性回归的公路客运量发展预测模型[J].工程与建设,2011,(25).

多元非线性回归分析 篇12

1978年改革开放以来, 我国的居民储蓄随着经济的发展呈现出不断增长的态势。中国的老百姓都有钱而不敢消费, 面对着居高不下的房价, 如电视剧《蜗居》对现实的形象刻画道出了中国老百姓的心声, 看病费用高昂, 及我国现行社会保障制度不健全, 也就造就了中国百姓有钱而不敢花的无奈。这也是笔者选择这一研究对象的原因。高储蓄率为我国经济增长提供了充足资金来源, 是支持经济快速增长的重要因素。为我国从容应对金融危机提供了保障。高储蓄率对我国经济的进一步增长有着有利的一面, 但同时也带来了一定程度的负面影响。高储蓄率抑制了我国消费, 导致内需不足, 从而进一步抑制了我国经济稳定持续增长。为了更好了解各种因素对城镇居民储蓄的影响, 并结合老师上课所讲的知识对其进行回归分析。

2 数据及模型建立

本文模型数据样本为1979—2002年。

单位:%

数据来源:各年份的《中国统计年鉴》注:Y代表城镇居民储蓄率;X1代表通货膨胀率;X2代表一年期储蓄利率;X3代表城镇居民收入增长率;X4代表城镇居民基尼系数基于以上数据, 建立模型:Y=β0+β1X1+β2X2+β3X3+β4X4+u

3 模型数据分析

利用Eviews6.0软件对表1数据进行最小二乘估计, 输出结果如下:

从图1结果可以看出, R2=0.902429, 修正R2=0.881888, 拟合优度较好, 系数的符号也基本上符合经济意义。

3.1 多重共线性检验

结果中X1的P值=0.1309>0.05, X3的P值=0.0612﹥0.05都通不过T检验, 在拟合优度较高情况下可能存在多重共线性。为了进一步确定是否存在多重共线性, 通过Eviews利用quick———group statistics———correlations输出结果如表2所示:

运用逐步回归方法消除多重共线性得到最终删去X1, 通货膨胀率对居民存款储蓄影响不大。因而在原模型中剔除X1 (通货膨胀率) , 再一次进行最小二乘回归, 结果如图2所示:

从图2结果可以看出, 新模型的R2=0.989629, 修正R2=973074, 拟合程度很高, X2, X3, X4的P值均小于0.05, 通过T检验。

3.2 异方差检验

利用怀特检验法对模型进行异方差检验, 得到以下结果:

Obs*R-squared的P值为0.1741>0.05, 所以接受原假设, 即该模型不存在异方差。

3.3 自相关检验

由图2可知DW值≈2, 由DW≈2 (1-P) 得到P≈0, 所以该模型不存在自相关。

综上分析, 最终得出我国城镇居民的储蓄存款模型:

Y=-0.287593+0.030762X2+0.434269X3+1.350501X4 (-6.699751) (6.358840) (2.245390) (9.555070)

4 模型结论分析

从上面的测算模型可以得到:一年期储蓄利率每增长一个百分点, 我国城镇居民储蓄率将上涨0.030762%, 即说明了利率上涨会吸引人们把钱存进银行;城镇居民的收入增长率变化对居民的储蓄率变化的影响也比较明显, 城镇居民收入每增长率一个百分点, 我国城镇居民储蓄率将上涨0.434269%, 也进一步证实了居民可支配收入的增加会促使人们更多的进行储蓄;基尼系数对储蓄率的影响程度很大, 城镇居民基尼系数每增长一个百分点, 我国城镇居民储蓄率将上涨1.350501%。高收入群体的储蓄倾向明显高于低收入者。由此可以得出结论, 城镇居民收入增长率和城镇居民基尼系数对居民存款储蓄影响较大, 而储蓄利率对居民存款储蓄影响相对较小。

5 本文的局限性

(1) 本文选取的样本数据不够新, 由于有些变量各年份数据不连贯, 综合考虑只选择至2002年的数据, 也可能在一定程度上影响到测算模型的准确性与代表性。

(2) 鉴于笔者学习程度受限, 未把可能影响储蓄的其他因素考虑在内。由于无法把中国居民的历史心理因素以及将人们预期进行量化, 加之中国自古提倡节俭, 风险防患意识较高等都一定程度上影响人们倾向于储蓄, 笔者认为这也在一定范围内影响该模型的代表性。

6 建议与分析

“存钱防老, 存钱防病, 存钱教育后代”已成为一代代根深蒂固的思想观念, 要改变这一情况并非朝夕之间一蹴而就, 而需要方方面面的努力。

(1) 完善社会保障制度。只有当我国社会制度趋于完善时, 消除人们的顾虑, 人们才有信心把存在银行的钱取出来消费。这样才有利于刺激国内消费需求, 更好地促进经济的发展。

(2) 积极引导居民消费。考虑到以上分析结果中收入及基尼系数对储蓄的影响程度, 也可通过合理分配收入, 缩小收入差距。

(3) 稳定价格。特别是稳定住房、教育、医疗等价格, 增强人们对未来的信心, 才能更好地促进人们在备有一定储蓄的基础上拿钱出来消费。

参考文献

[1]卢君生, 蔡锐.居民储蓄的影响因素分析与实证研究[J].南昌航空工业学院学报 (社会科学版) , 2004 (6) .

[2]屈宏斌.居民储蓄高增长堪忧[N].经济观察报, 2003-03-31.

[3]潘雅琼.我国城乡居民储蓄存款余额的趋势预测[J].统计与决策, 2003 (6) .

[4]刘隽亭, 乔瑞红.我国居民储蓄持续增长的原因及特点分析[J].天津商学院学报, 2005 (2) .

[5]李焰.关于利率与我国居民储蓄关系的探讨[J].经济研究, 1999 (11) .

上一篇:P2P理财产品下一篇:八年制学生