多元线性回归分析模型

2024-10-05

多元线性回归分析模型(精选12篇)

多元线性回归分析模型 篇1

煤由无机组分和有机组分组成。无机组分主要有黏土矿物、方解石、石英、石膏、黄铁矿等矿物质和水。有机组分主要是由碳、氢、氧、氮、硫等元素构成的复杂高分子。由于组成煤的有机质和无机质的化学成分十分复杂, 特别是将有机质成分完全分离和鉴定几乎是不可能的, 而目前通常采用较为简单的办法分析煤的组成, 即工业分析和元素分析, 回归分析只是单纯的最小二乘法计算推导。为了更准确研究煤质特征参数, 基于Matlab软件对煤质参数随煤化程度变化做定性和定量分析, 并在煤质参数间建立数学模型, 运用“循环因子迭代法”加速拟合, 逐步提高拟合结果准确性。通过研究煤质参数随煤化程度变化规律对研究煤的各种性质、确定煤炭合理用途有着重要的实用价值。

煤质特征分析

煤质参数与煤化程度的相关性

煤的组分可通过工业分析得到, 近似区分为水分、灰分、挥发分和固定碳4 种组分, 水分和灰分可近似代表煤中的无机物, 挥发分和固定碳可近似代表煤中的有机物。煤的主要元素含量通过煤的元素分析得到。煤化程度可通过测量最大的镜质组反射率, 挥发物质的百分比或煤中碳的百分比来确定的。由于干燥无灰基挥发分能较好地反映煤化程度, 并与煤的工艺性质有关, 而且其区分能力强, 测定方法简单, 易于标准化, 很多国家用干燥无灰基挥发分来反映煤化程度。由此可知, 煤化程度与煤质参数具有一定的规律。

煤质特征实验分析

为了分析煤的煤质特征随煤化程度变化规律, 实验选取了10 种不同地区不同煤种的井下煤样, 研磨后过280 目标准筛子作为实验样品进行分析研究。参照国家标准GB/T212 - 2001《煤的工业分析方法》和国家标准GBT476 - 2001《煤的元素分析方法》CHNS模式进行了煤尘的煤质特征研究, 如表1 所示。

由工业分析得到的水分、灰分、固定碳、挥发分。其中水分是煤的重要组成部分, 是煤炭质量的重要指标。在煤的工业分析中, 水分一般指的是空气干燥基水分。灰分是指煤中矿物质在高温下产生的一系列分解、化合等复杂反应后剩下的残渣, 大部分是金属和非金属的氧化物及盐类。煤的灰分不是煤中的固有组成成分, 它是由煤中的矿物质转化而来。在900o C高温下, 将煤隔绝空气加热一定时间, 煤的有机质发生分解, 除去气态析出的, 以固体形式残留下来的有机质占煤样质量的百分数称为固定碳。由有机质热解形成并呈气态析出的化合物就是挥发分, 固定碳和挥发分反映煤的有机质组成特点。

由元素分析得到的氢元素、碳元素、氮元素、硫元素、氧元素。其中氢元素是煤中第二重要的元素, 主要存在煤分子的侧链和官能团上, 在有机质中的含量约为2.0% ~ 6.5% 左右。煤中氢的含量虽然不高, 但是发热量很高, 在判定燃料质量时应予考虑。碳元素主要以芳香族结构、脂肪族结构及脂环族结构形式存在。其中, 碳是组成煤结构中的六碳环的主要元素, 也是构成煤分子骨架最重要的元素之一。少部分碳以碳酸盐、二氧化碳形式存在, 在煤的元素中, 碳元素较任何其它元素都高。氮元素在煤中的含量较少, 在0.3%~3.5%之间波动, 较多时约为1%~2%。硫元素是煤中主要的有害元素, 有两种来源, 一是成煤植物本身所含的硫——原生硫, 二是来自煤环境及成岩变质过程中加入的硫——次生硫。对大部分煤来说, 煤中的硫主要是次生硫。氧元素也是煤中有机质的重要组成元素, 主要存在于煤分子的含氧官能团上, 如-OCH3、-COOH、-OH等基团上都含有氧原子。由于氧的反应能力很强, 煤中氧含量的多少对煤的加工使用有很大的影响, 在煤层注水方面, 含氧官能团对煤的吸水率影响较大。

根据得出的工业分析、元素分析数据作图如图1所示。

煤中挥发分和氧含量随煤质变化程度的升高呈减少趋势, 固定碳和碳含量随着煤化程度升高呈上升趋势, 水分、灰分、硫含量则受其它诸如地理环境影响较大, 随煤化程度规律性较差。褐煤和长焰煤在整个阶段挥发分含量最高, 无烟煤含量最低。氢随煤化程度的升高呈下降的趋势, 与挥发分趋势相似。由于氮的含量较低且多数来自蛋白质, 趋势不是很明显。碳是煤大分子高度缩和的石墨化结构发展产物, 化学上表现出明显的惰性, 在煤化过程中很少参与反应, 因此其含量随煤化程度升高而升高。对大部分煤来说, 其发热量也会随碳含量的增多而增大。随着煤化程度的提高, 煤中碳元素逐渐增加。特别指出, 在烟煤煤化程度段, 在挥发分含量相近的前提下, 黏结性越强的煤, 碳含量越高。

多元线性回归预测模型建立及应用

通过对煤质特征参数与煤化程度规律的研究可知, 元素分析与工业分析指标有一定的相关性。设煤质各参数如水分、灰分、挥发分等为自变量x1、x2、 x3…… xn, 元素分析指标如氢含量等为因变量y1、 y2、y3……ym。运用“循环因子迭代法”加速拟合, 即求出第一个y1之后, 令xn+1=yn, 即把已经求出的因变量当作自变量, 如此循环下去。建立如下方程:

式中εi独立分布且E (εi) = 0, xij是可精确测量的一般变量, yi是可观测的随机变量, β0、β1、β2···βn是未知参数。用最小二乘法估计未知参数。矩阵形式为:

以12 种煤质分析数据为例, 用Matlab软件分析, 采用逐步降元回归确定回归方程如下。

根据以上公式, 对各矿煤质计算结果与实测结果进行分析对比, 如表1 所示。

利用检验统计量R2、 F 、 的值判断模型的准确程度。一般认为, 相关系数R在0.8 ~ 1 范围内, 则可判断回归自变量与因变量线性较强, 越接近1, 回归效果就越好。如果F>F1-α (k, n -k -1 ) , 则拒绝原假设, 即认为因变量与自变量之间显著地具有线性相关的关系。如果P <0.01, 则称回归方程是高度显著的, 当P <0.05时, 称回归方程是显著的, 当P <0.1 时, 一般认为回归方程不显著。

现将检验统计量统计如下:

由表2、表3 可知, 计算结果与实测结果比较相近。随着自变量数目的增多, 统计模型的线性就越强, 计算结果就越准确。Hdaf%、Cdaf% 拟合结果相关系数比较均匀, Ndaf%、Sdaf%、Odaf% 在中低等煤质阶段, 计算结果几乎接近实测值, 在高等煤化阶段又少许偏差。综其原因, 可能受到煤岩相组成的影响, 此外, 所选择的煤样分布区域比较分散, 成煤环境、成煤物质、成煤作用差异比较大。

结语

(1) 煤中元素不仅表征煤化程度, 而且也反映煤的不同性质。随着煤化程度不断升高, 煤中挥发分和氧含量呈减少趋势, 而固定碳和碳含量升高, 水分、灰分、硫含量则受其他诸如地理环境影响较大, 随煤化程度变化规律较差。碳含量与氢含量的变化趋势相对稳定。这也验证了很多学者把碳含量当作煤化程度指标的原因。

(2) 基于Matlab软件对实测数据进行多元线性回归分析, 推导出关联方程组, 提出“循环因子迭代法”加速拟合, 提高拟合数据准确性。相关系数平方R2都在0.7726以上, Odaf% 的R2最接近1, 回归效果最好。分析实测数据与计算数据产生误差的原因, 煤质的差别与成煤物质、成煤环境、成煤作用有关。所建的数学模型能有效的反映煤质参数之间的关系。

摘要:为了研究分析煤质特征, 本文对全国多个地区具有代表性的10种变质程度的煤样进行了工业分析和元素分析实验, 介绍各煤质参数在煤中的作用及获得方法。研究了煤质参数随煤化程度的变化关系。基于Matlab软件对煤质间参数进行多元线性回归分析, 建立煤质参数之间的数学预测模型, 用最小二乘法估计未知参数, 提出“循环因子迭代法”加速拟合。得出Odaf%的回归效果最好, 相关系数R2达到0.9976, P=0.0008<0.01。由此对研究煤的其他性质分析奠定了基础。

多元线性回归分析模型 篇2

讨论约束条件下多元随机效应线性模型中回归系数和参数的.线性估计的可容许性,在二次损失函数下,给出了随机回归系数和参数的线性估计分别在齐次和非齐次线性估计类中是可容许估计的特征.

作 者:张尚立 伍长春 ZHANG Shang-li WU Chang-chun 作者单位:张尚立,ZHANG Shang-li(北京交通大学理学院,北京,100044)

伍长春,WU Chang-chun(嘉兴学院数学与信息科学学院,浙江,嘉兴,314001)

多元线性回归分析模型 篇3

关键词:多元线性回归模型;影响因素分析;统计分析;R软件

1问题的背景与分析

美国作为世界头号强国,在科技、文化、经济等各方面的发展都具有较强的竞争优势,然而其居高不下的谋杀率却在一定程度上威胁着美国人民及世界人民的安全。本文即以美国50个州的六项指标数据,包括谋杀率、人口、文盲率、平均收入、结霜天数、地理面积为研究对象,探究谋杀率的主要影响因素。数据来源为R软件自带数据包state.x77。值得强调的是,由于搜集近期数据具有一定难度,尽管本文所用数据的年限已久,不具有时效性,但是所用的研究方法却具有普遍性与可靠性,可广泛应用于不同时期的数据统计分析,不受时间年限的约束。

2模型的建立与求解

2.1多元线性回归模型的理论

多元线性回归主要是研究一个因变量与多个自变量之间的线性相关关系,模型的形式为:

其中n为观测的数目,k为预测变量的数目。建立多元线性回归模型的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数。具体而言,即使得残差平方和最小:

同时,随机误差必须满足以下四个条件,多元线性回归方程才有意义:

①正态性,即随机误差必须是符合正态分布的随机变量;

②无偏性,即随机误差的期望值为0;

③同方差性,即所有随机误差的方差都相等;

④独立性,即所有随机误差都相互独立。

2.2模型的建立与求解

2.2.1变量的选择

运用向后逐步回归方法对五个自变量进行筛选,依据的准则是AIC准则。运行结果如下:

开始时模型包含五个自变量,然后每一步提供了删除一个自变量后模型的AIC值。经过三步后,自变量结霜天数、平均收入、地理面积依次被删除,其间AIC持续下降,直到达到92.28后,选择程序终止。因此,自变量人口和文盲率为最终选定的回归自变量。

2.2.2多元线性回归模型的建立

由上一步的结果,将谋杀率作为因变量,以人口和文盲率为自变量拟合回归方程,得到回归方程:,并进行显著性检验,结果如下:

从表中可以看出,在α=0.05的水平下,F统计量的估计值为30.75,对应的P值为2.89e-09,说明回归方程是显著的,可决系数R2=0.8668,修正的可决系数R2=0.8484,说明方程的拟合效果较好;同时从回归系数的检验表中可以看出,自变量x1、x2的回归系数显著不为0,表明当控制其他变量不变时,Population、Illiteracy与Murder的线性相关关系显著,即建立的多元线性回归方程

具有统计学意义。

2.2.3回归诊断

2.2.3.1正态假设检验

首先通过残差分析对模型的正态假设进行检验,绘制出相应的学生化残差的Q-Q图和分布图:

由图可以看出,出了一个明显的离群点Nevada,误差很好地服从了正态分布,这表明正态性假设符合的很好。

2.2.3.2复共线性检验

复共线性可用统计量VIF(方差膨胀因子)进行检测。一般原则下,就表明存在复共线性问题。用R软件中的vif()函数计算各自变量的VIF值,结果如下:

由表中可以看出,所有自变量的均小于2,故模型中不存在复共线性问题。

3综合评价

由以上建模过程和结果可以看出,影响美国各州谋杀率的主要因素为人口和文盲率。通过分析可知,在人口相对较多的州部,发生谋杀案件的可能性较大,同时,犯罪率随文盲率的增加而增加,人民受教育的水平越低,则犯罪的可能性越大。除此之外,通过查阅相关的资料可得,美国的枪支合法制度也是造成美国谋杀率居高不下的重要原因之一。

参考文献:

[1][美]Robert I.Kabacoff,R语言实践,人民邮电出版社,2014版.

[2]张鹏辉,孙晚华,多元线性回归在影响分析中的应用,北方交通大学,2000.

[3]董跃娴,影响高校教师教学质量的多元线性回归分析与思考,北京:北京农学院,2009.

多元线性回归分析模型 篇4

目前, 用于软件项目的工作量估算的模型很多, 传统的估算模型主要有面向源代码 (KDSI) 的估算模型[4,5]、面向功能点 (FP) 的估算模型[6]、回归估算模型[7—9]、基于专家经验的估算模型[10,11]等。随着软件项目规模及范围的扩大, 也有专家学者提出了基于软件规模的估算模型[12]等。软件项目规模越大开发过程也变得越复杂, 传统的估算模型已很难适应于复杂项目的估算, 利用单一的通用模型对复杂项目进行估算会导致估算误差很大, 而利用参数模型进行估算, 又很难确定适合所有项目的模型参数。

一个理想的估算模型必须能适应于不同组织、不同复杂程度的软件项目工作量估算。针对当前估算模型存在的一些问题及理想估算模型的要求, 本文提出了基于多元线性回归分析的软件项目工作量估算模型。根据组织软件项目的历史数据, 确定影响软件项目开发的因子域, 进行了相关性和显著性分析, 从而建立工作量与各因子的多元线性关系, 利用最小二乘法对相关因子的系数进行回归, 经回归后得到工作量与各因子的多元线性方程。

1 工作量估算的相关性和显著性因子

1.1 工作量估算的相关性和显著性因子定义

软件项目中影响工作量估算的因素很多, 如项目的复杂度、人为因素、技术因素、资金因素、环境因素等。在众多的因素中对于项目工作量的影响各不相同, 因此定义了工作量估算相关性和显著性来描述其对工作量估算的影响程度。

定义1 (影响因子域) 设A1, A2, …, An为影响工作量估算的N个因子, n∈N, 则称论域AF= (A1, A2, …, An) 为影响因子域, 若存在因子Ai对工作量估算产生影响, 则Ai∈AF;否则因子Ai对工作量估算不产生影响, 则AiAF。

由定义1可知, 影响因子域是指对工作量估算产生影响的因子的集合, 也就是说影响软件项目工作量估算的因子可能比较多, 但在进行工作量估算时, 部分因子对估算结果产生比较明显的影响;而部分因子对估算结果并不产生影响。

定义2 (相关性因子) 设AF= (A1, A2, …, An) 为影响因子域, 若对于某个Ai∈AF, 存在工作量估算值E与因子Ai的某种一元线性关系, 则称因子Ai为工作量估算值E的相关因子, 简称相关性因子, 即

由定义2可知, 影响因子域AF中存在多个影响因子, 因子Ai在进行工作量估算时与工作量估算值E存在某种一元线性关系, 则称因子Ai为相关性因子;否则, 就不是相关因子。

定义3 (相关系数) 设AF= (A1, A2, …, An) 为影响因子域, 若对于某个A∈AF, 且是相关因子, 反映工作量估算值E与因子A的关联紧密程度的值, 则称相关系数, 记为r (A, E) , 其值由式 (2) 确定。

定义4 (显著性因子) 设AF= (A1, A2, …, An) 为影响因子域, 若对于某个Ai∈AF, 且Ai是相关因子。如果Ai对工作量估算值E的影响是可靠的, 并不是偶然因素引起的, 则称Ai为显著性因子。

1.2 工作量估算的相关性和显著性分析

当前的软件系统不再是依靠个人来完成, 基本上都由团队合作进行开发的大型工程项目, 从而影响项目开发的环境也极为复杂, 即影响工作量估算的影响因子比较多。因此, 在进行工作量估算时并不是所有的影响因子都是有用的, 那么, 对工作量估算的因子域进行相关性和显著性分析是极其必要的, 从而筛选出有用的影响因子。

定理1设AF= (A1, A2, …, An) 为影响因子域, 对任意给定的影响因子Ai∈AF, 且是相关因子, 若其相关系数r (Ai, E) >0.7, 则影响因子Ai与工作量估算值E具有很好的相关性。

证明过程可参考统计学原理, 证明略。相关系数反映了自变量Ai与因变量E之间关联的密切程度, 因此r (Ai, E) 的值越大, 其影响因子Ai对工作量估算值的影响也越大。

定理2设AF= (A1, A2, …, An) 为影响因子域, 若Ai是显著性因子, 则因子Ai的显著性水平α必需满足α<0.05, 即因子Ai对工作量估算值产生的影响是可靠的。

在定理2中, 需要先计算显著性t值, 其计算方法由式 (3) 确定, 然后根据自由度、t分布表查询因子的显著性。依据统计学原理可知, 显著性不足, 说明得出的结果也就越不可靠, 因此该因子也就不能作为显著性因子。

由定理1、定理2可知, 利用回归模型进行工作量估算时, 其影响因子Ai的相关系数r>0.7和显著性水平α<0.05时, 其工作量估算值才是可靠的。

2 工作量估算的线性回归模型

2.1 估算模型确定流程

软件项目的开发过程是一个多变的复杂过程, 因此在进行工作量估算时, 因先列出有可能影响项目工作量的相关因素, 即确定影响因子域。在线性回归模型中, 相关因子的确定并不代表着工作量估算值E所需的自变量范围已经确定, 因此需要求解相关系数及显著性水平来确定自变量集合, 从而建立线性回归方程。再根据历史数据求解线性方程的系数, 确定工作量估算的回归模型。整个流程如图1所示。

在整个流程中, 历史数据与当前项目数据的相似性影响到估算模型的正确性, 对工作量的估算值产生重要影响。因此, 文章利用欧几里德距离公式来筛选历史数据与当前项目数据的相似性, 从而保证求解出来的相关系数的正确性。

定义5假设历史项目的影响因子域为HF= (h1, h2, …, hn) , 其对应的值为 (hv1, hv2, …, hvn) , 当前项目的影响因子域为CF= (c1, c2, …, cn) , 其对应的值为 (cv1, cv2, …, cvn) , 称由式 (4) 计算出来的值为项目相似度的欧几里德距离。

由式 (4) 计算出来的距离越小, 其两个项目的相似度就越大, 因此可以把该项目的数据作为历史数据。

2.2 估算模型的线性回归方程

由图1可知, 关于工作量估算的线性回归模型是以影响因子域为基础, 通过影响因子的相关性和显著性分析获得线性方程的自变量范围, 从而建立线性回归方程, 其实不然, 根据影响因子域就可以建立一个通用的线性回归方程, 方程通过式 (5) 表示。

定理3设AF= (A1, A2, …, An) 为影响因子域, 其对应的值为 (av1, av2, …, avn) , 则其工作量估算模型的线性回归方程可由式 (5) 来确定。

定理3中, 其中λ表示与影响因子无关的前期工作时间, βi表示完成某个因子所需的平均时间, ε表示项目开发中的不确定性。由定理3可知, 若Ai不满足定理1、定理2的条件, 则系数βi的值为0, 显而易见, 由此得出的方程的自变量是满足相关性和显著性分析的。由于λ、βi及ε的值都是由历史数据进行回归计算得到, 因此当项目团队和管理相对稳定时, 项目的不确定性基本上可以忽略不计, 故ε可以直接赋值为0。

在式 (5) 中, 只要给出模型参数λ、βi合理估值, 就可以得到工作量EV的无偏估算。本文采用最小二乘原理进行估算, 详细计算方法可参高等数学。

3 实验结果与分析

3.1 实验

当前, 某集团下的子公司承建了某大型B2C电子商务网站的ERP系统的开发, 简记为N-ERP, 根据系统需求分析和概念设计估算出该系统大致有348个功能点、268个用例、136个实体和224个数据库表。为了估算该B2C的ERP系统的工作量, 我们需要采集历史数据。表1是该集团历史项目的工作量与影响因子值表, 其中工作量单位:人日。

要求解该ERP项目的工作量, 首先需要优选历史数据, 根据欧几里德距离公式, 可以计算出当前项目与历史项目之间的距离关系, 如表2所示。

由表2可知, 项目C、F的欧几里德距离比较大, 而最接近的项目是G项目, 因此, 可以选择项目A、B、D、E、G的数据作为历史数据用于回归计算。确定历史数据后, 需要确定影响工作量的有效影响因子, 而确定有效影响因子需计算其相关系数和显著性, 表3是以项目A、B、D、E、G的数据作为历史数据计算获得的相关系数和显著性。

通过表3的相关性和显著性分析, 最终决定使用历史数据中的功能点、用例、数据库表作为工作量估算模型的自变量。由此可以建立N-ERP项目的线性回归方程。

在公式 (6) 中, av1表示功能点变量, av2表示用例变量, av3表示数据库表变量, 将项目A、B、D、E、G的历史数据利用最小二乘原理进行计算得到β1、β2、β2及λ的值分别为:0.006、1.477、-0.869、177.6, 即线性回归方程为:

由上述分析可知, N-ERP项目以功能点、用例和数据库表作为相应的变量, 代入公式 (7) 即可计算出的工作量为:EV=177.6+0.006×348+1.477×268-0.869×224≈381。

3.2 结果与分析

3.2.1 误差分析

工作量估算的准确度可以通过估算值与实际工作量之间的误差范围来体现, 本文依据项目的历史数据通过公式 (7) 进行工作量估算并与实际工作量来分析模型的误差范围, 根据计算工作量的估算值与实际值之间的误差小于6%。由此可见, 该模型具有良好的收敛性, 工作量的估算值与实际工作量是相近的。

3.2.2 模型优势

本文尽量考虑了影响工作量的因素, 通过相关性和显著性分析确定影响因子, 并对组织项目的历史数据进行了筛选, 确保用于线性回归的项目数据与当前项目具有较大的相似度。最后, 利用最小二乘方法进行线性回归, 确定回归方程, 利用方程估算当前项目的工作量。从实验结果中看到, 本文的估算模型无论是从影响因素, 还是准确度上都比其它估算模型有一定的优势。

4 结束语

本文提出的多元线性回归模型, 考虑了影响项目工作量估算的多方面因素, 利用了相关性和显著性方法来确定具有决定性的影响因素。通过对组织项目的历史数据进行相似度筛选, 并利用最小二乘法进行回归系数求解来降低估算值的误差, 提高了工作量估算的精确度。在工作量估算中不仅需要具体的模型, 同时也需要丰富的项目经验的积累, 使相关系数更准确, 从而提高估算的精确度, 使得估算结果无限接近预期要求和目标。

摘要:软件项目工作量估算在软件开发过程中一直扮演着重要角色。为了准确地估算软件项目工作量, 提出了基于多元线性回归分析的估算模型。定义了软件项目中工作量估算的相关性和显著性因子。根据组织软件项目的历史数据, 进行了相关性和显著性分析, 确定影响软件项目开发的因子域;并利用最小二乘法对相关因子的系数进行回归。经回归后得到工作量与各因子的多元线性方程。通过多元线性回归模型的实际应用, 表明该模型误差小精度高, 为软件企业提供了一种简易而准确的工作量的估算方法。

关键词:软件项目,工作量估算,估算模型,线性回归分析

参考文献

[1] Matson J, Barret B, Mellichamp J.Software development cost estimation using function points.Software Engineering, IEEE Transactions on, 1994; (04) :275—287

[2] Herroelen W, Leus R.On the merits and pitfalls of critical chain scheduling, Management, 2001; (11) :559—577

[3] Verner J M, Evanco W M, Cerpa N.State of the practice:an exploratory analysis of schedule estimation and software project success prediction.Information and Software Technology, 2007; (02) :181 —193

[4] Wang Y, Song Q B, Shen J Y.Grey learning based software stage-effort estimation.International Conference on Machine Learning and Cybernetics, 2007;8 (3) :1470—1475

[5] Huang Sunjen, Chiu Nanhsing, Liu Yujen.A comparative evaluation on the accuracies of software effort estimates from clustered data.Information and Software Technology, 2008;9 (50) :879—888

[6] Carnegie Mellon University SEI Capability Maturity Model Integration (CMMISM) .Version 1.2 2006

[7] Yang Da, Wan Y X, Tang Z N.COCOMO-U:An extension of COCOMOⅡfor cost estimation with uncertainty.Lecture Notes in Computer Science, 3966/2006:132—141

[8] 解浪, 杨叶.一种软件工作量估算的不确定性度量方法.计算机工程, 2012;2 (3) :39—42

[9] 汤子楠比, 舒风笛.用于软件开发工作量估算的IOP模型.计算机工程与设计, 2008;2 (4) :784—796

[10] Wang Qing, Li Mingshu.Software process management:Practices in China.International Software Process Workshop, SPW 2005;Beijing, China, May 25—27, 2005

[11] Jrgensen M.A review of studies on expert estimation of software development effort.Journal of Systems and Software, 2004;2 (70) :37 —60

多元线性回归分析模型 篇5

在Zeller平衡损失思想的`启发下,对线性回归模型提出了一种新的参数估计标准,得到了回归系数的广义平衡LS估计,并且在新的标准下提出并讨论了参数受线性约束和有界约束时的平衡LS估计和广义平衡LS估计.

作 者:柏超 罗汉 BAI Chao LUO Han 作者单位:柏超,BAI Chao(中南林业科技大学理学院,湖南,长沙,410004)

罗汉,LUO Han(湖南大学数学与计量经济学院,湖南,长沙,410082)

多元线性回归分析模型 篇6

【关键词】血压;影响因素;多元线性回归

一、多元线性回归模型

首先做出散点图分析血压与年龄、血压与体重指数(体重kg/身高m的平方)之间的关系,如下所示:

从图中可以看出:(1)随着年龄的增长血压有增高趋势,随着体重增长血压也有增高趋势;(2)总体上血压与年龄、血压与体重指数存在一定的线性相关关系。

建立多元线性回归模型:

其中,a0,a1,a2,a3是回归系数,ε是随机误差。结果如表(1):

由表知a1,a3的置信区间包含零点,需要改进模型,通过残差置信区间图,剔除异常点后得到改进后的回归模型,结果如表2

由上表知,此时所有参数置信区间不包含零点,F统计量增大,可决系数从0.6855增大到0.8462,得回归模型为

最后,对模型进行检验,说明模型合理性。

(1)残差正态检验:进行jbtest检验与t检验,,故残差服从均值为零的正态分布。

(2)残差异方差检验。进行Goldfeld-Quant检验,将28个数据从小到大排列,去掉中间6个数据,得到F统计量观测值f=1.6604,F(7,7)=3.79,可知f

(3)残差自相关性检验。进行D-W检验,D=1.4330,查阅表得,因为,所以残差不存在自相关性。

二、结论

由模型结果知,年龄增加1岁,血压平均升高0.4303/mmHg,体重指数上升1个单位,血压平均升高2.3449/mmHg,另外,长期吸烟对血压的变化影响巨大。

因此,对于中老年人,要注意控制体重,改掉吸烟的习惯,从而避免血压过高,出现疾病;对于偏瘦的年轻人,适当增重,从而保持血压的正常。

参考文献

[1]张宇山.多元线性回归分析的实例研究[J].科技信息,2009(9).

[2]吴礼斌.经济数学实验与建模[M].国防工业出版社,2013.06.

多元线性回归分析模型 篇7

随着城市化建设的推进, 城市人口和规模日益增大, 而城市污水的排放对城市周边河流与环境的影响将直接关系到城市的可持续发展潜力。如何有效科学准确地评价城市的污水排放情况, 对于城市的管网规划及道路、功能区的建设具有较强的指导意义。

1. 灰色关联分析

1.1 灰色关联分析的步骤:

(1) 确定比较数列和参考数列;

(2) 求关联系数及关联度

设为Y1 (k) ={y1 (1) , y1 (2) , …y1 (n) }参考数列 (又称母数列)

Xi (k) ={Xi (1) , Xi (2) , …Xi (n) } (i=1, 2, …, m) 为比较数列 (又称字数列)

有如下定义:Y1 (k) 与Xi (k) 的关联系数定义为

于是据此可求出Xi (k) 与对应X0 (k) 的关联系数:ξi={ξi (k) |k=1, 2, …, n}

(3) 关联度按大小排序

表明Xi与Y1最接近, 或对Y1的影响最大, X2次之, ……

2. 多元回归预测模型

设所研究的对象Y受到多个因素X1, X2, …..Xm的影响, 假定各个影响因素与Y的关系是线性的。则建立多元线性回归方程:

为影响因素的第i组观测值 (取x1的观测值恒等于1) ,

β=[β0, β1, ….βm]T为待估系数向量。

为了估计回归系数β0, β1, …., βm, 我们对变量进行了n次观察, 得到n组观察数据 (Yi, Xi1, Xi2, …, Xim) , i=1, …n, 一般要求n>m。于是回归关系可写为

其中ε1, ε2, …., εm独立同分布, 都满足E (ε) =0, Var (ε) =σ2

我们要采用矩阵形式来表示上式。令

一般情况下我们假定X列满秩, 即rk (X) =m+1。关于误差的假定与 (2.4) 对应为

(2.7) , (2.8) 与 (2.9) 合在一起称为多元线性模型。

下面求模型参数的向量的最小二乘估计 (Least Square Estimate, LSE) 。残差平方和S (β) 为

最小二乘法则即要求使使

运用矩阵微商得:

它称为正规方程式。若X列满秩, 则为方阵, 其逆矩阵存在, 左乘 (2.11) 两边得的最小二乘解

3. 灰色—回归组合模型应用

根据调查, 影响景德镇市污水的排放量主要有以下几个因素: (1) 景德镇市人口状况; (2) 工业产值: (3) 管网的普及率。

3.1 灰色关联分析

比较数列为景德镇市人口数, 为工业产值, 为景德镇市管网普及率。

把数据分别代入数列为:

由于上述列都不在同一个数量级上, 我们可以将这些数列进行数值变换即初值化, 初值化后的数列为:

根据式 (4.1) 可求得Δ03 (5) =||y (5) -x3 (5) =1.286最大, Δ0i (min) =0

(2) 灰关联差异信息空间ΔGR

(3) 灰关联系数r (y (k) , xi (k) 表达式

(4) 灰关联序列r (y, X1) >r (y, X2) >r (y, X3)

3.2 多元线性回归模型的建立

(1) 与景德镇市人口建立的回归方程

以景德镇市2000年—2004年的人口统计数据作为基础数据, 建立一元一次方程;Y=β0+β1X

根据计算得到方程为:y=0.0633x-7.941

其中y——污水排放量, x——景德镇市人口

(2) 与工业产值建立的回归方程

同样以2000年—2004年的工业产值统计数据做基础数据建立方程为:Y=β0+β1X

根据就算得到方程为:y=0.0023x+0.925

(3) 与城市人口和工业产值建立的方程

回归方程模型:Y=β0+β1X1+β2X2。根据式^β= (XTX) -1XTY计算得到。计算可由计量经济学里的Eviews得到。

因此建立的回归方程为:Y=0.0163X1+0.0008X2-4.5011

3.3 自变量的灰预测

(1) 对人口数的预测

通过Excel软件将年份作为自变量, 城市人口作为因变量得到线性拟合方程为:Y=1.633X-3122.196

(2) 对工业产值的预测

通过Excel软件将年份作为自变量, 工业产值作为因变量得到线性拟合方程:Y=1.0017X3-6000.3X2+1.0×107X-8×109

B、数据结果分析

将人口数与工业产值的预测值代人Y=0.0163X1+0.0008X2-4.5011, 预测景德镇市2005年-2007年的污水排放量, 其中2005, 2006是用来检验预测精度的。

由上表可以看出相对误差只有1.69%, 4.44%, 说明预测结果较为理想。

可以根据以上方法对景德镇市作污水排放量的预测。

四、结论

由以上的分析和预测结果, 我们可以利用GM (1, 1) 模型和灰色关联分析对景德镇市的水质进行分析和预测, 对于未来设计建设生态友好型的绿色水利工程, 提供系统的基础数据和可靠的理论依据。

摘要:针对景德镇市污水排放情况, 运用多元线性回归模型和灰色关联分析模型对其多年污水排放情况进行了现状分析及趋势预测。结果表明:运用灰色关联分析模型, 能更科学准确地评价景德镇市水质污染情况以及影响较为明显的因子。

关键词:多元线性回归模型,灰色关联分析模型,污水排放预测

参考文献

[1]庞皓, 李南成.计量经济学.西南财经大学出版社, 2002:

[2]马文敏, 唐莲.灰色系统理论在城市需水量预测中的应用.西北资源与水工程, 2001, 12 (1) , 14-16;

[3]袁嘉祖.灰色系统理论及应用[M]科学出版社1991;

[4]邓聚龙.灰色系统论基本方法[M].武汉:华中理工大学出版社1987

[5]王建根, 胡万宝.非线性直接灰色模型[J].系统工程, 1995.13 (6) :55-57

[6]高廷耀等编.水污染控制工程.高等教育出版社.2002

多元线性回归分析模型 篇8

关键词:牵引能耗,多元线性回归模型,牵引能耗测算

0 引言

通过分析实际运营线路能耗数据可以发现, 线路牵引能耗与列车行驶里程及环境气温存在一定的关联。列车行驶里程越长、气温越高, 线路的能耗越多[1,2,3,4,5,6]。本文根据历史时期牵引能耗、总行驶里程及平均气温数据, 运用多元线性回归模型[7,8,9,10], 对列车牵引能耗进行预测。

1 模型的建立

1) 回归方程的设定。线路牵引能耗的二元线性回归模型设为

式中:y为线路牵引能耗, 104k W·h;x1为月行驶里程, 104km;x2为月平均气温, °C;β1、β2为x1、x2的回归系数;ε为随机误差项。

则线路牵引能耗的二元线性回归方程为

2) 回归参数的估计。建立回归方程后, 需要根据样本点对回归参数进行估计, 得到估计值牵引能耗的预测值与实际值yi的残差平方和Q为

采用最小二乘法对模型参数进行估计, 使残差平方和Q达到最小。通过微积分方法, 得到Q最小的必要条件为:

由此可以得到回归系数的的估计值

3) 回归方程的检验。为了确定模型的精度, 需要对模型检验。主要进行拟合优度检验、回归方程显著性检验及回归系数显著性检验[11,12]。拟合优度检验是检验样本数据点聚集在回归线周围的密集程度, 从而评价回归方程对样本数据的代表程度。拟合优度检验采用R2统计量。

回归方程显著性检验是检验被解释变量 (牵引能耗) 与所有解释变量 (行驶里程及平均气温) 的线性关系是否显著。方程显著性检验采用F检验。回归系数显著性检验是检验被解释变量 (牵引能耗) 与每个解释变量 (行驶里程、平均气温) 的线性关系是否显著。系数显著性检验采用t检验。

2 牵引能耗预测

1) 模型的确定。以2010~2012 年的数据作为样本点, 采用SPSS软件对北京地铁某线牵引能耗进行回归分析, 分析结果如表1、表2、表3所示。

由表可知, 该线牵引能耗的回归方程为

方程的调整判定系数为0.821;回归方程显著性检验通过F统计量的概率P值进行检验, 其显著性水平均小于0.005, 即小于0.05, 通过方程显著性检验;回归系数显著性检验通过t统计量的概率P值进行检验, 其显著性水平均小于0.005, 即小于0.05, 通过回归系数显著性检验。

2) 牵引能耗的预测。根据回归方程, 对该线2013 年1~5 月的能耗进行预测, 得到数据如表4 所示。

3结论

从预测结果看出, 线性回归预测误差较大, 平均相对误差达到12.38%。从预测模型来看, 虽然模型通过了显著性检验, 牵引能耗与行驶里程、平均气温线性关系显著。但是方程的调整判定系数为0.821, 并不接近1, 说明估计值与实际值的偏差较大。经分析, 影响模型预测精度的主要原因为:1) 牵引能耗与平均气温并不完成呈线性关系。当气温较高时, 空调设备的能耗增大, 牵引能耗较大;而气温较低时, 列车采用电设备取暖, 牵引能耗也会较大。因此, 牵引能耗与平均气温并不完成呈线性关系。通过残差分析看出, DW检验值为0.743, 说明残差序列存在一定程度的正相关, 回归方程还没能充分解释牵引能耗的变化规律。2) 模型未考虑列车满载率。对于相同的走行里程, 列车满载率越高, 载重量越大, 能耗也越高。

参考文献

[1]刘宝林.地铁列车能耗分析[J].电力机车与城轨车辆, 2007, 30 (4) :65-68, 70.

[2]徐长勤, 宋德银, 董传海.城市轨道交通再生制动能量储存利用[J].现代城市轨道交通, 2005 (6) :18-20.

[3]刘海东, 毛宝华, 丁勇, 等.城市轨道交通列车节能问题及方案研究[J].交通运输系统工程与信息, 2007, 7 (5) :68-73.

[4]刘鹏, 田琼.城市轨道交通列车牵引能耗分析[J].山东科学, 2012, 25 (3) :7-11.

[5]张星臣, 冯雪松, 毛保华, 等.我国高铁列车牵引能耗影响因素作用效果的模拟分析[J].交通运输系统工程与信息, 2011, 11 (3) :83-86.

[6]陈峰, 杨洋, 刘欧阳.城市轨道交通的牵引能耗估算方法[J].都市快轨交通, 2014, 27 (2) :90-93.

[7]李波涛.城市轨道交通车辆牵引能耗的影响因素[J].节能技术, 2014, 32 (4) :377-380.

[8]黄丽珍, 王昊, 王烈.机车牵引能源消耗因素分析及计算模型研究[J].铁道运输与经济, 2014, 36 (9) :88-92.

[9]陈胜, 袁登科, 韦莉, 等.城轨交通车辆应急自牵引能耗需求分析及仿真[J].机电一体化, 2011 (6) :48-52, 73.

[10]谢汉生, 满朝翰, 商一帆.地铁主要能耗影响因素及节能措施分析研究[J].现代城市轨道交通, 2013 (4) :65-71.

[11]李济棋.上海地铁11号线列车牵引能耗分析[J].机电一体化, 2013, 19 (6) :32-35.

多元线性回归分析模型 篇9

产品生产成本的预测, 由于涉及面广、影响因素众多、程序复杂而成为较为困难的一类预测, 但由于其在企业生产经营中的重要作用, 还是得到了企业的重视, 并吸引了不少学者、机构的关注和研究。

基于多元线性回归数学模型的生产成本预测法, 是利用多元线性回归数学方程建立数学模型, 再利用数学模型对产品的生产成本进行分析预测。作为众多的预测方法的一种, 基于多元线性回归数学模型生产成本预测法的特点非常明显, 该预测方法理论清晰、结构简单、计算简便, 具有很强的实用性和较好的拟合性。本文介绍了基于多元线性回归数学模型的产品成本预测法及其数学模型的建立和计算过程, 并以某水泥公司生产的某标号水泥产品为例, 进行了预测实证研究。

2 预测数学模型的建立和计算

回归分析是一种处理变量的相关关系的数理统计方法。回归分析的基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。多元回归分析是研究多个变量之间关系的回归分析方法, 是反映一种现象或事物的数量依多种现象或事物的数量变动而相应变动的规律, 其特点在于不管分析对象的影响因素有多少, 只要分析对象确定后, 总能通过回归分析找出最主要的影响因素, 并通过回归模型建立他们的相互关系, 最后通过检验来验证这种关系的准确程度, 比较适合用来研究因变量确定而自变量有较多变化的现象或事物。

在企业中, 对产品生产成本的影响因素比较繁多, 无法找出一个准确的数学模型来表述其相互关系, 但由于其研究对象—产品的生产成本 (即因变量) 确定, 而影响因素 (自变量) 变动, 适合运用多元线性回归方法来对其进行研究。基于上述考虑, 我们可以利用多元线性回归方程建立数学模型, 来讨论各相关变量之间的数学关系, 进而利用计算出来的数学模型来预测产品的生产成本。下面将讨论基于多元线性回归数学模型的产品成本预测方法数学模型的建立和计算过程。

如果我们把某产品的生产成本看做因变量 (用Y表示) , 把影响因素看做自变量 (用X表示) , 则生产成本与影响因素的数学关系就可以简单写为:

公式 (1) 中, α和β是参数, ε是X变量以外其他所有因素对Y值的影响总和, 称为随机误差, 又称随机干扰项。

如果只是考虑单一因素对生产成本的影响, 可从数学模型Y=α+βX+ε中排除ε, 就可以得到Y值随X值变化的方程:

然后可以根据已知数据 (X, Y) 的观察值, 采用最小二乘法对方程Y=α+βX求解, 求得α和β, 带入公式 (2) 后即可求得该回归方程, 此方程可用来研究单一因素对产品成本的影响。

如果综合考虑产品成本的各种影响因素, 则产品成本和各影响因素之间的数学关系应该写为:

公式 (3) 中, Y为产品生产成本, 即因变量;X1、X2、X3、…、、Xk是成本构成项目, 即自变量;α表示截距;β1、β2、β3、…、βk表示各自变量的斜率, 即各构成项目的权重参数;ε是随机误差。随机误差ε须符合下述假定前提:

(1) ε是随机变量;

(2) ε服从正态分布;

(3) 对于任何X值, ε都有恒定的方差。

综合以上分析, 则该数学模型可以写为:

对于参数α和β的计算, 采用最小二乘法拟合样本方程来求, 具体方式为:对自变量X与因变量Y的变化进行多次观察, n次观察后得到n组观察数据, 其数学关系为:

以上联立方程组含有 (k+1) 个方程, 用最小二乘法求回归系数, 可求得各参数, 然后将各参数带入相应的方程:

即可构建多元线性回归数学模型。此数学模型还需要进行检验, 检验过程我们在此将不再讨论。

在通过了显著性检验后, 就可以利用数学模型进行预测了。

值得强调的是, 通过预测得到的产品生产成本数值并不是准确值而仅仅只是个模糊值, 预测的准确程度跟自变量的数量和准确度有关系, 也即是当方程:

中的k趋向无穷时, 也就是自变量数量无穷多时, 预测值才越趋向真实值。

3 预测实证分析研究

下面我们以某水泥制造公司生产的矿渣PS42.5#水泥为例, 进行预测实证分析研究。

根据计算的需要, 我们查阅、收集了该水泥公司大量的生产原始数据, 通过整理后, 确定以该公司生产的矿渣PS42.5#水泥为例, 进行生产成本的预测, 生产数据详见表1所示:

/ (元/t)

出于计算的需要, 我们运用数理统计方法对收集到的水泥成本的各因素逐一进行分析、研究和整理, 将生产成本项目整理成固定用料、生产材料、工资福利和其它费用等四个大项。

接下来将进行模型计算, 我们将该品种水泥生产成本作为因变量Y, 将固定用料、生产材料、工资福利和其它费用作为自变量X, 按生产年份分别带入公式 (9) 中:

可得联立方程:

用最小二乘法求回归系数, 可得各参数α、β1、β2、β3、β4的值:

然后将各个参数带入公式 (9) , 即可建立多元线性回归数学模型如下:

接下来的工作是对此数学模型进行显著性检验, 通过显著性检验后即可利用此方程进行预测分析。显著性检验计算过程在此将不再赘述。我们只将计算结果排列于下:

对多元线性回归数学模型

Y=84.6009+1.4769 X1+ (-3.3985) X2+3.2172 X3+ (-2.8684) X4的线性回归显著性检验计算结果:

给定显著性水平:0.100

F统计量:20.7531

F临界值F (4, 1) :55.8326

全相关系数R:0.9940

从计算结果可以得出, 相关系数接近于1, 也就是说, 该品种水泥的实际观测值和计算拟合值基本相符, 可以使用此多元线性回归数学模型:

对该品种水泥进行成本预测。

在预测时, 只需将经过分析整理的各类自变量输入数学模型, 即可得到该品种水泥特定时期的目标生产成本。

4 结论

企业产品生产成本的控制工作, 涉及面比较广, 操作程序也比较复杂, 如何较好的控制产品的生产成本, 科学的规划企业未来一定时期內的成本水平和成本目标, 是企业科学决策的关键。本文介绍的多元线性回归数学模型成本预测法, 其优点是结构较为清晰, 计算过程简单, 用于产品的生产成本预测工作, 其科学性和拟合性不错, 其缺点有两方面:一是要求生产企业生产状况必须稳定, 不能有较大的波动, 生产波动剧烈, 其准确性就会受到影响;二是生产数据必须准确, 如果生产数据准确性差, 预测的真实性就会打折。

参考文献

[1]白长虹, 范秀成.市场学[M].天津:南开大学出版社, 2007.

[2]吴健安.市场营销学[M].北京:高等教育出版社, 2007.

多元线性回归分析模型 篇10

1临沂市农民收入的现状

在农业现代化和新农村建设过程中,临沂市农民收入逐年增加,但与城镇居民相比仍存在较大差距。 2000—2003年农民总收入以年均5. 11% 的速度增长,纯收入以年均6. 22% 的速度增长,与城镇居民收入的增长速度持平; 2004—2008年农民总收入和纯收入分别以年均14. 61% 、14. 07% 的速度增长,而同期城镇居民的总收入和纯收入分别以年均27. 28% 和29. 42% 高速增长,农民和城镇居民的收入差距逐渐变大。2011年临沂市农民年均总收入首次突破万元,达到1. 11万元,而城镇居民早在2006年已经达到1. 08万元,收入差距持续加大。可见,临沂市农民收入虽然呈增长趋势,但仍有很大上升空间。因此, 笔者通过具体分析临沂市近13年来农民收入增长的结构变化,分析其影响因素,并进行多元线性回归分析找出临沂市农民收入增长缓慢的原因。

1.1工资性收入

工资性收入是农民增收的主要途径,主要来自农民的劳动创收,见图1。

由图1可见,临沂市农民工资性收入呈持平稳上升趋势。2005年政府开始重点保护农民工的合法劳动权益,打击拖欠工资的现象,使农民工权益得到进一步保障,在政府和法律的保护下农民工资性收入开始增加,与城镇居民的工资性收入相比收入总额和增长幅度都较少。

1.2家庭经营收入

家庭经营收入按行业划分为农业、林业、牧业、渔业( 第一产业) ,工业、建筑业( 第二产业) ,交通运输业及邮电业、批发和零售贸易业、餐饮业、社会服务业、文教卫生业和其他家庭经营收入( 第三产业) 。 第一产业收入在临沂市农村家庭经营收入中所占比重最大,增长速度 最快,人均收入 由2000年的2 301. 88元提高到2012年的8 019. 21元; 而第二产业和第三产业所占比重较小,且增长速度缓慢。因此,农民从事第二、三产业获得的收入极少,影响了临沂市农民的总收入,见图2。

1.3财产性收入

随着农业经济的发展和农民生活水平的日益提高,农民越来越注重利用财产来获得更多的收益。临沂市农民财产性收入呈现阶段性变化,人均财产性收入由2000年的44. 99元增加到2001年的57. 63元, 2003年又回落到35. 08元,是财产性收入的不稳定性阶段; 2003—2007年人均财产性收入呈缓慢上升的趋势; 2007—2009年受国内外金融危机的影响,人均财产性收入平均在100元左右,上升幅度很小,是财产性收入的停滞阶段; 2009—2012年基于国内经济复苏及政府实施的农业免税和补贴政策,使得农民将更多的储蓄资金投入到农业生产和第二、三产业的发展中去,其财产性收入开始增加,但增长速度较慢, 见图3。

1.4转移性收入

农民转移性收入主要包括农民将土地的使用权转移出去所获得的收益。2000—2007年转移性收入均不超过200元,原因是新世纪农业开始进入快速机械化发展阶段,大多数农民有信心自己耕种土地而不愿放弃土地; 2007—2012年随着政府农村惠农政策的实施以及第二、三产业的发展,需要更多的劳动力, 使得更多的农民将土地的使用权转移出去,2012年转移性收入达到人均663. 42元。近13年来,临沂市农民人均转移性收入仅增长了400余元,增长速度极其缓慢,见图4。

2临沂市农民收入多元线性回归模型

2.1数据选取

数据主要来源于2000—2012年《临沂市统计年鉴》、《山东省农村统计年鉴》,部分数据稍作修正。 其中影响农民收入的因素很多,按收入来源可将其分为影响工资性收入的因素( 农民外出务工人员、农民受教育水平等) ,影响家庭经营收入的因素( 农林牧渔总产值、人均耕地面积、农业机械化水平等) ,影响财产转移性收入的因素( 银行储蓄存款、政府农业投入等) 。

选取农民人均收入( Y) 作为因变量; 农民外出务工人员( X1) 、农民受教育水平( X2) 、农林牧渔总产值 ( X3) 、人均耕地面积( X4) 、农业机械化水平( X5) 、银行储蓄存款( X6) 、政府农业投入( X7) 作为自变量,运用SPSS 17. 0软件进行多元线性回归分析。

2.2结果分析

模型的R、R2、调整R2及估计标准误,见表1。

表1所定义模型确定系数的R为0. 999,R2为0. 999,调整后的R2为0. 997,估计标准误为0. 860。 说明选择的因变量极限拉伸值Y与所选7个自变量之间存在非常密切的线性相关性,该模型与数据拟合度非常好。显著性检验,见表2。

因变量Y对7个自变量X1、X2、X3、X4、X5、X6、X7的非标准化回归系数分别为23. 289,19. 606,9. 847, - 0. 661,1. 918,1. 356,4. 748; 对应的显著性检验的t值分别为1. 001,0. 666,1. 719,- 0. 366,0. 852, 1. 104,2. 767。 回归方程 为: Y = - 2414. 550 + 23. 289X1+ 19. 606X2+ 9. 847X3- 0. 661X4+ 1. 918X5+ 1. 356X6+ 4. 748X7。

系统自动检 验的显著 性水平Sig. = 0,小于0. 05,可以认为所建立的回归方程有效。以上数据研究和回归方程为分析临沂市农民收入影响因素提供了依据。

临沂市农民收入受农民外出务工人员( X1) 和农民受教育水平( X2) 的影响最显著,临沂市农民外出务工人员每增加1个单位,农民收入增加23. 289个单位; 农民受教育水平每增加1个单位,农民收入增加19. 606个单位。其原因是第二、三产业的迅猛发展创造了更多的就业岗位,使越来越多的农业劳动力从事非农业生产活动来增加农民收入。同时,临沂市政府也加大了对农村教育的投入,增设了职业培训学校并定期开展农业技术讲堂,提高了农民的文化素质,增强了农民的就业竞争力。

农林牧渔总产值( X3) 、农业机械化水平( X5) 、银行储蓄存款( X6) 和政府农业投入( X7) 等因素对临沂市农民收入也存在着正向的影响。其每增加1个单位,分别使临 沂市农民 收入增加9. 847,1. 918, 1. 356,4. 748个单位。农业机械化正在改变着临沂市传统的农业生产方式,节约和解放剩余的劳动力从事第二、三产业,开拓促进农民增收的新渠道,同时农业机械化提高了劳动生产率和土地产出率。随着农林牧渔总产值的节节攀升,农民银行储蓄存款增多, 这不仅会获得利息收入,还可以用于商业投资来获得更多的收益。临沂市政府对农业基本建设、农业科技等的投入都间接增加了农民的收入。

农民人均耕地面积( X4) 与农民收入呈负相关, 但是影响不是很大。人均耕地面积每增加1个单位, 农民收入减少0. 661个单位。随着农村城镇化建设和工业用地增多,耕地面积持续减少,在粮食价格保持稳定的情况下,受物价上涨的影响,农民靠种地获得的收入相对减少,打击了农民种地的积极性,在临沂市周边的农村调研得知,有20% 的农民已经将自家的耕地闲置或用于养殖家畜。

3增加农民收入的对策建议

3.1鼓励农村剩余劳动力转移

临沂市人口密集,农村人口比重较大,农村剩余劳动力的转移尤为重要,因此临沂市政府在加大市区内工业、服务业等发展的同时,更应该注重乡镇企业中劳动密集型产业的发展,为乡镇企业提供良好的发展环境,提供招商引资的合理政策,同时也鼓励当地农民自主创业,实现农村剩余劳动力就地转移,减少农民因外出打工导致的留守儿童等问题的出现。

3.2加大农业科研和技术的投入

科学技术是第一生产力,在有限的耕地与水资源前提下,必须依靠提高生产力来增加农民的收入。影响农业生产效率的因素之一就是农业机械化水平,提高农业机械化水平是促进农民增收的有效渠道。政府应加大对农业科研技术的投入,使农业机械在数量和质量上都有所突破,提高土地的生产率。并继续贯彻普及义务教育。对外出务工的农民进行就业技能培训,让农民也有一技之长,提高农民的工资收入。

3.3大力发展农业产业化经营

推动临沂市特色农业种植,加快林业、畜牧业、水产养殖业等多行业的发展。建立优质农产品生产基地和深加工基地,提高粮油、果蔬、畜禽等主要农副产品加工能力,提高产品附加值,增强产品的市场竞争力,扩大“生态沂蒙山、优质农产品”的市场影响力, 使农民从生产经营中得到更多的收入。

3.4持续加大农民财产转移性收入

多元线性回归分析模型 篇11

关键词 PM2.5; AQI; 主成分分析; 多元回归模型

中图分类号 O213; X501 文献标识码 A

Abstract

To explore the main reason of air pollution, we analyzed the correlation between monitoring index of air pollution PM2.5 and other monitoring indexes of AQI, and found that PM2.5 was associated positively with SO2, NO2, CO, and negatively with O3 and the temperature. Then we got the numerical relationship between PM2.5 and the main factor according to multiple regression model. The results offers some references to the control of PM2.5 in Xi'an.

Key wordsPM2.5; AQI; principal component analysis; multivariate regression model

1引言

PM2.5导致的雾霾天气日益严重, 影响人们的身体健康及出行, 其引起社会的广泛关注1. 西安是典型的北方城市, 它被联合国开发计划署选列为大气颗粒物污染研究示范性城市2, 由于西安特殊的地理位置, 被称为“污染天井”, 并且冬季燃煤取暖、人口密集, 因此本文以西安市为研究对象.

大气污染的两个基本要素是大气气溶胶和气态大气污染物3. 周顺武等4利用SO2、NO2、PM10三项指标, 分析了污染物浓度的分布特征.

李伟等5利用AQI指标的六项监测数据得到PM2.5与其他五项之间的关系. 通过已经公布的历史数据可以发现PM2.5影响因素具有不确定性, 所以本文采用统计学的多元回归模型探究PM2.5与AQI其他监测指标及温度因素的关系得到精确的统计模型, 发现PM2.5的测量值在春季、冬季相对较高, 在夏季、秋季较低6, 本文对温度因素与AQI监测指标进行相关分析, 得到PM2.5与其他监测指标的数量关系, 为西安市环保部门防治空气污染提供参考意见.

2数据来源及指标选择

通过西安市环保监测站查找了2013年1月1日~2013年12月31日的AQI监测数据, 温度数据来源于中国天气网的西安市天气历史数据. 选取的9个指标, 分别是PM2.5(PM2.5日平均浓度值, 单位μg/m3)、SO2(SO2日平均浓度值, 单位μg/m3)、NO2(NO2日平均浓度值, 单位μg/m3)、CO(CO日平均浓度值, 单位μg/m3)、O3-1(臭氧1个小时平均浓度值, 单位μg/m3)、O3-8(臭氧8个小时平均浓度值, 单位μg/m3)、PM10(可吸入颗粒物PM10日平均浓度值, 单位μg/m3)、Tmax(日温度最高值, 单位℃)、Tmin(日温度最低值, 单位℃).

3数据预处理

为了保证数据的完整性, 需要对数据进行缺失值查找和填补, 利用SPSS 21.0 统计软件7对各个变量进行变量的基本统计分析, 发现2013年3月25日O3-8指标缺失, 因此本文采用回归的方法对该数据进行填补, 保证了数据的完整性. 为了消除数据变量在数量级和量纲上的不同, 将填补缺失值后的完整数据进行标准化处理. 本文采用的是Z标准化, 即数据处理后的均值为0, 方差为1.标准化公式为: x*=x-μσ, 其中μ为样本数据的均值, σ为样本数据的标准差.

4PM2.5与其他指标的多元回归分析

对AQI的7个基本监测指标及每日最高温度、最低温度的相关性进行定量分析, 尤其是对PM2.5含量与其他8项分指标数量的相关性及其数量关系进行分析, 可以从两个方面进行考虑: 第一, PM2.5与其他8项指标之间的相关性; 第二,PM2.5与其他指标间存在的数量关系.

4.1PM2.5相关因素相关性分析

复相关分析法能够反映各要素的综合影响, 几个要素与某一个要素之间的复相关程度, 用复相关系数来测定. 复相关系数可以利用相关系数和偏相关系数求得, 其假设检验与多元回归的方差分析结果一致, 因而表示回归贡献的百分比值. 复相关系数的取值介于-1与+1之间, 用其绝对值的大小来判断相关的密切程度, 绝对值越大, 相关性越大; 反之, 相关性越小. 本文利用复相关分析方法, 并利用SPSS 21.0软件进行数据分析. 具体步骤如下:

1)利用SPSS 软件对SO2、NO2、PM10、CO、O3-1、O3-8、Tmax、Tmin和PM2.5这9个指标进行相关分析, 采用Pearson相关分析法得到表2的数据. 数据结果显示PM2.5与SO2、NO2、PM10、CO、O3都是相关的, 并且存在较高的相关系数, 尤其与PM10的相关性最大.

2)利用SPSS 21.0软件先固定PM2.5, 再对其余指标进行偏相关分析, 得到表1.

3) 计算复相关系数为0.996 0.

多元线性回归分析模型 篇12

第一步, 利用SPSS对已知的商品住宅价格、工资收入以及GDP的十年数据进行相关性分析, 得出数据间的相关系数, 根据这些相关系数的大小来判断数据间是否有强联系, 为下面进行预测模型的建立的合理性提供依据。

第二步, 本文运用多元线性回归算法进行数据预估。首先把与商品住宅有强联系的数据类作为自变量, 把商品住宅价格作为因变量, 分别对强联系的数据类和商品住宅价格进行曲线多项式拟合, 大致确定商品住宅与其强联系数据类之间的影响关系, 通过分析它们之间的关系进行多元回归数学模型的建立。

第三步, 通过历史数据对模型进行检验, 并评价预测模型。

2 多元线性回归算法

回归分析 (Regression) 是一种应用广泛的统计分析方法, 在金融、经济、医学等领域都已成功应用。他应用于分析数据间的统计关系, 侧重观察变量之间的数量变化规律, 并通过回归方程的形式描述和反映这种关系。回归分析一般解决以下问题:确定自变量与若干因变量之间关系的定量表达式, 即回归方程式, 并且确定它们关系的密切程度;运用控制可控变量的数值, 借助于所求出的方程式来预测或控制自变量的取值;运行因素分析, 从影响变量变化的因变量中, 寻找出哪些因素对因变量产生了影响[5]。

2.1 相关性判别

相关分析用于描述两个变量之间关系密切程度, 它反映的是当控制了其中一个变量的取值后, 另一个变量的变异的程度。根据所得数据, 本文应用Pearson相关系数来对数据见联系强度进行判断。

Pearson相关系数计算公式为:

其中, n为样本个数, xi和yi为要分析相关性的两变量, r即为两变量的相关系数。当0≤|r|≤0.3时两变量为弱相关, 当0.3<|r|≤0.5时为低度相关, 当0.5<|r|≤0.8时为显著相关, 当0.8<|r|≤0.1时为高度相关。

2.2 线性回归模型

回归算法的基本步骤:首先把与所要预测的因变量相关度最高的自变量引入到线性方程中去, 再把相关性次高的自变量带入方程, 在带入次高变量后, 如果模型中的变量的F检验小于0.10, 则后带入的变量将不会被模型所接纳。如此不断带入自变量进行循环, 不断排除模型不需要的变量, 直到所有变量都已经被筛选过, 就得出最优回归模型。模型形式为:

其中, F作为多元线性回归显著性检验统计量, 其定义公式为:

p为多元线性回归方程中的解释变量的个数。F服从 (p, n-p-1) 个自由度的F分布。

3 实际模型实验

3.1 相关性分析

首先分析GDP、市民收入与商品住宅价格之间的相关性。目的是观察GDP、市民收入与商品住宅之间相关性强度。

通过相关性分析得出商品住宅价格与GDP以及市民收入的相关系数分别为03.976、0.996, 皆为高度相关, 所以GDP与市民收入为影响商品住宅价格的主要影响因子。

3.2 模型建立

下面开始建立模型。根据已知数据, 用Matlab分别做出GDP、市民收入与商品住宅价格的关系拟合图, 并求得拟合曲线方程。

经过以上曲线拟合我们得出:商品住宅价格与GDP为二次函数关系, 与市民收入为一次函数关系。通过房价与GDP、市民收入之间的函数关系, 我们开始建立多元回归模型方程如下。

设商品住宅价格y与GDP为x1、市民收入x2满足如下关系:

输入数据, 利用SPSS计算出回归模型方程中的参数β0、β1、β2、β3得出方程为:

3.3 模型检测与评估

根据已知武汉商品住宅数据对模型进行检测, 检测结果如下表:

通过上表可以看出检验结果误差较小, 最大误差值为286.6150, 最小误差值为6.6280, 平均误差值为142.1266。所求得模型可以应用于实际预测之中去。

4 小结

本文所得多元线性回归模型基本能够在误差要求范围内预测3年内商品住宅价格。模型稳定性较好。对房地产市场有影响的因子很多, 本文只寻找出两种相关性较高的因子, 但房地产市场会受到一些突发性事件影响世界经济危机、国家政策调控等, 而次模型还不具备对突发性影响的应对机制, 这有待进一步研究。

摘要:随着我国住房制度的商品化改革, 我国住宅产业蓬勃发展, 逐渐成为影响国计民生的重要产业之一。本文的主要目的是挖掘武汉商品住宅价格变化数据、市民工资收入和GDP数据间的关系, 对商品住宅价格的影响因子进行全面的剖析, 运用相关性算法得出各影响因子所占权重, 通过多元线性回归模型来预测商品住宅价格走势。

关键词:商品住宅价格,多元线性回归,预测模型

参考文献

[1]张红, 李文诞.北京商品住宅价格变动实证分析[J].中国房地产金融, 2001 (3) .

[2]周京奎.房地产价格波动与投机行为[J].当代经济科学, 2005 (7) .

[3]Geoffrey Meen, Mark Andrew.Modeling Regional House Prices:A Review of the Literature by The Centre for Spatial and Real Estate Economics[D].Department of Economics, The University of Reading, 1998.

[4]Stuart A Gabriel, Joe P.Mattey'William L.Wascher.House Price Differentialsand Dynamics Evidence from the Los Angeles and San Francisco Metropolitan Areas[J].Real Estate Economic, 2000.

上一篇:学生为什么喜欢学数学下一篇:仿真器指标