线性回归模型

2024-09-26

线性回归模型（精选12篇）

线性回归模型篇1

所谓数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。目前,数据挖掘的主要研究领域可分为分类、预测、聚类、关联规则等方面。预测是数据挖掘研究的一个重要分支,它是数据挖掘的众多知识类型中的一种,有着极其重要的应用价值。预测是指对未来不确定事件的预见和推测。预测事件之所以不确定,是由于事件的发展受多种因素影响的结果。因素多少是不确定的,各种因素对事件影响程度也是变化的,预测时很难把握。尤其偶然因素变化情况和影响程序更难把握,所以事件的未来变化过程和结果的预测,必然与实际存在一定误差,但是并非说预测没有价值,因为现代科学的预测能够把握住事物的内在联系和发展规律,缩小预测结果与实际的差距。到目前为止,最广泛使用的数值预测方法是回归。

销售预测是企业决策的重要组成部分。销售预测是以市场商品购销为主要对象,预见和推测商品的各项购销活动、价格和竞争状况的变化趋势与结果。对于若干药品,用一元线性回归预测模型预测它们的销售金额,显然计算量比较大。现提出一种改进的线性回归预测模型,该模型和一元线性回归预测模型相配合,预测若干个药品的销售金额,能提高效率,减少计算量。

1 一元线性回归分析算法模型及其求解方法

线性回归分析涉及一个响应变量y和一个预测变量x。它是最简单的回归形式,并用x的线性函数对y建模。即:

y=b+wx (1)

式(1)中y的方差假定为常数,b和w是回归系数,分别指定线性的Y轴截距和斜率。回归系数b和w也可以看作权重,因此可以等价地记作

y=w0+w1x (2)

这些系数可以用最小二乘法求解,它将最佳拟合线性估计为最小化实际数据与线性的估计值之间的误差的线性。设D是训练集,由预测变量x的值和它们的相关联的响应变量y的值组成。训练集包含 $| D |$ 个形如 $(x_{1}, y_{1}) ‚ (x_{2} ‚ y_{2}) ‚ \dots \dots ‚ (x_{| D |} ‚ y_{| D |})$ 的数据点。回归系数可以用下式估计

$w_{1} = \frac{\sum_{i = 1}^{| D |} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sum_{i = 1}^{| D |} (x_{i} - \bar{x})^{2}} (3)$

$w_{0} = \bar{y} - w_{1} \bar{x} (4)$

其中, $\bar{x}$ 是 $x_{1} ‚ x_{2} ‚ \dots ‚ x_{| D |}$ 的均值,而 $\bar{y}$ 是 $y_{1} ‚ y_{2} ‚ \dots ‚ y_{| D |}$ 的均值。系数w0和w1通常给出其他复杂的回归方程的很好的近似[2]。

2 改进的一元线性回归分析预测模型

yn=kxn (5)

式(5)中yn是响应变量,预测的是相互关联的某药品n个月的总销售额。xn是预测变量,是已经预测出来的相互关联的某药品n个月的总销售额。

$Κ = \frac{y_{n - 1}}{x_{n - 1}} (6)$

k表示的含义是用将要预测的某药品n-1个月的实际总销售额除以已经预测出来的某药品n-1个月的实际总销售额。

第n个月的销售额:yn-yn-1 (7)

yn-1为第n-1个月的某药品的总销售额。

3 预测误差度量

预测值与实际值总会有一定的偏离,这种偏离即称为预测误差[3]。预测的未来时间越长,预测的可靠性就越低,预测误差就越易于扩大。在实际工作中,销售预测结果往往是为销售经营决策提供依据的,因而如何评定销售预测结果的精确度,如何事先判断销售预测误差,就成为销售预测工作不可缺少的一环。

研究预测误差,一般采用比较法,将预测计算值与实际值相减,其相差的部分称为预测误差。如果用Xi表实际值,Fi代表预测值,Ei代表预测误差,则

Ei=Xi一Fi或Ei= Fi一Xi (8)

衡量总的预测误差,常用的有以下几种统计量。

3.1 平均误差

计算公式 $E = \frac{1}{n} \sum E_{i} (9)$

计算平均误差虽然比较简单,但在许多情况下,误差的总和由于E的正负相互抵消,难以用平均误差的大小法说明预测结果的可靠程度,因此一般不采用此法。

3.2 绝对误差

计算公式 $E_{i} = | X_{i} - F_{i} | (10)$

采用绝对误差,克服了误差正负相互抵消的弊端,根据E的数值大小,能够反映预测结果的准确程度。

3.3 平均绝对值误差

计算公式 $E = \sum | (X_{i} - F_{i}) | / n (11)$

采用平均绝对值误差,它能够反映整个序列的预测精确度,在实际工作中,使用此法较多。

4 改进的模型应用——药品销售预测

在本节首先利用线性回归预测算法来预测相互关联的某一种药品的销售额,然后根据这个销售额,利用改进的线性回归算法来预测另一种药品的销售额。

4.1 数据准备与处理

首先声明,这些数据来自渭南市某药材公司2008年3月份的销售数据库。

浏览该数据库时发现,许多顾客在购买药品时经常购买“小5%糖”和“小盐水”这两种药品,说明这两种药品之间存在着某种关联,因此选择它们作为预测对象。

要预测某种药品的月销售额,就要把其前面几个月的销售情况统计出来,用它们来预测该类药品的月销售额。统计出来的这些数据来自渭南市某药材公司的销售记录,统计出4月份、5月份和6月份小5%糖和小盐水的的月销售额,然后用它们来预测7月份月销售额。统计出来的数据见表1。

从第二行可以看出,小盐水的销售额从4月份到5月份的销售额是升了,但从5月份到6月份的销售额是降了,并不是呈线性增长,不能用线性回归进行预测。所以要把表1中的数据进行转换,把它转换成线性的。那么如何转换线性的数据?思路是:把每月的销售额进行累加,4月份算作是一个月的销售额;5月份统计出的数据是某药品4月份的销售额加上5月份的销售额,一共是两个月的销售额;6月份统计出的数据是4月份的销售额加上5月份的销售额再加上6月份的销售额,一共是三个月的销售额。也就是说,4月份对应的是一个月的销售额,5月份对应的是两个月的销售额,6月份对应的是三个月的销售额,如此类推。转换的结果如表2所示。

4.2 月销售额的预测

预测的思路是:要预测某种药品第n月的销售额,首先要预测出总共n个月的销售额,然后减去总共(n-1)个月的销售额,就是预测的第n个月的销售额。

下面,首先利用线性回归分析预测出“小5%糖”总共4个月的销售额,然后用改进的线性回归分析预测处“小盐水”总共4个月的销售额,再用“小盐水”总共4个月的销售额减去总共3个月的销售额,就得到7月份“小盐水”的销售额。

1) 估计“小5%糖”的最小二乘直线的方程

计算平均用了多少月 $\bar{x} = (1 + 2 + 3) \div 3 = 2$ 。

计算平均销售额

$\bar{y} = (14 129 + 27 587 + 41 593) \div 3 = 27 770$ 。

根据式(3)计算w1的值:

w1=[(1-2)(14 129-27 770)+(2-2)

(27 587-27 770)+(3-2)(41 593-27 770)]

/[(1-2)2+(2-2)2+(3-2)2]=13 732元。

根据公式(4)计算w0的值:

w0=27 770-13 732-2=306。

根据公式(2)最小二乘直线的方程估计为:

y=306+13 732x (13)

2) 预测“小5%糖”和“小盐水”7月份的销售金额根据式(13)计算“小5%糖”总共4个月的销售额

y4=306+13 732×4=55 234元。

根据式(7)“小5%糖”7月份的销售额预测为

y4-y3=55 234-41593=13 641元。

根据式(6)计算k值

$k = \frac{35 480}{41 593} = 0.853$ 。

根据公式(5)预测“小盐水”总共4个月的销售额为:y4=0.853-55 234=47 116。

因为总共4个月的销售额为4月份的销售额加上5月份的销售额加上6月份的销售额加上7月份的销售额,所以,根据公式(7)“小盐水”7月份的销售额预测为

y4-y3=47 116-35 480=11 636元。

以此类推,预测“小5%糖”和“小盐水”8月份、9月份、10月份、11月份和12月份的销售金额。预测结果如表3所示。

为了进一步作比较,下面再用一元线性回归预测模型预测“小盐水”的7月份、8月份、9月份、10月份、11月份和12月份的月销售金额,预测的过程和“小5%糖”的预测过程类似,不再赘述,预测的结果如表4所示。

把药品“小盐水”利用改进的线性回归分析预测的结果和利用线性回归分析预测的结果都和实际的月销售金额做了比较,得到的结果如表5所示。

5 结束语

从平均绝对值误差的计算结果来看,改进的线性回归分析预测模型和线性回归分析预测模型相同,说明改进的线性回归分析预测模型是可行的、有效的。从效率上看,改进的线性回归分析算法也优于线性回归分析算法。从理论上看,预测的药品的种类越多,算法的效率就越高。下一步要做的工作是进一步提高改进的线性回归预测模型的的准确度。总之,通过把数据挖掘技术运用到医药销售预测中去,可以更加客观和有效地对医药销售情况加以分析,并从中得到有价值的信息;同时为管理决策部门在销售、采购等诸多方面提供参考,为企业的管理决策提供科学的依据。

参考文献

[1]邵峰晶,于忠清.数据挖掘—原理与算法.北京:中国水利水电出版社,2003:36—43

[2]Han Jiawei,Kamber M.数据挖掘:概念与技术(原书第2版).范明,孟小峰译.北京:机械工业出版社,2008:231—233

[3]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases.In Proc1993ACM-SIGMOD int1Conf Management of Data,Washington,DC,May l993:207—216

线性回归模型篇2

基于多元线性回归的飞机巡航阶段燃油流量模型研究

本文在深入分析真实飞行QAR数据的基础上,首先确定了在飞机巡航阶段影响燃油流量的`因素,然后采用多元线性回归分析方法,建立了该机型巡航段燃油流量模型.通过将实际燃油流量数据与模型预测流量数量进行比较,结果表明所建立的模型具有较好的效果,为航空公司提高燃油消耗监控效率提供了参考.

作者：王长坤作者单位：中国民航大学航空自动化学院,中国,天津,300300刊名：科技致富向导英文刊名：KEJI ZHIFU XIANGDAO年，卷(期)：“”(4)分类号：关键词：QAR 多元线性回归显著性检验

线性回归模型篇3

摘要：多元线性回归模型是根据得到的若干有关变量的一组数据，寻找因变量与多个自变量之间的一个函数，使这个函数对那组数据拟合的最好。然后利用方差分析方法对模型误差进行分析，对拟合的优劣给出评价，本文利用此种方法对荒漠区不同干扰下植物地上生物量的变化趋势进行研究，对实际的生态环境提出一些合理建议。

关键词：多元线性回归；数据拟合；荒漠区植物；生物量

1 概述

生态研究与资源利用是分不开的，荒漠区是我国典型的温带荒漠和干旱脆弱生态系统，生态环境条件十分严酷，其中荒漠区的植物生物量在荒漠区域中扮演着重要的角色，荒漠区中的植物生物量不仅对于动物的生存有影响，对于荒漠区中的生态环境也有影响。荒漠植被类型和条件与植物量之间存在关系。植物的高度盖度密度是影响植物量的因子，在不同的干扰下，这种相关性与关系程度也存在一定的差异。因此对于荒漠区植物生物量的研究具有重要的意义。

本文通过对[1]中数据进行拟合分析，发现不同植物的植物量与其高度盖度密度的关系符合回归模型[2]，由此可以通过回归分析建立相应的模型并引入相关系数[3]进行求解。在求出生物量对高盖密的回归模型后，必须考察一下是否真的能由所得的模型来较好的拟合生物量，用模型能否较好的反映或解释生物量的取值变化？对这些，都必须予以正确的评估和分析。判定系数在这里就是一个很好地指标：一方面它可以从数据变异的角度指出可解释的变异占总变异的百分比，从而说明回归直线拟合的优良程度；另一方面，它还可以从相关性的角度，说明原因变量生物量y与拟合变量的相关程度，从这个角度看，拟合变量与原因变量的相关度越大，拟合直线的优良度就越高。判定系数是指可解释的变异占总变异的百分比，用R表示，它的范围在0到1之间；当R2=1时，原数据的总变异完全可以由拟合直线的变异来解释，即拟合点与原数据完全拟合；当R2=0时，回归方程完全不能解释原数据的总变异，生物量的变异完全由与高盖密无关的因素引起。

2 多元线性回归模型的建立

[（1）]

式中β0，β1，β2，β3都是与x1，x2，x3无关的未知参数，其中β0，β1，β2，β3称为回归系数。

根据[1]中过牧区7月份草本植物的88个数，（y1，xi1，xi2，xi3）（i=1，2，...，22）

线性回归模型篇4

一、资料来源

本文资料来源于南浔区某二级医院2004-2013年门诊人次的统计报表, 见表1。

二、预测方法

根据表1的数据, 以时间作为X轴, 门诊人次为Y轴, 在直角坐标系中作散点图, 见图1。

由图1可见, 随着时间的推移, 门诊人次在增长, 门诊人次Y与时间X呈线性关系, 故用最小平方法建立回归模型。

三、结果与分析

(一) 建立直线回归模型

利用表2的数据求得参数b=2.00, a=4.54。得回归方程为

(二) 用t对回归系数的显著性进行检验

则p<0.05, 说明回归系数b有统计学的意义, X与Y线性相关。

3.3对门诊人次进行点预测和区间预测

当X=11, 12, 13, 14, 15时, 分别对2014年, 2015年, 2016年, 2017年, 2018年门诊人次进行点预测, 由于点预测会存在误差, 会随着a的波动而改变, 而a的波动大小可用其标准差Sa来衡量, , 预测范围由求得, 见表3。

四、讨论

建立线性模型, 利用最小平方法进行计算预测是一种比较常见的方法, 还可用来预测住院人次, 它的原理是:使直线上各估计值与观察值Y之间的平方和∑ (-) 2为最小。

近年来, 该院门诊人次不断上升, 主要原因为:南浔区城镇建设规模越来越大, 特别是高铁建成通车后, 交通更为便利。南浔区与上海邻近, 南连嘉兴, 北濒太湖, 东接江苏省苏州市吴江区, 现已成为外来务工人员密集地, 随着经济的不断发展, 南浔区各二级医院更新改造了医院的硬件设施设备。以上述医院为例, 自2007年来, 医院改扩建了门诊及住院病房大楼, 门诊大厅环境优雅, 各科室设置分布合理, 就诊条件舒适, 拥有了本地区最先进的辅助检查设备仪器, 还是湖州市唯一一家拥有四维彩超设备的医院, 这也促使了门诊量的明显快速增长。同时该院作为一家与杭州浙一医院保持了多年协作关系的综合性医院, 技术力量雄厚, 医疗及护理水平不断提高, 满足了人们日益增长的医疗服务需求, 为该院带来了良好的经济效益与社会效益。

这十年来, 虽然该院门诊量节节攀升, 但仔细分析会发现, 在2007年、2008年刚刚进行了改扩建后, 由于门诊硬件设施设备全面改观, 上升幅度最大, 达20%-35%, 而2006年以前, 以及从2009年后开始, 门诊人次的上升幅度已趋缓, 基本在10%左右, 这就意味着医院要长久发展, 不仅仅在于加大投资, 促进硬件建设, 而且要加强技术力量, 提高医务人员业务素质和服务质量着手, 做到真正为病人服务, 为病患解除痛苦, 充分发挥资源效益的内涵。

随着医疗改革的不断深化, 南浔区各家二级医院药品实施零差率销售, 医院在取消药品销售利润的同时, 按规定调高了医疗服务的价格。该院为配合医改还出台相关办法, 考核各个科室的门诊均次费用, 费用降低有奖励, 上升则要扣奖, 另外每个月还会发放群众满意度考核表, 要求病人对医务工作者进行满意度测评, 病人反映的问题都要求及时整改, 同时还加大了奖惩力度, 满意度测评在95%以上有所奖励, 低于90%则要扣奖。因此, 该院自医改以来, 2013年的门诊量已达到24.49万人次, 同比增加9.31%, 医院门诊收入增加了4.37%, 门诊均次费用119.50元, 同比下降5.17%。

我们通过建立线性回归模型预测该院未来几年的门诊人次, 将有利于该院的管理规划, 促使医院稳步健康地发展, 同时通过预测门诊收入, 合理控制并降低门诊均次费用, 提升医院服务水平和技能, 使老百姓得到实惠, 这不仅有效缓解了群众看病难、看病贵问题, 有力保障了人民群众的健康权益, 更是促进了社会和谐, 促进了医疗卫生事业的协调发展。

参考文献

[1]徐艳莉, 王黎.用最小二乘法预测医院住院人数[J].中国医院统计, 2008, (3) .

线性回归模型篇5

讨论约束条件下多元随机效应线性模型中回归系数和参数的.线性估计的可容许性,在二次损失函数下,给出了随机回归系数和参数的线性估计分别在齐次和非齐次线性估计类中是可容许估计的特征.

作者：张尚立伍长春 ZHANG Shang-li WU Chang-chun 作者单位：张尚立,ZHANG Shang-li(北京交通大学理学院,北京,100044)

伍长春,WU Chang-chun(嘉兴学院数学与信息科学学院,浙江,嘉兴,314001)

线性回归模型篇6

引言

在新的国际竞争环境下，提高企业的创新能力，是增强企业核心竞争力，推动产业结构优化升级，进而增强竞争力的关键。企业自身的潜在创新能力和创新活动能力是提高企业创新能力的根本力量，创新投入能力是提高企业创新能力的直接动力，创新环境能力是提高企业创新能力的有效制度安排。对于湖北省和企业这两个可调控的主体来说，推进改革开放创新的前提是能正确地评估企业创新能力。而对于工业企业来说，科技资源是极为有限的，使有限的创新投入达到创新产出最大化是每一个企业所期望达到的目标。因此，如何科学的规划和决策企业的创新投入，已成为政府部门和产业界重点关注的问题。所以，开发研制一个适用于各类型工业企业，具有智能型和通用性的工业企业投入产出模型是非常必要的。

近年来，人们对创新投入产出问题进行了研究分析。例如：文献用二元线性回归分析对八大支柱产业研发资源与产业发展进行了线性回归分析，构建了工业总产值与研发人力资源和研发财力资源之间的关系；胡浩、李子彪、余迎新。用柯布·道格拉斯生产函数演变模型建立了专利数与R&D经费和R&D人员之间的关系。本文利用文章中创建的一套新的评价工业企业创新能力指标体系，考虑综合影响创新产出的主要因素，如潜在创新能力、创新投入能力、创新活动能力和创新环境能力，应用多元非线性回归方法首先对各个指标进行了非线性回归，然后从整体上进行多元线性回归，从而建立了多元非线性回归模型，并以此模型进行了实证预测检验，检验结果表明：效果良好。

多元非线性回归模型的建立与检验

（一）多元非线性回归模型的建立

线性回归分析是最基本的分析方法，但是在许多实际问题中，回归函数往往是较复杂的非线性函数。目前多元线性可以实现，但是多元非线性还没有办法通过软件直接实现并且相关的研究很少。在我们研究的项目中所建立的指标体系比较复杂，由于三级指标较多，直接对三级指标建立多元线性回归模型可以实现，但是模型比较复杂，计算量比较大，不便于应用。另外，如果直接对三级指标建立多元非线性回归模型目前很难通过软件来实现。所以，我们首先采用文章中提出的结合主成分改进后的层次分析法，利用R软件对湖北省39个子行业28个指标的相关数据进行分析，得到了二级指标和三级指标之间的线性关系，通过降维处理把28个三级指标简化为5个二级指标B1（潜在创新能力）、B2（创新投入能力）、B3（创新活动能力）、B4（创新产出能力）和B5（创新环境能力），而且尽可能大的保留了原始数据的所包含的信息，并得到了各二级指标的得分（见表2-1）。

3、模型解释

（1）本文运用湖北省工业企业创新能力相关数据进行分析，由于我们很难确定该投入产出的周期是多长，所以我们研究2009年的投入对2010年产出的影响模型，其中B1、B2、B3和B5属于自变量，采用的是2009年的相关数据，而因变量是创新产出指标B4，采用的是2010年的相关数据。并用该模型通过2010年的创新投入数据对2011年创新产出的进行预测检验，预测平均误差率能控制在0.3% 以内，预测精度很高，说明模型良好。

（2）通过相关性分析我们发现B1与B2的相关系数为0.88，说明这两个变量相关程度相当高，这可以合理的解释我们所得到的模型是B4与B1、B3和B5的函数关系。

我们通过各种聚类分析都发现交通运输设备制造业属于独立的一类，为了建立一个更合理、更科学的模型，对于交通运输设备制造业这个异常样本应分类讨论。

结论与建议

通过对上述模型的解读，我们能够更科学的分析湖北省工业企业创新投入的四大因素与创新产出的关系，得到了一系列结论：

（1）从上述建立的回归模型中看到，影响创新产出的主要因素有：潜在创新能力、创新活动能力和创新环境能力，其中创新活动能力和创新环境能力指标值越大创新产出值越大，但是对于潜在创新能力，我们得到一个临界值（本案例得到的临界值为58.2），潜在创新能力值小于等于临界值时创新产出值随着潜在创新能力值的增加而增加，而潜在创新能力值大于临界值时创新产出值随着潜在创新能力值的增加而减小，这些都是符合实际的。因此一定范围内潜在自主創新能力的增加，会促进工业企业创新产出能力的提高。但是在所研究的38个子行业中，仅18.4%的行业达到临界值，绝大多数的行业还相差甚远。比如制造业中，有近80%的子行业未达到临界值，其中特别是皮革、毛皮、羽毛（绒）及其制品业、家具制造业、造纸及纸制品业、化学纤维制造业、废弃资源和废旧材料回收加工业等子行业与临界值相差较大，说明这些子行业在潜在创新能力方面有较大的发展空间。

（2）从模型中可以得出，潜在创新能力的投入较其他两个因素对创新产出能力提高的影响作用最大。其主要包括企业规模和人才因素两大部分，在短期内企业规模很难有较大的提高，所以企业应该把目光集中在人才因素方面，而R&D人员作为技术创新主体，直接反应潜在创新能力的大小，成为推动一个国家或地区自主创新核心力量。为此应该不断健全和完善研发人才的评价及激励制度，打造人才平台，强化研发人才培育及使用等方面的政策。

（3）从模型中可以看出，创新产出能力与创新活动能力是三次函数的关系，创新产出能力会随着创新活动能力的增加而提高。创新活动能力主要包括：引进技术经费支出、购买国内技术经费支出、技术改造经费支出和消化吸收经费支出。但是湖北省企业普遍消化吸收经费投入比例较低，所以我省各工业企业在创新中要因地制宜、因时制宜处理原始创新、集成创新和引进消化吸收再创新的关系。

结语

大多数学者在研究最优创新投入时讨论的是双自变量函数关系，或者是把企业的创新活动看成是简单追求创新直接利润最大化，忽略了较多对创新产出有显著影响的变量，比如创新环境、专利申请书、拥有发明专利数、发表科技论文数等。我们的数据来源于2009年至2011年《湖北科技统计年鉴》、《湖北省第二次R&D资源清查资料汇编》，所研究的指标体系涉及到湖北省工业企业39个子行业28个指标，数据细致全面，直接应用前人的方法很困难，所以，我们首先利用文章中提出的方法，通过降维处理把28个三级指标简化为5个二级指标，并尽可能大的保留了原始数据的所包含的信息，然后应用多元非线性回归方法对各个创新投入指标进行了非线性回归，再从整体上进行多元线性回归，从而建立了多元非线性回归模型。该模型通过了F检验和t检验，预测结果与实际数据的高吻合度也说明模型良好。通过对所建模型的解读，得到了湖北省工业企业创新能力投入产出的一系列结论和建议。特别地，提出了一种对潜在创新能力自测的思路：把所得临界值作为判别企业自身的潜在创新能力是否具有发展空间的参考依据，如果未能达到此临界值，那么该企业就应该加大潜在创新能力方面的投入力度，尤其是人才因素；如果达到或者超过此临界值，那么该企业在这方面就不用过度投入。

（作者单位：华中师范大学数学与统计学学院）

线性回归模型篇7

高校学费[1]的制定关系到各个家庭,是事关民生的重要教育经济问题[2],是一直研究的热点,然而如何科学、合理地分析高等教育与社会需求之间的态势,是解决高等学校合理收费问题的基础。影响高校学费的因素很多,如何去除影响较小的因素,最大限度保留影响大的因素,并很好地根据现有数据预测学费,是学者要重点研究的内容。

本文的主旨在于为相关部门的决策提供理论依据,在整个研究过程中数据量和合理数据挖掘方法的选择至关重要,起决定性作用。本文采用经典的数据处理软件MATLAB 7.11,首先运用主成分分析法,对这7个因素进行数据处理、分析、判定,得出对学费影响较大的几个因素,然后通过采用多元线性回归的方法建模,挖掘出地方高校学费与这些因素之间的导向关系。

2 分析手段

2.1 符号说明

ηi:表示第i个省对应的平均学费的估计值,;

xij:表示第i个省第j个因素的值,;

bj:与xij线性无关的参数变量;

εi:表示不可观测的随机变量;

yi:表示第i个省对应的学费值;

:表示第i个省学费的回归值;

:表示对bj参数的估计值;

σ:表示εi所符合的标准差值;

cov:协方差。

2.2 主成分分析法

主成分分析法的关键在于降维,本文从简化方差和协方差的结构来实现降维。确切讲,简化统计数据,减少次要因素,并揭示变量之间的相互关系。具体方法是将多个相关变量简化为少数几个不相关变量。这样处理使得每个主成分是初始变量的线性组合,所有的主成分之间相互正交,所以没有冗余信息,它们构成数据空间的正交基。从计算的面上观察,

主成分分析法采用以下条例顺序去进行:

(1)求出协方差矩阵A(由aij构成),,其中;

(2)求矩阵的特征值,并依次排序得;

(3)λi的正交化的特征向量为,同时满足:

c),并称为X的第k个变量的主成分;

d),称为第k个主成分的付出率;

(4)比较的大小,假设第个主成分的付出率最大,则依据判断ek向量中较小值,以此去掉与它们对应的x值,进而判定关键因素,以实现减少构成因素的个数的要求。

2.3 线性多元回归模型

2.3.1 建立线性回归方程

其中

现将式(1)用向量表示:

可得元线性回归模型:

设是对的估计值,得元线性回归方程:

2.3.2 回归效果检验

SR通过变量的变化来改变η,Se表现出η与之间所有因ε所引起的数据之间的变化,除线性关系之外,因此SR增大,Se减小,表明η与的线性关系是决定性的。

式中,的无偏估计。

F分布检验:

分布检验:

式中,Cij是矩阵的对角线上第个元素。

3 实验结果分析

3.1 主成分分析结果

通过MATLAB编程,将各因素作为输入量,实现了主成分分析,程序详见附录部分。由此得到7个不同成份的贡献率分别为:0.4422,0.2223,0.2094,0.0585,0.0400,0.0217,0.0055。

根据7个不同成份的贡献率,选出各成份累加达到85%以上的主要成份,所得地方高校学费分析的主成分载荷如表1所示。

从表中不难看出,非学事比和人均GDP这两个因素对学费的影响,与另外5个因素比较,作用要小的多,因此予以舍弃。

3.2 多元线性模型回归分析结果

应用SPSS统计软件对地方院校的线性多元模型回归分析如表2所示。

注:G1表示国家生均拨款;F1表示家庭收入;Y1表示预算内事业性教育经费拨款占教育经费收入比重;B1表示事业性经费支出占教育经费收入比重;S1表示生均教育经费支出。

从计算值表2中不难看出,作用于学生学费的关键因素为家庭收入,国家生均拨款,生均教育经费支出,预算内事业性教育经费拨款占教育经费收入比重,学费的估计式如式(11)所示:

生均教育经费支出,家庭收入,国家生均拨款,事业性经费支出占教育经费收入比重与学费的线性关系是不是正确,通过残差的直方图来判断,如图1所示。

由图1可以看出,残差大致服从正态分布,符合线性回归分析的基本假设,从而可认为此线性模型是合理的。

4 总结

本文首先通过主成分分析法,减少了影响因素,降低维度,减少了运算,而且经过多元线性回归能够较准确的对数据进行拟合,可以准确的考虑各因素对学费的影响程度。作用于地方院校学费水平的五个因素中,作用力较大的是家庭收入、国家生均拨款和生均教育经费三项,其中家庭收入的影响最大,生均国家生均拨款和教育经费支出次之。事业性经费支出占教育经费收入比重对地方院校的学费水平的影响较预算内事业性教育经费拨款占教育经费收入比重对地方院校学费水平的影响更为显著,而后者对学费的影响在较发达地区尤为显著。

参考文献

[1]王丽颖.高等教育学费标准探讨.白城师范学院学报.2013(6),27(3):13-16.WANG Li-ying.Discussion of College Tuition.Journal of Baicheng Normal University,2013(6),27(3):13-16.

[2]王莹.基于SPSS的南京地区高校学费水平与影响因素分析.电子测试,2013,12:137-138.WANG Ying.Analysis of University Tuition Level and Influencing Factors in Nanjing Area Based on SPSS.ELECTRONIC TEST,2013,12:137-138.

[3]曾奎,何丽芳,杨晓伟.基于多线性主成分分析的支持高阶张量机.南京大学学报(自然科学),2014,50(2):219-227.ZENG Kui,HE Ling-fang,YANG Xiao-wei.Multilinear principle component analysis based support higherorder tensor machine.Journal of Nanjing University,2014,50(2):219-227.

[4]赵海峰,于雪敏.基于L1范数主成分分析的颅脑图像恢复.计算机技术与发展,2014,24(1):231-234.ZHAO Hai-feng,YU Xue-min.Cerebral Image Rocovery Based on L1-norm Principal Component Analysis.Computer technology and development,2014,24(1):231-234.

线性回归模型篇8

关键词：线性回归模型,医疗设备,最小二乘法模型,预测,故障

0 引言

随着现代医学科技的不断发展,大量的医疗设备被广泛应用于临床诊断和治疗工作中。而随着医院设备总值的增长,医疗设备的故障台次也在逐年增加。如何提高在用医疗设备的使用率和完好率,减少故障的发生,使其能够始终保持最佳的技术状态,延长使用寿命,保障临床应用,降低运行成本,是我们面临的一大课题。通过对医疗设备发生故障的趋势进行分析预测,从而得出其发展变化的规律,进一步为医学工程人员合理安排维修计划、制订设备保障预案[1]提供科学依据。

1 数据来源与方法

1.1 数据来源

某三甲医院医学工程科2005—2013 年医疗设备维修台账。

1.2 统计方法

以时间为横轴(X),年度医疗设备维修量为纵轴(Y),在直角坐标系中作散点图,观察医疗设备维修量与时间的线性关系。如果存在线性关系,用最小二乘法建立回归模型。

统计学处理:计数资料用t检验[2],P<0.05 为差异具有统计学意义,P<0.01 为差异具有高度统计学意义。

2 结果与分析

该医院2005—2013 年医疗设备维修量见表1、如图1 所示。散点图显示,随着时间的向后推移医疗设备的维修量在增长,医疗设备维修量与时间可基本认为存在线性关系,故用最小二乘法建立回归模型[3,4]。

2.1 建立直线回归方程

设直线回归方程一般表达式为,则根据最小二乘法,有:

其中,X为时间,Y为年度维修量。

根据表1 数据计算得:lXX=42,lYY=2 274 479.88,lXY=29 358.5,。进一步得到参数a=1 962.335,b=699.01。将参数a、b值代入上面的一般表达式,得直线回归方程:。

2.2 回归系数的假设检验

计算回归系数的标准误(Sb),进行t检验:

其中,SYX为回归系数的标准差;n为样本量,即2005年到2012 年共8 a。查t值界值表,t0.01(6)= 3.707,现t>t0.01,所以P<0.01。表明医疗设备维修量与时间确实存在直线关系,以时间解释医疗设备维修量的变化是合适的。

2.3对2013年度医疗设备维修量进行点预测和区间预测并验证

将年度的时间序号X=9 代入直线回归方程,预测2013 年医疗设备维修量为8 253 台次。

按一定概率(1-α)计算点预测值的区间估计:

其中,是预测值的标准误,X0是进行点预测的时间。

令置信水平(1-α)=0.95,α=0.05,按v=n-2=6,查t值界值表,t0.05(6)=2.447。,按照8 253±2.447 ×685.16 估计医疗设备维修量预测值波动区间为6 576~9 930。实际2013 年度设备维修台次为7 873,符合预测值。

2.4 对2014 年度医疗设备维修量进行点预测和区间预测

将年度的时间序号X=10 代入直线回归方程,预测2014 年医疗设备维修量为8 952 台次。

仍然按照相同的置信水平,计算得SY赞(2014)=734.16,按照8 952± 2.447×734.16 估计2014 年度医疗设备维修量预测值波动区间为7 156~10 748。

3 讨论

(1)医疗设备的维修量与多种因素有关,可能引起维修量变化的原因主要包括:1设备正常使用故障,故障率与开机率成正比关系;2设备磨合期故障,故障率与操作者操作水平及设备本身相关;3由使用环境变化引发的设备故障[5];4其他原因引发的故障[6]。

(2)该医院2005—2013 年医疗设备维修量呈逐年增加趋势,前几年增速较缓,2009—2012 年的4 a间增速较快,导致2013 年维修量预测值比实际值要高,因此2014 年预测值在置信区间内取值时应适当取中间偏低的数值作为参考。

(3)2009—2012 年医疗设备维修量增速较快,其原因主要包括:12009 年医院新建门急诊综合楼,增加床位约40%,集中引进了一批医疗设备,且新引进设备处于磨合期[7],故2010 年维修台次有明显增加。2012 年随着新建门、急诊综合楼医疗设备需求的逐步释放,预计2013 年后步入平稳增长期。22009 年北京市开始启动医保实时结算(参见《北京市社会保障卡就医实施结算实施意见》),看病不需要垫付全额费用,而直接由医保按比例实时报销,也触发了一部分特定人群的诊疗需求,增加了医疗设备的开机率和故障率。

(4)自2009 年起,医院医疗设备不断增加,设备使用率也在不断走高,随之而来的设备维护工作量几年间(2009—2013)增加了91%。设备保障部门应当采取相应措施,提前应对,如适当增加工程人员数量、合理调配工作时间等提高工作效率,以确保设备开机率。随着医疗保障水平的普遍提高,预计医疗设备的使用率还会进一步提高,且随着设备的老化,相应的故障率也会提高[8,9]。相关部门应当根据设备故障的增长趋势,结合现有设备状况,科学制订医院医疗设备保障中长期发展规划,以确保满足医院整体发展的需求。

参考文献

[1]范亚军,余巧生.浅淡医疗设备预防性维修的现实做法[J].医疗卫生装备,2015,36(1):155,157.

[2]董时富.生物统计学[M].北京:科学出版社,2002.

[3]同济大学数学教研室.高等数学:下册[M].4版.北京:高等教育出版社,1996:78-84.

[4]黄光谷.高等数学(同济四版下册)考点精析与习题全解[M].北京:光明日报出版社,1999:58-60.

[5]张昆峰,王忠明,耿西亮.季节变换对医疗设备故障率的影响[J].医疗卫生装备,2011,32(9):129,131.

[6]李振华,仝青英,范铁锤,等.医疗设备故障率与电能质量关系的研究[J].武警医学,2008,19(8):710-712.

[7]王科兵,刘雅克,刘小冬,等.医疗设备故障率高的原因分析与对策[J].医疗卫生装备,2012,33(2):111-112.

[8]王天鹰,顾伟,王莉杨.基于闭环管理思想设计的医疗设备维修管理系统[J].生物医学工程学进展,2014,35(1):40-42.

线性回归模型篇9

广西地处低纬度地区, 雨、热资源丰富, 且两热同季。广西年降雨量在1, 000毫米～2, 800毫米之间。在4月～9月间降雨量占年降雨量的75%, 雨季恰好与热季重叠。雨热同季, 较有利于农业生产。

2 广西省粮食总产量的预测模型

根据各影响因素和粮食总产量的数据, 来分析它们之间的关系。许多学者对它们的关系进行了深入的研究, 本文就广西省的粮食单产、降水量、种植面积三个因素与粮食总产量的数据利用多元线性回归模型来分析对粮食总产量的影响。

现在, 我们利用回归分析的方法, 设定这些变量之间有统计的线性关系, 建立多元线性回归模型为:y=b0+b1x1+b2x2+b3x3

x1表示粮食单产, x2表示种植面积, x3表示降水量, y表示粮食总产量, b0为常数项, bi为参数xi回归系数, 表示在其他所有自变量不变的情况下, 自变量xi每变化一个单位, 引起因变量y平均变化的数值。

利用SPSS对数据进行统计分析, 分析方法采用EN-TER方法。自变量选择粮食产量, 因变量选择粮食单产, 种植面积, 年平均降水量。

从方差分析的结果可以看出, 显著性水平为0.020, 该模型具有统计学意义。

从分析的结果可以看出, 常量b0为-517.757, 粮食单产x1的系数为0.158, 种植面积x的系数为0.382, 降水量x3的系数为-0.001。得出粮食产量与种植面积, 粮食单产, 降水量的模型:y=-517.759+0.158x1+0.382x2-0.001x3

从模型可以看出来, 对粮食产量贡献最为明显的因子是种植面积, 其次是单位面积产量。随着可耕种土地面积的不断减少, 种植面积已经成为影响粮食产量了的最为重要的因子。同时单位面积产量的影响也是十分重要。对于年平均降水量, 由于广西地处热带亚热带地区, 雨水充沛, 尤其是7月份, 降水成为一个对粮食产量影响不是特别明显的因子, 并且可能由于降水的过多而导致总产量的下降。

通过对1995-2007年种植面积、单位粮食产量、降水量的统计方程, 可以预测到2010年, 广西省粮食单产y=43.243×2010-82274=4644.43, 种植面积y=-29.865×2010+63355=3326.35, 降水量y=-193.76×2010+403039=13581.4, 进而利用广西粮食产量预测模型对广西粮食产量进行预测。预计到2010年, 广西的粮食产量为

从对1995-2007年数据的整体分析来看, 该数据是合理的。本文所采用的统计模型对未来的预测具有合理性。

3 结语

从对广西产量的影响因子分析来看, 广西的耕地面积成逐年下降趋势, 为了粮食产量的波动与耕地面积的关系十分密切, 为了保证粮食产量, 广西省必须保证耕地的面积同时提高单位耕地面积的产量。

摘要：广西是一个农业大省, 粮食产量在全国占有的比重相当大。影响广西粮食产量的因素相当的多, 通过对影响粮食产量的各种因素的分析比较, 从中选取对粮食产量影响相当大的种植面积, 单位种植面积产量, 年平均降水量这个三个因素进行线性回归分析, 得出广西粮食产量的线性回归模型, 根据模型对广西粮食产量进行预测。

关键词：广西粮食产量,线性回归,粮食产量预测

参考文献

[1]张淑英.中国农业统计资料汇编[P].

约束线性回归模型的一种有偏估计篇10

考虑模型

式 (1) 中, y是n×1观测向量, X是n×p设计矩阵且r (X) =p, β为p×1参数向量e为n×1随机误差向量。众所周知, 当X的列向量存在近似的线性关系时, 模型存在复共线性;称其为病态, 见文献[1], 为克服这一缺点, 统计学家们相继提出了许多线性有偏估计类如文献[2,3]等, 作为对参数β的改进, 在一定条件下都优于原来的估计。本文也在文献[4]的基础上, 提出了一个新的估计, 并给出了其在均方误差阵下优于约束最小二乘估计的条件。

1估计方法的提出

考虑如下带线性等式约束的线性模型

${\begin{cases} y = X β + e \\ E (e) = 0, C o v (e) = σ^{2} V \\ R β = 0 \end{cases}$

(2)

式 (2) 中, V>0, y是n×1观测向量, X是n×p设计矩阵r (X) =p, β为p×1参数向量, e为n×1随机误差向量, R为q×p的矩阵, 且r (R) =q。模型 (1) 在无约束条件下, 参数的最小二乘估计为β*= (X′V-1X) -1X′V-1y。在约束条件Rβ=0下, 通过条件极值下

$\min_{β} {(y - X β)^{'} V^{- 1} (y - X β) | R β = ∥ 0}$ 。

得到约束最小二乘估计为β*R=β*- (X′V-1X) -1R′ [ R (X′V-1X) -1R′]-1Rβ*。引入如下记号, S=X′V-1X, M=S-1-S-1R′ (RS-1R′) -1RS-1, 则广义最小二乘估计β*可以简记为:β*=S-1X′V-1y, 则约束最小二乘估计β*R可以简记为β*R =MX′V-1y。在约束线性回归模型下, 正如文献[4]中所言, 回归系数β的估计β*的均方误差在一定条件下会变得很大, 因此效果也不好, 本文给出一种估计如下:

β*R (k) = (kM+I) -1β*R。

其中k≥0 (称为条件岭参数) , 当k取不同的值时, 可以得到不同的估计。尤其是当k=0时, 即是约束最小二乘估计。见文献[3]

本文给出β*R (k) 在均方误差阵下小于约束最小二乘估计β*R的均方误差的k的范围。

2结果及证明

首先引入模型式 (2) 的典则形式

${\begin{cases} y = z α + e \\ E (e) = 0, C o v (e) = σ^{2} V \\ Ρ α = 0 。 \end{cases}$

其中, V>0, Q为标准正交矩阵, λi为V的特征值, 满足:

Q′X′XQΛ=diag (λ1, λ2, ..., λp) , Z=XQ, P=RQ, α=Q′β, 显然, α*={ (Z′V-1Z) -1 (Z′V-1Z) -1P′[P (Z′V-1Z) -1P′]-1 (Z′V-1Z) -1}Z′V-1y=ΛZ′V-1y, α* (k) = (Λ+kI) -1α*有β*R=Qα*, β*R (k) =Qα* (k) ,

MSE (β*R) =MSE (α*) ,

MSE (β*R (k) ) =MSEα* (k) 。

性质1β*R (k) 是β的一种压缩有偏估计。

证明β*R (k) = (kM+I) -1β*R=Q (kM+I) -1Q′β*R。于是有

‖β*R (k) ‖2=‖Q (kM+I) -1Q′β*R‖2=‖ (kM+I) -1Q′β*R‖2<‖Q′β*R‖2=‖β*R‖2。

所以, β*R (k) 是把条件估计β*R向原点压缩得到的。又由于

E (β*R (k) ) = E ( (kM+I) -1β*R) = (kM+I) -1β≠β,

则 β*R (k) 是β 的一种压缩有偏估计。

性质2β*R (k) ∈B≜{β:Rβ=0}。

证明容易验证 (kM+I) -1M=M (kM+I) -1且RM=0, 故

Rβ*R (k) =R (kM+I) -1MX′V-1y=RM (kM+

I) -1X′V-1y=0,

则 β*R (k) ∈B。

性质得证。

性质3 在约束线性模型 (2) 下, 令

α* (k) =Q′β*R (k) = (α*1 (k) , α*2 (k) , ..., α*p (k) ) ′;

则 α*p-q+1 (k) =α*p-q+2 (k) =...=α*p (k) =0。

证明由β*的定义得

α* (k) =Q′β* (k) =Q′MX′y=Q′MQQ′X′y=ΛQ′X′y。

由Λ的定义知

α*p-q+1 (k) =α*p-q+2 (k) =...=α*p (k) =0。

性质4 在Lowner偏序意义下, 条件岭型估计β*R (k) 的协方差一致优于约束最小二乘估计β*R 的协方差, 即对任意k≥0,

D=Cov (β*R) -Cov (β*R (k) ) ≥0。

证明因为

Cov (β*R) =Cov (MX′V-1y) =σ2MX′V-1V-1XV′, Cov (β*R (k) ) =Cov ( (kM+I) -1β*R) = (kM+I) -1×

Cov (β*R) (kM+I) -1=σ2 (kM+

I) -1MX′V-1V-1XM′ (kM+I) -1;

Cov (β*R) -Cov (β*R (k) ) =

σ2MX′V-1V-1XM′-σ2 (kM+I) -1- (kM+I) -1=

σ2 (kM+I) -1[ (kM+I) MX′V-1V-1XM′-MX′V-1×

V-1XM′] (kM+I) -1=σ2 (kM+I) -1[k2M2X′V-1×

V-1XM2+kM2X′V-1V-1XM′+

kMX′V-1V-1XM2] (kM+I) -1。

因为V>0且k≥0, k2M2X′V-1V-1XM2>0。

MX′V-1V-1XM′>0。

又由M>0, 则kM2X′V-1V-1XM′>0,

MX′V-1V-1XM2>0。

k2M2X′V-1V-1XM2+ kM2X′V-1V-1XM′+kMX′V-1V-1XM2]×

(kM+I) -1>0。

故 Cov (β*R (k) ) <Cov (β*R) 性质得证。

定理1

当k 满足下式。

$k Μ + 2 Ι - \frac{k}{σ^{2}} β β^{'} \geq 0$ 。

则有

MSEM (β*R) -MSEM (β*R (k) ) >0。

MSEM (β*R (k) ) =Cov (β*R (k) ) +E ( (β*R (k) -β) ×

σ2 (kM+I) -1MX′V-1V-1XM′ (kM+

I) -1+[ (kM+I) -1β-β][ (kM+

I) -1β-β]′=σ2 (kM+I) -1M (kM+

I) -1-σ2 (kM+I) -1 (kM+I) -1+

k2 (kM+I) -1Mββ′M (kM+I) -1 ×

σ2 (kM+I) -1MX′V-1V-1XM′ (kM+

I) -1+k2 (kM+I) -1Mββ′M (kM+I) -1。

MSEM (β*R) =Cov (β*R) =σ2MX′V-1V-1XM′。

MSEM (β*R) -MSEM (β*R (k) ) =σ2M-σ2 (kM+I) -1×

M (kM+I) -1σ2 (kM+

I) -1-k2 (kM+I) -1×

Mββ′M (kM+I) -1=

σ2 (kM+I) -1。

$[(k Μ + Ι)^{} Μ (k Μ + Ι) - Μ - \frac{k^{2}}{σ^{2}} Μ β β^{'} Μ^{}] \times$

$\begin{array}{l} Μ S E Μ (β_{R}^{*}) - Μ S E Μ (β_{R}^{*} (k)) \geq 0 \Leftrightarrow \\ (k Μ + Ι) Μ (k Μ + Ι) - Μ - \frac{k^{2}}{σ^{2}} Μ β β^{'} Μ \geq 0 \Leftrightarrow \\ k Μ^{3} + 2 Μ^{2} - \frac{k}{σ^{2}} Μ β β^{'} Μ \geq 0 \Leftrightarrow \\ k Μ + 2 Ι - \frac{k}{σ^{2}} β β^{'} \geq 0 。 \end{array}$

定理证毕。

参考文献

[1]王松桂.线性模型引论.北京科学出版社.2004

[2]史建红.约束线性回归模型回归系数的条件岭型估计.山西师范大学学报 (自然科学版) 2001;15 (4) :11—16

[3]Hoerl AE, Kennard R W.Ridge regression:biased estimation for non-orthogonal problems.Technometrics, 1970;12:55—67

线性回归模型篇11

关键词：多元线性回归；模型；EVIEWS；软件；工具

中图分类号：G632 文献标识码：B 文章编号：1002-7661（2014）14-327-02

一、与EVIEWS相关的多元线性回归模型的介绍

在理论学习中，学者们可能会为了操作的便捷而采用理性化的模型，这里理想化的模型是指单纯地将所要求的问题作为中心，忽略了其他任何可能存在的外界因素，纯粹地从理论角度解释问题。而在现实问题中，影响整个大局的因素是多样的，每一个因素都不可忽略。考虑到因变量的因子多样化，就要采用多元线性回归模型，使得整体的关系清晰，便于后期的计算统计。

将多元线性回归模型用数学式表达，则可以表示为：

Yi=β0+β2X2+β3X3+β4X4+•••+ε，

也可以笼统地写为：y=Xβ+ε。

在这个数学式中，X代表的是设计矩阵，由实践中实际测得的X的数值所构成；β代表的是参数变量，不同的待测物所具备的参数不同，因此β由实际操作中所需要估计的对象的参数所构成；ε在式中代表的是向量，表示实际操作中的随机误差。

二、建立EVIEWS相关的多元线性回归模型的过程介绍

1、利用所得数据创建图表

建模过程需要相关的测量数据的参与，为了更好的展现EVIEWS软件在数据操纵上的优越性，本文采用部分居民日常生活消费调查数据作为基础进行回归分析，这一数据内容简单，且数据和实际生活联系巨大，是一个贴合日常数据的操作类型。在得到数据后，根据相关规则进行归纳整理并创建相关的影响因子：针对该商品的花销费用（y），商品所标明的价格（x1），家庭平均月收入（x2）：

部分居民日常生活消费调查

序号商品所标明的价格x1家庭平均月收入x2针对该商品的花销费用y

115.264500519.20

222.517826566.98

330.059928534.88

435.7310680698.00

535.9912000653.66

638.1012896677.35

739.4613453655.24

849.6716400799.00

955.3218920745.66

1056.8519804726.92

2、利用步骤1的数据图表做出散点图

由于本例子中，变量间的关联性密切，因此可以用绘制散点图的方法来表现自变量和因变量的相关因子间是否有显著的线性关系。由于这个缘故，当所有的数据完备后，就可以根据表中的相关数据画出散点图，根据本例子中的和针对该商品的花销费用有关y相关的因子有商品所标明的价格x1和家庭平均月收入x2两种，由此画出的散点图也因此包含两个，具体操作过程为：将序列y和第一个自变量x1组成一个相关联的群，打开这个群的对话联系界面，在界面上进行点击菜单View/Group/Scatter的操作。这个时候可供选择的图表类型很多，主要有三种，即简单的图表（simple scatter）,带回归线的图表（scatter with regression）和带折现的三点图表（scatter with nearest neighbor fit和scatter with kernel fit）。这三种方式得到散点图的过程和方法是不同的，但是最终获得的图像都是相同的，结果如下所示：

由着两个图表可以看出，商品所标明的价格和该类商品的花销费用是成正比的，商品所标明的价格越高，对于这类商品的花销也就越多；而家庭的月收入水平也对该商品的影响巨大，也是成正比关系，家庭的平均月收入越高，该类商品的花销上就越大。这两个图表说明自变量因子商品所标明的价格x1和家庭平均月收入x2和因变量因子针对该商品的花销费用y成线性关系。

3、在变量间成线性关系的前提下建立模型

当散点图中的各个便利之间有着明显的线性关系时，就可以根据这些数据通过估测参数的方式来建立模型。建立模型的方式是多样的，一般采用的有两种快捷菜单执行的方式：一是在界面的主菜单上点击objects/new objects这一命令，执行后就会弹出新的界面，在这个全新的界面上择定目标equation，同时为其重新取名，最后点击ok按钮即可完成。另一种方式点击的命令和方式一不同，这一方式在界面上点击quick/estimate equation命令，然后根据弹出的窗口进一步进行操作，最后得出结果。两者的操作方式是截然不同的，但是原理都类似，主要结合EVIEWS软件的灵活性和指导性，一步步将数据输入并且得到最后的结果。由于操作的数据是相同的，因此最终的结果也是一样的。

在相关的操作完成后就可以得到和上述的数据有关的参数，尽管为预估形式，其数值仍然可以作为线性关系的指标，在后期的预测中可以将其中的预测结果和实际操作最终的数值再进行比对，得到更加合理的结果，为走向的预测得到更准确的数据。根据这一手段，本数据中的参数如下图所示：根据样本的相关阵可以得出，针对该商品的花销费用与家庭的平均月收入和商品所表明的价格的相关系数十分密切，分别高达0.8967304和0.9377928，这也证明了和上图的散点图中同样的道理，即家庭平均月收入水平、商品所标明的价格和针对该商品的花销费用都是成线性相关的，他们的正比系数十分高。由此，可以考虑在此基础上创建二元线性回归模型。

4、在确定数据的高度线性关系的前提下创建OLS图表

为了得到OLS图表，可以对数据进行估计，一般采用的是普通的最小二乘估计方法，可以得到如下所示的图表：

5、当OLS图表创建成功后，可以通过图表中的数值得到估算方程，根据前面的公式，带入相关数据可以得出：

Y=626.5093-9.790570x1+0.28618x2

(40.13010)(3.197843)(0.05838)

t=(15.611195) （-3.061617）（4.902030）

R＾2=0.902218r＾2=0.874281

6、根据相关数据进行预测

在之前建立多元线性回归模型后，就需要进行观测，而预测相关的趋势和发展也是建立模型的目的之一。所创立的多元线性回归模型是需要判断其优劣程度的，预测的结果的准确与否正是判断模型是否符合标准的方式之一。针对不同的模型，原理仍然是类似的，可以根据创建的模型直接预估各个对象的拟合状况，这一过程仍然可以在界面上得到实现。具体的操作过程是：在界面上点击procs/forecast按键，或者直接在菜单的工具栏一项中选择forecast命令，选择完成后，界面会弹出一个新的对话框，然后可以生成一个名字叫做原自变量名加上f的全新序列形式，如果觉得这类名字不符合要求，操作者也一自行更换名称，方便快捷。除了会生成一个新的序列，在操作过程中，还会产生一个预测图，在预测图中将会和实际操作中的数值进行比较，从而得出该建立的模型的好坏与否。

运用EVIEWS的全部优势都在简单的例子中展现出来，一切数据都由EVIEWS软件操作完成，简便快捷，为繁重的人力计算减轻了压力也提高了准确程度。EVIEWS在实际运用中，避免了繁杂的操作步骤，内容人性化，让初学者在操作中也可以得心应手。它在计量经济中的作用是巨大的，方便了许多学者的操作研究，为学术界的发展做出了贡献。EVIEWS的运用十分广泛，对于经济走势的判断也影响着实际过程中的操作运营，简单的界面展示让一切过程不再枯燥无力，变得形象化而易读化。

参考文献：

[1] 易丹辉.数据分析与EVIEWS应用[M].北京:中国统计出版社,2002.

[2] 宁宝权甄晓云占鹤彪.灌木植物在高等级高速公路边坡防护中的重要作用[J].交通建设与管理,2008(10):73-75.

[3] 宁宝权《六盘水师范高等专科学校学报》,2011:3

[4] 陈俊金陈月娜《中国集体经济》,2009:24

[5] 陈祺琪李君梁保松.河南农业大学学报ISTIC PKU,2012:46(4)

[6] 毛敏芳魏晓平.《沿海企业与科技》,2006:03

线性回归模型篇12

径流中长期预报一直以来是人们关注的重大课题, 在气候变化和人类活动共同的影响下, 径流的变化更加复杂化, 对其未来的精确描述十分困难。传统的径流预测方法主要有两大类:成因预测法和统计预测法[1]。成因预测法[2]多是基于研究大气环流、长期天气过程的演变规律和流域下垫面物理状况的确定性预测模型, 是径流预测研究的一个重要发展方向, 但离实用尚有较大差距。统计预测法[3]是从大量历史资料中应用数理统计的理论和方法, 寻找预报对象和预报因子之间的统计规律和关系或水文要素自身历史变化的统计规律, 建立预报模式进行预报, 常用的有时间序列法[4]、多元回归分析法[5]等。时间序列法具有原始资料搜集简便、预见期长等优点, 但它的缺点在于不能充分利用对预测量具有很大影响的气候信息和其他因素, 导致了预报的不确定性和数据的不稳定性。回归分析法虽然充分考虑了预测量对预测因子的依赖关系, 但它忽略了预测量自身的演变规律。本文将自回归和多元回归有机结合起来, 提出了一种非线性混合回归模型, 利用神经网络进行模型求解, 并应用于戴营站的年径流预报中。这种非线性混合回归模型既考虑了预测量自身演变的客观规律, 又利用了预测量对预测因子的依赖关系, 且充分考虑了水文过程的非线性关系, 模型具有一定的理论基础, 是一种值得研究的实用方法。

1 混合回归模型

1.1 多元回归模型

在影响中长期径流的众多相关因素中, 可以通过敏感性分析和弹性分析, 选择影响显著的因素, 建立多元线性回归预测模型 (Multi-Regression Model, MR) 。

设x1, x2, …, xp是p (p>1) 个线性无关的可控变量, y是表示径流量的因变量, 若它们之间的关系为:

$y = b_{0} + b_{1} x_{1} + \dots + b_{p} x_{p} + ε, ε ~ Ν (0, σ^{2}) (1)$

则称为p元线性回归模型。式 (1) 中, b0, b1, …, bp, σ2都是与x1, x2, …, xp无关的未知参数, ε是随机误差。

自回归模型是在回归模型的基础上推广、导出的。

1.2 自回归模型

对于时间序列{yt}, 如果满足:

$y_{t} = a_{0} + a_{1} y_{t - 1} + a_{2} y_{t - 2} + \dots + a_{p} y_{t - p} + ε_{t} (2)$

就称模型 (2) 为p阶自回归模型 (Auto Regression Model, AR) , 或者p阶自回归。式 (2) 中, a0, a1, a2, …, ap为自回归系数, ε1为模型相应的白噪声序列。

1.3 非线性混合回归模型

回归模型和自回归模型是统计模型中的两种最基本的模型, 尽管对许多随机现象, 用这两种模型都给予了很好的描述, 但对于复杂的水文现象, 单纯地使用某种模型去描述就表现出不足, 弥补单一模型不足的一个自然想法就是将两者结合起来就形成混合回归模型。文献[6]以年径流作为自回归因子, 降水、气温和用水作为回归因子, 建立了年径流预测的线性混合回归模型, 对黄河三门峡站年径流进行预测。对于理想的多输入、单输出系统, 设其输入为{x1}、{x2}、…、{x6}, 经过系统的作用后, 输出为{y}, 则线性混合回归模型为:

$\begin{array}{l} y_{t} = a_{0}^{(0)} + a_{1}^{(0)} y_{t - 1} + a_{2}^{(0)} y_{t - 2} + \dots + a_{q_{0}}^{(0)} y_{t - q_{0}} + \\ a_{1}^{(1)} x_{1, t} + a_{2}^{(1)} x_{1, t - 1} + \dots + a_{q_{1}}^{(1)} x_{1, t - q_{1} + 1} + \dots + \\ a_{1}^{(s)} x_{s, t} + a_{2}^{(2)} x_{s, t - 1} + \dots + a_{q_{m}}^{(s)} x_{s, t - q_{s} + 1} + ε_{t} (3) \end{array}$

式中:yt为系统在t时刻的输出;a (0) , a (1) , …, a (s) 为系统的响应函数, 也称回归系数;q0, q1, …, qs为模型的阶数, 其中q0为自回归阶数, q1, …, qs为回归阶数;εt为模型的残差。

在全球气候变暖的背景下, 降水、气温等气象要素的变化引起径流的变化, 但是径流对降水、气温变化的响应并不是呈现简单的线性关系。刘昌明[7]通过大量坡面降雨试验从微观尺度上揭示了径流率随降雨强度的非线性变化现象。同时, 从宏观方面根据流域降雨径流观测资料, 采用流域水文模型的方法, 进行径流量对降雨和气温变化的响应的模拟分析, 同样证实年径流与年降水与年气温之间关系是非线性的, 影响径流变化的各因素之间是一种强耦合的非线性关系。

径流变化的影响因素与径流量之间是一个非线性映射问题, 因此, 为反应输入变量与输出变量之间的相关关系, 构造如下非线性混合回归模型:

$\begin{array}{l} y_{t} = f (y_{t - 1} ‚ \dots, y_{t - q_{0} + 1}, x_{1, t}, \dots, x_{1, t - q_{1} + 1}, x_{2, t}, \dots, \\ x_{2, t - q_{2} + 1}, \dots, x_{s, t}, \dots, x_{s, t - q_{s} + 1}) + ε_{t} (4) \end{array}$

式中:f (·) 称为非线性混合回归函数, 其中模型的阶数q0, q1, …, qs为待估计参数, q0为自回归阶数, q1, …, qs为回归阶数。

2 非线性混合回归模型的参数确定及预测效果分析

2.1 模型建立

径流形成过程是多种因素相互作用、相互联系的复杂的自然现象, 不同时间尺度下, 径流的变化受到的影响因子不一样。但总的来说, 在不考虑人类活动的情况下, 影响河流天然径流量变化的主要因素为气温、降水变化, 主要由于全球气候变化改变了与水循环密切相关的气候因子等;另外, 由于年径流的相依性, 年径流量自身也存在相关关系。因此, 流域水文系统可以看作是一个多 (因素) 输入、单 (径流) 输出系统。

在本文研究中, 输入因子为以往的年径流量{Qt-1, Qt-2, …, Qt-n}、降水量{Pt, Pt-1, …, Pt-n}和气温{Tt, Tt-1, …, Tt-n}, 输出因子为年径流量{Qt}, 由于径流变化的影响因素与径流量之间是一个非线性映射问题, 因此, 为反应输入变量与输出变量之间的相关关系, 构造如下非线性混合回归模型:

$\begin{array}{l} Q_{t} = f (Q_{t - 1}, \dots, Q_{t - q_{0} + 1}, Ρ_{1, t}, \dots, \\ Ρ_{1, t - q_{1} + 1}, Τ_{2, t}, \dots, Τ_{2, t - q_{2} + 1}) + ε_{t} (5) \end{array}$

式中:f (·) 为非线性函数, q0, q1, q2是模型的阶数;εt为模型的残差。

上式 (5) 即为非线性混合回归系统水文模型的结构。

2.2 模型定阶

根据上述模型结构, 采用潮河流域戴营水文站 (1956-2000年) 的降水量、年气温和修正后的年径流来建立预测模型, 其中1956-1992年前37年的数据作为训练样本, 1993-2000年后8年作为预测检验样本。

以线性混合回归模型的阶数来确定非线性混合回归模型的阶数。线性混合回归模型的阶数确定和参数识别方法参见文献[7]。参数的估算和阶数的确定是相互联系、互为前提的, 可通过Matlab编程一次实现。计算得到自回归阶数为2, 回归阶数为2的线性混合回归预测模型如下:

$\begin{array}{l} Q_{t} = - 0.014 + 0.218 Q_{t - 1} - 0.049 Q_{t - 2} + \\ 0.667 Ρ_{t} + 0.081 Ρ_{t - 1} - 0.074 Τ_{t} + 0.052 Τ_{t - 1} (6) \end{array}$

因此, 影响未来径流的因子包括当年的降水、气温以及前期的降水、气温和径流量, 共有6个因子作为输入。

2.3 参数估计

根据Kolmogorov定理, 任何一个时间序列都可以看成是一个由非线性机制确定的输入输出系统的近似, 由于神经网络具有通过学习逼近任意非线性映射的能力, 故采用神经网络强大的非线性映射能力来实现式 (5) 的非线性函数f (·) 。

设p个样本集合{ (x (t) , y (t) ) |x∈Rm, y∈Rn, t=1, 2, …, p}, 式中R为映射空间。对于p个样本集合的离散空间序列, 神经网络可以完成从输入到输出的高度非线性映射, 即可以找到某种映射使得f:Rm→Rn。采用输入节点为m, 输出节点为n, 隐层节点为u的3层神经网络来实现f, 网络的输入与输出之间的关系如下:

$\begin{array}{l} \hat{y}_{k} (t) = f (\sum_{j = 1}^{u} v_{j k} Φ [\sum_{i = 1}^{m} w_{i j} x_{i} (t) + θ_{j}] + γ_{k}) (7) \\ f (x) = \frac{1}{1 + e^{- x}} \end{array}$

式中:f为sigmoid函数;Φ为输入层至隐含层的激励函数;k=1, 2, …, n;t=1, 2, …, p;xi (t) 为t时刻网络的输入; $\hat{y}$ k (t) 为t时刻网络的输出;wij为输入层i节点到隐层j节点的权值;vjk为隐层j节点到输出层k节点的权值;θj为隐层j节点处的阈值;γk为输出层k节点处的阈值。

设网络总的误差小于ε, 即 $E = \frac{1}{2} \sum_{t = 1}^{p} \sum_{k = 1}^{n} [y_{k} (t) - \hat{y}_{k} (t)]^{2} \leq ε$ , 利用优化算法求解, 如果E小于设定的误差限值ε, 则完成网络训练。

根据kolmogorov定理[8], 确定非线性混合回归预测模型的BP网络隐含层节点数为13, 最终选择[1,6]网络结构进行年径流的预测。

BP网络的隐层神经元采用tansig函数作为激励函数, 输出层神经元采用logsig函数作为激励函数。采用自适应学习速率动量梯度下降反向传播traingdx函数对网络进行训练。规定的期望误差为0.01, 最多迭代次数为5000次, 学习效率为0.1。

2.4 数据处理

由于BP网络以值域为[0, 1]的S形函数作为转换函数, 因此在利用神经网络进行预测之前, 需将实际数据进行适当的变换, 规范到[0, 1]区间, 使数据主动适应神经网络, 以提高神经网络预测的准确性。文献[9]对于研究了线性变换和几种基本的非线性平滑变换, 指出对数据样本进行COS型变换的效果较好。本文采用COS型变换, 将数据样本变换到[0, 1]区间。COS型变换的基本形式为: $x^{'} = \cos [\frac{π}{2} (1 - \frac{1}{a x + b})]$ , 式中, a, b主要作用是保证原数据经伸缩和平移后使函数的定义域为 $(0, \frac{π}{2})$ 。训练结束后, 需将网络输出分别通过逆变换进行还原。

2.5 预测结果分析

为使训练后的网络具有较好的预测能力, 必须有足够的样本, 否则网络将无法归纳出样本集中的内在特征。但样本过多则会造成网络过度接近样本值, 从而丧失归纳和推理能力。经过多次实验, 最后选用1956-1992年共37年的数据作为训练样本, 以1993-2000年共8年的数据作为检验样本来检验模型的精度。按照上面的训练过程, 以matlab编程实现此算法, 得到1958-1992年的年径流量的拟合值如图1, 图2为戴营1958-1992年实测和模拟径流散点图。再通过网络训练得出的权值和阈值, 将后8年的检验样本输入此网络, 得到1993-2000年的各年径流预测值如图3, 图4为戴营1993-2000年实测和模拟径流散点图。

为了进一步说明非线性混合回归模型的优越性, 本文采用自回归模型 (Auto-regression Model, AR) 、多元回归模型 (Multi-Regression Model, MR) 和线性混合回归模型 (Linear Mix Regression Model, LMR) 对同样的算例进行对比计算, 4种方法的比较结果见表1。从表1所显示的结果可以看出, 基于BP网络的非线性混合回归模型的预报合格率为75%, 对径流预报效果较好, 误差变化范围缩小, 预报稳定且精度高, 充分说明了这种方法应用于径流中长期预报的有效性。

3 结语

本文建立了以年径流量为自回归因子, 年降水和气温为回归因子的年径流预测的非线性混合回归模型, 利用BP网络进行模型求解, 并对戴营水文站的年径流进行预测, 拟合期的年径流计算值与实测值线性回归系数R2为0.825 4, 检验期的年径流计算值与实测值线性回归系数R2为0.747 3, 预测结果表明了非线性混合回归模型进行年径流预测的有效性。同时将非线性混合回归模型与自回归模型、多元回归模型和线性混合回归模型进行对比研究, 结果表明基于BP网络的非线性混合回归模型的预报合格率为75%, 对径流预报效果较好, 误差变化范围缩小, 预报稳定且精度高, 充分说明了这种方法应用于径流中长期预报的优越性。

参考文献

[1]Chow V T, Maidment D R, Mays L W.Applied Hydrology[M].New York:McGraw-Hill, 1988.

[2]Thompson S A.Simulating of climate change impacts on waterbalances in the central United States[J].Phys Geogr, 1992, 13 (1) :31-52.

[3]Freeze R A.A stochastic-conceptual analysis of rainfall runoffprocesses on a hillslope[J].Water Resources Research, 16 (2) :391-408.

[4]洪时中.非线性时间序列分析的最新进展及其在地球科学中的应川前景[J].地球科学进展, 1999, 14 (6) :559-565.

[5]王秀杰, 练继建, 费守明, 等.基于小波消噪的混沌多元回归日径流预测模型[J].系统仿真学报, 2007, 19 (15) :3 605-36-8.

[6]蒋晓辉, 刘昌明, 刘煜, 等.用混合回归模型预测黄河三门峡站年径流变化的初步研究[J].中国科学E辑, 2004, 34 (增刊) :95-102.

[7]刘昌明.黄河流域水循环演变若干问题的研究[J].水科学进展, 2004, (5) :608-614.

[8]张乃尧, 阎平凡.神经网络与模糊控制[M].北京:清华大学出版社, 2000.

【线性回归模型】推荐阅读：

多元线性回归预测模型06-25

线性回归分类05-17