一元线性回归预测(通用9篇)
一元线性回归预测 篇1
0 引言
一元线性回归分析是一种常见的预测方法, 其广泛应用于建筑工业[1]、煤炭工业[2]、水资源保护[3]、化学分析[4]和机械加工[5]等领域。在建筑工业中主要用于预测工程项目成本[6,7,8]、工程项目利润[9,10]和建筑物沉降[11]等等。在煤炭工业中主要用于预测煤矿瓦斯含量[2,12,13]和企业能源消耗[14]。用采集的观测数据计算自变量与因变量之间的相关系数, 当相关系数大于0.75时, 即认为自变量和因变量之间存在线性相关性, 在它们之间可以建立一元线性回归模型。
在工程实践中, 因变量的观测个数都大于模型参数的个数。为获得最佳估计值, 通常以因变量观测误差的平方和为极值条件估计模型参数最佳估计值, 称该方法为最小二乘法 (Least Squares, 简称LS) 。在LS估计中, 自变量被认为是不含任何误差的固定值。这与很多工程实践不相符, 因为自变量很多时候也是通过仪器测量所得, 必然含有仪器和人为误差。因此, 更为合理的参数估计模型需要考虑这些随机误差。整体最小二乘法 (Total Least Squares, 简称TLS) 同时考虑因变量和自变量误差, 参数估计模型更符合工程实践。将这种用TLS估计模型参数的一元线性回归分析称为一元整体线性回归预测法。
本文描述了一元整体回归预测的模型并推导解算了该问题的一些公式。根据推导结果, 用MAT-LAB语言编写了TLS法估计回归参数和计算拟合优度的函数程序。将程序应用于施工利润预测中, 不仅证明了程序的正确性, 而且也比较了该方法相对于LS法的优越性。
1 一元整体线性回归预测模型及解算
一元整体线性回归分析的观测方程为:
式 (1) 中, yi和xi分别表示第i个因变量值和自变量值;vyi和vxi分别表示因变量和自变量的随机误差;a和b表示回归预测模型的参数。式 (1) 的矩阵表达式为:
其中, I1中的元素全为1, 其大小为n×1, n表示样本观测组数。从式 (2) 中不难发现, 一元整体线性回归与一元线性回归最大的区别就是整体法考虑了自变量的随机观测误差。整体法求解回归参数的极值条件为[15]:
根据式 (2) 和式 (3) 可以得到拉格朗日极值条件的目标函数, 即:
式 (4) 中, λ是乘数算子。将公式 (4) 对上述各量求偏导数, 整理后可得如下计算参数的公式:
因变量的最佳近似值为:
采用拟合优度来评价估计模型的可靠度, 其计算公式为:
很显然, 参数的估计需要循环迭代计算, 因此必须要编写程序来实现。
2 一元整体线性回归预测的Ma tla b程序
3 算例分析
以文献[9]的数据为实验对象, 其值见文献[9]表一的建筑面积和施工利润两列。分别采用LS估计法和上述程序 (TLS法) 计算回归直线的参数和拟合优度, 结果如表一所示。
拟合优度的取值范围在0到1之间, LS的拟合优度超出该范围, 说明本实验数据用LS法进行参数估计不完全合理。TLS的拟合优度不仅在指定取值范围内, 而且非常接近于1。从这个角度来说, 一元整体线性回归模型比一般线性回归模型合理。同时也说明, 本文给出的MATLAB程序完全正确合理。
4 结束语
在一元线性回归模型中, 如果自变量也包含有随机误差, 采用TLS法估计模型参数更合理。文章给出了TLS法计算模型参数和拟合优度的一组计算公式, 以及TLS迭代计算的MATLAB程序。为更多领域应用一元整体回归法预测因变量提供了简单的技术支持。
摘要:本文根据一元整体回归模型的误差方程推导整体最小二乘法计算回归参数和拟合优度的一组公式, 并给出整体线性回归预测法迭代计算的MATLAB程序, 最后用简单算例验证该方法和程序。结果表明, 当自变量也含有随机误差时, 本文给出的程序正确, 整体估计比最小二乘估计更优、更合理。
关键词:一元线性回归,整体最小二乘法,MATLAB程序,施工利润
一元线性回归预测 篇2
利用中国1987~国内生产总值(GDP)和人口总数作为自变量,每年的用电总量作为因变量建立了多元线性回归模型.并根据中国GDP的增长率和人口自然增长率预测了~的.GDP和人口总数,并以建立的模型为基础预测了中国未来的用电量.
作 者:王鹏飞 WANG Peng-fei 作者单位:淮北国安电力有限公司,安徽,淮北,235000 刊 名:东北电力技术 英文刊名:NORTHEAST ELECTRIC POWER TECHNOLOGY 年,卷(期): 26(8) 分类号:F407 TM715 关键词:用电量 多元线形回归 预测
一元线性回归预测 篇3
关键词 生活废水;非线性;预测
中图分类号 F224.0 文献标识码 A
Prediction of Domestic Waste Water Missions in Jiangsu
Province Based on the Nonlinear Prediction Model
LI Lei1,2,LIU Xue1,LIU Jie1
(1. School of Business, Jiangnan University,Wuxi,Jiangsu 214122,China;
2.Research Center for Jiangsu environment and Development,Nanjing,Jiangsu 210037,China)
Abstract This paper established a three-dimensional non-linear prediction model on domestic waste water discharge according to the per capita GDP, per capita domestic water consumption and the data of domestic wastewater discharge from 1999 to 2009 in Jiangsu Province.And the analysis proves the model has a high fitting precision. Based on the prediction data, the amount of domestic wastewater discharge of Jiangsu Province will reach 6.685 billion tons in 2020, more than two times the discharge in 2009, which imposes enormous pressure on urban environment. At last, some policy recommendations were offered as references to the relevant departments.
Key words domestic waste water; nonlinear; prediction
1 引言
水资源是人类社会可持续发展的基础,根据水利部的统计数据,按目前的正常需要和不超采地下水,正常年份我国缺水总量将近400×108 m3,有400余座城市供水不足,其中110座城市严重缺水.同时,从我国未来发展趋势看,由于城镇人口和城镇人均用水量的不断增加,未来城镇地区水资源供需矛盾将越来越突出,而且我国的生活废水排放量也在不断增长[1].日益严重的生活废水排放已经成为我国水污染加剧的主要原因之一,并在某种程度上造成了比工业更为严重的影响 [2].影响生活废水排放量的因素较多.往往很难从理论上找到预测的机理模型.近年来,国内外学者曾采用了一些预测方法,对生活废水排放量行了一些预测研究.如王亮等人应用的粒子群算法的预测模型[3]、阎伍玖等人应用的等维灰数递补动态模型[4]、Ahmed Gamal El-Din等人应用的神经元网络模型[5],以及Yoshiaki Tsuzuki等人应用的软干预预测模型 [6].这些研究成果为解决生活废水排放量的预测问题,提供了一些方法和手段,具有一定的参考价值.本文采用了多元统计分析方法,为了表明变量之间的交互作用,采用非线性的方式,并将经济增长和居民用水量作为影响生活废水排放量的主要因素,根据1999 -2009年中国统计年鉴数据,构建了非线性预测模型,为预测未来生活废水排放量提供了经验模型.
2 样本的选取
江苏位于长江、淮河下游,是长江三角洲地区的重要组成部分,是中国人口密度最高的省份之一,境内平原辽阔.土地肥沃,物产丰富,江河湖泊密布,五大淡水湖中的太湖、洪泽湖在此横卧,历史上素有“鱼米之乡”的美誉.在过去的11年中江苏省的经济高速发展,人年均GDP增长3 095元,几何增速13.9%,高于同期全国的平均水平12.27%.2010年地区生产总值(GDP)更是达到40 903亿元,人均地区生产总值达到7 700美元,同期生活废水排放量也从13.5亿吨上升为26.76亿吨,十年间翻了一番,每年新增生活废水排放量1.2亿多吨,年均几何增长率高达6.4%,高于同期全国的生活废水排放的增速5.17%.正是因为江苏省经济发达,河流广布加之人口密度大,生活废水排放量增长快,所以其在研究生活废水排放问题上十分具有代表性.
3 模型的建立与分析
3.1 变量的选取与数据处理
由于影响生活废水排放的因素较多,从预测生活废水排放量角度分析问题,不可能也不必要选取包罗万象的指标,必须进行优化选择.所以选择影响生活废水排放量因素的指标必须遵循以下原则:
1)代表性原则.选取的指标必须具有代表性,从众多指标中选择出的指标应当是能很好反应生活废水排放量的优质指标.
2)实用性原则.选取的指标必须是符合我国现阶段国情,各个指标也应当是在各类统计数据中较易找到,且对日后生产和生活能产生积极地影响.
3)动态性原则.随着社会和科学技术不断发展和进步,所选取的指标数值也应当是动态发展的.
鉴于以上原则,采用1999~2009年的人均生活用水量和人均GDP两个指标.其中:人均GDP反映一定时期内人们生活水平的能力与状态;人均日生活用水量以反映生活用水情况,具体如表1(资料来源于《我国统计年鉴》相关各期资料).
3.2 模型的建立
结合生活废水排放量、人均生活用水量和人均GDP构建了多元非线性的指数模型:
y=f(x1,x2)=c0exp(c1x1+c2x2). (1)
代入来自中国统计年鉴和江苏统计年鉴中1999~2009年的数据,并通过Eviews的非线性回归分析后,得到模型:
y=44.75exp-0.004 734x1+0.093 91x2.(2)
(3.155) (-3.840) (4.340)
R2=0.966 1 DW=1.535.
异方差检验:由表2知F-统计量的P值为0.015小于10%,所以可以判定回归方程具有异方差性.用加权最小二乘法来消除异方差性,权值取残差绝对值的倒数,得新的回归方程为:
y=39.65exp(-0.004 271x1+0.101 357x2) (3)
(5.403) (-6.152) (8.882)
R2=0.997 6 DW=1.771.
可以看出消除异方差后,回归方程的拟合程度有所提高.
自相关检验:消除异方差后的回归方程DW值为1.771,可以通过杜宾—瓦森检验的临界值,所以判定回归方程不具有自相关性.
拟合分析:消除异方差性后模型的决定系数为0.997 6.同时从图1可以明显看出实际值和预测值基本为同一条直线,残值绝对值的波动量很小,说明回归方程拟合精度很高.
3.3 方差分析
分别求出消除异方差后回归模型的总和平方和(SST)、残差平方和(SSE)、回归平方和(SSR)以及均方回归(MSR)和均方残差(MSE).
SSE=∑ni=1e2i=∑ni=1(yi-i)2,(4)
SSR=∑ni=1(i-)2,(5)
SST=∑ni=1(yi-)2,
=1n∑ni=1yi ,(6)
MSR=SSRk-1, (7)
MSE=SSEn-k-1.(8)
式中:ei为残差;yi为样本的观测值;i为样本的估计值;为样本的平均值;n为样本的数量;k为回归方程中自变量的个数
利用式(4)~式(8)得消除异方差后回归方程的方差分析见表3.可以看出残差平方和仅为0.525 4,,说明模型观测值和拟合值之间的偏差很小,再次印证了此回归模型就有良好的性能,可以用来对生活污水排放量进行预测分析.
3.4 模型结果的分析
通过图2可以清晰的看出三维非线性模型各个变量之间及其与因变量之间的关系.一般情况下生活废水量的排放随着人均GDP的上升而增多,却随着人均日生活用水量的增多而下降.在人均生活用水量较低的情况下,人均GDP略微升高就使得生活废水排放量显著增多,而在人均生活用水量较高的情况下,人均GDP对生活废水排放量的影响力显著下降.
图2 模型三维效果图
4 生活废水排放量预测
利用已建立的模型进行江苏省生活废水排放量的预测.为此分别根据中国统计年鉴和江苏省统计年鉴1999~2009年人均日生活用水量和人均GDP的数据建立:人均日生活用水量预测方程,如式(9);人均GDP的预测方程,如式(10).
y=109 95.01-5.377 754x+ar(1),(9)
ar(1)=0.614 347
R2=0.903 2, DW=1.646
y=-1 403.958+0.700 592x+ar(1), (10)
ar(1)=0.854 587,
R2=0.9968, DW=2.040
由式(9)和式(10)分别预测出2010年至2020年江苏省人均日生活用水量和人均GDP的值,之后代回式(3)得出生活废水排放量的预测值,如表4所示.
随着经济和社会的高速发展,江苏省人均日生活用水在过去11年间呈下降趋势.到2009年人均日生活用水量仅为192.7升,不足全国448升的一半.究其原因主要是随着经济社会的发展,人们的综合素质普遍提高,节水意识明显加强,生活用水的重复利用率明显提高;水费阶梯收费制度的实行,用经济杠杆的效应调节了人均用水量;输水管道的更新,检测技术的不断更新与应用,这些措施大量地减少了输水过程中不必要的渗漏情况.在未来十年间,随着水资源紧缺程度不断加深,人均用水量很可能如上文预测的数据所示继续呈现下降趋势.同时生活废水排放量将继续保持迅猛增长势头.根据预测数据可知到2020年,生活废水的排放量应该为2009年(26.76亿吨)的2倍以上,但2009年除无锡生活废水处理率达90.1%以外,其余地区均不足90%,镇江仅为77.7%,可见在未来10年江苏省在生活废水处理上面临很大压力.
5 政策建议
江苏承担着国家赋予的“两个率先”的责任,经济建设仍是当前要务,不太可能以牺牲经济社会的综合发展来解决污染问题.因此从系统角度来分析城市生活废水治理措施,本研究提出以下治理建议:
1)征收城市生活废水排放费.按照“谁污染谁治理谁付费”原则,对生活废水的排放征收排污费.我国工业废水排放长期以来都是征收排污费的,从而有效地遏制了工业废水排放量增长势头,并且提供了资金来治理排放的工业废水.城市生活废水的治理也应当借鉴此种模式.考虑到城市生活废水排放不像工业废水排放那样容易检测,可以改为通过生活用水量多少来间接收取排污费,以此来完成对消费者决策的直接和间接影响.
2)提高水价,更好地实行阶梯式水价.按照市场资源配置状况和真实供求关系,逐步提高水价,并使其达到合理的市场价格.一方面可以提高供水企业积极性,增大对整个市场自来水供应量,同时也可以减轻了政府财政压力;另一方面,水价提高和阶梯式水价的实施,必然能促使消费者更加注重自来水高效利用,减少其不必要浪费.按照奥地利学派的观点只有市场才是对资源进行优化配置的最好手段,在城市生活用水及其废水排放问题上应该充分借鉴此观点.
3)增加投资,促进科技进步.2010年我国已成为世界第二大经济体,国家综合实力大幅提高.在此情况下,应当加大对节水技术和污染治理技术上的研发投入,使得我国能更早的全面使用上更加清洁、高效的水资源利用和处理技术,达到水资源利用的可持续发展.
4)加大宣传和教育力度,培养节水护水意识.事物内因是影响事物发展最重要的因素,所以要解决城市生活废水排放不断增加的问题,必须充分认识到人主观能动性的重要性.因而政府需大力宣传教育,充分发挥非政府组织的引导鼓励作用,提高全民节约用水、保护水资源、合理利用水资源的意识,使全民参与到水环境保护工作中来.参考文献
[1] 钱正英,张光斗.中国可耻学发展水资源战略研究综合报告及各专题报告[M].北京:中国水利水电出版社,2001.
[2] 霍雨,王腊春,焦士兴等人.南方部分中小城市水污染驱动力及防治措施优先级序[J].中国环境科学, 2009,29(10):1052-1058.
[3] 王亮,汪震,岳琳. 基于粒子群优化算法的城市日用水量预测模型[J].中国给水排水,2007,23(7):89-93.
[4] 阎伍玖,桂拉旦,桂清波等人.等维灰数递补动态模型在废水排放量预测中的应用研究[J]. 环境科学与管理,2008,33(1):16-17.
[5] Ahmed Gamal El-DIN,W DANIEL SMITH. A neural net work model to predict the wastewater inflow incorporating rainfall events[J]. Water Research, 2002,36(5):1115–1126.
一元线性回归预测 篇4
关键词:一元线性回归分析,进度控制
一、概述
随着国际工程承包市场的发展, 总承包模式成为主流, 工程项目投资额大, 工期长, 工序复杂给管理带来了挑战。由于业主更看重项目的工期, 承包商的进度控制成为管理的重点。承包商必须同时做好事前、事中、事后的综合控制, 才能保证项目的顺利实施。根据总包项目工程量大、工序复杂的特点, 一元线性回归分析应用到其中, 试图为承包商提供一种更加合理科学进度预测, 进而做到有效的事前控制。
二、模型构建
若变量Y与x满足正态线性模型式, 即
其中, β0, β1为模型参数;Y为响应变量;x是预报变量
由历史资料 (x1, y1) , (x2, y2) , …, (xn, yn) 用最小二乘法求得回归方程:
即:
三、一元线性回归分析模型在桩基工程进度预测中的应用
某工程项目位于上海市化学工业区, 属于EPC项目, 合同额2.5亿欧元。在打桩阶段, 总承包商运用了一元线性回归分析模型来预测打桩的进度, 分析实际进度和计划进度的差异, 做到了科学的事前控制, 取得了理想的效果。
桩基工程全部使用P H C管桩, 现场有静液压桩机一台持续工作, MATCH项目的桩基工程只有2162套, 计划工期125天。Xi表示桩基工程的第i天, Yi表示截止到第i天完成的工程总量 (套数) 。经过观察分析, Xi与Yi近似满足正态线性模型式
在桩基工程进行到第2 1天 (i=21) , 承包商项目管理部决定使用一元线性回归分析模型合理预测打桩的进度。从施工单位每日上报完成的工程量表中总结出前20天每天完成的工程量分别为
利用最小二乘法算得:
回归方程为:
同时可求出:
因此有:
由t分布表, 我们可以预测出20天以后第i天在置信水平1-α的对应Yi值。如Xi=40, 置信水平1-α=1-0.05=0.95时, Yi∈[716, 724], 即第40天完成的总工程量以95%的可能性落入[716, 724]区间, 比计划进度天提前。
四、结论
上述一元线性回归分析模型还是有些不完整的, 比如有些偏差。但总的来说, 它对结果的影响是很小的。另外, 本例采用n=20个样本, 但随着工程的继续, 当Xi=30时, 可以取n=30个样本, 这样, 预测的可靠性会增强。由于计算机在工程管理中的普及, 这样的动态计算不仅容易达到, 而且是非常必要的。
不仅如此, 在大型总承包项目中, 其它工程均可以使用一元线性回归分析模型来预测工程进度, 方便且实用性强, 为科学的进度控制提供了一条便捷的方法。
参考文献
一元线性回归预测 篇5
随着我国煤炭年产量的连年增长, 煤炭行业死亡的人数也是一个触目惊心的数字。因此, 对我国煤炭行业死亡人数进行科学的分析和预测, 对于煤炭行业的安全有着重要意义[1,2]。
一个企业或部门的安全状况, 受其生产性质、规模、人员素质、物质条件、环境状况以及管理水平等一系列因素的影响, 它们之间的函数关系由于影响因素众多、关系复杂而难以确定。然而大量统计资料表明, 一个企业或部门的安全状况与影响它的各种因素却是一个密切联系着的整体。这个整体具有相对稳定性和持续性, 即时间序列平稳性。这就为抛开对逐个因素的分析, 就其整体利用惯性原理对企业或部门的安全状况进行预测提供了可能。一元线性回归分析具有预测结果比较接近实际、易于表示数据的离散性并给出预测区间等优点, 在工矿企业伤亡事故趋势预测中已得到广泛应用[3]。基于此, 笔者建立了一种一元线性回归预测模型, 用以预测我国未来3年煤业行业年死亡人数与年煤炭产量的发展趋势, 预测结果较准确、可靠。
1 一元线性回归模型的建立
1.1 一元线性回归模型
设一元线性回归方程[4,5]为y=a+bx, 其中x、y分别为自变量和因变量, a、b均为模型参数, 分别表示直线的纵截距和斜率。
设有n对x与y的数值, 令
当W (a, b) 值最小时, 采用最小二乘法可求得
1.2 一元线性回归模型精度检验
在回归分析中, 还应研究计算得到的回归直线是否符合实际数据变化的趋势。因此引入相关系数r的概念[6,7,8], 其计算公式为
式中:
相关系数r取不同的数值时, 分别表示实际数据和回归直线之间的不同符合情况:
(1) r=0时, 表示回归直线不符合实际数据的变化情况。
(2) 0<|r|<1时, 表示回归直线在一定程度上符合实际数据的变化趋势。|r|越大, 说明回归直线与实际数据变化趋势的符合程度越大;|r|越小, 则符合程度越小。
(3) |r|=1时, 表示回归直线完全符合实际数据的变化情况。
2 全国煤炭行业死亡人数与煤炭产量预测
2.1 模型建立
我国煤炭行业2001—2009年的年死亡人数与年煤炭产量如表1所示[9], 根据表1绘制出的年死亡人数与年煤炭产量散点图分别如图1和图2所示。
根据表1, 由式 (2) 、式 (3) 得到我国煤炭行业年死亡人数的一元线性回归模型参数a、b的值分别为7 608.94和―501.7, 则我国煤炭行业年死亡人数的一元线性回归模型为
根据表1, 由式 (2) 、式 (3) 得到我国煤炭行业年煤炭产量的一元线性回归模型参数a、b的值分别为13.36和1.65, 则我国煤炭行业年煤炭产量的一元线性回归模型为
2.2 预测精度检验
由式 (4) 得到我国煤炭行业年死亡人数和年煤炭产量的一元线性模型检验相关系数分别为r1=0.837、r2=0.926。
相关系数r1和r2均接近于1, 说明实际数据变化趋势与式 (5) 、式 (6) 的预测趋势符合程度比较大。由此可知, 采用式 (5) 、式 (6) 预测的我国煤炭行业未来年死亡人数与年煤炭产量具有较大的参考价值。
2.3 未来3年我国煤矿死亡人数的预测
将x=10、11和12代入式 (5) , 可以预测出2010年、2011年和2012年全国煤炭行业年死亡人数分别为2 592人、2 090人和1 589人, 即未来3年我国煤炭行业年死亡人数呈整体下降趋势。将x=10、11和12代入式 (6) , 可以预测出2010年、2011年和2012年我国煤炭行业年煤炭产量分别为29.76亿t、31.46亿t和33.16亿t, 即未来3年我国煤炭总产量呈增长趋势。
2.4 预测结果分析
预测结果:未来3年内我国煤炭年产量呈递增趋势, 而我国煤矿的年死亡人数呈递减趋势。从预测结果可看出, 在煤炭年产量逐年增加的前提下, 我国煤炭年死亡人数却逐年减少, 说明我国煤炭行业随着开采技术的提高, 安全技术和措施也在不断地提高和完善, 其安全效益已开始逐步显现。
3 结语
(1) 就目前的煤炭开采技术、安全措施和市场环境, 可以采用一元线性回归模型预测煤炭行业的年死亡人数和年煤炭产量数据, 从而为进一步做好我国煤炭行业的开发和安全工作提供可靠的理论依据。
(2) 根据安全科学理论可知, 一定水平的科学技术、安全措施和行业环境对应一定水平的行业年死亡人数。由于我国煤炭科技发展水平、煤矿管理水平、人为因素、煤矿的地质及开采因素等众多因素的限制, 我国煤炭行业年死亡人数可能降低到某一数值后会变化缓慢甚至停滞在这一数值上, 还有可能会再次回升。因此, 必须不断更新技术, 实施先进的安全技术, 建立健全的安全规章制度, 才能保证我国煤炭行业在煤炭产量按目前增长率增长的条件下, 其年死亡人数一直保持逐年下降或恒定趋势。
(3) 上述预测结果成立的前提是我国煤炭行业煤炭产量按目前增长率增长。如果我国未来煤炭行业煤炭产量增长率与目前煤炭产量增长率相差较大时, 需重新建立预测模型。
参考文献
[1] 金龙哲, 宋存义.安全科学原理[M].北京:化学工业出版社, 2004.
[2] 付丽华, 王晶.一元线性回归分析在煤矿企业中的应用[J].煤矿现代化, 2006, 72 (3) :87-88.
[3] 韩中庚, 宋明武, 邵广纪.数学建模竞赛[M].北京:科学出版社, 2007.
[4] 郭志军.应用Excel对一元线性回归模型的分析[J].宁波职业技术学院学报, 2009 (5) :57-60.
[5] 邵碧雄, 叶左局.利用Excel软件进行多元回归与多项式回归分析[J].广东奶业, 2006 (2) :11-14.
[6] 王义宏.基于多元线性回归分析的县域经济发展程度的评价——以江阴为例[J].生产力研究, 2009 (18) :27-29.
[7] 高芳, 崔勇.多元线性回归分析在房地产市场中的应用[J].河南机电高等专科学校学报, 2009 (3) :41-43.
[8] 葛培运.主成分回归分析在经济学中的应用[J].科技信息, 2009 (27) :209-210.
一元线性回归分析及其应用 篇6
回归分析的基本思想和方法以及“回归 (Regression) ”名称是由英国统计学家F.Galton (1822—1911年) 和他的作为现代统计学的奠基者之一的学生K.Pearson (1856—1936年) 提出的, 他们在研究父母身高与其子女身高的遗传问题时, 观察了1078对夫妇, 以每对夫妇的平均身高作为解释变量X, 取他们的一个成年儿子的身高作为被解释变量Y, 将结果在平面直角坐标系上绘成散点图, 发现趋势近乎一条直线。计算出的回归直线方程为Y^=33.73+0.516X。这种趋势及回归方程表明父母身高X每增加一个单位时, 其成年儿子的身高Y也平均增加0.516个单位。
一元线性回归简单地说, 是涉及一个自变量的回归分析, 主要功能是处理两个变量 (因变量与自变量) 之间的线性关系, 建立线性数学模型并进行评价预测。
二、一元线性回归的数学模型
各种经济变量之间的关系, 可以划分为两种类型。一种是变量之间有唯一确定的关系, 即函数关系。例如, X1, X2, (43) , Xn与Y之间的函数关系可以用隐函数形式表示为
其中, 最简单的形式为一元线性函数关系。例如, 当某种商品单价P固定不变, 这种商品的销售收入Y与销售商品数量X之间的关系为一元线性关系, 即Y=PX
经济变量之间的另一种关系, 为不完全确定的相关关系。例如, 家庭消费支出Y与家庭收入X之间的关系, 就是不完全确定的。虽然每个家庭的收入X必然会影响并且制约着这个家庭的消费支出Y, 但是消费支出Y还是要受到其他多种因数的影响。例如, 家庭人口、消费习惯、银行存款利息率、商品价格水平变化趋势等等。即使对于同一个家庭在每个月收入相同的条件下, 每月的消费支出也不会完全相同。这类变量之间不完全确定的关系可以表示为
三、关于普通最小二乘法——一元线性回归的求解
解得:
于是得到了符合最小二乘原则的参数估计量。
四、最小二乘估计β0和β1的性质
五、一元线性回归模型的应用
例:表1的资料是2003全国及各地区的供水情况, 给出了供水管道长度 (公里) 和全国供水总量 (万立方米) , 本文试着用一元回归分析方法, 根据供水管长度变化, 来分析全国供水总量的变化情况。分析结果如下:
1、下表反映的是一元线性回归模型拟合情况, 相关系数R为0.998, 决定系数为0.995, 而调整决定系数为0.995。可见, 模型拟合效果很理想。
2、左表为一元回归的方差分析表。
从表中可以看出离差平方和为2E+013, 残差平方和为1E+011, 而回归平方和为2.085E+013。回归方程的显著性检验中, 统计量为6130.953, 相应的置信水平为0.000, 远比常用的置信水平0.05要小, 因此可以认为方程是极显著的。
3、右表是回归方程系数以及对回归方程系数检验的结果, 系数显著性检验采用t检验。
回归方程的系数同时给出了标准化和未标准化的结果, 方程标准化后就没有2参数项了。未标准化回归方程的常数项为1486.858, 自变量系数为14.188。对回归方程系数的检验结果, 常数项检验对应的置信水平为0.893, 远比常用的0.05要大, 常数项不显著, 可以考虑去除常数项的回归方程;自变量系数检验对应的置信水平为0.000, 远比常用的置信水平0.05要小, 因此认为该系数是显著的, 不等于0。
4、图4为标准化残差的直方图, 用来显示残差的分布情况。
5、图5为正态分布图, 该图用以观察标准化残差的分布是否符合正态分布, 如果是, 则途中散点应该近似为一条直线, 且于对角线近似重叠。
总结:一元线性回归只引入一个自变量和因变量, 所以分析起来也比较简单。需要注意的是用来分析的自变量和因变量必须呈线性关系, 否则可能会导致错误的结果。在应用SPSS统计软件对一元回归分析的结果探讨时, 需要注意回归方程系数的检验, 分析回归方程中是否需要保留常数项。
摘要:一元线性回归模型是最简单的计量经济学模型。在模型中只有一个解释变量, 其参数估计方法也是最简单的。通过最简单模型的参数估计, 可以较清楚地参数估计方法的原理。同时对于理解各类研究中的参数取样也具有及其重要的意义。
关键词:一元线性回归,普通最小二乘法,一元线性回归,模型
参考文献
[1]李子奈:《计量经济学》, 高等教育出版社, 2000年。
[2]章文波、陈红艳:《实用数据统计分析及SPSS12.0应用》, 人民邮电出版社, 2006年2月。
[3]赵国庆:《计量经济学》, 中国人民大学出版社, 2001年。
一元线性回归预测 篇7
从三亚市统计局网站查阅分析相关数据,观察到2013年三亚房地产开发投资与商品房销售保持高位运行。房地产开发投资302.72亿元,增长27.0%,占投资总额的57.9%,比上年提高2.5个百分点。北方地区雾霾天气较多,三亚得天独厚的自然环境优势凸显,商品房销售形势较好。全年商品房销售面积达到105.14万平方米,同比增长70.5%。全年房地产业增加值99.48亿元,增长8.2%,比上年同期提高4.6个百分点。旅游接待过夜游客人数快速增长。继续加强国内外旅游宣传促销,积极发展邮轮经济,规范旅游市场秩序,提高旅游服务水平,旅游业快速发展。全市接待过夜游客1228.40万人次,增长11.5%,比上年增长3.5个百分点。随着邮轮游艇、休闲养生、文化旅游等高端旅游产品更加丰富,内涵逐步加深,游客在三亚停留时间、花费有较大提升。全年实现旅游总收入233.33亿元,增长21.4%,收入增速比接待过夜游客人数增速高出9.9个百分点,旅游发展转型升级取得显著成效。往前研究数据至2009年,发现各年房地产投资额的变化趋势和过夜人数变化趋势都呈现增长。
通过这些数据绘制成表格并绘出柱形图统计三亚市2009年-2013年这5年的房地产投资额和过夜人数的数据。
2 三亚房地产投资与过夜游客人数相关关系
选取一元线性回归模型的变量:三亚市房地产投资额与过客人数。
根据统计数据绘制出两变量之间的散点图,如下图:
从中我们又可以看出三亚市2009年~2013年的过夜游客人数和房地产投资额都是呈上升趋势,且稳步提升呈线性关系。
建立过夜人数为自变量x,房地产投资额为因变量y。根据两个变量之间的数据关系构建直线回归方程预测模型:参数由下列公式求得:
代入计算求得a=-169.5485 b=0.3668 (保留4位有效数字)
则预测模型为:Y=-169.5485+0.3668x
在回归分析预测法中,需要对X、Y之间相关程度作出判断,这就要计算相关系数(2)
相关系数r的特征有:
①相关系数取值范围为:-1≤r≤1。
②r与b符合相同。当r>0,称正线性相关,Xi上升,Yi呈线性增加。当r<0,称负线性相关,Xi上升,Yi呈线性减少。
③|r|=0,X与Y无线性相关关系;|r|=1,完全确定的线性相关关系;0<|r|<1,X与Y存在一定的线性相关关系;|r|>0.7,为高度线性相关;0.3<|r|≤0.7,为中度线性相关;|r|≤0.3,为低度线性相关。
代入(2)求得r=0.0059 (保留4位有效数字)r>0,称正线性相关,xi上升,yi呈线性增加。所以该模型具有相关性。
3 实证小结
根据上述数据分析得出的结论是根据线性关系,可知过夜游客人数一直处于上升趋势,r>0,称正线性相关,所以三亚市房地产投资额与过夜人数称线性相关关系,且得出一直处于上升趋势,根据这一结论,我们不难预测出,三亚2015年过夜游客人数继续上升为1500万人,则代入预测模型方程中得到房地产投资额Y=380.65亿元。三亚的旅游人数促进了三亚市房地产投资的上升,同时也因为房地产投资的完善也促进了进一步旅游人数的上涨,推动了三亚市的经济发展。
摘要:本文通过研究往年三亚市统计数据,观察分析得到过夜游客人数与房地产投资额的增长变化具有一致性,进而采用一元线性回归的方法得出两者变化呈正相关线性关系,并通过r验证;从而得出过夜游客人数变化趋势估计房地产投资趋势的结论。
关键词:过夜游客人数,房地产投资额,趋势,线性回归
参考文献
[1]李爽.万科公司股利政策变动与房价指数相关性研究[D].吉林大学,2008.
一元线性回归预测 篇8
预应力混凝土经过近半世纪的发展, 目前在我国已成为土建工程中一种十分重要的结构材料, 应用范围日益扩大, 由以往的单层及多层房屋到公路、铁路桥梁、水塔等。在桥梁结构领域中, 预应力技术作为一种结构手段, 又将与施工方法结合形成一套以节段式施工为主体的预应力施工方法。主要有预应力悬臂分段施工技术, 大节段预制吊装技术等。这些施工技术与预应力技术是紧密相关的。
我们知道, 预应力一般都是通过千斤顶与压力表配套来施加, 由于预应力应用广泛, 力值变化多, 如何通过力值确定压力表读数就成了问题。为了解决这类问题就需要研究两个变量间的关系, 一元线性回归方程是处理两个变量相关关系的一种统计技术。
2 一元线性回归方程的建立
在客观世界中, 变量之间的关系大致可分为两种类型, 函数关系和相关关系。当两个变量存在相关关系时, 常常希望在两者间建立定量关系, 两个相关变量间的定量关系表达的就是一元线性回归方程。假如, n个点在一条直线附近波动, 一元线性回归方程便是对这条直线的估计。
1) 设一元线性回归方程的表达式为:
对给定的n对数据 (Fi, Pi) , i=1, 2, …, n, 要我们根据这些数据去估计a和b。如果a和b已经估计出来, 那么在给定的Fi值上, 回归直线上对应点的纵坐标为:
称
b=LFP/LFF (2)
这一组解称为最小二乘估计, 其中, b为回归直线的斜率, 称为回归系数;a为回归直线的截距, 称为常数项。
2) 一元线性回归方程求解。
TF=∑Fi;TP=∑Pi。
3 一元线性回归方程的显著性检验
建立回归方程的目的是表达两个具有线性相关的变量间的定量关系, 因此, 只有当两个变量具有线性相关关系时所建立的回归方程才有意义。检验两个变量间是否存在线性相关关系的问题便是对回归方程的显著性检验。通常的方法是相关系数检验法。
相关系数:是两随机变量间线性联系密切程度的度量, 这个量称为相关系数r。随机变量之间的线性相关性就是:当一个变量增大时, 另一变量有按线性关系增大或减小的趋势。当|r|越接近1时, 这种趋势就越明显。当|r|=0时, 两变量就不存在线性联系, 即无线性相关性。
根据所求的两个变量的相关系数r, 对于给定的显著水平α, 相关系数r显著性判定为:
|r|>r1-α/2 (n-2) (8)
r1-α/2 (n-2) 是检验相关系数的临界值, 通过查表求得 (见表1) 。如果相关系数r满足式 (8) , 便认为两个变量间存在线性相关关系, 所求回归方程是显著的, 即回归方程有意义。
例如:根据公式 (4) , (5) , (6) 所求数据:
显著性判断:根据式 (8) , 查表1:
假如显著水平α=5%, r1-α/2 (n-2) =r97.5 (9) =0.602;假如显著水平α=1%, r1-α/2 (n-2) =r99.5 (9) =0.735,
因此认为千斤顶的力值与压力表读数存在线性相关关系, 即回归方程有意义, 可以用于实践。
4 一元线性回归方程的应用
当所求一元线性回归方程经检验为有意义的方程后, 就可用于实践。在预应力施工中, 当知道力值, 即可求出压力表读数, 从而不必每次对千斤顶和压力表进行校验。
例如:已知F=1 150 kN, 根据所求回归方程:
5 应用中注意事项
1) 千斤顶与压力表必须是经配套检验, 并且配套使用。2) 尽量采用高精度耐振压力表, 以减小误差。3) 一旦压力表或者千斤顶损坏, 经修理后, 必须重新进行配套检验, 建立方程, 进行显著性检验, 合格后方可使用。
6 结语
通过一元线性回归方程的建立, 在预应力施工中, 我们可以根据所需的应力值求出任一相对应的压力表值, 从而减少了重新配套校验的程序, 大大节省了时间, 并节约了成本。
摘要:着重介绍了预应力张拉施工中, 千斤顶与压力表配套校验后一元线性回归方程的建立、显著性检验、应用及注意事项, 通过一元线性回归方程的建立, 可以减少重新配套校验的程序, 大大节约时间和成本。
关键词:预应力,回归方程,相关系数,显著性检验
参考文献
[1]JTJ 041-2000, 公路桥涵施工技术规范[S].
一元线性回归预测 篇9
生物化学分析仪是目前常见的临床检验设备之一, 在糖代谢检查、心脏疾病检查、肝功能检查、肾功能检查方面都起着重要作用。常见测试项目包括谷丙转氨酶 (ALT/GPT) 、谷草转氨酶 (AST/GOT) 、碱性磷酸酶 (ALP) 、总胆红素 (T.BIL) 、直接胆红素 (D.BIL) 、总蛋白 (TP) 、白蛋白 (ALB) 、尿素氮 (BUN) 、肌酐 (Cre) 、二氧化碳结合力 (CO2) 、尿酸 (UA) 、总胆固醇 (CHO) 、甘油三酯 (TG) 、高密度脂蛋白胆固醇 (HDL-C) 、低密度脂蛋白胆固醇 (LDL-C) 、葡萄糖 (GLU) , 可为临床上对疾病的诊断、治疗和预后及健康状态提供信息依据[1,2]。
生物化学分析仪按照反应装置的结构, 可以分为连续流动式、离心式、分立式与干片式4 类, 按照自动化程度可分为半自动型与全自动型。目前常用的是分立式半自动生化分析仪与全自动生化分析仪。计算方法一般都支持终端法、两点法与速率法。
在临床检验应用上, 对于样本测试结果可分为定性测试与定量测试。常见的定性测试方法有cutoff算法。定性项目的结果为阴性、阳性或者可疑, 未提供具体数量等更加详细的信息。临床上如果需要知道某种物质具体含量的测试项, 例如甲胎蛋白, 则需要使用定量测试方法。
常见的定量算法有单点回归、线性回归、折线回归、指数回归、幂回归等[3]。其中单点回归、线性回归、折线回归属于一元一次线性回归, 而指数回归通过对吸光度与浓度取对数后, 转化为一元一次回归, 幂回归也可以通过求对数的方法转化为一元一次回归。因此, 本文讨论的一元一次线性回归具有通用性。
1 测试原理
生物化学分析仪属于光学式分析仪器, 它基于物质对光的选择性吸收, 即分光光度法, 其测量原理基于比尔—朗伯定律, 数学表达式为:
其中, Abs为吸光度;T为透光率, 是透射光强度与入射光强度之比;K为摩尔吸收系数, 它与吸收物质的性质及入射光的波长 λ 有关;b为吸收层厚度;c为吸光物质的浓度。
比尔—朗伯定律的物理意义是当一束平行单色光垂直通过某一均匀非散射的吸光物质时, 其吸光度Abs与吸光物质的浓度c及吸收层厚度b成正比。
在生物化学分析仪上, 单色器 (滤光片或者光栅) 将光源发出的复色光分成单色光, 特定波长的单色光通过盛有样品溶液的比色池、光电转换器将透射光转换为电信号后送入信号处理系统进行分析。
2 标准液曲线的制作
在实际操作中, 通过仪器只能获取到样本吸光度值。为了获取到样本的浓度值, 需要增加几个对照物, 也就是标准液。标准液的浓度是已知的, 把标准液与样本一起测试, 就能获取到二者的吸光度, 再利用标准液的浓度值来估算出样本的浓度。
按照试剂说明书, 配置好固定浓度的标准液后, 在指定波长下测出它们的吸光度值, 然后以吸光度为纵坐标, 以浓度为横坐标, 画出该溶液的标准曲线。根据标准曲线获取样本浓度的方法有3 种。
2.1 标准比值法
即标准比较法。在相同的条件下, 配制标准溶液和待测样品溶液的有色溶液, 并测定它们的吸光度。由二者吸光度的比较, 可以求出待测样品溶液的浓度。计算方法是:
待测样品溶液的浓度=待测样品溶液的吸光度/标准溶液的吸光度×标准溶液的浓度
2.2 标准系数法
即计算因数法。此法较为简单, 将多次测定标准溶液的吸光度算出平均值后, 按下式求出标准系数:
2.3 回归分析法
本文讨论的方法即是将制作标准曲线的各种标准溶液浓度的数值与其相应的吸光度值使用一元一次线性回归模型进行拟合, 得到样本浓度值。
3 结果计算
3.1 数据预处理
通过测试, 获取标准液的测试结果见表1。
为了验证该试剂测试结果是否具有线性, 将上述的原始数据在直角坐标系上画散点图[4], 如图1所示。
从图1 可以看出, 试剂测试标准物所得的浓度与吸光度之间呈现某种线性关系, 可以使用一元线性回归模型来估算样本的定量结果。
3.2 建立线性回归模型方程
对于所测得的原始数据, 建立一元一次线性回归模型:
其中, y为浓度, x为吸光度, a、b为系数。
设在一次试验中, 取得n对数据 (xi, yi) (i = 1, 2, …, n) , 这n对数据 (xi, yi) 就是一组样本值, 根据这一组样本值可以寻求一对系数a、b。但由于y是一个随机变量, 所以通过另一组试验又可得到一对a、b的值[5]。也就是说, 可以通过一组数据所得到的系数a、b的估计值, 记作, 通过一组试验数据所求出的回归方程为:
对于每次试验取得n对数据 (xi, yi) , 记yi是随机变量y对应于xi的试验值, 记是试验值yi的回归值。每一个试验值yi与回归值之间的差, 可表示为2 个纵坐标之差, 这个差有正有负, 其绝对值为。我们的目的是找到使所有这些距离之和为最小的一条直线, 即最小。但由于绝对值在处理上比较麻烦, 所以代之以平方和:
这个平方和Q是随着回归系数而变的, 因此, 它是的一个二元函数, 其中xi、yi为常数。根据二元函数求极值的方法, 分别对a、b求偏导数得到:
令
解出回归系数为
其中, 令
公式 (3) 或写成
式中的即为Q的最小值点, 使得达到最小。以为回归系数的直线方程, 就是所要求的回归方程[6,7]。
3.3 数据处理
根据上述算法, 对测试数据进行预处理, 结果见表2。
得到:
计算系数有:。
拟合出的一元一次方程为:
如果某个样本测试得到的吸光度为0.2Abs, 则定量结果为:
4 效果验证
为了验证该算法的效果, 我们使用生化常见的总蛋白 (TP) 与尿素2 个项目, 使用试剂标配的质控品对算法进行验证, 验证项目是CV值。
4.1 试验原理
按照正常的生化项目测试步骤, 设置该验证试验。测试方法为终点法, 使用线性回归作为定量方式, 测试对象为对应项目质控品[8]。在546 nm波长的光源下, 使用比色法测试结果。加入试剂1、样本后测试, 将原始数据记录下来, 其中TP测试结果如图2 所示。
图中实线为反应起始线与终止线, 虚线为加入样本后的时间点。
使用仪器测试后, 记录经过拟合计算出来的定量结果, 记录为xi, 用表示平均值, n为测量的次数, 通常为10 次。S′为标准偏差。按照公式 (5) 、 (6) 计算CV值:
4.2 测试结果
按照上面描述的要求, 测试TP项目与尿素项目, 结果见表3。
根据质控品说明书, TP项目与尿素项目的CV值要求在2.5%之内。上述测试结果满足要求, 该算法是有效可行的。
5 结论
生物化学分析仪在临床检验、动植物疫病、食品安全方面有着广泛的应用。对于目前市场上常见的生物化学分析仪, 本文给出一种定量结果的计算方法, 该方法经过CV值验证, 并且结合临床试验, 证明能满足使用要求。同时一元一次线性回归方法能扩展到幂回归、指数回归等其他算法, 应用范围也可以延伸到工业物质检测、农药残留检测等方面, 有着广泛的意义[9]。
参考文献
[1]易龙强.基于一元线性回归理论的数字正弦信号频率测量算法[J].电测与仪表, 2011, 48 (3) :20-24.
[2]华德宏, 刘刚.一种改进的一元线性回归算法[J].现代电子技术, 2006, 29 (7) :63-68.
[3]孟玲玲, 孙常栋, 韩宝如.基于最小二乘法和独立分量分析的间谐波检测算法[J].电力系统保护与控制, 2012, 40 (11) :76-81.
[4]赵郁森, 陈晓亮.一元线性回归处理逆动态法实验数据[J].原子能科学技术, 2009, 43 (7) :586-589.
[5]汪宏良, 陈丽峰, 胡芳.生物化学分析仪检测结果的临床评价[J].检验医学与临床, 2007, 4 (6) :558-559.
[6]叶德谦, 赵世磊.基于线性回归的关联规则相关性方法的研究[J].计算机研究与发展, 2008, 45 (z1) :291-294.
[7]鲁铁定, 陶本藻, 周世健.基于整体最小二乘法的线性回归建模和解法[J].武汉大学学报:信息科学版, 2008, 33 (5) :504-507.
[8]李克, 叶英植.线性回归中粗差点判别法的改进及其应用[J].仪器仪表学报, 2004, 25 (z1) :723-724.