非线性回归预测方法(精选9篇)
非线性回归预测方法 篇1
0 引言
用电需求即用电负荷,它是电力市场规划的基础,同时也标志着国民经济各部门的发展水平。充足的电力供应是经济发展和社会进步的保证[1]。因此,对于电力行业来说,如何准确地进行用电负荷的预测显得尤为重要,它是发供电部门进行下一月度、季度、年度等电力供应决策的参考基础,关系到电力市场的正常运转与国计民生。
长期以来,用电负荷预测技术得到了长足的发展,国内外涌现出很多科学的预测方法,如伍莹宏、龙新峰[2]等采取了BP神经网络法来对用电负荷进行预测与分析并得出了较为合理的预测结果;尚勇、王茁[3]等基于时间序列建模方法对西北电网的用电需求进行了较为科学的预测与分析等。本文认为,用电负荷预测还有一种较为实用的方法,即回归分析法,由于其具备科学的统计学原理作为理论支撑,这种方法尤其适用在短期用电需求预测领域之中,结果准确,操作简便。基于回归分析思想进行用电量需求分析是本文的主要行文思路,根据往年往季往月的实际用电发生量数据,运用一元回归分析方法进行数学建模,预测出未来短期内可能的用电负荷发生量,并利用合理的误差调整方法对预测结果进行二次处理以期达到科学的预测目的,则是本文的主线与内容。
1 一元线性回归模型概述
我们把可精确观察到的或者说可以精确把握与预测的变量成为自变量x,把依赖于自变量x的随机变量称为因变量y。如果x与y有如下关系[4]:y=a+bx+ε。则我们认为他们满足一元线性回归关系。其中ε被称为随机误差,它服从N(0,σ2),而a、b与σ2都是不依赖于自变量的位置参数。因此,我们如果能运用科学的统计方法,估计出未知参数的估计值,在误差允许的范围内,即σ足够小,就可以得到我们想要的线性回归方程。从而预测出未来我们需要的数据了。
2 模型建立与应用分析
2.1 一元线性回归关系说明
在对电力负荷预测进行建模时,我们通常把时间变量定义为解释变量x,解释变量即为我们之前所说的自变量。把固定时间点或时间段内发生的发电或用电量定义为被解释变量y,被解释变量即为我们之前所说的因变量。而被解释变量与解释变量之间是否存在一元线性回归关系?通常是先通过样本(x,y)来分析的,如果样本点反映在平面直角坐标系上的散点分布大体在一条直线的附近,那我们就可以认为变量之间存在一元线性回归关系。比如,表1中数据是我国2010年全年按月度的用电量统计(数据来源于国家统计局网站)。
将表1中的数据绘成平面直角散点图,即图1。由图1我们可以看到,样本的三点基本上均匀分布在一条直线的两侧,将样本容量扩大,得到的散点就会更加均匀得分布在某条直线的两侧,所以我们有理由认为,在电力负荷预测问题中,自变量x与因变量y满足一元线性回归关系。
2.2 模型建立
我国从2006年至今月度用电量统计如表2(数据来源为国家统计局网站,保留一位小数)。
注:用电量单位(亿千瓦时).
对表2中数据按季度汇总如表3(为了预算简便且不影响分析结果,省略掉2011年头两个月数据),表中按季度编号从小到大分别对应着从2006年第一季度到2010年第四季度。
其中季度序号即是我们的自变量x,电量即为我们的因变量y。分析数据我们认为x与y之间满足一元线性回归关系[5]:
我们利用点估计方法凭借上表所得的样本数据对(1)式中的参数进行估计。下面是运用最小二乘法[6]对参数进行估计的理论推导:
根据我们的假设,我们的样本(xi,yi)满足如下线性回归关系:
yi=a+bxi+εi[εi~N(0,σ2)]。其中,各εi相互独立。
根据最小二乘原理,我们构造离差平方和函数:
为了使得离平方和达到最小,分别对a和b求偏导数:
对(2)进行变形得到:
由(3)式,根据克拉默法则:
从而(3)有唯一解:
此即为两参数的点估计值。
把表3中的样本值数据整理后带入(5)式,
因此,我们根据所给的样本值所估计出来的线性回归方程为:
将x=21,x=22等数据带入方程(7),便可预测出未来两个季度我国的用电量了。
2.3 误差分析与趋势比率调整建模
把x=1到x=20分别代入(7)式,便可得到表4。将表3中的数据与表4中的数据相比较,不难发现,虽然其对应项相差不大,但是却并不相等。这就是我们所要分析的误差。本文认为,不计数值运算中所涉及的四舍五入和保留位数的影响,产生上述误差的原因大体有两种(为叙述方便,下文中所涉及的两种误差系本文自己定义):
(1)实际数据虽然大体分布在某条直线的两侧,满足回归关系,但并不是完全分布在同一条直线上,也就是说他们的变动并不完全是线性的,存在系统误差σ。这是不可回避的。(2)用有限的样本数据估计出来的参数的数值虽然是无偏的估计量,但是依然存在误差,即估计误差或操作误差,它是可以通过增大样本容量、采用更科学的估计法或事后比率调整等方法加以减小的。
本文采用趋势比率调整法[7]来减小操作误差,以期达到更准确的预测效果。
我们称上式所定义的fi为季节趋势比率,它是实际值与估计值的商。见表5。将表5中数据变成百分数,并保留以为小数得到表6,表6中把数据位置进行了调整(表中数量级均为%)。
其中,季节系数行数据是同季平均行对应数据乘以修正系数得来的。修正系数=400/419.9=0.952608
因此,我们所需要的季节趋势比率即为:
从而,我们在预测时,将线性回归方程的预测估计值乘以季节趋势比率所得到的新预测值,就大大的减弱了操作误差所带来的影响,更加接近于真是的数值。如,要预测2011年第三季度的用电量,只需进行如下两部:步骤一:步骤二:经过季节趋势比率调整后的新值T赞=y赞F3=10931.5×105.8347%=11569.32。
3 结论
我们把五年全季度用电量数据制成平面散点图,如图2。
可以看出,所估计的回归直线从点集中间穿过,各季度用电量基本均匀分布在回归直线的两侧。这说明我们的估计是可信的。同时也说明,一元线性回归技术在电力负荷预测工程中是可行的。
用电负荷预测是电力市场的重要研究领域,对电力系统的可靠和经济运行有着巨大的实际意义[8]。本文所采用的线性回归预测技术,很好地解决了电力市场中负荷预测的难题,具有很强的理论与实际应用意义。
摘要:文章采用一元线性回归分析法和趋势比率误差调整法,基于以往五年我国季度月度用电量数据,对未来短期内我国的用电量做出了科学的预测。解决了电力市场短期用电需求预测的实际问题。具有结果误差小,操作简便等优点。
关键词:电力市场,用电需求,线性回归
参考文献
[1]于兰育.东北地区2020年用电需求预测简析[J].能源基地建设,2007,(6):30.
[2]伍莹宏,龙新峰,梁平.广东省用电需求预测与储能式热力发电展望[J].广东电力,2004,12:1.
[3]尚勇,王茁,李焰.西北电网用电需求预测方法研究[J].电工技术杂志,2003,11:51.
[4]赵沛虎.西南两声电力负荷预测与研究[J].科学观察,2010,3:119.
[5]贺辉,刘清良.电力负荷季节指数的测定和分析[J].电力需求侧管理,2010,1:33-36.
[6]王志勇,郭创新,曹一家.基于模糊粗糙集和神经网络的短期负荷预测方法[J].中国电机工程学报,2005,10:7-9.
[7]牛东晓.电力负荷预测技术及其应用[M].北京:中国电力出版社,1998:49-54.
[8]张芳明.电力市场环境下的电力系统扩展短期负荷预测研究[D].湖南:湖南大学,2009:1-8
非线性回归预测方法 篇2
对铁路客运量准确的预测与分析是铁路部门进行相关决策和判断的依据,为此运用灰色模型一线性回归组合预测方法,对武昌站-的`客运量进行预测.预测结果和单一模型相比,组合预测模型考虑的影响因素较多,可操作性强,预测数据综合了内外因素影响,预测结果较为可靠,可作为决策判断的依据.
作 者:谢孝如 蒋惠园 申耀伟 XIE Xiao-ru JIANG Hui-yuan SHEN Yao-wei 作者单位:谢孝如,蒋惠园,XIE Xiao-ru,JIANG Hui-yuan(武汉理工大学,交通学院,湖北,武汉,430063)
申耀伟,SHEN Yao-wei(中铁第四勘察设计院集团有限公司地质与路基设计研究处,湖北,武汉,430063)
非线性回归预测方法 篇3
关键词:南充市;回归预测模型;城市化水平一、引言
城市化是现代最有力也是当今世界上持续最长最稳的发展趋势之一。是人口向城市集中的过程[1],其水平的高低也逐渐成为能够反映一个地区经济发展好坏的重要标志。南充市历史悠久,建城至今已有2200多年,独特的文化气息加其特殊的地理位置,从古至今一直是川北重镇,是川东北政治、经济、文化中心和水陆交通要道。自改革开放以来,南充市城市建设突飞猛进,城市化速度加快。2004年,四川省的南充与攀枝花、绵阳、自贡一起,跨入大城市之列[2]。最近,南充市政府正在加大新型城镇化的发展,作为最能代表城市发展的城市化水平指标便显得尤为重要。至2014年南充市全市建成区面积达到228平方公里,其中主城区建成区面积达到113平方公里;农业人口579.95万人,非农人口179.08万人。城市化水平的发展受地理位置、社会经济、自然条件与政治因素等诸多因素的影响,在其城市发展过程中需扬长避短,驱利避害,明确城市的定位,在城市化水平稳步提升的同时其城市布局,产业结构也能够得到健康的调整。本文基于线性回归模型以南充市为例,以其近几年人均GDP和城市化发展水平作为主要依据,建立合适的回归模型,系统的对南充市2020年城市化水平进行预测。
二、假设及建立模型
为了探究四川省南充市城市化的相关问题,用南充市城市人口占其总人口的比重作为衡量城市化水平的指标(设为因变量y),用南充市人均国内生产总值作为衡量经济发展水平的指标(设为自变量x),基于此,分析数据,第一步构建散点图从南充市统计年鉴中获取了1997~ 2014年的城市化水平及人均国内生产总值的统计数据并制成散点图(图1)。
由图1可知,城市化水平随着经济发展水平的提高也相应提升,且近似于一条直线,从而近似认为在1997-2014年间城市化水平y与国内人均生产总值x之间存在着线性关系.
第二步,确立模型。基于以上假设,即可列出一元线性回归的数学模型:yα=β0+β1xα+εα,在上式中,yα是作为代表城市化水平的因变量;xα是作为爱代表人均GDP的自变量,α的取值范围为1997-2014;β0和β1为待定系数;εα为各种随机因素对因变量yα的影响。在数学模型yα=β0+β1xα+εα中,为了确定待定系数β0和β1的值,需采用一定的方法对β0,β1进行估计。若得出的结果为β^0,β^1,即β^0,β^1为β0,β1的估计值,那么就称函数y^=β^0+β^1x为因变量y关于自变量x的一元线性回归方程[3]。
第三步,确定系数。由上述模型可知,为得到相应的函数,首要任务就是确定待定系数β0和β1,最常用的确定估计值的方法是最小二乘法。因其估计出来的β^0,β^1所做出的直线能够最大化接近实际各点数据,也就是说,它能最直接准确地反应变量之间的线性关系。经计算,求出的回归系数(计算过程略):β^1=1.349×10-5 β^0=15.8% 从而得到回归方程为y=15.8%+1.349×10-5x
三、模型的有效性检验
(一)回归方程的F检验。对回归方程进行F检验,第一步计算出上式回归方程的F值,再通过查询F分布表,找出Fα(1,n- 2)的值,若计算出的F值大于所查得的Fα(1,n- 2)的值,则可判定所得出回归方程具有显著性。其中F值的计算公式为:F=SrSe/(n-2),Sr为回归平方和,Sr=∑ni=1(y^i-y-)2,代表x的变化对y的影响;Se被称为残差平方和,Se=∑ni=1(yi-y^i)2,代表实验误差以及其他因素对y值的影响。而St=Sr+ Se称为总离差平方和,代表回归方程的总体误差。第二步,查询F分布表并计算F值。先确定显著性水平α= 0.05,即方程准确程度为95%。在对应的α表中,Fα(1,n-2)的值为相对应α表中(1,n-2)所代表的数值。经计算(计算过程略),F= 84.71查表F0.05(1,18- 2)= 4.49。第三步,比较二值大小可得F>F0.05(1,18- 2),说明在95%的方程准确度的水平下,所算得的回归方程具有显著性意义。
(二)相关系数检验。相关系数是用以反映变量之间相关关系密切程度的统计指标,其线性相关系数R的计算公式为R=LxyLxxLyy其中,Lyy=∑ni=1(yi-y-)2,相关系数的取值范围是 R ≤ 1。经计算,R=09171638,近于1.若R>Rα(n-2),则认为回归方程的线性相关水平是显著的.查询相关系数R检验表:在显著性水平α= 005表中找到n-2所代表的数值,查询可得R0.05(18- 2)= 0.468。相比较可知 R>R0.05(18- 2),说明了在精确度为95%的水平下(即α=005),回归方程的线性相关水平是显著的。
根据以上回归方程的F检验和相关系数检验说明,由城市化水平与人均GDP数据之间建立的城市化水平回归预测模型符合预测要求,可用于南充市城市化水平预测。
四、模型预测
y0的准确程度为95%的取值区间为(y0-2S,y0+2S),其中S2=Sen-2,其中Se=0.0273897,则S= 0.04137458.根据南充市2020年国民经济和社会发展目标,全市人均GDP预计达到39113元。根据回归预测模型y=15.8%+1.349×10-5x计算可得y0=0.685。准确程度为95%(α= 0.05)的取值区间为(60.5%,76.5%),这一结果表明,到2020年,南充市的城市化水平在60.5%至76.5%之间。
五、结论
第一,由于线性回归预测模型能够很好的反应出城市化水平和人均GDP之间的线性关系,所以本文运用线性回归模型预测南充市城市化水平具有较高的精确度和说服力。
第二,南充市城市化水平和人均GDP存在着正比关系,两者互为线性关系,根据南充市回归预测模型的预测,2020年南充市的城市化水平将达到68.5%,其波动范围将在60.5%-76.5%之间,其波动范围较大,证明南充市近几年的发展速率存在着不平稳的情况,波动起伏较大,因此,南充市在经济发展的同时更要注重如何平稳的发展。
第三,随着国家对西部的发展政策日益完善,得益于西部大开发战略,南充市在2000年的国民经济得到了跨越式的发展,在此阶段人民的生活水平质量得到明显提高,进而影响了城市化水平的快速提升。但相比于一些发达地区仍然有较为明显的差距,如何完善经济政策,改良产业结构,改善投资环境仍然是阻碍发展的大问题
参考文献:
[1]许学强,周一星,宁越敏.城市地理学[M].北京:高等教育出版社,1997:43.
非线性回归预测方法 篇4
1 线性回归分析的数学模型简介
一个自变量与因变量的线性关系可以由一个数学方程表达出, 即一元线性回归方程, 记作Y' = a + bx ( a, b确定) 。
一元线性回归模型为:
其中, X为自变量; ε 为除了自变量外其他的因素对因变量的影响, 由式 ( 1) 可以得到:
称Y的条件期望E ( Y| X) = β1X + β2为Y对X的回归。
设 ( yi, xi) , i = 1, 2, …, N为对样本观察值, 则一元线性回归有如下数据结构:
εi~ N ( 0, σ2) , 且相互独立。
本文中不考虑其他因素对因变量的影响, 只考虑单因素的影响。我们所要计算的参数就是方程中的 β1和 β2。
由于回归分析的计算量极大, 使用手工计算非常繁琐, 因此需要用到回归分析的Microsoft Excel软件求解方法。
2 住宅需求量影响因素分析
针对影响住宅需求量的因素, 在参考了一些文献后, 选取了三个具有代表性的影响因素即: 城镇居民可支配收入、房价、城市常住人口。
2. 1 厦门市城镇居民可支配收入对住宅需求量影响分析
厦门市经济的快速发展导致厦门市人均可支配收入每年都在以一定的比例增长。从有关资料中可以查出2003 年, 厦门市居民可支配收入12 915. 12; 2013 年, 厦门市居民可支配收入41 360. 40, 相比10 年前增长了快3 倍, 年平均增长率达到12. 35% 。
与此同时, 厦门市住宅销售面积也跟着逐年增长。从2003年的1 867 448 m2的销售面积增长到2013 年的6 153 435 m2的销售面积, 比2003 增长近3 倍, 年平均增长率达到12. 67% 。历年城镇居民生活收支情况见表1。
由图1 可猜测厦门市居民人均可支配收入与住宅销售面积之间存在正线性相关关系。
为验证猜测可信度, 本文使用Excel软件进行线性回归分析, 结果如图2 所示。
由图2的输出结果, 可得到回归系数为β1=138, β2=113 759。
故所求回归方程为:Y=138X+113 759。
即厦门市居民可支配收入增加1 元, 年住宅销售面积将增加138 m2。再由图2 可知相关系数 ( Multiple R) 为0. 906 >0. 8。即城镇居民可支配收入与住宅销售面积具有高度相关性。
2. 1. 1 线性关系的检验
由图2 可知用于检验的显著性F, 即Significance F, 它就是用于检验的P值。将“Significance F”的值与给定的显著性水平 α 的值进行比较 ( 显著水平 α = 0. 05) 。当Significance F < α, 则表明因变量Y与自变量X之间有显著的线性关系; 如果Significance F > α, 则没有证据表明因变量Y与自变量X之间有显著的关系。在图2 输出的结果中, Significance F = 0. 000 121 977 < α = 0. 05, 这说明住宅销售面积与厦门市城镇居民可支配收入之间存在显著的线性关系, 所得结论与统计量检验相同。
2. 1. 2 回归系数的检验
回归系数的显著性检验就是检验回归系数 β1是否等于0。图2 中除了给出检验的统计量, 还给出了用于检验的P值 ( P-value) 。当P-value < α, 则表明因变量Y与自变量X之间有显著的线性关系; 如果P-value > α, 则没有证据表明因变量Y与自变量X之间有显著的关系。由Excel得出的图2 中可以知道P-value =0. 000 121 977 < α = 0. 05, 这说明住宅销售面积与厦门市城镇居民可支配收入之间存在显著的线性关系, 所得结论与统计量检验相同。
2. 2 厦门市房地产价格对住宅需求量影响分析
历年房价与住宅销售面积情况见表2。
利用Microsoft Excel软件绘制以住宅销售面积为Y轴, 厦门市房价为X轴的散点图, 分析住宅销售面积与房价的相关性。
由图3 可猜测厦门市房价与住宅销售面积之间存在正线性相关关系。为验证猜测可信度, 本文使用Excel软件进行线性回归分析, 结果如图4 所示。
由图4 的输出结果, 可得到回归系数为:
故所求回归方程为:
即厦门市房价提高1 元, 年住宅销售面积将增加235. 3 m2。再由图4 可知相关系数 ( Multiple R) 为0. 888 > 0. 8, 即厦门市房价与住宅销售面积具有高度相关性。
2. 2. 1 线性关系的检验
由图4 中可知用于检验的显著性F, 即Significance F, 它就是用于检验的P值。将“Significance F”的值与给定的显著性水平 α的值进行比较 ( 显著水平 α = 0. 05) 。当Significance F < α, 则表明因变量Y与自变量X之间有显著的线性关系; 如果Significance F > α, 则没有证据表明因变量Y与自变量X之间有显著的关系。在图4 的输出的结果中, Significance F = 0. 000 258 186 < α =0. 05, 这说明住宅销售面积与厦门市房价之间存在显著的线性关系, 所得到的结论与统计量的检验一致。
2. 2. 2 回归系数的检验
回归系数的显著性检验就是检验回归系数 β1是否等于0。图4 中除了给出检验的统计量, 还给出了用于检验的P值 ( P-value) 。检验时可直接将P-value与给定的显著性水平 α 进行比较。当P-value < α, 则表明因变量Y与自变量X之间有显著的线性关系; 如果P-value > α, 则没有证据表明因变量Y与自变量X之间有显著的关系。由图4 可知P-value = 0. 000 258 186 < α = 0. 05, 这说明住宅销售面积与厦门市房价之间存在显著的线性关系, 所得结论与统计量检验相同。
2. 3 厦门市常住人口对住宅需求量影响分析
2013 年为止, 厦门市的人口有373 万人, 比2003 年的245 万人增多了128 万人, 增长了62. 3% , 每年增长率接近5. 01% , 明显比全省范围内的城市人口增长率高的多。因此, 厦门市也成为福建省人口第四多的城市。人口的快速增长也导致厦门市居民住宅需求量的变化。历年厦门市人口与年住宅销售面积情况如表3所示。
利用Microsoft Excel软件绘制以住宅销售面积为Y轴, 厦门市人口为X轴的散点图, 分析住宅销售面积与常住人口的相关性。
由图5 可猜测厦门市人口与住宅销售面积之间存在正线性相关关系。为验证猜测可信度, 本文使用Excel软件进行线性回归分析, 结果如图6 所示。
由图6 的输出结果, 可得到回归系数为:
故所求回归方程为:
即厦门市常住人口增加1 万人, 年住宅销售面积将增加29 008. 8 m2。再由图6 可知相关系数 ( Multiple R) 为0. 916 >0. 8。即厦门市常住人口与住宅销售面积具有高度相关性。
2. 3. 1 线性关系的检验
由图6 中可知用于检验的显著性F, 即Significance F, 它就是用于检验的P值。将“Significance F”的值与给定的显著性水平 α的值进行比较 ( 显著水平 α = 0. 05) 。当Significance F < α, 则表明因变量Y与自变量X之间有显著的线性关系; 如果Significance F >α, 则没有证据表明因变量Y与自变量X之间有显著的关系。在Excel得出图6 的输出的结果中, Significance F = 0. 000 074 617 < α =0. 05, 这说明住宅销售面积与厦门市常住人口之间存在显著的线性关系, 所得结论与统计量检验相同。
2. 3. 2 回归系数的检验
回归系数的显著性检验就是检验回归系数 β1是否等于0。图6 中除了给出检验的统计量, 还给出了用于检验的P值 ( P-value) 。检验时可直接将P-value与给定的显著性水平 α 进行比较。当P-value < α, 则表明因变量Y与自变量X之间有显著的线性关系; 如果P-value > α, 则没有证据表明因变量Y与自变量X之间有显著的关系。由图6 可知, P-value = 0. 000 074 617 < α = 0. 05, 这说明住宅销售面积与厦门市常住人口之间存在显著的线性关系, 所得结论与统计量检验相同。
3 厦门市住宅市场需求量预测
3. 1 基于居民可支配收入对未来几年厦门住宅需求量的预测
由前文可知2013 年居民可支配收入为41 360. 40 元, 年增长率为12. 68% , 可预测[8]未来三年的居民可支配收入:
2014年:41 360.40× (1+0.123 5) =46 468.41元。
2015年:46 468.41× (1+0.123 5) =52 207.26元。
2016年:52 207.26× (1+0.123 5) =58 654.86元。
将上式结果分别代入回归方程:
即得各年住宅销售面积:
2014年:Y=138×46 468.41+113 759=6 526 399 m2。
2015年:Y=138×52 207.26+113 759=7 318 361 m2。
2016年:Y=138×58 654.86+113 759=8 208 130 m2。
3. 2 基于房地产价格对未来几年厦门住宅需求量的预测
由数据可计算的从2003 年至2013 年房价年均增长率为20. 6% , 则可预测未来几年房价:
2014年:20 697.43× (1+0.206) =24 961.10元。
2015年:24 961.10× (1+0.206) =30 103.09元。
2016年:30 103.09× (1+0.206) =36 304.32元。
将上式结果分别代入回归方程:Y=235.3X+1 269 608。
即得各年住宅销售面积:
2014年:Y=235.3×24 961.10+1 269 608=7 142 955 m2。
2015年:Y=235.3×30 103.09+1 269 608=8 352 865 m2。
2016年:Y=235.3×36 304.32+1 269 608=9 812 014 m2。
3. 3 基于常住人口对未来几年厦门住宅需求量的预测
由数据可知过去10 年厦门市常住人口年增长率为5. 57% , 由此可预测未来几年厦门市常住人口数量:
2014年:373× (1+0.055 7) =394万人。
2015年:394× (1+0.055 7) =416万人。
2016年:416× (1+0.055 7) =439万人。
将上式结果分别代入回归方程:
即得各年住宅销售面积:
2014年:Y=29 008.8×394-5 607 959=5 821 508 m2。
2015年:Y=29 008.8×416-5 607 959=6 459 702 m2。
2016年:Y=29 008.8×439-5 607 959=7 126 904 m2。
3. 4 综合三个因素对未来几年厦门住宅需求量的预测
综合三个因素对未来几年厦门住宅需求量的预测, 取三者平均值为预测, 即:
2014 年销售面积= ( 6 526 399 + 7 142 955 + 5 821 508) ÷ 3 =6 496 954 m2。
2015 年销售面积= ( 7 318 361 + 8 352 865 + 6 459 702) ÷ 3 =7 376 976 m2。
2016 年销售面积= ( 8 208 130 + 9 812 014 + 7 126 904) ÷ 3 =8 382 349 m2。
3. 5 厦门市住宅需求量预测结果
经计算得到未来几年的厦门市住宅需求量的预测值, 2014 年厦门市的住宅需求量为6 496 964 m2; 2015 年厦门市的住宅需求量为7 376 976 m2; 2016 年厦门市的住宅需求量为8 382 349 m2。
4 结语
本文通过对厦门市住宅需求量影响因素定量和定性的分析, 得到以下几个结论:
1) 影响厦门市住宅需求量的因素很多, 本文主要研究了以下三个因素: 厦门市城镇居民可支配收入、厦门市房价以及厦门市常住人口数量。这三个因素与厦门市住宅需求量都存在正相关关系, 并且影响比较大。2) 通过线性回归分析, 根据历史统计资料和获得的数学模型预测出厦门市2014 年—2016 年的住宅需求量分别为6 496 964 m2, 7 376 976 m2, 8 382 349 m2。3) 本论文样本数据不完善。由于我国住宅市场形成和发展时间较短, 数据资料统计不完全, 所以无法收集到更多, 更详细的有效资料, 因此这会在一定程度上影响预测的准确性。4) 社会在不同的经济发展阶段的情况下, 人们对住宅存在不同层面上的需求, 因此本文的结论并不是在任何情况下都可以成立。
参考文献
[1]Abraham, J.M, P.H.Hendershott.Bubbles in Metropolitan Housing, Journal of Housing Research, 2010:191-207.
[2]王金明, 高铁梅.对我国房地产需求和供给函数的动态分析[J].中国软科学, 2011 (4) :12-16.
[3]吴群.供给关系对大都市商品住宅价格作用机理的分析——以南京市为例[J].中国土地科学, 2010 (2) :51-56.
[4]武秀丽, 张锋.时间序列分析法在住宅需求量预测中的应用——以广州市的数据为例[J].科学技术与工程, 2011 (21) :26-29.
一种改进的线性回归预测模型 篇5
所谓数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。目前,数据挖掘的主要研究领域可分为分类、预测、聚类、关联规则等方面。预测是数据挖掘研究的一个重要分支,它是数据挖掘的众多知识类型中的一种,有着极其重要的应用价值。预测是指对未来不确定事件的预见和推测。预测事件之所以不确定,是由于事件的发展受多种因素影响的结果。因素多少是不确定的,各种因素对事件影响程度也是变化的,预测时很难把握。尤其偶然因素变化情况和影响程序更难把握,所以事件的未来变化过程和结果的预测,必然与实际存在一定误差,但是并非说预测没有价值,因为现代科学的预测能够把握住事物的内在联系和发展规律,缩小预测结果与实际的差距。到目前为止,最广泛使用的数值预测方法是回归。
销售预测是企业决策的重要组成部分。销售预测是以市场商品购销为主要对象,预见和推测商品的各项购销活动、价格和竞争状况的变化趋势与结果。对于若干药品,用一元线性回归预测模型预测它们的销售金额,显然计算量比较大。现提出一种改进的线性回归预测模型,该模型和一元线性回归预测模型相配合,预测若干个药品的销售金额,能提高效率,减少计算量。
1 一元线性回归分析算法模型及其求解方法
线性回归分析涉及一个响应变量y和一个预测变量x。它是最简单的回归形式,并用x的线性函数对y建模。即:
y=b+wx (1)
式(1)中y的方差假定为常数,b和w是回归系数,分别指定线性的Y轴截距和斜率。回归系数b和w也可以看作权重,因此可以等价地记作
y=w0+w1x (2)
这些系数可以用最小二乘法求解,它将最佳拟合线性估计为最小化实际数据与线性的估计值之间的误差的线性。设D是训练集,由预测变量x的值和它们的相关联的响应变量y的值组成。训练集包含
其中,
2 改进的一元线性回归分析预测模型
yn=kxn (5)
式(5)中yn是响应变量,预测的是相互关联的某药品n个月的总销售额。xn是预测变量,是已经预测出来的相互关联的某药品n个月的总销售额。
k表示的含义是用将要预测的某药品n-1个月的实际总销售额除以已经预测出来的某药品n-1个月的实际总销售额。
第n个月的销售额:yn-yn-1 (7)
yn-1为第n-1个月的某药品的总销售额。
3 预测误差度量
预测值与实际值总会有一定的偏离,这种偏离即称为预测误差[3]。预测的未来时间越长,预测的可靠性就越低,预测误差就越易于扩大。在实际工作中,销售预测结果往往是为销售经营决策提供依据的,因而如何评定销售预测结果的精确度,如何事先判断销售预测误差,就成为销售预测工作不可缺少的一环。
研究预测误差,一般采用比较法,将预测计算值与实际值相减,其相差的部分称为预测误差。如果用Xi表实际值,Fi代表预测值,Ei代表预测误差,则
Ei=Xi一Fi或Ei= Fi一Xi (8)
衡量总的预测误差,常用的有以下几种统计量。
3.1 平均误差
计算公式
计算平均误差虽然比较简单,但在许多情况下,误差的总和由于E的正负相互抵消,难以用平均误差的大小法说明预测结果的可靠程度,因此一般不采用此法。
3.2 绝对误差
计算公式
采用绝对误差,克服了误差正负相互抵消的弊端,根据E的数值大小,能够反映预测结果的准确程度。
3.3 平均绝对值误差
计算公式
采用平均绝对值误差,它能够反映整个序列的预测精确度,在实际工作中,使用此法较多。
4 改进的模型应用——药品销售预测
在本节首先利用线性回归预测算法来预测相互关联的某一种药品的销售额,然后根据这个销售额,利用改进的线性回归算法来预测另一种药品的销售额。
4.1 数据准备与处理
首先声明,这些数据来自渭南市某药材公司2008年3月份的销售数据库。
浏览该数据库时发现,许多顾客在购买药品时经常购买“小5%糖”和“小盐水”这两种药品,说明这两种药品之间存在着某种关联,因此选择它们作为预测对象。
要预测某种药品的月销售额,就要把其前面几个月的销售情况统计出来,用它们来预测该类药品的月销售额。统计出来的这些数据来自渭南市某药材公司的销售记录,统计出4月份、5月份和6月份小5%糖和小盐水的的月销售额,然后用它们来预测7月份月销售额。统计出来的数据见表1。
从第二行可以看出,小盐水的销售额从4月份到5月份的销售额是升了,但从5月份到6月份的销售额是降了,并不是呈线性增长,不能用线性回归进行预测。所以要把表1中的数据进行转换,把它转换成线性的。那么如何转换线性的数据?思路是:把每月的销售额进行累加,4月份算作是一个月的销售额;5月份统计出的数据是某药品4月份的销售额加上5月份的销售额,一共是两个月的销售额;6月份统计出的数据是4月份的销售额加上5月份的销售额再加上6月份的销售额,一共是三个月的销售额。也就是说,4月份对应的是一个月的销售额,5月份对应的是两个月的销售额,6月份对应的是三个月的销售额,如此类推。转换的结果如表2所示。
4.2 月销售额的预测
预测的思路是:要预测某种药品第n月的销售额,首先要预测出总共n个月的销售额,然后减去总共(n-1)个月的销售额,就是预测的第n个月的销售额。
下面,首先利用线性回归分析预测出“小5%糖”总共4个月的销售额,然后用改进的线性回归分析预测处“小盐水”总共4个月的销售额,再用“小盐水”总共4个月的销售额减去总共3个月的销售额,就得到7月份“小盐水”的销售额。
1) 估计“小5%糖”的最小二乘直线的方程
计算平均用了多少月
计算平均销售额
根据式(3)计算w1的值:
w1=[(1-2)(14 129-27 770)+(2-2)
(27 587-27 770)+(3-2)(41 593-27 770)]
/[(1-2)2+(2-2)2+(3-2)2]=13 732元。
根据公式(4)计算w0的值:
w0=27 770-13 732-2=306。
根据公式(2)最小二乘直线的方程估计为:
y=306+13 732x (13)
2) 预测“小5%糖”和“小盐水”7月份的销售金额根据式(13)计算“小5%糖”总共4个月的销售额
y4=306+13 732×4=55 234元。
根据式(7)“小5%糖”7月份的销售额预测为
y4-y3=55 234-41593=13 641元。
根据式(6)计算k值
根据公式(5)预测“小盐水”总共4个月的销售额为:y4=0.853-55 234=47 116。
因为总共4个月的销售额为4月份的销售额加上5月份的销售额加上6月份的销售额加上7月份的销售额,所以,根据公式(7)“小盐水”7月份的销售额预测为
y4-y3=47 116-35 480=11 636元。
以此类推,预测“小5%糖”和“小盐水”8月份、9月份、10月份、11月份和12月份的销售金额。预测结果如表3所示。
为了进一步作比较,下面再用一元线性回归预测模型预测“小盐水”的7月份、8月份、9月份、10月份、11月份和12月份的月销售金额,预测的过程和“小5%糖”的预测过程类似,不再赘述,预测的结果如表4所示。
把药品“小盐水”利用改进的线性回归分析预测的结果和利用线性回归分析预测的结果都和实际的月销售金额做了比较,得到的结果如表5所示。
5 结束语
从平均绝对值误差的计算结果来看,改进的线性回归分析预测模型和线性回归分析预测模型相同,说明改进的线性回归分析预测模型是可行的、有效的。从效率上看,改进的线性回归分析算法也优于线性回归分析算法。从理论上看,预测的药品的种类越多,算法的效率就越高。下一步要做的工作是进一步提高改进的线性回归预测模型的的准确度。总之,通过把数据挖掘技术运用到医药销售预测中去,可以更加客观和有效地对医药销售情况加以分析,并从中得到有价值的信息;同时为管理决策部门在销售、采购等诸多方面提供参考,为企业的管理决策提供科学的依据。
参考文献
[1]邵峰晶,于忠清.数据挖掘—原理与算法.北京:中国水利水电出版社,2003:36—43
[2]Han Jiawei,Kamber M.数据挖掘:概念与技术(原书第2版).范明,孟小峰译.北京:机械工业出版社,2008:231—233
非线性回归预测方法 篇6
一、资料来源
本文资料来源于南浔区某二级医院2004-2013年门诊人次的统计报表, 见表1。
二、预测方法
根据表1的数据, 以时间作为X轴, 门诊人次为Y轴, 在直角坐标系中作散点图, 见图1。
由图1可见, 随着时间的推移, 门诊人次在增长, 门诊人次Y与时间X呈线性关系, 故用最小平方法建立回归模型。
三、结果与分析
(一) 建立直线回归模型
利用表2的数据求得参数b=2.00, a=4.54。得回归方程为
(二) 用t对回归系数的显著性进行检验
则p<0.05, 说明回归系数b有统计学的意义, X与Y线性相关。
3.3对门诊人次进行点预测和区间预测
当X=11, 12, 13, 14, 15时, 分别对2014年, 2015年, 2016年, 2017年, 2018年门诊人次进行点预测, 由于点预测会存在误差, 会随着a的波动而改变, 而a的波动大小可用其标准差Sa来衡量, , 预测范围由求得, 见表3。
四、讨论
建立线性模型, 利用最小平方法进行计算预测是一种比较常见的方法, 还可用来预测住院人次, 它的原理是:使直线上各估计值与观察值Y之间的平方和∑ (-) 2为最小。
近年来, 该院门诊人次不断上升, 主要原因为:南浔区城镇建设规模越来越大, 特别是高铁建成通车后, 交通更为便利。南浔区与上海邻近, 南连嘉兴, 北濒太湖, 东接江苏省苏州市吴江区, 现已成为外来务工人员密集地, 随着经济的不断发展, 南浔区各二级医院更新改造了医院的硬件设施设备。以上述医院为例, 自2007年来, 医院改扩建了门诊及住院病房大楼, 门诊大厅环境优雅, 各科室设置分布合理, 就诊条件舒适, 拥有了本地区最先进的辅助检查设备仪器, 还是湖州市唯一一家拥有四维彩超设备的医院, 这也促使了门诊量的明显快速增长。同时该院作为一家与杭州浙一医院保持了多年协作关系的综合性医院, 技术力量雄厚, 医疗及护理水平不断提高, 满足了人们日益增长的医疗服务需求, 为该院带来了良好的经济效益与社会效益。
这十年来, 虽然该院门诊量节节攀升, 但仔细分析会发现, 在2007年、2008年刚刚进行了改扩建后, 由于门诊硬件设施设备全面改观, 上升幅度最大, 达20%-35%, 而2006年以前, 以及从2009年后开始, 门诊人次的上升幅度已趋缓, 基本在10%左右, 这就意味着医院要长久发展, 不仅仅在于加大投资, 促进硬件建设, 而且要加强技术力量, 提高医务人员业务素质和服务质量着手, 做到真正为病人服务, 为病患解除痛苦, 充分发挥资源效益的内涵。
随着医疗改革的不断深化, 南浔区各家二级医院药品实施零差率销售, 医院在取消药品销售利润的同时, 按规定调高了医疗服务的价格。该院为配合医改还出台相关办法, 考核各个科室的门诊均次费用, 费用降低有奖励, 上升则要扣奖, 另外每个月还会发放群众满意度考核表, 要求病人对医务工作者进行满意度测评, 病人反映的问题都要求及时整改, 同时还加大了奖惩力度, 满意度测评在95%以上有所奖励, 低于90%则要扣奖。因此, 该院自医改以来, 2013年的门诊量已达到24.49万人次, 同比增加9.31%, 医院门诊收入增加了4.37%, 门诊均次费用119.50元, 同比下降5.17%。
我们通过建立线性回归模型预测该院未来几年的门诊人次, 将有利于该院的管理规划, 促使医院稳步健康地发展, 同时通过预测门诊收入, 合理控制并降低门诊均次费用, 提升医院服务水平和技能, 使老百姓得到实惠, 这不仅有效缓解了群众看病难、看病贵问题, 有力保障了人民群众的健康权益, 更是促进了社会和谐, 促进了医疗卫生事业的协调发展。
参考文献
[1]徐艳莉, 王黎.用最小二乘法预测医院住院人数[J].中国医院统计, 2008, (3) .
非线性回归预测方法 篇7
第一步, 利用SPSS对已知的商品住宅价格、工资收入以及GDP的十年数据进行相关性分析, 得出数据间的相关系数, 根据这些相关系数的大小来判断数据间是否有强联系, 为下面进行预测模型的建立的合理性提供依据。
第二步, 本文运用多元线性回归算法进行数据预估。首先把与商品住宅有强联系的数据类作为自变量, 把商品住宅价格作为因变量, 分别对强联系的数据类和商品住宅价格进行曲线多项式拟合, 大致确定商品住宅与其强联系数据类之间的影响关系, 通过分析它们之间的关系进行多元回归数学模型的建立。
第三步, 通过历史数据对模型进行检验, 并评价预测模型。
2 多元线性回归算法
回归分析 (Regression) 是一种应用广泛的统计分析方法, 在金融、经济、医学等领域都已成功应用。他应用于分析数据间的统计关系, 侧重观察变量之间的数量变化规律, 并通过回归方程的形式描述和反映这种关系。回归分析一般解决以下问题:确定自变量与若干因变量之间关系的定量表达式, 即回归方程式, 并且确定它们关系的密切程度;运用控制可控变量的数值, 借助于所求出的方程式来预测或控制自变量的取值;运行因素分析, 从影响变量变化的因变量中, 寻找出哪些因素对因变量产生了影响[5]。
2.1 相关性判别
相关分析用于描述两个变量之间关系密切程度, 它反映的是当控制了其中一个变量的取值后, 另一个变量的变异的程度。根据所得数据, 本文应用Pearson相关系数来对数据见联系强度进行判断。
Pearson相关系数计算公式为:
其中, n为样本个数, xi和yi为要分析相关性的两变量, r即为两变量的相关系数。当0≤|r|≤0.3时两变量为弱相关, 当0.3<|r|≤0.5时为低度相关, 当0.5<|r|≤0.8时为显著相关, 当0.8<|r|≤0.1时为高度相关。
2.2 线性回归模型
回归算法的基本步骤:首先把与所要预测的因变量相关度最高的自变量引入到线性方程中去, 再把相关性次高的自变量带入方程, 在带入次高变量后, 如果模型中的变量的F检验小于0.10, 则后带入的变量将不会被模型所接纳。如此不断带入自变量进行循环, 不断排除模型不需要的变量, 直到所有变量都已经被筛选过, 就得出最优回归模型。模型形式为:
其中, F作为多元线性回归显著性检验统计量, 其定义公式为:
p为多元线性回归方程中的解释变量的个数。F服从 (p, n-p-1) 个自由度的F分布。
3 实际模型实验
3.1 相关性分析
首先分析GDP、市民收入与商品住宅价格之间的相关性。目的是观察GDP、市民收入与商品住宅之间相关性强度。
通过相关性分析得出商品住宅价格与GDP以及市民收入的相关系数分别为03.976、0.996, 皆为高度相关, 所以GDP与市民收入为影响商品住宅价格的主要影响因子。
3.2 模型建立
下面开始建立模型。根据已知数据, 用Matlab分别做出GDP、市民收入与商品住宅价格的关系拟合图, 并求得拟合曲线方程。
经过以上曲线拟合我们得出:商品住宅价格与GDP为二次函数关系, 与市民收入为一次函数关系。通过房价与GDP、市民收入之间的函数关系, 我们开始建立多元回归模型方程如下。
设商品住宅价格y与GDP为x1、市民收入x2满足如下关系:
输入数据, 利用SPSS计算出回归模型方程中的参数β0、β1、β2、β3得出方程为:
3.3 模型检测与评估
根据已知武汉商品住宅数据对模型进行检测, 检测结果如下表:
通过上表可以看出检验结果误差较小, 最大误差值为286.6150, 最小误差值为6.6280, 平均误差值为142.1266。所求得模型可以应用于实际预测之中去。
4 小结
本文所得多元线性回归模型基本能够在误差要求范围内预测3年内商品住宅价格。模型稳定性较好。对房地产市场有影响的因子很多, 本文只寻找出两种相关性较高的因子, 但房地产市场会受到一些突发性事件影响世界经济危机、国家政策调控等, 而次模型还不具备对突发性影响的应对机制, 这有待进一步研究。
摘要:随着我国住房制度的商品化改革, 我国住宅产业蓬勃发展, 逐渐成为影响国计民生的重要产业之一。本文的主要目的是挖掘武汉商品住宅价格变化数据、市民工资收入和GDP数据间的关系, 对商品住宅价格的影响因子进行全面的剖析, 运用相关性算法得出各影响因子所占权重, 通过多元线性回归模型来预测商品住宅价格走势。
关键词:商品住宅价格,多元线性回归,预测模型
参考文献
[1]张红, 李文诞.北京商品住宅价格变动实证分析[J].中国房地产金融, 2001 (3) .
[2]周京奎.房地产价格波动与投机行为[J].当代经济科学, 2005 (7) .
[3]Geoffrey Meen, Mark Andrew.Modeling Regional House Prices:A Review of the Literature by The Centre for Spatial and Real Estate Economics[D].Department of Economics, The University of Reading, 1998.
[4]Stuart A Gabriel, Joe P.Mattey'William L.Wascher.House Price Differentialsand Dynamics Evidence from the Los Angeles and San Francisco Metropolitan Areas[J].Real Estate Economic, 2000.
非线性回归预测方法 篇8
广西地处低纬度地区, 雨、热资源丰富, 且两热同季。广西年降雨量在1, 000毫米~2, 800毫米之间。在4月~9月间降雨量占年降雨量的75%, 雨季恰好与热季重叠。雨热同季, 较有利于农业生产。
2 广西省粮食总产量的预测模型
根据各影响因素和粮食总产量的数据, 来分析它们之间的关系。许多学者对它们的关系进行了深入的研究, 本文就广西省的粮食单产、降水量、种植面积三个因素与粮食总产量的数据利用多元线性回归模型来分析对粮食总产量的影响。
现在, 我们利用回归分析的方法, 设定这些变量之间有统计的线性关系, 建立多元线性回归模型为:y=b0+b1x1+b2x2+b3x3
x1表示粮食单产, x2表示种植面积, x3表示降水量, y表示粮食总产量, b0为常数项, bi为参数xi回归系数, 表示在其他所有自变量不变的情况下, 自变量xi每变化一个单位, 引起因变量y平均变化的数值。
利用SPSS对数据进行统计分析, 分析方法采用EN-TER方法。自变量选择粮食产量, 因变量选择粮食单产, 种植面积, 年平均降水量。
从方差分析的结果可以看出, 显著性水平为0.020, 该模型具有统计学意义。
从分析的结果可以看出, 常量b0为-517.757, 粮食单产x1的系数为0.158, 种植面积x的系数为0.382, 降水量x3的系数为-0.001。得出粮食产量与种植面积, 粮食单产, 降水量的模型:y=-517.759+0.158x1+0.382x2-0.001x3
从模型可以看出来, 对粮食产量贡献最为明显的因子是种植面积, 其次是单位面积产量。随着可耕种土地面积的不断减少, 种植面积已经成为影响粮食产量了的最为重要的因子。同时单位面积产量的影响也是十分重要。对于年平均降水量, 由于广西地处热带亚热带地区, 雨水充沛, 尤其是7月份, 降水成为一个对粮食产量影响不是特别明显的因子, 并且可能由于降水的过多而导致总产量的下降。
通过对1995-2007年种植面积、单位粮食产量、降水量的统计方程, 可以预测到2010年, 广西省粮食单产y=43.243×2010-82274=4644.43, 种植面积y=-29.865×2010+63355=3326.35, 降水量y=-193.76×2010+403039=13581.4, 进而利用广西粮食产量预测模型对广西粮食产量进行预测。预计到2010年, 广西的粮食产量为
从对1995-2007年数据的整体分析来看, 该数据是合理的。本文所采用的统计模型对未来的预测具有合理性。
3 结语
从对广西产量的影响因子分析来看, 广西的耕地面积成逐年下降趋势, 为了粮食产量的波动与耕地面积的关系十分密切, 为了保证粮食产量, 广西省必须保证耕地的面积同时提高单位耕地面积的产量。
摘要:广西是一个农业大省, 粮食产量在全国占有的比重相当大。影响广西粮食产量的因素相当的多, 通过对影响粮食产量的各种因素的分析比较, 从中选取对粮食产量影响相当大的种植面积, 单位种植面积产量, 年平均降水量这个三个因素进行线性回归分析, 得出广西粮食产量的线性回归模型, 根据模型对广西粮食产量进行预测。
关键词:广西粮食产量,线性回归,粮食产量预测
参考文献
[1]张淑英.中国农业统计资料汇编[P].
非线性回归预测方法 篇9
煤质特征分析
煤质参数与煤化程度的相关性
煤的组分可通过工业分析得到, 近似区分为水分、灰分、挥发分和固定碳4 种组分, 水分和灰分可近似代表煤中的无机物, 挥发分和固定碳可近似代表煤中的有机物。煤的主要元素含量通过煤的元素分析得到。煤化程度可通过测量最大的镜质组反射率, 挥发物质的百分比或煤中碳的百分比来确定的。由于干燥无灰基挥发分能较好地反映煤化程度, 并与煤的工艺性质有关, 而且其区分能力强, 测定方法简单, 易于标准化, 很多国家用干燥无灰基挥发分来反映煤化程度。由此可知, 煤化程度与煤质参数具有一定的规律。
煤质特征实验分析
为了分析煤的煤质特征随煤化程度变化规律, 实验选取了10 种不同地区不同煤种的井下煤样, 研磨后过280 目标准筛子作为实验样品进行分析研究。参照国家标准GB/T212 - 2001《煤的工业分析方法》和国家标准GBT476 - 2001《煤的元素分析方法》CHNS模式进行了煤尘的煤质特征研究, 如表1 所示。
由工业分析得到的水分、灰分、固定碳、挥发分。其中水分是煤的重要组成部分, 是煤炭质量的重要指标。在煤的工业分析中, 水分一般指的是空气干燥基水分。灰分是指煤中矿物质在高温下产生的一系列分解、化合等复杂反应后剩下的残渣, 大部分是金属和非金属的氧化物及盐类。煤的灰分不是煤中的固有组成成分, 它是由煤中的矿物质转化而来。在900o C高温下, 将煤隔绝空气加热一定时间, 煤的有机质发生分解, 除去气态析出的, 以固体形式残留下来的有机质占煤样质量的百分数称为固定碳。由有机质热解形成并呈气态析出的化合物就是挥发分, 固定碳和挥发分反映煤的有机质组成特点。
由元素分析得到的氢元素、碳元素、氮元素、硫元素、氧元素。其中氢元素是煤中第二重要的元素, 主要存在煤分子的侧链和官能团上, 在有机质中的含量约为2.0% ~ 6.5% 左右。煤中氢的含量虽然不高, 但是发热量很高, 在判定燃料质量时应予考虑。碳元素主要以芳香族结构、脂肪族结构及脂环族结构形式存在。其中, 碳是组成煤结构中的六碳环的主要元素, 也是构成煤分子骨架最重要的元素之一。少部分碳以碳酸盐、二氧化碳形式存在, 在煤的元素中, 碳元素较任何其它元素都高。氮元素在煤中的含量较少, 在0.3%~3.5%之间波动, 较多时约为1%~2%。硫元素是煤中主要的有害元素, 有两种来源, 一是成煤植物本身所含的硫——原生硫, 二是来自煤环境及成岩变质过程中加入的硫——次生硫。对大部分煤来说, 煤中的硫主要是次生硫。氧元素也是煤中有机质的重要组成元素, 主要存在于煤分子的含氧官能团上, 如-OCH3、-COOH、-OH等基团上都含有氧原子。由于氧的反应能力很强, 煤中氧含量的多少对煤的加工使用有很大的影响, 在煤层注水方面, 含氧官能团对煤的吸水率影响较大。
根据得出的工业分析、元素分析数据作图如图1所示。
煤中挥发分和氧含量随煤质变化程度的升高呈减少趋势, 固定碳和碳含量随着煤化程度升高呈上升趋势, 水分、灰分、硫含量则受其它诸如地理环境影响较大, 随煤化程度规律性较差。褐煤和长焰煤在整个阶段挥发分含量最高, 无烟煤含量最低。氢随煤化程度的升高呈下降的趋势, 与挥发分趋势相似。由于氮的含量较低且多数来自蛋白质, 趋势不是很明显。碳是煤大分子高度缩和的石墨化结构发展产物, 化学上表现出明显的惰性, 在煤化过程中很少参与反应, 因此其含量随煤化程度升高而升高。对大部分煤来说, 其发热量也会随碳含量的增多而增大。随着煤化程度的提高, 煤中碳元素逐渐增加。特别指出, 在烟煤煤化程度段, 在挥发分含量相近的前提下, 黏结性越强的煤, 碳含量越高。
多元线性回归预测模型建立及应用
通过对煤质特征参数与煤化程度规律的研究可知, 元素分析与工业分析指标有一定的相关性。设煤质各参数如水分、灰分、挥发分等为自变量x1、x2、 x3…… xn, 元素分析指标如氢含量等为因变量y1、 y2、y3……ym。运用“循环因子迭代法”加速拟合, 即求出第一个y1之后, 令xn+1=yn, 即把已经求出的因变量当作自变量, 如此循环下去。建立如下方程:
式中εi独立分布且E (εi) = 0, xij是可精确测量的一般变量, yi是可观测的随机变量, β0、β1、β2···βn是未知参数。用最小二乘法估计未知参数。矩阵形式为:
以12 种煤质分析数据为例, 用Matlab软件分析, 采用逐步降元回归确定回归方程如下。
根据以上公式, 对各矿煤质计算结果与实测结果进行分析对比, 如表1 所示。
利用检验统计量R2、 F 、 的值判断模型的准确程度。一般认为, 相关系数R在0.8 ~ 1 范围内, 则可判断回归自变量与因变量线性较强, 越接近1, 回归效果就越好。如果F>F1-α (k, n -k -1 ) , 则拒绝原假设, 即认为因变量与自变量之间显著地具有线性相关的关系。如果P <0.01, 则称回归方程是高度显著的, 当P <0.05时, 称回归方程是显著的, 当P <0.1 时, 一般认为回归方程不显著。
现将检验统计量统计如下:
由表2、表3 可知, 计算结果与实测结果比较相近。随着自变量数目的增多, 统计模型的线性就越强, 计算结果就越准确。Hdaf%、Cdaf% 拟合结果相关系数比较均匀, Ndaf%、Sdaf%、Odaf% 在中低等煤质阶段, 计算结果几乎接近实测值, 在高等煤化阶段又少许偏差。综其原因, 可能受到煤岩相组成的影响, 此外, 所选择的煤样分布区域比较分散, 成煤环境、成煤物质、成煤作用差异比较大。
结语
(1) 煤中元素不仅表征煤化程度, 而且也反映煤的不同性质。随着煤化程度不断升高, 煤中挥发分和氧含量呈减少趋势, 而固定碳和碳含量升高, 水分、灰分、硫含量则受其他诸如地理环境影响较大, 随煤化程度变化规律较差。碳含量与氢含量的变化趋势相对稳定。这也验证了很多学者把碳含量当作煤化程度指标的原因。
(2) 基于Matlab软件对实测数据进行多元线性回归分析, 推导出关联方程组, 提出“循环因子迭代法”加速拟合, 提高拟合数据准确性。相关系数平方R2都在0.7726以上, Odaf% 的R2最接近1, 回归效果最好。分析实测数据与计算数据产生误差的原因, 煤质的差别与成煤物质、成煤环境、成煤作用有关。所建的数学模型能有效的反映煤质参数之间的关系。
【非线性回归预测方法】推荐阅读:
一元线性回归预测08-07
多元线性回归预测模型06-25
非线性回归算法07-06
多元非线性回归分析07-25
多元非线性回归模型11-13
线性回归分类05-17
线性回归模型09-26
线性回归分析10-11
线性自回归11-01
用MATLAB回归非线性模型参数10-02