标准回归方程

2024-06-08

标准回归方程(精选7篇)

标准回归方程 篇1

摘要:变量间的相互关系有时较为复杂,一元线性回归仅能描述很少的一种情况。在《一元线性回归方程在标准曲线上的应用》一文的基础上,运用曲线拟合对数据进行重新回归,结果显示曲线拟合比一元线性回归精度更高、应用范围更广,更适用于在材料性能检测与试验研究过程中准确寻找变量间的相关关系。

关键词:一元线性回归,曲线拟合,标准曲线,相互关系

本刊2010年第2期刊登的《一元线性回归方程在标准曲线上的应用》[1]方法原理明确,思路严谨,能为读者提供一种研究思路。然而,对于变量间的变化关系该文仅介绍了一元线性回归的方法,一元线性回归的方法在描述变量间的变化关系时适用范围有限,仅适用于直线或接近直线关系的情况,且通常精度不高。在该文研究的基础上,本文引入曲线拟合作为补充,其适用范围更广,以求为相关科技工作者寻找变量间的相关关系提供参考。

1 曲线拟合求解

对于变量间的相关关系研究,宜先作散点图,以观察变化趋势,进而确定其回归方程。曲线拟合中,主要的曲线形式有线性、二次曲线、三次曲线、复合曲线和对数曲线等,针对各种曲线的自身特点,并结合散点图,即可确定大致服从的曲线变化关系。该文实例中在(23±0.6)℃、相对湿度(90±2)%时,水蒸气通过某中空玻璃用丁基热熔密封胶进入干燥剂的速度数据见表1,其中横坐标x为时间/d,纵坐标y为质量/g,作散点图,经分析,其变化趋势应服从三次曲线分布,方程为:

运用最小二乘法原理,使达到最小。

求解时,对于曲线拟合中的众多线形,其公式甚为繁琐,运用最小二乘法原理计算工作量较大,因而对于求解部分可借助相关软件进行,运用Spss对上述数据进行三次拟合[2],可得回归方程:

根据回归方程可得其拟合曲线,见图1。

由图1可知,三次曲线比一元线性回归拟合效果更好,能更准确地反映变量间的变化关系。

2 回归方程相关性验证

依照该论文的验证方法,x与y之间确有线性关系时,回归方程才有实际意义,因此得到的回归方程必须进行相关性检验。一元回归方程习惯用相关系数r来检验。r=±1时,所有的实验点都落在回归线上,实验误差为0;r=0~1时,x与y之间有不同程度的相关性,r值愈接近1,x与y之间线性关系愈好。利用三次曲线相关系数为r=0.999 04,而该文中的相关系数才为0.997 9,因而三次曲线的相关系数r更接近于1,由相关系数的意义可知,三次曲线中x与y之间线性关系比一元线性回归要好。

对于置信度的检验,查表2,在置信度为99.9%,自由度f=n-2=10-2=8时,r99.9,8=0.872 1,r>rp,f。所以,该文中水蒸气透过丁基胶的质量和时间存在很好的线性关系。

3 结论

通过上述分析计算,曲线拟合较一元线性回归精度更高,可用于在材料性能检测与试验研究过程中准确寻找变量间的相关关系,且由于曲线拟合形式的多样性,使其适用范围更广,弥补了一元线性回归的方法在描述变量间的变化关系时适用范围有限的缺陷,可以为相关科技工作者寻找变量间的相关关系提供参考。

参考文献

[1]林良.一元线性回归方程在标准曲线上的应用[J].中国建筑防水,2010(2):41-42.

[2]黄海,罗友丰,陈志英,等.Spss 10.0 for windows统计分析[M].北京:人民邮电出版社,2001,2.

剖析线性回归方程典型题 篇2

典型题一相关关系问题的探究

例1下列关系中,是带有随机性相关关系的是______.

(1)正方形的边长与面积之间的关系;(2)水稻产量与施肥之间的关系;(3)人的身高与年龄之间的关系;(4)降雪量与交通事故的发生率之间的关系.

分析:两变量之间的关系有两种,函数关系与带有随机性的相关关系,要注意两者的区分.

解:(1)是函数关系;(2)不是严格的函数关系,但是具有相关关系,因而是相关关系;(3)不是相关关系,也不是函数关系,因为人的年龄达到一定时期身高就不发生明显的变化了,因而他们不具有相关关系;(4)具有相关关系.

点评:本题主要研究的是函数关系和相关关系的区别和联系,当两个变量之间的关系是一种不确定的关系时,这两个变量之间的关系.就是相关关系,判断变量之间有无相关关系的一种常用的简便方法就是绘制散点图.

典型题二相关系数法求回归直线方程

例2测得某国10对父子身高(单位:英寸)如表1.

(1)对变量y与x进行相关性检验;(2)如果y与x之间具有线性相关关系,求回归直线方程;(3)如果父亲的身高为73英寸,估计儿子身高.

分析:对于线性回归方程,即是用函数关系拟合函数关系进行解答.

,所以y与x之间具有线性相关关系.

(3)当x=73英寸时,,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.

点评:回归直线是对两个变量线性相关关系的定量描述,利用回归直线,可以对一些实际问题进行分析、预测,由一个变量的变化可以推测出另一个变量的变化.这是此类问题常见题型.

典型题三利用回归直线方程对总体进行估计

例3一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,表2是抽样试验结果.

(1)如果y与x具有线性相关关系,求回归直线方程;

(2)若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制在什么范围内?

所以回归直线方程为

y=0.7286x-0.8575.

(2)要使y≤10,则0.7286x-0.8575≤10,所以x≤14.9019.

因此,机器的转速应该控制在15转/秒以下.

点评:本题中准确求出回归直线方程,是做出正确判断的前提.

典型题四回归分析创新题

例4在某化学实验中,测得如表3所示的6组数据,其中x(min)表示化学反应进行的时间,y(mg)表示未转化物质的量.

(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值.

(2)估计化学反应进行到10 min时未转化的物质的量.

分析:可考虑先通过适当的变量代换,把非线性回归问题转化为线性回归问题,从而确定未知参数.

解:(1)在y=cdx的两边取自然对数,可以得到lny=lnc+xlnd.设lny=z,lnc=a,lnd=b,则z=a+bx,则由已知数据可以得到表4.

公式的,线性回归方程

即lnc=≈3.9055,lnd≈-0.2219,所以c≈49.675,d≈0.8010,根据测量数据估计c=49.675,d=0.8010.

(2)由(1)知y与x之间的关系为y=49.675×0.8010x,当x=10时,y的估计为49.675×0.801010≈5.4.

所以估计化学反应进行到10 min时未转化物质的量为5.4 mg.

一元回归直线方程的简易推导 篇3

根据经验公式拟合原理及点与直线的位置关系, 有:yi=a+bxi (i=1, 2, 3, …, n)

对上式两边同乘以xi得

xiyi=axi+bx2i (i=1, 2, 3…, n)

对上面两式求累积得:

将 (1) 式两边同除以n得:

标准回归方程 篇4

分工的发展导致不同产业的形成, 许多选择了同类生产活动的人或组织共同构成国民经济的一个部门, 这就是产业, 因此, 产业是“同类企业、事业的总和”[1], “由提供相近商品和服务、在相同或相关价值链上活动的企业共同构成”[2]。可见, 企业是构成产业的基本单位, 于是, 推而论之, 我们定义了流通产业, 流通企业的涵义将不言自明。何谓流通产业?林文益先生认为, 流通产业是指整个流通领域所包含的产业部门, 主要有商业、物资贸易业、仓储业、邮电通讯业、金融业、保险业等[3]。然而有学者认为邮电通讯业、金融业、保险业等不应划入流通产业[4]。我们认为, 邮电通讯业、金融业、保险业、证券业等不仅为商品交易提供服务, 而且其本身就是从事一种交易活动, 不过交易的标的特殊而已, 比如, 通过证券业实现股权的交易;通过保险业, 实现经济补偿机会的交易;通过金融业, 实现资金的交易等等, 是故它们均应划入流通产业范畴。流通企业作为流通产业的基本组成单位, 是将生产和消费之间社会的、场所的、时间间隔的关系联系起来的企业, 通过买卖消除社会间隔, 通过运输消除场所间隔, 通过保管消除时间间隔, 其经营活动的复杂性决定了其遭遇法律风险如违约风险的可能性远大于生产企业, 从而导致破产的机率很大, 除此之外, 中国流通企业的内外环境决定了其生存发展的艰难:

首先, 内资流通企业的过度竞争导致交易费用过高, 企业效益滑坡。近年来老商场的投资改造和大量新商场的兴建, 致使大型百货商场的数量剧增, 各企业为争夺有限的顾客, 不可避免地发生低水平过度竞争和各种各样的价格战。

其次, 流通领域的竞争在世界范围内充分展开, 国际竞争价格的形成, 使内资流通企业的发展步履艰难。加入WTO后, 中国流通企业面临更严峻的挑战, 外资流通企业依靠品牌、规模、技术设备、质量、资金、管理和人才等方面的优势与其展开全方位的竞争。

这些因素都决定了中国流通企业面临高破产风险, 因此对其破产风险进行预测, 以便及时采取对策避免进入破产程序具有重大的现实意义。

“破产”一词, 从经济学意义上考察是指市场主体由于经营不善或其他原因导致长期的亏损, 扭亏无望, 资不抵债, 以致不能清偿到期债务的状态。而法律上的破产则指债务人不能清偿到期债务时, 为满足债权人正当合理的清偿要求, 在法院的指挥和监督下, 就债务人的总财产实行的以分配为目的的清算程序。因此, 经济学意义上的“破产风险” (risk of failure) 是指市场主体陷入财务拮据、资不抵债窘境的风险, 而法律意义上的“破产风险” (risk of bankruptcy) 则指债务人因不能偿还到期债务而被债权人申请宣告破产或被迫自行向法院申请宣告破产的风险。对经济学意义上的“破产风险”的研究由来已久, 至今已有近百年的历史, 最早的风险模型是由瑞典保险精算师Filip Lundberg于1903年引入的[5], 随后Harald Cramér将其奠定在坚实的数学基础之上并加以严格化[6,7], 形成了经典的破产风险模型

U (t) =u+ct-k=1Ν (t) xk, t0 (1)

显而易见该模型只适用于保险公司的财务破产风险测度。后来又有许多学者对其进行推广, 如Sundt和Teugels (1995) 研究了常利率下复合Poisson模型的最终破产概率[8];Gerber (1970) 提出了带干扰的经典风险模型, 但仍然只限于保险企业的财务破产风险测度[9]。

适用于一般公司财务破产风险测度的模型当属Altman (1968) 的Z值模型[10], 他以1946~1965年破产、资产规模相近的33家困境公司和33家非困境公司作为样本, 采用了22个财务比率, 经过数理统计筛选建立了著名的5变量Z-Score模型:

Ζ=1.2x1+1.4x2+3.3x3+0.6x4+0.999x5 (2)

Z>3.0时, 企业不会陷入财务困境;当Z≤1.8时, 企业很可能陷入财务破产境地;当1.8<Z<3.0时, 企业财务状况处于灰色领域, 一年内陷入破产困境的可能性为95%, 两年内为70%. 该模型在评价企业财务危机方面有着广泛的应用, 并且实证证明预测结果准确性高, 如Phillip Fuller和Theodor Kohers (1994) 认为“Z值模型” 可以有效地用于预测金融机构的财务危机[11];Gregory J.Eidleman (1999) 发现“Z值模型”能有效地用于大多数行业的财务危机预测[12]。

由此可见, 对经济学意义上的“破产风险”研究已趋于成熟, 然而对法律意义上的“破产风险”却研究甚少。法律意义上的“破产风险”是一种法律风险, 它是指企业因支付不能或停止支付而被法院宣告破产, 从而进入破产程序进行清算的风险。

当前国内外对企业法律风险研究刚处于起步状态, 对企业法律风险的估计, 以全球企业法律顾问协会、普华永道、《Comporate Legal Times》及《全球律师》在美国和欧盟进行的各种调研作为开端, 确定了行业、组织形式、公司设立地点、知识产权、采购和销售行为作为影响企业法律风险值的主要因素[13]。显然这种方法无法适用于企业破产风险的评估, 笔者认为, 对企业破产法律风险的预测, 应以国家破产法律的规定为依据。本文中的破产风险模型不失为一种有效的预测手段。

2 流通企业破产风险预测模型的建立

2.1 变量的确定

破产风险估计模型的变量确定取决于影响破产风险大小的因素, 以流通企业破产概率P作为其破产风险值, P值的大小则取决于破产法对破产界限的规定。

破产界限即破产原因, 它是认定债务人丧失债务清偿能力、法院据以启动破产程序、宣告债务人破产的法律标准。

2006年《中华人民共和国企业破产法》实现了不同所有制各类企业法人破产界限的统一, 即以“企业法人不能清偿到期债务, 且资产不足以清偿全部债务或明显缺乏清偿能力”作为破产界限适用于所有企业法人, 它实际上同时要求具备两个因素即“支付不能”和“债务超过”或“资不抵债”方能被宣告破产。

因此我们须确定两个自变量以代表“支付不能”和“债务超过”或“资不抵债”, 其中x1=逾期债务额/总负债额 (0≤x1≤1) 代表“支付不能”, x1越大, 表明流通企业逾期债务率越高, 企业支付不能的程度就越高, 其中逾期债务额包括逾期担保额。x2=负债总额/资产总额代表“债务超过”或“资不抵债”, x2越大, 表明流通企业债务超过程度越高, 其中x2的取值须大于1, 因为若x2的取值小于1, 表明资产大于负债, 此时即使有债权人申请, 法院亦不会宣告债务人破产, 而是通过诉讼和执行程序解决债权人与债务人之间的纠纷, 但此时并不能排除债务人为逃避债务而自行申请破产的“假破产, 真逃债”情形。x2的取值大于1, 表明流通企业资产小于负债, 从经济学意义上看, 企业已经破产, 但从法律意义上来说, 并不一定进入破产程序, 因为企业通常不仅具有强大的融资能力, 而且其信誉在偿债中亦可发挥巨大的作用。华夏证券股份有限公司不失为一典型案例, 其早在2004年就被曝严重亏损, 资产负债率接近200%, 但直到2008年才被宣告破产[14]。若其在2004~2008年通过融资或以信誉担保, 获得机会扭亏为盈, 即可避免被宣告破产。

2.2 模型的构造

①破产风险函数表达式

由上述可知, 破产风险P可表示为

Ρ=f (x1, x2) (3)

其中, x1代表流通企业逾期债务率, x2代表流通企业资产负债率。

②样本及数据来源

本文选取2005年度、2006年度、2007年度财务会计报告中资产负债率大于1的流通类公司、非公司国有流通企业为研究对象, 其中2005年12家, 2006年19家, 2007年14家, 各年剔除一些资料不全样本后, 实际有效样本数分别为10家、16家、13家。x1、x2数据来源于本课题组成员深入到会计师事务所、法院、流通企业的调研结果, 其中上市公司数据来源于其公布的年度报告, 破产流通企业均为其年度财务报告后一年内被法院宣告破产。

问题在于破产风险值P的数值无法通过调研取得, 我们特做了变通处理:根据破产法关于破产程序启动的原因及司法实践中的情形, 破产程序多由债权人申请而启动 (39家样本企业中23家被宣告破产, 其中22家由债权人提出申请, 仅一家由其自己申请) , 因此, 逾期未偿还债务率x1值对流通企业被申请宣告进入破产程序的风险影响很大。于是将39个样本企业按x1值由低到高排列, 再分段求出其破产风险值P的数值 (将x1值分5段, 每20%为一段) , 如表1所示。

③模型构造

利用表中数据作出 (x1, x2, P) 的离散点如图1。

由图1可知, Px1, x2之间可能存在线性关系, 设Px1, x2的函数表达式为:

Ρ=β0+β1x1+β2x2+ε (4)

这是一个多元线性回归模型, 其中β0, β1, β2为回归参数, ε为误差随机变量, 且εiN (0, σ2) 。记

Ρ=[p1p2p39]X=[1x11y121x21x221x39, 1x39, 2]β=[β0β1β2]ε=[ε1ε2ε39]

, 于是式 (4) 可表示为

Ρ=Xβ+ε (5)

正规化后可得

(XΤX) β=XΤΡ (6)

将表1中数据应用到方程 (6) 中, 利用最小二乘法求得β0=-0.1452, β1=0.6888, β2=0.1561, 于是得出流通企业破产风险测度模型为:

Ρ=-0.1452+0.6888x1+0.1561x2 (7)

2.3 P值的风险区间分析

由表1可知序号1~6的企业破产风险极低 (Ρ^值最高为0.1964) ;序号7~19的企业破产风险较高 (Ρ^值最高为0.6087) ;序号为20~39的企业破产风险很高。因此, 确定破产风险区间: 0≤P≤0.2 (低风险) , 0.2<P≤0.61 (风险较高) , P>0.61 (高风险) , 分别代表企业一年内不会破产、破产风险较高和极可能破产。

3 模型的检验及其推广应用

3.1 模型拟合优度的检验

由于Ρ¯=0.5899ΤSS= (Ρi-Ρ¯) 2=3.2570, RSS= (Ρi-Ρ^i) 2=0.1096, 可得R¯2=1-RSS/ (n-k-1) ΤSS/ (n-1) =0.9645R¯2接近于1, 说明模型的拟合优度较高, 自变量对因变量影响较大, 模型很有效。

3.2 模型总体线性的显著性检验

上述拟合优度检验中, 由于拟合优度较高, 可以推测模型总体线性关系成立。下面应用F检验方法给出模型总体线性的显著性检验, 步骤如下:

①假设H0:β1=0, β2=0;H1:β1, β2不全为零;

②若H0成立, 统计量F=ESS/kRSS/ (n-k-1) Fα (k, n-k-1) , 给定显著性水平α=0.05, 则F=516.9088 (其中ESS= (Ρi-Ρ¯) 2=3.1474) , 显然有F>F0.05 (2, 36) =3.26, 所以拒绝原假设, 判定模型的线性关系在95%的置信水平下显著成立。

③下面在同一坐标系下作出 (x1, x2, P) 离散点和Ρ^=-0.1452+0.6888x1+0.1561x2平面如图2, 显然, 模型的线性关系显著成立, 这与上述拟合优度和方程线性显著性检验结果一致。

3.3 模型的推广应用

上述风险测度模型可以用来预测任意一家流通企业的破产风险。下面以预测广东华龙一年内破产风险为例:由广东华龙2007年年度报告[15]可求出其2007年末的逾期负债率x1=0.6246和资产负债率x2=9.3171, 将其代入模型Ρ^=-0.1452+0.6888x1+0.1561x2, 可得Ρ^=1.7394, 由此预测广东华龙在2008年度被宣告破产的概率为1.7394, 处于高风险区间, 即其在2008年被宣告破产的风险较大。这个结果与2008年3月11日广东阳江市中级人民法院关于广东华龙集团股份有限公司破产公告文书中所载事实相映证, 其被宣告破产的可能性很大[16]。

4 模型相关问题及改良思路

4.1 样本容量问题

作为股份有限公司特别是上市公司的流通企业由于其财务的公开性, 其财务会计报告可以通过多种渠道获得, 但有限责任公司及国有企业法人形式的流通企业财务的封闭性决定了其财务会计资料很难获取。我们通过一年多时间的调研, 并以承诺匿名公开其财务数据为条件, 才得以获取39个有效样本数据, 样本容量偏小, 导致模型参数估计的误差扩大, 从而模型对破产风险的估计出现一定程度的偏差。因此在从事本课题研究时, 需尽量多投入调研经费, 加紧与政府统计调查部门合作, 扩张样本容量, 使模型的参数估计更加准确。

4.2 样本的行业分类问题

不同行业的样本数据、模型参数估计会有不同, 甚至存在很多的差异。生产企业与流通企业相比较, 存在很大区别:首先, 资产结构不同, 生产企业固定资产比重较大, 流动性资产比重小, 流动性负债同样比重较小, 而流通企业反之;其次, 资产转化形式不同, 生产企业为G-W-G, 而流通企业则为W-G-W;再次, 资产循环周期不同, 生产企业资产循环周期长, 资产总额变动慢, 而流通企业恰好相反;最后, 两者对技术依赖程度不同, 流通企业对技术依赖较少, 其活动属于一种“类似活动 (similar activities) ”即需要相同能力的活动;而生产企业的活动属于一种“互补活动 (complementary activities) ”即需要相互协调的活动[17]。这些区别可能会对自变量x1和x2产生较大的影响, 从而使其与流通行业的破产风险模型参数估计产生差异。因此, 将样本数据按行业分类并进行参数估计, 能提高模型对不同行业企业破产风险预测的准确性。

4.3 企业面临突发危机的破产问题

一个经营良好、资产负债率低的流通企业, 有时会因一个“三鹿式”的突发事件[18,19]于短时间内变成一个破产企业。从2008年3月三鹿问题奶粉事件浮出水面到10月31日, 短短几个月时间, 资产负债率急剧上升至170.7%, 加之各债权人提前追索, 终于2009年2月12日被河北省石家庄市中级人民法院裁定宣告破产。对此种类型的流通企业, 如果利用其破产前一年财务会计数据预测其破产风险, 风险概率很低, 甚至为负数, 从而使预测不准确。因此模型自然难以适用。

标准回归方程 篇5

GPS工程中常常遇到高程拟合问题。解决这一问题的基本思路是, 首先根据联测点上的高程异常, 对测区内的似大地水准面进行趋势分析, 在此基础上, 建立区域似大地水准面的数学模型, 利用该模型求得非联测点的高程异常, 即可求得相应GPS点的正常高[1]。其中曲面拟合是常用模型之一。在应用曲面拟合时往往采用低次曲面函数, 对于面积小且较为平坦的区域一般选择一次曲面, 其他情况下则选择二次曲面。这种选择往往依据经验, 缺乏必要的理论解释。从数学角度看, 这种曲面拟合法就是建立平面坐标与高程异常之间的线性回归模型。如何选取最优回归方程, 线性回归模型中有着丰富的理论[2], 文献[3]研究了逐步回归法。用逐步回归法选取的拟合方程是建立在假设检验基础上的, 该方法最大的优点是自变量较多时优越性明显。我们知道统计假设检验总是会犯两类错误且受制于初始模型, 鉴于GPS拟合中所选曲面次数不超过二次, 自变量的个数不多, 因此可以全面衡量每一个GPS高程拟合方程, 从中选出最优的回归方程, 进而提高GPS高程拟合的精度。

因此, 本文讨论了建立最优回归方程的几个准则, 结合GPS高程拟合实例, 对比分析得到一些有益的结论。

2 最优回归方程的建立

在一定区域范围内, 高程异常ζ可以看作是大地坐标 (B, L) 或平面坐标 (x, y) 的拟合函数:

其中, e为随机误差;函数f (x, y, …) 中的每一项看作是因变量ζ所对应函数的自变量。如果函数模型取作二次曲面, 式 (1) 可以写成:

其中, a0为常数项;ai (i=1, 2, 3, 4, 5) 为自变量的系数, 以下简称此模型为全模型。相对应地, 只要这六个系数不同时为0的模型, 称之为选模型。测量中常用的一次曲面:

可以看成是一种选模型, 此时a3=a4=a5=0, 以下简称为一次曲面。

利用联测点的高程异常值求解这六个参数, 从数据处理角度上看, 是一个线性回归问题。线性回归理论指出可选的自变量集合中, 选择一个最优的自变量子集是非常重要的[3]。因为全模型中往往把对因变量没有影响的自变量也包含在回归方程中, 导致计算量变得很大, 并且预报的精度也下降很多。如何在可用的模型中选取最优的模型, 这就是最优回归方程选取问题。建立最优回归方程, 首先要确立选取的准则。

我们知道残差平方和RSS的大小反映了实际数据与理论模型之间的偏离程度, 是评价拟合方程的一个重要标准。一般来说, RSS越小, 数据与模型拟合得越好, 全模型残差平方和为:

相应地方差为:

其中, n为参与建模点的个数。

在选模型中, 由于RSS是随着拟合变量个数的增加而下降, 为了防止选取的自变量过多, 于是我们把残差平方和乘上一个随拟合系数个数q增加而上升的函数作为惩罚因子, 记为:

按照RMSq的定义, 我们可以依据RMSq越小越好的原则选取自变量子集, 并简称为RMSq准则。

式 (6) 说明不能无限制增加拟合参数以提高精度, 当拟合方差变化比较缓慢了, 再增加拟合参数对提高拟合精度意义不大。同时该式也说明不能以过多地增加未知数的个数来提高拟合的精度, 这也正是不宜用高次曲面拟合GPS高程的原因。实际上, 式 (6) 就是模型拟合方差, 测绘界习惯称之为内符合精度。

RMSq准则是从数据与拟合模型优劣的角度出发导出的, 如果从预报角度考虑, 可以选用Mallows在1964年提出的Cp准则, 该准则定义为:

Cp准则依据“Cp愈小愈好”的原则选取自变量子集。

极大似然原理是统计学中估计参数的一种重要方法。日本统计学家Akaike把这个方法加以修正, 于1974年提出了一种较为一般的模型选取准则, 称为Akaike信息量准则, 简称AIC准则, 它可以表述为:

使式 (8) 达到最小的那组自变量组合即为最优组合, 从而获得了最优回归方程。

以上三个准则, 根据建模的不同需要, 顾及各准则的侧重点不同而选取不同的准则衡量最优回归方程。

选定准则后, 针对所有的备选模型计算相应指标。在建立高程拟合实践中, 如前所述由于全模型有六个自变量, 平面拟合模型一般有三个自变量, 因此可选的自变量子集仅有七个, 计算量并未显著增加。从平面拟合开始分别对这七个子集做回归, 寻找最优回归方程即最优建模方程。

可以看出, 本文方法不必考虑用假设检验来判断增减自变量, 因此可以避免逐步回归法中由假设检验可能带来的弃真和纳伪两种错误所带来的不良影响。

3 实例

本文选取了某市D级GPS网 (平坦地区, 区域面积约为300 km2) 40个水准联测点进行试验[4,5]。高程异常的原始数据见表1。首先选取了测区内均匀分布的10个点作为建模点, 使其满足建立拟合模型的要求, 而其余的30个点作为模型的检核点, 如图1所示。图中编号1~10的点是建模点, 用矩形与十字光标组合图形标示, 而空心圆点代表检核点, 其编号为10~40。

运用二次曲面拟合GPS高程, 自变量最大子集是{x, y, x2, xy, y2}, 从平面拟合至少选取{x, y}两个自变量开始做拟合方程, 分别计算每种模型所对应的三种最优准则指标量, 其结果如表2所示。

根据表2可知, 在全模型中, y2与其他变量存在复共线关系, 应予以舍去。当选模型的自变量子集为x, y, x2, xy时, RMSq, Cp和AIC三个准则的指标值都最小, 三种准则呈现了较好的一致性, 所以该子集建立的回归模型为最优回归模型。此时, 拟合方程为:

按照测量习惯, 我们通常要依据中误差定义计算外符合精度[6]验证模型的适用性。表3给出了全模型和最优模型的拟合残差Δ, 即拟合值与观测值之差, 此处可以视为高程真误差。为了便于比较各模型精度, 计算了所有二次曲面模型的外符合精度, 结果见表2。从外符合精度来看, 最优模型建模精度与全模型精度相当。

综上所述, 对于本试验区来说, 运用最优回归方程建立的拟合模型其内外符合精度俱佳, 且方法可靠。

为了进一步比较本文提出的最优回归方程特点, 笔者也用了逐步回归法寻求拟合方程, 无论显著水平选为0.05, 还是0.1, 所得的拟合方程都是平面拟合模型。从表2中可以看出, 最优回归方程建立的拟合模型明显优于平面拟合模型。

4 结语

本文在讨论运用RMSq准则即中误差准则确定最优回归方程时, 对测绘工程实践中常用平面拟合或二次曲面拟合GPS高程这一经验模型, 给出了合理的解释。基于最优回归方程获得的曲面拟合方程, 选取最优方程的准则多样, 不仅仅是中误差, 还可以考虑Cp和AIC准则, 实践中可以依据工程需要合理选择。

实际上对于用低次曲面拟合GPS高程来说, 本文所提出方法的计算量与逐步回归方法相比增加不多, 同时该法可以克服假设检验选取最优自变量所带来的不良影响, 进而保证了入选因子在模型中都是显著的, 克服了复共线性问题, 提高了解的可靠性。

最后, 需要说明的是GPS高程拟合精度不仅与所选取的数据模型有关, 而且与物理模型密切相关。因此, 欲进一步提高精度应全面考虑GPS高程拟合的几何物理模型。

摘要:分析了二次曲面拟合方法, 讨论了最优回归方程选取的三个准则, 提出了基于最优回归方程的GPS高程拟合方法, 最后通过实例计算, 给出了最优回归方程的选取步骤, 验证了该方法的有效性。

关键词:GPS高程,拟合,二次曲面,最优回归方程

参考文献

[1]徐绍铨, 张华海, 杨志强, 等.GPS测量原理及应用[M].第3版.武汉:武汉大学出版社, 2008.

[2]王松桂, 陈敏, 陈立萍.线性统计模型:线性回归与方差分析[M].北京:高等教育出版社, 2002.

[3]翟高鹏, 花向红, 刘金标, 等.基于逐步回归的GPS高程拟合方法研究[J].城市勘测, 2011 (5) :62-64.

[4]胡伍生.神经网络理论及其工程应用[M].北京:测绘出版社, 2006.

[5]胡伍生, 华锡生, 张志伟.平坦地区转换GPS高程的混合转换法[J].测绘学报, 2002 (2) :101-103.

标准回归方程 篇6

开滦 (集团) 有限责任公司始建于1878年, 迄今已有130多年的历史, 是国有特大型煤炭企业。2009年煤炭产量达4000万吨以上, 肥煤、焦煤、1/3焦、气煤等煤种齐全, 主要供应冶金、焦化、发电等各大企业。主导产品为冶炼精煤和动力煤。主产动力煤矿井有荆各庄矿、林南仓矿、东欢坨矿, 均为气煤煤种, 是优质的发电用煤和锅炉用煤。

二、建立回归方程推导计算发热量的经验公式的必要性及可行性

发热量作为动力煤的计价基础, 它不仅是当前动力用煤重要的经济评价参数, 而且是评价煤炭质量的一项重要指标。快速、准确、客观的检验及预测商品煤发热量结果, 直接关系着企业的经济效益及企业信誉。根据煤结构特性, 分析煤的发热量与灰分、水分之间的关系, 找出其变化规律, 建立定量关系的线性回归方程, 推导出计算发热量的经验公式, 可以有效解决此项问题, 为煤炭生产、销售及现场管理提供可靠的理论依据。

开滦荆各庄矿、林南仓矿、东欢坨矿是主产动力煤矿井, 产品主要供应浙电、常熟电、谏壁电、上电等发电企业。各矿井开采煤层相对较稳定, 荆各庄矿主产工作面为12槽, 林南仓矿主产工作面为8槽和12槽, 东欢坨矿主产工作面也为8槽和12槽, 并且均为气煤煤种。历年来各矿对发运的商品煤逐批采样化验测定热值, 积累了大量的检验数据及原始资料, 为我们进行统计分析提供了可靠数据基础。

三、商品煤发热量与灰分、水分相关关系的回归分析

下面以荆各庄矿2009年检验数据为基础, 对商品煤发热量与灰分、水分之间关系进行分析, 说明线性回归方程的推导及应用。2009年荆各庄矿发运商品煤共980批, 我们以干基灰分 (Ad) 、全水分 (Mt) 为自变量, 以收到基低位发热量 (Qnet, ar) 为因变量, 利用Excel统计分析软件进行回归分析, 分析结果见下表:

方差分析

从回归统计表中可以看出, 复相关系数 (Multiple R) 值为0.992, 接近1;样本判定系数 (R Square) 值为0.984, 表明Qnet, ar的变动有98.4%可以由自变量Ad和Mt解释, 说明因变量与自变量之间线性相关非常显著。从方差分析结果中可以看出, 显著性概率 (Significance F) 值为0, 即检验假设“H0:回归系数B=0”成立的概率等于0, 从而应拒绝原假设H0, 说明回归效果极为显著, 所得回归方程式有意义。

四、回归方程的建立

根据以上分析结果, 建立发热量与灰分、水分相关关系的数学模型。我们用二元一次模型表述发热量与灰分、水分相关关系:Qnet, ar=a+bAd+cMt

式中:Qnet, ar——发热量的计算值 (MJ/kg)

Ad——干基灰分 (%)

Mt——全水分 (%)

a, b, c为模型参数

从分析表中得到荆各庄矿回归方程式:Qnet, ar=30.67-0.21Ad-0.32 Mt

同以上方法对2009年东欢坨矿发运商品煤共1521批进行分析, 得到东欢坨矿回归方程式:Qnet, ar=32.33-0.24Ad-0.34Mt

同以上方法对2009年林南仓矿发运商品煤共784批进行分析, 得到林南仓矿回归方程式:Qnet, ar=32.29-0.18Ad-0.36Mt

五、回归方程式的验证及应用

为检验回归方程的准确性, 我们对2009年荆各庄矿、东欢坨矿、林南仓矿发运的商品煤实际检验值与计算值逐一进行比较分析, 结果见下表:

表中结果说明, 回归方程预测值与实际检测值之间平均误差均较小, 并且差值大于0.3MJ/Kg (国标再现临界值) 批数占总量比例也很低, 小概率, 可作为离群值进行分析。因此表明回归方程计算准确度高, 所揭示的商品煤发热量与灰分、水分指标间的相关关系是科学的。

2010年1-3月份荆各庄矿、东欢坨矿、林南仓矿各发运商品煤177批、336批、119批, 通过用回归方程逐一进行跟踪审核, 分别有3、4、1批差值 (计算值与实测值差) 高于300 MJ/Kg, 检验部门及时查找原因, 重新化验, 最终重新化验结果差值都低于300MJ/Kg。

六、结语

⑴动力煤的收到基低位发热量与干基灰分、全水分间有显著的线性关系, 利用推导出的回归方程可以快速计算出发热量的值, 并且能够对日常实际检测结果进行审核验证, 以减少化验过程中出现意外差错造成的失误, 保证数据的客观公正。

⑵回归方程式来源于日常检测数据。回归方程不是一成不变的, 应根据矿井开采煤层的调整, 不断收集补充新检测数据, 定期重新进行回归分析, 保证回归方程的时效性, 以适应可能发生的各种煤质变化。

摘要:根据开滦矿区实际煤质资料分析动力煤发热量与灰分、水分之间的相关关系, 运用数理统计中的多元回归理论, 建立发热量与灰分、水分的相关关系模型, 并对其回归方程式进行验证, 最终确定出计算发热量的回归方程式, 从而能够准确快速地预测动力煤的发热量并对实测发热量值进行验证审核, 保证煤炭质量的客观公正。

标准回归方程 篇7

预应力混凝土经过近半世纪的发展, 目前在我国已成为土建工程中一种十分重要的结构材料, 应用范围日益扩大, 由以往的单层及多层房屋到公路、铁路桥梁、水塔等。在桥梁结构领域中, 预应力技术作为一种结构手段, 又将与施工方法结合形成一套以节段式施工为主体的预应力施工方法。主要有预应力悬臂分段施工技术, 大节段预制吊装技术等。这些施工技术与预应力技术是紧密相关的。

我们知道, 预应力一般都是通过千斤顶与压力表配套来施加, 由于预应力应用广泛, 力值变化多, 如何通过力值确定压力表读数就成了问题。为了解决这类问题就需要研究两个变量间的关系, 一元线性回归方程是处理两个变量相关关系的一种统计技术。

2 一元线性回归方程的建立

在客观世界中, 变量之间的关系大致可分为两种类型, 函数关系和相关关系。当两个变量存在相关关系时, 常常希望在两者间建立定量关系, 两个相关变量间的定量关系表达的就是一元线性回归方程。假如, n个点在一条直线附近波动, 一元线性回归方程便是对这条直线的估计。

1) 设一元线性回归方程的表达式为:

Ρ=bF+a (1)

对给定的n对数据 (Fi, Pi) , i=1, 2, …, n, 要我们根据这些数据去估计a和b。如果a和b已经估计出来, 那么在给定的Fi值上, 回归直线上对应点的纵坐标为:

Ρi=bFi+a

Ρi为回归值, 由于实际的检测值PiΡi之间存在偏差, 我们希望求得的直线使这种偏差的平方和达到最小, 即要求 (Ρi-Ρi) 2达到最小, 根据微分学的原理, ab可以用下式求出:

b=LFP/LFF (2)

a=Ρ¯-bF¯ (3)

这一组解称为最小二乘估计, 其中, b为回归直线的斜率, 称为回归系数;a为回归直线的截距, 称为常数项。

2) 一元线性回归方程求解。

LFΡ= (Fi-F¯) (Ρi-Ρ¯) =FiΡi-ΤFΤΡ/n (4)

LFF= (Fi-F¯) 2=Fi2-ΤF2/n (5)

LΡΡ= (Ρi-Ρ¯) 2=Ρi2-ΤΡ2/n (6)

TF=∑Fi;TP=∑Pi

3 一元线性回归方程的显著性检验

建立回归方程的目的是表达两个具有线性相关的变量间的定量关系, 因此, 只有当两个变量具有线性相关关系时所建立的回归方程才有意义。检验两个变量间是否存在线性相关关系的问题便是对回归方程的显著性检验。通常的方法是相关系数检验法。

相关系数:是两随机变量间线性联系密切程度的度量, 这个量称为相关系数r。随机变量之间的线性相关性就是:当一个变量增大时, 另一变量有按线性关系增大或减小的趋势。当|r|越接近1时, 这种趋势就越明显。当|r|=0时, 两变量就不存在线性联系, 即无线性相关性。

r= (Fi-F¯) (Ρi-Ρ¯) (Fi-F¯) 2 (Ρi-Ρ¯) 2=LFΡLFFLΡΡ (7)

根据所求的两个变量的相关系数r, 对于给定的显著水平α, 相关系数r显著性判定为:

|r|>r1-α/2 (n-2) (8)

r1-α/2 (n-2) 是检验相关系数的临界值, 通过查表求得 (见表1) 。如果相关系数r满足式 (8) , 便认为两个变量间存在线性相关关系, 所求回归方程是显著的, 即回归方程有意义。

例如:根据公式 (4) , (5) , (6) 所求数据:

r=LFΡLFFLΡΡ=27662527827470×2750=0.99997

显著性判断:根据式 (8) , 查表1:

假如显著水平α=5%, r1-α/2 (n-2) =r97.5 (9) =0.602;假如显著水平α=1%, r1-α/2 (n-2) =r99.5 (9) =0.735,

因此认为千斤顶的力值与压力表读数存在线性相关关系, 即回归方程有意义, 可以用于实践。

4 一元线性回归方程的应用

当所求一元线性回归方程经检验为有意义的方程后, 就可用于实践。在预应力施工中, 当知道力值, 即可求出压力表读数, 从而不必每次对千斤顶和压力表进行校验。

例如:已知F=1 150 kN, 根据所求回归方程:

5 应用中注意事项

1) 千斤顶与压力表必须是经配套检验, 并且配套使用。2) 尽量采用高精度耐振压力表, 以减小误差。3) 一旦压力表或者千斤顶损坏, 经修理后, 必须重新进行配套检验, 建立方程, 进行显著性检验, 合格后方可使用。

6 结语

通过一元线性回归方程的建立, 在预应力施工中, 我们可以根据所需的应力值求出任一相对应的压力表值, 从而减少了重新配套校验的程序, 大大节省了时间, 并节约了成本。

摘要:着重介绍了预应力张拉施工中, 千斤顶与压力表配套校验后一元线性回归方程的建立、显著性检验、应用及注意事项, 通过一元线性回归方程的建立, 可以减少重新配套校验的程序, 大大节约时间和成本。

关键词:预应力,回归方程,相关系数,显著性检验

参考文献

[1]JTJ 041-2000, 公路桥涵施工技术规范[S].

上一篇:采撷艺术下一篇:粉体化学镀银研究