回归预测

2024-09-29

回归预测（精选12篇）

回归预测篇1

在卷烟产品质量管理活动中, 经常利用回归分析来研究质量特性之间的关系变化情况, 这是一种有效的统计分析方法。通过一元线性回归方程的应用, 不仅可以对质量情况分析、质量管理控制、质量改进等进行分析研究, 也可以对生产经营过程中的卷烟质量进行预测和管理。此外, 也可以将回归分析巧妙地运用与生产管理能力、产品质量特性研究、生产试验或校验、产品失败概率和经营过程失效等的模型建设、识别过程中, 并对其中的重要生产要素以及其特性进行评价, 并以此来预测试验结果等。通过对相关文献的研究, 不难发现回归分析多用于质量管理和质量预测控制方面, 在本文的研究中, 尝试将回归分析运用于卷烟质量预测控制中来提高卷烟擀的预测控制准确度。

一、数据采集以及初步分析

本研究是研究卷烟 (滤棒) 单支重与吸阻 (压降) 及硬度间的关系, 为卷烟质量预测控制提供依据, 采集了河南中烟工业责任有限公司卷包车间和滤楱成形车间的检测数据。为提高卷烟质量预测控制的精确度, 提高回归分析的科学性。进行回归分析前, 我们对卷烟单支重、吸阻和硬度指标等原始数据的散列分析以及数据相关性进行了分析。并由这些数据所得的卷烟 (滤棒单支重与吸阻 (压降) 及硬度间的散布图。

通过对以上数据的定性分析, 试验结果表明, 卷烟的单支重和吸阻存在着极显著线性关系 (相关性系统r=0.6324, 显著性水平a=0.02) , 而单支重与硬度之间相关性性减弱r=0.1878, 不能用于进行回归分析预测以及产品质量控制分析;滤棒的单支重与压降间相关性增强 (r=0.7253, 显著性水平为a=0.01) , 然而滤棒的单支重与硬度间的相关性并不显著 (r=0.1664) , 不能用于进行回归分析预测和产品质量控制分析。

二、回归方程的建立

当两个变量线性相关性增强进, 可以建立两者之间的线性回归方程。从以上的分析中不难得出卷烟产品质量的单支重与吸阻之间的回归方程为:y1=-871.0023+1.9932χ1, 决定系数R2=0.39987;滤棒单支重与压降回归方程为:y2=-3048.432+7.9932χ1, 决定系数R2=0.5801。由相应的回归方程、回归系统的显著校验以及回归系统的区间估计不难看出。以上的两个回归议程以及回归系统均达到了极其显著的水平。所以说回归分析有效。

三、利用回归议程对卷烟产品质量进行预测和精度控制

(1) 卷烟质量预测中回归分析方法的应用。

根据以上对回归分析方程的分析。卷烟的单支重每增加1mg, 那么吸阻增加1.9932Pa;滤棒单支重每增加1mg, 那么压降增加7.9932Pa, 如果将卷烟的单支重控制在900mg时, 那么可以预测出该烟支的吸阻为980.3243Pa, 在显著性水平a=0.05时, 吸阻的预测区间为 (899.3242, 1102.058) Pa;若控制滤棒单支重为742mg, 那么可以预测出滤棒的压降为3384.238Pa, 当显著性水平达到a=0.05时, 压降的预测区间为 (3302.323, 3400.123) Pa.

(2) 卷烟质量控制中回归分析方法的应用。

卷烟质量控制可以看作是对预测补充或者说是反问题。假如吸阻的标准指标为 (yn, ym) 间合格, 现在为了保证以1-a的概率合格, 就要确定变量x的范围。想要解决这个问题, 就要对使用近似的区间确定自变量X的范围。如公司这样规定, 某型号卷烟的吸阻范围为899~1287Pa, 滤棒的压降范围为3214~3687Pa, 若选择使用显著性水平a=0.05, 那么烟支的单支重χ1控制区间为900~1005mg;滤棒单支重χ2控制区间为726~786mg。而根据公司生产规定。某型号单支重范围为700~778mg, 所以在质量控制过程中, 需要调整单支重的范围为889~946mg。通过将制定的单支重控制范围报送到机台, 然后通过相关操作人员的控制从而确保卷烟和滤棒的物理指标能够达到相应的标准允差范围内。

需要补充的的是, 本文的研究是基于其它条件达到理想状态下而作出的回归分析, 根据实际生产条件, 如果其中任何一个发生变化, 则需要重新考虑, 并建立回归议程进行预测与控制。

参考文献

[1]张奎, 杨汉:《回归分析在卷烟物理指标设计优化中的应用》[J], 《湖北烟草》, 2012年01期[1]张奎, 杨汉:《回归分析在卷烟物理指标设计优化中的应用》[J], 《湖北烟草》, 2012年01期

[2]尤长虹, 陈光明, 《滤棒质量控制和评价方法的研究》[J], 《烟草科技》;2003年02期[2]尤长虹, 陈光明, 《滤棒质量控制和评价方法的研究》[J], 《烟草科技》;2003年02期

[3]刘穗君, 王玉建:《运用显著性分析探讨卷烟质量与吸阻相关性》[J], 《安徽农学通报 (下半月刊) 》;2009年16期[3]刘穗君, 王玉建:《运用显著性分析探讨卷烟质量与吸阻相关性》[J], 《安徽农学通报 (下半月刊) 》;2009年16期

[4]何晓群:《应用回归分析》 (第三版) [M], 中国人民大学出版社;2011年第一版[4]何晓群:《应用回归分析》 (第三版) [M], 中国人民大学出版社;2011年第一版

[5]邹亮:《基于多元线性回归模型的怀化卷烟需求预测分析》[J], 《湖南烟草》, 2009年第S1期[5]邹亮:《基于多元线性回归模型的怀化卷烟需求预测分析》[J], 《湖南烟草》, 2009年第S1期

回归预测篇2

现象：楼市告别两位数高增长，短期下跌难以避免，不会出现断崖式崩溃

7月28日，中国社会科学院财经战略研究院、中国社会科学院城市与竞争力研究中心发布的2014年《中国住房发展（中期）报告》显示，我国大中城市房价呈现由全线上涨到普遍微跌的主动调整态势，中国楼市告别两位数的高速增长期，正逐步回归理性。

日前，国家统计局发布的6月份70个大中城市房价数据显示，与5月相比，70个大中城市中，新建商品房价格下降的城市有55个，较上月大幅增加20个，城市数量达到2011年1月份以来最多。此外，二手住宅价格环比上涨的城市也降至7个，较上月大幅减少12个，其数量为自2012年2月以来最少。

“从价格下降的城市数量来看，70个大中城市中止涨及下降城市达到九成，大中城市房价已由全线上涨转向普遍微跌的局面。从价格下降的幅度来看，当前房价同比、环比变化情况已与2011年底楼市调整时期水平基本相当。”华业行机构市场研究部负责人说。

除了价格，成交量也在萎缩，库存仍在增加。上半年，我国商品住房销售面积为42487万平方米，同比下降了7.8%，销售额也同比下降9.2%。而待售面积则增至35917平方米，同比增加了25%。住宅施工面积也同比增长8.3%。

值得注意的是，楼市调整还只是开头。“从一二线城市看，2013年市场的疯狂上涨诱发大量新房集中上市，为消化结构性过剩与阶段性高供给，普通商品房价格将进入为期2—3年的调整期。尽管长期拐点尚未出现，但短期下跌难以避免。”中国社会科学院财经战略研究院博士邹琳华说。

华业行地产首席分析师分析，2014年，楼市变化的速度超过市场之前的预期。“从年初出现个别城市价格调整，到3—4月出现华东区域的调整，再到6月环比房价指数全面下调。市场已经出现加速调整。”他特别指出，一线城市也出现了下调，这意味着楼市调整从点到块，再到面，全面降温已经开始。

中国社会科学院城市与竞争力研究中心主任倪鹏飞分析，此次楼市调整是在宏观经济步入新常态下的调整，也是存量住房户均超过1套且住房保障有实质性进展下的调整，更是中央经济治理理念发生重大变化、在市场分化中的调整，这势必影响楼市的发展趋势及相关调控对策。

“尽管根据我国居民改善住房条件的动力，及人口流向拐点尚未出现的情况下，我国住房市场不会断崖式崩溃。”倪鹏飞说，“种种迹象表明楼市暴利时代已经终结。未来10年，中国房地产市场将进入低速增长阶段。”

原因：信贷政策收紧致需求有限，库存量短期迅速增加，保障房分流刚需并影响预期

在中国社会科学院财经战略研究院博士后杨慧看来，住房供求状况的调整是导致上半年各类城市主要指标下行的共同原因。

“住房需求受信贷政策收紧及预期观望的影响，增长有限；住房供给则受前期大量施工竣工面积住房陆续入市，以及销售低迷导致库存增加的双重作用，短期内不断增加。”杨慧分析，一线城市和热点二线城市主要指标下行，主要是由于三方面的原因。首先是去年的高基数，其次是信贷收紧导致大量刚需难以转变为实际需求，最后自住性住房及共有产权住房等保障性住房政策的建立完善，分流了大量商品住房市场的刚需并严重影响购房者进入观望期。其他二线城市和热点三线城市的楼市回调则主要是由于刚性需求在去年迅猛释放后难以为继，以及在限购限贷等楼市调控政策下，投资投机性需求被持续抑制。大量三、四线城市楼市萎靡主要是住房需求不足以消化高库存导致的供求失衡。

作为历史上首次出现的非政策因素导致的市场自发调整，本轮楼市调整不仅可能周期更长，还会对宏观经济造成一定程度的影响。倪鹏飞分析，宏观经济增长会受到房地产投资增

速放缓的影响，今年行业对GDP的贡献将降低0.7个百分点，对地方财政收入的影响也不容小觑。

更需要关注的是潜在的房地产金融风险。尽管房地产金融风险被业内多次提及，且商业银行也选择收缩房地产信贷，特别是个贷规模，但是从上半年住房信贷数据看，房地产开发贷款规模在银行信贷总规模的占比不降反升，保持着近十年来的少有的高水平。而且上半年，房地产贷款在房地产企业资金来源中的占比也是自2011年以来最高的。

“房地产信贷多项占比指标居高不下，投射出商业银行对房地产的依赖度有增加的趋势。银行40%的钱仍流向房地产业，银行业与房地产业多年来形成的利益捆绑关系更加固化、强化，商业银行‘去房地产化’的过程似乎还很遥远。”中国社会科学院财经战略研究院博士高广春说。

倪鹏飞认为，与美国不同，我国住房信贷首付比例较高，楼市风险主要存在于开发贷款环节。“我国房地产企业开发规模过大，战线又过长，资金成本又高，有可能出现资金链断裂的风险。像上半年住宅施工面积近44亿平方米，这其中很大原因就是资金跟不上导致不能如期交房，甚至会出现烂尾。那么这些在建住房就潜在了约15万亿元的信贷风险。”展望：顺应趋势引导市场理性回归，市场自发调整有利于稀释泡沫，地方政府不宜过多干预

对于有些地方限购松绑问题，华业行机构市场研究部负责人表示，松绑的效果可能有限，像沈阳等非热门城市，目前的库存量去化速度超过20个月，人口流入增量也在放缓，导致楼市上涨乏力。“除非中央政府放弃调结构努力，再次大规模降准降息，否则市场的趋势很难改变。”

倪鹏飞也认为，今年的楼市调整有利于消化2010年以来的过度库存，有利于稀释楼市泡沫。“市场的问题要交给市场解决，对于这次市场自发的调整，地方政府不宜过多干预。更不要刚开始调整就急于救市，要顺应趋势引导市场理性回归。”

华业行数据研究院负责预测，在下半年中央“微刺激”保障宏观经济稳中有进的大背景下，一线城市松绑限购的可能性不大，而其他二线城市和热点城市调整将延续全年。楼市调控则将继续关注中长期制度建设，“分类调控、区间调控、双向调控”成为楼市调控的思路。

“住房市场健康稳定发展需要一整套综合指标。住房价格不应成为市场稳定的唯一指标。”倪鹏飞说，今后楼市调控应侧重区间调控，综合房价、库存、投资等多元指标。“如果房价跌幅不超过30%，库存没有超过6至10个月，投资也没有大幅下滑，那么政府不要急于干预，还应采取中性的金融与财政政策。”

根据2014年《中国住房发展（中期）报告》，2015至2030年中国城市住房需求的总体走势将呈现“上升—平稳—下降”的“倒U型”特征。

回归预测篇3

关键词线性回归；多次反馈；统计分析；用电量预测

中图分类号 O212.4 文献标识码 A

1 引言

用电量作为经济发展走势的“晴雨表”，时刻反应经济的运行状况，对经济的发展起着至关重要的作用.从近几十年来的发展来看，电力资源的稳定与社会生活的方方面面息息相关.因此，通过对全社会用电量变化的分析，很好地进行城市用电量预测，对电力部门进行能源优化和节能减耗有着积极的作用.线性回归分析预测是最常用的预测方法[1]之一，具有模型简单，预测结果准确，模型解释能力强的特点，在各类预测问题中得到应用，如文献[2-4]在油田产量、用电量预测中都用到了此方法. 带反馈的线性回归法[5]具有更高的精度，在对用电量进行初始预测后，把实际测量值和预测值的差值作为一个新的增加量，作用到下次的多元线性回归预测中，文献[6]就用此方法预测了空调的负荷量.本文在前人的基础上推导出带多次反馈的多元线性回归法的过程，并以陕西省用电量为例来探究分析反馈回归法在用电量预测中的应用，以期得到更为精准的用电量预测模型. 最后以四川省的用电量数据对模型进行分析验证，将其结果与文献[7]中偏最小二乘回归法所得结果对比，体现出了该模型的优越之处.

由图4可见，由带一次反馈的线性回归法所得残差2明显小于由多元线性回归法所得残差1和由偏最小二乘回归法所得残差3.

5 结束语

利用反馈回归法在对2000～2012年的陕西省用电量进行预测实验中发现，多次反馈的多元线性回归方法要优于单纯的多元线性回归方法.但是在进行多次反馈的多元线性回归时，要注意对残差的估计，因为残差估计值是否接近于真实残差，会对反馈回归预测结果造成较大影响.在长期的用电量预测中，可以用多次反馈的多元线性回归法进行预测，取残差整体较小的那次反馈回归结果，这将有利于更加精准的预测用电量.同时，利用四川省1989～1998 年年用电量数据对反馈回归法进行验证，得出该方法优于线性回归法，且在该数据下优于文献[7]中偏最小二乘回归法的结论，因此具有一定的实用性.该方法的优点是能够在一定程度上提高多元线性回归法的预测精度，缺点是计算较繁琐.所以编写模型的MATLAB程序语言将是简化模型计算需要探讨的方向.

参考文献

[1] 王振友，陈莉娥.多元线性回归统计预测模型的应用[J].统计与决策，2008（5）：46-47.

[2] 丁浩，荣蓉.基于多元线性回归模型和灰色理论的山东省用电量预测[J].河南科学.2013，31（9）：1535-1539.

[3] 国亮.改进多元线性回归模型在某油田产量预测中的应用[J].西安电子科技大学学报：社会科学版，2009，19（3）：70-74.

[4] 李艳梅，孙薇.多元线性回归分析在用电量预测中的应用[J].华北电力技术，2003（11）：40-41.

[5] 王勇，黄国兴，彭道刚.带反馈的多元线性回归法在电力负荷预测中的应用[J].计算机应用与软件，2008，25（1）：82-84.

[6] 赵波峰，文远高，侯志坚.一种改进的多元线性回归空调负荷预测模型[J].制冷空调与电力机械，2011，32（4）：49-51.

[7] 王文圣，丁晶，赵玉龙，等. 基于偏最小二乘回归的年用电量预测研究[J].中国电机工程学报，2003，10，23（10）：17-20.

一种改进的线性回归预测模型篇4

所谓数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。目前,数据挖掘的主要研究领域可分为分类、预测、聚类、关联规则等方面。预测是数据挖掘研究的一个重要分支,它是数据挖掘的众多知识类型中的一种,有着极其重要的应用价值。预测是指对未来不确定事件的预见和推测。预测事件之所以不确定,是由于事件的发展受多种因素影响的结果。因素多少是不确定的,各种因素对事件影响程度也是变化的,预测时很难把握。尤其偶然因素变化情况和影响程序更难把握,所以事件的未来变化过程和结果的预测,必然与实际存在一定误差,但是并非说预测没有价值,因为现代科学的预测能够把握住事物的内在联系和发展规律,缩小预测结果与实际的差距。到目前为止,最广泛使用的数值预测方法是回归。

销售预测是企业决策的重要组成部分。销售预测是以市场商品购销为主要对象,预见和推测商品的各项购销活动、价格和竞争状况的变化趋势与结果。对于若干药品,用一元线性回归预测模型预测它们的销售金额,显然计算量比较大。现提出一种改进的线性回归预测模型,该模型和一元线性回归预测模型相配合,预测若干个药品的销售金额,能提高效率,减少计算量。

1 一元线性回归分析算法模型及其求解方法

线性回归分析涉及一个响应变量y和一个预测变量x。它是最简单的回归形式,并用x的线性函数对y建模。即:

y=b+wx (1)

式(1)中y的方差假定为常数,b和w是回归系数,分别指定线性的Y轴截距和斜率。回归系数b和w也可以看作权重,因此可以等价地记作

y=w0+w1x (2)

这些系数可以用最小二乘法求解,它将最佳拟合线性估计为最小化实际数据与线性的估计值之间的误差的线性。设D是训练集,由预测变量x的值和它们的相关联的响应变量y的值组成。训练集包含 $| D |$ 个形如 $(x_{1}, y_{1}) ‚ (x_{2} ‚ y_{2}) ‚ \dots \dots ‚ (x_{| D |} ‚ y_{| D |})$ 的数据点。回归系数可以用下式估计

$w_{1} = \frac{\sum_{i = 1}^{| D |} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sum_{i = 1}^{| D |} (x_{i} - \bar{x})^{2}} (3)$

$w_{0} = \bar{y} - w_{1} \bar{x} (4)$

其中, $\bar{x}$ 是 $x_{1} ‚ x_{2} ‚ \dots ‚ x_{| D |}$ 的均值,而 $\bar{y}$ 是 $y_{1} ‚ y_{2} ‚ \dots ‚ y_{| D |}$ 的均值。系数w0和w1通常给出其他复杂的回归方程的很好的近似[2]。

2 改进的一元线性回归分析预测模型

yn=kxn (5)

式(5)中yn是响应变量,预测的是相互关联的某药品n个月的总销售额。xn是预测变量,是已经预测出来的相互关联的某药品n个月的总销售额。

$Κ = \frac{y_{n - 1}}{x_{n - 1}} (6)$

k表示的含义是用将要预测的某药品n-1个月的实际总销售额除以已经预测出来的某药品n-1个月的实际总销售额。

第n个月的销售额:yn-yn-1 (7)

yn-1为第n-1个月的某药品的总销售额。

3 预测误差度量

预测值与实际值总会有一定的偏离,这种偏离即称为预测误差[3]。预测的未来时间越长,预测的可靠性就越低,预测误差就越易于扩大。在实际工作中,销售预测结果往往是为销售经营决策提供依据的,因而如何评定销售预测结果的精确度,如何事先判断销售预测误差,就成为销售预测工作不可缺少的一环。

研究预测误差,一般采用比较法,将预测计算值与实际值相减,其相差的部分称为预测误差。如果用Xi表实际值,Fi代表预测值,Ei代表预测误差,则

Ei=Xi一Fi或Ei= Fi一Xi (8)

衡量总的预测误差,常用的有以下几种统计量。

3.1 平均误差

计算公式 $E = \frac{1}{n} \sum E_{i} (9)$

计算平均误差虽然比较简单,但在许多情况下,误差的总和由于E的正负相互抵消,难以用平均误差的大小法说明预测结果的可靠程度,因此一般不采用此法。

3.2 绝对误差

计算公式 $E_{i} = | X_{i} - F_{i} | (10)$

采用绝对误差,克服了误差正负相互抵消的弊端,根据E的数值大小,能够反映预测结果的准确程度。

3.3 平均绝对值误差

计算公式 $E = \sum | (X_{i} - F_{i}) | / n (11)$

采用平均绝对值误差,它能够反映整个序列的预测精确度,在实际工作中,使用此法较多。

4 改进的模型应用——药品销售预测

在本节首先利用线性回归预测算法来预测相互关联的某一种药品的销售额,然后根据这个销售额,利用改进的线性回归算法来预测另一种药品的销售额。

4.1 数据准备与处理

首先声明,这些数据来自渭南市某药材公司2008年3月份的销售数据库。

浏览该数据库时发现,许多顾客在购买药品时经常购买“小5%糖”和“小盐水”这两种药品,说明这两种药品之间存在着某种关联,因此选择它们作为预测对象。

要预测某种药品的月销售额,就要把其前面几个月的销售情况统计出来,用它们来预测该类药品的月销售额。统计出来的这些数据来自渭南市某药材公司的销售记录,统计出4月份、5月份和6月份小5%糖和小盐水的的月销售额,然后用它们来预测7月份月销售额。统计出来的数据见表1。

从第二行可以看出,小盐水的销售额从4月份到5月份的销售额是升了,但从5月份到6月份的销售额是降了,并不是呈线性增长,不能用线性回归进行预测。所以要把表1中的数据进行转换,把它转换成线性的。那么如何转换线性的数据?思路是:把每月的销售额进行累加,4月份算作是一个月的销售额;5月份统计出的数据是某药品4月份的销售额加上5月份的销售额,一共是两个月的销售额;6月份统计出的数据是4月份的销售额加上5月份的销售额再加上6月份的销售额,一共是三个月的销售额。也就是说,4月份对应的是一个月的销售额,5月份对应的是两个月的销售额,6月份对应的是三个月的销售额,如此类推。转换的结果如表2所示。

4.2 月销售额的预测

预测的思路是:要预测某种药品第n月的销售额,首先要预测出总共n个月的销售额,然后减去总共(n-1)个月的销售额,就是预测的第n个月的销售额。

下面,首先利用线性回归分析预测出“小5%糖”总共4个月的销售额,然后用改进的线性回归分析预测处“小盐水”总共4个月的销售额,再用“小盐水”总共4个月的销售额减去总共3个月的销售额,就得到7月份“小盐水”的销售额。

1) 估计“小5%糖”的最小二乘直线的方程

计算平均用了多少月 $\bar{x} = (1 + 2 + 3) \div 3 = 2$ 。

计算平均销售额

$\bar{y} = (14 129 + 27 587 + 41 593) \div 3 = 27 770$ 。

根据式(3)计算w1的值:

w1=[(1-2)(14 129-27 770)+(2-2)

(27 587-27 770)+(3-2)(41 593-27 770)]

/[(1-2)2+(2-2)2+(3-2)2]=13 732元。

根据公式(4)计算w0的值:

w0=27 770-13 732-2=306。

根据公式(2)最小二乘直线的方程估计为:

y=306+13 732x (13)

2) 预测“小5%糖”和“小盐水”7月份的销售金额根据式(13)计算“小5%糖”总共4个月的销售额

y4=306+13 732×4=55 234元。

根据式(7)“小5%糖”7月份的销售额预测为

y4-y3=55 234-41593=13 641元。

根据式(6)计算k值

$k = \frac{35 480}{41 593} = 0.853$ 。

根据公式(5)预测“小盐水”总共4个月的销售额为:y4=0.853-55 234=47 116。

因为总共4个月的销售额为4月份的销售额加上5月份的销售额加上6月份的销售额加上7月份的销售额,所以,根据公式(7)“小盐水”7月份的销售额预测为

y4-y3=47 116-35 480=11 636元。

以此类推,预测“小5%糖”和“小盐水”8月份、9月份、10月份、11月份和12月份的销售金额。预测结果如表3所示。

为了进一步作比较,下面再用一元线性回归预测模型预测“小盐水”的7月份、8月份、9月份、10月份、11月份和12月份的月销售金额,预测的过程和“小5%糖”的预测过程类似,不再赘述,预测的结果如表4所示。

把药品“小盐水”利用改进的线性回归分析预测的结果和利用线性回归分析预测的结果都和实际的月销售金额做了比较,得到的结果如表5所示。

5 结束语

从平均绝对值误差的计算结果来看,改进的线性回归分析预测模型和线性回归分析预测模型相同,说明改进的线性回归分析预测模型是可行的、有效的。从效率上看,改进的线性回归分析算法也优于线性回归分析算法。从理论上看,预测的药品的种类越多,算法的效率就越高。下一步要做的工作是进一步提高改进的线性回归预测模型的的准确度。总之,通过把数据挖掘技术运用到医药销售预测中去,可以更加客观和有效地对医药销售情况加以分析,并从中得到有价值的信息;同时为管理决策部门在销售、采购等诸多方面提供参考,为企业的管理决策提供科学的依据。

参考文献

[1]邵峰晶,于忠清.数据挖掘—原理与算法.北京:中国水利水电出版社,2003:36—43

[2]Han Jiawei,Kamber M.数据挖掘:概念与技术(原书第2版).范明,孟小峰译.北京:机械工业出版社,2008:231—233

回归预测篇5

运用主成分回归分析法,将影响公路客运量的众多相关因素简化为少数不相关因素,消除因变量过多导致的多重共线性,可构建公路客运量预测模型.实例证明,该模型具有较高的`精度,适合影响因素指标发展较为明确的客运量短期预测.

作者：李晓刚贾元华敖谷昌 LI Xiao-gang JIA Yuan-hua AO Gu-chang 作者单位：李晓刚,贾元华,LI Xiao-gang,JIA Yuan-hua(北京交通大学交通运输学院,北京,100044)

敖谷昌,AO Gu-chang(北京交通大学交通运输学院,北京,100044;重庆交通大学交通运输学院,重庆,400074)

回归预测篇6

关键词：南充市；回归预测模型；城市化水平一、引言

城市化是现代最有力也是当今世界上持续最长最稳的发展趋势之一。是人口向城市集中的过程[1]，其水平的高低也逐渐成为能够反映一个地区经济发展好坏的重要标志。南充市历史悠久，建城至今已有2200多年，独特的文化气息加其特殊的地理位置，从古至今一直是川北重镇，是川东北政治、经济、文化中心和水陆交通要道。自改革开放以来，南充市城市建设突飞猛进，城市化速度加快。2004年，四川省的南充与攀枝花、绵阳、自贡一起，跨入大城市之列[2]。最近，南充市政府正在加大新型城镇化的发展，作为最能代表城市发展的城市化水平指标便显得尤为重要。至2014年南充市全市建成区面积达到228平方公里，其中主城区建成区面积达到113平方公里；农业人口579.95万人，非农人口179.08万人。城市化水平的发展受地理位置、社会经济、自然条件与政治因素等诸多因素的影响，在其城市发展过程中需扬长避短，驱利避害，明确城市的定位，在城市化水平稳步提升的同时其城市布局，产业结构也能够得到健康的调整。本文基于线性回归模型以南充市为例，以其近几年人均GDP和城市化发展水平作为主要依据，建立合适的回归模型，系统的对南充市2020年城市化水平进行预测。

二、假设及建立模型

为了探究四川省南充市城市化的相关问题，用南充市城市人口占其总人口的比重作为衡量城市化水平的指标（设为因变量y），用南充市人均国内生产总值作为衡量经济发展水平的指标（设为自变量x），基于此，分析数据，第一步构建散点图从南充市统计年鉴中获取了1997～ 2014年的城市化水平及人均国内生产总值的统计数据并制成散点图（图1）。

由图1可知，城市化水平随着经济发展水平的提高也相应提升，且近似于一条直线，从而近似认为在1997-2014年间城市化水平y与国内人均生产总值x之间存在着线性关系.

第二步，确立模型。基于以上假设，即可列出一元线性回归的数学模型：yα=β0+β1xα+εα，在上式中，yα是作为代表城市化水平的因变量；xα是作为爱代表人均GDP的自变量，α的取值范围为1997-2014；β0和β1为待定系数；εα为各种随机因素对因变量yα的影响。在数学模型yα=β0+β1xα+εα中，为了确定待定系数β0和β1的值，需采用一定的方法对β0，β1进行估计。若得出的结果为β^0，β^1，即β^0，β^1为β0，β1的估计值，那么就称函数y^=β^0+β^1x为因变量y关于自变量x的一元线性回归方程[3]。

第三步，确定系数。由上述模型可知，为得到相应的函数，首要任务就是确定待定系数β0和β1，最常用的确定估计值的方法是最小二乘法。因其估计出来的β^0，β^1所做出的直线能够最大化接近实际各点数据，也就是说，它能最直接准确地反应变量之间的线性关系。经计算，求出的回归系数（计算过程略）：β^1=1.349×10-5 β^0=15.8% 从而得到回归方程为y=15.8%+1.349×10-5x

三、模型的有效性检验

（一）回归方程的F检验。对回归方程进行F检验，第一步计算出上式回归方程的F值，再通过查询F分布表，找出Fα（1，n- 2）的值，若计算出的F值大于所查得的Fα（1，n- 2）的值，则可判定所得出回归方程具有显著性。其中F值的计算公式为：F=SrSe/（n-2），Sr为回归平方和，Sr=∑ni=1（y^i-y-）2，代表x的变化对y的影响；Se被称为残差平方和，Se=∑ni=1（yi-y^i）2，代表实验误差以及其他因素对y值的影响。而St=Sr+ Se称为总离差平方和，代表回归方程的总体误差。第二步，查询F分布表并计算F值。先确定显著性水平α= 0.05，即方程准确程度为95%。在对应的α表中，Fα（1，n-2）的值为相对应α表中（1，n-2）所代表的数值。经计算（计算过程略），F= 84.71查表F0.05（1，18- 2）= 4.49。第三步，比较二值大小可得F>F0.05（1，18- 2），说明在95%的方程准确度的水平下，所算得的回归方程具有显著性意义。

（二）相关系数检验。相关系数是用以反映变量之间相关关系密切程度的统计指标，其线性相关系数R的计算公式为R=LxyLxxLyy其中，Lyy=∑ni=1（yi-y-）2，相关系数的取值范围是 R ≤ 1。经计算，R=09171638，近于1.若R>Rα（n-2），则认为回归方程的线性相关水平是显著的.查询相关系数R检验表：在显著性水平α= 005表中找到n-2所代表的数值，查询可得R0.05（18- 2）= 0.468。相比较可知 R>R0.05（18- 2），说明了在精确度为95%的水平下（即α=005），回归方程的线性相关水平是显著的。

根据以上回归方程的F检验和相关系数检验说明，由城市化水平与人均GDP数据之间建立的城市化水平回归预测模型符合预测要求，可用于南充市城市化水平预测。

四、模型预测

y0的准确程度为95%的取值区间为（y0-2S，y0+2S），其中S2=Sen-2，其中Se=0.0273897，则S= 0.04137458.根据南充市2020年国民经济和社会发展目标，全市人均GDP预计达到39113元。根据回归预测模型y=15.8%+1.349×10-5x计算可得y0=0.685。准确程度为95%（α= 0.05）的取值区间为（60.5%，76.5%），这一结果表明，到2020年，南充市的城市化水平在60.5%至76.5%之间。

五、结论

第一，由于线性回归预测模型能够很好的反应出城市化水平和人均GDP之间的线性关系，所以本文运用线性回归模型预测南充市城市化水平具有较高的精确度和说服力。

第二，南充市城市化水平和人均GDP存在着正比关系，两者互为线性关系，根据南充市回归预测模型的预测，2020年南充市的城市化水平将达到68.5%，其波动范围将在60.5%-76.5%之间，其波动范围较大，证明南充市近几年的发展速率存在着不平稳的情况，波动起伏较大，因此，南充市在经济发展的同时更要注重如何平稳的发展。

第三，随着国家对西部的发展政策日益完善，得益于西部大开发战略，南充市在2000年的国民经济得到了跨越式的发展，在此阶段人民的生活水平质量得到明显提高，进而影响了城市化水平的快速提升。但相比于一些发达地区仍然有较为明显的差距，如何完善经济政策，改良产业结构，改善投资环境仍然是阻碍发展的大问题

参考文献：

[1]许学强，周一星，宁越敏.城市地理学[M].北京：高等教育出版社，1997：43.

回归预测篇7

工程建造价格的预测也就是对工程进行估价。所谓工程估价就是对一个计划中准备建设的上程在实施之前对其预期价格进行预测。工程的建造价格是建设单位关心的主要问题, 对于拟建工程项目来说, 如何在没有具体的施工图纸和方案时, 对项目做出预测估价, 从而决定工程最优方案和控制投入是一个项目成败的关键所在。与此同时施工单位对工程造价更加重视。如何降低工程成本, 增加企业利润是他们的责任, 这就要求施工单位根据工程的特点和要求, 预测工程造价。也就是我们常说的事前控制。目的是掌握各种形式的工程综合价格, 在工程招投标时控制预算, 最终以合理价中标。因此对一个工程进行既快又准确地预测, 对业主、受业主委托的咨询机构以及投标者来说, 都是一件至关重要的工作。在工程建设的每个阶段, 业主都要预测拟建工程的全部预期价格, 据此确定标底、评标与定标。对于投标者来说, 工程造价预测则是决定投标成败以及在工程实施过程中能否盈利的关键。

2 工程建造价格预测在工程建设中的重要作用

一方面投资计划是按照建设工期、工程进度和建设工程价格等逐年分月加以制定的, 正确的投资计划有助于合理和有效地使用资金。工程造价预测过程就是对造价的控制过程。而每一次预测对下一次估算又都是严格的控制。因此工程造价预测可以有效控制资金投入。一方面投资体制的改革和市场经济的建立, 要求项目的投资者必须有很强的筹资能力, 以保证工程建设有充足的资金供应。工程造价预测基本确定了建设资金的需要量, 从而为筹集资金提供了比较准确的依据。另一方面在市场经济中, 工程造价也受供求状况的影响, 并在围绕价值的波动中实现对建设规模、产业结构和利益分配的调节。在政府正确的宏观调控和价格政策指导向下, 工程造价预测今后在这方面的作用会更加充分地发挥出来。基于以上三个方面, 工程造价预测能够为评价投资效果提供多种评价指标, 并能够形成新的价格信息, 以此来提升我国建筑工程施工企业整体的自主竞争能力和水平, 使我国建筑工程造价管理尽快缩短与国际的差距, 实现与国际接轨。

3 回归分析方法应用

3.1 回归分析方法介绍

所谓回归分析法, 是在掌握大量观察数据的基础上, 利用数理统计方法建立因变量与自变量之间的回归关系函数表达式 (称回归方程式) 。回归分析中, 当研究的因果关系只涉及因变量和一个自变量时, 叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时, 叫做多元回归分析。此外, 回归分析中, 又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的, 分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法, 遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

客观世界中许多事物, 现象、因素彼此关联而构成关系、过程、系统。比如, 金属棒的长度“热胀冷缩”, 这说明棒的长度与温度这两个量之间存在某种关系。

若这种关系不便于用解析式表示时, 则可用统计学的方法寻找这两个量的Á统计关系。此外, 如鸟类的飞行路线与空间天侯情况, 粮食产量与气温、湿度, 儿童身高与营养之间的关系等。若这些统计关系符合最小二乘法则, 便可得到回归分析模型。本文将回归分析方法应用于工程造价的预测估算中。

3.2 方法应用

某学校教学楼工程, 4层、砖混结构, 建筑面积3500m2、工期10个月, 进行公开招标。某市建筑公司投标, 应用线性回归分析法预测估算出该工程的造价, 完成投标。

本资料只包括工程土建方面的报价, 地基处理、水暖管道、电器线路等没有包括在内。

3.2.1 搜集近期同类工程造价信息如表1

3.2.2 模型设定

本案例宜将模型设定为一元线形回归模型, 中以“area”代表建筑面积, “Price”代表投标报价模型设定为:y=a+bx, 其中:y为因变量, 本案中为Price, x为子变量, 本案中为area, a为随机误差项, b为自变量系数。

3.2.3 采用SPSS13.0软件分析结果

基本数据信息统计情况如下表:

表2数据信息基本统计量

变量相关分析如下:

从输出结果可以得出, 可决系数R2, 调整, 方程显著性检验值F, 变量的显著性检验t等均能通过检验, 获得回归方程:y=2.449+0.028x

3.2.4 预测估算

当建筑面积X=3500时, 则工程投标价格预测值为:

Price=2.449+0.028×3500=100.449 (万元)

4 结语。

需要说明的是, 在这个预测中, 考虑结构类型, 同种结构才能用上述方法预测;如果数据比较详细, 还可以加上结构类型, 投标日期, 主要建材价格等变量, 采用多元回归模型进行分析, 结果会更加可观, 科学。构成造价的诸要素, 它们之间的相互影响和相对改变, 都需要操作者自行调整, 但是对它们的轻微修改, 可使预测值发生较大变化, 是预测可信度降低;在采用回归分析法这种定量分析方法时, 要结合定性分析法, , 这样才能降低系数调整风险, 达到准确预测目的。

参考文献

[1]孙涛.灰色系统预测理论在建筑工程造价中的应用.西北工业大学 (硕士学位论文) , 2006, 2.

[2]张有为主编.预测的数学方法.国防工业出版社.1991, 10.

[3]孙明玺主编.实用预测方法与案例分析.科学技术文献出版社, 1993, 6.

[4]李华、胡奇英主编.预测与决策.西安电子科技大学出版社, 2005, 3.

[5]李业主编, 预测学.华南理工大学出版社, 1986, 6.

[6]陈忠、李莉主编.定量方法在管理中的应用.上海交通大学出版社, 2004, 9.

[7]李子奈、叶阿忠.高等计量经济学.北京:青华大学出版社, 2000.

[8]何晓群.回归分析与经济数据建模.北京:中国人民大学出版社, 1997.

回归预测篇8

预测是对未来状况的分析、判断和规划, Excel中可使用窗体工具的滚动条、微调项、列表框等, 对未来状况值进行范围设定, 以建立交互选择模型, 简化复杂的数据计算。回归分析的运用非常广泛, 在单位理财中主要用于销售预测、资金预测和成本费用预测等方面。

回归分析一般用直线方程Y=a+bX预测未来值。其中, 截距参数a、斜率参数b的确定方法有: (1) 最小二乘法公式计算; (2) Excel截距函数Intercept、斜率函数Slope确定; (3) 用直线拟合函数Linest计算, 再将其作为数值引用函数Index的嵌套函数, 以返回参数值等。

财务预测时, 一般都要用到计数函数COUNT、求和函数SUM、四舍五入函数ROUND、条件函数IF, 以及字符运算、显示公式或计算结果等技术方法, 以充分利用Excel强大的计算、分析、提示等功能。

二、销售回归分析的模型构建

Excel回归分析时, 可用最小二乘法公式确定a、b的参数值, 再用Y=a+bX预测未来销售收入。最小二乘法参数公式如下:

式中, y表示销售量或销售额;X表示时间序列;a表示固定不变的销售;b表示随时间序列变动的单位销售;n表示历史数据的期间项数;∑表示求和。

Excel提供了计算期间项数n的计数函数COUNT, 其函数公式如下:

式中, value表示包含或引用的数字型数据的参数, 可以设置1至30个参数。

【案例1】某公司甲产品近5年销量如表1所示。要求用回归直线法预测该产品未来13年的销售情况。

单位:万台

【模型构建】构建的销售预测模型如图1所示。单击B12单元格中的组合框下拉箭头, 在列表中选定某年度, 该年度的销量预测即可显示于D12单元格中, 并在B13单元格中进行提示。该模型的设计方法如下:

1.设计表格。键入文字、已知数据, 合并单元格区域等。

2.求和、乘积与幂运算。在E3单元格中键入“=C3*D3”, F3单元格中键入“=C3^2”, C8单元格中键入“=SUM (C3:C7) ”;再自动填充E4:E7、F4:F7和D8:F8单元区域的公式。

3.确定观察值项数。选定B8单元格, 键入“=COUNT (B3:B7) ”, 如图2所示。由于引用区域有5年, 所以计算结果为“5”。

4.输入参数公式。在B9单元格键入“=ROUND ( (D8-B10*C8) /B8, 1) ”。其中ROUND是四舍五入函数, 参数“1”表示保留一位小数;“ (D8-B10*C8) /B8”是参数a的计算公式。

在B10单元格中键入对参数b的计算结果四舍五入并保留一位小数的函数公式“=Round ( (B8*E8-C8*D8) / (B8*F8-C8^2) , 1) ”。

5.字符运算提示信息。在C11单元格键入“="Y="&B9&"+"&B10&"X"”。

6.设计组合框, 方法如下:

(1) 选择菜单“视图/工具栏/窗体”命令, 调出窗体工具栏, 如图1上部所示。

(2) 在窗体工具栏上单击组合框按钮, 此时鼠标变“十”字状, 在B12单元格拖动出组合框控件, 该控件处于编辑状态 (按钮上有6个或8个圆圈的控制柄) 时, 如图2所示, 调整其大小和位置。

(3) 在G1:G13单元区域中, 按时间顺序键入需要预测的年度文字。

(4) 右击B12单元的控件选择“设置控件格式”命令进入如图3所示的界面。在数据源区域键入“SGS1:SGS13” (绝对引用G1:G13单元区域) , 单元格链接中键入“SBS12” (绝对引用B12单元格) , 下拉显示项数中键入“5”, 并勾选“三维阴影”选项。

(5) 单击设置控件格式中的“确定”按钮回到工作表界面, B12单元格左部显示“1”, 这是组合框的选项代码;它依“数据源区域”中单元格的相对位置顺序而定, 如单击组合框并选“2021年”, 将显示代码“13”。

B12和G1:G13区域的数据是组合框的设计代码, 属于干扰数据, 可将其隐藏。方法是选定B12单元格, 单击格式工具栏的居中按钮, 使该代码置于组合框的后部而隐藏;右击G列, 在快捷菜单中选择“隐藏”命令。

7.在D12单元格中键入Y=a+bX的预测公式“=B9+B10* (C7+B12) ”;在B13单元格中键入信息的动态提示公式“="预测结论:"&B7+B12&"年销量"&D12&"万台"”。

8.选择“工具/选项”菜单命令, 在“视图”选项卡中勾选“公式”复选框, 则单元格中显示公式, 如图2所示;取消该选项, 则单元格中显示计算结果, 如图1所示。

三、资金回归分析的模型构建

Excel回归分析时, 可采用线性方程截距函数Intercept确定参数a的值, 斜率函数Slope确定参数b的值, 然后用Y=a+bX预测资金占用额。参数公式如下:

式中, Known_y’s表示因变量数据组或单元区域;Known_x’s表示自变量数据点集合。

【案例2】某公司近6年销售量与资金占用额如表2所示。该公司未来的销售量可能为279万～379万台, 请用回归直线法预测其资金占用额。

【模型构建】构建的资金占用预测模型如图4所示。单击C8单元格的微调按钮, D8单元格将显示不同的产销量, G8单元格将预测出该产量下的资金占用额, B9单元格进行信息的动态提示。该模型设计方法如下:

1.设计表格、键入已知数据等。

2.计算参数a、b值, 方法如下:

(1) 计算参数a的方法是:在C5单元格键入公式“=Intercept (C4:H4, C3:H3) ”。

(2) 计算参数b的方法是:在C6单元格键入公式“=Slope (C4:H4, C3:H3) ”。

3.设计微调按钮, 方法如下:

(1) 单击窗体工具栏的微调项按钮, 见图1上部, 此时鼠标变“十”字状;在C8单元格拖动一个控件。

(2) 右击控件选“设置控件格式”命令进入设置控件格式界面, 如图5所示;在最小值中键入“1”, 最大值中键入“100”, 步长中键入“1”, 单元格链接中键入“SCS8” (绝对引用C8) , 勾选“三维阴影”选项。

(3) 单击“确定”按钮回到工作表界面, C8单元格显示代码“1” (当前值或最小值) , 单击微调按钮的上下箭头, 代码值在1～100之间变动;选定C8单元格将其格式设置为居中对齐, 使代码值隐藏于微调按钮后部。

4.预测资金占用额。在D8单元格键入“=H3+C8”;在G8单元格键入“=C5+C6*D8”, 这是回归资金占用预测公式。

5.字符运算提示信息。在C7单元格键入“="Y="&C5&"+"&C6&"X"”;在B9单元格键入“=B8&D8&"万台时, "&E8&G8&"万元"”, 以提示不同产销量下的资金占用额。

四、成本费用回归分析的模型构建

Excel回归分析时, 可用直线拟合函数Linest计算参数值, 再将其作为Index的嵌套函数, 以返回这些参数值;然后用Y=a+bX预测成本费用。参数的函数公式如下:

直线拟合函数Linest参数:known_y’s表示因变量;known_x’s表示自变量;第三个参数设为TRUE或空置表示按正常的a值计算, 若设为FALSE则将a设为0;第四个参数设为TRUE表示要计算相关系数R2、a和b的值, 若设为FALSE则只计算a和b的值。

数值引用函数Index参数:“1, 1”返回Linest中的b值;“1, 2”返回Linest中的a值;“3, 1”返回Linest中的R2值。

相关系数R2的值为1则完全正相关, 为-1则完全负相关, 为0则不相关, 大于0.8则显著相关, 在0.5～0.8之间则相关, 0～0.5则弱相关。只有相关系数大于0.5时, 回归直线法的预测结果才具有参考价值。

【案例3】某公司近6年销售收入与成本费用总额如表3所示。要求判断两者之间的相关程度, 并预测未来10年不同销售额 (最高4 000万元) 对应的成本费用。

单位:万元

【模型构建】构建的成本费用预测模型如图6所示, 单击B10单元格的微调按钮以确定预测年度并显示于C10单元格;单击F10单元格的滚动条左右箭头将增减1, 单击滚动条空白处将增减10, 以确定该年的销售额并显示于H10单元格;第11行自动提示该年成本费用的预测值。设计方法如下:

1.设计表格。录入文字, 键入前4行的已知数据, 合并单元格区域等。

2.计算相关参数。在B5单元格中键入“=Index (Linest (C4:H4, C3:H3, TRUE, TRUE) , 1, 2) ”, 这是相关系数R2的函数公式;在B7单元格键入预测直线的截距参数a的函数公式“=Index (Linest (C4:H4, C3:H3, TRUE, TRUE) , 1, 2) ”;B8单元格键入斜率参数b的函数公式“=Index (Linest (C4:H4, C3:H3, TRUE, TRUE) , 1, 1) ”。

3.参数信息提示。在B6单元格中键入“=IF (C5>0.8, "显著", IF (C5>0.5, "相关", "弱") ) ”, 以提示相关程度;B9单元格中键入“="Y="&Round (C7, 2) &"+"&Round (C8, 2) &"X"”, 以提示带参数的预测公式。

4.在B10单元格设计微调按钮, 最小值为“1”, 最大值为“10”, 步长为“1”, 单元格链接为“SBS10”;居中隐藏设计代码。

5.设计滚动条, 方法如下:

(1) 单击窗体工具栏的滚动条按钮, 在F10单元格中拖动一个滚动条控件, 并调整其大小和位置。

(2) 右击该控件选“设置控件格式”命令, 在最小值、最大值、步长、页步长中键入1、1 280、1、10, 单元格链接中键入“SFS10”, 勾选“三维阴影”。

(3) 单击“确定”按钮回到工作表界面, F10单元显示“1”, 这是滚动条的设计代码;将其居中对齐隐藏于滚动条后部。

4.信息提示与预测。在C10单元格中键入“=H2+B10&"年销售额"”, 提示以哪一年为预测期;在H10单元格中键入“=H3+F10”, 提示该年的销售额是多少;在B11单元格中键入“=H2+B10&"年成本费用额"”, 提示要预测哪一年的成本费用;在E11单元格中键入在计算时四舍五入并保留两位小数的直线公式“=Round (C7+C8*H10, 2) ”, 显示该年的成本费用总额。

摘要：本文研究在销售收入、资金占用、成本费用等财务预测中, 利用Excel内置的公式与函数、窗体工具交互选择等功能, 构建Excel回归分析模型的技巧。

关键词：回归分析,模型构建,Excel函数,窗体工具

参考文献

[1]彭韶兵.管理会计学[M].成都:西南财经大学出版社, 2007.

[2]王顺金, 庄小欧.Excel财务与会计应用精粹[M].北京:北京理工大学出版社, 2009.

[3]王顺金, 邹俊霞.财务管理[M].北京:北京理工大学出版社, 2009.

回归预测篇9

支持向量机 (Support Vector Machine, 简称SVM) 是Vapnik等人根据统计学理论提出的一种新的通用学习方法[4,5], 该方法采用结构风险最小化原则, 求解的是一个一次型寻优问题, 从理论上得到的是全局最优解, 能够在对小样木学习的基础上对其他样木进行快速、准确的拟合预测, 具有更好的泛化性能和精度, 减少了对经验的依赖, 能较好地解决小样木、非线性、高维数和局部极值等实际问题[4]。本文将SVM理论引入电网负荷预测中, 建立电网负荷预测模型。xfy) (

1 支持向量机的回归算法

给定数据集如公式 (1) , 假定数据集是按X×Y上的某个概率分布P (x, y) 选取的独立同分布的样本点。设给定损失函数c (x, y, z) , 试寻求一个函数f (x) , 使得期望风险达到最小。

式中:xi!X=Rn为输入变量, yi!Y=R为期望值, n为数据点的总数。bxfwyi) ) ) (, ( (

1.1不敏感损失函数

引入不敏感损失函数

其中

这里ε是事先取定的一个正数。ε-为不敏感损失函数;对于给定ε>0, 如果超平面满足xw () b

此时该超平面包含了数据集中的所有数据点, 则称这个超平面y= (w•x) +b为对应于数据集H的硬ε-带超平面, 如图1。图中的点“×”表示训练点, 实线表示一个超平面y= (w•x) +b, 两虚线之间的区域是该超平面的ε-带。

1.2硬ε-带支持向量机

当用超曲面代替超平面时, 硬ε-带超平面算法就推广到硬带超曲面算法, 其将算法与硬ε-带超平面算法的区别部分如下:

需选择适当的核函数K (x, x')

其优化问题如下:

构造决策函数

引进松弛变量咨ζ= (ζ1, ζ2, …, ζn) 、ζ= (ζ1*, ζ2*, …, ζn*) 和惩罚函数C, 这样就得到了ε-带支持向量机。

其优化问题变为:

i把线性回归方法推广到非线性回归方法, 注意到α*和f (x) 依赖于 (xi, xj) 和 (xi, x) , 因此引入核函数K (x, x') , 优化函数变为, 其优化问题如下:

求解问题的解构造决策函数转化为

1.3支持向量机算法

1) 设已知数据集T={ (x1, y1) , g, (xn, yn) }! (X#Y) n i=1, 2, g, n式中:xi!X=Rn为输入变量, yi!Y=R为期望值, n为数据点的总数。

2) 选择恰当的正数ε和C, 选择适当的核函数K (x, x')

3) 求解优化问题

2电网负荷的支持向量机回归预测步骤

1) 通过分析, 确定历史负荷的影响因素, 并将历史负荷量影响因素作为模型的输入;

2) 将历史电网负荷影响因素对应时段负荷量作为模型的输出;

3) 将模型输入、输出规范化处理, 构建样本数据集;

4) 通过多项式核函数、径向基函数和Sigmoid核函数进行比较分析, 选择合适的核函数;

5) 对模型参数ε和C进行率定;

6) 通过支持向量机回归模型学习训练得到两个支持向量w和b的值;

7) 用得到的w和b进行短期预测, 通过与历史负荷进行比较, 对模型进行校验;

8) 用负荷的支持向量机回归模型进行将来负荷预测。

3实例分析

考虑到预测日的气温及星期、节假日等属性将对该日的负荷产生较大的影响本文将影响短期的主要影响因素归为3个:基本负荷量、温度属性、节假日属性。因此, 短期的电网负荷可以转化为由3个输入变量 (基本负荷量、温度属性、节假日属性) 和1个输出量 (电网负荷量) 的支持向量机回归问题。

以安徽省宣城市某电力局的真实历史负荷为原始数据[6]针对一周的数据对下周的某一天负荷进行预测.预测过程是先对一周数据进行修正, 然后对连续日的同一采样点进行负荷数据提取, 组成一负荷序列作为样本集。

以安徽省宣城市某电力局2007年5月25日24小时数据为样本进行SVM训练, 并通过与指标分析法预测的结果进行对比进行验证。

多项式核函数

径向基函数 (高斯核函数)

多层感知函数 (sigmoid函数)

通过对上述核函数的比较分析, 发现d=2的多项式核函数比较适合1:00时刻电网负荷预测。通过参数率定, 最后确定该时刻参数ε=0.1, C=0.75, 经过SVM学习得到和的值。采用得到的w和b的值进行拟合与预测。同理, 其他整点时刻通过模型计算的到预测值及参数, 其成果如表1所示第三列。

通过对2007年5月25日整点时刻电网负荷的预测, 计算结果明显表明, 支持向量机回归模型预测的相对误差小于神经网络相对误差, 证明其在短期电网负荷预测中的应用是完全可行的。

4结论

由于短期电网负荷是一个非常复杂的问题, 它牵涉的因素很多。它不仅与电网本身的负荷特性、用电结构等有密切关系, 还与地区经济发展差异以及天气等紧紧相关。支持向量机回归预测模型能够充分利用训练样本的分布特性, 根据部分训练样本即可构建判别函数, 不需要过多的先验信息和使用技巧, 通过非线性变换和核函数巧妙地解决了高维数的问题;加速了训练速度, 目标是期望风险最小, 从理论上说其得到的将是全局最优解。短期电网负荷量的支持向量机回归预测模型充分考虑了影响电网负荷的因素和其变化, 并非像指标分析法做简单的乘法而不考虑影响因素的变化, 因此其能较好地拟合并较精确的电网负荷量的值。

参考文献

[1]汪峰, 于尔铿, 周京阳.能量管理系统 (EMs) 第四讲——电力系统负荷预浏[J].电力系统自动化, 1997, 21 (4) :66-69.

[2]陈难武, 汪乐宇, 龙洪玉.基于组合式神经网络的短期电力负荷预测模型[Jl.中国电机工程学报, 2001, 25 (1) :50-53.

[3]虞瑄, 程浩忠, 王旭, 等.基于相关分析的中长期电力负荷综合预测方法[J].继电器, 2005, 33 (15) :49-52.

[4]Vapnik V, The nature of statistical learning theory (2nded) [M].Berlin, Springer, 1999.

[5]Mattera D, Haykin S, Support vector machines for dynamic reconstruction of a chaotic system, Advances in kemelmelhed Support vectormachine[M].Cambridge MA:MIT Press, 1999.

回归预测篇10

关键词：线性回归模型,医疗设备,最小二乘法模型,预测,故障

0 引言

随着现代医学科技的不断发展,大量的医疗设备被广泛应用于临床诊断和治疗工作中。而随着医院设备总值的增长,医疗设备的故障台次也在逐年增加。如何提高在用医疗设备的使用率和完好率,减少故障的发生,使其能够始终保持最佳的技术状态,延长使用寿命,保障临床应用,降低运行成本,是我们面临的一大课题。通过对医疗设备发生故障的趋势进行分析预测,从而得出其发展变化的规律,进一步为医学工程人员合理安排维修计划、制订设备保障预案[1]提供科学依据。

1 数据来源与方法

1.1 数据来源

某三甲医院医学工程科2005—2013 年医疗设备维修台账。

1.2 统计方法

以时间为横轴(X),年度医疗设备维修量为纵轴(Y),在直角坐标系中作散点图,观察医疗设备维修量与时间的线性关系。如果存在线性关系,用最小二乘法建立回归模型。

统计学处理:计数资料用t检验[2],P<0.05 为差异具有统计学意义,P<0.01 为差异具有高度统计学意义。

2 结果与分析

该医院2005—2013 年医疗设备维修量见表1、如图1 所示。散点图显示,随着时间的向后推移医疗设备的维修量在增长,医疗设备维修量与时间可基本认为存在线性关系,故用最小二乘法建立回归模型[3,4]。

2.1 建立直线回归方程

设直线回归方程一般表达式为,则根据最小二乘法,有:

其中,X为时间,Y为年度维修量。

根据表1 数据计算得:lXX=42,lYY=2 274 479.88,lXY=29 358.5,。进一步得到参数a=1 962.335,b=699.01。将参数a、b值代入上面的一般表达式,得直线回归方程:。

2.2 回归系数的假设检验

计算回归系数的标准误(Sb),进行t检验:

其中,SYX为回归系数的标准差;n为样本量,即2005年到2012 年共8 a。查t值界值表,t0.01(6)= 3.707,现t>t0.01,所以P<0.01。表明医疗设备维修量与时间确实存在直线关系,以时间解释医疗设备维修量的变化是合适的。

2.3对2013年度医疗设备维修量进行点预测和区间预测并验证

将年度的时间序号X=9 代入直线回归方程,预测2013 年医疗设备维修量为8 253 台次。

按一定概率(1-α)计算点预测值的区间估计:

其中,是预测值的标准误,X0是进行点预测的时间。

令置信水平(1-α)=0.95,α=0.05,按v=n-2=6,查t值界值表,t0.05(6)=2.447。,按照8 253±2.447 ×685.16 估计医疗设备维修量预测值波动区间为6 576~9 930。实际2013 年度设备维修台次为7 873,符合预测值。

2.4 对2014 年度医疗设备维修量进行点预测和区间预测

将年度的时间序号X=10 代入直线回归方程,预测2014 年医疗设备维修量为8 952 台次。

仍然按照相同的置信水平,计算得SY赞(2014)=734.16,按照8 952± 2.447×734.16 估计2014 年度医疗设备维修量预测值波动区间为7 156~10 748。

3 讨论

(1)医疗设备的维修量与多种因素有关,可能引起维修量变化的原因主要包括:1设备正常使用故障,故障率与开机率成正比关系;2设备磨合期故障,故障率与操作者操作水平及设备本身相关;3由使用环境变化引发的设备故障[5];4其他原因引发的故障[6]。

(2)该医院2005—2013 年医疗设备维修量呈逐年增加趋势,前几年增速较缓,2009—2012 年的4 a间增速较快,导致2013 年维修量预测值比实际值要高,因此2014 年预测值在置信区间内取值时应适当取中间偏低的数值作为参考。

(3)2009—2012 年医疗设备维修量增速较快,其原因主要包括:12009 年医院新建门急诊综合楼,增加床位约40%,集中引进了一批医疗设备,且新引进设备处于磨合期[7],故2010 年维修台次有明显增加。2012 年随着新建门、急诊综合楼医疗设备需求的逐步释放,预计2013 年后步入平稳增长期。22009 年北京市开始启动医保实时结算(参见《北京市社会保障卡就医实施结算实施意见》),看病不需要垫付全额费用,而直接由医保按比例实时报销,也触发了一部分特定人群的诊疗需求,增加了医疗设备的开机率和故障率。

(4)自2009 年起,医院医疗设备不断增加,设备使用率也在不断走高,随之而来的设备维护工作量几年间(2009—2013)增加了91%。设备保障部门应当采取相应措施,提前应对,如适当增加工程人员数量、合理调配工作时间等提高工作效率,以确保设备开机率。随着医疗保障水平的普遍提高,预计医疗设备的使用率还会进一步提高,且随着设备的老化,相应的故障率也会提高[8,9]。相关部门应当根据设备故障的增长趋势,结合现有设备状况,科学制订医院医疗设备保障中长期发展规划,以确保满足医院整体发展的需求。

参考文献

[1]范亚军,余巧生.浅淡医疗设备预防性维修的现实做法[J].医疗卫生装备,2015,36(1):155,157.

[2]董时富.生物统计学[M].北京:科学出版社,2002.

[3]同济大学数学教研室.高等数学:下册[M].4版.北京:高等教育出版社,1996:78-84.

[4]黄光谷.高等数学(同济四版下册)考点精析与习题全解[M].北京:光明日报出版社,1999:58-60.

[5]张昆峰,王忠明,耿西亮.季节变换对医疗设备故障率的影响[J].医疗卫生装备,2011,32(9):129,131.

[6]李振华,仝青英,范铁锤,等.医疗设备故障率与电能质量关系的研究[J].武警医学,2008,19(8):710-712.

[7]王科兵,刘雅克,刘小冬,等.医疗设备故障率高的原因分析与对策[J].医疗卫生装备,2012,33(2):111-112.

[8]王天鹰,顾伟,王莉杨.基于闭环管理思想设计的医疗设备维修管理系统[J].生物医学工程学进展,2014,35(1):40-42.

回归预测篇11

关键词:瓦斯灾害预测涌出量灰色线性回归组合模型未采掘煤层

中图分类号:TD712文献标识码:A文章编号:1674-098X(2011)05(c)-0036-01

1 目前的研究概况

我国矿井瓦斯涌出量预测主要应用的有矿山统计法和瓦斯含量预测法。瓦斯含量计算法对于尚未开采的煤层或已开采范围较小的煤层,只有较小范围实测的瓦斯含量数据,难以准确地预测深部开采水平的瓦斯涌出量。矿山统计法方法较为简单,但在预测精度方面不令人满意。基于此提出用灰色线性回归组合模型来预测瓦斯涌出量,取得了较好的效果。

2 灰色线性回归组合模型

灰色线性回归模型改善了原线性回归模型中没有指数增长趋势和灰色模型中没有线性因素的不足,更适合既有线性趋势又有指数增长趋势的序列。对于这样的序列,其建模过程如下。

设给定原始数据序列:

X(0)={x(0)(1),x(0)(2),x(0)(3),…,x(0)(n)},x(0)(k)≥0,k=1,2,…,n

为增加数列的光滑性,对X(0)做一次累加生成,有:

X(1)={x(1)(1),x(1)(2),x(1)(3),…,x(1)(n)其中x(1)(k)=,k=1,2,3,…,n。

由GM(1,1)可得到: (2.1)

用线性回归方程Y=aX+b及指数方程式Y=ae(x)的和来拟合累加生成序列x(1)(t),将生成的序列写成: (2.2)

为确定以上参数,设参数序列:

t=1,2,3,…n-1….…. …(2-3)

并设:

……………….(2-4)

上面两式的比为

,………… (2-5)

取不同的m可得到不同的,以它们的平均值作为v的估计值。

令,则(2-2)可写成:(2-6)

利用最小二乘法可求得C1,C2,C3的估计值。

令

则有,从而,这样就得到生成序列的预测值为:

………………………….(2-7)

3 灰色线性回归组合在矿井瓦斯涌出量中的应用

晓南矿2005年《矿井瓦斯和二氧化碳等级鉴定报告》显示相对瓦斯涌出量13.49m3/t,绝对涌出量56.85m3/min,属于高瓦斯矿井。应用灰色理论预测选用的原始数据序列,应该是等间距数列。本例中煤层底板标高的间隔并不相等,必须对原始数据进行初步处理。以垂深30m为间距,利用插值法求得不同深度的瓦斯涌出量。

如表1所示。

原始序列:X(0)=(11.97,12.14,12.20,12.55,12.89,13.18)

一次累加生成得:X(1)=(11.97,24.11,36.31,48.86,61.75,74.93)

对于m=1有:

所以:

对于m=2得:

对于m=3得:

如表2所示。

由表2可以看出,灰色线性回归组合模型在预测井田深部瓦斯涌出量中取得了较好的效果,既改善了线性回归预测模型中不能表达指数增长的缺陷,又弥补了灰色系统预测模型中不含线性因素的不足。

参考文献

[1]铁法煤业(集团)有限责任公司大兴矿,河南理工大学．大兴煤矿突出煤层瓦斯地质规律研究,2005.

[2]张子敏,张子戌.瓦斯地质理论与实践.吉林科学技术出版社,2005.

回归预测篇12

广西地处低纬度地区, 雨、热资源丰富, 且两热同季。广西年降雨量在1, 000毫米～2, 800毫米之间。在4月～9月间降雨量占年降雨量的75%, 雨季恰好与热季重叠。雨热同季, 较有利于农业生产。

2 广西省粮食总产量的预测模型

根据各影响因素和粮食总产量的数据, 来分析它们之间的关系。许多学者对它们的关系进行了深入的研究, 本文就广西省的粮食单产、降水量、种植面积三个因素与粮食总产量的数据利用多元线性回归模型来分析对粮食总产量的影响。

现在, 我们利用回归分析的方法, 设定这些变量之间有统计的线性关系, 建立多元线性回归模型为:y=b0+b1x1+b2x2+b3x3

x1表示粮食单产, x2表示种植面积, x3表示降水量, y表示粮食总产量, b0为常数项, bi为参数xi回归系数, 表示在其他所有自变量不变的情况下, 自变量xi每变化一个单位, 引起因变量y平均变化的数值。

利用SPSS对数据进行统计分析, 分析方法采用EN-TER方法。自变量选择粮食产量, 因变量选择粮食单产, 种植面积, 年平均降水量。

从方差分析的结果可以看出, 显著性水平为0.020, 该模型具有统计学意义。

从分析的结果可以看出, 常量b0为-517.757, 粮食单产x1的系数为0.158, 种植面积x的系数为0.382, 降水量x3的系数为-0.001。得出粮食产量与种植面积, 粮食单产, 降水量的模型:y=-517.759+0.158x1+0.382x2-0.001x3

从模型可以看出来, 对粮食产量贡献最为明显的因子是种植面积, 其次是单位面积产量。随着可耕种土地面积的不断减少, 种植面积已经成为影响粮食产量了的最为重要的因子。同时单位面积产量的影响也是十分重要。对于年平均降水量, 由于广西地处热带亚热带地区, 雨水充沛, 尤其是7月份, 降水成为一个对粮食产量影响不是特别明显的因子, 并且可能由于降水的过多而导致总产量的下降。

通过对1995-2007年种植面积、单位粮食产量、降水量的统计方程, 可以预测到2010年, 广西省粮食单产y=43.243×2010-82274=4644.43, 种植面积y=-29.865×2010+63355=3326.35, 降水量y=-193.76×2010+403039=13581.4, 进而利用广西粮食产量预测模型对广西粮食产量进行预测。预计到2010年, 广西的粮食产量为

从对1995-2007年数据的整体分析来看, 该数据是合理的。本文所采用的统计模型对未来的预测具有合理性。

3 结语

从对广西产量的影响因子分析来看, 广西的耕地面积成逐年下降趋势, 为了粮食产量的波动与耕地面积的关系十分密切, 为了保证粮食产量, 广西省必须保证耕地的面积同时提高单位耕地面积的产量。

摘要：广西是一个农业大省, 粮食产量在全国占有的比重相当大。影响广西粮食产量的因素相当的多, 通过对影响粮食产量的各种因素的分析比较, 从中选取对粮食产量影响相当大的种植面积, 单位种植面积产量, 年平均降水量这个三个因素进行线性回归分析, 得出广西粮食产量的线性回归模型, 根据模型对广西粮食产量进行预测。

关键词：广西粮食产量,线性回归,粮食产量预测

参考文献

[1]张淑英.中国农业统计资料汇编[P].

【回归预测】推荐阅读：

多元回归预测10-15

一元线性回归预测08-07

多元线性回归预测模型06-25

非线性回归预测方法12-10

理性回归07-18

立足回归05-14

回归算法05-15

回归方法05-24