工业多元回归分析(精选11篇)
工业多元回归分析 篇1
内容摘要:本文阐述了曾经出现的企业发展浪潮的原因,通过对其发展原因的进一步甄别,发现曾经出现的多元化浪潮更多的是出于政府反垄断政策的影响和经营管理人员的动机驱使。虽然客观上多元化能产生一定的收益,但与其高昂的成本比起来显然不足以支持企业的多元化发展。
关键词:多元化专业化回归
企业多元化浪潮出现的原因
政府反垄断政策的影响好范文版权所有
首先,企业是否多元化的抉择面临着政府反垄断政策的干预。美国上世纪60、70年代的反垄断政策非常严厉,不允许同行业企业的合并,而不管这种合并结果对市场竞争的影响。在有些情况下,两个非相关行业企业的合并也被管制当局认为是非法的。在这种政策背景下,企业经理人员为谋求发展只有选择多元化。因此,联合大企业成为该时期美国经济的显著特征。英国同期则是另一番情形。由于英国反垄断法只是在1965年颁布实施,而且要比美国宽松得多。因此,在1965-1983年这段时期中,联合大企业只占23的比例。除了反垄断政策之外,美国和英国在市场经济其他方面相似程度比较高,因此可以推断该时期美国企业的多元化浪潮更多地是受到政府反垄断政策的影响而造成的。
经营管理人员的动机驱使
多元化能够给经营管理人员带来一定的利益,比如多元化能降低经理人员的个人风险,从而使他们在经理的位置上坐得更牢固、更长久。经理人员为了其威望、保障等个人利益,将不惜以股东的利益为代价,追求公司最大限度的增长。因此,管理层倾向于把利润进行再投资,而不是去给股东发放红利。经理层出于个人动机驱使,认为发放红利等同于浪费,而多元化则成为保存公司财富最有吸引力的方式。此外,matsusaka(1990)指出,股票市场发出的信号对上世纪60、70年代的多元化浪潮起到了推波助澜的作用。他发现,当公司宣布非相关多元化时,其市值平均上升800万美元;而宣布相关多元化的公司,其市值平均下降400万美元。他还发现,那些多元化发展速度快的公司要比速度慢的公司市值增加地更快。在这种情况下,经营管理人员更是乐此不疲。
多元化具有一定的收益
公司多元化发展有可能产生一定的收益,主要包括:
形成一定的市场力。即多元化公司可以将市场力量由一个市场移转到另一个市场,因此提高公司的整个市场支配力,从而提高绩效。主要依靠三种手段,交叉补贴(cro-suidization),指多元化公司的子公司采取低成本的掠夺性定价,企图让竞争对手退出市场,以获取独占利润,而短期资金缺口,则由多元化公司的其它部门承担;互惠(reciprocalbuying),指多元化公司以某一采购部门向某一独立公司采购作为筹码,要求独立公司向其子公司购买投入要素,从而让子公司面对的需求线右移;相互节制(mutualforbearance),指多元化公司之间彼此尊重竞争对手不同产品市场的地位,相互之间形成一种默契,避免太大的竞争。
资源的有效利用。梯斯(teece,1980)认为资源配置失灵是导致公司多元化的一个原因,其认为公司某些资源的过剩,如果不能在市场上顺利交易,公司唯有把这些过剩的资源用在多元化生产上面,才能获取更大的利润。这类的资源可以分成两类,一种是在市场上交易成本过高的资源,另一种是无法完整分割的资源。这两种资源都无法在市场上顺利买卖,因此,拥有此过剩资源的公司便会进行多元化。teece(1982)针对该观点提出更具体的解释,认为如果公司生产具有范围经济效果,而且公司可以利用市场交易相互支持,则在公司个别生产的情形下,同样可以享受范围经济的好处。唯有当公司的资产、资源无法在市场上顺利交易时,公司便不得不进行生产的多元化,以充分利用资源。
内部资本市场效益。按照威廉姆森的观点,多元化公司或联合大企业的优势在于能够在其内部建立起一个节约交易成本的内部资本市场。因为,利用外部资本市场向不同的专业化公司配置金融资源,将不可避免地产生交易成本,这是由于需要进行信息搜集和业绩监督等活动。这些成本的数额不是小数,部分原因是由于商业秘密造成的。因此,威廉姆森断言,在一公司内部向不同的活动或部门划拨资金,将由于以下原因而具有节约交易成本的优点:由于可获得内部的详细资料和审计报告,总部可获得的信息数量和质量,均非任何外部机构能够相比的。不存在商业秘密问题。各部门间争取总部划拨的投资资金的竞争,将能改善资源的配置效率。由于在战略决策与经营决策之间的分管,减少了中间管理层的机会主义。
威廉姆森总结到,在混合大企业中,由于内部资本市场的建立,较之以市场为基础的资源配置具有两个主要优点:第一,节约了资本市场的交易成本;第二,使侵蚀股东财富的管理活动降低到最小限度。当外部资本市场处于不理想的状态时,利用内部资本市场可以
节省大量交易成本。同时,由于内部资本市场的存在,可以在承受初期亏损和增加资本方面促进新的市场进入。
税盾效益。不同类型的资产对应不同的税率,公司可以在税法允许的范围内合理避税。比如,当对分红征收的税率高于普通收入税率时,股东就产生了购买或建立新企业的激励。并购提高了企业的折旧资产补贴,增加的折旧减少了企业的可征税收入,这
样就为收购提供了一个动机。所以,公司的多元化发展有可能产生税盾效益。
除以上原因外,关于多元化原因还有以下一些解释:行业或市场因素的推动。rumelt(1974)提出逃离动机,认为当公司所处产业前景堪忧,成长机会不多,甚至已经迈入衰退阶段时,于是公司选择进入另一个新产业追求成长机会,因而出现多元化发展趋势。技术革新的推动。一种技术随着研究的深入,很有可能发展成为一个技术群体。在某一产品生产过程中的技术进步,有可能比较容易地应用于相关产品的生产或研发,从而推动企业向多元化发展。分散市场风险的动机驱使。持有这一观点的学者从金融学角度认为,市场的复杂性决定了企业的投资不可能完全正确,多元化经营便为分散风险创造了条件。不过,正像多元化本身存在众多争议一样,对于多元化是否能真正分散市场风险仍然有很多异议。
对多元化发展原因的进一步甄别
对多元化发展原因进行进一步甄别,我们发现曾经出现过的多元化浪潮更多的是出于政府反垄断政策的影响和经营管理人员的动机驱使,虽然客观上多元化能产生一定的收益,但与其高昂的成本比起来显然不足以支持企业的多元化发展。因此,从这个角度讲,多元化向专业化回归势在必然。需要说明的是,对于政府反垄断政策的影响,前文已做出分析,这里不再赘述,而将重点放在:经营管理人员的动机驱使方面并提供相应证据;与多元化收益相对的成本分析上。对于多元化的收益分析,下文没有针对每一个收益进行分析,而是将重点集中在影响比较大的内部资本市场理论上。
代理成本观点与多元化。davidj.denis,dianek.denis,atulyasarin(1997)发现,公司多元化水平与经营管理人员和外部机构股东持有股份数量呈显著的负相关关系,而且在控制了其他变量的情况下,上述结论依然成立。据此,他们提出了多元化发展的代理成本假说,他们认为经营管理人员从企业多元化发展中得到的私人收益要大于私人成本,因此其有激励去促使企业向多元化发展。例如,经营管理人员能从控制一家大的公司获得权力和威望(jeen,1986;stulz,1990);而且,管理人员的报酬是与公司规模相关的(jeen&ammurphy,1990);多元化使经营管理人员对于公司必不可少,从而在管理位置上坐得更牢固、更持久(shleifer&amvishny,1989);因此,经营管理人员倾向于采取多元化发展战略,尽管这会导致股东财富的减少。而且,只有在其面临内外部压力的情况下才减少多元化行为,比如市场约束(产品市场、代理人市场和股票市场)能减少多元化行为。他们进一步把促使经营管理人员采取归核化(refocusing)措施的约束力量归结为四种:批量购买股票(blockpurchases);并购威胁(acquisitionattempts);财务危机(financialdistre);管理变动(managementchanges)。正是在上述四种力量的作用下,他们发现经营管理人员逐渐缩减企业经营范围并向核心业务回归,有超过53.9的企业在它们采取降低多元化措施的前一年面临至少上述四种市场约束之中的一种。这种发现验证了bergerandofek(1995)提出的公司多元化行为主要受公司控制事件(corporatecontrolevents)影响的结论,也与上世纪80年代多元化向专业化回归过程中,公司控制市场在其中发挥了主要作用的假说相一致。bergerandofek(1999)的研究发现,大约有64的样本公司在采取剥离措施的重组前至少经历了一次公司控制事件,再次证实了denis,denis,andsarin(1997)的结论。好范文版权所有
内部资本市场理论并不是多元化浪潮的真正原因。对于威廉姆森(williamson)内部资本市场的理论观点,已有很多学者进行了反驳。例如,迪屈奇(1999)指出,威廉姆森的分析错误地规定了组织问题的性质,联合大企业可能是组织上对环境的不测事件和组织文化做出反映的一种解决方法。因此,内部资本市场可能不是联合大企业发展的理论原因。凯伊(1992)对威廉姆森的分析提出质疑,“为什么各家公司要结合成联合大企业,而不结合成包含纵向的——而不是横向的——联系的、综合性专业化的联合企业(combination)呢?倘若有关的过程是随机的,则交易成本的节约将不是联合大企业发展本身的一项理论”,“虽然因内部资本市场而造成的交易成本节约一般都能得到,但专业化或相关的多样化,可能包含内部资源配置的更大的效益。”凯布尔(1980)的实证研究显示,在英国制造业中有1/2以上不是经由已知的多部门公司的部门而建立联系的,只有不到10是经由已知的部门而建立联系的。因此,内部资本市场对资本在不同部门间的分配来说,只具有有限的意义,并不具有明显的作用。正如汤普森所指出,在联合大企业内部,由于产生现金流量的部门需要向那些高发展成本、低现金流量的部门进行融资,而对前者的激励决不是一项简单的活动。这一结论也就意味着,内部资本市场的相对优势可能会随着部门纯现金流量产生(netcashflowgeneration)差异性的增加而下降。shinandstulz(1998)的研究发现,多元化公司总部对各部门在总体上是相似的,并没有体现出在效率上的差别对待。因此,他们认为:内部资本市场并没有发挥其应有的在部门间合理分配资金的作用,而且,多元化公司中某一部门的投资更多地依赖于自身的资金,而不是其他部门的资金,例如,某一部门自身资金1美元的下降对其所产生的影响是其他部门资金1美元的下降对其影响程度的6倍。这可能是由于在多元化公司中,部门经理会花费大量的资源用来寻租,扭曲了资源的优化配置,使最有潜力的项目得不到及时的资金支持。在这种情况下,难怪多元化公司在绩效上不如专业化公司。
其实,对于多元化公司内部资本市场的介绍已有大量文献,对它的积极作用也无庸质疑。但是,内部资本市场只是多元化公司所具有的收益之一,并不是历史上企业多元化发展的唯一原因,它更有可能是一个补充原因。况且,外部资本市场并不是一直处于一种不连续的状况,其积极作用也并非内部资本市场所能完全替代的。随着市场规模的扩大和流动性的增强,内部资本市场相对于外部资本市场的优势正慢慢减少。
本文对多元化发展的原因进行了梳理,并对其中的部分原因进行了进一步的甄别,发现解释多元化发展的一些理论尤其是内部资本市场理论并不足以支持公司的多元化发展。多元化向专业化回归是历史的必然。
《企业多元化向专业化回归的理论分析》
工业多元回归分析 篇2
回归分析是一种传统的应用性较强的科学方法,是现代应用统计学的一个重要的分支,在各个科学领域都得到了广泛的应用。它不仅能够把隐藏在大规模原始数据群体中的重要信息提炼出来,把握住数据群体的主要特征,从而得到变量间相关关系的数学表达式,利用概率统计知识对此关系进行分析,以判别其有效性,还可以利用关系式,由一个或多个变量值去预测和控制另一个因变量的取值,从而知道这种预测和控制达到的程度,并进行因素分析。
2 多元线性回归数学模型
设可预测的随机变量为y,它受到p个非随机因素x1,x2,…xp-1,xp,和不可预测的随机因素ε的影响。多元线性回归数学模型为
其中为回归系数
对y和x1,x2,…xp-1,xp,分别进行n次独立观测,取得n组数据(样本)
则有
其中ε1,ε2,…εn相互独立,且服从N(0,σ2)分布。
令
则式(2)用矩阵形式表示为
3 模型参数β的最小二乘法估计与误差方差σ2的估计
β的最小二乘法估计即选择β使误差项的平方和为最小值,这时β的值作为β的点估计.
为了求β,由(4)式将S(β)对β求导,并令其为零,得
4 模型检验
多元线性回归数学模型建立后,是否与实际数据有较好的拟合度,其模型线性关系的显著性如何等,还需通过数理统计进行检验。常用的统计检验有R检验和F检验。
4.1 R检验
R是复相关系数,用于测定回归模型的拟合优度,R越大,说明Y与x1,x2,…xp-1的线性关系越显著,为yi的平均值,R取值范围为0<│R│≤1。
4.2 F检验
m为自变量个数,n为数据个数。
F服从F(m,n-m-1)分布,取显著性水平为α,如果F>Fa(m,n-m-1),表明回归模型显著,可从用于预测。反之,回归模型不能用于预测。
5 应用实例
某医院为了解病人对医院工作的满意程度Y和病人的年龄X1,病情的严重程度X2和病人的忧虑程度X3之间的关系,随机调查了该医院的10位病人,得数据如表1所示。
使用MATLAB语言编程并计算得下面结果:
从结果可以得出,回归模型为
取α=0.05对方程和回归系数进行检验,查F分布表可得F0.0 5(3.6)=4.76,F0.0 5(1.6)=5.99
本例中的方程检验值F=23.7098>4.76,说明模型的回归效果高度显著。
F1=9.0886>5.99,说明x1显著。
F2=0.4105<5.99,说明x2很不显著。
F3=2.5260<5.99,说明x3不显著。
R为0.9603接近1,表明线性相关性较强。
在实际中,由于Y的影响因素还有很多,使Y与X关系更为复杂,而且记录数据的准确性,可靠性,异常数据等问题,将影响Y的预测分析。
摘要:本文研究了多元线性回归理论及应用,探讨了多元线性回归模型中未知参数的估计及其参数的检验问题,以实例进行了验证。
关键词:多元线性回归分析,回归模型,检验问题
参考文献
[1]梅长林,范金城.数据分析方法.高等教育出版社.2006,2.
工业多元回归分析 篇3
引言
在新的国际竞争环境下,提高企业的创新能力,是增强企业核心竞争力,推动产业结构优化升级,进而增强竞争力的关键。企业自身的潜在创新能力和创新活动能力是提高企业创新能力的根本力量,创新投入能力是提高企业创新能力的直接动力,创新环境能力是提高企业创新能力的有效制度安排。对于湖北省和企业这两个可调控的主体来说,推进改革开放创新的前提是能正确地评估企业创新能力。而对于工业企业来说,科技资源是极为有限的,使有限的创新投入达到创新产出最大化是每一个企业所期望达到的目标。因此,如何科学的规划和决策企业的创新投入,已成为政府部门和产业界重点关注的问题。所以,开发研制一个适用于各类型工业企业,具有智能型和通用性的工业企业投入产出模型是非常必要的。
近年来,人们对创新投入产出问题进行了研究分析。例如:文献用二元线性回归分析对八大支柱产业研发资源与产业发展进行了线性回归分析,构建了工业总产值与研发人力资源和研发财力资源之间的关系;胡浩、李子彪、余迎新。用柯布·道格拉斯生产函数演变模型建立了专利数与R&D经费和R&D人员之间的关系。本文利用文章中创建的一套新的评价工业企业创新能力指标体系,考虑综合影响创新产出的主要因素,如潜在创新能力、创新投入能力、创新活动能力和创新环境能力,应用多元非线性回归方法首先对各个指标进行了非线性回归,然后从整体上进行多元线性回归,从而建立了多元非线性回归模型,并以此模型进行了实证预测检验,检验结果表明:效果良好。
多元非线性回归模型的建立与检验
(一)多元非线性回归模型的建立
线性回归分析是最基本的分析方法,但是在许多实际问题中,回归函数往往是较复杂的非线性函数。目前多元线性可以实现,但是多元非线性还没有办法通过软件直接实现并且相关的研究很少。在我们研究的项目中所建立的指标体系比较复杂,由于三级指标较多,直接对三级指标建立多元线性回归模型可以实现,但是模型比较复杂,计算量比较大,不便于应用。另外,如果直接对三级指标建立多元非线性回归模型目前很难通过软件来实现。所以,我们首先采用文章中提出的结合主成分改进后的层次分析法,利用R软件对湖北省39个子行业28个指标的相关数据进行分析,得到了二级指标和三级指标之间的线性关系,通过降维处理把28个三级指标简化为5个二级指标B1(潜在创新能力)、B2(创新投入能力)、B3(创新活动能力)、B4(创新产出能力)和B5(创新环境能力),而且尽可能大的保留了原始数据的所包含的信息,并得到了各二级指标的得分(见表2-1)。
3、 模型解释
(1)本文运用湖北省工业企业创新能力相关数据进行分析,由于我们很难确定该投入产出的周期是多长,所以我们研究2009年的投入对2010年产出的影响模型,其中B1、B2、B3和B5属于自变量,采用的是2009年的相关数据,而因变量是创新产出指标B4,采用的是2010年的相关数据。并用该模型通过2010年的创新投入数据对2011年创新产出的进行预测检验,预测平均误差率能控制在0.3% 以内,预测精度很高,说明模型良好。
(2)通过相关性分析我们发现B1与B2的相关系数为0.88,说明这两个变量相关程度相当高,这可以合理的解释我们所得到的模型是B4与B1、B3和B5的函数关系。
我们通过各种聚类分析都发现交通运输设备制造业属于独立的一类,为了建立一个更合理、更科学的模型,对于交通运输设备制造业这个异常样本应分类讨论。
结论与建议
通过对上述模型的解读,我们能够更科学的分析湖北省工业企业创新投入的四大因素与创新产出的关系,得到了一系列结论:
(1)从上述建立的回归模型中看到,影响创新产出的主要因素有:潜在创新能力、创新活动能力和创新环境能力,其中创新活动能力和创新环境能力指标值越大创新产出值越大,但是对于潜在创新能力,我们得到一个临界值(本案例得到的临界值为58.2),潜在创新能力值小于等于临界值时创新产出值随着潜在创新能力值的增加而增加,而潜在创新能力值大于临界值时创新产出值随着潜在创新能力值的增加而减小,这些都是符合实际的。因此一定范围内潜在自主創新能力的增加,会促进工业企业创新产出能力的提高。但是在所研究的38个子行业中,仅18.4%的行业达到临界值,绝大多数的行业还相差甚远。比如制造业中,有近80%的子行业未达到临界值,其中特别是皮革、毛皮、羽毛(绒)及其制品业、家具制造业、造纸及纸制品业、化学纤维制造业、废弃资源和废旧材料回收加工业等子行业与临界值相差较大,说明这些子行业在潜在创新能力方面有较大的发展空间。
(2)从模型中可以得出,潜在创新能力的投入较其他两个因素对创新产出能力提高的影响作用最大。其主要包括企业规模和人才因素两大部分,在短期内企业规模很难有较大的提高,所以企业应该把目光集中在人才因素方面,而R&D人员作为技术创新主体,直接反应潜在创新能力的大小,成为推动一个国家或地区自主创新核心力量。为此应该不断健全和完善研发人才的评价及激励制度,打造人才平台,强化研发人才培育及使用等方面的政策。
(3)从模型中可以看出,创新产出能力与创新活动能力是三次函数的关系,创新产出能力会随着创新活动能力的增加而提高。创新活动能力主要包括:引进技术经费支出、购买国内技术经费支出、技术改造经费支出和消化吸收经费支出。但是湖北省企业普遍消化吸收经费投入比例较低,所以我省各工业企业在创新中要因地制宜、因时制宜处理原始创新、集成创新和引进消化吸收再创新的关系。
结语
大多数学者在研究最优创新投入时讨论的是双自变量函数关系,或者是把企业的创新活动看成是简单追求创新直接利润最大化,忽略了较多对创新产出有显著影响的变量,比如创新环境、专利申请书、拥有发明专利数、发表科技论文数等。我们的数据来源于2009年至2011年《湖北科技统计年鉴》、《湖北省第二次R&D资源清查资料汇编》,所研究的指标体系涉及到湖北省工业企业39个子行业28个指标,数据细致全面,直接应用前人的方法很困难,所以,我们首先利用文章中提出的方法,通过降维处理把28个三级指标简化为5个二级指标,并尽可能大的保留了原始数据的所包含的信息,然后应用多元非线性回归方法对各个创新投入指标进行了非线性回归,再从整体上进行多元线性回归,从而建立了多元非线性回归模型。该模型通过了F检验和t检验,预测结果与实际数据的高吻合度也说明模型良好。通过对所建模型的解读,得到了湖北省工业企业创新能力投入产出的一系列结论和建议。特别地,提出了一种对潜在创新能力自测的思路:把所得临界值作为判别企业自身的潜在创新能力是否具有发展空间的参考依据,如果未能达到此临界值,那么该企业就应该加大潜在创新能力方面的投入力度,尤其是人才因素;如果达到或者超过此临界值,那么该企业在这方面就不用过度投入。
(作者单位:华中师范大学数学与统计学学院)
工业多元回归分析 篇4
利用中国1987~国内生产总值(GDP)和人口总数作为自变量,每年的用电总量作为因变量建立了多元线性回归模型.并根据中国GDP的增长率和人口自然增长率预测了~的.GDP和人口总数,并以建立的模型为基础预测了中国未来的用电量.
作 者:王鹏飞 WANG Peng-fei 作者单位:淮北国安电力有限公司,安徽,淮北,235000 刊 名:东北电力技术 英文刊名:NORTHEAST ELECTRIC POWER TECHNOLOGY 年,卷(期): 26(8) 分类号:F407 TM715 关键词:用电量 多元线形回归 预测
某医院护士回归分析 篇5
假如以一所医院为例,其组织因素可能就是病人数(以床位数来表示);收集到的历史数据如下:
床位数
200
300
400
500
600
700
800
900
护士数 240 260 470 500 620 660 820 860
以床位数为横轴、护士数为纵轴绘出二者的回归趋势线,如图3.3所示。(1210)
1200
护士数1000800600
400
200
200400600800 1000 1200
床位数
工业多元回归分析 篇6
模型预测法是目前常用的`隧道围岩变形预测的方法之一.文章结合广梧高速公路茶林顶隧道工程实例,建立GM(1,1)灰色模型、GM(2,1)灰色模型和双曲函数回归模型分别对隧道围岩变形进行预测,并对各模型的预测情况进行对比分析.结果表明,不论是从短期还是从长期看,GM(1,1)灰色模型都体现了优越的模拟和预测效果,且建立预测模型时不需要大量的统计数据,可应用于工程实际.
作 者:夏才初 卞跃威 金磊 XIA Cai-chu BIAN Yue-wei JIN Lei 作者单位:同济大学地下建筑与工程系,上海,92;同济大学岩土及地下工程教育部重点实验室,上海,200092刊 名:西部交通科技英文刊名:WESTERN CHINA COMMUNICATIONS SCIENCE & TECHNOLOGY年,卷(期):“”(1)分类号:U452关键词:道路 围岩变形 灰色模型 回归分析 预测
工业多元回归分析 篇7
1 分析工具
1.1 多元回归分析
回归分析是确定两种或两种以上变量间相互依存的定量关系的一种统计分析方法,它在相关分析的基础上,将变量之间的具体变动关系模型化,即建立反映变量间变化关系的函数方程式,并据此进行估计和推算。按照涉及自变量的多少,可分为一元回归分析和多元回归分析。自变量的个数多于1个的回归分析称多元回归分析,其主要步骤如图1所示。
1.2 主成分分析
主成分分析,又称为主分量分析,是利用降维思想将多个(p个)具有一定相关性的变量转化为较少个数(q个)且完全无关的综合变量(即主成分),并用综合变量来解释多变量的一种多元统计分析方法,如图2所示。
通常是将原来的p个变量作线性组合,生成新的综合变量。经典的做法是用F1(选取的第一个线性组合,即第一个综合变量)的方差来表达,即Var(F1)的贡献率越大,表示F1包含的信息越多,因此在所有的线性组合中选取的F1应该是方差最大的,称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即第二个线性组合,为了有效地反映原来的信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四直至第p个主成分。
2 实例应用
以2009年全国火灾形势为例,按照图1的步骤,对火灾与社会经济环境进行多元回归分析。由于火灾与社会经济环境之间的相互依存关系已在引言中予以分析,故直接从第二个步骤开始。
2.1 确定自变量与因变量
火灾与社会经济环境是两个涵义较为广泛的范畴,要合理地构建数理分析模型,首先要合理地选择用以表征这二者的变量指标。
2.1.1 表征火灾的变量
全国公安机关消防机构普遍采用“四项指标”衡量某一地区某一时间内火灾发生及危害后果的情况,即:火灾起数、死亡人数、受伤人数和直接经济损失。在此先用SPSS软件对这4项指标进行相关分析。
SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,一般包括Bivariate、Partial和Distances三个过程,其中Bivariate过程最为常用。将2009年度全国火灾4项指标值输入SPSS数据库中,选择Analyze→Correlate→Bivariat,进入“Bivariat”对话框(如图3所示),点击“OK”键,即输出4个变量指标的相关关系表(如图4所示)。
可以看出,经双尾检验,火灾起数、死亡人数、受伤人数和直接经济损失这4项指标的相关性很强。由于不同省市的区域面积、人口数量、经济水平、人口素质等参数都存在较大差异,从而导致火灾起数、死亡人数和受伤人数这3项指标存在较大不同,故在此选用直接经济损失Y反映不同省市的火灾形势,并确定其为因变量。
2.1.2 表征社会经济环境的变量
社会经济环境是一个涵义广泛的概念范畴,社会经济发展的总体环境包括经济环境、政治环境、文化环境、科技环境、教育环境和人口环境等,这些方面有机组合,形成一个互相影响、互相制约的系统。在选取表征社会经济环境的变量时,考虑到应体现社会经济环境的基本特点,由于历史、经济、文化、人口等各方面的原因,各地区的社会经济环境有明显不同,这些不同之处应在指标体系中得到反映,需注意以下几个方面:一是指标的全面性,社会经济环境包括经济环境、政治环境、文化环境、科技环境、教育环境和人口环境等,所以设计指标体系时要全面反映每一部分的各个方面;二是指标的代表性,指标本身有着强烈的社会经济环境意义;三是指标的简洁性,所选指标要尽量精炼、实用,应在全面反映社会经济环境的基础上确定综合性、独立性较强的若干项指标;四是指标的实际可操作性,反映居民对社会经济环境满意度方面的内容要借助居民的自我感受(主观指标)来评估,但主观指标不稳定、易变化、具有相对性,无准确度量的标准,且实际中不容易得到,只能考虑用其他客观指标来代替,以保证整个体系既切实可行,又操作简便。鉴于此,选择以下6个变量表征社会经济环境,并作为回归分析的自变量:综合发展指标X1,亿元;人口数量指标X2,为总人口数,万人;人口素质指标X3,为大专以上学历人口数,万人;社会稳定指标X4,为就业人口数,万人;居住质量指标X5,为城市人均居住面积,m2;劳动水平指标X6,为劳动报酬,亿元。
2.2 建立模型及数理分析
2.2.1 变量间的相关分析
根据中华人民共和国国家统计局网站公布的数据,查询到2009年社会经济环境6项指标(X1, X1, …, X6)的具体数值,如表1所示。
用Excel软件对上述数据进行整理,分别作出每个自变量(Xi, i=1,2,…, 6)与因变量(Y)的散点图,见图5~图10所示。
2.2.2 计算变量间的相关系数矩阵
分析图5~图10可以看出,自变量(即社会经济环境指标)与因变量(直接经济损失)的关系总体上是线性的,且因量随自变量的增长而增长,确定其相互依存关系后,接下来按照SPSS相关分析步骤计算变量间的相关系数,根据输出结果可得自变量之间及自变量与因变量之间的相关系数矩阵,见表2。
2.2.3 主成分分析
根据表2的计算结果可以看出自变量之间的自相关度很高,为避免共线性干扰,应先利用SPSS对自变量进行主成分分析,将相关性很高的变量转化成彼此互相独立的变量,产生的新变量较原始变量个数少,且能包含原始数据的大部份信息,这些新变量也就是所谓的主成分。经过计算可知,综合变量F1和F2的累计方差贡献率达91.801%>80%,因此可确定m=2,即提取2个主成分来代替原来的6个变量,表达式分别为式(1)、式(2)。
F1=0.938X1+0.918X2+0.926X3+0.908X4+0.398X5+0.969X6 (1)
F2=0.176X1-0.314X2-0.027X3-0.295X4+0.886X5+0.065X6 (2)
根据式(1)和式(2)可看出,F1主要反映经济与人口因素,F2主要反映居住质量因素。
2.3 多元线性回归分析及检验
根据主成分分析的结果将表1的数据转化为新的综合自变量数据,如表3所示。
利用MATLAB软件对两个新的综合变量进行二元线性回归计算,得到回归方程见式(3)。
Y=0.459 2F1+1.299 6F2+602.704 3 (3)
(1)回归方程的显著性检验。
计算式(3)中的检验统计量:R=0.633 6>;R0.01(n-2)=0.456;F=24.206 3>F0.01(m,n-m-1)=5.42;p=0.000 0<0.01。 所以,式(3)描述的多元线性回归方程回归效果显著。
(2)回归系数的残差检验。
残差是指实际观察值与回归估计值的差,即:undefined。残差分析的目的在于分析数据的可靠性、周期性或其他干扰,以解决实际操作中因偶然因素干扰导致的数据不可靠问题,其中的异常数据是指与其他数据产生的条件有明显不同的数据,会导致其残差异常增大。一旦发现异常数据应及时剔除,用剩余数据重新建立回归方程,以提高回归模型的质量。残差分析结果见图11所示。
从图11可看出,第9个点和第11个点数据异常,将其去掉重新回归,得到新回归方程见式(4)。
Y=0.413 2F1+1.117 7F2+831.977 5 (4)
算得,R=0.743 7,F=37.712 1,检验统计量R、F显著增大,即结果显著改进,回归效果更好。
(3)回归方程拟合。
从式(4)可以看出,F1和F2回归系数均为正值,说明其取值越大,火灾的发生直接经济损失就越大,将F1和F2与原变量的换算关系式带入回归方程,结果显示因变量与原变量的回归方程,如式(5)所示。
利用MATLAB将回归的预测值与实际值作比较,见图12所示。从图12可以看出,该回归模型的拟合度较高。
3 结 论
笔者借助Excel、SPSS和MATLAB等数学应用软件,分析选用的火灾发生及危害指标和社会经济环境指标两方面的数量关系,通过画散点图、相关分析、主成分分析及最后的回归分析建立起火灾发生及危害与社会经济环境的数学模型,得到如下结论。
(1)目前广泛采用的火灾4项指标相关性很强,信息重复很多,不适合同时说明某一地区某一时间的火灾形势,只需选择直接经济损失来表示火灾的发生及危害。
(2)社会经济环境6项指标的相关性较强,为避免自变量之间共线性的干扰,通过主成分分析,将其转化成两个相互独立的综合变量。其中,综合反映经济与人口因素影响的第一主成分对火灾的影响最大,占75%。
参考文献
[1]谢宇.回归分析[M].北京:社会科学文献出版社,2010.
[2]卢纹岱.SPSS for Windows统计分析(第3版)[M].北京:电子工业出版社,2006.
[3]王华.MATLAB电子仿真与应用教程[M].北京:国防工业出版社,2007.
[4]公安部消防局.火灾统计年鉴2010[M].北京:中国人事出版社,2010.
[5]崔蔚,杨立中.地区社会经济因素对火灾发生的影响[J].消防科学与技术,2006,25(5):690-693.
工业多元回归分析 篇8
关键词:国内旅游总花费;旅行社数;国民总收入;公路旅程
旅游作为经济发展的动力之一,在我国第三产业中的地位不容小觑。研究我国国内旅游消费支出现状及其影响因素有助于更好的降低消费支出占居民总支出的比例,刺激旅游需求,对拉动我国旅游业发展有深刻意义。国民收入的提升使得旅游花费增多,旅行社个数的增加使得居民出游更简单方便,同时,现代交通业的不断发展也使得出游交通费逐渐减少。本次研究将选取国内旅游总花费、旅行社数、国民总收入、公路旅程作为变量,采用计量经济学的方法进行实证分析。
一、模型的建立
旅游业是一个涉及交通、游览、餐饮、住宿等的综合性产业,影响因素纷繁复杂。本文选取了旅行社数,国民总收入,公路旅程来分析国内旅游消费支出的现状。其中,旅行社数反映我国旅游市场的发展状况,国民总收入用来衡量居民的购买力水平,公路旅程的数量变化则影响居民的交通费用支出,其占总支出的比例变化是旅游需求的主要影响因素。假设我国国内旅游消费支出的多元线性回归模型为:
其中,Y为国内旅游总花费(亿元),X1为旅行社数(个),X2为国民总收入(亿元),X3为公路旅程(万公里),代表众多影响变化的微小因素。
二、数据搜集及参数估计
本文样本数据选自国家统计局网1995-2014年共20年时间序列数据,利用Eviews,采用普通最小二乘法进行模型参数的估计。根据模型的估计结果,可得回归方程为:
三、模型检验
回归模型参数估计出来之后,并不能将所得的回归模型直接应用,还必须了解所估计的参数是否可以比较好地代替总体的真实参数。
(一)经济意义检验
模型估计结果说明,在假定其它变量不变的情况下,旅行社数每增长1个,我国国内旅游总花费减少0.112833亿元;国民总收入每增长1亿元,国内旅游总花费增长0.064999亿元;公路里程增长1万公里,国内旅游总花费就会减少23.93721元,这与理论分析经验判断一致。
(二)统计推断检验
1、拟合优度检验:由图1中数据知:可决系数=0.982127,修正的可决系数=0.978776,与1十分接近,这说明模型对样本的拟合程度很高。
2、回归方程的显著性检验(F检验):针对,给定显著性水平,在F分布表中查出自由度为3和16的临界值F(3,16)=3.24。由于F(293.0723)>F(3,16)=3.24,應拒绝原假设,回归方程显著,即“旅行社数”、“国民总收入”、“公路旅程”等变量联合起来确实对“国内旅游总花费”有显著影响。
3、显著性检验(t检验):分别针对,给定显著性水平=0.05,查t分布表得临界值。由数据可得,与、、、对应的t统计量分别为1.128957、-0.645504、14.48739、-2.578347,仅、的绝对值均大于。虽然通过了F检验,可是模型中解释变量X1的参数估计量未通过t检验,说明“旅行社数”对“国内旅游总花费”没有显著影响。观察发现,拟合优度的值很大,然而X1的估计值经检验不显著,那么解释变量间很可能存在较严重的多重共线性,说明回归结果可能是伪回归。
四、多重共线性的检验
计算各解释变量的相关系数,得到相关系数矩阵。由相关系数矩阵可以看出:解释变量之间的相关系数大于0.8,相关系数较高,證明存在严重多重共线性。通过逐步回归来消除多重共线的影响。因X1的系数估计值不显著,剔除X1,那么最终的回归模型为:
五、异方差的检验
计量经济学模型一旦出现异方差性,若仍采用普通最小二乘法估计模型参数,则会产生参数显著性检验无意义等一系列不良的后果。因此,需进行怀特检验。根据检验结果得知,显著水平,由于,不能拒绝原假设,说明模型不存在异方差。
六、自相关性检验
运用DW检验法进行自相关性检验,得到DW=1.020144。显著性水平=0.05,查表知当n=20,k=2时,DW检验临界值=1.10,=1.54。由于DW=1.020144<,表明存在正自相关性。
其中=0.988769,说明拟合优度很高。给定显著性α=0.05,n=19,k=2,DW=1.610431,得下限临界值=1.08,=1.53,4-=2.47,4-=2.92, 七、结论及建议 分析实证研究结果可以得知,当国民总收入增加时,物质需求的得到了满足之后的剩余财产增加,此时,人们偏向于寻求更高层次的精神需求的满足,更多人会选择通过旅游来满足自身的精神需求,从而提高国内旅游花费总额。国民总收入增加是我国国内旅游业成为朝阳产业的主要推动力量。此外,交通业不断发展,出游交通费用不再高昂,占居民日常总支出的比例逐渐变少,有助于刺激旅游需求,改变居民消费观念,人们不再觉得旅游又贵又麻烦,而是开始选择旅游来满足自身的精神需求。 修正后的模型中去掉了“旅行社数”,并不代表其对国内旅游总花费没有影响,只是影响不显著。这也引发了我们的思考,影响居民旅游需求的并不是旅行社的数量,而是质量。当前的旅游企业虽然看起来数量很多,但大部分规模都很小,提供服务和产品单一,大多集中于观光旅游景点方面,整个旅游业的产业链都较短,极易受到经济波动的影响。当下,中国正经历第三次大规模消费升级,消费水平以及产业结构都将迎来大变革。各个旅游企业所提供的服务和产品不应再是简单的一个舱位、一张门票、一间旅店,而应转向休闲度假旅游产品的升级换代,为游客提供一次休闲之旅、体验之旅、文化之旅。 参考文献: [1]马秋芳.基于虚拟变量回归的旅游花费模型构建[J].统计与决策.2008(22):62-64. [2]周笋芳.中国城乡居民收入对旅游消费的影响[J].商业研究.2014(11):48-54. [3]马丽君.居民消费价格指数(CPI)与国内旅游需求相关分析[J].软科学.2014.(04):6-10. 作者简介:李苍慧(1996-)女,汉族,河南焦作人,江西财经大学会计学院,2014级本科生,会计学(注册会计师方向)专业。 关键词:多元线性回归模型;影响因素分析;统计分析;R软件 1问题的背景与分析 美国作为世界头号强国,在科技、文化、经济等各方面的发展都具有较强的竞争优势,然而其居高不下的谋杀率却在一定程度上威胁着美国人民及世界人民的安全。本文即以美国50个州的六项指标数据,包括谋杀率、人口、文盲率、平均收入、结霜天数、地理面积为研究对象,探究谋杀率的主要影响因素。数据来源为R软件自带数据包state.x77。值得强调的是,由于搜集近期数据具有一定难度,尽管本文所用数据的年限已久,不具有时效性,但是所用的研究方法却具有普遍性与可靠性,可广泛应用于不同时期的数据统计分析,不受时间年限的约束。 2模型的建立与求解 2.1多元线性回归模型的理论 多元线性回归主要是研究一个因变量与多个自变量之间的线性相关关系,模型的形式为: 其中n为观测的数目,k为预测变量的数目。建立多元线性回归模型的目标是通过减少响应变量的真实值与预测值的差值来获得模型参数。具体而言,即使得残差平方和最小: 同时,随机误差必须满足以下四个条件,多元线性回归方程才有意义: ①正态性,即随机误差必须是符合正态分布的随机变量; ②无偏性,即随机误差的期望值为0; ③同方差性,即所有随机误差的方差都相等; ④独立性,即所有随机误差都相互独立。 2.2模型的建立与求解 2.2.1变量的选择 运用向后逐步回归方法对五个自变量进行筛选,依据的准则是AIC准则。运行结果如下: 开始时模型包含五个自变量,然后每一步提供了删除一个自变量后模型的AIC值。经过三步后,自变量结霜天数、平均收入、地理面积依次被删除,其间AIC持续下降,直到达到92.28后,选择程序终止。因此,自变量人口和文盲率为最终选定的回归自变量。 2.2.2多元线性回归模型的建立 由上一步的结果,将谋杀率作为因变量,以人口和文盲率为自变量拟合回归方程,得到回归方程:,并进行显著性检验,结果如下: 从表中可以看出,在α=0.05的水平下,F统计量的估计值为30.75,对应的P值为2.89e-09,说明回归方程是显著的,可决系数R2=0.8668,修正的可决系数R2=0.8484,说明方程的拟合效果较好;同时从回归系数的检验表中可以看出,自变量x1、x2的回归系数显著不为0,表明当控制其他变量不变时,Population、Illiteracy与Murder的线性相关关系显著,即建立的多元线性回归方程 具有统计学意义。 2.2.3回归诊断 2.2.3.1正态假设检验 首先通过残差分析对模型的正态假设进行检验,绘制出相应的学生化残差的Q-Q图和分布图: 由图可以看出,出了一个明显的离群点Nevada,误差很好地服从了正态分布,这表明正态性假设符合的很好。 2.2.3.2复共线性检验 复共线性可用统计量VIF(方差膨胀因子)进行检测。一般原则下,就表明存在复共线性问题。用R软件中的vif()函数计算各自变量的VIF值,结果如下: 由表中可以看出,所有自变量的均小于2,故模型中不存在复共线性问题。 3综合评价 由以上建模过程和结果可以看出,影响美国各州谋杀率的主要因素为人口和文盲率。通过分析可知,在人口相对较多的州部,发生谋杀案件的可能性较大,同时,犯罪率随文盲率的增加而增加,人民受教育的水平越低,则犯罪的可能性越大。除此之外,通过查阅相关的资料可得,美国的枪支合法制度也是造成美国谋杀率居高不下的重要原因之一。 参考文献: [1][美]Robert I.Kabacoff,R语言实践,人民邮电出版社,2014版. [2]张鹏辉,孙晚华,多元线性回归在影响分析中的应用,北方交通大学,2000. [3]董跃娴,影响高校教师教学质量的多元线性回归分析与思考,北京:北京农学院,2009. 然而中央银行是否能够有效地对货币供应量实施控制呢?这就涉及到关于货币供应量内生性和外生性的讨论, 所谓货币供给内生是指货币供应量由经济系统中各参与主体共同决定, 中央银行并不能对其产生实质影响, 所谓货币供给外生性是指中央银行通过对基础货币的控制以及各种货币政策的组合实施能够对货币供应量产生显著影响, 以此调控宏观经济运行。 本文在对货币供应量影响因素的分析中, 假设货币供应量是外生的, 即中央银行通过一系列政策的组合能够对其实施有效控制。为了阐释本文解释变量选择的依据, 笔者认为有必要对货币创造的机制进行简单的论述。在部分存款准备金制度和非现金结算以及不存在超额存款准备金和现金漏损的条件下, 假设A银行吸收了100元的存款, 在按照R的法定存款准备金率提取100R元法定存款准备金后, 还剩下100 (1-R) 元可以用于发放贷款;此时A银行将100 (1-R) 元全部贷出给a客户并开具支票, a客户将收到的支票转存到B银行, 此时B银行在在按照R的法定存款准备金率提取100 (1-R) R元法定存款准备金后, 还剩下100 (1-R) 2元可以用于发放贷款;以此类推。。。。。。。最后整个银行体系的存款总额为100+100 (1-R) +100 (1-R) 2+…….+100 (1-R) n元, 在n趋向于无穷大时, 存款总额为100/R元。 一、变量选择 通过上述分析可以看出, 经济体中货币供应总量在一定程度上受基础货币和金融机构的贷款规模共同影响, 其中金融机构的货币创造能力对货币供应量的最终规模起着决定性的作用。基础货币, 又称“高能货币”、“强力货币”或“货币基数”等, 它是指经过商业银行的存贷款业务而能扩张或收缩货币供应量的货币。中央银行提供基础货币的渠道主要有 (1) :向商业银行提供贷款、收兑黄金外汇、对财政透支、买进有价证券、再贴现、支付利息等。按照最宽泛的口径统计, 基础货币=流通中的现金+法定存款准备金+超额存款准备金。 我们可以通过对中国人民银行资产负债表各项目进行分析来得到影响基础货币供应的主要渠道, 资产方的外汇黄金储备、国外资产、对政府债权、对金融机构债权等, 负债方的货币发行、对金融机构负债、国外负债、政府存款等, 均可以对基础货币的供应产生影响。 另一方面, 金融机构的贷款规模对货币供应量M2起着决定性影响, 我们可以通过考察各项贷款规模合计分析其对M2的作用。 综上所述, 本文选取的变量主要有:广义货币供应量M2、中国人民银行负债方储备货币项目 (基础货币B) 、金融机构各项贷款合计 (L) 、外汇储备月末数 (FR) 、货币发行 (S) 。 二、样本数据及处理方法 考虑到数据的可得性以及样本容量的大小要求, 本文选取了1996年第一季度至2010年第四季度60组季度数据为观察对象, 数据来源于WIND资讯和CCER数据库以及中国人民银行网站、中国统计局网站等。 本文研究的主要目的是为了得到各因素对货币供应量的影响, 为此笔者选取M2作为被解释变量, 选取基础货币B、各项贷款L、外汇储备月末数FR和货币发行S为解释变量, 其中M2、B、L、FR、S为各项目的对数变化率。 三、回归结果分析 (一) 将B、L、FR、S作为解释变量进行多元线性回归 在这种情况下, M2的回归方程可以表述为M2=C (1) +C (2) *B+C (3) *L+C (4) *FR+C (5) *S, 运用EVIEWS进行多元线性回归得到回归方程为:M2=0.02241080925+0.07571872811*B+0.5178680642*L-0.02802943364*FR-0.05310772904*S。 首先对回归方程进行经济意义上的检验, 即从各回归系数的正负角度进行分析。得出B和L回归系数为正, 而FR和S回归系数为负。依据基本的经济学知识可知, 对于基础货币B和贷款规模L, 随着B或L的增加, 广义货币供应量M2也会随之增加, B和L的回归系数应为正;外汇占款S和货币发行S对M2产生影响主要是通过影响基础货币B实现的。对于外汇储备FR, 外汇储备的增加会导致大量的外汇占款, 而外汇占款对基础货币的影响取决于货币当局进行调控的举措, 在货币当局进行大量对冲的情况下, 外汇占款的增加并不一定会导致基础货币的增加, 所以FR对M2的影响正负不确定;对于货币发行S而言, 货币发行为正意味着货币当局直接向市场注入流动性, 然而其对基础货币供应的影响也取决于货币当局的操作, 所以S对M2的影响也正负不定。该回归方程一定程度上通过了经济意义上的检验。 其次对回归方程进行统计意义上的检验, 即主要从可决系数、t统计量和F统计量等对回归方程进行拟合优度检验、变量和方程的显著性检验。在5%的显著性水平下, F检验明显通过, 自由度为55 (60-4-1) 的t统计量临界值介于1.671~1.684之间。结合方程中回归系数的t统计量值可以发现, B和L对M2影响显著, 而FR和S未能通过t检验, 说明外汇储备和货币发行对货币供应量M2的影响不显著。 (二) 将B、L、S作为解释变量进行多元线性回归 在这种情况下, M2的回归方程可以表述为M2=C (1) +C (2) *B+C (3) *L+C (4) *S, 运用EVIEWS进行多元线性回归得到回归方程为:M2=0.02110316292+0.070680854*B+0.5112549307*L-0.05201381356*S。 可以看出, 在5%的显著性水平下, 方程整体是显著的, 而变量S却没有通过显著性检验, B和L均通过了显著性检验。 (三) 将B、L、FR作为解释变量进行多元线性回归 在这种情况下, M2的回归方程可以表述为M2=C (1) +C (2) *B+C (3) *L+C (4) *FR, 运用EVIEWS进行多元线性回归得到回归方程为:M2=0.02108823375+0.05896886843*B+0.5235397547*L-0.0249992737*FR。 可以看出, 在5%的显著性水平下, 方程整体是显著的, 而变量FR却没有通过显著性检验, B和L均通过了显著性检验。 (四) 将B、L作为解释变量进行多元线性回归 在这种情况下, M2的回归方程可以表述为M2=C (1) +C (2) *B+C (3) *L, 运用EVIEWS进行多元线性回归得到对应的回归方程为:M2=0.01994370106+0.05477399563*B+0.5175239509*L。 可以看出, 在5%的显著性水平下, B和L均通过了经济意义上的检验和统计意义上的检验, 下面笔者对其进行计量经济学的检验, 即检验随机干扰项是否存在序列相关和异方差, 以及解释变量是否存在多重共线性。 杜宾—瓦森 (DW) 检验可以对序列相关进行检验, 通过查表可得, 在样本容量为60, 解释变量数目为2的情况下, dl和du为1.55和1.62。按照DW检验的标准2.284843介于du (1.62) 和4-du (2.38) 之间, 不存在自相关。此外, 从回归残差图中大致可以看出, 该回归方程不存在正的或负的自相关。 对于异方差的检验, 可以通过戈德菲尔德—匡特检验法或White检验法进行检验, 本文略去此部分检验。对于多重共线性可以通过考察各解释变量间的相关系数进行大致的判定, 见表1所示。可以看出, B和L的相关系数仅有-0.2184, 相关关系不是很明显。 摘要:货币供应量是指一国经济中可用于各种交易的货币总量。包括现金、存款、商业票据、可流通转让的金融债券、政府债券等, 凡是在中央银行和金融机构以外的各经济部门和个人可用于交易的货币都是货币供应量的组成部分。货币供应量的多少, 与一国的利率水平、通货膨胀以及经济增长等指标有着密切的关联, 与社会最终总需求有着正相关的关系, 这也是我国中央银行将其作为货币政策中介目标的主要原因。 关键词:货币,供应量,多元线性回归 注释 目前, 用于软件项目的工作量估算的模型很多, 传统的估算模型主要有面向源代码 (KDSI) 的估算模型[4,5]、面向功能点 (FP) 的估算模型[6]、回归估算模型[7—9]、基于专家经验的估算模型[10,11]等。随着软件项目规模及范围的扩大, 也有专家学者提出了基于软件规模的估算模型[12]等。软件项目规模越大开发过程也变得越复杂, 传统的估算模型已很难适应于复杂项目的估算, 利用单一的通用模型对复杂项目进行估算会导致估算误差很大, 而利用参数模型进行估算, 又很难确定适合所有项目的模型参数。 一个理想的估算模型必须能适应于不同组织、不同复杂程度的软件项目工作量估算。针对当前估算模型存在的一些问题及理想估算模型的要求, 本文提出了基于多元线性回归分析的软件项目工作量估算模型。根据组织软件项目的历史数据, 确定影响软件项目开发的因子域, 进行了相关性和显著性分析, 从而建立工作量与各因子的多元线性关系, 利用最小二乘法对相关因子的系数进行回归, 经回归后得到工作量与各因子的多元线性方程。 1 工作量估算的相关性和显著性因子 1.1 工作量估算的相关性和显著性因子定义 软件项目中影响工作量估算的因素很多, 如项目的复杂度、人为因素、技术因素、资金因素、环境因素等。在众多的因素中对于项目工作量的影响各不相同, 因此定义了工作量估算相关性和显著性来描述其对工作量估算的影响程度。 定义1 (影响因子域) 设A1, A2, …, An为影响工作量估算的N个因子, n∈N, 则称论域AF= (A1, A2, …, An) 为影响因子域, 若存在因子Ai对工作量估算产生影响, 则Ai∈AF;否则因子Ai对工作量估算不产生影响, 则AiAF。 由定义1可知, 影响因子域是指对工作量估算产生影响的因子的集合, 也就是说影响软件项目工作量估算的因子可能比较多, 但在进行工作量估算时, 部分因子对估算结果产生比较明显的影响;而部分因子对估算结果并不产生影响。 定义2 (相关性因子) 设AF= (A1, A2, …, An) 为影响因子域, 若对于某个Ai∈AF, 存在工作量估算值E与因子Ai的某种一元线性关系, 则称因子Ai为工作量估算值E的相关因子, 简称相关性因子, 即 由定义2可知, 影响因子域AF中存在多个影响因子, 因子Ai在进行工作量估算时与工作量估算值E存在某种一元线性关系, 则称因子Ai为相关性因子;否则, 就不是相关因子。 定义3 (相关系数) 设AF= (A1, A2, …, An) 为影响因子域, 若对于某个A∈AF, 且是相关因子, 反映工作量估算值E与因子A的关联紧密程度的值, 则称相关系数, 记为r (A, E) , 其值由式 (2) 确定。 定义4 (显著性因子) 设AF= (A1, A2, …, An) 为影响因子域, 若对于某个Ai∈AF, 且Ai是相关因子。如果Ai对工作量估算值E的影响是可靠的, 并不是偶然因素引起的, 则称Ai为显著性因子。 1.2 工作量估算的相关性和显著性分析 当前的软件系统不再是依靠个人来完成, 基本上都由团队合作进行开发的大型工程项目, 从而影响项目开发的环境也极为复杂, 即影响工作量估算的影响因子比较多。因此, 在进行工作量估算时并不是所有的影响因子都是有用的, 那么, 对工作量估算的因子域进行相关性和显著性分析是极其必要的, 从而筛选出有用的影响因子。 定理1设AF= (A1, A2, …, An) 为影响因子域, 对任意给定的影响因子Ai∈AF, 且是相关因子, 若其相关系数r (Ai, E) >0.7, 则影响因子Ai与工作量估算值E具有很好的相关性。 证明过程可参考统计学原理, 证明略。相关系数反映了自变量Ai与因变量E之间关联的密切程度, 因此r (Ai, E) 的值越大, 其影响因子Ai对工作量估算值的影响也越大。 定理2设AF= (A1, A2, …, An) 为影响因子域, 若Ai是显著性因子, 则因子Ai的显著性水平α必需满足α<0.05, 即因子Ai对工作量估算值产生的影响是可靠的。 在定理2中, 需要先计算显著性t值, 其计算方法由式 (3) 确定, 然后根据自由度、t分布表查询因子的显著性。依据统计学原理可知, 显著性不足, 说明得出的结果也就越不可靠, 因此该因子也就不能作为显著性因子。 由定理1、定理2可知, 利用回归模型进行工作量估算时, 其影响因子Ai的相关系数r>0.7和显著性水平α<0.05时, 其工作量估算值才是可靠的。 2 工作量估算的线性回归模型 2.1 估算模型确定流程 软件项目的开发过程是一个多变的复杂过程, 因此在进行工作量估算时, 因先列出有可能影响项目工作量的相关因素, 即确定影响因子域。在线性回归模型中, 相关因子的确定并不代表着工作量估算值E所需的自变量范围已经确定, 因此需要求解相关系数及显著性水平来确定自变量集合, 从而建立线性回归方程。再根据历史数据求解线性方程的系数, 确定工作量估算的回归模型。整个流程如图1所示。 在整个流程中, 历史数据与当前项目数据的相似性影响到估算模型的正确性, 对工作量的估算值产生重要影响。因此, 文章利用欧几里德距离公式来筛选历史数据与当前项目数据的相似性, 从而保证求解出来的相关系数的正确性。 定义5假设历史项目的影响因子域为HF= (h1, h2, …, hn) , 其对应的值为 (hv1, hv2, …, hvn) , 当前项目的影响因子域为CF= (c1, c2, …, cn) , 其对应的值为 (cv1, cv2, …, cvn) , 称由式 (4) 计算出来的值为项目相似度的欧几里德距离。 由式 (4) 计算出来的距离越小, 其两个项目的相似度就越大, 因此可以把该项目的数据作为历史数据。 2.2 估算模型的线性回归方程 由图1可知, 关于工作量估算的线性回归模型是以影响因子域为基础, 通过影响因子的相关性和显著性分析获得线性方程的自变量范围, 从而建立线性回归方程, 其实不然, 根据影响因子域就可以建立一个通用的线性回归方程, 方程通过式 (5) 表示。 定理3设AF= (A1, A2, …, An) 为影响因子域, 其对应的值为 (av1, av2, …, avn) , 则其工作量估算模型的线性回归方程可由式 (5) 来确定。 定理3中, 其中λ表示与影响因子无关的前期工作时间, βi表示完成某个因子所需的平均时间, ε表示项目开发中的不确定性。由定理3可知, 若Ai不满足定理1、定理2的条件, 则系数βi的值为0, 显而易见, 由此得出的方程的自变量是满足相关性和显著性分析的。由于λ、βi及ε的值都是由历史数据进行回归计算得到, 因此当项目团队和管理相对稳定时, 项目的不确定性基本上可以忽略不计, 故ε可以直接赋值为0。 在式 (5) 中, 只要给出模型参数λ、βi合理估值, 就可以得到工作量EV的无偏估算。本文采用最小二乘原理进行估算, 详细计算方法可参高等数学。 3 实验结果与分析 3.1 实验 当前, 某集团下的子公司承建了某大型B2C电子商务网站的ERP系统的开发, 简记为N-ERP, 根据系统需求分析和概念设计估算出该系统大致有348个功能点、268个用例、136个实体和224个数据库表。为了估算该B2C的ERP系统的工作量, 我们需要采集历史数据。表1是该集团历史项目的工作量与影响因子值表, 其中工作量单位:人日。 要求解该ERP项目的工作量, 首先需要优选历史数据, 根据欧几里德距离公式, 可以计算出当前项目与历史项目之间的距离关系, 如表2所示。 由表2可知, 项目C、F的欧几里德距离比较大, 而最接近的项目是G项目, 因此, 可以选择项目A、B、D、E、G的数据作为历史数据用于回归计算。确定历史数据后, 需要确定影响工作量的有效影响因子, 而确定有效影响因子需计算其相关系数和显著性, 表3是以项目A、B、D、E、G的数据作为历史数据计算获得的相关系数和显著性。 通过表3的相关性和显著性分析, 最终决定使用历史数据中的功能点、用例、数据库表作为工作量估算模型的自变量。由此可以建立N-ERP项目的线性回归方程。 在公式 (6) 中, av1表示功能点变量, av2表示用例变量, av3表示数据库表变量, 将项目A、B、D、E、G的历史数据利用最小二乘原理进行计算得到β1、β2、β2及λ的值分别为:0.006、1.477、-0.869、177.6, 即线性回归方程为: 由上述分析可知, N-ERP项目以功能点、用例和数据库表作为相应的变量, 代入公式 (7) 即可计算出的工作量为:EV=177.6+0.006×348+1.477×268-0.869×224≈381。 3.2 结果与分析 3.2.1 误差分析 工作量估算的准确度可以通过估算值与实际工作量之间的误差范围来体现, 本文依据项目的历史数据通过公式 (7) 进行工作量估算并与实际工作量来分析模型的误差范围, 根据计算工作量的估算值与实际值之间的误差小于6%。由此可见, 该模型具有良好的收敛性, 工作量的估算值与实际工作量是相近的。 3.2.2 模型优势 本文尽量考虑了影响工作量的因素, 通过相关性和显著性分析确定影响因子, 并对组织项目的历史数据进行了筛选, 确保用于线性回归的项目数据与当前项目具有较大的相似度。最后, 利用最小二乘方法进行线性回归, 确定回归方程, 利用方程估算当前项目的工作量。从实验结果中看到, 本文的估算模型无论是从影响因素, 还是准确度上都比其它估算模型有一定的优势。 4 结束语 本文提出的多元线性回归模型, 考虑了影响项目工作量估算的多方面因素, 利用了相关性和显著性方法来确定具有决定性的影响因素。通过对组织项目的历史数据进行相似度筛选, 并利用最小二乘法进行回归系数求解来降低估算值的误差, 提高了工作量估算的精确度。在工作量估算中不仅需要具体的模型, 同时也需要丰富的项目经验的积累, 使相关系数更准确, 从而提高估算的精确度, 使得估算结果无限接近预期要求和目标。 摘要:软件项目工作量估算在软件开发过程中一直扮演着重要角色。为了准确地估算软件项目工作量, 提出了基于多元线性回归分析的估算模型。定义了软件项目中工作量估算的相关性和显著性因子。根据组织软件项目的历史数据, 进行了相关性和显著性分析, 确定影响软件项目开发的因子域;并利用最小二乘法对相关因子的系数进行回归。经回归后得到工作量与各因子的多元线性方程。通过多元线性回归模型的实际应用, 表明该模型误差小精度高, 为软件企业提供了一种简易而准确的工作量的估算方法。 关键词:软件项目,工作量估算,估算模型,线性回归分析 参考文献 [1] Matson J, Barret B, Mellichamp J.Software development cost estimation using function points.Software Engineering, IEEE Transactions on, 1994; (04) :275—287 [2] Herroelen W, Leus R.On the merits and pitfalls of critical chain scheduling, Management, 2001; (11) :559—577 [3] Verner J M, Evanco W M, Cerpa N.State of the practice:an exploratory analysis of schedule estimation and software project success prediction.Information and Software Technology, 2007; (02) :181 —193 [4] Wang Y, Song Q B, Shen J Y.Grey learning based software stage-effort estimation.International Conference on Machine Learning and Cybernetics, 2007;8 (3) :1470—1475 [5] Huang Sunjen, Chiu Nanhsing, Liu Yujen.A comparative evaluation on the accuracies of software effort estimates from clustered data.Information and Software Technology, 2008;9 (50) :879—888 [6] Carnegie Mellon University SEI Capability Maturity Model Integration (CMMISM) .Version 1.2 2006 [7] Yang Da, Wan Y X, Tang Z N.COCOMO-U:An extension of COCOMOⅡfor cost estimation with uncertainty.Lecture Notes in Computer Science, 3966/2006:132—141 [8] 解浪, 杨叶.一种软件工作量估算的不确定性度量方法.计算机工程, 2012;2 (3) :39—42 [9] 汤子楠比, 舒风笛.用于软件开发工作量估算的IOP模型.计算机工程与设计, 2008;2 (4) :784—796 [10] Wang Qing, Li Mingshu.Software process management:Practices in China.International Software Process Workshop, SPW 2005;Beijing, China, May 25—27, 2005 [11] Jrgensen M.A review of studies on expert estimation of software development effort.Journal of Systems and Software, 2004;2 (70) :37 —60 【工业多元回归分析】推荐阅读: 多元线性回归分析模型10-05 多元非线性回归分析07-25 多元回归12-10 多元回归预测10-15 多元线性回归预测模型06-25 多元非线性回归模型11-13 呼唤工业精神的回归07-04 多元判别分析08-18 多元分析技术12-02 多元分析、主成分分析11-02工业多元回归分析 篇9
工业多元回归分析 篇10
工业多元回归分析 篇11