偏最小二乘分析

2024-08-12

偏最小二乘分析(共7篇)

偏最小二乘分析 篇1

摘要:为了提高商业银行服务质量, 文章总结并提出了商业银行在软件服务与硬件设施中各种导致顾客不满意的因素, 通过设计调查问卷获取数据, 使用偏最小二乘回归方法, 依照客户不满意程度对各影响因子进行排序, 发现商业银行影响顾客不满意的服务质量、网点位置、营业环境、机器故障、投诉处理5大因子中, 服务质量、投诉处理对顾客不满影响最严重, 而机器故障影响不显著, 结论提供了银行业改进服务的依据。

关键词:商业银行;顾客不满意因素;偏最小二乘法

一、引言

目前中国金融市场的竞争日趋激烈。而当顾客实际得到的服务与预期服务不一致时, 便会产生不满。调查显示, 在每100位不满意的顾客中, 约有13%的顾客人均会向20人传播不满, 其余顾客平均向9人传播不满。因此, 研究消费者不满意的因素越来越变得重要。

自从Cardozo在1965年将顾客满意度 (CustomerSatisfaction) 的概念引进营销学领域, 各国对顾客满意度的理论研究和实践应用取得了长足发展。Olshavsky与Anderson探查了期望-不一致理论的基本框架, 该模型认为预期服务质量和感知的服务质量发生不一致时, 顾客会有各种反应, 而根据感受服务不一致程度, 分别产生满意、一般和不满意几种情绪。

西方学者Binter、Booms和Tettreault运用关键事件技术, 从顾客角度探讨了服务接触中顾客满意与不满的原因, 并将这些原因分类。在国内研究中, 刘石保把不满意产生的原因归结为:促销差距、理解差距、程度差距。孙丽辉开发出了包装公司的测量量表。而在金融服务业中, 李菁华总结出顾客不满意因素有核心服务失败与附加承诺失信等因素。

本研究在参考国内外学者对影响顾客不满意因素量表的基础上, 设计出了适合我国商业银行影响顾客不满意因素的评分量表。并运用该量表, 调查了200多名消费者。利用偏最小二乘法 (PartialLeastSquaresPLS) 对银行软硬件服务导致的顾客不满意因素进行分析, 尝试给出各因子敏感度。

二、PLS回归数学模型

PLS回归分析是一种新型的多元统计数据分析方法, 它于1983年由伍德 (S.Wold) 和阿巴诺 (C.Albano) 等人首次提出, 主要适用于多因变量对多自变量的回归建模。与传统多元线性回归模型相比, PLS集中了主成分分析、相关分析和多元线性回归分析方法的特点, 其建立的模型比传统的经典回归分析方法 (OLS) 有更好的效果。

三、商业银行顾客不满意模型设计

商业银行顾客不满受多种因素的影响。如某调查显示, 85.8%的个人客户在银行柜台办理业务时排队等候时间过长。相关文献指出导致银行顾客不满意原因主要有:排长队问题、服务态度、营业网点分布、窗口业务员技术、营业时间。

综合分析后, 本文从服务质量、网点位置、营业环境、机器故障、投诉处理5个因子方面进行研究。建立的模型, 如图1所示。

具体影响因素及所对应变量设置, 如表1所示。

四、实证研究和研究结果分析

(一) 数据来源和描述性统计

本研究数据主要来源于西安某高校和各事业单位, 共发放问卷220份, 回收202份, 回收率为92%, 有效问卷194份, 有效率为96%。有效样本中, 男性和女性顾客各占总样本的48%和52%。其中24岁到30岁的顾客比例较大, 占总样本的65%;硕士学历的顾客比例较大, 占总样本的41%上。调查问卷采用10级李克特 (Likert-10) 量表设计, 让顾客对其所经常办理业务的银行服务进行评价, 并给出合适分值, 其中1分为最低, 10分为最高。

(二) 数据的信度和效度分析

回收调查问卷后, 需要对其进行信度和效度检验。选择克隆巴赫一致性指标 (Cronbach’salpha) 评判, 其值位于0和1之间时, 越接近于1则信度越高。借助统计软件SPSS17.0进行问卷信度分析。结果数据显示问卷的Cronbach’salpha均大于0.7, 说明各问题问卷内部一致性较好。

根据本次调查问卷的特点本文采取结构效度进行分析。KMO, 该系数越大, 愈适合进行因素分析。此处KMO值为0.874, 表示适合因素分析。此外, 从Bartlett’s球形检验值为1742.750, 自由度为231, 适合进行因素分析。

以特征值=1为抽取因素标准, 初始特征值大于1的共有5个, 即22个影响因素经主成分分析法萃取为5个主要因子。这是因素分析时所抽出的共同因素数。五个共同因素的累积解释变异量 (累计贡献率) 为69.646%, 说明能够解释变量的大部分差异。而通过转轴后的成分矩阵, 我们可以看到测量变量与通过因素分析得出的共同因素所包含的内容基本一致。经过上述因素分析, 论证了本调查问卷具有很高的建构效度。

(三) 运行结果和结果分析

借助于SPSS17.0和SmartPLS软件, 将问卷数据进行偏最小二乘法回归计算, 模型的R2值为0.784, 说明模型对调查数据的解释性较好。5个因子对不满意程度的影响大小, 如图2所示。

根据图2显示, 在影响顾客不满意因素的5个因子中, 服务质量对满意度的影响最大, 为0.32;其次是投诉处理, 为0.28;依次是网点位置、营业环境和机器故障, 分别为0.17、0.12和0.03。其中机器故障对顾客不满程度不具有显著性, 可以忽略不记。

五、结论

以上结果表明了服务质量、投诉处理和网点位置是影响商业银行顾客不满意程度的最主要因子, 而营业环境、机器故障影响相对较小。由于服务质量和顾客的满意程度紧密相关, 服务质量的好坏直接决定银行的利益。因此, 建议银行尽快推行服务质量管理系统, 重视顾客意见, 提高服务质量;站在顾客立场思考问题, 及时、妥善的处理客户投拆因素, 并积极采纳其意见;在网点位置上, 应该选择显眼, 周边配套措施较完善的地点, 并且分布均匀。

参考文献

[1]、李业, 曾忻.顾客不满意的反应, 影响及抱怨化解策略[J].中国流通经济, 2002 (6) .

[2]、王高, 李飞, 陆奇斌.中国大型连锁综合超市顾客满意度实证研究——基于20家大型连锁综合超市的全国调查数据[J].管理世界, 2006 (6) .

[3]、Anderson RE.Consumer dissatisfaction:the effect of disconfirmed expectancy on perceived product performance[J].Journal of Marketing Research, 1973 (1) .

[4]、刘石保.“顾客不满意”的研究有感[J].大众商务 (下半月) , 2009 (9) .

[5]、孙丽辉.顾客不满意原因分析及顾客满意程度的测量[J].世界标准化与质量管理, 2003 (7) .

[6]、李菁华.中国金融服务顾客不满意因素和反应行为研究[J].工业技术经济, 2008 (5) .

[7]、王惠文, 吴载斌, 孟洁.偏最小二乘回归的线性与非线性方法[M].国防工业出版社, 2006.

[8]、黄璘.审视公共服务业——四大公共服务业消费者满意度调查报告[J].中国消费者, 2007 (7) .

偏最小二乘分析 篇2

改革开放以来,随着经济的快速发展,我国面对的资源与环境的压力增大,严峻的节能减排形势受到高度关注。党的十八大报告提出:“推动能源生产和消费革命,控制能源消费总量,加强节能降耗,支持节能低碳产业和新能源、可再生能源发展”。因此,研究我国碳排放的区域差异及其影响因素作为政策实施的理论根据,具有重要的现实意义。

近年来,国内外文献对碳排放问题进行了深入而广泛的研究。Liu et al.(2007)运用LMDI分解法对我国1998~2005年间工业部门的CO2排放进行了实证研究[1]。Clarke-Sather等(2011)运用变异系数、基尼系数和泰尔指数对中国1997~2007年间中国东中西部地区CO2排放进行实证分析[2]。王峰等(2010)运用对数平均Divisia指数分解法,将1995~2007年间中国能源消耗的CO2排放分解为11种驱动因子的加权,并对这一时期中的6个时段以及每一种驱动因素进行了研究[3]。李国志等(2010)运用STIRPAT模型分析了人口、经济和技术对不同区域碳排放的影响[4]。雷厉等(2011)通过构建LMDI分解模型,将不同地区人均碳排放分解为人均GDP、能源结构、能源强度等影响因素[5]。蒋金荷(2011)运用对数平均Divisia指数对中国1995~2007年间包括经济规模效应、结构效应、能源强度效应和碳强度效应在内的碳排放变化的影响因素以及贡献率做出定量研究[6]。贺红兵(2012)运用Shapley值分解分析方法,对我国最近5年来的能源燃烧碳排放变化的因素进行分解分析[7]。上述关于碳排放影响因素的文献对本文的进一步深入研究具有重要的参考价值,但其研究方法也存在各自的不足:如指数分解法所考察的影响因子局限性较大,难以考虑到解释变量与碳排放可能存在的非线性关系;情景分析下的投入产出法则需要假设要素之间的替代弹性为0,参数的估值中的主观成分较多,影响结论的说服力,实证的难度也会很大[8]。其次,在区域差异的研究上,目前的文献将我国分为东、中、西部或是长三角、珠三角地区等,但由于很多地理位置接近的地区在碳排放上差异很大,按地理位置划分并不适应于研究区域碳排放问题。鉴于此,本文在以往学者研究的基础上进行拓展,不以地理位置作依据,而是以碳排放总量为排放指标,以人均碳排放和单位GDP碳排放量为排放效率指标,运用K-均值聚类分析的方法将30个省域分为“高排放——高效率”、“高排放——低效率”、“低排放——高效率”、“低排放——低效率”四大类,并在此基础上对4类地区分别进行偏最小二乘回归,分析自变量对这4类区域碳排放的影响及区域差异。

1 研究思路与方法

1.1 研究思路

首先基于Kaya恒等式[9]选出能源消费结构、经济发展水平、产业结构、人口规模、碳排放强度这5个变量,并在此基础上考虑经济发展与碳排放的非线性关系以及各地人口中城市人口所占比重对碳排放的影响,共7个解释变量。考虑到中国国土面积辽阔,不同地区影响能源消费的主要因素有一定的差异,如果对整个国家进行分析,会缺乏对不同区域碳排放差异原因的深入分析与比较。为了克服这一缺陷,本文接下来从排放量和排放效率两方面着手,通过聚类分析,把我国内地30个地区分为4个大类(1),以便于更加准确的分析各驱动因素对不同类型地区碳排放影响程度的差异,以期更加有针对性的分析碳排放的影响因子。最后,对各类地区进PLS回归建模以及对结果进行评价并对各类回归的共同点和差异作出理论分析和建议。

1.2 研究方法

对中国内地30个省份进行分类,并在此基础上进行偏最小二乘回归(简称PLS),回归方法的基本思想如下:(1)对解释变量X与被解释变量Y进行数据标准化;(2)从X和Y中提取出第一PLS成分t1和u1,限制条件为t1和u1的协相关系数达到最大;(3)分别做X对t1和Y对t1的回归,若回归精度未达到预期水平,则仍以PLS成分的协相关系数最大为前提对X被t1解释后的残差和Y被t1解释后的残差进行第二轮成分提取。如此往复,直到达到满意精度时,停止计算[10]。

在研究碳排放的影响因素时,涉及到经济、人口、技术等多方面的因素,这些因素之间往往存在同步增长的趋势,即多重相关性,这种多重相关性会危害参数估计,破坏模型的稳健性,PLS回归通过分解和筛选信息,有效的剔除碳排放影响因素之间的多重相关性和无解释意义的信息的干扰,解决了共线性的问题,更为突出的优点是它可以根据需要任意设定变量,并且回归的最终模型中将包含所有选择的解释变量,PLS回归的这种灵活性让它适用于传统的多元回归方法所不适用的许多场合,模型结果在实证分析及政策建议中的应用性将更强。

2 实证分析

2.1 指标选取与数据来源

2.1.1 被解释变量碳排放的估算方法

本文依据ORNL因素分解法[11],对30个省2000~2010年期间化石燃料CO2排放量进行估算和分析(2)。各种燃煤、燃油和燃气的折标系数见表1,数据来源于《中国统计年鉴》:

资料来源:《中国能源统计年鉴》

2.1.2 解释变量的选取及数据来源

Kaya恒等式由日本学者Kaya Yoic(1990)提出,后被广泛用于核算碳排放以及碳排放的因素分析上,模型及各变量具体含义如下:

其中,C为碳排放量,E为能源消费量,GDP、P分别为国内生产总值和人口数。基于此,本文选取能源消费结构(ECS)、经济发展水平(EDL)、产业结构(SIS)、人口规模(POP)、城市化率(UR)、碳排放强度(CEI)作为解释变量。解释变量的具体说明如下:

能源消费结构(ECS):用一次性能源消费中煤炭所占的比例表示。由于产生相同热值条件下燃烧煤炭所释放的二氧化碳量最大,而我国大多数地区仍处于以煤炭为主要能源消费的阶段,故用一次性能源消费中煤炭所占的比例来衡量能源消费结构的合理性对碳排放的影响,一般来说一次性能源消费中煤炭消费所占的比例越高,碳排放量越高。数据来源于《中国能源统计年鉴》。

经济发展水平(EDL)以及经济发展水平的平方项(EDL2):用人均生产总值及其平方项表示。经济发展水平对碳排放的影响具有两面性,一方面经济发展的同时会带来环境污染问题,另一方面经济发展促进技术的进步以及人民对生活环境的要求提高、环保意识增强,从而更加重视对污染的处理,有助于降低二氧化碳的排放,所以碳排放与经济发展之间可能存在倒U型关系。

产业结构(SIS):用第二产业所占比重表示,第二产业的能耗远高于第一产业与第三产业的能耗,且相对而言波动幅度最大,往往第二产业所占比重越高,碳排放量越大。

人口规模(POP):用各省人口数量表示。中国人口基数大,人口的增长以及各地城市化率的攀升导致能源需求量的大幅增加,对碳排放起到很大的促进作用。

城市化率(UR):用各省城镇人口占各省总人口的比例表示。城市化率进程中城市人口比重的增加以及大量的基础设施建设会通过扩大能源消耗继而提高碳排放量。

碳排放强度(CEI):用单位GDP能耗表示。在国内生产总值一定的条件下,碳排放强度越高,碳排放量越大。

以上数据除特别说明外,均来源于各省统计年鉴以及《中国统计年鉴》的原始数据以及计算所得的数据。

2.2 实证过程及结果分析

2.2.1 聚类分析

本文首先用K均值聚类分析的方法对中国内陆30个省份进行分类。为了避免特异点对分类的干扰,以打分的形式来确定聚类分析的初始凝聚点,以碳排放总量为排放指标,以人均碳排放量和碳排放强度为排放的效率指标,按碳排放量由高到低分别打分为30到1;按人均碳排放和碳排放强度由高到低分别打分为1到30,这两项的加总为碳排放的效率得分;接着以碳排放得分为横轴,效率得分为纵轴绘制平面坐标图(3),聚类分析的初始凝聚点分别选择距离坐标图4顶点最近的广东(高排放——高效率)、山西(高排放——低效率)、海南(低排放——高效率)和宁夏(低排放——低效率)。最后,以上4个点为初始聚类中心,以欧氏平方距离进行K-均值聚类分析,得到聚类的结果如表2所示:

2.2.2 PLS回归及结果分析

在对各省进行分类之后,为了讨论4类地区碳排放的驱动因素以及不同因素对4类地区影响力的差异,我们将针对这4种类型的省份分别进行PLS回归的计算与比较分析。首先,为了估计运用PLS直接回归的可行性,先判断两组变量之间是否存在明显的相关关系,t1/u1平面图能够从整体出发,迅速判断相关关系是否存在。图2~图4分别给出了4类省份的t1/u1平面图。图2~图5分别为4类区域的t1/u1平面图。其中,t1为解释变量组的第一PLS成分,u1为被解释变量组的第一PLS成分。

注:横坐标t1为从解释变量组中提取出来的第一PLS成分,纵坐标u1为被解释变量组的第一PLS成分,t1和u1是对自变量和因变量组具有最佳解释能力且相关度最大的新综合变量;坐标系中点代表了2000~2010年各省份对应的位置,其中括号内数字为省份的序号,排列顺序与表2中省份顺序一致;括号前为年份序号。

由以上4个图可见,在这4类区域的PLS回归分析中,t1与u1都呈现很清晰的线性形式,说明在这4类区域中,所选的解释变量与被解释变量之间存在很强的相关关系。接着,对4类地区PLS回归分析的计算精度进行评价,包括PLS成分的解释能力检验与交叉有效性的检验,计算结果如表3所示。需要说明是,交叉有效性是PLS回归中用来确定提取成分数的指标,计算公式如下:

其中,m为最终确定的提取成分数,为因变量Y的预测误差平方和,为Y的误差平方和,精度的临界值定位0.0975。当计算所得Q2m+1≤0.0975时,则可认为成分tm+1的贡献度不高,并确定最终提取的PLS成分数为m。

表3列出了4类地区提取的成分数量以及所选成分最终的累积解释能力,由图可知,所提取成分能够有效的代表数据组信息,进而对模型进行PLS回归分析,模型估计结果见表4:

为了进一步说明各变量对碳排放的解释作用,PLS回归方法中用变量投影重要性指标VIP(Variable Importance in Projection)来测度自变量在解释因变量时的重要性,VIP的计算公式如下:

其中,m是提取的成分数,p为自变量个数,ωhj为xj对构造成分th的边际贡献。对于VIP值大于1的可被认为是重要的驱动因素,VIP值大于0.8小于1的为影响力较弱的因素,VIP值小于0.8的可视为不显著的影响因子。

模型估计结果以及变量投影重要性指标VIP值显示:①就能源消费结构而言,不同影响因子对不同区域二氧化碳排放量的影响程度不同:能源消费结构对于HE-HE地区和HE-LE地区的影响因素不显著,对LE-HE地区和LE-LE地区碳排放的影响较强,可见能源消费结构与各地区碳排放间的相关关系不一致。这种结果可能是由于我国能源的生产地与能源的使用地不一致,如我国煤炭资源多分布于华北、西北地区,而主要能源消耗地区集中在东南沿海的经济发达地区,因而有大规模的能源转移,如西电东送、北煤南运等能源流动情况。对于能源输出地区,煤电产业通常很发达,而其它工业相对不发达,用电量小,本地大部分的电力被输送到发达地区,导致能源的消费结构与碳排放之间相关关系的差异性。另外HE-LE地区和LE-LE地区的能源消费结构系数为正,而HE-HE地区和LE-HE地区的能源消费结构系数为负,与理论预期不相符,笔者认为这种情况发生的可能原因如下:一方面,一次性能源消费中煤炭的比例会导致碳排放量的增加,另一方面,处理煤炭的技术水平提高会有助于降低碳排放。对于高效率地区,当煤炭处理水平提高对碳排放的抑制作用超过使用煤炭的比例增加对碳排放的促进作用时,回归系数表现为负。②经济发展水平和产业结构方面,4类地区的回归系数都表现为正数,说明目前我国经济增长与产业结构中第二产业的发展仍是碳排放的重要驱动因素,这与我国工业化进程的阶段性特征相符合。从经济发展水平的平方项来看,HE-LE和LE-LE地区的回归结果显著,呈倒U型关系,而HE-HE与LE-HE地区的经济发展水平与碳排放之间并无显著的倒U型关系。产生倒U型关系的原因可能是因为经济发展初期,工业相对不发达,但正处于工业化迅速发展的时候,碳排放量迅速增加,而当经济发展到较高水平时,由于技术进步、产业结构的调整、公众对污染的敏感程度提高以及环保政策执行力度的增强等,碳排放水平随经济发展水平的进一步提高而趋于下降。而若经济的发展主要依赖农业手工业等初级产品的制造,能源消耗小,工业化起步较晚,则可能无显著的倒U型关系,甚至可能呈现正U型关系。③就人口规模而言,4类地区的人口规模与碳排放呈正相关,且HE-HE地区的相关系数最高,说明人口的增加促进了碳排放的增加,对于高排——高效地区的影响尤为显著。④就城市化率而言,VIP值均明显低于0.8,意味着与碳排放之间的关系并不显著,可能的原因是:一方面,城市人口比重的增加会增加能源消耗,另一方面,随着城市规模的扩张,人口和产业等要素也会不断向城市集中,提高产业集聚程度,进而通过提高能源利用效率降低碳排放。集聚带来的抑制效应与城市化人口增多的推动效应共同作用时,可能表现为相关系数不显著。⑤就碳排放强度而言,4类地区碳排放强度与碳排放量均呈正相关,且根据VIP值可知碳排放强度对4类地区的碳排放起重要驱动作用。

接下来绘制w1*c1/w2*c2平面图,以便更直观的观察自变量与因变量的相关关系结构,其中,w1*、w2*分别为由自变量构造第一PLS成分所采用的权重,c1、c2分别为因变量对第一和第二PLS成分的回归系数。因此,如果某一自变量在构造PLS成分的时候贡献很大,而此PLS成分在解释因变量时作用显著,则可以认为这一自变量与对应的因变量联系紧密。得到4类地区的w1*c1/w2*c2平面图如下:

根据图5~图8,可以进一步看出各变量之间的关系:①对于高排——高效地区,影响因素由高到低依次为人口规模、碳排放强度、经济发展水平、产业结构、城市化率和能源消费结构,其中人口、碳排放强度与经济发展水平对应的点在横坐标上投影值较高,对因变量的影响程度大;城市化率、能源消费结构点靠近圆心,意味着分配在第一和第二PLS成分的权重最小,及与高排——高效地区碳排放的关联程度最弱;人均GDP及其平方项与产业结构和城市化率对应的点最为接近,说明高排——高效地区的经济发展与第二产业的发展以及城镇人口比例的增长密切相关;②对于高排——低效地区,影响因素由高到低依次为人口规模、经济发展水平、产业结构、碳排放强度、能源消费结构和城市化率,其中人口、经济发展水平和产业结构对应的横坐标值与碳排放对应的坐标最为接近,影响力最强,其中,经济发展水平、人口规模与碳排放点对应的横坐标基本重合,即第一PLS成分的权重接近,意味着高排——低效地区的碳排放、经济的发展与人口增长是趋于同步;③对于低排——高效地区,影响因素由高到低依次为产业结构、碳排放强度、人口规模、能源消费结构、城市化率和经济发展水平,其中前4个因素都与碳排放在w1*c1/w2*c2平面图上对应的点十分接近,发展趋势相同。而城市化率、经济发展水平与碳排放对应的点距离最远,说明对于低排——高效地区,碳排放并没有随着城市化率和经济水平的提高而显著增加,意味着能源效率高的地区可以有效的控制碳排放的增长;④对于低排——低效地区,影响因素由高到低依次为人口规模、能源消费结构、碳排放强度、经济发展水平、产业结构与城市化率,其中能源消费结构与人口和碳排放的变动较一致。

3 结论与政策建议

本文在对地区分类的基础上,基于PLS回归方法考察了能源消费结构、经济发展水平、产业结构、人口规模、城市化率以及碳排放强度与不同类型地区碳排放量间的相关关系,其中人口规模的扩大、碳排放强度的提高、单位GDP能耗的增加以及经济发展水平的提高均会导致4类地区的碳排放量的增多;对于HE-LE地区和LE-LE地区,经济发展水平与碳排放呈倒U型关系,HE-HE与LE-HE地区的经济发展水平与碳排放之间并无显著的倒U型关系;城市化率对碳排放量并不存在显著的推动作用;另外,能源消费结构与各地区碳排放量的相关关系存在很大的差异。

上述研究具有较强的政策涵义:(1)我国应针对不同的区域制定不同的节能减排政策,可以根据4类地区的驱动因素重要性程度来设计该区域科学合理的发展对策。(2)优化能源消费结构,减少对化石燃料的依赖,提高清洁型能源的利用率。(3)优化产业结构,进一步限制低技术高能耗与高排放产品的投资与生产。(4)培养符合我国国情的低碳消费理念、价值观和生活方式,减少由于人口增加而引致的能源消耗量的增加。(5)进一步推动经济增长方式的转变,最终实现经济增长与碳排放的倒U形发展。

参考文献

[1].Liu L.,Fan Y.,Wu G.,Wei Y..Using LMDIMethod to Analyze the Change of China s Industrial CO2 Emissionsfrom Final Fuel Use:An Empirical Analysis[J].Energy Pol-icy,2007,35(11):5892~5900

[2].Clarke-Sather,Qu Jiansheng,Wang qin,ZengJingjing,Li Yan.Carbon Inequality at the Sbu-National Scale:A Case Study of Provincial-level Inequality in CO2 Emissions inChina 1997~2007[J].Energy Policy,2011,9(39):5420~5428

[3].王锋,吴丽华,杨超.中国经济发展中碳排放增长的驱动因素研究[J].经济研究,2010,(2):123~136

[4].李国志,李宗植.中国二氧化碳排放的区域差异和影响因素研究[J].中国人口、资源与环境,2010,20(5):22~27

[5].雷历,仲云云,袁晓玲.中国区域碳排放的因素分解模型及实证分析[J].当代经济科学,2011,33(5):59~65

[6].蒋金荷.中国碳排放测算及影响因素分析[J].资源科学,2011,33(4):597~604

[7].贺红兵.我国碳排放影响因素分析[D].华中科技大学,2012

[8].杨来科,赵捧莲,张云.中国碳排放量影响因素测算的研究方法比较[J].华东经济管理,2012,26(5):55~59

[9].KayaY.Impact of Carbon Dioxide Emission Control onGNP Growth:Interpretation of Proposed Scenarios[R].Paris:IPCC Energy and Industry Subgroup,Response Strategies WorkingGroup,1990

[10].王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999

偏最小二乘分析 篇3

顾客满意度作为顾客满意的量化统计指标,描述了顾客对产品的认知(期望值)和感知(实际感受值)之间的差异,可以测量顾客满意的程度。当顾客的认知小于感知时,顾客的满意度就高;反之,当认知大于感知时,满意度就低。

美国的顾客满意度指数(A C SI, A m erican C ustom er Satisfaction Index)模型(如图1所示),已成为影响最为广泛的模型。

本文借鉴了国内外对于顾客满意度的研究成果和实践经验,结合我国4S店销售中的实际特点以及实际的可操作性,运用偏最小二乘法(PLS)对4S店销售中的客户满意度模型进行处理。

二、汽车4S店客户满意度数据处理及分析

本文选用2010年第四季度东风悦达起亚汽车用户满意度调研数据,用单因变量的偏最小二乘回归计算其顾客满意度二级指标数值。其中三级指标17个,如表1所示。通过软件PEW中单因变量的偏最小二乘回归计算顾客满意度,如图2所示。

1、自变量之间的相关关系

自变量之间的相关系数r的绝对值在0.5到0.8之间,说明两个变量是显著性相关,自变量之间的相关系数r的绝对值在0.8到1之间,说明两个变量是高度线性相关。经过计算,我们可以看到大部分变量间相关系数值在0.8到1之间,说明是高度线性相关。变量之间存在高度线性相关,采用偏最小二乘回归将显示出其优越性。

2、提取的主成分对变量的解释能力

在偏最小二乘回归计算过程中,所提取的自变量成分t1,一方面尽可能多地代表X中的变异信息,另一方面又尽可能与Y相关联,解释Y中的信息。主成分t1对自变量X和因变量Y的解释能力分别为:86.10%,99.74%。如表2。

3、自变量与因变量的相关关系

判断自变量集合X与因变量集合Y之间是否存在较强的相关关系是检验是否可以建立Y对X的线性回归的基本条件,如果在图3中明显观察到t1与u1之间存在线性关系,则说明X与Y有显著的相关关系,这时采用偏最小二乘回归方法建立Y对X的线性模型才会是比较合理的。自变量与因变量相关系数R 2为0.9974,自变量与因变量存在高度线性相关关系。t1与u1相关关系见表3、图3。

4、自变量在解释因变量时的作用

变量投影重要性指标V IPj值,用来测度每一个自变量在系统分析中的作用,即xj在解释Y时作用的重要性。

根据用变量投影重要性指标V IPj来测度的每一个自变量对解释因变量的作用大小依次为:x52>x43>x23>x13>x11>x41>x32>x22>x51>x21>x53>x42>x33>x34>x31>x12(如表4、图4)。根据V IPj>1即认为xj在解释因变量时具有重要作用的原则,x52、x43、x23、x13、x11、x41、x32、x22、x51在解释y具有重要作用。其中x52在解释y具有最重要的作用,x43、x23、x13在解释y也具有重要作用。

5、组间相关关系的结构分析

在r(, t1)/r(, t2)关系图上(如图5),如果xj与y两变量的位置十分接近,则认为它们的相关关系相当密切。另一方面,团聚在一起的自变量xj之间,也存在着较强的相关关系,相隔很远的自变量xj之间,由于相关系数较低,可认为是互不影响的独立变量。

6、特异点的发现及处理

如果有数据出现在椭圆图之外,一般就是特异值,我们要进行剔除。从图6中我们发现,所有数据都在椭圆图之内,所以样本数据存在着0个特异点。

7、偏最小二乘回归原始数据数学模型

偏最小二乘法的回归模型为:y=-0.5868+0.0487x11+0.0755x12+0.0771x13+0.0729x21+0.0863x22+0.0536x23+0.0703x31+0.0673x32+0.0789x33+0.0466x34+0.0758x41+0.0478x42+0.0694x43+0.0658x51+0.0601x52+0.0626x53

通过模型我们发现除了截距为负值之外,其他变量的系数都为正数,说明自变量对因变量都是正相关的。提高任何一项服务都能提高顾客的满意度。

其中0.0863(服务顾问的响应程度)>0.0789(经销商设施的干净程度)>0.0771(交接流程的及时性)>0.0755(顾客日程的灵活性)>0.0729(服务顾问的礼貌/友善)>0.0703(进出经销商的便利性)。所以我们要提高客户的满意度,这要从这几个指标重点入手。

8、偏最小二乘与普通最小二乘去一回归预测比较

回归预测比较是指将原始样本数据逐一删除样本点i,其余数据经偏最小二乘与普通最小二乘回归后再用二模型计算的yi的预测值,并与原始数据的y值进行比较(如表5)。

偏最小二乘法预测绝对误差(|偏最小二乘预测值yi-观测值yi|)平均值=0.0314<普通最小二乘法预测绝对误差(|普通最小二乘法预测值yi-观测值yi|)平均值=527.9403

偏最小二乘法预测相对误差((|偏最小二乘法预测值yi-观测值yi|)/观测值yi%)平均值=0.0036<普通最小二乘法预测相对误差((|普通最小二乘法预测值yi-观测值yi|)/观测值yi%)平均值=56.8284

偏最小二乘法预测残差平方和=0.0114<普通最小二乘法预测残差平方和=7589114.1819

回归预测结果表明,偏最小二乘回归在对新出现数据的预测方面表现出比普通最小二乘回归更精确的性能,也说明偏最小二乘回归分析更接近事物的真实,更加稳健。

三、提高4S店销售客户满意度建议和措施

根据0.0863(服务顾问的响应程度)>0.0789(经销商设施的干净程度)>0.0771(交接流程的及时性)>0.0755(顾客日程的灵活性)>0.0729(服务顾问的礼貌/友善)>0.0703(进出经销商的便利性),我们要提高客户的满意度,首先要提高服务顾问中的服务顾问的响应程度,然后要提高经销商设施中的经销商设施的干净程度、服务启动中的交接流程的及时性、顾客日程的灵活性、服务顾问中的服务顾问的礼貌/友善、经销商设施中进出经销商的便利性这几个指标。

摘要:客户满意度 (CSI) 始终是汽车销售企业最为关注的管理指标之一。采用偏最小二乘法回归分析的方法, 可以就目前顾客满意度多项指标建立数学分析模型, 从而建立良好的顾客满意度指数测评体系。通过该测评体系, 汽车4S店可以回归分析和计算相关因数, 得到顾客满意度相关指标的提升建议, 进而优化和改进相关服务。

关键词:客户满意度,偏最小二乘法,回归分析

参考文献

[1]王俊喜、马骊歌:关于汽车企业提高客户满意度的对策分析[J].汽车工业研究, 2010 (10) .

[2]陈高波:基于核偏最小二乘回归的顾客满意度指数模型[J].科教文汇 (下旬刊) , 2010 (11) .

[3]郭辉、刘贺平:基于核的偏最小二乘特征提取的最小二乘支持向量机回归方法[J].信息与控制, 2005 (4) .

偏最小二乘分析 篇4

关键词:中长期电力负荷预测,组合预测,非负性,归一化,偏最小二乘回归

引言

中长期负荷预测是电网规划的基础, 其精度的高低直接影响电网规划的质量。中长期负荷预测方法大体可归结为回归分析、时间序列和人工智能方法三类。虽然中长期负荷预测方法众多, 但是由于影响中长期负荷预测的直接因素或间接因素较多、随机性大, 且众多影响因素的关联性较大, 单一预测模型不能在任何时刻充分反映数据的变化, 预测精度也很难满足预测需要。组合预测能够较好地解决单一模型的缺点, 借鉴单一预测模型的优点, 比单个预测模型更系统、更全面。组合预测由于比单一方法预测更有效、能提高模型的拟合精度和预测能力, 因此长期以来一直是国内外预测界研究的热点课题, 并在世界各国范围内得到广泛应用。分析现有的组合预测模型, 发现预测的核心问题是:基于何种误差评判准则如何求取加权系数。国内外学者提出以下方法:最小方差方法、最小二乘方法、基于不同误差准则和范数的方法等。现有的各种组合预测方法因组合权重受到归一化条件和非负性条件的约束, 在某些情况下不能使组合预测结果优于单一预测方法。因此, 有必要研究新的组合预测方法, 本文所研究的基于偏最小二乘回归的组合预测模型, 不以求取组合权重为切入点, 而是利用偏最小二乘回归强大的拟合和解释能力, 对单一预测模型进行拟合, 抛开了组合权重非负性和归一化的限制, 与传统的组合预测方法有较大的差别。

一、现有组合预测模型分析

现有组合预测模型的重点是如何求取组合权重向量, 设k种单一预测方法的组合权重向量为W, 且WT=[w1, w2, …wk], 则W需满足归一化约束条件和非负性约束条件:

电力系统的负荷变化是受多种因素影响的。在实际的负荷预测系统中, 需要用有限的几个算法模拟大量的系统负荷变化规律进行预测。它们的预测结果向量不可避免地存在一定的“同向特征”, 即单一预测模型的结果均小于或均大于真实值, 下面讨论单一预测模型的结果均小于真实值的情况。

设根据历史数据分别使用k种模型对未来时段1≤t≤m进行预测, 已知未来时段的真实值序列为:x=[x1, x2, …xm]T, 设其中第q个预测模型的预测序列为xq=[x1q, x2q, …xmq]T, 并且xq<x, 其中, q=1, 2, …k。由此可得预测值矩阵为:

可见, 由于组合权重受到非负性条件和归一化条件的限制, 所以在单一预测模型的结果均小于真实值的情况下, 组合预测不能得到最优的拟合效果。对单一预测模型的结果均大于真实值的情况, 类似上述分析可得到相同的结论。

针对上面的问题, 文献尝试了权重取负值的情况, 但仍需进一步的探讨。本文另辟蹊径, 抛开了组合权重非负性和归一化的限制, 利用偏最小二乘回归强大的拟合和解释能力, 对单一预测模型进行拟合, 从而实现准确的组合预测。

二、偏最小二乘回归分析方法的数学模型

(一) 建模步骤。偏最小二乘回归是一种新的多元统计数据分析方法, 是主成分分析、典型相关分析及多元线性回归分析的有机结合。较传统的回归分析、主成分回归具有更大的优势, 从而使模型精度、稳健性、实用性都得到提高。其建模步骤如下:

2、提取第一个主成分:

其中, E0j (j=1, 2, …k) 表示E0的第j列;r (xj, y) ( j=1, 2, …k) 表示xj与y的相关系数。p1表示E0对t1的回归系数;E1表示回归方程的残差矩阵。

依此类推, 从第4步开始, 可用交叉有效性确定偏最小二乘回归中成分的提取个数, 并停止迭代。

三、基于偏最小二乘回归的组合预测模型

由此, 可以得到拟合值矩阵为:

预测值矩阵为:

由上述分析可知, 基于偏最小二乘回归的组合预测模型没有从求取组合权重入手, 而是将单一预测值作为自变量, 真实值作为因变量, 利用偏最小二乘回归强大的拟合和解释能力, 进行回归建模, 完全不受组合权重非负性和归一化的限制, 因此理论上能够得到更优的组合预测结果。

四、实例验证及分析

用某地区1991~2005 年的年用电量进行算例分析, 其中用1991~2000 年的数据进行建模, 用2001~2005 年的数据进行检验。计算时, 采用动平均法、灰色预测法和指数平滑法3 种单一预测模型, 并用方差倒数加权法和偏最小二乘回归方法分别进行组合预测, 预测结果如表1 所示。 (表1)

由表1 可以看出, 3 种单一预测模型在检验阶段的预测值均比真实值小, 用传统的组合预测模型进行预测, 因为组合权重受到非负性及归一化的限制, 组合预测的结果一定介于单一预测方法结果的最小值和最大值之间, 所以也一定小于真实值, 如表1 中的方差倒数加权法。而基于偏最小二乘回归的组合预测模型则完全不受组合权重非负性及归一化的限制, 利用偏最小回归分析和预测样本提取的主成分对各个单一预测方法进行精确拟合, 所得结果不再均小于或大于单一预测模型的结果, 而更接近于真实值。如表1 所示, 基于偏最小二乘回归的组合预测模型, 无论是在拟合阶段, 还是在检验阶段, 其结果均比方差倒数加权法和3 种单一预测模型精确。

五、结论

本文对中长期电力负荷组合预测进行研究, 提出了基于偏最小二乘回归的组合预测模型, 利用偏最小二乘回归分析方法对各种单一预测模型进行精确拟合, 该模型不以求取组合权重为切入点, 较之传统的组合预测方法, 不受组合权重非负性和归一化的约束, 该模型的预测结果可以最大限度的接近真实值, 实际算例表明了该模型的准确性和有效性。基于偏最小二乘回归的组合预测模型对中长期电力负荷预测工作有重要参考价值。

参考文献

[1]毛李帆, 江岳春, 姚建刚等.采用正交信号修正法与偏最小二乘回归的中长期负荷预测[J].中国电机工程学, 2009.29.6.

[2]毛李帆, 江岳春, 龙瑞华等.基于偏最小二乘回归分析的中长期电力负荷预测[J].电网技术, 2008.32.19.

[3]陈昊.基于非高斯分布GARCH模型的负荷预测[J].电力自动化设备, 2008.28.7.

[4]张俊芳, 吴伊昂, 吴军基.基于灰色理论负荷预测的应用研究[J].电力自动化设备, 2004.24.5.

[5]王捷, 吴国忠, 李艳昌.蚁群灰色神经网络组合模型在电力负荷预测中的应用[J].电力系统保护与控制, 2009.37.3.

[6]谢开贵, 李春燕, 周家启.基于神经网络的负荷组合预测模型研究[J].中国电机工程学报, 2002.22.7.

[7]邢棉, 杨实俊, 牛东晓等.多元指数加权电力负荷灰色优化组合预测[J].电网技术, 2005.29.4.

[8]王应明.基于相关性的组合预测方法研究[J].预测, 2002.21.2.

[9]康重庆, 夏清等.电力系统负荷预测研究综述与发展方向的探讨[J].电力系统自动化, 2004.28.17.

[10]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社, 1999.

偏最小二乘分析 篇5

一项调研表明,在英国,客户使用一年内退货的手机产品中有63%的是因为产品的功能可用性与客户预期需求的不匹配造成的,可见,客户对产品功能的可用性是有不同需求偏好的[6]。在进行产品功能设计时,应充分考虑细分市场客户需求偏好,要针对性改进某些产品功能可用性,才能更好的提升产品的客户满意度。为了挖掘细分市场客户的产品功能可用性偏好,对产品功能可用性进行评价,进而提出产品功能改进建议,本文首次提出了基于偏最小二乘回归的产品功能可用性评价方法,并创新性的用功能可用性评价矩阵进行产品功能可用性评价分析,找出产品中可用性与客户需求不匹配的功能,重点进行可用性改进,达到与客户需求匹配。

1 基于偏最小二乘回归的产品可用性评价

1.1 偏最小二乘回归模型及其算法流程

偏最小二乘回归算法可同时实现回归建模、数据结构简化(主成分分析)及两组变量之间相关性分析(典型相关分析)[7],并使模型精度、稳定性和实用性都得到提高。偏最小二乘回归法的思路是:首先分别从自变量X和因变量Y中提取相互独立的成分th(h=1,2,…)和kh(h=1,2,…)。然后建立这些成分与自变量的回归方程,这些成分既能很好的概括自变量系统中的信息又能很好的解释因变量并排除系统中的噪声干扰,可有效解决自变量间多重相关性。

记C0(C0∈Rn)是因变量Y的标准化变量,D0是自变量集合X的标准化矩阵,对其进行偏最小二乘回归推导:

第一步:首先从C0中抽出一个成分h1,h1=C0k1,‖k1‖=1;从D0中抽取一个成分t1,t1=D0w1,‖w1‖=1。要使得抽取的成分t1对h1有较好的解释作用得:然后,实施D0在t1上的回归以及C0在t1上的回归,即有

其中,p1,r1是回归系数(而r1是标量),

第二步:以D1取代D0,以C1取代C0,重复第一步的方法,可以得到同样,D1,C1对t2的回归,有

第三步,第四步……,均以此类推,最后,可用交叉有效性确定偏最小二乘回归中成分th的提取个数,停止迭代。

最后,有偏最小二乘回归模型为:

x*j的回归系数为

模型用交叉有效性作为回归迭代终止判断依据。考虑到本研究是单因变量的偏最小二乘回归,记yi为原始数据,t1,t2,…,tm是在偏最小二乘过程中提取的成分。是使用全部样本点并取h个成分建模回归后,第i个样本的拟合数值。若为在建模时删除样本点i,取h个成分回归建模后,再用此模型计算ei的拟合值,记为:时,引进新的主成分就会对模型的预测能力有明显的改善作用。

1.2 基于偏最小二乘回归的产品可用性评价

在用户测试、访谈法和问卷法等参与可用性评价方法的基础上,分析产品每个功能的有效性、效率和功能满意度,然后采用偏最小二乘回归构建产品整体满意度和产品功能可用性之间的回归关系,利用偏最小二乘回归的变量间关系分析技术,以重要性分析指标来作为产品功能可用性的评价排序,最后,通过功能可用性评价矩阵对具体产品的可用性进行评价,提出改进建议。

第一步:选取细分市场下的研究产品对象,确定其功能的有效性,效率,功能满意度及产品的整体满意度。利用用户测试法,采用问卷调研来获得用户对这四个指标的分级打分。

有效性评价准则为:任务完成率90%以上,记为有效性很高,打分为10;任务完成率70%—90%,记为有效性高,打分为8;任务完成率50%—70%,记为有效性一般,打分为6;任务完成率30%—50%,记为有效性较低,打分为4;任务完成率30%以下,则记为有效性很低,打分为2。效率的评价准则为:依次评价为很高、高、一般、低和很低,对应的打分为10,8,6,4,2。功能满意度评价准则为:依次评价为很满意、满意、基本满意、不满意和很不满意,对应的打分为10,8,6,4,2。产品的整体满意度评价准则为:根据对产品的满意程度,选择1—100的打分值。

第二步:计算各功能的可用性水平。

可用性水平记为有效性、效率和功能满意度的乘积,即为:

式(1)中,E、E'和S分别表示有效性、效率和功能满意度。U的大小直接体现着功能可用性的高低。

第三步:样本群的E(产品整体满意度)与U(各功能维度的可用性)偏最小二乘回归,并利用其参数重要度测定,确定所选样本产品的功能可用性值的排序评价标准。

以偏最小二乘回归法的辅助分析技术———重要性指标VIP(Variable Importance in Projection)作为功能可用性排序的基础。

其表达式为:

式(3)中,ωji是轴ωj的第i个分量;Rd(E;tj)为变量tj对E的解释能力,即对E的累计解释能力,即而有Rd(el;tj)=r2(el,tj)。

第四步:利用功能可用性评价矩阵,对产品各功能的可用性进行评价分析。

构建产品功能可用性评价矩阵,其中矩阵图的右下区域称为功能待提升区,表示功能在产品中的排序落后于总的产品评价,需要企业重点改进;而中间区域称为功能匹配区,表示产品的可用性值在可容许偏差的范围内,实际可用性和对产品本身需求匹配,可不用改进;左上角区域称为功能突出区,表示产品实际功能可用性优于评价序列,即可用性设计高于客户偏好需求,在改进时可以适当降低功能性能或维持不变。

2 应用实例

为了进行产品功能可用性评价方法的有效性验证,选定智能手机市场产品作为功能可用性评价分析对象,进行第一步、第二步相关的测定和计算后得到表1所示数据。

借助于SIMCA-P软件,经过交叉有效性条件验证,实现对实例数据进行偏最小二乘回归,获得稳定的产品总体满意度和功能可用性之间的回归模型,随后通过偏最小二乘回归的VIP分析技术,获取该类产品的功能可用性排序见图1所示。

针对手机B,采用功能可用性评价矩阵进行分析,功能评价分布见图2。从图中,可以直观的看出偏离功能匹配区越远的右下区域,产品实际可用性与顾客需要偏离大,应该优先对这些功能的可用性进行改进(游戏、拍照、蓝牙和操作系统等4个功能),以满足功能与客户需求的良好匹配,进而提升手机B的整体满意度。

4 结论

为了解决产品可用性与客户对可用性偏好的不匹配问题,进而提升产品的整体用户满意度,本文在常规的可用性测度方法的基础上,提出了基于偏最小二乘回归的产品功能可用性评价分析方法,借助功能可用性评价矩阵得到亟待提升可用性的功能。最后以手机案例进一步演示了该方法,诊断出了现有产品功能中存在的不匹配,得到产品功能可用性改进方向。

摘要:现有的产品功能可用性研究仅为提升具体功能的可用性,忽视了用户对产品功能可用性的偏好问题。为解决该问题,首次提出了基于偏最小二乘回归的产品功能可用性评价方法。在常用可用性分析方法基础上,对细分市场产品整体满意度和功能可用性进行偏最小二乘回归。结合功能可用性评价矩阵分析产品功能改进方向。最后,通过手机实例进行了方法的演示,验证该方法是产品功能可用性分析的有效方法。

关键词:产品功能可用性,偏最小二乘回归,可用性评价矩阵

参考文献

[1] Dumas J S,Redish J C.A practical guide to usability testing.NJ:Albex,Norwood,1994

[2] Nielsen J.可用性工程.刘正捷,译.北京:机械工业出版社,2004:48—144

[3] Han S H,Kim J.A comparison of screening methods:selecting im-portant design variables for modeling product usability.InternationalJournal of Industrial Ergonomics,2003;32(3):189—198

[4]王继成.产品设计过程的可用性研究与应用.东华大学学报:自然科学版,2006;32(5):32—35

[5]刘胧,刘虎沉.运用FMEA的产品可用性评价方法.工业工程,2010;13(3):47—50

[6] Overton D.No fault found returns cost the mobile industry MYM4.5billion per year.WDS Global.http://www.wdsglobal.com/news/whitepapers/20060717/MediaBulletinNFF.pdf,2006

偏最小二乘分析 篇6

目前, 泰国已成为全球最大的菠萝生产国和出口国。泰国菠萝贸易主要有菠萝罐头、菠萝果汁及冰菠萝。2000-2005年, 中国 (台湾省除外) 平均每年进口菠萝罐头1.75万吨, 其中进口泰国菠萝罐头最多, 平均为0.42万吨, 占到了总进口量的23.90%。所以, 无论是对国际菠萝罐头市场, 还是对于中国菠萝罐头的国际贸易, 泰国菠萝都居于十分重要的地位。因此, 考察泰国菠萝的生产和加工状况、研究泰国菠萝的贸易趋势、探讨泰国菠萝产业发展的内在原因, 具有十分重要的意义。

目前有灰色关联分析引力模型及普通最小二乘回归等方法的研究。由于研究方法的不同, 菠萝出口影响因素也有所不同。在影响菠萝出口的众多因素中, 各个指标之间存在多重共线性, 偏最小二乘回归不失为能有效解决这个问题的方法之一。它结合了主成分分析、典型相关分析和多元线性回归分析的优点, 能够较好地解决多重相关性的问题和样本个数少于变量个数及因变量为多个等问题。本文采用偏最小二乘回归模型, 选取了14个指标分别对菠萝罐头出口数量, 菠萝果汁出口数量, 冰菠萝出口数量影响因素进行研究, 并对各个选取因素对菠萝贸易的影响进行分析。研究结果表明, 泰国菠萝出口贸易影响因素主要为原料及工厂生产加工两个方面。

1 指标选取与研究方法

1.1 指标选取

泰国菠萝贸易主要为菠萝罐头、菠萝果汁以及冰菠萝。因此, 本文因变量为:菠萝罐头出口数量y1 (吨) , 菠萝果汁出口数量y2 (吨) , 冰菠萝出口数量y3 (吨) 。自变量为:菠萝罐头出口价格x1 (泰铢/吨) , 菠萝果汁出口价格x2 (泰铢/吨) , 冰菠萝出口价格x3 (泰铢/吨) , 菠萝农贸价格x4 (泰铢/公克) , 农民卖菠萝的工厂价格x5 (泰铢/公克) , 白糖价格x6 (泰铢/公克) , 工厂菠萝产量x7 (吨) , 产出菠萝罐头数量x8 (吨) , 菠萝罐头产出指数x9 (%) , 生产菠萝罐头的速度x10 (%) , 消费物价指数x11 (%) , 农产品价格指数x12 (%) , 通货膨胀率x13 (%) , 美元兑泰铢汇率x14 (泰铢/美元) 。

本文数据是120个样本, 每个月是一个样本。这些数据来源于泰国农业和森林部及泰国央行, 并根据上述指标进行整理。 (数据见附表1) 数据处理主要运用SPSS、MATLAB等统计分析软件。

1.2 研究方法

本文因变量有3个, 自变量有14个, 样本量为120。变量之间存在多重相关性, 鉴于此, 本文采用偏最小二乘回归方法来分析泰国菠萝贸易的影响因素。

偏最小二乘回归提供了一种多对多线性回归建模的方法, 与传统多元线性回归模型相比, 它具有以下优点: (1) 能够再自变量存在严重多重相关性的条件下进行回归建模; (2) 允许在样本点个数少于变量个数的条件下进行回归建模; (3) 偏最小二乘回归在最终模型中包含原有的所有自变量; (4) 偏最小二乘回归模型更易于辨识信息系统与噪声 (甚至一些非随机性的噪声) ; (5) 在偏最小二乘回归模型中, 每一个自变量的回归系数将更容易被解释。

1.2.1 偏最小二乘回归步骤

偏最小二乘回归的步骤如下: (1) 假设有p个因变量y1、y2、…yp与m个自变量x1、x2、…、xm, 收集了n个样本点, 因此得到因变量和自变量的数据阵Y和X;从X中提取第一个成分t1 (t1是尽可能多的包含X变异信息的线性组合) , 同时从Y中提取第一个成分u1 (u1是尽可能多的包含Y变异信息的线性组合) , 同时还必须满足t1与u1的相关程度达到最大, 则得到第一对成分t1和u1; (2) 在第一对成分被提取后, 分别实施X对t1的回归以及Y对t1的回归, 如果回归方程已达到满意的精度, 则算法终止, 否则继续第二对成分的提取 (此时用y1、y2、…yp与t1的回归残差阵F1和x1、x2、…、xm与t1的回归残差阵E1代替Y和X, 重复t1和u1的提取步骤, 得到t1和u2) ; (3) 分别建立F1和E1与t2的回归方程, 如果回归方程达到满意的精度, 则算法终止。如此往复, 直到取得满意的精度为止; (4) 若最终从X中提取了r个成分t1, t2, …, tr, 从Y中提取了r个成分u1, u2, …, ur, 可先建立y1、y2、…yp与t1, t2, …, tr的回归方程, 然后再表示为y1、y2、…yp与x1、x2、…、xm的回归方程, 此即为偏最小二乘回归方程式。

1.2.2 交叉有效性

在偏最小二乘回归建模中, 究竟应该选取多少个成分为宜, 这可通过考察增加一个新的成分后, 能否对模型的预测功能有明显的改进来考虑。设yij为第j个因变量第i个样本的原始数据, t1, t2, …, tr为提取的成分, 是使用全部样本点并取t1~th个成分回归建模之后, 第i个样本点的拟合值。为删去样本点i, 同样取t1~th个成分回归建模后, 再用此模型计算的yij的拟合值。对第j个因变量交叉有效性定义如下:

对全部因变量Y, 成分th的交叉有效性定义为:

一般认为, 当时, 引进新的成分th对模型的预测能力有明显的改善作用。

1.2.3 变量投影重要性准则

变量投影重要性是指自变量xi在解释因变量yj时的重要性。其定义为:

式中:p是自变量个数;r是偏最小二乘方法从原变量中提取的成分个数;th代表第h个成分;R叟y, thΣ代表成分th对因变量yj的解释能力, 为二者相关系数的平方;而wih是轴wh的第i个分量。一般地, VIPij值大于1, 说明有更加重要的作用, VIPij值在0.5~1之间, 作用不明确, VIPij值小于0.5, 基本没有意义。

1.2.4 模型的预测精度

为了分析模型的预测能力, 一般会采用一些指标来判断模型的预测精度, 常用的有:

(1) 复测定系数R2 R2=1- (SSR/SSY)

复测定系数反映了一个因变量与所有自变量的相关程度, 取值在0到1之间。复测定系数越接近1, 表明因变量与自变量之间相关程度越显著, 回归效果越好。R2>0.7表示数据得到了可信的表示, R2>0.9表示拟合效果较好。

式中为预测值, yi为真值, n为预测样本数。

2 模型建立

用MATLAB对数据进行偏最小二乘回归, 首先对数据进行标准化处理, 根据上述算法推导, 数据标准化之后即得到E0和F0, 首先提取第一个主成分t1, w1是矩阵E0′F0F0′E0的最大特征值对应的特征向量。经计算,

所以由t1=E0w1可以得到第一个主成分。又因为因此根据E1=E0-t1p1′求得E1, 将其替代E0, 继续上面的计算, 直到提取的成分算出的交叉有效性小于0.0975, 即可停止迭代。

经计算上述两个成分的交叉有效性如表1所示。

假设第一个成分的交叉有效性为1, 从表中可以看出, 第二个成分的交叉有效性是0.0740, 所以引进前两个成分对模型的预测能力有明显的改善。

另外, 各个变量的VIP值也可算出, 除x13对y1, y2, y3的VIP值分别等于0.222, 0.2025, 0.3335其余变量的VIP值均大于0.5。即通货膨胀率x13对泰国菠萝出口贸易基本没有影响, 因此可剔除x13, 再进行偏最小二乘回归。

用MATLAB对剔除通货膨胀率x13后的数据重新做偏最小二乘回归, 此时, 自变量有13个, 因变量为3个。

偏最小二乘回归提取两个主成分, 得到各因变量的VIP值。除了冰菠萝出口价格x3对菠萝果汁出口数量y2的VIP值小于0.5, 其余均大于0.5。即冰菠萝出口价格x3对菠萝果汁出口数量y2基本没有影响, 其余自变量均对因变量有影响。

得到标准偏最小二乘回归方程如下:

预测值和观测值的比较如图1所示。

图1显示, 菠萝罐头出口数量、菠萝果汁出口数量及冰菠萝出口数量的观测值和预测值相差不大, 基本在一条直线上, 说明用偏最小二乘回归模型对泰国菠萝贸易作预测是相当满意的。经计算, 可得表2所示结果。从复测定系数R2可知, 模型的预测效果很好, 相对预测误差很小, 模型预测效果很好。相关系数矩阵显示数据之间存在严重的多重相关性。显然, 运用普通的最小二乘回归效果不好。而运用偏最小二乘回归模型的结果可以看出回归效果很好。标准回归系数图如图2。

3 总结

泰国菠萝生产量长期居世界首位。2012年6月15日泰国内阁会议批准农业部关于2010至2014年菠萝产业战略规划。该规划的核心是全力保持泰国菠萝生产与出口世界第一的地位, 制定了到2014年菠萝种植面积扩大为60万莱 (1莱合1600平方米) , 单位产量由2009年的每莱3.9吨提高至6吨, 新鲜菠萝出口额达到1.1亿泰铢, 菠萝加工制品出口额达到300亿泰铢等目标。本文用偏最小二乘方法对泰国菠萝出口贸易进行了分析, 从偏最小二乘得到的两个成分可以看到影响泰国菠萝出口贸易的因素大致分为两种。原材料方面:泰国菠萝原材料存在时而短缺、时而过量上市, 这就造成了价的不稳定性。此外, 泰国菠萝种植普遍存在单产低、成本高的问题。因此建议开展提高菠萝单位面积产量方面的研究工作, 构建原料和菠萝罐头生产的供需平衡, 同时加工厂出口生产所需的原料应从工厂周边得到供应。工厂加工方面:对加工工厂来说, 从千百个孤立、分散的小型农户那里获得稳定的符合质量要求的菠萝货源十分重要, 同时还要注重工厂的专业化、产业化和一体化生产, 增强原材料的利用率, 改善生产速率。

摘要:本文采用偏最小二乘回归模型 (PLS) , 以泰国菠萝贸易为例, 通过变量投影重要性准则筛选自变量, 由交叉有效性提取主成分, 进而建立偏最小二乘回归模型。深入分析了各指标对泰国菠萝出口贸易的影响。研究表明泰国菠萝出口与原料价格及工厂生产加工速度密切相关, 并且偏最小二乘回归的拟合效果优于普通最小二乘回归。

关键词:泰国菠萝,偏最小二乘回归,交叉有效性

参考文献

[1]伍丽朝, 谭砚文.泰国的菠萝产业[J].世界农业, 2009, 5 (361) :41-44.

[2]泰铢不停升值影响泰国菠萝罐头外销[N].越南共产党电子报, 2010-09-30.

[3]郭婷.泰国的热带水果产业[N].国际商报, 2006-11-14.

[4]王惠文.偏最小二乘回归方法及其应用[M].国防工业出版社, 1999.

[5]董梅生.中国农业投入和产出的关系—基于偏最小二乘回归[J].技术经济, 2009, 28 (1) :37-41.

[6]章家清, 张磊.中国对东盟水果出口增长因素分析——基于恒定市场份额模型的实证分析[J].经济问题探索, 2012, 8:134-138.

[7]霍尚一.中国水果出口贸易影响因素的实证分析[D].浙江:浙江大学, 2008:1-200.

偏最小二乘分析 篇7

1 偏最小二乘回归原理

偏最小二乘回归试图通过成分提取过程在自变量系统中寻找具有最佳解释能力的新综合变量, 然后再进行回归建模的建立, 最终回归模型可表示为包含所有因变量与自变量的回归方程。取p个因变量y1, y2, Λ, yp, 以及q个自变量x1, x2, Λ, xq。同时, 我们观测得到由n个样本点组成的数据表 (自变量y1, y2, Λ, yp的数据表记为Y, x1, x2, Λ, xq的数据表记为X) , 从中分别提取成分1t和1u (1t是x1, ..., xp的线形组合, u1是y1, ..., yq的线形组合) 时, 1u与1t有如下要求: (1) 1u和1t尽可能多地携带其数据表中变异信息; (2) 1u与1t的相关程度能够达到最大。在第一个成分1t和1u被提取后, 偏最小二乘回归分别实施X对1t的回归以及Y对1u的回归。如果回归方程已经达到满意的精度, 则算法终止;否则将利用X被1t解释后的残余信息以及Y被1t解释后的残余信息进行第二轮的成分提取。如此往复, 直到能达到一个较满意的精度为止 (精度由交叉有效性检验值确定) 。若最终对x1, x2, Λ, xq共提取了m个成分t1, t2, Λ, tm, 偏最小二乘回归将通过实施yk对t1, t2, Λ, tm, 的回归, 然后再表达出yk关于原变量x1, x2, Λ, xq的回归方程 (k=1, 2, …, p) , 最后得到y关于原变量的回归方程。偏最小二乘回归法对所抽取的成分逐个计算Y的残差预测平方和PRESS, 选取使Y的PRESS值达到最小的成分作为最终成分个数。PRESS值的计算过程如下:将n个样本中的1个样本作为检验样本, 将其余n-1个样本作为训练样本;第1次先将第1个样本留下作为检验样本, 用其余的n-1个样本建模, 然后将检验样本代入模型, 可求得第1个样本的估计值, 记为1ˆy;第2次再将第2个样本留作检验样本, 用其余的样本建模, 再将第2个检验样本代入模型, 求得第2个样本的估计值2ˆy;如此进行n次, 每次都留下1个样本作为估计, 这样可求出第n个样本的估计值nyˆ;再将这n个残差值平方求和, 即为PRESS值。

2 样本数据采集

实证数据选取2009年1月1~2012年12月31平均换手率排名前400的上海A股股票的月度数据, 数据来源于国泰君安证券交易软件和上海证券交易所。为处理方便, 本文中将这些天该股票的当日收盘价与前一日的股票收盘价相同。对ST和PT公司由于实行5%的涨跌限制, 为保证股票日收益率指标的一致, 将这些公司予以删除。考虑到公司配股、增发新股、送股和派息等因素的影响, 在计算股票日收益率时对数据进行了调整, 以充分反映股价的真实收益状况。无风险利率是投资者能够按此利率进行无风险借贷的利率, 上海股市中相当部分是个人投资者, 其中储蓄的比重相当大, 因此选择短期的3月定期存款利率按存续期间加权得到的数值为无风险利率, 计算得2.473%。

3 对样本实施股票组合分组

3.1 个股β系数的计算

采用资本资产定价模型 (CAPM) :

其中:Rit为证券i在时刻t的月收益率;RmCt为上证A股证券市场指数在时刻t的月收益率;βiC为证券i在时刻t的标准β;rft为时刻t的无风险利率;eit为残差项。个股β计算见图1。

3.2 组合β系数

采用行为资本资产定价模型 (BAPM) :

将400个个股β由大到小排列分为10个小组, 每个小组包含40个个股, 其中:Rpt为证券组合p在时刻t的加权平均月收益率;RmCt为上证A股证券市场指数在时刻t的月收益率;pβC为证券组合p在时刻t的行为β;rft为时刻t的无风险利率。组合β计算见图2。

通过图1和图2可知, 组合β比单个股票显得更加稳定。这是由于BAPM在估计的过程中用考虑了噪声交易者风险从而BAPM的估价只会反映一个剔除了噪声交易者风险的较低的风险。因此, 该文对收益率的偏最小二乘回归也就限定在股票组合的层面, 这样会使最后的估计结果更为稳健。

4 偏最小二乘回归模型建立并分析

运用偏最小二乘方法, 可以不用考虑模型的过度识别和多重共线性问题而把尽可能多的经济变量放到模型中。因此建立的多元线性模型为:

股票收益率的决定因素通过不同路径综合作用形成了股票收益率的波动机制, 理论上都能在一定程度上决定股票收益率的高低。综合国内外学者相关研究结果, 提炼出对股票收益率造成一定影响的若干因素: (1) Rpt是以月度来计算的第P组股票的加权平均月收益率, 记股票组合第t个月的加权平均市场月收益为tR, 则该组股票在第t个月的加权平均月收益率Rpt= (Rt-Rt-1) /Rt-1; (2) X1t是第t个月的银行储蓄利率增长率, 利率的波动可以反映出市场资金供求的变动状况, 一方面会影响到广大投资者的资金流向;另一方面也会影响某些企业的资金流向和投资导向, 比如高负债率的房地产行业, 若X, 1t是第t个月的储蓄率, 那么第t个月的利率增长率就是X1t= (X, 1t-X, 1t-1) /X, 1t-1; (3) X2t是国内生产总值GDP按月度计算的增长率。直观上看, 股市价格增长比较快的时期往往伴随着宏观经济的扩张时期, 所以在分析影响股票收益率的变量的时候就把GDP增长率加入到模型中进行分析; (4) X3t是通货膨胀增长率, 我们把通货膨胀率的增长率作为一个因素变量是因为通货膨胀率和利率共同影响了人们手中的资金的流向, 从而对股票的收益率造成影响; (5) X4t是组合β系数, 由CAPM和BAPM模型计算得到。一般β值过大, 说明股市有噪声成分;β值过小, 说明流动性较差, 噪声系数过高或过低都不利于股市的健康发展; (6) X5t是换手率, 用当天成交量与股票流通量的比率计算。当一只股票的换手率在较高的比例时, 该股票处在走势的高度活跃状态, 流通股换手率反映了市场投机性需求的强弱, 所以换手率应该作为影响收益率的一个因素。10个股票组合收益率的偏最小二乘二次多项式回归方程, 结果如下:

从所得的回归方程看:因素1x为银行储蓄利率, 总的来看利率的升降与股价的变化是反向相关的。当企业贷款釆用的是浮动利率, 随着利率的升高, 企业的利息负担就会增加, 从而减少公司的利润, 公司的股票价格就会下跌, 同时投资者会倾向于储蓄类金融产品, 对股市投资需求减弱, 也会引起股票价格下跌。因素x2为我国GDP的增长率, 由于GDP的增长反映了国民经济的提高, 对股市有积极方面的影响, 只是影响的程度不是很明显。因素3x为回归系数值为负, 说明通货膨胀率增长率对股票市场投资收益率有相反的影响, 实际在通货膨胀情况下, 政府一般会采取紧缩货币政策, 从而市场利率水平提高, 引起股票价格下降。通货膨胀引起的企业利润的不稳定, 投资者对未来企业盈利状况不清, 使得投资信心不足。4x为噪声系数β的回归系数, 其值有正有负表明对股市总体收益率的影响不定, 但其绝对值系数都较小, 基本可以忽略。5x为换手率其结果符合我们的基本认识, 换手率高说明股票获得的关注率高, 即对股票的最终收益值起到很重要的正向影响作用。

5 结论与展望

该文运用偏最小二乘回归法针对我国2009年至2012年的股票市场的400支股票构建的10组股票组合的加权平均月度收益率, 采用偏最小二乘回归算法克服各因素间的多重共线性, 实证分析数据表明银行月度储蓄率、换手率和通货膨胀起到了很重要的影响作用, 而GDP和β系数的变化未能对股票市场的收益率构成较大的影响与波动。通过该模型可以看出偏最小二乘回归方法为我国股市的健康发展提供了科学的依据, 对寻找对股市发展起重要作用的经济变量提供了一个可信的工具。

摘要:由于我国证券市场的证券定价具有不规范性和非理性, 股票收益率易偏离真实性, 随着我国证券市场的不断发展, 影响证券投资者行为和股票收益的因素也日趋复杂, 这就需要我们在不同时期对股票收益率影响因素进行探究。该文利用行为资产定价模型BMPA构建股票组合分类, 在股票组合层面上以股票组合收益率为研究对象, 在克服各因子间多重共线性下建立了上海证劵市场的偏最小二乘回归模型, 以期找出影响收益率的主要因素, 为我国证券市场的科学决策提供合理的依据。

关键词:行为资本资产定价模型BMPA,股票组合,偏最小二乘回归,研究

参考文献

[1]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社, 1999.

[2]何小群.回归分析与经济数据建模[M].北京:中国人民大学出版社, 1997.

[3]Shefrin.H.and L.Statman, Behavioral Capital Asset Pricing Theory[J].Journal of Finance and Quantitive Analysis, 1994, 3.

[4]康立, 李振飞.行业因素对我国A股市场收益率的效应研究——基于2001年至2010年面板数据的实证检验[J].投资研究, 2012 (7) :65-77.

上一篇:个人导向下一篇:课改体会