分类预测

2024-10-23

分类预测(精选8篇)

分类预测 篇1

一、引言

数据挖掘技术产生十几年来得到了较为广泛的应用, 并取得了显著的经济及社会效益, 但该技术在医学领域的应用目前处于起步阶段。电子病历 (CPR) 作为医院信息系统 (HIS) 的一个重要组成部分, 它是将传统的纸质病历电子化, 并超越纸质病历的管理模式, 提供查询、统计分析、信息交换等功能。随着电子病历数据库系统中病历数据量急剧增长, 如何从海量的数据中发现有价值的信息或知识也已经成为目前电子病历系统研究的热点问题。因此积极探索数据挖掘技术在电子病历系统中的应用, 具有重要的实用价值和广阔的发展前景。

本文采用分类算法, 检测属性与胃癌早期预警相关的属性, 构建较为适合的预测模型, 探讨是否有助于提高胃癌早期预警或诊断的正确率及联合检测对胃癌辅助诊断的意义, 以实现胃癌早期预警、诊断和分类的自动化, 为高危人群的筛查和临床胃癌诊断提供有价值的参考资料。

二、方法

(一) 数据来源

本文的数据是通过在监控、流行病学和最终结果 (SEER) 网站上申请的1973-2009登记的确诊病例。SEER项目是美国国家癌症研究所监控研究项目的一部分, 它将这些数据免费提供给以分析研究为目的的机构和实验室。

(二) 数据预处理

数据预处理几乎是数据挖掘过程中最重要的一步。SEER数据包含9个文本文件, 每个文件代表某个具体解剖位点的癌症。

SEER的DIGOTHR.TXT包含308155条记录。由于本文只考虑胃癌的生存预测, 因此需要对数据进行初步的筛选。由于较多属性适用范围是1988年以后, 为了预测模型的准确性, 选取1998-2002年的数据。

1. 数据清理

数据清理主要是清除掉与挖掘主题无关的属性和冗余属性、光滑噪声数据、填充空缺值和识别删除孤立点。本文原始数据中存在空缺值, 数据格式不一致等现象, 清除掉一些跟挖掘主题无关的属性, 如“诊断年份”、“注册ID”等。

2. 数据集成

数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理, 数据集成还可能产生数据重复等冗余问题。由于本文数据都来自SEER, 数据集成这一部分的工作较少。

3. 数据变换

数据变换主要是找到数据的特征表示, 用维变换或转换方法减少有效变量的数目或找到数据的不变式。初始数据共有134个属性, 本文属性选择的标准是信息增益率。

经过数据预处理以后得到的数据集包括9个变量 (8个条件属性和1个决策属性) 和1806条记录。决策变量是一个二元分类变量, 0代表没有存活, 1代表存活。预分类考虑三个变量:Survival Time Recode (STR) , Vital Status Recode (VSR) , and Cause of Death (COD) , 步骤如下:

(1) 如果STR大于等于60个月并且VSR是1, 则属于“survived”, 标记为1

(2) 如果STR小于60个月并且COD是21020, 则属于“not survived”, 标记为0

预分类的结果为not survived有1225个, 占总数据的67.8%, survived有581条, 占32.2%。

(三) 运行环境

软硬件环境:AMD A6-3400M1.40GHz安装内存6.00GB操作系统:Windows 7旗舰版建模环境:Clementine 12.0。

(四) 预测模型

本文使用了三种不容类型的分类模型:C5.0、BP人工神经网络和支持向量机。

(五) 评估模型精确度的方法

本文采用的模型评价参数是精确性、敏感性和特异性。

三、结果与分析

三种模型的精确性、敏感性和特异性结果如表1所示:

从表1可以看出, TAN贝叶斯网络的精确度最高, 敏感性均最好, C5.0算法的特异性最好, 而BP-人工神经网络的精确度和特异性都是最差。整体而言, 三种算法的特异性均比敏感性要好, 这可能是由于样本数据分布不均匀导致的。

四、结论

本文运用实例对C5.0、BP-人工神经网络和TAN贝叶斯网络进行了比较研究, 针对本文预测精度不高的不足, 以后的工作将围绕一些新的并且更有前景的算法, 如支持向量机和模糊集等, 以进一步提高预测准确度。具体存活时间的预测也是今后的研究方向。

摘要:数据挖掘技术己经引起了信息产业界的广泛关注。分类预测是其中一个主要的研究方向, 有着广泛的应用价值。对数据挖掘中的三种分类预测挖掘算法 (C5.0、BP-人工神经网络和TAN贝叶斯网络) 进行了研究和探讨, 并通过一个实际例子对三种算法做了分析和比较, 三种算法的精确度分别为87.26%、85.71%和88.7%。TAN贝叶斯网络的精确度和敏感性均最高, C5.0算法的特异性最好。

关键词:数据挖掘,分类预测,敏感性,特异性

分类预测 篇2

规范民间酒席须坚持分类治理

【热点背景】

过于依赖外在的管控而非群众自发的内生动力,试图毕其功于一役,往往适得其反。即便短期有成效,仍免不了出现松懈后的报复性反弹

近日,贵州省天柱县精神文明建设指导委员会发布该县规范城乡居民操办酒席行为的指导意见,意见明确民间办酒席,除婚嫁酒、丧事酒以外的酒席视为违规酒席。更为严苛的是,“复婚不准操办酒席;再婚除初婚方可操办酒席外,另一方不得操办”(7月3日《南方都市报》)。

【综合分析】

民间红白喜事大操大办,的确是一种陋习,造成不必要的奢侈浪费,加剧了群众负担,向这些不正之风开刀,从初衷来讲不乏善意。不过,初衷良善并不代表所有的治理方式都是合法合理的。

首先,虽然民间办酒有陋习的成分,却并不违法,没有法律法规禁止或作出明确规定,是纯粹的民间自发行为,遵循约定俗成的原则。这也意味着,民间办酒属于纯粹的民事性质,将其纳入政府的治理,在方式方法上宜谨慎,避免干预过深,越俎代庖。

诸如天柱县发布的规范城乡居民操办酒席行为的指导意见,又一次陷入争议的漩涡,并不乏前车之鉴。近些年,云南、重庆、贵州等多地都制定过类似规范办酒的规定,包括禁止的行为、合理的标准等可谓五花八门,这本身就表明这些规定的设计缺乏明确的依据,折射出于法无据的尴尬。同时,这些地方又都不约而同选择了申报、审批、罚款甚至与低保、扶贫项目等挂钩,像行政管理一样地治理,天柱县也不例外。

然而,村民的操办酒席不是行政管理的范围,而村委会与社区也不是实施行政行为的主体,发文事实性授权,也是权力越位,是对管控的迷恋与依赖,不仅会伤及群众权益,而且会导致操作性降低,虎头蛇尾,最终不了了之。更关键的是,一些处罚办法也不符合上位法的精神,如村民违规取消惠民政策,这与相关的政策是相抵触的。此前,关于强制规范办酒,多地都曾出现遭遇居民强烈抵制,激化干群矛盾的现象,导致治理办酒的善意受损,这些都是深刻的教训。

【参考对策】

规范民间办酒应少些管控思维。民间办酒积习已久,植根在熟人社会的土壤之中,有强大的惯性,尽管对其中的陋习歪风群众反映强烈,也须理性地看到改变起来还需要一定的周期,无法一蹴而就,立竿见影,而过于依赖外在的管控而非群众自发的内生动力,试图毕其功于一役,往往适得其反。即便短期有成效,仍免不了出现松懈后的报复性反弹。

分类预测 篇3

2013年国内高速铁路运营里程达到11028km,分别是德国和日本的11.6倍和4.6倍,跃居世界第1位。同时,随着运营速度的提升,高速铁路运营安全问题已成为社会各界关注的热点问题。中国2011年7月23日从北京开往福州的D301与D3115追尾事件敲响了高 速铁路安 全运营的 警钟,如何提高高速铁路安全运营水平是当下亟待解决的重大课题。

高速铁路运营事故预测是高速铁路行车安全的重要保证,针对高速铁路运营事故的特点,选择合适的高速铁路安全态势预测方法对提高高速铁路安全运营水平具有重要意义。近年来随着马尔科夫链理论、灰色模型、神经网络,以及支持向量机[1,2,3]等预测方法的提出受到了各界关注,国内外许多学者将其运用在铁路安全预测中取得了一定的成果。国内,李洪等[4]通过对1971~2008期间铁路事故烈度分析,提出基于马尔科夫链的铁路事故预测模型,并利用状态转移矩阵对2009年的铁路事故进行预测,结果显示该预测方法能够对铁路事故从宏观上进行初步评估;王富喜等[5]通过建立铁路事故灰色预测模型,开发了相应的铁路事故预测软件,并对国内多条铁路线路的安全事故进行了预测,其最大的优点是将预测过程程序化,输入条件标准化;此外,王卓等[6]还对铁路行车事故的预测方法进行了系统的分析,利用BP神经网络对美国铁路事故进行预测。国外对铁路安全事故的研究较早,N.M.Radaev[7]通过对铁路危险物运输过程风险源分析,建立了事故发生概率预测模型,并被运用于美国铁路危险品运输安全分析;WenChao[9]定义了7种铁路安全运营冲突种类,提出了运营冲突判定方法,并基于铁路运营计划对运营事故进行动态预测[8],其优点在于通过跟踪铁路运营计划,实时预测铁路运营事故发展趋势。实际上,铁路安全影响因素多、数据获取难是铁路安全预测面临的难题,特别是高速铁路运营事故受线路线型、运营时间、地域环境等因素影响巨大,通常难以建立简单线性模型描述事故与致因之间的隐含关系。

通过收集国内高速铁路的相关运营数据,参考城市轨道交通安全运营评价标准,结合高速铁路运营事故具有烈度高、影响范围广、时间波动明显的特点定义事故次数、事故联动系数、月均事故率作为高速铁路安全运营的评价指标来分析国内高速铁路的安全运营态势,结合工业数据预测中的先降噪、后预测的数据分类方法对高速铁路安全运营事故进行预测。

1高速铁路运营事故分析方法

1.1运营事故测定指标选取

通常评价铁路安全运营的指标有铁路事故率及事故件数、铁路伤亡人数、铁路经济损失[10]等,但是这些指标偏重于对普通铁路的安全评价。随着高速铁路安全管理水平的提高,高速铁路安全运营目标从减少伤亡人数向提高正点率等方面转变,意味着普通铁路的安全运营评价指标不完全适用于衡量高速铁路的安全运营水平。因此,根据对高速铁路安全运营内涵的理解,结合普通铁路的安全运营评价指标,最后确定选取高速铁路运营的事故次数、事故联动系数、月均事故率作为高速铁路安全运营的评价指标,各个指标的含义如下。

1)运营事故次数。根据铁路行车的D类事故定义:行车设备耽误列车1h以上或者固定设备耽误列车2h以上的均属于列车行车事故[11]。高速铁路的最低平均行驶速度达到275km/h,为常规火车速度的2.75倍,所以定义行车设备耽误高速铁路行车20min或者固定设备耽误高速铁路行车40min及其以上属于高速铁路行车事故,计算方法

式中:N为运营事故次数;N0为列车总数;Ni为第i辆车的运营总次数;xij为事故判别因子;ti1j和ti2j分别为第i列车在第j次运营过程的行车设备和固定设备造成的最大延误时间。

2)事故联动系数。联动系数是经济学中用以分析某一商 品价格变 化的影响 范围的评 价指标[12],高速铁路属于复杂的线网结构,列车在运行过程中易受到线网中其他列车故障的影响发生延误等情况,铁路线网具有故障扩散的联动特点,这里引用联动系数反应线网车辆调度管理的合理性。

式中:λ为事故联动系数;C为发生故障列车数量;ki为受到第i次事故影响而发生事故的列车数量。

3)月均事故率。月均事故率反映了高速铁路线路每月发生运营事故的频率(概率),能够消除高速铁路运营时间不均的影响,更加客观地评价高速铁路的安全运营水平。

式中:P为每月平均运营事故发生率;M为有效运营时间。

1.2国内高速铁路运营事故现状分析

利用南京理工大学高速铁路安全运营评价与测度方法研究课题组收集的国内10条较有代表性的高速铁路线路从2010~2013年的运营资料(包括晚点、人员伤亡等情况),根据运营事故、事故联动系数、月均事故率3个评价指标的定义和量化式(1),(2),(3),分别得到中国2010~2013年期间高速铁路的安全运营评价指标数据,见表1。

为进一步分析我国高速铁路运营事故分布特征,以运营里程、事故联动系数、月均事故率作为评价指标,利用系统聚类方法对高速铁路运营情况分析,将国内高速铁路线路划分为表2中4级(类):

表2中:1一级线路 有Line(3),Line(5),Line(7),Line(9),Line(10),事故联动系数和月平均事故率最大为2和1.03,属于高速铁路运营线路中事故发生频率最小的一类,处于比较高的运营安全水平;2二级线路为Line(8),事故联动系数和月平均事故率分别为6和0.98,事故联动系数大的特点是线路事故扩大效应易导致线路的其它列车受到影响;3三级线路为Line(6),事故联动系数和月均事故率分别为1和1.23,线路运营里程短,但是月均事故率 较大;4四级线路 为Line(1),Line(2),Line(4),事故联动系数和月均事故率最大分别为21和3.92,这些线路运营里程长、时间久、列车多,属于运营安全风险最大的一类。

2高速铁路运营事故预测方法

2.1高速铁路运营事故数据特征分析

在工业材料和航空零件供给需求预测中,通常根据数据序列的变异系数(见式(4))和周期间隔(见式(5))2个指标将数据序列分为平缓、间歇、随机、块状等4种特征类型[13](见图1),并且Syntetos等[14]通过大量数据分析得到事故变异系数的临界值可为0.7,事故间隔的临界值可为1.32。

式中:s为序列数据的标准差;x-为序列数据均值。

因此,依据式(4),(5)可计算高速铁路运营事故数据的变异系数v2=1.02、月均事故 率ε =1.95(月/起),判断此类数据属于块状型,具有强变异性、变化波动大的特点。

根据不同特征类型数据选择相应的预测方法(见表3),发现适用高速铁路运营事故的预测模型有神经网络、支持向量机、灰色函数等,为进一步分析现代智能算法和灰色模型在高速铁路安全运营事故预测过程中的适应性,据此分别建立基于经典的BP神经网络和灰色函数的高速铁路预测模型。

2.2高速铁路运营事故 BP神经网络预测模型

神经网络是通过模仿生物神经系统功能结构处理非线性问题的数学动力系统,对多输入与多输出的数据具有较好的拟合能力,其基本组成单元是神经元,主要功能是将输入经过函数转化为期望输出。BP神经元模型预测机制主要通过3步实现。

步骤1。输入信息融合。通过输入信息向量与其对应的权重向量乘积得到融 合之后的 信息

步骤2。输出信息转化。pj大于神经元兴奋阈值θ时,神经元信息转换函数f对pj转化得到输出信息yj ,这里采用Sigmoid函数作为转化函数:

式中:yj为输出信息;θ为阈值,通常用它来修正神经系统的内部偏差,取值0~1之间,通常建议取值0.01。

步骤3。误差反向传播。根据得到的神经元输出信息yj与实际期望信息yj*之间的差值反向修正神经元权重wij,这里采用改进的自适应动量梯度下降法作为权值修正函数:

式中:wijk为前层第i个神经元和后层第j个神经元之间第k次修正权值;λ为动量因子,g为梯度误差修正函数。

高速铁路安全运营态势与运营里程、运营时间、地理环境、气候条件等因素有关,由于未来的气候条件不可知,月平均事故率可利用事故总数推算。因此,最后确定将运营里程、运营时间2个条件做为输入,将运营事故总数、事故联动率2个指标作为输出,以2010~2013年内发生过运营事故的10条高速铁路线路运营事故数据为训练样本,对其安全态势进行预测。

依据Kolmogorov定理:1个具有n个输入单元、2n+1个中间单元和m个输出单元的3层网络可以精确地表达任何映射,并且同时可以使中间层容量和训练时间最优,所以确定建立2-52的BP神经网络,如图2。

2.3高速铁路安全运营事故灰色预测模型

本节首先对高速铁路安全事故指标进行灰色关联度分析,选择运营里程和运营时间作为灰色预测模型变量因子,以运营事故作为因变因子,建立GM(1,3)预测模型。然后根据运营事故数据属于块状型,具有波动大的特点,利用K均值聚类的方法将运营事故数据序列划分为不同集合,建立K-GM(1,3)预测模型。

2.3.1灰色关联度分析

假设存在以下2个数列:

以Xi(k)为参考数列,Xj(k)为比较数列,定义:

存在关联函数:

则比较序列Xj(k)对根据序列Xi(k)的灰色关联度为

将高速铁路线路Line(1)到Line(10)的运营事故数作为参考序列,以运营里程数和运营时间作为比较序列,根据式(8)~(10),计算运营事故数和运营里程以及运营时间的灰色关联度分别为0.74和0.75,根据经验,当指标间关联度大于0.6时便可建立灰度预测模型[15]。因此,选择线路里程和运营时间作为运营事故预测模型的变量因子,分别构建GM(1,3)模型和K-GM(1,3)模型。

2.3.2构建 GM(1,3)模型

GM(1,3)模型的建立过程可以分为原始数据一阶累加、构建白化微分方程、微分方程离散化、参数标定四个步骤,具体过程如下。

步骤1。原始数据一阶累加。假设存在原始数据Xi(0),可得到:

从Xi(0)→Xi(1)的过程称为一阶累加过程。

步骤2。建立白化微分方程。数列Xi(1)(k)的时刻k=1,2,…,m看作连续的变量t的函数Xi(1)= Xi(1)(t),可建立白化式微分方程

式(13)微分方程模型记为GM(1,n),令n =3,得到GM(1,3)白化微分方程

步骤3。微分方程离散化。将微分方程(13)参数列记 为,对微分方 程按差分法离散,得到线性方程组。

按照最小二乘法,有

式中:

可得微分方程的近似解为

步骤4。参数标 定。通过式 (11),(12)和(17)计算得到Line(1)~Line(10)的GM(1,3)模型参数矩阵。

依据式(16),估计线路Line(1)~Line(10)的GM(1,3)模型参数为

a=1.0192,b2=0.1100,b3=-0.1025

最后得到Line(1)~Line(10)的GM(1,3)模型为

2.3.3构建 K-GM(1,3)模型

K-GM(1,3)模型是按照先降噪,后预测的思路进行,具体方法是首先根据K均值聚类方法对数据分类,然后对每一类数据建立GM(1,3)模型,目的是降低数据变化波动带来的影响,提高预测的精度。

步骤1。运营事故K均值分类。通过表1知高速铁路 安全运营 事故指标 数据最大 的值为141,最小的为2,两极分化严重。为能够更好地对数据进行预测和分析,首先将运营事故利用K均值聚类方法进行分类。

根据以上步骤,利用SPSS软件对Line(1)~Line(10)线路的运营事故次数进行K均值聚类,最后得到以下分类结果。

A1 = {62,141,84,54,47,30},A2= {3,5,4,9}即将Line(1),Line(2),Line(4),Line(6),Line(8),Line(9)划分为事 故率较大 的一类,将Line(3),Line(5),Line(7),Line(10)划分为事故率较小的一类。

步骤2。K-GM(1,3)模型参数标定。依据式(11)~(17),计算获得A1类线路和A2类线路的K-GM(1,3)模型参数。

将模型参数带入式(18)得到得A1类线路和A2类线路的K-GM(1,3)模型。

2.3.4预测结果和误差分析

灰色模型的预测结果是将式(18)计算结果通过累减还原为相应变量的预测结果。

式中:即为GM(1,3)模型所得 的的预测值。通常为了检验模型的有效性,采用原始数据和预测结果的相对误差序列作为精度验证的度量:

式中:MSE(k)为相对误差序列。

3案例分析

为验证上述建立的BP神经网络和灰色预测模型的有效性,将表1中运营数据代入预测,通过对预测结果 的误差分 析,比较BP神经网络、GM(1,3),以及K-GM(1,3)预测模型在高速铁路安全运营态势预测中的适用性。

3.1高速铁路运营事故神经网络预测结果

根据图2设计的神经网络和2.2节中BP神经网络的计算流程,利用Matlab(R2012a)编程求解。由于高速铁路运营事故数据序列长度较短,因此这里采取交替迭代的方法训练神经网络,具体过程是先任意选取8条线路作为训练样本,剩下其他2条线路作为预测样本(对比样本)。第1次预测结束后,再选择未预测的2条线路替换已预测的线路,继续训练和预测,经过5次迭代过程,最后获得10条线路事故的预测结果见表4。

上述预测过程中,BP神经网络的其它参数设置见表5。

3.2高速铁路运营事故灰色模型预测结果

同样将表1中的运营事故数代入GM(1,3)模型(见式(20))和K-GM(1,3)模型(见式(21)),得到运营事故预测结果,见表6。

对比表6和表7,未经K均值降噪而直接建立的GM (1,3)模型的预 测相对误 差达到345.25%,经过分类降噪的K-GM(1,3)模型的A1 类和A2类的预测误差精度分别为13.42%和14.08%,平均相对误差为13.68%。表明对于高速铁路运营事故这类块状型数据而言,在预测前进行数据分类降噪将会显著提高灰色模型的预测精度。

3.3预测模型适应性分析

为便于对BP神经网络模型和灰度模型在高速铁路运营事故预测过程中的适应性分析,将BP神经网络和K-GM(1,3)模型的预 测相对误 差(MSE)绘制成下图4。

在高速铁路事故的预测过程中,BP神经网络的最大误差为12.00%,平均误差为8.92%,K-GM(1,3)模型的预测最大相对误差为48.42%,平均误差为13.69%,从预测精度上来说,BP神经网络在高速铁路安全事故预测过程中要优于K-GM(1,3)模型。进一步分析,可以得出以下结论。

1)K-GM(1,3)模型的预测精度随着数据在序列中的前后位置关系呈现从大到小 的变化趋势,在本实例分析中,K-GM(1,3)对于数据顺序前4的Line(1)~Line(4)的平均预 测误差为1.74%,数据顺序后6的Line(5)~Line(10)的平均预测相对误差为21.64%,表明在K-GM(1,3)模型中预测精度与数据位置顺序有关。

2)BP神经网络预测过程中,高速铁路运营事故数预测平均误差为8.92%,联动系数预测精度为10.09%,联动系数数据序列的变异系数为1.43,事故数据序列的变异系数为1.02,表明数据的平稳性与预测精度成正比关系。

3)BP神经网络模型与K-GM(1,3)模型相比,BP神经网络和K-GM(1,3)模型在预测过程中预测误差的方差分别为0.10%和2.43%,表明BP神经网络在预测过程中更加平稳,误差波动范围更小。

4结束语

笔者运用事故次数、事故联动系数、月均事故率作为高速铁路运营事故评价指标,根据高速铁路运营事故属于块状型,具有强变异性的特点建立了基于BP神经网络和灰色模型的安全态势预测模型。在构建了灰色模型过程中,根据事故极差大的特点,利用K均值聚类方法将高速铁路线路分为A1类和A2类,构建K-GM(1,3)预测模型,提出了先数据分类降噪后预测的思路。实证分析表明,灰度模型与BP神经网络相比,灰色模型预测精度更依赖于数据稳定性,BP神经网络更适合于高速铁路安全运营事故等块状 型数据预测。本文是基于假定国内CRH系列型号列车安全性能无较大差别的基础上提出的,若能进一步对各种型号的列车事故进行统计分析,再进行预测分析则更具科学性。

高速铁路运营事故致因复杂且数据采集困难一直是影响高速铁路安全预测研究的重要原因,因此对高速铁路运营安全进行更深层次的影响因子机理分析,构建高速铁路运营事故统计数据库平台有待于后续工作的深入研究。

摘要:高速铁路运营事故预测方法是度量铁路安全管理水平的重要指标。为提高高速铁路的安全运营水平,引入工业数据分类方法,分析反向传播(BP)神经网络和灰色模型在高速铁路安全运营事故预测过程中的适应性。首先,运用事故次数、事故联动系数、月均事故率3个参数对高速铁路安全运营水平进行度量;然后,根据工业数据分类方法判别高速铁路运营事故数据属于块状型,据此建立反向传播(BP)神经网络运营事故预测模型;针对运营事故数据具有波动大的特点,利用均值聚类方法建立K-GM(1,3)预测模型。以近年来高速铁路运营事故数据为样本对模型进行训练和分析,结果表明:BP神经网络、K-GM(1,3)、GM(1,3)预测模型的预测误差分别为8.92%,13.68%,345.25%,BP神经网络在高速铁路安全运营事故预测过程中的适应性要优于灰度模型。

分类预测 篇4

Kumar et al. (2007) 将财务困境预测中应用的各种方法和技术分为两大类别:第一类是统计方法, 第二类是智能方法。在第一类方法中, 财务困境预测从早期的单变量分析和多元判别分析发展到logit模型。第二类方法即智能方法包括各种神经网络模型, 粗糙集模型, 贝叶斯网络模型, 支持向量机等。一些其他的运筹学技术包括线性规划、数据包络分析等。

从整体上看, 已有的研究大多根据历史数据样本建立单一的分类预测模型, 然后应用该模型预测公司财务困境的发生与否。然而, 单分类模型在特定问题上的表现很大程度上取决于样本的模式特征, 并且每种单分类模型都有其特定的不确定性, 而组合分类则可以减少估计误差的方差, 提高总体性能 (Granitto et al., 2005) 。因此, 本文提出了一种基于组合分类以提高准确性的财务困境预测模型, 并用于对我国上市公司财务困境进行预测。实证研究结果说明了所提出模型相对于传统单分类模型的准确性和优越性。

一、基于有监督聚类的组合分类模型

(一) 组合分类原则

概括而言, 组合分类的最终预测性能取决于各个分类模型之间的差异性程度和单个分类模型的个体性能 (Granitto et al., 2005) 。一方面, 由于在现实问题中不存在完美的分类模型, 因此, 在组合分类中, 当一些分类模型输出错误的结果时, 需要其它分类模型输出正确的结果, 以实现不同分类模型的优势互补。这要求分类模型必须具有差异性和多样性。另一方面, 可以通过不同的分类模型算法参数设置和模型结构优化, 使得用于组合的各个分类模型的性能不断得到提高, 从而提高组合分类的整体性能。这要求分类模型必须具有较高的个体性能。在本文提出的模型中, 通过有监督聚类以得到具有较高差异性同时又具有较好个体性能的分类模型, 并通过加权投票方法对各个分类模型的预测结果进行组合。

(二) 有监督聚类

聚类分析根据“各聚集 (cluster) 之内数据对象的相似度最大化和各聚集之间数据对象相似度最小化”这一原则将数据对象划分为若干数据簇, 其中相似度一般定义为数据对象的空间距离, 如Euclidean距离。每一个数据簇可以视为一个具有类似特性的数据对象集合。本文提出的有监督聚类指在聚类过程中考虑数据样本的类别, 即将数据样本中不同类别的样本分别进行聚类。有监督聚类的作用是在每个类别的数据中聚类得到具有类似特性的数据对象子集合, 并在此基础上对不同类别的子集合之间两两配对产生训练样本子集合, 从而使得在各个子集合上建立的分类模型能够更好地拟合数据样本属性与类别之间的关系, 具有较高的个体性能。同时, 采用不同的数据子集合建立不同的分类模型有利于提高模型之间的差异性, 使得组合分类的总体性能得到改进。

由于K-均值聚类 (K-means clustering) 是一种有效适用于较大规模数据集的聚类方法, 本文将其用于有监督聚类中。K-均值聚类的一个关键问题是如何确定最佳聚类个数Kopt, 这一问题通常被称为“聚类有效性”, 其目得是使聚类结果达到类内对象尽可能相似, 且不同类中的对象尽可能地相异。由于Wu et al. (2005) 提出的聚类有效性指标能够很好地估计合理的聚类个数, 并且对于噪声数据具有较强的鲁棒性, 因此本文将其应用于有监督聚类中作为有效性指标如下:

上式中K为K-均值聚类中设定的聚类个数, VI (K) 为聚类有效性指标。Intra (K) 为反映各个数据簇内数据样本相似度的指标, Inter (K) 为反映各个类间数据样本相异度的指标, 分别定义如下:

在式 (2) 和式 (3) 中, Xik为第k个数据簇中的第i个样本, r0为数据集合中所有样本的中心点, r0k和Nk, (k=1, 2, …, K) 分别为第k个数据簇的中心点和该数据簇所包含的样本个数。对于式 (2) , 如果通过聚类分析得到的数据簇内的样本相似度越高, 则样本离中心的平均距离越近, Intra (K) 越小;对于式 (3) , 如果各个数据簇样本之间的差异度越大, 则中心之间的平均距离越远, Inter (K) 越小。因此, 最优聚类结果使得聚类有效性指标最小化。

在有监督聚类得到各个数据簇后, 可以对不同类别的数据簇进行两两配对以产生训练样本子集合, 然后再在各个训练样本子集合中建立分类模型。不失一般性, 本文仅考虑二分类情况, 即数据样本总体包含来自两个类别的数据样本集合S1和S2 (分别对应于发生财务困境和不发生财务困境的公司) 。有监督聚类和两两配对的目的是产生若干具有差异性的训练样本集合, 以克服随机抽样难以保证各个训练样本集合之间具有差异性这一问题。同时, 通过有监督聚类, 可以更好地在每个类别内探索具有不同特性的数据样本, 从而使得建立的分类模型具有更好的个体性能。

(三) 组合分类模型

记不同类别的数据样本集合S1和S2的最优聚类数分别为K1opt和K2opt, 故两两配对产生的训练样本子集合个数NC=K1opt·K2opt, 对应的分类模型个数也为NC。记配对后训练样本子集合为TS1, TS2, …, TSNC, 其对应的分类模型为H1, H2, …, HNC。由于不同的数据样本对于同一分类模型具有不同的分类难度, 要实现有效地组合分类, 除考虑分类模型的差异性和个体性能外, 如何选择组合方式也是一个关键问题。与从所有分类模型中选择单个最优的分类模型相比, 更加有效的方法是为不同的数据样本选择一组不同的分类模型 (通常称为动态组合) (Ko et al., 2008) 。因此本文采用基于样本邻域分类性能的加权投票作为组合方法, 属于动态组合型方法。

记一个未知类别的数据样本为X, 距离X最近的M个训练样本为XNN (1) , XNN (2) , …, XNN (M) 。假设各个分类模型H1, H2, …, HNC在这M个训练样本上分类正确率 (按百分比) 分别为l1, l2, …, lNC, 则lj, (j=1, 2, …, NC) 可以衡量分类模型Hj在X的邻域内具有的分类性能。lj越大, 说明分类模型Hj在X的邻域内具有越高的分类性能。因此, 可以设定各个分类模型H1, H2, …, HNC对于数据样本X的投票权重如下:

对于数据样本X, 如果第j个分类模型对其类别的预测结果为i, 二分变量vi, j=1, 否则, vi, j=0。则向量V i= (vi, 1, vi, 2, …, vi, NC) 表示NC个分类器对X是否属于类别Ci的预测结果。因此, 对分类模型结果加权综合后的表示X属于类别Ci的概率。根据加权投票规则, 数据样本X的组合分类结果为:

二、实证研究

(一) 研究设计

实证研究中用于财务困境预测的数据取自上海和深圳证券交易所上市公司在1999-2008年间经审计的财务报表 (http://www.sse.com.cn, http://www.szse cn) 。数据集包含554家经外部审计的企业财务数据, 其中201家企业是ST企业 (代表发生财务困境的企业) , 353家企业是非ST企业 (代表未发生财务困境的企业) 。这554家企业从上海和深圳证券交易所A股企业中任意选择, 没有进行任何的预先剔除或预处理, 这些公司分布于各个行业 (农业、工业、商业、服务业等) , 具有不同的规模 (小规模、中等规模、大规模和超大规模) , 因此数据样本具有一般性和代表性。

根据现有研究文献中对财务指标选取有效性的分析, 本文在建立公司财务困境预测指标体系时, 主要考虑以下几个方面的因素:企业规模、财务结构、盈利能力、偿债能力、资产管理状况、成长能力以及筹资和投资能力。考虑到公司的现金流量能够较好地反映公司的价值和破产概率, 本文在吴世农等的基础上选择了20个指标来对公司财务困境的发生进行预测分析。这20个指标分别为:盈利增长指数 (X1) 、净资产报酬率 (X2) 、资产报酬率 (X3) 、主营业务利润贡献率 (X4) 、主营业务利润率 (X5) 、利息保障倍数 (X6) 、流动比率 (X7) 、速动比率 (X8) 、超速动比率 (X9) 、负债比率 (X10) 、长期负债比率 (X11) 、营运资本与总资产比例 (X12) 、留存收益与总资产比例 (X13) 、资产增长率 (X14) 、股东权益增长率 (X15) 、主营业务收入增长率 (X16) 、应收账款周转率 (X17) 、存货周转率 (X18) 、资产周转率 (X19) 、现金流量比率 (X20) 。

(二) 实证结果及分析

为了说明本文提出的组合分类模型的有效性, 将其在上述数据集上的预测结果与单分类模型的预测结果进行比较。分类预测的结果评价采用k重交叉验证方法。为简单起见, 实验中设定k=5, 即随机从原始数据集中取出1/5作为测试样本, 剩余4/5作为训练样本。k重交叉验证运行30次后, 单分类模型和组合分类模型的平均错误率及其成对t检验的差异显著性分别如表1和表2所示。其中, 表1采用的基本分类器为logistic回归模型, 表2采用的基本分类器为支持向量机。支持向量机的核函数采用高斯径向基核函数K (x, y) =exp (-γ|x-y|2) , γ>0, 其参数γ取值为1。支持向量机中平衡参数C取值为1。

从表1和表2的结果可以看出, 本文提出的组合分类模型能够比传统的单分类模型取得更高的分类准确率, 并且具有统计显著性。从表1和表2的结果中还可以看出, 组合学习模型的标准差较小, 反映分类效果随机波动性较低。因此, 本文提出的组合分类模型能够有效应用于我国上市公司财务困境预测。

三、结语

准确有效的财务困境预测对于管理当局、投资者、债权人等利益相关者具有重要的意义, 而现有的预测方法大都基于单分类模型, 其预测结果具有一定的不确定性和不稳定性。因此, 本文提出了一种组合学习的财务困境预测模型, 其目的在于克服单分类模型在财务困境预测中的局限性。实证研究的结果表明, 所提出组合学习模型能够取得比传统单分类模型更高的准确性, 具有较好的实际应用价值。

参考文献

[1]吴世农, 卢贤义.我国上市公司财务困境的预测模型研究[J].经济研究.2001, 6.

[2]Hua Z, Wang Y, Xu X, Zhang B, Liang L.Predicting corporate financial distress based on integra-tion of support vector machine and logistic regression[J].Expert Systems with Applications, 2007, 33 (2) :434-440.

[3]Wu KL, Yang MS.A cluster validity index forfuzzy clustering[J].Pattern Recognition Letters, 2005, 26 (9) :1275-1291.

分类预测 篇5

1 气井综合分类

评价一口气井,主要看其产能的大小,而影响气产能的因素总体上有储层物性、含油气性、生产特性以及工艺措施四类[2],因此有必要对这些因素进行灰色关联分析,确定出主要影响因素及其权重系数。

1.1 灰色关联法原理

灰色关联分析通过对系统指标统计数列几何关系的比较,分析各指标间的关联程度。灰色关联分析法对统计样本的多少和规律性没有要求,计算简便且不会出现量化结果与定性分析结果不符的情况[3]。

灰色关联分析方法步骤如下:

Xi=[xi(1),xi(2),………,xi(n)]i=0,1,2,…,m

对于0<ξ<1,令

1.2 权重系数的计算

在低渗气田的气井评价中,产气量、动储量和渗透率对气井生产都产生很大影响,将产气量作为主因素,其余指标作为子因素,对气井进行评价。归一化处理算得所有指标的权重系数,如表1所示。

1.3 综合评价值的计算

描述事物特征的物理量差异很大,但是在分类计算时,只需从数量上分析,必须消除物理量单位的干扰。为了将各种干扰降到最低程度,需要运用模糊数学方法对描述事物的特征值进行规格化,规格化的值称为隶属度,对于选取潜力井来说,隶属度值越大,表明该井的因素对于样本集中的优化程度越高,越有利于气井分类[4]。

根据实际问题的特点,选用了梯形分布模型[5],通过一系列计算,可计算出单井的综合判定值CM即决策因子,从而最终确定出气井的分类。

根据气井综合权衡评价值的计算结果和评价值建立气井分类标准。大于0.33的为Ⅰ类井,0.2~0.33为Ⅱ类井,小于0.2的为Ⅲ类井。区块I类井所占比例为34%,II类井所占比例为32%,III类井所占比例为34%。I类井储层物性较好、单井产量高、控制储量大、生产平稳、有一定的稳产能力;II类井储层物性一般、单井产量较高、有一定的控制储量;III类储层物性较差、单井产量较低、控制储量小、井口压力波动大。

2 线形回归产能预测

储层产能是多种因素共同作用的结果,即就是产能与多个储层物性参数之间的相关关系,因此可利用多元线性回归分析的方法进行产能预测。

多元线性回归分析的数学模型为:

以气井综合分类为基础,利用统计方法来进行推导不同气井的初期产能经验公式。已知研究区气井的初始产能数据(投产后2个月的平均产量)、孔隙度、渗透率、地层系数、含气饱和度等参数,进行多元线性回归分析。经过SPSS19.0软件多元回归分析后得到的初期产能预测公式及预测结果。

Ⅰ类区初期产能回归方程为:

Ⅱ类区初期产能经验公式为:

Ⅲ类区初期产能经验公式为:

3 结论

(1)运用灰色关联法对靖边气田某区块气井产能的影响因素进行了分析,确定了各因素对产能的影响程度,发现单位套压降累产气量、渗透率、无阻流量对产能影响因素较大。

(2)根据权重比例计算可得到单井的决策因子。从而将气井分为三类:大于0.33的为Ⅰ类井,0.2~0.33为Ⅱ类井,小于0.2的为Ⅲ类井。区块I类井所占比例为34%,II类井所占比例为32%,III类井所占比例为34%。I类井储层物性较好,有一定的稳产能力;II类井储层物性一般,有一定的控制储量;III类储层物性较差、单井产量较低、控制储量小。

(3)对各类井建立初期产量回归公式,分别得出了三类井的产能预测经验公式,对气田今后开发有重要的指导意义。

参考文献

[1]刘吉余,刘曼玉,徐浩.基于聚类分析的低渗透储层评价参数优选研究[J].石油地质与工程,2009,23(3):104~108.

[2]汪立君.利用测井资料进行天然气储层产能的评价与预测.地质科技情报,2004,23(2):57~60.

[3]刘联群,等.多参数流动单元在储层评价中的应用.西北大学学报自然科学版,2009,39(1):114~119.

[4]姚合法,等.多参数判别流动单元的方法探讨.沉积学报,2006,24(1):90~95.

分类预测 篇6

试验数据主要是其中的用户点击流文件。它包括217个属性,777,480个记录;测试数据集包括215个属性,164,364个记录。它的文件大小是1.148.6M,包含了很多原始记录,每个记录是一个网页浏览,同时也包括了用户的信息。

我们会从表中发现有许多重复的会话和用户信息,另外原始的文件太大,其中有许多属性与我们的问题关联不大,如email,country等属性,于是我们从中挑选了三十多个属性,如服务器日志本身记录的信息客户端IP,服务器名称,用户请求,日期,协议版本等,用户的一些信息性别,年龄,职业,住址等。在这些属性上面作投影,从而我们的训练数据得到很大的精简。在此基础上,通过前面描述的数据净化,用户识别,会话识别等过程处理后,形成一个预处理的会话文件,其中的重复的会话信息和用户信息可以合并。

在经过预处理的web日志中寻找事务的方法如下[1]:

1)根据每一个访问者的IP,划分日志,即在日志中找到每一个访问者的访问记录集。

2)对每一个访问者的访问记录集,根据C进行分割,找到每一个访问者的每一次访问记录集,这时,每一个访问者的每一次访问记录就构成了一个访问事务。

3)最终按时间排序的所有访问事务形成访问事务集T。

每一个用户访问事务相当于用户对站点的一条访问路径。用户的访问事务集就是全体用户在一个时间段内对站点的访问路径集T,T构成了我们进行挖掘的基础。

2 基于关联分类方法的web用户兴趣预测

下面我们考虑解决问题2的方法,我们的目的是要预测用户将要访问含有那些品牌的网页。我们的事务集T包括的属性有网页浏览的信息,如请求者的地址,请求的网页地址,请求时间等属性;另外,还包括用户的一些信息,如收入,职业,年龄等。我们要特别注意的是最后的一个属性(Viewed Brand:Hanes,American Essentials,Donna Karan,Other,Null)。这是因为在我们的点击流文件中,有很多用户访问了含有Hanes,American Essentials,Donna Karan品牌的网页,于是,我们把含有这些品牌的网页各作为一类;访问含有其他品牌的网页的比例非常小,所以我们把所有这些含有这些品牌的网页作为一类,用Other来表示;最后我们把不含有品牌的网页用Null来表示。下面运用上章讨论的关联关则分类方法将在己有的事务集上找出所有可能的CARS,然后用这些CARS构造一个分类器来预测用户的兴趣。方法是这样的,我们把Viewed Brands属性看成类别属性,剩下的属性当作条件属性去处理。在挖掘关联规则以前,我们先要确定最小的支持度和可信度。经过多次试验之后,我们发现最小的支持度为0.1%,可信度为70%时,试验的效果较好。我们分别用传统的分类规则挖掘算法和改进后的用于web挖掘的分类规则挖掘算法进行处理。

下面是两算法所用的时间对比图:

从图1中,可以看出改进后算法效率有很大的提高,这是因为改进的算法首先采用FP-growth算法挖掘频繁项集,这要比Apriori算法的效率要提高一个数量集;另外,对频繁项集中不包含决策属性值的频繁项集不做任何操作,因为这些频繁项集无法产生所需的类别关联规则;其次对剩余的频繁项只以频繁项中的决策属性值作为规则的类别属性Y,其余条件属性值组合作为规则的前件(condset)来生成规则;所以算法效率有很大的提高。

分析我们的所得的规则,明显看出当用户访问了Fashionmall网页或Winniecooper网页时,他就很可能访问Hanes,Donna Karan商标;而当用户访问了Mycoxpons网页或Tripod网页时,他就很可能访问American Essential商标。为了更好的描述实验结果,设REL表示在测试数据集中的某一类别网页频道集合,RET表示在测试数据集中我们预测的某一类别网页频道集合。我们先作如下定义:

Recall=RET∩REL/REL,表示在测试数据集中,我们预测的某一网页频道类别集合实际上与某一类别频道集合的百分比。

Precision=RET∩REL/RET,表示在测试数据集中,某一类别频道与我们预测的某一类别频道的百分比。实验结果如表1所示:

事实上,Recall衡量了我们能预测多少用户对某个网页频道感兴趣,Precision衡量了预测的准确性。在上面的实验数据中,我们可以看出,传统的关联分类方法和在改进后用于web使用挖掘的关联分类方法在预测的准确性方面差别不大,但在效率方面,两者差距较大。它们的Recall的值是相当不错的,基本上达到了50。预测也是很准确的,Precision的值也基本上达到了90%。

下面我们运用ID3算法对web用户兴趣预测,首先,我们来训练判定树,然后,来用它来预测用户的访问兴趣。

试验结果如表3所示:

在此,我们把这三种方法的试验效果用点线图表示出来,我们可以看到,传统的关联分类方法与用于web使用挖掘的关联分类方法在效果上没有大的差别,但它们的效果明显的都要比ID3方法的试验效果好。

所以,改进的用于web使用挖掘的关联规则分类算法对web用户的兴趣预测是有效的,一方面,它比传统的关联规则分类算法的效率有很大的提高,另一方面,一般而言,它比一些决策树方法的效果要好。

3 一种基于web挖掘的网站个性化推荐系统结构

站点的个性化服务会针对不同的用户提供不同的服务,尽最大努力的使用户方便,快捷的获得信息,同时,也可以对不同的用户提供不同的商务活动。它主要是根据用户以前的访问信息来提供服务,也就是说,当前用户已有一个访问序列,那么具有类似访问序列的其他用户(这些用户与该用户具有相同的访问兴趣)的下一次访问可以为该用户提供推荐[2]。当然,要更好的对用户提供个性化服务,还必须对站点本身的内容有更好的组织,所以,内容挖掘和结构挖掘对提供个性化服务来说也特别重要。本文提出一种站点的个性化推荐结构,它不仅用到使用挖掘,还要用到内容挖掘等,结构如下所示:

系统主要分为在线部分和离线部分:

离线部分:

使用挖掘:根据网站的结构信息,使用记录,用户本身记录进行使用挖掘,找出站点的使用模式。

内容挖掘:对站点的本身页面信息,结构信息和从搜索引擎搜到的页面进行内容挖掘,来更好的对网站的信息进行组织。同时,可以通过搜索引擎来弥补站点本身内容的有限性。

在线部分:

推荐引擎识别出每个用户的当前交互会话,得到每个用户的当前访问序列,进而根据使用模式信息得到用户的下一些可能访问的页面类别,这些页面的地址被附加到用户当前访问页面的底部,以进行推荐。

此推荐系统的工作过程可以分为以下几步:

1)关于web数据的收集:在对网站的内容方面,可以不断的增加新的内容,推荐引擎也可以指示搜索引擎搜索新的网页内容;在网站的日志记录方面,可以记录用户访问信息;也可以通过调查获得用户本人的一些信息。

2)关于数据的处理:可以对网站的内容进行web内容挖掘,web结构挖掘,找出网页的分类或聚类信息,以对网站内容进行更好的组织;对web日志信息或用户信息进行web使用挖掘,找出web的使用模式。

3)推荐引擎的在线推荐:推荐引擎识别出每个用户的当前交互会话,得到每个用户的当前访问序列,进而根据使用模式信息得到用户的下一些可能访问的页面类别。如果网站本身没有这类信息的网页,可以通过在线搜索,找出满足用户兴趣的网页。这些页面的地址被附加到用户当前访问页面的底部,以进行推荐。

4 结论

本文我们运用不同的方法来对web用户兴趣预测。通过对不同方法的比较可以看出我们的方法是有效的,然后提出一种基于web挖掘的网站个性化推荐系统结构。

摘要:在ACM SIGKDD(ACM Special Interest Group on Knowledge Discovery in Data and Data Mining)中,参访者将会浏览哪些产品商标(“Hanes”,“Donna Karen”,“American Essentials”,or“Other”);动机:用户在浏览网页时,我们可以提高浏览质量,此时我们可以把含有用户可能感兴趣的商标的网页推者给用户。就当前给定的用户访问的网页集和用户本身的一些信息来预测用户可能对哪些商标感兴趣。

关键词:关联规则,分类,web用户,兴趣预测

参考文献

[1]王实,高文,李锦涛.基于分类方法的web站点实时个性化推荐[J].计算机学报.2002(8).845-852.

分类预测 篇7

通过对网络搜索数据的挖掘和分析, 探索网络搜索数据与某种社会经济现象之间的关联性和规律,并进一步预测社会经济现象的发展趋势,已经成为学术界的一个新的研究热点。

在不同的商品类型下,消费者的搜索行为、购买决策以及交易规律存在差异, 站内搜索数据对其在线交易量的预测效果是不同的。 本文将探索在不同类型商品下, 站内搜索数据对商品在线交易量预测效果的差异, 从而为企业更精准地进行资源配置提供借鉴。

一、文献综述

(一)基于商品的在线交易量的相关研究

在学术界对于商品的在线交易量预测方面的研究较少,主要聚焦于讨论电子商务交易的转化概率、交易发生的影响因素、 用户的浏览行为及访问路径研究。 Moe和Fader[1]从电子商务交易购买转化率的角度出发进行研究,研究表明:顾客的访问历史对购买概率具有正向边际递减的累积效应。 Poel和Buckinx[2]总结了四类变量来预测购物行为: 访问水平的一般点击流行为、 更细节的点击流信息、 消费者人口统计、历史购物行为,并通过一家网上店铺的点击流数据评估四类变量的预测能力。

目前, 官方各级统计机构尚未发布准确的商品在线交易量数据,在实业界有几家咨询机构(艾瑞、易观等)通过深入访谈,或者桌面研究等方法对交易量进行预测。 但是由于调研样本及计算方法存在差异,其预测结果往往差距很大,而且没有细化到月、周、天的交易量预测。

(二)基于网络搜索数据的相关研究

基于网络搜索数据的预测研究始于医药卫生领域,最早应用于流行病监测。Ginsberg等[3]构建了基于Google搜索数据的监测模型,可以比传统方法提前一到两周预测流感发病率。

这一研究方法此后迅速从医药卫生领域扩展到宏观经济、大宗商品、社会舆情等领域,结果表明网络搜索数据对经济现象的预测效果较好。 Askitas和Zimmermann[4]的研究表明,词频搜索数量与德国当月的失业率有着非常强的相关性。 Ripberger[5]认为,在股票市场搜索词频的增加会带来交易量的增加,较高关注度会带来较高的上涨动力。 Lynn和Erik[6]的研究表明, 房屋搜索指数与未来的房屋销量和价格高度相关。

目前, 应用搜索数据对不同种类商品在线交易量预测比较的研究成果还很少。

二、理论分析与逻辑框架

在网络购物过程中, 进入某电子商务网站的部分用户是具有购物倾向的潜在消费者, 在意图购买某种商品之前,通过站内搜索平台,将个人需求以文字关键词的形式输入到搜索框中, 以筛选并寻找到自己所需的商品进行浏览。 如果消费者对该商品合意,则会在当期或者后期下单购买。 多个消费者的购买下单行为便形成该电子商务网站每日的交易量。电子商务网站则在为用户提供信息查询服务的同时,也自动记录用户的查询过程,并生成海量的搜索关键词及其搜索量数据, 可以反映在当期给定关键词的被关注程度和热门程度。 这种网络搜索数据的合集被称作用户的“意图数据库”,可以反映搜索者在搜索这一显性行为下所蕴涵的隐性意图与关注,折射出搜索者在现实世界中的行为趋势和规律。

因此, 电子商务网站搜索关键词数据与商品的在线交易量之间存在一定的相关关系, 搜索数据对电子商务订单数具有一定的预测能力。 总体来说,网络搜索数据是一种接近于全样本的“准自然”采样统计,其普通性和客观性比传统数据具有明显优势,这种预测方法的优点是摒弃了传统预测方法依靠样本抽样数据的做法。 搜索数据记录的高频化,使得对网民的线上行为的刻画更加精确, 其即时性也优于传统数据。

对于不同种类的商品, 其在线交易行为与在线交易规律是不同的。 例如搜索类商品(如3C商品),其特点是商品属性容易信息化和标准化, 该特点既有利于商家通过互联网展示其基本信息, 也有利于消费者获取信息并比较不同商品之间信息的差异。 而体验类商品(如零食),相对而言其在线可信息化程度和标准化程度较低, 容易造成商家与消费者之间的信息不对称。 因此,不同种类的商品会影响到消费者的搜索行为及其对信息的认知程度, 进而影响消费者的购买决策。

三、数据收集与预处理

(一)数据来源

本文获得淘宝网所提供的3C、零食、女装三大类商品的成交量数据, 以及站内搜索词的日搜索量数据作为实证数据, 时间维度为2011年6月7日到2011年10月19日共135天,二者都是绝对数据。 其中,3C商品包括遥控器、网络切换器等275个子类目,每一个子类目下都对应其订购金额( 订购笔数) 从20110607~20111019的时间序列,有3000个站内搜索词的完整数据, 每一个搜索词分别有展现量(show)和点击量(click)的日绝对数据。 零食商品包括猪头肉、张裕/国产葡萄酒等177个子类目,有2829个站内搜索词数据。 女装商品包括打底裤、休闲套装等29个子类目,有2999个站内搜索词数据。

本文以前131天的数据作为训练集进入模型用于参数估计,后4天的数据作为测试集用于检验模型的预测效果。

(二)清洗与整理商品在线交易量数据

淘宝网每类商品下有很多的三级类目, 每一三级类目都有对应的订购金额和订购笔数。 本文以每类商品的订购笔数为被解释变量对象。

首先剔出数据无效(在所给时间范围内其数据存在无效值或均为0)的三级类目数据。 经过清理,3C商品剩余121个有效的子类目,零食商品剩余158个,女装商品剩余20个。 其次,将有效的三级类目对应的订购笔数每日横向加和, 得到每类商品每日总的订购笔数的时间序列,作为被解释变量。

其中,3C商品的每日订购笔数的时间序列记为Yc,零食商品的每日订购笔数的时间序列记为Ys,女装商品的每日订购笔数的时间序列记为Yn。

(三)清洗与整理站内搜索数据

本文以每类商品的站内搜索词的点击量(click)的日绝对数据作为解释变量对象。 首先,计算每个关键词先行0~7天的搜索量与当日订购笔数之间的皮尔逊相关系数(Pearson Correlation Coefficient);其次,找出其中每个关键词对应的最大相关系数;剔除最大相关系数小于0.40的关键词以及先行期为0的关键词,得到有效的站内搜索词的日点击量数据。 经过上述清理,3C商品得到有效站内搜索词50个,零食商品为243个,女装商品为581个。

(四)合成商品搜索指数

对于3C、零食、女装三大类商品,采用统一的方法合成商品搜索指数。

第一步, 以最大相关系数的先行期数对原始的搜索数据进行相应期数的时序错位。

第二步, 由于这些关键词之间天然存在信息重叠问题, 只需要从中筛选出重要的关键词即可反映出所有关键词的信息。 本文采用逐步筛选策略,使用SPSS17.0统计分析软件stepwise筛选策略, 设定进入原则为系数显著性水平0.01,删除原则为系数显著性水平0.05,筛选出关键词。

第三步, 采用时序错位相加法合成综合搜索指数, 即基于选出的关键词的最大相关系数的先行期数,对原始的搜索数据进行相应期数的时序错位,然后求和得到搜索指数。 按照上述合成搜索指数的方法,将3C、零食、女装三大类商品的搜索指数分别记为Qc、Qs、Qn。

四、实证分析

(一)构建商品在线交易量预测模型

对于3C商品, 以每日淘宝网3C商品的订购笔数为被解释变量,记为Yct;以Yct-1,为第一个解释变量;以每日的搜索指数为第二个解释变量,记为Qct。 为了减少数据之间的差异性, 我们对这三个变量取对数形式,分别记为Log Yct,Log Yct-1, Log Qct

建立淘宝网3C商品订购笔数与综合搜索指数之间的模型如下Log Yct= b0+b1Log Yct-1+b2Log Qct+μt

在统一方法指导下, 建立零食商品订购笔数与综合搜索指数之间的模型为:

建立女装商品订购笔数与综合搜索指数之间的模型为:Log Ynt= b6+b7Log Ynt-1+b8Log Qnt+μt

最终得到的模型回归结果如表1所示。

(二)模型预测效果对比分析

通过2011年6月14日~2011年10月15日共124天的数据,建立了网络搜索指数对淘宝网3C商品、零食商品、女装商品订购笔数的预测模型。 运用此模型对2011年10月16日~19日的淘宝网3C商品、 零食商品、女装商品订购笔数进行预测, 以平均绝对百分误差MAPE作为衡量预测能力的指标。 设n为预测值的个数,实际值为yi,预测值为yi, 则。预测结果如表2所示

五、结论与展望

本文采用站内搜索数据的处理方法, 针对不同种类商品的电子商务交易量进行预测研究。 结果显示,对于搜索类商品(3C商品),搜索数据对其在线交易量的预测效果的平均绝对误差为6.36%,预测效果较好;对于体验类商品(零食商品),搜索数据对其在线交易量的预测结果的平均绝对误差为15.68%,预测效果较差;对于中间型商品(女装商品),平均绝对误差为11.09%,预测效果介于上述两种商品中间。 可见,搜索数据对于搜索类商品的预测效果最佳, 对于体验类商品的预测效果最差, 而对于中间型商品的预测效果则适中。 可见,未来搜索数据将更多的应用于搜索类商品的在线交易量进行预测监控, 而对体验类商品则需要探索更好的预测方法。

由于这种新的预测方法尚处在探索阶段, 还有很多难点和问题需要进一步思考研究。 如何更好地去除特殊的统计噪声, 如何更好地筛选并合成综合搜索指数,等等,都将是后续进一步研究的内容。

摘要:对搜索型商品(3C)、体验型商品(零食)、中间型商品(女装)分别建立基于淘宝网站内搜索数据对商品在线交易量的预测模型。研究结果表明,搜索数据对于搜索型商品的在线交易量具有最佳的预测效果,而对体验型商品的预测效果较差。

分类预测 篇8

关键词:电动汽车充电站,用户分类,充电需求,预测

汽车的普及不仅加剧了石油资源短缺,还带来了大气污染以及全球变暖等多方面的问题,电动汽车的大规模推广使用便成了必然趋势。电动汽车的充电系统是发展电动汽车的重要基础支撑系统,也是电动汽车商业化、产业化过程的重要环节[1,2]。电动汽车充电站的规划与建设需要根据充电需求同时结合充电站的充电方式来确定,所以准确预测区域内电动汽车的充电需求是进行充电站规划的首要任务[3]。本文首先对某区域内电动汽车保有量进行了预测,然后根据电动汽车的用途及活动范围将其分类,并根据不同类型电动汽车的特点进行充电方式的选择,最终预测出充电站的需求量。

1 区域电动汽车保有量预测

1.1 区域汽车保有量预测

区域汽车保有量受到多方面因素的影响,本文首先在现有历史数据的基础上采用多元线性回归的方法对未来某时间段内某区域汽车保有量进行预测。多元线性回归的主要思想是将因变量视为多个自变量的线性组合,其数学表达式为

yt=β0+β1xt1+β2xt2++βkxtk+ut

式中:t=1,2,…,n;yt为因变量;xt1,xt2,…均表示自变量;β0表示截距项;βi(i=1,2,3,…)表示总体回归系数;ut表示随机误差。ytxtj已知,βiut未知。当给定一个样本(yt,xt1,xt2,…,xtk)时,多元线性回归模型可以表示为

{y1=β0+β1x11+β2x12++βkx1k+u1y2=β0+β1x21+β2x22++βkx2k+u2y3=β0+β1x31+β2x32++βkx3k+u3yt=β0+β1xt1+β2xt2++βkxtk+ut}

其相应的矩阵表达式为

[y1y2y3yΤ]=[1x11x12x1k1x21x22x2k1x31x32x3k1xΤ1xΤ2xΤk][β0β1β2βk]+[u1u2u3uΤ]

多元线性回归数学表达式中忽略随机误差一项后剩余的部分称为总体多元线性回归方程,简称总体回归方程,用E(yt)表示,其数学表达式为

[E(yΤ1)E(yΤ2)E(yΤ3)E(yΤn)]=[1x11x12x1k1x21x22x2k1x31x32x3k1xΤ1xΤ2xΤk][β0β1β2βk](1)

针对区域汽车保有量预测问题,式(1)中的E(yTi)和xij都可以根据历史数据得到,所以βi可以根据历史数据求得,矩阵β的求解表达式为

[β0β1β2βk]=[1x11x12x1k1x21x22x2k1x31x32x3k1xΤ1xΤ2xΤk]-1[E(yΤ1)E(yΤ2)E(yΤ3)E(yΤn)]

在此基础上,综合考虑影响汽车保有量的因素,根据其历史数据即可预测得未来某段时间内某区域的汽车保有量。

1.2 区域电动汽车保有量预测

根据电动汽车的活动规律可将区域内的电动汽车分为规律性较强的用户(记为A类用户)、规律性一般的用户(记为B类用户)、随机性用户(记为C类用户)。A类用户不论在活动时间方面还是在活动范围方面,都有很强的规律性,主要包括公交车、环卫车以及单位接送员工上下班所用的大巴车等;B类用户在活动时间和活动范围方面有一定规律性,但规律性不强,主要包括私家车、公务车以及季节性旅游车等;C类用户不论在时间方面还是活动范围方面都毫无规律性,主要包括货车等。

在预测得知某区域汽车保有量的基础上,通过Bass扩展模型即可求得区域电动汽车的保有量[4]。A类用户的数量在很大程度上受到区域经济、环境以及相关政策的影响,所以区域内A类用户的数量完全可以通过调查得知;B类用户也具有一定的规律性,可以通过空间负荷预测法或时间序列法预测得知;C类用户具有很强的随机性,预测其保有量比较困难,最好的办法是先调查区域车流量,然后通过车型和车牌号分类法对区域C类负荷进行预测。

2 充电站需求电量预测

根据区域A、B、C三类用户的保有量可以求得充电站蓄电量的计算公式为

W=WA+WB+WC

式中:W为换电站所需的电量;WA为A类用户日需电量;WB为B类用户日需电量;WC为C类用户日需电量。

A类用户日需电量为

WA=WA,av×ΝA×ΤA,av

式中:WA,av为A类用户平均需电量;NA为区域A类用户的数量;TA,av为区域A类用户平均每天充电次数。

居民小区、超市、商场以及其他公共场所B类用户分布较为集中,可以通过空间负荷预测方法对日需电量进行预测[5]。将区域土地根据用途不同进行分类,由于用途不同,每种类型土地电动汽车充电功率密度不同。假设某区域按照电动汽车充电功率分为N个子区域,则该区域电动汽车所需充电电量为

WB=i=1ΝWBi,av×ΝBi×ΤBi,av

式中:WBi,av为编号为i子区域B类用户平均日需电量;NBi为编号为i子区域B类用户的数量;TBi,av为编号为i子区域B类用户平均每天充电次数。

C类用户充电随机性很强,在调查区域车流量的基础上,通过车型和车牌号分类法对C类负荷进行预测。假设C类用户每天最多在该区域充电1次,则C类用户日需电量为

WC=ρiviFΡCWC,i,av+ρovoFΡCWC,o,av

式中:F为日车流量;PC为C类用户所占的比例;vi、vo分别为区域内、外C类用户的比例;WC,i,av、WC,o,av分别为区域内、外C类用户的平均日需电量;ρi、ρo分别为区域内、外C类用户中需要充电的用户所占的比例。

按照电动汽车用户分类的方法可以预测区域充电站需求电量为

W=WA,av×ΝA×ΤA,av+i=1ΝWBi,av×ΝBi×ΤBi,av+ρiviFΡCWC,i,av+ρovoFΡCWC,oav

3 充电站需求预测

用户性质不同,对充电站的配置、充电方式要求也不完全相同,电动汽车常见的充电方式有恒流法、恒压法等。本文针对各类用户对充电时间的要求不同,将充电站分为快速充电站和普通充电站。其中快速充电站主要针对C类用户,同时考虑部分B类用户;普通充电站主要针对A类用户和部分B类用户。由此可分别求得区域所需的快速充电站的数量Nf和普通充电站的数量Ns。

Νs=μsWA+vsWBΡsΤs,avΝf=μfWC+vfWBΡfΤf,av

式中:μs、μf分别为日常维护、特殊事件备用系数;vs、vf分别为B类用户采用普通充电方式、快速充电方式所占的比例;Ps、Pf分别为普通充电站、快速充电站的充电功率;Ts,av、Tf,av分别为普通充电方式、快速充电方式所需的平均时间。

4 算例分析

鄂尔多斯市某开发区占地16.6 km2,预计2020年人口密度为6 400 人/km2,人均汽车保有量26%,其中电动汽车占汽车保有总量的17%(A类用户占4%,B类用户占13%)。该区域B类用户又分为居民小区用户(记作B1类用户)和公共场所用户(记作B2类用户),B1类用户约占70%,B2类用户约占30%。A、B两类用户日均行驶里程、耗电量等参数如表1所示。

对于C类用户,区域日均车流量为9 670辆,其中C类用户占8%;区域内、外C类用户的比例为4∶1(分别记为C1类用户、C2类用户);区域内、外C类用户中需要充电的电动汽车分别占总数的20%、30%;区域内、外C类用户行驶每公里耗电量分别为0.28 kW·h、0.40 kW·h;区域内、外C类用户平均日行程分别为60、50 km。

据此可以预测得该区域A、B、C三类用户的日平均耗电量如表2所示(按最大行程计算)。

为方便计算,假设100%A类用户、90%的B类用户采用普通充电方式,其余的B类用户和C类用户采用快速充电方式。一般快速充电平均充电时间为20 min~2 h,普通充电时间为5~8 h[6]。取快速充电平均耗时45 min,普通充电平均耗时7 h,μf、μs分别取为1.30、1.25,文献[7]中提到充电站的充电功率为96 kW,在此基础上可以求得区域所需快速充电站数量为2,,普通充电站数量为9。

5 结 语

本文阐述了多元线性回归预测法在区域电动汽车充电站需求预测中的应用,建立了基于用户分类的电动汽车充电站需求预测模型,根据A、B、C三类用户的特点,分别运用不同的方法对用户数量、日耗电量进行了预测,最终求得区域所需快速充电站和普通充电站的数量。算例结果表明,本文所采用的基于用户分类的区域电动汽车充电站需求的模型和方法切实可行,为区域电动汽车充电站需求预测提供了一定的理论参考。

参考文献

[1]李菱,李燕青,姚玉海,等.基于遗传算法的电动汽车充电站的布局规划[J].华东电力,2011,39(6):1004-1006.

[2]周嗣理.含光伏电源电动汽车充电站的设计与仿真研究[D].合肥:安徽大学,2008.

[3]徐凡,俞国勤,顾临峰,等.电动汽车布局规划浅析[J].华东电力,2009,37(10):1677-1680.

[4]姚建歆,王媚,罗伟明.电动汽车充电系统建设应用分析与研究[J].华东电力,2008,36(8):107-110.

[5]罗卓伟,胡泽春,宋永华,等.电动汽车充电负荷计算方法[J].电力系统自动化,2011,35(14):36-42.

[6]郝娟,李强,岳建华.电动汽车充电站充电模式探讨[J].内蒙古电力技术,2010,28(S2):7-9.

上一篇:摩擦片性能测试系统下一篇:过流砂层