事故数据(共8篇)
事故数据 篇1
0 引 言
在实际的道路网络中,道路交叉口是交通拥挤,交通事故频繁发生的地点。而目前关于道路交叉口的研究内容主要集中在空间设计、时间设计、转向控制等方面[1,2],缺乏对道路交叉口进行精确的定义,不利于在计算机中实现对道路交叉口的数据建模。为此,笔者提出了一种描述道路交叉口的形式化方法,利用该方法可以方便地对各种类型的道路交叉口进行精确描述,并且可以方便地在计算机中进行数据建模。该方法为完整的路网定义提供了基础,为交通事故数据库的建立提供了道路交叉口的数据模型。
1 道路交叉口的概念模型
1.1 道路交叉口定义
本文定义道路交叉口的物理界限为相交的各条道路上距离停车线一定范围之内,一般取20 m,道路交叉口事故大多发生在该范围内。把单个道路交叉口入口处发生的事故与道路交叉口整体关联起来,方便对道路交叉口事故进行查询统计,比较分析等操作。在市区内,道路交叉口偶尔出现交叠的状态,在这种情况下,以将两个道路交叉口的中心节点间距的一半作为界限。
常见的道路交叉口类型如图1所示。
1.2 道路交叉口的概念模型
为将道路交叉口的各种情形在计算机中进行统一描述,笔者提出了一个抽象的概念模型。应用此概念模型,所有的交叉口都可以抽象地表示为节点-弧段结构。将道路交叉口的概念模型定义为一个六元组Intersection = G (ID, X, n, S, Y, info)。式中:①ID为道路交叉口的编号,是完整路网中的一个惟一编号;②X为道路交叉口的中心节点,X表征了该点的实际的地理位置,它与地理坐标关联;③n为相交于道路交叉口的分叉数,显然n≥3才有实际的研究意义;④S为道路交叉口的物理界限,刻画交叉口所取邻域的范围,通常以米或里程为单位;⑤Y为以X为圆心,S为半径的一个立体球面与交叉口路段的道路中心线的交点集,称之为边界节点集,记作:
Y = { Yi | Yi ∈ BorderNode, i = 0,1, 2, …, n-1, n≥3 },特别地,Y0表示从中心节点X的正东方开始逆时针方向遇到的第1个边界节点 (如图2所示);⑥info为备注字段,表示道路交叉口的相关信息,如交叉口的分类等级、所在行政区域等。
由此概念模型可以推导出弧段集的定义:
ARC = { (X, Yi) | Yi ∈ BorderNode, i = 0,1, 2, …, n-1, n≥3 }
显然,ARC表示了以道路交叉口的中心节点和边界节点为端点的弧段。
2 道路交叉口的面向对象数据模型
使用面向对象建模技术可反映路网的分层结构,更自然地描述数据,使模型中的对象更加接近于现实世界的实体。同时,相对于关系数据模型提高了灵活性[3]。更加直观地开发方法使得数据更容易收集,减少错误。
2.1 道路交叉口的数据结构
1.2中的概念模型已将道路交叉口抽象地表示为节点-弧段结构,交叉口的数据结构实际上是建立在节点的数据结构与弧段的数据结构的有机组合之上。在对交叉口进行对象建模时,交叉口对象的数据中,有部分来自弧段类和节点类。因此,先定义弧段与节点的数据结构如下:
为便于搜索方法的实现,采用邻接多重表[4]作为道路交叉口的存储结构。对每一条弧段用一个结点表示,由如下所示的4个域组成:
其中:mark为标志域,可用于标记弧段是否被搜索过;arcdata为弧段的数据结构,来自弧段类;i_link指向下一条在arc_data中以i_node为端点的弧段,j_link指向下一条在arc_data中以j_node为端点的弧段。 对每一个节点也用一个结点表示,由如下所示的2个域组成:
其中:node_data域存储节点的信息,来自节点类;firstarc指向第1条以该节点为端点的弧段。具体的数据结构表示如下:
2.2 道路交叉口类的表示
道路交叉口被抽象为一个道路交叉口类,由节点类与弧段类的聚合得到。在道路交叉口类中可以引用节点类与弧段类的属性和方法,主要实现方案如下:
对象类自身包含的方法可以创建该类的实例。以道路交叉口为例,它自身的方法可以确定道路交叉口的中心节点和与之相连的链接,并在道路交叉口界限处插入边界节点等。收集这些特征可以构成道路交叉口概念模型所定义的元组属性,实现道路交叉口的实例化。
道路交叉口对象可以派生出其它复杂的对象,如十字路口、T形交叉口、立体交叉口、错位交叉口和环形交通枢纽等。位于任一层次的对象都可以继承父类的属性和方法,同时拥有自己属性和方法。例如,对于2.1所示的环形交通枢纽(图1中的(e)),对其特征轮廓进行分析,可以认为是由5个“Y”型的交叉口组合而成,因此可选用“Y”型的交叉口对象来建构。
3 交叉口模型的数据库实现
为道路交叉口建立概念模型并进行数据建模,其最终目的是构建合理的交通事故数据库。根据交叉口的概念模型的元组定义和具体的数据建模方式,从实际应用的角度出发,设计了道路交叉口的数据库属性表,如表1所列。
表中的每一条记录存储中心节点的所有属性或边界节点的所有属性,字段(Intersection _ID, nX, nY)或者字段(Intersection _ID, nNum)可以构成该表的主键。对表中各字段分别解释如下:
1)Intersection _ID是道路交叉口的惟一标识,其编码方式不在文中讨论。
2)nType为节点标志,0表示中心节点,1表示边界节点。
3)nX是节点的横坐标。
4)nY是节点的纵坐标,用绝对坐标如大地坐标表示。
5)nNum用4位十进制表示。其中,前2位表示道路交叉口的分叉数,后2位表示节点的相对位置,中心节点取00,边界节点取值按中心节点正东方逆时针方向出现顺序递加。以图2所示的十字交叉口为例,中心节点X的nNum属性为0400,边界节点Y0 至Y3 的nNum属性依次为0401,0402,0403,0404。
6)S为中心节点到边界节点之间的距离,以m为单位。对于中心节点,则S取0。
把中心节点和边界节点放在同一表中,既能为道路交叉口数据模型的邻接多重表直接提供全面的数据,又可减少数据的冗余,免去不必要的关联,能提高查询效率。
4 结 语
本文提出了一种形式化描述道路交叉口的方法,并应用面向对象技术进行了数据建模,最后给出交叉口数据模型的一种数据库实现方法,为道路交叉口的计算机描述和应用提供了支撑。该方案已经在广州市交通事故数据库管理系统的数据库设计过程中得以使用,效果较好。此外,根据上述道路交叉口的形式模型,可以较容易地扩展建立整个路网的形式化模型,从而为全网事故数据库的全面分析提供依据,这也正是我们下一步即将开展的工作。
参考文献
[1]周钱,陆化普,徐薇.城市道路交叉口设计系统的研究与开发[J].武汉理工大学学报:交通科学与工程版,2006,30(2):187-190
[2]孙明正,杨晓光.城市道路平面交叉口交通空间规划设计方法[J].城市交通,2006,4(3):47-52
[3]Lupton K,Bolsdon D,An object-based approach toa road network definition for an accident database[J].Computers,Environment and Urban Systems,1999(23):383-398
[4]严蔚敏,吴伟民.数据结构:C语言版[M].北京:清华大学出版社,2001
事故数据 篇2
分析2013年全国交通事故数据统计情况
历年的数据显示,从2004年我国发生交通事故的567753起、2005年的450254起、2006年的278781起、2007年的327209起、2008年的265204起、2009年的238351起、2010年219521起、2011年210812起、……,呈下降趋势。每年的死亡人数也成下降趋势,从2004年的9.4万余人、2005年的9.8万余人、2006年的8.9万余人、2007年的8.1万余人、2008年7.3万余人、2009年的6.7万余人、2010年6.5万余人…..,亦成下降趋势。
目前网上还没有官方公布的2013年全国交通事故具体数据统计,但从过去十年的交通事故数据来分析,2013年全国交通涉及人员伤亡的交通事故有望低于20万起,死亡人数应该在6万人以下。
随着汽车产业的快速发展,我国汽车数量日益增加,根据公安部相关数据显示,截止2012年底,我国机动车保有数量2.4亿余辆,驾驶机动车的人数达到了2.6亿,而且驾驶人数以每年2647万的速度在增长。对于因汽车剧增和驾驶人数骤长带来的交通压力,针对2012年,同比2011年涉及人身伤亡的交通事故起数和死亡数下降有3.1和3.8个百分点,造成损失达到重大交通事故和特大交通事故的数量也有所减少。如此比较,2013年交通事故的起数和伤亡人数有望进一步下降,重大交通事故和特大交通事故至多和2012年持平。
原因分析:2013年交通事故发生的起数和带来的损失有所下降,原因可以总结为以下几点。
一、国家立法的进一步完善
随着《道路交通安全法》、《道路交通安全法实施条例》、《道路交通事故处理程序规定》、《最高人民法院关于审理道路交通事故损害赔偿案件适用法律若干问题的解释》等对于交通管理和事故赔偿的法律、法规与解释的进一步实施,我国在道路交通方面取得了较为明显的进步。
二、交通事故执法力度的加强
各地交通警察部门不断改进交通执法方法,提高交通执法效率,严查、严打各类交通违章违法行为,使各地交通秩序得到明显提高,交通事故数量明显减少。
三、人们普遍交通安全意识的增强
道路交通事故数据智能化分析 篇3
道路交通事故多发点又称“黑点”, 是指道路上交通事故显著突出的路段或交叉口。确定道路交通事故多发点是改善道路交通安全状况的第一步, 其意义在于确定急需改善交通安全状况的位置, 分出优先次序, 采取合理的改善措施, 有效提高安全水平。
道路交通事故多发点鉴别方法颇多, 应用范围各异。质量控制法在鉴别过程中得到应用广泛, 为了进一步提高其准确率及应用范围, 本文从事故的严重程度的角度将事故数转化为当量事故数, 考虑其统计学分布, 修正当量事故率进而改进质量控制法[1,2,3]。
1 研究基础
1956年, Norden等人提出了质量控制法, 该方法不同于其他事故多发点鉴别方法, 其首先假设各路段的事故次数服从泊松分布, 然后将路段的事故率与相似路段的平均事故率作比较, 而不是与所有路段的平均事故率比较。根据显著性水平确定事故多发点的综合事故率的上、下限, 如果所考察路段的事故率大于上限值, 则被认为是事故多发点。
在应用质量控制法鉴别事故多发点时, 假设任何情况下, 交通事故发生的概率服从事故频率μ的泊松分布, 即某路段在时间t内发生n起交通事故的概率可表示成式 (1) 。
式中:μ为该路段的事故频率;n的均值和方差分别为式 (2) :
对于泊松分布其期望值与方差均为λ=μt。根据德莫佛-拉普拉斯定理可知二项分布的极限分布是正态分布。
对式 (3) 进行计算整理得式 (4) 和 (5) 。
式中:λ为相似区间平均事故率, 起/ (百万车·km) ;mi为路段i的累计车辆数, 亿车。
如取95%的置信区间, k=1.96。
R+和R-分别为所要鉴别路段事故率的临界上限和下限。当该路段实际事故率大于R+时, 该段或该道路为危险路段或道路, 应采取措施改善;小于R-为相对较安全的路段或道路;介于两者之间的应跟踪观测, 酌情采取措施。再按照事故率的大小排序, 便可确定改善事故多发路段的优先顺序。
2 改进原理
质量控制法中事故率的计算只是单纯利用事故统计值, 没有考虑事故损失的严重程度, 如果将具有不同严重程度的事故数简单累加, 则会掩盖一些具有相同事故数的路段实际上可能具有不同的事故严重度。由于严重事故对社会和个人的危险程度远远大于一般的轻微事故, 所以为了精确地判断事故多发点, 鉴别时应当将事故的严重程度考虑进去。为此, 通过赋予受伤及死亡事故一定的权值来计算当量事故数, 如式 (6) , 在质量控制法中引入当量事故数来计算当量事故率, 修正质量控制法。
式中:N为统计期间内事故发生地点的当量事数;F为事故中死亡人数, 人;J为事故中受伤人数, 人;n为统计期内发生的事故数, 次;K1、K2为死亡、受伤事故的权重。
对事故数的统计学分布进行分析, 对质量控制法进行了改进, 其应用效果较好, 为此论文对当量事故率进行了统计学研究, 为了和改进的质量控制法中事故频率μ的伽玛分布作了比较, 现将计算所得的当量事故频率N以μ代替[4]。
3 方法改进
基于以上设想, 对黑龙江省境内哈同公路交通事故数据进行处理, 得到每公里当量事故数。在此基础上, 对当量事故数进行Weibull处理, 通过对当量事故频率μ统计分析, 可知Weibull分布函数能够较理想地表述当量事故频率的分布。因此, 可以用Weibull函数相关理论研究当量事故数的特性, 基于此对质量控制法进行改进[5]。
Weibull分布的失效分布函数为:
失效率函数及密度函数分别为:
式中:β为形状参数;η为尺寸参数。
密度函数均值和方差分别为:
β, η参数估计可用样本均值和方差代替总体均值和方差, 通过式 (10) 求得, 这里可用一种图解法获得参数估计问题, 其在事故多发点鉴别中将非常实用[6,7]。其步骤如下:
1) 区间划分, 重新安排各区间当量事故频率数据。令ti (i=1, 2, …, n) 记这列有序数据,
2) 计算xi和yi (i=1, 2, …, n)
3) 在普通坐标纸上画 (xi, yi) , i=1, 2, …, n。
4) 拟合直线, 斜率即为β的一个估计, 而该直线与x轴的交点给出ln (η) 的一个估计。
所以, 当量事故频率μ的分布为p (μ) 时, 当量事故次数的边缘分布为:
其均值为:
因此, 平均当量事故率λ可替代为:
将计算结果带入到式 (4) 和 (5) 计算临界上下限, 并将每段的当量事故率与临界上限进行比较, 从而鉴别出事故多发点。
4 应用实例
选取黑龙江省哈同公路K243+000~K567+500段交通事故作为研究对象。收集2003年1月~2005年12月间发生的公路交通事故;同时, 通过与设计单位联系得到该路段的道路线形资料及有关交通设施资料;最后, 从交通管理相关部门收集得到该路段不同区段交通流量数据。由于哈同公路沿线交通条件及路段交通量基本相同, 所以可采用改进的质量控制法进行事故多发点的鉴别。
首先, 按照路段节点、交通量条件及事故资料将哈同公路沿线划分为10个区间, 计算每个区间长度、累计通行车辆数;根据沿线道路交通条件将其分为3个相似区间, 分别为区间1~4、5~7及8~10。
其次, 根据收集的区间事故数, 由式 (6) 计算区间当量事故数, 进行Weibull分布拟合, 由式 (13) 计算各区间E (n|t) , 式 (14) 计算相似区间的λ值, λ1=195、λ2=897及λ3=401。E (n|t) 计算见表1所列。
最后, 取泊松分布的置信水平为95%, 计算每个区间的上限值, 见表2所列。根据沿线交通事故的分布情况, 哈同公路可划分为324个路段, 当量事故率高于相应区间当量临界比率上限的路段即为事故多发路段, 这里根据当量事故率的大小进行排序, 在进行治理时应优先治理事故率高的路段, 哈同公路事故多发路段共计20段, 见表3。
5 结 论
质量控制法在道路交通事故多发点鉴别实际中已经得到广泛的应用, 通过改进能够有效提高质量控制法的鉴别效果和应用范围, 改进的质量控制法不仅能够有效鉴别公路交通事故多发点, 同时也能够应用于城市道路路段及交叉口事故多发点鉴别。
对于当量事故数的确定需要根据具体情况确定, 在以后的研究中将对该方面进行深入研究, 从而能够使质量控制法能够得到更广泛的应用。
参考文献
[1]方守恩, 郭忠印, 杨轸.公路事故多发位置鉴别新方法[J].交通运输工程学报, 2001 (1) :90-98
[2]裴玉龙, 戴彤宇.鉴别道路交通事故多发点的模糊评价法[J].公路交通科技, 2005, 22 (6) :121-125
[3]Pei Yulong.The outstanding factor method to dif-ferentiate the black spot of the road[C].The 15thInternational Road Federation World Meeting.Bangkok, 2005
[4]Pei Yulong, Ding Jianmei.Improvement in the qual-ity control method to distinguish the black spots ofthe road[C].The 6th Conference of the Eastern A-sia Society for Transportation Studies.Bangkok, 2006
[5]蒋仁言.威布尔模型族——特性、参数估计和应用[M].北京:科学出版社, 1998
[6]金少华, 陆俭国, 宛艳萍, 等.威布尔分布的参数估计[J].吉林化工学院学报, 2001, 18 (1) :74-75
事故数据 篇4
根据辽宁省统计局、国家统计局辽宁调查总队公布的2012有关数据,确定辽宁省2013道路交通事故损害赔偿标准有关数据如下:
城镇居民人均可支配收入农村居民人均纯收入
城镇居民人均消费性支出
农村居民人均年生活消费支出城镇单位在岗职工平均工资丧葬费
23,223元 9,384元 16,594元 5,998元 42,503元 21,251.50元
注:统计局公布的数据中不包括丧葬费,该数据标准依照《最高人民法院关于审理人身损害赔偿案件适用法律若干问题的解释》(法释〔2003〕20号)第二十七条确定。分行业城镇单位在岗职工平均工资行业
农、林、牧、渔业采矿业制造业
电力、热力、燃气及水生产和供应业建筑业
批发和零售业
交通运输、仓储和邮政业住宿和餐饮业
信息传输、软件和信息技术服务业金融业房地产业
租赁和商务服务业
科学研究、技术服务业
水利、环境和公共设施管理业居民服务、修理和其他服务业教育
卫生和社会工作
文化、体育和娱乐业
公共管理、社会保障和社会组织
基于数据挖掘技术的交通事故分析 篇5
传统的交通事故分析大多使用数理统计方法,统计事故发生概率、分析事故发生原因,以此为基础建立数学模型,评估道路安全性能[1,2]。数据挖掘是一项从大量的记录数据中提取有价值信息的技术,这些被提取出的信息可以帮助相关人员认清当前的交通状况并制定相应对策。数据挖掘中的多维关联规则相对数理统计方法更适合于事故诱因分析,它不但可以有效地简化并处理事故记录数据,还可以推导出一些有用的规则表达式,以充分展示事故发生的客观因素对事故发生的影响程度,是当前数据分析的一种先进手段。
本文就事故发生时的各种因素对事故发生所产生的影响,借助数据挖掘领域中的多维关联规则技术对交通事故记录进行分析,通过清理大量初始记录行数据,并根据交通事故诱因特点提炼出与发生事故有联系的记录字段数据,组成新的事故记录表;从表中找出诱因记录字段值和事故结果字段值组成的频繁字段组合;最后通过预先给定的支持度和置信度来衡量该频繁字段组合是否能推导出事故关联规则。
1 多维关联规则技术
1.1 关联规则的含义
简单地说,数据挖掘中的关联规则技术能推导出一种“A⇒B”的模式,即当A事件发生时,B事件伴随发生,称为一种A与B的关联关系。例如,可以将A事件定义为“路滑”,而将B定义为“撞车”,那么A⇒B不难理解为当路滑的时候会发生撞车事故。
1.2 多维关联规则
按照多维数据库的术语,蕴涵式中的每个不同的谓词都称作维。例如对于交通事故的数据库来说,由谓词accident参与的关联规则表述如下:
Occurrence—Time(X,“事故时间”)⇒accident(X,“重大交通事故”),其中X是变量,其后跟的引号部分内容为其值。这种关联规则称为单维关联规则。若引进新的谓词Occurrence—Time和Driver—Cause,并使用:Occurrence—Time(X,“夜晚”)^Driver—Cause(X,“超速行驶”)⇒accident(X,“重大交通事故”),其中X是变量,其后跟的引号部分内容为其值(含义为:晚上超速行的驾驶员倾向于发生重大交通事故)。以上的推导式涉及多个谓词,就是多维关联规则。
1.3 支持度和置信度
1) 支持度。
以A⇒B为例,如果A,B这一事件组合在总事务记录中出现概率高于预先给定的临界值,说明这个模式具有一定的普遍意义,我们发现并进一步研究它是有价值的。称以上的这个概率为支持度。
2) 置信度。
在进一步研究A⇒B模式的过程中,有必要考虑另一个概率约束,称为置信度。考虑到即使A,B这一事件组合发生频繁,但如果这一事件组合的发生次数比上次A事件的所有发生次数的值过低,低于预先给定的临界值,说明A的发生不足以导致B的发生[3]。
1.4 多维关联规则的使用
在将多维关联规则应用于交通事故记录数据库时,需先使用数据清理技术挑选出需要的记录字段,然后使用合适的算法挑选出频繁字段值组合,最后推导出满足预先给定的支持度和置信度的值的关联模式。并将这些模式作为分析当前状况和采取行动避免交通事故的依据[4]。
2 多维关联规则的在塔里木石油公路交通事故分析中的应用
2.1 概 述
任何交通事故的发生都存在一定的客观条件:如天色暗,或天色暗的同时路况又不佳,都可能会导致交通事故。诸如此类,单一客观因素本身或是多客观因素的组合都能导致交通事故的发生。正是因为导致交通事故的客观因素可以分解成为单一因素或者单一因素的组合,所以多维关联规则才可以在这里应用,从而可以推导出一系列关联规则,这些相应的关联关系都需要依赖于交通事故历史记录数据来得到。
使用多维关联规则进行分析,需要首先清理数据,将塔里木石油公路交通事故登记表中那些导致事故发生的属性和事故结果保留,去除其他信息,减少每一张登记表的信息量,生成新的事故记录数据表,并在DBMS中建立相应的事故数据库与表。然后扫描该事故记录数据表,在所有记录中寻找出现频繁的字段值组合。最后由频繁的字段值组合推导出关联关系。事故记录数据表经过数据筛选和清理过程转化为更为简单的事故记录表是可行的,而由事故记录表产生频繁项集是由Apriori算法保证的,由各频繁项集进一步产生关联规则又是可以通过支持度、置信度规则完成。
2.2 具体处理步骤及相关算法
1) 数据清理。
这一步工作的主要任务是选择保留那些可能导致事故发生的字段和事故结果的字段。这里应选择保留的字段为:驾驶员原因、事故道路、事故时间、天气情况、事故性质。由此,针对原事故登记表中信息的分析已经转化为对新产生的较小的事故信息的分析。
2) 建立事故数据库与表。
由于数据挖掘技术的高效应用是大数据量的,所以本系统选用了MS SQL Server2000作为数据库管理系统,建立数据库为AcciDb,并建立相应的数据表如表1~表5所列。
3) 频繁字段值组合的发现。
经过数据清理步骤,数据记录表中现有记录都是由以上5个字段的值组成的,现在要找到表中的频繁字段值的组合,需使用关联规则中的著名算法——Apriori算法。Apriori算法是一种极有影响的挖掘布尔关联规则频繁项集的算法。因为本文描述的交通事故记录中要追寻的是一种因果关系,符合布尔关联规则的适用情况,所以使用Apriori算法是合适的。
Apriori算法使用一种称作逐层搜索的迭代方法,使用频繁K项集(集合中含有K个项,并且这K个项的组合出现的频率高于预先给定概率值)去寻找频繁(K+1)项集。首先,找出频繁1项集的集合。该集合记作L1,L1用于找频繁2项集的集合L2,而L2用于找出L3,如此下去,直到不能找到LK,即频繁K2项集。找每个LK都需要一次事故表的扫描。
由LK-1找LK要经过连接和剪枝两步过程。分别简要介绍如下。
连接步 为找LK,通过LK-1与自身连接产生侯选K项集的集合。该侯选项集的集合记作CK。设l1和l2是LK-1中的项集。记号li[j]表示li的第j项。为了叙述方便,假定事务或项集中的项按字典次序排序。执行LK-1和LK-1的连接操作,其中LK-1的元素是可连接的,如果它们前(K-2)个项相同。即如果(l1[1]=l2[1])^(l1[2]=l2[2])^(l1[3]=l2[3])^…^(l1[k-2]=l2[k-2])^(l1[k-1]< >l2[k-1]) ,则说明LK-1的元素和l1和l2是可连接的。其中(l1[k-1]< >l2[k-1])是简单地保证不产生重复。连接l1和l2产生的结果项集是:l1[1]l2[2]…l1[k-1]l2[k-1]。
剪枝步 LK是CK的子集,CK的成员可以是也可以不是频繁的,但所有的频繁K项集都包含在CK中。扫描数据库,确定CK中每个侯选项的计数,如果某些K2项集出现的计数与总记录数的比值大于给定的支持度预值。则可以确定这些满足预值条件的K项集属于LK。然而,CK可能很大,这样所涉及的计算量就很大。为压缩CK,可以使用Apriori性质:任何非频繁(k-1)项集都不可能是频繁k项集的子集。因此,如果一个候选K2项集的(k-1)项子集不在Lk-1中,则该候选K2项集也不可能是频繁的,从而可以由CK中删除[5]。
由于本例中记录含有5个字段,因此可以根据以上Apriori算法在事故记录表中找到频繁5项集的集合。即以一定的时间、一定的案发区域、一定的天气情况、一定的交通方式和一定的事故结果的频繁5项集为元素的集合。
4) 由频繁项集得出交通事故的关联规则。
通过以上的Apriori算法的连接和剪枝步骤,得出频繁5项集的集合后,要针对集合中的每一个5项集使用支持度、置信度规则推导关联规则[6]。结合例子具体思想阐述如下。
因为“严重程度”一定是作为交通事故结果出现的,而其他4个字段是作为事故客观因素或条件出现的,所以我们的方向是产生由“驾驶员原因”、“事故道路”、“事故时间”、“天气情况”4个字段推导出“严重程度”的关联规则。现假设经过连接和剪枝步骤得出一个频繁5项集:(超速行驶,在沙漠公路92 km段,晚,沙尘天气,严重交通事故),它的出现频率高于根据交通方面的专家和具体交通状况综合因素给出的支持度预值。现在计算在事故记录表中包含该5项集的前4项的事故记录数,计为X,同时计算该5项集的事故记录数,计为Y。如果Y/X的值大于根据交通方面的专家和具体交通状况综合因素给出的置信度预值,则说明由前4项可以推导出后4项。即产生一个反映交通事故的关联规则。以上做法具有普遍意义,由上述方法产生关联规则式更是可以做到的。
算法应用流程如图1所示。
3 实例分析
系统进行关联分析时首先选取一定的事故数据维度,设定支持度、置信度,再进行关联发掘并显示结果。我们以塔里木石油公路交通事故为样本,对其中的驾驶员原因、事故发生时间、事故道路、天气状况、事故类型进行关联分析。
在该集合中,每一个元素都代表了一个关联模式,其后面附加的支持度support和置信度confidence一定是分别大于两者预值的数字,以此来表示该模式在总事故数中出现的频繁程度和由推导符号“⇒”将前面的客观因素组合推导出后面的事故严重程度的可能性有多大。
由系统分析(参见图2)产生的结果,可以发现以下令人感兴趣的信息:
(1) 在沙漠公路337 km550 m——沙漠公路339 km段,冰雪天气的夜晚,超速行驶很容易造成重大事故。主要原因是,由于在冰雪天气下,汽车容易打滑,而驾驶员又超速驾驶,瞬间难以刹车,易造成重大交通事故。
(2) 在沙漠公路222 km580 m——沙漠公路223 km880 m段,冰雪天气的夜晚,超速行驶很容易造成重大事故。主要原因是,由于在冰雪天气下,汽车容易打滑,而驾驶员处于疲劳驾驶状态,稍不留意就造成重大交通事故。
(3) 在沙漠公路378 km460 m——沙漠公路379 km710 m段,在沙尘天气下,超速行驶很容易造成重大事故。主要原因是,由于在风沙天气时,沙漠公路能见度降低,特别是沙尘暴天气时能见度不足100 m,这时驾驶员的动视力和静视力都有不同程度的下降。
至此,交通管理人员将可以在交通管理中筛选运用这些经过关联规则产生的规则表达式,不但可以对交通事故产生的因子作出定性的分析,还可以采取相应措施,以防止那些可以避免的交通事故的发生。
4 结束语
通过数据挖掘的多维关联规则技术对交通事故影响因子进行分析,为交通事故规律分析提供了一种新的分析方法。用本文介绍的方法对塔里木石油公路网的交通事故数据的关联规则的提取分析,展现了多维关联规则提取技术的实用价值。
摘要:为了有效地识别和发现事故数据的模式及其内在规律,提出一种使用数据挖掘领域中的多维关联规则技术分析大量交通事故记录的方法,通过找出可能导致交通事故发生的频繁因素组合,协助交通管理者更好地找出引发事故的原因与规律,并作出相应的决策。
关键词:数据挖掘,多维关联规则,交通事故,沙漠公路
参考文献
[1]艾力.斯木吐拉,李鑫,董春光.沙漠公路交通安全特性[J].交通运输工程学报,2006,6(4):116-121
[2]李鑫,艾力.斯木吐拉,陈正奇,等.沙漠公路交通事故特征及成因分析[J].长沙交通学院学报,2006,22(2):51-55
[3]刘军,艾力.斯木吐拉.基于数据挖掘技术的交通事故分析与研究[J].科技信息,2007,27
[4]魏宏业,张仲义,吕永波.道路交通安全知识提取方法递进式模型的研究[J].中国安全科学学报,2003,13(8):10-13
[5]尚威,尚宁,覃明贵,等.交通事故的多维关联规则分析[J].中国安全科学学报,2006,23(2):43-45
事故数据 篇6
2013年国内高速铁路运营里程达到11028km,分别是德国和日本的11.6倍和4.6倍,跃居世界第1位。同时,随着运营速度的提升,高速铁路运营安全问题已成为社会各界关注的热点问题。中国2011年7月23日从北京开往福州的D301与D3115追尾事件敲响了高 速铁路安 全运营的 警钟,如何提高高速铁路安全运营水平是当下亟待解决的重大课题。
高速铁路运营事故预测是高速铁路行车安全的重要保证,针对高速铁路运营事故的特点,选择合适的高速铁路安全态势预测方法对提高高速铁路安全运营水平具有重要意义。近年来随着马尔科夫链理论、灰色模型、神经网络,以及支持向量机[1,2,3]等预测方法的提出受到了各界关注,国内外许多学者将其运用在铁路安全预测中取得了一定的成果。国内,李洪等[4]通过对1971~2008期间铁路事故烈度分析,提出基于马尔科夫链的铁路事故预测模型,并利用状态转移矩阵对2009年的铁路事故进行预测,结果显示该预测方法能够对铁路事故从宏观上进行初步评估;王富喜等[5]通过建立铁路事故灰色预测模型,开发了相应的铁路事故预测软件,并对国内多条铁路线路的安全事故进行了预测,其最大的优点是将预测过程程序化,输入条件标准化;此外,王卓等[6]还对铁路行车事故的预测方法进行了系统的分析,利用BP神经网络对美国铁路事故进行预测。国外对铁路安全事故的研究较早,N.M.Radaev[7]通过对铁路危险物运输过程风险源分析,建立了事故发生概率预测模型,并被运用于美国铁路危险品运输安全分析;WenChao[9]定义了7种铁路安全运营冲突种类,提出了运营冲突判定方法,并基于铁路运营计划对运营事故进行动态预测[8],其优点在于通过跟踪铁路运营计划,实时预测铁路运营事故发展趋势。实际上,铁路安全影响因素多、数据获取难是铁路安全预测面临的难题,特别是高速铁路运营事故受线路线型、运营时间、地域环境等因素影响巨大,通常难以建立简单线性模型描述事故与致因之间的隐含关系。
通过收集国内高速铁路的相关运营数据,参考城市轨道交通安全运营评价标准,结合高速铁路运营事故具有烈度高、影响范围广、时间波动明显的特点定义事故次数、事故联动系数、月均事故率作为高速铁路安全运营的评价指标来分析国内高速铁路的安全运营态势,结合工业数据预测中的先降噪、后预测的数据分类方法对高速铁路安全运营事故进行预测。
1高速铁路运营事故分析方法
1.1运营事故测定指标选取
通常评价铁路安全运营的指标有铁路事故率及事故件数、铁路伤亡人数、铁路经济损失[10]等,但是这些指标偏重于对普通铁路的安全评价。随着高速铁路安全管理水平的提高,高速铁路安全运营目标从减少伤亡人数向提高正点率等方面转变,意味着普通铁路的安全运营评价指标不完全适用于衡量高速铁路的安全运营水平。因此,根据对高速铁路安全运营内涵的理解,结合普通铁路的安全运营评价指标,最后确定选取高速铁路运营的事故次数、事故联动系数、月均事故率作为高速铁路安全运营的评价指标,各个指标的含义如下。
1)运营事故次数。根据铁路行车的D类事故定义:行车设备耽误列车1h以上或者固定设备耽误列车2h以上的均属于列车行车事故[11]。高速铁路的最低平均行驶速度达到275km/h,为常规火车速度的2.75倍,所以定义行车设备耽误高速铁路行车20min或者固定设备耽误高速铁路行车40min及其以上属于高速铁路行车事故,计算方法
式中:N为运营事故次数;N0为列车总数;Ni为第i辆车的运营总次数;xij为事故判别因子;ti1j和ti2j分别为第i列车在第j次运营过程的行车设备和固定设备造成的最大延误时间。
2)事故联动系数。联动系数是经济学中用以分析某一商 品价格变 化的影响 范围的评 价指标[12],高速铁路属于复杂的线网结构,列车在运行过程中易受到线网中其他列车故障的影响发生延误等情况,铁路线网具有故障扩散的联动特点,这里引用联动系数反应线网车辆调度管理的合理性。
式中:λ为事故联动系数;C为发生故障列车数量;ki为受到第i次事故影响而发生事故的列车数量。
3)月均事故率。月均事故率反映了高速铁路线路每月发生运营事故的频率(概率),能够消除高速铁路运营时间不均的影响,更加客观地评价高速铁路的安全运营水平。
式中:P为每月平均运营事故发生率;M为有效运营时间。
1.2国内高速铁路运营事故现状分析
利用南京理工大学高速铁路安全运营评价与测度方法研究课题组收集的国内10条较有代表性的高速铁路线路从2010~2013年的运营资料(包括晚点、人员伤亡等情况),根据运营事故、事故联动系数、月均事故率3个评价指标的定义和量化式(1),(2),(3),分别得到中国2010~2013年期间高速铁路的安全运营评价指标数据,见表1。
为进一步分析我国高速铁路运营事故分布特征,以运营里程、事故联动系数、月均事故率作为评价指标,利用系统聚类方法对高速铁路运营情况分析,将国内高速铁路线路划分为表2中4级(类):
表2中:1一级线路 有Line(3),Line(5),Line(7),Line(9),Line(10),事故联动系数和月平均事故率最大为2和1.03,属于高速铁路运营线路中事故发生频率最小的一类,处于比较高的运营安全水平;2二级线路为Line(8),事故联动系数和月平均事故率分别为6和0.98,事故联动系数大的特点是线路事故扩大效应易导致线路的其它列车受到影响;3三级线路为Line(6),事故联动系数和月均事故率分别为1和1.23,线路运营里程短,但是月均事故率 较大;4四级线路 为Line(1),Line(2),Line(4),事故联动系数和月均事故率最大分别为21和3.92,这些线路运营里程长、时间久、列车多,属于运营安全风险最大的一类。
2高速铁路运营事故预测方法
2.1高速铁路运营事故数据特征分析
在工业材料和航空零件供给需求预测中,通常根据数据序列的变异系数(见式(4))和周期间隔(见式(5))2个指标将数据序列分为平缓、间歇、随机、块状等4种特征类型[13](见图1),并且Syntetos等[14]通过大量数据分析得到事故变异系数的临界值可为0.7,事故间隔的临界值可为1.32。
式中:s为序列数据的标准差;x-为序列数据均值。
因此,依据式(4),(5)可计算高速铁路运营事故数据的变异系数v2=1.02、月均事故 率ε =1.95(月/起),判断此类数据属于块状型,具有强变异性、变化波动大的特点。
根据不同特征类型数据选择相应的预测方法(见表3),发现适用高速铁路运营事故的预测模型有神经网络、支持向量机、灰色函数等,为进一步分析现代智能算法和灰色模型在高速铁路安全运营事故预测过程中的适应性,据此分别建立基于经典的BP神经网络和灰色函数的高速铁路预测模型。
2.2高速铁路运营事故 BP神经网络预测模型
神经网络是通过模仿生物神经系统功能结构处理非线性问题的数学动力系统,对多输入与多输出的数据具有较好的拟合能力,其基本组成单元是神经元,主要功能是将输入经过函数转化为期望输出。BP神经元模型预测机制主要通过3步实现。
步骤1。输入信息融合。通过输入信息向量与其对应的权重向量乘积得到融 合之后的 信息
步骤2。输出信息转化。pj大于神经元兴奋阈值θ时,神经元信息转换函数f对pj转化得到输出信息yj ,这里采用Sigmoid函数作为转化函数:
式中:yj为输出信息;θ为阈值,通常用它来修正神经系统的内部偏差,取值0~1之间,通常建议取值0.01。
步骤3。误差反向传播。根据得到的神经元输出信息yj与实际期望信息yj*之间的差值反向修正神经元权重wij,这里采用改进的自适应动量梯度下降法作为权值修正函数:
式中:wijk为前层第i个神经元和后层第j个神经元之间第k次修正权值;λ为动量因子,g为梯度误差修正函数。
高速铁路安全运营态势与运营里程、运营时间、地理环境、气候条件等因素有关,由于未来的气候条件不可知,月平均事故率可利用事故总数推算。因此,最后确定将运营里程、运营时间2个条件做为输入,将运营事故总数、事故联动率2个指标作为输出,以2010~2013年内发生过运营事故的10条高速铁路线路运营事故数据为训练样本,对其安全态势进行预测。
依据Kolmogorov定理:1个具有n个输入单元、2n+1个中间单元和m个输出单元的3层网络可以精确地表达任何映射,并且同时可以使中间层容量和训练时间最优,所以确定建立2-52的BP神经网络,如图2。
2.3高速铁路安全运营事故灰色预测模型
本节首先对高速铁路安全事故指标进行灰色关联度分析,选择运营里程和运营时间作为灰色预测模型变量因子,以运营事故作为因变因子,建立GM(1,3)预测模型。然后根据运营事故数据属于块状型,具有波动大的特点,利用K均值聚类的方法将运营事故数据序列划分为不同集合,建立K-GM(1,3)预测模型。
2.3.1灰色关联度分析
假设存在以下2个数列:
以Xi(k)为参考数列,Xj(k)为比较数列,定义:
存在关联函数:
则比较序列Xj(k)对根据序列Xi(k)的灰色关联度为
将高速铁路线路Line(1)到Line(10)的运营事故数作为参考序列,以运营里程数和运营时间作为比较序列,根据式(8)~(10),计算运营事故数和运营里程以及运营时间的灰色关联度分别为0.74和0.75,根据经验,当指标间关联度大于0.6时便可建立灰度预测模型[15]。因此,选择线路里程和运营时间作为运营事故预测模型的变量因子,分别构建GM(1,3)模型和K-GM(1,3)模型。
2.3.2构建 GM(1,3)模型
GM(1,3)模型的建立过程可以分为原始数据一阶累加、构建白化微分方程、微分方程离散化、参数标定四个步骤,具体过程如下。
步骤1。原始数据一阶累加。假设存在原始数据Xi(0),可得到:
从Xi(0)→Xi(1)的过程称为一阶累加过程。
步骤2。建立白化微分方程。数列Xi(1)(k)的时刻k=1,2,…,m看作连续的变量t的函数Xi(1)= Xi(1)(t),可建立白化式微分方程
式(13)微分方程模型记为GM(1,n),令n =3,得到GM(1,3)白化微分方程
步骤3。微分方程离散化。将微分方程(13)参数列记 为,对微分方 程按差分法离散,得到线性方程组。
按照最小二乘法,有
式中:
可得微分方程的近似解为
步骤4。参数标 定。通过式 (11),(12)和(17)计算得到Line(1)~Line(10)的GM(1,3)模型参数矩阵。
依据式(16),估计线路Line(1)~Line(10)的GM(1,3)模型参数为
a=1.0192,b2=0.1100,b3=-0.1025
最后得到Line(1)~Line(10)的GM(1,3)模型为
2.3.3构建 K-GM(1,3)模型
K-GM(1,3)模型是按照先降噪,后预测的思路进行,具体方法是首先根据K均值聚类方法对数据分类,然后对每一类数据建立GM(1,3)模型,目的是降低数据变化波动带来的影响,提高预测的精度。
步骤1。运营事故K均值分类。通过表1知高速铁路 安全运营 事故指标 数据最大 的值为141,最小的为2,两极分化严重。为能够更好地对数据进行预测和分析,首先将运营事故利用K均值聚类方法进行分类。
根据以上步骤,利用SPSS软件对Line(1)~Line(10)线路的运营事故次数进行K均值聚类,最后得到以下分类结果。
A1 = {62,141,84,54,47,30},A2= {3,5,4,9}即将Line(1),Line(2),Line(4),Line(6),Line(8),Line(9)划分为事 故率较大 的一类,将Line(3),Line(5),Line(7),Line(10)划分为事故率较小的一类。
步骤2。K-GM(1,3)模型参数标定。依据式(11)~(17),计算获得A1类线路和A2类线路的K-GM(1,3)模型参数。
将模型参数带入式(18)得到得A1类线路和A2类线路的K-GM(1,3)模型。
2.3.4预测结果和误差分析
灰色模型的预测结果是将式(18)计算结果通过累减还原为相应变量的预测结果。
式中:即为GM(1,3)模型所得 的的预测值。通常为了检验模型的有效性,采用原始数据和预测结果的相对误差序列作为精度验证的度量:
式中:MSE(k)为相对误差序列。
3案例分析
为验证上述建立的BP神经网络和灰色预测模型的有效性,将表1中运营数据代入预测,通过对预测结果 的误差分 析,比较BP神经网络、GM(1,3),以及K-GM(1,3)预测模型在高速铁路安全运营态势预测中的适用性。
3.1高速铁路运营事故神经网络预测结果
根据图2设计的神经网络和2.2节中BP神经网络的计算流程,利用Matlab(R2012a)编程求解。由于高速铁路运营事故数据序列长度较短,因此这里采取交替迭代的方法训练神经网络,具体过程是先任意选取8条线路作为训练样本,剩下其他2条线路作为预测样本(对比样本)。第1次预测结束后,再选择未预测的2条线路替换已预测的线路,继续训练和预测,经过5次迭代过程,最后获得10条线路事故的预测结果见表4。
上述预测过程中,BP神经网络的其它参数设置见表5。
3.2高速铁路运营事故灰色模型预测结果
同样将表1中的运营事故数代入GM(1,3)模型(见式(20))和K-GM(1,3)模型(见式(21)),得到运营事故预测结果,见表6。
对比表6和表7,未经K均值降噪而直接建立的GM (1,3)模型的预 测相对误 差达到345.25%,经过分类降噪的K-GM(1,3)模型的A1 类和A2类的预测误差精度分别为13.42%和14.08%,平均相对误差为13.68%。表明对于高速铁路运营事故这类块状型数据而言,在预测前进行数据分类降噪将会显著提高灰色模型的预测精度。
3.3预测模型适应性分析
为便于对BP神经网络模型和灰度模型在高速铁路运营事故预测过程中的适应性分析,将BP神经网络和K-GM(1,3)模型的预 测相对误 差(MSE)绘制成下图4。
在高速铁路事故的预测过程中,BP神经网络的最大误差为12.00%,平均误差为8.92%,K-GM(1,3)模型的预测最大相对误差为48.42%,平均误差为13.69%,从预测精度上来说,BP神经网络在高速铁路安全事故预测过程中要优于K-GM(1,3)模型。进一步分析,可以得出以下结论。
1)K-GM(1,3)模型的预测精度随着数据在序列中的前后位置关系呈现从大到小 的变化趋势,在本实例分析中,K-GM(1,3)对于数据顺序前4的Line(1)~Line(4)的平均预 测误差为1.74%,数据顺序后6的Line(5)~Line(10)的平均预测相对误差为21.64%,表明在K-GM(1,3)模型中预测精度与数据位置顺序有关。
2)BP神经网络预测过程中,高速铁路运营事故数预测平均误差为8.92%,联动系数预测精度为10.09%,联动系数数据序列的变异系数为1.43,事故数据序列的变异系数为1.02,表明数据的平稳性与预测精度成正比关系。
3)BP神经网络模型与K-GM(1,3)模型相比,BP神经网络和K-GM(1,3)模型在预测过程中预测误差的方差分别为0.10%和2.43%,表明BP神经网络在预测过程中更加平稳,误差波动范围更小。
4结束语
笔者运用事故次数、事故联动系数、月均事故率作为高速铁路运营事故评价指标,根据高速铁路运营事故属于块状型,具有强变异性的特点建立了基于BP神经网络和灰色模型的安全态势预测模型。在构建了灰色模型过程中,根据事故极差大的特点,利用K均值聚类方法将高速铁路线路分为A1类和A2类,构建K-GM(1,3)预测模型,提出了先数据分类降噪后预测的思路。实证分析表明,灰度模型与BP神经网络相比,灰色模型预测精度更依赖于数据稳定性,BP神经网络更适合于高速铁路安全运营事故等块状 型数据预测。本文是基于假定国内CRH系列型号列车安全性能无较大差别的基础上提出的,若能进一步对各种型号的列车事故进行统计分析,再进行预测分析则更具科学性。
高速铁路运营事故致因复杂且数据采集困难一直是影响高速铁路安全预测研究的重要原因,因此对高速铁路运营安全进行更深层次的影响因子机理分析,构建高速铁路运营事故统计数据库平台有待于后续工作的深入研究。
摘要:高速铁路运营事故预测方法是度量铁路安全管理水平的重要指标。为提高高速铁路的安全运营水平,引入工业数据分类方法,分析反向传播(BP)神经网络和灰色模型在高速铁路安全运营事故预测过程中的适应性。首先,运用事故次数、事故联动系数、月均事故率3个参数对高速铁路安全运营水平进行度量;然后,根据工业数据分类方法判别高速铁路运营事故数据属于块状型,据此建立反向传播(BP)神经网络运营事故预测模型;针对运营事故数据具有波动大的特点,利用均值聚类方法建立K-GM(1,3)预测模型。以近年来高速铁路运营事故数据为样本对模型进行训练和分析,结果表明:BP神经网络、K-GM(1,3)、GM(1,3)预测模型的预测误差分别为8.92%,13.68%,345.25%,BP神经网络在高速铁路安全运营事故预测过程中的适应性要优于灰度模型。
事故数据 篇7
隐患是事故的前一阶段,隐患排查则是煤矿安全管理一项重要活动。目前,在我国众多煤矿企业中,安全监管部门都会开展隐患的定期检查、专项检查和不定期突击检查等活动。特别是每日开展的定期检查成为煤矿安全管理的例行活动,形成了煤矿事故隐患大数据资源。根据国家安监总局统计,2013年我国工矿企业隐患数据量在500余万项,随着工矿企业生产的开展,隐患排查数据量不断累积,汇集成隐患大数据[1]。
然而,目前针对煤矿事故隐患的研究大多还停留在定性分析或简单的统计分析阶段:譬如,宇仁茂[2]定性地分析了煤矿重大隐患的特性、状态及处置方法;李鑫等[3]对煤矿常见的事故隐患进行特征分析,进而构建了四阶段隐患处理闭环模;郝红勋等[4]提出了“五环六步”的隐患防控模型;赵增玉[5]从实际安全管理工作入手,详细分析了煤矿常见的九种隐患,并给出了隐患原因分析和防范应对措施。上述针对煤矿隐患的定性分析或简单统计分析研究有一定的应用价值,但由于没有数据支撑,分析结论的严谨性不足,隐患大数据的价值没有充分体现出来。近几年来,在学术研究领域开始出现了利用数据挖掘方法探讨隐患大数据应用的文献,譬如,赵作鹏[6]、李仕琼[7]从隐患数据挖掘的框架、可用模型及算法方面进行了论述;后续的张大伟[1]、陈运启[8]则开始针对隐患排查数据开展关联规则挖掘的实现研究,但在研究中仅涉及到煤矿隐患的3~4个维度,且没有研究非结构化或半结构化隐患数据如何处理的问题。
煤矿隐患数据长期以来之所以没有进行深入的分析挖掘,原因在于其数据格式多是文本型。传统文本挖掘技术多是以词频统计为主,无法分析煤矿隐患的隐含规则[9],而传统数据挖掘模型又无法直接处理这些半(非)结构化的信息,因此探索文本型隐患数据的结构化转换方法,进而提出一套隐患数据知识发现模型体系对深入挖掘煤矿隐患大数据价值有极其重要的意义。
1 文本型煤矿隐患数据结构化转换研究
1.1 方法选取
通过对煤矿隐患数据的内容分析,不难发现其记录的是与隐患相关的各个维度的信息。因此文本型隐患数据的结构化转换可分解为隐患维度的提取和属性类别的确定问题。
六何分析法(5W1H)的核心思想是分析任何问题都要从问题发生的时间(when)、地点(where)、相关人员(who)、问题内容(what)、发生原因(why)以及处理方式(how)等6个基本方面进行系统思考,该方法起源于美国政治学家拉斯韦尔提出的“Five Whats”分析法,后经不断应用总结和提升形成了一套系统分析问题的方法。该方法广泛应用在工程设计[10]、企业管理[11]及用户满意度分析[12]等方面。
本文拟采用六何分析框架对煤矿隐患排查数据进行维度提取,并根据煤矿事故隐患的内容对该框架进行适当改进,构建出能够全面描述煤矿隐患的维度体系,进而对各个维度进行属性集构建和概念分层。
1.2 煤矿隐患数据结构化转换
1)隐患维度提取
在对煤矿隐患排查活动及隐患数据进行充分调研和分析的基础上,对文本型隐患记录进行维度划分,在5W1H的基础上结合煤矿隐患特性,提取了隐患性质(what)、隐患致因(why)、隐患发生时间(when)、空间(where)、隐患所属专业(which)、监管主体(who-1)、责任主体(who-2)和隐患严重程度(how)8个维度,构成煤矿隐患“7W1H”结构化转换模型,如图1所示。
具体来说:性质维度(what)描述发生了什么性质的事故隐患;专业维度(which)描述发生的事故隐患所属的生产作业专业;致因维度(why)描述是什么原因导致了事故隐患的发生;时间维度(when)描述在什么时间发生了事故隐患;空间维度(where)描述在什么区域发生了事故隐患;程度维度(how)描述事故隐患的严重等级;主体维度(who)划分为监管主体(who-1)和责任主体(who-2),其中监管主体用来描述事故隐患的监管人或监管单位,在隐患排查中表现为隐患的检查人,责任主体描述事故隐患的责任人或责任区队。
2)属性类别及概念分层分析
以国家安监总局隐患管理办法为指导,结合各大型煤矿企业开展隐患排查工作的实践,对煤矿隐患的各维度进行属性类别分析。
(1)性质维度
国家安监总局制定的《煤矿生产安全事故报告和调查处理规定》中对煤矿事故的性质进行了界定,由于隐患是事故的前一阶段,因此隐患性质的确定可以按照可能导致的事故进行性质确定,分为瓦斯、顶板、机电、运输、爆炸、水害、火灾和其他8类。
(2)专业维度
煤矿事故隐患发生在生产作业过程的不同环节,为明确隐患治理责任,强化安全管理,对煤矿隐患所属专业进行划分。国家安监总局颁布的《煤矿安全风险预控管理体系》[13]中将煤矿生产系统划分为通风管理、瓦斯管理、防突管理、防尘管理、防灭火管理、通风安全监控管理、采掘管理等14个管理要素,本文在此基础上将隐患所属专业划分为采煤、掘进、机电、运输、一通三防、地测防治水、爆破和其他8类。
(3)致因维度
任何事故隐患都会涉及到致因对象,参考事故致因模型,本文将事故隐患致因划分为人的因素、物的因素、环境因素和管理因素。人的因素主要是指在生产过程中存在的人的不安全行为,物的因素包括设备、设施、物料及用具的不安全状态,环境因素是指工作场所的各类环境对象的不安全条件,管理因素主要是安全管理内容或责任缺失,如机构设置不当、安全制度缺失、安全培训不到位及安全投入不足。
(4)时间维度
通过煤矿隐患的时间维度分析,可预测隐患的时间分布规律以及未来发展趋势。时间维度按照粒度的不同可分为年度、季度、月度、旬次、日期和班次等。依据不同的粒度可以有效地进行概念分层。通常,粒度越细层级越低,低层级粒度的时间记录包含高层级时间信息,这样处于较低概念层次的安全问题记录可通过统计汇总得到较高概念层次的事故隐患记录,比如通过汇总每日事故隐患可以得到月度事故隐患。
(5)空间维度
空间维度用于标识煤矿事故隐患的发生区域,空间维度按照粒度的不同可分为煤层、盘区、巷面,不同层级的粒度下可确定具体的属性类别。同样,通过对较低层级区域事故隐患的统计可汇总出较高层级区域的事故隐患,实现区域数据的概化,在不同的概念层次实现数据分析与挖掘。
(6)程度维度
程度维度用来衡量安全问题的严重程度。煤矿隐患严重程度的划分目前主要依据《安全生产事故隐患排查治理暂行规定》[14],根据隐患的潜在危害性以及整改难易程度将其划分为一般隐患和重大隐患。目前在煤矿安全管理实践中通常将隐患划分为一般隐患、较大隐患、重大隐患和特大隐患4类。
(7)主体维度
主体维度可具体分为责任主体和监管主体。其中,责任主体维度反映事故隐患的引发人或负有管理责任的管理者,监管主体是对事故隐患负有监督检查责任的个人及单位。主体维度有不同的划分粒度,粒度越细,主体在组织架构中所处的层次越低,按照层次由低到高一般可以分为个人、班组、区队(部门)、矿井,粒度之间具有传递性。
上述8个维度中,时间维度、空间维度以及主体维度可根据粒度的不同进行概念分层,不同粒度下属性类别不同。综上,对煤矿隐患维度及属性类别进行编码,如表1所示。
至此,可将文本型煤矿隐患数据集转换成结构化的数量表达形式。譬如,一则隐患记录为:“机五队陈某某2016年2月11日在3#2704巷倒风机时操作不当致使巷道长时间停风。”则提取性质维度为瓦斯类隐患,专业维度为一通三防,致因维度为人的因素,时间维度为2月,空间维度为3#层2704巷道,程度维度为重大安全问题,责任主体为机五队陈某某,监管主体为安监站。
假定某煤矿特定时段内有n条隐患记录,则将其转换成结构化数据集形式如式(1)所示:
2 基于对数线性模型的煤矿隐患知识发现
煤矿事故隐患的发生有其内在规律性,受自然环境、地质构造、采煤工艺、煤层特性、人员特质、管理水平等因素影响较大,如有些开采区域属于煤与瓦斯突出严重区域,则该区域容易出现瓦斯类隐患。再如有些区域地质构造复杂,则该区域需重点关注水害、顶板类问题,当然经验丰富的安全管理者掌握着类似的一些事故隐患规律性,但这种经验性的知识属于隐性知识,无法被广泛运用和传播。因此,有必要利用煤矿隐患的历史数据通过各维度间的交互分析来挖掘其发生规律,为后续隐患排查工作提供指导。
2.1 方法选取
煤矿隐患数据的维度划分及属性类别取值属于定性变量的范畴,针对煤矿隐患的变量特征,本文选取对数线性模型来研究煤矿隐患各维度间的交互效应问题。
对数线性模型将方差分析和线性模型的方法系统地移植过来,通过对模型中各个参数的计算来衡量各个变量的主效应以及变量间的交互效应。其原理是将列联表中每个个案的频数作为因变量,所有的变量及其类别作为自变量,建立各个自变量的效应与每个单元频数之间的函数关系[15]。采用该模型时,首先假设参与交互的任意变量和类别之间均存在交互效应,即构建饱和性对数线性模型,之后,通过对分层效应、单项效应的显著性检验去除不显著的效应,最终确定出能够拟合观测数据的简约模型。
2.2 煤矿隐患对数线性模型构建
根据参与交互的变量个数,可构建二维对数线性模型和多维对数线性模型。
假设参与交互的变量为A和B,每个变量包含的属性类别数分别为m和n,则首先建立二维饱和性对数线性模型如式(2)所示:
其中,nij(i=1,2,…,s;j=1,2,…,t)为二维列联表中相应单元格的频数。
λ表示对数频数的总平均值,反映的是在各主效应和交互效应都为零时,样本频数的均匀分布,其计算公式如式(3)所示:
λiA为变量A的主效应,反映的是A变量中各类别频数分布特征,计算公式为行平均值与总均值之差,如式(4)所示:
λjB为变量B的主效应,反映的是B变量中各类别频数分布特征,计算公式为列平均值与总均值之差,如式(5)所示:
λijAB为两变量的交互效应,反映的是A、B两变量中相应类别之间的关联对频数分布的影响,计算公式如式(6)所示:
同理,对于有多个变量参与的三阶及高阶对数现象模型,只需考虑三维交互效应和相应的二维交互效应。
在模型构建的基础上,首先通过分层效应检验,依次从高阶效应项到低阶效应项检验效应的显著性;第二,通过单项效应检验,考察每层中具体类别效应的显著性,剔除掉不显著的单项效应,形成简约对数线性模型;第三,采用似然比卡方检验考察简约模型的整体拟合性,并得出交互效应参数;最后,根据效应参数的正负及大小判断各类别主效应及交互效应对频数分布的影响。
3 煤矿隐患大数据知识发现实例
本文在研究过程中,对大同煤矿集团某矿的隐患排查开展情况进行了调研,并收集了该矿2014年度的隐患数据,经过数据抽样数据编码及预处理,保留366条隐患记录作为本文研究的样本集如表2所示,表中各变量取值含义参照表1中的数据。
选取隐患性质(X1)-时间(X4)-空间(X5)三个维度进行三阶对数线性模型分析,目的在于揭示该矿不同性质隐患的时空分布规律,构建三阶饱和性对数线性模型如式(7)所示:
式中,包含了3个变量各自的主效应、3个二阶交互效应和1个三阶交互效应,如表3所示。
运用IBM SPSS19.0分析工具,采用后向剔除法对三阶饱和性对数线性模型进行分层效应的显著性检验,经运算:三阶交互效应在95%的置信水平下的似然比显著性水平为0.081>0.05,说明三阶交互效应不显著,予以剔除;而二阶交互效应和单变量主效应都是显著的,予以保留;由此得到仅包含二阶交互效应和主效应的非饱和型对数线性模型。这说明该矿不同性质的隐患与发生时间和分布空间都存在着交互效应,而3个维度之间的交互效应可忽略。
对模型进行拟合优度检验,其似然比卡方估计量为79.27,显著性水平为0.081>0.05,显著性水平远大于临界值,认为去除三阶效应项的非饱和型对数线性模型能够较好的解释事故隐患分布,拟合效果理想。最终,得到非饱和型对数线性模型“性质-时间”、“性质-空间”、“时间-空间”的交互影响系数。根据交互系数的正负及大小可进行各维度不同类别间的相互影响关系。本文仅对隐患性质与各季度之间的交互规律进行分析,交互系数如表4所示。
表4中,正效应表示在相应的季度倾向于发生相应性质的隐患。由表4分析得出如下结论:
1)第一季度需重点关注瓦斯类、其他类事故隐患,交互系数分别为0.58和0.59。
2)第二季度需重点关注水害类、火灾类事故隐患,交互系数分别为0.67和0.63。
3)第三季度需重点关注机电类、其他类和顶板类事故隐患,交互系数分别为0.39、0.36和0.25。
4)第四季度需重点关注瓦斯类、爆炸类和运输类事故隐患,交互系数分别为0.23、0.18和0.16。
根据上述分析结论,安全管理者在不同季度可有针对性地加强特定类型事故隐患的排查与管理工作。同理,可对煤矿隐患的“性质-空间”、“时间-空间”交互效应进行分析。
4 结论
1)六何分析方法能够对半结构化或非结构化的隐患记录进行结构化转换。以该方法为指导,结合煤矿事故隐患特征,提取出隐患性质、所属专业、时空分布、责任主体等8个描述维度,并以我国安全管理相关规章制度为依据,对8个维度进行了属性类别划分和概念分层。解决了文本型隐患大数据的结构化处理问题,为煤矿隐患大数据挖掘与知识发现奠定了数据基础。
2)经六何分析法转换后的煤矿隐患8个维度都属于定性变量,而对数线性模型能够针对8个维度开展二维和高维交互分析,揭示8个维度不同类别间的交互影响关系,挖掘隐患大数据中隐含知识。解决了文本型隐患数据的知识发现问题,从而充分发挥隐患大数据的价值,提高隐患排查的效率和安全管理工作的科学性。
3)本文提出的煤矿隐患大数据处理与知识发现方法为大数据时代的安全管理提供了新手段,丰富了安全管理方法体系,后续可依托本文研究成果研发智能隐患排查知识发现系统,实现煤矿智能安全管理。
摘要:为解决半结构化或非结构化文本型煤矿隐患数据利用难度大、挖掘深度不够的问题,首先运用六何分析方法对煤矿事故隐患大数据进行内容分析,确定隐患的描述维度及属性类别,实现文本型隐患数据的量化表达;之后根据隐患数据变量特征,采用对数线性模型进行隐患维度间交互的知识发现研究,探索煤矿事故隐患各维度间的交互效应。研究结果表明:基于“六何分析法+对数线性模型”的分析框架能够实现文本型隐患数据的结构化转换,有效揭示煤矿隐患各维度间的交互影响关系,实现隐性知识的显性化。
事故数据 篇8
随着城市经济的发展、城市规模的扩大和现代化程度的不断提高,城市的供水管网也越来越庞大,供水管网信息的变化也随之加快。同时,作为城市生命线的供水管网,一旦发生爆管等突发事故,不仅造成水资源的浪费,给供水企业带来经济损失,更会影响城市其它行业的正常经营,给城市居民的正常生活带来极大不便。当前,供水管网管理部门采用传统工程图档的管理模式无法对城市供水管网进行直观有效的表达,也无法对供水管网的突发性事故做出有效的应急处理,更加缺乏对管网事故、维修等历史数据的管理,并很难从中分析出影响管网事故发生的关键性因素。因此,运用数据挖掘技术探索出供水管网事故的预测性管理手段十分必要。数据挖掘应用于供水管网地理信息系统事故处理的意义是:
1) GIS为供水管网的基础信息管理提供了良好的管理手段,而GIS平台提供的空间数据引擎又为空间数据挖掘提供了坚实的基础。
2)通过数据挖掘分析出管网事故发生的空间分布特征及关键性诱导因素,并通过图形、表格等表达方式,便于管理者对管网事故发生分布情况做出直观的判断。
3)分析管网运行历史数据,结合管网现状,辅助相关职能部门对管网运行状态进行评估,分析管网设备老化情况,科学预测管网事故发生的可能性。
4)辅助供水管网管理部门建立科学的事故发生及预警机制,由“事故后处理”向“前瞻性管理”的模式转变。
2 MapGIS供水管网地理信息系统简介
MAPGIS供水管网地理信息系统是在大型国产地理信息系统平台MAPGIS基础上,利用先进的计算机网络技术、GIS技术开发出来的,紧密结合了供水管网的业务流程,是我国目前供水领域进行数字化建设的首选软件。
基于MapGIS地理信息系统和SQLSERVER数据库管理系统,具有管理大数据量的能力,地理数据分析功能,数据访问的权限管理,数据完备性、安全性可得到保证。将地理信息系统和城市供水的具体管理工作结合起来,利用MAPGIS强大的图形编辑功能和海量地理数据管理,以及SQLSERVER稳定的数据库管理功能和便捷的网络连接,因而MapGIS供水管网地理信息系统的功能相当强大,能够满足供水管网管理的需要,真正实现了管理的科学化和现代化。该系统有很强的容错能力和处理突发事件的能力,不会因某个动作或某个突发事件导致数据丢失和系统瘫痪。
2.1 Map GIS供水管网地理信息系统数据管理类型
Map GIS供水管网地理信息系统数据主要包括三大类数据:一类是地理地图数据,主要是大比例尺如1:500的分幅数据;一类是供水管网数据,主要有管件设备的相关数据;第三类是各种辅助数据。
“Map GIS供水管网地理信息系统”管理的管件数据包括管段、阀门、三通等,允许用户自由设置管件类型,也允许用户自由设置各种管件类型的数据库结构。
2.2 Map GIS地理信息平台对数据挖掘的支持
Map GIS地理信息平台以点、线、面、网的组织形式实现了对空间地理实体的管理,同时又提供表工作区对应于数据库中的表,在Mapgis开发平台上开发的应用程序都是通过Map GIS的空间数据引擎实现对底层空间数据库的访问。
数据挖掘的基础是一个包含大量数据的数据容器,通过一系列的数据库访问技术来对底层数据进行操作。如:ODBC、OLEDB、ADO等数据库访问手段。另一方面,供水管网的地理信息由于其与空间位置特殊关联性,传统的数据库访问技术在访问空间数据时存在先天的弱点。在这里我们使用MAPGIS地理信息系统开发平台的空间数据引擎来操纵基础数据,该空间数据引擎对空间数据的访问有其自身特有的优势。
3 数据挖掘的具体应用分析
3.1 分类的运用
分类就是对一个事件或一组对象进行归类。可以用分类模型分析已有的数据,还可以用分类模型来预测未来。结合城市供水管网属性结构特点,人为的把具有相同类型的管网设备分类在一起,如:相同材质、相同口径、相同埋设年代的管网设备划分为一组,以组为单位进行管网事故分析,从而找出各类管网与事故发生率之间的关系。
3.2 时序模式的运用
通过事故发生时间的时间段综合分析来推断出供水管网发生事故的时间分布特征。分析结果表明:事故发生时间多集中在早上6:00~8:30,中午11:00~13:30,晚上5:00~9:00三个时间段,而夜间发生的爆管事故相对较少。再进一步结合管网监测点的压力、流量数据分析,从而得出结论,由于这三个时间段是城市居民用水时间,也是城市供水供应流量、压力都较高的时间段,因而造成了这三个时间段容易发生爆管。
3.3 关联分析的运用
关联分析挖掘数据中项集之间有意义的关联或相关联系。关联分析是寻找数据库中数值的相关性,常用的技术是关联规则和序列模式。关联分析的目的是找出数据库中隐藏的关联网。造成供水管网事故的因素可能有很多,而有些因素可能是占主导性的。通过对管网维修的历史数据,以及管网属性类型的关联分析,我们能够找出哪些因素对管网事故有较明显的影响。通过对比不同属性项的管网设备的事故发生情况,可以判断出事故发生和管网哪些属性具有强相关性。
3.4 空间聚类分析的运用
供水管网发生事故的位置与空间地理坐标存在着一一对应的关系,通过对管网维修数据的坐标位置的分析,能够对整个供水管网发生事故的空间分布频度做出正确的结论,由于供水管网的事故、维修点在数据库中是以离散点、而非线性的模式存储,因此有必要对这些离散点进行网格化分析,将管网事故发生位置与计算机存储中的地理网格对应起来。从而找出事故频发位置的空间分布特性。
3.5 数据挖掘相关功能介绍
3.5.1 管网数据检查
该功能通过对管网拓扑、管网空间数据、管网属性数据的检查,帮助用户发现管网数据中存在的不一致或不正确的地方。
3.5.2 设备维修记录填写
用户使用该功能将设备维修情况记录到管网维修历史数据库中。点击事故发生位置(管道)或者设备(管点);系统提取设备编码、该位置横纵坐标或该管点横纵坐标;用户录入其他维修情况记录。
3.5.3 维修数据查询
指定设备查询:用户选择要查询维修记录的管网设备,系统以列表形式显示该管网设备的维修历史记录;指定范围查询:用户指定一个区域范围,该区域可以是矩形、圆形或多边形(任意用户关心的区域),系统以列表形式显示该区域内所有管网设备的维修历史记录。
3.5.4 空间相关性分析
系统采用网格法或者中心点扩散法,对整个管网的维修历史数据进行分析,自动判定哪些空间位置的管网设备的维修率比较高,并以图、表的形态直观的表达出来。方便用户判断事故的高发地段,以采取相应的措施。
3.5.5 属性相关性分析
关联分析配置用户指定在管网维修数据挖掘处理的时候,哪些属性字段要参与维修历史数据分析,配置信息的结果保存到关联分析配置。
关联因素分析系统结合管网维修历史数据和管网设备属性数据,分析管网维修历史记录与管网设备各项属性数据之间的关联度。通过对供水管网维修历史数据和管网属性数据的关联分析,这里主要用到传统的数理统计方法。
管径100、材质为PE管的管道设备容易发生事故,而埋设时间越长,发生事故的可能性就越大。
通过扩展性的关联分析,我们还可以知道,哪些组合属性类型的管网设备发生事故的概率会加大。
3.5.6 事故发生影响因素排序
结合管网设备维修历史以及相对应管道的属性情况,可以分析出各类管网设备的老化情况与哪些设备属性较有关联。
3.5.7 管网设备老化预测
1)设备事故风险评估:通过空间关联度分析和属性关联度分析,评估管网设备发生事故的可能性,以列表的形式显示出来,并能按照可能性大小进行排序,高亮或闪烁显示列表集中选中记录对应的管网设备,给用户提供直观的老化预测分析结果。分析的结果数据保存在设备老化情况表中。
2)管网设备更换预警:管网设备老化预测的结果表明了管网设备发生事故的概率。根据用户设定设备事故发生概率阈值,自动检索出大于这个阈值的管网设备,这些设备可能会发生事故。
3)管网巡查派工单打印:根据管网设备老化预测的结果,打印相应的设备巡查派工单,供水管网管理人员通过经常关注这些设备的情况,来及时发现管网设备可能发生的事故,从而将供水管网爆管等造成的影响降低到最小。
4 结论
传统的信息管理系统主要侧重于供水管网基础资料的收集、存储、查询统计以及提供可视化的图形表达界面,而对数据的深层次表达相对缺乏。注重供水管网现状数据的管理,而对供水管网历史信息管理缺乏良好的支持,特别是针对供水管网维修信息历史数据进行分析。事实上,供水管网维修历史数据包含着大量有用信息,对于指导供水管网现状维护具有相当大的作用。运用数据挖掘技术提取出历史数据中包含的有用信息具有很强的现实意义,也是供水管网信息化的发展方向之一。
参考文献
[1]刘修国, 袁国斌.基于MAPGIS的地下管网信息系统设计[J].地球科学———中国地质大学学报, 1998.
[2]曾文.运用地理信息系统技术实现管网管理信息化[J].地下管网管理.2001.
[3]范明, 孟小峰.数据挖掘-概念与技术[M].机械工业出版社, 2001 (11) .
[4]CJJ61-2003城市地下管线探测技术规程[S].国家技术监督局, 北京:中国建筑工业出版社, 2003.
[5]吴信才等.MAPGIS地理信息系统参考手册[M].武汉:中国地质大学 (武汉) 信息工程学院, 1997.
[6]吴信才等.MAPGIS地理信息系统开发手册[M].武汉:中国地质大学 (武汉) 信息工程学院, 2001.
[7]蒋旻, 基于空间数据库的数据挖掘技术[J].武汉科技大学计算机学学报, 2005 (2) .
【事故数据】推荐阅读:
事故模拟预防重大事故10-03
车间设备事故分类及设备事故汇报制度12-23
爆破事故分析和防治爆破事故的措施01-19
事故整改防范措施及安全事故调查报告05-28
危害健康事故应急处理预案及事故报告制度10-07
交通事故双方以及交警处理事故的程序01-20
故障事故07-16
事故预测07-16
事故反思01-18
突出事故01-18