数据流分析法(精选12篇)
数据流分析法 篇1
1 案例
1.1 故障现象
一辆2005年款北京现代SONATA轿车已行驶10万公里,出现油耗过高,行驶中排气管冒黑烟的现象。
1.2 故障原因
经分析认为进气压力传感器破损漏气。根据该车故障现象可知,故障原因可能有以下3种:①混合器过浓;②点火不良;③机械故障。
1.3 故障诊断
该车启动性能较好,但启动后怠速就开始冒黑烟,且怠速不稳,行车中故障现象略有好转。
用北京现代汽车专用诊断仪检查有无故障码,仪器显示“自诊断结果正常”;检查空气滤芯无脏堵现象,检查火花塞电火花,火花强,说明高压线路正常;检测燃油压力,在进油口和燃油管之间接上燃油压力表,启动发动机并怠速运转,油压表指示为2.5 kg/cm2,拔掉油压调节器真空软管并堵住管口,燃油压力上升至3.0 kg/cm2,均在正常范围,说明燃油系统工作正常。
用北京现代汽车专用诊断仪读取发动机数据流,发动机怠速时的喷油脉宽为11.5 ms(正常值为2.6 ms),很显然故障是由电控系统引起的。电控系统相关传感器的数据流为:水温96 ℃;节气门位置为关;进气压力信号电压为2.6 V,正常值应为1.05 V。
进气压力传感器的信号电压超出正常范围,于是检查进气压力传感器,发现进气压力传感器有裂纹且此裂纹处存在漏气现象,更换一新的进气压力传感器后故障排除。
2 故障总结
排气管冒黑烟故障是汽车最常见的故障之一,以上故障就是因进气压力传感器破损造成“内漏”,传感器测得的歧管压力大于实际的进气压力,使得控制系统所计算的喷油脉宽偏大,发动机就会出现油耗高,冒黑烟现象。
D型喷射系统的发动机进气管漏气一般会出现怠速过高或“游车”现象,而这起冒黑烟故障通常凭维修经验很难想到,因为此车漏气处恰恰出现在进气压力传感器上,直接影响电控系统对喷油量的控制,使用诊断仪的数据分析功能来诊断此类故障是一种很好的方法。
3 结语
汽车自诊断系统只能监测电控系统的电路信号变化范围,并不能分析传感器的特征变化,如线性节气门位置传感器输出与节气门开度成比例的电压信号,ECU根据此信号来判断节气门的开度大小,就会影响燃油喷射量。如果某个传感器的特性发生了变化,虽然其输出的信号电压在规定范围内,但并不与节气门开度成线性变化,即使发动机故障现象明显,自诊断系统也不会有故障码,故障灯也不会点亮。因此单凭读取故障码不能诊断所有的故障,如电控系统各种传感器工作不良、偏差变大等是无法靠自诊断系统监测出来的。
电控系统还具有行车记录功能,能记录车辆行驶过程中的有关数据资料,通过故障诊断仪可将汽车运行中各种传感器和执行器信号的数值以数据流的方式显示出来。这样,可以根据汽车工作过程中各种数据的变化来判断电控系统的工作是否正常。如动态数据流测试中点火提前角数据应该随节气门位置信号和发动机转速信号的变化而变化,否则与之相关的方面可能有问题。由此可见很多故障并不一定能用故障码方式反映出来,用数据流分析可较为准确地判断故障的类型和部位,以提高电控汽车故障诊断的准确性和诊断效率。
摘要:以故障案例为例,运用数据流分析方法分析电控发动机冒黑烟的原因,并提出了排除该故障的方法。
关键词:故障诊断,分析,数据流,汽车
参考文献
[1]何琨.学看汽车故障码[M].北京:化学工业出版社,2012.
[2]哈奇.汽车发动机计算机控制系统分析[M].北京:机械工业出版社,2007.
[3]邯郸北方学校.大众车系故障码和数据流手册[M].北京:机械工业出版社,2005.
数据流分析法 篇2
分析工具库是在安装 Microsoft Office 或 Excel 后可用的 Microsoft Office Excel 加载项(加载项:为 Microsoft Office 提供自定义命令或自定义功能的补充程序。)程序。但是,要在 Excel 中使用它,您需要先进行加载。
具体操作步骤如下:
1、单击“Microsoft Office 按钮”,然后单击“Excel 选项”。
2、单击“加载项”,然后在“管理”框中,选择“Excel 加载宏”,单击“转到”。
3、在“可用加载宏”框中,选中“分析工具库”复选框,然后单击“确定”。
提示:如果“可用加载宏”框中未列出“分析工具库”,请单击“浏览”以找到它。
如果系统提示计算机当前未安装分析工具库,请单击“是”以安装它。
4、OK
加载分析工具库之后,“数据分析”命令将出现在“数据”选项卡上的“分析”组中。
数据流分析法 篇3
关键词:数据流 电控 故障诊断 传感器
中图分类号:U46文献标识码:A文章编号:1674-098X(2012)01(a)-0063-01
在对汽车维修时,若仅仅靠故障代码寻找故障,往往会出现判断上的失误。实际上,故障码仅仅是ECU认可或否的界定结论,不一定是汽车真正的故障部位。因此,在对汽车进行维修时应综合分析判断,结合汽车故障的现象来寻找故障部位。并且有很多故障是不被ECU所记录的,也就不会有故障代码输出,遇到这种情况,该如何处理呢?很明显,最为可行的办法就是使用故障诊断仪进行“数据流”的检测,根据“数据流”研究发动机工作状况,从而找出故障发生的原因和位置。
那么,什么是数据流呢?把电控系统的一些主要传感器和执行器工作时的参数值提供给维修者,然后按不同的要求进行组合,形成数据组,就称之为数据流。这些标准数据流是厂方提供的,或者是在正常行驶的汽车上提取的数据,它能监测发动机在各种状态下的工作情况。使用中,这些数据资料可通过故障检测仪,把各种传感器和执行元件通过ECU输入输出信号的瞬时值,以数据的方式在显示屏上显示出来,这样可以根据汽车工作过程中各种数据的变化与正常行驶时的数据或标准数据流对比,即可诊断出电控系统故障的原因。
运用数据流进行电控发动机故障的诊断,首先要打好理论基础,掌握电控发动机的基本原理、各传感器和执行器的作用、各元件之间的相互影响等,有了这些理论基础,在查找故障时就容易找出问题的根源。以下结合我在实际维修工作中的维修实例,谈一谈运用数据流进行电控系统故障诊断的体会。
1 利用“静态数据流”分析故障
所谓静态数据流是指把点火开关打到ON位置,不起动发动机,利用故障诊断仪读取发动机电控系统的数据。例如进气压力传感器的静态数据应接近标准大气压力(100~102KPa);冷却液温度传感器的静态数据应接近环境温度等。下面是利用“静态数据流”进行诊断的一个实例。
故障现象:一辆捷达王轿车,在入冬后的一天早晨无法起动。
检查与诊断:首先进行问诊,车主反映:前几天早晨起动很困难,有时经很长时间也能起动起来,起动后再起动就一切正常。
一开始在别的修理厂修理过,发动机的燃油压力和气缸压力、喷油嘴、配气相位、点火正时以及火花塞的跳火情况都做了检查,也没有解决问题。通过对以上项目重新进行仔细检查,同样没发现问题,发动机有油、有火,就是不能起动,到底是什么原因呢?
后来发现,虽经多次起动,可火花塞却没有被“淹”的迹象,这说明故障原因是冷起动加浓不够。如果冷起动加浓不够,又是什么原因造成的呢?冷却液温度传感器是否正常呢?
用故障诊断仪检测发动机ECU,无故障码输出。通过读取该车发动机静态数据流发现,发动机ECU输出的冷却液温度为105℃,而此时发动机冷却液的实际温度只有12~13℃(约等于外界温度),很明显,发动机ECU所收到的水温信号是错误的,说明冷却液温度传感器出现了问题。为进一步确认,用万用表测量冷却液温度传感器与电脑之间线束,既没有断路,也没有短路,电脑给冷却液温度传感器的5V参考电压也正常,于是将冷却液温度传感器更换,再起动正常,故障排除。
这起故障案例实际并不复杂,对于有经验的维修人员,可能会直接从冷却液温度传感器着手,找到问题的症结。但它说明一个问题,那就是电控燃油喷射发动机系统的ECU对于某些故障是不进行记忆存储的,比如该车的冷却液温度传感器,既没有断路,也没有短路,只是信号失真,ECU的自诊断功能就不会认为是故障。在这种情况下,阅读控制单元数据成为解决问题的关键。
2 利用“动态数据流”分析故障
动态数据流是指接通点火开关,起动发动机时,利用诊断仪读取发动机电控系统的数据。这些数据随发动机工况的变化而不断变化,如进气压力传感器的动态数据随节气门开度的变化而变化;氧传感器的电压信号应在0~1V之间不断变化等。通过阅读控制单元动态数据,能够了解各传感器输送到ECU的信号值,通过与标准值的比较,能快速找出确切的故障原因和部位。
故障现象:一辆沈阳金杯面包车,发动机在起动后,暖机阶段工作正常,正常行驶一段时间,温度升高后,发动机有间断冒黑烟现象,加速时排气管还会发出“突突”声,发动机动力下降,严重时则无法挂档行驶。
检查与诊断:因为该车动力不足,排气管有突突声,其原因可能是:个别气缸工作不好,冒黑烟,说明混合气浓度有问题。后对电路(火花塞、点火线圈、高压线)和油路进行了检查,均未发现异常,故障原因可能在进气系统上。用检测仪诊断,无故障码显示,利用数据流诊断法对其怠速工况(无故障时)各主要数据进行了提取,其主要数据如下:
发动机转速:760~800r/min
喷油脉冲:0.6ms
点火提前角:7°~14°
进气压力:30.8kPa
冷却液温度:80℃
节气门开度:<5.5°
路试时,行驶了几十公里后,发动机就出现了上述故障现象。一踩加速踏板,排气管有沉闷的突突声,此时再观察怠速工况的数据流,其主要数据如下:
发动机转速:560~920r/min
喷油脉冲:4.5ms
点火提前角:7°~21°
进气压力:100.2kPa
冷却液温度:92℃
节气门开度:<5.5°
把热机时的数据流与冷机时(无故障)的数据流对比,最明显的变化是进气压力和喷油脉冲两项数据。从以上数据来看,该机故障的原因可能出在进气系统上,可能是由于进气压力传感器信号异常偏高引起的。拔下进气压力传感器上的真空软管,感觉只有微弱的真空吸力,真空不足就是造成上述故障的根本原因。于是对节气门进行了检查。拆下节气门,检查传感器真空源部位,节气门体与歧管座之间装有密封的石棉衬垫,在机体的高温和机油蒸汽的侵蚀下,石棉垫未被压住的部分泡胀起层,阻塞了狭窄的真空源通道,冷机时石棉垫泡胀的程度有所还原,故障就消失了。后将这部分多余的垫片剪掉,装复后试车,故障随之排除。
运用读取数据流的方法对电控发动机进行故障诊断分析,维修人员可以在实际维修工作中少走很多弯路,减少诊断时间,极大地提高了工作效率和维修质量。
参考文献
[1]张西振.汽车发动机电控技术.北京:机械工业出版社,2004.1.
[2]汪明跃.汽车电控发动机不能起动的故障与排除方法.科技大众,2007.5.
[3]张龙发.汽车发动机电控技术与检修,北京电子工业出版社,2007.8.
数据流分析法 篇4
关键词:电控汽油机,数据流分析法,故障诊断
0 引言
作为动力源, 发动机的工作性能和技术状况对车辆的安全性、燃油经济性和排放性能影响很大。发动机故障在各类汽车故障中占有最大的比例, 而且检测诊断和维修的难度大。随着汽车排放法规的日益苛刻, 当今的发动机采用了大量的新技术。发动机的结构组成变得更为复杂, 控制精度越来越高。作为控制发动机运作的发动机管理系统, 其控制策略更是发生了革命性的变化。发动机的检测、诊断和维修技术也相应的产生了变化。随着电控燃油喷射技术的发展和汽车维修水平的不断提高, 使用故障诊断仪检测发动机电控单元 (ECU) 是判明故障可能发生原因和部位的有效方法, 大多数都能判明故障可能发生的原因和部位, 会给维修人员的工作带来很大的方便。然而, 在对汽车维修时, 若仅仅靠故障代码寻找故障, 往往会出现判断上的失误。在出现故障又没有故障码输出时, 最为可行的办法就是使用故障诊断仪进行数据流的检测, 研究发动机静态或动态数据状况, 从而找出故障所在。
1 数据流分析法的特点
数据流分析基于电脑故障诊断仪的数据流测试功能来实现。具有测试连接方便、数据信息量大、能实现动态同步和多参数同时显示的特点。数据流分析法是把电控系统一些主要的传感器和执行器正常工作时的参考值 (如转速、蓄电池电压、空气流量、喷油时间、节气门开度、点火提前角及水温等) 提供给维修者, 然后按不同的要求进行组合, 形成数据组, 就称之为数据流。这些标准数据流是厂方提供的, 或者是在正常行驶的汽车上提取的数据, 它能检测发动机在各种状态下的工作情况。数据流通常采用数值 (包括开关量和模拟量) 方式来显示, 有些诊断仪还可以图形的方式来显示和记录数据流, 不仅使得分析数据显示形象化, 而且还可以分析数据之间的相位关系。
2 数据流的值域分析和时域分析
数据流的值域和时域分析是指对某一数据的数值大小和变化情况进行分析, 以确定数据所反映的发动机工况是否异常。例如:当发动机冷却液温度传感器电路出现短路和断路时, 数据流数值通常表现为一个固定的高温或低温 (例如:120℃或-40℃) 指示值。又如, 发动机热机转速在2000r/min左右时, 氧传感器信号在0.45V上下的波动次数可以达到每10秒钟20~30次。如果氧传感器信号变化速度过慢不仅会影响到排放指标, 还可能导致发动机性能的变化。
3 数据流的逻辑关系分析
数据流的逻辑关系分析是指对数据之间的因果关系或关联度进行分析。例如:空调开关接通时, 数据流中相应的开关量数据 (AC SW) 显示由OFF变为ON, 打开空调开关是原因, 而数据流中AC SW-ON是结果, 这对因果关系反映出, 空调开关到发动机控制电脑之间的电路信号是否正常。当控制电脑收到空调开关接通命令后, 会对喷油时间、点火正时和怠速转速加以调整。这时, 在数据流中空调开关 (AC SW ON) 接通的信号成为原因, 而喷油时间 (INJ XXX ms) 、点火正时 (IGN BTDC XX.X°) 和怠速转速 (R/MIN XXXXr/min) 的变化成为了结果。前面空调开关接通导致数据流中信号从OFF变为ON, 这是一因一果;后面数据流中信号AC SW ON导致了喷油时间、点火正时和怠速转速的相应改变, 这是一因多果。
4 数据流的比较分析
比较分析法是一种简单的对比分析方法。将故障车在某一工况下的数据组与该车辆在无故障时的相同工况的数据组或同类车型在相同工况下的数据组进行比较, 来判断故障点。比较分析法需要对故去采集的数据流冻结并记录存档, 在分析时调出使用。这要求诊断仪器具有数据捕捉、数据流的屏幕冻结、记录存档功能, 以及过去数据流数据和当前捕捉数据流数据的对比显示功能。同时还要求在记录数据流时, 附加说明数据流采集时的行使运行条件、环境及工况等。
5 数据流分析的应用实例
图1和图2分别为桑塔纳3000轿车1.8T BKT发动机的数据流截图, 其中图1为正常热机怠速下的数据流, 图2为热机怠速下进气管真空泄漏时的数据流。
通过对两种不同工况下的数据流进行分析, 不难发现造成两者数据差别的原因。真空泄漏时发动机的转速没有变化, 是因为发动机管理系统是基于转矩进行控制的, 怠速时发动机的负荷没有变化, 因此转速也没有发生变化。喷油时间变短而λ实际值增大, 是因为真空泄漏导致空气流量计测算的进气量减少、喷油时间随之减少, 而实际参与燃烧的空气数量并没有减少, 所以混合气变稀、过量空气系数λ增大。
图3为桑塔纳3000轿车1.8T BKT发动机在怠速暖机过程的数据波形截图。
由图可以看出:BKT发动机采用了BOSCH公司的Motronic ME7管理系统, 其基本控制策略是基于转矩控制。发动机的转速始终稳定在840r/min (的) , 期间由于干扰转速波形出现了向下的扰动。发动机的进气量随时间/温度增加在测试的第12秒左右出现了稍微的下降, 这是因为润滑情况逐步得到改善——发动机运转阻力矩下降———电子节气门开度减小所致。
BKT发动机执行的是国Ⅲ排放标准, 从启动开始就要求排放监测, 所以发动机的点火提前角在前30秒内维持在0°左右。因为此时的发动机温度较低, 需要加热TWC来减少尾气污染, 点火基本不提前可以得到较高的排气温度。第30秒以后, 加热TWC的需求下降而提高热效率的需求上升, 点火提前角得以增加。
喷油时间的数据波形曲线走势与进气量数据波形曲线的走向基本一致, 说明在暖机过程中的过量空气系数保持不变, 此时的过量空气系数λ=1, 以使TWC工作在转换效率较高的λ“窗口”范围内。
6 结束语
在汽车维修企业对电控汽油机维修的生产实际中, 使用了包括很多专用设备在内的多种故障诊断与检测设备, 也针对不同的故障运用了多种诊断方法。在对电控汽油机的故障诊断中使用故障诊断仪检测故障, 并结合使用故障诊断仪进行数据流的检测和分析来找出故障是一种非常有效的故障诊断方法。
参考文献
[1]朱军.汽车故障诊断方法[M].北京:人民交通出版社, 2008.
[2]张录鹤、姜继文.基于传统经验和现代仪器的电控发动机故障诊断方法.
面板数据和混合数据分析相关总结 篇5
这是我在查阅各种资料后得出的关于面板数据的总结,最近在做面板的实证论文,所以需要这个,欢迎大家继续扩充,只要是关于面板的都行,关于具体如何在Eviews6中实现的更好,不甚感激。
*横截面的异方差与序列的自相关性是运用面板数据模型时可能遇到的最为常见的问题,此时运用OLS可能会产生结果失真,因此为了消除影响,对我国东、中、西部地区的分析将采用不相关回归方法(SeeminglyUnrelated Regression, SUR)来估计方程。而对于全国范围内的估计来说,由于横截面个数大于时序个数,所以采用截面加权估计法(Cross SectionWeights, CSW)。
*一般而言,面板数据可用固定效应(fixed effect)和随机效应(random effect)估计方法,即如果选择固定效应模型,则利用虚拟变量最小二乘法(LSDV)进行估计;如果选择随机效应模型,则利用可行的广义最小二乘法(FGLS)进行估计(Greene ,2000)。它可以极大限度地利用面板数据的优点,尽量减少估计误差。至于究竟是采用固定效应还是随机效应,则要看Hausman 检验的结果。
*单位根检验:在进行时间序列的分析时,研究者为了避免伪回归问题,会通过单位根检验对数据平稳性进行判断。但对于面板数据则较少关注。随着面板数据在经济领域应用,对面板数据单位根的检验也逐渐引起重视。面板数据单位根的检验主要有Levin、Lin 和Chu 方法(LLC 检验)(1992 ,1993 ,2002)、Im、Pesaran 和Shin 方法(IPS 检验)(1995 ,1997)、Maddala 和Wu 方法(MW检验)(1999)等。
*协整检验:协整检验是考察变量间长期均衡关系的方法。在进行了各变量的单位根检验后,如果各变量间都是同阶单整,那么就可以进行协整检验了。面板协整检验理论目前还不成熟,仍然在不断的发展过程中,目前的方法主要有:
(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。
(2)Pedron(i1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。
(3)Larsson et a(l2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法。这种检验的方法是检验变量存在共同的协整的秩。
*一般的顺序是:先检验变量的平稳性,当变量均为同阶单整变量时,再采用协整检验以判别变量间是否存在长期均衡关系。如果变量间存在长期均衡的关系,我们可以通过误差修正模型(ECM)来检验变量间的长期因果关系;如变量间不存在协整关系,我们将对变量进行差分,然后通过向量自回归模型(VAR),检验变量间的短期因果关系。
关于平稳性检验和协整检验、因果检验流程图
↗ 同阶单整→协整检验→协整?(YES:EG两步法 for 长期因果关系;NO:误差修正模型ECM/VEC for 短期因果关系)
平稳?(单位根检验)
↘非同阶单整→差分使平稳→VAR→Granger因果检验 for 短期因果关系
关于面板数据模型选择回归与检验流程图
混合固定(main:个体固定)随机(main:个体随机)▏▁▁▁▁▁▁▁▁▁▁▁▁▏▁▁▁▁▁▁▁▁▁▁▁▁▁ ▏
▏先回归估计▏先回归估计
↓Cross-section:fixed↓Cross-section:random
F检验Hausman检验
▏▏
H0:混合H1:个体固定HO:个体随机H1:个体固定
--
Output:▏▏
If:If:
F=(Cross-section F Stat.)>Fa(df1,df2)H=(Cross-section Random Stat.)>χ2a(df1)
or Prob.
Then:reject H0,accept H1Then:reject H0,accept H
1是先做F检验还是先做Hausman检验啊;做F检验的时候,Fixed and Random、comm和Cross-section specific选项应该怎么设置啊;另外我看高铁梅上面对面板的分类有些不同,能说说有啥区别么?
以Eviews6为例,来说明一下面板模型的选择问题:
F检验是用来在混合模型和固定效应模型中做出选择,而Hausman检验是用来在固定效应模型和随机效应模型中做出选择,所以不存在孰先孰后的问题;
由于我们通常估计的个体效应而不是时刻效应,所以我们进行回归和检验的时候,Period选择None。
数据流分析法 篇6
摘 要:文章从数据分析的目的和基础出发,以常熟理工学院校园卡、教务数据分析为例,具体阐述了数据分析在高校管理与教学中产生的实际效果和意义,并明确了下一步数据分析的努力方向。
关键词:大数据;数据仓库;数据分析;校园卡;教务
中图分类号:G434 文献标志码:B 文章编号:1673-8454(2015)10-0013-03
随着大数据时代的到来,各行各业都在利用大数据推动本领域的发展。常熟理工学院自2009年开展教育信息化建设以来,在数据分析方面进行了不断地探索与实践,目前广泛应用于教学和管理中。
一、数据分析的必要性和可行性
高校内部一般都建有:教务系统、科研系统、学工管理系统、人事管理系统、资产管理系统等独立业务系统。这些系统都各自记录着学校方方面面的数据,却都静静地躺在服务器硬盘里,犹如埋藏在地下的金矿,不能为高校全局决策提供支撑。
数据分析的目的就是要让数据发声,通过直观的数据图表来为高校管理提供辅助决策。例如:对教师的专业与学校开设专业的统计分析可以为人才引进提供参考;对学生的校园卡使用记录和校内上网认证记录结合起来,可以为判断学生的行为指明方向;对各二级学院的资产数据统计分析有助于学校对二级学院进行成本核算。
二、数据仓库的建立
数据库是数据分析的源头,数据仓库的建立是数据分析的基础。
建设过程中,首先要统一数据标准,只有准确的数据才是有价值的,如果各系统的数据标准不统一,就会造成不准确的数据分析结果,也就无法为高校管理提供真实有效的统计数据;
其次要建立公共数据平台,公共数据平台是指实现校园内各种信息系统的互通互连和数据共享,包括多个系统业务数据集中存储、备份、数据共享和数据管理的公共平台,为学校各应用系统提供基础数据;
三是要规范数据流程,把各业务系统中形形色色的数据按标准定期抽取到学校公共数据平台中。确保任何业务系统的添加和修改不影响其他系统的正常运行,同时新建应用系统应建立在统一的数据规范基础和统一身份认证基础上,调用公共数据平台的基础数据(如部门、教工、学生等基础信息),应用系统产生的数据也应成为公共数据平台的基础数据,可供数据平台共享访问。确保提供反映学校全面情况的数据信息,为整个学校提供决策支持所需的数据信息,为今后应用系统的建设和信息服务奠定良好的数据基础。
图1为数据架构图,最底层的是各业务系统,他们产生的数据按编码标准经过抽取、转换、加载到数据中心,数据中心再按需要把相关数据同步给相应的应用数据库或各数据集市,最后形成各类主题数据分析或综合决策系统。
三、基于数据仓库的数据分析
在统一数据仓库的基础上,我们利用数据仓库技术(ETL、OLAP、REPORT)和数据挖掘技术,对多种数据集市进行数据分析,建立了校情综合统计分析系统。该系统从学校基本情况、教职工信息、学生信息、教学信息、科研信息、资产与设备信息、图书资料信息与师生消费等八大方面进行统计分析,为学校管理提供辅助决策支撑数据。
该系统从学校全局出发,通过多元主题展开分析,以文字、报表、图表等多种形式展现分析成果。
该系统的推出实现了教学质量、学生学习、生活行为等各种信息的监控与分析,对高校资源配置优化、提高高校管理科学化等方面具有不可估量的重要意义。这里笔者将以校园卡和教务数据分析功能为例进行阐述。随着校园卡在校园生活中使用范围的日益扩大,在应用过程中产生了大量数据。校园卡仅仅一年的交易数据就有大约1000万条记录。
校园卡数据分析主要实现以下五大类的分析功能:
(1)各时间段消费情况分析
①从“月、季度、半年、年”的角度来查询消费总额、消费用户数和人均消费等,反映出用户消费支出的趋势,也可反映出物价的变化情况。
②从“几点几分”的角度查询消费人数可反映用户在时间点上的消费习惯,对于各营业部门来说可以合理地调整工作时间、工作人员等,以加强服务。还可根据教职工就餐时间点来分析他们是否严格遵守学校作息时间。
③从“早、中、晚”的角度统计分析学生早餐、中餐、晚餐的就餐率。
(2)各类消费人群消费情况分析
①对于学生工作管理层来说,从“个人、班级、院系”的角度来查询消费金额作为发放贫困补助的依据。
②通过查询一个时间周期内(三天)学生消费人数,起到了解学生是否在校的危机预警作用。
③从学生所属院系、专业、年级等角度来查询消费人数、消费金额和分布情况。
④从学生性别、来源地区(省、市、区)、年龄等人的自然属性来查询消费人数、消费金额和分布情况。
⑤分析教职工的消费水平。
(3)各营业单位消费情况分析
从各个营业单位角度来查询校园用户消费人数,消费金额和分布情况。
(4)各交易类型消费情况
从消费类型角度来查询用餐、购物、上网、上机、水电消费等情况。
(5)工作站、终端个数统计
为直观反映上述消费数据,我们除用表格形式将分析结果展现在用户终端外,还提供了柱状图、饼图、曲线图、点图等形式来展现。图2展示了我校2010年至2014年学生早、中、晚三餐平均价格,呈逐年稳步上升状态,这给餐饮部门提供准确统计数据的同时,也稳定了学生就餐消费水平的承受心理。
高校教学信息化建设积累了丰富的业务数据,根据需求,教务数据分析功能主要包括三大类:教学任务、学生成绩和教学评价。图3为教务数据分析数据源视图,围绕教师的教学工作量、学生取得的成绩以及学生对教师的评价等,我们做了一系列的报表。例如:教学场地信息、学生情况、任课教师情况、各学期教学任务情况、成绩信息、教学评价、历年各专业招生人数、各学院历年教学情况、各学院历年学生对教师评价。
另外,为满足各二级学院要求,做了学业预警方面相关报表,各二级学院可根据年级、专业,通过总学分排行、课程门数排行来关注排在后面的学生情况。
数据分析表明,教师平均教学任务逐年增多,教师总体比较年轻,平均年龄男教师比女教师高,年龄在30-39之间的教师平均课时最多。管理学院历年招生数比其它学院明显高出很多,其中财务管理专业的学生数百分比最高。我校学生的成绩也完全符合正态分布曲线要求。
四、结束语
大数据分析是一种发展趋势,我们目前也仅仅就单项主题进行了逐个分析,如果把这些主题串起来,进行关联分析,将会得出更有趣更有价值的结果,这也是将来我们努力的方向。
参考文献:
[1]戴红芳,冯翔,先晓兵等.商业智能在校园一卡通中的研究与实践[J].微电子学与计算机,2012,29(7):175-179.
[2]戴红芳.基于多维数据模型的校园卡数据分析[D].上海:华东理工大学,2011.
[3]陈启买,贺超波,刘海.基于OLAP的高校教学协同决策[J].计算机应用,2009,29(1):304-305.
[4]魏金强,高磊,李晋宏.利用OLAP工具建立教务管理多维分析系统[J].北京工商大学学报(自科学版),2006,24(4):29-32.
网络数据流存储算法分析与实现 篇7
网络数据流是由有序字节流组成, 字节流以报文为基本单位在网络中进行传输, 并且报文之间通常具有一定的状态联系和制约关系。关于网络数据流目前尚无统一的定义, 大体上可以把网络数据流研究分为二个方向:面向宏观的网络数据采样和面向微观的网络数据存储。数据流采样是通过定期采集网络数据流, 提取网络报文报头的特征, 实现对于网络状态分析。如 Cisco 的 Netflow 在高速网络上使用“k 取1”方法, 分析网络数据流特征使用动态采样方式提高 Netflow的精确度[1,2]。但是由于网络数据流采样时间粒度的限制, 错误地把几个不同的TCP连接聚集到一个 Netflow 中, 出现采样记录的连接数少于实际的 TCP 连接数的情况。网络数据存储主要集中在应用层, 如以 Squid 为代表的 Web cache 网络数据存储技术, Web cache 通过资源预取、缓存, 来提高客户端的响应速度, 节省带宽资源, 同时提供基于内容的资源传输管理[3]和多级缓存节点的资源协同管理等[4,5] 。但是以 Squid 为代表的 Web cache 是一种以 Object 为基本存储单位 Web Proxy 技术, 尽管 Squid 增加对部分应用协议的扩展功能, 但是仍然局限于少数的几种应用协议。
目前对于网络监控、安全预警等方面的应用, 不仅需要对网络流量进行整体的统计分析, 而且需要对每个连接状态进行记录、跟踪, 最后作出安全决策。因此如果能够实现对网络数据流的实时复制、存储, 不仅可以对关键网络业务进行精确的检测、跟踪, 而且能够实现对关键业务的备份和恢复。但是网络数据流的实时存储, 是一个在线存储过程, 面临着诸多瓶颈问题, 可以归纳如下: (1) 实际存储率低。由于网络数据流具有突发性和自相似性[6], 并且在传输过程中具有乱序传输特征[7], 加上实际存储时内存读写带宽与磁盘读写带宽的不匹配等原因, 会出现接收到数据包, 但没有实际写入磁盘中丢包现象, 造成实际存储比率低下。 (2) 缺乏有效的磁盘管理机制。传统的数据流复制, 通常是按序直接写入文件中, 不利于数据流的检索和查询。网络数据流的实时存储, 不仅需要较高的报文捕获能力, 而且更关注于网络数据流完整的复制、数据流状态维护以及磁盘数据管理。本文根据网络数据流特点提出网络数据流分段存储模型, 本模型包括基于内存的高速缓存结构和基于磁盘的多级索引结构。
1网络数据流存储模型
网络数据流存储是一个从网络数据流复制, 内存缓存, 再到磁盘文件管理的一个相互联系的复杂的过程, 为了说明方便, 首先进行如下的相关定义。
定义1 时序性 二个网络数据包a、b, 如果a 在网络传输中位于b 的前面, 即a 在时间轴上位于b 的左侧, 则称此时a 在时序上早于b, 表示为a<<b。
定义2 强时序性 设原始网络数据包序列为…l1, l2, m1, l3, m2, n1, n2, n3, m3, …, 如果数据包之间的时序性被严格地保持, 则称为数据流具有强时序性。
定义3 弱时序性 设数据流分段为 p1, p2, p3;p1= (l1, l2, l3) , p2= (m1, m2, m3) , p3= (n1, n2, n3) 。尽管p1, p2, p3 所包含数据包并没有严格的时序性, 但是每个分段的第一个数据包之间具有严格的时序性, 即l1<<m1<<n1, 称p1, p2, p3 之间具有弱时序性。为了衡量网络数据流分段后的与强时序的误差引入下面的定义。
定义4 弱时序性网络数据流的时间误差和秩 如果上例中把p1, p2, p3 数据流分段包含的数据包依次排列, 形如l1, l2, l3, m1, m2, m3, n1, n2, n3, 与原始数据流在时间上的最大的差值, 此例中的最大的差值可能发生在m3 与n1之间。把具有弱时序性的数据流分段中的数据包重新排列后, 与原始数据包序列进行比较, 其中任意二个数据包之间最大的时间差, 称为数据分段后的时间误差, 并把每个数据流分段包含的数据包的个数称为秩。
定义5 网络数据流的属主性 网络数据流通常具有明显的起始点 (源端) 或者终止点 (目的端) , 把这种性质成为网络数据流的属主性;网络数据流的属主性, 在不同应用场合使用不同的参数进行描述, 如 Cisco 通常使用七元组描述网络数据流的属主信息, TCP Session 中采用五元组描述网络数据流的属主信息。在某些场合也可以使用逻辑意义上的参数描述网络数据流属主信息。
通过上面的定义, 可以把网络数据流存储面临的基本问题描述为:如何在兼顾网络数据流属主性和时序性的前提条件下, 根据网络负载调整磁盘读写策略, 提高报文复制效率;如何为网络数据流建立体现时序性和属主性的双重索引结构, 提高磁盘数据管理效率。
由于传统模式下的按序复制、按序存储、限制磁盘读写策略, 增加了磁盘数据管理的难度。本文通过构造属主内保持强时序性、属主间保持弱时序性的数据流分段, 对构造后的网络数据流分段进行集中写入磁盘、集中建立索引等方式, 来解决传统网络数据流存储面临的问题。数据流分段之间的弱时序性是通过分段之间误差参数来控制的, 无论是网络协议栈还是网络应用程序都具有一定的时延容忍能力。例如默认的TCP 缓存区的大小是8KB, 如果能够保证各个弱时序性的分段秩小于14, 可以实现在不改变 TCP 语义的条件下, 进行网络数据流属主间的分段重组。为了实现网络数据流分段重组的目标, 本模型在内存中采用同时保证属主性和弱时序性的高速缓存结构, 在磁盘中对数据流分段建立数据流生成树的多级索引结构。
2相关算法的描述
2.1基于内存的网络数据流分段重组算法的描述
内存中的分段重组是通过散列表和循环队列实现的, 算法中的散列表保存的是不同属主的网络数据流存储位置的信息, 把同一属主内的网络报文经过散列运算后依次保存到同一个队列节点指向的数据流分段中, 通过散列运算保证网络数据流的属主性;循环队列中保存的是满足弱时序性的数据流分段, 对每个新到达的不同属主的数据流依次在队首开辟缓存空间, 而守护进程在队列尾部进行数据流分段的转存, 整个缓存和转存的过程是通过FIFO方式保证弱时序性的。对每个数据流分段之间的误差是通过每个分段的最大时间误差和秩来控制的, 当一个数据流分段超过时间误差或秩的最大限制, 设置分段满的状态标志, 表示不在本分段内继续缓存数据包, 等待守护进程进行转存数据流分段, 当仍有同一属主的网络数据流继续到达时, 重新在队首开辟缓存空间。
为了实现动态磁盘读写调度策略, 这里把循环队列分为三 个区:空闲区、工作区和转存区。空闲区是可利用的空闲队列资源;工作区是经过散列运算后, 正在写入的网络数据流分段, 工作区长度等于同时进行存储的不同属主的网络数据流数量;转存区是满足弱时序性的等待写入磁盘文件中的数据流分段, 通过观察转存区长度可以了解当时的网络流量情况, 动态调节磁盘读写速率。
算法的基本过程描述如下:
Step1 把客户端和服务器的 IP 地址经过散列运算, 得到在散列表中的表节点的索引值。如果散列表节点中没有记录, 并且冲突表为空, 在循环队列首部开辟新的队列节点, 把节点指针填入到散列表中, 进行状态记录, 把数据包数据按序插入到数据流链表结构中;如果散列表节点中有对应记录, 则取出队列节点指针。
Step2 通过队列节点的状态标志判断每个队列节点的使用状态。如果内存守护进程正在转存该节点数据, 表示内存守护进程正在转存该节点的数据, 则需要在循环队列头新开辟队列节点缓存空间, 并与散列表建立关联;如果节点为空或者正在被写入并且没有满, 表明该队列节点可用, 按序插入数据报文, 并在分段头信息中设置相应的属性值, 如果分段秩大于等于N, 设置分段满标记, 表明已达到最大数据流分段的误差, 等待内存守护进程进行数据分段转存;
Step3 在每个数据流分段转存周期内内存守护进程从队列尾部开始转存数据流分段。根据队列节点的属性值判读节点工作状态, 同时根据转存区长度‖tail-rear‖, 判断当时网络负载情况, 动态地调整转存周期的时间间隔。
Step4 定期清理散列表, 设置一个全局回收周期, 在回收周期内没有收到数据包, 则在散列表结构中清除对应项。
通过上述相关数据结构的描述和算法分析, 可以看出弱时序性的网络数据流存储结构在保持网络数据流的属主性和时序性的双重属性的前提下, 实现动态磁盘读写调度策略。对属主性的维护通过散列表实现, 对网络数据流的时序性维护通过队列的 FIFO 特性实现, 通过循环队列的分区处理, 达到对多属主数据流存储和动态调整的磁盘读写策略。弱时序性缓存结构产生的数据流分段是相同属主的网络数据报文并且报文之间具有严格的时序性, 为数据流磁盘管理提供了合理的结构。
2.2基于磁盘的网络数据流生成树的结构描述
对于由高速缓存结构产生的数据流分段, 使用数据流生成树的多极索引结构进行存储。数据流生成树是通过改进B+树来实现的。数据流生成树分为内节点和叶节点, 内节点记录索引结构数据和子树指针数据, 叶节点记录索引结构数据和数据指针数据, 数据指针指向每个分段的存储位置。数据流生成与B+树的区别是每个节点不再有最多子树的限制, 可以根据需要任意扩展子树的数目。数据流生成树不再局限于只有每个叶节点之间有兄弟指针, 内节点之间同样具有兄弟指针, 数据流生成树的高度共有五层, 每一层具有明确的逻辑含义。
设根节点为第一层, 根节点记录在一段时间内与所有Server 的通信记录;
第二层:记录每个Server 和不同的Client 之间的通信信息;
第三层:保存每个客户与服务器完整的会话的数据信息;
第四层:保存每个会话被分成的各个数据流分段的基本信息;
第五层:每个数据流分段的基本数据信息, 此时相邻数据流分段的最大时间差为最大时间误差, 每个数据流分段秩为N。
从分析可以看出, 整个数据流生成树的内节点实际上是由多级索引构成的索引树, 索引树由上到下时序性越来越强, 但是属主性越来越弱。由于网络数据流生成树在所有的内节点之间增加兄弟指针, 如果要实现针对某个节点的动态维护操作, 则整个索引树维护起来会十分复杂, 并且有些操作对于网络数据流也失去实际意义, 因此对网络数据流生成树的操作进一步限制。数据流生成树的操作仅限于数据流分段的基于状态插入和基于时序性和属主性的检索和移出, 这样把多数的对网络数据流生成树的操作转换为在同一层次上按序操作, 在满足对于数据流分段管理的同时, 也体现了网络数据流的属主性。
· 数据流基于时序性和属主性的查询 对于网络数据流的查询, 常用查询是基于时序性或者属主性的查询:
(1) 需要按照时间检索网络数据流, 可以根据第五层节点的指针依次读取各个数据流分段;
(2) 需要检索某一个客户的完整 Session 的数据流, 可以根据第四层节点指针读取各个完整 Session;
(3) 需要选择与某个服务器通信的所有客户端数据流, 可以通过第三层节点的指针依次进行查找。
上述三个查询体现网络数据流的基本特征, 是网络数据流最基本的查询操作。
· 数据流分段基于状态的插入 数据流分段的插入过程, 也是树形结构的构造过程:
Step1 如果第一层节点为空, 则根据数据流分段的头关键字, 构造第一层关键字, 并依次初始化第二层、第三层、第四层、第五层索引节点, 分配存储单元, 把数据流写入磁盘;否则进入Step2。
Step2 如果第一层节点不空, 但是没有记录, 则在第一层节点增加一条新记录, 并初始化第二层节点, 并作为第一层节点的右子树, 把原来第二层最右节点的指针指向新增节点;依次初始化第三层、第四层、第五层节点初始化, 最终把数据流分段存储在新开辟的存储单元数据块中;否则进入Step3。
Step3 第一层节点有要插入关键字记录, 根据记录进入第二层节点, 判断是否是新客户端的数据流如果是增加记录, 依次初始化其余层次的节点, 并存储数据;否则进入Step4。
Step4 第二层节点有要插入的数据流段关键字记录, 根据记录进入第三层节点, 此时判断该数据段是否是Session 建立连接状态的数据流, 如果是, 新建一个第四层节点, 作为第二层节点的右子树, 同时把该节点作为第四层节点的最右节点, 其余步骤与第三步类似;否则进入Step5。
Step5 如果不是新建连接状态的数据流, 则在第三层节点从左到右依次寻找, 找到第一个没有结束的 Session 插入数据流分段, 如果是结束 Session 的数据流, 把整个数据流标记结束, 进入第四层节点。
Step6 在第四层节点中修改节点相关信息, 建立新的第五层节点, 兄弟节点之间建立连接, 并开辟新的数据单元存储数据流, 最后返回。
· 数据流分段的移出 数据流分段的移出首先要进行查找, 然后把查找到的数据流分段进行移出, 数据流的移出操作与B+树的删除操作相似, 相区别的是不需要调整树的结构, 并且需要保持层间与右相邻兄弟之间的连接。
3系统实现及性能分析
相关算法是在基于Linux操作系统下实现的, 把Linux部署为软件路由器, 在IP层进行网络数据流复制、存储。通过在内核空间注册动态的内核模块, 挂载到Netfilter HOOK函数上, 进行网络报文捕获、过滤, 通过netlink传到用户空间, 在用户空间实现高速缓存结构。数据流分片的转存工作是由基于共享内存的守护进程来实现, 转存时间在最大的时间误差范围内, 每个数据流分段秩为N。为了便于整个系统的工作过程的跟踪和性能分析, 配置系统Log文件和系统运行Trace文件 (如图1 所示) 。
在实验中分别考察在丢包临界条件下, 本模型对于高分组速率和比特率环境下的实时存储能力。在实验中使用本文设计分段的存储模型 (PKT_s) 与传统网络报文存储模式 (PKT_t) 进行比较, 通过实验结果可以看出, 本模型无论在高报文传输速率, 还是大流量的网络背景下都具有较好地实时存储能力 (如图2所示) 。
采用网络数据流分段存储模型, 可以有效降低网络数据流存储时产生的索引数据量, 比较结果如图3所示。尽管网络数据流分段存储模型对于传统的报文存储模式具有明显的优势, 但是仍然呈现出实际存储比率随着数据流量的增加而降低的趋势, 根本原因是由于数据流分段重组时, 具有时间误差和秩的限制, 影响磁盘读写带宽的进一步提高;并且在内存中需要维护高速缓存结构, 同时增加系统的开销。
4结论
网络数据流的属主性和时序性是网络数据流存储过程中需要保持的两个基本属性, 本文根据网络数据流基本特征设计并实现网络数据流存储的基本模型。本模型包含网络数据流高速缓存结构和数据流生成树的索引结构, 进一步提高磁盘读写带宽, 并在此基础上提出同时体现网络数据流时序性和属主性的双重属性的索引结构。仿真结果表明网络数据流存储模型在高分组率和比特率的网络环境背景下, 都具有很好的实时存储能力。网络数据流存储算法模型在开封仪表有限公司生产的智能仪表中投入运用, 每年带来经济效益达1500万元, 完全符合工业现场要求, 具有很大的实际意义和应用价值。
参考文献
[1]Choi B Y, Bhattacharyya S.Observations on Cisco sampled NetFlow[C]//Proc 2005 ACM SIGMETRICS Workshop on Large Scale Net-work Inference (LSNI 2005) .Banff, AB, Canada, 2005:18-20.
[2] Zhao Q, Kummar A, Wang J.Data streaming algorithms for accurate and efficient measurement of traffic and flow matrices[C]//Proc ACM SIGMETRICS 2005.Banff, Alberta, Canada, 2005:252-255.
[3] Canali C, Cardellini V, Lancellotti R.Content adaptation architectures based on squid proxy server[J].World Wide Web, 2006, 9 (1) :70-75.
[4]Aguilar J, Leiss E L.A coherence-replacement protocol for Web proxycache systems[J].International Journal of Computers and Applica-tions, 2006, 28 (1) :12-14.
[5] Sosa V J, Gonazlez G, Navarro L.Building a flexile Web caching system[C]//Proc of the Fourth Mexican International Conference.Morelos, Mexico, 2003:61-63.
[6]Piratla N M, Jayasumana A P, Bare A A.Reorder density (RD) :a for-mal, comprehensive metric for packet reordering[C]//Proc Fourth IF-IP-TC6 Networking Conference.Ontario, USA, 2005:82-86.
数据流管理系统分析与研究 篇8
1 数据流的特点
数据流是连续的、无限的、快速的、随时间变化的数据元素的流。与传统的数据相比,流式数据具有许多特点:大量的、连续的、无限的数据;变化很快,并且要求快速的即时响应;数据流能很好地满足当今数据处理的需要;数据流管理中随机存取采用的是一种代价昂贵的单一线性的扫描算法;仅仅存储到目前为止的现有数据;大多数流式数据初始时处于较低层次或者多维状态,需要多层次化和多维化处理。针对数据流的这些特点,如何研制一个良好的数据流管理系统(DSMS)用于管理流式数据便成了一个需要解决的问题。就功能和性能而言,一个数据流管理系统与传统的数据库管理系统(DBMS)相似,不同的是前者允许一些或者所有数据都以连续的数据流的形式出现。如果将数据集看作是一个特殊的数据流,那么数据流管理系统可以定义为传统数据库管理系统的扩充。数据流管理系统既可以管理常规存储的数据(关系),又可以处理多维的、连续的、无限制的、快速的和随时间变化的数据流,支持长时间连续的查询,并且产生连续的时序的结果。
2 数据流管理系统概述
2.1 传统的DBMS与数据流管理系统DSMS的比较
传统的数据库系统旨在处理永久、稳定的数据,强调维护数据的完整性、一致性,其性能目标是高的系统吞吐量和低的代价,其设计目标是维护数据的绝对正确性、保证系统的低代价、提供友好的用户接口。这种数据库系统对传统的商务和事务型应用是有效的、成功的,然而它不适合无限、快速、实时的应用,这关键在于它不考虑与数据及事务相联的时间和空间限制,其系统的性能指标是吞吐量和平均响应时间,而不是自适应性和查询服务质量等,调度与处理决策不考虑各种时间特性。与传统DBMS一切为了保证结果的绝对正确性相反,DSMS更看重自适应性。目前还没有DBMS提供内建的功能支持近似查询回答。DBMS与DSMS的对比如表1所示。
流数据和连续查询的独特性要求数据流管理系统必须具备下述功能:
(1)数据模式和查询语义必须允许基于顺序和基于时间的操作,如在5分钟尺寸大小的移动窗口上的查询。
(2)长时间运行的查询在执行生命期中可能会遇到系统条件的变化,例如流速率的变化,需要设计具有自适应性的查询计划和调度策略。为确保可伸缩性,需要负载均衡。流查询计划可能不会使用必须在结果产生之前消耗完全部输入的模块化操作,多个近似连续查询的共享执行是必要的。
(3)在线流算法是受限的,只能一遍扫描数据。不能存储全部的流,暗示着需要使用近似概要结构,文献中称为大纲(synopses)或摘要(digests),作用在概要上的查询可能会返回不精确的结果。
(4)监控实时数据流的应用必须快速响应不同寻常的数据值。为即时准确地响应用户查询,通过服务质量保证(QoS)的检测指导系统调度和负载均衡的策略。
2.2 数据流管理系统结构
一种典型的数据流管理系统的结构如图1所示。输入监控器可用于控制输入速率。数据被分为三部分分别存储:临时工作存储(用于窗口查询)、数据流的概要存储和中间数据的静态存储(每个数据流的物理地址)。虽然可能对数据流现有状态只进行一次查询,长时间连续查询也要注册到查询库并插入到队列中等待共享处理。查询优化器与输入监控器进行交互,在改变输入速率的同时对查询计划进行重新优化,最后生成的结果也以数据流的形式显示给用户或者进入临时缓存。
数据流管理系统设计中的一个重要问题是如何有效地处理连续查询(流式查询)。所谓连续查询,是指一旦一个查询确立之后它将长时间连续执行。对数据流进行的查询为连续查询,它在一段时间内连续执行,随着新的数据的到达将不断地产生新的查询结果。例如在网络通信管理中,连续查询用于在线监控网络行为,以便及时发现异常(如连接异常)和产生异常的原因(如硬件失败、服务器受到攻击等)。连续查询还用于支持负载平衡或其他网络性能调整。在许多金融管理系统中,连续查询用于监控趋势变化并且识别一些即逝的机会。
3 连续查询中的相关技术
流式数据本身的独特性给数据流计算模型中的查询处理带来了新的挑战。传统的数据库管理系统中的触发器、物化视图等概念为流式系统的研究提供了许多借鉴之处。
3.1 块操作
所谓块操作,是指只有当获得所有的输入数据之后,输出结果的第一个元组才有可能产生的查询操作。排序就是一个块操作的典型例子。另外SUM,COUNT,MIN,MAX以及AVG等聚集操作都属于块操作。利用传统的查询操作树来对流式查询进行求值,假设数据流从叶节点输入,从根节点输出最终查询结果,则查询树中块操作的合作执行构成了问题的关键。由于连续的数据流是无限的,一个块操作将数据流作为其输入将不可能获得一个完整的输入,因此也不可能产生任何输出结果。显然,块操作不适合数据流模型的计算,然而聚集查询又是非常普通的操作,并且分类过的数据比未分类过的数据更容易处理,同时会大大提高处理的效率。由此去除所有的块操作是不切实际的,如何有效地处理它们就变成了数据流计算的一个重要的问题
3.2 无界的内存需求
由于数据流的大小可能是无界的,对一个数据流查询来讲,用于计算其确切的查询结果所需的空间也可能会无限地增长。虽然外存算法可以处理比内存处理大得多的数据集,但这种方法也不能很好地适应数据流应用的需求,因为其不支持连续查询并且速度太慢,无法实现实时响应。连续数据流模型的一个重要问题是要求及时的查询响应,并且随着时间的变化将有大量的数据以很快的速率流入。由此需要研究一种方法,对数据的处理仅局限于内存而不需要访问磁盘。AYasu等人开展了对连续查询所需内存空间计算的研究,比较了使用一定数量的内存空间,可以得出确定的计算结果的查询与除非允许访问磁盘否则只能得到近似结果的查询之间的区别,还研究了有限的一类查询,这种类型的查询对内存的需要是无法界定的。研究结果表明,如果不知道输入数据流的大小,对包括连接在内的大多数普通查询而言,则无法给定一个具体的内存需求,除非对查询中所涉及的属性域进行过严格地定义。很明显,如果没有对域进行过严格定义,则要将所有的无界属性值都记忆下来,因为在与将来出现的元组做连接时,这些值有可能会出现。如何将此研究结果一般化成了一个新的研究问题。
3.3 近似查询结果
如上所述,当局限于一定的内存空间时,对数据流的查询不可能总产生精确的结果。然而,高质量的近似结果在许多情况下也可以被接受。这就意味着需要在准确性与存储数据流摘要的存储空间之间进行折中,在此一个附加的限制是对每一个数据项的处理时间要尽量减少。最近几年对定义在数据流上的近似算法的研究已经取得了许多重要的成果。任意取样在许多情况下可以作为一种概要结构,在此,一个小小的样本可以被认为包含了一个数据集的本质特征。在一个DSMS中可能是一种最简单的概要形式,其他的纲要可以通过一个样本来建立。然而取样可能会产生一些误差,比如求最大值、求最小值等。如何有效地对数据进行取样,以及如何减少误差,则成了进一步研究的问题。纲要被用于各种聚集查询中。建立纲要的意思是使用有限的、少量的内存空间为一个数据流建立一个摘要,使用此摘要可以很容易地估计某些查询的结果(典型例子是距离查询)。Garofalakis,Gibbons J提出了一种任意纲要的思想,该方法已经被广泛采用。小波分析图通常作为一种数据的摘要表示法,系数是已给信号(数据值集)在一个基向量的正交集上的投影。基向量的选择决定了小波分析的类型。另外,直方图也是一种常用的概要结构表示方法,用于简洁地表达一个数据集合的数据值分布情况(如一个库表中的一列)。
3.4 滑动窗口
一种用于对数据流查询产生近似结果的方法是:不是对数据流的所有的历史数据进行求值,而是仅仅对数据流的最近的滑动窗口中的数据进行求值。在数据流中引入滑动窗口来产生近似的查询结果,这种方法有其自身的道理。首先,滑动窗口是被详细定义过的,而且很易理解:近似语义是很清楚的,因此系统的用户可以确信能够理解在产生近似结果时弃掉的哪部分数据。其次,由于滑动窗口具有确定性,所以不必担心不适宜的任意地选取将产生非近似的计算结果。最重要的一点是,滑动窗口强调的是最近的数据,在现实世界的大多数应用中,最近的数据要比旧的数据重要得多。
3.5 查询历史数据
在数据流的计算模型中,一旦一个数据项流过,则不能再对其进行重新访问。这种局限性意味着,在一些数据已经流过的情况下发布的即席查询将不可能得到精确的结果。一种简单的解决方法是确保即席查询只允许涉及未来的数据,也就是说,即席查询在数据流开始的地方发布,任何已经过时的数据都被忽略。这种方法对某些应用来说可能是可行的,然而仍然存在着许多问题,不能完美地满足需要。一种更好的处理历史数据的即席查询的方法是利用数据流的概要(通常意义的大纲或聚集)。采用这种方法需要事先确定如何最有效地利用内存资源,以便对一定范围的未来可能出现的查询给出最近似的查询结果。
4 结束语
近年来,数据流处理已发展为现代数据库研究的主要方向之一,受N-r数据库界和实时系统界的极大关注。DSMS需要对一系列的概念、理论、技术、方法和机制进行研究开发,数据流管理系统除了管理存储的传统关系数据之外,必须解决多重连续的无限制快速的和时变的数据流。
摘要:综述了数据流管理系统的研究现状及相关的技术,包括基本概念的阐述、流式查询中存在的问题及其解决方案,并就今后如何进行数据流管理系统的研究提出了一些新的看法。
关键词:数据流,数据流管理系统,连续查询,块操作,滑动窗口
参考文献
[1]N.Alon,Y.Matias,M.Szegedy.The Space Complexity0f Appro-Priating the Frequelacy Moments.In Proc.ACM Symp.On Theory 0f Computing,1996:20-29.
[2]A.Arasu,B.Babcock,S.Babu,J.McAlister,J.Widom.Characterizing Memory Requirements for Queriese over Continuous Data Stre-ams.In Proc.ACM.On Principles0f Database Systems,2002:2-21-232.
[3]R Ramakrishnan and J Gehrke.Database Management Systems.2nd edition.WCB/McGraw-Hill,2000.
[4]D Abadi,D Carney,U Cetintemel,M Cherniack,C Convey,S-Lee,M Stonebraker,N Tatbul,S Zdonik.Aurora:A New Mo-del and Architecture for Data Stream Management.VLDB Jou-rnal,2003-08:120-139.
[5]刘景春.数据流管理系统关健技术研究[J].黑龙江:佳木斯大学学报(自然科学版),2005,23(4):506-509.
数据流分析法 篇9
越来越多的企业认识到数据分析能够带给企业业务的价值。中桥的多选项调查结果显示 (图1) , 企业认为大数据分析能够带来的主要业务价值依次是:提高生产过程的资源利用率, 降低生产成本;根据商业分析提高商业智能的准确率, 降低传统“凭感觉”做决策的业务风险;动态价格优化利润和增长;获取优质客户。这表明大数据已经对企业的成本、业务决策、利润有着直接的影响。中桥的另外一组调研数据显示, 目前越来越多的企业级用户考虑从批量分析 (大数据创造价值的第一阶段) 向近实时分析 (第二阶段) 发展, 从而提高IT创造价值的能力。同时, 数据分析在快速从商业智能向用户智能发展。中国市场正逐步从大数据降低成本向大数据加速业务增长、提高利润以及突破创新发展。
中桥调查显示, 目前中国用户主要是通过数据分析来提高整个企业的运营效率, 降低运营成本。从图2对数据类型的调查结果来看, 目前, 中国企业的数据分析还是以结构化数据为主, 如数据库或事务性数据。此外办公文件、计算机/网络日志文件、文本/信息等也是企业数据增长的主要来源, 同时也是能够攫取出价值的数据类型。
而就导致大数据问题的数据来源调查显示 (图3) , 毫无疑问, 数据库首当其冲, 是企业大数据的主要来源;而半结构化和非结构化数据如软件和网络日志、感应数据、社群等也已经纳入企业数据分析的主要范畴, 这表明企业已经意识到这些数据对于业务的重要性, 这也是实现从 (大) 数据分析第一阶段到大数据分析第二阶段的必要条件。也成为未来24个月用户通过IT创造价值的IT投资重点。
中国市场大数据分析方法
在了解了企业大数据的来源和种类之后, 如何采取有效方式对这些数据进行分析, 从而最大程度攫取数据价值, 转化为最明智的商业决策以利于企业业务运营, 是企业对大数据进行分析的目的所在。从目前中国大数据分析的分析方法来看 (图4) , 有33.8%的企业选择针对具体工作负载来调整通用数据库;22.0%的受访企业选择数据分析云计算服务 (如软件即服务和/或基础设施即服务) ;还有20.7%的企业选择自定义开发的解决方案。仅4.8%的用户使用了并行处理 (MPP) 分析数据库, 3.3%使用了对称处理 (SMP) 分析数据库。这一结果表明, 大多数的中国企业仍处于数据分析的第一阶段。而且, 目前中国用户大多采用通用数据库、云计算或自定义开发的解决方案和数据库工具作为大数据分析方法, 而没有选择去购买数据分析的软件。
数据流分析在典型故障中的运用 篇10
一、几种常用的数据流分析法
1.数值分析法:数值分析是对数据的数值变化规律和数值变化范围的分析, 即数值的变化, 如转速、车速、电脑读值和实际值的差异等。
2.时间分析法:电脑在分析某些数据参数时, 不仅要考虑传感器的数值, 而且还要判断其响应的速率, 以获得最佳效果。
3.因果分析法:因果分析法是对相互联系的数据间响应情况和相应速度的分析。在各个系统的控制中, 许多参数是有因果关系的。如电脑得到一个输入, 肯定要根据此输入给出下一个输出, 在认为某个过程有问题时可以将这些参数连贯起来观察, 以判断故障出现在何处。
4.关联分析法:电脑对故障的判断是根据几个相关传感器信号的比较, 当发现他们之间的关系不合理时, 会给出一个或几个故障码, 或指出某个信号不合理。此时不要轻易断定是该传感器不良, 需要根据他们之间的相互关系做进一步的检测, 以得到正确的结论。
5.比较分析法:比较分析法是对相同车型及系统在相同条件下的相同数据组进行的分析, 通过分析可以得出相应的结论。
二、典型故障分析
在发动机电控系统正常工作时, 我们知道ECU将以一定的时间间隔不断地接收各个传感器的输入信号和向各个执行器发出控制指令, 对某些执行器的工作状态还根据相应传感器的反馈信号再加以修正。因此我们可以借助这个逻辑关系利用故障诊断仪读取这些信号参数的数值, 并加以分析得出故障原因。
例如一辆搭载1.6AT的卡罗拉轿车在行驶4万多km时发生轻微抖动的故障, 技术人员接车后首先怀疑的肯定是某缸不工作造成的, 于是开始做断缸试验, 做完断缸试验后才发现不是最初判的那样。然后再利用诊断仪读取故障码, 两次进入程序均只能读到“系统正常”的字样, 随后读取动态数据流, 但由于没有正确的数据做参考, 技术人员也不知道哪个数据能体现故障特征, 好像都有问题又好像都没问题, 此时很多技术人员就开始摸不着头脑了, 不知从何下手。到此, 我们说如果技术人员拥有正常的数据流, 同时又懂得如何利用数据流分析故障, 那么处理这类故障就非常简单。
首先我们利用诊断仪读取故障下的相关数据, 如表1所示。当然除此之外还有很多数据因故障的存在发生了改变, 这里我们只要选取几个能体现故障特征的数据就可以了。下面我们再拿出该车正常的数据, 如表2所示, 这些数据并非从卡罗拉1.6AT维修手册中查得, 而是技术人员在日常维修过程中从运行正常的车上读取到的。我们将这两张表对应起来, 不难发现这样几个数据就是我们排除故障的关键, 为什么这样说呢?其实数据之间存在着一种因果关系或者逻辑关系, 这对我们分析车辆的故障非常重要。下面我们对这些数据做具体分析, 看看这些数据之间存在怎样的关系。
一台发动机要想运转, 首先必须具备油、气、火这样三个要素, 那么要想排放正常以及让乘员舒适还必须有很多附加元器件参与工作, 比如氧传感器、水温传感器等。那么要想排放正常就必须要求前方的油、气混合达标, 以及点火必须恰到好处, 否则氧传感器就会将不正常的信号反馈给电脑, 由电脑决定改变油、气的混合程度, 以及点火时刻, 尽量将发动机维持在正常工作状态。
知道这层关系之后, 我们来看看两表中的MAF和喷油脉宽, 发现当MAF变小时喷油脉宽也变小了, 当MAF变大时喷油脉宽也变大了, 表面上好像混合比没什么大的变化。但我们再结合两表中O1S1的数据就会发现, 表1中的O1S1只能在0.01~0.03V之间跳变, 而表2中的O1S1能在0.1~0.85V之间跳变, 这说明故障时该车怠速下的混合气一直处于过稀的状态。再比较一下2000r/min下的数据, 发现故障时的混合气仍然过希。我们知道过稀的原因可能是由于气多油少造成的, 为了证实这个现象, 我们再来对比一下2个表中的怠速转速, 发现在故障下的转速比正常情况下的转速还要高, 因此我们可以肯定引起故障的原因就是由于漏气造成的, 且通过分析我们准确定位在了空气流量计后方。
有人可能要问为什么漏气会造成表1中的MAF数据减小呢?原因是由于空气流量计只能监测当下通过的空气量, 而不能监测实际流入气缸的空气量, 也就是说如果在空气流量计后方漏气该流量计是无法检测的。又因为节气门后方真空度的存在, 在故障状态下工作时被吸入缸体的空气大部分是从空气流量计后方漏气部位吸入的, 但由于吸力很大, 漏气部位不能提供足够的空气, 于是还有部分空气仍从空气流量计处被吸入缸内, 此时空气流量计只能检测到这一小部分空气, 所以此时显示的空流量比较小。两股空气加在一起, 造成实际进入缸体内的空气量并没有减少, 只是空气流量计只检测到了1.45~1.53g/s的空气量。此时为了尽量让发动机维持在正常工作状态, 电脑在接收到只有1.45~1.53g/s的空气量之后, 立刻发送指令让喷油器少喷油, 但由于实际进入缸内的空气量并没有减少, 于是就造成了前面我们所说的气多油少的局面, 从而导致O1S1检测到混合气过稀。随后, 我们在空气流量计后方对几根软管一一做了试验, 发现炭罐电磁阀处于常通状态, 更换该电磁阀后试车, 发现所有数据都回到了表2的状态, 发动机工作正常, 说明该电磁阀导通就是造成漏气的原因。在这个故障中我们还可以利用发动机控制系统的长、短期燃油修正值以及节气门开度等数据一并进行分析。
在上面案例分析中, 我们运用了数据流分析法中的数值分析法、比较分析法以及关联分析法。我们的技术人员如果都能灵活运用数据流分析中的这些分析法, 同时又懂得如何分析这些数据, 弄清各数据间存在的逻辑关系或因果关系, 我们相信即使是没有多年工作经验的技术人员也能将大部分故障在短时间内排除。
基于大数据环境下的气象数据分析 篇11
关键词:大数据 气象数据 分析
中图分类号:TP311.52 文献标识码:A 文章编号:1674-098X(2016)04(c)-0079-02
在社会的发展过程中,天气对社会中的很多行业都有一定的影响。在当前阶段,天气预报作为我国主要对天气进行预测的手段就对数据进行了一定的应用,但是随着大数据时代的到来,不仅是数据的数量,还是数据所隐藏的信息都有了很大的增加,在这种情况下,只是天气预报一种使用数据的手段就不能满足社会发展的需求,在这种条件下,加强对气象数据的研究,使其在气象工作中发挥出更大的作用,为人们的生活、工作提供良好的帮助。
1 大数据
1.1 大数据的内容
在当今社会的发展中,网络技术得到了大力的发展,在这种情况下,在网络中就会出现大量的数据,这些数据就构成了大数据,这些数据具有一定的实时性,其本质不在“大”上面,而是要对这些数据进行有效分析,将数据中所包含的内容全部挖掘出来,使用挖掘出来的信息来进行工作。因此,大数据就不只是对数据数量的一种诠释,更是对数据进行处理的一种手段。这就表示其与以往的数据有很大的不同,首先就可以发现两者之间规模具有很大的区别,其次是在对数据使用时,使用的方式也完全不同,在使用传统的数据时,只是使用单一的或者几种方式就可以了,而在使用大数据时,往往需要很多的方式才能完成[1]。
1.2 大数据的特征
随着社会科技的不断发展,大数据的应用越来越广泛,其特征也随之在增加。在大数据刚刚出现时,只是具有数据量大、处理传输的速度较高、数据的种类较多3个特征,而随着大数据的发展,在大数据的特征中又加入了数据真实性的特征,而到了现在,随着商业活动的不断增加,使数据又有了商业价值大的特征。根据这些特征可以发现,这些大数据中都含有一定的信息,为了将数据中的信息进行使用,就需要一定的手段将其从这些数据中寻找出来,这也是当前阶段中一个重要的工作内容。
2 气象数据
2.1 气象数据的内容
在气象部门工作的过程中,会出现很多的数据,其包括了气候数据与天气数据,这些数据统称为气象数据。气候数据就是使用一定的检测仪器对环境进行测量,将测量到的结果进行分析与整理所得到的数据。而随着社会的发展,世界各国对气候的研究有了更深层次的理解,使气候数据的内容有了进一步增长。天气数据就是为了推测天气变化而产生的数据,这些数据大部分是来自于卫星传输的。两者之间的区别主要在于前者往往反映的是一个地区长时间的环境变化,而后者只是表现了一个地区在一定的时间内的环境变化。但是两者之间还有一定的联系,对很长时间的天气数据进行分析与整理,就可以确定出某个地区的气候数据[2]。由于很多因素的存在,导致在我国当前阶段中对气象数据研究的对象为天气数据。
2.2 气象数据的特征
气象数据作为大数据中的一种,因此,其具有的特征就是大数据存在的一些特征。对其具体分析后可以发现,首先就可以发现其具有数据量大的特点:在气象部门发展的过程中,国家安装了很多雷达设备以及地面接受装置,同时,随着科技的发展,卫星技术的不断成熟,我国也向太空发射了一些气象卫星,在这些设备的使用过程中,产生了大量的数据,使其数量大的特点很好地体现出来。但是,对气象的观察并不是一直在进行的,这就使其产生的数据不是无限增长的[3]。同时其还具有一定的商业价值:在气象数据产生的过程中,来源比较单一,内容比较重复,这就不能使其自身带来经济价值,但是,其不能受到人为的干扰,在交通、旅游等行业中,就可以被很好地使用,将其商业价值很好地体现出来。
3 大数据对气象数据的影响
3.1 数据采集的影响
在对当前气象数据的采集过程中,已经将“大”的特点体现出来,但是这些只是对字面上的体现,而没有真正体现出来其真正的含义。在当前对气象数据的研究中,只是针对专门的气象数据进行研究,而与气象数据有关的其他数据研究得比较少,其中存在的利用价值很难被人们使用。因此,在对气象数据进行采集的过程中,不仅要将纯气象数据寻找出来,还要对其他气象中有关的数据进行采集。例如人们远距离出行要坐飞机,这时就可以对航班的信息进行了解,使人们出行更加便捷[4]。
3.2 数据存取的影响
由于大数据存在数量大的特点,这就为其存取造成了一定的影响。首先就是储存容量的问题,在我国当前阶段中,由气象产生的数据达到了5 PB(5×10245 B),需要的储存空间相当大。其次是存取速度的问题,由于数据量较大,在寻找有用数据的过程中需要花费一定的时间,可能达不到“1秒钟输出结果”的定律。在这两个问题当中,既有一定的联系,又存在着一定的矛盾,因此,在对气象数据存取时,就要进行统筹管理。对数据储存环境的扩建不是根本的解决办法,而是要加强对大数据的管理。在存储过程中,使用有效的方式对其进行分类,将其按照每种分类进行管理,使数据系统的性能更加强大[5]。
3.3 数据分析的影响
在气象部门的工作过程中,很早就将对气象数据的分析作为了主要的任务,但是在大数据环境下的分析还处在起步的阶段,其他行业大数据的分析过程中为气象行业的数据分析提供了良好的保证。在气象部门进行数据分析的过程中,将相对关系进行有效把握,对其进行良好分析,就可以对未来做出预测。而在大数据环境下,气象数据的数量得到了一定的增加,对未来预测的过程中就有更多的数据来进行分析,可以保证预测的结果更加准确。
4 结语
在对当前阶段中的气象数据进行分析可以发现,大数据对气象工作产生的影响有很多,上述几点只是其中影响最广泛的几点。从国家的发展角度来说,在大数据环境中,气象数据面向社会各界是必然的趋势,加快了社会各行业的发展;从公共服务角度来说,要对大数据进行有效分析,将数据中人们的需求信息寻找出来,根据这些信息加强对服务的改善,使其能满足人们的需求。在当今社会中,大数据对社会的影响还会继续的增加,在这种情况下,有效地利用好大数据就可以使其更好地发展。
参考文献
[1]刘立明,王彬.气象网格环境下大数据的端到端传输机制研究[J].计算技术与自动化,2014,8(1):122.
[2]刘培宁,韩笑,杨福兴.基于R语言的NetCDF文件分析和可视化应用[J].气象科技,2014,4(4):629.
[3]米卫红,巢惟忐,支星,等.移动互联网环境下的上海市气象信息数据发布:需求、现状与探索[J].电子政务,2014,10(11):23.
[4]聂俊岚,刘益萌,陈贺敏.非线性映射的气象数据可视化及其应用[J].燕山大学学报,2015(3):276.
数据流分析法 篇12
ECU中记忆的数据流真实地反映了各传感器、执行器的工作电压和状态, 为故障诊断提供了依据。数据流只能通过专用诊断仪器读取。数据流可以作为ECU的输入、输出数据, 使维修人员随时可以了解汽车的工作状况, 及时诊断汽车的故障。读取数据流不仅可以检测各电气元件的工作状态, 通过数据流还可以设定汽车的运行数据。
一、数据流中数据参数的分类
根据数据在检测仪上显示的方式不同, 数据参数可以分为2大类, 即数值参数和状态参数。数值参数是有一定单位、一定变化范围的参数, 它们通常反映电控装置中各部件的工作电压、压力、温度、时间、速度等;状态参数是那些只有2种工作状态的参数, 如“开”或“关”、“闭合”或“断开”、“高”或“低”、“是”或“否”等, 它们通常表示电控装置中开关和电磁阀等元件的工作状态。
根据ECU的控制原理, 数据参数又分为输入参数和输出参数。输入参数是指各传感器或开关输入给ECU的参数, 输入参数可以是数值参数, 也可以是状态参数;输出参数是ECU输出给各执行器的指令, 输出参数大多是状态参数, 也有少部分是数值参数。
数据流显示功能不仅可以对控制系统的运行参数 (最多可达上百个) 进行数据分析, 还可以观察ECU的动态控制过程。因此, 它具有从ECU内部分析其工作过程的诊断功能。
二、测量数据流的方法
一般用电脑通信的方式来获得数据流, 即通过控制系统在诊断插座中的数据通信线将控制电脑的实时数据参数以串行的方式传送给电脑诊断仪。数据流中包括故障信息、控制电脑的实时运行参数、控制电脑与诊断仪之间的相互控制指令, 诊断仪在接收到这些信号数据以后, 按照预定的通信协议将其显示为相应的文字和数码, 以便维修人员观察系统的运行状态并对这些内容进行分析。
电脑诊断仪有2种, 1种为通用诊断仪, 另1种为专用诊断仪。
通用诊断仪的主要功能有:控制电脑版本识别、故障码读取和清除、动态数据参数显示、传感器和部分执行器功能测试与调整、某些特殊参数的设定、维修资料及故障诊断提示、路试记录等。通用诊断仪可以测试的车型较多, 适用范围较广, 因此被称为通用型仪器。但是, 通用诊断仪无法完成某些特殊功能, 这也是大多数通用仪器的不足之处。
专用诊断仪是汽车生产厂家自行设计或委托设计的专业测试仪器, 只适用于本厂家生产的车型。专用诊断仪除具备通用诊断仪的各种功能外, 还有参数修改、数据设定、防盗密码设定和更改等各种特殊功能。
三、常用数据流分析方法
◎数值分析法:数值分析法是对元件所测数值的变化规律和范围进行分析, 如转速、车速、电脑读数与元件实际值之间的差异等。
◎时间分析法:时间分析法是对数据变化的频率和周期进行分析, 如氧传感器的数据。
◎因果分析法:因果分析法是对相互间有联系的相应数据的响应情况和响应速度进行分析, 如EGR阀和EGR位置传感器之间的关系。
◎比较分析法:比较分析法是对相同的车型和系统在相同的工况下进行数据流的比较分析, 对间歇性故障出现的某个瞬间的1个或数个数据进行对比分析, 很容易找出故障原因。
◎关联分析法:关联分析法是对互为关联的几个数据进行逻辑关系分析和推理, 如发动机转速、节气门位置、空气流量与喷油时间等。
在进行电控装置故障诊断时, 还应将几种不同类型或不同系统的参数进行综合对照分析。不同厂家及不同型号的汽车, 其电控装置的数据流参数名称和内容都不完全相同。
四、主要数据流的分析运用
1. 节气门开度
节气门开度是一个数值参数, 其单位根据车型不同有3种, 若单位为电压 (V) , 则数值范围为0~5.1V;若单位为角度 (°) , 则数值范围为0°~90°;若单位为百分数 (%) , 则数值范围为0%~100%。
该参数的数值表示发动机电脑接收到的节气门位置传感器的信号值, 或是根据该信号值计算出来的节气门开度的大小。其绝对值小, 则表示节气门的开度小;其绝对值大, 则表示节气门的开度大。
在进行数值分析时, 应分别检查节气门全关和全开时参数值的大小。当节气门全关时, 以电压为单位的参数值应低于0.5V;以角度为单位的参数值应为0°;以百分数为单位的参数值应为0%。当节气门全开时, 以电压为单位的参数值应为4.5V左右;以角度为单位的参数值应大于82°;以百分数为单位的参数值应大于95%。若参数值有异常, 可能是节气门位置传感器调整不当或有故障, 也可能是线路故障或电脑内部有故障。
线性节气门位置传感器输出与节气门开度成比例的电压信号, 控制系统根据其输入的电压信号判断节气门的开度, 即发动机负荷的大小, 从而决定喷油量等参数的控制。如果传感器的特性发生了变化, 即由线性输出变成非线性输出, 传感器输出的电压信号虽然在规定的范围内, 但并不与节气门开度成规定的比例, 发动机会出现工作不良的现象, 但故障指示灯不会点亮, 当然也不会有故障代码。
2. 发动机转速
发动机转速是由电控单元 (ECU) 或动力系统控制模块 (PCM) 根据发动机的点火信号或曲轴位置传感器的脉冲信号计算而得的, 它反映了发动机的实际转速。发动机转速一般以“r/min”为单位, 其变化范围为0至发动机最高转速。该参数本身并无分析价值, 一般用于对其它参数进行分析时作为参考基准。
3. 氧传感器工作状态
氧传感器工作状态参数表示由发动机排气管上的氧传感器测得的排气中氧气含量的状况, 有些双排气管的汽车将这一参数显示为左氧传感器工作状态和右氧传感器工作状态2个参数。排气中的氧气含量取决于进气中混合气的空燃比。
氧传感器是测量发动机混合气浓稀状态的主要传感器。氧传感器必须被加热至300℃以上时才能向发动机电脑提供正确的信号。发动机电脑必须处于闭环控制状态才能对氧传感器信号做出反应。
氧传感器工作状态参数的类型依车型而有所不同, 有些车型以状态参数的形式显示, 其变化为“浓”或“稀”;有些车型将它以数值参数的形式显示, 其单位为“m V”。“浓”或“稀”表示排气的总体状态, “m V”表示氧传感器的输出电压。
在发动机热车后以中速 (1500~2000r/min) 运转时, 该参数呈现“浓/稀”交替变化, 或输出电压在100~900m V之间反复变化, 每10s的变化次数应大于8次 (0.8Hz) 。若该参数变化缓慢或不变化, 或者数值异常, 说明氧传感器或电脑内的反馈控制系统有故障。
氧传感器工作电压过低 (一直在0.3V以下) 的主要原因有:喷油器泄漏;燃油压力过高;活性碳罐电磁阀常开;空气质量传感器有故障;氧传感器加热故障或氧传感器脏污。
氧传感器工作电压过高 (一直在0.6V以上) 的主要原因有:喷油器堵塞;空气质量传感器有故障;燃油压力过低;空气质量传感器与节气门之间有未经计量的空气;排气歧管垫片处有未经计量的空气;氧传感器加热故障或氧传感器脏污。
氧传感器工作电压不正常可能引起的主要故障有车辆加速不良, 行驶时“发冲”, 排气管冒黑烟, 有时发动机自行熄火。
4.5V基准电压
5V基准电压是一个数值参数, 它是表示发动机电脑向某些传感器输出的基准工作电压的数值, 其变化范围为0~5.12, 单位为“V”。大部分汽车发动机电脑的基准电压均为5.0V左右。该电压是衡量电脑工作是否正常的一个基本标志, 若该电压异常, 则表示电脑有故障。
5. 喷油脉宽信号
喷油脉冲宽度是发动机电脑控制喷油器每次喷油的时间长度, 是喷油器工作是否正常的最主要的指标, 该参数所显示的喷油脉冲宽度数值的单位为“ms”。该参数显示的数值大, 表示喷油器每次打开喷油的时间较长, 发动机将获得较浓的混合气;该参数显示的数值小, 表示喷油器每次打开喷油的时间较短, 发动机将获得较稀的混合气。喷油脉冲宽度没有一个固定的标准, 它随着发动机转速和负荷的不同而变化。
影响喷油脉冲宽度的主要因素如下:λ调节、活性碳罐混合气浓度、空气温度与密度、蓄电池电压 (喷油器打开的快慢) 。
喷油量过大的常见原因有空气流量计损坏;节气门控制单元损坏;有额外负荷;某缸或数缸工作不良。
1) 利用燃油控制系统检查喷油脉宽
使发动机运转5min以上, 进入闭环控制状态 (氧传感器信号参与发动机反馈系统) , 然后关掉所有附属用电设备, 检查喷油脉宽。
取掉油压调节器上的真空管并用软塞堵好, 此时发动机转速上升。夹住回油管使油压增高, 如果反馈系统正常, 氧传感器也正常, 可以看出喷油脉宽减少, 一般减少0.1~0.2ms, 这是电脑对过浓的混合气进行修正的结果。还可以人为地造成真空泄漏, 使混合气变稀, 如果系统工作正常, 喷油脉宽将增加1.01~1.04ms, 这是电脑对过稀的混合气进行补偿的结果。
2) 利用怠速喷油脉宽诊断油路故障
发动机热车怠速运行时, 正常的喷油脉宽一般为1.5~2.9ms, 如果喷油脉宽达到2.9~5.5ms, 一般是喷嘴有堵塞现象。在新车运行一段时间后, 喷嘴就会有不同程度的堵塞, 使喷油量减少, 电脑认为空燃比增大 (即混合气稀) , 怠速转速下降, 就会修正喷油脉宽, 修正怠速控制信号, 使怠速转速达到目标值。这个循环反复进行, 怠速喷油脉宽就越来越大。同时, 发动机电脑将此时的怠速控制阀位置 (步进电机步数或脉冲阀的占空比信号) 储存下来, 以备下次起动时参考。由于各缸喷油嘴堵塞的程度不一样, 而发动机电脑向喷油嘴提供的喷油脉宽是一致的, 导致发动机工作不稳、动力不足、加速不良、燃油消耗量增加等。
刚清洗的喷油嘴装车后发动机转速会聚然提高, 这是因为发动机电脑长期燃油修正的结果, 它记忆着学习以来的数据, 并以此控制怠速, 使混合气过浓。这里有一个重新学习的过程, 因车型不同学习时间也不尽相同, 有些车几秒钟就可以了, 有些车则需要更长的时间。
清洗喷油嘴后如果怠速喷油脉宽仍然很大, 且通过查看数据流可以确定空气流量计、进气压力传感器、氧传感器、冷却液温度传感器均无故障, 则故障很可能是由于燃油压力过低引起的, 需要用燃油压力表检查油泵和油压调节器是否有故障。
6.进气怠速控制
进气怠速控制参数是一个数值参数, 它表示发动机电脑控制的节气门体上的怠速控制阀的开度。根据车型的不同, 检测时该参数有采用百分数 (%) 表示的和不采用百分数表示的2种情况, 其数值范围有0%~100%、0~15和0~255等3种情况。该数值小, 表示怠速控制阀的开度小, 经怠速控制阀进入发动机的进气量少;该数值大, 表示怠速控制阀的开度大, 经怠速控制阀进入发动机的进气量多。
在进行数值分析时, 通过观察该参数可以监测到电脑对怠速控制阀的控制情况, 以作为判断发动机怠速故障或其它故障时的参考。
7.点火提前角
点火提前角是一个数值参数, 它表示由发动机电脑控制的总点火提前角 (包含基本点火提前角) , 其变化范围为-90°~90°。在发动机运转过程中, 该参数值取决于发动机工况及有关传感器信号, 通常在10°~60°之间变化。
在进行数值分析时, 应检查该参数能否随发动机工况的不同而变化。在发动机怠速运转时, 该参数通常为15°左右;在发动机加速或中、高速运转时, 该参数会增大。如果该参数在发动机不同工况下保持不变, 说明发动机电脑有故障。
【数据流分析法】推荐阅读:
网络数据流分析07-18
数据流分类算法分析06-27
数据分析师和大数据10-18
大数据挖掘与数据分析01-03
分布式数据流系统分析07-16
分析数据模型08-03
数据整合分析08-05
数据业务分析08-05
数据分析09-06
数据建模分析01-24