数据采集与智能化分析(精选12篇)
数据采集与智能化分析 篇1
0 引 言
近年来我国公路和桥梁建设保持了持续发展的良好态势,公路和桥梁设施的检测与维护已成为当务之急。桥梁检测车(Bridge Inspect Vehicle)已经成为国家重要的基础建设之一,桥梁检测技术已成为重要的研究领域。为了快速、便捷地对桥梁外观实施检测,智能、精确地识别出桥梁病害的特征参数,提出了智能化桥检车图像采集分析系统。
智能化桥检车图像采集分析系统的设计目标是能够在工作人员的控制下对桥梁外观实施自动扫描,提高桥梁检测效率,并将扫描的高清晰图像实时传输到控制中心,供工作人员观察、分析、存储等操作,还能够对桥梁病害自动识别,并触发报警、记录、存储等联动事件[1,2]。
1 桥检车图像采集系统概述
智能化桥检车图像采集分析系统是基于研制的桁架式桥梁检测车而开发的,本系统采用1 628×1 236高分辨率工业摄像机、电动三可变专业镜头、机器视觉专用视频采集卡采集高分辨率图像,并采用多角度和多光谱照明的成像融合技术提高桥梁病害图像的对比度;采集到的视频图像能够实时动态显示(放大、缩小、多屏等方式)、存储,并采用先进的图像处理识别算法自动识别桥梁病害;在采集视频图像的同时,雷达测距仪和里程计分别采集检测点位置的x坐标和y坐标,并与其他相关信息同时写入数据库,在图像历史记录回放时利用这些数据能够快速检索并定位到要查找的图像帧[3,4,5]。
一般情况下大型桥梁的半幅宽度为13 m左右,桥检系统需要检测的桥梁细节为1 mm,因此在桥梁宽度方向采集的像素点应不少于13 000个。水平分辨率为13 000点的工业摄像机还不多见,如果要一次完成桥梁宽度方向的图像采集只能采用多摄像机拼接的方式。为了既降低成本,又不会对桥梁检测效率造成大的影响,本系统采用单摄像机以扫描的方式实现桥梁外观检查,桥检车自身移动实现X方向扫描(桥梁纵向),摄像机滑动实现Y方向扫描(垂直桥梁方向),示意图如图1所示。
2 桥检车图像采集系统硬件设计
采用单摄像机扫描的智能化桥检车图像采集分析系统硬件构成如图2所示[6,7]。
2.1 桥检车图像采集部分硬件设计
桥检车的图像采集部分由工业用面阵摄像机、电动三可变镜头、专用视频采集卡、云台及控制器等组成,实现高分辨率高清晰度图像的采集。其中工业用面阵摄像机、电动三可变镜头、云台及控制器位于远端(滑动部分),专用视频采集卡位于中心(工控机部分),图像采集部分结构示意图如图3所示。
由于图像采集摄像机距离控制室工控机距离很远(大于20 m),而CamLink接口和1394接口的摄像机传输距离较近,因此都不能够直接使用,经综合比较本系统选用模拟接口摄像机CV-A2。CV-A2是一款1 628×1 236分辨率的逐行扫描CCD黑白摄像机,最高分辨率下的扫描速率为15帧/s,有内部和外部两种同步方式,并可通过RS 422串口由成像控制模块控制。
为了更方便地观察桥梁表面细节和更好的控制成像质量,需要选用电动三可变镜头,即镜头的焦距、光圈和聚焦都可以通过解码器由远端控制器控制。
2.2 桥检车工控机部分硬件设计
工控机部分采用研华公司的产品,研华公司是国际知名的工业控制及自动化设备提供商,其产品稳定、可靠性高。在本系统中,为了便于控制和监视桥检过程,采用两个液晶显示器,每个显示器的分辨率不小于1 280×1 024的21寸液晶显示器,这就要求工控机有双图形输出接口,因此需要工控板具有AGP或PCI-E图形卡扩展插槽。在本系统中采用Intel公司的双核CPU Pentium D 945,内存采用两条金士顿DDRⅡ667 1 GB内存;硬盘容量320 GB,选用AIMB-762型ATX工控主板。采用以上配置的工控机,能够实现图像采集、实时预览、采集控制、数据存储及检索回放等功能,并能够实现桥梁病害的自动识别、报警。
3 桥检车图像采集系统软件设计
智能化桥检车图像采集系统软件部分采用C语言编写,图像信息存储采用SQL数据库。该系统由两个独立的软件组成:检测数据采集软件和数据检索软件。检测数据采集部分完成系统的实时控制和数据的实时采集功能,实时控制包括所有前端硬件设备,数据采集功能完成图像数据采集、图像数据实时分析(桥梁表面病害分析等)、实时存储(桥面图像以及相关参数的数据库存储)以及采集配置(数据库名、采集参数等)等功能。数据检索软件可以使用户方便的对采集数据进行浏览、查询、输出等操作[3,4,8,9]。
3.1 检测数据采集软件
检测数据采集软件在用户需要对桥面进行实时检测时使用,是用户用于完成桥面检测和桥面数据采集的控制程序。此软件完成以下主要功能:检测数据采集,包括全景图像、检测图像以及各种相关采集参数;检测设备控制,包括前端摄像机、辅助照明等;检测数据存储,实时存储各种检测数据以及病害数据。
检测数据采集软件结构如图4所示。检测图像分析控制调用图像分析函数,获取各种分析数据并根据分析结果控制采集和分析数据的存储过程。
3.1.1 数据存储结构
图5为采集数据在硬盘中的存储目录结构。检测数据采集软件按照此目录结构进行数据存储。每一次新的检测称为一个项目,由用户指定一个项目名称,检测数据采集软件自动建立一个以项目名称为名字的项目根目录,所有检测数据均保存在项目根目录中。项目根目录中的文件和文件夹定义如下:pjt文件,此文件保存项目初始化数据和全局信息,包括:项目名称、项目建立时间、项目数据库名、检测桥路名称、检测人员(支持多个人员)、检测类别、图像存储相对路径;dbc文件,此文件为项目数据库文件,数据库中除了保存pjt文件中的全局信息外,还要保存如下信息:记录索引、图像索引、X方向位移、Y方向位移、坐标原点、检测图像比例尺、病害参数、病害等级。
3.1.2 图像存储目录
图像存储目录主要用来保存采集的图像信息,每个图像存储目录最多保存1 000幅检测图像数据和1 000幅全景图像数据。图像数据所占磁盘空间非常大,为了使用户可以在以后的任何时刻方便地检索DVD盘片中的图像数据,数据检索软件应该允许用户动态配置图像存储目录,检索软件自动根据图像存储目录中的图像数据调整数据库中记录的检索范围。图6为数据库中记录表之间的关系图。
数据库由5个表组成,分别为:项目信息表、原点信息表、人员信息表、图像信息表和病害信息表。各个表之间通过索引字段建立一对多的关系。
3.2 数据检索软件
数据检索软件可以使用户方便地对采集数据进行浏览、查询、输出等操作。该软件的主要功能为:
全局浏览:依次浏览所有采集数据。浏览内容包括检测图像、全景图像、以及其他所有检测参数和图像分析结果。
按查询浏览:按照特定条件查询并浏览查询结果。用户可以按照病害等级、X方向位置、Y方向位置以及上面三个参数的组合进行查询,查询条件可以为大于、小于、等于(只限于病害等级)以及三个查询条件的组合。
查询输出。
图7为数据检索软件结构图。ODBC驱动程序模块由ACCESS驱动程序提供,实现ACCESS数据库的访问;存储管理实现ODBC驱动程序和GUI之间的接口以及图像数据的读取操作;数据检索GUI为用户操作界面,向用户提供所有软件功能接口,数据采集软件用户接口示意图如图8所示。
4 结 语
本文从智能化桥检车图像采集分析系统设计的实际需求入手,对系统进行了软硬件设计,实现了高分辨率图像采集,对桥梁外观实施自动扫描,实际应用表明该系统可以快速、便捷地对桥梁外观实施检测,并能智能、准确地识别出桥梁病害的特征,为桥梁检测车的发展和桥梁健康诊断技术的发展提供了很好的技术资料。
摘要:介绍了智能化桥检车图像采集分析系统的软硬件设计方案,该系统基于高分辨率工业摄像机、机器视觉专用视频采集卡,实现高分辨率图像采集,对桥梁外观实施自动扫描,提高桥梁检测效率,还能够对桥梁病害自动识别报警,从而弥补了传统检测方式的不足。
关键词:桥梁检测车,图像采集,图像存储,图像检索
参考文献
[1]杨侃.QJ20型桥梁检测车[J].筑路机械与施工自动化,1996(6):18-19.
[2]厉军.QJ10型自行式桥梁检测作业车液压传动系统[J].液压与气动,1999(1):8-9.
[3]王萍,赵刚.基于USB 2.0的图像采集系统设计[J].国外电子测量技术,2005(12):27-29.
[4]苏建坡,马海涛,唐玉国.基于USB 2.0及GPIF的CMOS图像传感器视频实时采集系统[J].仪表技术与传感器,2006(9):35-37.
[5]陆洲,王宝光.基于FPGA的嵌入式彩色图像检测系统[J].传感技术学报,2007,22(3):618-622.
[6]萧世文,宋延清.USB 2.0硬件设计[M].北京:清华大学出版社,2006.
[7]徐灏,蔡春源,严隽琪,等.机械设计手册[M].2版.北京:机械工业出版社,2002.
[8]Xie Xiang.A New Approach for Near-lossless and LosslessImage Compression with Bayer Color Filter Arrays[A].Third International Conference on Image and Graphics[C].2004:357-360.
[9]邓鲁华,宗光华,王巍.远程多路视频信号无线传输采集系统设计[J].沈阳航空工业学院学报,2007(24):57-59.
数据采集与智能化分析 篇2
这个时代价值观太多,要学的知识太多,穷尽一生也追求不完,我读书的一个心法是认准一个作者,相信他所说的都是对的。我觉得这本书的作者就很对我的胃口,在此把作者的名字一并记录下来,吴军。
前几个月,我和几个朋友一起吃饭,一个朋友还说到,中国人真笨,发展了这么多年,经济还是没有搞上去,中国五千年的文化有什么用嘞,搞来搞去人还是饭都吃不饱,还赶不上人家西方几次工业革命,读书有什么用嘞,读历史没什么意义。我还跟他说,我要把我看的书留给我的下一代看,他就笑我说,到时候你的这些书早过时了,要是天天给他们看这些,你们的日子只会越过越穷。我当时什么也没说,因为我脑子什么也反映不出来了。今天我就用这本书来反驳他吧。
我倒是认为中国人是这个世界上最聪明的。为什么这样说,我先从西方世界谈起。外国人之所以这么牛逼,倒不是他们有多聪明,是因为他们发明了方法论,他们说大胆假设,小心求证(这就使得西方人很有怀疑精神,这决定了他们的思维朝着追求因果一一对应的方向发展):他们研究问题用大样本随机双盲试验(西医就是在这种试验模型下一步一个脚印发展壮大的):他们给科学的定义是可证伪(在西方人的世界里,每句话的定义都很明确,他们说,在什么什么情况下,这条定理是成立的)。西方人发明了方法论,使得他们在发展过程中所积累的经验都是可进化可迭代的,因此他们能一步一个脚印的实实在在的创造出成果来。而我们中国人发展过程中没有方法论,我们只有方法,我们虽然也发明了一些先进技术,但是那都是历史上出类拔萃的一两个大神用其一生的精力发明创造出来的,他们的技术成不了系统。因此中国人讲悟性,我们的祖先所追求的是事物的统一以及一贯正确性。我们发明了八卦,阴阳互补就恨不得用这个东西去解释世界的所有现象,这样就使得那些不懂的阴阳的假学者整天搞那些歪理邪说以谋生。中国文化是不敢拿出来造次的,我们这个名族对人自身以及人与自然的关系这方面的研究可是方法论所解释不了的。关于相信不相信中医这个问题,我想说的是,现在中医界混饭吃的人太多,这些没有真学问的人,是能害死人的。我倒是觉得中国文化只要学好了,人人都可以是自己的医生,中医的关键不是那些花草植物熬制的汤水,而是人对自身的把控。
其实西方社会所创造的这些东西依靠与方法论,所以只要搞清楚了,就很好解释。中国文化我不敢瞎咧咧,唯有潜心去悟,可不敢把自己仅悟到的那些皮毛讲出来害人的,但西方发展史我还是敢根据这本书所讲的内容跟大家分享一下的。过去的一二百年,工业一二次革命,所创造的物质比过去人类创造的所有物质的总和还要多。这些物质无疑给人类的生活带来了巨大的改变,让人的生活变得五彩斑斓。这些让人眼花缭乱的成就的背后的逻辑其实很简单,不过是机械思维而已。谈谈离我们近的,刚刚过去的信息革命以及我们正在面临的智能革命。在过去信息革命的时代里,机械思维已经不是那么实用了,人类所面临的问题不再是那些简单的因果关系所能解决的了,在物理界处了牛顿,爱因斯坦的两个等式,还出现了一个不等式(至于是啥记不清了,抱歉我是和这书写的),自然界那些确定的因果关系以及被发现殆尽了。人们开始去探索那些复杂问题的解决办法。例如,吸烟有害健康,人们到现在也证明不了这个观点是对的,因为决定人是否得肺癌的因素太多了,人类目前的水平无法做到排除所有因素去控制唯一变量去研究其真伪。
研究复杂的问题,机械思维已经不实用了,方法论就创造了一个全新的思维,好像叫摩尔定律吧。反正主要意思就是要大家放弃过去的追求因果,转而去追求事情发生的最大可能性。在信息时代,人们在互联网上互相传递信息,传递信息的过程中必然会产生数据(这时候,人类发明了比特,比特是用来计量信息量的单位。信息是虚无的,看不见摸不着,但它却实实在在影响着我们的生活)。数据这个东西,在它的数量还不是很多的时候,并没有多大用,可现实是,人类已经在2012年把数据的量积累到足够的多,多到人可以用它来解决复杂问题。这就有了大数据时代,或称之为智能时代。
智能时代的本质是大数据,这一点望各位看官一定记住,这样你才能看懂你所生活的这个年代(例子没时间举了,感兴趣的私聊)。在八九十年代,人们发明智能机器人的思路是模仿人的神经元,走条路人工智能发展缓慢,人们只是造出了许多好玩的玩具(有点像中国几千年的发明史,走错了路)。最近这些年,改走大数据这条路,智能机器人下围棋战胜人类,智能汽车上路行驶几百万英里零事故,智能机器现在都已经可以写财务报表了。大数据时代,互联网公司疯狂的抢夺着我们老百姓的生活信息,现代社会的资本都在全力向数据公司靠拢,美团以及滴滴打车等互联网公司在其起步阶段,我们这一代大学生都是享受过其价格补贴的红利的,互联网很烧钱的,可是资本家有钱啊,只要你能获得数据,砸多少钱他们都愿意,当然,现在他们已经不给我们补贴了,但是我们也已经离不开这些软件了。现在微信,滴滴等手机软件已经占据了我们的生活,我们真的已经离不开它们了,但我们在享受这些便捷的同时,它们也掌控了我们的生活,破坏了我们的隐私。
这是一个最好的年代,也是一个最糟的年代。大数据去让那些大资本家去做吧,我们这一代老百姓史享受不到多少利益的。世界永远是百分之二的人掌控着的。(有个二八法则,感觉和这个意思差不多,说的挺有道理的)这也符合资本社会发展的规律,书上说我们至少需要两代人才能把科技革命的诟病解决掉。关于这些政治社会上的问题,在此就不说了,也说不好。我就谈谈我个人的体会吧。我觉得现在每个人都应该理解这个时代的思维习惯,这样才能融入进去。这个时代做一个有意思的人是一件至关重要的事,说不定某一天你的工作就会被机器抢走,这时现代化政策可以不要你工作养着你。但没有工作的生活多难受啊,想我最近一样,闲的能把自己逼疯。
大数据和机器智能的出现,对我们的技术发展、商业和社会都会产生重大的影响。作者吴军在《智能时代:大数据与智能革命重新定义未来》中指出,首先,我们在过去认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方位的。
探究大数据下的智能数据分析技术 篇3
关键词:大数据 智能 数据分析
中图分类号:F503文献标识码:A文章编号:1674-098X(2014)04(a)-0021-01
对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。
1 数据分析
数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来說,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。
对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。
数据分析主要涉及的技能:
(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。
(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。
(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。
(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。
综合来看,可以说数据分析=技术+市场+战略。
2 如何培养数据分析能力
理论:
基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;
(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;
(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。
实践:
(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;
(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;
(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;
(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。
3 大数据
大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。
对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。
大数据的特点:
(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。
(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。
(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。
总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。
4 大数据下的智能数据分析
在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:
(1)从解决问题的角度出发收集数据;
(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;
(3)评估决定与行动的效果,这将告诉我们框架是否合理;
(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。
5 结语
数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。
参考文献
[1]李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).
[2]魏凯.大数据的技术挑战及发展趋势[J].信息通信技术,2013(6).
数据采集与智能化分析 篇4
随着互联网的高速发展,社会已进入了一个“信息爆炸”的时代。金融数据作为网络信息中尤为重要的一部分,公众对其的需求也达到了新的高度。党的十八届三中全会关于“完善金融市场体系”重大改革的决定,为中国金融信息服务业发展提供了良好的政治环境;改革开放以来居民财富的增长、购买力的增加为金融信息服务业提供了充足的动力;互联网的广泛应用为金融信息服务业发展提供了广阔的发展空间。
近年来,许多金融数据分析的研究团队对Web的数据挖掘方法进行研究,挖掘方法也不断更新。国外的金融挖掘方法都较为成熟,像Heritrix、Nutch等。国内关于金融数据挖掘领域的研究应用都处于初级阶段,国内对金融数据和金融数据挖掘的研究理论、尤其对金融高频数据与超高频数据的研究应用更是处于起步阶段[1]。目前在国内市场上,一方面,一般金融机构的咨询服务专业性过强,对于广大普通用户而言门槛过高,大多数用户难以据此做出直观的判断;另一方面,现有的金融机构面向普通用户所推出的咨询服务主要集中在银行理财产品一类,具有很强的局限性,难以满足用户对金融信息的需求。
2 主要金融信息服务软件比较及市场分析
2.1 金融信息服务软件比较
2.1.1 大智慧股票软件
大智慧365金融终端是面向广大投资者推出的专业级别产品,同时是市场上性价比最高的产品。大智慧的优点是动态行情及时稳定,F10功能较全;但是它的缺点是基本不具备智能分析决策功能,而且功能繁琐,需要有一定的炒股经验,并且付费版软件价格昂贵。
2.1.2 同花顺免费股票软件
同花顺是一个提供行情显示、行情分析和行情交易的股票软件。同花顺是永久免费使用、操作简单、使用便捷、提供免费智能选股、技术选股服务等。同花顺的优点是能看港股、美股、期货等行情,同时软件资讯全面、形式多样、指标我编我用等特点;缺点是特色功能太少,同时需要一定的炒股经验。
2.1.3 东方财富通
东方财富通是基于东方财富网推出的一款免费炒股软件,从行情、资讯、指标功能等多角度全方面研发设计而成。特色功能包含滚动财经资讯、F9深度资料、内嵌交互平台、全景盯盘界面、DDE决策等。东方财富通的优点是各种特色数据很多,比如大小非解禁、高管持股动态和机构动态等;缺点是个性化公式、选股不方便。
2.1.4 Wind资讯金融终端
Wind资讯金融终端提供最齐全的中国金融市场数据与信息,内容覆盖股票、债券、基金、指数、权证、商品期货、外汇、宏观行业等多项品种,7×24×365不间断的为证券分析师、基金经理等专业金融人士提供最准确、最及时、最完整的金融资讯,是驰骋中国金融市场的必备工具。它集成了Excel Add-in、Evaluator、EDB和TAQEXP,优点是信息及时、信息数据多、交易数据全、资讯专业。缺点则是收费较贵、操作复杂。
2.2 市场分析
目前市场已经有许多传统的金融数据信息服务供应商,如大智慧、金融界、同花顺、wind、东方财富、和讯等,其市场份额大致如图1分布:
这些传统的数据服务软件提供的服务主要集中于普通的行情推送、行情展示、简易的行情数据描述、普通无序的资讯等;即便是略微高级的level2行情服务也只能提高数据速度和部分筛选过的信息,并不能做到全面、准确、高效的帮助用户掌握市场情况;然而如大智慧DTS这样的高级服务平台,需要专业的人士了解金融、计算机、数学等专业知识,才能合理应用。高级服务平台专业过高,而且服务价格不菲,让大多数非专业投资者望而却步。
基于这样的市场现状,本项目研发出一套网络金融数据挖掘与分析决策系统,提供相关服务,满足企业和个人的需求。
3 技术问题与解决方法、理论支持与关键技术
本课题拟开发一套网络金融数据挖掘与分析决策系统,围绕“互联网+人工智能+普惠金融”的主题,采用最新的技术,大数据技术、云计算技术以及人工智能技术;具体来讲,将采用全局数据监控技术、高频金融数据建模、智能模型匹配优化技术,以统一论的方式分析整个金融数据的高维随机矩阵谱分析技术来对市场进行监控预测,这在国内尚属首次。与此同时,我们还采用网络爬虫、文本挖掘、链接排序算法等技术,结合金融政策演化仿真系统,来实现对内外环境的监控,热点金融信息的追踪及金融市场动态的分析。
3.1 技术问题
在开发运营网络金融数据挖掘与分析决策系统和服务、客户端的过程中,会遇到一系列技术难关。主要有四点:第一,为了获取网络上及时有效的金融数据,需要研究开发一套网络数据抓取以及数据仓储软件;第二,为了将金融数据和分析结果友好地呈现给用户,需要研究有效的数据可视化技术;第三,金融数据的智能挖掘作为项目的技术核心,是提供优质服务的根基,因此,项目将深入研究金融数学模型、数据挖掘智能算法、模型匹配智能算法等技术的原理与实现;第四,为了和用户进行良好的交互,项目将研究服务器架设、维护以及与客户端的对接的相关技术。
3.2 解决方法
网络金融数据挖掘与分析决策系统,最主要有4个模块:数据采集模块、数据可视化模块、模型分析模块和系统管理模块。
3.2.1 数据采集模块
数据采集模块可以实现在网络上实时跟踪抓取用户指定的金融数据,该模块由采集规则学习和数据智能采集两部分组成。为了实现网页数据跟踪抓取功能,本项目需要研究网络上的金融数据结构和金融时间序列数据特征,根据这些特征,制定合适的方法在网页上智能抓取指定的数据。
3.2.2 数据可视化模块
数据可视化模块意在将金融数据与挖掘到的特征信息友好地呈现在用户面前,该模块由报表中心和金融数据展示两部分组成。为了实现数据的可视化,将研究使用何种表格与图形将有效的信息呈现在用户面前,帮助用户直观地把握金融变动规律。
3.2.3 模型分析模块
模型分析模块可以对已经获得的数据采用多样化的数理模型进行挖掘、分析、预测与决策,并利用决策树进行模型选优,该模块由传统模型库、智能模型库、模型选优算法三部分组成:1)传统模型库包含一系列分析金融数据的数学模型;2)智能模型库包含一套由智能算法构成的预测与决策模型;3)通过模型选优的方法在两个模型库中选出最优的模型,并以此辅助用户做投资决策。
为了实现上述功能,该项目拟将一系列经典数学模型收入到两个模型库中,并采用决策树的方法对两个库中的模型进行选优。与此同时将采用全局数据监控技术、高频金融数据建模、智能模型匹配优化技术,采用以统一论的方式分析整个金融数据的高维随机矩阵谱分析技术来对市场进行监控预测。
3.2.4 系统管理模块
建立对用户、数据一体化管理的软件框架,其将包括用户信息权限管理、系统运行实时监控、系统日志管理、基础数据库管理等功能。
3.3 理论支持
3.3.1 金融数据结构分析
时间序列是金融数据的一种组织特征和表现方式,时间序列数据包括股票价格、基金价格和货币汇率等金融数据。金融数据时刻发生着变化,通过数据挖掘与分析对金融时间序列数据进行分析,处理大规模的数据,以大数据为基础从而发现潜在的、可能存在的、有价值的规律与信息。
3.3.2 数据挖掘技术
数据挖掘(英语:Data mining),从数据本身来看,通常数据挖掘需要有数据清理、数据变化、数据挖掘实施过程等。网页数据挖掘基本过程如图2所示:
3.3.3 金融高频数据与超高频数据
金融高频数据和超高频数据的研究是金融计量学的一个全新的方向,一个崭新的领域。金融高频数据是指金融市场运行过程中以小时、分钟或秒为采集频率的数据,而超高频数据则是指交易过程中实时采集的数据[2]。数据采集频率越高,信息丢失越少,数据所包含的信息越接近于理论上的连续时间模型,所以近些年国内兴起的高频数据交易也有源可寻。利用高频数据与超高频数据能更加深刻的解释金融市场所包含的价格运行规律、信息传导机制以及更有益于对金融市场的分析与探索。同时有益于及时优化模型,正确研究金融高频数据的“日历效应”有助于金融时间序列的长记忆特性,对价格日内波动的研究至关重要。
3.4 关键技术
3.4.1 高维随机矩阵谱分析技术
一个以随机变量为元素的矩阵称之为随机矩阵,而如果随机矩阵的维数趋于无穷,则称之为高维随机矩阵。随着金融与互联网的不断发展,现代的金融市场正在逐渐变成为一个汇聚大量数据、庞大信息和海量元素的系统,大数据技术在金融市场中起着基础的作用,主要体现在采集、储存、分析挖掘、可视化等,而高维随机矩阵谱分析技术作为新兴的大数据分析方法,能将各类数据集成到高维矩阵中,从概率和统计的角度研究矩阵的特性和数据分布情况。高维随机矩阵理论中表征的大数据结构是灵活多样的,矩阵中的数据既可以是遵循某种分布的随机数,也可以是确定数据,矩阵的构造原则是对行和列中元素进行调整以得到最优的行列数比值[3]。
高维随机矩阵的主要研究内容,随机矩阵的经验谱分布函数。
假设λ1,……,λn为矩阵A的实特征根。定义经验谱分布函数:
随机矩阵的一个基本问题是讨论一系列给定的随机矩阵序列函数FAn(x)的收敛问题。即找到其极限分布函数,其极限分布函数都是非随机的,我们把它称作随机矩阵序列的极限谱分布。
3.4.2 金融政策演化仿真技术
政策创新与扩散模型研究是金融政策效用的基础。在政策创新与扩散的早期研究中,弗吉尼亚?格雷(Virginia Gray,1973)借鉴其他学科对创新与扩散的研究,提出了政策创新与扩散的经验模型,他认为在政策创新扩散的初期,政策采纳的发生相对不频繁,然后随着各种因素的影响,采纳的比例会急剧上升。20世纪初兴起了复杂网络,20世纪中期出现了被大众所熟知的复杂网络,即随即图理论。但21世纪伊始随着引入小世界网络等模型,随即图理论遭到了各种猛烈的冲击。基于政策演化仿真技术以及政策传播模型,从而实现对内外环境的监控、热点金融信息的追踪、金融市场动态的分析及政府金融政策的演化仿真等。
4 意义
4.1 获取个性化网络金融数据
用户可以通过数据抓取模块的功能,根据自己的实际需求,在网络上方便快捷地抓取相应的数据,降低了用户信息的搜寻成本,一定程度上解决了用户在市场上获取信息难、信息不对称的问题。
4.2 挖掘与分析金融数据
通过使用模型分析模块的功能,用户可以用多样化的方法对金融数据进行高效的分析。系统提供了自动化模型选择的方法,大大降低了对复杂金融数据分析的难度,适用于普通的用户群体,为普通投资者的决策提供有效的指导;系统同时支持用户自行选择分析方法与模型,适合作为专业性较高的用户群体的研究工具。
4.3 帮助规范金融市场、促进公众理性投资
本系统通过科学的模型选优方法,对用户指定的金融数据进行挖掘分析,并给予用户稳健的决策指导,促使用户理性投资,避免用户对投资行为产生情绪化效应,从而达到规范和稳定金融市场的目的。
4.4 为政府经济管理及决策提供依据
通过金融政策演化仿真,将政府的金融政策进行演化和预测,将仿真结果反馈到决策变量中,寻求最优的金融政策变量,使得决策更加高效,从而避免政府的错误决策,使得风险得以控制,企业有更好的创新与发展,政府拥有更好的公信力。
摘要:围绕“互联网+人工智能+普惠金融”的主题,立足于大数据及人工智能等,开发了一套网络金融数据挖掘与分析决策系统,从而实现金融数据的挖掘与分析及用户辅助决策的功能,帮助规范金融市场、促进公众理性投资。
关键词:大数据,辅助决策,人工智能,高维随机矩阵,金融政策演化仿真
参考文献
[1]余春.基于数据挖掘技术的金融数据分析系统设计与实现[D].成都:电子科技大学,2014(6):69-78.
[2]唐振鹏.金融高频数据和超高频数据的研究现状及展望[J].福州大学学报哲学(社会科学版),2008,22(4):14-20.
数据采集与智能化分析 篇5
摘要:指出当前应用型智能科学与技术专业大数据人才培养中存在的问题,然后分析大数据应用开发人才的岗位需求及知识结构,提出基于岗位目标的大数据课程群的概念,最后阐述大数据课程群建设对大数据人才培养的意义。
关键词:智能科学与技术;大数据;人才培养;课程群
0引言
近年来,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,信息社会正在进入大数据时代。大数据的应用越来越广泛,大数据行业已逐步发展成为一个具有诱人前景的新型产业。智能科学技术作为大数据处理技术的核心基础技术之一,与大数据处理技术的发展相辅相成。一方面,大数据相关技术的发展拓展了智能科学与技术专业的学科范畴,给智能科学与技术学科增加了新的内涵;另一方面,智能科学与技术学科的飞速发展也促进了大数据处理技术的进步,推进了大数据技术应用领域的不断延伸。因此,开展智能科学与技术专业应用型大数据人才的培养具有非常重要的现实意义。
1当前智能科学与技术专业在大数据应用型人才培养方面存在的问题
虽然我国智能科学与技术专业作为一个独立学科专业存在的时间还较短,但依然取得了长足的进步,目前已有30多所高校开设了该专业。近年来,随着大数据技术的发展和“互联网+”技术的广泛应用,许多行业包括移动互联网企业迫切需要大数据方面的专门技术人才,但由于人才培养规律及特点的限制,目前我国大数据人才极为缺乏,远远不能满足社会需求。究其原因,除了人才培养需要一定周期外,还因为培养的人才的知识结构与社会需求存在着较大的差距。通过分析,可以发现导致差距存在的主要问题体现在以下3个方面。
1.1应用型大数据人才的知识结构和能力与大数据行业需求不相适应
无论是智能科学与技术专业,还是计算机科学与技术或软件工程专业,在应用型大数据人才的培养上还存在着与大数据行业需求不相适应的矛盾。究其原因:一是人才培养方案滞后于技术的发展。一般情况下本科应用型人才的培养周期是4年。因此,当年的培养方案一般是在4年前制定的,然而由于大数据技术的发展日新月异,要在4年前能够准确把握今天大数据技术的发展方向的确有很大难度;二是对市场上需要什么样的大数据人才还不够了解,培养方案还不能涵盖市场对人才培养的要求。
1.2大数据相关课程体系结构不完善
由于大数据技术近几年得到超常规的发展,大数据行业对人才的需求急剧增加,导致目前大数据应用型人才的奇缺,但又存在着相关专业学生找不到工作的尴尬局面。究其原因,主要是人才培养单位对大数据行业相关工作岗位缺乏了解,大数据相关课程体系还不够完善,制定的人才培养方案还不能覆盖社会的.需求。
1.3人才工程应用能力偏弱
由于大数据应用型人才培养的时间不长,在课程体系尚不完善情况下,提高学生的工程应用能力会比较困难,所以目前应用型大数据人才的工程应用能力相对偏弱。主要表现在两个方面:一是所学知识结构不能涵盖工作需求;二是对大数据应用中的相关平台和软件不够了解,进入工作周期长;三是对大数据行业工作岗位及其衔接知识了解不够,缺乏岗位转换能力。
2应用型大数据人才的岗位需求分析及知识结构
2.1应用型大数据人才的岗位需求分析
根据对有关大数据公司及企业的调研分析,应用型大数据人才就业的主要行业包括零售/保险/电子商务/物流、政府数据中心、医药和银行、研究性大学、金融机构、互联网企业等。参照文献[4]的分类方法,可将这些行业对大数据人才的需求分为两类:一类是大数据应用岗位,主要包括大数据分析专员、大数据分析师、大数据挖掘工程师(表1);另一类是大数据系统管理岗位,主要包括大数据系统管理员、大数据系统工程师、大数据系统架构师(表2)。
从表1可以看出,大数据应用人才主要是面向各应用行业工作岗位的,主要从事相关行业的大数据分析和处理工作。
从表2可以看出,大数据系统管理人才主要是面向大数据行业或移动互联应用行业的,主要从事大数据系统管理、大数据系统构建和大数据深度处理等工作。
2.2应用型大数据人才工作岗位对应的知识结构分析
应用型大数据人才除了应当具备智能科学与技术专业的学科基础知识外,还必须具备适应相应工作岗位的专门知识。本节主要讨论大数据各类人才应当具备的专门知识,应当具备的学科基础知识不再讨论。基于上述应用型大数据人才类型及其工作岗位的对应关系,通过分析可得知各类人才应具备的专门知识(表3)。
3基于岗位目标的大数据课程群建设研究
通过对应用型大数据人才的需求市场进行分析,可以发现社会对应用型大数据人才的需求呈现多样化,不同的用人单位对人才的需求不尽相同,因此要在本科4年有限的教学时间内完成全才的大数据人才培养是无法实现的。为了确保培养的人才能够胜任未来的工作岗位,提升大数据技术人才的工程应用能力,必须采用“共基础、分方向”的培养模式,就是在前3年打牢共同专业课程的基础上,在第七学期采用分方向的方法,加强学生对大数据工程应用能力课程的学习,培养具有较强工程应用能力的大数据人才。
3.1基于岗位目标的应用型大数据课程群设计
基于上述考虑,我们提出了一种基于岗位目标的大数据课程群的人才培养机制,其核心就是根据人才未来的工作岗位,建立相应的课程群,学生根据自己未来的工作规划,选择相应的课程组完成专门知识的学习。基于岗位目标的大数据课程群与人才类型密切相关,共分为6组,具体见表4。
从表4可以看出,每一组课程群都是针对一个岗位目标提出的,这些课程基本涵盖了其工作岗位所必备的基本专门知识,而且所涉及的课程不仅包括理论知识,也包括了实际应用知识。学生可以根据自己的爱好和工作志向选取相应课程群进行学习和实践,学习具有较强的针对性。
3.2应用型大数据课程群对应的实验教学研究
实验教学是确保课程教学质量的重要环节。大数据课程群实验教学分为课内实验教学和独立实验教学,课内实验教学是为了让学生更加深刻掌握课程所学知识而开设的,一般随课进行。课内实验教学通常包括验证性实验、设计型实验和综合性实验项目。独立实验教学是独立于课程教学特设的实验教学项目,一般采用专周实习方式进行,通常放在学期末集中1~2周独立进行。独立实验教学在开课前要编制实验方案,进行实验方案评审,确保实验的效果。表5为大数据课程群中的Excel数据分析课程对应的实验项目。
大数据课程群中其他课程的实验教学设计与Excel类似,在此不再赘述。
4基于岗位目标的大数据课程群建设的意义
基于岗位目标的大数据课程群建设与一般的课程群建设不同,它立足于未来工作岗位,课程设置与岗位应用密切相关,具有较强的针对性。同时,基于岗位目标的大数据课程群针对学生未来就业设置专门课程,实现了专业基础知识与适应工作岗位的专门知识的有机统一。设置应用型大数据课程群可以保证在有限的教学时间内,既能够学习到扎实的专业基础知识,也能以较少的时间学习岗位应用知识,提高应用型大数据人才培养的质量。从这个意义上讲,基于岗位目标的大数据课程群建设具有以下意义。
4.1丰富了应用型智能科学与技术专业大数据人才培养方案
从学科生命力角度讲,拓展学科内涵及丰富学科内容是保持学科生命力的源泉。针对大数据技术的发展,智能大数据处理技术的作用越来越重要,正逐步发展成为智能科学与技术学科的重要研究内容,应用型大数据人才的培养也必将成为智能科学与技术专业人才培养的重要组成部分。因此,开展应用型大数据人才专业课程体系的研究,尤其是基于岗位目标的大数据课程群建设研究,是探索多样化智能科学与技术人才培养方案的有益尝试。
4.2完善了应用型大数据人才培养的专业课程体系
基于岗位目标的大数据课程群的设立改变了应用型大数据人才培养中千人一面的现象。一方面,不同的企业对人才的需求不一样;另一方面,不同的学生对未来就业的规划也不一样。如何实现用人单位需求与人才自身发展方向的有机融合一直是人才培养体系及人才培养机制研究所关注的重点。基于岗位目标的大数据课程群的建设搭建了二者之间的桥梁,完善了应用型大数据人才培养的课程体系。
4.3促进了大数据人才工程应用能力的提升
通过建立基于岗位目标的大数据课程群,学生在学习时有了多种选择,使得学习的针对性得到了增强。同时,通过设立课程群的方法,对专业课程体系结构进行了优化,学生有了更多的时间通过实验、实训等方式提高自身的工程实践能力,从而能够更好地胜任工作岗位,提高用人单位的满意度。
5结语
数据采集与智能化分析 篇6
关键词: 煤炭机械;智能系统;数据挖掘;调度
在经济和技术的快速发展下,很多行业都实现了机械化的生产,煤炭行业也不例外,在采掘中,采煤机、运输机等机械的使用,使采煤的效率大大的提升,与人工采掘相比,有很多人工操作不具备的优势,创造了一定的经济效益。但是,随着时代的发展进步,机械化只是煤炭行业发展的一个阶段而已,并不是最终的形态,还有更多的高新技术可以融入到煤炭采掘当中,煤炭机械下一阶段的发展就是智能化,在原有机械的基础上,对其控制系统进行改进,从而实现机械智能化。
1.采煤机械面临的问题
在我国,煤矿的开采形式主要有两大类,即露天开采和钻井开采,在这两种采掘方式中,用到了不同的机械,露天采矿包括了电铲、挖掘机等设备,钻井由于在地下工作,主要用到采煤机和运输机以及掘进机。这些机械并不是孤立运作的,他们之间需要用控制系统进行关联,从而使每个机械的生产能够串联起来,以实现流水线式的生产模式。目前来看,采煤机械还存在着一些问题,首先是故障率偏高,采煤机械日复一日的运作,在这样的超负荷状态下,出现故障的概率很高,不仅影响了企业的收益,增加运营成本,也使得机械设备本身的性能受到影响;其次,采煤机械的效率并不高,虽然在采掘过程中装备了大型的采煤机械,但是由于其控制系统的调度功能有限,并不能很好的把这些器械利用起来,整体来看机械的操作效率还是偏低的;最后,改造问题,对于现有的机械进行改造面临着很多困难,早期的控制系统在收发信号等方面的功能并不理想,导致现在要想实现其智能化更加困难。
煤炭企业在选定了某个智能控制系统之后,对于现有的数据资源要进行深入的挖掘,以探索潜在的信息,来使采煤更加的有效和科学。对数据进行挖掘,就是要在已有的数据库中,对数据进行分析,来找到之前没有发现的、有一定的利用价值的信息,利用这些信息,可以带来意想不到的收益。在煤炭机械只能化发展的过程中,要注意数据挖掘技术的应用。
2.煤炭机械智能系统的模块
智能化的采矿体统离不开计算机技术,计算机技术是核心,它可以把软件和硬件结合起来进行控制。随着社会对于煤炭资源的需求量的增加,采矿区的生产规模逐渐扩大,原有的单一的自动化调度模式已经无法满足需求,而且在现代化的生产中显得非常的落后,因此,需要有一种更高级的控制系统来对采煤机械进行高效的控制。所谓的智能控制系统,是一种计算机系统,通过特定的程序设定,来完成类似于人类只能的操作,这是对传统计算机控制模式的升级。煤炭企业机械只能控制系统的模块有以下几种:
2.1智能操作
在煤炭开采过程中,煤炭机械是主要的工具,由于人工进行操作有很多的不利因素,因此,智能系统要利用智能模块来控制这些机械,实现智能化的调动,要实现这个目标,要研究操作系统的结构、智能化的人机接口、智能化的资源调度等。
2.2智能编程
智能系统要执行指令必须依靠一定的程序来实现,程序的编写就显得十分的重要,要保证足够的精度来完成对机械的控制。传统的程序中,采取的算法都比较固定,求解过程也较为复杂。而采用智能程序进行程序的编写,能够避免人工编程出现的一些语言方面的错误,智能程序语言可以对符号进行处理,可以进行大范围的搜索。
2.3智能软件
计算机工作离不开软件,利用一些配置比较高的软件进行煤炭机械控制,可以提高效率。智能系统中安装智能软件可以使煤炭机械应对更多的环境。智能软件对于软件系统的整个生命周期都能支持,支持软件产品生产的各项活动,作为软件工程代理,适用于公共的环境知识库和信息库设施。
3.煤炭数据挖掘技术的应用
3.1状态数据的挖掘
在不同的作业需求下,智能系统也具备不同的功能,需要处理的数据也更加复杂,而且这些数据一般是动态的。对于采煤设备反馈回来的数据,通过数据挖掘技术,提取出来有价值的信息并进行分析,最后提供给调度中心,发出开采信息进行作业。比如煤炭机械设备的电气系统,它控制这些设备的用电,如果利用数据挖掘技术,找到更多的潜在信息,可以使采煤设备的调度更加合理。
3.2控制数据的挖掘
随着智能系统在采煤设备控制中的应用,数据挖掘技术的中心开始转移到设备控制数据方面,借助计算机完成数据处理工作,并且筛选出对设备调控有用的数据。对于采煤设备日常控制数据的挖掘,必须要联系智能接口的运行实况,收集与煤炭机械相关的数据资源,为挖掘处理提供信息基础。
4.结语
随着时代的发展,以往看似非常先进的方法在现代技术看来也还有很大的空间来提升,在煤炭行业,以往采用机械设备开采代替了人工开采,从而避免了很多人工操作的不足,但是这些机械长年累月处于工作状态,增加了设备的故障率,而采用智能系统来控制煤炭机械,并融入数据挖掘技术,可以更好的控制这些机械,使其调度更加合理,工作效率更高。
参考文献:
[1]杜俊鹏,李尚平,蒋礼斌,宗峰.基于知识的甘蔗收获机械智能设计系统的研究[J].机械工程与自动化,2006,04:8-10.
[2]曾杨.工程机械智能监控信息系统[A].中国机械工程学会,台湾机械工程学会.智能制造技术研发及应用——第十三届海峡两岸机械工程技术交流会论文集[C]中国机械工程学会,台湾机械工程学会:,2010:30.
数据采集与智能化分析 篇7
1.1 定义与作用
智能分析决策系统是从智能预警、发现故障、解决故障三个部分对电网系统提供分析辅助决策, 是基于一种自动化系统的有效拓展, 根据设备信号, 系统会自动的采取相应的解决措施。第一个部分是对设备信号展开分类, 利用相关技术解决信号波动问题;发现故障则是建立一个诊断的模型, 引入可信度指标, 多个模式同时进行, 分析得到的不同数据, 结合每个结果对故障部分提出质疑, 解决实际问题, 提高诊断的实用性;故障恢复即最后一个部分则是提供一个快速恢复供电技术, 其原理基于广播的原理。这三个部分也是紧密的联系在一起, 有机组合, 达到良好的实施效果。
1.2 系统特点
1) 告警系统部分:报警系统采取智能化, 其中包括信息的分类、误警信息处理以及显示部分。前者是根据警告信息的提示内容, 把警告信号分为不同的严重等级, 各个等级之间是一个单独的部分, 不会出现信号的重叠以及交叉, 实现信号的分流。一般包括状态、定义、自定义等分类方法。误警信号一般来源于抖动或者误发, 面对这种情况的处理方法则是采取无效信号的过滤网以及重复信号的压缩技术。在这种情况下, 系统可以自动识别电网运行下的错误或者无效信号, 一般包括:保护性动作复归信号抖动、设备检修时误发信号以及越限抖动信号。2) 诊断故障部分:这个一般分为模型部分以及描述。前者又可以分为分层诊断以及统一的信号描述模式。第一个诊断模型是把电网设备信号分为开关信号、SOE信号、保护信号三个部分, 综合三层信号并进行综合处理, 以避免复杂的诊断过程造成的麻烦。第二个诊断模型则是统一信号描述。这是根据SCADA系统和故障管理系统对信号进行统一的描述以及定义, 来达到智能诊断的要求。3) 恢复故障:如何恢复故障是关键部分, 在这里, 采用了广播原理以及拓扑结构模型。充分利用EMS的基础之上, 结合拓扑结构的需要, 在点与线之间设计数据关系, 可以大大提高搜索的效率。通过脉冲信号的广播传送, 来确定各个设备之间的开关、感知方位等, 充分、有效。电网信号分析辅助决策系统更大可能的在短时间内分析了解信号内容, 解决故障, 效率高、作用明显。
2 基于多数据源的新的分析辅助决策系统
2.1 新系统的原理以及作用
这里所讲到的决策系统指的是基于D—S理论的多数据源信号融合方法。运用此类原理, 可以成功解决各个数据源之间存在的冲突引起的融合分析结果不精确问题, 然后将不同的数据体进行信号的融合最后得到一个确切的诊断结果。此类方法是对多个信号源即数据源展开分析, 这样可以在原有的决策系统基础上更好地解决故障这一部分的问题, 从之前不确定的故障信号的融合分析中得到更加正确的结果, 并根据这一结果进行故障恢复。
2.2 结构组成部分
多数据源的分析辅助决策系统对于系统前两个部分没有多大的改动, 最大的不同来自于最后的故障处理部分, 这就包括信号预处理、IMFD信号融合以及决策模型。1) 预处理部分又可以分为预处理、小波故障。前者是对多数据源信号进行处理的基础, 通过处理, 可以将其转换为各个元件之间的故障表征, 再转换为数据体来满足融合的条件。小波故障则是对故障产生前后电气量的不同比对进行处理后的表征, 除此之外, 小波在内的奇异度还可以进一步的确认故障产生的元件, 并对数据进行一定的处理。2) IMFD信号融合:对于一致性的数据部分采用传统的合成方法进行融合, 对于冲突的则采用改进的数据规则, 以提高原始数据体的可信度。这也是在原有的D—S理论的基础之上进行的改进, 以解决在数据冲突比较严重的时候可以提高数据的融合度, 目的是以求达到更好的诊断分析结果。3) 决策诊断模型:如果融合之后的结果不能判断出哪个才是有故障的元件, 这个时候就需要进行诊断分析, 结合上面提到的概率表征 (包括小波故障、IMFD数据信号等) 对结果进行一定的数学处理, 使数据值更加符合电网设备的要求, 结果更准备, 可以解决更加复杂的信号故障问题。这三个部分是在原有的理论基础上进行一定的改进, 可以有效地提高诊断的效率, 更加充分的利用电网设备信号, 是结果更加准确。
下面的就是具体的流程图:包括了智能告警、故障诊断、故障恢复三个主要部分。
3 新方法的优点及总结
3.1 优点
基于数据源的电网设备信号分析辅助决策系统是对原系统的改进, 其优点多体现在故障诊断方面。充分利用多个数据源信号对故障部分进行定位, 这样可以在诊断过程中根据需求在各个数据源中查询需要的信号数据, 高效的利用故障信号提供的信息, 对可疑的故障进行诊断以及排除, 并对更加复杂的电网设备信号进行更加详细的处理, 运用已有的数据处理方则, 结合新的数据源对信号深层次的分析处理, 这样能够比以前更加准确的定位, 可以得到一个完整的诊断结果, 其中包括一些可疑的和一些确定的故障信号, 在信号的处理方面也可以做到更加高效以及充分。
3.2 总结
道路交通事故数据智能化分析 篇8
道路交通事故多发点又称“黑点”, 是指道路上交通事故显著突出的路段或交叉口。确定道路交通事故多发点是改善道路交通安全状况的第一步, 其意义在于确定急需改善交通安全状况的位置, 分出优先次序, 采取合理的改善措施, 有效提高安全水平。
道路交通事故多发点鉴别方法颇多, 应用范围各异。质量控制法在鉴别过程中得到应用广泛, 为了进一步提高其准确率及应用范围, 本文从事故的严重程度的角度将事故数转化为当量事故数, 考虑其统计学分布, 修正当量事故率进而改进质量控制法[1,2,3]。
1 研究基础
1956年, Norden等人提出了质量控制法, 该方法不同于其他事故多发点鉴别方法, 其首先假设各路段的事故次数服从泊松分布, 然后将路段的事故率与相似路段的平均事故率作比较, 而不是与所有路段的平均事故率比较。根据显著性水平确定事故多发点的综合事故率的上、下限, 如果所考察路段的事故率大于上限值, 则被认为是事故多发点。
在应用质量控制法鉴别事故多发点时, 假设任何情况下, 交通事故发生的概率服从事故频率μ的泊松分布, 即某路段在时间t内发生n起交通事故的概率可表示成式 (1) 。
式中:μ为该路段的事故频率;n的均值和方差分别为式 (2) :
对于泊松分布其期望值与方差均为λ=μt。根据德莫佛-拉普拉斯定理可知二项分布的极限分布是正态分布。
对式 (3) 进行计算整理得式 (4) 和 (5) 。
式中:λ为相似区间平均事故率, 起/ (百万车·km) ;mi为路段i的累计车辆数, 亿车。
如取95%的置信区间, k=1.96。
R+和R-分别为所要鉴别路段事故率的临界上限和下限。当该路段实际事故率大于R+时, 该段或该道路为危险路段或道路, 应采取措施改善;小于R-为相对较安全的路段或道路;介于两者之间的应跟踪观测, 酌情采取措施。再按照事故率的大小排序, 便可确定改善事故多发路段的优先顺序。
2 改进原理
质量控制法中事故率的计算只是单纯利用事故统计值, 没有考虑事故损失的严重程度, 如果将具有不同严重程度的事故数简单累加, 则会掩盖一些具有相同事故数的路段实际上可能具有不同的事故严重度。由于严重事故对社会和个人的危险程度远远大于一般的轻微事故, 所以为了精确地判断事故多发点, 鉴别时应当将事故的严重程度考虑进去。为此, 通过赋予受伤及死亡事故一定的权值来计算当量事故数, 如式 (6) , 在质量控制法中引入当量事故数来计算当量事故率, 修正质量控制法。
式中:N为统计期间内事故发生地点的当量事数;F为事故中死亡人数, 人;J为事故中受伤人数, 人;n为统计期内发生的事故数, 次;K1、K2为死亡、受伤事故的权重。
对事故数的统计学分布进行分析, 对质量控制法进行了改进, 其应用效果较好, 为此论文对当量事故率进行了统计学研究, 为了和改进的质量控制法中事故频率μ的伽玛分布作了比较, 现将计算所得的当量事故频率N以μ代替[4]。
3 方法改进
基于以上设想, 对黑龙江省境内哈同公路交通事故数据进行处理, 得到每公里当量事故数。在此基础上, 对当量事故数进行Weibull处理, 通过对当量事故频率μ统计分析, 可知Weibull分布函数能够较理想地表述当量事故频率的分布。因此, 可以用Weibull函数相关理论研究当量事故数的特性, 基于此对质量控制法进行改进[5]。
Weibull分布的失效分布函数为:
失效率函数及密度函数分别为:
式中:β为形状参数;η为尺寸参数。
密度函数均值和方差分别为:
β, η参数估计可用样本均值和方差代替总体均值和方差, 通过式 (10) 求得, 这里可用一种图解法获得参数估计问题, 其在事故多发点鉴别中将非常实用[6,7]。其步骤如下:
1) 区间划分, 重新安排各区间当量事故频率数据。令ti (i=1, 2, …, n) 记这列有序数据,
2) 计算xi和yi (i=1, 2, …, n)
3) 在普通坐标纸上画 (xi, yi) , i=1, 2, …, n。
4) 拟合直线, 斜率即为β的一个估计, 而该直线与x轴的交点给出ln (η) 的一个估计。
所以, 当量事故频率μ的分布为p (μ) 时, 当量事故次数的边缘分布为:
其均值为:
因此, 平均当量事故率λ可替代为:
将计算结果带入到式 (4) 和 (5) 计算临界上下限, 并将每段的当量事故率与临界上限进行比较, 从而鉴别出事故多发点。
4 应用实例
选取黑龙江省哈同公路K243+000~K567+500段交通事故作为研究对象。收集2003年1月~2005年12月间发生的公路交通事故;同时, 通过与设计单位联系得到该路段的道路线形资料及有关交通设施资料;最后, 从交通管理相关部门收集得到该路段不同区段交通流量数据。由于哈同公路沿线交通条件及路段交通量基本相同, 所以可采用改进的质量控制法进行事故多发点的鉴别。
首先, 按照路段节点、交通量条件及事故资料将哈同公路沿线划分为10个区间, 计算每个区间长度、累计通行车辆数;根据沿线道路交通条件将其分为3个相似区间, 分别为区间1~4、5~7及8~10。
其次, 根据收集的区间事故数, 由式 (6) 计算区间当量事故数, 进行Weibull分布拟合, 由式 (13) 计算各区间E (n|t) , 式 (14) 计算相似区间的λ值, λ1=195、λ2=897及λ3=401。E (n|t) 计算见表1所列。
最后, 取泊松分布的置信水平为95%, 计算每个区间的上限值, 见表2所列。根据沿线交通事故的分布情况, 哈同公路可划分为324个路段, 当量事故率高于相应区间当量临界比率上限的路段即为事故多发路段, 这里根据当量事故率的大小进行排序, 在进行治理时应优先治理事故率高的路段, 哈同公路事故多发路段共计20段, 见表3。
5 结 论
质量控制法在道路交通事故多发点鉴别实际中已经得到广泛的应用, 通过改进能够有效提高质量控制法的鉴别效果和应用范围, 改进的质量控制法不仅能够有效鉴别公路交通事故多发点, 同时也能够应用于城市道路路段及交叉口事故多发点鉴别。
对于当量事故数的确定需要根据具体情况确定, 在以后的研究中将对该方面进行深入研究, 从而能够使质量控制法能够得到更广泛的应用。
参考文献
[1]方守恩, 郭忠印, 杨轸.公路事故多发位置鉴别新方法[J].交通运输工程学报, 2001 (1) :90-98
[2]裴玉龙, 戴彤宇.鉴别道路交通事故多发点的模糊评价法[J].公路交通科技, 2005, 22 (6) :121-125
[3]Pei Yulong.The outstanding factor method to dif-ferentiate the black spot of the road[C].The 15thInternational Road Federation World Meeting.Bangkok, 2005
[4]Pei Yulong, Ding Jianmei.Improvement in the qual-ity control method to distinguish the black spots ofthe road[C].The 6th Conference of the Eastern A-sia Society for Transportation Studies.Bangkok, 2006
[5]蒋仁言.威布尔模型族——特性、参数估计和应用[M].北京:科学出版社, 1998
[6]金少华, 陆俭国, 宛艳萍, 等.威布尔分布的参数估计[J].吉林化工学院学报, 2001, 18 (1) :74-75
数据采集与智能化分析 篇9
关键词:数据采集,智能数据处理系统,设计思路
一、数据采集与处理系统概述
1.1数据采集系统。简单来说, 所谓的数据采集系统, 其实指的就是通过运用计算机系统, 来对数据进行多路检测之后对其进行分析与存储, 经过分析计算后提取出有用的信息, 通过显示、记录等一系列过程供企业所使用。数据采集系统可以被概括为数据输入通道、存储与管理、处理、输出及数据显示这几部分。
从本质上来说, 数据采集系统本身最根本的任务, 就是把其在传感器当中所收集到的数据与信号进行合理的转换, 并使之转变成数字信号之后, 再运用计算机来对其进行相应的计算与分析, 将得到的数据显示, 进而实现对生产生活中某些物理量的监测。
1.2数据处理系统。我们所说的数据处理系统, 指的就是通过运用相关的计算机设备与技术, 来对数据进行后期的加工处理过程。从本质上来说, 数据处理最根本的目的, 就是要把具有较高价值的数据从大量数据当中提取出来, 这个过程可以由人工进行, 也可以依赖于自动化装置进行。
在各类事业机构与企业单位中, 数据处理系统都已经得到了比较广泛地应用。其内容主要包括库存管理与财会管理以及销售分析等, 能够在很大程度上促进工作效率的提升。在长期的发展过程中, 数据处理慢慢发展成一个独立的行业。通过对相关信息与数据的整理, 并对其进行适当的转换, 使之转变成具有更高价值的信息, 将会促进整个信息化社会的发展与进步。
二、数据采集与数据处理的理念和功能
2.1数据采集处理系统的设计思想。从内部组成上来看, 在数据采集处理系统当中, 主要包含了数据的采集与实时处理模块, 前端信号调理模块等。在这当中, 前端信号处理主要是用于进行信号变化幅度的测试, 并对模拟信号进行调整, 最终将其调理到采集卡的量程范围以内。而采集电路所负责的, 则主要是对输入信号的缓存与采集, 通过运用系统总线, 来把其所采集到的相关数据直接读入到计算机的内存当中去, 然后再通过运用相关的软件对其进行后期的处理工作。此外, 在整个数据处理过程中, 主控计算机所负责的主要是协调与监控。
2.2数据采集处理系统的软件设计。就针对于本系统而言, 软件的设计也是其中的一个重要环节。通过软件设计, 能够有效的对测试数据进行统一的管理与存储, 并在此基础上, 来实现数据采集器和计算机之间的实时处理与双向传输。此外, 软件设计能够对设备状态的特征进行提取与自动识别, 并且, 其所采用的通常是模块化与自上而下相结合的方式, 来是现在整个的信息与数据采集过程中, 多任务多窗口与人工控制地人机交互界面。
2.3数据采集处理系统的功能。就针对于数据采集处理系统而言, 其所具有的功能主要就包括了以下几个方面: (1) 多通道数据采集。从某种意义上来讲, 信号调理模块的适用性与软硬件的高效性, 能够从根本上来满足其自身的实际测试需要。 (2) 信号实时监测处理。当我们在进行信号的变换处理时, 该系统能够具备实时显示与高速分析的功能性。 (3) 测试信号的跟踪分析。从本质上行来讲, 该系统能够对信号进行采集之前的预先分析与连续跟踪监测。 (4) 测试数据的再现。在数据的采集完成之后, 系统可以实现对信息的重现与分析处理功能。 (5) 数据的传输和存储。在该系统中, 通过软硬件之间的高效配合, 不仅能够让数据传输更加的高校与稳定, 同时也能实现对大量数据的实时处理与储存。
三、基于WEB的数据发布与显示
基于 WEB 的数据发布与显示可以有效提高工作效率、减少操作失误几率, 该系统通常采用 WEB 浏览表示层、WEB 服务功能层和数据库服务数据层[1], 其不仅能够及时将所采集到的数据发布出去, 同时也能使用显示屏, 来对其所采集到的数据进行实时的更新与维护。基于 WEB 的数据发布与显示能够让工作人员及时了解并掌握机器的运行状态, 及早地检测到机组的异常运行状况, 合理降低操作失误, 来为企业的生产与发展提供准确而又真实的数据资料。
结语
综上所述, 在各类通信技术与计算机技术不断发展的今天, 数据的采集处理系统也得到了更加广泛的应用, 其不仅能够有效地提高生产效率, 同时也能在很大程度上降低生产成本。所以我们要重视对数据采集和数据处理系统的研究, 不断提高系统的性价比, 从而为企业的和社会带来更多的经济效益。
参考文献
数据采集与智能化分析 篇10
1 数据挖掘技术概述
1.1 概念
数据挖掘技术是一种新型的信息处理技术, 它将数据的使用, 由低层次的联机查询, 提升到了一个新的高度, 即分析预测、决策支持等高等应用。数据挖掘能够对数据进行微观、宏观的统计分析, 并且对数据关系进行综合推理, 寻找数据之间存在的关联性、发展趋势等。数据挖掘技术可以通过获得诸多的知识信息, 对高级决策活动进行指导。
1.2 典型数据挖掘系统结构
根据数据挖掘的广义概念, 其典型系统结构图如图1所示。
源数据信息存储库的主要作用是存储基础原始数据, 通过数据清洗、整理、加载对数据进行处理, 使之符合规定的要求。数据库服务器是按照用户的挖掘请求, 提取有关的数据, 供用户使用;数据挖掘引擎是数据挖掘的核心内容, 由功能模块构成, 可以执行分类、特征化、预测等任务;用户界面是用户与数据挖掘系统进行通信的桥梁, 可以实现系统和用户之间的互动。
在知识发现的整个过程当中, 数据挖掘是一个基本的步骤。要进行知识发现, 就要从数据源当中寻找有关的数据, 将其组织为适合挖掘的数据组织形式;再利用相应的算法, 获得所需要的知识;最后, 可以根据所得知识, 对其进行评估, 将有应用价值的信息加载到智能系统当中。
1.3 数据挖掘模式
数据挖掘模式的主要目的是发现知识。知识要通过某些模式被发现出来。数据挖掘系统当中, 能够使用的知识表示模式有很多, 通过分析知识表示模式及使用方法, 可以更加直接的了解挖掘系统具有的特征。数据挖掘模式一般可以分为两种, 即描述、预测。描述性挖掘能够刻画数据库中数据的特点, 预测性挖掘主要根据已有数据, 进行推断和预测。对数据挖掘模式进行分型, 主要可以分为关联分析、概念描述、分类预测、孤立点分析、聚类分析等。
2 电网数据智能分析数据挖掘算法模型
按照电网的业务数据特点和数据挖掘需求, 在进行数据分析时主要采用两种算法模型, 即关联和预测。关联分析是在电网相关数据中, 寻找分类属性和和决策属性之间存在的某种关联关系, 从而方便在宏观上对电网数据进行把握。预测指根据已有的基础数据和数据之间的关联关系, 对未来的发展趋势进行时序预测, 从而有依据的制定如燃料计划、发电计划、供电计划等, 达到科学安排电网建设、电源的目的。
关联算法模型是寻找数据间的关联规则, 关联规则挖掘则是寻找常规方法难以发现的数据之间的关系规律;时序预测算法是通过对电网的用电量、负荷、发电量等关联因素及发展趋势的分析, 进行预测研判, 为电力系统扩建规划、发展速度、工业布局、电网资源分配等提供数据依据。按照预测期限的不同, 预测可以分为长期、中期、短期、超短期等, 还可以分为年度、月度、日、小时等预测。电网数据智能分析使用的预测模型图如图2所示, 其中预测模型包括指数平滑分析模型和线性回归分析模型。指数平滑分析是指任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。线性回归分析模型是利用称为线性回归方程的最小平方函数对一个或多个数据变量因素之间关系进行建模的一种分析模型。在对电网数据进行分析使用单一预测算法的同时, 也采用综合预测算法, 即将两个以上的预测模型的测量值, 进行适当的处理, 将平均值当做最终的预测结果。
3 电网数据智能分析系统的体系结构
基于数据挖掘技术和挖掘算法模型, 通过构建电网数据智能分析系统, 能够对电网数据 (包括用电量、发电量、用电负荷等) 进行关联性分析、时序预测, 数据使用多维数据库进行存储, 有一定的参考价值, 电网数据智能分析系统的体系结构图如图3所示。
(1) 数据预处理。电网数据智能分析系统对电力资源信息、运行情况、发电用电信息等基础数据, 通过数据预处理, 进行清理和整理, 提供高质量的有效数据。数据预处理的概化处理, 即通过将基础数据由连续值分为离散值, 为基础数据划分范围, 减少属性值的数量, 便于数据的挖掘和展示。
(2) 多维数据模式数据仓库。通过建立多维数据模式数据仓库, 从多角度多层次进行数据查询和分析, 根据不同的数据需求建立起各类多维模型, 例如将发电用电、负荷潮流信息分解建立成电压主题、电流主题、负荷主题等的数据模型, 并组成数据集市开放给不同的上层分析使用。
(3) 多维关联性分析。按照多维关联规则技术, 按照电网运行特征, 提炼出相关的记录数据, 组合为新的数据记录表, 寻找表中诱因值和结果值组成的字段, 从而推导出分析因素的关联规则, 分析客观因素对分析因素的影响;预测, 主要使用时序预测模型, 分析电网历史数据, 预测其发展趋势。通过分析历史数据, 寻找其存在的一般规律, 使预测尽量的符合实际情况;
(4) 可视化显示。是将挖掘的结果以图形的形式, 展现给用户分析查看使用。
4 电网数据智能分析系统应用
随着信息技术在电力系统的广泛应用, 要保证其在市场环境下能够安全运行, 就要对电力系统中的数据进行有效分析。通过建立电网数据智能分析系统, 从而为数据挖掘技术的应用提供条件。分析系统的具体应用可以总结为以下方面:
设备运行状态预测。通过对电网设备的运行状态进行监测, 收集状态信息进行分析预测, 以便及时发现并且解决问题, 从而提高设备的可靠性, 降低设备维护成本。
故障信息分析判断。电力系统处于运行状态时, 如果系统出现问题, 保护装置的动作信息就会把故障的有关信息传送给调度中心, 调度员会根据以往的经验对问题进行分析、处理。通过将故障信息导入到电网数据智能分析系统中, 建立故障数据挖掘算法, 可以对故障的数据进行分析, 提取故障特征, 使之成为调度员对电力系统故障进行快速判断和处理的依据。
市场发展趋势研判。通过对电力用户的特征进行合理分析, 将市场分为群组, 分析用户的用电特征, 能够有效预测短期内的市场需求, 从而为市场发展趋势决策提供数据依据。
5 结语
数据挖掘技术目前仍在不断地发展, 诸多研究机构都对其进行了探讨研究, 已被广泛地应用在许多行业。数据挖掘在电力行业中的应用还需要进一步的不断探索和研究, 使其能够更好地在电力系统业务发展中得到应用, 提高电力系统的稳定运行水平。
摘要:数据挖掘是对数据进行分析理解, 揭示数据内部关联规则的一门技术, 是数据分析的主要手段之一。它能够从大量有噪音的数据中, 挖掘出其蕴藏的知识信息。其挖掘模式主要包括聚类模式、序列模式、关联模式、分类模式等。电网数据智能分析系统运用数据挖掘算法, 对电网的设备信息、运行数据、日报数据进行分析, 清理大量初始数据, 按照电网运行的特点, 分析和因素有关的数据, 将其记录到数据库, 通过相应的挖掘算法, 获得所需的数据, 从而为电网的安全运行提供理论基础和支持。本文主要论述了数据挖掘的概念、模型, 电网数据智能分析系统的设计模式、体系等, 对有关技术进行简单的分析。
关键词:数据挖掘,电网数据智能分析
参考文献
[1]剧树春, 李刚.数据挖掘方法在智能电网中的应用[J].电子世界, 2013 (20) .
[2]朱晓峰, 李玲娟, 徐小龙, 陈建新.关联规则挖掘技术及其在智能电网中的应用[C].第十八届全国网络与数据通信学术会议, 2011.
[3]晁进.基于数据挖掘技术的电网智能报警系统的研究[C].华北电力大学:电气工程;电力系统及其自动化, 2011.
大数据在智能交通中的应用与发展 篇11
【关键词】大数据;智能交通;应用
大数据的应用范围非常广泛,是信息技术、网络技术以及云计算等先进科学技术发展和计算方法变革的产物,在很多行业领域中广泛应用并发挥着重要的作用。云时代的到来进一步推动了大数据技术的发展,现今在交通管理方面也将大数据加以应用。世界各国陆续开始对交通运输管理数据采用数字化的方式进行收集、存储和利用,智能交通系统的建立和应用对缓解交通压力,解决交通管理中存在的问题发挥十分重要的作用。
1、大数据概述
随着世界各国对“大数据”关注度的提高,大数据的应用范围不断扩大,其所蕴含的内容价值也得到进一步的开发和利用。随着互联网技术的普及和发展,信息时代的发展进步导致了信息量的极速扩大,海量的多样的信息使我们逐渐的步入了“大数据”的时代。大数据是各种数据集的集合体,大而且复杂,是IT产业一次颠覆性的技术变革。大数据信息量之大,种类之多,采用已有的普通的数据库管理工作很难对其进行有效的分析处理。要在大数据中快速获得有价值的信息并对其进行有效的分析处理,就需要应用到大数据技术。
大数据的特点主要表现在:第一,数据体积大。一般来说大型的数据集多位TB级,而大数据的数据集普遍为PB级,甚至达到EB级。第二,数据处理速度快。大数据与传统的数据采用不同的挖掘技术,而且数据处理不需要消耗仓储,因此在数据的处理速度上非常快。第三,数据种类多。大数据中的数据不仅包括传统的结构化数据,还包括半结构化数据和非结构化数据,数据呈多种类型增加了大数据的复杂性。第四,数据具有实时性。虽然大数据中的数据量非常大,即便如此当用户将数据需求提交上来后,大数据即可自动对相关的有价值的信息进行提取。在智能交通中,数据的类型以交通管理系统数据、服务数据、传感器数据和应用数据为主,拥有多种数据类型,而且数据体积大,数据的分析和处理具有一定的难度。
2、大数据技术与智能交通的契合
社会经济飞速发展,人们的生活水平提高,机动车的数量呈现出逐年大幅度增长的趋势。车辆的增多和各地间交流的日益频繁,为交通帶来了巨大的压力,交通管理工作难度增加,交通堵塞问题严重。传统的交通管理模式已经无法满足现代交通需求,智能化交通的系统的发展,加上大数据技术的应用,促进了交通管理模式的变革。
2.1跨越行政区域的限制
我国幅员辽阔,政府为了对国家加强统治和管理,将我国分为多个不同的行政区域实行区域化管理制度。行政区域的划分下的各个行政区域在国家的统一领导下拥有区域自治的权利,这也使得各地政府为了促进本区域的经济发展,努力注意经济效益的最大化,但是在各个区域连接的边界处在交通基础设施建设方面没能做到充分的重视,对于区域交界处的交通线路上的建设投入不高。大数据在交通管理中的应用,打破了区域限制,实现了区域管理的跨越化,各区域遵循信息共享的原则,对跨区域管理的问题在自己的行政区域下就能有效的管理。
2.2信息集成优势和组合效率
我国大多数城市的交通运输管理主体是呈分散性的。交通管理相关部门多,且各自都建立起属于自己部门的信息化系统。但是这些数据信息的应用是呈单一化的,垂直于各自的业务范围之内。这样一来,关联业务系统在沟通和交流互动方面就有所欠缺,造成了交通管理各司其职,互不干涉,管理分散的现象。大数据促进了综合性交通信息体系的建立,讲不同领域不同范围内的数据库集中起来形成一个大型的数据库,实现了信息集成,综合加以利用。这样一来,交通管理的整体性能得以提升,使各个领域的数据库中的存储的数据得到充分的利用,各部门之间协作性加强,有效的提升了交通管理的质量。
2.3配置交通资源
传统人工规划和管理交通的模式,在交通动态化管理方面存在严重的弊端。大数据技术的应用,对交通管理部门的决策和解决方案的制定提供了有力的数据支撑。不仅有效减少了交通管理部门在人力和物力方面的投入,同时使交通资源得到充分合理的利用。如根据大数据结果确定多模式地面公交网络高效配置和客流组织方案,多层次地面公交主干网络绿波通行控制以及交通信号自适应控制。
2.4有效提高交通预测水平
以往对于交通拥堵状况的改善通常是采取加宽道路、增加里程等方法来提高交通运营的能力。但是这样的解决办法受多方面因素的影响,如土地资源的制约、基础设施建设规划方案前景预测等等,而且人力、物力、财力的投入都很大。大数据技术的应用,在对各个部门的数据进行准确提炼和构建合适的交通预测模型后,可以有效模拟交通未来运行状态,验证技术方案的可行性。而在实时交通预测领域,大数据的快速信息处理能力,对于车辆碰撞、车辆换道、驾驶员行为状态检测等实时预测也有非常高的可靠性。
3、大数据在智能交通中的重要作用和发展前景
3.1有效的提高交通运营能力
大数据技术在智能交通中的应用,有效的提高的道路交通的通行能力,使道路交通基础设施的效能得到最大的发挥,对交通需求能够科学有效的分析和调控。交通基础设施的建设涉及工程量大,投入多,受多方面因素的限制。大数据具有的大体积特点能够有效的解决这一问题。比如,大数据技术的应用,可对交通拥堵地段通过传感器通知机动车驾驶员,并提供有效的解决方案,大大接受了形成的时间和经济成本。大数据的实时性,使处于静态闲置的数据被处理和需要利用时,即可被智能化利用,使交通运行的更加合理。
3.2有效的提高交通安全水平
大数据的实时性和可预测性有利于交通安全系统在对数据信息分析处理方面能力的提升。大数据技术能够都驾驶员的状态进行自动检测,当驾驶员的驾驶处于疲劳状态时,车载装置可对驾车者的身体状态是否正常进行检测。同时车载装置还可与路边探测器进行信息交互,对车辆运行的轨迹的检测。大数据技术能都对各个传感器传递的数据信息进行快速的整合处理,建立起安全模型对车辆行驶的安全型进行综合的分析,有效的降低交通事故的发生。
3.3有效的进行环境监测
大数据技术通过建立区域交通排放的监测及预测模型,共享交通运行与环境数据,建立交通运行与环境数据共享试验系统,分析交通对环境的影响。数据技术能提供降低交通延误和减少排放的交通信号智能化控制的决策依据,建立低排放交通信号控制原型系统与车辆排放环境影响仿真系统。
参考文献
[1]庄仕昂,李世杰.浅谈无线网络技术在智能交通系统中的应用[J].科学之友,2011(12).
[2]韩耀强.大数据:智慧城市的发展引擎[J].科技创新,2012(03).
智能电表数据分析方法及应用 篇12
近几年来,由于通信技术和信息技术的长足进步, 以及政府对环境保护方面条例的推行,高级量测体系 (AMI)因其在系统运行、资产管理,特别是通过负荷响应实现节能减排方面的显著效果而得到了广泛的应用[1]。大量智能电表的部署和应用,使得电力公司能获取高频率、广覆盖且时标一致的配电网末端的实测数据。同以往配电网量测具有的稀疏特点相比,高级量测体系除了能向电力公司提供用户结费所需的电能消费数据外,还能实时或准实时地获取各测量点的功率、电压、 电流及功率因数等重要运行参数[2]。通过近几年来智能电表的大规模安装和推广,目前各省电力公司的数据中心都累积了海量智能电表量测数据,如何运用这一宝贵的基础性数据资源,挖掘其潜在价值,为配电网的网络优化、优质运行及资产管理等业务提供有力支撑,是学术界和产业界共同关注的焦点,目前在美国、加拿大、 法国等国家对智能电表数据分析的相关研究和实践工作正如火如荼地开展。本文将在分析我国智能电表数据应用现状的基础上,深入探讨国内外行业内常用的智能电表数据分析方法及典型应用场景,并给出基于智能电表数据对配电网拓扑进行校验的分析实例。
1我国智能电表数据应用现状
由于高级量测体系能为实施各方带来显著效益, 2009年以来,国家电网公司全面推动了智能电表的安装和应用,截至2014年7月,已累计安装智能电表2.2亿只,用电信息采集系统覆盖2.3亿户[3]。南方电网公司也在加快计量自动化系统的建设,截至2014年8月, 南方电网公司下属的广东电网公司、深圳电网公司和广西电网公司已建成省级计量自动化系统,广西电网公司已实现厂站、专用变压器、配电变压器3类终端全覆盖, 低压集抄客户覆盖率44.1%[4],智能电表在我国得到空前的发展和应用。
从目前情况来看,我国的智能电表量测数据及采集系统呈现出规模大、采集频率高、数据存储时间长、数据多样化及测量点分布密集5个主要特征。1系统规模大:当前我国的采集系统一般以省为中心进行集中式部署。以浙江省电力公司为例,已在省公司数据中心建设覆盖全省十几个地市的超大规模采集系统,预计2016年将超过2000万用户[5]。一个以省为中心部署的采集系统,将包含数百万采集终端及几千万只智能电表, 其系统规模无疑是巨大的。2采集频率高:与传统抄表系统相比,智能电表数据采集间隔一般为15min,对于重点用户,采集频率可能还要更高,当前智能电表“生产数据”的速度比传统电表高出十倍甚至是百倍。3数据存储时间长:从数据分析的视角来说,原始累积数据越丰富、数据的时间尺度越长,对分析结果越有利;目前基于各种因素的综合考量,历史数据一般需要保存7 ~ 10年。对于如此长时间尺度的海量数据,如何管理、 分类、归档及保证其检索的性能,都是非常困难的事情。 4数据种类多样化:当前智能电表要求采集的数据类型是非常繁多的,其中包含电量类数据:总电能示值、各费率电能示值、最大需量等;负荷类数据:电压、电流、 有功功率、无功功率、功率因数等;事件类数据:终端和电表的各种事件和报警;工况数据:采集终端及计量设备的工况信息;电能质量类数据:功率、电压、谐波等;另外还有费控信息等其他数据。5测量点分布密集:无论是国家电网公司还是南方电网公司都对测量点提出了全覆盖要求,即测量点需覆盖变电站馈线出口、 专用变压器、公用变压器和低压用户,业务范围从原来单一的居民集抄扩大到厂站计量、大用户负荷管理及变压器监测等。
为充分挖掘智能电表数据的潜在价值,国家电网公司启动了一批基于智能电表数据应用的研究项目。例如基于营配数据融合的配电网资源优化及服务关键技术研究项目,就是充分应用智能电表量测数据,对用户用电消费行为、配电网规划设计模式、短期负荷预测等方面开展研究。另外为了消除配电和用电营销业务之间的数据孤岛,国家电网公司正在实施营配调数据贯通工作, 为智能电表数据的分析准备基础条件。目前中国电力科学研究院正在开展电力大数据相关研究,开发电力大数据平台,开展面向大数据的能效分析等关键技术研究, 可以预见智能电表数据的深层价值将在未来几年有所体现。不过目前我国对智能电表数据的分析和应用也存在数据碎片化、缺乏系统性,以及超大规模数据集计算效率不高等问题。
2智能电表数据分析方法
智能电表数据分析是指运用统计分析方法对收集来的大量原始智能电表量测数据进行处理、建模和计算, 提取有用信息并形成结论,挖掘其内在关联和深层价值,为电力公司的商业运营、电网规划和运行维护等提供决策支持,使其更具有洞察力的过程与科学。与智能电表数据相关的数学统计分析方法可以归结为以下主要4类:相关(correlation)分析、聚类(cluster)分析、 异常(exception)分析以及趋势分析[6]。
1)相关分析。相关分析是研究现象之间是否存在某种关联关系的一种统计方法。相关分析分为线性相关分析和偏相关分析等,在智能电表数据分析中,线性相关分析最为常用,它研究两个变量间线性关系的程度, 用相关系数R来描述。可以利用负荷与温度的相关关系, 结合天气情况来预测负荷高峰。也可以利用连接在同一配电变压器二次侧的智能电表电压测量值来对某一组电表的相关性进行分析。
2)聚类分析。聚类分析就是以一定的标准来汇集某一类数据。例如,连接同一个变压器的电表可以通过聚类分析来确定变压器的负荷。虚拟电表是人为定义的聚类,能够聚类具有同一属性的电表的数据,一种典型的虚拟电表是聚类具有线性关系的电表来进行区域规划和分析(如某一馈线或变压器的负荷)。
3)异常分析。异常分析是指对偏离一般规律的异常事件或现象进行原因追溯的分析方法。异常分析在设备故障和用电异常(如窃电)诊断等方面能发挥重大作用。如统计变压器故障前的一系列历史异常数据,对其进行抽样和建模,就可以预测变压器的故障,从而及时检修或更换。
4)趋势分析。趋势分析是将两期或多期连续的同一指标进行对比,得出它们的增减变动方向、数额和幅度,以揭示事物变化趋势和变化规律的一种分析方法。 趋势分析是智能电表数据分析的常用方法,最简单直接的分析就是利用多条趋势曲线同时展示某一用户用电量的同比或环比数据。设备故障前的趋势模型也能够用于辨别零件的毁坏或操作故障。
智能电表数据是配电系统某一时刻运行状态的真实反映,它必然满足或是符合电气工程基本原理和内在规律,如从电源向负荷方向,配电馈线的电压分布呈下降趋势;同一电源点下的各测量点的电压值相近且波动率相似;某一区域供入供出的电量必然守恒等等。基于电气工程的基本原理,采用智能电表量测数据为主要输入, 结合上述数学统计分析方法,以信息技术为实现手段, 求解某一配电系统特定问题的过程,称为智能电表数据分析法或数据分析元(smart meter data analytics),它是基于多学科的综合分析方法,为我们系统地求解某一问题提供理论指导,目前已成为电力公司数据分析的热点。美国电力科学研究院的T.A.Short,基于同一配电变压器二次侧的用户智能电表电压测量值具有强烈相关性的电气原理,采用线性回归的数学方法,以智能电表的电压值和电量值作为样本数据,实现了对变压器相位的识别,以及变压器与智能电表的电气连接关系和阻抗模型的自动创建[7]。加拿大BC Hydro公司通过类似的原理,利用相关分析,对配电网GIS的拓扑正确性进行校验。该方法的优势是不需要现场人工排查或是额外安装测量装置,只需利用电表数据进行分析就能得出准确的结论。从以上研究成果看出,智能电表数据分析元在实际的工程应用中已经取得了非常明显的效果。
在智能电表数据分析的实际应用中,我们通常需要从超大规模的数据集中提取、处理和运算数据,因此大数据处理是智能电表数据分析过程中需要解决的重大问题。以加拿大BC Hydro公司为例,一个普通居民用户的智能电表,每天会产生3KB以上的数据,每月是100KB左右。当安装智能电表数目达到160万时,计量数据库里每天增加11GB的数据[8]。我国由于人口众多、 地域辽阔,主要省份的电力用户数量都在千万以上,其数据规模可以想象将会更加巨大。
在此情景下,显然单机或通常意义上集群系统已无法在指定的时间内完成在对智能电表数据的运算, 应用并行 计算模式 已成为必 然。 并行计算(parallel computing)是指同时使用多个计算资源解决计算问题的过程,它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互联的若干台独立计算机构成的集群[9]。 目前开源的并行计算机集群系统主要有Hadoop、Spark等,这些系统已经被广泛使用在互联网和电信等领域, 相信在智能电表数据分析方面也会得到良好应用。
3智能电表数据分析主要应用场景
3.1客户行为分析
负荷曲线是客户消费行为的直观显示,智能电表数据能详细的记录客户消费细节,如间隔为15min的电量、 功率、电压等参数。由于具有相似消费习惯的客户具有相似的负荷分布形状,因此可以根据其负荷分布的相似度来对客户加以分类,从而更加方便企业对客户的分类和精细化管理,并针对某类用户制定更加有针对性的运营策略。
把用户实际的负荷曲线叠加到电网峰谷时段上,可以展现出用户更多的用电细节,计算其峰值时段的电能费用,估算用户错峰的潜力。因此利用智能电表数据对客户行为进行分析,能更有效地促进需求侧管理,合理抑制负荷峰值,提高电网资产的利用率。
3.2资产管理
利用智能电表数据来辅助配电网资产管理是智能电表数据应用的一个重要方向。通过对电表数据的分析, 可以监测设备的运行状态,提前识别设备故障,从而合理优化资产的维护和更换计划。美国的弗罗里达电力电灯公司(Florida Power & Light,FPL)利用智能电表量测数据,对故障配电变压器的二次侧电压数据进行回溯分析,结果发现故障变压器的二次侧电压在故障发生前2 ~ 3个月的时间内存在明显的偏高现象。通过对变压器故障机理深入分析得出,这类故障是由于高压侧绕组损坏,变压器变比发生变化而导致[10]。利用这一规律, FPL实施了全系统变压器的故障预警监测,主动更换将要故障的变压器,实现防患于未然。在AMI项目启动的第1个月(2012年11月),就发现了372台符合此条件的变压器(FPL变压器总数在879 000台左右)。 在2014年1 ~ 6月也已更换452台配电变压器(以电压高于252 V为判据,240 V为额定电压),它们大都是服务年限高于15年的老变压器。通过对智能电表数据的应用,FPL在系统运营方面得到了显著的收益,包括变被动故障为主动的计划停运维护,变压器更新开支平均节省25%,缩短了用户停电时间(比故障停运情形减少93 min)[11,12]。
从以上案例可以看出,智能电表数据能很好地帮助电力公司提高其资产的管理和运维水平,减少非必要的事故停电,提高用户满意度。
3.3故障定位与响应
通常电力公司一般依据客户电话来确定电网故障的位置,在派遣工作人员去现场处理之前,需要几个或是更多的故障电话来大致确认故障范围和影响区域,然而这样就会大大增加故障的处理时间。派遣现场工作人员处理故障前,利用电表数据和线路故障指示器联合判断故障地点,将极大地减少故障影响时间。
许多智能电表都是内置电容供电的智能传感器, 在线路停电后仍然能够上报“失电”故障信息(last gasp)至故障管理系统。从各智能电表接收到的故障信息能够清楚地判断故障范围,如果把智能电表和地理信息系统结合在一起,通过故障点的分布和拓扑关系可进一步显示各故障点的相关性。另外派遣现场作业人员处理故障前,调度中心的操作人员能够下发指令到相关的电表判断是否断电,这能够极大地减少故障误报。智能电表在恢复供电后也会上报“上电”信息(first breath)。智能电表和操作人员之间的这种互动过程能帮助确认故障修复并检测是否有多重电网故障同时存在。
3.4网损分析
目前配电网网损计算中存在的最突出问题就是供售电数据不同期,产生此问题的根本原因是不同电压等级的售电量抄表日期不一致,且与供电量的结算日期不同。而智能电表的大量应用,使电力公司可获得变压器、馈线和大量用户的同期(准同期)数据,依据这些数据可得到同期线损,较过去通过手工抄表数据所计算的结果要精确很多。
除了网损的同期问题外,网损计算的周期也是值得关注的问题。传统网损分析一般每月进行一次,属于事后折算定性分析,存在明显的滞后性和盲目性,往往不能正确评价损耗率是否合理,也不能及时做出补救措施。 电力是一种特殊的商品,每时每刻都随着工农业生产、 居民生活、天气等发生变化,线损率也随之变化。怎样来实时地跟踪这些变化,或者将发生变化的监测时间压缩到最小是亟待解决的问题[13]。智能电表采集间隔一般为15min,可以把原来一个月进行一次的网损分析缩短至15分钟级,甚至可以对重点关注的某个或一组用户,设置到5min或更小的间隔,这样可以为网损分析提供实时(或准实时)的测量数据,对电网运行过程中的用电异常、窃电行为提供及时主动预警。
3.5配电网状态估计
传统意义上,电力公司通过位于变电站内或配电线路沿线的SCADA设备来监测配电系统,例如线路重合闸设备、电压调节器和电容控制器等。SCADA测量能够提供电流、电压等信息,再结合配电管理系统DMS中的先进软件应用,可以有效地提升对配电线路分析、检测的清晰度和性能,对配电线路所有测量点实时电气信息做出状态估计,但是SCADA无法显示配电线路以外的电气信息。
智能电表数据可以补偿SCADA实时数据的不足, 其提供的小时冻结数据甚至是分钟冻结数据显著提升了状态估计精度。把智能电表系统收集的历史数据与天气信息和GIS模型结合起来,构建精度更高的用户模型。 用户数据实现近实时收集,随时掌握用户点的精确功率流,为配电网状态做出更精确的估计。
3.6电压和无功优化
集成的电压 / 无功优化(volt/var optimization,VVO) 与传统未经协调的局部控制方法不同,VVO使用全网实时信息和在线模型对配电网络进行全面评估,提供全网优化和协调控制策略,使各项调节控制措施产生的结果能与最佳控制目标一致。 当前应用的VVO系统采用准实时的配电网潮流模型,潮流模型建立在实时网络拓扑模型、节点负荷模型和二次回路等效模型之上。负荷模型的调整依靠变电站自动化和馈线自动化SCADA系统的测量来实现,并采用下游配电线路的状态估计电压作为配电网潮流模型的参考电压。因此客户端电压的精度取决于参考电压的精度与配电线路、配电变压器和二次回路等效模型的压降。这些模型的误差都给电压无功优化带来许多不确定性,降低了VVO的性能。利用覆盖全网的智能电表(包含馈线、配电变压器和居民电表) 和通信网络,智能电表的量测数据作为SCADA系统的冗余,能够通过减少无功优化中的不确定性,提升电压无功优化性能。
VVO的另一个目的是在不违反电力服务标准的情况下,使得任意用户点的配电电压尽可能低。大多数VVO方案依靠状态估计所得到的低电压限制和模型结果往往精度不够,VVO应用倾向于采用保守方案来保持电压不违反低电压门限。智能电表的历史数据和实时数据能显著提升模型的精度,并保证无功控制行为不违反运行限制。另外在系统中的薄弱点,通过对智能电表进行特定的设置,使其能为VVO返回近实时测量数据, 为其优化过程提供帮助。
综上所述,智能电表数据大量应用于配电网的规划设计、运行维护及客户服务等各个方面,除了上面列举的方向外,智能电表数据还可以广泛应用于负荷预测、 可靠性评估、相位识别、三相不平衡分析等方面。
4基于智能电表数据的配电网拓扑校验应用实例
本应用实例将介绍如何采用智能电表数据分析方法,对配电网地理信息系统(GIS)中设备的电气连接关系进行正确性校验。电力公司通常使用GIS系统来描述和管理配电系统中各种电力设备以及它们的电气连接关系,在已有的配电网GIS系统数据中,存在着大量的错误或者误差,例如:
1)实际电气拓扑关系与GIS系统数据不相符, 如电力用户与台式变压器的连接线路不相符、台式变压器与馈线的连接线路不相符等;
2)设备资产的地理位置错误、参数不一致等。
这些错误和误差对配电系统的资产管理、系统运维、供电中断响应以及维修人员的人身安全都有不良影响。目前,为了校验和修正这些错误或者误差,电力公司的通常做法是:当实际拓扑关系发生变更时,利用人工记录这些变更并更新GIS中的相关数据,或者专门组织人力进行实地巡测来修正这些错误。这些方法均需要耗费大量的时间、人力和物质资源,而且准确性不够,同时对于采用地下电缆铺设的台区、偏远台区等不具备良好的可操作性。
加拿大BC Hydro公司基于智能电表数据分析方法,为解决上述问题提供了新的思路,其主要分析过程如下:
(1)按一般的电气工程原理,配电网的电压分布具有以下特性:
1)因为与不同馈线相连的负荷的分布是不同的,所以其电压分布是不同的;
2)电压值的大小在同一馈线上从上游至下游呈递减趋势;
3)负荷在系统中是变化和相互影响的,如果两个负荷的电气距离越近,它们的电压曲线就越相似,相关度就越高,反之亦然。
(2)从GIS系统中选取某一配电变压器,例如此台区下共有13个电力用户的智能电表,利用这些智能电表的小时电压分布序列(一周的时间),按照样本数据相关性分析算法,对其进行相关系数计算(见图1),可得出一周内所有电表小时电压曲线之间的相关系数矩阵。可以看出,除了电表11和电表13,其他所有该变压器下的智能电表小时电压之间的相关系数都大于0.97,这样高的相关性可以表明这些电表确实都是接在该变压器下。 然而,电表11和13与其他电表之间的相关系数在比较低的0.67 ~ 0.78区间(在图1中以灰色底色示出),这表明这两个电表在实际的拓扑结构中可能是连接在其他变压器下的。 再把这两个检出的电表与其他相邻的台区内电表进行电压特性相关分析和量值比较,可以推断出其正确的接线位置。
BC Hydro公司基于智能电表数据对配电网拓扑进行正确性校验,是电气工程原理与其他分析方法相结合,用于解决电力系统实际生产运行问题的典型案例,具有很好的参考和借鉴意义,详细内容参见文献 [14-15]。
5结语