在线处理

2024-06-07

在线处理(精选10篇)

在线处理 篇1

0 引言

在信息时代,数据是非常宝贵的资源。但要实现数据的价值,需要通过多种方式整理、挖掘和展示数据,使数据转化为信息和知识。数据仓库、OLAP等就是这样的技术。当人们说到数据仓库、OLAP等技术时,在印象中那都是针对海量级数据量来说的复杂系统,采用了一整套复杂的理论和工具软件方能得以实现。然而,在现实应用中有一些数据量并不是很复杂,用户也希望能有比较好的数据展示工具以提供分析。比如对图书馆的图书借阅情况分析以了解读者兴趣,对交通事故登记记录分析以查明交通易发时段、地点和原因等。这样的应用可能都是比较小的项目,如果对其建立大而复杂的数据仓库和OLAP系统,用户可能难以接受,所以在实际应用中人们一般会根据业务需求直接编程为一系列定制报表查询。但这种方法是一种预定制表,用户可分析角度有限。针对这种情况,我们在应用开发中创建了一套动态查询分析报表方案,本文将系统地介绍该方案的设计框架。

1 基本原理

本方案基本遵循数据仓库原理,并通过程序开发提供部分OLAP功能,使用户能比较自由地进行数据分析。

根据数据仓库原理,在数据库结构上主要包括维度表、事实表和元数据三部分,本方案遵循该结构。OLAP功能比较复杂,我们只实现部分简单的功能:维度任意选择、排列、切片、行跨栏等,不支持上钻、下钻、列跨栏等。

系统基本结构如图1所示,分三层,其中数据库层是数据源,利用数据抽取器将数据整理到事实表和维度表中,在OLAP层,分析模式设计器在元数据基础上根据需要创建分析模式,生成SQL语句,并保存到分析模式存储文档中,数据显示器利用模式SQL并提供切片条件输入,形成最后SQL语句,然后从事实表与维度表中获取数据并显示。

2 系统设计

根据以上原理,我们将系统设计分两部分分别介绍,包括数据仓库和OLAP两部分的设计,事务处理数据库部分不作具体分析。

2.1 数据仓库部分

该部分包括三类表及数据抽取处理器,三类表分别是事实表、维度表和元数据表。事实表存放业务相关的度量值,维度表包含业务的文字描述[1],元数据存储用于模式设计器设计时使用的数据,主要描述事实表与维度表的表结构关系。

各表表结构如图2所示,因为事实表和维度表基本遵循数据仓库中的星型结构原理,此处不再赘述,此处主要介绍元数据表各表的用途。本方案中的元数据表只用于OLAP层使用,数据抽取处理器不使用该数据,所以只涉及数据仓库中表结构描述。

本系统中元数据包括四个表,共同完成对事实表和维度表的说明。其中表描述表记录系统共有哪些事实表和维度表,包括这些表的表名及其中文描述,以便显示。通过该表OLAP层可以查看到共有哪些事实表和维度表。事实表度量表记录各事实表的度量字段的字段名及其描述信息;事实表维度表记录各事实表的维度字段的字段名及其描述信息;维度表字段记录各维度表的各个维度描述字段的字段名及描述信息,并提供输入约束说明,以便在使用该属性为切片时作可取值说明,属性支持两种类型,字符型和日期型。通过事实表度量表和事实表维度表可以查询某个事实表有哪些度量和维度属性,通过事实表维度和维度表字段可以获取某事实表的所有可用维度。

因为该系统主要用于小型简单查询分析应用,所以我们认为数据抽取处理器应当是一个比较简单的处理,仅仅从单一数据源获取数据并作必要的分类即可,我们在实际应用中一般是写一个存储过程,然后布署为定时任务来实现的,对其实现此处不作进一步说明。

2.2 OLAP部分

OLAP部分就是要将数据仓库的数据以可动态分析的方式提供给用户。与产品化的OLAP工具类似,该系统中也包括模式设计和数据展示两部分,只是这里是非常简单的功能。本系统没有任何像多维数据库之类的中间数据库,OLAP层是直接建立在数据仓库上,利用元数据表产生SQL语句,然后利用具体开发语言中的datagrid或spreadsheet之类的工具显示数据。因此我们从分析模式设计器和数据显示器两部分说明该部分的设计。

●分析模式设计器

分析模式设计器的功能是提供一个界面给用户,在该界面上显示可供分析的事实表及其维度信息,用户通过鼠标操作便可方便地完成模式设计,模式设计器根据用户操作结果自动生成sql语句,并保存。用户的维度选项自然构成层次关系,实际上的层次关系则需要用户确定。界面如图3所示。

SQL构造算法如下:

1)从表描述表获取所有事实表记录:select id,表名,表中文名from表描述表where表类型=”事实表”;在界面下拉框填入表中文名,同时在内存中将该数据内容保存;

2)根据下拉框中当前事实表名获取所有度量项目、维度项目select度量字段,字段中文名from事实表度量where事实表id=“当前事实表的id”select维度表字段.维度字段、维度表字段.中文名称,维度表字段.字段所属表from维度表字段,事实表维度where事实表维度.事实表id=“当前事实表的id”and事实表维度.维度id对应表id=维度表字段.维度表id;

3)当用户选择完成并确认时,程序执行sql创建过程:

(a)根据sql select语句语法,我们将整个构造分成select,from where,group by,order by五个部分。

(b)首先处理from部分。根据维度项目中的已选项确定使用了哪些表,有多种方法可用,如在内存中保存第2步执行结果,可在内存中通过维度表字段.中文名找到维度字段和字段所属表,也可以直接用一句sql获取表名。所获得的表名加事实表表名便形成了sql语句的数据表组合,由此形成from子句,当然,这里还不是最后的from子句,因为where部分可能涉及新的维度表。

(c) select部分就是将已选维度和度量项目按顺序组合起来,但因为有group by的缘故,度量项目需要用到sum函数。因为显示时需要动态确定表的列标题,所以在此处将所有字段都用其中文名称作为别名方式,例如select[维度表字段.字段所属表].[维度表字段.维度字段]as[维度表字段.中文名称],sum(xx事实表.[事实表度量.度量字段]as[事实表度量.字段中文名])。字段排列顺序按先维度后度量方式排列。

(d) group by部分则是将已选维度项目按顺序依次组合而成,如graup by[维度表字段.字段所属表].[维度表字段.维度字段1],[维度表字段.字段所属表].[维度表字段.维度字段2]等等;order by部分与group by一样处理。

(e) where部分在此处只完成表关联部分,对某维度设定取值的条件部分就是OLAP的切片操作,因为在数据显示时需要随时设定条件,所以我们将其放到显示部分完成。此处关联where部分就是将事实表外键与维度表主键作“=”操作,所以其形状如:where xx事实表.[事实表维度.维度字段1]=[维度表字段.字段所属表].id and xx事实表.[事实表维度.维度字段2]=[维度表字段.字段所属表].id。

(f)最后将所得部分一起保存到一个xml文件中,xml文件节点大致如下:

●数据显示器

数据显示器执行分析模式设计器产生的sql语句并显示数据,同时它还提供切片条件输入接口。

首先我们来看看如何提供条件输入接口。分析条件主要是指维度属性取特定值,当然也可以是度量,比如度量大于某个值,但我们这里只考虑维度属性。维度可以是该事实表相关的任意维度,无论该维度是否在group by字段中。所以输入条件就是所有的维度。在构造输入界面时,首先读取xml文件,根据模式名称选定需要的模式。程序便可以从<measuretable>节点得到事实表名,然后进一步从原数据表得到该事实表所关联的所有维度内容,包括维度字段、维度中文名称、维度所属表及维度约束条件和维度类型。根据这些内容,利用现代开发语言足以构造输入界面。图4是一个示例。假设都是等值条件,在已选项列表中的数据是键值对,以“=”号分隔,当在已选项中选定某条记录时,条件编辑区即为该项,在编辑区可以输入条件值,当用户将条件输入完成后,点击[数据显示]按钮将驱动系统开始数据获取过程,简单描述如下:

1)读入该模式的xml节点,取得sql各部分值,形成select、from、where、group by、order by子句;

2)将已选项条件从“表字段中文名=value”形式翻译成“表字段=value”,并拼加到where子串中,同时找出相关维度表名追加到from子句中;

3)将所有子句拼接形成完整的sql语句,并执行之,到此便以得到了数据。

最后是数据显示部分。现在的开发工具有很多显示组件,可以很容易地实现各种复杂的数据显示,包括显示后的动态排序、数据格式等,这里不对其进行描述。此处仅介绍一个如何处理跨行不重复显示的算法。跨行不重复就是实现如右图5的显示格式,对行前部分与上一行相同的值显示为空。

算法基本思想如下:

使用一个中间记录作为跨行的比较信息,记录上次跨行的列值;

定义一个跨行标志,表示在当前行已经处理的字段是否跨行,只有已经处理的字段是跨行的后面的字段才可能继续出现跨行,并初始化为false,表示目前可以跨行;

按显示顺序从左到右逐字段与上一条已经处理过的记录列值比较,然后根据比较情况,结合跨行标志和中间记录值决定是保留原值还是将其设为空。

下面是一个实现代码:

3 结语

本文较详细地介绍了一个简易在线分析系统的设计思路,该系统基本遵循了数据仓库原理,并提供了简单的OLAP功能,使用户可以动态执行数据分析。该系统方案已经应用到多个实际项目当中,效果比较满意。当然,该系统的OLAP功能仅停留在初级水平,只适用于对报表要求一定灵活性但分析功能要求不是很高的应用需求。另一方面,在该系统基础上可以作很多改进以进一步提高其适用性。

参考文献

[1]Ralph Kimball,Margy Ross.数据仓库工具箱:维度建模的完全指南.谭明金,译.电子工业出版社.

在线处理 篇2

1.巡查前必须调阅所需站点的运行数据和日志信息,准备好各种试剂和材料。2.检查监测站点供电系统、接地线路和通讯线路是否正常。

3.检查监测站点采水系统、配水系统,各种控制设备部件运行是否正常。4.根据系统要求对系统流路、预处理装置、取样装置等进行清洗和维护。5.根据仪器维护手册的要求和维护工作周期安排表对仪器进行日常的维护工作。

6.仔细观察每台仪器的运行状态及每台仪器的部件运转情况、试剂的消耗情况,做到及时消除隐患,确保运行的稳定与正常。

7.根据维护工作周期安排表对仪器进行试剂更换、标样校正和实际水样对比校正等工作。

8.认真查看各分析仪器及设备的状态和数据信息,判断运行是否正常。9.认真做好站点的日常巡查工作记录,特殊情况下应加强巡视监测子站的频次,及时发现存在的问题并妥善解决。

10.发现故障时应及时排除,不能解决的应及时向上级领导汇报,同时应做好手工采样、实验室分析的应急补救措施。

11.在经常出现强风暴雨的时节,应检查避雷设施是否正常,监测站房是否有积水漏雨的现象。

在线监测系统管理制度

1、在线监测由指定的专业人员操作、使用,严禁非专业或相关技术人员操作和使用。

2、对在线监测设备使用情况定期进行检查,保证在线监测系统正常稳定的运行,获取最多的有效数据和信息。

3、对在线监测系统获得的监测数据、统计报告、图表等与污水处理单位有关的重要资料,必须严格保密,未经许可,不准向其他第三方机构提供。

4、操作和使用各种在线监测设及配置各种化学试剂,必须严格遵守安全使用规则和操作规程,并认真填写使用状况和操作记录。

5、配置试剂或清晰器皿的废液,以及在线检测仪器排放的废液,必须统一收集,不得随意排放。

6、各种仪器设备、器皿、工具、试剂、手册等应放在规定的场所,以提高工作效率和避免错拿错用,造成安全等事故。

7、定期检查在线监测子站房内配备的各种必要的安全措施(通风、恒温、恒湿消防等措施),保证随时可以使用。

8、在在线监测房内使用电、气、水、火时,应按有关规定进行操作,保证安全。

9、不得在在线监测子站房内吸烟、喧哗、饮食等。

在线处理 篇3

一、如何正常访问Google Docs?

目前Google Docs服务器已经转移到国外,在国内无法访问,对于众多的Google Docs铁杆粉丝来说,想不翻墙正常访问Google Docs,可以这样操作:

Step01到http://testahcl.ys168.com/,进入“工具软件”目录下载一个H1.txt文件;

Step02在Win7中启动记事本,点“文件/打开”菜单,选择“所有文件(*.*)”文件类型(图1),打开C:WINDOWSsystem32driversetc目录中的hosts文件;

Step03现在用记事本打开H1.txt文件,复制H1.txt中的所有内容,将之添加到hosts文件末尾,最后保存hosts退出,至此不翻墙也能正常访问Google Docs了,现在去http://docs.google.com/创建一个Google Docs帐号,以便以后使用Google Docs。

注意:以上添加后的hosts文件如果无法保存,你可以先将该文件复制到D盘,然后用记事本打开D盘上的这个hosts,将H1.txt中的所有内容都添加到hosts文件末尾,保存hosts退出记事本;最后将C:WINDOWSsystem32driversetc中的hosts文件改名为hosts8,再将D盘上的hosts复制到C:WINDOWSsystem32driversetc目录中即可。

二、Office中也能处理Google Docs在线文档

OffiSync是免费的Microsoft Office第三方插件,支持Office 2010/2007/2003,安装了该插件后,你的Microsoft Office就能处理Google Docs在线文档了,具体方法如下:

Step01启动浏览器到http://dl.pconline.com.cn/download/57331-1.html下载OffiSync;

Step02下载完毕,点击OffiSync.exe开始在线安装,运行OffiSync前需要先安装.net framework 3.5,因此如果你的系统中没有,安装程序会首先安装当前系统匹配的Microsoft .NET Framework等组件,按Accept(图2)开始下载安装这些组件,由于安装时要在线下载程序包,安装时间会稍长;

Step03安装完毕,OffiSync会在Microsoft Office 2010/2007中以Ribbon界面出现,在Office 2003中则以传统的菜单形式出现,例如开启Word2003,你会发现新增了一个OffiSync菜单(图3),工具栏上也新增一排OffiSync按钮;

Step04现在点击OffiSync菜单中的Open,准备打开Google Docs中的一个在线文档,首次 操作时会出现OffiSync对话框,在User/Email及Password中分别输入你的Google账户用户名和密码(图4),勾选“Remember my password”后,按下OK登陆;

Step05接下来弹出Open Document对话框,点击展开左侧的Google Docs,右侧窗口中就会自动载入Google Docs在线文档列表,注意OffiSync只显示当前Office组件能打开的那类文档,例如在Word中只会列出在线DOC文档(图5),然后你就能像操作本地文档一样打开远方的Google Docs在线文档,只要选中要编辑的那个文档,点击“Open”按钮,在Office中即可打开该在线文档进行编辑,编辑完成后,点击“Save”保存,系统会自动更新远程Google Docs文档为最新的修订版本;

Step06除了让Office能编辑Google Docs在线文档,OffiSync还能将Office文档保存到Google Docs,例如在Word中点击菜单“文件/新建”新建一个空白文档,输入并编辑该文档,编辑完毕点击OffiSync菜单中的“Save”或者“Save As”即可将之保存到Google Docs中,随之会弹出Save Document对话框,点击展开左侧的Google Docs,再点下面的Home,右侧会自动载入Google Docs在线文档列表,在“Document name”中键入要上传的文档名称(图6),点Advanced/Add还能输入协作者的电子邮件,设置哪些人可以读或编辑该共享文档,如要在Google Docs以Office原文档格式保存,就勾选“Kepp as Office file Format”,设置完毕点Save即可上传到Google Docs中保存了;

Step07此外OffiSync还能管理Google Docs目录和文件,当你用OffiSync打开Google Docs在线文档时,点击展开左侧的Google Docs,点下面的Home,右侧窗口中会自动载入Google Docs在线文档列表,如果此时你右击Home就会弹出一个菜单,点击New Folder、Delete Folder菜单项(图7)能在Google Docs中新建或删除文件夹,右击列表中的在线文档名,点Delete File菜单还能删除该在线文档;

Step08 OffiSync还能搜索Google Docs在线文档,当你用OffiSync打开Google Docs在线文档时,在Open Document对话框中输入关键词,点击“Search”按钮进入搜索对话框,不仅能标题搜索,还能进行文档正文内容搜索;OffiSync也支持多帐号管理,在Microsoft Office中点击菜单“OffiSync→Setting→Accounts”可以添加多个帐号,假如多人共用一台电脑,建议不要使用多帐号管理,因为该功能启用后,这台电脑上的用户可以任意打开别人帐号中的文档,你的文档没有私密性,对任何人都公开了!

电力系统在线警报处理解析模型 篇4

1 国内外研究现状

电力系统警报处理和故障诊断问题由于受系统规模、复杂程度和不确定因素等的限制, 难于建立常规的数学模型。直到上世纪七十年代初期, 人工智能理论研究得到初步的发展, 也为电力系统故障诊断研究开辟了新途径。目前, 已实际应用或具有应用潜力的警报处理和故障诊断方法, 主要有:

1.1 专家系统法

专家系统是最早用于电力系统故障诊断的一种人工智能方法, 其原理就是将专家的经验跟推理方法转化为相应的计算机语言, 利用其对故障过程中装置和设备出现的信息进行逻辑判断并将推理过程和结果向用户描述解释。

1.2 基于解析模型法

基于解析模型法就是将停电区域中所含的全部一次设备的不同组合发生故障作为故障假说, 再根据设备和保护动作以及断路器跳闸之间的逻辑关系, 建设一个反映保护与断路器实际状态跟期望状态之间差异的目标函数, 并将电力系统故障的诊断问题表示为无约束0—1整数规划问题, 从而通过TABU算法、粒子群算法等优化技术寻求最合理解释所接收到的保护和断路器动作警报的故障假说。

2 在线警报处理的解析模型

现有的警报处理系统的基本框架如图1所示。在对警报处理系统初始化时, 首先从规则库中读取警报配置规则并形成时序约束网络。警报配置规则包括以下两种基本形式:

(1) 表示原因事件Cj和警报aj之间的时间距离约束;

(2) 表示ai和aj警报与之间的时间距离约束。

图1中的映射表包含以下三种映射数据表格:

当时序约束网络的初始化完成之后, 再通过时序推理建立映射表。当系统在线运行时, 映射表将通过其中的元素匹配代替耗时的图的路径搜索, 这样就可以满足在线运行要求。当在线警报处理系统处于运行状态时, 通讯服务器将实时接收到的警报序列作为输入, 经过警报选择、原因分析和警报处理结果分析这三个关键步骤处理之后, 最终将包含以下信息的处理结果显示到调度台:

(1) 显示导致警报发生的事件及该事件所在的时间区间;

(2) 异常或遗漏的警报信息。

构建一种能够充分利用警报信号时序特性的电力系统警报处理的解析模型不仅能够分析出导致警报发生的具体事件, 而且可以推理出发生该事件的时间区间。同时还可以识别出存在异常或遗漏的警报信息。实际系统的算例测试结果表明所提出的警报处理模型正确、方法有效, 满足在线应用要求。

参考文献

在线处理 篇5

1、自由搭配字段,像小时候玩积木一样简单

精心准备了十余种字段,用户可按照自己的需求自由搭配,几分钟就能建好一份精致的表单,剩下的就是等着数据滚滚而来了。

2、想让谁填,就让谁填

这份表单是公开给任何人、凭密码填写还是只有管理员自己能填,您可以随意控制。无论是分享到社交平台、还是嵌入自己的网页,在金数据,只需轻轻一点。

3、想用手机填表单?

在移动互联网时代,您一定希望用户在手机上就能填写问卷调查、下订单。金数据为表单定制了精致的手机浏览样式,缩减了填写时的流量损耗。考虑周到,只为能让您无忧无虑。

4、不喜欢单调的外观,没关系

金数据提供了几十种主题样式,肯定能找到最适合的那一款。让自己的表单以夺目的方式出现在填写者面前。

5、你辛苦收集的数据,就真的全是你的 在金数据,用户收集来的所有数据都可以自由地进行编辑、删除、筛选,想全部导出到Excel也只是点下按钮的事儿,最大化地方便您对数据进行后续处理。

6、想看报表?何必再圈、拖、选、调

想更直观地浏览下数据?不必再自己费神在Excel里折腾啦。金数据已经为这些数据自动生成了报表,您需要做的只是端杯茶过来,坐下来慢慢看。

7、不知怎么建表单?模板中心里,现成的

想做个订单收集系统、顾客满意度调查之类,但又不知道该怎么设计?到模板中心去逛逛吧,那里有精心准备的大量模板。

8、控制字段显示/隐藏,在这里你就是魔法师

你希望填写者做出特定选择后才出现某些字段?没问题!金数据提供了非常简单的“规则”编辑工具,所有规则一目了然。挥动你的魔棒吧,让字段活起来。

9、方便、好用,还免费噢

屏蔽泵在线监测与故障判断处理 篇6

屏蔽泵是离心泵与三相交流电动机相结合的一种新型环保型泵类。由于该类泵没有动密封 (即机械密封) 因而实现了输送介质的零泄漏, 是实现安全、环保又无泄漏的理想用泵。在此, 笔者主要介绍该类泵的运转状态指示表TRG监测系统在线监测与判断故障的原理。

1 屏蔽泵简介

屏蔽泵主要由泵头、屏蔽电机、转子组件、轴承体及滑动轴承等部件构成, 其结构和工作原理如图1所示。屏蔽泵的驱动电机与泵被密封在一个压力容器腔内构成了一个整体, 并由屏蔽套将驱动电机定子和转子隔开, 使定子绕组和转子铁芯与输送液体完全隔离, 防止介质进入电机的定子绕组和转子铁心浸蚀屏蔽泵的A、B线圈而导致短路。

2 屏蔽泵TRG的原理

屏蔽泵运转时, 转子与检测圈相互作用产生基波感应电压, 经信号转换器传入屏蔽泵运转状态指示表TRG。根据TRG表的绿、黄、红3个区域的指针显示, 确定屏蔽泵在运行中轴承的磨损状况 (TRG表可以监视轴承半径的磨损状况) , 运转初始值在+0.3以下, 如图2所示。由于TRG表内置有相序检测器, 可以检测屏蔽泵的旋转方向是否正确。

3 屏蔽泵TRG监测装置

3.1 信号检测部分

信号检测部分监测装置结构在空间相对180°的定子两个齿上绕制了一对完全对称的线圈——TRG A、B线圈 (图3) 。当转子旋转时, 监测装置便感应出相位差180°的电势。

3.2 轴承磨损监测部分

轴承正常工作时, 当轴承与轴套之间两个对称点的间隙量ab时, 两绕组的基波大小相同而方向相反, 所以由接线盒输出至检测仪表的信号只显示谐波之差, 指针在绿色区。当轴承磨损量增加, a>b时, A、B线圈间的谐波和基波差显著增加, 如图4所示。

3.3 TRG表部分

转子与检测圈相互作用产生基波感应电压, 经信号转换器传至TRG表, 此时指针从绿色区域偏向黄色或红色区域 (图5) , 提示操作者采取措施。除此之外, TRG表还能监视屏蔽泵的转动方向。

4 屏蔽套磨损后果

由图4可知, 轴承磨损可使轴承与轴套的间隙过大, 间隙过大会使屏蔽泵产生以下后果:

a. 产生振动和异常响声;

b. 转子在旋转中产生径向跳动, 轴向不平衡, 造成泵轴弯曲;

c. 叶轮在旋转中产生跳动的同时与泵壳产生摩擦, 叶轮与泵壳产生磨损和撞击, 造成叶轮和泵壳断裂甚至损坏;

d. TRG表指示过大;

e. 转子在旋转中处于轴承磨损后的最低点, 使转子屏蔽套与定子屏蔽套产生摩擦, 液体由磨损处进入定子组件中损坏主线圈致其断路。

5 故障的判断与处理

屏蔽泵TRG监测装置可以选择在现场或计算机远程监控两种安装形式。屏蔽泵出现异常现象或故障时, TRG监测装置立即报警并自动停车, 防止烧泵等设备事故发生。常见TRG表状态显示的故障现象与处理见表1。

6 结束语

介绍了屏蔽泵TGR装置在线监测与判断泵故障的具体方法及其应用措施, 但涉及到的数据不能完全照搬应用, 应根据实际情况斟别。

在线处理 篇7

关键词:Hadoop,问卷调查,SSFM

0引言

生活在互联网高度发达的时代,人们每天都需要面对各种各样的数据。据统计[1],2006年的数据总量为0. 18 ZB,2010年它突破了ZB大关,而在2011年产生与复制的信息量超过1. 8 ZB。这意味着在仅仅5年中,数据总量就增长了9倍。

随着云计算[2]的兴起,分布式系统在海量数据处理方面具有单机系统无法比拟的优势。Google公司设计研发的用于分布式系统的GFS( Google File System) 和MapReduce编程模型,提供了处理海量数据的思路。

Hadoop[3]是一个提供类似GFS文件系统和MapReduce功能的开源项目,由Apache软件基金会设计研发,其主要有两个核心部件[4]: HDFS和Map Reduce。Hadoop以其低成本、高效率、高可靠性、易用性的特点,近年来得到广泛的关注和使用,已成为分布式数据处理的不二选择。

1 HDFS和MapReduce介绍

HDFS ( Hadoop Distributed File System ) 管理网络中的所有计算机存储,可以跨计算机存储文件,具有存储超过单个计算机存储能力的文件的能力。

Hadoop集群通常包含1个Name Node和多个Data Node,具体如图1所示。

Name Node管理文件系统的命名空间,维护文件系统树内的所有文件和目录的元数据( Metadata) 。 Data Node用来存储文件,包括文件数据块本身以及一定数量( 可以设定) 的副本数,用于提升系统的可用性及改善性能。

MapReduce是一种并行运算的编程模型,数据处理过程主要分为Map和Reduce两个阶段。Map阶段将输入数据映射为一组键值对,这一操作是可以高度并行的; 而Reduce阶段将Map阶段产生的键值对根据某些需要的规则进行合并化简,从而输出需要的结果。

2在线问卷调查

在线问卷的特点是,每一个提交问卷的用户会产生一个单独的答卷,如果参与问卷的人数特别多, 提交问卷时间又比较集中,那么想要快速统计出问卷的结果就需要处理海量的小文件。而对于问卷调查的结果基本都需要进行统计处理,并从数据统计的结果中得出最终的结论。考虑到成本和时效问题,采用Hadoop集群来提高处理效率。

在线问卷结果的目录结构如图2所示。

所有有效的答卷均提交至服务器目录下的/ var / www / file目录,根据某种条件分类建立子目录, 以提交答卷的ip地址为名,均为文本文件。所有的答卷大小相近,一般为不超过100k B的小文件。

3海量小文件问题及解决思路

3. 1海量小文件问题

在实际应用中,Hadoop处理海量小文件的能力有限,主要有两个方面的原因。

Name Node内存制约。在HDFS中,任何的文件、目录和数据块都是以对象的形式存储在Name Node的内存中,每个对象占用150字节,因此Name Node的内存大小制约着文件系统可以存放的文件数目[5]。假设有100 000 000个小文件,每个单独作为一个数据块,将占用大约30GB内存。Name- Node内存资源的相对紧缺制约了Hadoop集群的扩展。

MapReduce运行效率低下。MapReduce的Map阶段会对每个文件( 或每个数据块) 启动一个Java虚拟机和相关的初始化工作,而每一个小文件的Map任务启动和释放都会消耗远超Map任务本身更多的时间。

3. 2几种解决方案

有效的小文件处理方法可以从两个方面考虑: 减少小文件数量和提高小文件MapReduce性能。 使用Hadoop Archives,Sequence File以及HBase都可以达到减少文件数目的结果。其中使用Hadoop Archives和Sequence File都无法灵活读取文件,因此在问卷调查系统中也摒弃不用。使用HBase则大大增加了系统的维护成本,如非必要不是最佳选择。而由于提升小文件MapReduce性能的方法诸如使用Combine File Input Format对实际应用性能提升的十分有限,因此这类方法通常不被考虑。需要重新设计一种具有针对性的方法,在最大化的利用系统的并行处理能力的同时,兼具读写灵活的特点, 且不会带来额外的软硬件维护成本。

文献[6]介绍了适用于Web GIS系统的一种HDFS小文件处理方案。文中将16 MB以下的文件归类为小文件,处理方法是合并为64 MB大小的文件,并建立索引。

文献[7]介绍了适用于“中华字库”工程的HDFS小文件存储和读取方案。文中针对“中华字库”工程的文件目录结构特点,采用合并小文件并建立索引,且依据文件相关性进行预加载,达到提高小文件的存储和读取性能的目的。

文献[8]则是针对Blue Sky系统。Blue Sky系统使用HDFS存储PPT文件和视频文件。对于其中的PPT文件的问题,文中提出了将属于同一课件的小文件合并为一个大文件,并用索引和数据文件的双层预取提高小文件的存储效率。

以上几种方法均是具有特殊针对性的小文件处理方法,所采用的方法是将小文件合并为较大的文件,减少文件的数量,并建立文件索引。不同之处在于,文献[6]建立的是全局索引,文献[7]则是分别建立块索引( blockindex) 和章节索引( chapterind- ex) ,而文献[8]针对每个PPT文件建立局部索引( localindex) 。但本文中的海量小文件目录结构简洁,文件组成规律清晰且分布集中,与文献[6]的分布松散不通,也不如文献[7 - 8]中的小文件那样具有相关性,因此三者论述的方法此处均不适用。

3. 3 SSFM算法

一个可行的解决方法是SSFM算法,即Simple Small Files Merging,将输入的海量小文件按照目录合并为体积相近的大文件,并建立全局索引文件。 由于合并文件的处理十分迅速,相对于海量Map任务启动和释放所耗费的时间极大减少,因此性能得到显著的提升。合并后文件的大小以64 MB为上限,综合考虑集群可用的map slots数目和所有文件的总容量,选择合适的文件大小。

SSFM在Map操作之前进行,遍历所有提交到MapReduce任务的文件,先判断其大小,小于100k B的定义为“小”文件,需要进行合并操作,否则跳过。 对于需要合并的文件,新建一个空文件,将判定为小文件的内容读取出来,追加到空文件中,并在索引文件index中添加一条记录,记录格式如图3所示。

其中,Dir Name为文件所在目录的名称,Filename为合并后的文件名,Original_filename是合并前的文件名,Length是原文件的长度,Start_position为当前文件在合并后文件中的起始位置。当任务运行结束后,可以根据索引文件的内容,判断得出的结果是否真实可信。

为了最大化利用集群中的空闲计算能力,SSFM算法还将空闲的map slots数量N作为考虑因素。 将所有文件的总体积记为TaMB,则平均每个map slot需要处理的文件体积为:

如果Te不超过64 MB,则将所有文件合并为N个Te大小的文件; 否则,将所有文件合并为64 MB大小的文件。

记Tf为合并后每个文件的大小,M为合并后的文件个数,则:

算法用python实现,部分代码如下。

( 1) 统计文件长度的函数

( 2) 合并文件的函数

(3)调度合并后文件大小

4实验及结果

提交的答卷内容类似于:

1A

2B

3D

……

因此统计结果的程序需要针对关键字进行统计,类似于Hadoop自带的wordcount程序; 另外针对wordcount的结果需要作出进一步的处理,得出最终的问卷调查结果。

实验环境是3台机器,其中Name Node:

CPU: Intel i5 - 3210M @ 2. 5GHz

内存: 8. 0 GB

OS:Ubuntu 12.10

Data Node:

CPU: Intel Pentium( R) E2180 @ 2. 0GHz

内存: 1. 0 GB

OS: Ubuntu 12. 10

实验中输入数据均是20k B以下的小文本,分别测试100 000个和1 000 000个小文件时,使用和不使用SSFM算法的情况,结果如图4 - 6所示。

在实验测试中,文件数在100以下时,Hadoop默认策略和SSFM算法运行时间相差不大,在文件数超过1000后,Hadoop默认策略需要的时间与文件数量基本成正比,这是因为当文件数量增大到百万数量级后,MapReduce所需的时间主要由Map阶段决定,而Map阶段所需时间与所有Map任务的数量成正比。当文件数量达到1 000 000时,所需时间估算约为50 000min,这几乎就失去了实际应用的可能,而使用SSFM处理后,仅需要几分钟时间就可以完成任务。

任务最后得出的统计结果如图7所示( 图7仅为某一题结果,其余部分略) 。

5结束语

从实验结果中可以看出,使用SSFM处理在线问卷调查的结果统计比使用Hadoop默认的小文件处理方法更加有效率,答卷数量越多,SSFM的优势越明显。SSFM特别适用于海量小文件且分布较为集中的应用情形,相对于其他的小文件处理策略, SSFM不限定合并后文件的大小,而是优先考虑空闲的map slots,达到充分利用集群性能的目的。

在线处理 篇8

关键词:高炉炉顶上升管,内衬脱落,处理措施

1 问题的提出

八钢A高炉炉顶为卢森堡PW公司型中心卸料式无料钟炉顶。炉顶的上升管是将高炉煤气导出的工艺设施。因为高炉的生产是连续进行, 所以上升管必须连续的将煤气导出, 通过下降管送至重力除尘。升管材质为碳钢制作, 由于高炉煤气温度正常情况下在250℃左右, 所以管壁内部有隔热层, 用来隔离炉内煤气的热量避免对钢结构的烧损。如果上升管出现破损, 将直接影响高炉生产, 造成长时间休风的严重后果。

2 上升管结构特征

炉顶上升管其结构简图如图1:

3 存在问题

八钢A高炉上升管施工是在冬季, 内衬施工及干燥没有做好, 致使投产后局部出现脱落现象。在炉况不稳定时, 炉顶温度有时也会超标, 造成上升管局部出现发红的情况。对内衬脱落的处理难度非常大, 首先是在线处理人无法到达受损处, 且施工难度大;其次休风处理时间很长, 对高炉产量影响太大。但是如果不进行处理, 上升管就面临着被烧穿或变形的危险。只有对其在外部进行在线处理, 才能保证高炉生产不受影响。

4 理论依据

经现场观察, 上升管是局部出现内衬脱落, 高温已经将外部防腐漆烧损, 经测量, 烧损处的温度在220℃左右, 而内衬没有脱落的地方则在70℃, 两者之间有150℃温差。从钢材的机械性能与温度的关系可以得出, 总的趋势是随着温度的升高, 钢材的强度降低, 变形增大。在200℃以内, 钢材性能没有很大变化;430℃~540℃之间强度急剧下降;600℃时强度很低不能承担荷载, 约260℃~320℃时有徐变现象。并且上升管的重量都作用在根部与炉体连接部位。在高温和重压的双重作用下, 已经超出钢板的屈服强度, 烧损处已经产生变形。

由图2可以做出烧损处钢板上任意一点G点的受力分析, 如图4 所示, 该点所受合力为沿上升管壁向下的力F1和垂直于管壁的力F2所共同构成的向下的力F合。

由受力分析可以得出该处的变形是由于烧损位置在上升管重力的作用下所产生。任由其发展下去, 就有开裂的趋势

5 内容

由上述可得出, 上升管的重量无法改变, 只有给变形位置降温来使其保持原有的机械性能。并对变形处结构给予加强如下图:

由上图可看出, 在上升管内衬脱落处的外壁上用同样材质的钢板制作焊接了一处箱体, 为中空设计, 通过进水口通入冷却水, 经外派口排除, 上部设有透气孔, 以便在高温产生蒸汽时排出。进水量可以通过阀门控制水量大小, 冷却水的量由排水温度决定, 温度高时可将阀门开大, 保持此处的温度与其他地方一致。且所增加部分还能够对已近变形的部分起到结构加强的作用, 消除了上升管的一处隐患。

6 效果评价

在线处理 篇9

传统图像处理方法比如就图像分割而言, 分割质量较高, 尽可能减少人工参与而得到精确对象边界。计算复杂度较小, 可在普通计算机上运行。算法通用性强。

经典算法能够实现“以不变应万变”。如基于直方图阈值法、基于区域方法、模糊聚类分割方法、边缘检测方法等[1,2]。但人们对图像认识停留在统计学角度。近年来人们开始在图像处理中采用针对性方法解决特殊问题。如2015年有人提出智能逻辑图像分割[3]。不同类别影像之间可能存在一定重叠, 不能采用“一刀切”方法分割, 引出模糊聚类概念[4]。但只考虑影像重叠, 无法应对可能遇到的复杂、未知、需要针对处理的情况。本文拟搭建开放性强的在线软件系统, 作为联通微观和宏观领域分析的桥梁。

一、设计思想

首先将已成型算法封装到图像处理系统中, 需要时直接调用。操作过程见图1。读取图像后系统对鼠标移动作出消息响应, 根据图像像素在视窗中坐标位置进行寻址, 得到鼠标所在点像素位置, 灰度, 各颜色分量等信息, 在状态栏位置显示鼠标所在位置图像该点像素信息, 找出其规律并处理。

搭建完系统后, 系统的外观如图2所示。

二、基于在线系统的图像分割

以图像分割为例, 分割一幅挖掘机在施工现场图像进行, 并和传统分割方法对比, 图像原图见图4 (a) , 目标要求识别出挖掘机部分, 现场未挖掘和已经挖掘的部分。

(1) 初步处理

利用构建系统读入图像, 移动鼠标分析图像, 效果如图3所示。首先分割挖掘机, 通过观察利用已构建系统的消息响应, 通过鼠标点击, 在挖掘机上取两个点, 两点都位于挖掘机上, 且这两点颜色差别尽可能大。

在RGB颜色空间中, 这三个分量高度

相关, 只要亮度改变, 三个分量都会相应改

变;而且由于RGB是一种很不均匀的颜色空间, 所以两种颜色之间的知觉差异 (色差) 不能表示为该颜色空间中两点间距离。在图像分割中经常将RGB颜色空间转换成其它颜色空间, 如HSI、HSV、CIE、Lab等[5]。本文采取不相关性更高的HSI彩色空间。

RGB转换为HSI彩色空间公式为:

根据这两个点的HSI颜色分量可确定它们的颜色空间距离, 而这个距离为:

其中α为考虑的余量系数, 根据人眼对颜色的分辨能力, 一般取为0.2。

遍历图像中各点, 符合式 (2-6) 便认为和选中点属于一类, 即认为该点属于挖掘机, 反之则不是。根据左下角随鼠标移动给出的信息, 可分别选择上述两个点, 并调整α值, 得到分割结果如图4 (b) 图所示, 该结果已令人满意, 即挖掘机部分无需再处理。

(2) 进一步处理

和步骤 (1) 相似, 经实验比较阈值设为50, 得出未挖掘区域初步分割结果如图3所示。可以看出, 已识别出未挖掘区域, 但也引入了挖掘机部分的噪声干扰, 根据系统的设计思想即图1, 应继续进行进一步的处理。

虽然引入挖掘机部分的噪声, 但其不是大面积区域, 且不是连贯区域, 可以用“”字型模板对图像进行腐蚀去除噪声, 然后再对图像膨胀, 消除腐蚀对大面积区域即未挖掘区域的影响。根据具体情况直接调用膨胀函数, 用“”字型模板对白色背景进行膨胀, 对景物进行腐蚀。同理消除噪声后调用腐蚀函数用相同模板对背景进行腐蚀, 达到膨胀恢复未挖掘区域的效果, 见图4 (c) 。仿此得到已挖掘部分的分割结果, 见图4 (d) 。

三、传统的图像分割方法

基于图像分割的跟踪方法是视觉跟踪主要方法, 分割线索包括了图像强度、颜色、运动、纹理、灰度直方图等, 依据给定特征将目标区域从图像中分割出来[6,7,8]。阈值分割方法计算简单, 总能用封闭且联通的边界定义不交叠区域, 关键就是确定最优阈值。

(1) 大津阈值分割。该方法也叫最大类间方差法, 在判别最小二乘原理基础上推导出来, 将图像分为若干类, 以类间方差为最大为准则决定阈值。

其中就分两类而言, 假设图像的背景较暗, 并且图像的大小为M×N, 图像中像素灰度值小于阈值T的像素个数记作N 0, 像素灰度大于阈值T的像素个数记作N 1则

g就是类间方差, 采用遍历的方法得到使类间方差g最大的阈值T, 即为所求。

该方法不管图像直方图有无明显双峰, 都能得到较满意的结果, 但遇到如图3所示背景复杂的图像, 很难决定应该分几类。若根据要求简单分三类, 会包括不感兴趣的背景, 最终结果如图5所示。分割结果包括了远处铁塔和房屋, 由于颜色相近, 将挖掘机的臂以及驾驶舱部分误分类为已挖掘部分。

(2) 交互式阈值分割。为有针对性选择阈值, 需要借助直方图等工具, 交互式阈值分割是方法之一, 如图6所示。单独基于颜色分割得到的区域可能是不完整的;在复杂图像各个分量直方图中并不一定存在明显的谷, 用来进行阈值化分割;而且没有利用局部空间信息。分割结果见图7。可见仍然不能区分颜色较为相近的已挖掘区域和挖掘机的臂部分。

四、结果分析与对比

比较图4, 图5, 图7, 在线系统分割结果分类明确, 几乎完全去除了不感兴趣部分的噪声即干扰, 分割后图像保留了目标部分。表1给出三种分割办法在不同区域之间的重叠像素数, 数据证明在线分割方法重叠像素数明显减少, 比经典算法效果好得多。

五、结束语

构建在线图像处理系统, 实现传统图像处理方法由全局到局部, 由宏观到微观, 由图像数据统计量到具体图像数据的过渡。

摘要:首先构建在线图像处理系统, 然后以图像分割为例, 对一幅需要分割的图像进行分析并处理。通过在线观察在该图像上取特征点, 基于所取点设定阈值和算法等操作, 最终得到分割结果。然后与其它经典分割方法比较, 证明了其优越性。实验结果表明, 方案操作简单, 通用性强, 对具体的图像具有针对性。

关键词:在线系统,图像处理,图像分割

参考文献

[1]Lopes N V, Bustince H, Melo-Pinto P, Pedro AM.Automatic histogram threshold using fuzzy measures[J].Image Processing, 2010, 19 (1) :199-204.

[2]Peng B, Zhang L, Zhang D.Automatic image segmentation bydynamic region merging[J].Image Processing, 2011, 20 (12) :3592-3605.

[3]杨康叶.基于RGB模型颜色相似性的彩色图像分割[J].计算机系统应用, 2013, 22 (3) :128-131, 160.

[4]Kashan A H, Rezace B, Karimiyan S.An Efficient Approach for Unsupervised F uzzy C lustering B ased G rouping E volution S trategies[J].Pattern Recognition, 2012, 46 (3) :1240-1254.Pattern Recognition, 2012, 46 (3) :1240-1254.

[5]杨康叶.基于RGB模型颜色相似性的彩色图像分割[J].计算机系统应用, 2013, 22 (3) :128-131, 160.

[6]Kravtchenko V.Tracking Color Objects in Real Time[D]:Master Thesis, Vancouver:University of British Columbia, 1999.

[7]Mat suzawa Y, Kumazawa I.Object Track ing w ith Shape Representation Network Using Color Information[A], 2000International Conference on Image Processing[C], Vancouver:, 2000.

电站锅炉受热面泄漏在线处理措施 篇10

目前, 在线处理技术是在泄漏部位合理地选择和制造夹具后, 利用专用工具, 将密封剂注入封腔, 达到消除泄漏的目的。但是, 这种技术需在特定部位需要较大空间, 并且材料造价高, 结构复杂, 准备时间长, 需要专业安装施工队伍。

B&WB-130/3.82-M型锅炉省煤器联箱 (准219mm×16mm×3 006mm) 四个, 管节244根, 各管间隔80mm, 距炉墙300mm, 操作空间狭小, 现场施工困难。

一、原因分析

省煤联箱短节安装焊口处易发生泄漏, 泄漏部位一般位于联箱短接与省煤气管束安装焊缝处。产生的原因, 一是给水含氧量有可能偏高, 引起氧腐蚀, 造成泄漏。二是锅炉给水自动调节量偏大, 引起管道振动或膨胀受限引起应力过大造成焊缝泄漏。三是焊接安装质量存在缺陷。省煤器漏点位置空间狭小, 施工难度较大, 需设计一套简单合理的堵漏装置。

二、方案研究及实施

锅炉本体以外的带压管道因焊接质量问题而造成泄漏, 无论是漏汽还是漏水, 都将对设备和人身安全构成威胁。有些泄漏管道只有临时停炉才能进行焊接处理, 但非计划停炉将影响电厂发电和系统运行, 损失很大。因此, 管道的带压堵漏技术, 是企业应当具备的一项技术。堵漏装置设计加工、安全措施和安装技术都要及时、到位。同时, 对锅炉给水进行严密化学监督, 防止含氧量超标, 并且对主给水自动调节器进行校验, 避免调幅波动过大, 消除管道压力波动过大的影响因素。检查省煤气管束膨胀是否受限。

1.堵漏装置设计加工。管道泄漏采用焊接是常用的堵漏方法, 但带压焊接很难。本堵漏技术是基于压盘根和泄压的原理来设计堵漏器件的。堵漏装置的主要组成零件有:填料压盖、扩容装置、填料室、密封填料、泄压管、软金属垫片 (紫铜垫) 、泄压阀门、槽钢、拉紧螺栓等。如图1所示。

(1) 扩容装置是堵漏装置的支撑体, 上面加工填料室和焊接泄压管。扩容装置直径和壁厚的选取应考虑介质的温度和压力、泄漏管的管径、填料室直径。扩容装置需由刨床沿轴向中心线用尖刀将其一分为二刨开, 保证焊后直径不变。

(2) 填料室的大小选取大于漏气管 (省煤器管) 外径6~12mm (根据填料盘根尺寸) , 沿轴向中心线将其一分为二刨开。

(3) 填料压盖由相应直径的圆钢加工而成, 再沿轴向中心线刨切, 将其一分为二刨开。

(4) 固定后将两部分焊接, 且内壁无焊渣渗透。

(5) 扩容装置与联箱相贯弧面要求接触良好, 联箱表面平整干净。

(6) 泄压管管径考虑泄漏量大小, 一般选准25mm无缝管, 其长度视现场情况而定。选配套高压法兰两个, 高压阀门 (泄压阀门) 一个, 拉紧螺栓八条。

2.安装技术:

(1) 焊上泄压管。泄压管长度、方向要保证在泄露处能将泄漏介质引向安全处, 管子下端安装泄压阀门, 并将阀门打开。

(2) 将泄漏管套在内部, 将填料压盖、扩容室沿刨开线扣好焊接为一体。

(3) 焊好后将填料压盖的轴向焊缝, 用磨光机磨光, 便于填料挤压顺利。同时检查填料室内壁是否平整光滑。

(4) 将焊好的填料压盖和扩容室沿泄漏管滑移至漏点处, 将泄漏点对着泄压管。

(5) 固定装置与联箱结合处, 压紧紫铜垫片并用螺栓紧固。

(6) 选取合适的填料 (炭素纤维盘根) 进行压填料工作, 随着填料的一层层压紧, 泄漏的蒸汽介质从阀门泄出。

(7) 填料压紧后, 慢慢关闭泄压阀门。检查堵漏装置各处均不得有泄漏。如若泄漏, 可开启泄压阀重新实施填料压紧, 直至严密。

三、效果

采取上述带压堵漏措施, 成功消除漏点, 堵漏成功。并可根据易发生泄漏部位提前制作装置备用。此次成功运用, 避免经济损失近40万元, 锅炉动力站实现了连续安全经济运行。

四、结论

1.该堵漏装置虽然能够消除泄漏, 避免非计划停炉, 达到机组正常运行的目的, 但只是一种临时性措施, 彻底消除泄漏还须在计划停运检修时予以处理。

2.该技术应用在泄漏发展初期效果较好, 不应在泄漏较大情况下使用, 防止管道爆裂发生危险。

3.宜用在管径≤40mm、介质压力≤4.5MPa的压力管道。

4.在泄压室对称位置钻孔攻丝制作成注密封剂孔, 也可实施密封剂密封。

5.如果联箱厚度安全系数足够, 可将该堵漏装置与联箱相贯面直接使用电焊焊接。电焊熔池一般为2~3mm。

上一篇:大学生就业过程下一篇:品牌相关理论