数据分离(共8篇)
数据分离 篇1
引言
无线传感器网络(Wireless Sensor Networks, WSNs)是由大量带有感知、检测和处理功能的传感器节点组成,但这些节点被布置在监测区域,可以以自组织的方式形成无线网络[1]。无线传感器网络在环境监测、救援、生物医学和智能家居等领域有广泛的应用[2]。传感器节点是由电池供电,由于其部署场景的特殊性,使得不易补给,因此,合理高效的利用传感器节点有限的能量极为重要[3]。而在传统的通信方式中,每个传感器节点将采集的信息直接以广播的形式发送到汇聚节点,由于传感器节点数量庞大、分布较密集,由此会产生频繁的碰撞和冲突,导致广播风暴问题(Broadcast Storm Problem)[4]。各节点冗余数据较多,通信负载重,无谓消耗了宝贵的能量资源。
1 相关工作
针对以上问题,国内外学者已做大量研究。如文献[5]中的概率广播是研究较多的一种解决办法,主要思想是一个节点在收到广播消息之后以概率P进行转播,但概率值的设定是一个NP问题,应根据网络情况动态的设置概率值的大小。文献[6] 中提出了一种基于计数器的方法,节点收到一个广播消息后,发起一个计数器,并设初值为1,阈值为C,设置一个随机等待时延,在等待时间段内,节点每收到一个副本消息计数器的值就加1,如果节点收到重复消息的数量小于C,就进行转发,否则,丢弃此消息。文献[7] 中提出构建一个由连通支配集CDS(connected dominating set)构成的主干网,主干网中的节点称为支配点,负责路由表的计算和维护、消息的收集和转发;网络中其它节点称为被支配点,主要负责信息的采集。通过构造主干网使得消息限制在网络的一小部分节点间转发,有效地减少了产生广播风暴的机率,而在任意图中求解最小连通支配集是NP问题。分簇路由具有拓扑管理方便、能量利用高效、数据融合简单等优点,它是另外一种经典的分层结构路由协议,成为当前重点研究的路由技术[8]。在分簇的拓扑管理机制下,网络中的节点可以划分为簇头节点和成员节点两类。在每个簇内,根据一定的机制算法选取某个节点作为簇头,用于管理或控制整个簇内成员节点,协调成员节点之间的工作,负责簇内信息的收集和数据的融合处理以及簇间转发。分簇算法中簇的构建过程开销大,簇头节点通信任务重,会导致节点能耗不均。
以上这些方法虽然能够一定程度上降低广播风暴发生概率,节约节点能量,但是需要所有节点均参与数据采集与转发,邻居节点间的冗余数据较多,并且一次数据传输过程只能收集一种数据。本文的基于分离树数据转发机制,以汇聚节点为根节点来建立m颗均匀覆盖整个网络的分离树,当仅需采集一种数据时,仅其中一棵树负责数据收集与转发,极大地减少了冗余数据量,其他树中的节点则进行休眠,节约能耗。当需要同时采集两种或多种数据时(如温度、湿度、光照等),多棵树同时工作,分别各自采集不同数据,这样汇聚节点可以实现同时采集到多种数据。
2 基于分离树的能量有效数据转发机制
2.1 基本思想
本文所提出的机制主要思想是从汇聚节点开始构建m个无交集的生成树,m棵树中的节点均匀分布在整个网络。由于网络节点分布较密集,邻居节点之间采集的信息有很大的相似性和冗余性,因此在通信过程中,m棵树交替进行通信任务,其余的则处于休眠状态,能保证实现信息采集的目的的同时,节省更多能量。另一方面,由于树形结构的特殊性,各节点保存有父节点、子节点信息,因此在数据转发过程中,可以保证数据有方向的传送到汇聚节点,能有效避免环路和消息回传的产生,同时消息碰撞的概率大大降低,缓解了广播风暴问题。
2.2 网络模型
为了简化网络模型,本文做了如下假设:
(1)网络中共有N个节点随机部署在m*m的区域内;
(2)所有节点和汇聚节点一旦部署完毕处于静止暂态;
(3)节点可通过功率控制来调整发射功率;
(4)每个节点有唯一的id号;
(5)汇聚节点位于监测区域外,并且能量不受限。
2.3 分离树的构建
这里以m=2 为例详细说明分离树的构建过程。构建过程中通过给节点标记不同颜色(深色和浅色)来区分两棵树,除了汇聚节点每个节点充当三种角色中的一个:深色节点、浅色节点,孤立节点。汇聚节点是深色、浅色两个生成树的共同节点,因此它可看做既是深色节点也是浅色节点。其构建过程如下:首先由汇聚节点广播一个hello消息给所有邻居,收到此hello消息的邻居节点随机地给自己标记深色、浅色(如图1(a))。然后深色、浅色节点分别广播red-hello、blue-hello给邻居节点。一个节点一旦收到至少一个来自浅色或深色节点的hello消息,此节点将等待一段时间T来接受足够的hello消息,然后根据这些邻居的颜色再决定其自身颜色,以概率pr成为深色节点、pb成为浅色节点( 0<pb+pr≤ 1),以概率1-pb-pr成为叶节点。为了使更多的节点收到来自深色和浅色节点的hello消息,需要在给定邻居情况下平衡两种节点。因此,如果一个节点的浅色邻居节点比深色多,那么此节点以更大概率选择成为深色;如果一个节点的深色邻居节点比浅色多,那么此节点更可能选择标记为浅色。一个节点通过接收到的red-hello、blue-hello消息估计两种颜色的邻居节点数量,并选择它自己的颜色保证其他节点最大可能的接收到两种颜色的节点消息。若一个节点没有收到任何hello消息,表示此节点既不能标记为浅色也不能标记深色,成为孤立节点。当所有节点均选定自己角色之后,建立起了深色、浅色两颗以汇聚节点为根节点的分离树(如图1(b))。
为了保证尽量多的节点参与路由,希望所选的分离树尽可能大并覆盖整个网络,需要采取合适的策略来决定pr、pb的值,如果收到很少的hello消息,则pr+pb应该大一点,这样可以得到更大覆盖的树。如果节点收到red-hello比blue-hello多,为了平衡两种颜色此节点将会有更大的机会成为浅色节点。因此,由公式(1)(2)来计算pr、pb:
其中,Nred、Nblue分别表示收到的red-hello、blue-hello消息的数量; p是一个节点成为非叶子节点的概率p=pb+pr,为了保证网络全覆盖,这里设置p =1,即所建立的分离树能够完全覆盖整个网络。
2.4 数据转发过程
当分离树建立起之后,则可以开始数据传输过程,为了实现m颗分离树分开各自通信,不同颜色节点互相不允许转发彼此的消息。如果一个节点成为了浅色或是深色节点,他就会加入相应的树并转发消息给它的父节点。当采集单一数据时,分离树交替工作,不工作的分离树中的节点进入休眠状态。工作状态的节点将自己采集的数据和子节点发来的数据进行融合,然后发送给父节点,直到消息到达汇聚节点。当需采集n( m ≥n )种数据时,任意n棵分离树执行通信任务,其余进行休眠;当其中某一分离树由于节点能量耗尽而不能继续任务时,则休眠的分离树进行唤醒,继续此中断任务,由此保证通信质量。
3 仿真分析
为了研究本文所提出机制的有效性,用OMNe T++仿真软件对此进行验证,在相同实验条件下,对比传统的广播方式和本文的机制,主要对比网络中网络开销和节点能耗情况。
仿真参数设置如表1:
(1)广播风暴发生概率
图2 反映了广播风暴发生概率随着节点数的变化趋势,可见本文的分离树机制性能相比广播方式有明显提高,主要原因是本文建立的两颗分离树交替工作,参与的节点数量有所减少,冗余数据大大减少;另外在数据转发过程中,节点有方向性的将数据发给自己的父节点,碰撞的概率大大降低,广播风暴问题得到明显缓解。
(2)节点能耗情况
图3 反映了节点每一轮结束时剩余能量的变化情况,从图中可以看出本文所提机制变化趋势较平缓,即节点耗能速度较慢,主要是因为网络中冗余数据大大减少,节点能量利用率得到提高;同时节点周期性的工作通信量有所降低,有助减少节点耗能;此外,节点在数据转发过程中,每个节点都会对数据进行融合处理,使得数据包较小,减小了传输能耗。
4 总结
本文提出的基于分离树的能量有效数据转发机制利用以汇聚节点为根节点来建立m个均匀覆盖整个网络的分离树,实现进一步降低能耗,还能同时采集多种数据。由于网络节点分布密集,邻居节点之间的感测数据有很大的相似性,故分离树交替执行通信任务,完成通信目的,不工作时,使其处于休眠状态以节省更多能耗。此外利用树形结构的特殊性,在数据转发阶段,有方向性的将数据以最短路径发送给汇聚节点,使节点能量得到高效利用。仿真实验表明,本文的机制能有效缓解广播风暴问题,实现了节能,节点能量利用率大大提高。
摘要:在无线传感网中,由于传感器节点能量极度受限,而传统的广播通信方式会产生很大的数据冗余,因而造成能量利用率较低。文章通过建立以汇聚节点为根节点的分离树来解决以上问题,m颗分离树均匀覆盖整个网络并交替进行工作,不工作时则进入休眠状态以节省能量。在数据转发阶段,分离树中的节点有方向性地将数据转发到汇聚节点,有效避免环路和回传,从而大幅度降低了冗余数据的转发。
关键词:无线传感网,分离树,能量利用率,休眠状态,数据冗余
参考文献
[1] Yu J,Wang N,Wang G,et al.Connected dominating sets in wireless ad hoc and sensor networks-A comprehensive survey[J].Computer Communications,2013,36(2):121-134
[2] Pantazis N,Nikolidakis S A,Vergados D D.Energy-efficient routing protocols in wireless sensor networks:A survey[J].Communications Surveys&Tutorials,IEEE,2013,15(2):551-591
[3] Kuila P,Jana P K.Energy efficient clustering and routing algorithms for wireless sensor networks:Particle swarm optimization approach[J].Engineering Applications of Artificial Intelligence,2014,33:127-140
[4] Tseng Y C,Ni S Y,Chen Y S,et al.The broadcast storm problem in a mobile ad hoc network[J].Wireless networks,2002,8(2-3):153-167
[5] Hanashi A M,Siddique A,Awan I,et al.Performance evaluation of dynamic probabilistic broadcasting for flooding in mobile ad hoc networks[J].Simulation Modelling Practice and Theory,2009,17(2):364-375
[6] Yassein M B,Nimer S F,Al-Dubai A Y A new dynamic counter-based broadcasting scheme for Mobile Ad hoc Networks[J].Simulation Modelling Practice and Theory,2011,19(1):553-563
[7]凌飞,吴振华.能量均衡的最小连通支配集分布式算法[J].传感技术学报,2013,25(9):1316-1321
[8] Liu X.A survey on clustering routing protocols in wireless sensor networks[J].Sensors,2012,12(8):11113-11153
数据分离 篇2
航天测量船外测数据误差分离与特性分析
航天测量船在航天测控中占有非常重要的.地位,为提高航天测量船外测数据的处理精度,结合样条函数和小波方法,提出了航天测量船外测数据误差分离方法.该方法在提高处理精度的同时,成功地分离出随机误差和修正残差,显著地改进了现有的船载外测数据修正结果.并进一步对修正残差和随机误差进行了特性分析与建模.实例表明这是一种有效的方法.
作 者:杨磊 吴孟达 张忠华 李晓勇 YANG Lei WU Meng-da ZHANG Zhong-hua LI Xiao-yong 作者单位:杨磊,吴孟达,YANG Lei,WU Meng-da(国防科技大学,湖南长沙,410073)张忠华,李晓勇,ZHANG Zhong-hua,LI Xiao-yong(中国卫星海上测控部,江苏江阴,214431)
刊 名:飞行器测控学报 ISTIC英文刊名:JOURNAL OF SPACECRAFT TT & C TECHNOLOGY 年,卷(期): 27(1) 分类号: 关键词:小波变换 误差分离 误差分析 航天测量船数据分离 篇3
“昆明广播电视台数字音频制播分离系统”目前包括办公网和播出网两个部分。办公网主要担负广播部分所有工作人员上网和日常办公等功能, 播出网主要运行昆明电台四个广播频率的数字音频制播系统, 自建成以来, 一直使用的是北京英夫美迪技术, 今年, 技术部已经完成了对办公网和英夫美迪系统的升级改造工作。
为了满足节目部业务需要, 2015年底, 由节目部牵头, 技术部配合, 又引入了RCS系统 (RCS是美国广播资讯化服务公司 (Radio Computing Services) 的英文缩写, 以下简称RCS) , 并由主要创收频率FM95.4汽车广播和FM102.8都市调频率先使用。2015年汽车广播和都市调频目前已经承担了广播部分百分之八十的创收任务, 是所有系统中最重要的环节。
这次改造, 将从RCS系统的优化建设出发, 引进最先进的模式, 为RCS系统构建一套更加安全可靠, 功能完善的新平台。
1 当前系统的不足
经过在昆明电台一年多实际使用, RCS系统在软件层面确实具有较大优势, 但因前期采取的是最经济的建设方案和运作模式。现有RCS系统受硬件和使用模式的制约, 远没有发挥出最大效用。在新系统中, 将着力解决现有系统不足, 引进最先进的模式, 构建一套更加安全可靠、功能完善的新系统, 以满足各频率的使用需求。
RCS系统在初期建设时因受资金等条件限制, 只采购了编辑站和播出站, 没有采用更为先进、完善的硬件方案, 直接借用了英夫美迪系统的现有网络硬件, 造成了诸多问题, 总结如下:
1.1 网络性能低下
RCS系统直接借用了英夫美迪系统的现有网络硬件, 由于英夫美迪系统设计年代较早, 对网络要求比较低, 原有硬件除了核心的存储和数据服务部分为1000兆以太网, 其它部分均为100兆以太网。而RCS系统由于音质较高, 系统功能相对更复杂, 数据量较大, 需要运行在完全独立的网络环境中。两套系统实际上不宜混用网络设备。借用英夫美迪系统的网络硬件后, 导入新曲目, 编辑播出单等日常操作非常缓慢, 严重影响了工作效率。
目前两套系统的硬件网络从物理上没有隔离, 也没有采取划分VLAN等管理措施, RCS系统加入后, 大大增加了原有设备的负担, 也在实际上造成了两套系统一损具损的安全隐患。2015年6月和10月, 由于负荷过重和设备老化, 两台核心交换机先后损坏, 经技术部紧急处理, 虽然目前没有对播出造成影响, 但从长远来看, 如果两套系统继续混用网络, 就有可能再次出现这类情况, 极端情况下将同时影响到四个频率的正常播出, 对安全播出极为不利。
1.2 数据安全性差
RCS系统目前媒资库、广告库、和播出库全部存储在主播站上, 主播站承担了数据存储、数据服务和对外播出等所有功能。虽然也采取了主备播双保险的设计, 但备播站的数据同步时间过长, 实际上目前无法实现实时自动同步。一旦发生主播站硬件损坏, 整套系统就无法正常运行。甚至面临重要数据丢失的风险。
1.3 硬件可靠性差
RCS系统现有播出站选用了惠普Z420型, 该型号工作站主板存在设计缺陷, 又同时承担了多项任务, 负荷较重。自2015年1月至2015年10月, 共发生播出中突然死机问题十余次。技术部努力协调供应商, 多次联系惠普公司寻求解决办法, 先后更换了10多块电脑主板, 才基本解决了死机问题。但目前仍然时有小问题出现。基于安全播出的考虑, 该型号工作站不适合用在最关键的播出环节, 应该予以更换。
2 改造必要性分析
基于以上实际情况, 受到现有硬件条件的限制, 整个系统存在网络性能低下, 硬件可靠性差, 安全播出隐患较多, 工作模式繁琐等诸多问题。封闭的音频播出网也已经无法适应信息大都来源于Internet的这一现状, 大量的前期工作增加成本的同时降低了工作效率, 一个信息或生产的音频资源大都只使用一次, 就会受存储不便、转换成本高等限制而删除, 信息资源的利用率也比较低。
从长远来看, 现有系统也难以满足媒体的快速发展和节目制播分离、快速交换传输的需要。无法实现便捷的资源共享, 也无法提供更多的扩展服务和功能。因此, 我们需要建设一套更为完善的硬件平台, 采用制播分离的模式, 加入媒资文件共享平台, 提高我们信息处理的效率, 充分发挥RCS软件的优势。
3 改造方案
首先增加独立的核心交换机, 系统服务器和存储阵列柜, 建设一套独立的RCS音频网, 不再与其它系统混用网络。核心部分全部采取双机热备结构设计, 并选用较为稳定可靠的硬件, 提高硬件层面的可靠性。提升整套系统的网络数据传输速率至1000M, 满足RCS软件运行需求。
其次更换播出工作站, 消除硬件隐患。采用网闸与原有办公网连接。将RCS工作站全部移至办公网, 实现工作站连接Internet。在RCS音频网和办公网之间, 增加文件交换服务器, 用于接收外部数据, 并提供资源共享服务。在新系统中, 主播站不再承担媒资库和广告库的数据存储工作。所需的服务功能均由服务器完成。关键数据均存放在更为安全可靠的磁盘阵列柜中, 提高核心数据的存储安全性。
最后网闸只允许RCS系统数据通过, 既能实现音频网与Internet连接, 又保证了网络安全。外部工作站也可通过VPN方式接入网络, 实现灵活的异地办公。其它外部数据中心, 也可通过Internet与我们的系统交换数据。
4 总结
对RCS系统进行制播分离改造, 在硬件层面, 能够提高整套系统的安全性和可靠性, 彻底排除安全播出隐患。在系统层面, 融合播出网和Internet, 能够极大的简化工作流程, 提高效率, 使之更好的为节目部门服务。建设文件交换平台后, 能够安全的解决文件交换问题, 并为外出记者、网络广播、开办分台等工作提供信息传输交换平台, 为后续各项工作的开展提供有力的系统支撑。
参考文献
[1]张斌.网络安全隔离技术在公安车管网络中的应用[J].统计与管理, 2015.
[2]张智锐.广播电台内外网隔离安全传输技术研究[J].广播与电视技术, 2013.
[3]殷睿, 胡麒, 周蓓.内外网信息交换安全解决方案探讨与实施[J].保密科学技术, 2013.
[4]魏明新, 吴蕾.网络安全防护技术方案探讨[J].信息与电脑 (理论版) , 2012.
[5]姜玮.网络环境中数据安全及保密解决方案[J].信息网络安全, 2009.
数据分离 篇4
近年来, 盲源分离作为一种新型的信号处理方法受到人们的重视, 并已经开始应用到机械信号处理领域中。同时, 盲源分离理论与其他的信号处理理论结合来解决分离中出现的问题也广泛应用。Morteza[1]提出新的初始化方法来解决时频盲源分离中的排列混叠问题并得到较好的效果, Theodor D.Popescu[2]提出一种振动信号和振动源改变的盲源分离方应用到机械设备的监测中。总之, 盲源分离理论已经广泛在信号处理领域应用, 并开始在机械信号处理中应用。但是, 它们大多数是模拟原信号或建模估计原信号的组成, 不能解决完全不知道信息源成分问题, 所以对复杂信号不能推测其成分组成。此方法通过正常数据信号来分离有故障数据信号来解决上述的问题。
1 盲源分离理论
假设信号源为s (t) 它经过未知的混合矩阵A, x (t) 传感器观测到的信号, 则盲源分离的模型可以表示为:
其中, 为M维观测向量, 为N维不可知的原信号, n (t) 为M噪声。假设源信号之间统计学上相互独立, 并且观测向量x的维数M大于等于源信号s的维数N, 则盲源分离的过程就是找到一种映射关系使:
其中:是源信号s的估计。分离过程如图1所示。
根据信号在混合过程中混合的属性, 可以把盲源分离模型 (BSS) 分为线性瞬态混叠模型、线性卷积混叠模型、非线性瞬态混叠模型和非线性卷积混叠模型。目前, 信号的盲源分离大多是假设系统是线性的, 然而实际上混叠更多是非线性的, 虽然Kenji N[6]等提出通过学习算法利用传输延时约束来解决非线性卷积盲源分离问题, 但是仅仅是信号的模拟还不能用到实测信号中。因此, 非线性的分离是一个难点也是盲源分离研究的一个热点方向[2]。
2 特征矩阵的联合近似对角化法 (JADE) [3~5]
JADE算法的步骤如下。
第一步:求观测信号x (t) 的自相关函数, 并对其进行特征值分解。
观测信号x (t) 的自相关函数为:
然后对特征值分解, 得到N个最大特征值和相对应的特征向量。
第二步:观测信号白化处理。
假设采样信号受到了白噪声的污染, 以的M-N最小特征值作为白噪声的估计值则白化后的信号:
其中:
其白化矩阵为:
第三步:求白化矩阵p的四阶累积量。
对于任意矩阵M, 其四阶累积量矩阵V定义是:
第四步:求酉矩阵U, 并用U联合对角化。
第五步:得到估计矩阵和估计信号源
3 基于正常数据匹配的盲源分离
机械设备运行周期一般分为磨合期、稳定期、过渡期和报废四个阶段, 一般过渡期是机械设备故障频发的阶段。在故障诊断中通常用正常信号与故障信号进行对比找出故障信号所体现的波形或频谱的变化。故障信号一般是由机械设备信号和噪音信号复合而成, 为了便于研究这里把故障信号分为机械设备正常信号 (包含噪音) 和故障特征信号。利用盲源分离中的JADE算法来进行分离机械设备正常信号和故障特征信号从而把故障特征信号暴露出来便于信号的分析和设备的故障诊断。
在实际应用中, 针对某一台采集它正常工作时的信号x1作为后续分析用, 如果设备出现了故障在采集其故障信号x2, 然后把x1作为虚拟观测信号利用JADE算法分离故障信号x2提取故障的特征信号。此方法中x1和x2的信号不是同一个时间段, 并可能时间跨度很长, 在某种程度上不能有效地代表故障信号中所含有的机械设备正常信号 (包含噪音) , 但是由于设备使用过程中设备的结构及运行的环境一般不会改变, 所以设备的固有频率基本上不会变化。同时, 在设备运行过程中各种噪声也不会有太大变化。在实际应用中, 其中的变化忽略不计, 认为设备正常运行时的信号为设备故障时所采集故障信号中的机械设备正常信号 (包含噪音) 来进行盲源分离。
4 实验验证
实验通过故障转子实验台来模拟机械设备碰摩故障, 对设备正常运行和碰擦故障时的信号进行采集然后在进行理论验证。实验使用丹麦B&K的Type 3050-B-060型号采集卡, 传感器使用北京测振仪器厂的CD-21振动速度传感器 (频率范围为10-1000Hz) 。实验时故障实验台转子运行转速为492r/min, 采用频率为25.6KHz, 采样点数为1024。设备出现碰摩故障时对设备以正常时同一个测点进行振动数据采集, 并对数据做时域图及FFT变换, 如图2所示FFT变换后其故障信号特征不是很明显。
用此方法对故障信号做盲源分离后的信号的时域图及FFT变换图谱, 如图3所示分离信号FFT变换后比图2在10KHz处有较明显特征信号提纯。
以上的FFT分析频率跨度比较大, 下面用同样的方法显示FFT变换的低频部分作分析。如图4所示为故障信号低频部分的FFT变换。
下面是盲源分离后信号低频部分FFT变换图谱。如图5所示, FFT变换后的信号比图4在200Hz处的故障信号特征更加明显。可知, 此方法能够有效地提纯机械设备的故障特征信号, 可以较好地实现噪声分离进行故障诊断。
5 结束语
由上面的实验验证可以看出由于现实信号之间的复合一般的是非线性卷积混叠模型, 这种模型比较复杂, 其分离的难度也比较大, 所以不能把数据完全分离出来。但是, 从上面可以看出此方法也能够有效地提取故障的特征信号, 避免有些故障特征信号完全淹没。所以此方法在一定程度上能够提取故障信号的, 在信号处理方法中也是一个有效的方法。总之, 此方法能够有效地对故障信号进行分离, 提取故障特征信号。
参考文献
[1]Morteza Daneshkar, Reza Ebrahimi;A novel Initialization approach for solving permutation ambiguity of frequency domain blind source separation, 2012IEEE Symposium on Computers and Informatics[C].2012:189-192.
[2]马建仓, 石庆斌, 赵述元, 张群芳.机械振动信号非线性混叠的盲源分离[J].噪声与振动控制, 2008, 28 (6) :5-8.
[3]褚福磊, 彭志科等.机械故障诊断中的现代信号处理方法[M].北京:科学出版社, 2009.
[4]John A.Kolba, Ismial I.Jouny;Analysis of subbanding technique in blind source separation[C].Signal and Data Processing of Small Targets2006, 6236:1-10.
[5]Tang Yan, Tang Jingtian;Removal of ocular artifact from EEG using JADE[C].20071st International Conference on Bioinformatics and Biomedical Engineering, 2007:566-569.
[6]Nakayama, Kenji Hirano, Akihiro Horita.A learning algorithm for convolutive blind source separation with transmission delay constraint[C].Proceedings of the International Joint Conference on Neural Networks, 2002:1287-1292.
数据分离 篇5
静态顶空气相色谱是将适量样品密封在留有充分空间的容器中,在一定温度下放置一段时间使气液(或气固)两相达到平衡,取容器上方的气体进行色谱分析。按达到气液平衡的次数可分为一次顶空进样法和多次顶空进样法。基于静态顶空的分离特点,它具有适用性广和易清洗的优点,主要缺点是灵敏度低,有时必须大体积进样,导致峰宽较大,分离度达不到要求[2]。但如果样品中待测组分的含量不是很低,较少的气体进样量就可满足分析需要时,静态顶空仍是一种非常简便有效的分析方法。由于气液体积比、样品基体成分、平衡温度与时间等因素影响分析的准确性与重现性,定量分析时须保持操作条件一致。
1 实验设备及操作
本文采用安捷伦公司的专用顶空分析仪7694E和气相色谱仪6890N进行实验。顶空自动进样系统;20mL顶空瓶和内衬聚四氟乙烯硅橡胶垫,Rtx-1石英毛细管柱(30m×0.25mm×1.0μm)。
由静态分析法的特点可知,在操作中避免对气液相平衡的扰动是测量达到准确与否的关键。顶空分析仪7694E自动化控制的加热平衡、进样、提取气样工作方式使得相平衡状态的测量更加精确。
2 活度系数测量原理
活度系数的实验中应用了液上气相色谱法(静态法),在保持混合物的液相和气相共存的温度和压力条件下使它们充分地混合,直至达到平衡为止,然后,在没有明显的干扰平衡的情况下取样,并用色谱分析两相组成。
在二元物系的等温气液平衡数据的研究中,常常使用液上气相色谱法,该法可以简单、快速测定非电解质溶液活度系数。液上气相色谱法主要原理是:用称量的方法配置已知浓度的二元溶液,在液上分析平衡中使气液两相达到平衡。采用液上气相色谱法计算活度系数的关键等式为:
式中:γi-组分i活度系数;xi-气液平衡时组分i液相浓度;Ai,A0-气液平衡时混合溶液组分i和纯组分峰面积。
可以看出等式的右边只涉及组分i的可测量,而与体系中的其他组分存在与否无关,这说明只要在相同的条件下,从含组分i的溶液的液面上采集到与从纯液体i的液面上等体积的液上平衡气,用气相色谱进行分析,如果组分i能出峰,即可确定该组分在液相中的γi。因为根据气相色谱的原理,组分i进样峰面积Ai应正比于其摩尔数ni,即Ai=cini[3]。
3 实验条件及准确性验证
3.1 样品处理
顶空瓶在每次使用前,用纯水冲洗晾干,于120℃烤箱烘烤2h,放凉备用。硅橡胶垫使用前用纯水煮沸20min,放凉备用。准确吸取10mL水样于20mL顶空瓶中,用压盖器将铝盖(内放带聚四氟乙烯薄膜的硅橡胶垫)与顶空瓶密封。按条件加热平衡后由高纯载气带入气相色谱,经石英毛细管柱分离后用检测器测定,以保留时间定性,峰面积定量。
3.2 设备开机条件
参考苯乙烯和邻二甲苯的沸点和在环丁砜中的溶解度,气相色谱仪选择进样口温度120℃,ECD检测器270℃,柱温60℃,载气流速1.0mL·min-1,分流比10∶1。苯乙烯和邻二甲苯分离效果及灵敏度均能满足方法要求。顶空分析仪加压时间10s,取样时间10s,进样时间10s,摇晃模式轻摇,载气压力100kPa,辅助气压力85kPa。
3.3 测量温度
样品的平衡温度与蒸气压直接相关,它影响分配系数。一般来说,温度越高,蒸气压越高,顶空气体的浓度越高,分析灵敏度就越高。但温度高于120℃苯乙烯组分会出现聚合反应,从而降低气相中目标化合物的相对浓度,影响最终的测量结果。但同时,在裂解汽油萃取精馏苯乙烯的工艺条件下,萃取精馏塔和溶剂回收塔底温度在120~140℃之间,所以在较低的温度范围回归出的模型参数不能准确地预测出该工艺高温条件下的分离情况,同时,由于苯乙烯加热到120℃时即使加入阻聚剂也会出现微量的聚合反应,这对于实验结果的准确性产生重要影响,所以测量的最高温度选择在110℃。邻二甲苯-环丁砜、苯乙烯-环丁砜二元VLE实验数据的测定中选择的温度范围在70℃、90℃、110℃之间。表1检测了3种平衡温度对被测组分峰面积的影响。
注:
可以看出相同温度下峰面积A非常接近,相对偏差仅为0.8%,峰面积测量结果重现性较高,选择的平衡温度较为合理。
3.4 测量时间
标准邻二甲苯样品平衡温度为70℃,改变平衡时间为15、20、25、30、35min,实验表明,随着平衡时间增加,峰面积不断增大。当平衡时间为30min,样品气液两相达到平衡,峰面积基本不再增加,故选择平衡时间为30min。结果见表2。
3.5 测量条件确定
当平衡温度较低时,对于进样环路和保温带的温度设定要高,以防止气化后的样品在进样环路和保温带中出现冷凝,保证每次进入气相色谱仪中的样品量相同。环路存样时间设定较短可以促使大量的样品进入气相色谱仪中,增强色谱分析的灵敏度。顶空压力值设定较高,目的是将顶空小瓶中气相样品充分地带入到气相色谱仪。表3给出了实验设备在不同顶空温度下的操作条件。
3.6 测量准确性检测
由实验原理可知,不同温度下,纯物质蒸气在色谱检测器中的峰面积值是否与其饱和蒸气压应该呈现出线性关系,如果超出了线性范围,再好的重现性也是毫无意义的。测量是否在线性范围以内需要用稀释的气体进样来检验,表4中给出不同温度下邻二甲苯纯组分样品的气相峰面积与饱和蒸气压之间的关系。
注:T表示实验温度;PθOX表示邻二甲苯饱和蒸气压力;AOX表示邻二甲苯峰面积的平均值;ΔAOX/PθOX表示AOX/PθOX值的平均偏差
可以看出,峰面积与饱和蒸气压的比值接近于常数,AOX/PθOX相对平均偏差值不超过0.35%,而AOX/PθOX中的最大值在0.6%以内,由此可认为本文所选择的气液相平衡测量方法和测量条件均能达到最优。
4 平衡数据测定结果
本文采用液上气相色谱分析法测定邻二甲苯-环丁砜、苯乙烯-环丁砜(70℃、90℃、110℃),两组高沸点差体系在不同温度下易挥发组分在有限浓度范围内的γ,图1~2列出了实验结果。
摘要:建立了苯乙烯分离技术相平衡数据采集方法,采用静态顶空气相色谱来测定该工艺计算所需要的气液相平衡数据,确立了顶空分析的测量方法、测量条件、测量结果验证方法。所建立的方法具有操作简便、精确度高、适应性广等特点,使用该方法测得了相应邻二甲苯-环丁砜和苯乙烯-环丁砜活度系数结果。
关键词:顶空分析法,苯乙烯,邻二甲苯,活度系数
参考文献
[1]肖剑,陈秀宏,钟禄平,等.萃取精馏溶剂[P].CN 1962013A,2007-05-16
[2]缪长喜.苯乙烯制造技术的研究及工业前景[J].化学世界,2000(6):285-286.
数据分离 篇6
1 研究背景及现状
传统的电力信息系统建设多为地市分散部署, 且采用单数据库的简单系统架构, 由于服务应用范围较少, 数据量少, 能满足日常使用。随着系统的网省级集中式部署, 系统应用量及业务量激增, 单数据库的架构难以支撑系统使用, 运行风险突显。
1.1 企业信息孤岛现象严重, 数据共享效率差
以往的信息系统建设主要以应用为驱动, 一般是随着各类业务需求逐渐建设的。当出现一类新的业务时, 需要为其建设一套独立的支撑系统, 保存该业务的主要数据。一段时间后, 容易形成各大系统应用互相独立运行, 且在不同的维度管理着不同的业务单元及数据对象。这些数据对象都存放在系统的数据库中, 出于系统安全性、稳定性或改造难度等原因并不便于对外开放接口实现共享访问, 导致形成了一个个的“信息孤岛”。系统之间缺乏中间数据库实现畅通安全的信息交流与共享, 阻碍了企业信息化建设的整体进程。
1.2 数据报表、大数据量查询性能低下
随着业务管理颗粒度的精细化及管理范围的扩展, 系统数据量呈现爆发性的增长, 与此同时, 企业决策人员需要更全面、更实时的业务分析报告。企业运营人员需要使用更复杂、更灵活的数据挖掘、报表统计工具。而这些大数据量环境下的统计、查询业务受到单一数据库系统架构的制约, 为了避免由于资源的争用导致正常业务受影响, 不得不降低统计分析的频率、推迟报告时间, 难以满足业务的要求。
2 主流数据同步复制机制与方法比较
通过对电力业务系统数据进行读写分离, 能有效地解决系统信息孤岛及统计性能差的问题。数据读写分离依赖于底层数据的多份副本同步复制。同步复制是保证数据一致性的有效方式。主流数据同步复制技术从作用对象维度上可分为基于应用、数据库、主机、存储等四个维度。
2.1 基于应用的数据同步复制
基于应用的数据同步复制机制指的是在源端及目标端搭建完全相同的应用服务及数据库环境, 当源端发生数据变更时, 同时触发目标端重做数据变更, 且仅当两端数据库均成功更新的情况下, 该操作才能成功完成。该同步方式主要适用于数据量变更不频繁的非关键系统和双活灾备环境, 其最大的优点是能有效保证两端数据的一致性和完整性。但由于对单个业务数据变更需两端数据处理均完成才算成功, 在高并发环境下, 同步速度慢, 时延高, 故障风险及维护成本高。
2.2 基于数据库的数据同步复制
基于数据库的数据同步复制机制主要应用于系统负载均衡、数据大集中、副本灾备等场景。一般有四种复制方式。
一是基于触发器法, 在业务数据表中创建相应的触发器, 当提取/ 复制对象进行变更 (插入、修改、删除) 时, 由触发器触发提数程序, 将变化写入目标数据库中, 但这种占用系统资源较多, 对复杂的复制任务需要繁琐的配置实施, 管理极不方便。
二是基于日志法, 通过分析数据库日志的信息来捕获复制对象的变化序列, 如:INFORMIX的CDR、DSG的Real Sync等业界技术均是通过读取逻辑日志来获取变化信息的, 该方法不仅方便, 而且占用资源小, 不但能提高效率和保障完整性, 还能在对等复制时提供详细的控制信息。
三是基于时间戳法, 基于时间戳的方法需要应用系统中每个表都保留有时间戳字段, 以记录每个表的修改时间, 这种方法不影响系统额外运行效率, 但却需对系统进行较大改造, 且增加数据量庞大。
四是基于API法, 在应用程序与数据库之间引入中间件, 在API上完成应用程序对数据库修改的同事, 记录复制对象的变化序列, 这种方法可实现对异构数据库的复制, 也减轻了DBA的负担, 但是对于不经过API的数据操作是无法捕捉到, 且当复制逻辑复杂时, 可能影响应用程序的运行效率。
2.3 基于主机的数据同步复制
基于主机的数据同步技术主要通过系统服务器主机层面磁盘卷的镜像或复制实现数据的同步容灾。但该方法需要消耗较多的主机CPU资源, 且因TCP/IP传输效率较低, 对系统整体性能影响较大, 一般仅被应用于规模较小的存储环境内, 不适用于大数据量级的企业级系统。
2.4 基于存储的数据同步复制
基于存储的数据同步技术是一种纯粹的硬件实现方式, 其核心是通过光纤连接两台或多台磁盘阵列, 将源磁盘镜像至目标磁盘。当源端系统对本端存储阵列进行写操作时, 存储设备自动将磁盘阵列上发生变化的数据块复制至目标端阵列对应位置上。这种方法常用于大型数据中心异地跨机房远程灾备环境中, 数据传输速率快, 不会占用主机资源, 扩展性及效率高, 优点明显。但硬件设备投资成本较高, 且存在磁盘写错误、高速缓存数据丢失、同步崩溃等数据一致性与完整性风险, 在业务数据变更频繁时仍存在一定风险。
综上比较各大主流的数据同步复制方法及机制, 基于日志法的数据同步复制技术复制效率及可靠性高, 对系统资源占用小, 可定制化程度高, 对于电力大集中系统读写分离架构的实现能起到有效支撑, 适用于系统的数据架构设计。
3 电力大集中系统读写分离架构设计
电力大集中系统无论从功能规模还是数据规模上看均为十分庞大的系统, 必须采用合理的读写分离策略。以某省级电力营销系统为例, 系统功能规模上覆盖10 个一级业务和28 个二级业务, 含1122 个功能子项, 程序代码逾900 万行。数据规模上覆盖用电客户3000 万, 计量资产6500 万, 存量数据共计14TB, 每日增量达300G。
电力营销系统支撑电力抄核收、计量、业扩、客服、用检稽查等对外业务, 对数据处理能力有很高的要求。面对如此海量的数据, 采用基于数据库的数据同步复制策略能有效分流数据库压力。
3.1 数据分离架构规划
对营销系统数据库分拆为生产库、管理库、历史库, 三个库的表结构一致, 通过设置不同的应用模块指向不同的数据源减少数据库资源争用, 避免服务性能降低。生产库保留三个月的业务数据, 主要应用于联机事务处理, 满足营销系统日常业务办理的高并发、高性能、实时响应的要求。管理库保留三年的业务数据, 主要应用于联机事务分析处理, 满足营销系统查询、统计分析业务的大运算量要求。历史库保留五年及以上的业务数据, 用于历史数据的回溯及备查, 不直接对外服务。
生产库和管理库之间的数据同步采用数据库的准实时复制技术, 将营销系统的数据从生产库完整、准实时地复制到管理库中。管理库和历史库之间的数据通过ETL数据抽取技术定期地迁移。业务数据处理上通过生产库和管理库的分离, 一方面可以有效地分担数据库的压力, 另一方面也可隔离统计查询对一般业务办理的影响与冲击, 保证系统的业务连续性。
3.2 数据调用方式规划
由于数据同步无法避免管理库存在一定时延, 业务数据操作类功能应连接生产库, 加强数据实时性, 比如功能中先查询数据, 紧接着进行增删改操作, 或先变更数据, 紧接着查询数据的业务。如电力营销前台收费业务场景, 营业厅人员需先查询用户欠费信息, 得到欠费金额后进行缴费业务消除欠费记录, 最后再一次查询复核缴费成功状态, 此类业务应连接调用生产库。
对于涉及数据量较大的统计报表及单独实时性要求不高的查询等功能应连接管理库, 减轻系统综合性能压力。对于五年以上的历史数据查询单独连接历史库。
3.3 数据存储配置规划
数据存储层用于存储营销系统涉及的全部数据, 并遵照结构化数据与非结构化数据分离、生产数据与管理数据分离、当前数据与历史数据分离的原则。非结构化数据采用文件服务器存储。结构化数据采用关系型数据库存储, 并配置三套独立存储分别存储生产数据、管理数据、历史数据。生产数据、管理数据需配备高端高性能存储提高数据处理效率, 历史数据则只需配备低端大容量存储用以满足数据的保存。
3.4 数据准实时复制方式规划
电力大集中系统数据准实时复制机制采用基于日志法的数据同步复制方式。生产库与管理库的数据同步复制需遵循严格的数据分析、传输、校验流程, 保证数据复制的准确性与一致性, 共分为五个步骤。第一步日志抓取, 通过代理程序模块定期检查数据库控制文件SCN (系统变更号) 来判断数据源端是否产生新的交易。当发生SCN号变化确认存在新交易时, 代理程序模块获取当前数据库重做日志及其位置信息。代理程序根据这些信息将上次抓取时记录的日志位置与本次读取的最新日志加以分析, 并将这些数据存在缓存中, 等待下一步交易合成。第二步日志分析, 将数据库的所有更改都记录在日志中, 代理程序通过对日志进行分析, 得到该数据库执行的所有SQL指令。第三步交易合成, 由于SQL指令是交叉出现且非连续执行的, 因此为了保证系统的逻辑完整性, 避免数据丢失, 通过对抓取的数据进行交易整合, 以Transaction (事务) 作为单位进行复制, 更好地控制复制的过程。第四步交易传输, 数据在传输之前首先存入源数据端的Cache (缓存) 中, 然后通过TCP/IP数据包传送至目标端, 目标端将接收到的数据包存入Queue (队列) 中。第五步数据装载, 目标端从队列中接受数据包, 并根据包头描述的包大小进行完整性检查, 成功后严格按照交易的顺序装载数据信息, 保证数据的同步复制有效, 完成整个数据复制流程。
4 结语
本文对新时代环境下电力大集中系统如何引入新架构应对数据量、业务量的激增进行了探讨分析, 对现今使用较为广泛的四种数据同步复制技术方案进行对比后, 对电力大集中系统的数据分离架构、调用方式、存储配置、准实时复制方式进行了具体设计与规划, 具有很强的指导意义。通过读写分离架构的引入, 能有效提高系统运行效率, 提高业务报表响应时间, 加强企业内部信息流通共享, 进一步挖掘数据价值。
参考文献
[1]万勇.解决企业信息孤岛问题的策略与方法研究[J].技术经济与管理研究, 2006 (6) .
[2]沙光华, 陈泳, 张长江.读写分离技术在运营支撑系统中的应用[J].计算机工程与应用, 2015 (12) .
[3]王欣, 左春.企业级数据复制平台的构建方案计算机工程与应用[J].2003 (3) .
数据分离 篇7
同时,传感器由于制造工艺以及一些不确定因素都会造成获得的数据与真实值之间差异较大。针对这种情况,目前同一探头经过分时复用的数据测量并融合是传感器发展的一个方向,其主要工作原理是用一个传感器对同一对象进行分时多次测量,并将这些信息数据通过一定方法进行融合处理[1,2,3],得到一个误差更小、精度更高和准确的测量值,能比较完整、精确地反映被测对象的信息特征。
对于数据融合的算法[4]。在激光雷达、红外、声呐、图像获取等领域都得到充分的实际应用[5]。其中超声波T_R分离传感器数据融合方法主要数字平均[6]、模糊判断、贝叶斯估计和D-S推理[7,8]、数字滤波[10]等。这些计算方法各有各的优缺点。因此,对于智能设备,传感器获得的数据对其智能判断起到至关重要,本文针对数据融合的优缺点,改进发送和接收原理,同时改进了数据融合算法,取得非常满意的结果。
1 T-R分离实现原理
如图1所示,(a)图是传统发送与接收一体模式,当T探头发送一串超声波信号,经被测距离的物体反射,接收R会接收到相应的超声波信号,从而根据速度和时间可以计算出距离,一般不会超过10 m左右。改进测距原理如图1(b)所示,当T探头发送超声波信号的同时发送一个无线信号,探头R模块收到无线信号便开始计时,当T的超声波信号达到R时,CPU关闭计时器,从而根据超声波速度和时间便可以算出距离,经过多次分时测距,再根据数据融合算法,可以计算出精确的距离,同时距离是传统方式1倍,既20 m左右。
2 多超声波传感器数据融合原理
由于环境等其它综合因素的影响,超声波传感器测量值与真实值之间有误差,一般文献证明其基本服从正态分布。设超声波探头有n个传感器,第i个超声传感器的真实值A进行k次测量,测量值为xi1,xi2,…,xik,假定均值为xi和标准差为σi。设目标估计值为x0,标准差为σ0。
令:
由于探头发送接收过程受很多环境因素的影响,需要监测无效数据,留下有用数据。这里采用Grubbs判断法。
设Gi=(xim-x0)/σ0,其中xim为第i组数据中最大或者最小值,x0为均值。下面要把计算值Gi与格拉布斯表给出的Cp(n)比较,如果计算的Gi值大于表中的临界值Cp(na),那么判断该测量数据是异常值,可以剔除。临界值Gp(n)与两个参数有关:检出水平α(与置信概率p有关)和测量次数n。α一般取值为0.01或者0.05。
令:Ai,A0表示第i个探头获得的测量值与估计值数据的正态模糊集。即:
其指数加权为:
式(4)中c(k)=(1-b)/(1-bk+1),b为遗忘因子,一般取0.95—0.99,这与外部干扰因素相关,影响大时可以选择大一些。
由内积定义可知,与内积是两个模糊集的最大值,即:
解出t有两个解:t'和t',即:
由于t'不在范围xi~x0区间,所以舍去。
故,内积:
把公式(6)t'的值代入式(7)得:
由外积的定义可知,模糊集的外积是两个模糊集并积的最小值,所以:。
贴近度定义为:
把公式(7)代入公式(9)得:
n个传感器归一化,得各自权重:
3 实现算法流程
单片机系统初始化各参数的初始值,如图2所示。计算步骤如下:
1)T发送超声波信号,同时发送无线信号;R接收无线信号开始计时,收到超声波信号停止,分时测距6次,并记录相应数据。
2) Grubbs异常数据判断,剔除数据中异常数据值。
3)分别算出每组的均值和标准差xi,σi。
4)计算出测量数据均值和标准差x0,σ0。
5)求出6次超声波探头数据的接近度S(Ai,A0)。
6)求出每组数据权重ωi。
7)根据,融合出系统距离的确切数值。
4 结果分析
实验用6个超声波探头进行四次测量,测量值、均值、标准差、接近度、相对权重如表1所示。
经过数据融合,得出超声波探头与障碍物之间的确切距离的融合值为:,与实际距离误差为:0.005 m。
由表1可知,传感器编号为1至6,对于每次传感器获得的数据,第2个传感器的数据的稳定性和可靠性最高,其次是第5、第6个传感器的数据,传感器编号为4组接近度最差。由此可以看出,相对权重能表征数据接近真实值的程度。从而证明本文提出的接近度算法相对模糊神经和D-S推理在精度和距离上都很高,而且运算过程简单,快捷,适合资源非常有限的8位或者16位以及最新的32单片机的系统使用。
5 结论
本文根据每次数据的权重计算该组的最终数据,用Grubbs算法找出其中不合理干扰数据,并且通过T-R分离方式获取数据,相比常用的一体式探头,测量的距离大大提高,可以达到20 m左右,该算法设计在超声波测距、定位领域得到实际验证,能满足实际要求。
摘要:针对T-R分离的传感器中对距离多次测量的数据融合问题,提出用接近度作为多传感器数据融合的权重的新方法。该方法采用无线数据传送结合超声波传感器测得数据,并算出均值和方差,用Grubbs方法剔除异常数据,且计算出每个探头数据对应的接近度权重,并计算最终到数据融合的表达式。实验表明方法比单一传感器有更高的精度,适合8位以及32位单片机等嵌入式系统中应用。
关键词:超声波传感器,数据融合,T-R分离,权重
参考文献
[1]满莎,杨恢先,彭友,等.基于ARM9的嵌入式无线智能家居网关设计.计算机应用,2010;30(9):2541-2545
[2]刘春荣.弹道导弹制导技术浅谈.海军航空工程学院学报, 2002;17(4):431-435
[3] Hall D L.Mathematical techniques in multisensor data fusion.Artech House,Boston,1992
[4] Hashemipour H R R.Decentralized structures for parallel Kalman filtering. IEEE Transactions on AC,1998;33(1 ):88-93
[5] Carlson N A.Federated square root filter for decentralized parallel processes.1990 IEEE T-AES,1990;26(3 ):517-525
[6]李瑞峰,李伟招.基于多传感器信息融合的移动机器人路径规划.机电一体化,2002;(4):20-23
[7]李贻斌.移动机器人多超声波传感器信息融合方法.系统工程与信息,1999;(21):55-57
[8]夏阳,陆余良.D-S证据推理及算法实现.安徽大学学报(自然科学版),2004;28(6):20-26
[9] Baase S,Gelder A V.Computing algorithms.Beijing:Higher Education Press,2001:235-267
[10]叶涛,谭民,陈细军.移动机器人技术研究现状与未来.机器人,2002;24(5):475-480
[11]危遂薏,刘桂雄.一种同质的多传感数据融合新算法.传感器技术,2004;(8):61-62
数据分离 篇8
随着日益加剧的环境污染,以及预防“地沟油”回流餐桌问题,上海市于2012年底颁布了97号令《上海市餐厨废弃油脂处理管理办法》,规定了在本市经营的餐饮企业必须安装使用油水分离器,截止2015年初,上海地区的相关餐饮单位几乎都安装了油水分离设备。但由于油水分离设备数量庞大、覆盖面广,各地对餐饮油水的环境监测又停留在手工阶段。监测范围有限,难以达到实时超标报警的要求,故近期上海市食品安全相关职能部门已对油水分离器的使用情况提出了在线监管要求,急需设计一套软件系统能实时监测查询及处理数据,以解决当年餐饮油水监管中面临的问题。
本文设计构建的餐饮企业油水分离器实时监测系统,可以实时获取各家餐饮企业的油水分离器的使用情况等相关数据,同时依托大数据挖掘技术,对相关数据进行数据挖掘分析,提供以下各类功能供相关政府职能部门使用[1]:
(1)企业油水分离器实时监控数据、历史监控数据查询功能。
(2)提供监控数据阀值的设定,对于高于阀值的情况提供报警功能。
(3)提供基于历史数据趋势分析的预报警功能。
(4)提供不同地域、不同餐饮类别、不同餐饮规模企业间的数据比较分析功能[2]。
(5)提供新增餐饮企业油水分离器选型推荐功能。
(6)针对多方职能部门个性化联合执法的定制功能。
2 系统总体架构(System architecture)
2.1 系统主要构件
系统主要构件分为智能传感器、前置机、系统主机、WEB服务器,如图1所示。
(1)智能传感器:安装于餐饮企业的油水分离器;主要功能为实时获取并传输该油水分离器的型号编号、实时油污处理水中含油率、水中悬浮物SS、COD、BOD等[3]。
(2)前置机:接受智能传感器传输过来的模拟信号,并将之转换为数据信号,并经过系统处理后形成数据文件形式传输给系统主机。
(3)其他相关系统:政府内部网络中的其他系统的主机数据,例如餐饮企业的营业额、客流量、法人代表、公司地址等数据[4]。可以和本系统进行数据交换。
(4)系统主机:为该系统核心数据处理部分。主要接受前置机传输过来的油水分离器的实时数据、并可以和其他内部网络中相关系统的进行数据交换等,同时可以接受用户从WEB服务器传输过来的相关数据的录入,例如用户手工录入的餐饮企业规模、油水分离器不达标阀值等相关信息[5]。系统主机将这些数据分门别类进行存储、加工、分析。
(5)WEB服务器:负责在用户和系统主机之间进行数据交换。
(6)用户:本系统采用B/S架构,用户可以通过任何一台PC电脑端IE接入系统。
2.2 业务架构风险控制策略
(1)通过系统内提供的统一的用户认证机制控制用户的合法性。
(2)系统对每个用户开设不同的访问权限。
(3)对于用户查询的内容、手工录入的内容、时间以及其他系统管理的操作行为等记录日志。
3 系统网络拓扑结构(System network topology)
本系统在网络拓扑结果方面分为三层,第一层:外部网络;第二层:内部网络;第三层:办公网络。如图2所示。
外部网络和内部网络、办公网络之前依靠防火墙进行隔离;内部网络和办公网络之间依靠网络策略配置进行隔离,即内部网络可以修改系统程序等而办公网络不能修改程序,只能通过IE端访问系统。
智能传感器位于外部网络,通过电信加密网络连接前置机。
前置机、系统主机、WEB服务器等位于内部网络,通过内网进行数据交换。
客户位于办公网络,通过PC端IE接入内部网络中的统一用户认证机制,认证通过后,进入系统访问,无法变更系统程序。
4 系统数据流介绍(Introduction of system dataflow)
本系统数据流向主要分为数据源、数据挖掘、数据获取三个部分,如图3所示。
4.1 数据源
数据源为本系统获取数据的主要来源,分为三大部分。
第一部分为油水分离器侧的智能传感器获取的关于该油水分离器的型号、油污处理等方面的数据,该数据由前置机将模拟信号转换为数字信号,并经过系统处理后,形成数据文件形式传输给系统数据挖掘层。
第二部分为内部网络中其他相关系统和本系统交互的数据,例如餐饮企业的营业额、客流量、法人代表、公司地址等数据。该数据也以数据文件形式传输给系统数据挖掘层。
第三部分为用户通过IE界面手工输入系统的相关数据,该部分数据直接进入数据挖掘层的数据库表中。
4.2 数据挖掘
数据挖掘是本系统的核心处理层。主要分为数据清理层(ODS)、数据转换层(STG)、数据存储层(DW)、数据集市以及数据展示层(DM)。主要采用ETL(清洗、转换、加载)的模式对数据进行抽取处理。
数据清理层(ODS)主要是对源数据进行初步判断,剔除垃圾数据。智能传感器的相关数据以及内部网络中其他系统的数据都是通过数据文件形式提供,相关数据在格式、阈值等方面有可能存在各种各样的误差,也有可能出现一些系统不需要的垃圾数据。系统通过在数据清理层提前设置数据校验规则的方式,在数据进入数据库之前,对存在误差的数据进行甑别,符合校验规则的数据进入数据转换层(STG),不符合校验规则的数据进入错误数据表。错误数据表提供管理员用户通过IE界面前台进行查询,对于实际正确但是又进入错误数据表的数据,管理员用户可以在前台通过手工触发,使这些数据直接进入数据转换层(STG)。
对于用户通过IE界面手工输入系统的相关数据,在IE界面输入框处即设定相关校验规则,使不符合校验规则的内容无法输入。这部分数据将直接进入数据转换层(STG)。
数据转换层(STG)主要是对经过清洗后的相关数据进行数据转换操作。从不同渠道获取的数据可能存在着相同意义,但是计量单位不同的情况,或者不同的系统对于某些分类信息拥有独特的字典值信息,在跨系统使用时,需要根据不同的字典值表先进行数据还原,再进行根据统一的规则进行转换,以上等等各类不同的情况都需要通过在数据转换层(STG)设置转换法则,通过不同的转换法则,将跨系统的数据进行转换梳理,最终形成统一的标准和规范,再进入数据存储层(DW)。
数据存储层(DW)主要是存储已经经过清理和转换的数据。例如油水分离器性能DW表,可以存储油水分离器ID,型号,性能指标1,性能指标2,等等不同维度的数据,油水分离器实时监测数据DW表,可以存储油水分离器ID,使用企业,使用年限,性能指标1,性能指标2,等等不同维度的数据。对于本系统实时监测功能所需要的数据表的表结构主要参考源系统的表结构进行数据的存储,并且根据各数据表主键,以及IE界面的展现要求,进行初步的数据表之间的合并,以加快IE界面显示的速度。对于所有在数据存储层(DW)的数据表都进行按主题的初步分类后,进入数据集市存储。
数据集市是本系统的核心数据存储模块,支持所有本系统数据挖掘,在线分析等功能,主要存储按主题分类后的数据模型,每个数据模型按照日期、地区、代码、维度1,维度2,维度3,数值1,数值2,数值3等,进行相关数据的存储。数据集市中的数据可以看做是一个专门存储数据的仓库,且不同的数据按照不同的主题分门别类的放置在不同的容器中,每个容器中存储最基础的数据信息,容器和容器之间可以通过主键信息相关联,以形成进一步详细的数据信息供数据挖掘、分析使用。数据集市中的数据按时间进行分区存储,以便于更迅速的实现数据的读取。
数据展示层(DM)是连接用户请求和数据集市之间的桥梁[6]。根据用户查询的条件,数据集市负责对原始数据进行分析、处理后,进入数据展示层(DM),供用户展现使用。可以将数据展示层看成是一个视图的形式,作为一个缓冲带,这样可以避免用户直接查询数据集市中的数据,对数据集市中的数据造成无意的篡改、锁表等行为,同时,数据展示层还能起到缓存的作用,即如果不同的用户先后提交相同的查询条件,后一次查询可以不再读取数据集市的数据,不再需要数据集市再次进行分析处理,可以直接从数据展示层读取数据展现给用户,这样进一步提高了系统的负荷和使用效率。
4.3 数据获取
数据获取这部分内容主要是由用户在IE前台发起数据查询,用户可以根据前台提供的各个功能模块的菜单,各个菜单底下不同的筛选条件选取不同的数据进行查询。主要通过数据挖掘层的数据展示层(DM)进行数据缓冲作用,用户不直接与数据库底层的数据集市进行数据交互,而通过数据展示层(DM)进行数据交互,可以起到隔离、缓存记忆、提交查询效率等作用。
4.4 本系统数据流向的设计优势
(1)将数据分层次进行处理。数据清理层(ODS)、数据转换层(STG)每一层都有各自的功能,将数据的分析处理分层次进行,层与层之间互不干扰,将数据一步一步深入的进行分析处理后,最终进入到数据集市进行集中存储保存。
(2)使用数据集市的概念,在数据集市中将数据分类保存,按时间分区,形成大数据存储的数据资产。
(3)使用数据展示层(DM)作为缓存带,隔离用户使用和数据集市,保护数据集市中的数据的完整性,同时缓存相同查询条件的数据,提高数据查询速度,提升用户体验。
5 数据生命周期管理(Data lifecycle management)
对于本系统中各个层次的数据采用不同的数据生命周期管理策略。详见表1。
对于数据清理表(ODS)的数据不进行保留,即在每一张数据表每次清洗完成相关数据之后,立即做清空数据表的操作。
对于错误数据表的数据保留1个月。超过保留期限的数据,由系统主动清理。
对于数据转换表(STG)的数据不进行保留,即在完成当天的数据转换任务后,立即对数据表进行清空操作。
对于数据集市的数据保留5年。超过保留期限的数据,由系统维护人员将数据备份到磁带。
对于数据展示层(DM)根据实际情况进行保留,通过前台设置‘清空临时表’的功能[7],由系统管理员触发对数据展示层的数据的清空,日常不安排系统做主动清理[8]。
6 结论(Conclusion)
通过本系统的建设和使用,可以实现对餐饮企业油水分离器现状的实时监控功能,且通过报警功能,减少相关职能部门全面检查产生的繁重的工作量以及随机抽检带来的随机性较高的现象[9],进一步优化政府职能部门的人员配置,高效解决环境污染的在线监管问题。而且,系统通过大数据的挖掘技术,提供行业的发展趋势,对于将要但还未出现问题的企业提供预先报警功能,使问题可以被提前发现,并进行干预,达到防患于未然的目的,更进一步提高相关部门的有效监管的能力。同时系统提供的分析报表,可以供相关负责人更便捷的进行战略分析和判断。系统可移植性好,可方便用作其他对象的监测。
摘要:针对上海市食品安全相关规定,安装在餐饮企业的油水分离装置的各类数据必须进行实时监控与处理。为了实现监管部门的自动化数据监测处理要求,从总体系统架构、网络拓扑、数据流向、数据生命周期方面进行了研究,探讨基于大数据挖掘的餐饮业油水分离器监测系统的软件设计,实现在线监测与报警等功能,依托大数据挖掘技术解决传统管理监测中的数据定位搜寻处理费时费力、成本高效率低等问题,为环保部门对餐饮企业的长效管理提供平台支持及执法依据。