综合业务数据网

2024-10-05

综合业务数据网(共9篇)

综合业务数据网 篇1

谈及数据综合利用, 人们首先想到的就是数据仓库和数据挖掘技术, 有人认为只要建立数据仓库, 利用数据挖掘工具, 就可以开展数据综合利用。笔者认为, 数据仓库和数据挖掘技术只是开展数据综合利用的工具, 能否发挥作用, 发挥多大的作用, 关键在于人们如何使用工具, 而不是工具本身。数据仓库和数据挖掘技术已经相对成熟, 但是, 大部分机构的数据综合利用并未取得希望中的效果, 原因有多方面, 而对数据综合利用中业务需求的模糊是其中重要的原因。同样, 笔者认为, 业务需求的模糊也是制约人民银行数据综合利用的重要原因。

在本文中, 笔者从业务需求视角出发, 分析人民银行的数据资源以及数据资源中蕴含的业务价值, 为人民银行数据综合利用如何拓展业务需求提供一些建议和参考。

一、人民银行的数据资源情况

人民银行担负制定和执行货币政策、维护金融稳定、提供金融服务三大支柱职能, 是国家的中央银行和宏观调控部门。人民银行在履行职能的过程中, 产生、收集、积累了大量的数据资源, 这些数据资源存在于人民银行的各项计算机业务系统中。

进入21世纪以来, 人民银行信息化建设快速发展, 取得了巨大成就, 尤其是大小额支付系统、全国支票影像系统、电子商业汇票系统、征信系统、账户管理系统、国库信息处理系统等一批重要金融基础信息系统的建设运行, 为促进社会经济发展做出了重要贡献。到“十一五”末, 人民银行共建成和运行了100多个重要应用系统, 基本实现业务处理的信息化全覆盖;建成符合“数据集中、资源整合”战略部署的两级数据中心, 实现货币金银、征信、国库、金融统计等重要业务应用的数据集中。

如此众多的系统, 不能一一列举, 但基本模式大多是一项业务一个系统, 在逐年的信息化建设中积累起来的。因此, 从业务分类来看, 人民银行应用系统可以分为13类。比如, 支付类系统包括了大额支付系统、小额支付系统、全国支票影像系统、电子商业汇票系统等, 征信类系统包括了企业征信系统、个人征信系统等, 统计分析类系统包括了金融统计监测数据集中管理信息系统、银行家问卷调查系统、居民储蓄问卷调查系统、全国企业景气调查系统等, 国库类系统包括了国库信息处理系统、国库会计数据集中系统、国库管理信息系统等。本文不对分类一一列举。

如此众多的应用系统, 自然有大量的数据, 并且通过多年的运行积累, 这些数据已经具备了分析挖掘、对比研究的价值, 是反映我国经济金融运行情况的重要数据资源。

二、对数据资源的整体分析

如前所述, 人民银行应用系统可以分为13大类, 这13类系统既有关联, 又有区别。其关联在于, 这13类系统都是为我国经济金融发展服务的, 必然有其内在的联系, 这是可以开展数据综合利用的基本前提;其区别在于, 这13类系统分别处理不同类型的业务, 发挥不同的作用。

为开展数据综合利用, 笔者认为, 应该脱离具体业务系统的束缚, 对数据资源进行整体分析、分类, 才能打破局限于具体业务系统的思维定势, 拓展数据综合利用需求。按照这种思路, 应摆脱具体业务系统的局限, 对数据资源进行整体分析。笔者认为, 从业务视角来看, 人民银行业务数据可以分为3种类型。

第一类是反映非金融机构、社会公众经济金融活动的数据。

这类数据以非金融机构、社会公众为主体, 记录、反映了金融机构对非金融机构、社会公众在进行生产、经营、消费等活动中提供的金融服务。这类业务数据包括非金融机构和社会公众的账户管理数据、通过中央银行支付清算系统进行的支付交易数据、通过国库信息系统进行的财税业务等数据以及中央银行对非金融机构和社会公众开展调查统计数据等。

第二类是反映金融机构业务活动的数据。

这类数据以金融机构为主体, 记录、反映了金融机构的经营业务活动, 存在于人民银行的相关业务系统中。这类业务数据包括金融机构资产负债、业务经营、参与金融市场交易以及中央银行对金融机构开展调查统计等数据。

第三类是反映国家、地区宏观经济金融运行状况的数据。

这类数据以国家或者地区 (某级行政区域) 为主体, 记录、反映了国家或者地区在某个时间点或者一定时间段内的宏观经济金融运行状况。这类业务数据包括国家或者地区的GDP、财政收入、银行业存贷款、支付交易量等数据, 以及反映国家宏观金融运行状况的数据, 如各项货币量、货币发行量、存款准备金率、利率、汇率等。

三、数据综合利用中拓展业务需求的思考

上述对人民银行数据资源的3种分类, 脱离了具体业务系统的局限, 是从人民银行履行中央银行职能的角度出发, 对大量看似杂乱的数据资源进行的业务分类。这三类数据不是绝对独立、分割的, 而是有密切联系的, 比如:从第一类业务数据中某些数据项的合计可以得出第二类业务数据中的数据项, 从第二类业务数据中的某些数据项的合计可以得出第三类业务数据中的数据项。

为便于分析说明, 把第一类业务数据设为集合A, 第一类业务数据集合包括的各子项业务数据设为A1, A2, A3, …An, A={A1, A2, A3, …An};同样, 把第二类业务数据设为集合B, B={B1, B2, B3, …Bn};把第三类业务数据设为集合C, C={C1, C2, C3, …Cn}。

第一类业务数据集合A反映了非金融机构、社会公众的经济金融活动, 数据中蕴含了非金融机构、社会公众的经济金融活动在时间序列、空间序列上的关联价值。在该类业务数据集合中开展数据综合利用, 可以从{A1, A2, A3, …An}中的任意多项 (应该大于等于2项, 下同) 组合分析, 得出有业务价值的组合, 从而拓展了该类业务数据综合利用的业务需求。同样, 第二类业务数据集合B、第三类业务数据集合C分别反映了金融机构的业务活动和国家、地区宏观经济金融状况, 综合利用也可以分别从{B1, B2, B3, …Bn}、{C1, C2, C3, …Cn}中的任意多项组合分析, 得出有业务价值的组合, 从而拓展业务数据综合利用的业务需求。

三种类型业务数据集合A, B, C之间同样蕴含了三种主体的各种业务活动之间在时间序列、空间序列上的关联价值, 对于宏观分析来说, 跨越业务数据集合A, B, C之间的数据综合利用, 甚至更有意义。这种数据综合利用的需求组合分析是比较复杂的, 可以是{A1, A2, A3, …An}中的任意一项或者多项和{B1, B2, B3, …Bn}中的任意一项或者多项的组合, 可以是{B1, B2, B3, …Bn}中的任意一项或者多项和{C1, C2, C3, …Cn}中的任意一项或者多项的组合, 概括起来, 可以是业务数据集合A, B, C三者之间的任意组合。对于其中任意组合的分析, 得出有业务价值的组合, 就可以拓展得到数据综合利用的业务需求。

以上分析, 是从业务视角对数据资源进行业务分类, 可以分到合适的业务粒度, 即{A1, A2, A3, …An}、{B1, B2, B3, …Bn}、{C1, C2, C3, …Cn}, 在开展数据综合利用时, 根据需要对适当粒度的业务数据进行任意交叉组合, 分析组合中可能蕴含的价值, 从而拓展得到业务需求。笔者认为, 这种业务数据组合法, 在面对大范围、大规模的数据资源时, 是开展数据综合利用中从抽象到具体、从模糊到清晰、有效可行的拓展业务需求的启发式方法。当然, 在开展数据综合利用时, 明确大致的业务目标, 就可以大大减少业务数据组合分析的工作量, 提高业务需求分析效率。

四、数据综合利用的业务需求举例分析

目前, 人民银行已经开始开展数据综合利用工作, 在一些业务数据中挖掘出新的、有益的价值, 为推动履职发挥了积极作用。下面, 介绍分析几个数据综合利用的实例。

(一) 数据综合利用实例

1.反洗钱应用实例

为主动开展反洗钱工作, 人民银行某分支机构利用账户管理业务数据和大额支付系统业务数据, 进行数据挖掘和分析, 查找企业或个人账户的异常支付情况, 为反洗钱提供线索。在该实例中, 通过账户管理业务数据和大额支付业务数据的组合, 即{A1, A2, A3, …An}中的两项组合, 从而拓展了数据综合利用的业务需求, 为反洗钱工作提供了有效手段。

2.征信应用实例

管理征信业是人民银行的一项重要职能。为做好征信管理服务工作, 人民银行建立了企业征信系统和个人征信系统, 收集企业、个人在金融活动中的相关数据, 如贷款、还款、信用卡等数据, 并逐步拓展数据收集范围, 从金融业扩展到非金融业, 通过数据挖掘技术, 得到对企业、个人的信用记录报告。企业征信系统和个人征信系统是{A1, A2, A3, …An}中的多项组合, 是对企业、个人有关金融业务活动数据的综合利用, 分析、挖掘出了数据资源中蕴含的价值, 极大改善了我国信用环境。

以上2个实例是人民银行数据综合利用中的典型案例, 取得了较好的成效。下面, 笔者以上文提出的“业务数据组合法”, 分析几种可能的数据综合利用业务需求, 提供一种参考性、示例性的拓展业务需求的思考。

(二) 拓展业务需求的思考

1.业务数据集合A和业务数据集合B组合的思考

这种组合将反映金融机构和非金融机构、社会公众在社会经济金融活动中的关联关系, 可以分析其中蕴含的业务价值。比如数据集合A中的账户管理业务数据和集合B中的银行机构存款数据进行组合, 可以分析出各银行机构的存款账户平均余额及其变化情况, 从而分析挖掘各银行机构的客户群体相关情况。

2.业务数据集合A和业务数据集合C组合的思考

这种组合将反映非金融机构、社会公众的经济金融活动和国家或地区宏观经济金融状况的相互影响。比如, 数据集合A中的支付清算业务数据和数据集合C中的国家GDP数据的组合, 分析挖掘非现金支付交易发展情况等信息;数据集合A中的支付清算业务数据和数据集合C中的利率、存款准备率数据的组合, 分析挖掘货币政策对微观经济主体的影响等信息。

3.业务数据集合B和业务数据集合C组合的思考

这种组合将反映金融机构业务经营活动和国家或地区宏观经济金融状况的相互影响和内在关联。比如, 数据集合B中的金融机构资产负债数据和数据集合C中的利率、存款准备率的组合, 分析货币政策对金融机构业务经营的影响等。

综合业务数据网 篇2

(内容摘自《中国数字电视》 第100期)

摘要

随着三网融合的逐步推进,有条件的广电网络运营商已加大力度推进自身宽带数据业务的发展。但由于国际出口带宽始终由电信、联通等电信行业运营商牢牢掌控,广电网络运营商宽带数据业务的发展始终受制于人。吉视传媒借鉴其他网络运营商的经验,并依据自身宽带数据业务发展的实际情况,通过一系列的技术手段和运营策略,在最大程度上避开了广电网络宽带数据业务发展的限制。

宽带出口制约业务发展

2011年年初,吉视传媒完成了由省中心到地市、地市到县市的搭载在DWDM之上的IP城域网络建设,并在2010年双向网改的基础上,进一步加强对用户家中有线数字电视接入网的双向化改造工作。改造过程中,吉视传媒在有条件的地区推出集体及个人宽带数据接入服务,在推广过程中,我们严重的意识到在加快有线数字电视传输网络的双向化改造,从而覆盖更多的用户、争取用户资源的同时,对公司现有宽带出口资源进行合理配置和有效整合,降低出口带宽对广电网络宽带数据业务发展的影响,是广电网络运营商在当前条件下发挥主观能动性所能解决的。历史原因造就落后局面

1999年,国务院办公厅发布《关于加强广播电视有线网络建设管理意见的通知》,即国办发(1999)82号文件夹。该文件中指出以省、自治区、直辖市为单位组建公司,地(市)、县相应建立分公司或子公司,统一经营管理广播电视传输业务;电信部门不得从事广播电视业务,广播电视部门不得从事通信业务。基于当时国情的两点内容导致了如今广电网络运营商在国内没有统一的主体,亦导致20世纪末至21世纪初的十几年时间里,国外的广电网络运营商大力开展宽带接入业务,而国内广电网络运营商由于政策限制,只能开展单向的广播电视内容传输服务。因此,即使政策已经放开,但电信运营商十几年的积淀、广电运营商十几年未染指IP数据传输业务,直接造成了从技术储备、人才队伍建设、网络运营经验、业务开展及营销、故障维修等方面,广电网络运营商均远远落后于电信运营商。

但技术储备、队伍建设、运营经验、业务营销等可通过一定的实际积累来不断的进行优化,而广电网络的地域割裂性,一方面造成了广电网络运营商在各自区域内独立为政、各自经营;一方面又造成了广电网络运营商没有国际宽带出口。这两方面的硬伤将直接造成广电网络运营商在宽带数据接入业务的开展过程中,始终处于被压制、被控制的弱势状态。

通过自身努力缓解业务发展瓶颈

广电网络运营商宽带接入业务只有在全国广电网络运营商彼此网络互联互通,且有独立的广电网络国际出口宽带时,限制

广电网络运营商宽带接入业务发展的主要制约因素才能得到根本解决,在这之前,广电网络运营商需要通过一系列的技术手段和运营方式来规避没有宽带出口对宽带数据业务发展带来的影响。

吉视传媒在自身宽带数据业务的发展过程中,主要通过以下方式保障宽带数据接入业务的发展:

多方引入,避免单链路故障。与电信、联通、中国有线和中国教育和科研计算机网等具有独立的国际出口的网络运营商签订购买或合作协议。在宽带数据接入业务的发展过程中,经常由于出口链路质量问题,导致运行过程中不稳定,出现断网现象。此种问题必然会成为宽带互联网接入业务的发展瓶颈。因此,引进多条宽带出口,避免因单一出口中断导致宽带数据业务随之中断的问题,保障业务健康、稳定、持续的发展;统一出口,提高利用效率。在吉视传媒宽带业务发展的过程中,各分(子)公司通过各种途径租用了多条本地宽带链路,但在实际运营过程中,存在地区宽带出口资源利用状况不一致的现象发生。因此,将吉视传媒各分(子)公司已经租用且未到期的宽带出口全部引入到省中心宽带出口平台,将用户所有访问Internet的请求通过公司城域网络路由至省中心宽带出口平台后,再指向相应的访问站点,保证公司现有任何一条宽带出口资源都能够覆盖全省用户,从而使公司现有宽带出口资源得到最大程度上的利用;部署负载均衡系统,优化链路质量。在省中心互联网出口平台部署链

路负载均衡系统,将所有出口接到该组设备上并配置好相应的选择条件和路由映射关系。保证用户访问Internet的请求可以根据最优选路原则在不同运营商线路上进行分发,并当单一线路或多线路发生故障及出现高延时等情况时,可自动切换至其余的活跃线路上,保证用户的最优及实时访问需求,在提高了用户访问Internet的体验同时,对链路的资源进行均衡使用,避免单一链路出现过载的状况;部署缓存加速系统,节省出口流量。随着互联网的发展,P2P及在线视频等应用越来越广泛,其流量已经占据了骨干网络70%以上的带宽,现有及未来可预见增长的带宽已经远远不能满足这些大流量、持续占用带宽的应用对骨干网络带宽的吞噬。无序、不可控的P2P流量泛滥,无休止的骨干网带宽扩容,扩容不增收、ARPU持续下滑,用户体验降低导致用户流失等等一系列问题的产生。通过在网络核心层以旁路的模式(分光或镜像)部署智能缓存加速系统,在出口链路上,将全网出口数据流量完全镜像到前端监控端口上。通过监控端口捕获所有流量并通过DPI进行深度的分析和检测,对网络出口流量进行分析和控制,主要针对主流的P2P应用流量进行缓存管理(包括BT、迅雷、电驴、流媒体)。通过特征库匹配后将用户请求分发到各个缓存服务器,调度内网用户之间数据相互交换,提供各类流量网内下载服务。有效提高网络资源利用率、加速内容转发。在出口流量加强管理的同时,保证用户的体验,提高用户满意度;引进网站镜像,形成Internet数据中心。通过与目前互联网访问排

名靠前的网站进行合作,将其热度较高的子网站引进吉视传媒网络,一方面提高用户访问相关内容的速度并降低互联网出口流量;另一方面,通过引进网站镜像,积累IDC建设相关经验;建设面向三网融合的OTT平台,提高用户网络视频清晰度及流畅度。2012年,随着长春市被列为第二批三网融合试点城市,吉视传媒决定建设面向三网融合的OTT平台,一方面,形成覆盖个人计算机、手机、PAD等移动多媒体终端的视频服务体系;另一方面,通过适当的引导方式,引导我公司宽带互联网接入用户访问该平台获取视频点播内容,从而降低我公司宽带互联网出口压力,更能够显著提高用户相关体验,有利于宽带互联网接入业务的推广;与IDC进行合作,实现资源互补。吉林省内目前有独立的IDC,其有电信、联通等宽带出口资源,亦有相关的网站镜像服务器,但其仅有有限的网络覆盖范围。因此,通过与这样的IDC运营中心进行合作,可实现双方资源的优势互补。

整合资源促进业务发展

综合业务数据网 篇3

随着光网业务的发展,在承载网以及接入网上有多种业务同时承载,包括上网业务、IPTV业务、光网语音业务等。在综合承载状态下的故障处理对维护人员是一个很大的挑战。以IPTV业务而言,它的承载拓扑如下图:

常见的故障现象,包括终端无法获取IP地址、认证失败、直播信号卡顿、视频马赛克、点播黑屏等等。从已有故障处理经验看,IPTV-SR的处理板卡、交换机接口、交换机板卡、OLT的上联板卡、OLT的转发处理引擎、家庭网关设备等都可能引起各种故障现象。故障原因复杂多样、故障点位多,并且很多时候故障现象并非持续不断,而是在某些时间段随机出现。这使得处理人员比较难以快速准确的确定故障点进而有效处置故障。当面对复杂故障现象进行疑难故障处理时,往往需要使用专用的测试仪表在不同的监测点进行长时间监测来进行故障分析。而相应的这种处理方式的成本非常昂贵。为此我们设想使用创新的处理模式进行故障处理。

利用开源系统以及免费资源进行自主开发,既能深度定制满足业务需求,又能大大降低整个系统的成本。本文详细介绍了利用OpenWrt[1]定制开发数据采集终端的技术原理、实现方法与测试过程。

2开发目标

为了在复杂的网络环境中定位故障点位,我们需要在不同测试点采集全部数据进行比对,从而确认问题发生的位置。对于整个故障处理系统而言首要解决的问题是业务数据的采集问题。

当发生故障时,通过初步的处理判断后,在需要进行检测的测试点,用定制的测试终端串接或者旁路方式接入进去。采集终端将采集到的数据完整的回传到云存储平台。然后通过分析服务器比对不同的数据可以确认哪个点位出现问题。

该处理模式主要的优点:

1.成本低

采集终端选择具有GE/FE的小型路由器进行自主开发完成,相比购买测试仪表价格低廉很多。由于IPTV的故障现象很多是时间上偶发的,为了处理故障需要做24小时的抓包分析。IPTV现在的高清频道码流为8Mbps,标清为2.5Mbps和1.6Mbps,一共三种码流。假设采集一路高清频道共24小时,则需要的存储空间为1M*60*60*24=84G字节。这种24小时的抓包,需要高性能的仪表,普通的PC机容易出现存储文件错误等导致无法后续分析。如果采用IPTV仪表在多个测试点进行实时分析,则相应的仪表费用更贵。该创新测试方案利用云端的存储能力,保证数据可以长时间持续抓取。

2.可扩展性高

当远端的分析服务器以及云存储服务器具备能力后,只需采购一定的测试终端即能方便的全网部署进行测试。同时测试终端能抓取全业务数据,可以针对光网的全业务故障进行分析诊断。方便维护人员对于上网、IPTV、VOIP等各类型业务的疑难问题进行深入分析。

3.部署方便

只需要外线人员联系用户后将测试终端串接到用户网络内即可。无线现场人员进行复杂的配置部署,也不用修改用户终端或者网络设备。对于用户的业务应用完全透明,可以在比较好的用户感知状态下进行故障诊断分析。

针对测试采集终端,需要完成的功能包括:

1.串接在用户网络内,不影响用户业务使用。

2.准确采集用户业务数据

3.将数据回传到远端云存储平台

3开发方案说明

3.1总体方案说明

采集终端由于要求串接在业务环境中不能影响用户业务,因此两个串接的接口必须工作在第二层以下,尽量不修改以太帧头信息保持信息传送的透明可靠。数据采集通过端口镜像方式进行并将数据文件保存为pcap格式存放在本地存储卡中。采集终端主要功能是数据采集,采集的数据是为了故障判断与处理,因此要求完整的将用户业务的所有交互数据能够保存下来。采用端口镜像可以完整的保存所有业务数据内容,方便后续的进一步处理分析。

采集到的数据可以通过实时的带内或者带外方式回传到远端的云存储系统中。考虑到实时采集到的数据量存在较大的带宽差异性,VOIP在64Kbps以下而高清IPTV则要达到8Mbps左右,高速上网业务可能达到50Mbps。如果直接采用实时回传,带内方式会影响到用户正常的业务。因此采用本地存储器做缓存,在不影响用户业务情况下根据上联带宽做准实时的回传。当不具备回传条件的情形下可以全部存储后进行离线回传。远端云存储服务器前置一台FTP服务器用来专门接受数据,并在内部网络中部署防火墙保障用户业务、数据系统的安全性。

3.2采集终端硬件平台

要求具有两个以上的GE/FA自适应以太电口的路由器,同时具有一个USB接口。通过对比分析最后选定了如下硬件平台,Atheros AR7161[2]进行开发。

该硬件参数信息如下表所示:

该硬件板卡具备很好的功能扩展性,满足一般路由器的功能要求。同时其所具备的芯片处理能力可以完成特定的任务。其整体架构如下图所示:

该硬件板卡的主要功能模块说明如下

集成无线模块

处理器内核是32位的MIPS 24K,现在主流的路由器是采用MIPS构架的处理器。

两个10/100/1000自适应以太网口满足串接方式的接入环境

高速的通用异步收发传输器和总线控制器

DDR和串行ROM接口

32位的频率为33/66 MHz的PCI 2.3接口

两个集成的USB 2.0,方便后续进行扩展做本地存储

PCM接口可以支持VOIP的接入

I2S接口可以支持音频信号解码传递

3.3开发环境

PC机一台,CPU:i5,硬盘:256G,操作系统:win7

Vmware:虚拟机软件,允许一台真实的计算机同时运行数个操作系统。

Suse linux:用于开发测试的linux版本,能方便进行调试编译操作。

OpenWrt:OpenWrt是一个高度模块化、高度自动化的嵌入式Linux系统,拥有强大的网络组件和扩展性,常常被用于工控设备、电话、小型机器人、智能家居、路由器以及VOIP设备中。同时,它还提供了100多个已编译好的软件,而且数量还在不断增加,而OpenWrt SDK更简化了开发软件的工序。

登录工具:SecureCRT,支持telnet、SSH等登录方式从而可以方便的连接调试终端。

编辑工具:vi linux的一种标准编辑工具,用来编写代码和编辑配置文件。

首先选择合适的OpenWrt版本进行编译,然后将image文件烧入硬件系统中。并在硬件系统上采用linux的shell编程完成相应的定制功能。

3.4开发实现

3.4.1实现二层透传

修改openwrt网络配置,在网络配置文件里,找到对应的接口eth0 eth1,将网络配置为桥接模式,从而实现eth0和eth1的二层透传。二层透传方式下路由器的两个接口实现的是两层转发功能,也就是IPTV机顶盒所需要的上下行报文不会修改两层以太帧头,而是通过目的MAC地址进行转发操作。OpenWrt的网络配置文件是/etc/config/network,它负责交换芯片V L A N、网络接口和路由的配置。interface类型的节声明了逻辑网络接口,可以为这些接口指定IP地址、别名、物理网络接口名称、路由规则及防火墙规则。

配置案例如下:

3.4.2实现接口抓包

建立抓包进程,用于对透传数据包的抓取。进程通过Tcpdump对桥接口进行抓包,将数据包保存在挂载的外接储存中,避免在传输速率造成的数据包溢出。固定设置eth0为下联到IPTV机顶盒的接口,eht1为上联到家庭网关的接口。抓包点位设置为eth0,这样不会造成冲突和干扰。抓取的数据报文格式为pacp格式,可以用wireshark等软件打开分析处理。考虑到后续数据传送的可靠性以及故障分析的效率,对于抓取的报文按照指定大小进行本地缓存。该大小参数可调整,在进行数据分析的时候也可以利用软件将多个文件进行合并分析。

3.4.3实现FTP上传服务器

建立上传进程,用于将抓取的数据包上传至远端服务器。进程与远端服务器建立连接,并通过cmdftp周期性的将数据包上传至远端FTP服务器中。需要利用进程做周期性的检测,周期参数也是可调整的。

3.4.4实现按键以及LED提示

修改硬件与按钮以及LED灯的对应配置文件,重新定义每个按钮盒LED灯的调用接口。在抓包与上传进程中,调用按钮接口,实现运行和停止功能。以及提供LED灯的颜色提示用户,运行是否正常。

3.5代码说明

代码主要由四部分组成:

初始化程序(init)

主程序(proc)

上传程序(ftp)

开关程序(switch)

3.5.1初始化程序init

此程序将系统环境变量初始化,以配合主程序proc和ftp自动建立连接。

初始化步骤:

USB自动挂载

FTP自动连接

LED初始化

BUTTON初始化

3.5.2主程序proc

程序流程:

检测当前环境是否正常

启动tcpdump进程,抓取数据包保存于挂载文件夹

启动tcp进程,将数据包上传至远端服务器

3.5.3上传程序ftp

程序流程:

获取当前数据包序号

如果该文件存在,上传该文件

判断上传是否成功

如果不成功,则定时重传。

如果成功,则删除改文件。获取下一个数据包

循环此过程

3.5.4开关程序swith

建立按钮和主程序proc开关的映射关系,通过判断进程是否存在,实现运行和停止设备。

4测试与分析

将采集探头部署在实际的现网环境下进行测试,验证了采集的数据是否准确并完整的传送到远端的云存储服务器端。在实际的故障案例中也做了初步的使用与验证,确认其效用以及后续的进一步改进方向。

4.1测试拓扑

现在的测试主用是串在IPTV机顶盒之前

4.2功能测试

主要分为基本功能测试以及业务测试。包括按钮功能测试,确保通过按键可以启动进程使能系统;稳定性测试,24小时串接保证回传稳定可靠;采集能力测试,确认20Mbps的流量可以准确采集到。业务测试确认了采集过程中业务正常运行。整个测试过程中对于不同的业务做了数据采集,确认不影响用户业务,并能准确采集到数据。并在实际故障处理中做了可行性的验证,确认有助于故障处理与定位,能有效降低区局外线上门的工作量与难度。

5总结

本文通过提出了一种新型的故障诊断系统,并基于开源系统OpenWrt开发了相应的智能采集终端。结合云计算系统提出了更加低成本、高可扩展性的综合业务故障诊断系统。后续的研究重点集中在分析处理系统,也将充分利用开源平台进行相关研究,并将研究成果推广到区局等后端运维部门中。该系统的广泛使用必然能提高整个维护水平以及效率,还能降低仪表采购成本。

摘要:在光网综合业务环境下进行故障定位需要采用成本低廉、应用方便、效率高的数据采集终端进行数据采集。Open Wrt是一个高度模块化、高度自动化的嵌入式Linux系统,拥有强大的网络组件。基于O p e n Wr t的终端设备由于系统开放、硬件适配性好可以方便满足各种网络业务需求。本文介绍了利用Open Wrt进行定制开发一种数据采集系统的实例。详细说明了开发方案、开发工具、开发步骤以及调试过程。

关键词:OpenWrt,数据采集,系统开发,开源系统,硬件终端

参考文献

[1]Open Wrt开发教程https://dev.openwrt.org.cn/#

综合业务数据网 篇4

目录

一. 礼貌性用语(作为通用标准)

二. 服务禁忌和禁语(作为通用标准)

三. 客户询问及解释用语(综调人员使用)

四. 故障处理用语(支撑工程师使用)

五. 专业技术用语(支撑工程师使用)

******礼貌性用语

一定使用普通话

1. 十字文明用语:您好、请、谢谢、对不起、再见

2. 在接听或者拨打电话的时候,对客户时应使用“您好,我是成都电信调度人员XX号,请讲/请问”;对公司内部人员应使用“您好,综合业务保障中心XX号,请讲/请问”,3. 接听来电后:

电话占用时间不长:“好的,我将尽快为您处理,请稍等”。

电话占用时间长:“好的,我将尽快为你处理,因需其它关联部门配合(或是班组、厂家配合),请留下您的联系方式,稍等我会给您答复,好吗”

4. 对不起,他(她)离开了台席,我能帮您吗?

5. 我该怎样称呼您

6. 感谢您的耐心等待

7. 对我们的工作表示感谢时:“不客气”“请不必客气”

8. 对不起,请再说一遍,刚才没听清楚,谢谢。

9. 对不起,请允许我打断下

******服务禁忌和禁语

(一)服务禁忌

1. 轻易打断对方的的讲话、插话或转移话题

2. 用户挂机前主动挂机

3. 与通话方发生争执

4. 责问、反问、训斥或漫骂

5. 与对方交谈时态度傲慢,或语气萎靡懒散生硬

6. 不懂装懂,搪塞、推诿

7. 工作时段与对方闲聊、开玩笑

8. 与对方谈话时,让对方听到内部的交谈内容

9. 频繁使用口头禅、非礼貌性语气助词

(二)服务禁语

1. 严禁使用有损中国电信形象的用语

2. 严禁使用不符合文明礼貌规范的用语

3. 凡脏话、粗话、讽刺、训斥客户的话均列为服务禁语,4. 禁语包含但不限于以下用语:

怎么又问、这是谁说的、先听我说、我也不清楚、解决不了、我给你联系电话、你自己去联系一下、这个不属于我们的职责、你的故障是咋个回事、我都等了很久了、应该是、也许是、可能是、大概是等

******客户询问解释用语

1. 主动联系用户的时候,应首先使用“您好,我是成都电信调度人员XX号,您反映的故障我们正在处理中”

2. 询问客户故障现象时,应使用“您好,可否麻烦您简要描述一下故障情况?”或“您

好,您的业务目前出现了** 现象,是吗?”如对客户描述不清楚,应确认“关于你的问题描述我再确认一下,**,请问是这样的吗?我有没有漏掉什么,或者你那里还有没有什么需要补充的。好的,我们的初步判断为„„或者这个问题我们还需要进一步分析,我们会尽快为您解决,给您带来不便,请谅解。

3. 询问客户联系人及联系电话时,应使用“您好,能否留下您的姓名和联系方式,以

便我们及时向您反馈情况并提供服务。”

4. 针对客户提出的非维护有关的敏感性问题,如资费、价格等,或者不能满足客户提

出的要求时(职责范围之外)应使用“对不起,这方面的问题请咨询10000号”。

5. 当用户业务不能使用,我方正在处理时,面对客户对故障原因和进度的询问,按照

不同情况解释:

(1)如当时能确认故障情况且明确为电信原因的应使用“对不起,由于我方原

因,使您的业务无法正常使用,我们深表歉意。我们正在加紧抢修”;

(2)如当时无法确认故障情况,应使用“我们正在核实,稍后将向您反馈”(必

须遵守首问责任制度,核实后向用户回复);

(3)当已确认是由用户方原因造成用户业务不能使用时,应使用“您好,从您

反映的情况来看并结合我们的排查判断,本次故障应该是**(用户方问题)引

起的,请您先检查一下(按照如下方式进行操作),好吗?”

6. 客户抱怨故障处理时限长时,应分别使用“非常抱歉,给您们的工作带来了不便,我们会尽快处理,请您谅解”和“对不起,由于故障原因比较复杂,需要较长时间,造成目前处理还在继续,我们会尽快完成。”

7. 客户抱怨维护人员工作技能、服务态度差时,应使用“对不起”或保持沉默,或“对

不起,我们将对此事进行调查,并将调查结果向您反馈,谢谢您指出我们工作中的不足之处”。(必须上报值班长,由值班长核实后向用户回复)

8. 客户抱怨有故障和故障重复发生时,应使用“对不起/非常抱歉,我们正在全力处

理,故障将很快解决”。

9. 客户有投诉倾向时,应立即将电话转交给值班长,予以安抚,“非常抱歉,给您的工作带来了不便,请您谅解,我将电话转给值班经理为您解释,可否?”

******故障处理用语(支撑工程师用)

1. 需外线维护人员到用户端或是局端配合处理,“请问师傅现在是否方便在局端或

用户端挂测配合我方判断处理”。

如不能,“好的,麻烦师傅到现场后及时与我方81718000联系(遇电话忙,请使

用预处理即时通信)”

2. 如受理的非本班组业务故障,做到首问负责制。“好的,此问题我将转达到XX

班组,请留下您的联系方式,他们会及时处理并与你联系”

3. 用户来电申报故障,“感谢您的来电,故障我们已经受理,请留下您的联系电话,我们将尽快为您处理和回复。请以后通过中国电信10000号申报故障”

4. 完成局端处理后,“感谢您的等待,问题已解决,请确认”

5. 如给我方提供好的建议、信息、资料等,“感谢你对我们工作的支持”

6. 与配合处理人员完成通话,“感谢来电,再见”

7. 外线师傅用自己的私人电话拨进报障,考虑处理时间稍长,“我回拨电话给你,好吗”

8. 如是用户端终端问题,“请走宽心服务流程,派代维公司处理,谢谢”

9. 如需检查数据,“您好,数据检查正常(可报相关指标),请确认”

10.局端检查后需其它的平台、厂家等进一步检查,“您好,我方检查局端正常,请

记下XXXXXXXX电话,联系他们将作进一步检查”

11.分公司来电询问用户方面的信息,“请稍等”经局端查看后,“用户……(与业务

有关的信息、资料、描述等),麻烦您下次通过XX系统(预处理、营帐、或是

至电10000号等)可进行查询,感谢您的配合12.分公司来电抱怨局端电话打不通,“因局端电话正在进行业务处理,给您带来不

便,非常抱歉”

13.分公司报障流程不规范,“您好,本次我方已处理,请下次通过预处理系统或是

电子运维系统规范报障,谢谢您的配合”

14.受理政企客户经理电话申报,并要求我方代为起单

客户经理不在工作现场,无法起单:“请给出您的电子运维帐号、密码,我方起

单”

客户经理在工作现场,可以起单:“感谢你的来电,因涉及到你方对用户故障处

理跟踪和恢复确认,请你方起单,谢谢支持”

15.询问性来电,“请稍等,我尽快给您回复”

16.很抱歉,这个问题需由我方支撑工程师来处理(解答),请留下联系方式,我们

会尽快与你联系。

17.你所报的号码在系统中没查到资料,请再确认下是否用户使用这个业务。

******专业技术处理用语(支撑工程师用)

拨号认证类问题:

1. 用户是否报691错误?用户是否一会报691,一会报678?

2. 以上故障现象就是认证无法通过,与ADSL端口无关,与MODEN无关,不需要

重启或则更换端口和MODEN,可能的原因有以下几点:

3. 请先检查你的帐号和密码是否正确,密码最好用电脑的大键盘输入

4. 在预处理系统中查看了该帐号的状态:欠费/停机,如果用户未欠费或则已经交清

欠费,我们在CRM系统中查看该用户帐号的复开流程还没有跑完,我们马上通知相关人员处理。

5. 在预处理系统中查看了该帐号的状态:绑定,请在预处理系统中修改用户帐号绑

定状态,自动精确绑定到端口,也就是不绑定

6. 在预处理系统中查看了该帐号的状态:在线,请在预处理系统中把该帐号踢下线,请等待5分钟后再试一次,因为帐号下线需要后台BIMS系统处理,等待时间较长

7. 如果还是报691,请将用户的帐号和密码通过预处理系统短消息发过来,我们在机房进行模拟拨号测试,如果测试通过,表明该帐号是正常的,请在局端拨号测试。

8. 用户为宽带星天地用户,BIMS显示为ADSL市话加锁,请使用宽带星天地帐号、密码

网络无法使用类:

1、用户MODEN不同步,不同步的原因可能有以下几点:

2、用户MODEM问题,重起,更换

3、局端端口问题,通过预处理系统重起,更换,并在局端挂测

4、线路质量太差,在局端能同步在用户端不能同步,请检查更换线路

5、用户MODEM同步,但是拨号报678错误,说明用户的请求信息无法到达局端服务器,与帐号认证无关,不需要解绑,可能原因有以下几点:

6、用户MODEM问题,重起,更换

7、局端端口问题,在网管上查看了该端口状态,有告警,通过预处理系统重起端口,如仍然无法使用,请更换端口,并在局端测试。

8、局端端口问题,在网管上查看了该端口状态,无告警,数据配置正常,通过预处理系统重起端口,如仍然无法使用,请更换端口,并在局端测试

带宽故障类:

1、用户报网速慢,可能原因有:局端端口配置速率错误,线路质量差,用户电脑问

题,网络下载或则游戏服务器问题,PING DNS的时延在20MS内算正常,掉包率在5%以下为正常,下载的速率要乘8。

2、局端问题:查CRM系统和网管带宽一致,为X(M),用户上网编码不一致,请

分公司分别在用户端和局端拨测,同时通知81718000配合。谢谢!

3、局端问题:经查CRM系统和网管带宽不一致,CRM为X(M),网管为X(M),是因分公司换端口未走常规资源维护/ CRM系统用户在XX月XX日有改速率订单/造成用户低开/查营帐系统换端口(或是移机)流程未完成,已修改用户新端口带宽请及时补流程,并留下联系方式,我方将继续跟踪。

4、线路质量问题:查CRM系统和网管带宽一致,为X(M),用户线路质量不达标

(可描述线路指标,指标描述:如上、下行衰减,噪声容限),可在预处理系统中线路信息采集进行查看请整治线路

5、请通过预处理系统“带宽调整”进行修改

线路质量不好,选:线路质量差,时限3天(整改线路、用户前台申请降带宽),3天后恢复原带宽。

申请与配置不符,选:申请带宽和配置带宽不一致

6、用户网速慢,可能是用户电脑问题,请查杀病毒

7、下载速度慢,请更换其它下载测试点

8、游戏速度慢,请更换其它游戏服务器

9、定时掉线:掉线时如果MODEM不同步,说明线路受到干扰,如果MODEM同步,请检查用户连接时长。

其它错误代码

1. 用户报错误代码769,表明用户电脑的网卡驱动程序出现故障,应该检查用户的网

卡设置

2. 用户报错误代码633,表明用户重复拨号,先重起电脑,再重新安装拨号软件 流程卡单

1. 流程在配(交换)端口,还未到我中心,请分公司协调创立(84352167宋庆南)

配合处理

2. 流程在宽带开通MAN,我方已通报处理中,请稍候

3. 流程在帐号开通环节,我方已通报处理中,请稍候

4. 流程在我中心环节已完成5. 因设备故障,流程暂时无法执行,我方关注中,请稍候

6. 流程已完成,查资源配置系统无用户(端口,板卡,设备等)信息,造成工单执

行失败,请协调资源中心(赵老师84396295)配合处理

7. 查看网管,ONU设备板卡插错,工单无法执行,已通知FTTB项目组,请稍候

8. 正在协调经支处理中,请稍候

VPN用户网页无法打开

1、查看局端数据正常,请用户联系VPN中心点确认

2、查看局端数据问,请用户核实是否恢复

宽带新天地用户申告无法观看宽带新天地,提示认证失败。上互联网正常

1、查看局端数据正常,帐号正常,请重起一下机顶盒,如果问题依然存在,请更换机

顶盒

2、查看BIMS帐号正常,确认用户在终端上账号密码输入是否正确,如果确认正确,请联系信产公司XXXXX确认平台数据

光纤用户无法查询资料

1、请提供用户联系电话,并请用户提供IP地址信息

综合业务数据网 篇5

数据仓库整体架构的设计应充分考虑系统的稳定性、安全性、可扩展性,设计高效、支持多个并发用户的数据库访问操作。数据导入是数据仓库数据流向的主要环节,要完成将来自源数据的数据向数据仓库的抽取、转换和加载的工作。

1 设计与指导原则

(1)模块化的系统设计

将管理控制类的模块与具体的数据处理模块严格分开,因为数据处理模块将随着数据源的扩大而进一步扩展和扩充,因此松耦合的模块设计将使得系统的扩展性大大增强;

(2)统一的调度与管理

在统一的调度与管理服务的控制下,各ETL任务在每个加载周期的运行状态与出错情况将显得非常直观,以提高ETL的运行维护效率。

(3)高效的ETL加载策略

数据导入层涉及的数据处理环节较多,且数据吞吐量较大,因此高效率的ETL加载策略将显著提高ETL过程的效率,有效缩短ETL加载时间窗口,其原则是尽量利用Teradata的性能优势来完成对大数据量的汇总与转换等各种繁重计算与操作。

(4)安全的数据管理与用户管理

ETL过程中数据在不同环节间流动,其数据本身的安全性是ETL过程不可忽略的因素;此外,数据的加载与转换必然涉及到对数据库用户的管理,口令必须以加密形式存放。

(5)便利的消息通知机制

ETL任务的执行情况需要及时告知ETL加载运行和维护人员,因此在ETL体系设计中应包含一个消息通知的机制,将每日ETL任务的完成情况和出错报警以邮件和短消息的形式通知运维人员。

2 加载策略

源数据的获取将依赖于数据的生成和更新周期,目前与源数据层约定的获取接口为规定的数据库接口,由Data Stage通过数据库接口,从各个源系统获取源数据,在ETL服务器上,以数据文件或命名管道文件的形式,将数据加载到数据仓库中央数据库中。

在经过初步的转换处理后,数据将首先加载进入数据仓库临时数据区,在临时数据区的基础上完成数据的进一步清洗、汇总计算和转换处理,并最终生成数据仓库的物理模型数据,相关的数据集市和OLAP立方体,以及其他为数据输出而准备的中间数据。

在整个ETL过程中,需要自动化管理ETL任务调度和控制以及必要的数据质量检查模块。

3 相关层次

数据导入是在源数据中经确认的数据进入数据仓库数据服务的数据获取和数据处理的中间层,是重要的数据处理环节。

以下将结合ETL过程的几个重点步骤,对数据导入的数据处理过程进行详细的描述:

(1)确认

源数据的确认是指根据针对本系统的业务需求,来定义包含相应的数据源的物理表/数据结构的过程,这些表在进行信息需求分析时需要确定下来,即确定需要使用源系统的哪些数据来满足业务需求。

(2)映射

数据的映射(Mapping)是指确定操作源数据和数据仓库数据库中数据存储之间的物理映射关系,简单的说就是将已确认的源数据与本系统数据库中的数据相对应起来,供ETL参考。

(3)获取

为了把源数据加载到数据仓库数据库中,首先需要先获取这些数据。一般来讲,数据获取包括两种方式:

数据源主动(PUSH):即数据源主动定时将相关数据吐到ETL服务器上。再由ETL服务器对数据进行必要处理(转换、清洗)后加载到数据库;

ETL服务器主动(PULL):即ETL服务器主动到数据源中获取数据。

考虑到本系统的主要数据源是业务系统的镜像系统或Snapshot,数据获取过程将采用ETL服务器主动(PULL)的方式,即业务系统完成Snapshot或镜像处理后,由ETL服务器主动到业务系统的镜像系统或Snapshot中获取数据,而后直接加载入数据仓库数据库中。

(4)转换

转换工作主要分为两部分:

加载前的转换:主要是针对数据格式、代码映射以及数据类型转换等。

加载后的清洗和转换:主要是针对明细数据进行汇总计算以及异常数据的过滤。

(5)加载

数据加载是将完成抽取、转换后的源数据加载到数据仓库中央数据库中,数据加载过程需保证加载的快速、稳定,并且考虑到数据加载的维护,本次源数据向数据库加载将仅采用Data Stage的Teradata专用组件Teradata Enterprise来完成,数据后续处理(产生汇总表,多表关联等)的工作将使用Teradata SQL来完成。

4 数据质量管理

数据质量对任何数据仓库来说都是非常重要的,决策支持的质量往往是取决于查询所选择的数据本身的质量。一般地,数据质量问题主要来源于以下几种情况:

1)源数据质量问题:源系统中的数据信息不真实、不符合业务规则或数据约束条件,或者源系统导出的接口数据文件不符合接口标准或格式等;因此在数据仓库建设中仍要采用多种手段进行数据质量的检查和管理。

2)数据从源系统到数据仓库的抽取、传输过程中造成数据失真、丢失,或在整合过程中对数据的取舍存在误判;这类问题主要来自于ETL体系本身,可以通过各类技术手段进行避免。

3)从数据仓库到前端展现存在的问题,包括代码错误、算法错误,或者对业务问题的理解错误等。这部分主要是业务逻辑与统计口径不准确所致,并不能代表数据本身的质量问题。

数据质量管理包括:检查规则管理、数据质量检查模块以及数据质量检查结果展示与管理。

检查规则管理是通过数据库中建立一个数据检查的规则库,用于各数据质量检查模块进行数据检查的依据。

数据质量检查模块是分散在数据导入即ETL的各个环节中,数据质量检查包括文件级检查、记录级检查以及业务指标检查。

文件级检查的主要内容包括:

文件大小检验:确保数据在传输过程中没有缺失、损坏,在本系统中,就是保证数据由数据源到数据加载机(ETL服务器)传输的完整性。

文件格式检验:接口数据文件的格式是否是按照约定的格式进行,如定长或变长、分割符的约定等。

记录级检查的主要内容包括:

数据类型与格式检查

主外键及关联检查

编码映射检查

数据值域检查

基本业务规则检查

记录集合检查,数据仓库临时数据区数据与一期ODS的数据比较;

业务指标检查的主要内容包括:

比较同一业务指标在临时数据区、数据区及OLAP的计算值,判断数据在转换过程中是否遗漏;

利用来自其他渠道的业务指标参考值,与该指标在数据区或OLAP的计算值相比较,判断数据的正确性;

统一数据标准实现业务协同 篇6

关键词:数据标准,信息语义共享,业务协同

0 引言

当今,以信息技术为代表的高新技术产业迅猛发展,推动着人类社会的进步,同时也改变着人们的生活方式。信息资源作为生产要素、无形资产和社会财富是重要的现代战略资源。通过信息资源共享提高信息资源的开发利用水平是增强我国综合实力的必然选择。

1 信息化发展面临的问题及主要原因

目前,随着信息化建设的不断深入,数据已作为企业重要的、可共享的资产,成为信息化建设的重点和基石。然而, 也存在一个奇怪的现象:一方面,在不同的地区和部门运行着数十个信息系统,收集着大量的数据;另一方面,又存在着严重的数据“荒”:一是缺乏共享——数据的个体所有制;二是数据难以交换,形成一个个“信息孤岛”。

从数据的角度讲,“信息孤岛”主要表现为信息表达不规范。一是术语不规范;二是分类不统一;三是代码标准不统一;四是数据值域冲突。这些信息孤岛数据模型之间存在名、型、值等冲突,常常导致建设的信息系统存在数据结构不统一,数据命名不规范,数据描述不一致问题,使数据交换和数据集成困难重重,限制了系统内部信息的集成与共享,也限制了与其他部门间的信息共享。

信息资源开发利用之所以薄弱,一方面由于信息化技术发展的阶段性,人们追求“实用快上”的目标,很难统一考虑数据标准或信息共享问题,往往围绕单项业务开发、引进孤立的应用程序,导致“信息孤岛”的不断产生。另一方面的原因是存在认识误区和观念陈旧:“重硬轻软,重网络轻数据”,小农经济的部门封闭、信息私有的狭隘观念,使一些人不重视数据资源的开发和共享。另外长期以来,在信息系统建设过程中,很少将总体数据规划列为总体规划的主体,使得信息化越来越成为无本之木。还有一点需要了解的是,当系统及应用越来越复杂,并深感孤岛的阻碍之际,再重新改造现存的数据环境,进行信息资源的规划和挖掘,常常缺乏良好而有效的实践方法和工具。数据工作的无规则性导致了系统的低效能和资源的浪费。

2 数据标准建设

“信息孤岛”的产生带有一定的必然性,并不可怕,可怕的是总停留在初级阶段而不去解决“信息孤岛”问题,还让新的“信息孤岛”继续出现。

随着信息化建设的不断深入进行,各部门间或部门内会出现大量跨部门、跨地区和跨平台的信息共享与业务协同需求。鉴于业务的本质是计算机与计算机之间,系统与系统之间以数据形式的对话,因此要实现各部门的业务协同,数据的规范化和标准化工作是信息共享的核心内容。根本的解决办法就是从数据标准化着手,规范不同地区、不同部门、不同系统的数据定义、数据表示、数据编码,用有序统一的标准数据理顺混乱的数据环境,从信息语义共享的角度,实现信息使用者和信息拥有者对共享数据的涵义、表示及标识有相同无歧义的理解,为信息共享打下良好的数据基础。

2.1 信息共享体系结构

实现信息共享主要应解决两方面问题,即:信息语义的共享和信息资源的共享,(如图1所示)。

2.1.1 信息语义共享

信息语义共享是整个信息共享的基础,只有使信息共享的双方或多方对信息的语义达成一致理解,才能实现各业务信息系统间、各异构系统间信息的交换与共享,才能实现信息资源共享,进而实现整个信息共享。

信息语义共享通过数据标准化过程,采用自顶向下和自底向上相结合的方法来完成。对于新建系统,通过对现实业务流程分析,抽取出具有共性的业务模型和信息模型;然后根据业务模型和信息模型,提取数据元。对于已有的信息系统,可根据其自身数据库系统的ER图,结合业务和管理要求,进行筛选,梳理,完善,分类,提取数据元,最终形成数据元字典,实现各业务信息系统的语义互操作。

2.1.2 信息资源共享

信息资源共享是信息共享的前提,通过元数据描述和检索机制,实现信息资源的定位和发现,为资源的整合和系统间的交互提供基础方法。

信息资源的共享通过信息资源的目录体系来实现,而目录体系建立在信息资源的核心元数据和信息资源的分类与标识基础上。

2.2 基础数据标准

基础数据标准包括数据元、信息分类与编码、元数据。

2.2.1 数据元

(1)数据元概念

数据元(Data element)是通过标识、定义、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元,一般由对象类、特性和表示三部分组成,如图2所示。

数据元概念=对象类+特性

数据元=对象类+特性+表示=数据元概念+表示

对象类是收集和记录数据对象的集合,它们具有清晰的边界和含义,其特征和行为遵循同样的规则。对象类表示数据元所属的事物或概念,是人们希望研究,搜集和存储其相关数据的事物,比如人员,家庭,物资,公文等。

特性是对象类中的所有成员共同具有的一个有别于其它的,显著的特征,是人们用来区分和描述对象的一种手段。例如,人这个对象类可以具有很多特征,如性别、年龄、身高、职业、收入、平均收入等。

表示是描述了数据被表达的方式,是值域、数据类型的组合,是数据元概念的数据类型及可能的取值范围。数据类型可以为字符、代码、文字、符号等;值域可以如:性别 = {男, 女},收入 = {工资, 奖金, 补助, 利息}。

数据元概念的构成是对象类与特性的结合。例如,职工这个“对象”可以有性别、年龄、收入等多个“特性”,将它与其中的某一个特性结合在一起就组成一个“数据元概念”,如职工性别、职工年龄、职工收入。

一个特定的数据元概念与一个特定的值域结合创建一个数据元。例如职工性别,性别 = {男, 女};性别 = {男, 女,未知,未说明},分别构成两个不同的数据元;再如职工年龄,年龄(年);年龄(月),也分别构成两个不同的数据元。

数据元概念与数据元之间存在一对多的关系,即一个数据元概念与不同的表示组合后可以生成不同的数据元。 换句话说,多个数据元可以共享一个数据元概念。

(2)数据元基本属性

数据元的基本属性主要包括:数据元标识符、数据元名称、语义环境、数据元定义、数据元值的数据类型、数据元值的最小长度、数据元值的最大长度、数据元值的计量单位、数据元值的表示形式、数据元值的表示格式、数据元的值域、数据元关系类属性以及数据元管理类属性,如图3所示。

(3)数据元标准研究

数据元标准研究是数据标准化研究的基础,是对数据元进行规范化的定义和标准化的描述。数据元标准建设是通过对数据元名称、数据元定义等数据元含义的统一,以及对数据元类型、数据元长度、数据元值域、数据元表示及数据元表示方法的一致,保证同一个数据元只有一个定义,只有一种编码。这样就可以解决各个部门、不同应用领域对于相同数据概念有着不同的功能需求和不同的描述的问题。

2.2.2 信息分类与代码

信息分类是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,把具有某种共同属性或特征的信息归并在一起,形成了各种不同的类,并建立起一定的分类体系和排列顺序。信息资源可以按照主题、行业、资源形态等进行分类,在信息分类体系中,类可称为类目。

信息代码是遵循一定的原则和方法,将事物或概念(编码对象)赋予具有一定规律性的,易于计算机和人识别处理的符号,形成代码元素集合。代码元素集合中的代码元素就是赋予编码对象的符号,即编码对象的代码值。 所有类型的信息都能够进行编码:如人员,物资,机构,文件,地区等各种各样的信息。

在信息分类与代码标准建设中,为了实现互联互通,资源共享和信息交换,处理的需要,必须遵循约定的分类原则和方法,按照信息的内涵,性质及管理的要求,将系统内所有信息,按一定的结构体系,加以分门别类的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。换句话说,就是把相同内容,相同性质的信息以及要求统一管理的信息集合在一起,而把相异的以及需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。然后按照约定的编码原则,对每一项内容赋予一个唯一的标识码。

2.2.3 元数据

元数据是描述数据的数据。在信息资源共享过程中,元数据主要的描述对象是各类信息资源。元数据是按照一定规则,从信息资源中抽取出相应的特征, 组成一个特征元素集合。元数据的主要内容包括信息资源的标识,内容,分发,数据质量,数据表现,数据模式,图示表达,限制和维护等。

通过元数据,使用者不仅能够发现所需要的信息资源,了解信息资源的基本内容,而且可以根据元数据中提供的信息资源获取方式,获得信息资源。它使得数据在经历了时间的推移后,对于它的内部用户和外部用户,依然具有可理解性和共享性。

3 基础数据标准化的作用

基础数据标准化是保证信息的唯一性,有效实现和增进跨系统和跨环境数据共享的基础,可以解决部门之间基础数据的传输、共享与处理问题,实现业务协同。

3.1 规范和统一数据采集与应用标准

数据元的标准化统一了不同标准间对同一概念的定义和表示,形成了数据元字典。按照数据元字典来建设数据库,能够使数据库的内容和结构得到规范,保证信息系统建设中数据采集与应用标准的规范与统一,减少重复建设,满足应用系统开发的需要。同时,对数据元和数据字典实行标准化的注册登记制度,可以更有效地支持数据管理,使系统开发者在整个软件开发生命周期中保证数据使用的一致性和可追溯性。

3.2 为数据的共享和交换提供基础

数据标准提供数据的规范描述,统一信息分类与编码,保证数据的一致性,能够为系统间的数据共享,数据交换提供一个公用的信息接口。各部门在进行数据环境建设时如果都按照标准来做,数据的格式就可以做到一致,用户对共享数据与代码的含义,表示和标识能够达到一个共同的理解,避免产生歧义和误解。不仅为信息系统间资源共享创造必要的条件,而且还使各类信息系统的互通,互联,互操作成为可能。

3.3 支持信息系统的集成与业务协同

随着信息化程度的逐步深入,新旧系统的集成,不同业务系统的集成都对数据的统一性提出了要求。在信息系统集成的过程中,不可避免会遇到各类数据库的协同问题。统一的基础数据便于不同标准间的概念、定义的相互引用,能够为不同系统多种模式的数据存取和数据共享提供数据转换格式和编程接口,构筑系统集成与协同工作的基础。

3.4 加强信息资源整合

现代信息资源具有害量、涉及领域多、门类广、类型复杂、结构多样花等特点,元数据可以为信息资源的发现和获取提供一种简便而实际的方法,确定信息资源的整合对象,而信息资源分类对业务信息进行的科学、规范、统一的分类描述,能够较好地满足各部门对业务信息资源组织、管理和使用的需要,为信息资源的开发利用建立了良好的基础。

4 结束语

信息化建设是一个循序渐进的、长期的过程。在这一过程中,标准化工作,尤其是与应用密切相关的数据标准化工作需随之发展和完善,目前在一些行业领域相继出台了一系列数据标准,数据标准化建设正在健康地发展。

供电企业财务业务数据治理研究 篇7

(一)财务业务数据治理管理理念

财务业务数据治理是指将数据作为公司资产而展开的一系列的具体化工作,是对财务业务数据的全生命周期管理。有效的财务业务数据治理应从企业全局角度出发进行系统筹划,对财务业务数据的获取、处理、使用进行治理,确保数据的准确、共享和安全,实现财务与业务的有效融合,达到“数据输入标准化、数据处理流程化、数据交互规范化”的目的。供电企业财务业务数据治理着重于交付可信、安全的财务业务信息,进一步提升财务实时管控能力,为企业制定明智的经营决策、有效的业务流程提供支持。

(二)财务业务数据治理管理范围和目标

财务业务数据治理涵盖了从前端业务应用系统、后端财务业务集成数据库到终端数据信息分析,形成一个闭环负反馈系统。

财务业务数据治理的目标是提高财务业务数据的准确性、完整性,保证数据的安全性、可用性,推进信息资源的整合、对接,实现数据资源在各部门的共享,从而提升企业信息化水平,充分发挥信息化作用。

二、供电企业财务业务数据治理现状

财务业务数据治理工作在供电企业相关制度、规范和流程下借助适合本企业的有效技术手段和管理手段来实现。具体分为三个步骤:固化各信息系统集成接口、财务业务数据集成、数据质量管控。

(一)固化各信息系统集成接口

业务活动发生的同时,相关业务信息不仅在该业务系统中进行记录,同时传递到财务管理信息系统中,生成财务与业务系统的集成信息。包括成熟套装软件、财务管控模块以及计划、营销、基建、物资、人资、经法、交易、调度通信等系统之间提供的集成接口就是用于业务数据的实时传输,通过这种方式,财务与业务系统无缝衔接,实现财务、业务数:据的交互共享以及集成化的财务实时管理过程。

(二)财务业务数据集成

财务与业务数据的高效集成,实现了财务业务信息的实时传递、资源共享以及业务流程的无缝衔接,构建“横向集成、纵向管控”的一体化财务信息工作平台,为财务实时管控提供了有力支撑。

1. 预算管理流程的数据集成(基于财务管控与ERP系统)。

业务部门在财务管控系统中编制业务预算申请表并提交财务部门,财务部门对预算的执行情况进行控制,对于超出预算外的项目,财务部门需驳回业务部门申请,由业务部门重新发起。财务部门依据财务管控系统中“二上”年度预算报表,将年度预算在ERP系统中按成本类别分解至相关会计科目,确保预算执行均衡,实现预算执行可控、在控。

2. 应收账款管理流程的数据集成(基于财务管控与营销MIS系统)。

营销部门在营销MIS系统中录入销售发票、收款单、其他单据等业务信息,生成销售业务所形成的往来款项与各种分析报表,通过系统集成接口,将应收电费、实收电费、售电侧报表等数据传递财务管控系统,实现业务数据传递生成会计凭证,以及报表系统自动取数。

3. 应付账款管理流程的数据集成(基于财务管控与ERP系统物资模块)。

物资部门根据物资出入库情况在ERP系统物资模块中录入信息,集成数据自动生成财务凭证,财务部门仅进行发票校验,出入库前端业务的制证工作由物资部门完成,从而实现物资与财务模块的无缝衔接。财务部门根据财务管控中月度现金流量预算严格控制当月物资采购等相关业务的付款项目及金额。

4. 工程管理流程的数据集成(基于财务管控、ERP、基建管控系统)。

基建部门每月按工程项目及采购订单明细申请下月预算,提报财务部门审批,财务部门通过管控系统集成信息实现月度现金流的控制,提高付款业务准确性。基建部门根据输变电工程项目情况,在ERP系统中生成WBS元素,财务部门可据此分别进行各个项目的成本控制与转资业务处理,实现工程项目信息与财务资产信息衔接、转变的准确与高效。

5. 固定资产管理流程的数据集成(基于财务管控、ERP、PMS系统)。

生产部门在ERP系统中新增、变更设备卡片信息,经财务部门审核后,联动生成固定资产卡片,并通过数据中心传递至PMS系统,实现实物资产账、卡、物联动工作机制。ERP系统根据固定资产卡片信息按月计提折旧,生成折旧凭证并传递至财务管控系统。固定资产卡片是资产清查的重要依据,资产设备卡片的实时联动,准确、及时地反映固定资产的安全完整并充分发挥其效能。

6. 成本核算流程的数据集成(基于财务管控、ERP、员工报销系统)。

业务部门根据实际发生的成本费用在员工报销系统中录入报销单明细,经部门领导审批、财务人员审核后,报销单涵盖的业务数据传递至财务管控生成记账凭证。同时传递至ERP系统中,受预算控制。

成本核算流程中涉及与人资部门的数据集成(基于财务管控、ERP、人资管控、福利保障系统)。人资部门在ERP与部门专业系统中计提应付职工薪酬项目,包括企业员工工资、职工福利费、社会保险费等费用,相关操作所产生的信息通过ERP系统实时传递到财务模块,经财务部门审核后生成会计凭证,实现了职工薪酬业务自动触发财务账务信息流程。

7. 财务报表管理流程的数据集成(基于财务管控、ERP系统)。

财务管控与ERP系统均能够根据现有数据自动生成科目汇总表、明细账、总分类账等编制会计报表的基础数据。通过对财务管控中集团报表模块的设置,数据可自动汇总运算填列在报表的相应位置,生成一键式会计报表。会计报表取数、填制完成后,需通过设置好的勾稽关系,检验报表编制过程中的错误,为财务管理提供高效准确的信息支持。

(三)财务业务数据质量管控

数据质量管控是保障供电企业财务业务数据治理工作能够得到有效落实的重要基础。首先,为保证财务业务数据的正确性、完整性、一致性、时效性、安全性,使数据治理能力不断提升,增强公司决策的科学性和合理性,供电企业根据《财务工作量化考核指标》《财务集约化考核办法》等规定,与部门绩效考核相结合,全面考虑,系统安排,促进财务与业务融合,明确各部门职责。其次,建立对标指标分析制度,查找与先进单位之间的差距,对影响指标值的主要因素进行深入分析,研究改进办法,强化财务业务数据治理,不断提高数据治理执行效率。

三、现阶段存在的问题

(一)财务业务数据治理标准不统一

业务部门站在各自的立场录入、维护和使用数据,使得业务数据分散在不同的业务信息系统中,缺乏统一的数据标准和数据来源,导致业务数据不规范、不一致、不适用等问题出现。财务业务数据难以应用一致的语言来描述,导致各部门对其理解不一致。

(二)财务业务数据全生命周期管理不完整

数据全生命周期包括数据生成及传输、数据存储、数据处理及应用、数据销毁四个方面。目前,供电企业财务业务数据的生命周期管理流程还不完善,未建立信息化工具支撑数据生命周期状态的查询,尚不能确定过期和无效数据的识别条件。

(三)财务与业务部门人员技能较单一

财务业务数据的高效集成,使得财务部门参与到整个业务流程中,这就要求财务人员掌握较丰富的业务知识与技能。目前,企业各部门人员技能水平较为单一,一岗多能仍未全面实现,常出现财务人员不懂业务、业务人员不懂财务的情况,由此造成工作效率低下与资源浪费。

四、今后的改进方向及对策

(一)健全财务业务数据治理组织架构

建立由企业总经理领导分管,总会计师主管,财务部负责财务业务数据治理工作的具体管理与运作,相关业务部门配合实施的财务业务数据治理组织机构框架。负责财务业务数据维护、审核、检查、整改等,保证系统正常使用,提高数据质量。

(二)完善财务信息管理平台建设

进一步完善财务信息管理平台的建设,借助于财务业务数据集成管理范围不断的延伸,固化各个信息系统之间数据交互的集成接口,实现财务业务数据的有效传递与信息共享,有力支撑财务与业务系统的正常运作,为企业财务管理提供技术保障。

(三)建立数据全生命周期管理体系

财务业务数据治理是一项长期的系统性工程,贯穿于整个数据生命周期,建立数据全生命周期管理体系,完善企业财务业务数据的产生、使用、维护、备份、过期销毁的数据全生命周期管理流程,提高数据应用水平和信息化管理水平。

(四)建立财务人才培养计划和项目

强化对财务人员的培养和继续教育,建立行之有效的培训机制,要求财务人员不仅精于本岗位的技能,还要积极了解其他相关业务知识,推进财务管理人员业务化、业务管理人员财务化。深入开展企业管理人员一岗多能的培训,培养适合本行业、本企业的财务管理人员及财务管理团队,为构建供电企业财务业务一体化的管理会计模式奠定坚实的人才基础。

摘要:供电企业财务业务数据治理以企业集团总数据中心为桥梁,固化各个信息系统之间集成接口,实现财务业务数据的有效传递与信息共享,推动财务与业务流程的精细化和规范化,为科学的管理决策提供有力支撑。文章首先介绍了财务业务数据治理的管理理念及目标,通过对供电企业的具体流程及特色分析,归纳总结出其对企业财务管理的积极促进作用,并对如何进一步发挥此积极作用提出了对策保障。

关键词:财务业务数据治理,财务管理,供电公司,对策

参考文献

[1]刘岳华,魏蓉,杨仁良,张根红,李圣,肖力.企业财务业务一体化与财务管理职能转型[J].会计研究,2013,(10).

[2]汪诗怀.基于信息集成的集团决策支持管控模式构建探讨[J].商业会计,2012,(13).

[3]张瑞君,邹立,封雪.从价值链管理的视角构建财务业务一体化核算模式[J].会计研究,2004,(12).

[4]张克慧,牟博.ERP系统在集团管控中的价值创造---基于会计核算视角[J].财务与会计,2012,(09).

[5]严飞.财务业务一体化设计研究[J].财会通讯(综合版),2008,(07).

[6]卢爱红.煤炭企业集团信息化管控模式研究[J].中国煤炭,2012,(01).

综合业务数据网 篇8

1 电网全业务数据分析域平台的作用

基于大数据平台的电网全业务数据分析域主要完成ERP、生产、营销、调度等核心业务系统数据的提取清洗、实时采集类、分析决策类相关应用迁移迁移改造;完成统一数据模型及主数据标准验证;完成统一分析服务建设等工作, 建成全业务统一数据分析域。

2 电网全业务数据分析域平台接入的业务数据

2.1 内部业务系统数据接入

基于电网公司总部数据字典统一梳理成果, 以业务系统实际情况, 结合统一数据分析服务、采集监测与分析决策等问题, 遵循统一数据集成接口规范, 统一数据模型 (SG-CIM3.0、数据仓库模型) , 梳理ERP、财务管控、营销业务、营销稽查监控系统、营销档案管理、营销移动作业、一体化缴费接入管理、PMS2.0、OMS、电能质量在线监测、资产全寿命、省级计量中心生产调度、供电电压自动采集、科技与信息化项目管理、项目过程管理、电力市场交易、IMS、TMS、电动汽车智能、干部管理、信息客户服务管理、应急预案管理、车辆调度管理、经济法律、输变电GPMS、双流双控等业务系统, 全量接入数据分析域, 对于不符合SG-CIM3.0及主数据标准的相关业务数据进行清洗转换, 完成数据流转至数据仓库的接口开发, 为各类分析应用的实现提供完备的数据资源。

2.2 外部数据统一采集

基于大数据平台, 根据大数据分析应用业务, 完成经济、气象、征信等外部数据采集。

3 电网全业务数据分析域平台分析服务功能设计

3.1 统一分析服务

基于统一分析服务功能, 开展低电压实时监测、负荷预测及防窃电分析、配网故障量监测分析、临时用电超期未办理合规性监测场景四个应用建设。

3.1.1 配电网低电压实时监测

配网低电压监测主要针对目前电网设备发生低电压的程度, 从低电压台区和低电压用户两个方面监测低电压的场景研发。运用数据分析域上多源异构数据集成等数据存储技术, 实时计算技术, 统计分析出低电压的区域分布情况、涉及台区情况、低电压出现频率等, 及时将发现的问题通知到相关部门, 由相关部门对低电压台区或用户进行现场核实, 查找出详细原因, 提出改造措施, 消除低电压情况。

3.1.2 用户侧负荷预测及窃电行为分析场景

用户侧负荷预测及窃电行为分析功能可以提取客户信息、用电量信息、用电负荷、事件异常等数据, 从用电概况、负荷预测分析、负荷特性分析、防窃电预警分析等方面, 选取相关性最高的影响因素, 利用数据挖掘算法构建负荷预测模型、负荷特性分析模型、防窃电预警模型。

3.1.3 配网设备状态监测分析场景

通过提取设备台账、用电负荷、用户档案等数据, 从配变设备基本概况、配变故障量预测分析及配变重过载的深化研究等方面, 选取相关性最高的影响因素, 利用数据挖掘算法构建故障量预测模型、农网配变重过载预测模型、迎峰度冬重过载预测模型实现配网设备状态监测分析场景。

3.1.4 临时用电超期未办理合规性监测

通过提取临时用电数据, 从“退费条件后是否按时退费给用户”和“转收入条件后是否按时进行转收入”两个维度, 按单位、按月、按异动项目类型, 总体展示临时接电用户目前总体情况及明细数据, 并通过提醒、告警等方式监测各单位未及时退费项目、未及时转收入项目的情况, 提醒相关人员及时处理, 避免造成的合同纠纷或企业损失, 有效提升公司临时用电业务合法性、合规性。

3.2 采集监测与分析决策类应用迁移改造

3.2.1 用电信息采集系统迁移改造

采用分布式消息队列+分布式流计算方式, 完成用电信息采集数据访问接口的设计开发, 实时同步用电信息采集数据, 并基于大数据平台, 实现实时采集数据的统一对外共享, 为用电信息采集系统前端应用及营销业务、生产管理等系统, 提供统一、高效的采集数据访问服提升用电信息采集数据的共享服务能力。

3.2.2 输变电在线监测系统迁移改造

通过输变电状态监测数据在线计算、离线计算等程序设计研发, 同时完成数据访问接口的设计研发, 实现输变电状态监测信息的采集和在线处理, 为输变电设备状态监测提供灵活可扩展的数据存储和分析能力, 实现通过大数据平台, 统一对外提供高效的输变电设备状态采集数据服务。

3.2.3 同期线损系统迁移改造

基于数据分析域, 通过分析线损系统现有大数据计算框架与大数据平台技术路线的差异, 开展同期线损系统中电量与线损大数据计算区功能融入大数据平台的研究及开发, 将线损系统Cassandra存储改为HBase存储, 对已实现的电量与线损分布式计算服务和提供的电量与线损结果查询服务接口进行改造, 完成同期线损迁移改造方案、存储模型设计, 实现线损相关存储、计算组件的迁移改造及数据迁移。

3.2.4 配电网运营分析应用迁移改造

利用大数据平台, 结合用电信息采集数据迁移, 完成配电网运营分析应用优化改造, 优化并提升数据提取、传输以及单体设备计算能力。结合配电网运营分析应用的数据模型成果, 基于大数据平台完成数据缓冲表、接口表/中间表、计算结果表的模型设计。根据PMS、营销、调度等数据接入需求, 基于大数据平台, 完成PMS2.0、营销业务系统档案数据定期同步接口开发, 完成调度数据采集及解析程序开发。

3.3 统一数据模型与主数据标准验证

基于统一数据模型设计成果, 在数据分析域上验证数据仓库模型。结合数据提取清洗及统一分析服务建设需求, 开展人员组织、财务、物资、项目、电网、资产、客户等主题域的数据模型的差异性比对, 对数据仓库模型进行完善及优化。将数据仓库模型部署至数据分析域中, 并按不同业务域模型规范将ODS的数据存放至数据仓库中, 支撑分析应用场景建设。

4 电网全业务数据分析域平台技术架构

根据统一数据中心总体架构设计, 数据分析域是全业务、全类型、全时间维度数据的汇集中心, 是为各类分析决策类应用提供完备的数据资源、高效的分析计算能力及统一的运行环境, 改变过去分析型应用数据反复提取、冗余存储的局面, 实现“搬数据”向“搬计算”的转变, 支撑企业级数据分析应用的全面开展。

根据统一数据中心数据分析域总体架构要求, 结合电力数据中心、大数据平台的实际建设情况, 设计电力数据分析域系统架构, 包括数据接入、数据存储、数据计算、统一分析服务、系统管理等5个层次。

平台通过分布式消息队列、ETL、Sqoop、API等各种技术手段, 提取结构化非实时数据、实时数据、外部数据, 对各类数据按照统一数据规范进行标准化及关联, 并按不同时效性的计算及应用需求, 分类进行数据存储、流转及管理。

5 电网全业务数据分析域平台采用的开发技术

数据分析域的数据抽方面取采用大数据平台数据加载工具 (基于Sqoop优化封装) +文件导入方式。业务系统存量数据接入ODS区, 涉及业务系统数据提取至缓冲区、缓冲区数据提取至统一视图区。

大数据平台数据加载组件, 基于Sqoop工具优化封装, 支持关系型数据库与大数据平台中的分布式数据库之间的数据提取。对于ODS数据加载至数据仓库/数据集市, 采用大数据平台中的数据加载组件 (基于Sqoop优化封装) 。对于ODS缓冲区、ODS视图区、数据仓库、数据集市之间的数据清洗转换, 采用大数据平台数据提取组件 (基于Kettle优化封装) 实现。提取工具 (基于Kettle优化封装) 基础功能包括数据获取、数据清洗转换、数据加载、任务管理等, 支持内部所有异构系统、多数据类型、不同数据提取方式的数据采集, 对多种数据库、套装软件、封闭式主机、EAI软件、文本等数据批量提取, 实现对数据高效提取、传输和分发, 满足对数据提取和数据清洗功能。

电信息等实时类数据采集, 采用大数据平台消息队列组件 (基于Kafka优化封装) +流计算组件 (基于Storm优化封装) , 实现生产实时数据的高效采集、计算和存储。消息队列组件 (基于Kafka优化封装) 用于接收来自前端不同实时源的数据, 后端则采用流计算组件 (基于Storm优化封装) 技术对实时数据进行保存及分析。

外部数据采集主要有3种模式, 一是线下手工采集, 然后文件导入大数据平台;二是通过外部接口采集;三是通过数据爬取程序采集。

数据仓库存采用基于Hadoop HIVE+Impala组件优化封装的分布式数据仓库, 存放按业务主题进行划分、归类的历史数据。数据集市的数据由数据仓库的数据经过转换后形成, 直接支撑前端的应用需求。数据集市, 采用基于开源Postgre SQL优化封装的分布式关系型数据库。在数据集市应用中, 对于实时性要求不高的结果数据查询, 将通过访问Postgre SQL实现;对于实时性要求高的即时查询应用, 则直接通过Impala访问HIVE的明细数据。

面向海量规模的实时采集类数据, 采用基于Hadoop Hbase优化封装, Hbase是基于Hadoop的No SQL大数据平台分布式列式数据库作为存储媒介。为大数据提供实时的读/写操作, 能够利用HDFS的分布式处理模式, 并通过Map Reduce获取强大的离线处理或批量处理能力, 同时能够融合key/value存储模式, 以实现实时查询能力。热点数据存储在基于Redis优化封装的大数据平台内存数据库中, 以供快速读取、应用。

分析服务, 采用大数据平台自助式分析工具。大数据平台自助式分析工具提供易用、快速、灵活的可视化设计器和丰富多样化的可视化控件, 结合数据建模发布的数据主题和数据挖掘发布的业务挖掘模型, 业务人员可自定义配置分析界面。

数据分析域的系统管理, 采用数据管理服务平台实现, 根据各类扩展需求, 对数据管理服务平台进行增强开发, 以适应统一数据中心分析域的系统管理要求。

6 结束语

通过对大数据技术的研究和应用, 开发部署电网统一数据中心全业务数据分析域平台, 能够有效支撑电网配、变、过载、预警、分析等场景应用, 为数据分析人员提供数据挖掘模型构建能力, 满足电网各类业务应用的大数据分析、挖掘需求。

摘要:通过研究电网统一数据中心全业务数据分析域平台, 使用大数据技术, 对电网核心业务系统进行数据采集监测和清洗分析, 建立统一数据模型、统一分析服务、统一决策中心, 以实现智慧电网全业务统一数据分析域。

关键词:大数据平台,电网统一数据中心,全业务,数据分析域

参考文献

[1]陈毅波, 陈乾, 眭建新.基于大数据技术的电网运营分析决策系统研究[J].电力信息与通信技术, 2015, 13 (8) :128-131.

[2]王忻.基于大数据技术的电力公司运营系统研究[J].商, 2016 (4) :214-214.

[3]赵云山, 刘焕焕.大数据技术在电力行业的应用研究[J].电力行业信息化年会, 2013 (30) :57-62.

[4]段军红, 张乃丹, 赵博, 闫晓斌.电力大数据基础体系架构与应用研究[J].电力信息与通信技术, 2015, 13 (2) :92-95.

[5]刁柏青, 步万峰.构建集中统一的电网集团数据中心[J].电力信息与通信技术, 2004, 2 (10) :57-59.

[6]姚强, 杨志武.基于集中数据中心的统一数据发布平台建设分析[J].内蒙古电力技术, 2010, 28 (3) :3-5.

[7]秦小强.电力大数据基础体系架构与应用浅述[J].工程技术:引文版, 2016 (1) :11-11.

外汇监管中业务数据的筛查技巧 篇9

一、个人收汇核查数据条件

现从非现场检查系统导出辖内2009年5月至2011年4月限额以下收款金额在4.5至5.1万美元之间个人项下可疑分拆收汇数据2 307条。

用户需要知道境外机构或个人将外汇分拆为多笔5万美元以下资金汇入境内个人的线索。通过Excel能够快速从2 300余条记录中定位出88个关键字。

在导出数据表中插入一列名称为“具有相同付款人关键字” (I列) , 并将数据按照付款人名称 (H列) 为主要关键字和收汇日期为次要关键字作递增排序。在K2单元格使用公式1:

其中, LEFT (H2, 9) 表示取H2值的前9个字符, 汉字作为一个字符。OR (参数1, 参数2) 表示参数1或参数2之一为TRUE, 则函数OR返回TRUE, 否则返回FALSE。公式1表示用H2值的前9个字符和H1及H3值前9个字符比较, 如有一个相等则显示H2值的前9个字符, 否则显示空格。考虑到实际数据中付款人名称填写不规范, 此处仅使用该字段前9个字符进行比较, 实际操作中可以根据筛选结果中关键字的数量加以调整。对I列其余数据执行相同操作, 可标志出付款人名称关键字 (如图1所示) 。

然后对该工作表执行插入“数据透视表”, 其中“具有相同付款人关键字”作为列字段拖入, 申报号作为数据项拖入, 并在“字段设置”按钮中设置以“计数项:申报号”字段递减排序, 可以看到如图2所示的结果。

图2中第3行显示关键字为空的记录数为777, 表示关键字无重复的记录数。第4行显示以“GULF EXCH”开头的付款人名称有22笔。由数据透视表筛选出付款人名称起始9个字符重复5笔以上的“关键字”共88个。用户可以大大减轻工作量, 以88个关键字为依据, 在原工作表中进一步核查出重大可疑线索。

二、企业组织机构代码数据条件

现从贸易收付汇核查系统中导出进口付汇名录企业代码集 (简称A集合) 共2 915条记录, 以及从原进口核销系统中导出部分核销企业代码集 (简称B集合) 共499条记录。

用户需要了解B中哪些记录在A中, 哪些不在A中, 并将这两类数据区分开来。在C2单元格中使用公式2:

其中, VLOOKUP (B2, $A$2:$A$2916, 1, FALSE) 表示用B2单元格值在A2至A2916之间 (即A集合) 查找, 匹配则返回该企业代码, 否则返回#N/A。ISNA (VLOOKUP (参数) ) 则是判断VLOOKUP (参数) 结果是否为#N/A, 如是#N/A则返回TRUE。

公式2表示A集合如包含B2单元格企业代码, 返回该代码, 否则返回空格。对B列其余数据 (即B集合) 执行相同操作后, 再对B列和C列数据执行“选择性粘贴”至新工作表中, 按照C列数据降序排列, 可以看出C列中前面部分 (即数值为企业代码的单元格) 所对应的B列记录就是A集合所包含的数据, 后部分数值为空的单元格所对应B列记录则不含在A集合中。同理公式2中A和B列数据可对调, 以区分A集合包含在B集合中的数据。

假如A集合中除了包含企业代码以外, 还包含相应的企业名称、所属外汇局等属性, 用户需要了解B中记录在A中对应位置, 或相应企业名称等相关信息如图3所示。

按照图3所示, 将A集合及附属信息放置在A和C列, 并用B列标记A列数据行号, 将B集合放置在D列, 在E2单元格中使用公式3:

其中, 公式3中第三参数中的“&”符号是将VLOOKUP查询结果和两个字符串合并为一个字符串。VLOOKUP (D2, $A$2:$C$2916, 2, FALSE) 表示使用D2单元格值在A列查找, 匹配则返回A2:C2916矩形数据块中的该匹配行的第二列 (即序号列) 值“1888”。公式3表示用D2企业代码在A列查找, 如匹配, 则返回该代码在A集合所对应序号, 否则返回字符串“不在A集合中”。我们可对D列中的其余数据执行相同操作。

如果需查找B集合代码对应的企业名称, 可将公式3中第三参数替换为VLOOKUP (D2, $A$2:$C$2916, 3, FA LSE) 。

B集合 (放置在B列) 中可能有重复记录, 用户需要了解哪些为重复记录, 并要求剔除。对于该情况需要先对B列数据排序, 然后在C2单元格使用公式4:

上一篇:初中生物教学实验研究下一篇:现代理论