软件应用和数据处理(精选12篇)
软件应用和数据处理 篇1
1 引言
随着全业务竞争格局的形成, 移动互联网、物联网等新技术、新应用层出不穷。为了满足用户日趋多样化、复杂化的需求, 中国移动由单一GSM网络逐渐发展为GSM、TD-SCDMA、WLAN、TD-LTE四张网络。网络规模的迅速扩大和业务种类的不断拓展带来了巨大的网络运维数据, 这些数据在给运维人员带来巨大维护压力的同时, 也隐藏着许多关于网络行为的有价值信息, 但是目前对于这些数据的分析、处理效率十分低下, 进而严重影响了相关工作的开展, 主要表现为:
(1) 当前业内告警关联主要是基于规则的告警关联, 通过将告警相关性知识定义在一组已经梳理出的规则集中, 通过推理机制对各种告警进行关联判断。但是随着数据量的增大, 当规则数量达到一定程度时, 规则库的维护就变得十分困难。另外, 由于规则主要来自于专业的网管人员, 而系统自身没有学习能力, 所以规则的获取是该方法的主要瓶颈之一。
(2) 在当前网优工作中, 对于性能数据的监控和分析是一项重点内容。传统上, 维护人员基于经验判定各个指标的阈值, 通过手工方式在网管系统等中进行设置, 简称为“手工设定”方式。在指标较少、波动幅度不大的情况下, 该方法能够满足工作需要。但是在设备数量较多的情况下, 该方式难以适应, 导致工作效率低下;对于波动幅度较大的指标, 容易产生设置随意、主观性强的问题, 不利于系统维护工作的开展。
鉴于此, 为提高大数据量、多工作并发情况下的运维质量, 采用智能化算法提升大量数据的分析、处理效率就变得十分迫切。本文对告警数据进行了基于神经网络的告警关联分析与故障精确定位, 对网优性能数据进行了基于动态算法的性能指标主动监控研究, 并挑选了网络规模排名全国第二的某省级通信企业进行了实践检验, 效果良好。
2 基于神经网络的告警关联分析与故障精确定位
告警数据处理方面, 通过告警监控专家系统和神经网络的优势结合, 能够有效处理符号知识、吸收新知识、减少搜索复杂性、解释所得结论。在告警监控专家系统的统管下, 采用基于神经网络的学习算法, 结合模式匹配算法、规则匹配算法, 采用基于全局的最佳策略, 优选算法、宏观导控, 使各种算法达到高效且相对简洁。相关的知识规则学习和获取模型如图1所示。
根据上述思想, 实现该目标的系统整体架构如图2所示。
2.1 对原始告警数据库的预处理
原始告警数据预处理主要环节如图3所示。
(1) 数据的收集, 使收集到的变量或数据比较全面并具有典型性和代表性;
(2) 数据变换处理, 使样本空间映射成数据空间, 并进行数据归一化处理;
(3) 特征参数的提取, 在保持信息量基本不变的前提下, 选择有用的特征;
(4) 样本集的构造, 选择适当的样本数量。
2.2 基于神经网络专家系统的知识获取及描述
神经网络专家系统涉及两部分知识的获取:一是传统描述性知识的获取;二是从实例样本中获取隐含性知识。第一部分采用半自动化的知识获取工具, 领域专家可以根据界面向导, 不需要知识工程师帮助, 方便地将领域知识、经验录入到知识库中;第二部分用人工神经网络进行知识的自动获取, 通过神经网络对样本数据的学习, 将其中隐含的知识存储到整个网络中, 并用数据文件的形式保存网络的连接权值和阈值。
知识表示是对知识的一种描述, 是一种用计算机可以接受的、用于描述知识的数据结构。对知识进行表示, 就是把知识表示成便于计算机存储和利用的某种数据结构。
神经网络专家系统中, 专家系统的知识表示可以采用语义网络表示、产生式表示、逻辑表示、框架表示、过程表示等方法。而神经网络中的知识表示是一种隐式的表示方法。
当确定了网络的结构参数、神经元的激活函数及学习算法后, 网络的知识获取和知识表示是同时进行、同时完成的。对网络的训练学习成功后, 样本数据中存在的知识信息都以连接权值和阈值的形式分布存储在整个网络中。
2.3 基于神经网络专家系统的过程神经网络模型和算法
BP网络模型, 是目前研究最多、应用最广泛的人工神经网络模型。该网络由输入层、中间层、输出层组成, 中间层可扩展为多层。相邻层之间各神经元进行全连接, 而每层各神经元之间无连接, 网络中各个神经元接受前一级的输入, 并输出到下一级。这种网络实现信号从输入空间到输出空间的变换, 其信息处理能力来自于简单非线性函数的多次复合。相应的算法模型如图4所示。
考虑到通信行业网络告警数据的告警风暴特性, 为了加快网络的收敛速度, 在上述模型的基础上对算法进行了改进, 主要是在BP算法的基础上, 加入了动量项法、自适应学习速率法、共轭梯度法、递推最小二乘法等。算法改进如图5所示:
过程神经元是仿照生物神经元的信息处理机制而抽象出来的一种数学模型, 区别在于过程神经元可以直接处理时变 (过程) 信息。过程神经元除了具有传统神经元的信号加权传递、阈值激励等特性外, 还包含对生物神经元的延时特性和时间累积效应的描述, 是传统神经元在时间域上的一种扩展形式。
过程神经网络的输入和连接权均可以是一个与时间有关的过程或函数, 并在传统神经网络空间聚合运算的基础上, 增加了一个对于时间的聚合算子, 使过程神经网络的聚合运算和激励能同时反映时变输入信号的空间聚合作用和时间累积效应, 即:过程神经网络同时具有对时、空二维信息的处理能力。相应的实施架构如图6所示:
系统通过自动和人工两种方式从知识源中获取知识, 然后将所获取的知识送入到知识库中。知识库包含两部分知识:由专家输入的显示知识和通过神经网络学习得到的隐式知识。当通信网络产生新的告警时, 由推理机进行推理, 推理机制包括神经网络数值推理和逻辑推理两部分。得到推理结果后, 对推理结果做出解释, 最后将结果送入人机接口, 供用户查询使用。该系统充分体现了神经网络和专家系统相结合的优势, 能够充分发挥其各自特长, 解决单独使用某一系统所无法解决的问题。
2.4 实践效果
通过上述专家系统的实施, 某省运营商实现了告警“接入-呈现-关联及预警分析-工单管理”的全生命周期闭环管理, 有效提升了告警管理“五项能力”, 告警监控效率提高39.9%, 自动派单有效率提升50.2%, 见表1。
在集团公司组织的全国监控现场“十大标杆”评比中被评为标杆省份, 省公司集中监控团队被评为集团“学习型”标杆班组, 两名监控值班长被评为全国十大明星和优秀值班长。
3 基于动态基线算法的性能指标主动监控
网络管理系统的性能分析涉及大量网元的海量性能指标, 属于多维数据的复杂分析, 符合联机分析处理OLAP (On-Line-Analytical Processing) 的技术特征。本文通过实时性能告警算法, 实现了对15分钟/30分钟粒度海量性能数据的归一、解析、分析, 并通过与指标门限、历史统计基线等进行比较, 发现了业务和网络性能降质的原因。
3.1 性能指标的分类
根据性能指标选取目的以及能否直接反映用户感知, 将其分类为用户感知、网络设备两大类。另外, 对某些特定事件, 如互联互通、非法话务、重大事件或重要节假日等, 定义特定场景类。某些指标可能同时归属于多个分类, 如MSC系统接通率同时归属于用户感知类的业务成功率, 又属于网络设备类的设备故障类, 见表2。
3.2 实时主动性能告警的实现原理
实时主动性能告警的实现原理, 是将采集到的性能指标数据与预先设定的容忍线 (告警触发阈值) 做比较, 超过容忍线时触发告警产生机制如图7所示。
(1) 计算基线:选取一定的历史正常值为样本空间, 经过统计分析得出性能指标的正常波动范围, 画出上下基线。本步骤的核心技术是基线产生算法。
(2) 计算容忍线:在获得基线之后, 选取一个合理的容忍度, 按照容忍度对基线上 (或下) 浮动产生容忍线, 作为触发后续告警产生机制的阈值。本步骤的核心技术是容忍度的取定。
(3) 产生告警:当实时监控值超出上 (或下) 容忍线后, 根据性能指标的特性, 触发不同的告警产生机制。本步骤的核心技术是告警产生机制。
上述三个步骤, 及其所涉及的“基线算法”、“容忍度计算方法”、“告警产生机制”, 共同构成“实时性能告警算法”。相关的具体做法介绍如下:
3.3 基于历史数据分析的动态基线算法
针对某个指标, 设定它的24小时周期范围内不随时间变化的同一个上限 (上基线) 或者下限 (下基线) , 划分出指标值的正常范围、异常区域, 算法原理如图8所示。
对于某些指标来说, 可能只有上容忍线或者下容忍线, 如CPU负荷。另外一些指标可能需要同时关注上容忍线和下容忍线, 它的上、下容忍线均可反映异常情况。
对一个指标在24小时监控周期内设置同一水平的阈值, 仅仅适用于那些波动不大的指标。对于在不同的时间段波峰、波谷差别较大的指标来说, 必须针对不同时段设定不同的门限, 确定不同时段内指标值的合理分布区域、异常分布区域。动态基线阈值设置方式如图9所示。
其中, 上基线表示各个时段正常值最大值连成的曲线, 下基线表示各个时段正常值的最小值连成的曲线, 二者确定了各个时段的正常波动范围, 体现了正常情况下该性能指标在24小时之内的变化趋势。
通过选动态基线算法, 并结合适当的预测技术 (如线性回归、ARMA模型等) , 能够对未来一段时间内的性能指标的可能范围进行预测;将这一预测值和系统容量进行比较, 可以对未来一段时间内是否会容量不足做出判断, 从而降低系统容量不足的风险。
3.3.1 动态基线算法步骤
(1) 第一步:历史统计数据选取及预处理
1) 样本空间的选取
理论上, 样本空间越大, 基线数据的失真度越低。但是样本空间越大, 原始数据量就会很大, 对于数据获取、存储、运算都会带来更大的开销和难度。因此需要根据实际需要以及试点结果, 选择适当规模的样本空间。原则上, 每个时间点最少都要选取过去一个月的历史数据。
2) 样本点数据的预处理
选定样本空间后, 应对样本点数据进行预处理, 存在三种方式:
第一种方式, 主要结合运维期间发现的故障或者节假日、重大事件等情况, 确定异常样本点数据, 并将异常点排除, 保留反映变化规律的典型数据, 再用于产生动态基线。
第二种方式, 按照历史上异常数据占整个数据量的比例进行人为判断, 删除最大和最小的数值, 其它用于产生动态基线。
第三种方式, 按照概率算法, 基于历史统计数据确定的正常数据比例, 自动选出最为集中分布的数据作为正常数据。
在系统实现时, 可以按照下述原则对正常数据比例进行调整:
1) 根据特定专业网络、设备运行状况, 设定合理的比例;
2) 在设定比例下, 业务或网络异常能够导致告警产生;
3) 在设定比例下, 产生的告警据有监控的价值。
(2) 第二步:计算动态基线
利用历史数据计算某个指标在特定时段的正常波动范围, 是描绘完整的24小时曲线的关键环节。利用预处理后得到的有效历史数据计算波动范围的上、下限, 可以采用的数学理论包括:
1) 一次、二次等多项式拟合算法;
2) 概率算法;
3) 排序算法;
4) 小波理论;
5) 神经网络算法 (如BP) 。
3.3.2 按照实用性、准确性等基本设计原则, 同时考虑到网络性能指标的一般性规律, 在进行算法选取比较后, 建议优先采用如下两种算法:概率分布算法、排序法。
(1) 方式一:以概率法计算动态基线
1) 首先对预处理后的有效数据进行排序, 假定共有N*个, 分别记为X1~XN*;
2) 假定有效数据的Y%为可以接受而不用产生告警的指标值, 滑动排序数据的窗口 (共N*×Y%个数据) , 计算该窗口中数据的均方差。
计算该窗口中样本的平均值作为期望值E (X) ;
计算窗口各个样本点对于数学期望的偏离程度, 单个偏离是X-E (X) 。为消除符号影响, 一般取 (X-E (X) ) 2。
求方差, 即窗口中所有样本点偏离平方的均值, 记为D (X) , D (X) =E[ (X-E (X) ) 2]
求标准差或均方差, 描述改组样本的波动程度。
3) 取均方差最小的窗口中的数据, 以其最大值作为基线上限Base High, 以其最小值作为基线的下限Base Low。
(2) 方式二:以排序法计算动态基线
1) 首先对预处理后的有效数据进行排序, 假定共有N*个, 分别记为X1~XN*;
2) 假定有效数据的Y% (在实践中可以根据省公司、业务系统、管理要求等因素设定, 建议取95%) 为可以接受而不用产生告警的指标值, 取中间的数字为正常波动区间;
3) 以其最大值作为基线上限Base High, 以其最小值作为基线的下限Base Low。
3.3.3 基线的定期修正
随着网络扩容、优化以及业务量、市场推广策略、国家政策的变化, 某些指标的正常波动区间会发生变化。为适应这种变化, 准确发现新时期的网络异常, 需要对原先计算得到的基线进行调整。调整方式有两种:
一般情况下, 建议每月初, 按照本次计算前M个月内的数据为新的历史数据, 重新进行一次基线计算;
根据业务发展预测结果, 采用手工方式修正, 如乘以某项业务的增长系数。
在实践中, 可以根据各系统的实际情况、指标的特点等具体选定重新计算策略。
3.4 容忍线计算方法
容忍线是根据基线和容忍度计算得到的:
其中, 容忍度是指超出基线的百分比, 也就是当数据超出正常值范围的百分比, 在容忍度范围内, 可以认为数据的偏离是可以接受的。而一旦超出此范围, 则需要触发告警。容忍度的取定以及容忍线的设定, 是一项很重要也很有挑战性的工作, 需要根据指标的实际情况, 并结合运维经验进行设定。
容忍线的设定比较灵活。针对不同种类的指标, 可能设置不同形式的容忍线:可能是单侧, 也可能是双侧;可能是一级, 也可能是多级。例如, 对系统容量指标, 可能设置单侧单级容忍线;而对业务量指标, 可能设置双侧多级容忍线。
3.5 实践效果
通过该成果的实施, 某省运营商2012年日均督办性能问题860个, 解决率95.4%;共发布性能预警分析1803次, 解决率98.3%, 较大幅度提升了省公司性能方面的监控效率和准确度。
4 结束语
本文通过基于神经网络的专家系统告警关联分析法和动态基线算法, 对电信网管中的告警和性能海量数据提出了一种新的处理、分析思路, 并在某省级通信企业的运维工作中取得了良好的效果, 取得了改善用户体验、优化网络质量、助力市场决策、刺激业务创新的效果, 显著提升了告警和网优人员的工作效率, 并大幅降低了运维成本, 获得了更好的网络质量, 取得了很好的经济效益和社会效益。
参考文献
[1]Stenfan Wallin and Viktor Leijon.Rethinking NetworkManagement Solutions.IT Professionals, November/December, 2006
[2]夏海涛, 詹志强.新一代网络管理技术.北京邮电大学出版社, 2003
[3]Denis L.Nkweteyim, Stephen C.Hirtle:A New Joinless Apriori Algorithm for Mining Association Rules.PRIS2005:234-243[DBLP:conf/pris/NkweteyimH05]
[4]Chin-chen Chang, Yu-Chiang Li, Jung-San Lee:An Efficient Algorithm for Incremental Mining of Association Rules.RIDE2005:3-10[DBLP:conf/ride/ChangLL05]
[5]Pinaki Mitra, Chitrita Chaudhuri:Efficient Algorithm for the Extraction of Association Rules in Data Mining.ICCSA (2) 2006:1-10[DBLP:conf/iccsa/MitraC06]
软件应用和数据处理 篇2
CASS处理技术的原理和应用
介绍了CASS工艺的原理、特点、核心构筑物和设计、运行中应注意的`主要问题以及常见故障的排除方法.
作 者:马有劳 冯蓉 MA You-lao FENG Rong 作者单位:陕西海博特环保科技有限公司,西安,710032刊 名:中国环保产业英文刊名:CHINA ENVIRONMENTAL PROTECTION INDUSTRY年,卷(期):“”(6)分类号:X703.1关键词:CASS处理技术 曝气 溶解氧 撇水机 液位计
大数据的应用和发展探讨 篇3
关键词:大数据;海量;影响;发展
中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2014) 06-0000-01
一、什么是大数据
大数据(Big data),又称巨量资料,指的是无法通过目前的主流软件工具,在合理的时间内完成截取、管理、处理并整理成为帮助企业经营决策更积极目的的规模巨大的资料量。
大数据最初被用来描述为更新网络搜索索引需要同时进行批量处理或者分析的大量数据集,而随着Google Map Reduce和Google File System的发布,大数据不仅仅被用来描述大量的数据,而且还被视为是对数据处理的能力与速度的体现。
海量的数据蕴含着无穷的价值与潜力。商家与企业从最初的花费巨资挖掘信息到如今轻而易举地实现资源利用与共享,不得不说是大数据推进了整个数字时代架构的发展。如硬件、云平台等资源与相应技术的迅猛发展,使得大数据的实现变得更加的方便与廉价。例如中国最大电商淘宝推出的无抵押贷款的条件,便是申请者需拥有良好的信用记录,而代表着良好信用的指标,便是根据申请者所有消费记录及个人信息的获取与分析自动生成的一个判定,商家与企业可以根据这些数据的分析从而判断申请者是否符合无抵押贷款的标准。许许多多类似的大数据使用模式,让企业开启了更加快捷并且人性化的服务时代,在提高自身服务的同时,利润升高,也节省了以往花巨资搜集相关信息的成本,这在若干年前是完全不敢想象的。
二、大数据的特性
大数据的四个特性:Volume(海量)、Velocity(高速)、Variety(多样)、Value(价值),这便是著名的4V特点。
海量性:这是一个数据成指数般增长的时代。IDC最近的报告预测称,2020年,全球数据量将扩大50倍。目前来看,数据体量从TB级别跃升到了PB级别,而存储1PB数据即需要两万台配备50GB硬盘的个人电脑,所谓的海量特性,我们可想而知。
多样性:多样性指的是数据类型的繁多。比如我们常用的百度、Google等搜索引擎,便是大数据的具体体现,人们可以通过文字、视频、图片等多种形式来获取相关信息。
价值性:价值密度低,大数据的价值体现在流动性,商业价值高。企业在需求有利信息的同时更需要良好的商业回报,大数据技术的出现帮助企业实现了这一点。但由于资源种类过多且繁杂,目前来说如何快速提取有利信息完成价值的“提纯”,是亟待解决的问题。
高速性:顾名思义,速度极快。大数据处理数据的方式与以往传统的数据挖掘大不相同,它利用云平台良好的保持性能与容量的可扩展性和高速性。
三、大数据的影响及应用
在企业与商家利用大数据为人类创造更好服务条件以及谋取利润的同时,大数据对政治、经济、文化等各个方面都产生了深远的影响。在2012年,奥巴马政府已经发布“大数据研发倡议”,该倡议涉及联邦政府的六个部门,他们均承诺将投资总共超过两亿美元来大力推动和改善与大数据相关的收集、组织和分析工具及技术。他们将利用大数据提高收集、存储、管理分析和分享大数据最先进的核心技术水平,并且利用这次额技术加速在科学和工程中的创新速度,增加国家安全力量甚至改变在教育领域的授课和学习模式。而在2013年,百度举办的“百度无限”搜索大赛被列入了联合国教科文组织的“全民信息计划”(IFAP),而这项计划则是教科文组织借此与各国政府密切合作,以建立全民信息社会为目标,以保证所有人能够获得信息来改善他们的生活的国际性活动。
而像Google、IBM、Microsoft等巨头公司早已开始觊觎大数据这块充满希望与潜力的发展之地。IBM近日便宣布,根据市场调研机构Wikibon最新研究报告《大数据供应商收益与市场预测》,IBM连续两年实现大数据市场占有率第一,领跑报告中70多家大数据供应商,同时,2013年IBM大数据分析领域营收高达160亿美金。在大数据与分析领域,IBM不断开拓新的市场,参与帮助能源、医疗、金融服务等不同领域的企业实现转型。许多企业高管都使用IBM大数据分析工具从而更高效地洞察客户需求,及时修改企业策划,利用可靠的数据提高营收。
四、大数据所存在问题
容量问题:上文提到,大数据的容量已经可以扩充至PB级别,因此,海量数据存储系统也一定要有相应等级的扩展能力,同时要做到存储系统的简便。目前LSI公司的Nytro智能化闪存解决方案可将数据库事务处理性能提高30倍,并且超过每秒4.0GB的持续吞吐能力,十分适合大数据分析。
安全问题:如果说大数据是高速行驶的汽车,那么云计算便是承载汽车的高速公路。什么是云计算?云计算是一种按使用量计费的提供可用、便捷、按需的网络访问。这种网络访问进入可配置的计算资源共享池(包括网络,服务器,存储,应用软件,服务等)去快速获取所需资源。然而,云计算一直以来存在着很多争议,其中最显著的便是安全性能得不到保障。某些特殊行业比如金融、银行、政府等敏感资料汇集的机构,有待加强此类安全问题。2011年,索尼的PlayStation网络和Qriocity音乐服务网站遭到黑客攻击。服务中断超过一周,PlayStation网络7700万个注册账户持有人的个人信息失窃。
除去上述典型的问题之外,大数据在这迅猛发展的几年里仍旧存在些许问题亟待解决,假以时日,相信大数据会正真带领人类进入数据高速运转的世界中。
参考文献:
[1]国双《2013中国互联网发展报告》技术驱动数据分析[R].北京:国双科技成立数据中心,2014.
[2]奥巴马政府发布第二轮大数据研究项目[R].北京:搜狐网,2013.
[3]维克托维克托·迈尔·舍恩伯格.大数据时代{M}.杭州:浙江人民出版社,2012.
[4]IBM连续两年大数据市场占有率全球第一[J].睿商在线,2014.
软件应用和数据处理 篇4
但是,对于小型企业、工作团队乃至个人来说,大型解决方案投入应用的成本相对较高,其中包括软件购买成本、系统部署成本、培训学习成本以及运行维护成本。在某些场合(例如数据利用规模不大、资金有限、建立原型系统确认需求等),往往更需要一种周期短、成本低、高效,而且便捷的方式。因此,从商业智能的通用技术架构中,对照实际需求,提炼关键环节,选择合适的工具,以低成本的方式加以实现,具有一定的实用价值。
一、商业智能系统架构
商业智能系统是多种技术的综合体,通常被理解为将企业中现有的数据转化为信息、帮助企业做出明智业务经营决策的工具。这类系统能够帮助企业迅速地完成数据加工、信息提取和前端展示。在一套完整的商业智能系统架构中,数据经过各阶段加工,通常会依次存放在操作数据库、查询数据库、数据仓库(数据集市)和数据报表中,各阶段数据的处理技术,则主要包括数据预处理(数据清理)、数据建模、报表设计等。
(一)操作数据库
操作型数据库,或称事务数据库,是指一般的关系数据库系统,它是一个相对于数据仓库的概念。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,在性能方面重视增删改等操作的响应速度,在设计方面一般符合第三范式要求,尽量避免冗余,同时确保数据一致。
(二)数据预处理
数据预处理通常也被理解为ETL (ExtractionTransformation-Loading)过程,主要负责将分布的、异构数据源中的数据(如关系数据、平面数据文件等)抽取到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
(三)查询数据库
查询型数据库与操作数据库相比,主要用于存放历史数据,其数据结构比较稳定,库内数据不经常变动;查询型数据表的组织形式主要考虑查询性能要求,往往通过添加视图或索引的方式在查询速度方面进行大量优化。
(四)数据建模
根据分析主题需要,按照多维数据模型对数据进行组织和整理。多维数据模型是为了满足用户从多角度、多层次进行数据查询和分析的需要而建立起来的数据库模型(例如星型模型、雪花模型),这类模型通常将数据组织成一种基于事实(具体数值)和维度(描述信息)的数据立方体。
(五)数据仓库和数据集市
数据仓库也是一个数据库,与一般数据库不同的是,数据仓库包括原子级别的数据和轻度汇总的数据,是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它将各种应用系统数据集成在一起,为统一的历史数据分析提供坚实的平台。数据集市一般可以理解为数据仓库的一个子集,是一种小型的部门或工作组级别的数据仓库,它主要面向局部业务,并且只面向某个特定的主题;数据集市存储了为特定用户预先计算好的数据,从而满足性能需求,在一定程度上缓解数据仓库的访问瓶颈。
(六)报表设计
通常使用各类BI前端展示工具,基于仓库/集市数据,按照分析需要设计报表格式,然后进行发布(通常发布到网页);所生成的报表可以仅仅是一个数据读取框架,也可以是包含数据的完整报表。
(七)联机分析处理
联机分析处理(OLA P, On-Line A naly tical Processing)是共享多维信息的、针对特定问题的联机数据访问和分析技术,它允许管理决策人员对数据进行多个角度的深入观察。OLAP的基础是多维数据模型,在一份基于多维数据模型的报表上,用户可以对数据进行上卷(roll-up)、下钻(drill-up)、切片(slice)、切块(dice)、转轴(pivot)、钻透(drill-through)等操作。
二、轻量级系统架构
(一)BI架构轻量化
上述系统架构是商业智能应用的通用架构,事实上,并非每个企业的BI应用都必须具备以上步骤,而且在每个步骤的具体实现方式上也不尽相同。纵观BI系统结构的各个部分,操作型数据和分析报表分别是数据的初始形式和目标形式,是任何BI过程都必须具备的,而在实现这两种数据形态的转换过程当中,数据预处理和报表设计必不可少,把这两个处理阶段提炼出来,略过数据仓库和数据建模环节,寻找低成本实现工具,即可实现BI架构的轻量化。这种简化的BI系统结构往往适合中小规模的数据分析应用。
(二)实现工具选择
1.Kettle
这是一款国外开源的ETL工具,纯Java编写,可以在Window, Linux, Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中文名称叫水壶,顾名思义该软件的开发者希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle是一个ETL工具集,允许管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述用户想做什么,而不是用户想怎么做。Kettle中有两种脚本文件,Transformation(转换)和Job(作业),Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。
2. Excel数据透视表
数据透视表是一种交互式工作表,专用于数据的分析和多维展示,它将排序、筛选和分类汇总3项功能结合起来,对数据清单或外来的源数据重新组织和计算,以多种不同的形式显示出来。之所以称为数据透视表,是因为可以动态地改变它的版面布局,以便按照不同方式分析数据,也可以重新安排行字段、列字段和页字段。每一次改变版面布局时,数据透视表会立即按照新的布局重新计算数据。另外,如果原始数据发生更改,还可以更新数据透视表。
三、实例分析
(一)案例背景
一家专门生产体育用品和户外用品的公司,在经过业务处理信息化后,形成适合日常销售经营的一系列数据表,包括订单表(Order)、订单细节表(Orderdetl)、产品信息表(Product)、客户表(Customer)、客户地址表(Custsite)表、地区表(Country)、分支机构表(Branch)、销售员信息表(Rep)。
该公司将业务数据存放在一个名为SPORT的Access数据库中,公司的销售部门希望结合产品、销售渠道、销售员、客户和地区等信息,对销售情况进行一个组合分析。
(二)设计分析
SPORT数据库基于关系模型和数据库第三范式规则,数据表的设计旨在符合业务需求、保证操作性能,同时确保数据最低冗余和高度一致。然而由于基本信息存在于多个字典表中,数据表之间的外键指向关系复杂,并不利于查询统计。因此应当根据销售部门的分析需求,将相关字段信息集中起来,存放于Excel工作表中,然后基于这些数据创建数据透视表实现组合分析。
(三)数据预处理
根据公司数据表结构以及分析需求,以Orderdet(订单细节)表和Order(订单信息)表为核心,将其中的外键字段“映射”为具体信息,然后将分析所需字段筛选出来,形成查询表。
1.建立数据源
(1)启动Kettle,新建“转换”,在“主对象树”中新建一个转换(Transformation);新建后“核心对象”中会列出Kettle可供使用的各种丰富的功能步骤,如图1所示。
(2) 新建数据库连接, 在“主对象树”目录中新建一个关联到SPORT的数据库连接, 如图2所示 (在此之前SPORT数据库必须先添加到ODBC数据源) 。
2. 设计流程
在“核心对象”中选取“输入Access”、“数据库查询”、“排序记录”、“Merge Join”、“字段选择”、“Excel Output”这几个对象,进行本案例的数据处理。流程中各对象的作用和设置如下介绍。
(1) Access输入,分别输入Orderdetl和Order两个数据表,指定SPORT数据库(如图3a所示),指定Orderdetl表(如图3b所示),指定字段(如图3c所示)。
(2)数据库查询,其作用是查询相关字典表,将Orderdetl和Order表中的外键ID映射成具体数值。以Orderdetl表的PROD_NO字段为例,数据库值查询对象通过把Orderdetl表中的外键PROD_NO和Product表中的主键PROD_NO关联起来,将具体的产品信息,通过扩展字段的方式,添加到Orderdetl表中。对Order表中的营业员、客户和地址信息ID字段的处理方式也类似,
如图4所示。
(3)记录排序,对Order和Orderdetl两个输入数据流,按照共同的ORDER_NO字段进行排序,以提高后续数据合并的处理效率和一致性,如图5所示。
(4)关联组合,以Orderdetl表为主,以ORDER_NO为关联字段,通过左外连接的方式将两组数据流合并起来,如图6所示。
(5)字段选择,经过上述步骤,数据流已经汇聚了多个数据表的信息,字段选择的目的就在于挑选分析所需要的字段,然后将字段名改为通俗易懂的中文名。
(6) Excel Output,数据流经过重重组合和筛选后,最终结果被输出到一个名为“组合分析”的Excel工作表中。
输出结果如图7所示。
(四)数据更新
定制一个“作业”调度流程,该作业运行后,最新数据就会以之前设计的“转换”为规定动作,定时从SPORT库更新至Excel工作表中。在“主对象树”的“Jobs”目录中新建一个“作业”,在作业的“核心对象-通用”目录下选取“Start”和“Transformation”两个对象。
Start用于设置调度信息,本案例将数据更新设为每天12点开始。Transformation指定之前所创建的“数据预处理”转换,按照Start的调度计划定期运行这个转换。
(五)数据分析
经过预处理,数据已经符合分析需要并存放在一个Excel工作表中,可以很方便地创建所需要的数据透视表。
1. 建立数据透视表
以Excel2010为例,在“插入”菜单中,选择“插入数据透视表”,选定数据透视表的数据源范围和透视表的位置。
2. 设计透视表
公司销售部门现需要得到一张展示各个地区、各类产品通过各种渠道的销售情况分析表。在数据透视表框架中,依次将“产品系列、产品类型、产品名称”拖动到“行标签”,将“国家”拖动到“报表筛选”、将“销售渠道”拖动到“列标签”,将“数量”拖动到“数值”。对报表格式进行微调,然后将“数量”从计数项修改为求和项,从而形成最终报表,如图8所示。
(六)实例小结
软件应用和数据处理 篇5
什么是数据恢复软件?数据恢复软件是用来找回硬盘、U盘等存储设备丢失数据的软件。通常来说,使用数据恢复软件可以解决多种情况下出现的数据丢失问题,包括硬盘故障、人为误删除、系统中毒导致的数据丢失问题等。
使用数据恢复软件进行恢复,属于自助恢复的一个部分。相对于请专业的数据恢复公司来恢复数据,借助数据恢复软件自助恢复数据可以节省更多的时间和金钱。尤其是对于一些价值不是太高,较为普通的数据丢失问题,使用数据恢复软件仅仅只需要几分钟就可以处理完成了。
简单来说,使用数据恢复软件自己恢复数据的优点比较明显,总结起来如下: 操作简单,功能全面。我们以专业的数据恢复软件为例,其操作通常都是非常简单的,主体功能可以恢复常见的数据丢失问题。节省时间和金钱。普通用户不需要拆机、拆硬盘,就可以使用数据恢复软件处理找回丢失的数据。对于电脑小白来说,非常省心。安全可靠,不需要担心数据泄密。目前市面上有些数据恢复公司缺乏严格的信息保密措施,交付不专业的数据恢复公司,很难保障数据的安全。自己采用数据恢复软件动手恢复,安全可靠,不必担心信息泄露。
那么我们应该如何选择一款数据恢复软件呢?我们认为,数据恢复软件是否专业、是否足够安全以及是否简单易用,是衡量其好坏的标准。简单归纳一下: 是否专业:专业的数据恢复软件应该具备优秀的数据复原能力,能够最大限度帮助用户找回丢失的数据。
是否足够安全:好的数据恢复软件还应该能够在处理的过程当中,保证存储设备上的数据安全,不损坏原有的数据。尤其是要尽可能保证恢复出来的文件、数据等,可以继续正常的使用。
是否简单易用:毕竟软件面向的是普通用户,因此软件操作的便捷程度对于用户来说非常重要。很多国外软件功能看起来似乎非常强大,但是复杂的设置项,繁琐的操作,令用户望而却步,还容易出错,很容易影响数据恢复的效果。
功能的强大与否是数据恢复软件非常重要的一个考量标准。我们以顶尖数据恢复软件为例,软件可以恢复以下几种情况的数据: 误删除文件 2 误格式化硬盘 U盘手机相机卡恢复 4 误清空回收站 5 硬盘分区恢复
我们可以看出,上述的五大功能就已经覆盖了大部分的数据丢失问题了。不过,顶尖okRecovery数据恢复专家也建议,如果用户不清楚数据恢复的方法和步骤,不熟悉软件的操作,尤其是没有阅读软件的使用教程,千万不要盲目操作。原因在于,数据恢复需要确保数据存储环境的可靠性,盲目操作将有可能恢复导致数据被二次破坏,或者被覆盖,一旦发生上述情况再强大的数据恢复软件也不足以恢复完整的数据出来。
但即便再强大的数据恢复软件,面对被覆盖的数据、被二次破坏的文件也都没有很好的处理方式。所以,选择优秀的工具的同时,也需要有正确的操作方式。
另外,如果你的数据价值非常大(例如企业数据资料),那么建议一定要在了解操作的基础上进行恢复。或者直接向专业的数据恢复专家沟通,取得安全可靠的数据恢复方案。
顶尖数据恢复软件工程师建议,如果发生数据丢失之后盲目操作,将很有可能造成永久性的数据损毁,导致所有数据不可恢复。所以,在我们动手恢复数据之前,有必要了解下哪些事情需要特别注意: 禁止向存储设备当中存放新的数据。假如你U盘当中丢失了文件,那么在恢复之前就一定不要再往U盘里面存放新的文件了。原因是新的文件数据将会覆盖原有的丢失文件数据,也就是前文提到的数据覆盖。避免盲目测试和使用不同的恢复工具。有的用户认为数据恢复软件越多越好,其实在你不断地安装和卸载软件的过程当中,也一样会产生数据。这些数据是否会覆盖你之前的文件数据很难说,所以最好的选择是不做。选择一款优秀的数据恢复软件就足够了。
停止使用存储设备更佳。例如你误删除了数码相机存储卡里面的照片,那么在恢复出这些照片之前,最好就不要在利用该数码相机进行拍摄了。原因同上。不要反复地重启系统。反复地重启系统将会导致数据写入和数据干扰,这对于后期数据恢复的完整性会造成一定的影响。绝大多数情况下,用户反馈恢复出来的文件不完整的原因,多数都是因为数据的完整性受到了影响。假如硬件发生故障导致数据无法读取或者丢失,那么最好的办法是送修。如果你能够
软件应用和数据处理 篇6
关键词:数据仓库;数据挖掘;数字化校园
中图分类号:TP274文献标识码:A文章编号:1007-9599 (2010) 04-0000-01
Digital Campus Application&Study against Data Warehouse and Data Mining Technology
Wang Yanpin1g,Wang Xiaoting2,Chang Xianfa2
(1.Heyuan Technology College, Heyuan 517000,China;2.Kaifeng University,Kaifeng 475004,China)
Abstract:Combine the data source of the digital campus, give an architecture map of digital campus which is based on data warehouse environment, focus on the digital campus data warehouse logical model design, And the data mining algorithm apply to the digital campus, provide the decision support information for university administrators
Keywords:Data warehouse;Data mining;Digital campus
一、引言
高校数字化校园数据主要存储在关系型数据库中,这些系统中,大量的数据和数据模型,都是反映历届学生的学习成绩和教师的教学任务以及教学计划。随着高校对决策信息需求的日益广泛、复杂和迫切,这些传统的数据库系统存在的问题也越来越明显。本文利用数据仓库和数据挖掘技术在数字化校园中应用进行了研究。
二、数字化校园数据仓库体系结构设计
在对数字化校园各个子系统进行深入调研和需求分析的基础上,针对数据仓库的三个基本功能,提出了一个集中式数据仓库(数字化校园数据仓库)、分布式数据库(各个部门数据库)等适合数字化校园的数据仓库体系结构,如图1所示。
该系统由五个部分组成:
(一)数据源:来源于操作性数据库,其主要是完成日常业务处理,其数据将成为数据仓库的数据源。
(二)多数据源集成:将来自于不同数据源(SQL、Oracle等)的数据通过数据转换服务进行导入。
(三)中心数据仓库:在已有业务系统的基础上,通过数据的抽取、转换、加载,建立数字化校园数据仓库。
(四)OLAP分析服务器:通过建立OLAP分析服务器,从数据仓库中提取数据,完成数据的统计和分析。
(五)决策支持工具:是面向用户的数据需求的前端服务,支持各种OLAP和DM操作。
三、数字化校园数据仓库逻辑模型设计
在学生等级事实维表中存储七个维表,通过这几个维表的主键,将事实表和维表连接在一起,形成星型模式用二维关系表示数据的多维概念建立星型模型后,通过维表的主键,对事实表和每一个维作连接操作,其模型如图2如示。
四、数据挖掘算法在数字化校园中应用分析
针对学生等级多维数据集,把平均成绩、借书次数、平均消费、学生等级、家庭出身既作为输入列又作为可预测列,分析处理后可得到如图3所示学生等级一层决策树模型。
在学生等级表中,所有事例为4925,其中学生等级为C的事例最多,为1726例,可能性为35.04%;学生等级表现为A的有495例,可能性为10.05%;学生等级表现为B的有1478例,可能性为30.01%;学生等级表现为D的有983例,可能性为19.95%;还有学生等级表现为E的极差事例有243例,可能性为4.93%。在这一事例图中,我们可以看到PJCJ是决定XSDJ最重要的因素,在高校教育中,抓学生成绩才是教学的关键所在。
五、结束语
采用DW+DM框架结构的决策支持系统是一种比较理想和完善的架构,该系统功能齐全、性能稳定,能对数据进行快速和准确的分析,从而帮助高校管理者做出更好的决策,提高高校管理效率,对数字化校园的利用具有一定的实用性和参考价值。
参考文献:
[1]Zhao Hui Tang,Jamie Maclennan.数据挖掘原理与应用[M].邝祝芳,焦贤龙,高升.北京:清华大学出版社,2007:25-26
[2]木根.数据仓库技术与实现[M].北京:电子工业出版社,2002
[3]王艳萍,常贤发.基于数据仓库的数字化校园的设计[J].电脑知识与技术,2009,12
[4]薛红,王敏.基于DW+OLAP+DM的超市销售决策支持系统[J].计算机工程,2007,33:14
[5]王成,李民赞.基于数据仓库和数据挖掘技术的温室决策支持系统[J].农业工程学报,2008,11
数据交换格式的研究和应用 篇7
随着计算机技术的日益发展,网络上不同格式的数据迅猛增长。若想实现数据的共享和交互,就必须进行数据交换。数据交换是指不同计算机应用系统之间相互发送、传递有意义、有价值的数据。它广泛存在于电子政务、电子商务、网上出版、远程服务、电子书籍、信息集成、信息咨询以及合作科研等多个应用领域。数据交换是实现数据共享的一种技术,可以实现各系统间的数据共享、互联互通。
2. 常见的数据交换格式
数据交换的核心问题是信息的标准化,主要解决信息的可理解性问题,包括人和机器对信息的理解。而更重要的是机器对信息的识别,并能根据数据进行自动处理。在数据交换系统中,如果没有数据交换中间标准,相同的数据分析、处理模块将在很多应用中被重复地撰写,代价是高昂的;如果没有统一的交换标准,昂贵的数据交换代价使得数据源只能散乱孤立地存在,在绝大多数的应用领域里都是如此。只有采用统一的数据交换格式,才能实现数据的自动流转、处理等功能。因此,数据交换的关键是实行数据交换的双方必须建立一个统一的数据传送格式标准,为数据交换的进行铺设一条畅通的道路。下面介绍两种目前最为常见的数据交换格式:分别是XML与JSON。
(1)XML
XML[1](Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是标准通用标记语言。Xml是环境中跨平台的、依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。
(2)JSON
JSON[3](Java Script Object Notation)是一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成。这些特性使JSON成为理想的数据交换语言。
尽管XML这种用于表示客户端与服务器间数据交换的格式几乎已经成了Web services的同义词。然而,由于AJAX技术的出现影响了应用程序架构,JSON作为一种更轻、更友好的Web客户端的格式引起了Web服务供应商的注意。
(3)JSON与XML的比较
1)可读性
JSON和XML的可读性可谓不相上下,一边是建议的语法,一边是规范的标签形式。
2)可扩展性
XML天生具有很好的扩展性,JSON也一样,没有什么是XML能扩展,JSON不能的。
3)编码难度
XML有丰富的编码工具,比如Dom4j、JDom等,JSON也有json.org提供的工具,但是JSON的编码明显比XML容易。
4)解码难度
XML的解析得考虑子节点父节点以及相应属性,而JSON的解析难度相对要低很多。因此JSON在解析的难易度方面的优势很大。
3. 应用实例
(1)用DOM4J解析XML实例
DOM4J是dom4j.org出品的一个开源XML解析包,用于XML,XPath和XSLT。它应用于Java平台,采用了Java集合框架[5]并完全支持DOM,SAX和JAXP。
下面给出DOM4J解析XML的过程。
1)读取并解析XML文档
读写XML文档主要依赖于org.dom4j.io包,提供DOM Reader和SAXReader两类不同方式。
2)取得Root节点
读取后的第二步,就是得到Root节点。
3)遍历XML树
DOM4J提供至少3种遍历节点的方法,下面以枚举的方式为例说明。
1)枚举(Iterator)
(2)获取并处理JSON数据实例
结合本人在实际项目开发中的例子来说明JSON的使用。其中一个功能是用来查询当前客户的余额。余额信息是保存在远程服务器上,有专门的接口地址可供客户端请求调用,而客户使用的是本地客户端。因此就涉及到一个远程数据交换的问题。此时JSON是处理这种问题的很好的方式。
请求地址如下:http://service.qepad.com/query/balance/feiyond/。
其中feiyond为用户名,即请求该用户的余额信息。使用Http Client向远程web服务器请求数据并获得返回的JSON数据,即为余额信息:
{“msg”:“ok”,“balance”:“94.09”,“code”:““,”result”:“1”}。其中msg为事物类别,balance为余额,code为编码信息,result为1时表示查询成功。
下面是获取并处理JSON数据的过程。
1)入JSON包,可以在http://www.json.org下载。在使用JSON类前,通过import指令引入JSON相关类。
import org.json.JSONArray;
import org.json.JSONException;
import org.json.JSONObject;
2)定义一个余额查询类以及相应的成员变量来保存json数据。
3)通过JSON包提供的方法将JSON数据分别存储在余额查询变量中。其中resultjson为将JSON数据转换为string类型的对象。
下图为某一用户消费记录的查询结果。
4. 结论
时至今日,XML这种标记语言已经在广阔的软件应用领域中占据了主导地位。从Java、.NET等主流平台中的配置和部署描述符到应用集成场景中更复杂的应用,XML与生俱来的语言无关性使之在软件架构方面占据着独特的地位。然而,由于Ajax和REST技术的出现影响了应用程序架构,因此JSON便应运而生。本文介绍了XML和JSON两种数据格式优缺点并给出了相应的应用实例,有关更深入的应用还有待进一步的学习和研究。
参考文献
[1]古凌岚,罗佳.XML技术及应用[M].北京:中国水利水电出版社,2008.
[2]阿斯利森,舒塔.Ajax基础教程[M].金灵译.北京:人民邮电出版社,2006.
[3]杨树林.JSON数据交换及其在数据验证中的应用[J].北京印刷学院学报,2008,16(4):56-58.
[4]张涛.一个基于JSON的对象序列化算法[J].计算机工程与应用,2007,43(15):98-100.
对大数据应用的认识和思考 篇8
1 大数据相关术语
1.1 大数据产业
大数据产业包含大数据直接相关的软件、硬件及专业服务,大数据市场规模的计算口径,相应的包含大数据软件、硬件及服务的直接产值,不含大数据应用产生的附加值。
1.2 大数据软件
大数据软件主要指以Hadoop或spark为基础的新型发布数据平台软件,以及基于平台软件的应用软件。
1.3 大数据服务
大数据服务主要包括数据分析公共与服务以及大数据系统相关的咨询、设计和系统集成服务等。
1.4 大数据硬件
大数据硬件是企业购买的指用于支撑在企业内部部署的大数据软件,主要包括服务器、网络设备和存储设备等。大数据系统一般使用硬件技术上并无特殊性,也有少量专用优化过的一体机设备。
2 大数据市场规模和结构
2.1 大数据市场规模
2014年中国大数据市场规模约为84亿元。主要由基于Hadoop、spark的大数据软件产值、用于承载大数据应用的硬件产值、以及大数据相关的专业服务产值三部分构成。2015年中国大数据市场规模达到115.9亿元,增长38%。预计2016年至2018年中国大数据规模将推持40%左右的高增长。
2.2 大数据市场结构
从大数据市场构成来看,2014年大数据软件产值达35.6亿元,占比重最大,约占42%;硬件产值达28.5亿元,约占34%;服务产值为19.9亿元,约占24%。与国外市场构成相比国内软件占比明显偏高。这主要是由于国内客户更愿意接受软件版权费,而国外则更多的以收取服务费方式支付费用。
3 大数据应用
3.1 对大数据应用的认识
从各种调研结果显示,受访对象对于大数据应用的能力对企业业务的重要程度认知基本一致,95%以上认为不可或缺或锦上添花,只有少数人认为可有可无或不清楚。
3.2 大数据应用的现状
调研结果显示,受访企业中有超过44%没有大数据平台部署和大数据应用,24%的企业已经开始部署大数据平台但还未实现应用,32%的企业已经实现了大数据应用;其中,大数据应用水平较高的行业主要分布在互联网、电信、金融行业,一些传统行业的大数据应用发展较为缓慢,批发零售业甚至有超过80%的企业并没有大数据应用计划,但较为乐观的是在大数据应用变化情况调查中,95%的企业大数据应用较上一年呈增长态势。
3.3 大数据应用带来的效果
在大数据应用效果方面,已经进行了大数据应用的受访企业一致将提升运营效率,实现智能决策和更好的管理风险视作最明显的应用效果。其次在降低运营成本创造新的业务收入和提升客户满意方面也有着不同程度的应用效果。
大数据也不断被应用到政府日常管理和为民服务中,并成为推动政府政务公开、完善服务、依法行政的重要力量。从户籍制度改革,到不动产登记制度改革,再到征信体系建设等等都对数据库建设提出了更高的目标要求,而此时的数据库更是以大数据为基础的,可见,大数据已成为政府改革和转型的技术支撑杠杆。
4 大数据平台
4.1 大数据平台建设模式
自建大数据指的是购买大数据相关产品或解决方案,在本地建设大数据相关基础设施、存储和计算平台、分析已具和应用展示等。采购公共云服务指的是购买某一家大数据云服务提供商所提供的在线大数据服务。
国内企业的大数据平台建设模式以自建私有云为主。有超过60%的受访企业已经或计划通过以自建私有云的方式塔建大数据平台,只有37%的企业已经或计划购买云服务的方式建设大数据平台。
4.2 选择大数据产品的考虑因素
企业在考虑选择大数据产品时都把产品的安全性放在首要地位,可见对于大数据产品使用态度较为谨慎。接下来是产品稳定性、售后服务的及时性和产品易用性,相对来说放在次要考虑位置的是产品可扩展性。产品性价比,产品的成功案例等。
5 政策需求和资源需求
5.1 大数据发展的政策需求
政策环境对于大数据发展至关重要,企业对于各种政策的期望也有所侧重。最多的企业希望政府能够自主更多大数据领域的科研项目;随后是开放更多政府公开信息资源和促进数据交易流通;个人数据保护和加大政府采购力度也成为企业关心的因素之一。
5.2 企业对大数据资源的需求状况
企业对于大数据来源的领域有不同期望,据调查,企业信息公开成为最大诉求,随后是社会保障数据、教育科研数据、施政管理数据、劳动就业数据,一些专业数据的需求相对较少,包括交通服务、医疗健康、食品药品、气象环境等。
随着大数据的发展,企业也越来越重视数据相关的开发和应用,从而获取更多的市场机会。一方面大数据能够明显提升企业数据的准确性和及时性;另一方面还能够降低企业的交易摩擦成本;更为关键的是,大数据能够帮助企业分析大量数据而进一步挖掘细分市场的机会,最终能够缩短企业产品研发时间、提升企业在商业模式、产品和服务上的创新力,大幅提升企业的商业决策水平,降低了企业经营的风险。
总之,企业界对于大数据及大数据人才的需求已形成一个市场,我们高校作为教育部门来说,应该责无旁贷的去满足这种需求。我们要在校企之间互相改造、互相促进,要让企业看到希望。没有相关人才,这些大数据应用都是空话,因此当下需培养一批大数据人才,以满足企业大数据应用的需要。
摘要:2014年是中国企业级大数据市场的起步之年,经过两年的探索与准备,国内一些电信和金融等行业用户开始部署大数据平台与应用,带动了软件、硬件和服务市场的发展。但由于政策法规的滞后性,数据跨部门、跨企业、跨行业甚至跨领域流动的需求有所禁锢,使得政策限制成为了摆在我国企业大数据应用面前的最大障碍。因此,如何通过技术手段获取高质量的数据是企业面临的重要问题。
关键词:大数据,企业,服务,资源
参考文献
[1]周正.大数据时代来了[N].解放军报,2013.
软件应用和数据处理 篇9
物理实验是高等学校学生进行科学实验基本训练的一门独立的必修基础课程, 其宗旨就是通过实验使学生受到标准的、系统的实验技能培训, 培养学生严谨的科学思维和创新设计能力、理论联系实际能力以及分析和解决实际问题的能力, 为激发学生科技创潜能打下坚实的基础[1]。物理实验中数据处理是实验的重要环节, 采用数据处理软件如Excel和Origin处理实验数据, 具有操作简便、快捷、直观, 准确程度高等优点。目前国外一些大学的学生已大量使用各种数据分析软件处理物理实验数据。而国内这种做法还未普及, 笔者在多年的教学中发现, 目前大多学生仍采用传统的数据处理方法处理实验数据, 如用计算器或手工计算、手工绘图等。这些传统的数据处理方式效率低下, 处理结果错误百出。本文以物理实验数据处理中常见的线性系数和标准差计算为例, 详细说明Excel的数据处理功能。以绘制铁磁材料的磁化曲线为例, 说明Origin的绘图应用。
1 线性相关系数的数据计算
1.1 利用Excel表格录入实验数据
原始数据的输入非常方便, 只要用鼠标点击相应的单元格, 就可以直接输入数据。如果有多位小数, 先用鼠标选定要输入数字的单元格, 再单击鼠标右键, 选择“数字”页面, 点击数值选项, 在“小数位数”选择框中输入你要设定的位数[2]。已知两变量满足线性关系, 且测得的五组数据如表1所示。
1.2 辅助变量的计算
根据最小二乘法公式, 需要计算一些辅助变量如平方、乘积和平均值等, 需建立表2。
①求xi2和yi2的平方。先在D2单元格里面输入平方函数“=power (B2, 2) ”按回车键确定, power为计算乘幂的函数。然后选定D2单元格按住鼠标左键向下拉, 即可求出余下xi2。依次类推, 求出yi2。
②求xiyi。在F2元格里面输入乘法函数“= (B2*C2) ”按回车键确定。然后选定F2单元格按住鼠标左键向下拉, 即可求出两变量的乘积。
③求各变量的和。先在B7单元格里面输入求和函数“=sum (B2:B6) ”按回车键确定, 求出变量的和, 然后选定B7单元格, 按住鼠标左键向右拉, 求出右边各项的和。
④求各变量的平均值。在B8单元格里输入平均值函数“=average (B2:B6) ”或者输入“= (B7/5) ”求出x的平均值, 再选定B8单元格按住鼠标左键向右拉, 求出右边各项的平均值。
1.3 线性相关系数R的计算
根据回归系数计算公式, 在表2的基础上添加公式中涉及到的变量计算, 如表3所示。然后在A10单元格里面输入函数“=F8- (B8*C8) ”按回车键确定。在B10单元格里面输入函数“=D8- (B8*B8) ”回车确定。在C10单元格里面输入函数“=ED8- (C8*C8) ”回车确定。最后在单元格D10输入“=A10/ (SQRT (B10*C10) ) ”回车确定, 得到相关系数R的大小, 其中函数sqrt用于平方根的运算。
同样, 求线性拟合直线的斜率a时, 在单元格E10里面输入函数“=A10/B10”确定。求截距b在单元格F10里面输入函数“=C8-E10*B8”确定即可, 最后得到回归方程为y=0.326x+34.6。
线性系数的计算是实验中较难的数据处理之一, 如果用手工或计算器计算, 可能要花3-4个小时的时间, 而且很容易出错。用Excel处理, 则最多花半小时时间, 而且准确程度高, 即使算错了, 也容易发现和改正错误, 这样大大地节约了学生的时间, 提高了他们的学习效率。
2 标准差的数据处理
对某物体宽度进行10次等精度测量, 测量数据如表4。求测量值的随机误差 (标准差) 。
根据标准差计算公式, 需要计算辅助量偏差和偏差的平方值, 建立如表5所示的表格。
最后根据标准差的计算公式, 在单元格里输入函数“=sqrt (sum (B4:G4) /5) ) ”回车确定即可快速求出测量列的标准差的大小为1.18cm。
3 应用Origin软件画图
与Excel相比, Origin具有强大的数据分析和绘图功能, 能满足线性拟合直线、多图线分析比较等方面的需要。而且该软件操作简单, 并能打开Excel表格并对其中的数据进行分析[3]。下面通过绘制电磁铁的磁化曲线简要介绍Origin画图。
3.1 安装Origin软件
打开Origin, 在表格中输入实验数据。同时还可以在黄色区域栏注明坐标值名称和单位。如图1所示。
3.2 用Origin绘制电磁铁的B-I图线
在Origin窗口下方有多图线类型, 如:然后根据作图需要选择绘图类型。如果点击窗口按钮, 选择点-线图线类型, 则得到如图2所示的点线型B-I图线。
在窗口中点击坐标轴, 能对坐标轴的标度, 坐标轴起始范围等参数进行修改。在Origin的菜单里还提供了强大的图形分析功能, 对于普通物理实验来说, 只要掌握画图和对图线简单的线性拟合等即可满足要求。
3.3 在Origin中打开Excel表格
Origin的另外一个好处是能对Excel表格中的数据进行绘图和数据分析。步骤如下:打开Origin软件, 点击“文件”→“打开Excel”, 此时屏幕弹出文件打开对话框, 如图3所示。
点击相应的表格, 这样就能对Excel中的数据进行数据处理和绘图。
4 结束语
应用Excel和Origin软件处理物理实验数据, 简便易学, 不仅大大提升了学生的学习效率, 提高了学生的学习兴趣和数据处理能力, 而且对于学生知识结构的优化、创新能力和素质的培养、教学内容的现代化等方面都有十分重要的意义[4]。
参考文献
[1]周政, 陈明东, 张荣锋.大学物理实验[M].广州:华南理工大学出版社, 2009.
[2]陈玉林, 丁留贯, 张磊.基于Excel的物理实验数据处理[J].大学物理实验, 2007, 20 (2) :74-76.
[3]刘芬, 王爱芳, 孙大鹏等.Origin软件在大学物理实验数据处理中的应用[J].实验科学与技术, 2010, 8 (1) :19-21.
数据分析软件的设计和实现 篇10
关键词:航空,类,数据分析
航空设备数据分析一直是一个难题,因为数据按ICD协议上传,需要转化为可读数据才能分析设备的运行状态。但是设备的上传速率一般在毫秒级,所以设备运行一个小时可以输出上百兆的数据,人工分析这些数据费时费力且错误率高,容易错过关键数据。
针对这种情况,作者设计了一种专门分析设备上传数据的软件(简称数据分析软件)。使用数据分析软件处理百万行的数据只需要不到一分钟的时间,而且该软件可以将数据制成曲线,可以更容易地捕捉到关键数据。
1 数据分析软件
数据分析软件包含两个模块 :数据转换模块和数据绘制模块。
1.1 数据转换模块
(1) 时间类
航空设备上传的数据一般以时间为基准,因此数据转换时需要保留原始数据的时间信息,这样才能将数据绘制成以时间为X轴的曲线。基 类Time继承了IComparable接口,所以Time类重载了“!=”,” <”, “>”,”==”四个操作符,这样Time类的对象之间可以比较大小,所以转换后的数据可以按时间前后排序。
(2) 数据类
在数据分析软件中,数据是以行为单位的,每一行数据有多个域,不同行数据的域名相同,域内的数据不同。数据行类定义如图2 :
Data Line的对象代表一行转换后的数据,To String接口可以 将Data Line里存储的数据以文本的形式输出。Data Line是一个抽象类,需要用他的子类实例化对象。由图可见,MLSData集成了Data Line类,在成员变量中加入了一个MLSTime的对象 _time用以表示该行数据的上传时间,并且可以用Compare To接口比较两个MLSData对象的时间先后。其实MLSData的Compare To接口只是调用了成员变量 _time的Compare To。
(3) 翻译器类
翻译器实现的功能是将一行原始数据转换为可读数据。Translator是一个抽象类,其中定义了一个抽象函数Translate,这个函数有一个类型为String的形式参数data,并返回一个Data Line类(或其子类)的对象。其中data表示一行文本格式的原始数据,返回值Data Line表示转换后的数据。当需要分析按新版本ICD协议上传的数据时,只需创建一个新的Translator子类,并按ICD协议重写Translate函数即可。
1.2 数据绘制模块
数据绘制模块类关系如图2 :
父类Data Drawer是一个抽 象函数,他实现了 绘制曲线 的一些基 本功能。子类MLSDrawer集成了Data Drawer的基本功能,并添加了数据段放大功能。MD_Warning Line添加了告 警线的显 示功能,分析人员可以清晰地看到数据告警的位置,并针对该段数据进行分析。Multi Line Dawer V2添加了多曲线绘制弄能,可以将多组数据的曲线绘制在同一坐标系内,让分析人员可以进行多组数据间的交叉比对。
2 结束语
软件应用和数据处理 篇11
Glow 是Paypal创始人之一Max Levchin的最新创业项目,已于8月初在iOS上发布,并获600万美元融资。它根据收集跟怀孕相关的身体信号,由此推算出最佳受孕时间。同时,它还会做服用怀孕综合维生素等有利于受孕的提醒。值得一提的是,它可以同时在夫妇二人的手机上使用,并且所有的提醒都同步到二人日历上。
除了会采纳医学专家的建议外,它最重要的一个预测依据是数据分析。它的数据来源广泛,包括用户数据、已有的行业内数据和一些试用者。Levchin表示,随着使用者数量的增多,Glow的预测将会更准确。
其实,很多健康领域的创业公司都看到大数据这个方向,但往往到这一步就停住了,而Glow 最有借鉴意义的一点在于Glow First基金。
数据显示,17%~18% 的妇女都曾因受孕困难寻求过医学帮助。但在美国很多地区,这种治疗都被视为选择治疗,并不在医疗保险覆盖范围内。因此,一旦选择助孕治疗,花费通常高达上万美元。Glow First正抓住了这一机会。
它的运作方式很简单:受孕困难的夫妇先申请基金的使用资格,一旦被批准,则每月往这笔基金内存入50美元,连续10个月。如果10个月后,Glow 还没能帮他买成功受孕,这个基金则会资助后续的检查和治疗。据Mike Huang介绍,资助金额将在2~4万美元之间。如果成功怀孕了,他们所存入的钱则会被用于对其他用户的资助。
显而易见,所谓基金,其实已经是保险的本质。用CEO Mike Huang的话说,“我们希望它能成为世界上最受人欢迎的保险。” 传统保险业被认为是受大数据影响最大的行业之一,因为大数据的本质是解决预测问题,而保险业经营的核心也是基于预测。大数据对保险业而言,既是机遇,也是挑战,Glow First 正抓住了这个机遇。在不被传统保险业覆盖的领域,它利用大数据和互联网,创造了新的想象空间。
对于正处于摸索阶段的互联网医疗来说,这也是一个值得关注的方向。对目前健康医疗领域的各种“量化自我”类软件和硬件来说,目标都是真正给人带来帮助,但却力不从心。其中有两个主要掣肘,一是政策,二是技术水平。
“横在互联网医疗前面的一条线叫FDA”,说这话的是神念科技中国区总裁张彤。神念科技是硅谷的一家硬件创业公司,项目包括生物电传感芯片,它能测量人的完整心电图。据张彤介绍,它的测量结果已经跟医院所使用的心电图一样,但仍不能取代传统医疗服务。因为在美国,对医疗用品的监管非常严格。在中国,也同样面临政策上的限制,这使得互联网企业很难直接在传统医疗领域取得突破。同时,受制于技术水平,传统医疗服务不可能被取代。Glow CEO Mike Huang 建议人们在使用Glow之外,还要参考专业医师建议。
软件应用和数据处理 篇12
一、数据仓库、数据挖掘与CRM的概念
1、数据仓库
数据仓库 (Data Warehouse) 是一种新型的数据存储和组织技术, 数据仓库中的数据包含基本数据、历史数据、综合数据和元数据。这些数据不是大量数据的堆积, 而是将大量用于事务处理的传统数据库数据进行清理、抽取和转换, 并按决策主题的需要进行重新组织的结果。数据仓库为数据分析、提供高质量的数据源, 便于用户从大量数据中提取各自的辅助决策数据和信息。简言之, 数据仓库就是为方便数据分析、挖掘, 对现有数据库系统中的数据进行集成和重组而形成的数据集合。数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一的用户接口, 为企业构建一个统一的、集成的数据平台。
2、数据挖掘
数据挖掘 (Data Mining) 是一种新的信息处理技术, 是目前国际上数据库和信息决策领域的前沿研究方向之一。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1], 这些信息或知识的表现形式为:规则、概念、趋势、规律及模式等。数据挖掘可以帮助决策者分析历史数据及当前数据, 并从中发现隐藏的关系和模式, 进而预测未来可能发生的行为, 作为企业进行决策的依据。从这个定义我们可以看出:首先数据源必须是真实的、大量的、含噪声的, 这些数据可以放在数据库、数据仓库或其他信息存储中;其次是发现隐含在大量数据中的用户感兴趣的新知识, 它并不是用规范的数据库查询语言进行查询, 而是对查询的内容进行模式的总结和内在规律的挖掘。传统的查询和报表处理只是得到事件发生的结果, 而数据挖掘则主要了解产生这些结果的原因和规律;最后发现的知识是可接受、可理解、可辅助决策的信息和知识。
3、CRM
CRM (Customer Relationship Management, 客户关系管理) , 是通过收集、加工和处理涉及客户行为的大量信息, 确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求, 进而推断出相应消费群体或个体下一步的消费行为, 然后以此为基础, 对所识别出来的消费群体进行特定内容的定向营销, 提高营销效果, 为企业带来更多的利润[2]。
CRM是一种倡导以客户为中心的管理思想和方法。CRM不仅是一种管理软件和技术, 也是一种管理理念和管理机制, 贯穿于市场营销、销售、服务和技术支持等与客户相关的所有领域, 通过向企业的销售、市场和客户服务的专业人员提供全面的、个性化的客户资料, 并强化跟踪服务、信息分析的能力, 使他们能够发展潜在客户、发现重点客户及保留有价值的客户, 及时准确地掌握业务运作、安全经营、防范风险等信息并迅速做出正确的决策, 以提高企业的利润。
在数据爆炸的今天, CRM与数据挖掘、数据仓库之间有着密切的关系。CRM系统将与客户相关的所有数据结合在一起, 利用数据仓库和数据挖掘等计算机技术, 将营销、销售、服务等操作所累计的大量数据过滤并抽取到数据仓库中, 再利用数据挖掘技术, 建立各种分析模型, 进行决策支持和营销分析, 为企业的销售、客户服务和决策支持等领域提供一个自动化的商业问题解决方案。
电信客户关系管理是通过对电信业务流程的重新设计及相关工作流程的重新组合, 收集、加工和处理与电信客户相关的所有领域的数据, 并以客户和企业双赢为目标, 将数据过滤、组织入数据仓库中, 利用数据挖掘等技术对数据仓库中各种数据信息以及相互之间关联的进行挖掘分析, 从多个方面准确衡量各类客户的忠诚度、满意度、盈利能力、潜在价值、信用度、风险度等关键性指标, 以完善的客户服务和深入的客户分析来满足客户的个性化需求, 从而保障客户价值和企业利润最大化。
二、CRM中数据仓库的作用
当前, 中国电信市场的竞争局面已经形成, 竞争的焦点是客户, 谁能拥有更多的客户, 谁就能在竞争中掌握先机, 得到更大的市场份额。客户是企业生存和发展的根基, 而保持客户、吸引客户和充分发掘客户的价值潜力是企业提高核心竞争力的关键。在这种形势下, 电信运营企业就必须更多地了解客户, 向客户提供个性化的服务, 增强客户满意度和忠诚度。同时由于数据库技术、网络技术的发展及数据库管理系统的广泛应用, 电信企业已经掌握了大量的客户数据, 当前迫切需要的是有效使用这些数据, 透过这些客户的使用通信产品记录来发现新的知识, 将企业的数据优势转化为企业的竞争优势, 于是基于数据仓库的客户关系管理系统就应运而生。
数据仓库技术是CRM的基础。数据仓库是电信企业CRM的中央存储系统, 用来集成和存储详细的客户资料和交易数据等与客户相关的海量数据。系统将各个分散的源数据库系统中与客户相关的所有操作型数据经过清理、集成、选择、转换和加载, 形成数据仓库, 并根据不同的主题, 产生相应的数据集市, 从而使数据仓库成为企业统一的、集成的数据平台。
三、数据挖掘技术在电信CRM中的应用
数据仓库主要完成数据的收集、集成、存储、管理等工作, 主要目的是为联机事务分析、数据挖掘等深层次的数据分析提供平台。显然只有数据仓库无法将隐藏在数据背后的重要信息挖掘出来利用。要发现客户信息之间潜在的联系, CRM系统就必须把数据仓库技术和数据挖掘技术有机地结合起来。从某种意义讲, 数据仓库对数据挖掘来说仅仅是一个数据源的作用。因此, 数据挖掘技术的使用是电信企业CRM系统制胜的关键。以下给出几种具体应用。
1、客户群体的分类和聚类
一般来说, 占客户数2O%的大客户为企业带来的利润额占了总客户的80%, 要找到这样的大客户群体就需要CRM系统对客户进行分类和聚类分析。分类分析是通过分析数据仓库中的客户数据, 为每个类别做出准确的描述和挖掘出分类规则, 然后用这个分类规则对其它客户的记录进行分类。聚类是按照数据内在的差异性大小, 合理的划分成几类, 并确定每个记录所属类别。聚类分析对数据对象进行分组, 使组内各对象间具有尽可能高的相似度, 而不同组内的对象差别较大[3]。分类和聚类分析法是互逆的过程。虽然电信客户千差万别, 但是必定存在行为模式上具有相似性的客户群体。通过分类和聚类分析发现群体客户的行为规律, 按照客户行为划分为不同的群体, 进而针对不同的消费群体界定出其在企业中的战略定位, 通过有效的产品元素设计来推出针对性的产品计划, 为客户提供个性化的服务。
2、客户流失的预测和控制
通常获取一个新客户的花费是保持一个客户的费用的5倍左右。根据哈佛商业评论的研究当客户的流失率降低5%平均每位客户的价值就可以增加25%-100%以上。因此对电信企业而言, 客户保持已成为至关重要的目标。而通过数据挖掘可以发现易流失的客户群, 然后对易流失客户进行分类, 并对这部分客户群的特征进行深入分析找出有用的流失客户, 分析其流失原因, 采取相应措施, 有针对性地设计一些客户维系计划来预防现有客户的流失。
3、产品或服务的关联分析
关联规则是数据挖掘的主要模式之一, 通过关联分析可以发现数据中不同项目之间的联系, 关联分析的目的就是为了挖掘出隐藏在数据间的关联规则。电信运营商通常都不是提供单一产品或服务供客户消费, 而是综合的产品或服务组合供用户选择, 这就是我们常见的套餐消费。通过对产品或服务的关联分析可以发现产品或服务之间关联规则, 发现什么产品或服务的集合会使客户一起消费, 由此可以向客户推荐或者把相关产品或服务组合成一个套餐, 从而在促进产品销售的同时也为客户提供了更好的服务。
4、一对一营销
在追求个性化的今天, 每个人都可以拥有一些自己独特的商品或服务。企业必须做到为不同类客户提供完全不同的服务来提高客户的满意度。数据挖掘可以帮助企业针对不同类型的客户, 提供个性化的服务。例如, 为不同类型的客户提供不同的消费套餐、音乐铃声推荐, 以及个性化的增值服务等。
数据挖掘在电信CRM中的应用还包括:客户行为分析、客户获取分析、客户价值评价、客户呼叫模式分析、客户忠诚度分析、客户信誉度分析等涉及到电信企业与客户接触的各个方面。随着数据挖掘技术在CRM系统中的广泛使用, 数据挖据已成为CRM系统的核心和成功的关键。
四、结束语
CRM与数据仓库、数据挖掘之间有着难以割舍的密切关系。数据仓库是CRM基础, 是电信企业CRM的中央存储系统, 是数据挖掘的数据源;数据挖掘是CRM的核心, 只有将三者有机的集合, 集成使用才能实现CRM的功能和目标。
参考文献
[1]Jjawes Han, Micheline Kamber.数据挖掘概念和技术[M].机械工业出版社, 2001.
[2]葛淑杰.基于数据挖掘技术的CRM系统中客户行为.辽宁工程技术大学学报.2007, 2.253.
[3]Ng, R.T.and Han, J.W.Efficient and effective clustering methods for spatial data mining.In Proc.VLDB’94, Sant i ago, Chi1e, 1994.
[4]李丙春, 耿国华.数据仓库与数据挖掘在电信行业中的应用.新疆大学学报 (自然科学版) 2002.19 (3) :358-360.
[5]汤小文, 蔡庆生.数据挖掘在电信业中的应用[J].计算机工程与应用.2004.3O (6) :36-41.