数据网络管理

2024-05-09

数据网络管理(通用12篇)

数据网络管理 篇1

作为关系数据库系统功能实现的最核心软件, 数据字典系统的设计与实现是十分重要的。只有做好数据字典系统的设计, 才能有效的保障关系数据库系统的正常、稳定运行。本文将对关系数据库系统中的数据字典系统进行分析与研究。

1 数据字典物理存储

1.1 数据字典的定义

数据字典的一个重要作用就是提供最终用户数据库所有的信息, 在物理存储上就采用跟其他用户表一样的实现, 提供统一的接口。而数据字典的主要作用还是提供给DBMS自身使用, 在实现上还跟整个数据库的结构功能相关。

1.2 数据字典的逻辑功能

具体来说, 关系数据库中的所有数据信息与关联都与数据字典有着十分紧密的联系。数据字典具有着对关系数据库中的所有对象进行定义的逻辑功能, 除此之外, 数据字典还可以对关系数据库中的序列值进行默认、对数据库中的各种信息进行约束、对数据库中的用户信息进行存储和统计、对数据库中的用户权限进行分辨, 并且还可以对数据库中的各种信息的定义以及它们之间的关联进行操作与辨别。

由于关系数据库之中的各个对象之间存在着较强的关联性, 当用户对某一对象进行删除操作时, 往往会由于该对象与其它对象之间的关联程度与类型不同而产生一定的影响。例如数据库用户在PRLMARY KEY上建立起一个unique index文件, 而这个unique index文件的主要功能就是帮助PRLMARY KEY实现其自身的功能任务。而由于PRLMARY KEY是依附在一个数据表中的, 当删除表或是表中的相关信息有所变动时, 依附于这个表存在的PRLMARY KEY中的unique index里的信息也会相应的被删除或有所变动。而数据字典负责的功能就是将关系数据库中发生的这些关联信息与操作完整的记录和保存下来。通常来说, 关系数据库中的所有这些关联对数据库的用户都是公开透明的, 而另一种情况就是数据库用户为了方便自己的操作或是其它因素, 在对数据库中的对象进行删除操作时需要加上由用户自己设定的关系语句才能实现删除操作, 当此删除操作实现时, 与该对象有着密切关联的其它信息也会一并被删除。

1.3 物理记录的存储格式

关系数据库中的数据字典与用户数据都是以表的形式被记录保存在关系数据库的物理文件中的, 并且关系数据库管理系统中有着多种物理存储格式, 每一种物理存储格式都有着各自不同的特点, 相互之间具有较大的差别, 而这都是由于关系数据库管理系统中并发模式类型的不同造成的。现阶段, 我国的数据库管理系统将加锁模型与多版本模型作为最为主要的两种并发模型。其中加锁式并发模型的特点是记录格式简单、无需版本信息就能实现, 如SQL Server并发模型。而多版本并发模型主要有Oracle数据块并发模型。该种并发模型不仅需要用到物理记录来对数据库中的版本信息进行记录, 而且还需要物理格式的帮助来实现对数据库系统的并发控制及相关的事务处理, 比较复杂。

2 数据字典内存表示

2.1 CACHE作用

关系数据库管理系统能够通过对数据字典中的信息数据进行读取来获得数据用户以及数据库中的对象与存储信息, 当数据库用户需要对某些数据进行查询和相关的操作时都需要利用其所发出的SQL语句来对数据字典中的信息进行查询, 查询频率非常高。现阶段, 我国的数据库管理系统主要由两部分组成, 即CACHE与RELCACHE。其中CACHE主要负责的是对数据库管理系统中的表进行存放。在该部分中, 一个系统表能够利用ID查询、NAME查询与主键查询中的任意一种方式进行查询, 除此之外, 用户也可以通过部分键对该系统表进行查询。当查询操作完成后, 关系数据库系统会根据数据字典的分析最终弹出用户需要寻找的表格。

而RELCACHE部分的每一项都是一个RELATION结构, 该结构对此结构中的所有数据信息与关联进行了记录与保存。并且此结构能够将关系数据库系统中的所有与需要查询事件相关联的描述信息进行联合构造, 以更好的满足数据库用户的需求, 提高关系数据库管理的质量与水平。

2.2 数据库的启动与CACHE的初始化

使关系数据库能够启动并发挥其应有的作用, 操作人员至少要做好以下三个步骤, 即将一个实例启动, 之后对数据库系统进行装配操作, 第三, 将数据库系统打开。使数据库的CACHE系统得以初始化的方式有两种:第一种, 在数据库系统建立时进行CACHE的初始化, 主要负责对数据库系统的内存进行分配;第二种, 数据库系统已经建立完成后在启动时进行初始化操作, 此时, 内存已经分配完毕, 用户只要正常进行启动操作就可以完成CACHE的初始化。

3 结束语

本文主要对关系数据库管理系统的数据字典程序进行了分析介绍与研究, 希望能够进一步推动我国关系数据库系统的管理质量, 促进关系数据库系统的进步。

参考文献

[1]程阳.关系数据库管理系统的一种简易的数据存储与查询模块的设计与实现[D].华中科技大学 (硕士学位论文) , 2012.

[2]冯玉才, 李东, 王元珍, 曹忠升.一种移动数据库管理系统的体系结构[J].计算机研究与发展, 2011, 38 (5) :620-625.

[3]何新贵, 唐常杰, 李霖.特种数据库技术——数据库技术丛书之一[M].北京:科学出版社, 2010.

数据网络管理 篇2

基本原理流程:围绕数据建立 “商业理解”=“数据理解”-“数据准备”=“建模”-“模型评估”-(“商业理解”)-模型发布

数据管理体系的建立是一个长期的过程,其中数据质量的好坏起到相当重要的作用,网络游戏运营中将产生大量的未经梳理的数据,数据是分析的基础,与其他行业相比,网络游戏行业具有一些天然的优

1丰富的数据源,对象用户达到一定级别,所产生的数据种类多样,丰富而且具有持续性

2数据相对客观真实,采集和筛选方便,例如:“注册”“登陆”“游戏行为”等,都是数字化网络记录和管理

3数据信息与需求紧密联系,因果关系脉络清晰,网络游戏的各个环节通过数据信息的形式紧密联系,信息链条相对纯净,“噪音”少,环环相扣产生数据因果。

4信息化程度高,主要基于互联网的商业模式使得各运营环节都产生相关数据信息,从业人员普遍理解信息数据的重要作用,信息数据是企业核心资产和经营基础。

在与张教授的交流中,对于数据管理体系中的重要性,一致认为对于“商业理解”的重要程度超过其他学术和数据分析工具,在以往的案例中,团队组成包括“商业管理”“IT技术支持”“统计分析”等组成部分,一个项目实施期长达一年。数据体系将是一个反复实践的过程,不断随着具体情况的变化而休整和增加。

关于网络游戏的数据挖掘和数据分享,此前已经有较长一段时间的积累和探索,但在过程中所遇到的问题缺乏多角度的交叉验证,游戏是一个不断创新和变化的产业,游戏玩家的用户规模和行为规律呈现越来越复杂的局面,一个公司的数据管理体系的建立和完善需要整理通力合作和长期积淀,试从个人角度提出建立数据管理体系的流程和建议,由于缺乏实践参照,难免理想化和脱离实际,仅做参考。

一、数据积累

网络游戏运营的数据积累体现在多方面,从游戏用户的行为数据积累,到市场行销推广的数据积累,各种能够产生数据和数据之间的关联,进行长期持续性的积累。通过数据库或成熟的数据仓库产品,将各类数据有效规范管理,以备今后的数据体系应用。

二、观念培育

数据管理的观念在执行过程中逐渐培育,认识到数据对于企业运营的重要意义和积极作用,为今后建立数据管理体系制定长期可能的规划,长期渐进的思维理念。

三、理论和体系人员的准备

数据管理体系中,对于自身游戏运营的商业理解和理论准备是一个长期的过程,而体系人员是建立在对自身运营体系和行业发展方向深入认知的前提下,内部的广泛交流和有效沟通,形成良好的信息体系建立大环境。

四、渐进的体系实施

数据管理体系是企业的综合实力所决定,在正确的时间做正确的事情,根据企业发展的不同阶段状况,渐进式逐步推进信息数据管理体系的建立,不一定需要以某个固定的体系名称,而是以期达到实际效果,能够实现以数据辅助指导运营,不同的实施阶段有不同程度的效果。

网络游戏的数据挖掘与数据分析可以本着“不为名,只图实”的原则,能够对游戏运营管理有帮助,及时是简单的表格罗列筛选也是一种进步,不同程度的数据挖掘和分析产生不同的贡献。希望能够向有志于此的朋友学习探讨合作交流。

数据网络管理 篇3

大数据给数据中心的建设、管理、运营带来前所未有的挑战,其“巨量(Volume)、多样(Variety)和快速(Velocity)”的特征使得数据中心内部的数据流动和存储压力剧增。在大数据时代,企业需要面对更加庞大的数据网络、更加快速的技术更新、更加高昂的IT投入以及快速变化的用户需求,如何构建一个高效运作的数据中心网络成为企业面临的难题。

传统网络架构

不适应“大数据”的要求

传统的网络架构已经不能满足大数据时代网络应用需求。传统的网络结构设计以“客户端-服务器”的“南北向”流量为主,即客户端向服务器发出请求,服务器应答返回结果给客户的垂直结构。在大数据时代,大量的数据都存储在分布广泛、类型众多的服务器中,垂直结构的服务请求将变得越来越少,取而代之的是数据中心内部、数据中心之间的“东西向”流量,即客户发送的请求后,数据和运算在不同的服务器之间交换,最后将结果返回用户。

“在过去,多数的流量都是南北向流量,但是对数据中心运行应用程序而言,是从东到西的网络流量模式。这就要求网络和服务器之间的距离要更加接近,需要更加有效、优化的交付模式。”戴尔公司副总裁、戴尔网络业务总经理Tom Burns对数据中心网络面临的挑战进行了分析,并进一步提出虚拟机的增加对网络的影响。“虚拟机不断增加,物理设备和物理空间不断减少,因此数据中心面临的挑战主要体现在空间不够和复杂度增加等环节上。数据量在不断增加,应用类型也在不断增加,这就使得数据中心里网络因为虚拟化的原因而变得更加复杂。”他说。

伴随大数据和云计算的发展,虚拟化已经成为当下数据中心建设的大势所趋。事实上,企业在部署运行业务系统的私有云和办公桌面云的时候就完全实现了虚拟化,所以它对网络的影响具有普遍性。

大数据驱动云计算,

需要更灵活的网络

人们时常将大数据与虚拟化、云计算放在一起,三者关系紧密却在不同的维度。虚拟化是作为云计算和大数据的底层技术而存在。在上层,大数据需要云计算来支撑,而云计算的发展则受到大数据的驱动。除了前面讨论的虚拟化技术对网络的影响,云计算在业务层面对网络的影响也非常大。

如何满足云计算对数据中心网络的要求?在2013年华为企业网络大会上,华为企业业务BG企业网络产品线总裁刘少伟归纳为:弹性、虚拟、开放。云计算需要网络能够快速适应内部结构的变化,例如虚拟机迁移,弹性的网络能够更好地适配这样的业务,而开放才能实现不同业务与底层的接入,真正做到无缝地“适配”。在大数据时代,业务的复杂度增加,对云计算的弹性要求越来越高,需要更加灵活的网络架构。

从未来整个网络的发展来看,无论是网络的规模、容量还是层次,都会发生较大的变化,所以未来网络的特点就是要适应这种变化,网络设备应该具备更高的性能和可扩展性。华为企业网络产品线数据中心网络领域总经理孙路遥说:“现在较热的大二层网络方案,有很多实现方式,适用于不同的场景,这是我们正在构建的弹性;从千兆服务器向万兆服务器的过渡,在转变的过程当中对网络带宽的要求,这些也可归结为弹性。弹性可以适应各种变化的要求。”

云计算业务的特点是承载应用变化较快,因此对IT系统的效率要求较高。在应用驱动下,对网络的配置、管理、业务增减的效率转化为对网络提出开放性的要求。孙路遥说:“在SDN的应用情景下,业务对网络的调用不再是通过人这种‘Controller’,而是通过自动化的Controller,自动把业务变化翻译成网络的需求,这就是所谓网络开放性的体现。”

数据中心网络建设看好SDN

未来的数据中心网络建设路在何方?我们看到戴尔提出“轻盈IT”的口号,而华为在推行“敏捷IT”的理念,两个在全球范围内举足轻重的IT供应商有着相同愿景,这不是一种巧合。大家都认为IT应该更加灵活、开放,这是网络架构的未来。相应的解决方案中,SDN(软件定义网络)是一个获得普遍认可的方案。

戴尔网络是最先提出分布式核心架构的企业,这种做法使网络性能得到进一步提升,降低网络延迟、系统功耗,而且还减少了物理空间。实际上,包括华为、思科的产品在内,所有的网络设备都在向着高性能、高密度、低功耗的方向发展。网络设备供应商所做的另一件事是进一步推动SDN的发展,将物理世界和虚拟世界更好的联系在一起。

网络的灵活、开放是SDN的优势,但企业并不会单纯地为某个先进的技术增加成本。大数据能够创造商业价值,这是企业认可大数据原因——永远追求利益的最大化。如果在经济上不符合企业利益,这些先进的IT系统便失去了价值。SDN的另一个优势便显现出来,主流厂商的方案都支持渐进式部署来完成传统架构向新架构的过渡,同时达到降低成本的目的。

SDN的渐进式部署体现在开放的架构和对传统网络的支持上。戴尔的S6000能够和VMWare的控制器NSX配合工作,并且在OpenFlow标准上支持其他的第三方控制器。Tom Burns说:“戴尔网络产品和第三方的软件保持密切的合作,不管是VMware,还是微软。通过我们的支持OpenFlow的S6000,可以把虚拟机通过网关直接和完全意义上的软件定义网络结合在一起。除此之外,我们的这款产品还具备传统机架交换机的特性,因此可以继续支持数据中心和聚合层的环境。”

华为SDN解决方案也一样,基于Openflow标准,实行控制器(Controller)和交换机分层的架构。下层交换机并非是完全的“傻瓜式”设备,因此能够融入传统网络结构当中,实现当前网络不间断运行情况下的SDN部署,完成传统网络向下一代网络的平滑过渡。这种“渐进式部署”的方式能够最大化地减少企业的负担,以最经济的方式构建敏捷网络,迎接SDN的到来。华为企业网络产品线副总裁马云表示:“这是必由的机制,传统网络负担着很多重要业务,不能把所有传统网络都扔掉。首先要把新的设备插到传统网络,这是敏捷交换机的价值,我们认为是必须要这样做的。”

数据网络管理 篇4

1 大数据与网络技术发展的关系

网络应用需求的快速上升是数据量需求产生的主要来源, 我们可以从全球IP数据通信量增长的趋势中大致看到今后网络应用需求量的增长, 如图1所示。

基于网络流量的增长与网络应用需求的快速上升, IDC做出了今后几年全球数据量将迅猛增长的预期, 图2显示了从2005年~2015年间的数据存储量的增长趋势。

数据中心数据存储量增长与许多应用需求有关, 笔者认为, 其中两个领域对数据量的增长影响明显——移动互连网与物联网。近年来, 移动互连网应用快速崛起, 根据Cisco的市场报告统计, 移动互连网产生的数据量年均增长达到90%以上, 且移动终端的总量即将超过传统的PC, 这方面的增长将对全球数据量上升产生较大影响;另一方面物联网在越来越多的行业中得到了应用, “万物互联”是物联网的终极目标, 这部分是数据流量绝对增长量。物联网的时代将是传感器自动不间断上传大量数据并通过网络储存在数据中心内, 对网络与数据中心的存储量起到了推动性作用。

网络是所有数据流通的基础, 大数据的产生与网络技术的发展密切相关也是相辅相成, 通信行业与IT行业需要更为紧密的“握手”才能使数据通信不产生瓶颈。事实上, 网络基础设施也在朝着这个方向进行, 目前, 国内的城域网干线网络正在思考升级到100G的网络, 同时也在研究下一代400G的骨干。为了支持移动终端的数据量快速上升, 第4代移动通信LTE技术逐渐成熟, 4G基站正在批量建设阶段。而对于通用住宅方面已经在快速推进光纤到户 (FTTH) 1G-EPON与10G-EPON的应用, 多种网络基础设施的进步是为大数据产生与应用起到了桥梁纽带的作用。大数据与网络基础设施的发展相得益彰, 所有网络通信技术的进步是为外围网络环境的大数据铺路。如果我们把外围的网络基础环境比作人体的神经, 那么数据中心将是人体的大脑, 而所有数据量的上升需要更大规模的数据中心与其相适应, 对于数据中心内部的网络基础架构同样面临着进一步升级的需要, 布线系统作为数据中心内部连接与管理的基础设施, 对于数据中心的运行可靠性、可管理性及大数据流的支持起到了关键作用。

2 数据中心网络基础标准化发展应对大数据

根据2012版本的《数据中心电信基础设施标准》TIA 942A对于数据架构基本还采用传统的网络架构模型, 对于虚拟化的网络架构基本没有涉及。基于当前网络技术日新月异的变化状况, 云计算虚拟化的网络发展特别是采用Fabric虚拟矩阵的网络将是大型数据中心网格架构的重要发展趋势, 采用无阻塞的交换矩阵的网络结构是从网络层面应对大数据时代的技术手段之一。图3为典型的虚拟矩阵架构网络。

为应对大数据的挑战, 云计算虚拟化网络技术的应用是技术发展必然的趋势, 基于这样的网络架构的应用, 2013年北美通信工业协会TIA正式批准了新版《数据中心基础设施标准》TIA 942A-1的附录1, 该附录从主流虚拟化网络架构并结合相应布线系统管理角度进行了定义。标准中网络架构涉及胖树型 (Fat-Tree) 、全网型 (Full-Mesh) 以及混合型的模块化矩阵全网型 (POD-Interconnect-Mesh) 等多种应用方式。此标准的及时批准对支持当前及今后一段时间内的数据中心, 特别是云计算数据中心网络与布线系统的构建起到了推动与促进作用, 适应了大数据时代对网络的基础要求。

面临海量的数据存储与数据处理, 数据中心为了提高资源利用效率与数据分析计算能力, 将大量采用虚拟化云计算的技术, 包括服务器虚拟化技术、网络虚拟化技术以及存储虚拟化技术等。网络架构总体的趋势将采用大二层虚拟化的网络, 核心层采用40G/100G, 接入层采用10G的方式基本已经成为网络升级的方向。

在上述虚拟矩阵的数据中心主干网络中, 更多地将从10G网络升级到40G/100G。IEEE 803.3ba于2010年已经正式颁布采用40G/100G的网络技术标准, 数据中心主干链路88%以上小于100m的距离, 多模光纤OM3/OM4采用MTP与QSFP接口多通道并行传输的方式, 基于其良好的性价比, 被业界认为是数据中心主干链路应用的首选方案。当前标准中对于100G的应用方案采用的是10G×10的通道模型。2013年3月IEEE802.3bm标准组织成立特别工作小组研究下一代基于多模OM3万兆光纤25G×4通道支持100G最小100m的标准, 此标准对后续数据中心的应用影响明显, 增加了光纤系统的应用密度, 为后续更高级别的网络扩展提供了空间与物理基础。

基于当前数据中心内主干网络主要由光纤作为传输介质的背景, TIA标准化组织已经在研发基于电阻100Ω平衡双绞线铜缆支持40GBase-T的网络, 草案标准PN-568-C.2-1已经发行, 预计标准将于2014年正式实施, 发行后标准的编号将定义为ANSI/TIA-568-C.2-1。该标准将铜缆双绞线带宽扩展至2000MHz, 将继续采用RJ45作为接口标准。定义铜缆级别为Cat.8, 可以支持40GBase-T网络传输距离达到30m, 基本满足数据中心40G链路55%的距离。铜缆支持40G的应用是对40G标准的一个重要补充, 虽然距离比较短, 在规模较大的数据中心主干内无法成为主流。但预期铜缆方案的成本优势将对大量规模较小的数据中心建设来说, 是一种较显优势的方案, 有助于促使数据中心更快及更大范围推进40G网络的应用。

3 支持大数据网络物理层接口技术分析

当网络主干走向40G/100G的高速网络时, 数据中心接入层设备与服务器网络接口从1000M走向10G是必然趋势。过去的接入层网络速率在1000M及以下, 采用铜缆RJ45的接口模式在整体市场中处于主导地位。而当网络上升到10G时, 将有多种接口模型可供选择, 现阶段还没有一种接口在市场上形成绝对主流。当前10G接口类型较多, 技术要求的差异较大, 应用10G接口前需要对主流的技术方案进行综合评估与分析, 以确定什么方案更符合各自的要求。表1为目前市场上主流的10G接口及参数。

以上五种类型的10G接口所列出的数据仅为参考, 由于10G的技术更新速度很快, 不同时间段内对于技术指标的要求是有差异的。以上10G接口类型中, 基于功耗、端口密度、支持距离等方面思考, 笔者认为从长远来看CX4铜缆方案并不占有太大的优势。采用CX4接口的10G应用相对较少, 今后越来越少的用户会采用基于CX4接口的10G应用。而其余四种类型, 我们可以通过几个应用方向进行分析, 可以为后续10G升级做参考选择。

SFP+DAC的10G无源铜缆解决方案优点是接口功耗小, 相对成本在四种方案中较低, 延时较低, 适用于虚拟化的网络环境。缺点是支持距离太短, 只能适用于ToR (交换机置顶Top of the Rack) 的网络架构, 不可以自适应向下兼容1000M的网络应用。线缆本身故障需要与SPF+插头同步更换, 维护成本相对较高。该种解决方案应用于网络结构相对简单, 设备变动、新增与移动较少且维护管理要求不高的场合, 如业务较单一的云计算模块化数据中心或互连网数据中心等。

SFP+AOC的10G有源光缆解决方案优点是接口功耗较小, 成本比DAC略高但相比其他方案要低, 支持距离最长可达300m, 可以支持EoR等各种网络布线架构且光缆直径较小, 可以应用于高密度机柜布置;延时较低, 适应于虚拟化的网络环境。缺点是不可以自适应向下兼容1000M的网络应用, 线缆本身采用有源芯片电路, 故障率相对较高, 出现故障需要带SFP+插头连同内部光电收发芯片同步更换, 维护成本很高。该种解决方案应用于网络管理简单、设备变动、新增与移动较少且对网络连接可靠性要求不高的场合, 如云计算数据中心或第三方运维托管数据中心, 以及网络结构单一的备份数据中心等。

SFP+10GBaseE-SR的光缆解决方案优点是芯片技术成熟, 接口功耗较小;支持距离较长, OM3光纤300m及OM4光纤550m, 可以支持ToR、EoR等网络布线架构且光缆直径较小, 可以应用于高密度机柜布置;光模块与光跳线分离, 无源光跳线可靠性高、日常维护方便、维护成本相对较低, 延时较低, 灵活适应于各种类型网络环境。缺点是不可以自适应向下兼容1000M的网络应用, 总体方案成本相比较其他方案偏高。该种解决方案应用于网络结构复杂、设备变动、新增与移动比较频繁且对网络连接可靠性与管理要求较高的场合, 能适用于各类数据中心应用的需要, 特别针对于金融业、政府部门及各类企业级数据中心。

RJ45 Base-T的铜缆解决方案优点是成本相对光纤方案要低, 且可以向下自适应1000M网络。支持距离较长, 最长可达100m, 可以支持To R、EoR等网络布线架构。铜缆跳线与端口有源芯片分离, 布线可靠性高且日常维护方便, 维护成本相对较低, 灵活适应于各种类型网络环境。缺点是芯片技术还不太成熟, 功耗相对较大, 特别在长距离应用时, 线径粗不适合高密度的机柜管理, 延时相对较大, 对云计算虚拟化不利。该种解决方案应用于网络结构复杂、设备变动、新增与移动比较频繁且对网络连接可靠性要求比较高, 但对密度要求不高且对机房节能要求不高的数据中心环境, 如金融业、政府部门及各类企业级数据中心中。

需要关注的是, 10GBase-T的芯片技术仍在不断演进, 从早期10GBase-T采用130nm芯片技术到现在的40nm芯片技术, 功耗已经从超过10W每端口降到的4W~6W, 今后还将有望进一步采用28nm芯片, 预计功耗小于3W。各种10G接口技术都在进步, 不同时期的优势点也有变化, 至于何种技术在市场上能得到更多应用, 仍需拭目以待。

4 大数据提升智能基础设施管理系统的应用价值

大数据时代的数据中心布线系统, 不仅仅关注前面所述的作为10G/40G/100G的传输通道, 管理是数据中心布线的另一项非常重要却易被忽视的功能。大数据的压力迫使数据中心发挥更高运算与数据处理效率, 促进虚拟化技术在数据中心中更普遍的应用, 而网络虚拟化技术却增加了物理层管理的难度。智能基础设施管理系统以管理为核心的理念将在今后的数据中心中发挥出更大的价值。图4是虚拟化网络解决方案, 是基于数据中心330机架×4等于1320个机架的网络规模, 采用ToR的架构方式。ToR交换下行服务器机柜采用独立柜内布线的方式, 这部分不是智能基础设施管理系统实时监控的重点, 管理的重点是分布式转发核心区域, 此区域实际部署过程中若管理不善极易混乱, 采用智能基础设施管理系统对相应物理链路层路由进行主动管理, 为更复杂网络的正确实施提供了保障。

图4虚拟化网络为了降低延时提升数据转发效率, 采用了复杂的交换矩阵, 从而导致链路的连接关系非常复杂。采用传统手动工单对布线系统被动管理的方式将很难适应此类网络结构的管理, 同时项目移交后对用户的后续日常维护将造成非常大的困扰。采用智能基础设施管理系统不仅能对布线系统进行操作指引, 更重要的是智能基础设施管理系统以流程化主动纠错的模式促使管理人员遵守标准的IT流程化管理要求, 提高网络与基础设施的维护效率与管理水平, 杜绝因操作错误造成系统宕机的风险与损失。

大数据时代的数据中心网络核心交换矩阵将采用40G/100G, 核心主干物理层网络是智能基础设施管理系统的管理重点。与传统数据中心相比, 如采用相同的行业模型来分析投资回报率 (RoI) , 假设对于传统10G核心网络, 由于管理原因疏忽数据中心网络中断问题产生的损失是1个单位, 而大数据采用40G/100G网络在相同宕机时间的损失可能是4~10个单位。显然, 在大数据时代对于智能基础设施应用的投资回报率更高, 使智能基础设施管理系统应用价值得到了提升, 促进智能基础设施更广泛地应用在数据中心内。

5 结束语

大数据的时代是数据应用需求的急速增长作为驱动的源泉, 云计算是基于虚拟化技术发展而来, 不仅为大数据计算处理提供技术保障, 同时云计算本身也是一种服务模式, 从某一方面来说云计算的大量落地也是促进了大数据发展的原因之一, 两者相辅相成;另一方面从网络的基础架构来说, 在大数据与云计算相互促进的背景下, 网络基础为了不成为整体应用发展的瓶颈, 需要其技术不断的升级, 包括外围的干线网络、LTE第四代移动网络以及FTTH光纤到户等。数据中心的物理层网络是支持云计算大数据的核心, 也是迫切需要得到提升的关键基础设施, 数据中心网络物理层行业标准化发展相比实际应用需求保持一定的领先优势, 10G/40G/100G等网络基础与接口技术逐步走向成熟将为大数据铺平了道路。大数据时代数据中心网络基础的复杂性, 又使得智能基础设施管理系统的应用价值得到了良好的体现。数据中心网络基础技术应做好准备以迎接大数据时代的到来。

参考文献

[1]数据中心布线工作组《数据中心网络技术白皮书》.2012.11

[2]Large Scale Distributed Core Fabric, DELL.2012

[3]孙慧永.浅谈云计算数据中心对布线系统的影响.智能建筑与城市信息.2012.4

数据管理规定 篇5

第十八条【数据生命周期】数据管理应贯穿其整个生命周期,包括数据的生产、采集、记录、处理、审核、报告、存储、备份、销毁等过程。

第十九条【数据类型】数据可由以下几种情况产生:

(一)人工观测后进行的纸质记录。

(二)仪器、设备或计算机化系统产生的记录。

(三)采用摄影、摄像技术获取的客观数据。

第二节数据归属至人

第二十条【可归属性】通过记录中的签名可追溯至数据的产生者或修改者。修改已输入的关键数据应当经过批准,并记录修改理由。

第二十一条【签名唯一】计算机化系统中不同用户之间不得共享登陆账号或者使用通用登陆账号。若计算机化系统不具备充分的技术控制能力,应当建立相应程序,可以采用纸质记录或混合模式的记录对电子记录签名,确保记录中操作行为归属到特定个人。

第二十二条【电子签名】电子签名与纸质签名等效,不得使用个人手写签名的电子图片代替,并应经过验证。

第二十三条【特例】应有文件规定仅在某些特殊情况(例如:记录行为本身对产品或工作造成风险,如:那无菌操作区操作人员记录造成的生产线干预)下,可由另一记录人员代替操作人员进行记录的程序、适用范围,相关操作人员和代记录人员。记录应当与操作同时进行,实际操作人员应当及时对记录进行确认签字。

第三节数据清晰可溯

第二十四条【清晰】在GXP规定的保存期限内的任何时候,数据应清晰、可溯、可读、可被理解,应能确保可清晰地重现步骤或事件发生的顺序。

第二十五条【审计追踪】当计算机化系统被用于产生电子数据时,所有的数据创建或更改行为都应当通过计算机系统中的审计追踪,或由其他符合要求的元数据字段或系统其它功能来记录,确保其追溯性。当现存计算机化系统缺乏审计追踪功能时,可以使用替代方法,比如日志、变更控制、记录版本控制或其他纸质加电子记录的组合来满足文档可追溯性的要求。

第二十六条【审计追踪的管理】审计追踪或其它提供可追溯性的替代方法不能被修改或关闭。

第二十七条【高级系统管理权限】业务流程拥有者和用户不应当被赋予高级安全访问权限,如任何系统层面(操作系统、应用程序、数据库等)的系统管理员权限。

第四节数据同步记录

第二十八条【要求】数据在其产生或被观察到的时刻,应依据相应的程序或规定被记录下来,并确保在执行下一步操作前,数据被持久地保存。

第二十九条【正式记录】原始数据应当在GXP活动发生的时间直接、同步的被记录到正式记录中。

第三十条【时间戳】应确保计算机化系统的时间/日期戳安全,不被篡改;并建立规程和维护程序确保所涉范围内的GXP活动的时间/日期同步。

第五节数据原始一致

第三十一条【要求】原始数据包含首次或源头采集的数据和信息,以及为完整重现GXP活动而要求的后续其它数据。

GXP对原始数据的要求包括:

(一)应当审核原始数据;

(二)应当留存含有原始数据的内容及原义的原始数据本身和/或真实副本、以及经确证的副本;

(三)原始记录在其留存期内,应符合本规范要求,并容易获得和读取。

第三十二条【基准记录】当有多份相同信息被同步记录时,应界定由哪个系统生成并保留的数据为基准记录。基准记录的属性应在质量体系中进行明确定义,并且不得因个例而变化。

第三十三条【数据的收集和记录】应有程序规定数据的收集和记录过程,定义必须的步骤和预期标准。数据的收集和记录过程应确保可重现被记录对象的完整历史,其保留形式应确保可理解和读取。

第三十四条【原始数据审核】应当建立数据审核的书面规程并通过培训和自检等控制措施,确保原始记录经过适当地审核和批准。数据审核包括审核纸质数据和电子数据,电子数据的审核不能仅限于从计算机化系统中打印的纸质记录,还应包括对电子元数据的审核。

(一)书面规程应在充分风险评估的基础上规定审核原始数据和相关元数据的过程及内容,包括频率、角色与职责、审核的方法、对于异常数据或错误缺失的处理流程以及对原始信息修改的评估等,确保符合本规范要求。

(二)数据审核过程应当被记录,通常以相应的纸质或电子签名来完成。书面规程应明确审核以及批准签名的含义,以确保审核和批准人员理解其负有的相关数据可靠性的职责。

(三)原始数据审核的人员应有相应的资质和培训,其培训的内容应与所审核内容的风险相适应。

(四)应确保与样品相关的审计追踪,原始数据和元数据被审核并作为自检的一部分,以保证持续符合本规范的要求。

(五)如计算机化系统无法满足电子审核的要求,使用纸质打印输出作为摘要报告时,必须有第二人审核原始电子数据和相关元数据,如:审计追踪,以确认所打印的摘要具有代表性。

第三十五条【原始数据转换为真实副本】如果需要将原始数据转化为真实副本,应当制定书面规程,并通过培训审核、自检等措施保证所产生的真实副本和转换过程符合数据可靠性要求,包括:

(一)原始记录转换为真实副本的形式要求包括:

1.将原始的纸质记录制作成纸质的真实副本时,应保留原始记录的静态记录格式;

2.将原始纸质文件扫描并转化为电子图像作为真实副本,如PDF文件,应采取额外的方法保护电子图像不会被更改;

3.将原始电子数据集制作为电子的真实副本,应保留原始记录的动态记录格式;

4.当手写签名对记录的真实和可靠性至关重要时,应考虑保留原始手写签名的纸质记录的全部内容和意义。例如:临床试验中的知情同意书签名。

(二)将原始数据转换为真实副本的过程应有第二人确证或技术确证方式确保真实副本保留了原始记录的全部内容和意义(即真实副本包含所有的数据和元数据,无数据丢失,保留对记录的含义和解释非常重要的记录格式;必要时,还需确证在执行经验证的备份过程中,文件未损坏)。

(三)确证人或技术复核过程应当以适当的方式记录真实副本的复核内容。记录应被安全地关联到所生成的真实副本。

第三十六条【数据的保留】应建立安全控制和归档规程确保原始数据或其真实副本在留存期内,免于被故意或无意地更改或丢失,保证符合数据可靠性要求。

(一)应对电子记录备份以保证发生灾难时,数据可恢复。

(二)记录或真实副本,应留存在另一个安全的地方。

(三)电子数据的备份和恢复流程必须经过验证。备份和归档的数据在保存期内应可读取,并定期测试或检查恢复读取的能力。

(四)《临床前研究(GLP)管理规范》规定归档人员应为独立的利益不相关方。

(五)电子数据可以通过创建真实副本或从一个系统转移到其他系统的方式进行归档,但数据转移过程应被确认或验证,并记录。应以动态格式保存全部内容包括有意义的元数据以及全部原始电子数据的含义,确保数据可以重现。

(六)电子签名信息应作为电子原始记录的一部分保存,确保在记录留存期间与记录相关联并可读。

(七)数据的保存期限应满足相应的GXP规范的要求。

第三十七条【销毁】应建立销毁数据的规程,数据的销毁必须经过适当的审批。

第六节数据准确真实

第三十八条【准确性】数据的准确真实是指数据能正确、真实、有效、可靠地体现数据所记录的事件/活动。确保数据准确真实的控制措施包括但不限于:

(一)设备设施应经过验证和校验,并维护。

(二)验证生成、储存、发布或归档电子记录的计算机化系统。

(三)分析方法和生产工艺应经过验证,数据的产生过程应与验证状态保持一致。

(四)审核GXP记录。

(五)调查偏差、可疑值、超标结果等等。

(六)企业应建立完善的文件、程序体系,建立完善的工作流程减少差错的发生。

(七)对于活动的相关人员提供充足的培训。

第四十条【数据处理】数据处理应当按照经验证/确认或核实的方案、过程、方法、系统、设备,并依据已批准的程序和培训方案。

第四十二条【数据监控】在数据生命周期中,数据应当处于基于风险地持续监控中,为增加工艺理解、促进知识管理和形成持续改进提供合理的决策。

第五章系统

第一节原则

第四十三条【原则】用于数据的采集,存储,处理,分析,审核,报告,转移,备份和/或归档保存及检索的系统可以是纸质的,计算机化的或二者的混合,并应当:

(一)具备规程和/或配置防止和/或发现对数据的有意或无意的篡改,删除,丢失,缺失,替换,誊写等不合规操作。

(二)当数据被以纸质和电子两种方式同时保存时,电子数据是原始数据。动态数据的打印件不可以替代其电子原始数据。

(三)方便现场操作人员填写或输入数据。

第四十四条【数据管理过程】应根据数据管理过程中数据产生、记录、存储、使用时的风险,采取相应的措施保证数据的可靠性。

(一)数据管理系统设计应界定数据在整个生命周期中的归属问题,并考虑对流程/系统的设计、运行和监控,以便符合数据完整性原则,包括全面控制有意或无意的的信息修改。

(二)数据生命周期的管理和设计需要对数据管理过程有科学和技术方面的理解和应用。包括质量风险管理,流程应能够增加对数据完整性的保证,并产生一个有效和高效的业务流程。

(三)当数据管理流程或特定的数据流程存在不一致、不确定、未证实或使用手动、纸质操作等情况时应加强数据可靠性的管理。

(四)良好数据流程设计应当对于数据流程的每一步都进行考虑,尽可能确保并增强控制,保证每一步是:

1.一致性;

2.客观、独立和可靠的;

3.简单和简化的;

4.明确定义和充分理解的;

5.自动化的;

6.科学上和统计上合理的;

7.按照良好文件规范进行记录的。

第二节要求

第四十五条【纸质要求】纸质空白记录(包括但不限于,工作表单、实验室记录和批记录)的发放和回收应当受控。

第四十六条【计算机化系统要求】计算机化的数据管理系统,包括计算机硬件、软件、外围设备、网络、云基础设施、操作人员和相关文件(例如用户手册和标准操作规程)应当符合《计算机化系统》附录的要求。

麦叔:请问云基础设施如何做计算机验证?总局应该发布相关指南呀?《计算机化系统》附录里也没写呀?

第四十七条【审计跟踪】计算机化数据管理系统应根据风险评估的结果考虑设立审计跟踪,记录对系统和数据的所进行的操作,包括但不限于:

(一)谁,在何时,做了何操作,及为什么做该操作。

(二)数据的创建、修改或删除、再处理、重新命名、转移。

(三)对计算机化系统的设置、配置、参数及时间戳的变更或修改。

第四十八条【审计跟踪审核】审计跟踪应当作为GXP数据的一部分被审核;对于直接影响患者安全或产品质量的关键GXP数据更改的审计追踪应当随同相应的数据并在该数据最终被批准之前进行审核。需要定期审核的审计跟踪包括但不限于:

(一)最终产品检验结果的更改。

(二)样品运行序列的更改。

(三)样品标识的更改。

(四)关键工艺参数的更改。

第四十九条【验证】计算机化数据管理系统应当按《计算机化系统》附录的要求进行验证,确保系统符合预期的用途。例如确证:

(一)应用程序和操作系统中保障数据可靠性(ALCOA)的设计和配置,包括审计追踪,在系统运行时,被启用并有效。

(二)每个工作流(workflow)均被验证。

(三)产生的数据和输出的报告符合用户要求。

(四)用户权限级别符合其设置及配置。

(五)系统日期和时间,产品标准,工艺参数,测试方法的更改被控制。

(六)用于临床实验的计算机化数据管理系统的配置和设计控制应能确保试验的盲态,例如,通过限制可查看电子存储的解盲数据的人员。

第五十条【数据安全】数据管理系统应当具备安全保障措施确保数据的安全。常见的措施包括但不限于:

(一)经授权许可人员才可以进行数据存储或处理及进入档案室等区域。

(二)用户名仅释放给有业务需要且经授权批准的员工。

(三)用户通过其唯一的用户名和密码登录进入系统。

(四)有规程和培训保证当用户不使用系统时退出系统或锁屏。

(五)无操作时,系统在设定的时间内自动退出或锁屏。

(六)用户密码应当在预定的期间内更换。系统在预先设定的时间点提醒用户更改密码,并禁止该用户用已使用过的密码登录该系统。

第五十一条【系统更替】计算机化数据管理系统的更替(包括版本变更和系统变更)应当保证更替前后系统中的数据可靠性。

第五十二条【灾难恢复】应当建立计算机化数据管理系统的业务持续、系统维护及灾难恢复规程,确保系统在维护,业务持续和灾难恢复时的数据可靠性。

第六章附则

第五十三条【特殊要求】本规范为药品生命周期中相关数据的基本要求。对临床试验数据、实验室数据、制药设备数据等数据的特殊要求,由国家食品药品监督管理总局以附录方式另行制定。

第五十四条【替代方法】企业可以采用经过验证的替代方法,达到本规范的要求。

第五十五条【术语】本规范下列术语的含义是:

(一)ALCOA

一个常用的缩略词,简称“真实、准确、及时、可追溯”。

(二)审计追踪

审计追踪是一个捕获详细信息的过程,例如记录中的添加、删除或修改信息,无论纸质或者电子版的.,不会干扰或覆盖原始记录。审计追踪有助于复原或再现与记录有关的事件历史而忽略其媒介,包括行动的“谁、什么、什么时间和为什么”信息。例如,在纸质记录中,更改的审计追踪都会通过可使原始输入清晰可读的交叉单线标识并记录进行更改的人员缩写、更改日期及更改原因,根据需要证实并说明变化的理由。而对电子记录,安全的、计算机生成的带有时间戳的审计追踪系统在系统和记录一级均应允许复原或再现与事件相关的创建、修改和删除电子数据的过程。计算机生成的审计追踪应保存原始输入和文档的用户ID,行动的时间/日期戳及行动的理由,并按要求证实和说明行动的理由。计算机生成的审计追踪信息可能包括离散事件日志、历史文件、数据库查询或报告,或其它显示计算机化系统的、特定电子记录或记录中所包含的特定数据相关的事件的机制。

(三)数据

数据是指在GXP活动期间记录的并允许充分和完全的再现和评估GXP活动的,所有原始记录和原始记录经核证无误的副本,包括源数据和元数据,以及这一数据的所有的后续转换和报告。数据应在活动时按照固定方式准确记录。

数据可能包含在纸质记录(例如工作表和工作日志)、电子记录和审计追踪、照片、缩微胶卷或缩微胶片、音频或视频文件或藉以记录GXP活动有关信息的任何其它媒体。

(四)元数据

元数据是关于数据的数据,提供了解这些数据所需的上下文信息。通常情况下,这些都是描述结构、数据元素、相互关系和其它数据特征的数据。元数据还允许数据可归属于个人。例如,在称重时,没有元数据的数字8是毫无意义的,即单位,mg。其它元数据的例子可能包括活动的时间/日期戳,执行活动的操作人员ID,所用仪器ID,工艺参数,文件序列号,审计追踪及理解数据和重现活动所需的其它数据。

(五)数据管理

为确保数据在整个数据的生命周期内,不论其生成格式,数据的记录、处理、保存和使用均被完整、一致、准确记录的处理操作总和。

(六)数据可靠性

数据可靠性是指贯穿整个数据生命周期的数据采集是完整的、一致的和准确的程度。所收集的数据应该是可归属的,清晰的,同步记录的,原始的或真实副本,并且准确的。保障数据可靠性需要适当的质量和风险管理系统,包括遵守合理的科学原则和良好文件规范。

(七)数据生命周期

一种计划的方法用于评估和管理数据风险使其与潜在影响患者安全性、产品质量和/或在数据的创建、处理、审核、分析与报告、转移、储存和检索及持续监测直至退役的所有阶段中做出决定的可靠性相称。

(八)动态记录格式

使用动态格式记录,例如电子记录,允许用户和记录内容之间存在互动关系。例如,采用数据库格式的电子记录,允许能够跟踪、趋势分析和查询数据;使用电子记录维护的色谱记录,允许用户重新处理数据、通过适当的访问权限查看隐藏字段,放大基线以更清楚地查看积分。

(九)混合模式

以原始电子记录和纸质记录组合组成总记录集的计算机化系统,该记录集应被审核和保存。例如,在实验室分析人员使用计算机化仪器系统创建原始电子记录,然后打印结果摘要。人员对电子记录实行手写签名,例如,通过手写签署审查清单然后安全地连接到正在签署的电子记录。混合模式需要在整个记录保存期内所有记录类型之间的链接安全。

(十)基准记录(Primaryrecord)

当采用多于一种方法同步收集或保留的数据发生不一致时,该记录作为首要判断依据,即GMP附录计算机化系统中的主数据。

(十一)计算机化系统

一个计算机化的系统集中控制一个或多个自动化的业务流程的性能。它包括计算机硬件、软件、外围设备、网络、人员和文档,例如手册和标准操作规程。

(十二)归档

归档是贯穿于要求的记录保存期限,在专门的数据管理人员控制下,保护记录免于进一步被修改或删除,并储存这些记录。

(十三)备份

备份指创建在原始数据或系统出现丢失或者变得不可用(例如,在系统崩溃或磁盘损坏)的情况下的一个或多个电子文件的替代副本。值得注意的是,备份不同于归档,电子记录的备份仅作为灾难恢复目的,通常只是暂时存储,而且可能会定期覆盖。不应依赖备份副本作为归档机制。

(十四)良好文件规范

在这些指导原则内容中,良好文件规范是指那些共同地或单独地确保文档,无论是纸质还是电子版,是可归属的、清晰的、可追溯的、永久的、同步记录的、原始的和准确的措施。

(十五)高层管理者

最高级别的指挥和控制的公司或场地,拥有调动公司或场地资源的权利和责任的人员(部分基于ISO9000:20xx的ICHQ10)。

(十六)质量风险管理

在药物(医疗)产品生命周期内,对产品质量风险进行评估、控制、交流和回顾的系统过程(ICHQ9)。

(十七)GXP

用于规范受监管的药品、生物制品、医疗器械的临床前、临床、生产和上市后活动的一组良好规范首字母缩写,例如药物非临床研究质量管理规范、药物临床研究质量管理规范、药品生产质量管理规范、药品经营质量管理规范。

(十八)高级管理人员

数据网络管理 篇6

2006年7月25日世界著名的调查机构尼尔森发布的《中国互联网杯羹世界杯》主题调查报告指出:“随着意大利队幸运地捧走大力神杯,全球瞩目的世界杯足球赛终于圆满落下帷幕。此次盛会不仅仅独属于足球、体育,更属于将体育盛况传播给全球十几亿球迷的各种媒体。而互联网媒体用4年时间再次证明了自己的力量,证明了自己区别于传统媒体的独特魅力。”

遥遥领先的竞争优势

从1998年至今,新浪先后3次成功地深度报道世界杯。凭借着既有的用户基础、优秀的营销策略和庞大的采访队伍,新浪建立和保持了在竞争中的优势地位,赢得了业内外人士的一致认同。

据Alexa、iResearch、Chinarank、CR-Netratings等多个第三方数据机构发布的监测报告,新浪体育频道的月均覆盖数、日均覆盖数、独立访问者、流量等参数,无论是网民的日常点击浏览还是在重大比赛时段,新浪都稳居体育类网站榜首,相对于网络媒体竞争对手形成了很明显的领先优势。

中国互联网络信息中心(CNNIC)2006年发布的“世界杯球迷信息来源与互联网使用行为研究报告”指出,在2006年世界杯足球赛互联网报道中,73.8%的网民主要访问新浪网查看信息,新浪在网民首选网站和品牌忠诚度两项指标调查中均获得第一。同年尼尔森发布的《中国互联网杯羹世界杯》调查报告评价说:“新浪世界杯频道,以其丰富的资讯量和快速的更新速度以及长期积累的品牌效应,成为众多中国网民不可缺少的世界杯伴侣。”

强大的受众拉动力

新浪在3次世界杯足球赛期间,凭借专业、丰富的媒介资源与独特的营销策略,在既有的用户基础上,拉动了更多的体育爱好者将目光转向了赛事报道即时、丰富的网络媒体。网络媒体所具有的全面性与高互动性,进一步激发了网络球迷参与赛事讨论的热情,满足了球迷抒发情感的心理需要。

2002年韩日世界杯足球赛,新浪成为中国足球队独家互联网合作伙伴。据艾瑞发布的调查数据,30%以上的网民把新浪作为其浏览世界杯足球赛新闻的首选网站。在世界杯足球赛比赛期间,新浪策划了20余场中国队教练、球员嘉宾聊天活动,创下了10万人同时在线观看视频嘉宾聊天的纪录。除此之外,网络球迷在世界杯足球赛期间的新闻跟帖达到了49万条。

2006年德国世界杯,新浪对网络球迷的巨大拉动力再次得以印证。新浪的德国世界杯网站创下了中国单一体育赛事访问量新的纪录,据Nielsen/Netrating第三方统计,世界杯足球赛期间有超过5768万的独立用户访问了新浪网世界杯网站。比照CNNIC当时对中国网民数量的统计,访问新浪世界杯网站的独立用户数接近中国网民总数的一半。与2002年韩日世界杯相比,2006年德国世界杯期间,有25万多网友在新浪撰写世界杯博客,文章超过110万篇。新浪网民在世界杯足球赛期间的新闻跟帖超过了230万条。

不断加大的网络广告投放量

奥运会给了众多企业一个综合提升品牌形象的机会,通过各个项目的比赛卷入不同的受众,满足受众的个人偏好,使品牌宣传效果达到影响范围的最大化。相比之下,世界杯足球赛的内容更为具体,赞助商可以更准确地表现品牌内涵,凸显品牌个性,有利于塑造独特的品牌形象。因此,赞助商在提升品牌知名度与美誉度的同时,针对带有明显消费特征的球迷进行营销的策略与手段也要有所不同。

同为互联网媒体,其释放能量的方式是截然不同的。2002年韩日世界杯足球赛,新浪在众多互联网媒体中脱颖而出,成为网络营销队伍中的领军者。2006年德国世界杯,新浪再次续写体育营销的传奇:上百家品牌商在新浪投放广告,在与各大网络媒体的竞争中,新浪体育网络营销大战为其带来了800万美元的广告收入。

数据网络管理 篇7

由于传统存储设备容量、传输带宽有限,而且设备节点扩展难、使用难、数据管理难,不足以应付不断增长数据的存储要求,对于需要面向不同地域分布的用户进行服务更是无力应对。随着信息化基础设施的不断完善、大数据技术突飞猛进的发展,使得构建一种支持大数据架构存储的集群式数据管理系统成为可能。

1 关键技术点

1.1 集群技术

集群是将一组独立的计算机系统通过网络有机连接,主要解决高可用性、高性能计算、扩展性等问题。

集群的模式主要包括两种模式,负载均衡和冗余模式模式。

对于负载均衡,目前比较常用的负载均衡技术主要有基于DNS的负载均衡[2]、反向代理负载均衡和基于NAT(Net Address Translation)的负载均衡。

基于DNS负载均衡是通过DNS服务中的域名解析来实现负载均衡,在DNS服务器中,可以为多个不同的地址配置同一个名字,而最终查询这个名字的客户机将在解析这个名字时得到其中一个地址。因此,对于同一个名字,不同的客户机会得到不同的地址,他们也就访问不同地址上的WEB服务器,从而达到负载均衡的目的。

反向代理负载均衡使用代理服务器可以按照某种算法将会话连接均匀地转发给多台内部服务器,从而达到负载均衡的目的。

基于NAT的负载均衡技术使用内部地址和外部地址之间进行转换,以便具备内部地址的计算机能访问外部网络,而当外部网络中的计算机访问地址网关拥有的某一外部地址时,地址转换网关能将其转发到一个映射的内部地址上。这样,地址转换网关能将每个链接均匀转换为不同的内部服务器地址,从而达到负载分担的目的。

对于冗余模式,主要分为全冗余备份、互为冗余备份、中央备份服务器三种模式。

全冗余模式:集群中的每台服务器都会备份其它服务器的Session,当一台服务器发生故障,可以失败转移到其它任意一台服务器上。

互为冗余备份:A会有B的数据,B会有C的数据,C会有A的数据,如果A出错,就会由C接替A的工作。

中央备份服务器:N+1模式,一个中央Server存放所有Session,如果一台Server宕机,接管的Server就从中央服务器恢复相关Session数据。

1.2 分布式存储计算平台

Hadoop是Apache软件基金会所研发的开放源码项目,它是一个分布式存储计算平台,可以在其上开发和运行处理海量数据。让用户通过跨集群的计算机完成大型数据集的分布式处理任务。用户可以利用该框架在大量廉价计算机上构建一个具有高可靠和良好扩展性的分布式处理系统[3]。

它的两大核心内容为[4]:分布式文件系统(Hadoop distributed file system,HDFS),是分布式计算中数据存储管理的基础,具有高吞吐量数据访问能力、高容错性、高可靠性和高扩展性等提点,可用于存储海量级别的数据(Tbyte甚至Pbyte);Map Reduce(Google Map Reduce的开源实现)算法模型,是一种编程规范,2004年Google研究员通过对网页存储和并行分析处理研究后,在文献[5]提出该模型,并在ACM等多个期刊上转载[6,7],Map Reduce用于处理大规模数据集的计算模型,它可以将一个应用程序分解为多个并行计算指令,依靠大量的计算节点完成数据集的分布式计算,用户通过编写Map和Reduce两个函数来完成对应的逻辑功能,实现分布式处理的模型和算法,原理如图1所示[8]。

HDFS文件系统使用副本存储策略来实现高可靠性。系统的冗余因子一般为3,分别位于3个Data Node上,其中一个位于不同集群上,当一个Data Node出现故障后,其保存的数据仍然可以通过其他Data Node上保存的数据进行读取网络断开会造成一组Data Node和Data Node失去联系,Name Node根据缺失的心跳信息判断故障情况。当一个在Data Node出现故障,这时Name Node就再复制该Data Node的副本并存储到其他Data Node上,以此来保证系统的高可靠性。当用户需要访问文件系统中的文件时,都需要向Name Node提交请求,获得相应的权限后,再对Data Node进行读或写[2]。系统原理如图2所示[10]。

2 系统方案

2.1 需求分析

现有的数据文件管理系统大都基于FTP客户端和本地磁盘阵列完成的简单数据管理系统,不具备分布式扩展能力,而且客户端使用不方便、与客户业务结合不紧密,不支持多客户并行使用及海量数据文件的管理。

本方案建立一套在大数据集群架构层面的利用WEB技术进行管理的数据管理系统,提供统一的门户网站,支持接口一致的数据获取和下载访问,支持对数据权限的细粒度分配,包括组织架构设置、任务设置、审批流程的设置等。

基于大数据集群架构的数据文件管理系统应具备以下特点。

(1)统一的门户:提供用户管理、文件管理、任务管理、组织架构设置、审批流程控制等全面的控制能力。

(2)随时接入与访问数据:能够在任何终端、平台登录系统,接入和访问数据。

(3)高扩展性:能够通过堆叠硬件,零配置增加存储能力且用户访问能力不降低的系统性能。

(4)高可靠:系统具有冗余能力,在单点损坏的情况下能够报警并自动启用冗余节点。

(5)高安全性:系统具有统一认证的权限控制能力,防止非法用户访问未授权数据。

2.2 系统架构

大数据集群架构的数据管理系统是以数据管理和存储为核心的计算平台,它的内涵主要是在分布式存储平台基础上,通过集群应用、网络技术和分布式文件系统等技术,将网路中大量不同类型的存储设备集合起来协同工作,共同对外提供数据存储和业务访问功能,并能够保证数据的安全性并节约存储空间。实现了存储介质的互联和数据的统一管理、共享、冲突解决、透明存储、容错容灾、一致性及数据迁移等功能,传统存储设备主要是指简单的硬件,例如:阵列、光纤存储等,而大数据集群架构的组成则是存储设备、网络设备、应用软件、服务器、访问接口等多部分的高效组合。基于大数据集群架构的数据管理系统主要由3层组成,它是一种典型的层次结构。

存储层的设备主要是指最底层设备,包括:Nas、FC、i SCSI等,统一由上一层的虚拟化管理设备进行集中管理,对底层设备进行状态监视和审计维护等。考虑到就近服务的要求,以提高当地用户的体验,并增加抗毁性,可以把存储集群分布在不同的区域,各个区域间的集群通过网络互联形成逻辑上对用户透明的存储设备。

基础管理层是核心层,通过利用集群技术、分布式文件系统技术、数据压缩、加密技术实现不同区域间多个存储设备的协同工作,一体化对外提供服务。为了保证数据安全性,采用了数据加密技术,同时为了提高数据可靠性,采用数据容灾备份技术。

应用层主要提供了基本的用户权限认证、权限管理、部门组织架构、审批流程控制、数据驾驶舱管理、任务管理等业务层面的控制和应用,为用户提供业务层面的统一界面。

本系统前端采用WEB架构进行部署,后端采用Hadoop的HDFS分布式存储系统,前端软件利用负载均衡模式进行集群化部署,后端Hadoop系统自身具备了冗余模式的集群管理方式。

应用服务器集群采用Tomcat组成集群,使用分组集群架构,利用Tomcat自身的全冗余session备份模式,集群中的每台服务器都会备份其它服务器的Session,当一台服务器发生故障,可以失败转移到其它任意一台服务器上。

2.3 软件架构

大数据集群架构的数据文件管理系统前端采用HTML5进行人机交互设计,后端架构采用B/S架构设计,基于Spring MVC框架,实现模型、视图、控制器的分离,利于系统功能模块升级;权限管理采用Apache Shiro、界面显示框架采用Bootstrap、JQuery等Web应用主流框架/组件,降低开发风险和成本,缩短开发周期,提高整个系统安全性、稳定性、可扩展性。数据底层采用Hadoop HDFS文件系统结合My SQL数据库完成管理数据和数据文件的管理。

软件架构层次划分为分布式文件层、数据层、业务层和应用层四层。软件架构如图4所示。

分布式数据文件层有Hadoop的hdfs文件系统进行服务,直接对外提供数据文件的分布式访问。

数据层安装在独立的Mysql数据库内,保存数据文件的属性信息、用户信息、权限信息、组织架构信息以及任务信息等应用系统的基础信息。

业务层包含了用户、权限、工作流、任务控制、组织架构等信息的添加、删除、变更等基础管理服务,以及数据缓存机制,文件操作服务包括新建目录、删除目录、复制、合并、重命名基本文件操作。其中数据合并功能,可以将My Sql数据文件合并备份到分布式数据文件层,保证管理信息的可靠性,也提高了整个系统的可靠性。

应用层提供了相关业务层的人机交互界面,为用户提供统一的视图信息。

软件底层的核心主要是对Hadoop hdfs文件系统的操作。Hadoop有一个抽象的文件系统,HDFS只是其中一个实现,Java抽象类org.apache.hadoop.fs.File System定义了Hadoop的文件系统接口。Hadoop是通过Java编写的,通过org.apache.hadoop.fs.File System的具体实现类Distributed File System,可以调用所有的Hadoop hdfs文件系统交互操作。

综合利用Distributed File System和Hadoop提供的IOutils类完成数据文件的读写、查询等操作,实现业务层的文件操作功能。

分布式文件数据API操作的主要步骤是[9]:

(1)调用get函数得到文件系统实例,其中需要输入服务器的配置信息;

(2)调用open函数获取文件的输入流;

(3)调用create函数,制定Path对象,返回输出流;

(4)该过程可以使用Progressable重载方法跟踪执行进行;

(5)调用IOutils.copy Bytes方法完成数据的操作。

3 部署方式

3.1 原则

(1)可扩展性:服务器需具有横向扩展能力,因为随着应用和企业的不断壮大,用户增多,服务器应具备一定的可扩展空间;

(2)高可用性:为了保障服务的连续性,通常要求服务器不间断地工作,持续为用户提供连续服务,对于关键应用需要任何时间都可用,并且能保证响应速度。因此就要求服务器集群具有强大的处理能力,不能有单点故障,保证系统的高可用。

3.2 方案

通过对关键技术的对比分析,部署方案采用基于DNS负载均衡、反向代理均衡以及Tomcat全冗余session冗余备份的解决方案,DNS负载均衡作为全局负载器,通过分析客户在网络上地址,以及反向代理服务器的负载情况,将反向代理均衡服务器发布向客户,反向代理均衡器通过审视内部应用服务器的负载情况,将任务提交到空闲的服务器执行,并统一对外提供服务,而Tomcat自身的session全冗余备份模式,保证了服务的不间断和连续一致性。部署方案如图DNS全局负载均衡采用具有负载均衡功能的4层交换设备,反向代理服务器采用安装了ngix软件服务器,内部应用服务器利用tomcat部署小型集群。

通过以上部署,可以实现在广域网上不同地域服务器间的流量调配,保证终端使用最佳的服务,确保服务质量。

4 优势分析

(1)以WEB架构组建的数据管理应用,让用户有独享的数据管理界面,可以随时、随地接入,对数据进行管理、获取和分享。

(2)采用分布式集群架构,增强了多用户服务能力,只需通过简单的增加应用服务器,就可以从容的应对来自不同地域用户的激增。

(3)存储采用HDFS大数据分布式文件系统,较传统存储阵列带来了以下优点:

高性能,阵列主控一般链接速率6Gbps、10Gbps,总是有上限的服务能力,很难满足用户激增或数据吞吐量激增的情况,而随着用户、用户数据不断的增多,传统阵列架构将很难满足,而本系统数据分布在不同的Data Node节点上,每个Data Node节点都可以10Gbps为应用服务器提供数据,多台Data Node节点组合在一起,理想的吞吐率将达到10Gbps×N,远远超过传统阵列。

易扩充,该架构只需要通过简单扩展Data Node节点,就可以自动增加存储容量,传统阵列需要经过备份数据、重做阵列来扩充数据容量。

高可靠,一般默认配置下,该架构有3份的冗余存储,并可以通过策略来改变冗余的存储地域,保证了在不同地域、不同存储机柜都有备份。

经济性,可以利用廉价商用设备作为扩充节点,减少投入。

5 结束语

本文介绍了一种基于大数据集群架构的据管理系统方案,可以应用于需要在不同地域进行数据管理的场景,实现透明化数据管理与共享。通过利用HDFS分布式文件系统作为底层存储,上层利用Ngix反向代理的方式管理集群负载,解决了数据管理系统要求的高效性、高可用性和高可扩展性,以该架构搭建的系统能够解决在用户不断增多的情况下,较容易的通过增加硬件就完成系统的扩容,并具备异地就近服务、异地互备的能力。另外,前端搭建了WEB架构的数据管理应用系统,用户可以随时、随地的接入网路对数据进行管理和分享。

该架构为大数据架构的最基础平台,后期通过部署分布式计算框架或利用Map Reduce模型,将现有数据节点变为计算节点,可以方便的为用户提供并行计算服务。

摘要:由于传统存储设备容量、传输带宽有限,而且设备节点扩展难、使用难、数据管理难,不足以应付不断增长的用户及数据存储要求。针对这种情况,通过对现有大数据底层支撑技术的梳理,搭建了一种基于大数据集群架构的数据管理系统,该系统为满足支持不同地域海量数据服务的需求,考虑了高性能、易用性、易扩展和可靠性等方面的因素,解决了在用户激增的情况下,较容易的通过增加硬件就完成系统的扩容,并具备异地就近服务、异地互备的能力。

关键词:数据管理,大数据,集群,Hadoop Hdfs

参考文献

[1]沈志荣,易乐天,舒继武.大规模数据中心的数据存储可靠性[J].中国计算机学会通讯,2012,8(10):8-16.

[2]崔晶.基于DNS的Web服务集群负载平衡算法[J].中国科技信息,2007(5):118-120.

[3]陆嘉恒,文继荣,毛新生,等.分布式系统及云计算概论[M].北京:清华大学出版社,2011.

[4]蔡斌,陈湘萍.Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理[M].北京:机械工业出版社,2013.

[5]Dean J,Ghemawat S.Map Reduce:Simplified Data Processing on Large Clusters[C].//Proc of 6th OSDI.San Francisco:USENIX Association,2004:137-150.

[6]Dean J,Ghemawat S.Experiences with Map Reduce:an abstraction for large scale compultation[C].//Proc 15th Inter-Conf on PACT.Washington DC,2006:1-2.

[7]Dean J,Ghemawat S Map Reduce:a flexible data processing tool[J].Communications of the ACM,2010,53:72-77.

[8]Apache Haoop[EB/OL].(2014-06-30)..http://hadoop.apache.org.

[9]李振举,李学军,杨晟.HDFS可视化管理系统设计与实现[J].微型机与应用,2015,34(8):80-82.

数据网络管理 篇8

一是数据缺乏完整性和一致性, 重复数据多;二是数据标准不统一, 共享过程中不知以谁为“主”。

为解决上述现象, 实现数据在整个企业范围内保持一致性、完整性和正确性, 就需要进行主数据管理。也就是从企业的多个业务系统中整合核心的、需要共享的数据 (主数据) , 集中进行数据的清洗和丰富, 并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给全企业范围内需要使用这些数据的操作型应用和分析型应用, 包括各个业务系统、业务流程和决策支持系统等。

用友UAP的主数据管理系统负责主数据服务管理调度、数据读取转换存储以及和其他业务系统的数据交换。在实践经验中, 用友UAP发现很多企业由于分子公司较多, 并且使用的系统多样, 主数据系统和其它业务系统很难实现统一, 并且很难快速筛选出重要信息。

用友UAP主数据管理系统以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给全企业范围内需要使用这些数据的操作型应用和分析型应用。完全实现具备集成、共享、数据质量、数据治理等关键要素, 将分散的主数据统一集中管理。

比如某金融机构, 面临这样的问题:基础数据不统一, 系统与系统之间数据无法共享, 大量数据重复录入。另外, 针对不同角色人员, 他们希望拥有可定制的自助服务页面, 使信息获取准确、及时。用友UAP根据此客户的系统现状和需求, 将用户数据、单位数据、部门数据、岗位数据、职务数据、人员数据、客户档案数据等都纳入主数据管理。这些数据需要通过主数据管理平台进行统一的管理, 以避免这些同类型数据在各个系统中的重复录入;同时, 用友UAP在该企业服务规范中, 为每种主数据制定相关的数据管理服务, 这些服务对所有应用系统开放。企业内的所有系统均可以通过这些服务获取主数据, 并参与主数据的管理。

面对企业内部异构的系统, 如何从不同系统中快速获取对自己有价值的数据, 成为一大问题。针对于此, 用友UAP采用数据推送的方式。数据源端系统可以发布数据, 同时对该数据感兴趣的系统可以订阅并接收源端系统发出的数据然后对数据进行处理。

首先, 数据发布方通过ESB提供的服务接口将数据放入ESB中, ESB得到数据后, 将其写入消息队列中。然后, 异构系统通过ESB提供的服务订阅感兴趣的数据, ESB在收到数据后通知异构系统有新数据到达。之后, 异构系统通过ESB提供的服务主动访问ESB去取数据, ESB得到取数据请求后, 访问消息队列取出数据。最后ESB将数据返回系统。

数据网络管理 篇9

1.1 现状

从2008年开始, 我市建立了重庆市主城范围内集中统一管理的城镇地籍数据库, 实现了城镇土地登记系统和数据的大集中, 中心数据库采用ORACLE数据库平台。

按照我市土地和房屋合一登记的管理模式的要求, 从2010年开始, 我市各房屋登记中心在全市集中的城镇地籍数据库的基础上, 结合原有的房屋登记系统, 以宗地为线索开展了房屋登记数据的清理工作, 建立了全市集中统一的城镇地房籍数据库和应用系统。

1.2 需求

由于我市实行的是大集中的数据管理模式, 中心生产数据库在出现故障的情况下如不能得到及时恢复, 将导致全市土地和房屋登记业务停顿, 因此必须在中心机房建立与生产数据库实时同步的数据库, 确保在生产数据库出现较长时间不能恢复的故障的情况下, 启用备用数据库, 保证业务的连续。

同时, 由于数据在市局统一存放, 各单位无数据库。而各单位由于对数据使用的需求千差万别, 无法在市局统一的数据库上满足其个性化的需求。因此需将市局集中的数据同步到各区, 既可实现数据的异地备份, 同时各区可利用改回备数据进行各类统计分析和专题利用。

2. 技术比较

目前基于Oracle数据库的数据同步技术大体上可分为两类:Oracle自带的数据同步技术和第三方厂商提供的数据同步技术。Oracle自带的同步技术主要有DataGuard, Streams, GoldenGate三种技术。第三方厂商的数据同步技术有Quest公司的SharePlex和DSG的RealSync。

本文重点就ORACLE本身提供的Data Guard, Streams, GoldenGate三种同步技术进行比较。

2.1 DataGuard技术

DataGuard是Oracle数据库自带的数据同步功能, 基本原理是将日志文件从原数据库传输到目标数据库, 然后在目标数据库上应用 (Apply) 这些日志文件, 从而使目标数据库与源数据库保持同步。

DataGuard为源数据库提供了两种日志传输方式, ARCH传输方式和LGWR传输方式, 其中, LGWR传输方式可实现同步和异步的传输。在这些日志传输的方式上, 可提供三种数据

保护模式, 即最大性能 (Maximum Performance Mode) 、最大保护 (Maximum Protection Mode) 和最大可用 (Maximum Availability Mode) 。

根据目标数据库对日志应用方式 (Log Apply) 的不同, 该技术可分为Physical Standby (Redo Apply) 和Logical Standby (SQL Apply) 两种方式。物理同步是指目标库通过介质恢复的方式保持与源数据库同步。逻辑同步是指目标数据库通过LogMiner挖掘从源数据库传输过来的日志, 构造成SQL语句, 然后在目标库上执行这些SQL, 使之与源数据库保持同步。

2.2 Streams技术

Streams技术是指利用挖掘日志文件生成变更的逻辑记录, 然后将这些变更应用到目标数据库上, 从而实现数据库之间或一个数据库内部的数据同步。

其实现步骤为利用Capture进程分析日志, 生成逻辑记录 (LCR) , 将其放入一个队列。Propagation进程将生成的逻辑记录发送到目标数据库中。目标数据库利用Apply进程将LCR应用到数据库中, 实现与源数据库的同步。

Capture进程一般位于源数据库, Capture进程将日志分析后生成的LCR, 然后再传输到目标数据库中进行应用。也可将Capture进程配置在目标数据库中, 源数据库直接将日志文件传输到目标数据库, 然后再利用配置在目标数据库的Capture进程进行分析, 生成逻辑记录再利用Apply进程进行应用。

2.3 GoldenGate技术

GoldenGate数据同步的基本原理是由Extract进程读取源数据库的事物日志 (Oracle中是redo log) , 将其中的变更操作 (insert、update、delete等) 按事务执行的顺序组合在一起, 直接将其发送到目标服务其上, 或者存放到Trails文件中, 然后由Data Pump进程将Trails文件传输到目标服务其上, 在目标服务器上Collector进程接收从源服务器传送过来的Trails文件, 最后由Replicat进程将Trails文件中的数据装载到目标数据库中。GoldenGate通过网络传输的数据量通常是日志量的1/4或更少。

以下为三者的优劣比较:

3. 技术选择

3.1 中心数据库与本地数据库同步技术选择

为避免中心数据库在出现长时间不能恢复故障引起业务的长时间停顿, 我们利用2004年购置的IBM P650小机建立了中心数据库的镜像数据库。考虑到中心数据库和镜像数据库均使用UNIX操作系统, 而且都在一个局域网内, 为方便配置, 我们通过DATA GUARD实现中心数据库与镜像数据库的数据同步。同时, 为确保数据数据的零丢失, 日志传输采用最大保护模式。

3.2 中心数据库与区 (县) 数据库异地同步的技术选择

由于我市市级集中的中心数据库安装在UNIX操作系统上, 而各区只能提供普通的PC服务器均安装的为WINDOWS操作系统进行数据回备, 而且单位数量有三十多个, 由于DATA GUARD只支持同平台的数据库之间的数据同步, 而且只支持最多9个的STANDBY数据库。同时考虑到中心数据库之间与其他单位的数据库分别处于不同地方, 之间用6M的网络相连, 正常工作时间还需通过网络传输大量的业务数据, 而通过STREAM的数据同步技术需占用大量的网络带宽。

由于中心数据库与区 (县) 数据库平台操作系统平台异构, 同时要实现一个中心数据库与30多个数据库的同步, 尽量减少因同步数据对网络带宽的占用, 考虑到GOLDEN GATE在这些方面都具有明显优点, 因此中心数据库与区 (县) 数据库的同步采用GOLDEN GATE的技术实现。

摘要:为确保在大集中数据管理模式下数据的安全, 本文就目前流行的ORACLE数据同步技术DATA GUARD、STREAM、GOLDEN GATE技术进行比较, 分析其优劣, 并结合业务需求, 就如何建立同地和异地的数据同步机制进行探讨。

关键词:数据库,ORACLE,数据同步,安全

参考文献

[1]郭伟华浅谈ORACLE数据同步技术《科技资讯》2010.2

数据网络管理 篇10

一、高校学生管理大数据的内涵

(一)大数据的内涵

全球最具权威的IT研究与顾问咨询公司高德纳将大数据定义为需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(2001)。麦肯锡环球研究院在其《大数据:创新、竞争和生产力的下一个前沿》报告中指出,“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集(2011)。而《大数据时代》的作者维克托迈尔·舍恩伯格(2012)认为,大数据是人们获得新认知、创造新价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。

(二)高校学生管理大数据的内涵

信息技术的其普及与广泛应用,不仅推动了高等教育信息化的发展,同时也带来了学生学习、交流与生活方面的各种结构化的或碎片数据,大量数据的产生无疑将高校学生教育管理带入了大数据时代。高校学生管理大数据就是要整合校园信息资源,主动收集学生学习、生活和网络使用数据,充分利用大数据及其技术,分析和研究数据中蕴含的价值,进而促进高校学生教育管理工作创新。从这个观点出发,发展高校学生管理大数据,从揭示大学生学习、行为规律和高校学生教育管理规律,对推动高校学生教育管理工作创新与发展、丰富教育大数据理论研究具有重要意义。

二、高校学生管理大数据主要组成

目前,我国教育信息化从基础设施、数字资源、人才培训、关键技术及标准等方面都有了长足的发展。大部分高校在数字化校园建设的基础上,建设完成了完备的应用系统。信息技术的发展及其普及与广泛应用,不仅推动了高等教育信息化的发展,同时也带来了大学生学习、交流与生活方面的各种结构化的或者碎片数据,大量数据的产生无疑将高校学生教育管理带入了大数据时代,为高校学生管理大数据建设打下了坚实基础。

当前,大多数高校通过数字校园建设,形成了诸如学生行为管理系统、教务管理系统、图书借阅系统、校园财务系统、学生自主选学系统、精品课程平台、学生上网认证系统、校园门禁系统、学生校园消费查询系统等应用系统,在高校人才培养和学生健康成长方面发挥了重要作用。经过多年的运行,这些系统产生了大量数据,构成了高校学生教育管理大数据的主体。同时,学生在互联网和微信、微博等新媒体上产生的数据,也是高校学生教育管理大数据不可忽视的组成部分。根据笔者对这些数据的分析和研究,从数据的归属角度,把其初步分为下面几个方面:

(一)基础数据

这些数据主要涉及大量与学生相关的基本情况,诸如学生的基本信息、兴趣爱好、政治面貌、家庭情况、所属院系专业、入校成绩、是否外宿等数据。这些数据,往往反映了学生的学习基础、家庭背景等信息,掌握这些信息,将有利于针对性地开展学生教育管理和帮扶工作。

(二)学习数据

学校教务管理系统、精品课程学习平台等系统包括了学生选课数据、学生自主选学数据、学生课堂考勤数据、考试成绩、教师上课评价数据、学生参与讲座和学术报告的情况等有效信息,是学生学习行为的全面反映。图书借阅系统储存了学生所有借书信息,学生实践平台则记录了学生参与课外实践的数据。这部分学习数据蕴含了学生的学习兴趣和学习状态,可以成为学习推荐服务的重要参考。

(三)行为数据

高校学生管理系统是高校开展学生教育管理的主要信息化平台,其中蕴含了学生奖励信息、学生违纪信息等数据资源,这些结构化数据中蕴含了大量学生行为特征信息,可以作为学生行为分析的重要数据来源。

(四)资助数据

学生资助管理系统能够充分反映学生在校期间受资助的情况,学校财务系统则能够反映学生的缴费情况、勤工助学酬劳等信息,学生校园消费查询系统则能基本反映出学生在一定时期的就餐和其他消费情况,是分析学生家庭经济困难状况的很好参考。

(五)健康数据

校园网认证系统包含了学生经过学校校园网出口访问的所有网页信息,分析学生上网的目标网页内容,不仅能够反映出学生的兴趣爱好,同时也能够发现一些人格方面的缺陷。而学生心理健康管理系统等能够直接反映学生心理健康状况,为制定心理健康服务计划,帮助学生健康成长具有重要价值。

(六)社交数据

随着信息技术的普及,学生对使用网络和新媒体开展社交产生了浓厚兴趣。每天在QQ、微信、微博、传统的BBS等平台产生大量数据,这些数据不仅包含了学生交流的信息,也能够充分反映校园舆情,对掌握学生思想、心理等具有很重要的价值。

三、高校学生管理大数据建设思路

目前,对高校学生管理大数据建设的研究还很少,更多地是就高校大数据集成和典型应用方面的探讨。笔者认为,大数据时代运用大数据支持管理服务决策毋庸置疑。高校学生教育管理工作必须紧跟形势,运用好信息化技术和大数据这个方法论,全面更新理念,进一步树立数据意识,从顶层设计着手,认真组建专业挖掘团队,全面整合校内外数据资源,在健全安全机制的基础上,积极发展学生管理大数据,合理运用大数据的分析结果为工作决策提供数据支持。

从技术的角度讲,高校校园网中各个应用系统往往各自独立运行,加上互联网和微信、微博等数据的碎片化特征,要形成真正的大数据,还需要进一步制定政策,运用技术手段开展数据整合工作,通过全面整合,打通数据之间的壁垒,使沉睡的数据被重新激活,形成更大的价值。目前互联网技术已经非常成熟,加上近年来日益发展的云计算、云存储、NoS ql以及网络爬虫技术的发展,为高校大数据整合提供了技术基础。

从人才的角度,这些技术的应用,必须要有专门的团队支持。目前高校学生教育管理队伍难以满足数据驱动需求。因此要及时成立高校教育管理大数据工作领导小组,组建专门的数据收集团队和分析挖掘团队。运用计算机技术开展数据采集和数据融合,运用数学、统计学的原理开展数据挖掘与建模,形成预测和决策的数据可视化成果。把这些成果应用到高校人才培养中,实现个性化推荐学习资源、为学生量身定制学业计划、及时分析校园舆情影响、实时预测学生思想动态,将会有效提升高校学生教育管理的有效性。

从安全的角度讲,大数据时代如果不能确保数据安全,将会造成“大数据就是大风险”的可怕后果。高校教育大数据不仅整合了高校师生信息,也包括大量学生学习、生活和社交以及校园舆情方面的数据,将这些海量数据集中存储,虽然方便了数据分析和挖掘,但如果由于安全管理不到位造成数据丢失和损坏,则将引发毁灭性的灾难。同时黑客攻击或不当层面的数据公开,将会导致师生信息的泄露,给师生人身安全和校园声誉带来不良影响。因此,高校要在发展教育管理大数据的同时,切实加强制度建设,形成数据规范化管理,要明确数据管理的职能部门,制定严格的工作方案和预案,对什么数据可以公开,什么数据在一定层面公开,什么数据必须保密做出规定。同时也要对可能出现的风险建立防控预案,保障数据安全的同时,维护好师生和高校利益。

四、高校学生管理大数据的应用建议

笔者在总结现有研究的基础上,认为高校学生管理大数据主要在以下方面具有重要应用。一是建立教学资源推荐系统。通过整合学生基础数据和自主选学平台、图书借阅系统等数据,可以深入分析学生兴趣爱好与教学资源的关联关系,主动开展推送服务,不仅可以满足学生的学习需求,同时可以有效提升教学资源的利用率。二是建立学生行为预警系统。通过整合学生管理系统和教务管理系统,可以深入挖掘学生行为和学业之间的关联关系,建立相应的预测模型,对学生学业和行为进行预警,可以在问题发生之前采取相应措施,确保学生健康成长,顺利完成学业。三是建立学生心理健康预警与服务系统。通过整合学生基本数据和健康数据,可以及时筛查问题学生,主动开展心理健康疏导服务,把心理健康教育做到无形。四是构建资助认定与服务系统。通过整合学生基础数据、资助数据、行为数据等方面的信息,通过数据分析支持学生家庭经济困难认定,及时挖掘学生消费等信息,为学生资助服务提供数据支撑。五是建立校园舆情监测系统。通过整合学生社交数据,及时分析校园舆情影响、实时预测学生思想动态,将会有效提升高校学生教育管理的有效性。

参考文献

[1]维克托·迈尔-舍恩伯格.大数据时代[M].浙江人民出版社,2013

[2]邱启照,孙鹏.大数据时代高校思想政治教育的机遇和挑战[J].教育理论与实践,2016(9)

[3]梁家峰,亓振华.适应与创新:大数据时代的高校思想政治教育工作[J].思想教育研究,2013(6)

[4]“信息社会发展研究”课题组,张新红.中国信息社会发展报告2015[J].电子政务,2015(6)

[5]李怀杰,夏虎.大数据时代高校思想政治教育模式创新探究[J].思想教育研究,2015(5)

[6]胡晶君.大数据时代高校学生工作创新探究[J].太原大学教育学院学报,2015(4)

[7]桑庆兵.大数据在高校的应用与思考[J].南通纺织职业技术学院学报,2013(2)

[8]胡树祥,谢玉进.大数据时代的网络思想政治教育[J].思想教育研究,2013(6)

[9]张燕南,胡继岳.关于大数据应用于教育的思考[J].中国电力教育,2013(32)

用数据管理教学 篇11

你考虑初三的工作多久了?几天、几周,还是更长时间?

多久想起一次来?每小时、每天,或者每周几次?

你每次考虑这件事情需要多少时间?用几分钟还是几个小时?

这件事情对你来说有多重要?以1到10为序,你给这件事情打几分?

对你来说,这件事情的优先次序如何?以1到10为序,排第几?

你想得最多的问题是什么?把思考最多的重要问题依次排下来。

…………

我发现,当我们的对话用数据表达时,她的眉头越来越舒展,注意力开始关注解决问题、寻找方法,而不是陷在问题本身。两个小时的交流,她已经有了关于调动教师积极性、激发学生主动性、课堂高效愉悦、常规管理等诸多办法。初三学部的工作思路形成了,工作备案表配发了。开学后,初三工作秩序井然,工作一个又一个得到落实,我们一步步收获着当初设定的预期目标。再也看不见她的愁容了,工作繁重,但一身轻松。

数据的魅力由此可见一斑。它方便人们更深入地思考,思维更加清晰,而且数字简单直接,特别容易保存在意识之中,行动力更强。

对考试进行测量

每次期中、期末考试结束后,广文中学各个学科都要进行大量的测量和数据分析,从中寻求改进。一次,初三物理学科期中考试结束后,对单项选择题进行了如下的数据统计:

之所以把学生选定的每个选项均做统计,是因为教师更需要分析,为什么学生选定了不正确的答案。上述图表,就让老师们捕捉了如下信息:

第2、7题得分率很高。原因何在?

第1、4题得分率不高,又是什么原因导致的?

第4题,为什么相当比例的学生选了A和D?

坐下来研究,老师们发现,得分率高的题,分别考察天平的使用方法、惯性、力的作用效果,不是因为内容简单,而是在学习这三个知识点的时候,全部在实验室里,全员参与实验过程,学生有观察、有体验,动手能力强,自然不容易遗忘。

此后,没有老师会省略实验。

第1、4题,都是考察估测的,为何失分者多?主要原因在于学生缺乏生活经验,知识学习得很抽象,没有与生活实际建立联系,做题时只好“猜测”,而不是“估测”了。

第1题:在生活和工作中经常进行估测,以下估测比较接近实际的是( )

A.学生课桌的高度大约在1.2m和1.5m之间

B.l个苹果的质量大约在0.5kg和1.0kg之间

C.汽车运行的平均速度大约在100km/h到150km/h之间

D.成人步行的速度大约在1.1m/s到1.3m/s之间

第4题:下列各物体中,质量为4.2×107mg的物体可能是( )

A.一只鸡 B.一个鸡蛋 C.一名中学生 D.一头大象

讲解试题的时候,老师们发现,孩子不知道从一楼正常步行到三楼所用的时间,不知道500克大约相当几个鸡蛋或苹果,不知道水饺刚下锅时沉底、过一会才上浮。家长为了让孩子获得好成绩,几乎包揽了所有的家务,也就剥夺了学生参与社会生活的所有权利。

老师们开始构建“引桥课程”,建立知识与学生生活的联结,既为学习新知铺垫引桥,又为学习新知后灵活运用。

比如,学习“电磁波的产生”的时候,老师会安排学生提前进行如下的体验:

打开电视机,反复开关电灯,发现电视机的声音和图像受到怎样的影响。

把收音机调节到AM波段,然后放到一盏调光台灯附近,收音机的声音会有什么变化?

查找有关“火花发报机”的资料。

就是他们常常面对的生活,也因为不注意观察生活而影响了知识的学习。比如他们不知道常吃的小食品质量到底是多少;如果一层楼的高度大约3米,从一楼到三楼的高度学生就会直接得出9米。

不注意观察的习惯体现在了做题上,这也是为什么第4题更多学生选了A或者D的原因,他们没有观察到单位是mg,也就不去进行单位换算,只是根据数值做出了简单判断。

引导学生观察生活,也成了引桥课程的重要内容。

比如,学习“电磁波的传播”时,教师安排学生观察生活:

仔细观察收音机的刻度盘,记下它能接受中波调幅(AM)频率范围和调频(FM)频率范围,对应位置标出的频率和波长,有什么规律?

找出电视机的说明书,上面标出了该电视机可接受的频率数值,记下。

在较大面积的平静水面上,用石块激起水波,观察水波的传播情况。

用数据评析课堂

一般的,听课之后通常会有评课。如果评课者对好课的评判标准不同,会对同一课堂的某个环节给出截然相反的评价来。课堂没有一个明确的定位,前行的力量自然就会减弱,甚至老师尝试越多挫败感越大。所以,科学的评课最好借用数据分析。

在课改初期,我们曾经用“数据”测量过一个优秀老师的课堂,使他从此走上了探索课改的新历程。

那是一节习题课,老师设计了三道由浅入深的证明题。上课时,完全是老师讲孩子听。老师讲得汗流浃背,我观察学生,动笔者不多,大多只是用耳朵在听。课后,对56个学生进行原题考试,正确率只有56%。“效率这么低?”上课的老师不相信这样的结果,“我讲得很清楚啊”。第二节课,我们建议他采用学生先行自主做题,然后小组交流讨论,有问题再由老师讲解的方式,一节课下来,达标率上升为82%。

nlc202309041746

前后两节课的对比深深地刺痛了这位老师,从此,他带头进行课改。如今,他依然是课改的领头雁。

历史郭老师在第一次执教《改革开放》一课时,完全按照教材的顺序进行处理,即先教学农村改革,然后是对外开放,最后是城市改革。“课堂达标”检测发现,学生对城市改革的知识把握得很不好,不少中等学生在这里出了问题。

学生“课堂达标”分析

(错误主要集中在讲城市改革的7、8题)

分析“课堂教学流程效益网格图”,我们发现,在学习城市改革这一内容时,学生的参与率下降,仅为76%,几乎每个小组都有1~2个学生不参与课堂。什么原因?教研组分析认为,这节课的主题是改革、开放,将农村改革和城市改革分割开来,很容易导致学生将两个改革分裂开来,一提改革就是指农村家庭联产承包责任制。从学生的认知规律看,应该把农村改革和城市改革放在一起,更有利于学生整体把握知识。

另外,学生参与率低,仅仅是把农村改革和城市改革分开的原因吗?

共同看“课堂录像”,老师们发现,城市改革部分引用了海尔改革的例子,当要求学生分析海尔为什么要改革时,学生大都回答不上来,郭老师也是寥寥数语带过,也没有提及“计划经济”这一重要原因。录像上能清晰地看到几乎每个学生此时的那份迷茫的眼神。教研组决定,第二节课改用潍柴改革的案例,这个案例就在学生身边,甚至很多学生父母都是潍柴职工,学生理解起来会容易。对于“计划经济”也要简单解释,以帮助学生理解当时的现状。

对学生对课堂的“满意度”进行分析,也能帮助郭老师找到改进的切入点。这节课,学生对导入新课、小组合作学习、质疑释疑、精讲点拨、合作达标五个环节,分别有6、13、2、30、2人投了满意票(每人确定一个最喜欢的环节)。30个学生最认可精讲点拨,有些出乎老师的意料。在以前的课堂上,学生最认可的往往是合作学习,或者质疑释疑。原因何在?从学生的反馈中发现,本节课内容较多,有些历史事件和名词学生普遍很难理解,在精讲点拨环节,老师运用了大量的资料和例子,帮助学生加深了对问题的理解,所以深得学生喜欢。这也告诉老师们,任何课堂都不能机械地规定每个环节所占用的时间,更不能对教师的讲授时间进行“一刀切”。

有了这些分析,老师们共同研究,重新备课,对原有教案进行修订和调整,如:减少导入时间,增加精讲点拨时间;优化教材内容,补充潍柴改革案例;删除某些环节,强化巩固落实环节,特别增加写的训练。第二次课后达标测验中,满分达到了47人,远远高于备课时满分60%的预期,群体成绩有了大幅度上升。

大数据时代政府网络舆情管理研究 篇12

随着世界全方位的数据化、电子化,海量信息的涌现催生了新的大数据时代。大数据与传统意义上的数据具有本质区别,具有高密度、多样性、可重用、动态性、半结构化、强调速度、重视关联等特性[1]。由于移动新闻客户端的发力,公众的信息渠道日益便捷,接受的信息量逐步增加。在保证网络舆情管理及时性、准确性的前提下,必须在管理思维、工作模式、技术方法等领域进行重大变革[2]。这对政府网络舆情管理及分析研判应对工作,提出了新的要求。

本文将从大数据研究的价值、网络舆情管理系统的技术手段及难点和政府网络舆情实践与策略4个层面对国内外相关文献进行分析、评述,并提出策略建议。

1 大数据研究的价值

大数据是开放性的数据互通互联,在技术、政务、商业、媒体等各领域都有相关应用。国内众多学者从不同方面对大数据的应用研究价值进行了表述。

马兵[3]认为,需要从最大数据采集、数据深挖、信息关联、趋势研判、内容边界等方面着手提高大数据研究的价值。

杨海龙[4]认为,大数据技术有助于提高网络舆情数据处理的效率,提高网络舆情分析的准确度和精确度,网络舆情处置能力。

葛仁余[5]认为,金融行业在发展大数据能力方面具有天然优势:在开展业务的过程中积累了海量的高价值数据,其中包括客户信息、交易流水等数据。

梅文慧认为,信息产业迎来了新一轮的产业升级。舆情产业随着信息服务产业的演进正成为一种备受关注的新型业态。在大数据背景下,新闻、出版、电视等传统信息产业部门逐步实现数字化转型,协同探索舆情产业这一新兴信息服务产业领域。

2016年,通过深度学习技术,Google研制的Alpha Go能够在围棋领域击败世界顶级选手。大数据研究在人工智能领域取得的突破发展,为辅助策略应用提供了新的研究方向。

2 舆情管理系统研究的技术手段

舆情管理系统研究需要解决数据的来源问题,数据的分析整理归纳问题及数据的表示问题。这三大问题共同组成了舆情管理系统的基本问题。

目前国内舆情管理系统很多研究成果[6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]是基于信息采集层、业务处理层及结果展示层的分层处理结构。通过采用网络爬虫等直接抓取网络数据解决数据来源问题,利用文本分类及文本情感倾向分类等方法解决数据分析整理归纳问题,采用图形化显示或舆情监控及引导系统解决数据表示问题。

3 大数据时代舆情管理系统研究的难点

随着大数据时代数据量的陡增,在舆情管理领域出现了许多过去很少遇到或处理过的问题。

3.1 信息采集层的难点

在信息采集层,目前存在的主要问题有:大数据处理结构的高密度多样性与数据检索存储工具缺失的矛盾,数据访问权限与公众隐私安全的矛盾等。

不同于特定领域海量数据结构单一可定义的特点,大数据由于结构多样、实效性高,传统的关系数据库模型已经无法动态表征大数据需要的所有数据种类。No-SQL和Hadoop等数据库在统一兼容性和效率等方面无法做到同时最优[21],因而寻找更加合适的大数据处理工具对于舆情管理而言至关重要。但由于大数据获得来源的特殊性,不同媒介平台提供了不同的API(Application Programming Interface,即应用程序编程接口,它是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节)及不同的访问权限,在保护公众隐私和最大可能收集信息方面很难做到兼容。总之,同时满足大数据完整性及可用性要求的大数据检索存储工具目前还不成熟。

3.2 业务处理层的难点

在业务处理层,主要问题是大数据的分析处理工具不完善。

目前的舆情管理系统多数是利用文本分类方法进行研究的,而事实上图片、视频等数据根本无法用传统文本分类方式进行数据挖掘。例如:计算机无法从海量图片中挖掘出“表叔”杨达才使用的手表真假及数量,并推测出其可能违法犯罪的事实。海量数据的特点又使得人工分析处理这类信息效率低下,时效性极差。

同时,海量数据本身会使得真实数据被淹没在大量无关信息之中,提高了信息挖掘的难度,甚至得出错误的结论。而用于排除无关信息的算法本身就是一个开放性问题,解决开放性问题才是人工智能的真正挑战。例如:当无人驾驶中面对天气、路面突发状况等问题时,计算会变得无比复杂。而另一方面,部分数据重复频率高也并不代表这些数据比其他数据更重要,这对分析判断工作造成极大障碍。

3.3 结果展示层的难点

在结果展示层,大数据存在对使用者的道德水准及使用工具的科技水平过于依赖的问题。如果大数据被使用者滥用,就可能出现国家机密或商业机密泄露的情况。而使用者水平不高或使用工具不佳就可能造成应对不及时、不准确,形成误判。例如:铁道部发言人王勇平在应对媒体时的口误,新闻发布时的作假图片或不实图片,对政府公信力及舆论引导造成很多不良影响。

虽然大数据能够应用于人工智能,并应用于包括无人驾驶的诸多方面,但对自动控制等其他学科也提出了更高的要求。以当前的技术水平而言,想要彻底解决结果展示层的问题,仍然难点重重。

4 政府网络舆情的实践与建议

近年来,政府已经逐步摸索出一套层层上报,由领导批复处理工作的管理模式。通过发言人制度及舆情管理分工责任机构的建立,利用大数据技术手段分析事件关注程度、传播情况、发展趋势、网民情绪变化以致影响程度、影响人群,从而使政府机构能够预测舆情走向,辅助决策和判断。这种转变为分析研判应对工作的及时性与准确性提供了保障,是大数据时代政府网络舆情管理一次成功的尝试。针对大数据舆情管理的不足,卿立新[22]认为,应从管理体制、平台建设、技术支撑、人才队伍4个方面着手解决。

总体而言,是要解决体制、技术、人才3个方面的问题。

在体制创新上,首先要尽快出台国家层面的大数据战略规划,同时应针对媒体内容松散、公众隐私安全无法保证的问题加快数据立法。这有利于加速大数据产业的发展进程,降低大数据技术平台的建设难度。2012年,美国率先提出《大数据研究和发展计划》。我国也在“十二五国家政务信息化建设工程规划”中对信息化积极布局,但在数据立法方向,还有很长的路要走。

在技术发展上,政府应对大数据应用、技术创新企业加大扶持,建设有利于大数据发展的社会环境。企业应加快高新技术应用的速度,将最新的研究成果早日转变为生产力,产生一批类似Google、Facebook的国际知名企业,为大数据、云计算、人工智能等发展提供技术支撑。

在人才建设上,应开设专门的数据科学学科,加强各学科人才的培养交流,提升大数据应用的人才价值,从而打造出一支技术过硬、可靠的人才队伍,为大数据技术的发展、应用提供人才支持。

摘要:网络媒体作为一种新的信息传播形式,已逐渐深入到人们的日常生活。网络舆情对社会稳定和政治生活秩序的影响与日俱增。大数据的应用为政府网络舆情管理带来了机遇与挑战。文章对大数据研究的价值、网络舆情管理的技术手段及难点、舆情实践等方面进行分析评述,并提出策略建议。

上一篇:数学美学方法下一篇:战略的内部公关