数据中心架构

2024-05-28

数据中心架构(共11篇)

数据中心架构 篇1

一、研究背景

现代信息技术发展迅猛, 随之发展增长的还有负载各类信息设备的数据中心。而数据中心能耗需求的增长也逐渐成为每个数据中心更为重视的一个方面。本文以环境设备中气流循环和冷热通道技术为依据, 对行级制冷架构进行优化研究, 并阐述论证其应用的实际意义。

二、环境设备冷气流组织系统的研究

计算机系统是高精密的电子设备, 对机房环境有严格的要求, 其中最重要的是机房内温度、湿度和洁净度三个指标。所以在数据中心中, 首先必须要求机房内部在在冷气流组织系统运行状态中保持温度和湿度的均匀, 不得有温、湿度控制的盲区。其次, 数据中心一般均为密闭, 而且设备长时间持续工作, 会产生大量的热负荷, 不允许停机。而且, 数据中心中必须控制严格的温、湿度范围要求。所以精密空调冷气流组织的架构研究就成为了数据中心优化的重要内容和方向。

机房精密空调的原理是靠消耗一定的高位能 (电能、机械能) , 通过逆卡诺循环, 进行冷、热交换, 把机房内IT服务器产生的热量通过空调冷凝器转移到外部环境中去。

在数据中心应用中, 通过冷气流的产生、配送和热气流返回的流动, 进行循环制冷。简单描述就是由冷气流组织先将冷气流制造出来, 并经风机压力推送, 通过高架地板或者是空间传送, 配送至需要制冷的设备处, 再经过设备的使用和排放, 通过气压将热气流返回至空调回风处[1]。

通常机房制冷的气流组织形式有三种。垂直送风和水平送风、混合制冷三种。而由于数据中心机房中, 各类IT设备密集度较高, 散热需求量较高, 一般来说垂直送风能更高效地提升机房环境制冷, 减少制冷损失。而下送冷风, 上回热风的制冷方式, 也能进一步促进和形成冷热循环, 提升整体数据中心的制冷效率。

目前市场上主流的服务器及主机机柜的散热方式大多数为前进后出式, 即设备风口板布置在机柜的前面, 散热面为机柜的背部。故数据中心在冷气流组织架构中提出了冷热通道技术概念——即设备正面对正面、背靠背的设备布置方式。

三、研究意义

冷热通道隔离技术使得冷热气流实现科学循环, 使数据中心制冷效率更高。从而对能量的利用更合理。而顺应区域化发展方向的冷热通道技术优化应用为基础, 进一步实现高功率密度的数据中心高可行性和低电力成本, 而行级制冷在整体数据中心的优化减少了冷气流浪费, 并提升了冷气流的使用效率。

综上, 立足数据中心机房中环境设备冷气流组织系统, 分析了其中各类制冷架构。对制冷系统的架构性能进行比较分析和优化应用, 提高了环境设备气流组织系统的使用效率, 增加了数据中心运行效率。在数据中心发展和绿色机房建设的趋势上, 更能满足日益增长的制冷量从而能提供更高的数据中心运行效率。

摘要:本文详细介绍了环境冷气流架构在数据中心机房中的应用和优化。重点讲述空调系统的制冷量及冷热通道的优化升级, 各类型制冷架构的优化应用。从制冷环境保障围绕数据中心机房的节能进行了深度剖析。

关键词:制冷,数据中心,研究,通道技术

参考文献

[1]邵国安.通信机房建设及设备布局的研究[J].电信建设, 2002 (6) .

数据中心架构 篇2

当前,网络数据量、用户终端量的激增以及视频互动分享、设备协同、物联网等应用的蓬勃发展,使得市场和产业中需要全新的计算和服务模式。据权威数据统计:预计到2013年,全球互联网流量将达到每月56EB(1EB=1024PB=1024*1024TB),相当于每月在网络上交互128亿张DVD盘片中的内容。到那时,互联网数据中将有约91%的内容是基于视频的,每个人平均使用的终端数量将达到7个,意味着2013年全球用户设备将达到约500亿台。云计算的真正价值在于,它可以基于计算能力的虚拟化和资源调配的自动化,为用户提供虚拟的计算、存储和网络资源,提高设备利用率,保护客户资产投入,带给用户刚好的服务质量。

网络结构的变革

IT的传统角色一直是提供并管理基于技术的性能,即应用程序、数据库、网络、存储和服务器等集合资产。IT是在不同的技术领域通过项目需求开展的经过一个由计划,到创建,再到运行的生命周期。这是一个以交付为导向、以技术为中心的方法。在新一代云的环境下,IT必须重新改造,进入大规模变革阶段,从以技术为中心的架构转变为“以服务为中心”。所谓IT即服务,必须建立在一个动态配置的智能型数据中心基础之上。

传统的数据中心更多是技术的简单堆叠,数据中心建设由业务驱动,一段时间之后会发现,系统变得越来越庞大杂乱,运维管理越来越复杂,资源难以整合和动态调配,不仅导致资源利用率和系统应变能力都极低,而且资产利用率和创新效率也迟迟难以提升。在新一代数据中心中,所有的服务器、存储器,同时也包括网络等基础设施资源将通过虚拟化技术被池化,形成三大共享基础设施资源池:处理池、存储池以及网络池。共享资源池中的资源可按照每一应用系统的需求被初始化分配与快速部署。

在这样一种变革的驱动下,数据中心的网络结构必须经历新一轮的扁平化网络、融合式网络的结构调整,只有这样才能适应整体IT架构因为整合了尽可能多的基础设施而弹性化的需求,各个业务模块之间,IT部门与业务部门之间才能更好地相互协调、相互支撑,为业务的快速发展和创新提供更多的可能性空间,提升应变能力和生产力。

三层简化为两层 当前,互联网应用呈爆炸性增长,网络流量的分布模式已变得无法预测,用户数量呈指数曲线增长等等,网络环境已经发生巨变,激增的数据量对现有的网络结构和设备提出考验,快速增长的移动性给网络的可扩展性带来很大压力。同时,网络也变得非常复杂,这使得运营成本非常高。

经过多年的技术演变和业务发展,当前数据中心的网络基础架构通常都是采用树状结构,分为接入层、聚合层和核心层。在大多数情况下,数据流从接入层到聚合层再到核心层,然后再返回,层次越多不仅使用的设备会越多,延迟也会增加。网络中每一跳的代价都很高,而且会增加复杂性。由于这些操作的重复和重叠,无法得到想要的性能,也导致了安全性难以保障。

在传统网络中,是依靠不断添加机器来提升网络性能的,这种方法增加了数据中心的成本和复杂性。在大规模采用服务器虚拟化技术的新一代数据中心里,数据流量将主要集中在本地服务器之间的通信,如果能通过路由器和万兆以太网交换机帮助扁平化网络和简化现有数据中心网络,既可动态及同时支持更多的用户、服务以及带宽,提高性能,也可以帮助用户节省运营时间,减少数据中心网络资本性支出。

未来的数据中心的网络结构会越来越简单,它可能会由原来的三层变成两层,即核心层、边缘层两级架构:由核心层连接云计算数据中心服务器、存储与边缘层设备,执行各边缘层流量汇聚,以及高速数据转发。由于云计算对终端的要求必须尽可能简化,因此要求边缘层设备更加智能化、自动化、多业务融合,例如支持丰富网络接入方式,具备丰富的QoS策略、安全控制策略、应用流量控制、应用加速等业务处理能力。

技术趋势

用软件定义基础架构重塑数据中心 篇3

以我国为例,我国现在大约拥有8.38亿中国互联网用户、7.19亿中国博客用户、4.68亿微信活跃用户,有超过4亿台智能手机,还有超过2000万新的PC和平板电脑。支撑如此巨大的用户群体需要强大而且灵活的数据中心(大约每400台智能手机设备或者100台可穿戴设备就需要1台服务器),而传统的数据中心是很难满足需求的。比如,传统数据中心提供一项新服务平均需要2~3周,但市场的瞬息万变需要尽快将服务推出。

“在一个SMAC(‘S’指社交、‘M’指移动、‘A’指分析、‘C’指云计算)主导的时代,建设开放、高效、按需提供、弹性的数据中心势在必行,英特尔提出的软件定义基础架构(Software-defined Infrastructure,SDI)正是在这个背景下提出的。它的目标就是通过重构数据中心,使数据中心能够敏捷、自动和高效。”英特尔(中国)有限公司行业合作与解决方案部高级经理、行业资深架构师龚毅敏告诉本报记者。

龚毅敏介绍说,基于软件定义基础设施构建的数据中心应该是动态的、高度自动化和软件定义的,这和传统的数据中心有很大不同,传统数据中心是一种静态、手动和硬件定义的,这样的传统数据中心根本无法满足云时代不断变化的需求。在按照软件定义基础架构构建的数据中心中,软件主导硬件,硬件只提供重要的基础架构属性,用软件来实现实时、智能和完全自动化。

具体而言,软件定义基础架构包含三个方面的内容,即计算、存储和网络。在这三个方面,英特尔分别都有相对应的产品。比如,在计算方面英特尔推出了名为RSA(Rack Scale Arch)的架构来重新定义服务器,RSA采用分离的部件和预定义的机架, 各个部件单独集成,可扩展,且便于构建基于机架的资源池。

龚毅敏表示,RSA架构可以很好地支持当下流行的模块化数据中心概念。在模块化数据中心,计算、网络和存储都可以和配电、制冷等设备集合成一个个独立的可插拔模块,方便扩展,也方便维护。

而在网络方面,英特尔也是软件定义网络(SDN)的大力推动者和实践者,同时在网络功能虚拟化(NVF)和虚拟化网络方面都推出了自己的产品。同样,在存储方面英特尔也是软件定义存储的领导者,英特尔有高速缓存加速(iCAS)、下一代NVM以及英特尔存储加速库等相关技术。

龚毅敏强调说,英特尔的SDI是一个开放的架构,英特尔正在为之构建一个广泛的生态系统。“不管是开源的OpenStack还是VMware、微软等,SDI都可以很好地支持其产品。”龚毅敏说,“简化、弹性、互操作性以及基于开放的工业标准建设正是SDI的主要特点。”

云数据中心网络架构设计 篇4

随着虚拟技术的成熟和云计算业务的发展,人类社会已跨入云时代,数据中心的建设也迎来了新挑战。与传统的主机托管、机位出租等相比,云计算时代的数据中心通过将大量的计算、存储、网络等资源虚拟成资源池,根据需求动态配置高度虚拟化的资源,为用户提供快速灵活且平滑扩展的服务,从而将应用、数据和IT资源以服务租赁的方式提供给客户,实现跨硬件的资源动态调度。在资源充分利用的同时,也对数据中心的网络提出了更高要求。

1 数据中心发展

数据中心起源于上世纪60年代,作为整合各种基础设施和信息设备(包括互联网接入带宽、局域网络、机房环境和服务器等),通过专业化管理和运营,为用户开展互联网业务提供场地、环境和各类资源的服务平台,发展至今,已先后经历了计算中心、信息中心和服务中心3个发展阶段。第一阶段的数据中心立足于基础环境建设和设施搭建,以主机托管、带宽、空间出租等资源出租业务为主,国内基础电信运营商保有的绝大部分数据中心都是这种模式;第二阶段的数据中心在基础设施基础上,以物理主机资源出租为核心,发展各类IT基础资源业务,要求数据中心机房及用户规模化、业务发展及品牌推广专业化,运营管理自动化、标准化和规范化。CDN、内容下载加速、安全等增值服务占比增加。该阶段以专业化运作数据中心的世纪互联公司为代表;发展至第三阶段,数据中心则以用户为中心,以服务为导向,以云计算技术为核心,在高性能基础架构上提供各类随需分配的资源,服务具备高可用性和高可靠性,同时在建设上重视绿色环保,提高机房能效比,降低运营成本。现阶段国内数据中心的建设及服务已十分普遍。三大基础电信运营商加快布局超大规模的云数据中心,如中国联通在廊坊、呼和浩特等10个核心节点建设专用的云数据中心,并成立了专业经营沃云业务的云数据公司;腾讯公司将在重庆建设可容纳10万台服务器的云数据中心;阿里云已面向用户提供云服务,其数据中心建设已迈出国门,走向海外。

2 云数据中心网络关键技术

数据中心的变革升级离不开网络技术的快速发展。云数据中心的发展模式通常先从IaaS入手,然后再结合特定用户群开展SaaS服务。结合某省电信运营商2014年云数据中心的建设,其在网络建设时重点考虑以下关键技术:

(1)40G/100G光纤以太网技术。随着数据业务激增,整个通信网络的承载压力也不断增大,因此运营商开启了通信网络骨干节点设备的升级换代。截至2014年年中,某运营商骨干网络节点已全部升级为40G/100G网络平台。而对于直连骨干网的云数据中心,对于带宽的需求更加强烈,尤其是其承载越来越多的视频监控、视频点播、视频资源的CDN节点、网络游戏及高性能计算等高带宽应用,都需要万兆以太网接口,10G网络核心层设备已远远达不到云数据中心的要求。因此,核心层设备应用40G/100G光网技术是必然结果。40G/100G网络技术不仅意味着端口和带宽速率的大幅提升,还提供了对IPv6、信息安全更好的支持,更重要的是提供了更加高效的网络架构。

(2)网络虚拟化技术。传统数据中心的网络架构一般采用接入层、汇聚层和核心层三层架构模式,每层设备相互独立,实现各自的功能,设备管理也相对独立。网络虚拟化技术可以将同层独立的物理设备虚拟为一个逻辑设备,不仅实现控制平面的“多虚一”,更方便了大量网络设备的维护管理。目前应用最广泛的控制平面“多虚一”技术包括思科的虚拟交换系统VSS(Virtual Switching System)、华为的集群交换机系统CSS(Cluster Switch System)和H3C的智能弹性架构IRF(Intelligent Resilient Framework)。在数据转发平面的虚拟化实现上,IETF推出了多链接透明互联TRILL(TRansparent Interconnect of Lots of Links)和最短路径桥接SPB(Shortest Path Bridging)两个新协议,用二层ISIS作为控制协议在所有设备上进行拓扑路径计算,转发时对原始报文进行外层封装,以不同的外层封装标识和动态寻址协议解决二层多路径需求。

3 云数据中心网络架构设计

3.1 性能要求

云数据中心机房按三级标准建设,规划占用两层楼,每层楼的机房使用面积约为2 000m2。按数据中心建设标准,每层安装49U标准机柜380架。两层楼的网络、电源、制冷等设备统一规划、分步实施。网络规划建设时主要考虑以下性能要求:

(1)高带宽。云数据中心已接入CDN分发结点,同时放置了国内多个厂商的视频监控、数据挖掘、高性能计算等高带宽业务,流量呈现爆发式增长,因而要求云数据中心网络能够提供高带宽和低时延服务。

(2)高可靠性。云数据中心在链路、设备或网络出现故障及人为操作失误时保障服务不中断,在网络设备板卡扩容、网络升级时业务能够正常运行,在虚拟机出现故障时支持动态迁移等。

(3)安全性。云数据中心的业务呈现高复杂性,如多个业务可能存在同一台物理机上、访问来源不确定等,因此云数据中心面临着更多安全威胁。如何消除这些威胁的影响也是网络防护方面需要深入考虑的问题。

(4)易扩展。充分考虑未来业务的增长,在机柜和设备增加的同时,网络设备的板卡、模块也易于增加而不会对现有的网络架构和业务造成较大影响。

(5)易管理。网络设备维护是数据中心技术人员的一项主要工作,云数据中心的网络设备要求更易于维护和管理。

3.2 设备选型

为支持云数据中心的网络建设,各设备厂商相继推出有针对性的方案和产品,从而有效实现融合、自动化、高带宽、高效管理、绿色节能的目标。思科推出了虚拟交换系统VSS,其代表产品有Nexus7000、Nexus5000等。不过随着国家信息安全战略的推进,电信运营商、金融企业等已在逐步替换原有的思科设备,其市场份额慢慢萎缩;华为推出了富有竞争力的集群交换机系统CSS,其典型特征包括交换机多虚一、转发平面合一、跨设备链路聚合等,其代表产品包括S9300、CE12800系列交换机;H3C的智能弹性架构IRF得到了越来越多客户认可,其市场份额也在逐步扩大,推出的S12500、S10500系列核心路由交换机采用多级多平面交换架构,可实现大容量交换,从而实现网络基础架构的统一、安全策略的统一部署及资源的统一管理。

从国家对信息数据安全高度重视的角度出发,某省云数据中心的网络架构及设备选型主要在华为、H3C等国内厂商中选择,通过招投标方式,最后确定华为统建云数据中心的网络设施。其中核心路由器采用NE40E设备,该设备基于最新的可扩展400G平台,性能强大。交换机采用S9312,该设备具备超高的万兆端口密度,单台设备支持576个万兆端口,可帮助云数据中心实现全万兆接入。

3.3 网络架构

云数据中心采用的网络架构如图1所示。核心设备在物理位置、电源接入、网络链路、板卡配置等各方面均考虑冗余,以最大限度提高核心网络的可靠性。云数据中心核心路由器采用光纤线路接入骨干网,接入带宽达120G。汇聚交换机采用华为CSS堆叠技术实现设备的“多虚一”,两台设备之间采用4条10GE线路构建堆叠组。建立堆叠后,两台交换机从逻辑上成为一台设备,它们之间可实现冗余备份。

通过组建CSS堆叠,可在不改变网络拓扑的情况下,便捷地扩展设备端口数、带宽和处理能力。在堆叠建立时,两台交换机在启动开始阶段使用各自的配置文件启动。启动完成后,备用交换机将把本机的堆叠相关配置合并到主交换机的配置文件中,形成堆叠系统的配置文件。通过即时同步,堆叠中的所有成员交换机均保持相同配置,即使主交换机出现故障,备用交换机仍能够按照相同配置执行各项功能。同时堆叠形成后,不需要配置复杂的二层破环协议和三层保护倒换协议,简化了网络配置。

CSS堆叠支持的跨设备链路聚合(Eth-Trunk)技术,可以将不同成员交换机上的物理以太端口配置成一个聚合端口。即使某台交换机出现故障或聚合链路中的一条链路中断,也不会导致聚合链路完全失效,从而保证了数据流量的可靠传输。

4 结语

该云数据中心的网络已建成近两年,从使用情况看,构建大二层的网络架构较好地满足了云数据中心对高带宽、高可靠性、易扩展等性能的要求,满足了业务快速发展的需要。然而,由于绝大部分大数据存储在各大数据中心,这必然对数据中心的网络部署提出更高要求,数据中心的网络架构将不断迎接新的压力和挑战。

参考文献

[1]余侃.云计算时代的数据中心建设与发展[J].信息通信,2011(6):100-102.

[2]李明.网络虚拟化技术在云计算数据中心的应用[J].电信工程技术与标准化,2012,25(4):39-43.

[3]冯贵兰.基于虚拟化的高校云计算数据中心建设研究[J].软件导刊,2016,15(1):121-123.

国际物流中心信息系统架构初探 篇5

关键词:国际物流中心;信息系统;架构

一、国际物流作业信息活动模式

国际物流作业信息活动模式可以从三方面进行分析,一是从第三方物流的观点来分类,二是从国际物流中心作业的角度来分析应包含那些信息模块,最后是从信息分享的方向与协同的理念来定出信息与流程整合。

首先依专业分工与实体作业地点来分类,第三方物流又可归纳成储存与运输二种分工的模式,以确保在仓储及运输两个领域都能有最好的表现。其次,在国际物流的作业中参与的成员虽然很多,若依实体作业来区分也可以把它视为二个以上的国内物流中心作业再加上进出口的报关与海空运(运输)作业来看待,而国际物流中心亦整合了进出口报关作业,提供一致性的服务为其竞争的利器之一。第三,国际物流过程的复杂性决定了由单独的公司来进行所有的作业是不可行的。所以,必须有整体信息运作的架构,方能建构出系统的功能与基本的运作方式。

二、国际物流中心信息系统基本构成

国际物流作业中参与的成员虽然很多,按照实体作业来区分可以把它视为二个以上的国内物流中心作业再加上进出口的报关与海空运(运输)作业来看待,这里根据功能大致归纳成以下五个部分:

1、采购管理

采购作业最主要的功能是接受委托客户的委托有条件的办理客户产品的进货事宜,免除客户需时常注意产品于物流中心的存货状况,只需专心于市场的反应即可。采购作业除了可以有效缩短进货作业的前置时间外,尚可以掌握供货商交货日期的正确性。

2、卷标系统

从货物进货开始就将其贴上条形码,条形码上的数据包含货品数据、委托客户数据……于出货时再贴上送货客户数据、交货地点、预定送达时间等等信息,整个物流作业的过程中均需要经过读条形码的动作,以方便客户查询货物情况。

3、客户服务

提供给客户的加值服务大多与信息分析有关。例如,送货客户的交货状况、最近出货变动分析、存货管理信息等,以协助客户实时掌握市场的最新动态,并迅速的响应配合。

4、货况管理

一般来说客户将产品委托给物流中心后,只能被动的通过一些定期报表或向物流中心查询才能得知产品的现况。要获知产品现况最好的方法,是由统一的机构来负责搜集国际物流作业中的各项信息,客户再通过此渠道(因特网)来主动获得产品于交货过程中的各项状态。而送货客户、供货商也能利用此方式来预估,是否需要提高产品库存等等之后续的作业。有了这种渠道,能有效加强上下游之间的伙伴关系。

5、接口管理

国际物流中心的营运活动在于提供来自不同国家的产品、不同对象(委托客户、送货客户、物流合作伙伴、海关)与文件(信息)往来,而各个对象所需耗费的时间、文件数据皆不相同,因此必须有一个专责的系统来规范与转换彼此所需要的信息。

三、国际物流中心信息系统的流程

在信息分享与协同作业方面,国际物流中心信息系统最主要功能是将有用的信息往上游或下游传递并与合作伙伴间的信息流程整合在一起,再根据当时作业现况做最佳化安排。包括:基本数据。基本数据具体包括:产品信息、客户信息和供货商信息。进出信息。进出信息包括:采购信息、进货信息、订单信息、出货信息、拣货信息、简易加工信息和退货信息。财会信息。财会信息包括:请款信息和付款信息。附加信息。附加信息包括:需求信息、交货信息、销售信息和库存信息。其它信息。其它信息包括:装柜信息、关务信息和运输信息。

在国际物流作业流程里参与的机构很多,包含有进出口地之供货商、专业物流公司(运输业者、第三方物流公司、仓储中心、物流中心)、海空运业者、海关以及货主。

若以进口货物的国际物流作业为例,当供货商完成产品生产后,随即委托给物流业者处理,该批货物的物流信息即开始展开信息协同作业的流程,由客户的订单信息转为供货商的出货单、发票(Invoice)以及包装明细表,在并货中心阶段数据已转成收货的订单信息和报关所须的相关文件,经由空运的打盘或海运的装柜作业,会产生舱单的内容,同时出口地的物流业者已将货物信息传递到进口地的物流合作伙伴,一方面成为国际物流中心的进货订单,同时也进行着通关作业和商品审验的文件处理,最后货物经由运输业者的配送作业送到客户手中。这些运送的文件也早已在运输业者的系统之中,等货交到客户手中时,取得货到证明文件,结束进口货物的国际物流作业。

四、国际物流中心的信息协同模式

在国际物流作业流程里参与的机构很多,包含有进出口地的供货商、专业物流公司(运输业者、第三方物流公司、仓储中心、物流中心)、海空运业者、海关以及货主,由单独的公司来进行所有的作业是不可行的。所以,整体信息运作的架构,必须要符合下列理念,方能建构出系统的功能与基本的运作方式。

国际物流中心的物流信息系统,是整个国际物流作业的数据收集点,所产生的信息会对相关作业的伙伴,造成重要的影响,为使运作效率达到最高,必须充分安排各项作业资源与系统的安全控管。

提供客户从选货、运输工具、运送时间、货况追踪至交易成功等过程中所有的信息。

通过信息系统的辅助与物流伙伴的配合,达成快速的收货以及最短时间配送到客户的能力,减少中间的库存。

由于国际物流作业非常复杂而且牵涉的成员众多,通过信息的协同将物流作业的部分信息透明化,让成员间可以互相分享信息以及进行流程整合,这样可以缩短上下游之间产品的流动时间,降低相关企业的成本,增加企业的竞争优势。这种协同模式将国际物流中心的信息系统与联盟伙伴本身的物流信息系统进行信息的整合,这种信息架构主要包括以下几个部分。

1、数据交换接口管理

数据交换接口是与外界沟通的桥梁,共有客户电子数据交换、战略伙伴电子数据交换、报关电子数据交换等三种。其主要功能是帮助物流成员与客户的信息系统的数据交换,例如执行电子数据交换所需要的通讯软件与转换软件。实务上,许多跨组织的信息系统的数据交换,都依赖电子数据交换的技术才能顺利进行沟通,因为它降低了企业与供应链伙伴间的作业成本。另外国际物流中心也是将有关物流方面的处理信息,通过客户电子数据交换,将配送产品、数量、到达时间、地点等讯息传递给委托客户、送货客户。

2、关务系统管理

通过第三方物流业者传递给国际物流中心的进口产品的物流信息,先由关务人员进行确认,再将相关的电子信息透过数据交换接口传送到关贸网络,并等待海关的回复,最后把结果传递给物流信息系统。整个报关作业均由国际物流中心关务人员来负责统筹,可以有效的节省信息传递的时间及作费费用。而此系统还包含查询服务子系统,提供给海关、货主来查询有关报关的相关信息。

3、Web服务器与应用程序

利用因特网的便利性,设置网站提供成员或客户通过联机直接在网站上面做数据传输或查询相关的关务讯息,也可以让客户可以直接在此下订购单。另外设置Web 服务器,可以有效分担Client 与Server 端的工作量,可以提升信息系统的运作效能,并统筹与管理物流作业进一步降低国际物流作业的复杂性。

4、物流信息系统

这一信息系统包含了采购、卷标、出货订单、流通加工、仓储、拣货、出货、财会、营运、设备等系统的物流数据,每个物流作业点完成后会将数据传到Web数据库,在于协议的时间内自动进行与伙伴间的数据交换,定期将货品的状况传递给货主。除了客户关系的管理外,还可以提供更多差异化的信息或物流服务,加强客户的忠诚度。

5、运输管理系统

由于各送货客户的要求不尽相同,为保留各自的运作弹性,因此本系统并不负责送货客户的配送的规划,仅负责汇总送货客户的出货要求给运输者,由运输者自行与送货客户协商并提出配送计划给国际物流中心以便回报委托客户。

6、客户服务系统

国际物流中心除了物流作业外,信息提供也可以提升本身的附加价值。通过信息的分享可以将市场的信息,通过适当的分析后迅速反馈给客户,就好像是一个庞大的商业数据库摆在客户端一样,供客户自行取用,彼此并创商机。

使用这一系统各成员均可以通过国际物流中心来彼此联系,节省各自建立、信息传递、数据转换的成本,日后的货况查询与信息分享也非常便利,对于整体物流作业而言利大于弊。在此系统架构下,对于企业或是战略伙伴的物流作业,并不会额外增加负担,还可以通过系统的辅助做更有效率的安排,进而达到合理的分配储位、多频率的配送、妥善的车辆调度、人员派遣的目标,使得物流成员间各司其职,使企业更具竞争力。由于运输业者保留了本身的物流配送系统,因此运输业者也可针对地域性的不同进行联盟,如此便可将产品送至远处,也因为配送范围变的更广且更多,因此实务上可南货北运或北货南送增加国际物流中心的收益,也可降低配送业者的经营成本,除了可以达到资源共享外,也能充分利用信息系统的优点,替物流业者创造竞争优势。

总之,在国际物流中心信息系统系统架构下,除了可以达到资源共享外,也能充分利用信息系统的优点,帮助物流业者提高竞争优势。

作者单位:辽宁石油化工大学

参考文献:

[1]崔炳谋. 物流信息技术与应用[M]. 北京:清华大学出版社,2005.

[2]程国全. 物流信息系统规划[M]. 北京:中国物资出版社,2006.

Exploring the construction of information system for international logistic center

Huang Haifeng

(Liaoning Shihua University)

Abstract: Smooth operation for international logistics is helpful for shortening supply chain time. However, as well as the input of information equipments, it is very important for improving operation performance and cutting costs to coordinate the sound information system and data sharing between partners.

Key words: International Logistic Center;Information System; Construction

双活数据中心的网络架构 篇6

随着各个行业对信息技术的依赖程度越来越高, 虚拟化、云计算的提出推动数据中心建设进入一个飞速发展时期, 2012年国内数据中心数量已达到64万个, 但这不是本文讨论的重点。同样, 金融行业都建造了比较完善的IT基础设施和数据中心, 具备条件的企业还建造了同城或者异地备份数据中心。美国“9·11”和日本大地震覆灭的不仅仅是生命, 还有宝贵的数据, 数据丢失造成的损失是无法估量的。这些惨痛的教训也给国内企业的CIO们敲响了警钟, 促使他们提高灾备意识, 做好灾难备份建设, 通过有效的灾难恢复机制以确保金融业务的连续性, 减少灾难给金融企业带来的损失, 这是金融行业保证服务质量、降低风险的基本要求。信息技术的进步, 金融业务服务质量的不断提高, 双活数据中心建设逐渐成为一种趋势。双活数据中心涉及网络、虚拟化、存储等技术, 如何保障2个数据中心之间实现双活成为技术难点, 本文从网络架构层面介绍双数据中心互联以实现双活的相关技术。

二、主备数据中心的部署方式

灾备数据中心和主用数据中心之间的部署方式经历了冷备方式、半热备方式和热备方式3个过程。

(一) 冷备方式

主用数据中心和灾备数据中心配置相同的硬件、系统、网络访问、数据存储等资源, 当主用数据中心发生故障时, 需要手动启用灾备数据中心的上述资源和服务。因此, 衡量容灾能力的2个重要参数——RTO和RPO会很高, 容易造成服务访问的长时间中断和数据的大量丢失。

(二) 半热备方式

该模式下, 灾备数据中心的应用已经启动, 当主用数据中心故障时, 应用访问的数据流自动切换到灾备数据中心, 这时需要手动启用灾备数据中心的服务。半热备方式在冷备模式的基础上有效降低了RTO和RPO, 但是仍旧不能满足当前应用零中断的要求, 而且这种切换是非透明的, 用户能够感知。

(三) 热备方式

互联网的快速发展促使用户提高对应用访问的要求, 因此行业对数据中心之间服务端的容灾能力要求越来越高。在这种环境下, 一般要运用新的网络技术和虚拟化技术来支持主用数据中心和灾备数据中心之间的快速切换。热备模式下2个数据中心之间的数据复制是实时的, 它能保障服务瞬间切换的安全性和准确性, 用户对于这种切换是感知不到的。

三、数据中心互联模式

(一) 二层互联方式

为了满足人们对服务低延迟、无阻塞的访问要求, 当前网络正在从一个传统的三层网络向大二层网络转化, 同时能够把虚拟化发挥得更加淋漓尽致, 成千上万的服务器、存储设备和其他的网络端口连接起来, 结合虚拟化技术使网络扩展更加方便快捷。同时为了满足虚拟机的快速迁移, 服务器集群的技术要求需要二层网络环境的支持。

2个数据中心之间部署暗光纤, 通过port-channel将2个数据中心互联, 使用trunk在2个数据中心之间实现VLAN的扩展, 是纯二层的部署方式。虚拟机在物理机之间迁移的一个必要条件是保持IP地址不变, 这样才能保证TCP会话正常连接。

纯二层网络架构的优点:网络结构简单, 部署方便, 适合小型的互联数据中心之间的二层转发, 转发速度快。

纯二层网络架构的缺点:可扩展性较差。

将二层网络风险范围扩大, 思科推出v PC技术, 在一定程度上避免二层环路的风险。

典型的二层网络架构如图1所示。

该网络架构为2个数据中心之间采用纯二层互联, 是为了满足虚拟化和服务器集群的需要, 满足虚拟机在2个数据中心的不同物理服务器之间实现快速迁移, 满足服务器在跨地域数据中心之间实现集群, 有效地增强了双数据中心之间的容灾能力。

(二) 三层互联借助OTV实现二层网络扩展

目前数据中心之间互联的传统方式都是通过广域网实现三层互联, 在三层互联的环境下实现数据中心之间的虚拟机迁移和服务器集群, 必须借助其他技术创建基于三层的二层环境, 比如传统的VPLS, H 3 C的E V I技术, 思科的OT V技术。本文重点介绍思科的OTV技术。

传统的数据中心架构往往是经典的三层架构, 在建设灾备数据中心时, 2个数据中心之间互联都采用三层互联, 网络架构如图2所示。

利用传统网络架构的资源, 快速实现数据中心之间的二层互通, 思科的OTV技术, 满足在传统三层网络中实现二层互通, 最终实现虚拟机在数据中心之间的快速迁移和服务器跨数据中心之间的集群。

OTV是一种基于MAC的路由, 这种二层的路由表是靠将MAC封装在传统IP包中分发形成的。OTV首先是通过控制层面协议建立基于MAC的路由表, 而传统的二层转发是通过数据平面, 所以在OTV环境下无需STP控制环路。此外, OTV也不像VPLS等需要提前建立虚链路, 而是将数据包逐一动态封装进行转发, 这是OTV技术的优势。可以简单理解为OTV是在广域网基础上建立的一个逻辑二层通道。

OTV的网络架构如图3所示。

工作原理为:

1.2个数据中心之间的边界设备建立OTV邻居, 邻居之间共享自己的MAC地址表, 最终建立各自的MAC路由表;

2. 建立数据中心A的MAC1和数据中心B的MAC3通信, MAC1首先查找自己本地边界设备的MAC路由表, 根据路由表发现下一跳指向对端边界设备;

3. 在本端边界设备的OTV接口将MAC1到MAC3的帧进行封装, 发送到对端数据中心的边界设备, 在对端数据中心边界设备的OTV接口进行解装;

4. 对端边界设备查找本地的MAC地址表, 将解封装后的帧发往对应的接口, 因此建立了MAC1到MAC3的通信。

如果没有OTV, 2个分散二层域 (VLAN) 分别位于2个通过三层互联的数据中心, 因此造成二层域的隔离, 无法实现二层域之间的通信。通过OTV可以使这些分散的二层域叠加起来形成一个完整的、大的二层网络, 从而实现二层网络扩展, 满足了跨数据中心的虚拟机迁移和服务器集群。

(三) LISP实现网络精确定位

如果说OTV技术创造了虚拟机在数据中心快速迁移的环境, 那么如何保证应用的连续性?一个重要前提就是保持虚拟机迁移前后IP地址不变, 只有这样才能保障应用无需重新建立连接。思科的LISP技术能够满足这个需求。

LISP (Location-ID Separation Protocol) 网络协议, 是一种名址分离网络协议。在LISP中, 原有的网络IP地址被分成EID (End-identifier) 和RLOC (Routing locator) 。其中, EID用于标志主机, 不具备全局路由功能;RLOC用于全网路由。名址分离网络自然会引入名与址的映射, 即LISP中EID-to-RLOC的映射。众所周知, 分级结构有着非常明显的优点, 如结构简单、查询效率高等。

LISP技术的网络架构如图4所示。

客户端 (19 2.16 8.10 0.1) 访问服务端 (V M4192.168.20.2) , 客户端侧路由器 (Rc) 从MS/MR获取到VM4的路由。

Rc获取的路由显示到VM4的下一跳指向Ra-2 (其实也有Ra-1, 为了方便理解设置优先级选择Ra-2) , 因此通过Ra-2访问服务端。

当数据中心A的VM4出现故障宕机, 迁移到数据中心B, Rb-1会通知MS/MR 192.168.20.2的主机已经到达Rb-1, 同时Ra-2也会告知MS/MR 192.168.20.2并非挂在Ra-2上。

客户端继续访问192.168.20.2, MS/MR会告知Rc需要通过Rb-1才能到达VM4, 于是Rc更新映射表到达192.168.20.2的下一跳为Rb-1 (VM4迁移前为Ra-2) 。

从图4可以看出, LISP结合OTV实现了虚拟机的在线迁移。保持应用持续性重要的一点就是迁移前后的IP地址不变, 这也是双活数据中心所要实现的目标之一。

四、总结

数据中心架构 篇7

1 光伏电站远程数据中心系统架构

光伏电站的远程数据中心应能传输各类运行的数据, 包括核心的设备数据、电量的数据、环境资源数据等等, 在通过汇总后可对数据进行监视和分析。光伏电站的远程数据中心系统分为三个部分:电站层面为光伏电站, 电站层面所收集到的信息和数据光伏电站具有核心设备和电能表信息和光伏电站的环境数据;通信层面主要实现信道上的信息传递;而远程数据中心层也是主站层, 主要分析光伏电站中的所有数据。

1.1 电站层

光伏电站实际上是太阳能光伏并网的发电系统, 具有升压站、逆变器汇流箱、电池阵列、蓄电池、电能表、环境检测等等核心设备。同时还具备气象数据以及逐日系统数据, 光伏电站内部要建立对各种类型数据的采集和转发的功能。

1.2 通信层

1.2.1 当地的通信条件

当前, 国内光伏电站对外转发的数据没有确定统一的标准和体系, 由此不同电站的配置也各有区别。当前对外通信的状况可大致有三种情况:第一种情况, 电站配备有当地的监控系统, 这种电站一般容量较大, 具有独立的监控中心, 由此只需要在监控中心扩展就可建立对外的通信体系。第二种状况, 电站并没有监控系统, 但可通过逆变器进行信息和数据的转发。一般这种类型的电站容量较小, 每个逆变器的信息可在汇总之后转发出来。第三种状况则是没有监控系统, 逆变器也不具备转发的接口, 这种类型的电站容量很小, 若是要实现对外的通信, 还应增加系统的通信模块。

1.2.2 选择通信方式

根据光伏电站的通信要求和建设的规模, 可采用无线的通信方式, 无线通信方式能覆盖很广的范围, 并且速度较快, 安全经济。无线网络的连接中, 选择电信无线虚拟专用拨号网作为通信的通道。VPDN是电信提供的以2G/3G网络为基础的无线业务, VPDN以工业标准的Inte rne t第2层隧道协议为基础, 建立了供政府和企业等无线移动客户使用的与公众网络完全隔离的虚拟专用网络, 能满足光伏电站远程数据通信的需求。在无线网络的建设过程中在主站层也实际上也是中心数据的处理层设置路由器以及防火墙, 同时还要开启专用的数据中心的域名。最后根据专线接入所在地区的电信VPDN平台。最终通过电站配置无线接入终端进入无线网络。

1.2.3 选择通信协议

当前, 光伏电站内部的数据采集协议一般都基于工业控制器的网络MODBUS协议。由于光伏电站内部设置的单位较多, 而每个单元的数据量较少, 由此MODBUS协议能更好地适应于光伏电站的通信需要。若是对外转发也使用这种协议, 那么由于每个数据包字节数有限制, 致使其的适应能力并不强, 由此, 可采用当前已经发展得较为成熟的传输协议IEC104, 但必须对协议进行一定的扩充:

一方面, 应使用特定的功能码描述数字量, 就数字量的属性而言, 是一个整形值, 每一个数值所代表的含义都不一样, 这种数据类型常用语各种类型的设备状态, 这种特定的功能码对IEC104协议中的标准数据类型相似, 由此应进行扩充。另一方面, 可实现系统的直接控制体系。光伏电站的电力系统控制流程为选点→返校→遥控, 光伏电站中, 许多设备所采用的是直接的遥控模式, 若是要直接进行光伏电站的控制, 还应在系统中增加直接控制方式的程序。

1.3 主站层

主站层就通常而言都采用双网模式, 实现主备历史数据服务器、前置服务器和三台应用分析工作站、Web服务器等数据和模式的设置。主站层的关键设备都实行了冗余的设置, 保障系统的安全稳定运行。主站层的软件有三个部分:操作系统、支撑平台、数据采集模块以及各式应用功能模块, 主站层的操作系统可使用Unix/Linux的系统混合结构。而主站层的系统支撑平台为建立系统运行的环境, 为实现网络、实时库、历史库、报表和图形的支撑, 数据的采集模块则可实时采集系统中的数据, 可用于数据的监视、数据统计和光伏组件的性能对比等过程和模式中。

2 数据模型

由于当前国内并没有光伏电站的数据模型标准, 由此可借鉴IEC61970CIM的建模方式建立数据模型体系。而光伏电站内部升压站的模型可借鉴CIM标准, 而逆变器、箱变以及汇流箱等等光伏电站的设备, 由于安装方式的不同, 由此可进行不同的单元分配。可将升压站侧进线设备划分为一个单元, 将这个单元划分为一个间隔, 而气象数据以及实时更新的系统数据则相对独立, 并且直接隶属于光伏电站。同时还可根据直流侧和交流侧划分一个间隔内部设备, 同时在设备模型中还应对“父节点”描述上下级的连接关系, 为了便于后期的统计分析, 还应对核心设备的各种属性进行描述, 同时还应按照静态数据以及动态数据建立统计模型。

摘要:光伏电站远程数据中心的系统架构的设计对整个光伏电站数据的处理以及系统的构架等有着十分重要的作用和意义。通过对光伏电站远程数据中心系统的基本逻辑结构和功能体系等方面进行分析和了解, 进行了远程数据的汇总分析, 并由此分析了数据的通信方式和通信协议以及实际的应用功能。

关键词:光伏电站,远程,数据中心,系统,架构设计

参考文献

[1]黄小鉥.光伏电站远程数据中心系统架构设计[J].电力系统自动化, 2011.

[2]李凌锐.基于GPRS技术的光伏电站远程监测系统[J].太阳能, 2006.

[3]刘宏, 陈慧玲, 庞胜利.光伏并网电站数据采集监测系统[J].可再生能源, 2006.

[4]齐鹏远, 薛钰芝, 林纪宁.小型太阳能LED光柱系统的研制[J].大连交通大学学报, 2008.

数据中心架构 篇8

随着网络应用的不断发展以及应用系统的升级和扩展,数据中心的应用服务器及其他网络设备也逐年增加,随之而来的资源利用率偏低、运维效率偏低、资源成本提高、备份与灾难性恢复等复杂问题,已成为制约数据中心发展的重大障碍,传统的“单一设备单一应用”数据中心IT架构已经不能满足业务发展的需求,进而需要一种新的数据中心架构来适应业务需求的发展。

虚拟化技术的出现,则在一定程度上解决了传统数据中心的部分问题,从而使传统的数据中心建设过度到了虚拟化数据中心阶段。虚拟化技术是将各种计算及存储资源充分整合和高效利用的关键技术。从应用领域来划分,虚拟化分服务器虚拟化、存储虚拟化、应用虚拟化、平台虚拟化、桌面虚拟化。服务器虚拟化技术是当前IT行业应用非常广泛且比较成熟的信息技术。通过虚拟化数据中心建设,提高了运维管理效率、降低运维成本,且通过建立智能化、自动化、资源整合配置体系架构满足了业务差异化和低成本的需求,实现资源的集约共享。

随着科学技术的发展,移动设备、社交网络、应用的多样性,以及云计算和大数据时代的演进,改变了IT服务的交付和消费方式,也改变了当今的IT格局。因此数据中心建设也从虚拟化时代演进到云计算时代。云计算是一种全新的计算理念,通过将大量计算机资源整合在一个个计算集群中,并使这些计算集群分布式地承担各种计算请求,使得用户能够按需获取集群中的各种计算资源、存储资源、网络资源以及便捷的信息资源服务。

随着云计算的发展,相继出现了软件定义计算技术、软件定义网络、软件定义存储等新技术,使数据中心中硬件基础设施利用服务器虚拟化、存储虚拟化及网络虚拟化技术将硬件基础设施抽象组合成虚拟的逻辑设施,采用云计算模型将计算能力和逻辑设施通过网络来提供服务,并从基础资源以及服务的精细化运营角度出发,实现Iaa S、Paas以及Saa S多种服务模式的灵活多变的业务交付方式,进而满足和适应新业务快速发展的需要,这也促成了一个新的技术方向——软件定义的数据中心,为此以软件定义理念为核心的软件定义数据中心走向前台,正在让我们以一种前所未有的方式连接、汇聚和配置计算资源。

2 什么是软件定义的数据中心

软件定义的数据中心,从最直观的定义来看,就是虚拟化、软件化数据中心的其一切资源。虚拟化是从服务器虚拟化开始的,服务器虚拟化技术目前已非常成熟。如果我们把服务器看作是一个微型的数据中心,那么我们可以通过服务器的虚拟化来理解软件定义的数据中心。服务器虚拟化是将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。软件定义的数据中心也采用了类似的理念,它将网络、存储、计算、安全等基础设施和可用服务进行池化、聚合,并可通过策略驱动的智能软件进行管理,从而使数据中心服务不再受到专用硬件的束缚,摆脱传统1T复杂而不灵活的困境。此方法可使计算、存储、网络连接、安全保护和可用性服务池化、聚合以及作为软件交付,并可通过策略驱动的智能软件进行管理。因此,客户可以获得针对云计算时代优化的数据中心,从而实现无可比拟的业务敏捷性并为所有应用提供最佳SLA,并可大幅简化操作以及降低成本。

软件定义的数据中心核心在于对CPU、内存、I/O等硬件资源进行解耦与重构,让数据中心计算、存储、网络、安全资源的全虚拟化、全自动化成为现实,并通过软件定义实现业务感知的按需资源组合与配置,实现系统的弹性伸缩和超大规模持续扩展,真正实现数据中心像计算机一样运行和管理,更好的支撑用户在云计算、大数据时代的业务运营和增长。

3 如何构建软件定义数据中心

构建一个软件定义的数据中心,主要包括两个核心要点:第一步虚拟化数据中心的一切资源;第二步,通过一个统一的管理平台对这些资源进行管理。软件定义的数据中心,首先要做的事情就是虚拟化数据中心的一切物理资源,通过虚拟化的技术,构建一个由虚拟资源组成的资源池,不仅仅是对服务器进行虚拟化,还包括存储虚拟化和网络虚拟化等。当前,许多用户的数据中心环境是异构的,既包括虚拟化的设备,也包括一些因某种原因不能被虚拟化的物理设备;既包括私有云,也包括公有云。因此,软件定义的数据中心一定要能够支持异构云环境。

软件定义网络(SDN)概念的提出早于软件定义的数据中心,其核心理念是将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制,为核心网络及应用的创新提供了良好的平台。软件定义网络技术实现了从虚拟网卡、虚拟交换机、接人交换机到核心交换机的控制系统与传输机制的分离,使得满足计算需要的各种虚拟网络无处不在。透过这些虚拟的网络,将用户眼中传统的数据中心变成了软件定义的数据中心。要建设的软件定义数据中心网络系统需要立足于成熟的交换、路由模式之上,以网络虚拟化设备、软件为主,积极使用支持软件定义网络(SDN)功能的设备,构建满足多种不同类型用户服务需要的软件定义数据中心的网络系统。

软件定义存储(SDS)是软件定义的数据中心的基本组件,它从虚拟层、纯软件层介入,对物理存储的集成和控制。虚拟化环境中的计算机资源按需分配,因此这种环境需要动态进行存储分配。软件定义的存储通过对存储资源进行抽象化处理来支持池化、复制和按需分发,从而解决了这一难题。这使存储层具备了与虚拟化计算类似的敏捷性:聚合、灵活、高效并能够弹性横向扩展,全面降低了存储基础架构的成本和管理的复杂性。软件定义的存储有几个明显特征:以应用为中心的策略,可实现存储使用自动化——软件定义的存储支持对异构存储池中的所有资源实施一致的策略,使存储的使用像为每个应用或虚拟机指定容量、性能和可用性要求那样简单。这种基于策略的自动化最大限度地利用了底层存储资源,同时将管理开销降至最低;与硬件无关的虚拟化数据服务——数据服务作为虚拟数据服务在软件中交付,并按虚拟机进行调配和管理;通过硬盘和固态磁盘虚拟化确保数据持久性——随着服务器功能的增多,软件定义的存储解决方案可让企业利用廉价的行业标准计算硬件来扩大其存储资源,同利用固态磁盘和硬盘作为虚拟机的共享存储,可获得高性能、内置的恢复能力和动态可扩展性。

软件定义软件:传统的数据中心,应用服务器采用竖井的方式,每台服务器上运行一个应用程序,服务器硬件以及上面的操作系统和应用以紧耦合的方式捆绑在一起。这种模式导致服务器的CPU和内存等物理计算资源利用率低。在典型的x86服务器部署中,平均只有总容量的10%到15%得到利用,计算资源浪费严重。而另一方面,为支持不断增长的业务和应用需求,企业需要大量的服务器购置或者更新换代。软件定义的计算便是为了解决这一矛盾。但是,软件定义计算目前没有统一的概念定义,目前分布式计算以及云计算都属于软件定义计算的范畴。

当现有数据中心经过服务器虚拟化、存储虚拟化和网络虚拟化技术的应用,将数据中心提供的计算资源基础设施产品,变成了虚拟的、逻辑的、可通过网络直接获取的基础设施服务。数据中心的管理人员可以通过一个统一集中的管理系统实现对这种服务的定制、发布、度量、控制、运维等各种管理操作,进而完成了数据中心业务的云化。

4 结束语

数据中心架构 篇9

关键词:大数据,数据接入,数据挖掘,内存计算

0 引言

当前,在国家电网公司建设坚强智能电网和SGERP工程的新形势下,在建设“一强三优”现代公司的大方向下,充分运用当前先进的大数据技术,能够有效助力企业运营的集约化转变。三集五大体系建设构建了纵向贯通、横向集成的一体化信息平台,覆盖总部、省、市、县的业务信息系统,产生了大量多样化的数据,营销系统和生产管理系统都已达到几百TB级数据规模,随着公司业务发展,对大数据技术的应用要求也在不断提升,大数据技术的应用已成为推进公司一体化、集约化、扁平化管理,增强公司核心竞争力的必要手段。

1 国内外研究概况

目前,各类企业、学术组织、研究机构纷纷助推大数据的发展,相关技术层出不穷,部分技术已在互联网、通信、交通、金融、医药、零售等行业得到实际应用。通过大数据技术的应用,在金融业可实现金融欺诈的实时预警,在零售业可实现零售市场细分和实时精准营销,在生物医药行业能够开展流行病早期预警和疾病病理的研究,在交通运输业可进行运输路线的规划和商品的实时追踪定位。大数据已成为IT行业全新的制高点。

各大技术厂商及开源社区对大数据技术进行了探索和研究,已形成的大数据主流技术路线主要包括2 种:一种是结合原有云计算基础体系架构,在数据效能计算和数据管理方面做了提升,形成现有大数据技术架构体系;另一种是在原有数据仓库基础上对大数据的价值进行挖掘提升,形成自有的大数据体系。这些厂商通过自研或收购等方式积攒大数据技术实力,并推出相关的产品和解决方案。如IBM提出了基于Info Sphere平台的大数据解决方案,EMC提出Greenplum分析平台,结合Greenplum DB和Greenplum Hadoop,实现了结构化、半结构化、非结构化数据的统一、高效处理。

2 大数据中心整体架构

大数据是对具备数据体量大、数据类型多、处理速度快、价值密度低的数据集合进行分析、处理、管理的科学体系,涉及方法论、基础理论、关键技术等多个层面,保证数据的效能得到最大化体现,并实现对公司业务的辅助决策和趋势预测。电力大数据是在大数据时代背景下,以公司业务的提升和增值服务为目标,利用数据存储、实时计算、离线计算、计算分析与挖掘、数据管理与服务和数据展示等方面的核心关键技术,构建实时处理、交互式分析、辅助决策、趋势预测、价值挖掘的大数据体系,电力大数据的应用将推动公司业务发展和管理水平提升。

公司大数据中心在建设时应选用适用的Hadoop版本作为核心,通过有机集成方式融合内存计算、流计算、分析挖掘、可视化等第三方开源软件,在较高的起点上建设大数据平台。大数据平台以数据整合及分布式存储为基础支撑,包括数据采集、存储、数据处理、数据应用4 个主要功能层面[1]和安全、运维辅助功能。平台的部署视图如图1 所示。

大数据中心以Hadoop技术体系中分布式存储(分布式文件系统(Hadoop Distributed File System,HDFS)、HBase、Hive)、分布式计算框架(MR)为基础,使用Spark、R等开源产品或技术与之形成互补[2],新增安全管理机制和配置管理功能,提升改造现有可重用的SG-ERP组件,从而完成整个技术架构的组建。参考业界大数据平台的实践经验,公司大数据中心的部署可分为2 个阶段开展。

1)两级部署:现有的数据中心以两级部署模式建设,大部分业务在网省层次部署,少量业务在市县部署。因此,为了更好地以现有数据中心为数据源,充分利用前期的建设成果,大数据中心第一阶段采用分布式两级部署模式,总部作为核心数据汇集点,网省公司作为区域数据汇集点进行建设,两级部署具体方案如图2 所示。

2)一级部署:随着数据中心与大数据平台的逐渐融合,平台应向一级部署模式[3]演化(见图3)。一级部署、全网数据集中存储更加有助于公司大数据价值挖掘和业务创新。

大数据中心物理上由多个集群组成:数据接入集群、服务接口集群和数据存储计算集群[4]。数据接入集群部署包括分布式消息队列、流计算节点以及其他数据交换节点等服务,服务接口集群包括R语言服务、开放数据库互连(Open Database Connectivity,ODBC)/Java数据库连接(Java Database Connectivity,JDBC)服务、Web HTTP/ 表述性状态转移(Representational State Transfer,REST)服务、文件传输协议(File Transfer Protocol,FTP)服务、网络文件系统(Network File System,NFS)服务等,数据存储计算集群包括数据存储、计算、分析集群,物理部署集群如图4 所示。

3 大数据中心关键技术

3.1 数据接入与预处理

数据接入是将各类数据从外部数据源导入(清洗、转换)大数据存储系统,以备计算、分析的过程。数据集成从时效角度可分成实时、非实时,从数据量角度分成批量、增量,从数据类可分成结构化数据、半结构化数据、非结构化数据。针对不同类型、不同时效要求的数据,需采用多种不同的采集、集成技术。

数据采集的数据源可以是业务系统数据库、数据中心、网络、应用系统、终端、传感器等,数据接入与预处理框架如图5 所示。

大数据平台的数据来源除了传统的数据中心、数据仓库之外,更多的数据是来自之前无法有效处理的各类文件,如系统日志、数据交换文件、现场检修照片、远程监视的视频等。通过大数据平台的分布式存储可以低成本存储文件,也可以将其中的数据解析成结构化或半结构化的数据存储在大数据平台中。

传统的文件采集主要通过各种定制化脚本或syslog等采集、处理,存在单点问题,并且不易统一管理。因此需要应用文件采集与处理技术解决文件传输到HDFS的实时性及可靠性,并且保证应用系统正常运行。

在文件采集与处理技术中,目前一些技术工具比较成熟,具有较好的扩展性、可靠性、可管理性,具有容错故障恢复模式。如Flume是Hadoop组件之一,可以实时地将分布在不同节点、机器上的日志收集到HDFS中,并进行一些简单处理。

实时数据的接入可采取不同的技术方式:方式1 是从现有海量实时数据中心准实时导入数据;方式2 是传感器实时数据直接导入大数据平台。这2 种方式都存在实时数据量大、无法有效地直接存储到大数据平台的问题,必须对实时数据进行预处理、分析,只保存有价值的数据。一般采用消息队列Kafka(Apache开源)接收来自不同实时源的数据,后端采用流处理(Spark Streaming)技术对实时数据进行分析,只保存实时分析结果。

3.2 数据存储与检索

数据存储主要面向全类型数据(结构化、半结构化、实时、非结构化)的存储、查询,以海量规模存储、快速查询读取为特征。在低成本硬件(x86)、磁盘的基础上,采用分布式文件系统、分布式关系型数据库、No SQL数据库、实时数据库、内存数据库等业界典型功能系统,支撑数据处理高级应用。

存储涉及的关键技术如下。

1)面向电力大数据的存储系统自配置自优化技术。Hadoop分布式文件系统配置灵活,系统性能随参数设置的变化有较大变化,而电力信息系统数据结果复杂、形态丰富,需结合以上2 点深入分析,通过自适应动态采样算法以及分布式存储跨层配置降维机制,优化多节点协同配置,进一步提高存储系统性能。

2)数据副本动态调节技术。电力行业信息系统如营销应用、用电信息采集、运营监测等系统数据采集频率高、数据量可达到数十TB,同时要求数据的长期持久化存储。使用数据副本动态调节算法,可实现新增数据节点的快速部署和自动存储均衡。

3)命名数据网络(Named Data Networking,NDN)存储及路由机制。命名数据网络路由器模型(NDN Node)用来管理网络的路由与数据的存储,采用基于NDN网络存储平台的数据命名机制,可用有限的状态路由无限的命名空间;采用基于网络路由算法的命名部署机制及多路径转发策略[5];采用NDN的路由器数据缓存策略和存储管理,提升数据分发获取效率;针对NDN网络文件系统配置灵活多样,采用路由与元数据的统一映射机制;采用安全的网络路由算法,保证数据传输及存储的安全性。

4)基于NDN存储网络的数据可靠性及扩展性技术。针对电力系统非结构化数据的快速增长,原有文件系统在可容纳的文件、目录以及对象数量、可扩展性及可靠性方面受到限制,基于名字的网络代替现有的IP网络能更好地支持网络数据移动性。采用基于NDN的网络存储平台中块数据存储的动态可扩展功能,减小大数据的迁移范围,提高大数据的可恢复性。采用文件、块数据及内容的集成管理技术,使网络存储平台具备弹性功能,减少大数据重建的单点故障。采用基于命名机制的网络存储系统的数据冗余存储配置策略,实现突发情况下的数据快速恢复。

3.3 基于内存计算的在线数据处理

大数据中心的数据计算通过流计算和内存计算技术相结合,用以满足具有时效性的数据计算需求。流计算面向实时处理需求,用于在线统计分析、过滤、预警等应用,如电表数据实时处理、预警。内存计算面向交互性分析需求,用于在线数据查询和分析,便于人机交互,如全省用电数据在线统计。

在数据计算方面,主要采用内存计算以及流计算技术:传统数据库技术在处理海量数据时,无法实现良好的水平扩展性且现有技术难以有效解决因磁盘I/O引起的性能瓶颈问题,采用内存计算技术,CPU可直接读取内存中储存的数据,消除磁盘I/O性能瓶颈,结合并行计算技术,可实现高实时高响应计算,提高系统并发访问能力。

公司每天的生产经营活动中都会产生海量的视频、音频、日志等流式数据,流式数据具有实时性、易失性、突发性、无序性、无限性等特征,采用流计算技术可解决从流式数据中快速的获取有价值信息的问题。流计算技术指在一定时间窗口内应用系统产生的流动数据到达后不进行存储[2],直接导入内存进行实时计算,从流动的、无序的数据中获取有价值的信息输出。流计算具备分布式、低时延、高性能、可扩展、高容错、高可靠、消息严格有序、定制开发等特点,适用于对动态产生的数据进行实时计算并及时反馈结果的应用场景。

3.4 数据交互式统计与数据挖掘

梳理现有典型系统中电力大数据的数据特点,完善分析建模、模型运行、模型发布等能力,增加对大数据分布式计算的支持,满足实时、离线应用的分析挖掘需求,为公司数据资源价值深度挖掘应用的构建提供基础平台支撑。

电力数据类型多样,其中包含了大量冗余属性,对数据挖掘算法的效率和质量造成不利影响。采用高效大数据特征选择算法能够删除冗余的属性,获取有效数据特征,以高效地完成数据挖掘的数据预处理过程。一般来说,属性选择算法由4 个基本步骤组成:产生用于评估的属性子集;使用定义好的评估准则对子集进行评估,并与当前最优子集进行比较;停止准则的迭代评估;使用实际的数据集对评估所得的属性集进行有效性验证。

结合电力大数据的特征,采用运行于内存计算框架之上的数据分析技术。主要内容包括:根据业内主流的内存计算框架,结合电力高性能分析场景需求,选取适合于电力行业应用的内存计算框架;基于内存计算框架实时交互查询实现框架,提供海量数据的快速查询、多维度统计汇总等能力,支撑复杂数据分析挖掘;基于内存计算框架的数据挖掘实现框架,包括运行于内存计算框架之上的数据预处理方法、数据挖掘算法以及相应的挖掘过程建模工具、模型解析运行引擎,提供高效快速的分析挖掘模式。

3.5 数据安全治理

面对日渐突显的大数据安全风险和日新月异的网络入侵及攻击手段,大数据安全技术通过采用改进数据销毁、透明加解密、分布式访问控制、数据审计等手段,突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术瓶颈,完成大数据采集到应用的全过程监控[6]。

1)权限管理:原始数据及分析结果在使用时必须有用户权限控制,采用国家电网统一权限平台对用户进行统一的认证、授权管理。

2)隐私保护:采用隐私保护的数据挖掘(Privacy-Preserving Data Mining,PPDM)技术,使用K- 匿名隐私保护模型对原始数据进行匿名处理,避免原始数据来源被识别。

3)存储安全:在存储层面采用同态加密方法,并采用Hadoop的文件读、写、执行的访问控制列表(Access Control List,ACL)控制结合自定义的用户组策略实现文件权限控制。

4)接入安全:在传统的安全接入方案基础上,对于数据采集终端、数据源系统、业务应用系统接入时需通过网络安全、主机安全、访问认证等技术手段保证接入方合法访问。

4 大数据中心应用实例

国网山东省电力公司依托大数据引擎的数据分析与模型预测能力,基于用户用电信息、电网负荷信息实时采集同步,结合国民经济增长速度、产业结构调整、消费水平、工业与居民电气化程度、电价政策、气候/ 气温变化等外部因素,实现用电负荷大数据分析模型的构建,通过对各周期用电负荷曲线、负荷时间和空间分布等的预测,为电网规划、电能调配等提供决策支持。电力负荷预测系统界面如图6 所示。

依托大数据引擎的数据分析预测能力和历史数据,可以实现未来1 h以内、1 日内、1 周、1 月内、1 年乃至3~5 年的负荷预测,从而为电网预防控制、紧急状态处理、机组启停、水火电协调、设备检修/ 大修等提供依据。

大数据平台能够以日、周、月、年为粒度收集用电负荷的内外部数据,采用支持向量机方法进行样本分类,具有高精度、高效率、高可用等优势。以月平均负荷为例,月度负荷预测如图7 所示。

国网山东省电力公司基于用户用电负荷、用户档案、电网设备台账等业务数据,利用分布式计算、数据挖掘分析等技术,结合气象信息、GDP、各产业值等外部因素,构建用户月平均负荷聚类模型及日负荷聚类模型,以及区域最大负荷、最小负荷及平均负荷长短期预测模型,实现了下一阶段的用电负荷情况预测。通过预测未来电力需求量、未来用电量、用电负荷曲线、负荷时间和空间分布等,使电网公司提前了解到用户未来的用电需求量,为保障正常供电提前做好准备,有利于电网削峰填谷、平稳运行。同时,通过数据分析,为公司电网规划、设备检修、电能调配等提供决策支持,切实促进了从 “以电力生产为中心”向“以客户为中心”的转变,提升了供电服务满意度以及企业的社会形象。

5 结语

本文设计的基于电力大数据环境的大数据中心架构,实现数据收集、管理、使用的全过程管理,采用集中方式将数据从获取到使用的全过程进行封装,通过多种数据接入方式的实现,提高了数据的获取能力,有效拓宽数据利用范围。通过内存计算提高数据处理速度,实现了海量数据的实时处理,为实时分析提供了技术基础,有效提高了数据的可用性和数据利用的高效性。通过分布式存储,实现了重要数据的异地备份,使系统的可靠性显著提高。

基于数据实时获取和内外部环境综合分析的大数据平台,实现了数据收集的自动化和数据分析的智能化,有效降低了企业数据与外部环境数据的收集和分析成本。同时,随着大数据分析模型的不断成熟与完善,可以更加充分地利用企业资源,减少重复投资,准确定位瓶颈,预先发现问题,有助于节约建设和运维成本。

数据是公司的重要资产,实现电力大数据的合理应用,对数据中的价值进行有效挖掘,是提升公司业务和管理水平,推动公司实现“一强三优”宏伟目标的重要手段。电力大数据的开发和应用是个长期的建设过程,应对电力大数据有较为科学而清晰的认识,坚定信念、持续投入,切记“欲速则不达”。

参考文献

[1]王德文.基于云计算的电力数据中心基础架构及其关键技术[J].电力系统自动化,2012,36(11):67-71.WANG De-wen.Basic framework and key technology for a new generation of data center in electric power corporation based on cloud computation[J].Automation of Electric Power Systems,2012,36(11):67-71.

[2]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862.SUN Da-wei,ZHANG Guang-yan,ZHENG Wei-min.Big data stream computing:technologies and instances[J].Journal of Software,2014,25(4):839-862.

[3]国家电网公司.大数据技术现状与发展趋势调研分析报告[R].2014.

[4]国家电网公司.大数据应用建设总体工作方案(征求意见稿)[R].2014.

[5]雷凯,袁杰.命名数据网络内容分发机制研究与探讨[J].电信科学,2014(9):27-30.LEI Kai,YUAN Jie.Content distribution mechanisms of named data networking[J].Telecommunications Science,2014(9):27-30.

大学云架构与大数据处理建模研究 篇10

关键词:云计算;大数据;学生成长;教师发展;智慧校园

中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2015)01-0016-04

一、引言

大学云(Universities Cloud)是一种采用云计算技术,对教学、科研、行政、后勤等各种业务流程办理和职能服务的园区云,也是学校各级部门可靠的基础信息化服务平台。大学云服务将产生大量的各种数据,云计算目前是大数据处理的基础技术[1],采用云计算处理海量数据,提高管理与决策水平,是大学云架构的重点工作。

显然,云计算、大数据等技术已成为高校生存与发展的基础。大学云架构采用统一标准[2],不仅利于各种业务网络与应用系统互连互通,避免产生“信息孤岛”,也利于避免计算、存储及网络资源重复建设[3],节约资金及提高收益,还利于大数据处理,改善办学绩效及增强高校创新能力。

因此,大学云架构的关键问题是全面整合资源,优化云计算模型。也就是构建一种支持资源集约、信息共享、应用协同,以及大数据存储管理及检索使用的大学云。最优架构的大学云,是云计算、大数据与教育信息化的融合。这种融合,一方面规定了智慧校园高层划分及各部分间的交互[4],另一方面决定了智慧校园应用系统的实施能力和发展空间。本文以山西师大园区云建设为背景,重点讨论大学云架构与大数据处理建模等问题的解决方法。

二、大学云计算体系结构与功能

大学云是智慧校园建设的核心部分,是一个复杂的系统工程。该工程侧重六个方面:第一,优化整合学校各种管理信息系统和协同办公系统,建立统一基础数据库、数据交换系统、统一信息门户及统一身份认证等[5],消除信息孤岛。第二,完善高校决策支持系统的模型库、数据库和知识库建设,通过大数据分析,实现学校发展的智能决策。第三,优化整合网络课程、精品资源共享课和视频公开课及微课等资源,构建网上网下有机协同的智慧学习环境。第四,优化整合饭卡、洗浴卡、水卡、门禁卡、借阅证、上机卡等校园各类卡片,实现校园一卡通。第五,完善图书馆资源数字化管理,支持师生泛在数字化阅读与在线讨论。第六,优化整合多媒体视听教学与微格教学设施,支持MOOC的开发与应用。按照以上要求,大学云计算体系结构与功能,如图1所示。

从图1可以看出,大学云主要由基础设施、资源平台、应用平台和服务门户构成。基础设施包括了各种服务器、存储器、网络设备(交换、路由、安全等)和操作系统及工具软件等设施。采用虚拟化软件(如VMware vSphere 5.5),对云基础设施进行集群架构与管理[6];按照业务所需资源量,将虚拟服务器与虚拟存储器弹性适配与调度[7],由此形成大学云资源平台。在资源平台部署校园应用软件,包括教务管理系统、学生管理系统、科研管理系统、教工管理系统、资产设备管理系统、财务管理系统、后勤服务管理系统、图书文献管理系统、教学信息化与网络学习系统、协同办公系统、平安校园监管系统、校园一卡通系统、统一身份认证系统、上网行为管理系统、网络运维支持系统等。这些校园应用系统,构成了大学云应用平台。

大学云应用平台,通过数据交换系统(多个虚拟主机)接口,将各种数据库与各种应用系统适配连接,实现了资源集约、信息共享及应用协同。云应用,一方面通过面向师生信息服务接口,建立了一站式校园信息服务门户。师生可通过该门户,依据本人权限进行各种功能操作。另一方面,通过面向大数据分析与智能决策服务接口,建立了一站式校园决策支持门户。学校各级领导(或相关责任人),依据本人权限进行各种大数据分析操作。通过大数据分析,实施教学、科研与后勤服务等事务处理的决策支持。

三、校园大数据特征与处理方法

随着大学云建设与应用,大量数据来源于管理信息系统数据库与日志库、图书文献库与日志库、校园一卡通数据库与日志库、网络行为与管理日志库、平安校园视频库与日志库、多媒体及微格教学视频库与日志库、网络学习资源库与日志库、办学决策知识库和模型库及决策支持日志库等。数据类型繁多,主要有文本、数值、图形、图像、标签等。数据处理速度快,如管理信息系统数据库、一卡通数据库等,数据处理均有较高时效性。很多数据表现出低价值密度,如各种视频库、日志库等。这些数据完全符合大数据的4V(Volume,Variety,Velocity和Value)特征[8]。

校园大数据可分为结构化数据与非结构化数据两类。结构化数据主要包括各种管理信息系统数据库(关系数据模型)、能够变换为关系数据表单的各种日志库。非结构化数据主要包括图形图像、音视频(微格教学视频、精品资源共享视频课、微课程视频、校园监控视频等)、Web文档(HTML与XML网页)、课件文档(浏览器可打开的Word、PPT、PDF等)、工作文档(如年度计划、工作总结、项目研究、成果报告等电子文档)。结构化数据处理,常用数理统计模型与算法(如回归分析,最小显著差数法、最小显著极差法等)。非结构数据处理,常用文档语义表示与索引、文本处理与分析[9]、内容摘要等工具。校园大数据处理建模,直接影响着学校发展决策的水平。

四、支持学生成长的大数据分析

在校园云的环境中,如数字化迎新、数字化学习(网上选课、学籍管理、网络学习、在线讨论等)、数字化生活(校园刷卡吃饭、洗浴、用水、进门、借书、上机、体育运动,以及社团与学术活动等)的每一个过程中,均有大量的数据记录了学生成长。如图2所示。对这些数据进行深入分析,对学生成长及改善学校决策绩效[10],具有以下作用。

(1)学生入学与学习数据分析。整合学生入学情况和在校学习情况等数据,深入分析与了解不同生源地、不同单科成绩、不同专业、不同个性特征的学生在校期间学习表现,为招生部门优化招生措施提供决策支持。

(2)学生专业学习数据分析。整合能够反映学生在校的学习、研究和参加活动(如课程学习、校园学术活动等)等多种数据,持续、系统地分析每个学生的专业学习行为、课程测验与作业完成、课程考试成绩、项目申请与结题、学习兴趣与意见等数据,深入了解学生专业学习中的问题,为学习绩效改善提供个性化服务,为优化人才培养方案提供决策支持。

(3)学生在线学习与图书借阅数据分析。完善“在线学习管理系统”的学习轨迹记忆功能,能够跟踪学生的学习轨迹。深入分析学生在观看课程视频、网络课程学习、网络资源浏览、在线讨论发言、完成电子作业等项目上花费的时间差异。为优化网络学习资源开发与购置提供决策依据。统计学生访问图书馆、借阅图书与文献等数据,分析学生网上、网下学习时间分配情况,分析网络学习资源与馆藏图书文献资源配置情况,为优化电子与纸质资源最佳互补提供决策依据。

(4)学生就业与深造数据分析。整合专业教育、教育实习、校园招聘、社会招考、考取研究生、用人单位反馈意见等各类数据,深入剖析专业人才培养方案、学生就业或考研意图及市场对人才需求等数据,优化人才与市场对接机制、完善专业课程学习与考研对接机制,与为学生考研提供个性化指导服务,为毕业生提供个性化就业指导服务。

五、支持教师发展的大数据分析

教师是学校发展的中坚力量,教师的教学、科研能力高低,直接关系到专业人才培养质量与水平。在校园云的环境中,教师的教学、科研活动密切与数字化关联,如人事档案管理、综合教务管理、科研管理等系统,这些系统均记录了教师发展的大量数据。建立支持教师发展的大数据处理模型,是提升教师能力、促进教师发展的有效途径。如图3所示。

(1)教师基本数据分析。建立健全教师入职与从业档案数据库。深入分析教师的学历教育背景、学习专业与学缘状况(学士、硕士、博士的毕业院校,以及专业衔接与研究方向等),教师从事专业与学习专业的关系(一致、相近、跨专业等),以及教师专业职称与学习专业、从事专业及兴趣爱好之间的相关性等,优化教师招聘策略与措施,为学校人力资源部门招聘教师提供决策支持。

(2)教学信息化数据分析。按照教师信息化教学情况,整合综合教务管理系统、课堂教学日志(学生填写)、听课日志(领导和专家填写)等相关数据。深入分析教师制定课程教学计划、编写教案、课堂教学、实验教学、编写教材、制作课程资源、承担校本研究课题、获得教学成果与奖励等数据,了解教师教学能力发展中的优势与不足,为提升教师教学能力提供个性化服务。优化教师教学考核机制,为学校修订教师及课程组教学能力提升措施提供决策支持。

(3)科研与服务社会数据分析。深入分析教师承担科研项目(题目,级别、主要研究问题、方法措施,结题、结论等)、发表论文(题目、刊物级别、检索、社会反响等)、出版著作(名称、出版级别、发行量、社会反响等)、获得科技成果奖励、学术荣誉,以及进行的学术报告和外出学术会议等数据。深入分析教师科研能力、技术专长与社会兼职、承担横向课题、服务领域及业绩等之间的相关性,了解教师科研与社会接轨,促进生产力发展的情况。优化教师科研考核机制,为提升教师科研能力提供个性化服务,为学校修订教师及团队科研能力提升措施提供决策支持。

通过以上三方面数据分析,优化高校个人与团体的教学、科研绩效考评机制。为教师职称评聘提供考评依据,为学校修订师资队伍建设的政策与措施提供决策支持。

六、支持提升服务能力的大数据分析

校园后勤服务、资产设备使用,图书文献使用,以及网络使用等领域,均与学校服务师生的能力密切相关。而服务能力提升直接与领导干部执行力相关。如图3所示。因此,在这些领域开展大数据的分析,可助推学校服务能力提升。

(1)领导干部管理数据分析。完善党政干部管理系统功能,深入分析干部任职时间、职务变动、年度计划、工作总结、工作业绩、取得成果与奖励等数据。优化干部考核机制,为学校选拔、培养青年干部提供决策支持。

(2)校园后勤服务数据分析。后勤服务是智慧校园的重要组成部分,动态采集校园生活、安防、环保、资源与能耗等各个方面的数据,建立后勤服务保障系统。通过该系统,深入分析校园日常水电计量数据与水电节约数据,挖掘节能空间,完善节能管理措施。深入分析楼宇、房屋、设备、道路等日常修缮维护资源消耗与费用开支等数据,参考经验,完善修缮管理措施。深入分析学生刷卡吃饭与餐饮管理数据,普查学生餐饮问题,如饭量持续减少是否身体不适、每日三餐与每周营养搭配是否符合科学饮食,饭菜价格波动是否合理等问题,及时优化健康餐饮管理措施。深入分析师生在校体检与医疗数据,普查师生身体不适,及时提供进一步医疗建议。深入分析平安校园(所有楼宇内外、公共场所、道路、校园进出通道等)视频数据与操作日志数据,依据事件发生,普查电子眼密度与位置是否符合平安校园的需求,及时提供电子眼维护与增补建议。

(3)资产设备使用数据分析。建构资产设备管理系统,完善仪器设备台帐与使用日志管理,深入分析教学、科研仪器设备(含材料)用于学生实验、师生科研和协同创新攻关实验中,仪器设备使用完好与损害数据、够用与缺少数据。深入分析专业课验证、设计和综合实验项目实施与仪器设备使用率数据。深入分析实验室占地面积与配套设施使用率数据。综合以上三类数据分析结果,优化实验室建设、仪器设备维修与更新管理机制,为资产与设备科学、合理使用提供决策依据。

(4)图书文献使用数据分析。整合校图书馆和学院、所资料室的图书文献资源,构建图书文献阅读管理系统。通过学科资源服务系统,聚合与分享海量学科信息资源,精细化筛选适合读者需要的资源。采用RFID装置、红外感应器和激光扫描器等技术构建智能书架与书桌,智能抓取数据,进行读者行为学分析,获取其阅读喜好,为读者推荐感兴趣的资源。综合以上两类数据分析结果,优化图书文献流通管理机制,提高图书文献有效使用率,为满足读者需求购置图书、期刊等资源提供决策依据。

(5)网络行为数据分析。整合校园网流量控制、网络管理、安全管理、用户管理、上网行为管理及Web服务器等日志数据,建立网络综合日志管理系统。深入分析各类行为数据,包括用户访问外网的各种协议占用带宽、持续时长数据,用户连接与断开网络数据,用户访问网址、内容与持续时间数据,网络交换、路由设备工作正常、故障及恢复时间数据,网络交换与路由设备、服务器与主机系统等安全服务、遭受攻击及修复时间数据,以及服务器运行的行为数据。综合以上多种数据分析结果,优化网络运维管理机制,优化网络协议带宽分配策略,优化网络安全管控措施,优化节能管理措施,为校园网技术升级、增强网络可用性提供决策依据。

七、结束语

我们在大学云架构与大数据处理方面进行了有益的初步尝试。但仍有很多问题需要研究,如数据安全保护、个人隐私保护,挖掘关联规则[11]、构建预测模型等,我们要从深层次推进智慧校园可持续发展,使师生能够如影随形地感知与体验教育信息化的魅力。

参考文献:

[1][8]窦万春,江澄.大数据应用的技术体系及潜在问题[EB/OL].http://www.cnki.net/kcms/detail/34.1228.TN. 20130627.1215.002.html.2013.06.

[2]何京翔.为云计算和大数据重塑数据中心[EB/OL].http://www.chinacloud.cn/upload/2014-06/14060211 339145.pdf. 2014.06.

[3][4]杨威,刘彦宏.高校智慧校园建设中的关键问题与对策[J].中国教育信息化,2013(23).

[5]湖南青果软件有限公司.山西师大数字校园建设方案[D].2011.11.

[6][7]杨陟卓,杨威,王赛.网络工程设计与系统集成(第3版)[M].北京:人民邮电出版社,2014.9.

[9]Zhizhuo Yang, Heyan Huang. Chinese Word Sense Disambiguation based on Context Expansion[C].Proceedings of COLING-2012.

[10]沈富可.高校智慧校园的核心价值探索[EB/OL].http://free.eol.cn/edu_net/edudown/eduedu/shenfuke.pdf.2014.6.

[11]杨陟卓,黄河燕.基于异构关系网络图的词义消歧研究[J].计算机研究与发展,2013(2).

数据中心架构 篇11

随着医院信息化建设的深入,医院信息系统的数据安全成为各医院网管人员最关心的问题。医院信息系统经过多年运行,业务数据大量积累,尤其是图像传输与归档系统(PACS)的持续运行,数据量呈爆炸式增长,这会让一些准备不充分的医院信息部门面对海量数据束手无策,一味地增加存储容量或是靠手工备份与恢复成为信息管理者和数据库管理员的噩梦,而医院信息系统需要每周24 h×7不间断运行,任何安全问题都可能是致命的[1]。那么如何设计数据中心架构,如何构建容灾中心就成为医院信息安全管理工作的重中之重,下文即以我院数据中心成功搭建容灾架构的应用案例来阐述以上问题。

2 数据中心及容灾中心的架构设计

2.1 架构示意图(见图1)

2.2 服务器架构

生产服务器群:由IBM PC服务器若干台组成,医院信息系统(简称HIS)服务器由Oracle 10g R2 RAC模式构成双机系统,实现了数据库应用负载均衡[2],其他系统的服务器双机模式可根据应用性质不同,采用不同的双机模式。应用服务器或数据库服务器双机运行方式主要解决单台服务器硬件故障问题。实践证明,可实现负载均衡的双机架构是最佳的双机模式[3,4]。

容灾服务器群:容灾服务器一般不需要双机运行,但如果生产端采用了Oracle-RAC负载均衡模式,容灾服务器也需要设置RAC模式运行,而如果生产端服务器采用传统的双机模式时,例如双机热备模式,则只需要一台容灾服务器即可达到容灾效果。容灾服务器可以配置较大的内存,在操作系统和应用服务不冲突的情况下每台服务器可挂载多个生产系统以节约成本。本例中所有PC服务器配置2~4颗四核CPU,16~32 GB内存。服务器使用的数据库及相关业务数据(图像、病案文档等)均存放在存储阵列相应的区域,并通过光纤交换机(冗余、SAN架构)与存储设备连接。

2.3 存储架构

生产端存储(或称主存储),一般采用性能较佳、存储容量适中的存储设备。本例采用的是EMC CX4-480存储,8 TB裸容量。对于一个1 000~3 000张床位的医院来说,该档次的存储无论速度、稳定性、带宽或是容量,均可满足全院的满负荷应用,并可在线存储3~6个月业务数据。多个应用系统服务器分别访问主存储预先划分好的区域。容灾存储可采用性能稍低于主存储的存储设备以节约容灾成本,本例采用EMC CX4-120存储,容量和配置方式与主存储相同。主存储和容灾存储之间通过光纤网络实现数据同步镜像复制。主存储端若出现严重的硬件故障或生产中心发生灾难性事故,容灾存储中可完整保留所有数据。归档存储,过期历史数据无疑是医院信息系统中数据量最大的部分,这部分数据的存储方式多种多样,常见的是在线的光盘塔、磁带库、廉价存储阵列,以及离线的光盘和磁带等方式,这些方式要么安全性较差,要么在线访问存在严重的时间延迟或空间障碍[5],近年来,存储系统的归档模式开始应用并有全面替代传统归档方式的势头,本系统架构中采用了业界顶级的EMC-Centera归档存储,数据安全性及在线访问性能得到了全面的保证,并更好地诠释了病历档案的法规遵从理念。

2.4 应用容灾

以上架构搭建完成之后,最重要的一步是实现应用容灾,本例中利用廉价的PC服务器在容灾存储上实现类似生产中心的配置和连接方式,将数据库服务及文件型应用服务按实际应用环境需求进行安装,并使之处于待用状态,一旦生产端硬件系统局部或完全瘫痪,可根据需要部分或全部激活相关的容灾服务器及容灾存储上的数据及数据库,为客户端提供应用服务,确保各类信息应用的可持续性。切换方式建议手工切换,切换前需确认生产中心部分或全部相关硬件彻底瘫痪,短期无法恢复时方可切换。以上方法实现应用容灾需要进行统筹考虑,兼顾操作系统的兼容性,数据库版本的一致性以及生产服务器端双机模式的组建方式,以更小的成本实现多个生产系统的应用容灾,为医院提供更全面的信息安全保障。我们在建设中发现,如果生产系统采用了Oracle-RAC模式,则在容灾服务器端也必须采用同一版本下的RAC模式,但一般医院通常采用的服务器主备模式、双机热备或基于操作系统的负载均衡模式则在容灾中心配备容灾服务器时只需要单台类似环境的PC服务器即可实现相应系统的容灾切换。针对不同应用(如HIS、LIS、PACS、PIS、PASS等系统)都需要在存储中设立不同的逻辑区域以方便实现单一系统的容灾切换。实际操作中,一般要提前进行容灾整体切换及单一系统切换的模拟演练,需要多次成功切换并记录详细步骤,以备应急使用。

2.5 实时应用容灾

近年来,由于数据库技术的发展,出现了实时应用容灾,这种容灾方式由于技术壁垒较高,目前只有甲骨文公司技术比较成熟,例如中国海关总署采用了Oracle Goden Gate TDM系统实现了北京、广州数据库服务、数据备份双中心的模式,定期切换中心(2 000 km的距离,达到数据一致并切换成功只需要3 min),互为备份,为维护硬件和灾难恢复带来了极大的便利,低成本地提高了安全性的同时,实现了持续运行、停机不停服务的高效运转。更为典型的运行模式是实现双生产中心即双活(Active-to-Active),利用上述数据库功能模块还可实现生产中心和灾备中心同时运行,互为备份,2个中心的数据库之间还可以实现负载均衡,不仅保障了数据和应用安全还解决了异地双生产中心的工作负载,极大地提高了应用的可持续。由于属于较新的技术,我们暂时还没有采用这种模式,但实时应用容灾是数据应用安全的最高级别保障模式,也是下一步努力的方向,以上介绍的容灾架构只要再搭载Oracle Goden Gate TDM软件应用,在灾备存储上增加一个数据库区域划分,即可在数据库层面逐一实现实时应用容灾,实现“双活”,不必再为切换问题、恢复问题、停机维护问题所困扰,该方案目前正在进行设计,以探索在医院信息环境中的实际应用,并追求最高的性价比。

2.6 容灾机制

通过以上基本架构的实施,安全方面既实现了数据级(镜像存储)容灾,又基本实现了应用容灾。如图1所示,容灾中心在异地搭建,主要由容灾服务器及容灾存储构成。数据中心属于医院的生产中心,主存储中所有业务数据通过光缆,实时镜像复制到容灾存储,一旦发生灾难性事故,数据传输中断,远在异地的容灾中心即可考虑随时启用,容灾中心服务器预装了所有的应用服务、数据库服务功能,并与容灾存储保持连接,通过激活容灾服务器各项服务功能,修改相应网络配置,即可实现容灾的完整切换,及时挂载所有生产数据,保障医院各项业务不间断运行。为防止不必要的切换,以上切换过程需要在决策人员决定放弃原数据中心的抢修情况下指示系统管理员手工进行切换,才可按需启用容灾系统。待发生故障的数据中心完全恢复后,需要一系列切换动作恢复原有架构的运行模式。

2.7 历史数据归档与数据备份

数据中心与容灾中心设计无法回避历史数据归档与过期数据备份问题,尤其是医院PACS历史数据量十分庞大,实现低成本的应用容灾可以先不考虑过期历史数据问题,但主存储的数据库文件及近线数据(主存储中在线、近线数据保持3个月以上)一定要实时镜像复制到容灾存储中,切换到应用容灾系统后,一般需要3个月的完整历史数据即可保障医院各项业务不间断运行,在数据中心完全恢复之前可根据恢复时间长短决定是否启用历史数据归档存储设备(见图1)与容灾服务器的连接模式,以确保容灾中心独立工作情况下,能够使用长期历史数据。日常数据管理中,长期历史数据有各种备份模式,特别重要的是离线备份模式,主要是确保几十年的数据要有妥善的保存方案,碰到严重灾害时,这些历史数据还需要逐年恢复。另外,数据备份系统也要考虑容灾切换问题,确保容灾存储和容灾服务器启用后,可按容灾中心启用后的数据备份计划进行备份。

3 讨论

医院信息系统的容灾主要是2个级别的容灾:一是数据级容灾,以保全数据为主要追求目标;二是应用级容灾,以不间断运行为主要追求目标。

一般从成本角度考虑,数据级容灾成本低,容易实现,数据的安全性有保障,如果灾难发生导致的瘫痪时间不长、故障容易修复则对业务工作影响不大;缺点是医院相关生产业务将可能短期内完全或大面积瘫痪,无法进行业务处理,必须等待数据中心灾难修复完成后方可继续运行。

应用级容灾则需要较大的投入、更为严密的设计,技术要求比较高。需要配备更完整的硬件冗余环境,且软件的配置方面也有更严格的要求[6],设计时需要从服务器的各类应用服务、多套数据库服务、网络架构设计、容灾切换机制、完整恢复机制等多个方面加以考虑以确保出现故障时容灾系统能够不间断的自动或手动完成切换,并努力实现多中心负载均衡的系统运行方式,从而使客户端处理业务时几乎感觉不到后台自动切换过程或故障造成的业务停顿。

本文介绍的实施方案,实际上处于2个级别之间,该方案在实现难度和成本控制方面有较大的优势,成本方面主要在原数据级容灾方案的基础上增加数台容灾专用PC服务器。本架构与理想化的应用级容灾架构所不同的是,切换到容灾系统需要提前准备,现场作出决策,尽量手工切换。出现灾难性事故时,从决定切换到完成至少需要0.5 h。该容灾系统必须配备完整的应急预案来施行容灾切换。正常运行状态下,各容灾服务器则处于备用状态,不能轻易激活其数据库应用。因此,其局限性和使用方法需要认真考量,确保应用安全。

4 结论

医院业务要求一周24 h×7不间断运行,并且年度无故障运行时间不低于99.5%,患者的电子病历档案必须实现异地容灾防止丢失,要想持续多年达到这样的要求,必须有完善的备份机制和容灾机制[7],除了传统的备份手段和数据保护机制,应该尽一切可能早日实现应用级容灾,确保医院信息系统稳定顺畅运行,为医院带来切实的社会效益和经济效益,也最终保障了患者的救治工作不再因信息系统意外中断而受到影响。

参考文献

[1]徐兴勇,左儒发.医院信息系统的数据安全与实时备份[J].重庆医学,2009,38(21):2 664-2 665.

[2]姜文,胡顺福.实现医院信息系统高可用性设计[J].中国医疗器械杂志,2008,32(1):62-63,67.

[3]李力,王虹.国内外网络安全问题现状及相关建议[J].医疗卫生装备,2009,30(5):108-109.

[4]翁盛鑫,程少平,黄影.“军卫一号”HIS的高可靠性体系结构设计与比较[J].医疗卫生装备,2009,30(1):53-54.

[5]杨栋,苏小刚.电子病历归档系统研究[J].医疗卫生装备,2009,30(1):44-46.

[6]赵锦.医院信息系统的安全防范[J].医疗卫生装备,2009,30(3):57,85.

上一篇:医院远程信息系统下一篇:城市垃圾处理方法