课堂教学资源存储

2024-10-17

课堂教学资源存储（精选8篇）

课堂教学资源存储篇1

1 问题的提出

随着科学技术的不断发展, 信息技术引发了高等教育的巨大变革, 信息化建设规模也在不断扩大, 引起计算机应用服务也相应增加, 相应的计算机教学资源出现大幅度的增长, 导致等相关设备的增加。以影视传媒专业为例, 它是近年来兴起的在美术、音乐类专业之外的又一大类高等教育专业, 主要面向电视台、广播电台、电影电视制作机构、报刊杂志社等各种影视传媒部门单位培养优秀的专业人才。由于影视容量的扩大。存储影视的服务器的容量逐渐不能满足需求, 不得不追加更高档的服务器满足教学的需求, 导致设备费用大量增加, 而已购买的计算机无法再满足需要, 造成资源的巨大浪费。为了有效解决这些矛盾, 本文提出构建校园教学资源的云存储的解决方案, 能有效避免这些问题。

2 云存储概述

云存储是在云计算概念的基础上延伸和发展的一个新概念[1]。它通常意味着把主数据或备份数据放到单位外部不确定的存储池里, 而不是放到本地数据中心或专用远程站点。支持者们认为, 如果使用云存储服务, 企业机构就能节省投资费用, 简化复杂的设置和管理任务, 把数据放在云中还便于从更多的地方访问数据。

2.1 云存储的定义

云计算是分布式处理、并行处理和网格计算的发展, 是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序, 再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。云存储的概念与云计算类似, 它是指通过集群应用、网格技术或分布式文件系统等功能, 将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统, 保证数据的安全性, 并节约存储空间[2]。

2.2 云存储的分类

云存储可分为以下三类:

2.2.1 公共云存储

云计算供应商可以保持每个客户的存储、应用都是独立的, 私有的云存储。如搜狐企业网盘, 百度云盘, 坚果云, 酷盘, 115网盘, 华为网盘, 360云盘等。公共云存储可以划出一部分用作私有云存储[3]。私有云存储可以部署在企业数据中心或相同地点的设施上。私有云可以由公司自己的IT部门管理, 也可以由服务供应商管理。

2.2.2 内部云存储

这种云存储和私有云存储比较类似, 唯一的不同点是它仍然位于单位防火墙内部。

2.2.3 混合云存储

这种云存储把公共云和私有云结合在一起。主要用于按客户要求的访问, 特别是需要临时配置容量的时候。从公共云上划出一部分容量配置一种私有或内部云可以帮助公司面对迅速增长的负载波动或高峰时很有帮助。尽管如此, 混合云存储带来了跨公共云和私有云分配应用的复杂性。

2.3 云存储的相关技术

2.3.1 WEB2.0技术

Web2.0技术的核心是分享。只有通过web2.0技术, 云存储的使用者才有可能通过PC、手机、移动多媒体等多种设备[4], 实现数据、文档、图片和视音频等内容的集中存储和资料共享。

2.3.2 集群技术、网格技术和分布式文件系统

云存储系统是一个多存储设备、多应用、多服务协同工作的集合体, 任何一个单点的存储系统都不是云存储。既然是由多个存储设备构成的, 不同存储设备之间就需要通过集群技术、分布式文件系统和网格计算等技术, 实现多个存储设备之间的协同工作, 多个存储设备可以对外提供同一种服务, 提供更大更强更好的数据访问性能。如果没有这些技术的存在, 云存储就不可能真正实现, 所谓的云存储只能是一个一个的独立系统, 不能形成云状结构。

2.3.3 存储虚拟化技术

云存储中的存储设备数量庞大且分布多在不同地域, 解决不同厂商、不同型号甚至于不同类型的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题, 否则, 结构上就无法形成一个整体, 而且还会带来后期容量和性能扩展难等问题。

2.3.4 数据加密安全技术

数据加密安全技术保证云存储中的数据不会被未授权的用户所访问, 同时, 通过各种数据备份和容灾技术保证云存储中的数据不会丢失, 保证云存储自身的安全和稳定。

3 教学资源的云存储架构设计

教学资源的云存储架构[5]如下图:

3.1 数据存储层

数据存储层也是教学资源云存储体系的硬件层, 它为整个云存储系统提供基本的网络环境、物理存储资源和逻辑存储资源。存储设备数量较为庞大且分布广, 通过网络连接在一起。存储设备之上是一个统一存储设备管理系统, 可以实现存储设备的逻辑虚拟化管理、多链路冗余管理, 以及硬件设备的状态监控和故障维护。然后是数据逻辑存储系统, 包括文件系统、数据库和元数据集等。文件系统、数据库和元数据集等。

3.2 数据管理层

数据管理层是教学资源云存储体系的核心层, 通过集群、分布式文件系统、网格计算等技术, 实现云存储中的多个存储设备间的协同工作, 使多个存储设备可以对外提供同一种服务, 并提供更大更强更好的数据访问性能。

3.3 数据服务层

数据服务层根据实际业务类型, 开发不同的应用服务接口, 提供不同的应用服务。包括信息采集、加工、管理所需的存储、信息的发布与服务所需的存储以及容灾备份等所需的存储。同时, 通过应用层共享云端平台, 不同权限的用户都可以更方便地访问与管理相关资源。

3.4 数据应用层

数据应用层是授权用户通过标准的公用应用接口来登录云存储系统, 享受云存储服务。如PC、手机、移动多媒体等, 可以在任何时候任何地点通过数据应用层的教学资源存储平台使用教学资源的云存储服务, 满足自己的信息需求。

4 教学资源云存储的基本功能设计

教学资源云存储平台功能[6]列表设计如下:

教学资源上传:用户登录系统后, 可通过点击教学资源上传功能键, 上传教学资源;同时支持教学资源的批量上传;

教学资源下载:用户可以下载自己上传的教学资源, 同时下载别人共享给自己的教学资源;

教学资源共享:教学资源共享包括两方面的共享, 一方面, 教学资源拥有者对指定用户群体的共享;另一方面, 教学资源拥有者提供一个下载链接, 拥有链接的公众均可以下载该教学资源;

教学资源浏览:教学资源浏览包括教学资源拥有者的教学资源列表浏览, 教学资源被共享人的被共享教学资源列表, 教学资源相关元数据的查看、教学资源的在线预览, 其中教学资源的在线预览, 可以根据教学资源格式, 分为图片预览、视频预览、文档预览等。

5 结束语

云存储对使用者来讲, 不是指某 (一个具体的设备, 而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储, 并不是使用某一个存储设备, 而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲, 云存储不是存储, 而是一种服务。通过云存储可以对教学资源有一个统一管理和统一服务, 对高校信息化的建设提供一种参考。

摘要：针对影视传媒专业使用教学资源的频率高、资源容量大的特点, 提出建立教学资源的云存储架构模式, 进行数据存储层、数据管理层、数据服务层和数据应用层的架构设计, 形成一个统一管理、统一服务的教学资源的云存储系统, 有利于资源的合理利用, 为单位自建内部云存储系统提供了依据。

关键词：云存储,架构,教学资源

参考文献

[1]王胜航王仕云那些事儿[M]电子工业出版社2012.1

[2]陈虎基于HDFS的云存储平台的优化与实现[D]华南理工大学硕士论文2012.5

[3]孔祥杰杨卓夏锋等基于云计算的教学资源共享平台[J]中国教育信息化2012.11 31-33

[4]李爱勤鲍凌云冯晓娜数字图书馆资源云存储模型研究[J]现代情报2012.2 48-50 vol 32 No 2

[5]高宏卿汪浩基于云存储的教学资源整合研究与实现[J]现代教育技术2010.3 97-101 vol 20 No 3

[6]徐强王振江云计算应用开发实践[M]机械工业出版社2012.1

课堂教学资源存储篇2

关键词云存储课程资源应用模式

中图分类号：TP3 文献标识码：A

1云存储技术与课程资源

1.1 云存储技术

云存储是云计算概念上延伸和发展出来的一个新的概念。云计算是分布式处理、并行处理和网格计算的发展，是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大系统经计算分析之后将处理结果返回给用户。是由数据存储层、数据管理层、数据服务层、数据访问层构成。

1.2课程资源

课程资源是指课程要素来源以及实施课程的必要而直接的条件。课程资源的结构包括校内课程资源和校外课程资源。校内课程资源，除了教科书以外，还有教师、学生，师生本身不同的经历、生活经验和不同的简历、学习方式、教学策略都是非常宝贵的非常直接的课程资源，校内各种专用教室和校内各种活动也是重要的课程资源。校外课程资源，主要包括校外图书馆、科技馆、博物馆、网络资源、乡土资源、家庭资源等。

2网络课程资源应用现状

（1）目前的网络课程资源种类过于单薄，仍局限于教师的备案，精品课程，经典考卷，对于学生的见解，有利于学习的各种资料没有加以归类进行上传存储，更谈不上信息的共享。

（2）课程资源数量呈上升趋势，但其背后仍存在大量非正常运行的网络资源，这些非正常运行的网站可能存在找不到课程、系统经常处于维护中、访问权限受到限制、链接失败、内容错误等故障。

（3）随着科学的发展、技术的进步，网络课程应不断的丰富与改善，以确保学者们学到有用的、正确的知识。但对于经济落后的地区，无法对教育投入更多资金，来配备先进的硬件设施，学习环境较差。而经济发达的地区，不仅有先进的硬件设备，其优越的条件还吸引了大量有才能的学者前来研究课程资源网的建设。因此，课程资源应用差距正逐渐拉大。

（4）随着网络课程资源建设的不断发展，对于后期的维护出现了许多严重问题。如，网络课程资源的重复建设；垃圾信息的不断增长，造成了存储空间的的浪费；网络课程资源的量虽大，但优秀的资源大多因为访问权限的限制，难以共享，给学者们的学习带来了很大的负面影响。

总之，现阶段课程资源网的规范建设存在着滞后的现象，对于优质的课程资源还缺乏统一的标准。因此探索出优质的课程资源应用模式，为广大学子提供优质的网络课程资源。

3基于云存储技术的课程资源应用模式

针对以上出现的问题，我们需要探索出一个优质的课程资源应用模式，为学子们提供优质的网络课程资源。通过利用云存储技术来构建一个完善的课程资源应用模式，在传统课程资源模式的基础上构建一个虚拟空间，以扩展传统校园课程资源系统的功能。与传统的网络课程资源应用建设不同，利用云存储技术构建的课程资源应用模式将更具有人性化，用户可以按照自己的喜好或需求通过云服务获得所需的资料。通过云存储技术我们要将课程资源更好的组织起来，让用户通过互联网便可以快速查询到需求信息，为广大学子提供良好的网上交流学习环境及个人在线云存储服务。如教师的课件、重要的办公文件、学生的学习资料都可以保存在云存储服务中心。海量的信息资源需要整合，整合需要解决的首要问题就是信息的合理存储，以便实现对其高效、安全的访问。因此为了构建这个基于云存储技术的课程资源应用模式，我们应从采集信息、组织信息及应用信息方面出发来整合课程资源，同时搭建一个平台，供用户对课程资源的存储与访问。结合课程资源的存储特点，要想构建了一个低成本、高效率、高安全性的课程资源应用模式，要尽力实现对信息的分布式存储。首先，信息被切分为多个数据块分散存储在云中的节点中，实现多副本备份机制，如此就确保了安全性。其次，云中的控制节点通过“心跳检测”不断地监视存储节点的状态，当发现存储节点已经失效时，控制节点能够将工作负载交给那些运行正常的存储节点来完成。同时，由于云中的数据是分布式的存储，能够很好地分担存储和访问的压力，如此就可以确保高效率。最后，由于云中的存储设备都是廉价的商业机，跟单一的大容量专业存储设备相比较，存储容量更大，因此存储成本更低。

4云存储技术下课程资源应用模式存在的问题

（1）课程资源存储平台在实际的运行时，必将承受较大的运行压力，面临着各种未知的安全问题。因此在构建课程资源应用模式时，我们应对用户的权限进行管理，确保资源在被传输和被存储的过程中不被泄露，数据的保密工作，同时要避免病毒软件的入侵。

（2）传统的课程资源存储一般使用的是专业的存储设备，这些专业的存储设备价格大多较高，再加上课程资源的不断增长对存储设备的更新与维护需要投入一笔不小的开支，这对于经济条件不太乐观的高校来说无疑是一个巨大压力。因此我们急需解决高校存储数据的高成本问题和系统的效率问题。对此，可以通过将数据尽可能的存储在不同的数据节点中，当客户端对信息进行请求时，能高效的回复，并做到并发来解决问题。

（3）我国各高校都建立了较完善的课程资源体系，但由于各高校间缺乏有效的互通互联机制，无法实现课程资源的共享等原因导致了课程资源的重复建设。加之许多已淘汰的课程资源没有被即时清理，占用了巨大的存储空间，造成了存储空间的浪费。因此可以利用云存储技术对课程资源进行整合，对旧的课程资源进行变通，使之赋予再利用、可再生性。

课堂教学资源存储篇3

目前, 高校网络教学资源的建设和发展很快, 各高校都相继建立了精品课程、专题学习、moodle平台、天空教室和专业资源库等网站, 并在教学中加以推广使用。网络课程等新教学模式的开展, 使得学生可以自主学习、互相讨论, 教师也可以通过网络平台对学生进行指导, 有效地提高了高校的教学质量。但是由于资源种类、数量的迅速增长, 传统的直接连接存储模式已难以满足教学资源不断增长的需求。因此, 海量数据存储系统即云存储平台的构建就成为了当前网络教学资源建设发展中亟待解决的问题。

直接连接存储的也称之为服务器连接存储, 是指将磁盘阵列或者磁盘簇等存储设备通过光纤等接口直接连接到服务器, 它是一种以服务器为中心的系统架构, 结构如图一所示。该存储架构的弊端:首先, 该架构要求为每一个客户机型配备一台服务器, 也就导致了数量庞大的服务器, 即增加了对数据存储的管理难度;其次, 当需要增加新的存储设备时, 需扩展系统, 而购买新的存储设备又需要大量资金的投入。因此, 这种存储架构适用于用户对存储性能要求较低的情况。当面临存储容量迅速增加的情况时, 则需要引进新的存储架构。

2 云存储介绍

云存储, 是指集合分布式文件系统、网格技术和集群应用等功能, 通过应用软件将大量处在网格中的各种不同类型的存储设备集合起来协同工作, 虚拟成一个系统统一对外提供业务访问和数据存储的功能。严格的说云存储是一个由服务器、公用接口、存储设备等多个部分组成的复杂系统, 而不仅是一个简单的存储设备。云存储模型如图二所示, 一般由存储层、基础管理层、应用程序接口层和访问层四层组成。

存储层是云存储的基础部分, 光纤通道等都可以作为存储设备;基础管理层是云存储的核心部分, 该层通过分布式文件系统、集群、网格计算等技术, 实现云存储中的各种设备间的协同工作, 从而提供更好的数据访问性能;应用接口层是云存储中的最灵活、多变的部分, 可以提供不同的应用服务接口等;访问层是云存储平台与客户间的连接纽带, 通过公用接口授权实现用户对云存储的访问。

3 教学资源的云存储模型设计目标

根据现有教学资源的存储状况, 结合云存储技术特点, 模型的设计目标可以概括为:

1) 海量资源存储

云存储采用的是廉价机器, 而且是一个大规模的存储集群, 从理论上讲其容量是可以无限扩大的, 面对日益增长的教学资源存储需求, 云存储是一个较好的解决方案。

2) 共享的教学资源

网络教学资源的云存储平台, 最终是为了实现高校间甚至是全国性的一个网络教学平台, 各个高校把自己的优秀资源上传到云中, 达到优势教学资源的共享, 这样就扩大了特色资源的利用率, 为更多的师生提供优质的服务。

3) 高可靠性

云存储模型中, 资源一般至少备份三份, 所以即使一台服务器数据故障, 也不会造成数据丢失。同时, 在云存储端有专人负责管理, 监控存储运行情况, 都保障了数据的绝对安全。

4 教学资源的云存储模型总体架构

网络教学资源的云存储模型将是一个强大的“云”网络, 通过利用虚拟化、分布式等技术扩展各种硬件设备和软件设施的功能, 实现将地理位置分散、操作平台不相同的软硬件资源有效地整合在一起, 为云客户端提供多种形式的服务。

结合实际需要, 把该模型划分为基础设施服务、平台服务、应用服务三层。

基础设施服务层:是该模型的基础, 位于整个模型的最底层, 它是经过虚拟化后的硬件资源及相关管理功能的集合。主要涉及两方面内容:一是通过虚拟化处理, 将各种不相邻的硬件设备集合在一起, 构成该云存储模型的基础设施。客户端在使用时, 只需发出请求, 就可获得相应的资源。二是在虚拟化处理的基础上, 提供数据存储管理、负载管理等接口服务功能。

平台服务层, 是具有通用性和可利用性的软件资源的集合。主要包含信息管理的接口、平台服务的接口、信息发布的接口以及信息规划的接口。

应用服务层, 为网络教学资源平台提供所需的软件和服务。包括检索、咨询服务等。

高校网络教学资源的云存储模型设计如图三所示:

5 结束语

本文通过分析当前高校网络教学资源管理存在的不足, 结合云存储技术的优点, 提出了一种基于云存储技术的网络教学资源云平台模型。分析云模型的优点, 可知高校网络教学资源的存储模式必定会走上云平台的道路。

摘要：随着高校网络教学资源的飞速增长, 海量数据的存储已成为高校研究的一个新课题。传统存储模式存在教学资源分散、信息无法共享、资源利用率低和维护成本高等问题。本文提出将云存储技术应用到高校网络教学资源管理平台中, 满足海量数据存储和管理的同时, 实现对网络教学资源的有效整合。

关键词：网络教学资源,海量数据,云存储技术

参考文献

[1]覃晓萍, 基于网络教学资源归并的云存储模型研究[学位论文], 华中师范大学, 2011.05

[2]张明, 浅谈云存储技术与应用[J], 甘肃科技纵横, 2010, 39 (3) , 15-19

立体视频资源存储入库研究篇4

随着多媒体技术的快速发展, 立体视频逐渐融入人们的日常生活中, 应用领域不断扩大, 已经广泛应用于军事、医疗、虚拟现实、教育科研等领域, 尤其是教育领域的应用不断增加, 同时产生大量立体视频资源。常见的立体视频以双目立体视频为主, 通常采用双路分离、左右合成、上下合成等格式表示, 并通过红蓝或者偏光等形式显示和观看。随着立体视频资源的增多, 立体视频资源存储入库成为亟待解决的问题。本文主要解决双目立体视频的存储入库。

2.立体视频的本质特征

立体视频帧的本质特征是视频帧本身所蕴含的特征信息, 包括视频帧的颜色特征、纹理特征、形状特征、视差特征、深度特征, 等等。

颜色特征是数字图像领域中应用最广的特征之一, 提取图像的颜色特征分为三步:选取颜色空间、颜色区间量化、相似性计算。颜色空间是一种通过特殊规则加以说明的颜色集合体, 数字图像上几乎任何一种颜色都能在颜色空间找到对应的点, 常用的颜色空间:RGB颜色空间, HSV颜色空间, YUV颜色空间。纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征, 是物体表面特性, 例如高山、小桥、石头、衣服等都有各自的纹理特征。纹理特征包含物体表面结构组织排列的重要信息及其与周围环境的联系。形状特征是指一个物体的外部轮廓, 与颜色特征和纹理特征相比, 形状特征在描述立体视频内容时更具有语义含义。形状特征首先需要对图像分割, 把对象提取出来, 再用各种方法进行匹配测量。对于形状特征的描述方法有: 边界特征法、傅里叶形状描述法、集合参数法、最小生成树等[1]。

与2D视频相比, 立体视频增加了视差和深度特征。立体电影的制作就是利用了双目视差的原理。在拍摄时, 使用两台摄像机相距几厘米同时进行拍摄。放映时, 把两个影像同时放映在屏幕上, 观众戴上立体眼镜使左右两眼的像落在视网膜上的非对应点, 并产生一定的差异, 从而产生立体视觉。

双目视差是指两眼注视外界物体时, 两个视网膜上视像之间的差异。距离和深度知觉, 主要依赖双目视差, 它是形成立体视觉的最重要的依据。人的双眼结构相同, 双眼间的距离大约是6.5cm, 当人们观看三维物体时, 物体投射在左右眼睛上的像并不完全落在视网膜上的对应区域, 左眼看物体的左边多一些, 右眼看物体的右边多一些, 三维物体在双眼视网膜上的像就存在差异, 称为双目视[2]。深度信息反映了所拍摄物体到相机的距离, 获得深度信息的方式有两种;第一种是通过拍摄仪器直接获得, 但通过这种方式获得的深度信息往往分辨率低, 并且需要很大的计算复杂度, 对硬件设备要求很高, 一般情况下难以达到实时拍摄的需求。第二种深度信息的获取是靠几何学知识, 利用已知参数的摄像机拍摄出的双目视频, 利用立体匹配计算出视差后, 反推视频对象的深度信息[2]。随着立体匹配技术的不断完善, 现在已形成许多各具特色的匹配算法。已有算法根据匹配准则的不同, 大致可以分为两大类:一类是局部匹配算法;另一类是全局匹配算法。全局匹配算法与局部匹配算法相比, 匹配准确性较高, 可以获得较高精度的稠密视差图, 但是往往计算量大、耗时比较长、不易于硬件实现, 无法应用于实时系统。总之, 两类立体匹配算法各有优缺点, 适用于不同的情况和空间场景[3]。

3.建立立体视频存储入库模型

视频结构一般分为视频、场景、镜头、视频帧四个层次[4]。本文主要对立体视频资源的镜头、场景、关键帧三个方面进行研究, 建立立体视频资源存储入库模型。

3.1立体视频镜头分解存储入库

镜头是由时间上连续的帧构成, 同一个镜头内的内容具有一致性。通过判断连续帧之间的差异确定镜头的边界。根据镜头边界的不同, 可分镜头的突变和镜头的渐变。镜头突变是指一个镜头内容的变化发生在单个视频帧上。镜头渐变是指相邻的两个镜头的变换是逐渐完成的, 在镜头切换的时候加入编辑特效, 达到视觉上平滑过渡的效果。根据编辑特效的不同, 镜头的渐变可以分为淡入 (fade in) 、淡出 (fade out ) 、溶解 (dissolve) 、擦拭 (wipe) 等不同类型。淡入是指画面亮度不断增强;淡出是指画面亮度慢慢变暗最终消失;溶解是指镜头的帧逐渐变淡退出; 擦拭是指后一个镜头的画面慢慢代替前面的一个镜头的画面。

目前立体视频镜头分割算法大多是基于2D视频的, 立体视频镜头分割算法还不成熟, 2D视频的镜头边界检测算法主要分为两大类:基于像素域的方法和基于压缩域的方法。像素域中镜头边界检测方法主要利用时空域中的颜色、纹理、形状等特征进行检测。像素域中的算法主要有像素比较法, 基于直方图的方法, 块匹配法, 基于边缘的方法。由于现在大多数视频序列以压缩格式存储, 对这些压缩形式的视频流直接进行边界检测, 节省大量解压缩时间。目前压缩域中的主要有基于DCT系数的方法, 基于小波变化的方法, 时空分析法。

虽然2D视频的镜头分割算法能完成立体视频资源存储入库的预处理工作, 但是运用2D视频镜头分割算法处理双目立体视频时, 检测结果往往存在一定误差, 并且不能很好地检测镜头渐变的完整边界变化, 在2D视频的镜头分割算法的基础上, 提取立体视频的深度特征, 进行镜头边界检测, 从而提高镜头边界的检测精度, 实现对立体视频的镜头准的确分割。基于立体视频镜头分割算法, 对立体视频资源存储入库。

3.2立体视频场景分解存储入库

场景是由连续镜头组成的视频片段, 是表达一个完整情节的逻辑故事单元。

立体视频场景分割, 以镜头作为研究对象, 根据镜头的内容相关性和时间上的邻近性把相似的镜头划分到同一场景中, 这样一段视频被分割成若干个有意义的逻辑故事单元。

目前立体视频场景分割算法大多是基于2D视频的, 立体视频场景分割算法还不成熟。大体上通过提取镜头的视觉特征, 把内容相关时间相近的镜头聚类成一个场景, 或者综合视觉信息和听觉信息划分场景[5]。

与传统的2D视频场景分割不同, 立体视频利用立体视频镜头分割算法的结果, 结合立体视频颜色特征、纹理等本质特征, 通过镜头聚类, 检测场景边界, 利用立体视频的深度特征, 实现对场景的准确分割, 基于立体视频场景分割算法, 对立体视频资源存储入库。

3.3立体视频关键帧分解存储入库

帧是立体视频的基本组成单位, 立体视频的每一帧都可以看成空间上独立、时间上相关的静止图像。空间上独立体现在立体视频的每一帧都可以进行分析处理, 时间上相关体现在时间轴上相邻的帧一般会有内容上的相似性。

由于立体视频中, 帧的数量巨大, 可以用关键帧描述镜头和场景。这样既充分描述了视频内容, 又减少了冗余信息。关键帧就是能描述立体视频内容主要的帧。根据立体视频结构的复杂程度, 关键帧可以由一帧或者多个帧组成。

目前立体视频关键帧提取算法主要是:基于镜头边界提取关键帧, 基于运动分析提取关键帧, 基于图像信息提取关键帧, 基于镜头活动性提取关键帧, 基于聚类的方法提起关键帧。

Zhang, Wu[6]等人依据帧间的显著变化来为2D视频选择多个关键帧, 首先把镜头的第一帧作为关键帧, 然后计算前一个关键帧与剩余帧之差, 如果差值大于某一阈值, 则再选取一个关键帧。与2D视频不同, 立体视频依据帧间的显著变化, 再加上立体视频的深度信息构建相邻帧差, 实现对关键帧的准确提取, 基于立体视频关键帧提取算法, 对立体视频资源存储入库。

4.结语

在2D视频的镜头分割算法上基础上, 增加立体视频的深度特征, 得出立体视频镜头分割算法, 进而研究出立体视频场景分割算法和关键帧提取算法, 从镜头、场景、关键帧三个方面实现对立体视频资源高效的管理及利用。对立体视频资源存储入库的同时, 增加了立体视频素材, 缓解了立体视频资源匮乏的现状。

参考文献

[1]印勇, 侯海珍.基于直方图帧差的自适应镜头分割算法[J].计算机工程与应用, 2010, 09:186-189.

[2]王波.双目视差的立体视觉及其在技术课程教育中的应用[D].浙江工业大学, 2012.

[3]杨志荣.双目视觉立体匹配方法和遮挡问题研究[D].燕山大学, 2010.

[4]Yong Rui, Huang, T.S, Mehrotra, S, “Exploring video structure beyond the shots, ”in Multimedia Computing and Systems, 1998.Proceedings.IEEE International Conference on, vol, no, pp.237-240, 28 Jun-1 Jul 1998.

[5]王旭军.视频场景分割方法研究[D].重庆大学, 2010.

园区网网络资源的存储篇5

随着数字化校园建设的普及,网络应用成为日常教学、办公不可或缺的工具。学校的管理、教学及科研等越来越离不开校园网络的运行。随之而来的,对网络资源的需求也越来越多越丰富。

各个院校在校园网建设中积累了大量的网络信息资源。包括网络课程、数字化校园平台数据、公共数据库、教务系统、研究生系统、公共资源、教学素材库、学科网站等在内的海量网络资源的存储成为了各个校园网络面临的一个重要问题。如何做到问题故障率降到最低,能够在最短的时间内将数据及时恢复变得非常重要。

网络环境下,数据中心开展业务工作,提供网络信息服务,数据处理业务繁忙。数据的上载、发布、更新、备份、恢复等操作往往要占用网络带宽和服务器资源,尤其是当网络上数据存储发展到一定规模时,数据服务和数据管理不仅严重影响到主机系统性能,还要大量占用网络资源,增加网络负担,使网络运行效率低下。数据中心既不可能根据各种应用数据处理的增加随时增加网络带宽,也不可能根据不同的应用请求而不断地提高服务器的处理性能。有限的服务器和网络性能与持续增长的数据处理需求形成一对不可调和的矛盾。因此,以服务器为中心的数据网络转变为以数据为中心的存储网络,是网络存储发展的必然趋势。

二、实际需求分析

数据中心是传统信息向网络信息转变的数字化信息资源服务系统。数据中心建设的推进从客观上要求解决海量数据的存储、管理和安全等问题。SAN(Storage Area Network,存储区域网络)的应用,适应数据中心的发展,满足海量数据存储与管理的需要。

数字化校园实施以来,网络资源需求量多而广。经过调查和分析,我院校园网络数据存储需求主要包括以下几个方面:1.站群系统及各个二级网站;2.数字化校园各个应用系统及公共数据库,如教学保障系统、教务管理系统、研究生管理系统、科研管理系统等。3.学院网络教学资源,如网络课程、学科专业网站、公开课及精品课程等;4.邮件系统及其相关数据;5.校内FTP服务资源;6.校园文化娱乐资源,如视频资源、校园论坛、校园博客、校园游戏等。这些数据包括园区网内的核心数据及普通数据,使用32台操作系统各不相同的服务器,其特点是应用环境复杂,数据呈现多样性。必须保证数据的稳定性及可扩展性。

三、SAN介绍

SAN是一种利用光纤通道等互联协议连接起来的可以在服务器和存储系统之间直接传送数据的存储网络系统,它采用独特的技术构建,与原有LAN网络不通的一个专用存储网络。通常由RAID阵列连接光纤通道(Fibre Channel)组成,SAN和服务器、客户机的数据通信通过SCSI命令而非TCP/IP,数据处理是“块级”(block level)。

SAN以数据存储为中心,采用可伸缩的网络拓扑结构,通过具有高传输速率的光纤通道的直连方式,提供SAN内部任意节点之间的多路可选择的数据交换,并且将数据存储管理集中在相对独立的存储区域网内。

SAN具有高可靠性、数据可扩展性、独特的数据处理方式等优势。将实现在多种操作系统下,最大限度的数据共享和数据优化管理,以及系统的无缝扩充。

四、数据存储方案

根据建设原则和需求分析,我们在服务器基础上建构光纤存储系统(SAN)。该系统主要包括四个组成部分:服务器群、互连设备(光纤交换机)、存储设备(光纤存储阵列)、备份系统。

网络存储系统(SAN)使用两台16口光纤交换机作为互连设备,分别连接网管中心的现有32台服务器和光纤存储阵列。服务器通过光纤通道卡(HBA卡)连接到SAN中。光纤存储阵列通过光纤交换机提供给服务器各种应用所需的存储总量,使用存储管理软件对存储容量进行添加、删除、划分。

经过调研分析,最终我们使用了HP EVA4400存储阵列,现有容量总计16T,存储系统具有RAID重组技术,无需停止服务器对RAID的访问,即可将数据从一个RAID组移动到另一个RAID组,比如Raid5可以与Raid0进行在线转换。这样可以简便部署硬盘容量的释放和数据Raid级别转换。存储系统还具有重要的故障磁盘数据保护功能,它可以预先对硬盘进行参数检测,在硬盘出现异常预兆时提出报警,并把数据拷贝到全局热备份盘中,而不是在硬盘损坏后才将数据拷出,这样能够避免传统Raid5同时损坏两块盘的情况下无法恢复数据的危险。存储系统的这些功能大大提高了数据在备份前的安全性。

备份系统为整个存储系统提供网络数据备份和恢复系统两个方面的功能。数据采用增量备份的形式(即自上一次备份以来更新的所有数据),在每日用户量较少时进行。我们采用了赛门铁克数据备份管理软件。该系统软件可以为大规模的Unix、Windows、Linux环境提供大型级别的数据保护,还可以为Oracle、Microsoft SQL Server等提供相应的数据库和应用的备份与恢复解决方案,符合信息存储系统数据库多样性的特点。

五、应用体会

本次建设的数据存储系统,存储带宽达到4Gbps,能够满足多节点客户端数据请求以及大容量数据存储的需求,较好地解决数据传输及存储数据的通道瓶颈问题。由于数据处理和主网络运行分离,从而缩短系统响应时间,极大提升了主网络的运行性能和运行速度,保证了大容量数据存储的高速传输及稳定性与安全性。

参考文献

[1]据存储备份选用NAS还是SAN[EB/OL].电子技术应用.来自百度.

云计算与数字资源存储问题分析篇6

1云计算技术

1.1云计算的概念

云计算(Cloud Computing)是一种基于internet的计算,它是在分布式处理,并行处理,网格计算等基础上提出的一种新型商业计算模型,是一种新兴的共享基础架构的方法[1]。它是面对超大规模的分布式环境,其核心思想是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统计算分析之后将处理结果回传给用户。其最终目的是充分利用互联网资源,建立功能强大的计算中心,并基于此提供多种多样的计算服务,使用户能够在不同时间、不同地点便捷的享受各种服务[1]。

对于图书馆人而言,虽可能不大理解云计算的内涵,但或多或少已经体验过或正在使用云计算服务,如googleDocs、Facebook等。重要的是理解云计算实质上是一个有关数据和运行数据计算设备范式如何转变的问题。这些问题与数字化生活始终紧紧相连。而云计算,把重点转到远离这些设备能够有效地存储数据和能够运行的应用和设备上,提供了最简单的获取数据和应用程序,这些存储在不同的地方的互联网上。但这些数据怎么放?有相应的技术保证才行,一定不是说把所有的数据放到一起才是云计算!云计算的“云”最根本的是虚拟化,是虚拟化计算!虚拟化并不是把所有东西放在一个地方才叫虚拟化[2]。

1.2云计算在图书馆中的五大利好

1)超强的计算能力:通过一定的协调调度,云计算模式可以通过数万乃至百万的普通计算机之间的联合来提供超强的、可以与超级计算机相抗衡的计算能力,使用户完成单台计算机根本无法完成的任务。在“云”中,使用者只要输入简单指令即能得到大量信息。因为在云计算模式中,人们不是从自己的计算机上,也不是从某个指定的服务器上,而是从互联网络上,通过各种设备(如移动终端等)获得所需的信息,因此其速度得到了质的飞跃。

2)以用户为中心:在云计算模式中,相关的数据存储在“云”之中,用户可以在任何时间、任何地点都可以以某种便捷、方便、安全的方式获得云中的相关的信息或服务。虽然在“云”里有成千上万台计算机为其提供服务,但对于“云”外的用户来说,他看到只是一个统一的接口界面,用户使用云服务就如通过互联网使用本地计算机一样的方便[3]。

3)实现绿色数据计算:人们需要监管能力更强的计算模型,来充分提高计算效率,不仅仅是计算资源的利用率,而且是从物理上降低设备能耗。云计算的出现大大加快了实现绿色数据计算的步伐。

4)降低了数据外泄的可能性:这也是云计算服务商讨论最多的一个优点。在云计算之前,数据容易被盗,而随着云计算的推广以后,用户可以把自己的数据放在“云”中,只要用户能够接入互联网就能够根据需要随时存取,为网络应用提供了几乎无限多的可能,为存储和管理数据提供了几乎无限的空间。

5)经济实惠:云计算中,用户只需花少量的钱来租用相关的云服务商所提供的相关服务即可。它可以让用户利用很少的投资获得较大的回报,不必担心自己所购买的IT产品被淘汰,因为具体的硬件配置和更新都是由云服务提供商来提供的。用户所需做的只是通过各种设备享受云服务所提供自己需求的信息、知识、服务等[4,5]。

目前国外诸多图书馆组织与协会已在探讨图书馆如何使用云计算,比如图书馆使用云计算提供用户个性化和本地化信息寻求的模式?云可以节省资金和资源使图书馆利用计算机设备更有效吗?用户如何与云交互?我们的服务可能需要修改,以适应新出现的用户模式?有一点是肯定的,无论以何种方式,我们认为对图书馆计算基础设施和架构均需要改变,以便有效地利用云计算。云计算时代已经到来,图书馆需要开始思考如何调整服务,以便有效地适应用户与图书馆互动[6]。

2云计算技术在图书馆中的潜在价值

作为一种新兴的、受到全球关注的技术,云计算技术一经推出,就得到了有关人士的推崇。目前,各有关厂商都在积极走在研制第一线,打造属于自己的云计算产品与服务。例如:IBM推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使的来自全球的应用都可以访问分布式的大型服务器池;Sun公司推出“黑盒子计划”为政府,企业和大学的数据中心随时提供额外的计算能力;国内杀毒软件厂商如瑞星等部署应用了自己的云计算安全平台[7]。可以说,云计算技术也必将在作为数据中心之一的图书馆中得到广泛的应用,而图书馆也必将在即将到来的云时代中获益。

图书馆对于云计算而言,通常有两种角色:一方面是云计算的使用方、受益者,另一方面又可以做云服务的开发者、提供方。前者是作为一个应用机构,后者则是作为向读者提供服务的知识中介。

结合云计算的特点及图书馆的实际情况,云计算技术将给图书馆带来以下重大的转折[8]。

1)确保图书馆服务器的正常运行。现在图书馆中的数据都集中在本馆内的服务器上,而一旦服务器出现故障,图书馆无法给用户提供正常的服务,更严重可能导致数据的丢失。在云计算模式中,“云”中有上百万台服务器,因此即使“云”中的某台服务器出现故障,“云”中的服务器也可以在极短时间内,快速将某台服务器中的数据完全拷贝到别的服务器上,并启动新的服务器来提供服务,从而使图书馆真正实现无间断的安全服务[9]。

2)以极低的成本投入获得极高的运算能力,克服服务器访问限制的瓶颈。普通的服务器的相关硬件资源都有一定的限制,若服务器同时响应用户的数量超过了自身的限制将导致服务器的瘫痪[10]。因此,为确保服务器内数据资源的安全性及服务器的可靠运行,图书馆对服务器的最大服务响应数量及接入终端数量等都进行了一定的限制,如果有数万用户同时使用图书馆中的电子资源,有的用户的访问将出于安全的需要而不被响应。如果图书馆想满足这部分被限制的用户的请求就不得不花费大量的资金购买更高级别的服务器。而应用云计算技术,通过支付少量的费用,图书馆就可获得云模式中百万台服务器提供的服务,用户的请求便可在毫秒的时间内获得响应,从而使图书馆以较低的成本获得较高的效益。

3)在更大程度上进行信息资源共享。通过云计算模式,相关的图书馆之间可以共同构筑图书馆的信息共享空间,这样众多的图书馆就可以分享由大量系统连接在一起而形成的基础设施,而不必更新相关的硬件,图书馆的运行成本在大大降低的同时效率却大幅度的提高。在“图书馆云”中,通过云计算技术,可以随时地获得其他图书馆的资料,使用户的信息需求获得极大的满足。

4)降低有关的维护费用。云计算对用户端的设备要求最低,使用起来也最方便。为了确保图书馆工作正常平稳的运行,图书馆人员需要经常对图书馆的计算机、服务器等终端进行维护、升级和更新。由于云计算模式对于用户终端的配置没有限制。因此,有关的技术人员不必担心需要升级图书馆的相关硬件,因为在“云”的另一端,有专业的管理人员帮你维护硬件,这样工作人员的工作强度就会大大降低。

5)信息更新快

在传统的图书馆服务模式下,用户一般必须使用计算机才能利用图书馆的电子资源。而运用云计算模式,用户使用手机、PDA等设备也可以使用图书馆提供的电子资源服务。图书馆数据库经常在修改添加,相互合作的图书馆每天都有新的信息增加到数据库中,因此用户从图书馆数据库能检索到世界上最新的资料和信息。只需图书馆每个月按照服务类型和实际的使用量付费,如同抄水电煤气表一样,对管理者而言是完全透明的,甚至这个款项是直接从政府采购的帐户中直接划转[11]。

3云计算技术在图书馆应用中的瓶颈问题

虽然云计算技术目前还处于商用的初级阶段,还有许多问题困扰着云计算服务提供商。随着云计算技术进一步发展,以及云计算理念被用户的广泛接受,云计算技术必将成为最为重要的基础设施,基于云计算平台的应用也将成为人们最重要的选择。作为图书馆工作人员需要认真追踪研究以下几个方面:

1)需要确认是否把整个图书馆资源放到“云”中。从理论上说,利用云计算技术,用户只需要通过本地终端就可以通过互联网使用图书馆的相关资源。但实际上,为了安全和稳定,也为了在“云”服务中断或失效时,图书馆仍然能够正常地提供相关的服务,图书馆显然不能把所有的数据资源都放在”云“中,必然要继续在本地保存一些常规的重要的数据依此来作为“云”数据的一个备份。因此,云计算模式并不会完全推翻图书馆现有的数据部署模式,而是在保留原有模式的基础上,使现有的部署模式与云计算模式进行融合,作为现有部署模式的有效补充。图书馆应对现有的数据进行整理,通过研究来确立哪些数据资源可以放到“云”中,哪些数据必须在图书馆现有的模式中予以保留[12]。这是这值得图书馆员需要认真研究的一个方面。

2)数据据位置问题。在现在运行的系统中,许多用户并不清楚自己的数据储存在哪里。用户应当询问服务提供商数据是否存储在专门管辖的位置,以及他们是否遵循当地的隐私协议。所以在建设图书馆这样的公共服务机构的数据库时,可以由国家来主导,成立专门的机构来负责“云”的建立[13]。

3)版权问题。在云计算模式中,各个加入云计算模式的图书馆之间可以通过有关的协议共享彼此的信息资源,就像用户使用本馆的电子资源和使用他馆的电子资源一样。因此在这里带来了版权纠纷问题。因此,图书馆界应针对在云计算模式下的信息资源共享中引起的版权纠纷问题制定切实可行的方案,从而方便用户使用各馆信息资源[14]。

4)所网络的建设问题。由于云计算也是建立在网络的基础上,所以网络的畅通与否就关系到图书馆的资源能否顺利的利用与共享。这是最基础,也是最关键的问题。

4总结

图书馆互联网应用系统将从云计算中得到最强有力的支持,将成为新一代资源与读者匹配的基础核心,而且不仅仅展示图书馆的馆藏资源,甚至可以实现各种新型服务的重组和稀缺服务内容的再现。大型云端图书馆将为各类图书馆提供一种个性化选择,一个充分的空间展示自我能力与需求。为图书馆的资源管理工作提供了方便,为存储和管理数据资源提供了几乎无限多的空间,也为图书馆完成各类数据资源服务提供了几乎无限强大的计算能力。

课堂教学资源存储篇7

关键词：Hadoop云计算,小文件存储,LZO压缩

引言

近年来, “大数据”在国内迅速兴起, 并受到极高关注, 可以说是是信息时代的新“石油”, 这主要体现在两个方面:数据量以及隐藏价值。据国际数据公司IDC报道, 2011年产生和复制的数据量超过1.8Z字节, 是过去5年数据增长的9倍, 并将以每两年翻倍的速度增长。其次, 大数据中还有巨大的价值等待挖掘, 有可能引发多个领域的变革型发展。因此, 巨量数据快速处理也是各个领域聚焦的问题。

在Map-Reduce运算过程中, 若使用传统的数据库技术, 当小文件较多的时候, 查询效率明显降低, 导致信息延误。若采用无损压缩算法先对数据进行预处理, 在降低信息存储量的同时也能提高数据运算速度。无损压缩算法的性能比较主要取决于压缩比率以及压缩处理的速度, 关于Gzip/Default、Bzip2以及LZO比较中, 在压缩速度上占优的是LZO, Bzip2拥有最优空间压缩2。本文所提出的优化策略将基于LZO无损压缩算法。

Hadoop作为开源云计算框架, 在容错性、高效性、可扩展性等方面具备不可替代的优势。本文将提出一种基于Hadoop的存储资源调度机制, 通过数据平衡算法3将小文件合并为合理的大文件, 再将LZO无损压缩编码融入计算任务中, 实现对大数据运算效率以及存储效率的提高。

一、Hadoop云存储架构

1.1 Hadoop分布式文件系统。HDFS在Hadoop体系中提供数据存储管理的功能。其主要特性是能够对文件一致性进行简化, 通过流式数据访问, 当应用程序带有大型数据集时候, 可以提供高吞吐量的数据访问, 进行数据的并行处理, 从而提高系统效率。

从设计模式出发, HDFS采用主节点/从节点模式。其中, 集群主节点部署名字节点, 对内能够维护集群元数据, 对外可以实现分布式文件系统的管理。集群从节点部署数据节点, 通过数据节点存储分布的数据块, 同时可以周期性地将运行状态向名字节点反馈。集群主节点是作业节点的载体, 能够调度任务节点, 任务节点运行于各数据节点负责执行子任务。

1.2 Map Reduce运行框架。Map Reduce最早是由Google提出的编程体系, 其初衷是为解决信息检索的相关问题, 以分治作为核心编程思想, 后用于大数据集的并行计算, 其运行流程图如图2所示:

其中map-reduce程序由程序员编写, 在客户端进行提交。Job Tracker负责对作业进行初始化, 并分发作业, 通过与Task Tracker通信, 协调整个作业的运行。Task Tracker保持与Job Tracker的通信, 在分配的数据片段上执行Map或Reduce任务。在执行作业时, Task Tracker可以有若干个, Job Tracker则只会有一个。HDFS负责保存作业的数据、配置信息等, 最后的输出结果同样存储于HDFS。

当用户提交一个任务以后, 由Job Tracker协调, 先执行Map阶段 (图中M1, M2和M3) , 之后执行Reduce阶段 (图中R1和R2) 。Map阶段和Reduce阶段动作都受到Task Tracker监控, 并运行在独立于Task Tracker的Java虚拟机中, 输入和输出都建立于HDFS目录中。输入数据由Input Format接口描述, 处理对应的数据源, 并提供数据的一些基本特征。根据所获得的特征对数据进行分类, 图中的splite1到splite5即是划分后的结果。初始化完毕后, 作业调度器会获取输入分片信息 (input split) , 每个分片创建一个map任务。接下来就是任务分配了, Task Tracker会运行一个简单的循环机制定期发送运行状态给Job Tracker, 周期间隔默认为5秒, 程序员可以配置这个周期时间, Job Tracker可以监控Task Tracker是否运行正常, 也可以获取Task Tracke处理的状态和问题, 同时Task Tracker也可以通过返回值获取Jobtracker的操作指令。任务分配好后就是执行任务了。在任务执行时候Job Tracker可以监控Task Tracker的状态和进度, 同时也能计算出整个job的状态以及进度, 而Task Tracker也可以本地监控自己的状态和进度。当Job Tracker获得了最后一个完成指定任务的Task Tracker操作成功的通知时, Job Tracker会将整个job状态置为成功, 通过客户端查询job运行状态时可以显示job完成的通知。如果job中途失败, Map Reduce也会有相应处理机制, 一般而言如果不是计算程序本身存在错误, 处理机制都能保证提交的job能够正常完成。

二、优化策略

2.1 LZO压缩算法。从信息保留程度讲, 压缩算法可分为无损压缩和有损压缩。有损压缩指压缩过程中允许遗失一部分信息, 利用人类对图像或声波中的某些频率成分不敏感的特性, 广泛运用于语音、图像和视频数据的压缩。无损压缩利用数据的统计冗余进行压缩, 可完全恢复原始数据而不引起任何失真。无损压缩可分为统计压缩和字典压缩两大类, 其中包括LZ77、LZSS、Huffman编码压缩等。LZO压缩算法是由以色列数学家A.Lempel、J.Ziv和B.Oberhumber共同开发提出的。在压缩比和压缩速率中, LZO压缩算法更为注重的是压缩速率, 在维持一定压缩比的同时, 仍能够保证跨平台移植, 且相较于Gzip、Bzip2算法等, 全面提高了运算速度。

LZO算法核心思想源自于LZ77算法, LZ77描述了一种基于滑动窗口缓存的技术。LZ77算法总会包含一个动态窗口和一个预读缓冲器。动态窗口可以描述为一个历史缓冲器, 它被用来存放输入流的前若干个字节的有关信息。用下n个字节填充预读缓存器 (n指预读缓存器的大小) 。在动态窗口中寻找与预读缓冲器中的最匹配的数据, 如果匹配的数据长度大于最小匹配长度 (通常取决于编码器, 以及动态窗口的大小) , 那么就输出一对〈长度, 距离〉数组。长度指匹配的数据长度, 而距离说明了在输入流中向后多少字节这个匹配数据可以被找到。

LZO压缩算法处理过程包括Hash函数计算、最长字符串匹配、编程如图2所示:

在图3中, 限定值在LZO算法中定义为49K, Hash函数在算法中声明。在LZO算法中, 解压缩方式其实就是压缩方式的逆过程, 这里不过多解释。

Hadoop为Map Reduce处理执行提供了通用的压缩接口, 支持多种压缩算法。由于HDFS采取的机制是分片处理, 而LZO压缩算法支持分片操作, 且相较于其它算法有较为明显的压缩速度优势, 所以使用LZO压缩算法能够较好地平衡压缩比与处理速度之间的矛盾。

2.2小文件合并算法。一般小文件合并算法通常设定一个阈值, 遍历存储缓冲区的文件, 进行不断累加, 当累加文件总大小超出阈值后, 对缓冲区队列中的若干小文件执行合并打包存储。由于文件体积大小分布不均, 以文件体积溢出阈值作为合并条件, 最终合并后的文件依然会出现大小分布不均的缺点。在一定程度上, 提高了Hadoop集群中名字节点的内存占用, 同时也会对Map Reduce并行计算框架的高效运行产生影响。

相较于以“体积溢出”作为合并条件的小文件合并算法, 本文提出的小文件合并优化算法则是将缓存区累加文件体积临近阈值作为合并条件。由此可以保证合并后的大文件体积大小均匀, 在将文件存储于HDFS时不会因分割而出现多余的块。因此, 该算法能够使名字节点在一定程度上降低了内存负载, 同时也有利于提高Map Reduce并行计算的效率。

本文所提出的合并算法在结构上将缓冲区中的待合并文件分成两个队列:合并预备队列和文件合并队列。文件合并队列用于存放待合并的小文件, 若队列中的小文件集合满足合并条件时, 即清空队列, 将队列中的小文件集合统一打包合并;合并预备队列用于临时存储非预期情况下体积偏大的小文件, 用于缓冲预备, 保证合并后大文件尽量大小均匀。若符合条件, 两类队列可以相互转换。

算法执行流程图如图3所示:

其中, 文件大小限定值是指超过该值的文件为较大文件, 不需要进行文件合并。由于HDFS分块大小默认为64M, 限定值理论上也不得超过该值。本文所设置的阈值范围为阈值的0.9。

2.3综合策略。首先, 针对Hadoop在处理海量小文件的不足, 采用上述小文件合并算法将其合并为相应的大文件再导入HDFS。其次, 针对数据量过大的问题, 在各Map任务中各数据节点中加入无损压缩接口, 导入的数据集通过Map进程映射至作业监控节点中并行执行, 之后对Map任务后的输出结果进行分布式集群无损压缩处理, 最后通过Reduce对输出结果进行排序及归并, 将其导入至HDFS中。

该策略的优势具体论述如下:1.提高了对数据的检索效率。通过文件合并算法, 减少了元数据的数量, 从而可以降低各名字节点的负担, 同时加速了文件读写的输入输出操作, 节省了数据的传输时间。2.简化了Hadoop的数据访问流程。经过合并, 海量小文件转化为数量较少的大文件, 在访问过程中, 只需要根据索引定位到大文件内部, 这相较于深目录文件操作优势尤其明显, 节省了内存开销。3.减轻了服务器存储负担, 提高了信息的查询效率。采用无损压缩技术对海量数据进行压缩, 极大的降低了数据存储量, 提高了信息处理的效率。

三、实验测试

3.1实验平台的构建。本次实验中使用了两台服务器构成了Hadoop集群, 名字节点Namenode和数据节点Datanode各分配一台服务器 (CPU配置均采用Intel (R) Xeon (R) CPU E5-2620 v2 2.10Hz*64, 内存16GB, 硬盘容量320GB) 。在服务器中所配置的Hadoop版本为2.2.0, HDFS中数据块大小使用默认的64MB, 文件合并算法中阈值设置为64M, 控制reduce并行操作线程数为5, 在map结果中允许使用压缩, 并将map结果压缩格式设置为LZO相应格式。测试数据使用大小不均的文件所组成的文件集合, 数量选定为4978, 总大小为11.78G。文件大小分布具体情况如图4所示:

3.2文件导入时间对比。通过文件合并算法将文件导入至HDFS中, 记录文件导入时间。经过测试, 通过文件合并算法处理后的文件导入, 合并后文件数量从4978个减少为113个, 导入时间与正常文件导入时间分别为663秒和297秒。通过对导入时间的比较, 通过合并算法导入文件的时间仅为正常导入的44.7%, 表明文件合并算法对文件导入速度有较好的改善。

3.3 Map Reduce处理速度对比。在实验中, 本文采用Hadoop自带的word count程序对文件处理速度进行测试。通过文件合并算法处理后的文件在处理Map Reduce中总耗时为1524秒, 而正常导入耗时则为16618秒。不难看出在Map Reduce过程中, 由于小文件数量过多, 导致其在文件读操作中消耗了大量的时间。

3.4文件存储测试。本次实验通过对已处理完毕的数据集进行压缩来达到优化硬盘资源占用的问题。测验的数据源为经过文件合并算法处理后的数据集。压缩前存储占用为11.78GB, 经过压缩后4.98GB, 压缩比达到了42.3%, 压缩时间为71秒, 解压缩时间为29秒。

四、结束语

首先, 本文对Hadoop现有的文件存储资源调度机制缺陷进行了简单的阐述。其次, 本文针对存储缺陷从两个角度进行优化:

4.1通过小文件合并算法简化HDFS导入数据流程, 优化了文件的输入输出操作, 从而达到对Map Reduce处理速度进行优化的目的。

4.2对数据集使用LZO压缩, 减少了文件对硬盘资源的占用。最后, 针对所提出优化方案进行实验分析, 证实了其对存储机制优化的可行性和高效性。在接下来的工作中, 为证实实验数据的综合可靠性, 可以针对文件数据类型对压缩以及小文件合并算法的影响进行测试。

参考文献

[1]李学龙, 龚海刚.大数据系统综述[J].中国科学:信息科学, 2015 (45) :1-44.

[2]向丽辉, 缪力, 张大方.压缩对Hadoop性能影响研究[J].计算机工程与科学, 2015 (37) :2-207.

[3]杜仲晖, 何慧, 王星.一种Hadoop小文件存储优化策略研究[J].智能计算机与应用, 2015 (5) :3-29.

[4]屈志坚, 郭亮.基于云计算的配电自动化集群Lzo无损压缩新方法[J].计算机测量与控制, 2014 (22) :4-1222.

[5]董新华, 李瑞轩, 等.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展, 2013 (50) :1-15.

[6]郑翠芳.几种常用无损数据压缩算法研究[J].计算机技术与发展, 2011 (21) :9-74.

[7]屈志坚, 郭亮, 蒋俊俊, 陈秋琳.Hadoop云构架的智能调度无损集群压缩技术[J].电力系统自动化, 2013 (37) :18-93.

[8]高泽栋.一种优化HDFS小写文件出处策略研究与实现[D].武汉:华中科技大学, 2013.

企业云平台存储资源池设计与实现篇8

进入云计算时代,IT平台的建设已进入业务需求多元化、建设要求快速化的新形态。传统IT平台的建设周期长、设备利用率低,业务连续性保障机制、容灾机制较弱,而维护复杂性却越来越高［１］。同时各平台基本采用配置独立SAN交换机和磁阵供内部主机使用的方式,使存储自成一体,这种构建方式极不利于新业务平台的及时响应和快速部署。

1需求分析

经过多年建设,某运营商现有各类业务平台40多套, 这些平台分别建设,具有各自独立的服务器、网络设备、存储设备和备份资源。大部分设备的资源利用率很低,存储容量无法在各平台间共享,不能实现统一的调度管理,存储资源整体利用率低,无法实现异构存储平台之间的迁移和复制,复杂SAN环境中的存储资源无法采用统一的容灾策略。

业务量的不断变化,需要下线部分平台,有些平台需要扩容服务器和存储,而新业务需求又要投资建设新平台,这样的建设需求往往很急迫,需要及时响应、快速部署。同时多业务融合需要平台间共享数据,逐步实现统一数据库管理和用户视图。传统模式下的信息孤岛,已不利于业务平台的统一整合和大数据挖掘分析［２］。云计算时代,将计算资源、存储资源、网络资源虚拟化,构建统一的虚拟资源池,实现按需分配,满足业务平台的快速部署已成为必然。

2云平台架构

云平台的硬件资源以高性能刀片服务器和大容量存储设备为基础,利用部分性能较好的下电服务器和存储设备。通过VRM (Virtualization-Resource Management) 模块和CAN(Computer Node Agent)虚拟化软件对每台物理服务器进行虚拟化处理,将单台服务器虚拟为多台虚拟主机,每台虚拟主机都拥有自己的硬件资源［３］。在云平台中,虚拟机以文件的形式统一存放在存储资源中,每台虚拟机通过物理相连的光纤交换机与统一存储资源池进行数据传输,确保了虚拟机与存储资源池的无障碍交互, 其总体架构如图1所示,分为基础设施层、存储资源层和核心应用层。

硬件基础层基于华为FusionComputer的虚拟化架构,包括存储、物理服务器和网络设备。每台物理设备通过虚拟化组件实现资源虚拟化,所有设备通过部署VRM软件的节点集中管理、监控与调度。

存储资源层以华为OceanStor S3900和S5900为主, 同时通过物理服务器的虚拟化将硬盘也纳入虚拟化存储资源池,提供块状存储能力。资源池中除配置这些存储外,部分已有的空闲存储也纳入资源池共享使用,最大限度发挥存储资产的功效。

核心应用层对云平台中的软硬件进行全面监控和管理,向外提供资源的分配与回收、云主机快速部署、资源监控和统计报表等功能,实现各类资源的自动化发放和基础设施的自动化运维管理。

3存储资源池实现

3.1存储资源层规划

云平台的存储配置主要由华为OceanStor S3900、 S5900和S6800E磁阵组成,总容量达到53T,采用SAN存储网络方式,磁盘阵列配置等级为RAID5。RAID5能提供良好的传输速度和数据保护,在磁盘阵列的配置中得到广泛使用。存储的主机组、RADI级别、RAID容量、 LUN容量等规划如表1所示。

3.2光纤交换机规划

光纤交换机采用高性能的HP AM866B,配置光电端口、接入多模光纤,并支持网络远程管理,实现对端口状态的监控和交换机的设置,所有端口同时全线速工作,全双工状态。云平台的光纤交换机、存储链接规划如图2所示。

在SAN存储网络中,Zone技术非常重要,设计好Zone能消除许多常见问题,同时还能充分发挥系统性能。光纤交换机上的Zone功能将连接在SAN网络中的设备从逻辑上划到不同的区域,不同区域中的设备不能直接互访,从而实现设备的隔离［４］。

3.3存储性能测试

通过使用IO Meter测试工具,在特定业务模型下测试虚拟主机的虚拟磁盘IO性能情况。

测试场景:S6800E:7+1RAID5,15000SAS,如表2所示。

测试场景:S3900:7+1RAID5,10000SAS,如表3所示。

虚拟机在16K、60%Wirte、100%Random的业务模型下,在队列深度为1和32的情况下,能够获取的IOPS和MBPS均处于正常水平,可以满足虚拟机正常业务的存储性能需求。

队列深度指标主要衡量系统并发处理IO的能力,IO延迟随着队列深度的增加而增加。随着IO数目的增多, 存储设备提供的最大IOPS处理能力也会很快达到［５］。因此队列深度为1的情况更多表明,单个虚拟机运行正常业务时能够获取的最大IO能力;队列深度为32的情况更多表明云平台能够获取的单个存储设备(主要指LUN)上的最大存储能力。以上述获取数据为例,LUN采用9+1磁盘RAID5方式组成,单盘为SAS 10000转,按照通用标准,该LUN提供的IOPS能力粗略计算为:150*10= 1500IOPS,这和实际测试的数据基本一致。

通过测试结果可以看到,云平台虚拟机的存储性能正常,完全能满足业务系统的各项要求。

4结语

本文云平台已承载十多套业务系统运行半年有余,尚未出现故障。构建统一的云平台和存储资源池,可减少相互独立或闲置的平台,简化存储基础架构。统一存储资源池能为SAN内的多个应用提供共享存储服务模式,从而提高存储利用率,具有灵活的可扩展性、良好的性能以及数据可用性,避免了各个业务平台独立建设带来的弊端。该云平台具备全面操作与维护功能,提供了较为完备的基础设施虚拟化能力和大容量的存储资源池,有力支撑了运营商业务的稳定可靠运行。

参考文献

[1] 石屹嵘,段勇.云计算在电信IT领域的应用探讨[J].电信科学,2009(9):24-28.

[2] 石磊,部德清,金海.Xen虚拟化技术[M].武汉:华中科技大学出版社,2009:5-10.

[3] 耿昌兴.基于Hadoop的新校区云计算存储服务平台设计与研究[D].天津:天津大学,2012.

[4] 梅圣民.云计算存储安全技术研究[D].长春:吉林大学,2014.

【课堂教学资源存储】推荐阅读：

强化资源利用意识提高课堂教学实效01-12