数字化图书馆存储技术

2024-10-03

数字化图书馆存储技术(共11篇)

数字化图书馆存储技术 篇1

摘要:针对现在数字图书馆的海量数据存储的现状和需求,构建一个安全、高效的存储后台已经成为数字图书馆建设中的重要任务。本文介绍了数字图书馆的存储体系架构(DAS、NAS、SAN和IP-SAN),并进行了全面的比较分析,指出了适用的图书馆类型,并提出结合了SAN与NAS的IPStorage是未来存储的发展趋势。

关键词:数字图书馆,网络存储

一个完整的数字图书馆系统包括通讯体系架构、应用体系架构和多媒体数据库体系等,要求系统支持并行机制,以加速系统运行,支持可扩展的海量数据资源存储,支持海量资源快速搜索和调度。在支撑整个体系的硬件平台中,存储系统是最为核心的部分,它必须能够满足不断增长的海量存储空间的需求,提供高速的数据传输能力和对于复杂的异构数据存储环境的管理、备份等能力。可以说建设数字图书馆的关键技术在于存储系统,一个良好的存储系统解决方案应能适应数字资源的海量存储和不断增长,同时能够满足当今网络环境复杂性和扩展性的不断提高。

1 概述

目前数字图书馆收藏的数字资源主要有以下几类:(1)书目数据库:包括馆藏书目数据库、联合目录数据库、电子期刊目录数据库等,这类资源占用的存储空间较少,增长量也不大,对存储空间要求较低。(2)全文数据库:如CNKI学术期刊全文数据库、维普科技期刊全文数据库、学位论文全文数据库、万方数据库、超星、书生之家等电子期刊与图书。这类资源占用存储空间很大,而且增长迅速。(3)文摘题录数据库:包括各种商业化的检索数据库和自建的特色数据库。这类资源占用的存储空间不太大,增长平稳。(4)光存储资源:包括光盘版的数据库、应用软件光盘、教学光盘、随书光盘以及CD、VCD、DVD等多媒体教学、娱乐资源。如果这类资源收藏很多的话,会占用大量的存储空间。

2 海量数据存储技术分析

数字图书馆作为一个海量信息资源和高速宽带传输的计算机网络系统,需要许多先进的信息技术的支撑。其中海量数字信息的存储是一个十分重要的基本问题,是系统设计的核心任务之一。对于存储设备的规划和设计,一般是根据数字图书馆的规模和经费预算而定并预留扩展的空间。对于数字图书馆的存储方案,一般应满足现实可用性、可靠性、可扩展性、成本有效利用性、可管理性等五个方面。目前比较常用的存储技术有直接附加存储(DAS)、网络附加存储(NAS)、存储区域网络(SAN)和IP-SAN等。

2.1 直接附加存储(DAS)

直接附加存储(Direct Attached Storage,DAS)是最常见的传统的存储方式。它利用SCSI总线将磁盘阵列等存储设备直接连接到计算机服务器,相当于服务器外挂的大容量硬盘。直接附加存储技术与SCSI技术和RAID技术关系密切,目前常用的有Ultra3 SCSI和RAID5。

SCSI(Small Computer Standard Interface,小型机标准外设接口)是用于连接主机与外设的标准接口。一个SCSI控制卡可以连接15个外部设备,如磁带机,光驱,磁盘阵列等。Ultra3SCSI的总线宽度为16位,最大总线速度可以达到160MB/S。RAID(Redundant Array of Inexpensive Disks)是由多个硬盘组成的磁盘阵列系统,采用数据条的方式存储数据,可以提升读写速度和数据的安全性。目前被广泛应用的RAID5由3个以上的硬盘组成,它的奇偶校验信息不是存储在专用的硬盘上,而是分散存储在所有的硬盘上,如果某个磁盘损坏或数据丢失,可以利用其他磁盘通过校验数据恢复或重新生成丢失的数据;由N个硬盘组成的RAID5磁盘阵列的容量可以达到N-1个硬盘容量的总和,具有存储空间利用率高、读写速度快等优点。

2.1.1 工作原理

直接附加存储是以服务器为中心,各种存储设备通过SCSI等I/O总线与服务器相连的存储模式。当客户机访问服务器时,首先发送一个请求信号,服务器接受后从硬盘读取数据,再通过网络将数据传送给客户机。在DAS存储技术中,服务器起到储存并转发数据的功能。由于储存转发要协调各种不同速度部件之间的I/O操作,需要消耗服务器许多CPU、内存和总线的系统资源,限制了服务器的数据吞吐能力、响应时间和每秒事务处理量,当并发访问的用户数量过多时,必然造成服务器过载,甚至中断服务。DAS的工作原理如图一所示。

2.1.2 优缺点

DAS的优点是显而易见的,设备安装简单,只须与服务器直接连接即可,不需要复杂的软件和技术;前期投资较低,因为是直连式,对存储设备的要求不高,也不需要其他附设;维护成本较低,技术成熟,标准统一,兼容性较好。因此,DAS在应用服务不多、数据量不是很大、存储资源共享的要求不高的数字图书馆发展早期应用较为普遍。

随着人们对网络服务要求的提高,DAS存储技术无法承担大量的数据传输和并发用户数,因此,更先进的NAS和SAN技术应运而生。

2.2 网络附加存储(NAS)

网络附加存储(Network Attached Storage,NAS)是由美国硅谷首先提出的。网络附加存储突破了传统的存储模式,不再以服务器为中心,而是以数据为中心,存储设备不是服务器的附属设备。因此,NAS存储系统在文件共享、数据管理和扩展性能方面均优于DAS存储系统。

2.2.1 工作原理

网络附加存储是将存储系统通过网络接口直接与LAN相连,不通过I/O总线附属于服务器。由于数据不通过服务器转发,直接在客户机和存储设备之间传送,避免了延迟和阻塞;服务器只起管理和控制的功能,因此具有更高的响应速率。NAS存储系统在网络上拥有唯一的IP地址。在网络附加存储系统中,客户机、服务器和NAS存储设备的数据访问过程如下:首先,客户机向服务器发出连接请求,服务器确认后,将NAS存储设备中的文件目录传给客户机。接着,客户机发出数据访问请求,服务器返回文件的地址信息。然后,客户机向NAS存储设备发出连接请求,NAS存储设备确认后,等待客户机的读写命令。最后,NAS存储设备向客户机发送数据,完成数据传输过程。

2.2.2 优缺点

NAS的优点在于:设备可以连接到以太网的任何位置,为网络上的客户机或服务器提供文件服务、数据存储;具有扩展性好、数据吞吐量大、访问性能好、价位低等特点,减轻了应用服务器的I/O负载,提高了网络性能,还支持异构平台;NAS没有使用新的网络协议,不改变现有网络结构就可使用;还具有即插即用功能,安装简单。NAS在中小型图书馆有较好的应用前景。

虽然网络附加存储(NAS)比直接附加存储(DAS)先进,但仍然存在一些问题。一是扩容问题,可增加的磁盘数量有一定的限制,所以存储容量的增加也是有限的;二是带宽问题,虽然NAS解决了服务器I/O带宽的问题,但是它的数据读写占用网络的带宽,特别是对大量数据进行备份的时候,容易导致网络的堵塞;三是对数据库的支持问题,因为NAS主要针对文件格式的数据访问,对数据块的访问比较困难,所以无法支持数据库服务;四是安全问题,由于NAS设备直接连接在网络上,存在一定的网络安全隐患。

2.3 存储区域网络(SAN)

存储区域网络(Storage Area Network,SAN)是独立于LAN的专用存储网络,采用高速光纤通道(Fibre Channel,FC)作为传输媒介,通过FC Switch和FC HUB将服务器与存储设备相连。

2.3.1 工作原理

SAN底层使用光纤通道协议(Fibre Channel Protocol,FCP)进行数据传输,网络中的主机通过主机总线适配器(HBA)访问网络中的各种存储设备。在存储区域网络中存储设备不再是某个特定主机的附属设备,而是相互连接形成存储网络系统,统一向多个主机提供服务。SAN中数据访问的过程如下:首先,在IP网络中客户机通过TCP/IP协议向服务器发送数据访问请求;服务器收到访问请求后通过FCP协议在SAN网络中向目标存储设备发送读写命令;然后,目标存储设备将封装在FCP协议中的数据帧传往服务器;最后,服务器上的HBA将FC数据帧转换为IP数据报,再通过TCP/IP协议传给客户机。

2.3.2 优缺点

SAN主要有以下优点:与现有网络连接简易并且通过同一物理通道支持广泛使用的SCSI和IP协议;允许用户独立增加它们的存储容量,提高了网络存储系统的可扩展性和可伸缩性;支持异构服务器的访问;数据存储的集中化,减少系统管理时间;网络数据备份和恢复不占用网络带宽,改善了网络传输的拥挤现象;能方便地实现高性能的服务器集群、负载均衡、双机热备、异地容灾等应用,大大提高系统的性能和可靠性;连接距离长(最长10公里),可为远程客户提供镜像存储,降低数据被破坏的损失。SAN技术将成为数字图书馆理想的存储管理和应用模式。由于标准尚未统一,不同厂商的产品兼容性较差,加上成本高,价格昂贵,安装困难,管理维护复杂,一定程度上限制了SAN的广泛应用。为了更好地说明DAS、NAS、SAN三者的区别,现列表如下。

3 S AN-NAS系统

SAN技术和NAS技术的结合,发挥了SAN技术中处理数据块操作的优势,提供对数据库的高速访问;而NAS引擎锐化的专用文件服务设计,能够快速向客户端提供文件服务,弥补了SAN系统所缺乏的对文件级数据的访问服务。这两种技术的结合大大提高了系统的整体性能。在数字图书馆的存储应用中,数据采集、封装和备份的操作可以在SAN的后端网络中进行,数据的访问、管理操作通过LAN进行。

3.1 数据访问流程

基于SAN-NAS存储网络的数字图书馆的数据访问流程如下:(1)读者从局域网或互联网登入到数字图书馆的Web服务器,通过Web交互界面提交查询和检索请求。(2)Web服务器将读者请求转给检索服务器,由检索服务器执行检索操作并对检索结果进行判断,分析是否属于跨平台数据访问。(3)如果是跨平台数据访问,则将检索结果交由NAS引擎处理;否则交由SAN服务器处理。(4)NAS引擎或SAN服务器根据元数据库所提供的地址信息对目标存储设备发送数据访问请求。(5)对于相同的系统文件格式的数据,目标系统将数据块发送到相应的SAN应用服务器,由该服务器对数据块按文件格式组合后发送给客户端。(6)对于跨平台数据访问,目标系统将数据块发送至NAS引擎,由NAS引擎对数据块进行组合,依照NFS或CIFS协议将文件传送至客户端。

3.2 SAN-NAS存储系统的管理

SAN-NAS系统的管理分为带内管理(in-band)和带外管理(out-of-band)。常用的带内管理协议是SES(SCSI Enclosure Service),由于无需额外的LAN连接,带内管理简化了存储网络的安装。Faber交换机利用SES查询命令,获取相连的HBA和磁盘阵列的详细信息,组成整个SAN的管理结构图。数字图书馆日常主要依靠带外管理,通过LAN通道来管理SAN-NAS存储系统,其管理查询及管理命令包含在SN-MP、TELNET和HTTP协议中。

3.3 LAN-Free数据备份

LAN-Free的SAN-NAS备份解决方案以光纤通道交换机或集线器为核心,各主机服务器和存储设备相连形成大规模数据传输存储网络,需备份的数据通过光纤通道直接传输到备份存储设备上,利用光纤通道的高带宽,达到高效高速的备份功能;同时各主机服务器可共享备份设备,减少设备投资。由于避免了备份数据在LAN上的传输,不会影响数字图书馆在线服务。

4 IP-S AN

IP-SAN是一种基于ISCSI存储技术的存储产品,也是基于IP协议的存储网络,是IP协议和SAN的结合。IP-SAN其实是在FC-SAN的基础上再进一步,它把SCSI协议完全封装在IP协议之中。简单来说,IP-SAN就是把FCSAN中光纤通道解决的问题通过更为成熟的以太网实现了。从逻辑上讲,它是彻底的SAN架构,即为服务器提供块级服务。基于IP-SAN的存储设备是连接到一个TCP/IP网络的直接寻址的设备,通过块I/O SCSI指令对其进行访问。对这一产品的另外一种描述是,它是连接到TCP/IP网络的存储设备,但可以使用与DAS和SAN存储设备一样的I/O指令对其进行访问。

4.1 ISCSI协议

ISCSI(互联网小型计算机系统接口)是一种在Internet协议网络上,特别是以太网上进行数据传输的标准,是IETF(Internet Engineering Task Force,互联网工程任务组)制定并于2003年2月正式发布的标准协议。ISCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速千兆以太网上进行路由选择,实现了SCSI和TCP/IP协议的连接。

ISCSI技术出现之前,构建存储区域网的唯一技术是利用光纤通道,但是其架构需要高昂的建设成本。ISCSI技术的出现对于以局域网为网络环境的用户来说,它只需要不多的投资,就可以方便、快捷地对信息和数据进行交互式传输和管理。ISCSI存储技术具有硬件成本低廉、操作简单、扩充性强、数据传输速度快等特点,它的出现让小型企业也可以组建自己的数据存储系统,让大中型企业也能在投入少量的资金情况下,获得更大的存储空间。

ISCSI协议定义了在TCP/IP网络发送、接收数据块级的存储数据的规则和方法。发送端将SCSI命令和数据封装到TCP/IP包中再通过网络转发,接收端接收到TCP/IP包之后,将其还原为SCSI命令和数据并执行,完成之后将返回的SCSI命令和数据再封装到TCP/IP包中,再传送回发送端。而整个过程在用户看来,使用远端的存储设备就像访问本地的SCSI设备一样简单。ISCSI其实就是在TCP/IP上面传输SCSI。

4.2 FC-SAN与IP-SAN的比较

如图二所示,在FC-SAN中,服务器和存储设备采用FC协议组成FC-SAN,而用户和服务器采用IP协议组成LAN或WAN,存储设备通过FC-SAN为服务器提供块I/O服务。而IP-SAN继承了FC-SAN的体系结构,用户和服务器采用IP协议组成LAN或WAN。所不同的是,服务器和存储设备采用IP协议组成IP-SAN。由于存域网和用户网都是用IP协议构成的,尽管它们在逻辑上是两个不同的网络,但在物理上它们是同一网络,存储设备通过IP-SAN为服务器提供块I/O服务。

在FC-SAN中存域网和用户网是用两种不同的协议实现的,用户对存储设备的访问通过服务器转换是必要的,服务器实现两种协议的转换。在IP-SAN中,存域网和用户网是采用相同的TCP/IP协议实现的,用户与存储设备间的数据传输可以直接进行而不必经过服务器转换;同时存域网和用户网在物理上是同一网络,用户与存储设备间存在着不通过服务器的直连通道。它们的主要特点如表二所示。

5 结束语

DAS是图书馆采用的传统的数据存储模式,但是对于数字图书馆的海量数据,这种存储模式已无法满足系统的要求随着时间的推移和技术的进步逐渐被淘汰。取而代之的是NAS和SAN模式,这两种模式较DAS有更多的灵活性和扩展性。

NAS实现异构环境下的文件共享和非密集型数据应用服务,但不适宜对数据库的快速I/O存取,由于数据完全依靠LAN传送,所以传输速度较慢,容易造成网络堵塞。

SAN是独立于LAN的数据存储网络,实现数据资源的存储、合并、转移、备份以及共享,可满足密集型数据服务的需求。SAN-NAS存储模式结合了这两种技术的优势,弥补了两者的不足,实现了更加快速、高效、灵活和易于管理和扩展的存储网络,是当前数字图书馆建设的重要技术之一。

基于图书馆数据的特性,IP-SAN是数字图书馆网络存储的最佳选择。图书馆的数据增长非常快,IP-SAN可以很容易地实现低成本扩容;图书馆的网络系统基本上都是基于TCP/IP的以太网,采用IP-SAN将大大减少建设和维护成本;图书馆的存储设备大多配有比较落后的IDE、SCSI硬盘的DAS或磁盘阵列、NAS、SAN等,IP-SAN能将这些存储整合成统一的存储池,保护已有的投资;IP-SAN能方便地进行异地容灾、备份,保障馆藏数据的安全,这也能很好地满足多校区馆的需求;IP-SAN不仅能满足读者对数据量不大的书目数据、Web数据、全文数据的访问,同时也能满足对数据量大、I/O带宽需求大的多媒体数据的访问要求。

参考文献

[1]张继征.NAS与SAN的融合[J].计算机应用研究,2009,(05).

[2]陈芙蓉.海量存储体系在数字档案馆建设中的作用[J].中国档案,2009,(06).

[3]罗宁.SAN与NAS融合技术研究[J].计算机应用与软件,2004,(10).

[4]李华.SAN在数字图书馆的应用研究[J].现代情报,2005,(04).

[5]杨子伍.基于IP-SAN的Windows终端系统在图书馆的应用[J].图书馆学研究,2006,(04).

[6]徐革,李宁.基于FC SAN和IP-SAN架构的数字图书馆综合网络存储应用[J].计算机应用研究,2005,(06).

[7]董唯元.IP存储前沿:ISCSI技术之彻底剖析篇[EB/OL].http:∥stor.51cto.com/art/200603/23250.html.

数字化图书馆存储技术 篇2

【关键词】数字图书馆;大数据;存储;应用

图书馆、阅览室的数据存储系统与其他行业的存储系统有较大不同,主要表现在:①数据量庞大。一座大型图书馆每年的数据增量可达10TB以上;②存储周期长。图书馆数据需要较长的存储时间,甚至可达50年以上;③数据类型多样。现代图书具有影像、图像、文字、声音等数据,均需要存储;④高度的可靠性和安全性要求。作为一所信息化程度较高的图书馆,为了构建一个满足业务需要的高效数据存储系统,可以利用数据压缩、重复数据删除、自动精简配置、自动分层存储等现代数据存储技术,对大数据进行高效的存储和管理。

一、数字图书馆大数据存储容量不足的问题

现代图书馆是一个十分复杂的机构,完备的图书馆除了具有对借阅人员信息、图书还借与出人信息、图书设备信息等硬数据进行管理外,数据量最大最复杂的当属对图书资料本身的软数据管理以及现代电子图书资料的储存与管理,特别是大型图书馆或高校图书馆,门类齐全、借阅量大、内容及设备多样,更使得它所产生的数据结构复杂且数据增量大。

图书馆的数据量随时间线性增长,随着各种类型的数字化图书及设备越来越多,信息化程度的不断加强,对图书及读者管理规范程度的不断提高,以及读者对资源要求的不断加深,致使数据容量加速增长。

当前大型图书馆每年的数据增量大约为20~30TB,如此浩大的数据量,对于一个拥有100TB存储容量的图书馆一也只能满足3一5年的数据存储需要,因此需要采取有效的应对措施予以解决。

日前,许多高校图书馆的存储设备容量利用率不到50%,大有潜力可挖。在图书馆实际管理工作中,在缺乏技术的情况下,经常采取整理碎片的技术来提高存储空间利用率和数据查询效率,这对于一般性的小容量操作是可行的,但对于大型数据系统其耗费的时间是难以估计的。况且,碎片的整理并不能有效消除分配卷中未使用的空间,达不到精简配置的目的。

二、数字图书馆大数据存储容量不足的应对

措施日前许多图书馆采取的办法是由被购买了电子图书的商家作数据备份,这显然不是最有效的数据存储机制。为了大幅度提高数据存储效率,最有效的办法是采用数据压缩技术和重复数据删除技术。

1、利用压缩技术提高空间利用率

对于书籍等图书资料文件,其文件内和文件间存在大量的相似性关系,Delta压缩技术则可以对文件内和文件间的数据进行比较,删除文件内和文件间的冗余数据,达到数据压缩的日的,相似程度越高,压缩比越小。

2、利用消重技术提高空间利用率

图书馆数据在存储过程中往往有大量的备份数据,数据经过多次备份后,产生较多的数据重复,重复数据删除技术在备份过程中能够较好地消除重复数据,进而节约空间。对于重复数据备份,可以分为时间数据消重和空间数据消重。对于电子书籍等产生的数据一般属于自然数据,其主要特点是,数据的变化率较低、完备的数据备份、数据长期保存、数据内容可以感知等,因此,适合采用时间数据消重。因此,就本校图书馆的数据整理,大约每三个月进行一次。

图书馆数据量庞大,仅仅一所5000人规模学校的中型图书馆,其电子图书数据量就可达到15TB以上。因此,不能简单采用与中小备份类似的解决方案,由于存在大量的图形文件及影像文件等,其海量数据备份是一个非常耗时的过程,在热备份情况下,可能需要花费近一个月时间。最佳实践做法是,采用备份设施来拷贝数据并同时保证应用程序仍然可以让客户端使用。重要数据的备份可以使用有冗余级别配置的主机或硬盘RAID。两个独立硬件控制的RAID阵列的软件镜像可以用来备份其关键数据。这种技术可以保证当某个磁盘或阵列发生故障时整个系统仍然可以使用,任何网络组件的故障,如网卡、视频设备、IDE控制器、电源等可以容易地替换而不影响运行。最经济且非常有效的数据备份方案可以采取冗余技术RAID4,即若干个数据盘带一个冗余盘,在这些盘中的相应块内,存储的相应位的1的个数必须是偶数个。当某一个数据盘发生故障而更换了新盘后,只要按照偶数个1的原则就可以将损坏了的数据恢复到新盘中。

在实际操作中,可以有多种备份方案,通常采用停机备份:正常关闭待操作数据,进行数据的冷备份。备份所有数据文件、控制文件、日志文件和参数文件,把冷备份拷贝到新存储设备上,然后新建一个同名实例,最后再把备份数据文件重新打开即可。

3、提高存储空间的利用率

对于某项应用,传统空间分配方案采用完全供给,以确保该应用拥有足够的增长空间,这势必造成大量的存储空间闲置,在空间浪费的同时也造成了能源损失。采用自动精简配置是一种较新的存储空间管理技术。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,大幅度提高存储空间利用效率,能使用户实现接近100%的存储空间利用率,因为数据需要多少空间系统则按需要进行分配,基本不产生多余的空间。自动精简配置技术的一个明显的优势在于可自动扩展分配卷,无须手动扩展,而且当需求变化时,无需更改存储容量设置;通过虚拟化技术集成存储,减少超量配置,降低总功耗。这也是解决机房耗能问题的很有效的方法。

三、总结

总的来说,对于数字图书馆大数据的存储和管理都十分关键,有效地存储和管理大数据是现代图书馆信息化管理的必要基础,良好的数据管理技术能够为图书馆管理工作的顺利开展提供保障。所以,加强大数据存储工作的管理,是未来数字图书馆发展的重要保证。

参考文献

云存储在图书馆数字化中的应用 篇3

关键词:云存储;图书馆数字化;信息存储;应用

近年来,互联网得到了广泛的普及,图书馆中信息资源的收集与积累都已经离不来数字化互联网的作用。随着图书馆数字化的不断发展,数字资源在图书馆资源中占据的比重越来越大,数字化信息的增长速度也越来越快,对于图书馆来说传统的存储模式已经不能满足图书馆的发展需求,而海量存储成为必然要求,云存储模式的出现使得这一难题得到了有效的解决。云存储的概念至今没有一个准确地定义,但值得肯定的是,云存储是以云计算为基础发展而来的,无论是分布式处理、并行处理还是网络计算,其发展源头都是云计算。因此,云存储系统是一个大数据存储和管理的云计算系统。

一、云存储在图书馆工作中应用的可行性

近年来,云计算和云存储技术在各个领域都得到了非常广泛的应用,随着图书馆数字化的不断发展,数字信息资源在整个图书馆的信息资源中所占的比重越来越大,云存储模式在图书馆中的应用已经成为必然的发展趋势。云存储包含很多部分,且系统非常复杂。在整个云存储系统中,存储设备部分是其中最为关键的部件。作为云存储的基础,存储层中的存储介质经常分布在不同的区域,且光纤和互联网可以帮助存储介质之间实现数据传输。基础管理层在云存储中也属于非常关键的部分,在这一层中,分布式、并行计算等技术在其中的应用非常频繁。在基础管理层中,各个设备之间的连接和工作要充分配合、协调,从而更好的为外界提供一个性能良好的数据访问体验。应用接口层在云存储中比较灵活多变,如果业务场景和业务类型不同,对外提供的服务就会不同。访问层是存储系统中的最后一层,在访问层中,拟定一个标准的公用访问控制系统至关重要,只有这样才能使用户得到不同的体验和服务。云存储技术的发展是一个循序渐进的过程,首先要求用户存在相应的入网条件,使其能够接入云服务中,其中提升互联网的访问速度十分关键。其次云存储技术能够使各种各样的数据在不同的计算设备上实现资源的共享。

二、云存储在图书馆数字化应用中的优势

与传统的图书馆相比,数字化的图书馆有很多优势,共享性是其中最明显的优势,用户通过访问控制的允许进入信息库,再结合网络得到更多的共享信息,与传统的图书馆相比更加先进、便捷。另外,图书馆信息的更新速度与传统的图书馆相比更快捷,传统的图书馆在信息更新上比较滞后,很多新的信息不能及时有效的进行更新,应用价值相对较低,而数字化图书馆应用了最先进的科学技术,在信息的更新上更加简便、快捷。数字化图书馆的另一优势是信息存储,将信息按照信息化的方式存储,用户接受起来也更加容易。而将云存储技术应用于数字化的图书馆中,使图书馆有了更进一步的优势。一是云存储降低了图书馆的存储成本。数字化图书馆在构建过程中人力、物力上都有大量的花费,各种计算机的存储设备及设备的维护管理等也需要大量的费用,只有这样才能确保图书馆正常运行,才能使得各类信息资源正常使用,同时,在此过程中也浪费了很多的人力、物力、财力。而将云存储技术应用于图书馆的数字化构建中,不仅能够为图书馆节省大量的费用,还能大大提高管理人员的工作效率,提供者处有云存储中应有的程序、服务以及所有相关数据,因此,图书管理人员在前期的投资和建设以及后期的改进和升级都无需担心资金问题,图书馆则可以将资金用到更有意义的服务中,提升其服务质量。二是云存储对于保护图书馆信息的安全发挥着非常重要的作用。图书馆在数字化过程中保护信息的安全至关重要,怎样确保信息的访问安全和访问控制是图书馆在数字化过程中应该重点关注的问题。在日常事务中,传统的数字化图书馆经常出现被黑客攻击的现象,黑客攻击主要包括窃取、篡改、攻击图书馆内的数据信息等,导致整个图书馆的设备瘫痪,无法正常使用,造成图书馆无法正常的为读者提供相应的服务。但将云存储应用于图书馆的数字化构建中,就会使这一现状得到有效的改善。云存储技术能够将图书馆的信息集中有序的存放于各个节点服务器上,数据备份自动生成,如果出现磁盘损坏的现象,系统会自动将备份数据恢复到各个节点服务器上,从而使数据的安全性得到了保障。三是云存储能够实现数据灾备。在面对图书馆数据丢失和破坏时,云存储能够有效实现数据灾备,如果在运行过程中某台云服务器出现故障,云存储系统能够第一时间采取措施用备用设备代替,有效保障了系统的正常使用。四是云存储能够更好的实现数据共享。在图书馆的服务中电子检索是非常重要的内容,而云存储技术增大了检索的范围,使用户检索更加方便、快捷,大大提高了用户的检索效率。云存储系统具有一个典型的特征便是开放性,它整合了图书馆中不同数据的来源,使图书馆中的信息能够被统一的管理,即使存储在不同位置的数据信息,在检索的过程中也丝毫不受影响,从而大大提高了信息资源的共享程度。

三、云存储在图书馆数字化中的应用局限和解决措施

目前,传统图书馆的资源分享方式已经不能充分满足人们的需求,图书馆的数字化是其发展的必然趋势,云存储在图书馆数字化过程中起到了整合资源、减低成本的作用,且能够更好的服务于用户。但就目前而言,云存储技术在图书馆数字化过程中的应用还存在一些问题,下面我们就针对这些问题,提出相应的解决对策。第一,网络宽带问题,提升网络速度,从而确保云存储系统能够在最佳带宽下快速运行;第二,云存储的安全性问题,可以通过优化云存储相关算法,加强数据交换协议的安全性,从而使数据交互更加安全。

四、结语

云存储技术是图书馆构建数字化过程中的一项重大突破,虽然还存在一些问题,但云存储在其中的地位无法撼动,我相信,随着云存储技术的不断发展,图书馆在信息化、数字化建设的进程将越来越快,数据信息也会越来安全。

参考文献:

[1] 王峥.云存储在图书馆数字化中的应用研究[J].合肥工业大学学报(社会科学版),2014,(3):129-134.

[2] 刘静.云存储在图书馆数字化中的应用性探析[J].现代交际,2015,(12):85.

数字图书馆存储技术发展趋势 篇4

一、数字图书馆的网络存储架构

从架构上来分, 数字图书馆网络化存储系统应用主要包括DAS (直接连接存储) 、NAS (网络连接存储) 和SAN (存储区域网络) 。

(一) DAS。

DAS是指将存储设备通过

产生本质上的影响, 有很大一批接受他们影响的群体, 试想一下, 如果一个网民对某个意见领袖的评论一贯表示欣赏, 这时他发表了对某个产品或服务的一篇评论, 而评论 (至少是看上去) 有理有据的, 这种影响就不言而喻了。

第四, 当危机已经发生了, 企业如何应对。首先, 找出公关危机的根源, 解决它, 一旦解决后, 任何话题也就失去了进一步炒作的机会了。在实际中, 比如有的消费者买了某个产品, 出现问题, 售后人员没解决好, 于是他在网上批评, 那很简单, 企业给他解决好了。如果真的犯下了错误, 那一定要通过合适的传播渠道, 向网民承认错误。网民可以允许你犯错误, SCSI接口或光纤通道直接连接到一台计算机上。DAS的适用环境为:服务器在地理分布上很分散, 或存储系统必须被直接连接到应用服务器上时, 也适合包括许多数据库应用和应用服务器在内的应用, 它们需要直接连接到存储器上。当服务器在地理上比较分散, 很难通过远程连接进行互联时, 直接连接存储是比较好的解决方案, 甚至可能是唯一的解决方案。

(二) NAS。

NAS是将存储设备通过标准的网络拓扑结构 (例如以太网) , 连接到一群计算机上, 提供给各异构平台 (包含Unix, Windows, Linux, Netware) 的客户端及服务端, 达到文档共享的储存装置。NAS是通过存储器件 (例如硬盘驱动器阵列、CD或DVD驱动器、磁带驱动器或可移动的存储介质) 和集成在一起的简易服务器, 可用于实现涉及文件存取及管理的所有功能。它可做到异构平台之间文档格式的转换和资源共享。不但具有高效能传递, 多任务效能的最佳化, 而且减少工作

但不能容忍你对他们的欺骗;其次, 企业需要寻找一些合适的网络传播渠道, 将事实的真相告诉大众, 增加企业的透明度。在这里企业要学会放低姿态, 以“柔”克“刚”, 公关传播考虑的是如何影响“人”的心理, 现代人特别是年轻人都有很强的自我意识, 如果采用一种强势的宣传姿态去表达, 会很容易激发他们的反感, 而放低姿态, 则会让他们产生一种心理优势, 从而产生对企业或品牌的好感。需要注意的是, 企业的公关执行必须要交给相关经验丰富的人去操作, 实在找不到公关经验丰富的, 那就找与客户打交道比较多的人, 因为他们容易理解和明白对方心理。

第五, 解决了危机后要做什么?在网人员安装、管理、备份的成本, 是最佳化的附加式网络存储设备。

NAS具有几个引人注意的优点:首先, NAS是真正即插即用的产品。NAS设备一般支持多计算机平台, 用户通过网络支持协议可进入相同的文档, 因而NAS设备无需改造即可用于异构平台的局域网内;其次, NAS设备的物理位置同样是灵活的。它们可放置在工作组内, 靠近数据中心的应用服务器, 也可以放在其他地点, 通过物理链路与网络连接起来。无需应用服务器的干预, NAS设备允许用户在网络上存取数据, 这样既可减小CPU的开销, 也能显著改善网络的性能。

NAS适合于数字图书馆建立初期, 用户的数据规模不大, 存储需求也很简单, 只是要把相关数据存放在某一地方即可。而存放数据的最终目的不但是为了能够安全保存, 还必须保证数据可以随时被调用。这种方法从两方面改善了数据的可用性。第一, 即使相应的应用服务器不再工

络危机解决后, 企业要通过各种网络媒体让这些信息分散在互联网上, 这样可以在将来网民借助搜索引擎进行搜索相关信息时, 不至于搜索到的仅仅是一堆的负面信息。同时, 我们要记住事后反思是必须要做的事情, 只有有效的反思才能总结经验, 不管这次应对处理效果如何, 要争取下次不犯同样的错误。

(作者单位:河南职业技术学院)

主要参考文献:

[1]张书乐.实战网络营销[M].电子工业出版社, 2010.

[2]杨静.市场营销基础与实务[M].南京大学出版社, 2010.

作了, 仍然可以读出数据;第二, 简易服务器本身不会崩溃, 因为它避免了引起服务器崩溃的首要原因, 即应用软件引起的问题。

(三) SAN。

SAN通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接, 是独立于服务器网络系统之外几乎拥有无限存储能力的高速存储网络, 这种网络采用高速的光纤通道作为传输媒体, 以FC (光通道+SCSI) , 小型计算机系统接口的应用协议作为存储访问协议, 将存储子系统网络化, 实现了真正高速共享存储的目标。

SAN解决方案的优点有以下几个方面:SAN提供了一种与现有LAN连接的简易方法, 并且通过同一物理通道支持广泛使用的SCSI和IP协议。SAN不受现今主流的、基于SCSI存储结构的布局限制。特别重要的是, 随着存储容量的快速增长, SAN允许图书馆根据需要不断增加存储容量。SAN的结构允许任何服务器连接到任何存储阵列, 这样不管数据放置在那里, 服务器都可直接存取所需的数据。因为采用了光纤接口, SAN还具有更高的带宽。光纤接口提供了10公里的连接长度, 这使得实现物理上分离的、不在机房的存储变得非常容易, 较为适合现在的高校图书馆多个分馆的实际环境。

二、三种存储系统对比分析

(一) DAS的问题与不足。

DAS依赖服务器主机操作系统进行数据的IO读写和存储维护管理, 数据备份和恢复要求占用服务器主机资源 (包括CPU、系统IO等) , 数据流需要回流主机再到服务器连接着的磁带机 (库) , 数据备份通常占用服务器主机资源的20%~30%, 因此图书馆在做日常数据备份常常在深夜或业务系统不繁忙时进行, 以免影响正常业务系统的运行。直连式存储的数据量越大, 备份和恢复的时间就越长, 对服务器硬件的依赖性和影响就越大。

DAS与服务器主机之间的连接通道通常采用SCSI连接, 带宽为10MB/s、20MB/s、40MB/s、80MB/s等, 随着服务器CPU的处理能力越来越强, 存储硬盘空间越来越大, 阵列的硬盘数量越来越多, SC-SI通道将会成为IO瓶颈;服务器主机SCSI ID资源有限, 能够建立的SCSI通道连接有限。

对于DAS的扩展过程中, 从一台服务器扩展为多台服务器组成的群集, 或存储阵列容量的扩展, 都容易造成业务系统的停机, 从而给广大读者检索工作造成不便。

(二) NAS的问题与不足。

NAS没有解决与文件服务器相关的一个关键性问题, 即备份过程中的带宽消耗。与将备份数据流从LAN中转移出去的存储区域网 (SAN) 不同, NAS仍使用网络进行备份和恢复。NAS的一个缺点是它将存储事务由并行SCSI连接转移到了网络上。这就是说, LAN除了必须处理正常的最终用户传输流外, 还必须处理包括备份操作的存储磁盘请求。

(三) NAS与SAN的不同点。

NAS:用户通过TCP/IP协议访问数据, 采用业界标准文件共享协议如NFS、HTTP、CIFS实现共享;SAN:通过专用光纤通道交换机访问数据, 采用SCSI、FC-AL接口。NAS是在RAID的基础上增加了存储操作系统, 而SAN是独立出一个数据存储网络, 网络内部的数据传输率很快, 但操作系统仍停留在服务器端, 用户不是在直接访问SAN的网络, 因此这就造成SAN在异构环境下不能实现文件共享。SAN是只能独享的数据存储池, NAS是共享与独享兼顾的数据存储池。因此, NAS与SAN的关系也可以表述为:NAS是Network-attached, 而SAN是Channel-attached。SAN结构中, 文件管理系统 (FS) 还是分别在每一个应用服务器上;而NAS则是每个应用服务器通过网络共享协议 (如NFS、CIFS) 使用同一个文件管理系统。换句话说, NAS和SAN存储系统的区别是NAS有自己的文件系统管理;NAS是将目光集中在应用、用户和文件以及它们共享的数据上;SAN是将目光集中在磁盘、磁带以及联接它们的可靠的基础结构。

三、数字图书馆存储技术发展趋势

(一) I P-SAN技术。

IP-SAN是以IP为基础的SAN存储方案, 用户可以在任何需要的地方创建实际的SAN网络, 以IP协议替代光纤通道协议, IP协议用于网络中实现用户和服务器连接, 而不需要专门的光纤通道网络在服务器和存储设备之间传送数据。IP-SAN不仅成本较低, 而且可以解决光纤通道对传输距离的限制、交互操作性较差等问题。

(二) 云存储技术。

云存储已成为未来存储发展的一种趋势, 是指通过集群应用、网格技术、并行处理、分布式文件系统等功能, 将分布于网络中的大量各种不同类型的存储设备通过相关应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统。确切地说, 云存储系统就是通过应用软件和广域的存储设备来提供数据访问服务。

(三) 主存储去重和压缩技术。

此项技术能够通过磁盘阵列和NAS的控制器对文件级及块级数据进行比较并去重和压缩, 能够使数字图书馆存储系统保有尽可能多的空间以存储更多的数字资源。

(四) 虚拟分层技术。

目前, 虚拟分层技术能够把存储区分配到一个由不同效能、成本、多个存储层组成的存储池内。虚拟分层或动态分层可自动把存储区分类及把整个存储区迁移至适当的存储层, 用户毋须针对存储区进行分类及配置到指定存储层, 也不必在各存储层内手动迁移存储区以配合存储活动。

存储技术的发展迅猛, 数字图书馆在存储系统的建设中要因地制宜, 适当具有前瞻性, 综合考虑资金成本与效益、设备集中与分散管理、数据的访问与安全保护等问题, 加强存储在异构环境下的应用与管理, 促使存储系统能够较为长期的、充分有效的、安全的为数字图书馆资源建设提供服务保障。

参考文献

[1]李军艳.数字图书馆存储系统解决方案.现代情报, 2005.12.

[2]舒炎祥.数字图书馆的存储解决方案.图书馆学研究, 2005.10.

数字化图书馆存储技术 篇5

当前数字校园中的主要应用及数据存储需求主要有以下5种情况。

(1)站

包括学院的统一站,各部系的网站以及专题网站等,其特点为网站数目众多、访问量大、存储的内容绝大多数为非结构化数据,表现为html 等格式的小文件,负载主要为远程用户对Web 页面的访问,对存储的主要需求是具有较高的IOPS(每秒读写次数)性能。

(2)网络存储系统

如网盘、FTP 等为用户提供网络存储空间,其特点为访问量小、实时性不高,要存储的绝大多数为文档、图片、软件等非结构化数据,对存储的主要需求是便于扩展。

(3)业务系统

如:教务管理系统、资产管理系统和一卡通系统、迎新系统等,其范围涵盖了学校各部门的主要业务。与站不同,业务系统的数据主要存放在数据库中,很少生成html 等格式的静态网页,所以,业务系统对存储的压力非常小。

(4)多媒体资源

如:精品课程、声像教材、视频监控存储等,其特点为单一文件大、资源总量大、增长速度快。对存储的主要需求是具有较好的Throughout(传输带宽)性能并易于扩展。

(5)数据库系统

如SQL Server、Oracle 以及MySQL 等,存储的是结构化数据,其特点为数据量相对不大、冗余度低、共享性高、独立性强、数据读写频率高、并发请求数量大,对存储的主要需求是良好的IOPS 性能。存储现状及问题

在以往,由于存储系统的建设往往是业务系统建设的附属内容,因此,在学校信息化建设的不同时期、不同单位、不同项目中建设的存储系统基本上是分别建设,而且很多采用了异构技术及设备,目前的主要存储技术有以下3 种:

(1)网络连接存储(NAS)

NAS(Network Attached Storage)使用以太网作为存储的基础,利用网络文件协议(NFS,CIFS)实现对存储设备中的文件级存储。结构简单,配置管理方便,可实现跨平台的数据共享,但是NAS 架构下,数据存储和正常的网络业务同时使用网络带宽,因此其Throughout 和IOPS 性能较差,难以承载关键应用。

(2)基于光纤通道的存储区域网络(FC-SAN)

SAN(Storage Area Network)是一个独立的存储网络,实现了直接对物理硬件的块级存储访问,存储数据流不占用业务网络带宽。基于光纤通道的FC-SAN 传输带宽高,性能稳定可靠,但是造价高,维护及配置复杂,管理成本高。

(3)基于IP 协议的存储网络(IP-SAN)

IP-SAN 是在FA-SAN 基础上发展起来的一种存储技术,它采用iSCSI 协议,利用以太网组建相对廉价的SAN,部署简单,管理方便,但其效率、性能和安全性均不如FC-SAN。

NAS、FC-SAN 和IP-SAN 各有所长,但是它们有一个共同的不足,即这些存储模式中的每一个业务系统都有独立的磁盘使用空间和预留空间,其他业务系统无法利用其预留空间,形成了一个个的“存储孤岛”,必然会造成存储资源的浪费;同时,这些存储系统彼此独立,也增加了管理和维护的难度。云存储结构设计

云存储是在云计算(cloud computing)概念上延伸和发展出来的新技术,它通过集群应用、分布式文件系统等,使网络中的异构存储设备协同工作,共同对外提供数据存储和业务访问功能,实现了从提供存储设备向提供存储服务的根本性变革。

数字校园云存储结构模型共分4 层,分别承担物理存储设备管理、提供存储服务等功能。

(1)存储层

云存储设备可以是FC-SAN,也可以是IP-SAN 或NAS。通过统一的存储设备管理系统实现对不同物理存储设备的逻辑化和虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。

(2)基础管理层

基础管理层是云存储的核心部分。该层通过集群存储、分布式存储和网格存储等技术,实现众多存储设备之间的协同工作,对外提供统一的存储访问服务,而多个存储设备的并发处理则能够显著提高云存储系统的IOPS 和Throughout 性能。

(3)应用接口层

应用接口层是由众多的第三方软硬件厂商提供的插件层。可以利用应用接口快速开发各类数字校园业务系统,如在云存储基础上的视频监控应用、视频点播应用、网络存储的硬盘、远程数据备份应用等。

(4)访问层

任何一个授权用户都可以按照标准的公共应用接口,在任何地方访问云存储平台,享受云存储服务。

传统存储NAS / SAN 目前仍是数字校园存储领域的主流,但其自身存在难以解决的缺陷。云存储是行业的最新发展,具有传统存储所不具备的诸多优势,包括海量的存储能力,快速的响应能力和数据传输能力,安全、灵活的存储扩容能力,统一、方便的集中管理方式,相对低廉的总体拥有成本,能够很好地满足数字校园各类应用的存储需求。结束语

数字化图书馆存储技术 篇6

关键词: 数字化图书馆 云计算技术 信息服务升级

现代图书馆在微博、微信、数字化技术、信息技术等诸多因素的影响下愈发显现出不一样的时代特征,在人本理念的指导下,图书馆进行管理与服务改革势在必行,云计算技术作为当前图书馆创新必不可少的关键技术之一,对于新时期图书馆更全面地发挥自身价值有重要意义。下面探讨云计算技术在数字化图书馆中的应用。

1.云计算技术推动数字化图书馆基础设施建设

1.1云计算技术应用改变图书馆架构

数字化图书馆的发展历经不少波折,从传统的实体资料到现如今的各种移动终端、服务器等电子资料,用户们享受到的图书馆服务无论是质量还是层次都有较大变化。数字化图书馆对于各类信息技术的广泛应用决定了新时期云计算融入后的全新局面,在传统路由器、服务器、数据库、用户、移动终端等基础上增加了云计算共享模式,无论是图书馆的架构、基础设施还是图书馆功能都出现新特点。

1.2云计算技术应用推动图书馆服务模式转变

以服务模式为例,传统图书馆的B/S三层结构利用各种移动终端向图书馆服务器发出请求,进行查询、借还等操作,配合应用服务器连接后台数据库完成操作,并将反馈信息回返用户,这种静态模式的服务难以满足新时期web2.0数字化图书馆的建设要求,云计算技术的出现与应用为其提供了进步契机。云计算技术不同于静态模式,是一种动态部署虚拟的硬件服务器,所以数字化图书馆的建设与服务模式带有显著的分布式、共享式特点。云计算技术利用本身的优势将整个数字化图书馆整合为分布式的网络化图书馆,呈现辐射式服务特征,用户只要接入网络,就可享受与自身权限相对应的信息共享服务。

1.3云计算技术应用推动图书馆硬件设施升级

云计算技术的应用会极大地推动数字化图书馆硬件基础设施建设,对于图书馆而言它们需要向云计算供应商购买充足的云空间与计算能力,结合图书馆管理、服务需求构建足够的服务器,并将图书馆信息服务上传至云空间,借助分布式云计算服务完成信息、数据的高效调度与服务,这对于提升图书馆原有数据标准性有重要价值,可将原本复杂的信息资源进行分类整理与优化,从而提供更好的信息服务。云计算技术在服务用户中可通过云端服务器实现用户需求的快速、准确匹配,随时将最准确的信息反馈到用户移动终端,对于推动移动图书馆个人终端发展有一定的意义。随着微信、微博等诸多信息服务与数字化图书馆的联合,未来图书馆在向用户提供个性化特色服务方面想必会有更多的优势与创新。另外,云计算技术的一个重要优势是图书馆本身无需购置各类本地专业服务器等设备,只需要向云计算供应商购买相应的数据虚拟服务即可,将数字化图书馆打造成为一个基于云计算的大型虚拟服务平台只需要较低的运营成本,对于提升图书馆运营效益有积极意义。

2.云计算技术推动数字化图书馆服务升级

2.1云计算技术应用减轻图书馆管理负担

基于云计算技术的数字化图书馆所有的信息资源都被存放在云端之上,由云计算供应商利用服务器对硬件池进行调度管理,用户只需利用移动终端接入云端即可享受服务,并不参与数据的存储与管理,在动态部署的虚拟化服务器上一切服务流程都由云端完成,无论是图书馆管理方还是用户都极大地减轻压力,因此可促使数字化图书馆将更多精力用于提升个人服务层次与品质。

2.2云计算技术应用提升图书馆资源应用效率

云计算技术不同于以往信息技术的最大优势在于数据分布式存储的安全性与完整性有一定保障,即使有部分数据损坏或者丢失也可迅速进行恢复与完善,云计算虚拟化将整合后的数据集中在云端服务器,旨在为图书馆管理提供便利,为用户提供最可靠、完整的数字信息服务,比起传统图书馆,无论是资源利用程度还是效率都得到显著提升,代表数字化图书馆服务的升级与进步。

2.3云计算技术应用减少图书馆服务风险

数字化图书馆面对海量用户的服务模式,要求其开发数据存储系统时必须针对多用户、大数据存储、高数据访问特点着力提升服务器吞吐率与传输率,如此才能满足用户需求,云存储技术本身的优势决定了它在满足数字化图书馆这一方面有天然优势。云计算技术利用云计算模式构筑共同共享空间,将其置入云端服务器内,从而利用服务器庞大的数据处理能力为用户服务,减少服务中错误出现的可能性。云计算技术的应用提升了数字化图书馆服务稳定性,减少了出错频率,虽然在信息保密方面有一定风险,但是在处理、存储海量数据方面安全可靠,为图书馆用户升级、创新提供更多可能性。

综上所述,数字化图书馆中云计算技术的应用有利于推动信息服务升级、图书馆基础设施升级,对于数字图书馆管理进步与创新有重要的服务价值,值得大力推广应用。

参考文献:

[1]夏玉萍.云计算环境下中小型图书馆数字化建设探讨[J].甘肃科技,2013(19):101-102.

[2]朱民清.云计算技术在数字图书馆中的应用研究[J].微型电脑应用,2013(8):37-39.

[3]彭娇,邱晓丽.云计算技术在高校图书馆中的应用[J].硅谷,2013(2):264.

数字化图书馆存储技术 篇7

数字图书馆建设的重点之一是实现数字资源的共享和协同服务, 随着用户需求的日益变化及数据信息量的爆炸性增长, 原有的数据存储方式越来越不能满足数字图书馆发展的需要。

网格存储是一种全新的数据存储技术, 它不仅可以扩展存储容量, 还具有更高的容错与冗余度, 在负载波动的情况下可以保持高性能和低成本。构建基于网格技术的数字图书馆存储环境, 不仅能够有效解决资源存储问题, 而且为网格用户方便、快速、高效访问数据提供了保障。

1 数字图书馆资源存储现状

1.1 数字图书馆资源特点及对存储的要求

从存储的角度来看, 数字图书馆资源具有如下特点:

(1) 存储容量大。随着流媒体、数据仓库等技术的发展, 数据资源呈几何倍数增长, 度量单位从MB、GB向TB、PB转变。

(2) 媒体形式多样。既有文本信息, 还具有声音、图像、影视等多种媒体形式。

(3) 分布广泛。既有本地存储, 也有远程存储, 物理路径相当复杂;存储设备也分为磁盘阵列、磁带库、光盘库等。

(4) 环境的异构性。数据的资源类型不统一、存储的数据库环境不尽相同, 系统主机及网络环境也有区别。

可见, 数字图书馆对数据存储有着特殊的要求, 主要概括为:

(1) 海量存储, 24小时可用;

(2) 提供跨平台、跨部门、跨区域的数据存取与管理机制, 用户可以在给定权限内自由访问;

(3) 面向多用户的并发处理机制, 可以实现远程监测及流量控制;

(4) 满足用户的各种要求, 且确保数据安全;

(5) 良好的交互性和容错能力。

1.2 传统的资源存储方案及不足

传统的数字图书馆资源存储方式主要有:直接附加存储 (DAS, Direct Attached Storage) 、网络附加存储 (NAS, Network Attached Storage) 、存储区域网络 (SAN, Storage Area Network) 和互联网小型计算机系统接口 (ISCSI, Intemet Small Computer system Interface) 。如表1, 是4种存储方案的比较。

由表1可见, 上述4种存储方案虽然在一定程度上解决了数据集中和共享问题, 但也存在一些不足, 如:扩充性能差, 难以满足数据资源爆炸式增长要求;兼容性与共享性差, 难以适应多用户、异构性环境和跨平台的要求;存储的智能性差, 不能满足动态存储、按需存储的要求;存储速率小, 不能满足大数据量、大并发访问的要求。

鉴于此, 本文提出用网格存储方式全面解决数字图书馆的存储问题。

2 网格存储技术

2.1 网格存储的概念

网格是一种信息社会的网络基础设施, 它将实现互联网上所有资源的互联互通, 包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。从应用角度看, 主要分为网络网格、计算网格和存储网格3类, 其中存储网格是基础。

网格存储是网格技术的主要组成部分, 它以节点为基础, 可以在多重节点上进行内容管理与存储, 也可以在存储环境的多重节点进行数据转移与传输。基于此, 它可以将NAS、SAN两种不同的技术、不同的管理工具、不同的存储应用融合在一起, 实现各类资源的自动优化、自动配置、自动保护和自动恢复功能。

目前, 主要有两种典型的网格存储架构:Net App网格存储层次结构、惠普的智能网格存储架构。如图1所示, 是Net App网格存储层次结构。

可见, Net App网格存储共分4层:最底层是为用户实际存放数据使用的存储设备;第二层为网络管理层, 使用文件服务器与全局命名空间对整个存储网格进行管理;第三层是存储网络层, 提供各类设备的连接;最上层为用户的各类业务应用。

惠普存储网格技术的核心是一个个的智能单元 (Smart Cell) , 每个智能单元都是一个“计算机+存储”的模块, 可与外界直接沟通。这种网格存储也是架构在SAN架构上的, 可以通过增加智能单元提升系统性能, 通过增加磁带、磁盘等设备增加系统功能。如图2即是惠普的网格存储结构。

2.2 网格存储的优势

网格存储整合了SAN和NAS等存储系统的优点, 并结合网格计算技术、虚拟化技术、智能存储技术和开放性标准, 不仅能满足大容量、网络化、容错性和高效性这些基本存储要求, 还能满足非集中控制、透明访问、异构性、协调性等特殊存储要求。与传统的存储方式相比, 网格存储的优势主要体现在如下3个方面:

(1) 可靠性:一个设计良好的网格极具弹性。网格不只是在任何两个节点之间提供通道, 而是在每个存储节点之间提供多个通道。这使得维护服务和出故障时更换部件更容易, 对系统的可用性或宕机时间影响最小。

(2) 性能:导致高可靠性的因素同样也能改善性能。不需要有大量端口的集中式交换机, 消除了潜在的性能瓶颈, 并能将负载平衡技术应用于可使用的多个通道, 为整个网络提供一致的性能。

(3) 可扩展性:利用端口数不多的廉价交换机, 就能很容易地扩展网格网络, 故很容易实现网格的升级。

3 网格存储在数字图书馆中的应用

3.1 网格存储的主要应用点

数字图书馆资源存储面临的主要问题有3个:海量存储问题、异构存储问题和动态存储问题。网格存储在这3方面的应用为:

(1) 海量存储问题。在网格环境中, 可以采用第3代P2P混合网络体系的存储结构, 这种结构可以将以前的一个NAS或SAN作为网格存储的一个节点进行管理, 将以数据为中心的集中式存储管理转换为分布式存储管理, 从而大大提高了存储容量, 解决了海量存储问题。

(2) 异构存储问题。数字图书馆资源中数据来源多样, 不同来源的存储格式不同, 加之用途多样, 存在大量的异构存储问题。采用网格与虚拟存储技术相结合的方式, 可以将物理上分布的各类存储系统和设备虚拟成单一系统, 对外提供统一的、透明的、安全的访问和管理机制, 在网格应用层形成统一的访问接口。

(3) 动态存储问题。网格存储可以有效解决数字图书馆资源动态存储和按需存储的问题。首先, 网格存储采用分布式结构化的P2P体系结构, 每台计算机既是客户机, 也是服务器, 系统规模扩大和缩小非常方便, 性能基本不受影响;其次, 采用网格存储, 其存储的物理层和逻辑层是分离的, 使得数据移动不依赖于主机和应用, 而且可以实现存储数据的动态转移。

3.2 网格存储在数字图书馆中的应用

数字图书馆的网格存储结构, 旨在构造一个整合存储资源, 即将现有的不同来源、不同格式、不同性能的图书资源进行整合, 屏蔽底层异构存储细节, 对用户提供具有统一逻辑视图的高性能虚拟存储系统。本文采用网格沙漏结构和开放网格服务体系构建服务模型, 如图3所示, 是网格存储在数字图书馆中的应用模型。

该模型为4层体系结构, 从下向上分别为:

基本构造层:为网格存储提供物理存储位置、网络环境等, 主要包括存储设备 (光盘库、磁带库、磁盘阵列) 、存储系统 (DAS、SAN、IP-Storage和集群存储) 、逻辑存储系统 (文件系统、数据库、档案库、元数据集) 。

连接层:为下层的物理存储资源和逻辑存储资源提供安全、高效的数据通讯能力。主要包括安全的数据传输通道、各种网络协议和文件传输协议。

存储服务层:整个体系的核心, 通过全局命名服务器和存储资源代理, 将应用层的各种请求映射为分布式、异构存储环境中的底层存取操作, 并可以进行有效的存储监控、调度、作业、备份和迁移等管理。

应用层:为所有用户的应用提供服务。包括资源的采集、组织、管理;资源发布与服务所需的存储。用户可以通过存取入口、经过网络授权认证, 向下层发出存取要求。

4 结束语

将网格技术应用于数字图书馆, 不仅能够有效降低成本、提高效率, 而且能够对分布广泛的图书资源加以整合, 消除资源孤岛, 实现资源共享, 代表了数字图书馆资源存储的发展方向。为了更充分地发挥网格存储的优势, 今后需要进一步研究其安全性、容错性及知识产权保护等问题。

参考文献

[1]黄河清, 宋晓华, 曹元大.网格存储中的自适应负载平衡策略[J].北京理工大学学报, 2007 (4) .

[2]董晓莉, 张建刚.虚拟存储技术在未来数字图书馆中的应用[J].现代图书情报技术, 2006 (8) .

[3]王达.网管员必读——服务器与数据存储[M].北京:电子工业出版社, 2005.

[4]张炳武.存储网格成熟进行时[J].中国计算机用户, 2006 (5) .

数字化图书馆存储技术 篇8

关键词:数字化图书馆,数据安全存储,RAID

广泛应用的计算机技术,为图书馆的进一步发展制定了方向,传统图书馆逐步迈向数字化。数字化的兴起让图书馆的信息存储方式发生了巨大的变化。作为数字化的基石———数据,其天生的脆弱性将数字化图书馆推上了一个危险重重的境地,任何一个小小的失误都可能会给数字化图书馆带来巨大的损失,弥补这些损失往往需要耗费巨大的人力、物力和财力。如何应对由于“数字化”给图书馆带来的种种威胁,是我们不得不面对的一个重要课题。

一、数据重要性体现方式

重要性被定义为“被认为有很大价值和影响的性质”。数据作为信息化技术中的一种特殊的资源,其本身拥有一定的价值,数据的创建需要耗费一定的劳动,数据的有效利用可以提高劳动效率、降低劳动强度、节约劳动资源,同时数据的缺失和损坏会对正常的工作带来一定的负面影响。在具体环境中,对同一数据的重要性判断因人而异。针对数字图书馆中的各种数据,我们如何判断其重要性,可从两个方面来探讨。

1.数据重建所需代价。

一旦数据损坏,数据恢复或者重建则需要在极短的时间内完成,在此期间却往往需要耗费巨大的劳动,并涉及人力、物力、财力的耗费,另外还要决定于配套资源的充足程度。仅有很少部分数据可以通过重建来获得,如各种利用其他数据整理生成的报表。如数据库系统之类的特殊数据,若损坏之前未曾使用其他手段进行过冗余措施,则大多情况下,数据并不能完整重建或根本无法重建。

2.数据故障潜在损失。

由于数据无法有效利用,而产生的业务停滞带来的损失和与之关联的损失,被称之为数据故障的潜在损失。此类损失在非盈利性的活动中表现不明显,但在如以时间为计量单位的盈利性的活动,如有偿使用的电子阅览室系统中表现尤为明显,业务开展的时间对应于一定的数目金额的消费,同样业务停滞的时间长短对应于一定数目金额的消费的损失。随着业务停滞时间的积累,潜在损失的数额按照一定的比例积累。潜在损失往往远远大于直接损失,通常并没有一个具体的衡量的方法或模式,常常被描述为“无法估计”。

二、数据重要性分类

数据重要性由人的主观因素决定,这里我们主要以数据重建所需的代价和个人主观因素来对数据的重要性分类论述。因此,我们可以对数字图书馆拥有的大量的各种各样的数据,按照这些数据一旦出现破坏、缺失后对图书馆可能产生的负面作用的程度进行区分,可将这些数据的重要程度按照由高到低可分为核心数据、重要数据、普通数据、非重要数据等四个不同的等级。

1.核心数据。

核心数据是图书馆中的最重要的数据,一般经过许多年的沉淀和积累,而且数据处于不断变化之中,数据不允许丝毫的破坏和缺失,部分的缺失和破坏将对图书馆带来极大的损失。数据重建极其困难,或数据根本无法完全重建;若要重建数据,则必定丢失部分数据,丢失的部分数据会对未来的业务和管理带来混乱。其混乱的持续时间,往往要延续数年才可随着数据的部分失效而消除。常见于中心数据库数据以及某些处于频繁变化中的数据。

2.重要数据。

重要数据出现破坏和缺失后,其对图书馆的破坏程度虽然不如核心数据带来的负面作用那样严重,但仍会对图书馆正常的业务带来种种不便。一般此类数据可以完整重建,但仍需耗费大量的人力、物力和财力。其产生的负面作用,通常需要持续一段时间,并随着数据重建完成而消除。如某些经常需要查阅的统计报表。

3.普通数据。

普通数据出现破坏和缺失后,对于个人来说可能有非常大的负面影响,但对图书馆业务活动影响微弱。是否需要重建由个人决定,通常不会对图书馆业务本身产生很大的影响。如某些私人起草的文档、私人创建的各种数据等。

4.非重要数据。

非重要数据出现破坏和缺失后,对于图书馆业务或者个人来说,有一定的不便,但并不会产生深远的影响。数据重建或者恢复容易。负面影响作用持续的时间不长,或者无任何负面作用。如从网络上下载的各种数据,已有可恢复备份的各种数据,个人创建的不重要的各种数据。

三、数据重要性转换

有些数据随着时间的推移、环境的变化、备份工作的完成或缺失,其重要程度也随之变化。而备份数据的丢失或被删除,同样提高了其重要程度。在数字图书馆中,对于某些数据即使无论如何频繁地备份,也无法降低其重要等级。如处于动态变化之中的数据库系统中的数据,自从开始备份之时备份数据已经失效。备份的作用仅仅使其减少可能出现灾难情况下的损失程度。灾难发生后,无论花费多大的代价,数据依然无法通过备份完全恢复。这些数据通常被归为“核心数据”。

若要降低核心数据安全级别必须通过其他“非常规手段”实现,如采用RAID功能实现存储介质容错,确保单个磁盘介质的灾难性故障并不破坏数据。另外,对每一个人工操作步骤都有相应的其他介质的记录,每一个操作都可在通过其他途径有据(包括纸质原始数据)可查,倘若出现故障后,最终可将其完整恢复,但是仍然需要花费大量的人力、物力和财力。

若要降低重要数据、普通数据的安全级别,仅仅通过一次有效的备份即可完成。进行一次备份之后,倘若原始数据一旦出现灾难性故障,即可通过简单的恢复步骤利用备份的数据将其恢复。原理和操作简单易懂,在此不再赘述。

四、常见数据安全方式

1.采用RAID技术。

磁盘故障导致的数据缺失是数字图书馆中最为常见的数据损坏的原因。由于技术的进步,磁盘的质量、性能的提升、寿命的提高,容易让使用者或者计算机的管理者太过于相信硬盘的质量和太过于依赖于安全软件对计算机的保护作用。个人办公用机由于成本等因素,通常配备一块硬盘,当这唯一的硬盘出现故障时,才发现计算机硬件上并没有容错功能,或者发现硬盘上的数据并没有备份过。

RAID是一种由多块硬盘构成的冗余阵列,在操作系统下是作为一个独立的存储设备出现。RAID技术分为几种不同的等级,分别可以提供不同的速度、性能、容量、安全性和性价比。常用的RAID级别有以下几种:NRAID, JBOD, RAID0, RAID1, RAID0+1, RAID3, RAID5等。在数据安全性要求比较高的情况下,经常使用的是RAID5、RAID1,这两种RAID技术提供了良好的容错能力,在出现一块硬盘故障的情况下仍可以继续工作,不会受到损坏硬盘介质的影响。在同时需要大容量独立磁盘空间,又要求较高数据安全的情况下,可以考虑采用RAID5技术。在数据体积较小(小于一个独立磁盘容量),但对数据安全性要求较高的情况下,通常采用RAID1技术。RAID1的原理就是将一块硬盘的数据以相同位置写向另一块硬盘,它的宗旨是最大限度地保证用户数据的可用性和可修复性,在所有RAID技术中,其提供的数据安全性最高。

2.程序化自动备份。

用户的误操作,也是数据缺失和损坏的一个重要的原因。由于用户对系统或软件操作不熟悉,违反操作流程进行操作而导致数据的缺失、被覆盖、误删除等。对于用户的误操作,通常被计算机系统认为是用户的合法指令,然而计算机系统将其执行之后却得到了用户非预期的结果,导致数据缺失和损坏。

为了防止用户误操作带来的损失,可由人工或软件实现。从实现的原理上看,在用户数据损坏之前已经有一份完好的数据备份,数据损坏之后,通过一定的操作恢复数据即可。常见于用户将重要数据人为地在其他物理位置保存一个副本。此类操作简单易懂,但坚持执行起来比较困难,用户时常会忘记保存副本,一旦需要恢复数据才后悔莫及。使用专业的软件可以代替人工定时地完成备份工作,可以避免由于人的因素导致忘记备份的问题。在实际的备份应用中,尽可能使用专业的备份软件,同时减少人工的直接参与。

另外,在只有一块硬盘的计算机上,没有经验的用户仍然将数据副本保存在同一个硬盘的不同分区之上,硬盘发生故障,原数据和副本一起损坏。如此备份并未真正起到应有的作用。有效的备份方式是将数据副本放在不同的物理位置,如原数据与副本数据分别存储在不同的存储位置(网络存储),或不同的存储介质(U盘、光盘、移动硬盘等)之上。往往需要根据具体的环境状况分析和规划。

数据是数字化图书馆的基石,数据的安全直接威胁到数字化图书馆能否正常运作。在大量的数据面前,通过一定的条件对这些数据进行重要性级别区分,并分别采取相应的安全措施,力求在出现灾难性故障或数据损坏的情况时,以最少的工作和最少的时间将数据恢复到可用状态,以确保数字化图书馆各项工作的高效运行、优质服务。

参考文献

[1]柳鹏, 何潇锐.备份技术研究[J].中国科技信息, 2011 (8) .

[2]林林.RAID和存储技术在档案信息化建设中的选择[J].兰台世界, 2011 (8) .

数字图书馆数据存储系统性能优化 篇9

关键词:数字图书馆,存储系统缓存,Key value

0 引言

现代化高校的数字图书馆改变传统的纸质媒体的信息查看和传播方式而借助于网络信息技术, 传播各种以数字多媒体为存储单位的知识、文献信息, 电子文献资源、教师课件、课程视频等。数字图书馆是用数字技术处理和存储各种图文并茂文献的图书馆, 实质上是一基于种多媒体的信息分享系统。通过数字图书馆所提供的搜索功能, 提高了读者检索资源的效率;同时, 通过数字图书馆提供的web端、移动端等相关应用平台极大的提高了读者的访问便利度。数字图书馆需要大量的磁、光、电等新型存储媒介来存储文本、图像、声音、动画、影视作品等文献信息资源的数字化信息[1]。海量数据信息的存储和管理是数字图书馆的显著特征之一。数字图书馆数据信息资源的种类、数量、性质及其使用方式等均对读者访问的性能、资源的传输速度、可靠性等方面起着决定性的作用。数字图书馆具有系统用户数量庞大, 并发存取海量数据及业务类型多的特点。

数字图书馆的数据信息种类繁多, 形式复杂多样, 数据的重要性程度不一, 数据访问方式各异, 因而不同的数据类型则对读写性能等方面有不同的要求[1]。大文件的顺序读写, 如视频数据等多媒体资源, 读写数据量很大, 要求数据存储吞吐量性能高。小文件随机读, 如数字期刊、数字图书等, 资源访问频率很高, 下载流量也比较大, 对存储系统的IOPS要求很高。因此如何在复杂的数据环境中提升存储系统的I/O性能以满足数字图书馆各种数据访问的要求是一个急需要解决的问题。

因此, 针对上述问题本文提出一种适用于数字图书馆应用环境的存储系统性能优化方法KVCache, 其基本原理为将最近访问的文件保持在由高速非易失性存储介质组成的缓存层中, 下次访问相同的文件数据时则不需要再访问低速的磁盘, 直接从缓存层中得到, 以获得较高的I/O性能。该优化方法的特点主要包含以下方面:

1) 采用非易失性高速存储设备, 例如SSD, 作为存储系统的缓存层存储介质, 充分保障数据在各种应用环境下的性能[8]。

2) 采用Key-Value技术实现了缓存的持久化存储, 提升了存储系统的访问性能。

3) 利用多级存储下的两段更新事务原子性管理, 在提升存储系统I/O性能的前提下, 保证多级存储数据一致性和可靠性。

1相关研究

目前缓存对于缓存的研究主要集中在通用块层。

Flash Cache是Linux内核中的一种磁盘缓存实现模块, 于2010年由Facebook公司开发, Flash Cache的具体实现, 将请求IO以一定的哈希映射关系同时映射到闪存设备和磁盘设备中。并在读写路径中, 先请求闪存设备, 再请求磁盘设备, 从而实现了使用闪存设备对传统磁盘进行缓存的设计。磁盘与闪存之间的映射, Flash Cache使用了对磁盘以及闪存逻辑上进行条带化, 哈希映射的方式完成[5]。

BCache作为同样实现在Linux内核中的一种磁盘缓存实现, 其则是基于通用块层实现的, 与Flash Cache不同, 其实现与IO调度层之上, 可以使用更少的设备来缓存整个存储子系统的数据。同时, 由于其实现于通用块层, BCache可以有效利用闪存设备对随机IO读写的优异性能, 将随机IO组合为顺序IO再写入传统磁盘中, 大大增加了磁盘的读写能力。

块存储方案用于实现持久化缓存, 可以将缓存模型简化, 也是传统缓存模型常用的解决方案。使用块存储接口调用持久化缓存设备, 可以将设备直接与内存中的缓存块相映射, 从而快速索引持久化设备中的缓存数据。然而此方式的缺点是, 由于块存储方案存储流程非常简单, 通过对内核的系统调用实现数据的存取, 如果在写入过程中阻塞等待内核块接口的完成回调则损失了缓存性能, 而如果不阻塞等待则无法达到第一阶段写事务的原子性和可靠性要求[2]。

而基于Key-Value的方式则很好地解决了块存储方案的缺点。Key-Value的方式可以很好地完成内存与磁盘设备的映射过程, 因而逻辑视图上对于持久化缓存项和内存缓存项的映射规则简单, 模型类似块存储缓存方案;而对于更新操作的一致性和可靠性以及性能特点, 又可以超越块存储缓存方案。

2 KVCache的实现

KVCache的实现主要包括:key-Value原子更新策略、缓存数据分布与置换策略。

当更新I/O请求到达时, 需要将I/O请求通过分割成多个细颗粒度的对象请求, 并且为每个对象请求将创建一个更新事务, 如图1所示。

第一阶段的写事务将对象请求更新提交到保存在内存中的缓存目录, 并同时提交到内存缓存。完成对内存缓存的更新后, 又将根据更新的缓存目录, 将缓存写入到持久化缓存设备中。

第二阶段的写事物则是待Flush线程达到某个预设值时, 将本地缓存写回到后端存储设备中。为了保证第二阶段写事务的可靠性和一致性, 需要在第一阶段写事务完成后, 以日志形式将该事务记录在持久化缓存中, 并在第二阶段写事务完成后将该日志删除。

2.1 key-Value原子更新

KVCache中使用Level DB作为持久化缓存接口, 将对象缓存数据合并成可以并行读写, 快速索引的磁盘数据因而本文选择使用键值对存储方案Level DB来完成系统对数据的持久化缓存[4]。

Level DB是一个开源的键值对存储方案, 其使用LSM树对数据进行存储, 并利用内存暂存区设计优化了写性能, 通过将内存中数据和持久化后数据进行多级存储, 简化了索引对内存产生的开销。同时, 由于Level DB本身的键值对语义与内存缓存使用的map语义十分契合, 减少了存储接口转换带来的开销。

图2为KVCache对于更新请求结合Level DB所进行的数据流图。为了提高数据写入性能, Level DB对缓存持久化的操作其实是一个异步事务。也就是图中看到当写操作写入Level DB的memtable中后, 并不是立刻会被写入Level DB SSTable。Level DB会将多个更新操作进行合并和等待到某预设值到达, 才将数据写入imm_memtable, 并分级存储到SSTable中。但是由于Level DB本身的事务原子性管理, 系统可以完全假设当数据写入Level DB的memtable时, 即完成了对持久化缓存的写入事务, 因而系统可以向系统提交缓存更新成功响应。

本文设计了缓存目录, 用于记录与管理所有的缓存数据。缓存目录只用于记录缓存的最新版本号, 本地版本号, 后端版本号以及所在位置。缓存目录主要结构如表1所示。

通过版本号记录更新事务的状态以及是否可提供读操作。写请求映射到缓存目录后, 最新缓存版本号 (version) 首先被更新, 从而表明该缓存有更新的数据将存入, 而其余本地版本号 (lversion) 以及后端版本号 (bversion) 不同则标记了该写事务并未完成, 如图3所示。由于KVCache基于内存缓存与持久化缓存进行两级缓存, 所以当写事务已成功提交给内存缓存与持久化缓存时, 第一阶段写事务已完成。对于后端的写提交为一个新的写事务, 通过异步写操作执行。当提交给后端的写操作完成后, 缓存目录的后端版本号更新至提交该操作时的最新缓存版本号。缓存更新事件在任一状态时失败, 则可以通过缓存目录有效回滚回上一个状态点, 且重新执行该写事务, 保证了更新事务的原子性。

2.2 数据分布与置换策略

由于缓存设备的空间有限, 且内存存储空间远小于持久化设备的缓存空间, 当缓存空间不足时的换出策略则变成多级缓存的另一个重要问题。KVCache中内存缓存与持久化缓存之间采用直写策略。持久化缓存到后端采用写回策略。

KVCache使用LRU (Latest Recent Update) 替换算法来完成在缓存空间不足时的剔除管理。

由于目录缓存记录了所有在缓存中的数据, 因而系统在对象缓存数据被内存缓存LRU换出后, 并不需要因此对缓存目录进行修改;而当持久化缓存设备空间不足时, 系统则需要修改缓存目录。

KVCache通过LRU类来记录存储在内存缓存中的所有对象缓存项指针以及保存在缓存目录中的所有指针。LRU类以被更新时间作为视图, 记录被定义为LRU对象的指针列表。通过该方式, 只需要在每次更新内存缓存与更新缓存目录时, 通过将LRU指针列表中该项提到列表顶部, 则在空间不足时, 只需要将LRU对象底部指针指向的数据在缓存中删除则完成了系统的缓存替换算法。

2.3 实验与评估

实验环境基于SAN的架构, 存储设备中采用8GB的内存, 使用40GB的SSD作为KVCache的持久化缓存[3,6,7]。SAN与应用服务器采用1Gb以太网进行互联。测试模拟在数字图书馆的应用环境下的流媒体文件的顺序读写和小文件的随机读写为主的数据访问方式。

读写性能对比测试见图4。

实验结果表明, 在使用了KVCache的存储系统中, 所有压力测试节点的顺序读带宽总和为111MB/s, 顺序写带宽为113MB/s, 基本接近千兆网卡传输上限。

小文件的随机读写模拟测试通过二组数据完成: (a) 没有加入缓存系统随机读写测试。 (b) 使用300G空间进行持久化缓存随机读写测试。 (c) 使用16G内存空间进行缓存随机读写测试。

图5为模拟随机小文件写性能测试结果。横坐标为不同的客户节点, 纵坐标为每一个VM使用IOSTAT获取到的IOPS。通过对于总的IOPS计算发现, 内存缓存与SSD缓存得到了几乎相同的IOPS数。由于使用内存作为缓存的过程中, 系统内存空间上限为16G, 所以仅使用10G内存空间作为缓存。而系统的持久化缓存策略与内存缓存策略均使用写回方式, 因而内存缓存和持久化缓存获得了几乎相同的每秒吞吐量。同时可以看出由于KVCache使用了高速SSD进行缓存, I/O请求在一定范围内均在SSD中命中, 因而全面提升随机I/O的性能, 可以看到其拥有几乎仅使用HDD作为后端9倍的吞吐量。

如图6模拟随机小文件读性能上, KVCache使用SSD作为持久化缓存后的性能优势更明显。实验结果可见, 由于KVCache使用SSD作为缓存, 并且采用Keyvalue的方式进行缓存数据的更新, 使得其随机读总带宽达到26.11MB/s, 其读写性能基本上达到了内存读的性能。

3 结论

针对高校数字图书馆的多样化数据访问的应用环境, 提出了适用于数字图书馆应用环境的存储系统性能优化方法KVCache, 包括key-Value原子更新策略和数据分布与置换策略等内容。KVCache利用SSD闪存设备和key-Value技术实现缓存数据的缓存持久化存储, 并且利用多级存储下的两段更新事务原子性管理, 保证多级存储数据一致性和可靠性。

通过模拟实验表明KVCache有效的增加了存储系统中的数据在顺序读写、随机读写下的性能, 并且使其随机读写性能接近本地内存读写性能。

参考文献

[1]黎春兰, 邓仲华.信息资源视角下云计算面临的挑战[J].图书与情报, 2011 (3) :23-28.

[2]Fred Douglis and John K.Ousterhout.Beating the I/O bottleneck:A case for logstructured files systems.Technical Report UCB/CSD 88/467, University of California, Berkeley, October 1988.

[3]Howard Gobioff, Garth Gibson, and Doug Tygar.Security for network attached storage devices.Technical Report TR CMU-CS-97-185, Carniege Mellon, October 1997.

[4]Level DB.leveldb:A fast and lightweight key/value database library by Google.

[5]Alex Robson.Consistent Hashing.http://sharplearningcurve.com/blog/2010/09/27/consistenthashing/, September 2010.

[6]T.Clark.Designing Storage Area Networks:A Practical Reference for Implementing Fibre Channel and IP SANS (Second Edition) .Addison-Wesley Networking Basics Series, 2003.

数字化图书馆存储技术 篇10

众所周知, 图书馆拥有大量的数字资源, 这就对图书馆的存储系统提出了较为严苛的要求。当以数字资源的来源对图书馆的资源进行分类分析时, 可以发现图书馆的数字资源主要集中在直接购买电子资源和将传统资源进行数字化两个方面。考虑到将图书馆的传统资源进行数字化时, 主要针对的是图书馆内比较具有特色的资源, 因此数据量不会很大。但是电子资源供应商提供的资源因为种类丰富、内容全面, 也因此导致了如何将图书馆电子资源进行有效存储的问题。

目前, 图书馆的资源很大一部分已经得到数字化了, 并且依旧沿用传统的镜像方式安装在图书馆之中。因为这部分的数字资源非常巨大, 这就对图书馆的存储设备提出了硬性要求。但是考虑到在中小型图书馆, 特别是高校图书馆, 因为其存在的主要目的是为高校师生提供优质的资源服务, 而不是进行数字资源的存储。同时, 考虑到很多电子资源供应商在向图书馆提供数字资源的同时, 还提供后台的维护工作。所以, 很多高校图书馆已经改变了利用镜像数据进行数据存储的方式, 转而控制读者的访问权限。在这种情况下, 图书馆对数字资源进行有效存储的需求已经明显降低。再加上图书馆对电子资源进行检索的方式并没有得到进一步的突破, 以及读者自身接受程度的问题等等, 也进一步限制了改变图书馆存储模式的进度。

二、云存储在图书馆数字化应用中的优缺点

(一) 分散存储, 集中管理, 但成本较高

云存储就是依靠底层的存储设备存储数字资源, 并通过管理软件对外提供数据存储业务以及客户访问服务的一种技术手段。将图书馆的数字数据进行云存储, 就是把分散在各处的零零散散的存储设备进行归纳整合, 使其在统一的资源平台上进行协同合作、统一管理。按照云存储服务提供方式的不同, 主要分为私有云和公有云。对于私有云, 即图书馆自己规划布置的云存储服务, 由于需要图书馆自己购置相应的管理软件以及存储设备, 并且还需要对图书馆内现有的存储设备进行归纳整理。因此, 这项工作不仅工作量大, 技术难度高, 而且成本也很高。而对于公有云, 这是一种得到广泛认可的由服务商SSP提供的存储模式。由于这种存储模式将图书馆的一部分服务外包给了服务商, 因此也就减轻了图书馆的工作量。但是, 在享受服务商提供的便捷的云存储服务时, 图书馆也不得不承受一笔高昂的费用开支。单单就数字资源存储的成本而论, 云存储与传统存储相比并不具备明显的优势。

(二) 易于数据备份, 但过分依赖网络环境

云存储技术的应用, 使得图书馆数字资源的备份和迁移更加方便, 这是传统存储技术所不能比拟的。但是, 云存储技术的这些优点是在比较顺畅的网络环境下才实现的。考虑到我国广域网目前的状态:速度低、费用高、安全性低等, 这就严重制约了云存储在图书馆数字化中的应用, 数据的备份和迁移也因此变得难上加难。如果在局域网内, 当主干网速降低到1G时, 云存储的优势甚至完全消失, 数据备份和迁移的工作已经明显不如传统存储技术简单直接。因此, 要想充分发挥云存储在图书馆数字化中的作用, 就必须改善我国的网络环境, 完成降费提速的指标。

(三) 数据共享, 减少冗余

图书馆在进行数字资源服务时, 一直将数据共享作为自己所追求的目标。但是因为版权限制、资料保密等问题, 实现真正意义上的数据共享并不是一件简单的事情。但是云存储通过整合不同图书馆中的资源, 降低了冗余度, 使得信息的访问者不必考虑信息的具体存储位置, 直接通过统一的智能信息平台来获取自己所需要的信息。这就在很大程度上提高了图书馆内数据资源的共享程度, 使得信息资源的共享范围更大更广。但是这一过程还需要各级图书馆抛开个人的利益成本, 抱着互通有无的心态积极配合。否则, 云存储服务商也很难对不同图书馆内的资源进行整合, 完成信息共享平台的建设。

三、总结

目前, 云存储已经成为了图书馆数据存储的主要发展趋势。但是就我国目前的状况而言, 云存储还存在着诸多弊端, 如网络环境的不给力, 云存储服务成本的居高不下以及数据的隐私保护和安全问题等。这些问题导致云存储技术在中小型图书馆中无法得到广泛普及。因此, 图书馆在进行数字化的同时, 还应该根据自身的情况以及网络环境等因素, 从长远角度按需规划, 避免人云亦云, 任由商家摆布。

摘要:随着国内对数字化资源需求的增大, 图书馆已经把馆内资源数字化作为自己进一步发展的重要内容。随着资源数字化战略的提出, 传统的资源存储方式已经不能满足数字资源的海量存储问题。为解决数字资源存储问题而提出的云存储方式, 虽然因为其具备整合现有资源、实现信息共享等优点, 但是也因为诸多问题限制了云存储在图书馆数字化中的广泛应用。因此, 本文通过介绍图书馆现有的存储模式, 详细分析云存储在图书馆数字化中的可行性。

关键词:云存储,图书馆,数字资源,数据存储

参考文献

[1]马晓亭, 陈臣.数字图书馆云存储应用系统研究与实现[J].图书馆理论与实践, 2012 (05) :8-13.

[2]李爱勤, 鲍凌云, 冯晓娜等.数字图书馆资源云存储模型研究[J].现代情报, 2012, 32 (02) :48-50.

[3]袁艳.云存储在中小型图书馆应用模式分析[J].图书馆工作与研究, 2014 (11) :39-42.

数字化图书馆存储技术 篇11

1 基于网格的数字图书馆结构

网格环境下的数字图书馆要为用户屏蔽不同格式的资源之间的差异, 提供标准数据访问接口, 对于网格内的可用资源进行整合, 建立统一的、逻辑的资源统一视图, 使用户访问异地的数据资源如同访问本地数据库。同时将数据资源按本地模型的语义化描述, 对网格内的信息资源进行语义注册, 通过浏览服务, 为用户提供基于语义的信息查询[2]。其结构如图1所示。通过Web服务、网络代理, 采用可靠的信息安全控制机制, 建立有效的元数据目录服务, 提高资源检索与利用效率。在动态变化的网格资源环境下, 提供元数据目录的生成、更新、存储与服务。保证资源的合法有序利用。

2 数字图书馆网格存储模型设计

针对数字图书馆的服务需求, 在基于网格存储的数字图书馆系统设计中要有三个原则:2.1统一逻辑视图, 解决数据存储的多样性和零散性。2.2物理硬件规划分配, 根据数据特性将其存储于是最佳的位置。2.3基于网格存储的数字图书馆能顺应软、硬件技术的发展, 稳步升级, 使其长期提供高鲁棒性的服务。

如图2所示, 该模型自右向左分为三个层。物理层及规范为网格存储服务提供基本的网络环境、物理存储资源和逻辑存储资源。目前在数字图书馆中普遍使用的存储技术大致有以下几种:嵌式存储系统ES (Embedded Storage) ;直接连接存储系统DAS (Direct Attached Storage) ;联网存储系统NAS (Network Attached Storage) ;存储区域网络SAN (Storage Area Network) ;互联网小型计算机系统接口ISCSI (Internet Small Computer System Interface) 磁盘冗余阵列RAID (Redundant Array of Independent Disks) 光纤通道FC (Fiber Channel) 。

网格虚拟存储层是网格存储模型的核心。该层通过全局命名服务和存储资源代理将最上层的用户存储请求映射为异构分布存储环境中的底层存储操作, 并能够提供有效存储监控、调度、存储作业管理、副本管理、目录存储管理、文件管理、数据库管理和存储迁移管理。主流的网格存储标准有DMTF (Distributed Management Task Force) 、GGF (Global Grid Forum) 、SNIA (Storage Networking Industry Association) 、CIM (Common Information Model) Web服务和SMI-S (Storage Management Initiative Specification) [3]。数字图书馆可以采用SMI-S来管理异构的、与位置无关的存储服务。这里还要说明一下用于异地灾害数据备份与服务备份需要建立一个灾害备份中心。这个灾害备份中心既需要进行数据安全备份, 提高系统的使用效率。

FTP或Grid FTP提供安全的数据通信能力连接, 确保物理层通过该联接向网格虚拟存储层提供存储资源和逻辑存储资源。在该模型中, 用户通过网格应用代理获取网格虚拟存储层通过语义转换、整合调度后的内容, 应用层为用户提供了数字图书馆的各类存储应用界面, 从而实现应用的需要。

3 基于数网格存储模型的数字图书馆服务策略

数字图书馆系统的用户层存储的需要可分为数据库服务和文件服务两大类, 具体服务如下:

3.1 Web服务:

用户通过Web服务完成数字图书馆资源采集、组织、管理所需的存储服务。经网格存储入口授权认证后向下层发出存取请求。向用户直接提供索引服务及检索服务。

3.2元数据访问服务:

用户通常是通过提供数据的需求描述信息进行间接的数据访问。这些描述信息是利用有定格式和语义的元数据来表示。组织因特网信息资源并促进因特网资源的发现是元数据的基本功能。所有元数据构成个元数据目录, 目录中的记录对应着数据网格中的一个文件的各种关键描述信息。通过元数据访问服务器实施和管理。该服务把用户对数据的描述性信息汇集并生成条元数据, 然后在元数据目录中查询与之相符的记录, 最后把该记录对应的文件返回用户。

3.3目录服务:目录服务实质就是一个存储了用于访问、管理或配置网络资源信息的特殊数据库, 以树型结构分层存储, 利用有向无环图管理技术、网格监测系统等技术, 提供统一的用户与网格计算环境出入口。通常使用单映像文件系统将地理上分散的异构资源知识等映像成一个单入口的虚拟机器。用虚拟目录服务技术组织计算网格资源。

3.4 复制服务:

复制管理服务就是对映射关系进行管理。复制管理记录着逻辑文件名 (文件在数据网格中的唯一标志) 与物理文件名的所有映射关系, 同时通过相应的API函数动态且自动地对复制目录进行新建、删除、修改以及查询等操作。随着用户行为、存取模式的改变而相应改变其复制策略, 且能够自动地创建和删除文件副本。复制服务降低网络延迟及带宽消耗, 提高网络的负载平衡、数据安全性和可靠性。3.5检索服务:用户将要检索的内容按要求转换为网格的合法语义, 然后检索本地同/异构网格元数据目录库, 如果检到则输出元数据目录, 否则到异地网格中检索, 对于异构数据库统一检索要构建一个数据库信息中心, 网格对于每个数据库都有特定的网格服务 (Grid Service) 和检测查询服务 (MDS) , 将元数据采集后注册到数据库元数据目录中, 并提供查询接口实现元数据管理查询功能。

4构建网格环境下数字图书馆关键性问题

网格技术在数字图书馆建设中的应用是信息业界和数字图书馆领域一个重要革新。以虚拟现实的信息表现形式为提供跨平台联合检索服务集海量存储、多媒体的信息资源处理于一体的个性化服务机构。构建网格化数字图书馆系统的实践中面临着不小的挑战。本文对基于网格的数字图书馆建设实践提出关键性问题。具体如下:

4.1“同一”问题。

要把数字图书馆的标准和网格标准更好地结合起来, 建立基于网格技术的文献信息表示标准、文献信息交换标准, 科技文献信息组织、信息整合、信息关联及信息存储的规范技术。将原有的系统应用标准化并平移到新的系统之中将, 以最少的重新编写应用代码量实现新旧系统同一, 从而使数字图书馆在网格环境下发挥更好的作用。

4.2 安全问题。

安全问题是构建网格数字图书馆的重要问题也是最大难题, 主要体现在以下三个方面:

4.2.1保证数据的完整性与安全共享性;

4.2.2防御数据化信息被干扰、滥用、丢失、窃取、篡改、冒用和破坏;

4.2.3合理保护好版权、著作权。因此, 要借助于对网格环境下各种安全的分析与思考, 建立建全法律、道德规范, 重新界定合理使用的范围。加强监控和审计, 授权与认证结合, 使数字图书馆在网格环境下有一个良好的运行机制。

4.3 发展问题。

数字图书馆的建设必须适应网格的发展需要、具有前瞻性。在信息高度综合和集成的环境下, 应合理的配置和相互的协调各数字图书馆的资源, 避免重复建设造成巨大的浪费。通过网格实现多层次协同服务的、个性化交互模式的分布系统。使数字图书馆服务能够不断地进步发展。

4.4 技术问题。

构建网格系统平台, 不仅要研究网格的标准规范和关键技术, 还要开发网格操作系统和网格管理软件。数字图书馆要求结构化数据存储 (关系型DBMS中的数据) 、半结构化数据 (XML文档或普通文件) 以及非结构化的数据或内容 (如文本、图形等) 。软件重用技术能显著地提高软件的开发效率、增强软件的可维护性和鲁棒性, 从而达到延续软件的生命周期、降低开发成本和缩短开发周期的效果。软件的生产也可在设计好框架后将标准的构件组装而成。一般认为构件是具有一定功能、能够独立工作或同其他构件组合起来协调上作的程序体, 可以认为是一段二进制码和数据段。构件其内部具体实现是无法看到的, 一经产生, 就与它的具体实现语言无关, 可将成熟的构件当作商品出售, 在保证开发者利益的同时最大地满足社会需求。

4.5 Web服务的服务质量问题。

服务质量 (quality of ser-vice, Qo S) 体现了消费者对服务者所提供服务的满意程度, 是对服务者服务水平的一种度量和评价[4]。数字图书馆作为信息服务的提供者, 同样存在服务质量优劣的问题。随着Web服务的广泛扩展, 服务质量将变成一个判定服务提供者是否成功的重要因素, 决定服务的可用性和实用性及服务的普及。基于网格的数字图书馆要求在因特网上无缝集成业务流程、应用程序和Web服务。网络资源争用、通信模式的变化、拒绝服务攻击、基础构造失效的影响、Web协议的低性能以及Web上的安全性问题, 这些因素产生了对因特网Qo S标准的需求。未解决的Qo S问题会导致重要的事务性应用程序遭受无法接受的性能下降。随着SOAP、UDDI和WSDL之类的标准被所有主要的Web服务从事者采用, 大多数Web服务将需要建立并遵守标准, QoS将变成这些服务的重要关注点。

5 总结

基于网格的数字图书馆为图书馆知识管理提供管理、数据处理、索引与检索、服务等应用平台, 其广域的、高性能的计算环境有利于数字图书馆实现资源共享和知识挖掘。真正成为在线的知识源、跨语言全球性的知识库。

参考文献

[1]曲建峰, 杨宗英, 郑巧英.基于网格的数字图书馆服务模式探讨[J].现代图书情报技术, 2006 (2) .

[2]李明, 刘福明.基于网格环境的存储技术浅析[J].重庆工学院学报, 2006 (8) .

[3]韩毅.基于知识网格的区域数字图书馆建设框架[J].大学图书馆学报, 2003 (6) .

上一篇:文化差异对翻译的影响下一篇:定语从句关系代词