图书馆数据分析

2024-08-20

图书馆数据分析(共12篇)

图书馆数据分析 篇1

随着信息爆炸时代的到来, 海量数据的搜集成为可能, 越来越多的政府、企业逐步认识到数据已然成为组织最为重要的资产, 而数据分析能力成为了继创新之后的又一重要的核心竞争力。而随着统计学发展的不断深入, 数据分析在社会各个领域也逐步扮演着越来越重要的作用。作为管理学分支之一的图书馆管理无疑也将在未来成为数据分析应用的广阔平台。一方面, 图书馆工作的流程严密, 无论是图书购买、修补或是借阅, 都存在清晰的记录, 从而提供了可整理且可靠的数据, 为数据分析提供了良好的基础。另一方面, 数据分析的结论势必会为图书馆运营及管理提供相应的决策依据, 从而形成图书馆发展的良性循环路线。

1 图书馆数据特征

传统图书馆数据可按数据内容分为馆藏数据、读者数据、服务数据及后台数据。其中, 馆藏数据主要指馆藏书籍类型、数量、价值金额等;读者数据主要指读者类型、数量、到访频率及时长等;服务数据主要指各个专项服务数量, 包括文献流通次数、检索咨询次数、科技查新次数等;后台数据则主要指设备数、业务经费数、编目数、工作人员工作量等。通常, 传统图书馆统计数据产生于日常活动, 数据动态性明显, 反映了馆藏、馆员、读者等多角度的联系。如文献流通次数既反映读者对某种图书的需求量, 又反映工作人员的工作量, 还可反映馆藏利用率。由此可见, 如何通过分析方法真实反映图书馆数据的相关性和动态性, 才是统计工作的重点所在。

电子图书馆数据则呈现出同传统图书馆数据截然不同的数据类型及特征。随着信息技术的发展, 电子图书馆对于传统图书馆的发展形成了很大冲击, 同时, 电子书的阅读产生了较传统图书馆精确度与数据量更高的数据, 且获得方式更为容易, 这使得数据分析的成本进一步降低。如电脑可对图书借阅频次生成记录, 只需通过数据库语言导出相应数据, 进而利用相关分析软件进行分析即可, 过程方便快捷。由此, 借助于图书馆数字化发展, 对于图书馆行业数据分析和挖掘是非常具有可行性的。

2 图书馆数据分析方法

2.1 描述性统计分析

描述统计主要是对数据特点进行整理分析, 得出结论, 通常可利用列表、图示 (如条形图、扇形图、雷达图) 等形式对数据进行描述, 主要分析数据的集中趋势、离中趋势和相关关系。如对当前馆藏图书种类及数目进行统计, 了解其众数, 并可与历年馆藏数目相比较, 了解各类图书数目变动趋势, 结合扇形图和折线图分析, 以便准确把握图书资源的利用分配。再如针对图书馆读者满意度进行研究, 研究其与图书库馆藏数目翻新率、图书周转率、工作人员人数等变量间的相关关系, 以此有针对性地进行改善, 力求更好地为读者服务。

2.2 推断性统计分析

推断统计主要通过样本数据特征推断总体数据特征, 做出相关预测或是进行假设检验等。通常在大数据背景下, 还可利用数据挖掘法等方式进行知识挖掘、情报分析等。如对各类文献资源数据进行处理和分析, 透过表面信息深入到文献背后复杂关系中, 进而挖掘潜在规律, 从而展示给读者一个信息资源充满关联的立体知识体系, 再深入分析用户的潜在阅读需求, 提高对用户需求把握的准确性。再如应用数据挖掘、自学习技术, 实现自动化、智能化分析馆藏资源的增减变动方向和变化趋势, 深入分析, 帮助用户获取动态性和前沿性的情报信息, 并借助可视化技术获取其中的发展规律和趋势。还可借助数据仓储、数据挖掘及搜索引擎等方法, 深入挖掘大量馆藏内外的学术文献的使用规律, 为读者和图书馆运营提供发现服务。一方面, 分析馆员工作行为及读者搜索行为, 分析资源关联性和升值性, 探索图书馆服务的整体性, 提高信息搜索定位的快捷度和准确性。另一方面, 挖掘馆藏资源的立体关系, 建立情报分析体系, 实现资源互引的印证关系和趋势关系, 从而对于知识需求的挖掘提供相应的参考。此外, 运用可视化技术, 深入对比分析结构化的文献字段, 并对关键词、时间、作者、学术价值等基本指标形成的统计分析报告以图表方式展示, 在为科研人员了解学科热度、研究方向有重要意义。

3 图书馆数据分析困局

3.1 部分领导对统计工作不重视, 统计制度未能建立健全

通常在图书馆运营工作中, 并没有良好地组织相关的统计工作, 或是设置相关的职责部门。在图书馆的规章制度中, 通常也缺少对于统计数据的报告或者分析机制的相关规定, 平时往往忽视原始数据的登记或是原始凭证的搜集归类, 从而使得统计数据来源不够清晰, 统计数据不够准确甚至出现猜测数据的情况。作为统计分析的源头, 统计数据的缺失为统计工作的开展创造了很大的困难, 难以保证统计报表的准确性、科学性。部分领导则更多的只是将粗略了解的基本数据作为年终总结的依据, 甚至可能为了个人政绩的美化而修改数据致使数据失真。工作人员也未能重视日常统计工作, 主动统计意识较差, 也并未进行数据的相关性、动态性、综合性分析。

3.2 图书馆工作计量指标体系不完善, 缺乏反映图书馆工作全过程的一系列完整统一的量化指标

在图书馆统计工作中, 如果可以拟定以计划指标为基础且存在一定相关关系的可量化的指标体系, 从而对图书馆工作进行考量, 将为统计分析工作打下一个坚实的基础。

完整的量化指标可由名称、定义、核算范围、计算方法等方面构成, 借助不同量化指标间的不同关系, 可构建反应图书馆工作不同方面的指标体系, 如读者满意度指标体系、图书管理人员工作绩效指标体系、图书馆自动化建设指标体系、数字图书馆运营指标体系等。依据不同指标体系开展数据搜集工作, 并由专业分析人员对数据背后的潜在信息进行挖掘, 从而了解图书馆运营效果、提高运营效率以及为制定相关决策提供依据。

3.3 统计手段简单, 对统计分析重视程度不够

在图书馆现代化管理中, 对于统计功能的设置项目不够健全, 需要适当地借助手工数据统计。然而在统计手段只局限于简单的累计汇总的基础上, 缺乏合理的统计项目, 使统计工作只能处于初级阶段。相当数量的图书馆工作人员对于统计数据分析方法并不熟悉, 缺乏从数据中挖掘信息的意识。因此, 图书馆管理人员难以运用多种统计工具或是统计分析软件开展统计工作, 也难以从多个角度和层次综合性地对数据进行分析。

4 图书馆数据分析改进建议

4.1 加强图书馆管理人员的统计意识, 建立健全图书馆统计制度

一方面, 要从图书馆领导入手, 提高其对于统计工作的重视程度, 只有决策层意识到统计分析对于图书馆建设和运营的重要性, 才能充分发挥统计工作的作用。另一方面, 要从统计制度着手, 完善统计工作流程, 规范统计工作实施, 加强对统计台账和原始数据的保管, 重视统计数据准确性和统计报表的科学性。同时, 图书馆领导应对统计工作加强监督, 支持统计人员完成统计职责, 指导相关人员做好统计分析工作。

4.2 引入相关统计专业人才或是加强对相关人员的专业知识培训, 确保统计分析工作顺利展开

统计工作要求工作的连续性和科学性, 这对于统计分析人员提出了业务素质和工作能力的要求, 因此设立专门的统计分析部门, 配备专项性人才是非常必要的。只有对统计理论和统计方法有了综合性的把握, 才能从整体上对于统计数据进行多层次、多角度的分析。利用多种统计方法, 深入分析数据间的对应关系、逻辑关系、因果关系等, 而不是仅仅停留于简单的加总整理。透过数据分析图书馆运营效果, 结合统计图表, 预测未来发展趋势, 为图书馆运营提出良好的建议, 并通过分析报告的形式提交给管理者, 真正发挥统计在经营抉择中的作用。

4.3 构建统计指标体系, 善于运用现代化技术, 提高统计分析质量

构建完整的统计指标体系是进行统计分析的基础, 它不仅可以便于数据搜集整理, 也是为之后的数据分析创建分析框架。因此, 要从日常工作流程入手, 选择合适的量化指标, 充分反映图书馆运营的方方面面。此外, 对于统计数据的获取, 不应再局限于传统的手工统计, 而是要在图书馆的现代化管理系统的基础上, 提高统计效率。因此, 图书馆管理人员应掌握统计工作流程, 熟练运用统计分析软件, 善于运用现代化技术, 让“电脑”与“人脑”有机结合, 提高采访统计与统计分析的质量与速度。

摘要:通过对图书馆数据类型及统计分析方法进行分析, 对图书馆开展统计分析工作所面临的困境进行了阐述, 并提出相应的建议, 从而为提高图书馆的运营效率提出了新的思路。

关键词:数据分析,困难,建议

参考文献

[1]庞皓.计量经济学 (第三版) [M].北京:科学出版社, 2014.

[2]刘霞光.教育统计学产生和发展对统计学的贡献[J].内蒙古师范大学学报, 2008, 21 (9) .

[3]顾健.美国教育中心的大学图书馆统计[J].大学图书馆学报, 2008 (2) .

图书馆数据分析 篇2

基于Hadoop的图书馆大数据分析平台主要分为两层一大数据预处理层和主题模型构建层,自下往上每层都为上层提供服务.整体的架构设计如图1所示.

3.2图书馆大数据预处理方案的设计

图书馆大数据预处理层主要是利用Hadoop集群在存储和计算能力的优越性,并结合大数据预处理技术,来对学生图书馆活动及学业数据进行预处理?具体的设计方案流程如图2所示.

整个方案采用分层设计思想,底层是Hadoop分布式平台层.目前实验采用10台Linux操作系统的普通服务器机子,并分别在每台机器上安装JDK、SSH、Hadoop和Hbase,搭建Hadoop完全分布式运行环境.整个集群规划为:NameNode:10.22.102.46,DataNode1~DataNode9:10.22.102.47?10.22.102.55.HDFS是分布式计算的存储基础,主要用于存储学生图书馆利用行为和学业成效相关源数据氣其采用Master/Slave结构,集群包括1个NameNode和多个DataNodes,NameNode负责整个集群的任务调度分配,DataNode则是存储实际的数据?MapReduce过程是把从HDFS中待处理的学生图书馆利用行为和学业成效相关源数据集分解成M个小数据集进行并行Map操作,输出中间态键值对<众,value〉,然后根据众值进行Group操作,形成新的小数据组集<々,list(value)>,最后将这些小数据组集分割成R个集合,进行Reduce操作后存储到分布式数据库中.Hbase是个基于列存储的分布式数据库,数据行有3种基本类型:行关键字、时间戳和列,行关键字是数据表的唯一标示.海量的学生图书馆利用行为和学业成效相关数据通过MapReduce计算后,可以A:值作为行关键字进行分布式存储,实现海量数据的存储与管理功能.

在Hadoop层之上,则为相应的大数据预处理模块,可以透明地调用Hadoop底层的计算和存储能力,包括数据清理、变换、集成及归一化4个子模块.数据清理是删除那些不符合要求的记录.数据集成是将来自不同应用系统中的数据源合并到一起,形成一致的数据存储.数据转换是将学生学业相关数据和图书馆相关应用系统中的数据用一定的格式来表示,以方便后期做关联挖掘.归一化处理是把数据值控制在一定的范围内,保证程序运行时收敛加快.最终将处理好的数据通过接口或其他方式输出.

3.2图书馆服务对学生学业成效贡献的主题模型

构建思路

图书馆服务对学生学业成效贡献的主题建模主要是利用大数据挖掘算法对相关数据进行深入分析挖掘,精确发现数据之间的关联关系,构建相应的主题分析模型.具体的分析挖掘过程如下:首先选择合适的聚类算法将学生群体和图书馆服务资源数据按照一定的规则分割成不同的集合,分析不同集合表现出的特征;其次利用关联规则挖掘算法对主题分析的内容进行关联挖掘,分析各项数据之间存在的关系;最后采用决策树分类算法做一些预测性主题分析?

最终拟定图书馆服务与学生学业成效的主题模型主要从以下几个主题分析方向进行构建:

(1)各学院在某学年/学期学生整体学业成效情况分别与对图书馆利用行为(学院平均进出阅览室时长、借阅次数、数字资源利用)的相关性分析.

(2)各专业在某学年/学期不同班级间学业成效分布情况与对图书馆利用行为(班级平均进出阅览室时长、借阅次数、数字资源利用)的相关性分析.

(3)相同专业学业成效相差较大的个人与对图书馆利用行为(个人进出阅览室时长、借阅次数、数字资源利用)的相关性分析.

(4)图书馆不同的资源服务(纸质馆藏、阅览室利用、数字资源等)对学生学业成效贡献的比重进行分析.

此外,在上述主题分析中分别加入控制因素(性别、生源地以及高考成绩),分析它们与学生学业成效的相关性,建立相应的主题关联模型,达到指导服务决策与优化资源配置的目的,最终更好的为用户提供服务资源.

4结语

大数据时代图书馆的建设策略分析 篇3

关键词:大数据;图书馆;建设策略

中图分类号:G252 文献标识码:A文章编号:1006-8937(2014)20-0142-02

1管理层次方面

在麦肯锡咨询公司提出“大数据”这一概念之后,IBM、EMC、惠普以及微软等多家互联网巨头也迅速认识到从海量数据中挖掘提取有效数据资源进行分析后,针对未来业务可能的发展趋势提出的可行性预测的重要性,纷纷通过收购进行大数据业务的公司来实现资源整合,表明互联网公司从管理层次方面认识到大数据的重要性。我国的图书馆服务及建设,不管是盈利性的图书馆还是公益性的图书馆,都应该从管理层次方面认识到大数据可能会给图书馆行业带来的危机以及机遇。因此,成立数据管理部门与机构, 制定数据管理政策、统一的标准及共享平台,从管理层次方面规范数据应用,并将其加以制度化成为了图书馆业界的首要任务。

大数据建设并不是一项无序的、静态的、短时期就能完成的工程,而是一项需要长期投入的工程。从总的发展趋势来说,大数据建设需要通过精心的安排,力求使其步入良性化、秩序化的发展轨道。一方面,我们需要在全面了解大数据技术的核心构成要素的基础上,通过建设一整套的运行机制,使该技术能够很好地与相应的设施相配套。另一方面,通过做好顶层设计,使大数据技术的应用在开始就

正是因为上述原因,在现代图书馆系统内部成立相关的管理部分,在处理相关数据处理的基础上,为实现数据的统一管理和有效利用作为基础,使得相关信息能够在各地区、各部门之间保持协调是图书馆应对大数据时代所应该采取的管理层次方面的措施。在美国高校中,有些学校的图书馆成立了专门的“数据研究管理服务工作组(RDSMG)”,如麻省理工学院、弗吉尼亚大学以及康奈尔大学等。虽然目前我国图书馆业界认识到了大数据对工作内容和方式可能带来的影响,但在管理层次方面还未着手开始进行改革,因而在数据管理、共享和数据利用、处理以及数据版权方面,从技术上或者从政策上都还存在着漏洞,其实这不仅限制了图书馆自身的发展,也使得图书馆用户的使用权利受限。因此,大数据时代图书馆的建设要首先从管理层次方面得到重视。

2技术层次方面

图书馆的建设不仅是硬件设施层面的要求,也需要在管理措施方面进行提升,使其符合大数据时代来临的建设要求,政策是否能够得到有效地落实、如何落实相关政策更具备可行性,这些都要从技术层面进行考量。因此,以何种方式去建设现代化的图书馆、以及相应的大数据结构如何配置都是我们必须面对的,尤其是在解决大数据的采集、处理、存储等配套技术性问题都需要进行研究。简单来说,从多元化渠道获得海量数据不仅蕴涵着极有价值的信息,但也充斥着冗杂信息。这就需要运用大数据技术力求从中获得有效信息,这一点是建构大数据的核心,也决定着我们能够以正确的方式应对时代变革。我们需要从数据的采集、储存、处理、分析和应用等方面给予宏观的观照。将大数据作为一个系统工程来进行,进而建构形成基本现代形态的图书馆架构图:主要包括大数据采集、大数据存储、大数据处理及大数据应用四层。第一层是大数据采集,数据库、RFID、科学数据、论文、课件、邮件、微博和社交网络等等都是图书馆信息数据的来源,其中包括结构化、半结构化和非结构化数据信息。第二层是大数据的储存,利用云存储、虚拟技术、HDFS、HBASE、Hadoop、MapRaduce技术等存储海量数据。大数据的处理是图书馆大数据架构的第三层,数据集成、抽取、建模、网格计算、聚合与关联、重复数据删除、数据加密、容灾和备份等等都属于数据处理的范畴。第四层就是大数据的应用,只有将处理后的数据用于各类型的服务才使整个图书馆大数据架构得以完成。应用的方面可以包括信息检索、资源发现、数据挖掘、应用软件、推荐服务、学科化服务、个性化服务等。从现代图书馆的整体性建构来说,在大数据技术背景之下,应着力解决以下几个方面。

2.1大数据的统一表示及融合

现代信息技术的飞速发展使得信息产生的速度越来越快,通过不同方式产生不同格式的数据越来越多,因此图书馆大数据中包括的不再是单一格式的结构化数据,而是包含了很多半结构化与非结构化数据。在大量的信息资源中挖掘有用信息具体表现为:我们也可以这样说,是否能够直观地展现出数据本身的意义,主要取决于数据表示的方法。如果我们不将海量的数据加以整合、挖掘和分析,就无法发挥出大数据本身的重大价值。各种数据和信息能否统一规范的表示及有效地融合,从而构建起文献与数字资源体系是大数据目前面临的一个最基本问题。

2.2解决大数据量存储的问题

数据存储是大数据时代面前的诸多问题中最为核心,首先表现为面对大数据的高效率处理和访问明显增加,使得数据库及其相关技术的要求有较为明显的提升。而云计算技术的快速发展深刻影响着相关的数据库技术,并迫使相配套的数据库技术不断升级。例如据NoSQL、MapReduce和Hadoop都是常用的,非关系型数据库分析技术的优势是能够进行大规模的并行处理,同时简单易用,不需要进行复杂的换算演化。在以特定的表现方式呈现出相应问题的处理方案的同时,非结构化数据的处理正在成为大数据技术发展的关键性技术增长点。

2.3解决非结构化数据的分析和挖掘问题

数据挖掘和分析工作之所以具有非常重要的作用,是因为大数据不仅信息量大,而且类型复杂多样,不仅包括结构化数据,还包括半结构化和非结构化数据。

传统的数据挖掘与分析方式能够有效应对结构化数据,但是对关系型数据、半结构化数据和非结构化数据就无能为力。而正是这些在图书馆的大数据中传统的数据挖掘分析手段无法处理的半结构化、非结构化数据才与用户有着直接的关系。例如读者的兴趣不会体现在结构化的数据当中,而通过对待处理的非结构化数据进行挖掘和分析才能了解这一点。通过处理结构化数据对读者的显性行为进行分析,处理半结构、非结构化数据对隐性的潜藏信息进行深度挖掘,只有准确地把握阅读群体的审美诉求,才能为读者群体提供更为个性化、人性化的服务。

建立数据内容基础之上的推荐方式是当下最为流行的推荐方式之一,另一种是协同过滤。就后者而言,往往能够根据读者的阅读兴趣和数据呈现的稀疏性反映出某些潜在的问题。如何挖掘协同过滤算法模型中存在的规则,设计可以提供个性化的服务,是图书馆研究的方向。

3队伍建设方面

图书馆服务要随着技术的改变和用户服务要求的变化而提升和完善。不仅是服务的方式、途径还是服务的模式都将要发生改变。通过大量数据挖掘、组织和分析后决定的服务策略可能更具有针对性和鲜明性,服务方式和手段也会随之调整。在执行文献服务、信息咨询和学科服务这些原有的服务策略的同时,以信息处理与服务为优势的图书馆的服务范围及领域会得到更大的扩展。服务领域的扩展、服务种类的增加以及服务质量的提升要求图书馆在人力资源储备和培训不断强化,力求能够在较短的时间内建设起一支高素质的图书馆专业队伍。

传统类型的图书馆建立在其自身的管理方式、工作内容,以及工作方式和管理思维基础之上。但在大数据的信息环境中传统型图书馆运作模式遭遇到前所未有的挑战,并使其内部构成方式发生了巨大的变化。

抓住这个机遇,尽快开展数据管理服务是图书馆目前的首要任务,要想做好这一项工作,需要图书馆不断提升支撑相关研究的服务内容、以及与其相配套的服务能力。NSB明确指出数据挖掘、获取、处理、保存、分析、利用和可视化为职业的数据科学家(Data Scientist)中,应该包含有信息与计算机专业人员、相关领域的专家和图书馆管理人员。美国图书馆研究协会认为,未来的图书馆管理人员最为重要的能力就是研究数据管理能力。由此可见,能够尽快的培养一支掌握现代信息处理技术,将直接影响到图书馆事业的发展能够适应新形势的需要。综合素质较好的“数据官员”是图书馆队伍建设首先要解决的问题。只有不断发展壮大这支队伍,并使之成为信息数据资源的整理者、分析者、传播者和教育者,才能真正促进图书馆事业向着更为全面的方向继续前进。

参考文献:

[1] 熊金超.全球迎来大数据时代数据成为越来越有用资源[EB/OL].

http://www.hb.xinhuanet.com/2012-11/07/c_113623396.htm,2012-11-

07.

[2] 徐子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].桂林:广西师范大学出版社,2012.

[3] 李福铭.高校图书馆馆藏中文图书书龄与利用率研究[J].湘潭矿业学院学报,1998,(2).

[4] 尹秀波.基于馆藏结构分析与文献利用统计的馆藏文献资源质量评价研究[J].情报科学,2011,(4).

[5] 代晓飞.香港地区高校图书馆馆藏发展政策研究[J].图书馆学研究,2011,(3).

[6] 陈立刚.高校图书馆馆藏质量分析与优化探讨[J].图书馆论坛,2010,(2).

图书馆数据分析 篇4

关键词:阅读量,图书采购,馆藏数据

在文化部门等公共部门的大力推进下,公共图书馆的事业发展十分迅猛,地位和影响力不断上升,新老读者对公共图书馆的要求也越来越高。在当前网络信息如此发达的社会,充斥着便捷的电子图书,到公共图书馆的读者,对纸质图书的要求也就更加的严格。不仅是对图书内容的要求,有些精益求精的读者对出版社、图书的印刷纸张;对外国图书等等各方面的要求。为了更加优化读者在公共图书馆的阅读体验,就首先要掌握读者的阅读需要,在图书的采购上,更加贴合读者大众的口味,提高公共图书馆书籍的有效利用。

一、读者阅读量统计

(一)公共图书馆读者阅读量。地市级图书馆的经费有限,场地有限,为了能使服务最大最优化的开展,就必须要把好图书采购的关卡,对于读者量较小的书籍种类,就需要在进行图书采购的时候优先选取该种类图书的精髓,使有需求的读者能够找到理想的书籍,避免以偏概全。

(二)数据选取。以南岸区图书馆2014年整年社科类图书借还量为例,来分析近年来该区域读者的一种阅读趋势,见下表1。

同时还统计了2010年至2014年期间I类、J类、K类书籍的总体藏量分布趋势,见下表2。

二、馆藏数据统计

在思考如何最优化读者阅读服务的同时,就必须了解读者的各种阅读习惯与喜好,和众多能影响读者阅读方向的不定因素。有的作品随着被搬上银屏被更多的人所知晓,就会衍生出一系列相关的文学作品,这些文学作品也会在一定程度上受到来自各界读者的追捧;也有的作品作者本身就具有非凡的影响力,每每一出新书,老读者的肯定和新读者的好奇都会带来不同的影响。这样的因素和影响都是不确定的,需要把握好阅读与藏量之间的关系来合理地对图书进行采购与分配。

馆藏单一数据来源分析,以南岸区图书馆为例,文学作品的这一趋势更加的明显。如莫言的文学作品《蛙》,在未获得诺贝尔文学奖之前,南岸区图书馆的藏书量为3本,《生死疲劳》2本,《四十一炮》3本。2012年获奖的消息出来后,莫言的文学作品成为读者争相借阅的对象,造成了一时间全民阅读莫言的热潮,图书馆之前的馆藏量就不能满足读者的需求了,第一时间对莫言的图书进行了采购。采购后的藏书种类和藏书量见下表3。

三、数据分析

(一)读者对藏书不同种类的不同需求。根据表1可以看出,读者的需求具有一定的选择性,能很明显地判断出I类文学类作品、J类艺术类作品、K类历史类作品是最深受读者喜爱的大众读物的分类。在日常生活中,来到公共图书馆进行图书阅读的读者大多都具有明确的目的性和要求,这也使得能清晰地从表1知道,以南岸区图书馆的借还数据为例,读者大多是区政府公务员、学校教师及周边中小学生,他们喜欢阅读,对所读书籍要求也较高,这些读者对文学类、艺术类、历史类的书需求量很大,但是也能同时看出,不管哪一类的书籍都有或多或少的借阅量,这也为保证藏书种类多样性的必要提出了有力的证明。

(二)公共图书馆采购方式。从表2可以看出,图书馆每年的藏书量都在不断地增加,为了满足广大读者的需求,这样的一种上升趋势是对公共图书馆读者借阅服务的一种优化。

(三)图书采购的不定性因素。根据莫言获奖前藏量可以看出,图书馆内所藏莫言的作品藏书种类都并不完全,而且复本数量也在正常的藏书量范围之内。表3是在2012年诺贝尔获奖后的统计,对莫言的作品进行了系统的成套的增补,热门的作品,如获奖作品《蛙》的藏量明显增加至水平数量以上。这就是公共图书馆对信息分析之后得出以前的藏量不能满足读者需求的结论。

四、结论与推论

(一)图书采购时效性。读者的阅读需求,现场采购,图书经销商通常是以固定周期为公共图书馆配送书籍,导致同期有一部分的热门图书不能第一时间送到读者的手中,现场采购是有目的有针对性,最具备高效的特点,但是采编的工作并非只是在图书的采购上,采编部的工作人员可能没有足够的时间对书店的书进行一一的筛选,而且新书每天都会不断地涌现,也不能每天都进行现场图书采购,所以也是有局限性,只能作为一种对图书订购的补充的形式来运作。

(二)图书采购的各种形式。通常的订购图书则更加需要结合当前读者阅读的趋势来有目的性的选择,适时地增加图书的副本数。由书商配送的图书则会使公共图书馆的藏书更加具有多样性,丰富了藏书的总量和总类,可以选取多家书商同时供应书籍的形式,避免单一的采购来源带来的图书类目不齐全。公共图书馆是面向全社会人民的图书馆,有各式各样的读者和各式各样的需求,公共图书馆所采购的图书必须要能涵盖各个方面的内容。

五、总结

图书的采购是公共图书馆整体工作中至关重要的一个环节,必须切实的把好图书采购的这一关口,形成良好有效的图书采购机制,可以通过各种图书采购的方式相结合,运用生成最适合各个公共图书馆的采购方法。在能够满足读者阅读需求的同时,不断地提升阅读的质量,还能保证读者能够更多地接触到优质的图书服务,在全民阅读这样的大环境下,不断地创新前进,学习各式的优秀经验,充分展现公共图书馆在公共文化事业发展中的力量与影响力。

参考文献

[1]丁海晖.读者决策采购在纸质图书采购中的应用分析与效果评估[J].图书与情报,2014,(4):127-131.

[2]伍瑾,毛忠行.大数据背景下的高校图书馆图书采购模式探析[J].常州大学学报,2014,(5):133-140.

[3]远桂芬.基于馆藏统计分析的民办大学图书馆中文图书采购策略——以天津天狮学院图书馆为例[J].河南图书馆学刊,2014,34(10):42-44.

[4]蔡迎春.基于层次分析法的学科图书采购模型构建及实证分析[J].图书馆学理论研究,2010,(11):38.

[5]李爱明.基于参与方分析论图书采购工作[J].河南图书馆学刊,2014,(1):71-72.

[6]朱静.图书采购质量控制问题研究[J].农业图书情报学刊,2012,(1):96-97.

图书馆建筑分析论文 篇5

1.1图书馆建筑设计应该把适用放在首位

图书馆建筑设计,应全面贯彻“适用、经济,在可能条件下注意美观”的建筑方针,这个方针的核心是适用。[所谓适用,就是使建成的图书馆要有最大的使用面积,要能充分满足图书馆的各种功能要求,还要具有对未来图书馆发展的适应性。应该坚持在任何时候都要把满足适用要求放在首位,平面布局、空间结构、外观造型,都应服从于适用性的要求。切忌脱离适用要求而片面追求“雄伟壮观”“造型别致”“新颖独特”的外观。在充分满足适用要求的前提下,学习国内外图书馆建筑设计的成功经验,综合多种设计技巧,运用各种创作手法,尽量使建筑物有特色。一座外形好的图书馆建筑物,如果不能有最大的使用面积,或者不能满足各种功能要求,不能适应未来图书馆发展的要求,就不是一座好的图书馆建筑。

1.2图书馆建筑平面应以矩形为宜

现在有许多图书馆建筑采用了多变的建筑平面设计,如六角形、八角形、扇形等。实践证明,这些馆舍的平面及内部空间被划分成不规则形状,产生很多的死角而无法利用,使图书馆的适用面积和使用功能大打折扣;又由于这些不规则平面的设计,使得书架、阅览桌椅及其它家具设备都无法整齐排放,使人感到非常凌乱、非常别扭。笔者认为,图书馆建筑平面宜采取简单的矩形,矩形是适应图书馆使用的最佳平面,正如美国印地安那大学图书馆学及情报学院有丰富的图书馆建筑规划经验的大卫·凯瑟教授所指出的,“简单正方形或矩形,可以获得最经济的图书馆使用和操作条件。”正方形或矩形的空间对书架的排列、阅览桌的布置、流通线路的走向、业务工作的方便等方面都是最经济、最高效、最合理的平面。有人会说,简单的方形或者矩形平面会使图书馆建筑显得单调与呆板,其实不然,实践证明,采用矩形平面布置的图书馆同样能设计出形体各异千变万化的造型来。

1.3空间结构布局设计要合理

自上世纪80年代以来,高校图书馆在各方面都发生了较大的变化,图书馆建筑设计理念也发生了变化。另外,科学技术的发展速度,存在着很多不可预见的因素,这种不确定性随时都会要求图书馆对其内部结构和空间布局做出相应的调整,这就要求图书馆建筑的空间设计,既能满足图书馆现在职能的需要,也能满足图书馆未来发展变化的需要。因此,与此相适应,在图书馆的建筑结构设计方面就有了模数式图书馆建筑的出现与风行。所谓模数式图书馆,是指整个建筑统一柱网、统一层高、统一荷载,采用大框架整体结构以及轻质灵活的隔断,在内部空间上由封闭与固定走向开放与灵活,在使用功能上具有可变性与互换性。

2图书馆工程设计实例

2.1工程概况

广东青年干部学院钟落潭新校区选址于广州市白云区钟落潭镇障岗村、五龙岗村。用地位于广花平原丘陵岗地,处于低丘陵缓坡和丘间谷地,总体地势南高北低,海拔高程在27.8-79.4米之间(广州城建高程)。

图书馆位于校园中轴线的终点,北面正对整个中央景观区,南侧为保留山体绿化空间,西面为实验实训楼,东面为学生宿舍。

项目的总平面布局尊重原有规划设计,并作出了合理调整。图书馆建筑采用点式布局,平面紧凑而形成较大体量,扇形平面很好地处理了建筑和湖面的呼应关系。顺应中心景区东面的步行道的走向设置了大台阶,形成二层的平台空间,图书馆的主入口位于平台中央,气势恢弘。平台下方设置次入口,靠近自习室、展厅等公共开放用房。建筑南面由于地形高差关系,直接进入二层。并在南边设置了后勤出入口,作为内部人员和书籍运输的通道。

2.2总平面布置说明

图书馆总体布局是来自于对其所处特定校园环境的理性分析。从整体校园规划来看,图书馆位于校园中轴线之上,整个中轴线的终点。但从区域功能的划分来看,图书馆是教学区和生活区的交汇点,是校园空间从对称到不对称,闭合到开放的转折,起着空间承接、转换的作用。图书馆居高临下,北面正对整个中央景观区,位置显赫。南侧为保留山体绿化空间,西面为实验实训楼,东面为学生宿舍,是教学区和生活区之间的节点,景观环境优美。建筑体量独立完整,富有文化底蕴和现代气息,与校园整体环境协调一致,是学校的核心及标志性建筑。

建筑采用点式布局,平面紧凑而形成较大体量,扇形平面很好地处理了建筑和湖面的呼应关系。顺应中心景区东面的步行道的走向设置了大台阶,形成二层的平台空间,图书馆的主入口位于平台中央,气势恢弘。平台下方设置次入口,靠近自习室、展厅等公共开放用房。建筑南面由于地形高差关系,直接进入二层。并在南边设置了后勤出入口,作为内部人员和书籍运输的通道。

2.3平面设计

建筑平面设计主要采用集中式布局,顺应规划和环境空间,采用扇形平面,形成一个大弧面正对中心景区,以获得最大最佳的景观视野。建筑首层和二层主要为功能开放的服务用房,三至六层为图书阅览用房,七层为内部办公业务区。标准层中庭周边设置为开架综合阅览室,空间完整大气,外部景观一览无遗,为读者创造出视野开阔、舒适轻松的学习和交流场所。

在首层设有绿化光庭,把室外优美环境直接引进至室内,给读者创造一个自然舒适的阅览空间。二至六层中部设置了中庭空间,为图书馆的内部空间提供了充足而柔和的自然光线,结合中庭布置公共休息区。南侧面向保留山体,环境优雅,相应布置小型阅览空间,满足多元化的读者需求。

主要的交通空间结合中庭布置,在每层形成入口前厅,方便管理。其他主要空间也得以自由组合布局,提高平面的利用率。内部业务交通核心则安排在东侧,相对独立,与读者流线互不干扰。

2.4.藏阅合一空间

图书馆标准层按藏阅合一空间布置,初步考虑藏、阅面积比例各占50%,并按《图书馆建筑设计规范》(JGJ38-99)中阅览空间每座占使用面积设计计算指标规定,普通阅览室面积指标为1.8~2.3㎡/座,计算结果标准层最多座位数约为435座。

2.5立面设计

由于图书馆用地前后有高差,在设计中将首层放大为一个基座,如同山体延伸出来的一个平台,托起上部的建筑形体。富于雕塑感的造型,让整个建筑形体显得饱满完整。建筑物苍劲有力、典雅稳重,仿佛坐落在岩石之上,俯瞰开阔的湖面,与环境之间的和谐对话。

形体设计注重利用建筑实体和外部空间的多层次组合及对比,获得丰富多变的建筑表情,建筑双重界面的设计,使建筑虚空与实体形态要素和谐的并置在一起,突出文化建筑的内在气质。立面揉和了多种设计手法,虚实相间,体量穿插,使得每一个观赏角度都获得不一样的视觉效果。大面积竖向遮阳板的设计使整个建筑既整体统一又不失活泼。在这里,传统与时代、庄重与开放、严整与活跃、坚实与空灵均得到恰如其分的表达。

3结语

从数字图书馆到数据图书馆 篇6

关键词:数字图书馆;数据图书馆;大数据;服务范式

中图分类号: G250 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016055

From Digital Library to Data Library

——The Change of Library’s Service Paradigm in the Era of Big Data

Abstract The arrival of the era of big data, making the “data” becomes a key point of library restructuring, but also making the digital library construction faced with big challenge. With the impact of open access and semantic publishing, and the drive of user requirement, it achieves data library services paradigm transformation has become a trend. Since the data library is still a new concept and there is no authoritative definition, from the point of users’ requirement, data-intensive knowledge services system will be composed of core data library, and will provide user data storage, data mining, data publishing, data management and data research services.

Key words digital library; data library; big data; service paradigm

近年来,以数字技术处理和存储各种图书并茂文献的数字图书馆在缩小信息鸿沟、加速信息传递、促进资源共享等方面做出了积极的贡献,且随着国家数字图书馆推广工程等国家、地方数字图书馆项目的立项,数字图书馆迎来了一个快速发展期。然而,随着大数据时代的来临和全社会对数据价值及应用的日益重视,加之出版界、信息界出现的开放存取运动、人工智能研究等热潮,使得数字图书馆的发展面临着极大的挑战。实现从信息时代的数字图书馆到数据时代的数据图书馆服务范式转变将是当前社会需求及用户需求驱动的最终结果,因此,在这一服务范式转变之际,去探讨数字图书馆转型发展的驱动因素、数据图书馆的构建组成及服务内容显得尤为重要。

1 大数据时代数字图书馆发展面临诸多挑战

在信息时代,随着人们对数字文献获取方法方式的日益丰富和对数字文献内容要求的日益提高,数字图书馆建设过程中存在的标准不规范、文献数字化水平较低、数字文献的安全缺乏绝对保障等成为了人们经常讨论的问题。开放存取运动的进一步深化发展和以语义、云计算等为代表的信息技术出现,以及大数据时代的到来,则让数字图书馆面临着更多的挑战。

1.1 信息时代遗留的问题未得到解决

数字图书馆在建设过程中,由于受技术所限、资金不足、标准不统一等限制,致使数字图书馆在信息时代就存在着诸如接口不统一、资源元数据描述不够、检索能力不足、文献数据相互关联性较差、互操作程度较低、资源发现和扩展能力低下等问题,让数字图书馆成为了人们获取信息的最后选择。一份关于大学生对高校图书馆使用情况的调研报告则表明,72%的学生是通过网络获得信息,而通过图书馆获得信息的学生只占18%[1]。另一项调查也显示大学生访问图书馆网站(数字图书馆)的只占28%,远低于使用搜索引擎的使用比例,甚至有25.3%的大学生表示从没有去访问过图书馆网站(数字图书馆)[2]。这种现状也引发了图书馆界的担忧与思考,正如Rick所指出的一样,图书馆到了必须给图书馆资助机构更好、更多的说服力来证明图书馆存在的价值时候[3]。然而对数字图书馆来说,虽然经过了持续的技术革新、系统升级和业务延伸后,特别是经过了国家数字图书馆、国家科技图书文献中心及其网络服务系统、国家高等教育数字图书馆、国家科学数字图书馆、中共中央党校数字图书馆、军队院校数字图书馆和中国社会科学院数字图书馆等七大国家级数字图书馆工程项目的建设与推广,我国数字图书馆的建设在软硬件设施、数字资源、信息服务、资源共享等方面有了长足的经验积累,但系统间数据接口及共享、资源统筹采购等问题仍继续存在,数字图书馆向社会、向民众、向用户及政府证明自己存在价值的力度和广度也还不够。

1.2 新问题随着大数据时代的到来而到来

与大数据时代的到来相伴的是大数据操作技术的涌现和用户思维、习惯与要求的改变,数据的抓取与存储等问题也就随之而来,最终使得努力迎合用户需求的数字图书馆不得不面临新的挑战。

(1)多种出版模式为数字图书馆的出版服务带来了挑战。众所周知,利用互联网让经过同行评审的学术研究论文得到免费、自由、开放的存放与获取,提升了科学研究的公共利用程度、保障了科学信息的保存、提高了科学研究的效率的开放存取(OA)出版模式改变了传统的出版模式。根据布达佩斯开放存取计划(Budapest Open Access Initiative,BOAI)于2011年公布的研究报告,认为10年后在世界上的任何国家、任何或地区、任何学科的同行评议学术论文均将实现开放存取[4]。其实,快速增长的不仅是开放存取的仓储数据、期刊数量和论文数量,注重对开放存取数据质量和服务建设也是OA界最为倚重的。如设立于2003年5月,由瑞典Lund大学图书馆创建和维护、并由OSI、SPARC、EBSCO和瑞典图书馆学会等机构支持或协办、目前全球收录数量最大的OA期刊目录系统DOAJ(Directory of Open Access Journals),不仅从2015年1月1日开始剔除了存在信息更新不及时、数据质量管控不严等问题的3300本期刊[5],还于2016年开始收集DOAJ收录期刊的文章元数据,以满足DOAJ在2014年3月建立的旨在提高DOAJ的相关性和在开放出版上的重要性更高的检索标准[6]。这些变革了传统出版模式的开放存取、数据出版、语义出版等出版模式以及对数据质量监控、资源元数据重视实践,在让图书馆的资源建设受益的同时,也对数字图书馆的出版服务、数据质量监管等提出了新的挑战。

(2)大数据技术为数字图书馆的技术应用带来了挑战。大数据技术不但在概率统计、趋势预测、客户研究等方面有着出色的应用,也在图情领域的词频可视化、情报分析等方面都有着其它技术所无法比拟的优势。同时,语义技术、可视化技术等也在信息服务机构的知识库建设、资源链接与描述、用户分层与服务延伸等方面有着广泛的应用。但对数字图书馆来说,目前在信息检索互操作方面也主要有基于图书馆自动化系统的元数据互操作(如联合目录+OpenURL)和基于二代图书馆系统的基于系统的互操作(如MetaSearch+OpenURL)两种方式,而结合了这两种检索互操作方式,解决了信息描述、组织与检索能力不足问题的图书馆知识资源发现系统(如Primo、Summon等)尽管在图书馆已逐渐开始运用,但还是没有将复杂数据环境(多源数据、多类型数据)下的数据价值发现与图书馆知识服务相结合起来,加之目前还未将能够处理异构、非结构化数据的Hadoop等大数据技术广泛应用,数字图书馆还不能为用户去真正的解答、解决问题。

(3)大数据思维为数字图书馆的用户维护带来了挑战。大数据时代,数据将驱动社会的创新与发展,人们也将因为这种驱动方式的出现而形成有别于传统思维方式的大数据思维方式。与传统思维方式强调因果关系不同,大数据思维方式更强调相互关系、相关关系,人们将逐渐抛弃基于假想的易出错方法,而采用基于数据挖掘的相关关系分析法去预测事件及概率[7]、为信息找人[8]。很显然,数字图书馆在对组成数字图书馆最基本单元的文献资源唯一标示、科学引用频率统计、元数据描述标准统一、相似性关联及链接实现等还都无法做到的情况下,实现这类基于海量数据挖掘的概率预测、为信息找用户等服务就还需时日。

2 以数据为核心业务成为数字图书馆业务重构方向

ACRL(Association of College & Research Libraries,美国研究图书馆协会)于2012年发布的《2012 top ten trends in academic libraries》[9](2012学术图书馆发展趋势)报告,就对“数据监管”“数据保存”“新的出版与交流模式”等未来图书馆发展的趋势进行了研究。在这份报告之后,ACRL研究、计划与评价委员会于2014年6月发布的《高校图书馆发展大趋势》[10]虽然把“更深度的合作”概括为当前美国高校图书馆总的发展趋势,但也把“数据”列为四大关键词之一。由上述两份报告我们可以发现,在全球图书馆享有较高研究水平声誉的ACRL已经预见到了“数据”的价值,认为开展关于数据的收集、保存、开发与应用将是未来图书馆发展的趋势。值得赘述的是,ACRL对于“数据”的追捧并未随着时间的推移而减弱乃至消失,反而认为将有着明显的专业化、精深化发展趋势。在ACRL发布的《2016 top trends in academic libraries》[11](学术图书馆 2016 年 10 大发展趋势)报告中,认为“研究数据服务”“数据发展政策与管理计划”“基于馆员专业化发展而提供研究数据服务”“数字化学术中心”是学术图书馆2016年发展的几大趋势。考虑到业界已经广泛开展的数据素养教育和图书馆数据馆员设置、大数据挖掘应用等实践,可以说基于数据管理与应用的服务、建设已成为图书馆未来业务增长点,而实现对异构、海量数据的管理、应用与开发重任,无疑宜由现代技术应用最为广泛的数字图书馆承担。

3 数据图书馆是数字图书馆的发展方向

由于数据图书馆还是一个新生的图书馆存在形态,故对其科学内涵、服务内容等还没有一个权威定义。综合上述对数字图书馆面临的环境和挑战分析,不难得出围绕数据及数据业务去重构、重组数字图书馆的建设与服务,不但有着多环境影响因素,也有着多驱动因素。围绕数据,就是以数据为核心并进行数据的保存、处理和应用,进而形成具有数据服务、数据出版和数据增值服务的图书馆存在新形态,即数据图书馆形态。结合当前已经形成的数据密集型科研环境和全社会以数据为中心的价值认同,笔者以为数据图书馆的核心组成内容就是数据密集型知识服务系统,数据图书馆的服务就是基于数据挖掘的支撑服务,如决策支撑、发现支撑和融合支撑等。

3.1 数据密集型知识服务系统的框架构成

数据密集型知识服务系统主要由大数据层、计算融合层和用户服务层构成(见图1)。其中,大数据层主要承担文献大数据(期刊、会议、图书、学位论文、科技报告、专利等)、用户大数据(个人数据、生活数据、工作数据、学习数据等)和其它大数据(政府信息数据、社交媒体数据、科技创新数据等)的存储职能,当然,这些数据并非均储存于图书馆,而主要以云计算存储、异地存储、异构存储为主;计算融合层主要就是通过构建一体化描述模型来实现对数据的采集、解析、清洗与保存,并通过数据标引、描述、分类与标注来实现基于用户需求、基于信息发现的用户服务;用户服务层则主要是通过计算融合层向用户提供基础性数据服务(数据出版、数据管理与数据研究等)和发现性数据服务(态势解析、追踪与检测、未来发现等)等支撑性服务。

3.2 关于数据图书馆的服务

由数据图书馆核心系统的框架构成可以看出,本研究所设计的数据图书服务主要为支撑性服务,这是因为在大数据环境下,数据图书馆尽管拥有丰富的文献数据,但用户数据特别是产生于图书馆交互之外的工作数据、学习数据、生活数据并不易获得,因此,基于这些非全部数据量和数据类型的数据服务产品还需进一步去辨别和研究;其次,大数据思维要求数据图书馆提供焦点问题发现、为信息找用户等服务,即数据图书馆不再只是提供基于数据管理职能的数据保存、数据规划等服务,而是必须从海量文献数据中去找到可能影响用户的焦点问题,进而通过数据图书馆的互操作来提示用户,并将能够解决用户问题的数据推送给用户,实现焦点问题发现与信息找用户相加的发现性服务。

4 结语

大数据时代的到来已驱动着数字图书馆的转型与发展,数据图书馆作为数字图书馆发展的未来形态,也必然存在着诸如接口标准制定、数据保存算法设计、数据描述模型完善等研究性课题。本文仅限于对影响数字图书馆转型发展的驱动因素和影响因素入手,对数据图书馆的核心系统框架进行了简单设计,诸多存在的不足也还有待于进一步去深入研究。

参考文献:

[1] 张颖.大学生图书馆使用情况调查与研究——以A校为例[J].青年文学家,2014(6):182.

[2] 关于图书馆利用状况的调查报告[EB/OL].[2016-03-20].http://www.docin.com/p-570050019.html.

[3] Anderson?Rick. The Crisis in Research Librarianship[J].Journal of Academic Librarianship,2011,37(4):290.

[4] RJ It. Ten years on from the Budapest Open Access Initiative: setting the default to open (BOAI10, 2012) Dieci anni dopo la Budapest Open Access Initiative (BOAI1...0) [J].Jlis It,2012,3(2):20.

[5] 开放获取期刊目录DOAJ剔除近3300本期刊[EB/OL].[2016-06-12].http://blog.sina.com.cn/s/blog_12c7d197e0102wocp.html.

[6] DOAJ的开放获取新进展[EB/OL].[2016-06-12]. http://blog.sciencenet.cn/blog-1035376-898149.html.

[7] 大数据时代,我们应该具有怎样的思维方式?[EB/OL].[2016-03-20].http://mt.sohu.com/20160303/n439227782.shtml.

[8] 大数据思维的十大核心原理[EB/OL].[2016-06-12]. http://www.raincent.com/content-10-4235-7.html.

[9] ACRL.2012 top ten trends in academic librariesh[EB/OL].[2016-03-20].ttp://crln.acrl.org/content/73/6/311.full.

[10] ACRL.Top trends in academic libraries:A review of the trends and issues affecting academic libraries in higher education[J].College&Research Libraries News,2014(6):294 -302.

[11] ACRL.2016 top ten trends in academic librariesh[EB/OL].[2016-06-10]. http://crln.acrl.org/content/77/6/274.full.

图书馆数据分析 篇7

1 数据仓库

数据仓库是一个面向主题的、集成的、非易失的、时变的数据集合,支持管理部门的决策过程[3]。图书馆数据仓库同样应具有这四个方面的特征[4,5]。(1)面向主题:数据仓库中关注的是对决策有用的数据,是按照一定的主题域进行组织的。图书馆的数据仓库可以围绕读者、时间、借阅分类等主题组织高层次数据分析。(2)集成:图书馆数据仓库中的数据是在对原有分散的数据库数据抽取和清理的基础上,包括命名、编码、属性等数据转换,消除了源数据噪音和不一致性,并将原始数据结构做一个面向读者、时间、借阅分类等主题转变。(3)时变的:图书馆数据仓库结构将反映历史变化,包含时间元素,回溯从过去某一时间段的历史信息,如对年、季度、月、星期、每天的时段做出汇总分析,为未来趋势做出预测提供根据。(4)非易失的:图书馆数据仓库不需要事务处理、恢复和并发控制,要求的数据是相对稳定的,只需要数据的初始载入和数据访问。一旦对在数据仓库中装入数据后,将长期保存,只偶尔的定期更新,很少有修改和删除操作,通过大量的查询操作,就能为图书馆管理层决策提供数据支持。

2 OLAP

关系数据库之父E.F.Codd于1993年首次提出OLAP(联机分析处理)的概念,在业界引起了很大的反响[6]。OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。”这些信息是从原始数据转换过来的,它们以用户容易理解的方式,反映企业的真实情况[7]。(1)OLAP技术核心是“维”(dimension)。维实际上是一种层次类型划分,是人们更高层次地观察和认识客观世界的角度。一个实体的多个重要属性定义为多维,维又包含多个子属性,属性间包含层次关系。OLAP对不同维上的数据进行比较,进行多维的数据分析[8]。(2)OLAP操作主要分为钻取、上卷(roll-up)和下钻(drill-down)、切片(slice)和切块(dice)、转轴(pivot)等[9]。(3)OLAP实现主要方 式分为ROLAP、MOLAP、HOLAP。ROLAP(Relational OLAP)以关系数据库为核心,以关系型结构进行多维数据的表示和存储,将多维数据结构划分为事实表和维表,事实表用来存储数据和维关键字,对每个维至少使用一个表来存放维的层次、成员类别等描述信息。维表和事实表通过主键和外键关联,形成了“星型模型”。如果维的层次比较复杂,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展称为“雪花模型”。MOLAP(Multidimensional OLAP)实现使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,可以对“立方块”进行旋转、切块、切片等操作。HOLAP(Hybrid OLAP)表示基于混合数据组织的OLAP实现,提供更好的灵活性,如将大量详细数据存在是关系型数据库中,而聚集数据存在MOLAP中[9]。

3 图书馆数据仓库系统

图书馆数据仓库系统对图书馆数据进行提取、清理、转换和载入,并对数据仓库中存储的数据进行更新、管理和使用,用以支持数据仓库的应用或决策服务。图书馆数据仓库系统如图1所示,包含数据源(图书馆数据库),数据提取、清理、转换和载入,数据存储与管理,OLAP服务器和前端数据查询和分析工具五部分组成[10,11]。

数据查询和分析可以挖掘出读者历史的借阅行为,从而分析出读者现在及未来的借阅需求。图书馆数据库是数据仓库系统的数据源基础。数据抽取、清理、转换和加载部分从数据源中抽取数据,对数据预处理、数据转换,并根据数据仓库的设计要求对数据进行重新组织和加工后将数据加载到数据仓库中。OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织以便进行多角度、多层次的分析。前端数据访问和分析工具供图书馆管理人员和决策人员访问目标数据库中的数据,并做深入分析以实现决策支持系统的各种要求。

4 图书馆数据仓库系统的实现

图书馆数据仓库系统如图2所示,使用MicrosoftSQL Server Analysis Services2008,对阿坝师专图书馆数据库2010年、2011年、2012年学生流通历史数据,构建使用多维数据结构,分析生成大量快速、直观的数据视图。在多维数据集Borrow_Date.cube中进行OLAP操作。

4.1 维度建模

数据仓库和OLAP是基于多维数据数据模型的,即数据立方体形式。数据立方体Borrow_Date.cube从多维对数据建模和观察,它是由维和事实下定义,涉及三个维表和一个事实(BORROWFACT)。如图3所示,这三维度是:READER (读者维),TIME (时间维)和CLASSIFICATION(分类)。每个维提供不同的属性,并与一个维表关联。事实是数值度量的,是多维数据模型中心主题,与事实表对应。多维数据集或者说数据立方Borrow_Date.cube由单元组成,按单元按度量值组和维度进行组织。单元表示多维数据集中来自多维数据集内每个维度的一个成员的唯一逻辑交集,单元计算是对借阅事实计数。

4.2 数据模型

目前流行的数据仓库模型是关系型多维数据模型,主要分为星形模型、雪花模型或事实星座模型。关系型多维数据模型就是要把不同主题和维的信息映射到数据仓库中的具体表中。星型模型中仅使用事实、维、维属性、事实度量来描述,每维只用表一个表示,而每个表包含一组属性。雪花模型是星形模型的变形,在星型模型的基础上增加了对维度表的描述,进一步把数据分解到附加表,其形式类似于雪花的形状。事实星座模型需要多个事实表共享维表,可以看作是星形模型的汇集。雪花模型可以减少冗余,减少存储空间,但浏览的性能受限。基于数据仓库与OLAP技术的图书馆流通数据分析采用星形模型,如图4所示,包含三个维表和一个事实表。

事实表:BORROWFACT(TT_ID,TIME_ID,读者号)

维表:CLASSIFATION(TT_ID,题名,类号),下划线表示主键,其中类号经过处理,取两位。

维表:TIME(TIME_ID,年份,月份,季度,星期,某月的第几天,周几,时段)

维表:READER(读者号,性别,系部,专业,年级)表示事实表和维表间的主键和外键关系见表1:

4.3 概念分层

某些维的属性之间存在全序关系或偏序关系,在数据模式中表现为概念分层,即存在一个从低层概念到高层概念一个映射序列。如维READER由属性读者号、性别、系部、专业、年级组成,其中性别、系部、专业、年级属性全序相关:“专业<系部<年级<性别”。而维TIME(时间)属性月份,季度,星期,某月的第几天,周几,时段构成偏序关系:“时段<{每月的第几天<月份<季度;周几<星期}<年份”。如图5所示:

4.4 实现 OLAP 操作

Microsoft SQL Server Analysis Services2008提供丰富的多维数据集OLAP可视化操作,只需将属性或层次结构属性拖曳到汇总区域,就可以实现不同维度和粒度的汇总数据,从不同的概念分层角度是对所有借阅计数,如图6所示,是对2010年、2011年、2012年三年按分类号及男女分组的流通借阅计数汇总图。根据不同的需求,可对不同维、不同的粒度进行上卷、下钻、切片和切块操作。(1) 上卷。上卷操作(也称为上钻drill-up),即通过维的概念分层向上攀升,对数据立方体进行聚集。沿维READER分层“专业<系部<年级<性别”向上攀升,对立方体执行上卷操作,由低层向高层泛化。(2)下钻:下钻是上卷的相反操作,由高层到低层,由不太详细的数据向详细的数据聚集,如维TIME的分层,沿“年份>季度>月份>每月的第几天>时段”下钻,会得到更详细的信息。(3)切片和切块:切片操作是对立方体给定一个维选择,生成子立方体,如选择维TIME的“季度”;而切块选择两个以上的维,如(TIME.月份 =’02’)AND(READER.系部 =’人文社科系’)。

Microsoft SQL Server Analysis Services2008提供多维表达式MDX查询,是OLAP多维立方体查询语言,支持定义和操作多维对象和数据,在功能上类似于关系数据库查询语言SQL。多维表达式MDX是OLAP服务器与外界交互的专用语言,语法功能强大,执行效率高[12]。以下表示查询2012年所有专业分类借阅统计。

select [READER].[专业].members on columns,

[CLASSIFATION].[类号].members on rows

from [LIB_DB]

where [TIME].[年份].&[12]

5 结语

高校数字图书馆数据安全问题分析 篇8

关键词:数据安全,数字图书馆,数据备份

0 引言

高校数字图书馆迅速崛起促进了知识经济时代的发展进程。数据是高校数字图书馆赖以生存和发展的基础。数字图书馆在为读者提供信息共享、信息检索等优质服务的同时, 数据安全问题也凸现出来, 在事故中有效地保障其数据的安全和服务的连续性, 是数字图书馆建设中必须要考虑和解决实际问题。本文对高校数字图书馆数据不安全因素和备份技术做了详细分析, 提出了解决高校数字图书馆数据安全问题的措施。

1 高校数字图书馆数据不安全因素

高校数图书馆的各项服务都依托于计算机及网络, 自然存在着的各种脆弱性和威胁因素。影响数字图书馆数据安全的因素很多, 笔者将其分为以下四种: (1) 自然因素, 像火灾、地震、水灾、雷电、震动、供电、静电、灰尘、强磁场、腐蚀性物质、生物灾害等诸多因素。 (2) 软件因素, 如黑客攻击、病毒、恶意软件、应用软件的开发质量、系统漏洞和数据库的可靠性等都直接影响着数据安全。 (3) 硬件因素, 包括硬件系统性能和配置是否合理, 网络通信线路故障, 硬件元器件破损、老化, 零配件质量、供应不足、停产等等。 (4) 人为因素, 主要表现为:管理者安全意识淡薄, 对系统安全认知不足;网络管理人员和技术人员责任心不强, 缺乏必备的专业技能, 不能很好地管理配置网络资源;安全管理体制不完善或执行力度不足等。

2 数据备份技术分析

数据备份是利用一定的技术方法将原始数据进行本地或异地复制, 实质是一种数据安全策略。在原始数据丢失或遭到破坏时, 利用备份数据恢复原始数据, 使数字图书馆服务能够正常运行。

2.1

数据备份方式

2.2 备份的评价指标

用来评价备份能力的指标主要是RTO (Recovery Time Objective) 恢复时间目标和RPO (Recovery Point Objective恢复点目标。RTO是指灾难发生后, 从系统当机导致业务停顿之刻开始, 到系统恢复至可以支持各部门运作, 业务恢复运营之时, 此两点之间的时间段。一般RTO时间越短意味着恢复至可使用状态所需时间越短。这要靠高性能的存储设备或高可用性软件实现;RPO是指对系统和应用数据而言, 要实现能够恢复至可以支持各部门业务运作, 系统及数据恢复到更新的程度。这种更新程度可以是上一周的备份数据, 也可以是上一次交易的实时数据。这决定于业务的性质和业务操作依赖于数据的程度。

2.3 备份等级划分

根据国际标准SHARE78的定义, 数据备份与恢复可分为7级, 按数据备份成本与恢复所需时间的关系可用塔状图表示 (图1) 。等级越高备份成本越高, 数据恢复需要时间越短。

从对业务连续性的保障程度来看, 可以把备份分成数据级和应用级。数据级备份是指数据中心将数据实时或非实时地复制到备份中心, 以确保原有的数据最少丢失或破坏。应用级备份是在数据级备份的基础上再把应用处理平台完全复制一份, 以确保在灾难发生时能提供不间断的应用服务。

3 解决高校数字图书馆数据安全问题的措施

近年来, 业内专家提出了许多行之有效的数据备份策略。2007年7月, 灾备系统的国家标准GB/T20988-2007《信息系统灾难恢复规范》出台, 为图书馆数据安全建设提供了重要的参考文件。在研究高校图书馆数据安全系统方案时, 笔者认为要达到保障数据安全的目的, 必须具备以下几个方面。

3.1 数据备份工作制度化

结合国内相关规定和本馆的实际馆情, 制定一套数据安全管理制度和安全责任体系。完善的管理机制能最大程度防止管理人员有意或无意的增加安全隐患的行为。建立图书馆数据安全基金。做好信息安全技术和网络安全意识的教育培训工作, 管理是保障, 责任意识是基础。增强每个图书馆员工的信息安全意识, 使其在不断的实践中明确和熟悉自己的责任, 提高应急素质, 发挥预案最大的效用。使工作人员清楚信息安全的重要性和违反安全规定的后果。

3.2 保障数据安全的专业队伍

系统管理员可以对整个备份系统进行任何操作, 也可以协助其他管理者使用备份系统。管理员应对备份业务内容非常熟悉, 包括对哪些数据进行备份、备份在什么时候进行、备份是使用全备份或增量备份以及备份的保存周期等策略, 进而执行相应的管理操作。培养一支训练有素、临危不乱、沉着应对、措施得当的专职队伍。

3.3 搭建健壮的本、异地备份物理环境

备份系统本身的稳定是图书馆数据安全的基础。购置必要的设备构健壮的数据备份中心。建立数据级和应用级备份预案。通过光纤链路, 完成数据中心和备份中心的连接, 采用同步数据复制技术、数据传输压缩和微扫描技术完成数据中心磁盘阵列和备份中心的数据同步, 降低数据传输成本, 定期将数据级备份提升到应用级备份。利用多对一的远程复制技术、数据加密和压缩技术、安全传输技术实现数据的异地备份。存储数据通过基于块增量的复制技术集中到数据备份中心站点上, 确保业务连续性。异地备份完全基于IP网络实现, 在数据备份时利用时间点快照技术可以自动、连续、按一定策略记录数据的时间点状态, 极大的降低了数据重建成本。

3.4 选择优质的数据备份软件

优质数据备份软件是为健壮的备份系统提供软环境保障。应当具有以下特性: (1) 是具有强可扩充性, 技术成熟、提供超稳定的服务。 (2) 是支持异构环境。 (3) 是包括数据库、应用、系统等各种数据在各个层次上的备份需求; (4) 能够通过图形化界面制定智能化管理策略, 并将这些策略非常容易地部署到应用中, 提供全自动备份; (4) 对数据进行备份和恢复要保证在小停数据库和应用的前提下进行。 (5) 支持逻辑合并、F1ash Copy (小文件高效备份) 、网络带宽管理、备份文件的断点续传、硬盘缓冲和恢复等丰富的备份管理和控制功能, 能够及时恢复备份数据, 是保证系统运行。可以全而提升数据备份和恢复的效率。

3.5 做好数据流安全过滤

运用防火墙配置、企业版杀毒软件部署, 做好数字图书馆网络核心入口和内部网络的数据流过滤与入侵检测。一方面根据网络安全策略控制 (允许、拒绝、监测) 出入的数据流, 尽可能对外部屏蔽内部的信息、结构和运行情况, 以防止潜在破坏性的入侵发生。另一方面实时监视、过滤可疑的连接和非法访问的闯入, 并对各种入侵行为立即做出反应。实时了解、统计、分析互联网使用状况, 并根据分析结果对管理策略做出调整和优化。

3.6 备份策略的制定

好的备份策略是数据有效和快速恢复的根本所在, 备份策略的选择要统筹考虑需备份的总数据量、线路带宽、数据吞吐量以及对恢复时间的要求等因素。备份策略包括两个部分:一是应用级的备份策略, 即操作系统和应用程序的备份, 可先对所有需要备份的较为重要的操作系统进行一次完全备份, 然后每周对关键系统做一次完全备份。二是业务数据 (包括数据库数据和文档的备份策略) 。数据备份包括实时备份、定时备份;全量备份、增量备份等策略。重点是真对数据库备份。数据库备份是指根据数据库的重要性对某些数据库进行在线备份及数据库的实时备份。这样可以保证数据库中数据的实时保存, 而不是在固定时间进行备份, 进而能够最大限度地保证数据库数据的安全性。另外在机器做过软件安装或系统升级后, 应立即对系统进行一次完全备份。

3.7 根据需求进行数据的恢复

常规的系统的数据恢复可以在备份服务器端或备份客户端进行。通过备份软件, 系统管理员可以选定要进行恢复的相应文件后选择恢复即可完成。当操作系统和应用程序代码出现故障时, 将全备份的数据按照相应的办法恢复即可。对文档保护措施我们经常采用加密、防止删除和隐藏等方法来做好文

档保护工作。而对于业务数据, 缺省情况下, 数据只恢复最近一次备份数据。备份什么样的数据、需在什么时间和采用什么样的备份方式都各有不同, 数据库系统进行恢复时, 由于备份的数据库保留了逻辑比占, 因此可以恢复所有记录。如果要恢复历史版本的备份数据, 就要先选择相应的历史备份数据, 然后选定要进行恢复的相应文件进行恢复。出现故障该如何恢复需要根据本馆数据实际情况进行详细的规划。

4 结束语

随着信息化建设的发展, 高校数字图书馆将更加开放、更加高效, 同时这也意味着在信息安全方面将面临更多的挑战。高校数字图书馆应顾全诸多因素积极制定并采取科学有效的措施防患于未然。数据安全问题是一项复杂的系统工程, 高校数字图书馆应根据本馆实际, 因地制宜设计、执行数据安全体系及规范, 全面、协调地应用多种防范措施, 同时加强自身建设, 严格数据管理, 不断加强数字图书馆数据安全队伍建设, 完善建设图书馆的数据备份与恢复系统, 规避因各种原因带来的数据安全风险。

参考文献

[1]百度文库.信息系统容灾备份解决方案[EB/OL].[2013-07-22]http://wenku.baidu.com/view/d186dac608a1284ac8504357.html

[2]新浪直播间.中国灾备管理战略国际研讨会[EB/OL].[2013-07-24].http://vipchat.sina.com.cn/content/biz2/log_3962.html.

图书馆数据分析 篇9

信息技术的快速发展是大数据产生和发展的基础, 大数据的兴起和发展成为新IT时代行业互联网化最为典型的特征之一。全球存储的数据量正在快速增长, 行业大数据也成为了各行各业所关注的焦点, 各级政府和各企事业单位都希望在大数据中挖掘出高质量、高附加值的信息, 并以此来改进自己的营利和服务模式, 提升自己在大众和行业中地位。在大数据时代, 对于为全校师生提供教学和科研服务的高校图书馆而言, 我们可以利用高效、快捷的信息技术对高校图书馆的各种数据进行深层次的分析和知识挖掘, 在知识发现的过程中改进信息服务模式, 提升服务质量, 更好地服务于师生的教学与科研。

1 大数据时代

1.1 大数据的定义

大数据是继云计算、物联网后信息科技等行业又一次大的技术变革, 是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

1.2 大数据的基本特征

大数据是横跨IT边界的动态活动, 所以大数据的存储和利用离不开网络。其基本特征可以用5V来形容:Volume、Velocity、Variety、Value和Veracity, 即体量大、速度快、多类型、价值高及真实性。

1.3 大数据分析概述

大数据分析中的分析实际上是一个广义的概念, 包括了采集、恢复、存储、管理、挖掘等, 然后通过分发知识共享等手段最终实现对决策的支持。

大数据分析技术具体指什么, 迄今尚无准确定义, 大数据分析有两个重点问题:一个是大数据本身的数据源, 另一个就是数据分析算法。我们所做的就是将二者有机结合, 从而达到从大数据中获得有价值的信息并依此来辅助相关决策的目标。

2 高校图书馆引入大数据分析技术的可行性

2.1 高校图书馆本身拥有大数据

高校图书馆拥有海量的纸质资源和电子资源, 同时拥有大量的读者, 并且需要对这些读者的信息进行组织和管理。以江西科技师范大学图书馆为例, 图书馆藏有中外文纸质图书258.97万册, 中外文纸质期刊1640种, 中文数据库21个, 外文数据库9个, 图书馆于2011年加入了拥有财经、农业、交通、航空和医学等专业高校和“211”高校图书馆所组成的昌北高校图书馆联盟, 有效实现了海量馆藏纸质资源和电子资源的共建、共知、共享。本校还有2万多师生读者, 这些读者的借阅信息记录也会形成一个庞大的数据库, 以上所拥有的数据量足以作为大数据分析技术的数据基础。

2.2 与图书馆相关的某些社交网络数据及借阅形成的大量的非结构化数据

据中国互联网中心2016年7月发布的第38次《中国互联网发展状况统计报告》显示, 截至2016年6月, 中国手机网民规模达6.56亿, 较2015年底增加3656万人。网民中使用手机上网人群占比由2015年底的90.1%提升至92.5%, 即时通信已经成为网民第一大上网应用, 手机端即时通信使用也一直保持稳步增长的趋势。截至2016年6月, 网民中即时通信用户规模达到6.42亿, 较2015年底增长1769万, 占网民总体的90.4%。其中手机即时通信用户6.03亿, 较2015年底增长4627万, 占手机网民的91.9%。智能移动终端正在改变着人们的生活, 移动终端已经成为指导人们生活并记录人们生活轨迹及人际关系的大数据库, 图书馆若想洞察读者当然不能忽略移动终端这个数据库中详实且非常细致的数据。图书馆的微信公众号、官方微博、QQ在线咨询、百度贴吧、移动图书馆等社交媒体不仅仅是图书馆和读者越来越重要的交流平台, 是图书馆用来了解读者对信息资源的需求、发现自身信息咨询服务中存在的问题以及读者的阅读心理的重要渠道, 如果能够拓展这方面的数据, 图书馆就能够全面、准确、及时的了解读者对于图书馆服务的体验和感受, 从而分析出用户的兴趣爱好和行为特征。现在高校图书馆使用的图书馆集成管理系统, 如金盘系统, 图书馆馆员可以利用该系统进行图书的借还、采访、编目、典藏、借阅统计等工作, 同时图书馆员还可以在系统中查询到读者的姓名、一卡通号、所在的学院班级、过往所借图书等。在利用大数据进行信息分析时, 以读者为分析对象, 根据读者的姓名、所在学院班级、所借阅图书的种类和数量、借阅周期、到馆时间等信息, 可以分析出每位读者所感兴趣的图书和他所阅读图书的数量、种类等, 这可以为高校图书馆的资源建设部提供采购图书的导向和参考, 为各教学学院和科研部门提供有价值的教学科研信息。

3 大数据时代高校图书馆信息服务的创新

3.1 利用大数据技术改进高校图书馆资源采购

大学时代学生有了更多的休闲时间, 学习往往也有更多的主动性, 他们会去图书馆查找和阅读自己所感兴趣的图书, 对图书采购的机动性、灵活性要求也越来越高。图书的采购影响因素有很多, 如现有馆藏、书籍流通情况、图书质量、出版时间、价格等等。在大数据时代, 仅仅依靠馆内数据是远远不够的, 我们可以通过门禁系统分析读者的进入图书馆数据、读者的历史借阅数据、读者所借图书馆的种类和数量、图书馆电子资源的利用率等, 为高校图书馆的资源采购部门提供有价值的参考意见和建议;还可以通过其他的数据获取方式, 如利用网络爬虫技术抓取各个网上书店的书籍发售和评价情况, 教务管理系统中学生的课程安排、学校的学科建设信息等来完善图书采购的策略。我们应该综合考虑读者的需求, 以读者为中心, 最大限度地适应读者的需求, 以便真正购买到广大师生读者需要的各类资源, 加强图书馆的资源建设, 做到资源的合理规划和科学发展。

3.2 对接学院的学科建设, 开展学科服务

图书馆是学校的文献信息资源中心, 是为人才培养和科学研究服务的学术性机构。与学校各院系保持经常性的交流沟通和开展学科化服务是完成图书馆职能的根本途径。为了更好地服务于学校的教学与科研, 各高校图书馆根据现有的条件和馆员的专业知识背景, 设置兼职学科馆员, 与各学院推荐的学科顾问直接沟通对话, 逐步开展学科服务。图书馆在各院系聘请1~2名知名教授或博士为学科顾问, 帮助图书馆了解广大教师对文献信息资源的需求和对图书馆各项服务的意见, 是图书馆与学院信息交流的纽带。这就要求学科顾问做到:工作积极主动、认真负责, 愿意为本学院的师生服务;协助学科馆员建立服务平台, 让每一位老师进入平台与学科馆员直接沟通, 让图书馆的服务落实到每一位老师;及时向教师和学生宣传图书馆的新资源和新服务, 及时反馈院系师生对图书馆各方面的需求信息;协助图书馆进行资源评估、调查和数据库试用, 对学科馆员的通知及时响应, 并做出相应安排。学科馆员是指图书馆设专人与某一个院系或学科专业作为对口单位建立联系, 在院系、学科专业与图书馆之间架起一座桥梁。其工作职责:建立与对口学院的固定联系, 及时掌握本学科发展动态、最新进展、资源出版动态, 了解老师对书、刊、电子资源的需求;定期到对口学院面对面回答对口学院师生提出的有关资源使用、推荐、培训等方面的问题, 每学期3~4次, 并做好相关学科服务记录;掌握图书馆资源及服务的最新动态, 根据教师研究的专业领域定期向教师推介图书馆资源及服务;协助对口学院的教师进行相关课题的专题文献检索, 逐步做到有针对性地为教学科研提供定题服务;承担本学科教师、研究生、本科毕业生培训的工作职责, 针对不同的需求, 开展多层次的、多样化的用户培训和用户教育等相关咨询与服务。

3.3 建立微信公众平台、官方微博、QQ在线咨询平台等社交媒体, 加强与用户的沟通与联系

新媒体的产生给人们的交流和沟通带来了极大的方便, 特别是QQ、微博、微信等信息交流平台, 受到了大学生的热烈追捧。读者只需关注公众号就可以利用自己的手机移动终端享受到查询借阅信息、馆藏查询、免费的数字化阅读等服务。在微信平台推荐信息资源, 发布数据库讲座信息、信息公告、图书馆主题活动的通知, 以及回答读者的咨询;在微博上发布新闻公告、知识推送、信息咨询、资源介绍“好书推荐”等相关信息并回答读者咨询的问题;江西科技师范大学图书馆的书香岁月QQ群是一个集阅读推广、参考咨询与学科服务于一体的在线咨询交流平台, 大家可以在群里交到志同道合的书友, 分享并传递他们阅读的快乐。

3.4 采用先进的数据挖掘与推荐技术, 深化个性化信息推荐服务

图书馆的资源是安装严格的标准规范组织起来的, 而且数量庞大, 读者在进行信息检索时, 要想合理的检索课程是否为所需要的课程参考信息是非常困难的。利用大数据分析技术, 根据用户行为模式和需求特征, 如读者所在院系、课程信息、科研论文、研究方向、阶段需求、知识结构、兴趣爱好、科研环境、心理特征、研究习惯、行为方式等诸多信息进行深入细致地了解, 找出用户的信息需求及变化规律, 向读者及时提供所需课程教学参考信息, 实现知识服务的精确性。

对于学生而言, 自己的信息和知识的需求能够得到及时的满足, 不仅能调动学生的主观能动性, 使他们积极主动的学习, 还能改进自己的学习方法, 提高学习效果和教学质量。老师可以通过图书馆的知识反馈来及时掌握学生的水平和进度, 并以此为依据来决定下一阶段的教学方法和教学计划, 这样能间接增加老师和学生的交流时间, 实现教学相长和师生的共同发展。师生获取到知识以后的信息反馈可以存储到图书馆的信息系统中, 作为下一阶段数据分析的重要参考, 这样图书馆和教学活动间可以实现信息交换、共享的良性循环。

4 结束语

大数据技术不是一种单一的技术, 而是各种技术的综合运用。大数据技术在图书馆服务的应用集中体现在提升图书馆服务的服务效率和服务质量上, 其应用特点也体现了大数据技术的软件分层的概念, 从基础的积累数据阶段不断向上演进, 直至最高的智慧阶段。借助大数据技术可以更好地分析读者的爱好, 便于图书馆对读者进行个性化服务, 提高服务质量, 图书馆人应积极转变观念, 借着大数据技术推动图书馆创新服务, 有效利用大数据技术驱动图书馆业务更好地发展。

参考文献

[1]董肃哲.高校图书馆引入大数据分析技术的可行性分析——以河南科技学院图书馆为例[J].农业网络信息, 2016, (01) :57-59.

[2]吴笑兰.基于大数据分析的高校图书馆读者决策采购优化策略浅谈[J].内蒙古科技与经济, 2016, (12) :133-134.

[3]黄维玲.大数据环境下高校图书馆的创新服务研究[J].情报探索, 2016, (05) :89-93.

[4]汪浩.大数据时代高校图书馆参考咨询服务的创新与发展[J].农业图书情报学刊, 2015, 27 (02) :188-190.

[5]胡颖.大数据时代高校图书馆信息服务创新与发展[J].河南图书馆学刊, 2015, 35 (12) :50-51.

[6]廖洪花.大数据时代下的高校图书馆数字化图书馆建设及服务走向分析[J].科技经济市场, 2014, (10) :199-200.

[7]http://www.cnnic.cn/gywm/xwzx/rdxw/2016/201608/W020160803204144417902.pdf

图书馆数据分析 篇10

1 数据挖掘概述

1.1 数据挖掘内涵

所谓数据挖掘[1], 就是从大量的、不完全的、有噪声的、模糊的、随机的数据和信息中, 通过各种技术和方法抽取出或识别出隐含的、未知的、但又确实存在、具有潜在价值的新知识和新信息的过程。

1.2 数据挖掘的功能和常用方法

数据挖掘任务[2]一般可分为两类:描述和预测, 目的是获得挖掘任务中要找的模式类型。数据挖掘的功能主要有概念/类描述、关联分析、分类和预测、聚类分析和偏差的检测。各项功能不是独立存在的, 在挖掘过程中互相联系共同发挥作用。以下是应用较广泛的数据挖掘算法和模型[3]。

(1) 传统统计方法: (1) 抽样技术; (2) 多元统计分析; (3) 统计预测方法。 (2) 可视化技术:用直方图等方式把数据特征直观地表述出来。 (3) 决策树:利用一系列规则划分, 建立树状图, 可用于分类和预测。 (4) 神经网络:模拟人的神经元功能, 经过输入层, 输出层等, 对数据进行调整计算, 得到结果, 用于分类和回归。 (5) 遗传算法:基于自然进化理论, 模拟基因联合、突变、选择等过程的一种优化技术。

1.3 数据挖掘的步骤

一般来讲数据挖掘的过程可粗略地分为[1]:问题定义→数据准备→挖掘算法的执行→结果评估和解释。

(1) 问题定义:在挖掘之前理解数据和实际的业务问题, 在此基础上对目标进行明确的定义。

(2) 数据准备:包括数据选取、数据预处理和数据变换三个步骤。

(3) 挖掘算法的执行:根据挖掘的目标和数据的特征, 选择合适的挖掘算法和模型。

(4) 结果评估和解释:对挖掘结果进行评价, 选择最优模型, 并结合知识对结果进行解释。

整个数据挖掘过程是一个不断反馈的过程, 以上的步骤不是一次完成的, 可能其中某些步骤或者全部要反复进行, 直到达到预期的结果。

2 数据挖掘在图书馆管理中的研究与应用

2.1 数据挖掘技术在图书馆中的具体运用

本文利用常用的挖掘算法从以下几个方面研究了如何对馆藏信息进行挖掘, 为图书馆进一步的发展提供决策支持。

(1) 利用分类、聚类技术对读者进行研究, 加强馆藏建设。

(2) 利用回归分析加强图书馆管理。

(3) 利用关联规则分析优化信息资源的建设。

(4) 针对图书馆信息资源中文本数据占据绝大多数的特点, 利用文本挖掘技术可实现文本数据自动摘要、文档自动分类等自动化处理。

2.2 基于数据挖掘的图书馆管理模型

基于以上研究本文提出了一个基于数据挖掘的图书馆管理模型, 如图1所示。并依据数据挖掘的步骤, 论述了如何利用该模型来对图书馆的管理模式进行分析并加以改善。

2.2.1 问题定义

将数据挖掘技术应用到图书馆中, 目的是为了通过分析图书馆的日志数据等, 挖掘出读者的需求和使用模式、最优的馆藏模式等以指导图书馆的建设。

2.2.2 建立挖掘数据库

读者的借阅情况、书籍的流通情况等都是挖掘数据库的数据源[4]。在数据写入数据库前, 首先对数据进行筛选、整合、转换, 形成挖掘所需的数据源。

2.2.3 分析数据

挖掘数据库建立之后, 将文本、图片等数据转换成数据挖掘算法的可用形式, 并依据选用的挖掘算法对数据进行分析。

2.2.4 建立模型

建模过程中, 将挖掘数据库分为两部分, 一部分进行模型训练, 另一部分测试模型。首先利用训练集建立一个用户模型, 然后用测试集对模型进行测试, 根据测试结果对训练数据进行修改或新建预测变量, 再来生成新的用户模型。最后从几个用户模型中选择一个最有效最好的模型。

2.2.5 评价和解释

从原始信息库中拿出一定百分比的数据作为测试数据, 对模型进行测试。将结果和原始数据比较, 测出模型的准确率, 准确率高于既定的标准则认为该模型是有效的, 否则找出错误原因重新进行挖掘。根据挖掘结果对图书馆的管理模型进行调整, 选择最优的管理模型。

3 结语

本文提出了基于数据挖掘的图书馆管理模型, 结合数据挖掘的原理, 对模型进行了具体分析。在该模型中引入数据挖掘技术, 将使图书馆的信息资源得以进一步的优化和丰富, 信息服务的质量发生质的飞跃。

参考文献

[1]邵峰晶, 于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社, 2003:2~15.

[2]Jiawei Han, Micheline Kamber[著], 范明, 孟小峰, 等[译].数据挖掘概念与技术[M].北京:机械工业出版社, 2001:14~17.

[3]陈京民, 等.数据仓库与数据挖掘技术[M].北京:电子工业出版社, 2002:20~30.

图书馆数据分析 篇11

关键词:大数据思维;图书馆;信息服务工作;分析

一、大数据思维

所谓大数据思维指大数据技术的内在逻辑及哲学基础,具有开放性、关联性、无偏性及规律性特点,接下来进行逐一的分析。

首先,规律性。面对庞大的数据信息,看似杂乱无章,实则有规律可循,原因在于这些数据是真实个体思想、心理、行为等的客观描述,而真实个体的心理机制、行为模式一般来说具有较强的稳定性,即,会呈现一些规律性的东西。不过这些规律不进行研究分析及深入的挖掘很难发现;其次,无偏性。大数据技术以统计学为基础,但又有所突破。统计学主要选择一些代表性的问题加以研究,因此,难免与总体有所偏离,而大数据直接对总体进行研究,因此总结出的规律具有无偏性特点;再次,关联性。大数据形成于数据群、数据集、数据库等不断的累加,其价值正是体现在数据之多与彼此的关联上,因此,对大数据进行挖掘时应将理清不同数据间的关联当做重点,将数据的隐性价值得以充分挖掘;最后,开放性。所谓开放性,指不预设可能出现的结论,即,在未获得结论前并不明确想要的结论。

总之,大数据不仅是一种技术,更是一种思维。图书馆应在充分把握大数据思维的前提下,实现服务模式的创新,不断提高信息服务质量。

二、大数据思维给图书馆信息服务的影响

大数据思维给图书馆信息服务带来的影响,更多的表现在对数据的存储、处理、信息安全及人才管理方面,接下来逐一进行探讨与分析。

首先,网络技术发展迅速,为满足人们需求,图书馆储存的图片、视频、音频文件等日益增多,给图书馆管理相关资源提出了更高要求。受大数据思维影响,致使图书管管理资源的方式发生了改变,主要体现在以下几个方面:其一,数据容量的增大,促使图书馆不得不采取有效方法,提高共享的高性能问题;其二,受文件数量的增加,网络性能不可避免的受文件备份、归档、分级等环节的影响;其三,部分重复的数据文件会占据大量的存储空间,增加数据文件的存储成本。

其次,在数据处理方面。尽管云计算的出现一定程度上解决了大数据的存储与管理问题,但其处理过程超出了传统信息咨询系统在搜索、输出、输入、交互等方面的要求,给传统信息咨询服务提出较大挑战,因此,在今后的发展中图书馆要想提高信息服务质量与水平应注重技术的更新。

最后,在信息安全及人才管理方面。大数据背景下图书馆需要处理的信息安全问题很多,例如,个人隐私、个人知识产权、机构组织的知识产权等。其有别于传统的信息安全,需要正确处理大数据时代保护、高速、开放等方面的问题。另外,规模庞大的数据需要大量专业人才的分析及处理,提供有力的技术支撑,然而就目前来看图书馆这方面的人才相对比较缺乏。

三、大数据思维给图书馆信息服务工作的启示

图书馆为满足大数据时代的要求,做好图书馆信息服务工作,需要结合实际加强服务模式的创新,不断提高自身服务水平。大数据思维给图书馆信息服务带来的启示很多,其中以下几方面内容需要加以重点考虑。

1.需要不断强化信息集成服务。众多周知,大数据背景下的数据结构与类型比较多,为给用户提供更好的服务,需要利用专门的手段与工具实现数据的集合,并按照一定的逻辑关系对其进行统一组织,而后建立相关的数据库,为实现数据资源的共享做好铺垫。同时,大数据背景下,大数据源位于不同的网络节点中,为此,图书馆需要构建集成的数据信息环境,将这些孤立的数据信息联系起來,而后将透明、统一的访问界面提供给用户,为其进行利用、检索及查询服务提供便利。而且大数据信息环境是一个复杂程度较高的异构数据环境,不同站点的组织与信息存在一定的差别,图书馆需要在认真研究各站点异构数据集成问题的基础上,结合具体的应用对其进行处理、整合与封装。另外,考虑到大数据涉及的数据信息规模比较大,图书馆应利用分布式协作策略实现数据信息的集成,并根据不同的学科划分数据资源空间,建立一些数据子空间,而后构建对应的系统,完成分布式协作数据集成体系的构建。

2.加强数据的分析与挖掘。大数据背景下,图书馆间的竞争不仅局限在文献信息的竞争上,更多的集中在数据的挖掘、融合及利用上,因此,图书馆应将数据分析与挖掘当做重点,尤其应做好以下工作:首先,完成数据间的关联。大数据背景下,数据类型较多,结构繁杂,要想更好的完成数据分析,需要建立不同数据间的关联,为数据的深层次分析奠定基础;其次,激活不常用的数据信息。图书馆系统内存在较多未被发现或利用的大量信息,甚至有些信息比较有价值,因此,图书馆进行数据分析时应将激活这些信息当做重点;最后,充分挖掘高价值的数据信息。图书馆应利用专门的数据分析技术,从随机、模糊、不完全的数据中挖掘出高价值的数据信息。

3.强调新型资源的收集。近年来,计算机网络技术发展迅速,致使大数据环境下很多信息资源媒体形式的产生,尤其基于web2.0技术上发展而来的社交网站、博客、社区等在组织、传播、收集信息资源方面的优势较为突出,为洞察、分析公众的某些观点提供了可能。因此,大数据背景下,图书馆应重视这些新型资源的收集,结合自身发展实际加以利用,为提高图书馆信息服务工作水平与质量提供有价值的参考。另外,图书馆还应适当将信息服务方向移动互联网倾斜,为用户提供更为便捷的服务。

四、总结

在大数据思维的影响下,图书馆信息服务工作出现的问题越发突出,因此,为切实做好图书馆信息服务工作,应不断研究与分析大数据思维,从大数据角度出发审视图书馆信息服务工作存在的问题,而后加以总结与反思,加以针对性改进与优化,更好的满足用户的各种诉求,确保图书馆信息服务工作健康、稳步发展,为构建和谐社会、传承人类智慧做出应用贡献。

参考文献:

[1]蒋琳. 网络环境下图书馆信息服务能力评价研究[D].南京理工大学,2005.

[2]黄付艳. 信息文化环境下图书馆信息服务模式发展研究[D].湘潭大学,2008.

[3]毛晓燕. 大数据环境下图书馆信息服务走向分析[J]. 图书馆工作与研究,2014,03:72-75.

图书馆数据分析 篇12

目前, 我国图书馆的数据存储形式较为单一, 几乎都是文献资源的电子化、数字化和视频化。这些数据基本上都是结构化的数据类型, 缺乏个性和价值再发现功能, 特别是那些隐藏着巨大价值的非结构化数据, 长期以来被图书馆所忽略, 几乎处于空白。众所周知, 大数据时代的信息竞争并非靠数据存储量的多寡来决定胜负, 更为重要的是非结构化的数据资源的重新发掘与再利用, 并将这些数据进行科学的分析, 以满足用户的个性化需求和多样化的知识储备。如清华大学图书馆尝试在检索平台“水木搜索”上综合运用多来源数据。将书、刊、文章等元数据汇聚在一起用于检索, 用户可通过开放链接技术定位及获取资源;同时, 清华大学图书馆还将维基百科的词条、清华教工简介、豆瓣书评、清华学生打过的标签等在展示层与检索结果建立关联, 用户可在一个检索结果页面获得不同层次、不同角度的信息内容。

因此, 在大数据的影响下, 未来图书馆的建设要把大数据作为一系统工程来考虑。图书馆的数据建设应该突破传统的将纸质资源数字化的简单层面的转化, 而是应该从数据采集、数据存储、数据处理、数据分析和数据应用等方面加以考虑, 从而构成图书馆数字资源的大数据框架。正如有研究者所说:“存储在各类数据库和文档系统中的科学数据以及以业界标准化关系数据库所产生的元数据体系, 将构成一种新型的、分布式的和整合式的数字图书馆。这种数字图书馆既包括传统数字图书馆的各类处理、管理、检索服务等功能, 又包括数据转换、可视化和数据挖掘服务等新型数据服务功能。”那么, 未来新型的数据图书馆将具备哪些特征和发展模式, 有研究者综合多方面的研究成果, 归纳出新型的数字图书馆会出现如下新的特征:“基于网络和数据场的学术过程记忆;在数据密集型科研环境下, 引文索引和评价将不再起主导作用;数据场中信息的类型、来源渠道和获取方式都是多元的;各种数据的流动、交互操作、融合、引用等都将留下轨迹;……把隐性的数据流动转变为显性的, 甚至可视化;基于网络和数据场的学术过程记忆将在学术跟踪和评价中大显身手。”

2 树立数据驱动的服务理念

传统语境下图书馆的基本服务就是文献资源的开放存取, 网络时代的出现使得图书馆更加重视文献资源的数据化转化。但是, 在大数据时代下, 数据成为图书馆资源的核心构件和图书馆运行的基础, 因此, 能否从传统信息服务理念向数据驱动服务理念的突破, 将是图书馆能否继续生存并保持活力的关键。当前的各级各类图书馆必须加强对大数据的重视, 认识到数据驱动服务理念的重要性, 大力拓展数据的组织和挖掘能力, 提升图书馆的竞争力。尤其是一些专业图书馆, “更应针对海量数据需要长期存储的需求, 为科研人员提供最佳信息和技术服务, 融入科研用户工作流的数据生命周期。数据驱动的服务模式将是现代科学图书馆发展的新的生长点。”图书馆工作人员可以通过数据把握趋势、理解需求。比如通过一段时间南京图书馆的借阅类目排名和读者构成, 我们就可以分析南京图书馆读者最喜爱阅读的图书类别以及这些读者的自然特征, 这样图书馆就可以有针对性地进行文献资源建设, 开办针对读者兴趣的讲座等读者服务活动, 甚至进行相关商业行为, 为图书馆的运行提供一定的经费来源, 而不仅仅是靠政府拨款。

3 强化知识服务功能

传统图书馆服务采用的是一种参考咨询和信息咨询服务模式。当我们进入大数据时代, 以数据为基础的图书馆服务正在发生变化。在大数据时代, 数据分析和数据挖掘将成为未来图书馆服务的一个重要内容。可以预测, 未来图书馆的业务将向数据分析和数据挖掘方向转移。这将在很大程度上改变图书馆的资源配置, 重组图书馆的数据资源, 进而改变图书馆的价值定位, 改变图书馆的评价体系, 改变图书馆工作人员的素养, 重构图书馆的数据结构。可以想象, 随着大数据的深入发展和所起的重要作为, 图书馆的信息咨询和资源借阅功能将走向弱化, 对大数据的分析与处理将成为未来图书馆的主要业务, 同时也将成为图书馆服务水平和发展潜力的重要评估指标。

在此背景下, 大数据时代图书馆的服务将突破传统的结构化数据的服务, 而是要经过大量数据的捕捉、组织、分析和决策所形成的多向度的服务体系。以信息的发掘、分析、处理与服务为趋势的图书馆的服务范围将会得到更大的扩展, 为某一学科、某一专业机构或政府企事业单位进行一站式的数据分析服务、数据挖掘服务。这种以知识服务为表征的服务功能是为了图书馆重要的数据增值功能的集中体现, 这将会成为大数据时代图书馆的常规服务内容。

目前, 国内外图书馆界在知识服务方面都进行了积极探索, 已形成了较为完整的图书馆知识服务体系, 产生了一些具有专业化、个性化的服务模式和服务途径。如清华大学图书馆尝试对其相关数据集合做一些分析工作, 即从元数据仓储中提取关键词等信息, 分析关键词走向, 分析作者与合作者的关系, 建立以人为中心的知识关联网络。美国国会图书馆根据读者数据的分析, 建立了符合读者阅读需求的“美利坚记忆”, 成为美国历史文化特色的馆藏资源。毫无疑问, 图书馆知识服务过程中需要大量的数据。这些数据既报刊已经存在于图书馆之中的书目信息、电子图书、电子期刊、视频资源等结构化数据, 也可能是图书馆的读者阅读行为、习惯和社会身份等非结构化的数据, 同时, 大数据时代图书馆的数据构成还有走出图书馆本身, 与各类商业中心、娱乐中心、社会服务中心等都要建立与他们之间的联系。加强数据资源共享。因此, 图书馆工作人员应认清数据在知识服务特别是知识服务中的重要作用, 进一步提高图书馆各类数据的收集意识, 通过对收集到的数据进行挖掘、分析、加工和重组, 把大量随机分散的、杂乱无序的信息转换为有规律的、集中的、有序的数据, 为图书馆将来的知识服务提供坚实的数据保障。

摘要:当前, 图书馆领域正在迎接大数据时代的到来。在“大数据”时代下, 图书馆应该建立以数据驱动为基础的服务模式, 重建新型数据图书馆、树立数据驱动的服务理念、强化知识服务功能, 实现图书馆有效的数据管理和应对新型数据变革。

关键词:大数据,图书馆,数据驱动,服务模式

参考文献

[1]刘明, 李娜.大数据趋势与专业图书馆.中华医学图书情报杂志, 2013.

上一篇:旅游观光车辆下一篇:娱乐明星