图书馆数据(共12篇)
图书馆数据 篇1
1 重建新型数据图书馆
目前, 我国图书馆的数据存储形式较为单一, 几乎都是文献资源的电子化、数字化和视频化。这些数据基本上都是结构化的数据类型, 缺乏个性和价值再发现功能, 特别是那些隐藏着巨大价值的非结构化数据, 长期以来被图书馆所忽略, 几乎处于空白。众所周知, 大数据时代的信息竞争并非靠数据存储量的多寡来决定胜负, 更为重要的是非结构化的数据资源的重新发掘与再利用, 并将这些数据进行科学的分析, 以满足用户的个性化需求和多样化的知识储备。如清华大学图书馆尝试在检索平台“水木搜索”上综合运用多来源数据。将书、刊、文章等元数据汇聚在一起用于检索, 用户可通过开放链接技术定位及获取资源;同时, 清华大学图书馆还将维基百科的词条、清华教工简介、豆瓣书评、清华学生打过的标签等在展示层与检索结果建立关联, 用户可在一个检索结果页面获得不同层次、不同角度的信息内容。
因此, 在大数据的影响下, 未来图书馆的建设要把大数据作为一系统工程来考虑。图书馆的数据建设应该突破传统的将纸质资源数字化的简单层面的转化, 而是应该从数据采集、数据存储、数据处理、数据分析和数据应用等方面加以考虑, 从而构成图书馆数字资源的大数据框架。正如有研究者所说:“存储在各类数据库和文档系统中的科学数据以及以业界标准化关系数据库所产生的元数据体系, 将构成一种新型的、分布式的和整合式的数字图书馆。这种数字图书馆既包括传统数字图书馆的各类处理、管理、检索服务等功能, 又包括数据转换、可视化和数据挖掘服务等新型数据服务功能。”那么, 未来新型的数据图书馆将具备哪些特征和发展模式, 有研究者综合多方面的研究成果, 归纳出新型的数字图书馆会出现如下新的特征:“基于网络和数据场的学术过程记忆;在数据密集型科研环境下, 引文索引和评价将不再起主导作用;数据场中信息的类型、来源渠道和获取方式都是多元的;各种数据的流动、交互操作、融合、引用等都将留下轨迹;……把隐性的数据流动转变为显性的, 甚至可视化;基于网络和数据场的学术过程记忆将在学术跟踪和评价中大显身手。”
2 树立数据驱动的服务理念
传统语境下图书馆的基本服务就是文献资源的开放存取, 网络时代的出现使得图书馆更加重视文献资源的数据化转化。但是, 在大数据时代下, 数据成为图书馆资源的核心构件和图书馆运行的基础, 因此, 能否从传统信息服务理念向数据驱动服务理念的突破, 将是图书馆能否继续生存并保持活力的关键。当前的各级各类图书馆必须加强对大数据的重视, 认识到数据驱动服务理念的重要性, 大力拓展数据的组织和挖掘能力, 提升图书馆的竞争力。尤其是一些专业图书馆, “更应针对海量数据需要长期存储的需求, 为科研人员提供最佳信息和技术服务, 融入科研用户工作流的数据生命周期。数据驱动的服务模式将是现代科学图书馆发展的新的生长点。”图书馆工作人员可以通过数据把握趋势、理解需求。比如通过一段时间南京图书馆的借阅类目排名和读者构成, 我们就可以分析南京图书馆读者最喜爱阅读的图书类别以及这些读者的自然特征, 这样图书馆就可以有针对性地进行文献资源建设, 开办针对读者兴趣的讲座等读者服务活动, 甚至进行相关商业行为, 为图书馆的运行提供一定的经费来源, 而不仅仅是靠政府拨款。
3 强化知识服务功能
传统图书馆服务采用的是一种参考咨询和信息咨询服务模式。当我们进入大数据时代, 以数据为基础的图书馆服务正在发生变化。在大数据时代, 数据分析和数据挖掘将成为未来图书馆服务的一个重要内容。可以预测, 未来图书馆的业务将向数据分析和数据挖掘方向转移。这将在很大程度上改变图书馆的资源配置, 重组图书馆的数据资源, 进而改变图书馆的价值定位, 改变图书馆的评价体系, 改变图书馆工作人员的素养, 重构图书馆的数据结构。可以想象, 随着大数据的深入发展和所起的重要作为, 图书馆的信息咨询和资源借阅功能将走向弱化, 对大数据的分析与处理将成为未来图书馆的主要业务, 同时也将成为图书馆服务水平和发展潜力的重要评估指标。
在此背景下, 大数据时代图书馆的服务将突破传统的结构化数据的服务, 而是要经过大量数据的捕捉、组织、分析和决策所形成的多向度的服务体系。以信息的发掘、分析、处理与服务为趋势的图书馆的服务范围将会得到更大的扩展, 为某一学科、某一专业机构或政府企事业单位进行一站式的数据分析服务、数据挖掘服务。这种以知识服务为表征的服务功能是为了图书馆重要的数据增值功能的集中体现, 这将会成为大数据时代图书馆的常规服务内容。
目前, 国内外图书馆界在知识服务方面都进行了积极探索, 已形成了较为完整的图书馆知识服务体系, 产生了一些具有专业化、个性化的服务模式和服务途径。如清华大学图书馆尝试对其相关数据集合做一些分析工作, 即从元数据仓储中提取关键词等信息, 分析关键词走向, 分析作者与合作者的关系, 建立以人为中心的知识关联网络。美国国会图书馆根据读者数据的分析, 建立了符合读者阅读需求的“美利坚记忆”, 成为美国历史文化特色的馆藏资源。毫无疑问, 图书馆知识服务过程中需要大量的数据。这些数据既报刊已经存在于图书馆之中的书目信息、电子图书、电子期刊、视频资源等结构化数据, 也可能是图书馆的读者阅读行为、习惯和社会身份等非结构化的数据, 同时, 大数据时代图书馆的数据构成还有走出图书馆本身, 与各类商业中心、娱乐中心、社会服务中心等都要建立与他们之间的联系。加强数据资源共享。因此, 图书馆工作人员应认清数据在知识服务特别是知识服务中的重要作用, 进一步提高图书馆各类数据的收集意识, 通过对收集到的数据进行挖掘、分析、加工和重组, 把大量随机分散的、杂乱无序的信息转换为有规律的、集中的、有序的数据, 为图书馆将来的知识服务提供坚实的数据保障。
摘要:当前, 图书馆领域正在迎接大数据时代的到来。在“大数据”时代下, 图书馆应该建立以数据驱动为基础的服务模式, 重建新型数据图书馆、树立数据驱动的服务理念、强化知识服务功能, 实现图书馆有效的数据管理和应对新型数据变革。
关键词:大数据,图书馆,数据驱动,服务模式
参考文献
[1]刘明, 李娜.大数据趋势与专业图书馆.中华医学图书情报杂志, 2013.
[2]王学勤.建立数据驱动的e一Science图书馆服务:机遇和挑战.图书情报工作, 2011.
图书馆数据 篇2
数据流描述:
数据流编号:D01 数据流名称:图书采编信息 简述:图书采编信息
数据流来源:图书购买后,由图书馆采编人员整理后,输入计算机
数据流去向:采编管理模块。图书采编信息将采编数据存入数据库(图书表)数据流组成:图书编码,图书类别,书名,作者,出版社,出版日期,单价,购买数量
数据流量:300本/日 高峰流量:800本/日
数据流编号:D02 数据流名称:借书借阅 简述:借书证 数据流来源:用户将借书证交给借书员,借书员经过审查后将相关信息输入计算机
数据流去向:P2_11检查读者身份
数据流组成:借阅日期+书名+读者账号+读者姓名+借阅数量等 数据流量:800个/日 高峰流量:3000个/日
数据流编号:D03 数据流名称:填写借阅记录 简述:填入借阅表的记录
数据流来源:P2_13检查合格的借阅图书信息录入到借阅库中 数据流去向:借阅库
数据流组成:借阅号+借阅日期+书名+图书编码+读者姓名+读者账号+还书日期+借阅数量+状态等
数据流编号:D04 数据流名称:借阅修改在库 简述:修改的借阅记录
数据流来源:P2_13将借阅的图书的记录录入到图书库 数据流去向:图书库
数据流组成:借阅号+借阅日期+书名+图书编码+读者姓名+读者账号+还书日期+借阅数量+状态等
数据流编号:D05 数据流名称:图书检索要求
简述:读者要求求得图书检索信息 数据流来源:读者输入的检索要求 数据流去向:图书库以及检索处理系统 数据流组成:图书名+图书编号等
数据流编号:D06 数据流名称:图书检索结果
简述:读者经过在检索系统终端输入检索信息后由检索系统返回的结果 数据流来源:检索系统 数据流去向:读者
数据流组成:图书名+图书编号+图书索引号+图书所在的书架编号等
数据流编号:D13 数据流名称:电子读物查询要求 简述:读者需要查询的图书信息 数据流来源:读者
数据流去向:电子读物处理模块
数据流组成:图书编号+图书名+出版社等
数据流编号:D14 数据流名称:电子读物查询结果
简述:电子读物处理模块对读者输入的反馈 数据流来源:电子读物处理模块 数据流去向:读者
数据流组成:图书内容+图书所在网站超连接等
数据流编号:D15 数据流名称:还书记录
简述:所还图书进行入库记录 数据流来源:图书馆管理板块
数据流去向:图书馆归还处理模块
数据流组成:图书编号+图书名+借阅证号等
数据流编号:D16 数据流名称:填写归还记录
简述:管理员填写归还图书馆的图书记录 数据流来源:图书馆归还处理模块 数据流去向:读者库模块
数据流组成:图书编号+图书名+管理员编号+日期等
数据流编号:D17 数据流名称:归还修改在库数量 简述:图书归还后该书在读者库的记录 数据流来源:图书馆归还处理模块 数据流去向:读者库模块
数据流组成:图书编号+图书名+管理员编号+日期等
数据流编号:D18 数据流名称:图书维护需求
简述:对目前读者库图书进行维护 数据流来源:图书管理模块 数据流去向:图书维护模块 数据流组成:管理员编号+图书编号+图书名+条形码号+出版社+出版日期+入库日期+作者+单价+数量等
数据流编号:D19 数据流名称:库存图书统计
简述:对目前读者库内存书进行统计 数据流来源:图书管理模块 数据流去向:图书维护模块
数据流组成:图书编号+图书名+条形码号+出版社+出版日期+入库日期+作者+单价+数量等
数据流编号: D20 数据流名称: 借阅情况统计
简述:对目前外借的、不在读者库的图书进行统计 数据流来源:图书管理模块 数据流去向:图书维护模块
数据流组成:图书编号+图书名+条形码号+出版社+出版日期+出库日期+作者+单价+数量+借阅证号等
数据流编号:D21 数据流名称:读者情况统计
简述:对借阅者进行统计 数据流来源:图书管理模块 数据流去向:图书维护模块
数据流组成:借阅证号+图书名+条形码号+出版社+出版日期+出库日期+作者+单价+数量+金额+借阅期限等
数据流编号:D22 数据流名称:读者登陆信息 简述:图书管理员对读者登陆信息进行检查 数据流来源:图书管理模块 数据流去向:检查读者登陆模块
数据流组成:管理员编号+借阅证号等
数据流编号:D23 数据流名称:读者信息
简述:图书管理员对读者登陆信息进行记录 数据流来源:检查读者登陆模块 数据流去向:读者表 数据流组成:借阅证号等
数据流编号:D24 数据流名称:读者查询
简述:借阅管理员输入的读者登录信息 数据流来源:借阅管理员
数据流去向:读者登录检查系统 数据流组成:读者姓名+读者编号等
数据流编号:D25 数据流名称:读者查询结果
简述:登录系统在检查读者输入的读者信息后返回个借阅管理员的结果 数据流来源:登录系统 数据流去向:借阅管理员
图书馆数据 篇3
关键词 图书馆 大数据 数据素养
分类号 G254.97
DOI 10.16810/j.cnki.1672-514X.2016.09.009
Abstract This paper introduces the meaning of data literacy in the era of big data, and puts forward the methods and ways of implementing the data literacy education in university libraries through comparing the emphasis of the data literacy in China and USA, such as strengthening the library data literacy education responsibility consciousness, the cultivation of data literacy librarians and the data literacy education of student readers, so as to ultimately achieve the goal of forming readers’ data skills.
Keywords Library. Big data. Data literacy.
数据素养是指在大数据时代背景下产生的对大数据进行处理和研究的个人素养,它与目前高校普遍的信息素养、信息检索有着比较明显的区别。对于它的含义尚无权威定论。有学者专家认为“数据素养”(data literacy),也常叫做“数据信息素养”(data information literacy),主要指研究者在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力,以及研究者在数据的生产、管理和发布过程中的道德与行为规范[1]。对高校而言,数据素养教育就是要培养学生在大数据时代对数据的感知、收集、处理和利用的能力。那么如何来进行有针对性的教育就是本文讨论的问题。
1 数据素养在美国的推动
早在2012年3月29日,美国总统奥巴马宣布启动“大数据研究与开发计划”(Big Data Research and Development Initiative)[2],该计划指出提升国家先进核心技术需要收集,存储,管理,分析和分享海量数据,利用数据处理技术能够加快科学研究和工程探索的步伐,保护国家安全,实现这一目标六个联邦部门和机构预计将投资超过2亿美元。科学数据素养人才正是这项计划的核心,只有通过数据素养教育才能培养出来。在这项计划的推动下,美国已经形成了比较完善的人才数据素养培养体系,从小学到研究生培养过程都十分重视培养他们的数据素养教育。2012年,美国博物馆与图书馆服务协会(Institute of Museum and Library Services,IMLS)资助了“数据信息素养项目”,探索如何培养下一代科学家查找、组织、利用与共享数据的能力[3]。
2 我国数据素养的现状
20世纪80年代,国家教育部就发文对高校开设文献检索课提出了若干具体要求,全国各高校应要求都普遍开设了文献检索课,对读者进行信息素养教育。目前,文献检索课和普通的信息素养教育对读者的教育都是停留在表面,仅告诉读者通过什么方法和途径来获取所需的信息,而对获取来的信息如何去处理,如何去利用根本没有涉及,更别提如何去进一步创新。
近几年,不管是国内教育界还是图书馆界都开始研究数据素养教育。何海地[4]认为大学生数据素养通过通识教育和专业学科领域两个层面来理解。在大数据背景下他建议大学图书馆开展数据素养教育可以先从通识教育层面开始,而真正实现则是要从教学内容和教学理念上进行转变,更需要教学团队开展教学内容的研究与合作,同时重视数据的采集和处理能力培养。杨晓琼[5]认为高校开展数据素养教育应该以图书馆为中心,通过与专业教师合作、与学生创新型学习合作、与数据库提供商合作这三种途径来实现。张晨[6]认为高校图书馆在大数据时代应该转变职能,通过制定具体培训计划,将数据素养嵌入到服务和有关课程中和开展数据素养教育活动来实现数据素养教育的目标。各知名大学也开始探索更深入的教育方式,即数据素养教育。如北京大学图书馆2016年春季学期一小时讲座就安排了连续三个介绍数据素养与统计数据资源专题、一个数据统计分析软件SPSS入门专题和NoteExpress、EndNote Online两款文献管理工具介绍专题,为我国高校图书馆的大学生数据素养教育提供了实践参考和榜样[7]。
3 高校图书馆开展数据素养教育的思考
数据素养教育离不开图书馆,以其为中心开展相关的教育任务。因此,高校图书馆要有这种责任意识,勇于承担,图书馆人应该尽早关注和研究数据素养教育,迎接即将而来的挑战。
3.1 图书馆自身数据素养教育
数据素养强调的是对获取信息的进一步处理,通过对数据的分析、存储、处理从而得到相应的结论。读者要具备这样的素质,就必须由图书馆对其进行数据素养教育。然而数据素养教育在我国起步发展时间尚短,绝大多数图书馆员的思维还停留在文献检索和传统信息素养教育上面,其数据意识和认知并没有跟上大数据发展的趋势,馆员的数据知识和数据管理技能匮乏,数据素养水平整体较低下已不再能满足大数据时代对数据应用的要求[8]。
nlc202309090417
哈佛大学图书馆长期开设馆员“数据科学家”培训课程,其目的就是在为图书馆培育数据人才。我们的数据素养教育才刚刚起步,在大数据时代来临之时我们的图书馆馆员必须重视这方面的继续教育,不断提升自身的技术水平和数据素养水平,为开展数据素养教育和相关支持服务做好储备。
3.2 学生读者的数据素养教育
高校图书馆要传承自身原有承担的对读者进行信息素养教育的责任,在面对新动态时,对读者的素养教育不能仅仅停留在原来的如何获取、获取途径、使用什么样的检索词和检索式的信息素养教育模式上,需要从以下几个方面来开展数据素养教育。
3.2.1 培养学生读者的数据素养意识
数据意识包括数据主体意识、数据获取意识、数据共享意识、数据更新意识、数据安全意识以及数据人才意识等[9]。哲学上讲,事物的发展变化是最终还是由内因决定的,所以数据素养教育最终的落脚点是在读者身上。对高校图书馆而言,读者对象则是师生读者,其中学生读者占绝大多数。对学生读者的数据素养教育应该是要贯穿整个大学过程,首先最重要的就是培养他们的数据意识,数据意识是数据素养的先决条件。读者对这些数据的敏感程度,对数据中能够反映出来的问题的洞察力和判断力直接决定了对数据进行下一步处理的自觉程度。
3.2.2 加强数据素养教育和学生读者课程教育的紧密结合
当前不管是大学教育还是小学初中高中教育都强调实践和动手操作能力,特别是在大学阶段。很多学校在近几年都进行了课程改革,将原有理论性强、枯燥干巴的书本知识通过一个个具体的项目形式表现出来,学生通过完成这样一个个的项目把知识用于实践,通过实践消化知识,从而达到提升自我的目的。高校图书馆应该意识到这种变化,把数据素养教育和学校课程改革相结合,改革传统信息检索课的教学方法,通过引进项目教学方法,以学生为主体,让学生分成若干个小组,组成团队去共同完成一个从数据收集、整理、分析到评价的项目,在潜移默化中培养学生的数据素养,每个学生通过参与项目,掌握数据、管理和分析的技能,提升自身的数据素养[10]。
3.2.3 开展数据素养工具和学生读者的交互式培训
“工欲善其事,必先利其器”,学生具有了数据素养意识和相应的素质之后,熟练掌握相应的数据素养工具就成为了必然要求,这些工具能够大大提高他们数据分析的能力,能够挖掘出数据间的关联,起到事半功倍的效果。目前比较常用的软件Note Express和End Note Online 软件,能帮助学生高效收集、规范文献数据管理,提升论文写作质量和效率。而SPSS、Citespace、Ucinet等数据统计分析和图形可视化工具,可以帮助处理大量复杂且繁琐的数据。北大图书馆在这方面的研究处于前列,2014年他们就已率先开展了数据素养教育的在线培训,2016年更是开展了针对这几种软件和工具的讲座。通过这种交互式的培训,教会一批学生使用,然后就能以点带面,让更多的人学会,达到提高数据素养的效果。除此之外,浙大和上海交大图书馆也为学生开设了这类课程,为提高学生的分析、统计能力和数据素养打下了良好的基础。
3.2.4 建立多方合作的学生读者数据素养教育模式
高校图书馆自身开展数据素养教育受人力和技术水平的限制,因此必须和学校其他部门相互合作,和有技术水平的数据库商合作。一方面,数据素养教育的对象是学生,如何有效的组织学生和把数据素养教育融入到课程中是直接关系到数据素养教育效果的重要因素,这就需要和学校其他部门如教务处、各院系、信息中心等多个部门通力合作,制定合理的教学计划,提供技术支持,全校统筹安排。另一方面,和图书馆合作的数据库商,他们在数据的统计、获取和处理方面有着明显的技术优势。如我们可以从中国知网(CNKI)的“指数”检索功能中获得某个关键词的关注度;从万方数据知识服务平台的“知识脉络分析”分析知识点、领域的研究趋势及热点变迁,这都是系统基于大数据分析统计后提供的结果[4]。而数据素养教育中就包含了这方面内容,图书馆可以通过与数据库商协商合作,由数据库商提供相关专门技术人员进行服务,开展有针对性的培训课程。
3.2.5 构建高校学生读者数据素养的课程体系
信息素养和信息检索的课程体系发展到现在已经非常完善,而数据素养教育在国内尚属新概念,目前在高校中主要还是教授信息检索课程,只有北大图书馆、浙大图书馆和上海交大图书馆有数据素养的相关培训课程,真正的数据素养课程完全没有开展。而国外很多高校目前已经开展了针对读者的数据素养课程。例如,美国明尼苏达大学图书馆通过图书馆主页为读者提供了数据素养的教程和指南[11]。通过在线方式和详细的步骤,由浅入深地给读者介绍各种数据素养的工具和方法。加州大学伯克利分校则是设立了“研究性数据资源管理”的专题,其中包含了数据的收集、组织、管理和分享[12]。结合我国信息素养教育的实际情况,在现有信息检索课程体系的基础上,参考目前国内部门高校数据素养教育培训课程模式,吸取国外大学数据素养的先进经验,今后能够在高校中构建一个动态的、开放的数据素养教育课程体系,培养和提升学生的数据素养。
4 结语
通过图书馆自身数据素养责任意识的提升和数据素养馆员的培养,培养学生读者的数据素养意识,将数据素养教育和学生读者课程教育紧密结合,开展数据素养工具和学生读者的交互式培训,形成多方合作的学生读者数据素养教育模式,构建高校学生读者数据素养的课程体系,最终的目的就是形成读者的数据技能。数据技能是数据素养的保证,它是数据素养最重要的一个方面,包括获取、处理、利用、展示、评价以及再创造数据的能力等等。因此在大数据环境下,数据素养教育日益重要和紧迫,它是让读者在大量无规律的数据中辨别自己所需的数据,并能根据所掌握的知识、技能和工具,迅速有效地获取、利用数据,并创造出新数据的必经之路。
nlc202309090417
参考文献:
[ 1 ] 张静波.大数据时代的数据素养教育[J].科学,2013,65(4):29-32.
[ 2 ] Obama Administration Unveils“Big Data”Initiative:Announces $200 Million In New R&D Investments[EB/OL].[2016-04-26].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf.
[ 3 ] Project Overview[EB/OL].[2016-04-26].http://wiki.lib.purdue.edu/display/ste/home.
[ 4 ] 何海地.大数据背景下大学图书馆开展数据素养教育的思考[J].现代情报,2015(9):130-134.
[ 5 ] 杨晓琼.大数据时代高校数据素养教育的合作路径[J].情报资料工作,2015(3):98-102.
[ 6 ] 张晨.大数据时代的图书馆与数据素养教育[J].图书与情报,2014(4):117-119.
[ 7 ] 北京大学一小时讲座:资源篇[EB/OL].[2016-04-26].http://www.lib.pku.edu.cn/portal/fw/yixiaoshijiangzuo/ziyuanchazhao.
[ 8 ] 郝媛玲.高校数据素养教育实践的思考和建议:基于哈佛大学案例和我国图书情报人员访谈的分析[J].图书情报工作,2015(6):44-51.
[ 9 ] 媛玲,沈婷婷.数据素养及其培养机制的构建与策略思考[J].情报理论与实践,2016(1):58-63.
[10] 吴晶娥.高校图书馆大学生数据素养教育探析[J].图书馆理论与实践,2015(12):73-77.
[11] Workshops, tutorials, and guides[EB/OL].[2016-03-21].https://www.lib.umn.edu/instruction/tutorials#finding.
[12] Data management resources for research[EB/OL].[2016-04-26].https://wikihub.berkeley.edu/display/istds/Data+Management+Resources+for+Research.
雷红刚 江苏经贸职业技术学院图书馆读者服务部主任、馆员。江苏南京,211168。
(收稿日期:2016-04-29 编校:刘忠斌)
图书馆数据 篇4
1 数据仓库
数据仓库是一个面向主题的、集成的、非易失的、时变的数据集合,支持管理部门的决策过程[3]。图书馆数据仓库同样应具有这四个方面的特征[4,5]。(1)面向主题:数据仓库中关注的是对决策有用的数据,是按照一定的主题域进行组织的。图书馆的数据仓库可以围绕读者、时间、借阅分类等主题组织高层次数据分析。(2)集成:图书馆数据仓库中的数据是在对原有分散的数据库数据抽取和清理的基础上,包括命名、编码、属性等数据转换,消除了源数据噪音和不一致性,并将原始数据结构做一个面向读者、时间、借阅分类等主题转变。(3)时变的:图书馆数据仓库结构将反映历史变化,包含时间元素,回溯从过去某一时间段的历史信息,如对年、季度、月、星期、每天的时段做出汇总分析,为未来趋势做出预测提供根据。(4)非易失的:图书馆数据仓库不需要事务处理、恢复和并发控制,要求的数据是相对稳定的,只需要数据的初始载入和数据访问。一旦对在数据仓库中装入数据后,将长期保存,只偶尔的定期更新,很少有修改和删除操作,通过大量的查询操作,就能为图书馆管理层决策提供数据支持。
2 OLAP
关系数据库之父E.F.Codd于1993年首次提出OLAP(联机分析处理)的概念,在业界引起了很大的反响[6]。OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。”这些信息是从原始数据转换过来的,它们以用户容易理解的方式,反映企业的真实情况[7]。(1)OLAP技术核心是“维”(dimension)。维实际上是一种层次类型划分,是人们更高层次地观察和认识客观世界的角度。一个实体的多个重要属性定义为多维,维又包含多个子属性,属性间包含层次关系。OLAP对不同维上的数据进行比较,进行多维的数据分析[8]。(2)OLAP操作主要分为钻取、上卷(roll-up)和下钻(drill-down)、切片(slice)和切块(dice)、转轴(pivot)等[9]。(3)OLAP实现主要方 式分为ROLAP、MOLAP、HOLAP。ROLAP(Relational OLAP)以关系数据库为核心,以关系型结构进行多维数据的表示和存储,将多维数据结构划分为事实表和维表,事实表用来存储数据和维关键字,对每个维至少使用一个表来存放维的层次、成员类别等描述信息。维表和事实表通过主键和外键关联,形成了“星型模型”。如果维的层次比较复杂,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模型的扩展称为“雪花模型”。MOLAP(Multidimensional OLAP)实现使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,可以对“立方块”进行旋转、切块、切片等操作。HOLAP(Hybrid OLAP)表示基于混合数据组织的OLAP实现,提供更好的灵活性,如将大量详细数据存在是关系型数据库中,而聚集数据存在MOLAP中[9]。
3 图书馆数据仓库系统
图书馆数据仓库系统对图书馆数据进行提取、清理、转换和载入,并对数据仓库中存储的数据进行更新、管理和使用,用以支持数据仓库的应用或决策服务。图书馆数据仓库系统如图1所示,包含数据源(图书馆数据库),数据提取、清理、转换和载入,数据存储与管理,OLAP服务器和前端数据查询和分析工具五部分组成[10,11]。
数据查询和分析可以挖掘出读者历史的借阅行为,从而分析出读者现在及未来的借阅需求。图书馆数据库是数据仓库系统的数据源基础。数据抽取、清理、转换和加载部分从数据源中抽取数据,对数据预处理、数据转换,并根据数据仓库的设计要求对数据进行重新组织和加工后将数据加载到数据仓库中。OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织以便进行多角度、多层次的分析。前端数据访问和分析工具供图书馆管理人员和决策人员访问目标数据库中的数据,并做深入分析以实现决策支持系统的各种要求。
4 图书馆数据仓库系统的实现
图书馆数据仓库系统如图2所示,使用MicrosoftSQL Server Analysis Services2008,对阿坝师专图书馆数据库2010年、2011年、2012年学生流通历史数据,构建使用多维数据结构,分析生成大量快速、直观的数据视图。在多维数据集Borrow_Date.cube中进行OLAP操作。
4.1 维度建模
数据仓库和OLAP是基于多维数据数据模型的,即数据立方体形式。数据立方体Borrow_Date.cube从多维对数据建模和观察,它是由维和事实下定义,涉及三个维表和一个事实(BORROWFACT)。如图3所示,这三维度是:READER (读者维),TIME (时间维)和CLASSIFICATION(分类)。每个维提供不同的属性,并与一个维表关联。事实是数值度量的,是多维数据模型中心主题,与事实表对应。多维数据集或者说数据立方Borrow_Date.cube由单元组成,按单元按度量值组和维度进行组织。单元表示多维数据集中来自多维数据集内每个维度的一个成员的唯一逻辑交集,单元计算是对借阅事实计数。
4.2 数据模型
目前流行的数据仓库模型是关系型多维数据模型,主要分为星形模型、雪花模型或事实星座模型。关系型多维数据模型就是要把不同主题和维的信息映射到数据仓库中的具体表中。星型模型中仅使用事实、维、维属性、事实度量来描述,每维只用表一个表示,而每个表包含一组属性。雪花模型是星形模型的变形,在星型模型的基础上增加了对维度表的描述,进一步把数据分解到附加表,其形式类似于雪花的形状。事实星座模型需要多个事实表共享维表,可以看作是星形模型的汇集。雪花模型可以减少冗余,减少存储空间,但浏览的性能受限。基于数据仓库与OLAP技术的图书馆流通数据分析采用星形模型,如图4所示,包含三个维表和一个事实表。
事实表:BORROWFACT(TT_ID,TIME_ID,读者号)
维表:CLASSIFATION(TT_ID,题名,类号),下划线表示主键,其中类号经过处理,取两位。
维表:TIME(TIME_ID,年份,月份,季度,星期,某月的第几天,周几,时段)
维表:READER(读者号,性别,系部,专业,年级)表示事实表和维表间的主键和外键关系见表1:
4.3 概念分层
某些维的属性之间存在全序关系或偏序关系,在数据模式中表现为概念分层,即存在一个从低层概念到高层概念一个映射序列。如维READER由属性读者号、性别、系部、专业、年级组成,其中性别、系部、专业、年级属性全序相关:“专业<系部<年级<性别”。而维TIME(时间)属性月份,季度,星期,某月的第几天,周几,时段构成偏序关系:“时段<{每月的第几天<月份<季度;周几<星期}<年份”。如图5所示:
4.4 实现 OLAP 操作
Microsoft SQL Server Analysis Services2008提供丰富的多维数据集OLAP可视化操作,只需将属性或层次结构属性拖曳到汇总区域,就可以实现不同维度和粒度的汇总数据,从不同的概念分层角度是对所有借阅计数,如图6所示,是对2010年、2011年、2012年三年按分类号及男女分组的流通借阅计数汇总图。根据不同的需求,可对不同维、不同的粒度进行上卷、下钻、切片和切块操作。(1) 上卷。上卷操作(也称为上钻drill-up),即通过维的概念分层向上攀升,对数据立方体进行聚集。沿维READER分层“专业<系部<年级<性别”向上攀升,对立方体执行上卷操作,由低层向高层泛化。(2)下钻:下钻是上卷的相反操作,由高层到低层,由不太详细的数据向详细的数据聚集,如维TIME的分层,沿“年份>季度>月份>每月的第几天>时段”下钻,会得到更详细的信息。(3)切片和切块:切片操作是对立方体给定一个维选择,生成子立方体,如选择维TIME的“季度”;而切块选择两个以上的维,如(TIME.月份 =’02’)AND(READER.系部 =’人文社科系’)。
Microsoft SQL Server Analysis Services2008提供多维表达式MDX查询,是OLAP多维立方体查询语言,支持定义和操作多维对象和数据,在功能上类似于关系数据库查询语言SQL。多维表达式MDX是OLAP服务器与外界交互的专用语言,语法功能强大,执行效率高[12]。以下表示查询2012年所有专业分类借阅统计。
select [READER].[专业].members on columns,
[CLASSIFATION].[类号].members on rows
from [LIB_DB]
where [TIME].[年份].&[12]
5 结语
图书馆数据库调研报告提纲 篇5
第一部分 前言
一、调研背景
现如今,数据库发展的速度如此之快,而且在社会各方面所起的作用也日益显著。图书馆作为一种信息资源的聚集地,图书和用户借阅资料繁多,包含很多的信息数据的管理,数据处理若手工操作,工作量大,出错率高,出错后不易更改。图书馆采取手工方式对图书借阅情况进行人工管理,由于信息比较多,图书借阅信息的管理工作混乱而又复杂;如再要进行查询,就得在众多的资料中翻阅、查找,造成查询费时、费力,若要对很长时间以前的图书进行更改就更加困难了。基于这个问题我们进行了实地考察,网上查询等。为了了解图书馆数据库的使用情况和进一步加强我局的数据库的建设,我们在部分高校开展了这项调查。
二、调研目的
进一步完善我局数据库建设
三、调查对象:部分高校的馆长,采编部管理员
四、调研内容
关于使用各个数据库的情况还有就是加强我局的数据库的建设。
五、调研方法
实地考察,网上查询。第二部分、调查结果及分析
结果:从这次调查中显示,近年来,随着我国时代的不断发展,数据库已成为一种重要的使用手段。一些高等院校图书馆联盟机构(如中国高等教育文献保障系统CAIJS)和一些商业数据公司(如清华同方光盘股份有限公司、万方数据股份有限公司)都在凭借各自的信息资源优势开展数据库的建设。各高等院校图书馆都把构建本校的数据库作为特色数字资源建设的首选项目。
分析:现在我们邮局在开展数据库建设的项目---中邮阅读网。中邮阅读网是凭借中国邮政报刊发行网络、发行资源和品牌优势,在传统报刊发行基础上,运用互联网数字传播技术,为广大读者提供内容丰富的电子期刊、电子图书及有声书城等在线阅读产品。中国邮政适应时代发展趋势,推动出版数字发行,满足日益增长的网络文化需求,坚持为出版单位、读者服务的理念,凭借邮政发行渠道优势,加强与各出版社的深度合作,为网络读者提供全方位的优质服务。
中邮阅读网一期阅读内容由科海电子出版社、悦读网、龙源期刊网、中文在线等国内知名电子期刊、电子图书、电子出版发行单位提供,并与以上单位在电子阅读领域,实现了战略合作。目前提供的阅读产品有: 1000多种精品期刊、30000余册图书以及近7000小时的有声书城。所有图书、期刊、期数均具有自主知识产权,阅读和听书的内容涉及商业、财经、管理、时政、时尚、旅游、汽车、数码、能源、人物等领域。中邮阅读网的用户还可以购买阅读卡,对账号进行充值;也可以通过网银或支付宝充值。用户除了通过PC机器阅读电子杂志、电子图书、听书外,还可以通过中邮阅读网开发的一些客户端下载应用,主要有:
离线阅读器——爱读宝
爱读宝是基于Adobe公司的AIR平台开发,可以在Windows、Mac OS和Linux系统上安装运行,而且具有完全统一的用户界面和流畅的阅读体验。安装程序比较小,仅1.78M,用户可放心下载安装。
国内的电子期刊、电子图书、电子出版发行单位,如:科海电子出版社、悦读网、龙源期刊网、中文在线、书生网等;国内纸媒出版单位,如:北京周报社、财新传媒有限公司、传媒杂志社、长沙高科技创业者杂志有限公司、时尚传媒集团、五洲传播出版社、数字时代期刊社、《中国经济周刊》杂志社、《知识文库》编辑部、中国教育和科研计算机网等1000多家杂志社。我们的数据库还有很多不完善的地方,所以通过这次调研希望对此有所改善,加强数据库的使用。第三部分、总结
公共图书馆如何应用大数据 篇6
关键词:大数据;公共图书馆;应用
现代社会当中,由于互联网的发展,每天都有大量的数据产生,这时对于这些海量数据的分析就越来越受到人们的重视。简单的说,大数据技术就是快速获取人类社会每天产生的各类数据信息,并进行有效的分析处理,产生价值。在公共图书馆中应用大数据,是有效改善公共图书馆服务水平的有效措施,对于公共图书馆的发展有着重要的意义。
一、大数据对于公共图书馆的发展的意义
1.提升公共图书馆的服务水平。利用大数据,公共图书馆可以对来馆读者的阅读信息进行收集、分析,诸如读者的阅读习惯、喜好,甚至是读者微博、微信朋友圈的内容,从而了解读者的阅读需求,从读者的需求出发,来分析图书馆在管理、服务等方面的问题,更好的对于馆藏图书进行及时的调整、更新,最大可能的满足读者需求,进而提升服务水平。
2.提升公共图书馆的信息化水平。公共图书馆由于其特征所决定,有着非常巨大的数据信息,要想将公共图书馆的各类资源实现更为合理的配置,首先要做的就是信息化。这就需要图书馆利用大数据来整合馆内所有的数据信息,从而推动公共图书馆利用信息技术,建立完善的公共管理和服务平台,方便读者在平台内实现更为方便、快捷是查询和阅读。
3.提升公共图书馆数据存储、计算水平。在大数据技术中,最为基础的层面就是对于数据的收集,这就必然要求需要较强的数据存储能力,因此应用大数据对于公共图书馆来说能够有效的提升数据的存储水平。同时,由于公共图书馆在日常的管理和发展中会产生很多的数据,日积月累,就会形成庞大的数据量,而其中很多都是重复的、无用的、混乱的数据,通过大数据的收集与分析,能够将这些重复的、无用的、混乱的数据进行提出,明显提升公共图书馆的数据计算水平。
二、公共图书馆应用大数据所面临的主要挑战
在信息时代,社会各个方面的数据总量都极具的增加,来到公共图书馆的读者的社会活动数据信息也体量巨大,且格式、类型也都呈现多元化的特征,这就赋予了数据更为复杂的特性。公共图书馆在提供知识服务的过程中,要应用大数据,就必然处于这一基本的背景下,受到诸多的挑战。
1.硬件基础设施建设。大数据技术是建立在信息技术基础上的一项技术,它的应用必须以先进的硬件设施为基础,而目前在很多公共图书馆,由于发展上的滞后性,在这方面都很欠缺,缺乏必要的硬件设施,应用大数据根本就无从谈起。而有些已经应用了大数据技术的公共图书馆在硬件设施的建设上也比较落后,设备不够先进,使得大数据的应用效果大打折扣,没有充分发挥出应用的作用。
2.人才队伍缺乏。公共图书馆应用大数据,在有了硬件基础的前提下,则就需要相关的技术人才,而且这类人才是具有复合型的,他们应当不仅要掌握以大数据为主的信息技术,同时还应当具备公共图书馆管理的基本知识,这样才能保证其在公共图书馆中来实现对于大数据的应用。而当前我国的公共图书馆,人才队伍建设缺乏,学历层次较低,更不用谈什么复合型人才。因此,加强人才队伍建设,是我国公共图书馆应用大数据技术要解决的一个关键性问题。
3.数据处理与分析能力不足。大数据时代,公共图书馆要存储和分析各类用户及社会群体等的信息,需要拥有经济、高效的存储和计算能力。当前公共图书馆自身拥有海量的数据,但其存储和运算能力受限,与大数据对存储能力的高要求存在一定的差距,不能将图书馆的海量数据同读者的社会活动数据充分的收集在一起进行有效的分析,缺乏实践上的经验,这也是公共图书馆应用大数据时要面临的一个重要挑战。
4.个人隐私的保护。公共图书馆应用大数据技术难免需要对于个人的社会生活数据信息进行收集,这其中必然会触及到个人的隐私。图书馆在利用这些数据来实现服务、管理上的优化时必然会面临着对于这些隐私数据的保护。如果公共图书馆对于个人隐私数据保护不当,往往都是大面积的隐私数据泄露,这就会造成很多人的隐私暴露与社会当中,极大的损害了相关读者的利益,也给公共图书馆的发展带来不利的负面影响。
三、在公共图书馆中应用大数据的策略
可以看出,在公共图书馆中应用大数据能够提升公共图书馆的服务水平、信息化水平和数据的存储与计算水平,具有巨大的技术优势。因此,如何应用大数据,就成了公共图书馆所共同面临的一个关键性问题。
1.完善硬件基础设施。硬件设施是任何一项技术应用的基本前提。公共图书馆在应用大数据的过程中,首先应当从硬件基础设施做起。采购目前较为先进的硬件设施,包括服务器、路由器、交换机、存储器等,保障在未来的一段时间内,设备能够保持一定的先进性,为大数据技术的应用打好基本的物质基础。此外,图书馆还可以建立一个公共网站,使读者可以随时在网上查找图书馆相关的数据资料,并且随时了解图书馆的图书更新情况以及一些热门图书的推送,既方便了图书馆工作人员的管理,节省人力物力,同时也让读者更加方便,使公共图书馆的服务体系更加完善。
2.强化大数据应用的队伍建设。一是公共图书馆在应用大数据的过程中,必然会产生许多新的业务和操作流程,这就要求员工要进行学习,自然对于员工的培训也就必不可少。公共图书馆要制定完善的培训计划,分阶段、分步骤的对涉及到大数据应用的员工进行专业化的培训,让这些员工了解应用大数据后图书馆新增的业务与流程,保障大数据应用的基础智力支持;二是必要的时候可以建立专门的大数据应用小组,对于大数据在公共图书馆应用过程中产生的各类问题进行集中的分析与决策,从而更加有效的推进大数据在公共图书馆中的应用。
3.强化数据分析及处理能力。传统公共图书馆业务中的数据处理主要是简单将一些纸质的图书进行数字化处理,另外辅以一些商业性的图书、文献数据库。这种模式下,公共图书馆的很多有价值的数据都没有得到充分利用。这与大数据的应用也是格格不入的。因此,公共图书馆在应用大数据的过程中首先就是要强化对于各类数据的分析和处理能力,充分的挖掘图书馆中各类信息的价值,在完善的基础设施的基础上,改变原有的数据处理与分析模式,扩大数据分析与处理的覆盖面,不仅是要关注图书馆自身产生的各类数据,更为重要的是关注读者阅读习惯、喜好、微博、微信等方面的数据,通过对这类数据的收集、分析、处理来发现图舒服服务中的问题所在,进而改进服务水平。
4.高度关注并重视大数据隐私问题。在互联网、社交网络快速发展地推动下,社会公众会在各种场合产生各种数据痕迹。这些数据存在关联性和积累性。若能够从不同场合将诸多个人信息聚集起来,其隐私将有可能被暴露。这便是人们高度关注的大数据隐私问题。随着大数据时代的到来,隐私权面临严峻的考验。在保证个人隐私不被暴露的情况下相关数据进行有效分析和处理,实现深入数据挖掘。只有这样才能保证信息的完整性和安全性。一直以来,公共图书馆在发展过程中均高度重视对用户的个人隐私进行高度保护。在大数据发展背景下,图书馆用户个人隐私保护面临严峻挑战。因为图书馆在改善其服务方式,提高其服务质量的过程中,需要对用户的相关数据信息进行全面、深入地分析,进而掌握服务对象的阅读喜好、常见信息行为等。因此,在应用大数据的过程中,公共图书馆必须,强化职业道德培训,给予大数据隐私高度关注和重视,加强对用户个人隐私进行维护,保证用户的个人隐私在合法的范围内传播。在保证用户个人隐私不受侵犯的前提下促进大数据优势得到充分发挥。
四、结语
在信息技术时代的大背景下,大数据技术已经成为了各行各业都在进行应用研究的一个热点。在公共图书馆中也不例外。我们可以看到,如果在公共图书馆中应用了大数据技术,那么气服务水平、信息化水平和数据存储与计算水平都将得到极大的提升,这对于公共图书馆来说,大数据的应用具有重要的现实意义。当当前我国的许多公共图书馆在应用大数据中都面临着硬件、人才、数据计算和隐私保护的挑战。因此,公共图书馆应当从硬件设施、队伍建设、数据分析处理能力和隐私保护等关键环节着手来应用大数据技术,改变传统的公共图书馆发展模式,为公共图书馆的发展提供更为强大的动力。
参考文献:
[1]容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013,07:91-95.
[2]杨雁.公共图书馆应用大数据的理性思考[J].图书馆学刊,2014,07:5-8+20.
[3]罗铮,周群英.公共图书馆应用关联数据的对策研究[J].图书馆理论与实践,2012,12:50-52.
[4]祁勇.公共图书馆应用大数据的策略研究[J].科学中国人,2016,18:192.
[5]付小东.大数据在公共图书馆中的应用策略探讨[J].黑河学刊,2016,04:155-156.
图书馆数据 篇7
针对此类的意见和建议, 图书馆的工作人员为了满足读者们的需要, 利用节假日开展读者交流活动, 但大量读者来到现场后却乱成一团, 有些人甚至是毫无目的地在场地里乱转, 严重影响了活动秩序和效果。
以下将探讨在数据仓库的基础上运用数据挖掘的可行性, 并利用SQL2005在数据仓库中进行数据挖掘, 实现一个将拥有相同阅读兴趣的读者组织在一起, 让交流活动开展得更有效率的例子。
一、数据仓库的概念
从1988年Devlin和Murphy发表了关于数据仓库论述的文章以后, 学者们纷纷投入对数据仓库的研究之中, 其间相继有许多人给数据仓库下过定义, 然而被目前学术界所普遍认可和沿用的还是1991年“数据仓库之父”William H.Inmon在《数据仓库》中给数据仓库下的定义:
Data Warehouse is a subject-oriented, integrated time-variant, and non-volatile collection of data in support of management's decision-making process.
即:数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合, 用于支持管理层的决策过程。
通过Inmon的描述, 可以将数据仓库的概念划分为两个层次去理解。第一, 数据仓库不同于现有的操作型数据库, 它主要应用于分析决策, 面向分析型的数据处理;第二, 数据仓库是对多个异构的数据源有效集成, 集成后按照主题进行重组, 并包含历史数据, 而且存放在数据仓库中的数据一般不再修改。
在这里可以针对数据仓库的一般应用再给数据仓库下一个较易理解、更客观的定义:数据仓库是一个以用户为中心的环境, 在这个环境的构造过程中, 数据仓库的建造者使用所有现存数据, 通过抽取、转换和清洗后重新装载, 最终向用户提供有用的决策信息。
二、数据挖掘的概念及其应用在数据仓库基础上的可行性分析
严格地说, 数据挖掘 (Data Mining) 是独立于数据仓库之外的, 但大量实践证明, 数据仓库的结构更利于数据挖掘的进行, 如果数据挖掘能与数据仓库协同工作, 必然能大大提高数据挖掘的工作效率, 能更好地满足决策的需要。
与数据仓库相类似, 数据挖掘在不同的学者那里也有不同的定义, 在此只给出较常见、较准确的一种定义:
数据挖掘 (Data Mining) 是指从大量的数据中挖掘出有用的信息, 即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的, 但又是潜在有用的并且最终可以理解的信息和知识的非平凡的过程。也就是要通过数据挖掘对海量的数据进行分析, 发现数据间的潜在联系, 为人们提供自动决策支持。
简单来说, 数据挖掘是一个知识发现的过程, 它以一种出人意料的特殊方式帮助人们理解数据的本质。它从大量数据中挖掘出人们从不知道其存在着的一些有价值的模式和倾向。
数据挖掘非常适用于数据仓库环境, 并在其中起着重大作用。清洁和完整的数据仓库是数据挖掘的良好基础, 可以说, 数据仓库技术和数据挖掘技术是相互支持的。以下是二者之间关系的一些要素:
1.数据挖掘算法需要大量的数据, 在细节一级上更是如此, 而大多数数据仓库包含有最小粒度级别的数据。
2.数据挖掘适用于经过综合和清洗的数据, 如果能正确地实现了数据抽取、转换和装载功能, 那么数据仓库中的数据就非常适合数据挖掘。
3.数据仓库的基础结构具有并行的处理技术和强有力的关系数据库系统, 已经是非常健壮了, 由于其硬件可升级, 所以不需要新的投资来支持数据挖掘。
因此, 对数据挖掘来说, 数据仓库是一个容易得到的有价值的数据源, 数据挖掘工具所抽取的数据来自于数据仓库。
不仅如此, 就数据仓库的应用来说, 加入了数据挖掘技术后, 数据仓库的价值会大大提升, 这源于数据挖掘技术和数据仓库中OLAP技术的互补性。
当用户在使用OLAP数据分析时, 该用户对正在寻找的东西有一定的预备认识, 他是在经过深思熟虑后才带着设想开始进行数据分析的。但是在数据挖掘的情况下, 分析员对可能会产生的结果没有预先的认识。在OLAP数据分析中, 用户起着驱动的作用, 每个查询可能导致另一个更复杂查询的产生。因此, 用户对预期的结果事先有一定的了解, 这个过程与数据挖掘完全不同。OLAP帮助用户分析和了解过去, 而数据挖掘帮助用户预测未来。
因此, OLAP技术与数据挖掘技术是互补的;二者的结合, 必定会使数据仓库的应用更加充实, 使用户对系统的使用更加满意。
目前几种常用的数据挖掘技术有:关联规则、聚类分析、决策树、逻辑回归、神经网络、时序分析、线形回归等。以下将应用聚类分析把拥有相同阅读兴趣的读者组织在一起, 达到让交流活动更有效率地开展的目的。
三、聚类分析的应用及“读者交流日”活动方案
聚类通过对数据特性的分析, 找出数据间的共同点, 将特性相同或相近的数据放入相对同源的组或“类” (cluster) 里。聚类分析的输入是一组未标定的记录, 也就是说此时输入的记录还没有被进行任何分类, 其目的是根据一定的规则, 合理划分记录集合, 并用显式或隐式描述不同的类别。
从统计学的观点看, 聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中, 如SPSS、SAS等。
从机器学习的角度讲, 簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同, 无监督学习不依赖预先定义的类或带类标记的训练实例, 需要由聚类学习算法自动确定标记, 而分类学习的实例或数据对象有类别标记。聚类是观察式学习, 而不是示例式学习。
从实际应用的角度看, 聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言, 聚类能够作为一个独立的工具获得数据的分布状况, 观察每一簇数据的特征, 集中对特定的聚簇集合作进一步的分析。
数据挖掘的应用灵活多样, 必须将数据挖掘技术放到一个实际环境中进行探讨, 否则将毫无意义。在SQLServer2005中, SSAS除了支持OLAP数据分析外, 还支持数据挖掘, 为数据挖掘工作提供了有效快捷的环境。
以下是一个改进了的“读者交流日”活动方案:
图书馆不再将所有的读者统一聚集在一起, 而是根据数据分析的结果指导他们组成某方面的兴趣小组, 相互切磋和探究感兴趣的话题。
为了使该活动顺利进行, 图书馆的工作人员必须分析出每位借阅者与借阅书籍类型之间的关系, 将同样喜爱某类书籍的读者编入一个兴趣小组, 便于读者们在交流活动中分享他们的阅读心得和讨论他们喜欢的话题。
因此, 开展活动的关键在于找出拥有相同兴趣的读者。可以用数据挖掘聚类算法将书籍按照书名进行类型的汇聚, “类”的主题可看作是读者的兴趣和阅读倾向, 如出现在“计算机网络”类里的读者很可能喜好研究网络方面的知识, 出现在“文学”类里的读者可能喜好文学作品阅读甚至是写作。活动开始前将属于某个类里的读者编入同一个兴趣爱好组里即可。
数据挖掘中的聚类分析算法, 就是要把数据划分到不同的组中, 组与组之间的差别尽可能大, 组内的差别尽可能小。用这个方法甚至可以找出曾经借阅过同一本书的读者, 对于以组建阅读兴趣小组来说, 能得出这样的结果集是最理想的。
图1是运用SSAS进行以书名为输入的聚类算法操作后得出的类别。
查看“分类4”, “xm”是读者的姓名、“ztm”是该读者曾借阅图书的书名。从书名不难看出, 这是一个“英语爱好者”类的结果集, 其内容如图2所示。
由图2显示的结果可知, 爱好英语学习的读者姓名以及他们借阅过的书籍名称, 如此他们就可以组成一个英语兴趣小组。对于曾借阅过同一本书的读者, 他们相互之间讨论时会有更多话题。更重要的意义在于, 通过本系统数据挖掘技术的应用, 可以为原本互不认识的读者牵线搭桥, 使他们成为拥有同一兴趣爱好的朋友。
这个实例体现了基于数据仓库的数据挖掘技术在图书馆管理中的进步性和可扩展性, 也反映了利用数据挖掘实现图书馆个性化服务的可行性。随着图书馆日常活动意见的提出和整改, 将会有越来越多的数据挖掘方案在图书馆个性化管理中得到实现。
参考文献
[1]朱德利.SQL Server2005数据挖掘与商业智能完全解决方案[M].北京:电子工业出版社, 2007.
[2]黄寒燕.数据仓库技术在图书管理系统中的应用研究[D].华中科技大学, 2005.
浅析图书馆数据安全管理 篇8
一、网络环境下, 图书馆数据安全存在的主要问题
1、内在的问题
(1) 认识不到位。
这个主要是因为许多图书馆在建设图书馆网络时普遍存在重硬轻软、重建设轻维护的现象, 对图书馆网络数据安全的深度认识不足。认为配个防火墙, 装个软件, 杀杀病毒就高枕无忧了。没有充分认识到信息数据的完整性、重要性性等深层次的安全问题。要知道图书馆建设的再漂亮如果没有充分的图书数据那也只能是形同虚设。
(2) 专业人员素质跟不上。
传统的图书馆服务工作都是由广大管理人员手工操作来完成的, 是一种技术含量较低的经验性的重复劳动。各馆在建网初期很少有水平较高的专业人员担任, 网络系统的管理与维护工作很多都是经过简单培训后改行上岗的人员, 技术谈不上, 经验也不足, 无法及时发现和纠正系统运行中的故障和问题, 影响了系统正常运行和功能的最佳发挥。
(3) 管理制度不健全。
目前大多数图书馆网络都没有制定出图书馆网络数据安全保障制度。由于图书馆网络中所有的信息资源基本上是免费为公众用户提供服务的, 较少含有经济价值或政治、军事机秘。相对而言也很少发生黑客恶意攻击等重大安全破坏事故。因而它也就不像其他行业的网络系统那样, 从一开始就制定了统一的管理标准和严格规范的管理制度。这就造成了内部安全管理上的混乱和漏洞, 为图书馆网络数据安全管理带来不便。
2、外在的问题
(1) 网络计算机病毒
它主要通过磁盘、网络、电子邮件等途径传播。利用电子邮件传播计算机病毒隐蔽性强, 令人防不胜防。图书馆的数据库如果不小心被这种病毒侵入将会对数据造成损失, 运气好的话可能修复, 差的话就会造成极大损失, 所以数据录入人员一定要小心使用电脑, 养成一种认真仔细的科学的态度。
(2) 网络黑客的攻击。
图书馆数据库的建设离不开网络, 因为要资源共享, 虽然安装有杀毒软件, 但它的整个系统安全系数相对较差, 防护措施又不完善。虽然网络黑客目前不屑对它进行攻击, 但也不能排除黑客的无理取闹, 毕竟图书馆的资料还是比较宝贵的, 被一些别有用心的人偷去之后后果可能无法想象。
(3) 来自内部的威胁。
因为工作关系, 管理人员较多地接触和知道图书馆网络各种操作应用系统的信息密码, 工作中的任何大意都会给图书馆网络数据安全带来危害, 尤其是不良的操作习惯。所以图书馆的安全机制一定要明确, 不该自己知道的密码就不要去打听, 做好份内的事情是最重要的。对故意泄露安全密码的人员也要严肃处理。
二、网络环境下图书馆数据安全的管理措施
1、构建图书馆数据安全防护体系
(1) 广泛应用防范技术
(1) 数据加密技术。
数据加密技术由明文、密文、算法和密钥组成, 即利用该技术将原始的明文数据按照设定算法的变换法则转换成必须由密钥方能解析的密文数据, 以避免数据失窃和被篡改。
(2) 权限控制技术
权限控制是确定用户的合法性和对计算机系统资源享有哪些访问权, 并通过特定的技术设置访问路径, 防止非法用户进人系统以及合法用户对系统资源的非法使用;口令控制技术是运用口令设置技术来判断用户的身份和用户享有使用资源的权限, 防止黑客随意人侵。安装服务包和补丁程序是有效的控制手段, 数据库系统和网络应用软件要及时安装服务包和补丁程序, 更改操作系统和软件的默认设置。
(3) 网络安全防护技术
主要包括防火墙、病毒防治、信息泄漏防护、薄弱环节检测等技术。防火墙将是图书馆网络的第一道防线, 但防火墙不能提供实时的人侵检测能力, 有条件的图书馆可以安装人侵检测系统。立建全安全管理体系安全管理组织。每个馆可视本馆具体情况设置人员, 并给予一定的权限进行系统管理工作。强化对人的管理。一方面各种安全措施要靠人实施;另一方面, 有相当多的威胁数据安全的行为出自内部人员。因此, 必须强化系统管理人员的素质。
(3) 建立安全服务机制。
安全服务一是指图书馆为保障本馆网络数据安全向不同用户提供服务时所采取的基本措施和方法, 二是指为保证用户能安全方便地使用图书馆网络而对用户进行的宣传、培训、指导工作, 让用户了解图书馆网络而给予的操作权限和范围。
2、加强网络的安全管理
(1) 对集中访问者的鉴别
如果条件允许就建立全网通信的身份识别系统, 实现用户的统一管理, 统一授权, 防止未经授权的用户非法使用系统资源, 对于对网络访问者的集中鉴别。
(2) 网络防病毒措施
网络防病毒工作主要包括预防计算机病毒侵人、检测侵入系统的计算机病毒、定位已侵入系统的计算机病毒、防止病毒在系统中的传染、清除系统中已发现的病毒和调查病毒来源。在网络环境中, 病毒具有扩散面广、破坏性大、传播性强和针对性强等特点, 威胁力和破坏力不可估量。预防病毒技术、检测病毒技术、消除病毒技术应在网络防病毒工作中全面采用。
三、数据备份问题
定期备份数据是目前保障图书馆数据安全公认的最简单、最有效的技术措施, 只要按时、正确地进行备份, 就完全可以防范大部分数据安全事故的发生, 或使得损失减到最小。然而, 仍有一些图书馆, 特别是小型图书馆, 经常忽视定期数据备份, 导致备份数据不全或过期严重。比如, 一些小型图书馆由于人员较少, 无法配置专门的系统管理人员, 数据备份往往由其他工作人员兼职完成, 而这些人员对数据安全的重要性认识不足, 认为只要机器能用就没有问题, 加上更无旁人检查, 结果是想起来就做, 忙起来就忽略, 备份时间大大滞后, 形同虚设, 碰到意外事故, 自然损失惨重。数据备份是一项严肃谨慎的工作, 备份包括网络通信运行系统的备份和网络设备、通信线路的备份。网络通信参数、配置的备份应根据网络的重要性制订详细的备份计划, 确保故障发生后可快速地恢复运行数据。设备和线路的备份可根据网络运行的故障率准备一定冗余, 在网络某部分发生故障时, 其他部分可自动启用或迅速切换。
1、不及时更新安全软件
有些图书馆工作人员以为安装上防病毒软件、防火墙后只要让它们自动更新就万事大吉, 殊不知忽略了其中的种种潜在问题, 如网络是否通畅、能否下载、版本是否支持等, 试用版还有期限限制问题。这些问题本身并不是致命的, 因为病毒、黑客一般只能破坏联机数据, 只要保证备份数据的及时、安全、可靠, 即使系统被破坏, 也能很快恢复, 损失不大。然而, 事实上, 此类情况却往往和备份问题一起出现, 从而导致严重的后果。在现实中, 不乏由于杀毒软件长久没有更新, 引起病毒泛滥, 使得机器失效, 而备份又早已过期, 在双重因素作用下, 最后数据大量丢失的实例。
2、盲目更新、安装软件
有的计算机维护人员对图书馆数据的重要性认识不足, 过分自信, 从事维护工作时, 在没有采取安全措施的情况下, 盲目进行软件的更新、升级操作, 甚至格式化硬盘、重新安装系统等, 导致原来的问题没有解决, 反而引发了大事故。
四、问题原因所在
1、工作人员自负心理
在这么多年的工作中我也发现, 一些数据库录入专业人员对图书馆工作存在偏见, 不屑于对有关业务流程进行基本的了解和认识;另一方面, 过于自信, 认为凭着自己的能力水平肯定可以解决问题。在实际工作中表现为把图书馆人员的善意提醒当作耳边风, 忽视了必要的准备工作和防范措施, 违背规程而擅自进行有高度风险的操作, 从而造成始料不及的严重后果。
2、管理制度不到位
虽然数据安全工作意义重大, 但它在图书馆中只是一项, 没有出现问题谁也不会想到一个诺大的井井有序的图书馆的背后是有很多日日夜夜奋战的数据库录入人员的, 平时不显山露水, 涉及人员也少, 因此往往难以引起管理层的注意和重视, 表现为没有完善的管理制度和严格的奖惩手段, 和工作人员缺少沟通等, 这些都不利于激发工作人员的积极性。
结论:
有关管理者应该经常向有关人员灌输“数据安全, 责任重大”的理念, 通过严格的规章制度和奖惩标准来强化工作人员的责任心和积极性。同时, 要定期对员工进行专业的培训, 提高员工的觉悟和能力。
参考文献
[l]王洪武.图书馆网络信息安全构想.现代情报, 2004 (5) :48一50
[2]经渊, 胡海燕.网络环境下图书馆的数据安全问题与对策.晋图学刊, 2003 (5) :9一12
[3]皇海潮.谈图书馆计算机数据的安全问题.周口师范学院学报, 2004 (2) :115一117
大数据时代的图书馆信息服务 篇9
一、大数据对图书馆信息服务的挑战
在大数据环境下, 各种结构化、半结构化、非结构化数据成爆炸式增长, 面对各种数据, 人们无所适从, 常常会因为各种数据太多而陷入困惑, 人们希望通过图书馆这一平台在纷繁的信息中迅速提取出对他们真正有用的信息。大数据下读者的信息需求变化是图书馆创新信息服务方式的根本动力, 同时也是传统图书馆面临的挑战与压力。因为, 在大数据环境下, 传统的图书馆信息服务已不能满足读者的信息需求, 主要表现在以下四个方面:一是数字资源单一, 传统图书馆主要是以结构化数据 (图书、期刊、报纸, 数据库) 为基础向读者提供信息服务, 在大数据时代, 除了结构化数据外, 各种半结构化、非结构化数据同样影响着人们的生活, 成为人们分析预测事物发展的重要信息。二是数据处理能力欠缺。传统图书馆信息服务主要以图书、期刊、报纸、各种数据库为基础向读者提供科技查新、定题服务、图书借阅及其他咨询服务, 图书馆所面对的数据量相对较小, 而面对各种结构化、半结构化、非结构化的大数据, 图书馆并没做好充分准备。三是数据存储能力不足, 传统图书馆数据存储基本以TB为单位, 而在大数据环境下, 各种数据呈爆发式增长, 数据存储基本以PB为单位, 这使得图书馆的数据存储能力严重不足。四是大数据时代要求各信息服务机构及时分析、处理各种数据为用户提供各种前瞻性信息, 而图书馆缺乏这方面的能力。
二、大数据时代下的图书馆信息服务新模式
面对大数据, 现阶段的图书馆信息服务面临一定的困难, 同时也给图书馆信息服务提供了广阔的发展空间, 图书馆应抓住信息服务变革所带来的机会, 积极探索大数据环境下的图书馆信息服务新模式, 为读者提供前瞻性的信息。
(一) 构建与读者沟通的平台。在大数据时代, 图书馆开展各种信息服务的基础是有效和读者沟通, 把握读者信息需求动向, 为读者提供其急需的独具个性的信息服务。为此, 构建与读者沟通的平台显得非常必要, 通过图书馆与读者构建交互式交流平台 (开设图书馆BBS, 博客, 微信等) , 馆员与馆员、馆员与读者、读者与读者、馆员与专家之间进行时时交流, 馆员通过专家了解最新服务策略, 读者通过馆员了解图书馆最新服务, 馆员通过读者了解读者的切实需求。同时, 图书馆应利用大数据相关技术, 搜集各种半结构、非结构数据并对其进行分析、处理, 及时了解馆员服务情况, 图书馆信息服务前沿以及读者信息需求, 为图书馆制定提升馆员业务素养, 探索信息服务模式, 读者各种个性化信息需求提供数据支撑。
(二) 整合数据资源, 构建—站式检索服务。在大数据时代, 各种数据呈爆炸式增长, 整个数据类型多样, 结构复杂, 图书馆很难搜集所有的数据信息, 数据信息包括各种结构化数据 (图书、期刊、报纸、各种数据库) 和半结构化、非结构化数据 (BBS记录、微博、微信、视频、聊天记录及各种网络数据) , 各种数据以不同的形态、格式出现, 其结构也不一样, 这导致图书馆拥有很多不同类型的数据信息资源, 面对这些数据资源, 读者变得很迷茫, 解决一个问题往往要找多种复杂的数据资源, 为此, 整合现有数据资源形成统一的检索平台成为图书馆现阶段必须解决的问题, 大数据技术的出现为此奠定了基础。大数据是基于Map Reduce、Hadoop、No SQL、云计算等技术对大量复杂的数据进行快速提取, 集成, 分析, 解释, 实现从不同类型信息资源中查找, 并用统一的数据标准表示査询的结果, 真正实现不同结构的数据的整合。通过对不同结构的数据进行整合 (去除各种重复、冗余的数据) 来实现对数据的统一管理, 利用大数据技术对图书馆现有的馆藏资源信息、各种读者行为信息, 网络信息资源等大数据进行有效整合, 形成一个统一的智能化检索平台, 为读者提供方便、快捷的一站式检索资源服务。
(三) 开展RSS个性化推送服务。在大数据时代, 伴随计算机通讯技术的迅速发展, 各种结构化、半结构化、非结构化数据呈爆炸式增长, 面对海量数据, 读者无所适从, 由于每位读者有其独特的兴趣爱好、教育背景、知识结构, 这使得读者对信息资源有其独有的个性化需求, 这为图书馆为读者提供个性化信息服务指明方向, 如何主动为读者推送个性化的信息成为图书馆信息服务探索的新领域。RSS个性化信息定制有效解决了图书馆为读者提供个性化信息的诉求, 利用相关技术, 通过简易信息聚合, 读者可以通过RSS定制自己所需的个性化信息, RSS阅读器自动将读者所定制的信息自动推送到读者面前。图书馆利用RSS阅读器对各种网络资源、新闻信息以及图书馆所拥有的新资源、新服务等以及用户定制的专题信息、借阅提醒、参考咨询、微博、微信、各种论坛以及网站专题信息等主动推送到读者桌面或在线RSS阅读器。RSS个性化信息定制在国内图书馆应用广泛。如上海交通大学图书馆通过RSS服务整合MSN、Talk、google资源为读者提供个性化信息服务。读者可以通过厦门大学图书馆的RSS定制服务, 整合个人借阅信息、图书馆公告信息、讲座信息、专题信息等。
(四) 充分挖掘数据潜在的价值, 为读者提供前瞻性的信息服务。在大数据环境下, 图书馆服务能力的高低不再是以拥有馆藏资源的多少作为唯一的衡量标准, 更多的是将不同类型的数据进行有效地整合, 为读者提供前瞻性的信息服务, 即用于大数据技术分析和处理数据, 将隐性知识变为显性知识, 为读者提供独具个性化、前瞻性信息已成为图书馆信息服务的核心工作。以机器学习、模式识别、高性能计算、聚类分析、可视化和数据仓库等为基础的高级数据分析技术, 将在图书馆服务中得到广泛应用, 并将有效促进数据向知识的转化, 知识向行动的跨越。要想在大数据环境下做好图书馆信息服务, 应在对数据分析与挖掘上下功夫。第一是揭秘数据之间的各种内在联系。在大数据环境下, 由于各种数据类型多样、结构复杂、数据间的相关性较为隐蔽, 通过对数据分析找出数据间的相关性, 建立关联数据。第二是要将数据所揭示的隐性知识转换为显性知识。在大数据环境下, 面对各种复杂的数据, 读者期望从中找到其所需的信息但又面临一定的困难, 图书馆应通过大数据技术分析, 找出读者急需的各种隐性知识, 以更好地提供信息服务。
高校数字图书馆数据安全问题分析 篇10
关键词:数据安全,数字图书馆,数据备份
0 引言
高校数字图书馆迅速崛起促进了知识经济时代的发展进程。数据是高校数字图书馆赖以生存和发展的基础。数字图书馆在为读者提供信息共享、信息检索等优质服务的同时, 数据安全问题也凸现出来, 在事故中有效地保障其数据的安全和服务的连续性, 是数字图书馆建设中必须要考虑和解决实际问题。本文对高校数字图书馆数据不安全因素和备份技术做了详细分析, 提出了解决高校数字图书馆数据安全问题的措施。
1 高校数字图书馆数据不安全因素
高校数图书馆的各项服务都依托于计算机及网络, 自然存在着的各种脆弱性和威胁因素。影响数字图书馆数据安全的因素很多, 笔者将其分为以下四种: (1) 自然因素, 像火灾、地震、水灾、雷电、震动、供电、静电、灰尘、强磁场、腐蚀性物质、生物灾害等诸多因素。 (2) 软件因素, 如黑客攻击、病毒、恶意软件、应用软件的开发质量、系统漏洞和数据库的可靠性等都直接影响着数据安全。 (3) 硬件因素, 包括硬件系统性能和配置是否合理, 网络通信线路故障, 硬件元器件破损、老化, 零配件质量、供应不足、停产等等。 (4) 人为因素, 主要表现为:管理者安全意识淡薄, 对系统安全认知不足;网络管理人员和技术人员责任心不强, 缺乏必备的专业技能, 不能很好地管理配置网络资源;安全管理体制不完善或执行力度不足等。
2 数据备份技术分析
数据备份是利用一定的技术方法将原始数据进行本地或异地复制, 实质是一种数据安全策略。在原始数据丢失或遭到破坏时, 利用备份数据恢复原始数据, 使数字图书馆服务能够正常运行。
2.1
数据备份方式
2.2 备份的评价指标
用来评价备份能力的指标主要是RTO (Recovery Time Objective) 恢复时间目标和RPO (Recovery Point Objective恢复点目标。RTO是指灾难发生后, 从系统当机导致业务停顿之刻开始, 到系统恢复至可以支持各部门运作, 业务恢复运营之时, 此两点之间的时间段。一般RTO时间越短意味着恢复至可使用状态所需时间越短。这要靠高性能的存储设备或高可用性软件实现;RPO是指对系统和应用数据而言, 要实现能够恢复至可以支持各部门业务运作, 系统及数据恢复到更新的程度。这种更新程度可以是上一周的备份数据, 也可以是上一次交易的实时数据。这决定于业务的性质和业务操作依赖于数据的程度。
2.3 备份等级划分
根据国际标准SHARE78的定义, 数据备份与恢复可分为7级, 按数据备份成本与恢复所需时间的关系可用塔状图表示 (图1) 。等级越高备份成本越高, 数据恢复需要时间越短。
从对业务连续性的保障程度来看, 可以把备份分成数据级和应用级。数据级备份是指数据中心将数据实时或非实时地复制到备份中心, 以确保原有的数据最少丢失或破坏。应用级备份是在数据级备份的基础上再把应用处理平台完全复制一份, 以确保在灾难发生时能提供不间断的应用服务。
3 解决高校数字图书馆数据安全问题的措施
近年来, 业内专家提出了许多行之有效的数据备份策略。2007年7月, 灾备系统的国家标准GB/T20988-2007《信息系统灾难恢复规范》出台, 为图书馆数据安全建设提供了重要的参考文件。在研究高校图书馆数据安全系统方案时, 笔者认为要达到保障数据安全的目的, 必须具备以下几个方面。
3.1 数据备份工作制度化
结合国内相关规定和本馆的实际馆情, 制定一套数据安全管理制度和安全责任体系。完善的管理机制能最大程度防止管理人员有意或无意的增加安全隐患的行为。建立图书馆数据安全基金。做好信息安全技术和网络安全意识的教育培训工作, 管理是保障, 责任意识是基础。增强每个图书馆员工的信息安全意识, 使其在不断的实践中明确和熟悉自己的责任, 提高应急素质, 发挥预案最大的效用。使工作人员清楚信息安全的重要性和违反安全规定的后果。
3.2 保障数据安全的专业队伍
系统管理员可以对整个备份系统进行任何操作, 也可以协助其他管理者使用备份系统。管理员应对备份业务内容非常熟悉, 包括对哪些数据进行备份、备份在什么时候进行、备份是使用全备份或增量备份以及备份的保存周期等策略, 进而执行相应的管理操作。培养一支训练有素、临危不乱、沉着应对、措施得当的专职队伍。
3.3 搭建健壮的本、异地备份物理环境
备份系统本身的稳定是图书馆数据安全的基础。购置必要的设备构健壮的数据备份中心。建立数据级和应用级备份预案。通过光纤链路, 完成数据中心和备份中心的连接, 采用同步数据复制技术、数据传输压缩和微扫描技术完成数据中心磁盘阵列和备份中心的数据同步, 降低数据传输成本, 定期将数据级备份提升到应用级备份。利用多对一的远程复制技术、数据加密和压缩技术、安全传输技术实现数据的异地备份。存储数据通过基于块增量的复制技术集中到数据备份中心站点上, 确保业务连续性。异地备份完全基于IP网络实现, 在数据备份时利用时间点快照技术可以自动、连续、按一定策略记录数据的时间点状态, 极大的降低了数据重建成本。
3.4 选择优质的数据备份软件
优质数据备份软件是为健壮的备份系统提供软环境保障。应当具有以下特性: (1) 是具有强可扩充性, 技术成熟、提供超稳定的服务。 (2) 是支持异构环境。 (3) 是包括数据库、应用、系统等各种数据在各个层次上的备份需求; (4) 能够通过图形化界面制定智能化管理策略, 并将这些策略非常容易地部署到应用中, 提供全自动备份; (4) 对数据进行备份和恢复要保证在小停数据库和应用的前提下进行。 (5) 支持逻辑合并、F1ash Copy (小文件高效备份) 、网络带宽管理、备份文件的断点续传、硬盘缓冲和恢复等丰富的备份管理和控制功能, 能够及时恢复备份数据, 是保证系统运行。可以全而提升数据备份和恢复的效率。
3.5 做好数据流安全过滤
运用防火墙配置、企业版杀毒软件部署, 做好数字图书馆网络核心入口和内部网络的数据流过滤与入侵检测。一方面根据网络安全策略控制 (允许、拒绝、监测) 出入的数据流, 尽可能对外部屏蔽内部的信息、结构和运行情况, 以防止潜在破坏性的入侵发生。另一方面实时监视、过滤可疑的连接和非法访问的闯入, 并对各种入侵行为立即做出反应。实时了解、统计、分析互联网使用状况, 并根据分析结果对管理策略做出调整和优化。
3.6 备份策略的制定
好的备份策略是数据有效和快速恢复的根本所在, 备份策略的选择要统筹考虑需备份的总数据量、线路带宽、数据吞吐量以及对恢复时间的要求等因素。备份策略包括两个部分:一是应用级的备份策略, 即操作系统和应用程序的备份, 可先对所有需要备份的较为重要的操作系统进行一次完全备份, 然后每周对关键系统做一次完全备份。二是业务数据 (包括数据库数据和文档的备份策略) 。数据备份包括实时备份、定时备份;全量备份、增量备份等策略。重点是真对数据库备份。数据库备份是指根据数据库的重要性对某些数据库进行在线备份及数据库的实时备份。这样可以保证数据库中数据的实时保存, 而不是在固定时间进行备份, 进而能够最大限度地保证数据库数据的安全性。另外在机器做过软件安装或系统升级后, 应立即对系统进行一次完全备份。
3.7 根据需求进行数据的恢复
常规的系统的数据恢复可以在备份服务器端或备份客户端进行。通过备份软件, 系统管理员可以选定要进行恢复的相应文件后选择恢复即可完成。当操作系统和应用程序代码出现故障时, 将全备份的数据按照相应的办法恢复即可。对文档保护措施我们经常采用加密、防止删除和隐藏等方法来做好文
档保护工作。而对于业务数据, 缺省情况下, 数据只恢复最近一次备份数据。备份什么样的数据、需在什么时间和采用什么样的备份方式都各有不同, 数据库系统进行恢复时, 由于备份的数据库保留了逻辑比占, 因此可以恢复所有记录。如果要恢复历史版本的备份数据, 就要先选择相应的历史备份数据, 然后选定要进行恢复的相应文件进行恢复。出现故障该如何恢复需要根据本馆数据实际情况进行详细的规划。
4 结束语
随着信息化建设的发展, 高校数字图书馆将更加开放、更加高效, 同时这也意味着在信息安全方面将面临更多的挑战。高校数字图书馆应顾全诸多因素积极制定并采取科学有效的措施防患于未然。数据安全问题是一项复杂的系统工程, 高校数字图书馆应根据本馆实际, 因地制宜设计、执行数据安全体系及规范, 全面、协调地应用多种防范措施, 同时加强自身建设, 严格数据管理, 不断加强数字图书馆数据安全队伍建设, 完善建设图书馆的数据备份与恢复系统, 规避因各种原因带来的数据安全风险。
参考文献
[1]百度文库.信息系统容灾备份解决方案[EB/OL].[2013-07-22]http://wenku.baidu.com/view/d186dac608a1284ac8504357.html
[2]新浪直播间.中国灾备管理战略国际研讨会[EB/OL].[2013-07-24].http://vipchat.sina.com.cn/content/biz2/log_3962.html.
高校图书馆特色数据库建设 篇11
关键词:高校图书馆 数据库 特色
教育产业化使得高校竞争日趋激烈,学科建设成为高等学校生存与发展的重要环节。打造学科品牌,提高教学质量是高等教育的永恒主题。文献资源建设作为学科建设的重要组成部分,为学科建设提供强有力的文献支撑。文献数据库建设是高校图书馆为教学科研提供文献支撑的重要手段,因而,结合高校的重要学科(特色学科)建立相关的数据库是完全有必要的。
一、国内外文献数据库现状
目前,国内外有许多文献数据库,收录范围较广,但是专业文献收录不全,查找起来费时费力,在购买数据库时,费用较高。例如,《重庆维普期刊数据库》收录造纸、食品学科期刊仅137种(中文)、7种(外文),远远不能满足教学和科研需求。DALOG数据库为文摘型数据库,收录专业较全,但在查找全文时又存在许多困难。因此高校建设这个数据库可以填补这项空白,数据库建成后,可以最大限度地发挥学科和资源优势,将对高校学科建设、教学和科研起促进作用,对国内同类学科的建设和发展也起到辐射作用,对国内外同类学科的建设起到支撑作用。全文数据库的建成将大大提高文献的查准率和查全率,为广大读者提供方便、快捷的检索和查询服务。
二、特色数据库建设条件
1.学科优势。所建学科特色数据库必须依赖较深的学科优势,一般为国家、部级重点学科、博士学位授权点、市重点学科,应是全国同类专业中具有较高的知名度,在国外具有一定的影响。
2.馆藏优势。所建学科特色数据库应有丰富的馆藏资源,重点学科中文期刊、重点专业期刊覆盖100%,外文期刊、重点学科中文图书、外文图书及相当数量的会议文献等等。多年累积的该学科信息资源数字化后的大量集合,能够使其在众多的网络信息资源中脱颖而出,满足用户深层次需求。
3.资源优势。与外单位(包括外省市)关系单位结合紧密,有利于特种文献的入藏。
4.人员优势。把特色资源建设作为今后的工作重点,组织有多年从事情报检索和熟悉计算机编程人员建设,有重点专业的教授作后盾,有校领导的支持。
三、特色数据库建设目标
特色数据库建设项目主要包括中文期刊全文数据库、外文期刊全文数据库、博士论文数据库、硕士论文数据库、科研项目数据库、学科信息网上导航数据库、行业标准及相关数据库软件开发。建成后的数据库将提供多种检索方式和多个检索点:包括关键词、文章题名、期刊名、著者、ISSN等,用户可从多点检索获取所需信息,为全国相关高校、科研单位及相关行业服务。形成主题鲜明、特色突出、内容丰富、便于使用的学科专业特色数据库,可满足师生对该领域文献信息的需求。可推广到全国该学科科研、教学、销售、管理部门使用,满足教学、科研、生产、管理、销售人员的需求,为我国学科发展做出贡献。
特色数据库建设是建立一个能为全国相关高校、科研单位、同行业,提供以该学科及其相关学科的文献资源网络公共查询系统。建立信息网上导航数据库,其目的在于方便读者查询该学科领域的各种网络资源。特色数据库建成后可充分发挥电子文献所具有的优势,为读者进行远程服务,达到特色馆藏资源共享的目的。特色数据库的专指性和实用性往往能够向用户提供更具针对性的资源与服务,有效降低用户的决策成本。
对高校图书馆而言,提高了其馆藏文献资源的利用率,并为图书馆带来发展的新契机。将大大提高本馆的馆藏利用率,使其在信息时代重新焕发生机。此外,特色数据库也是数字图书馆建设的重要组成部分,是有效提高图书馆核心竞争能力的手段。
参考文献:
1.何凯文.我国文献数据库的现状及发展对策[J].河南图书馆学刊,1997,(02).
高校图书馆特色数据库建设 篇12
一、国内外文献数据库现状
目前, 国内外有许多文献数据库, 收录范围较广, 但是专业文献收录不全, 查找起来费时费力, 在购买数据库时, 费用较高。例如, 《重庆维普期刊数据库》收录造纸、食品学科期刊仅137种 (中文) 、7种 (外文) , 远远不能满足教学和科研需求。DALOG数据库为文摘型数据库, 收录专业较全, 但在查找全文时又存在许多困难。因此高校建设这个数据库可以填补这项空白, 数据库建成后, 可以最大限度地发挥学科和资源优势, 将对高校学科建设、教学和科研起促进作用, 对国内同类学科的建设和发展也起到辐射作用, 对国内外同类学科的建设起到支撑作用。全文数据库的建成将大大提高文献的查准率和查全率, 为广大读者提供方便、快捷的检索和查询服务。
二、特色数据库建设条件
1. 学科优势。
所建学科特色数据库必须依赖较深的学科优势, 一般为国家、部级重点学科、博士学位授权点、市重点学科, 应是全国同类专业中具有较高的知名度, 在国外具有一定的影响。
2. 馆藏优势。
所建学科特色数据库应有丰富的馆藏资源, 重点学科中文期刊、重点专业期刊覆盖100%, 外文期刊、重点学科中文图书、外文图书及相当数量的会议文献等等。多年累积的该学科信息资源数字化后的大量集合, 能够使其在众多的网络信息资源中脱颖而出, 满足用户深层次需求。
3. 资源优势。与外单位 (包括外省市) 关系单位结合紧密, 有利于特种文献的入藏。
4. 人员优势。
把特色资源建设作为今后的工作重点, 组织有多年从事情报检索和熟悉计算机编程人员建设, 有重点专业的教授作后盾, 有校领导的支持。
三、特色数据库建设目标
特色数据库建设项目主要包括中文期刊全文数据库、外文期刊全文数据库、博士论文数据库、硕士论文数据库、科研项目数据库、学科信息网上导航数据库、行业标准及相关数据库软件开发。建成后的数据库将提供多种检索方式和多个检索点:包括关键词、文章题名、期刊名、著者、ISSN等, 用户可从多点检索获取所需信息, 为全国相关高校、科研单位及相关行业服务。形成主题鲜明、特色突出、内容丰富、便于使用的学科专业特色数据库, 可满足师生对该领域文献信息的需求。可推广到全国该学科科研、教学、销售、管理部门使用, 满足教学、科研、生产、管理、销售人员的需求, 为我国学科发展做出贡献。
特色数据库建设是建立一个能为全国相关高校、科研单位、同行业, 提供以该学科及其相关学科的文献资源网络公共查询系统。建立信息网上导航数据库, 其目的在于方便读者查询该学科领域的各种网络资源。特色数据库建成后可充分发挥电子文献所具有的优势, 为读者进行远程服务, 达到特色馆藏资源共享的目的。特色数据库的专指性和实用性往往能够向用户提供更具针对性的资源与服务, 有效降低用户的决策成本。
对高校图书馆而言, 提高了其馆藏文献资源的利用率, 并为图书馆带来发展的新契机。将大大提高本馆的馆藏利用率, 使其在信息时代重新焕发生机。此外, 特色数据库也是数字图书馆建设的重要组成部分, 是有效提高图书馆核心竞争能力的手段。
参考文献
[1].何凯文.我国文献数据库的现状及发展对策[J].河南图书馆学刊, 1997, (02) .
【图书馆数据】推荐阅读:
图书馆数据分析08-20
大数据与图书馆发展09-19
图书馆数据库管理系统08-26
图书数据检索论文10-26
数据挖掘与图书管理11-20
图书管理系统数据库设计09-06
图书管理系统数据库的设计10-17
学校图书馆配图书现状05-31
上店小学图书馆图书采编07-02