图书数据检索论文

2024-10-26

图书数据检索论文(精选12篇)

图书数据检索论文 篇1

一、图书馆中文图书编目数据质量存在的问题

(一) 著录不够规范、不尽完整。

随着图书馆规模的不断扩大发展, 以及各个时期的著录要求之差异, 随着现如今网络的加入, 使著录的要求变得更高、更细、更规范。各时期图书馆编目原则不统一, 由此造成了同一图书, 分类却不同。尤其是在大量购入文献的情况下, 由于工作量大、时间短、对图书特性的不熟悉、对CNMARC格式的理解不深刻, 在著录时对图书的处理容易出现简易编目、字段少、机构名称不统一、遗漏了必要检索项、对于一些外国作者采用译名、甚至出现英文大小写字母混乱等等问题。因而无法充分揭示文献的内容及外部特征, 给读者检索带来了潜在困扰。

(二) 标准不够统一。

目前图书馆对中文图书著录普遍采用的都是CNMARC格式, 但是, 各图书馆对CNMARC格式的理解不尽相同, 主要表现在选用机读目录格式的字段及字段的指示符不一致。在著录标准上, 各系统之间也存在着较大的差异:当采用分散著录时, 有的把总题名作为文献的正题名, 而有的却把总题名作为丛编提名;当多卷书进行著录时, 有的集中著录做了一条记录, 有的分散著录做了多条记录。这些问题一般都是因为编目人员对编目规则理解的不同所致, 也是目前普遍存在的问题。

(三) 著录信息存在差错。

现如今, 图书馆采用的都是自动化管理系统, 由于系统不统一, 检索界面和检索方法不同, 加之各编目员个人素质差异, 理解程度不同, 导致在著录过程中, 出现很多错误, 使得对同一书目的编目出现了各种不同的结果:有的图书馆存在同书异号;书名和作者录入的字错误;ISBN号错误;分类号不一致;字段及子字段使用不准确及出版者、出版地与实际不相符等等现象。这些显见的错误是常见的。

(四) 重复著录。

这方面其实也应该纳入编目人员的素质一列, 在进行著录的过程中, 如果只求速度, 忽略了查重工作, 很容易就会出现重复著录, 或一种书存在两三个记录的问题。重复著录可造成数据库混乱, 加大了数据库的数据量, 增加了负荷, 而且由于图书馆藏书数据不准确, 为读者检索带来了人为的困难, 直接或间接的影响了数据质量的优化及图书馆工作的效率。

综合所述, 影响数据质量优化的原因是多方面的, 造成的后果和影响是不吝多说的, 是需要在实际工作中认真加以研究和解决的。

二、优化编目数据质量的举措

(一) 提高编目人员的整体素质。

编目人员的素质是保证数据库准确的关键因素, 所以建设一支符合时代需要的、高素质的编目队伍是保证图书质量优化根本之所在。现如今图书编目一切都采用网络化, 要求标准很高, 对于编目人员来说, 计算机编目是一项专业性很强的工作。首先要加强编目人员的职业道德教育, 从而提升工作人员的责任心和工作态度, 形成不怕繁琐、耐心细心、积极向上、认真负责的工作作风。同时, 要加强提高编目人员的业务水平。现今的计算机编目, 不仅要有相应的学科知识, 图书馆的业务流程及相关知识, 又要掌握计算机应用程序, 还要具备一定的外语水平。所以, 要适时的给予他们相应的业务培训, 可以通过参加各种编目培训班、学术研讨会或定期召开本部门的讨论例会等方式不断地提升其知识结构, 文化素养及处理问题的能力。只有从整体上提高编目工作人员的自身素养和知识水平, 才能从根本上避免了因编目人员编目水平和工作态度所造成的错误, 从而更好地确保编目数据的质量。

(二) 建立健全编目数据质量审核制度。

加强校对环节、健全审核制度是确保图书编目的质量。重要措施:通过校对审核, 可以对编目数据进行必要修改、增减和校验, 有效地减少了错误出现的几率。建立相应的审核制度并非多余之举, 所谓没有规矩不成方圆, 什么事情都要在一定的制度约束下, 才能取得事半功倍的成效。所以, 建立严格的审核制度, 健全数据质量控制制度中心, 除编目人员自校、互校外, 还应尽可能选派对工作认真负责的编目人员设立校对岗, 对编目人员提供的数据进行严格把关和抽查检验。同时, 对每一环节的工作进行严谨的质量检验、核对、分析、判断, 然后对检查中出现的错误记录, 做好修正, 并针对检查出的问题, 总结经验教训制定相应的预防办法, 努力将差错率降至最低, 以至日臻完善。

(三) 加强编目数据质量的信息反馈。

编目质量的好坏, 还要通过读者的查阅及图书馆的各项服务反馈的信息来检验的。为了健全图书馆的编目数据质量, 在流通服务部应设置记录手册, 当读者和工作人员发现问题的时候, 可以随时的将质量问题记录下来, 并及时的反馈给编目部门, 然后编目部再将错误和问题进行公开公布, 这样可以有效的警醒编目人员在接下来的工作中减少此类错误的出现, 加强了编目人员的责任心和事业心。也可以定期的召开交流会议, 召集一些读者和编目人员及流通服务部的人员进行编目质量交流, 通过交流对话发现编目中问题之所在, 做到及时发现、及时修正、及时整改。通过对编目数据质量的信息反馈, 确保编目数据质量的优化。

(四) 合理利用外来的标准数据进行编目。

参考好的外来数据, 不仅可以提高编目工作的效率, 而且有利于提高编目质量, 使编目人员在相互甲流, 相互借鉴中提高业务水平。例如:国家图书馆联合编目中心, 具有比较规范的中文标准数据源, 而且能够做到编目资料与图书同行, 可为编目提供帮助和借鉴。利用这些好的外来数据进行编目时, 可以极大地减轻了各馆编目人员的工作量, 保证了编目数据的质量。

(五) 把握好图书的查重。

查重是使图书分类规范统一的另一关键环节, 通过查重, 既可以确保图书馆的图书分类做到细化, 也可以防止出现同一书籍同时出现三五条记录的现象, 避免同种书的重复数据, 使复本书的索书号跟以往索书号保持一致, 避免出现同书异号的现象, 也能防止不同版本的同种书给出不同的种次号。通过查重还能及时发现已编目录的差错, 并得到及时更正, 做到校对查重的任务, 一举两得。

(六) 适时的更新系统。

随着图书馆的发展, 编目规则也随之日渐完善, 现如今所采用的计算机操作, 原有的编目软件系统功能已不能满足实际需要, 要求机读目录编制工作进一步加深。编目工作的水平受到系统的牵制。因此, 要完善系统功能, 对系统的质量、工作效率、实用性和可靠性要重新衡量, 而且, 现如今图书馆规模日渐扩大, 所以, 在进行计算机查阅图书的时候, 要做好资料和信息的及时更新, 这样, 才能有效的为读者提供方便。

三、结束语

编目工作是图书馆的基础工作, 也是至关重要的工作。只有有效的加强图书编目数据的质量, 才能提高图书馆的服务质量, 进而实现数据质量与服务质量相辅相成、相得益彰的功效。同时, 随着网络化的普及, 图书分类工作已不仅仅代表一个图书馆的质量和发展, 而且关乎到整个图书馆网络的协调发展。因此, 做好图书编目数据的质量优化, 不仅保证图书分类的质量和效率, 同时从宏观和长远的角度上看, 乃是实现书目信息资源共享的必经之路, 大势所趋。

参考文献

①赵英智.中文图书编目数据质量分析与控制浅议[J].科技情报开发与经济, 2006 (17) .

②段昌华, 李强.高校图书馆中文图书编目数据质量控制探讨[J].当代图书馆, 2006 (03) .

③肖云.中文图书编目存在的问题及对策探析[J].江西图书馆学刊, 2008 (03) .

④王瑞芳.图书馆编目数据质量的分析[J].太原师范学院学报 (社会科学版) , 2006 (05) .

⑤吴云.中文图书编目数据的质量分析与优化策略[J].内蒙古科技与经济, 2009 (22) .

⑥杨丽莲.图书馆中文图书编目数据质量的优化[J].中国科技信息, 2005 (14) .

图书数据检索论文 篇2

通常学校图书馆的图书藏书量比较大,管理工作繁琐,手工进行管理往往费时费力,而且无法达到很好的效果。因此图书管理系统应用十分广泛,具有重要意义。如果使用关系数据模型设计一个图书管理系统数据库来管理图书,可以达到快捷,高效,准确的效果。图书管理系统数据库的主要功能是处理书籍信息,包括书籍的类别、出版社信息、书籍的作者、借出信息、图书的查询、相关借出书籍的学生信息等等功能。

在图书管理系统中典型的查询操作包括查看某种类型的图书、浏览指定出版社出版的图书、检索指定作者的图书等,典型的更新操作包括登记新书信息、作者信息等。作为一个在存储几百万图书和大学图书馆,如果没有管理图书的信息系统,那么借阅一本书的时间可能需要一个星期。这种管理大量图书的管理系统的技术基础是使用关系数据库技术。

图书管理系统的任务是用计算机管理和维护书籍信息,提供各种查询功能。

l 实现图书馆图书自动化管理。减轻工作人员和借书人员等工作量。

l 采用窗体程序设计方法,便于系统功能的各种组合和修改,又便于补充和维护。

l 具备数据库查询和报表打印功能,及时根据需求进行数据的检索、打印各种基础报表等操作。

如图所示是本书示例数据库图书管理系统数据库的E-R图。在该图中显示了图书管理中所要使用实体集、实体属性和实体之间的关联等重要信息。

图书管理系统E-R图

建立图书管理系统数据库主要任务是用计算机对图书馆的图书进行管理。依据系统的总体要求及系统概述,图书管理系统需要完成的主要功能有:

l 采购新书时,将新入库的图书登记入数据库。

l 图书借出时,记录相关信息。

l 浏览库存图书信息,提供各种方式的查询。

l 提供指定需求报表的打印,例如,打印出所有已借图书信息。

l 在借书和还书之间进行关联,删除预定需求,并在图书明细信息上做记录。

图书数据检索论文 篇3

关键词:暗数据;大数据;数据服务;图书馆

中图分类号: D035 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015040

Analysis of the Influence of Dark Data on Library’s Utilization of Big Data

Abstract It is necessary for library to apply big data to increase and widen its service, but dark data in big data will certainly influence the application. It is important for us to recognize the existence of these data and their influence and then try to exclude them so as to increase efficency.

Key words big data; dark data; data service

毋庸置疑,大数据是当下社会最热的词汇,其不仅被学术界所研究,也被政府所重视,更被商界所追捧,全社会已然进入到了一个开口必言“大数据”的时代,数据也似乎成了可以推动社会发展的最强驱动力,但实际是否如此?所有的大数据都真如一些研究所言可以分析与利用,是“金矿”、是推动社会发展的新动力吗?带着这些问题,笔者通过引进、介绍了占大数据比例较高、价值巨大但难以收集、分析和应用的暗数据,重点分析了暗数据对应用大数据的影响和图书馆应用暗数据的方式与途径。

1 暗数据概述

目前,业界对“暗数据”的定义还不丰富和完善,相关讨论也都主要引用国际著名咨询公司Gartner公司对“暗数据”的定义:“企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其它目的(如分析、商业关系和直接获利)的信息”[1]。大数据智库则将其定义为:“暗数据”是深藏于海量数据之中、在商业应用上可能发挥重大作用的关键隐含数据[2]。结合上述两种定义,我们可以理解为,“暗数据”是人类没有掌握和收集但已产生影响的数据+人类没有开发挖掘的大数据,具有不易收集与分析、隐匿性较高等特征。

相较于大数据,暗数据的社会关注度就逊色不少。笔者以主题为“暗数据”检索了国内收录研究文献最为齐全的中国知网(检索日期:2015年3月30日),结果显示只有2015年初蒋报永发表在2015年1月12日《中国计算机报》上的“点亮‘暗数据’的五种方式”[3]一文,可见国内学者对其的研究之匮乏接近于空白。但需值得注意的是,有一篇网络博文则受到了业界极大的关注,那就是上海图书馆馆长吴建中先生2015年2月22日发表于其博客“建中读书”的“暗数据”[4]一文,该博文不但对暗数据的GARNER定义、国内外图情界对其的关注与实践进行了介绍,也介绍了博主对暗数据的理解与发展展望。

根据上述两篇仅有的中文文献资料,我们知道:国际知名的开放出版机构生物医学中心(BioMed Central,简称BMC)与全球最大搜索引擎谷歌Google,分别于2008年及其后,各自致力于药物开发或科技领域的暗数据研究;从2012年开始,美国众多企业都在信息发布或微信等媒体上透露将关注暗数据信息;惠普、美国慷孚系统公司(CommVault System, Inc)等IT公司正致力于研究和推广点亮“暗数据”的信息治理策略研究和智能归档解决方案。此外,Facebook面对数量庞大的互联网社群,为了使生成的内容既吸引一批忠实的品牌倡导者,也可以唤醒那些“潜水粉”,于是通过在社交虚拟社区测定“潜水粉” 的点击率、变动率和一段时间内的参与度,以此来“激活”“潜水粉”①,将品牌的着力点放在他们“正在不做什么”之上,进而影响和促动营销者们挖掘品牌内在的价值[5]。

2暗数据对图书馆应用大数据的影响

2.1 图书馆暗数据的分类与原因

尽管大数据价值巨大,但其价值的实现必须依赖于深度的数据挖掘和分析,以此来发现隐藏在事物发展表明的本质和规律,进而实现数据信息的增值与开发。反之,数据则会处于黑暗的非揭示状态。而从上述暗数据的定义、特征等可以看出,处于黑暗非揭示状态的数据可能是人们未能存储掌握或真实存在而又人们未能知道的数据,也可能是已经存储但没有挖掘开发的数据,这两类不同的数据对大数据分析和应用的影响也存在差异。

图书馆是社会知识存储、加工与组织的公益性机构,也是社会文明发展历程的见证者和成果继承者,跨入大数据时代以来,图书馆界敏锐的观察到了大数据社会民众的信息需求变化特征,并开始了对大数据时代图书馆转型变革的研究与实践。其中,掌握和分析用户的图书馆利用等信息行为等数据,以为用户的个性化、专业化信息服务开展、推送与实现提供决策参考,是图书馆在大数据时代的大数据应用主要内容。暗数据的存在和对其他数据的影响也会影响到图书馆对大数据的应用效率、价值和意愿,而分析这些影响的大小与可能性,则需从图书馆所需大数据中所含暗数据的来源入手,以进一步通过分析这些来源数据可能产生的影响。笔者认为通常来说,图书馆所需大数据一方面来自于用户享受图书馆服务时产生的借阅习惯、借阅历史等存储于计算机的结构化数据,和产生于用户在科学研究、社交网络等情景时产生的非结构化数据、半结构化数据(第一类数据),另一方面则来自于互联网、商场等物理空间、虚拟空间中个体的信息行为数据(第二类数据)。

nlc202309040951

从产生上述两类暗数据的原因来看,既有主观原因,也有客观原因,如数据收集、分析和挖掘等处理设备、技术等都可能造成数据无法准确掌握的原因,对数据分析深度的欠缺、基于经验的人为主观判断等也可能造成暗数据价值的浅层挖掘,隐私、商业信息的保护和获取之间矛盾,大数据时代信息伦理规约和传统信息道德的博弈,等等。这些问题的解决既需要相关技术的发展为支撑,也需要数据挖掘等相关工作的开展积累,更需要相关法律、法规和制度的完善与保障等多方发展推动因素。

2.2 暗数据对图书馆应用大数据的影响

从对图书馆应用大数据的影响来看,第一类数据主要会影响到图书馆对用户个体需求特征的精准判断和服务,如对用户所需学科领域、服务途径等的模糊掌握,会影响到用户对图书馆服务的体验与评价,甚至当图书馆在大数据时代信息中心的地位被边缘化、以服务来体现价值的情况发展逐步显现时,用户可能会选择其它信息咨询、数据分析等盈利性机构,最终降低图书馆的存在价值;第二类数据主要会影响到图书馆对非图书馆服务利用者和发展生态环境的需求与态势判断,如对非图书馆用户来说,其对图书馆服务的服务体验可能处于空白,图书馆不能依赖第一类数据的分析来断定所有社会民众的图书馆服务体验意愿,而是需掌握这类潜在的图书馆用户利用图书馆服务的可能性和有区别于图书馆用户的服务需求,这就需通过分析这类信息行为主体在互联网、社交空间、移动终端使用等方面的社会数据。同时,图书馆不能对数据的分析局限在固定用户和潜在用户的信息行为等范围,大数据的价值巨大就是因为其实现了多领域、多途径数据的关联,通过潜在的关联去分析和发现事物之间可能产生的关联关系,如经典的“啤酒+尿布”就是看起来毫不相干的两件事,最后却关联在一起并铸造了一个传奇营销案例。因此,图书馆也需对产生于商场、博物馆等物理空间和网络、设计空间等虚拟空间的数据进行掌握与分析,以寻求图书馆的服务改进与事业发展途径。如果对所分析的数据在数量、来源分布等方面存在较大的暗数据,其分析的结果可能不能达到预期的效果或产生一定的结果偏移,影响到图书馆决策者在事业发展、服务改进等方面的正确决策和创新。

3 如何点亮图书馆所需的暗数据

3.1 图书馆应用暗数据:价值与风险并存

大数据价值的产生缘于其广泛的来源和庞大的数量以及复杂的组成结构,那么,在大数据中,暗数据所占的比例有多高呢?全球性的组织CGOC(Compliance, Governance and Oversight Counsel,合规管理监督委员会)在2013年进行的一项调查研究结果显示:“在企业存储的数据中,69%的数据对企业毫无价值[3]”。也有科学研究表明“宇宙中有90%是由人们看不见的暗物质组成的”[6]、“存在于地处暗黑之海里面(Dark Web)一些孤岛的数据占数据总量的85%以上”[7],等等。这些都表明暗数据不但存在于大数据之中,且所占比例和数量巨大。图书馆利用这些存在形态多样、收集与存储难度较高、数量巨大、结构复杂的暗数据,其带来的价值必将巨大吗,但也将面临着上述的技术、信息伦理等制约与风险,2013年央视3·15晚会曝光的网易等公司追踪用户cookie、分析邮件内容就是一件典型的案例[8],而其实从大数据的角度来看待的话,其只是客户信息行为数据的一个收集过程,但其与当前的用户隐私等法律法规相冲突,面临法律诉讼等风险。“棱镜门”事件也是此类事件的典型代表。

与风险对应的则是价值,暗数据好比所占宇宙物质高达90%的暗物质一样,其主导着大数据的形态分布、结构组成与价值大小等属性,其实这也就决定了对大数据的分析与挖掘其实就是对暗数据的价值挖掘与分析,图书馆掌握和提高了对暗数据的应用,也就是提高了对大数据的应用。

3.2 图书馆应用暗数据:方式与途径

“点亮‘暗数据’的五种方式”一文对于企业如何点亮“暗数据”,释放更大商业价值有了初步研究成果,认为企业可通过利用CommVault Simpana10更好地搜索、了解和管理企业存储的海量非结构化数据(如电子邮件等),智能地利用已存储内容,在数据的生命周期内对其进行管理,就可告别“暗数据”时代[3]。笔者借鉴企业的五种方式,认为对图书馆来说,应用暗数据的方式与途径第一步是控制图书馆“暗数据”的庞大数据量。即抛弃传统的数据保护方法,通过借鉴Simpana软件基于内容的保留策略,仅保留那些对于图书馆有重要价值的数据,如用户的上网记录、借阅历史等数据,减少数据存储成本。第二步是建立一个全面的归档策略。即一方面从所有生成数据的地方采集数据,另一方面能够使用一个单一、不可复制的索引去管理所有数据。第三步是让用户和图书馆能自助搜索和访问所需数据。即让用户能够快速地发现、访问、分析和提取所需信息。第四步是自动管理数据生命周期。即让对数据从生成到处理的整个生命周期进行评估,制定内容删除的治理策略。第五步是确保合规和发现。即对数据的获取与利用是否与现行的法律法规等有冲突,进行策略改进。同时,还要确保其它未收集数据的及时发现与已收集数据的价值发现,让更多的暗数据走向可视化(收集的可视化与价值的可视化)。

4 结语

《驾驭大数据》一书曾写到,数据的核心是发现价值,而驾驭数据的核心是分析[9]。暗数据在大数据中所占的比例和价值决定了其大数据分析和应用的核心,但目前的科学发展、技术水平、法律法规、伦理道德等制约和影响着对暗数据的研究与应用,业界对暗数据的研究和关注说明人们对更深挖掘大数据价值的期待,也说明对于解决应用暗数据存在的障碍充满期待。图书馆一直以来是社会知识存储、数据加工与分析的中心与主要阵地,尽管在当前发展时期,暗数据的存在可能会影响到图书馆用户个性化、学科化等服务实施的精准性和未来图书馆事业发展的态势判断,同时还需处理好风险与价值共存的关系,但借鉴企业实施点亮“暗数据”五步途径,也能在一定程度上降低暗数据对图书馆应用大数据的影响。

nlc202309040951

参考文献:

[1]Gartner IT Glossary. Dark Data[EB/OL]. [2015-03-16].http://www.gartner.com/it-glossary/dark-data.

[2]暗数据(Dark Data)[EB/OL].[2015-03-16]. http://mp.weixin.

qq.com/s?__biz=MzA5NzY5NDQxNg=&mid=201848593

&idx=4&sn=fc7c68a27c19f52aad571078fb01219e.

[3]蒋报永.点亮“暗数据”的五种方式[N].中国计算机报,2015-01-12.

[4]吴建中.暗数据[EB/OL]. [2015-03-16].http://blog.sina.com.cn/s/blog_53586b810102vgky.html.

[5]Dark Data and Measuring Invisible Impact in Your Facebook Community[EB/OL].[2015-03-16].http://www.socialme

diatoday.com/content/dark-data-and-measuring-invisible

-impact-your-facebook-community.

[6]东南大学借“大数据”研究暗物质 数据总量等于30个国家图书馆[EB/OL].[2015-03-16].http://news.jschina.com.cn/system/2014/09/21/021926615.shtml.

[7]大数据的暗黑之海和外部效应[EB/OL].[2015-03-16].http://www.cio.com.cn/eyan/391997.html.

[8]3.15晚会曝光易传媒等破解cookie窃取用户隐私[EB/OL].[2015-03-16]. http://www.sootoo.com/content/404144.

shtml.

[9](美)Bill Franks.黄海译.驾驭大数据[M]北京:人民邮电出版社,2013.

作者简介:崔小宜(1980-),女,西北政法大学行政法学院讲师。

图书馆数据分析 篇4

1 图书馆数据特征

传统图书馆数据可按数据内容分为馆藏数据、读者数据、服务数据及后台数据。其中, 馆藏数据主要指馆藏书籍类型、数量、价值金额等;读者数据主要指读者类型、数量、到访频率及时长等;服务数据主要指各个专项服务数量, 包括文献流通次数、检索咨询次数、科技查新次数等;后台数据则主要指设备数、业务经费数、编目数、工作人员工作量等。通常, 传统图书馆统计数据产生于日常活动, 数据动态性明显, 反映了馆藏、馆员、读者等多角度的联系。如文献流通次数既反映读者对某种图书的需求量, 又反映工作人员的工作量, 还可反映馆藏利用率。由此可见, 如何通过分析方法真实反映图书馆数据的相关性和动态性, 才是统计工作的重点所在。

电子图书馆数据则呈现出同传统图书馆数据截然不同的数据类型及特征。随着信息技术的发展, 电子图书馆对于传统图书馆的发展形成了很大冲击, 同时, 电子书的阅读产生了较传统图书馆精确度与数据量更高的数据, 且获得方式更为容易, 这使得数据分析的成本进一步降低。如电脑可对图书借阅频次生成记录, 只需通过数据库语言导出相应数据, 进而利用相关分析软件进行分析即可, 过程方便快捷。由此, 借助于图书馆数字化发展, 对于图书馆行业数据分析和挖掘是非常具有可行性的。

2 图书馆数据分析方法

2.1 描述性统计分析

描述统计主要是对数据特点进行整理分析, 得出结论, 通常可利用列表、图示 (如条形图、扇形图、雷达图) 等形式对数据进行描述, 主要分析数据的集中趋势、离中趋势和相关关系。如对当前馆藏图书种类及数目进行统计, 了解其众数, 并可与历年馆藏数目相比较, 了解各类图书数目变动趋势, 结合扇形图和折线图分析, 以便准确把握图书资源的利用分配。再如针对图书馆读者满意度进行研究, 研究其与图书库馆藏数目翻新率、图书周转率、工作人员人数等变量间的相关关系, 以此有针对性地进行改善, 力求更好地为读者服务。

2.2 推断性统计分析

推断统计主要通过样本数据特征推断总体数据特征, 做出相关预测或是进行假设检验等。通常在大数据背景下, 还可利用数据挖掘法等方式进行知识挖掘、情报分析等。如对各类文献资源数据进行处理和分析, 透过表面信息深入到文献背后复杂关系中, 进而挖掘潜在规律, 从而展示给读者一个信息资源充满关联的立体知识体系, 再深入分析用户的潜在阅读需求, 提高对用户需求把握的准确性。再如应用数据挖掘、自学习技术, 实现自动化、智能化分析馆藏资源的增减变动方向和变化趋势, 深入分析, 帮助用户获取动态性和前沿性的情报信息, 并借助可视化技术获取其中的发展规律和趋势。还可借助数据仓储、数据挖掘及搜索引擎等方法, 深入挖掘大量馆藏内外的学术文献的使用规律, 为读者和图书馆运营提供发现服务。一方面, 分析馆员工作行为及读者搜索行为, 分析资源关联性和升值性, 探索图书馆服务的整体性, 提高信息搜索定位的快捷度和准确性。另一方面, 挖掘馆藏资源的立体关系, 建立情报分析体系, 实现资源互引的印证关系和趋势关系, 从而对于知识需求的挖掘提供相应的参考。此外, 运用可视化技术, 深入对比分析结构化的文献字段, 并对关键词、时间、作者、学术价值等基本指标形成的统计分析报告以图表方式展示, 在为科研人员了解学科热度、研究方向有重要意义。

3 图书馆数据分析困局

3.1 部分领导对统计工作不重视, 统计制度未能建立健全

通常在图书馆运营工作中, 并没有良好地组织相关的统计工作, 或是设置相关的职责部门。在图书馆的规章制度中, 通常也缺少对于统计数据的报告或者分析机制的相关规定, 平时往往忽视原始数据的登记或是原始凭证的搜集归类, 从而使得统计数据来源不够清晰, 统计数据不够准确甚至出现猜测数据的情况。作为统计分析的源头, 统计数据的缺失为统计工作的开展创造了很大的困难, 难以保证统计报表的准确性、科学性。部分领导则更多的只是将粗略了解的基本数据作为年终总结的依据, 甚至可能为了个人政绩的美化而修改数据致使数据失真。工作人员也未能重视日常统计工作, 主动统计意识较差, 也并未进行数据的相关性、动态性、综合性分析。

3.2 图书馆工作计量指标体系不完善, 缺乏反映图书馆工作全过程的一系列完整统一的量化指标

在图书馆统计工作中, 如果可以拟定以计划指标为基础且存在一定相关关系的可量化的指标体系, 从而对图书馆工作进行考量, 将为统计分析工作打下一个坚实的基础。

完整的量化指标可由名称、定义、核算范围、计算方法等方面构成, 借助不同量化指标间的不同关系, 可构建反应图书馆工作不同方面的指标体系, 如读者满意度指标体系、图书管理人员工作绩效指标体系、图书馆自动化建设指标体系、数字图书馆运营指标体系等。依据不同指标体系开展数据搜集工作, 并由专业分析人员对数据背后的潜在信息进行挖掘, 从而了解图书馆运营效果、提高运营效率以及为制定相关决策提供依据。

3.3 统计手段简单, 对统计分析重视程度不够

在图书馆现代化管理中, 对于统计功能的设置项目不够健全, 需要适当地借助手工数据统计。然而在统计手段只局限于简单的累计汇总的基础上, 缺乏合理的统计项目, 使统计工作只能处于初级阶段。相当数量的图书馆工作人员对于统计数据分析方法并不熟悉, 缺乏从数据中挖掘信息的意识。因此, 图书馆管理人员难以运用多种统计工具或是统计分析软件开展统计工作, 也难以从多个角度和层次综合性地对数据进行分析。

4 图书馆数据分析改进建议

4.1 加强图书馆管理人员的统计意识, 建立健全图书馆统计制度

一方面, 要从图书馆领导入手, 提高其对于统计工作的重视程度, 只有决策层意识到统计分析对于图书馆建设和运营的重要性, 才能充分发挥统计工作的作用。另一方面, 要从统计制度着手, 完善统计工作流程, 规范统计工作实施, 加强对统计台账和原始数据的保管, 重视统计数据准确性和统计报表的科学性。同时, 图书馆领导应对统计工作加强监督, 支持统计人员完成统计职责, 指导相关人员做好统计分析工作。

4.2 引入相关统计专业人才或是加强对相关人员的专业知识培训, 确保统计分析工作顺利展开

统计工作要求工作的连续性和科学性, 这对于统计分析人员提出了业务素质和工作能力的要求, 因此设立专门的统计分析部门, 配备专项性人才是非常必要的。只有对统计理论和统计方法有了综合性的把握, 才能从整体上对于统计数据进行多层次、多角度的分析。利用多种统计方法, 深入分析数据间的对应关系、逻辑关系、因果关系等, 而不是仅仅停留于简单的加总整理。透过数据分析图书馆运营效果, 结合统计图表, 预测未来发展趋势, 为图书馆运营提出良好的建议, 并通过分析报告的形式提交给管理者, 真正发挥统计在经营抉择中的作用。

4.3 构建统计指标体系, 善于运用现代化技术, 提高统计分析质量

构建完整的统计指标体系是进行统计分析的基础, 它不仅可以便于数据搜集整理, 也是为之后的数据分析创建分析框架。因此, 要从日常工作流程入手, 选择合适的量化指标, 充分反映图书馆运营的方方面面。此外, 对于统计数据的获取, 不应再局限于传统的手工统计, 而是要在图书馆的现代化管理系统的基础上, 提高统计效率。因此, 图书馆管理人员应掌握统计工作流程, 熟练运用统计分析软件, 善于运用现代化技术, 让“电脑”与“人脑”有机结合, 提高采访统计与统计分析的质量与速度。

摘要:通过对图书馆数据类型及统计分析方法进行分析, 对图书馆开展统计分析工作所面临的困境进行了阐述, 并提出相应的建议, 从而为提高图书馆的运营效率提出了新的思路。

关键词:数据分析,困难,建议

参考文献

[1]庞皓.计量经济学 (第三版) [M].北京:科学出版社, 2014.

[2]刘霞光.教育统计学产生和发展对统计学的贡献[J].内蒙古师范大学学报, 2008, 21 (9) .

大数据时代的图书馆 篇5

北京联合大学杨宗琳

2013.3

与云时代息息相关的“大数据”是指互联网用户网络行为数据。“互联网上一天”的数据可以刻满1.68亿张DVD;发出的邮件有2940亿封之多,每天卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万„„。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。2009年的数据量为0.8ZB,2010年增长为 1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是 200PB,全人类历史上说过的所有话的数据量大约是5EB。整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。

我国当然也进入了大数据时代。目前,我国互联网大型服务器已达370万台,全国建立了45万个以上数据中心,数据中心总耗电量达到364亿千瓦小时,高达全国电力消耗的1%。

在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临巨大挑战,复杂数据的处理也将成为图书馆发展的主旋律,通过大量的非结构化数据、半结构化数据去寻找隐藏在数据背后的世界,进而为图书馆服务的模式、对未来发展趋势提供分析与预测将成为大数据时代图书馆的一大主要服务内容。图书馆将进入由藏书楼、阅览室到使用网线解决人们阅读需求的数字图书馆时代,读者通过手机等移动终端可以访问数字图书馆,查询世界、国家和各省、市级数字图书馆的资源。

未来时代将是大数据引领科技发展的时代,大数据技术应用将是未来图书馆服务创新的重要领域。本文讨论在大数据时代的图书馆,如何与时俱进提升管理与服务水平。

1.大数据时代图书馆特点

资源数字化、服务网络化、管理知识化是大数据时代图书馆的主要特点,换言之,图书馆从图书的保管者成为面向服务的信息提供者,从单一纸媒体到多媒体,从本馆收藏到无边界图书馆,从我们到图书馆去到图书馆来到我们中间,从按时提供到及时提供,从馆内处理到外包处理,从区域服务到国际服务。

大数据时代的图书馆就是数字图书馆。

2.数字图书馆

数字图书馆必须利用高端服务器、网络通信技术、智能存储系统、将面向对象的软件技术、人工智能技术与先进的知识组织和调度系统相结合,建立具有很好的可扩展性、易用性、可管理性和高可用性以及较强的可持续发展能力的数字图书馆系统和群体。

传统图书馆技术核心是图书分类技术、编目技术、标引技术,数字图书馆技术核心是数字存储技术、数字检索技术、网络安全技术、信息集成技术、系统互操作技术。

数字图书馆的管理基本职能主要是信息资源管理和人力资源管理,使馆员、资源、读者三者关系和谐发展。

传统图书馆提供书库平台,完成静态的、被动的服务,主要是为读者找书和为书找读者;数字图书馆则提供网络平台和信息产品,完成动态的、主动的服务,通过网络按需供给。

无疑,图书馆要从实际出发,循序渐进,加强传统技术与现代技术的融合,向数字化迈进。

3.图书馆馆藏资源数字化

图书馆系统包括馆员、馆藏资源、信息技术、环境、用户„。大数据新信息环境的形成,使图书馆行业与其它信息服务行业的界面日渐模糊。调查发现,84%的用户使用搜索引擎Google开始信息检索,1%的人从图书馆网页上开始信息的检索。图书馆应该为这1%用户提供数字化馆藏资源供使用。

图书馆馆藏包括实体印刷馆藏和数字馆藏,数字馆藏包括实体数字馆藏和虚拟数字馆藏。

调查发现,这1%用户中 70%以上的读者首先选择利用数字馆藏;数字馆藏提供或满足读者的70%以上的服务;利用率最高的资源,70%以上是馆藏中的数字资源。

数字馆藏评价包括科学性、经济性和可获取性。需要考虑:

(1)选择什么样的模式存放数据;

(2)选择什么样的方式组织信息;

(3)选择什么样的策略供读者访问;

(4)选择什么样的思路保证馆藏的可持续发展。

数字馆藏制作流程包括:元数据的标准和规范、知识资源(含声、像、图、文)的通用型加工系统、语法层次的大容量文献自动采集、自动篇名生成、自动标引、自动文摘生成的实用化技术、知识概念(语义)体系的建立、实现语义层次的自动标引、自动文摘生成、分布式藏品元数据的聚集与元数据库的构建、超大规模多媒体数字资源的长久保存、归档和存储管理技术,包括档案系统等、数字内容藏品的版权管理系统、数字对象和媒体的新型经济与商务模型研究、与创建和使用数字收藏有

关的社会经济法律问题的技术、方法、过程。

4.图书馆服务网络化

数字图书馆的建设以不断改善用户服务为最终目标,必须为用户在知识发现与利用上提供高效方便的工具,并且使得用户可方便地透过数字图书馆的多个资源库无缝获取所需的知识。服务的核心技术就是网络化。网络化包括先进的高效导航系统、适用于TB级数据的高效搜索引擎、开发实用的多语言、多文字、多文化以及个性化用户界面、个性化、智能的主动服务技术、保证藏品的安全和完整性技术:包括信息过滤系统;隐私权保护技术、实现数字图书馆群与科学数据库群内容的集成性服务、对新型媒体知识产权处理形成合乎法律框架的新的经济和商业模型、用户工具软件、基于互联网的协同工作技术和工具、用户和可使用性研究。

5.网格和数字图书馆

网格是把整个网络整合成一台虚拟的巨大超级计算机,实现计算资源、存储资源、数据资源、信息资源、文献资源、知识资源、专家资源等的全面共享。总之,网格可以实现分布在全球的硬件资源、软件资源和各种信息知识资源全面的连通,达到资源的最大共享。

由于网格的不同作用,它被划分成不同的类型,如:计算网格、设备网格、数据网格、信息服务网格等。

与数字图书馆的建设目标完全一致,网格致力于一次登录,访问全球分布式信息资源、全世界有用的信息资源可共享、基于自然语言的语义检索并进行资源整合、可提供学科的个性化服务、基于知识挖掘提供最小化的知识子集。

基于网格的数字图书馆服务模式是指全球数字图书馆可以提供基于语义的检索服务、虚拟参考咨询服务、主动推送服务、定题信息服务、个性化信息服务、培训服务等。这些都要建立在多语言库的基础之上,需要全球的各个数字图书馆协同工作。

6.高校数字图书馆空间设计

大学图书馆是高校师生心灵与情感最大限度敞开的地方,图书馆在本质上都是人们获取知识、感受文明、塑造自我的场所,在这里进行着的是体会、倾听、交流和感应:一种人类心灵与情感参与的内在活动。数字化技术的应用使图书馆内部空间边界日趋模糊,内墙的减少,内部空间越来越自由化,通过网络化,促进和加强人与人、人与书的交流。这种交流空间不仅仅体现在空间贯通上,更重要的是对功能流程的一种设计策略,体现大数据的时代特点:从古代图书馆担负保存人类文化典籍的职能到近代图书馆担负起社会教育的职能,再到现代图书馆担负起

传递科技信息和开发智力资源的职能,图书馆应该成为一个亲切宜人可达性强的公共场所。

高校图书馆作为信息整合、传播和辐射的重要窗口,在高校教学科研发展中发挥着特殊作用。开放、交流成为当代高校图书馆空间设计的重点。师生们不应该再把图书馆仅仅作为“知识的集散地”而是更要强调其“学习和交流中心”的功能,从而塑造真正意义上的“知识共享平台”,也就是大数据时代的图书馆,网络化的数字图书馆。

参考文献

1.百度文库现代高校图书馆的发展趋势

2.北方民族大学图书馆数字图书馆的发展趋势

3.江苏大学图书馆 袁润数字时代图书馆技术需求浅析与对策

图书检索系统体系架构研究 篇6

关键词:图书馆资源;信息检索;系统架构

中图分类号:TH166

图书馆,是搜集、整理、收藏图书资料以供人阅览、参考的机构,图书馆中收藏了大量的图书资料。以北京图书馆为例:到2011年底,总、分馆文献资源累积量约1100余万册(件)。其中纸质藏书800余万册,以及近年来大量引进和自建的国内外数字资源,包括各类数据库、电子期刊、电子图书和多媒体资源约300余万册(件)。面对如此浩瀚的信息知识库,用户如何快速定位自己需要的信息是图书馆在信息建设时必须要解决的问题。

图书馆最早的信息检索方式是采用目录式的方式,即将图书进行分类,不同类别的图书设置不同编码形式(如TP391),用户首先需要明确检索信息的类别信息,再根据类别进行逐次筛选,这种方式在图书馆刚刚兴起时是一种比较好的方式。如今,图书馆中各种信息资源已经呈现出非常明显的增长趋势,基于图书的信息检索系统也因此走上历史舞台,本文结合图书馆中信息资源的特点,以计算机的角度对图书信息检索系统进行剖析,阐述其中的技术细节。

1 图书信息检索系统评价指标

信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是在较少消耗的情况下尽快、全面返回准确的结果。根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行。本文主要研究信息检索系统的质量标准,质量标准主要通过查全率与查准率进行评价。

查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。

查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

查全率=[检出相关文献量/文献库内相关文献总量]×100% (1)

查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

查准率=[检出相关文献量/检出文献总量]×100% (2)

查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。

影响查全率的因素:从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。

影响查准率的因素:主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。

2 信息检索系统体系架构

一个完整的图书信息检索系统应当包括图书信息的预处理,图书信息的入库、用户检索接口、资源匹配、资源排序等部分,本文主要就以下几个部分进行阐述。

2.1 索引子系统

索引子系统主要完成的工作是对图书信息的入库工作,图书馆中信息资源具有完整的资源名,然而用户在搜索时是通过输入关键字来发现类似的资源,因此需要对信息资源进行预处理。主要通过对信息资源名构建倒排索引,通过建立关键词和信息资源名之间的邻接矩阵,如此则完成信息资源和关键词之间的关联性,用户可以通过关键词发现自身需要的相关联文档。

2.2 查询子系统

查询子系统主要提供给用户查询接口,用户通过输入检索关键词,查询子系统需要对用户的检索关键词进行分析,可能用户输入的关键词并非规范的形式,可能还存在着错误信息,或者是以字母形式输入,或者是以英文或者其它方式输入,查询子系统需要对输入的检索关键词进行消歧工作。

2.3 资源匹配子系统

资源匹配子系统主要根据用户的检索关键词在图书馆数据库资源中进行资源匹配,寻找和用户相关联的资源,资源匹配的方式有很多种,诸如采用完全匹配方式(即用户输入的关键词和数据库中资源完成匹配)、部分匹配方式(用户输入的关键词中部分信息和数据库中信息匹配成功)、语义匹配方式(用户输入的关键词与数据库中资源存在语义上的关联性)。

2.4 资源排序子系统

资源排序子系统主要根据用户的检索关键词对匹配完成的资源信息进行排序,按照资源的重要性和用户检索的相关联程度进行梯度排序,排序的原则有多种方式,诸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多种方式,有些排序子系统根据现今流行的搜索引擎页面排序算法进行改进,并将改进的排序算法移植于图书信息检索系统中。

3 结束语

本文根据图书馆资源丰富的特点,从计算机的角度对图书馆资源进行分析,梳理图书检索系统的体系架构已经对检索系统进行评价时采用的评价指标。图书检索系统可以归纳为索引子系统、检索子系统、资源匹配子系统和资源子系统四大部分,每一个子系统在整个系统中都有着不可忽视的作用,各个子系统之间统筹合作完成图书信息的检索工作。

参考文献:

[1]杨东波,廖祥文.构建一个大规模?可扩展的数字图书馆检索系统架构[J].现代图书情报技术,2006(08):24-30.

[2]肖玉华.图书馆图书检索系统建设的研究[J].科技资讯,2013(36):252.

[3]柳萍,严玮.构筑“零维护”的图书馆检索系统[J].图书馆学刊,2005(02):118-120.

作者简介:郐媛媛(1983.10-),女,辽宁沈阳人,讲师,研究方向:图书馆管理。

图书馆信息检索途径分析 篇7

1 信息检索的概念

广义上的信息检索, 包括信息的“存”和“取”两个方面:“存”, 即把大量杂乱无序的信息加以科学地排列, 使之有序化, 形成检索工具或者检索系统 (检索工具如图书馆馆藏目录、全国西文期刊联合目录、大英百科全书等;检索系统如图书馆网上公共查寻书目系统、清华学术期刊数据库等) 。“取”, 即在有序的信息集合中找出所需的相关信息, 也就是用户必须掌握这些检索工具或检索系统的使用方法去找到自己所需要的信息。

“存”是“取”的基础和前提, “取”就是检索利用, 是“存”的价值实现。本文中指的信息检索是指狭义上的信息检索, 也就是“取”的过程, 即用户利用检索工具和检索系统从有序的信息源中, 查询所需信息的检索过程。

2 信息检索途径分析

所谓检索途径, 是指从哪个角度或哪个方向进行信息检索。在用户检索信息时, 往往是以信息的某一特征作为切入点。一般地说, 文献信息的内容特征和外表特征都可以称为检索的切入点。信息人员在编制检索工具和检索系统时依据信息的特征和检索语言的原理, 为用户建立多种多样的检索途径:分类途径、主题途径、文献名称途径、责任者途径、文献代码途径、引文途径、时序途径、地序途径等等。

2.1 分类途径

分类途径是用户普遍使用的一种方法。分类途径是以科学分类为基础, 结合信息的特征, 运用概念划分的方法, 把知识区分为大小类目, 并用标记符号作为代号, 使其形成一个有系统、有层次、逐级展开的排列表。分类途径又称为分类表。通过分类途径来查找文献是一个传统的、非常重要的途径。就是依照分类法的分类体系从学科角度来查找文献。

分类途径的局限性在于不能集中与事物有关的各个方面的文献信息, 不能有效满足用户检索性课题的需求;同时由于分类体系较为稳定, 一些论述新概念、新事物的文献信息不能及时用新类目加以反映、容易漏检;还由于分类体系的单线排列, 一些边缘学科、交叉学科、相关学科难以放映揭示出来等等。

2.2 主题途径

主题途径是根据信息内容的主题特征进行检索的途径。表示信息所论述和研究的事物、问题、现象的概念叫做主题;用以表达信息主题概念词叫做主题词, 并作为检索标识。在信息检索中, 主题途径使用较为方便。

主题索引是以主题词为标目, 并按主题词字顺排列的索引。按照主题词的选词方式, 习惯上可分为标题索引、单元词索引、叙词索引和关键词索引。

标题索引是主题索引系统中最早出现的一种语言, 所以传统的主题索引实际上就是标题索引。它是经过规范化的标题 (词) 作为文献信息的概念标识, 并运用多种标题形式组成固定搭配。如“经济核算” (主标题词) 、“经济核算——商业” (副标题词) 。标题索引是以事物来集中文献信息, 用参照系统显示关系, 提供字顺系列的检索途径。

2.3 文献题名途径

文献题名途径是根据文献信息外表的名称特征进行检索的途径, 即把文献信息上记录的书名、刊号、篇名等作为文献信息存储的标识和检索的出发点。各类书名目录或索引、篇名目录或索引等, 都是按照其题名字顺组织起来的, 均提供了题名检索途径。

我国古代书目较重要的检索途径就是书名。对于现代文献信息, 在我国图书馆目录体系中, 无论是手工检索还是计算机检索, 书目目录仍然占有较重要的地位。用户只要在记清书名、刊名的情况下, 通过书名、刊名目录就能准确迅速地检索到该书、该刊, 符合特性检索的要求。

文献信息上题名信息, 如书名、刊名、篇名本身就具有客观性和唯一性, 即都是以原文献信息所题的名称为准, 不进行规范处理。

2.4 责任途径

责任途径是依据文献信息责任者的名称特征进行检索的途径。责任者一般指作者、译者、编者等。不仅有个人责任者, 还有团队责任者。许多检索工具或检索系统对这些类型的责任者, 都按其名称字顺编制相应的目录或索引。例如, 图书馆的著者目录, 检索工具或检索系统中的著者索引、机构索引、专利人索引等。

责任者检索途径可以查询到同一著者、同一机构发表的所有文献信息, 但应该注意不同国家姓名的写法和用法。在一些检索刊物或检索系统中, 经常提供责任者途径作为分类途径和主题途径的补充和配合。

2.5 引文途径

引文途径是根据文献所附参考文献或引用文献的特征进行检索的途径。每位论文作者在写作过程中一般都要参考其它一些文章, 或作为理论依据, 或作为比较对象, 或取其数据等等。文献之间的相互利用, 体现了科研人员的相互交流, 也在一定程度上表现了有关文献在内容上的联系。利用引文途径进行检索, 一是依据某一论文后的参考文献或引用文献不断地追索旧文献;二是利用引文索引循环途径检索相关文献。所谓引文索引, 就是从被引论文去检索引用论文的索引。引文索引多用于新兴学科、交叉学科及其它复杂研究课题的文献信息索引。

当前著名的引文索引是美国文献学家加菲尔德创制、美国费城科学情报所编辑出版的《科学引文索引》 (SCI) 和《社会科学引文索引》 (SSCI) 。国内有《中国科学引文索引》和《中文社会科学引文索引》。

此外, 还有文献代码途径, 即根据文献信息的序号或代码进行检索的途径;时序途径, 即根据时间顺序 () 线索来进行文献信息检索的途径;地序途径, 即按照自然区域或行政区划的顺序来进行检索文献信息的途径。

3 结语

在信息“爆炸”的今天, 信息增长速度惊人, 特别是尖端科学、新兴学科信息增长更快, 数量庞大, 类型复杂, 文种多样, 内容交叉重复。为了准确迅速地检索到自所需的信息, 用户必须熟练掌握自己专业领域的常用检索工具和检索系统, 去获取新知识, 了解新信息, 占有新资源, 研究新问题, 这也是防止知识老化的重要方法。用户在进行信息检索时一定要掌握一些常用的检索工具和检索系统, 熟练地使用一些常用的检索方法和检索技巧, 制定正确的检索策略以达到一定的查准率和查全率。

摘要:在信息“爆炸”的今天, 信息增长速度惊人, 特别是尖端科学、新兴学科信息增长更快, 数量庞大, 类型复杂, 文种多样, 内容交叉重复。为了准确迅速地检索到自所需的信息, 用户必须熟练掌握自己专业领域的常用检索工具和检索系统, 本文就图书馆信息检索途径作一个简要的分析。

关键词:信息检索,检索途径,分类途径,主题途径

参考文献

[1]赵美娣, 张冬梅.论计算机查目系统中分类检索途径的作用[J].图书情报工作, 2002 (11) .

[2]夏南强.文献信息检索工具选择[J].华中师范大学学报:人文社会科学版, 1999 (4) .

浅谈图书编目数据质量的优化 篇8

一、图书编目中容易出现的质量问题

1. 少字段, 不能完全揭示图书的内容

在MACR中, 除了必备字段外, 一些能反映图书主体特征的字段也不能少。因对图书特性的不熟悉或对MARC格式的不理解, 遗漏了一些必要检索项, 从而对图书信息揭示不完整。

2. 重复著录

在著录过程中, 如果只求速度, 忽略查重功能, 就有可能重复著录。重复著录的危害是无端增加了数据库的数据量, 增大了负荷, 占用了书目记录号, 无论对数据库数据还是对工作人员的工作成果都是很大的浪费;如不及时发现, 等到图书外借时, 则可能出现一种图书对应多条记录, 造成同一数据的分散, 数据库也因此混乱。

3. 著录错误

著录的错误多因工作人员马虎或对MARC格式的不熟悉所导致:子字符的锗误, 如010@a错为@b, 通过ISBN号则检不出该条记录;空格错误, 如题名前无意识地加了个空格, 则该记录通过题名就无法检出;字符著录错误, 著录中出现错别字, ISBN号、分类号、典藏登录号中出现错号, 字母、数字的全角、半角不一致, 字母大小写不一致, 选用键盘符号不一致, 选用字母类型不一致等都会影响著录质量造成错检、漏检。

4. 著录不规范

有些馆, 图书除了索书号外, 还有排架号, 为了能在记到窗看到该号码, 而把它安排在200字段。这种做法是不规范的, 再如著录文字不规范, 著录时不专心, 而将书名“现代汉语词典”著录成“现代汉语辞典”;集体作者名称不统一, 有时是全称, 有时是简称。

由此可见, 不规范、质量不高的图书著录数据影响了书目数据库的质量, 给数据库使用中的检索和查重带来很多不利因素。因此, 要强调图书著录的标准化和规范化, 以保证书目数据在网络环境中的一方编制多方共享、一次制作多次使用的需要。

二、标准化和规范化是保证图书编目质量的基础

1. 著录标准化

应该包括著录内容、著录格式的标准化。书目数据标准化首先是文献著录标准化。就著录内容而言, 要严格遵循《中国文献编目规则》、《中国标准书号》及相应的著录细则, 保证著录信息源的正确选择, 保证著录字段的完整、著录内容的标准、统一。其次, 著录格式要规范化。就是要使用规范的机读目录格式。现在我国通用的中文标准数据格式是《中国机读目录格式》MARC, 它规定在机读载体上的记录格式, 使不同系统问的数据交换更加便利, 数据共享成为可能。上述两方面是图书著录标准化的必要条件。其中, 机读目录格式是框架, 著录标准是内容。没有MARC, 不能形成机读目录, 但有了统一的MARC而不按照统一的著录标准也不可能编制出高质量、符合标准化要求的机读目录。因此, 在准确理解、熟练应用著录标准的基础上灵活运用机读目录格式, 才能编制出标准、规范、高质量的机读数据。

2. 标引标准化

图书数据的标引工作, 是连接数据库存储与检索的桥梁, 所以要对标引工作实现标准化控制。我国大多数图书馆对中文图书采用《中国图书馆图书分类法》或《中国图书馆图书分类法·图书分类法》来分类, 分类级次一般在l~3级, 宜粗不宜细。主题标引通常采用《汉语主题词表》。但由于控制词表本身的表达力与一致性存在缺陷、不同标引者的标引深度不同及标引者对概念的理解和对标引规则掌握的尺度的差异等因素, 标引工作标准化不能一概而就, 需要通过各方的努力, 尽量减少上述问题, 提高标引工作的质量。

3. 标准化和简约化

虽然要强调著录的标准化, 要严格按照MARC来做, 但并无必要做出尽可能详尽、全面的、最完整的书目记录, 即所谓“完整级编目”, 没必要把太多的时间和精力花在图书外部特征的描述上。其实, 只是用户真正需要的检索点才是编目工作最有价值的体现。并非每个图书馆都被要求提供严谨、完整、权威性的编目产品。所以应该视本馆的实际情况, 选择性著录, 保留与检索点相关的款目, 把正题名、分类号、著者、出版者、索书号等作为基本著录款目, 做到既要标准, 又要简约, 使计算机带来的便捷在著录工作中真正体现出来。

4. 规范化

对图书而言, 在编目数据中, 应该对很多名称进行规范化处理。否则, 同一个实体在编目数据中被检索时, 可能因五花八门的名称而导致误检和漏检。如书名、丛书名、出版社、团体名及个人名称等。图书编目规范的主要对象是个人名称, 而不是团体名称。各馆可根据自己的编目实际, 不断摸索、积累, 建立适合本馆使用的规范库。现在很多图书管理软件都提供规范库以便用户自建。

三、图书编目过程中的可优化行为

1. 正确的图书著录题名的著录

(1) 首先要学会正确选择图书的正题名。图书的题名大多在封面上, 较易辨认, 但不能简单通过字体大小、深浅、所处位置来确定正题名。一些图书的封面过于花哨, 题名被弱化;或广告语言大行其道, 令人分不清主次;或副标题被强化, 而正题名却被隐藏在封面的某个角落;从而不能确定是否作为正题名。在这些情况下, 应仔细查看图书的题名页及图书在版编目的数据。

(2) 责任者的著录

图书的责任者说明中常出现“该出版社”字样, 按《中国文献编目规则》, 应该著录负有责任的团体和个人, 同时应有检索意义。如果直接著录“该出版社”, 检索时就会出现准确率差或组配无效的情况。

(3) 字段设置

根据标准MARC格式的要求, 结合本馆实际情况, 定义本馆的数据库记录结构, 要明确设置常用字段、子字段。在所使用的软件系统中修改相对应的文件结构, 形成既符合标准又有本馆特色的编目记录结构, 以便工作人员有理可循, 有据可依。

2. 校对和数据维护

(1) 不可轻视的校对工作

当编目工作完成后, 校对工作同样重要。因工作人员的素质差异或是同一工作人员不同时间段对著录标引规则的理解不同, 编目工作中的错误总是难免的。所以要通过自校、互校、领导抽查等方式对编目数据进行校验、修改、增加、删除, 减少错误出现的机会, 提高编目数据的质量。查重是校对工作中的关键, 也是编目数据质量控制的一个主要手段。可通过书名、作者、ISBN号、索书号等进行查重。对重复编目的图书, 检查清楚是否因操作失误, 针对不同情况做出核对原书、修改记录和删除多余记录的处理。我馆是按书目记录号逐条核对编目数据的 (不应报有侥幸心理, 只是蜻蜓点水式的检查) , 并主要注意核实几个基础检索款目, 如题名、ISBN号、分类标引、馆藏数据等。

(2) 加强编目数据质量的信息反馈

浅析图书馆数据安全管理 篇9

一、网络环境下, 图书馆数据安全存在的主要问题

1、内在的问题

(1) 认识不到位。

这个主要是因为许多图书馆在建设图书馆网络时普遍存在重硬轻软、重建设轻维护的现象, 对图书馆网络数据安全的深度认识不足。认为配个防火墙, 装个软件, 杀杀病毒就高枕无忧了。没有充分认识到信息数据的完整性、重要性性等深层次的安全问题。要知道图书馆建设的再漂亮如果没有充分的图书数据那也只能是形同虚设。

(2) 专业人员素质跟不上。

传统的图书馆服务工作都是由广大管理人员手工操作来完成的, 是一种技术含量较低的经验性的重复劳动。各馆在建网初期很少有水平较高的专业人员担任, 网络系统的管理与维护工作很多都是经过简单培训后改行上岗的人员, 技术谈不上, 经验也不足, 无法及时发现和纠正系统运行中的故障和问题, 影响了系统正常运行和功能的最佳发挥。

(3) 管理制度不健全。

目前大多数图书馆网络都没有制定出图书馆网络数据安全保障制度。由于图书馆网络中所有的信息资源基本上是免费为公众用户提供服务的, 较少含有经济价值或政治、军事机秘。相对而言也很少发生黑客恶意攻击等重大安全破坏事故。因而它也就不像其他行业的网络系统那样, 从一开始就制定了统一的管理标准和严格规范的管理制度。这就造成了内部安全管理上的混乱和漏洞, 为图书馆网络数据安全管理带来不便。

2、外在的问题

(1) 网络计算机病毒

它主要通过磁盘、网络、电子邮件等途径传播。利用电子邮件传播计算机病毒隐蔽性强, 令人防不胜防。图书馆的数据库如果不小心被这种病毒侵入将会对数据造成损失, 运气好的话可能修复, 差的话就会造成极大损失, 所以数据录入人员一定要小心使用电脑, 养成一种认真仔细的科学的态度。

(2) 网络黑客的攻击。

图书馆数据库的建设离不开网络, 因为要资源共享, 虽然安装有杀毒软件, 但它的整个系统安全系数相对较差, 防护措施又不完善。虽然网络黑客目前不屑对它进行攻击, 但也不能排除黑客的无理取闹, 毕竟图书馆的资料还是比较宝贵的, 被一些别有用心的人偷去之后后果可能无法想象。

(3) 来自内部的威胁。

因为工作关系, 管理人员较多地接触和知道图书馆网络各种操作应用系统的信息密码, 工作中的任何大意都会给图书馆网络数据安全带来危害, 尤其是不良的操作习惯。所以图书馆的安全机制一定要明确, 不该自己知道的密码就不要去打听, 做好份内的事情是最重要的。对故意泄露安全密码的人员也要严肃处理。

二、网络环境下图书馆数据安全的管理措施

1、构建图书馆数据安全防护体系

(1) 广泛应用防范技术

(1) 数据加密技术。

数据加密技术由明文、密文、算法和密钥组成, 即利用该技术将原始的明文数据按照设定算法的变换法则转换成必须由密钥方能解析的密文数据, 以避免数据失窃和被篡改。

(2) 权限控制技术

权限控制是确定用户的合法性和对计算机系统资源享有哪些访问权, 并通过特定的技术设置访问路径, 防止非法用户进人系统以及合法用户对系统资源的非法使用;口令控制技术是运用口令设置技术来判断用户的身份和用户享有使用资源的权限, 防止黑客随意人侵。安装服务包和补丁程序是有效的控制手段, 数据库系统和网络应用软件要及时安装服务包和补丁程序, 更改操作系统和软件的默认设置。

(3) 网络安全防护技术

主要包括防火墙、病毒防治、信息泄漏防护、薄弱环节检测等技术。防火墙将是图书馆网络的第一道防线, 但防火墙不能提供实时的人侵检测能力, 有条件的图书馆可以安装人侵检测系统。立建全安全管理体系安全管理组织。每个馆可视本馆具体情况设置人员, 并给予一定的权限进行系统管理工作。强化对人的管理。一方面各种安全措施要靠人实施;另一方面, 有相当多的威胁数据安全的行为出自内部人员。因此, 必须强化系统管理人员的素质。

(3) 建立安全服务机制。

安全服务一是指图书馆为保障本馆网络数据安全向不同用户提供服务时所采取的基本措施和方法, 二是指为保证用户能安全方便地使用图书馆网络而对用户进行的宣传、培训、指导工作, 让用户了解图书馆网络而给予的操作权限和范围。

2、加强网络的安全管理

(1) 对集中访问者的鉴别

如果条件允许就建立全网通信的身份识别系统, 实现用户的统一管理, 统一授权, 防止未经授权的用户非法使用系统资源, 对于对网络访问者的集中鉴别。

(2) 网络防病毒措施

网络防病毒工作主要包括预防计算机病毒侵人、检测侵入系统的计算机病毒、定位已侵入系统的计算机病毒、防止病毒在系统中的传染、清除系统中已发现的病毒和调查病毒来源。在网络环境中, 病毒具有扩散面广、破坏性大、传播性强和针对性强等特点, 威胁力和破坏力不可估量。预防病毒技术、检测病毒技术、消除病毒技术应在网络防病毒工作中全面采用。

三、数据备份问题

定期备份数据是目前保障图书馆数据安全公认的最简单、最有效的技术措施, 只要按时、正确地进行备份, 就完全可以防范大部分数据安全事故的发生, 或使得损失减到最小。然而, 仍有一些图书馆, 特别是小型图书馆, 经常忽视定期数据备份, 导致备份数据不全或过期严重。比如, 一些小型图书馆由于人员较少, 无法配置专门的系统管理人员, 数据备份往往由其他工作人员兼职完成, 而这些人员对数据安全的重要性认识不足, 认为只要机器能用就没有问题, 加上更无旁人检查, 结果是想起来就做, 忙起来就忽略, 备份时间大大滞后, 形同虚设, 碰到意外事故, 自然损失惨重。数据备份是一项严肃谨慎的工作, 备份包括网络通信运行系统的备份和网络设备、通信线路的备份。网络通信参数、配置的备份应根据网络的重要性制订详细的备份计划, 确保故障发生后可快速地恢复运行数据。设备和线路的备份可根据网络运行的故障率准备一定冗余, 在网络某部分发生故障时, 其他部分可自动启用或迅速切换。

1、不及时更新安全软件

有些图书馆工作人员以为安装上防病毒软件、防火墙后只要让它们自动更新就万事大吉, 殊不知忽略了其中的种种潜在问题, 如网络是否通畅、能否下载、版本是否支持等, 试用版还有期限限制问题。这些问题本身并不是致命的, 因为病毒、黑客一般只能破坏联机数据, 只要保证备份数据的及时、安全、可靠, 即使系统被破坏, 也能很快恢复, 损失不大。然而, 事实上, 此类情况却往往和备份问题一起出现, 从而导致严重的后果。在现实中, 不乏由于杀毒软件长久没有更新, 引起病毒泛滥, 使得机器失效, 而备份又早已过期, 在双重因素作用下, 最后数据大量丢失的实例。

2、盲目更新、安装软件

有的计算机维护人员对图书馆数据的重要性认识不足, 过分自信, 从事维护工作时, 在没有采取安全措施的情况下, 盲目进行软件的更新、升级操作, 甚至格式化硬盘、重新安装系统等, 导致原来的问题没有解决, 反而引发了大事故。

四、问题原因所在

1、工作人员自负心理

在这么多年的工作中我也发现, 一些数据库录入专业人员对图书馆工作存在偏见, 不屑于对有关业务流程进行基本的了解和认识;另一方面, 过于自信, 认为凭着自己的能力水平肯定可以解决问题。在实际工作中表现为把图书馆人员的善意提醒当作耳边风, 忽视了必要的准备工作和防范措施, 违背规程而擅自进行有高度风险的操作, 从而造成始料不及的严重后果。

2、管理制度不到位

虽然数据安全工作意义重大, 但它在图书馆中只是一项, 没有出现问题谁也不会想到一个诺大的井井有序的图书馆的背后是有很多日日夜夜奋战的数据库录入人员的, 平时不显山露水, 涉及人员也少, 因此往往难以引起管理层的注意和重视, 表现为没有完善的管理制度和严格的奖惩手段, 和工作人员缺少沟通等, 这些都不利于激发工作人员的积极性。

结论:

有关管理者应该经常向有关人员灌输“数据安全, 责任重大”的理念, 通过严格的规章制度和奖惩标准来强化工作人员的责任心和积极性。同时, 要定期对员工进行专业的培训, 提高员工的觉悟和能力。

参考文献

[l]王洪武.图书馆网络信息安全构想.现代情报, 2004 (5) :48一50

[2]经渊, 胡海燕.网络环境下图书馆的数据安全问题与对策.晋图学刊, 2003 (5) :9一12

[3]皇海潮.谈图书馆计算机数据的安全问题.周口师范学院学报, 2004 (2) :115一117

大数据在图书馆的应用 篇10

随着当今社会的高速发展, 泛互联网的程度不断加深, 人们根据IDC的监测研究得出了一个惊人的结论:每两年全球的数据总量就会增长一倍。全球数据呈爆发式增长, 掀起了网络信息技术发展的新浪潮, 不可否认的是, “大数据”时代已经到来。大数据时代之下, 图书馆面临着新的考验。

1 大数据时代概述

1.1“大数据”的含义

“大数据”不同于“海量数据”, 它所指的不仅是数据量巨大, 还代表形式多种多样的非结构化和半结构化数据, 以及这些数据的采集工具、平台和分析系统相统一的一个整体概念。“大数据”概念最早是在2011年全球最大咨询公司麦肯锡研究院的《大数据:创新、竞争和生产率的下一个前沿》[1]报告中提出的。而2012年美国总统奥巴马推出的“大数据的研究和发展计划”一举将“大数据”提升到了全球性战略发展的高度。大数据的基本特性, 决定了企业以及政府乃至相关的研究机构都不可避免地要面对技术层面和服务层面的挑战。

1.2 大数据的产生与现状

在信息时代里网络发展和科技进步, 每天都会产生大量的从宏观到微观、从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动的数据, 而数据不断地增长与积累就是形成大数据的原因。大数据也是数字图书馆、云计算以及物联网和社会性网络等技术发展的自然延伸。而数据增长如此之快, 使得传统数据库难以驾驭对大数据的管理, 困难主要在于数据库管理工具在对数据的获取、存储、探索、共享、分析和可视化等方面都已力不从心了。因此, 大数据要求以新的方式和理念对当前架构作出调整, 在日后的信息处理中才能掌握主动权。

1.3 大数据的特点

IBM公司认为大数据具有“3V”特点, 即多样化 (variety) 、速度快 (velocity) 、容量大 (volume) 。而CIO在此基础上, 用“4V+1C”总结概括了大数据的五个特点。第一, 海量 (volume) , 数据体量巨大。每天各种智能设备产生的数据, 以PB作为衡量单位可谓常态。百度对此曾作出了形象的描述。仅仅百度首页导航每天就要从超过1.5P的数据中进行搜索挖掘, 这些数据如果用A4纸打印出来, 将会有超过5千亿张, 摞起来会超过4万公里高, 平铺能覆盖整个海南岛。第二, 种类多 (variety) , 互联网迅速发展, 数据类型不再是单一的文本形式, 也含有大量的半结构化和非结构化数据, 如网络日志、微博、视频、图片、邮件等。第三, 速度快 (velocity) , 大量的数据需要快速的传达和处理, 数据分析要求实时处理而不是批量式分析, 以到达了解迅速变化的环境并作出反应、制定合理准确的应对策略。例如, 电商需要通过对数据结果分析, 进行即时补货安排, 更好的保证产品销售。第四, 高灵敏 (vitality) 企业的业务需求更新频率加快, 大数据的分析和处理技术必须快速发展以适应新的业务需求。大量看似不相干的信息, 其实涉及到传输、感知、决策、控制开放式循环等多方面, 对未来发展模式的制定, 未来趋势的预测分析都能够发挥出极高的参考价值。第五, 复杂性 (complexity) , 基于前四点主要特征, 大数据的处理和分析变得极为复杂, 无法使用单一的处理方式和工具解决不同的业务问题, 同时这也就对新技术、新设备提出了更高的要求。因此, 如何充分利用大数据, 使其发挥出最大作用是其复杂性所在。

2 大数据对图书馆的影响

图书馆一直以来都履行着文献存储和传统数据管理的职能, 这在21世纪互联网飞速发展、信息高速更迭的信息化社会中难免显得苍白单一。而大数据时代的到来使图书馆的资源和服务发生变化, 图书馆面对的既是挑战也是机遇。图书馆开始不断拓展自身服务的深度和广度, 不再仅是单一的资源收藏者, 开始向知识管理、分享、利用者转变。

2.1 数量庞大、种类繁多的电子阅读资源极大地丰富了图书馆数据库

互联网技术的发展应用产生了海量的融合文字、图形、图像、动画、声音和视频的信息资源, 并以多元化架构内容的形态呈现出来。文献资料的出版方式也出现了革新, 数字出版成为新兴的趋势, 这些数字资源种类和数量正在超越纸质资源, 图书馆数据库资源得到了极大的丰富。截至2010年12月, 中文电子图书总量为115万种, 2011年新增电子图书18万种。这些资源中既有数字化的传统文献, 也有各类原生数字资源, 还有虚拟馆藏等多媒体资源, 它们在各类系统中以不同形态、不同的组织方式, 得到广泛的使用, 极大地丰富了图书馆的数字资源。

2.2 在信息技术广泛应用的推动下, 数据量呈指数上升

形成海量的大数据不仅是因为数据的积累, 更要归因于数据的爆发式增长。现代信息科技发展, 互联网应用高度普及, 互联网给人们生产生活都带来极大便利, 而能够连接互联网使用的数字化产品也越来越多。2011年底, 移动手机用户已达9.1亿, 其中手机上网的用户占到三分之一还多。由于互联网的开放性与交互性, 用户通过电子阅读设备与更多的人交互, 进一步推动数据增长, 这为数字图书馆提供了信息传输途径和服务渠道。

2.3 高新技术发展, 为图书馆利用大数据资源提供工具

大数据时代, 为了满足各行各业的读者需求, 图书馆的建设内容从传统数据管理转变成多种信息源的拥有与采集, 这就迫切要求图书馆提高自身的文献处理能力以及知识发现、数据计算、信息服务的能力。云计算突破传统图书馆的局限, 能够完成巨大数量的数据处理工作, 进行信息资源的整合, 以及动态资源的分配, 是大数据产生的物质基础。RFID技术可实现图书馆的自动借还、智能盘点、自动分拣、图书位置与信息的实时跟踪导航[2]。

当今信息网络化社会赋予了图书馆大数据的特征, 图书馆也在服务方式、途径、模式等方面发生转变, 不断开发利用大数据, 形成数据与信息融合的操作架构。

3 大数据在图书馆的应用

图书馆具有人类文化传承、推广文化教育和传递科学信息的重要功能。如今社会信息化进程不断加快前进步伐, 图书馆基本实现了信息化建设, 建立了搜集、追踪和分析用户信息的知识信息服务系统。而如今拥有丰富数字资源的图书馆主要的服务重点是: (1) 帮助读者快速定位自己需要的资源; (2) 分析实用的用户行为数据, 并加以利用, 提供给读者多快好省的服务。为了完成这些内容, 大数据对于目前图书馆的数据获取、储存、处理模式, 以及数据的管理、应用和数据服务等角度的运用开始, 并在以后很长的一段时间内都将发挥出巨大作用。

3.1 提高了图书馆处理海量增长文献的能力

大数据给图书馆带来的首要挑战就是大数据量的存储。图书馆从以前的“物理图书馆”转变成为“数据图书馆”。图书馆大数据中包括了大量不同格式的数据, 如电子邮件、数据日志和阅读记录, 还有科学研究数据以及课件、照片、视频、音频等媒体数据。与此同时, 图书馆的服务群体也随之扩大, 要满足各行各业的读者的需求, 图书馆就必须提高处理海量增长、种类繁多的文献的能力。

而数字化图书馆可以充分利用机构平台优势, 对各类数据源进行定位和连接, 抽取和映射, 将不同结构的数据导入资源库, 归纳并映射成一套标准的表达式, 并进行有效管理。随着数据库技术和云计算的发展, 利用分布式的数据云存储技术, 使图书馆海量数据统一有序, 能够根据用户需求通过网络实现便捷访问。同时避免“数据孤岛”, 对海量文献数据进行规范化加工, 实现图书馆服务的智能化, 确保用户能够通过检索查看到良好的结果相关排序。

3.2 提供学科领域内的大规模数据服务

曾获得过图灵奖的吉姆格雷认为, 数据库技术的“大数据”下一个挑战并非来自商业而是科学。如今的学科领域的研究仅依靠纸上谈兵的理论分析是难以进行的, 只有通过积累大量数据资源, 形成“大数据”的新的科学基础才能解决许多难题。数据已不再只是研究活动的对象, 而成为科学研究的工具和信息基础, 大量学科领域内的研究正是基于这些数据才得以展开思考、设计和实施的。而数字化图书馆恰恰能够提供海量具有极高时效价值的数字学术文献, 成为科研教育的用户学习与创造的基本保障[3]。

吉姆格雷认为, 新范式下的学术交流, 应该让公共资金资助的学术论文都能在互联网上传播, 并整合所有的科学数据和文献形成一个互操作的时间[4]。信息网络高度发展的当下, 研究成果的发表早已不受限于纸质刊物, 学术交流的渠道也扩展到博客、论坛等更为便捷的网络渠道平台, 为更多人的学习、研究大开方便之门。科员人员可以通过在图书馆资源库内检索获取实验数据、科研成果, 结合积累模拟产生的数据, 并进行数据考察管理, 科学统计分析数据库和文档, 形成创新思维, 最后得出结果。这样极大地提高了科学的“信息速率”和科研用户的生产力, 甚至已成为一种新的科研模式, 即数据密集型范式, 成为与经验范式、理论范式和模拟范式并列的数据库第四范式。

3.3 形成个性化知识服务模式

随着图书馆传统的参考咨询服务优势不断弱化, 图书馆的知识服务显现了知识挖掘、知识评价、数据分析等全新的需求。图书馆的主要服务也向数据分析、挖掘方向发生转移。利用大数据技术分析、挖掘, 整合图书馆的海量、种类繁多的数据信息, 进行用户需求管理, 识别有价值用户, 提供个性化服务, 成为推动图书馆进步发展的巨大动力。用户在图书馆各类系统中留存了大量访问信息日志和行为数据, 图书馆能否从中进行有效数据的价值挖掘, 是图书馆顺利从文献竞争转身投入到时下的信息资源与服务竞争的关键所在。

图书馆将数据挖掘技术、书目计量方法、统计学理论与报告工具有机结合在一起, 从挖掘基于行为的信息与数据出发, 来获取有用的隐含信息[5]。例如读者的图书借阅记录、网站浏览以及下载不同学科文献记录等相关信息, 对读者的信息需求及行为规律进行数据加工整理、建模, 提高数据价值密度, 从而提供更适合读者的服务方案、策略。目前, 已经有图书馆采用具有自动搜集用户数据功能的系统, 进行数据统计和分析, 为读者提供个性化服务。这种服务建立在对用户个体信息需求的分析预测基础上, 记录用户行为, 定位用户需求, 最后向用户推送可能需求, 但却难以获取的个性化信息, 同时也帮助用户克服海量信息带来的困扰。

目前, 图书馆对大数据的挖掘检验、相关性分析、回归分析、聚类分析等技术方法都还有待于进一步的提高。图书馆的个性化服务模式仍有较大的发展空间。

4 大数据背景下未来图书馆的发展趋势

大数据提供的海量信息中具有极为丰富的、值得人们进行深度发掘分析的资源, 人们需要不断加强对大数据的运用技术, 将原始数据、派生数据与科学文献融为一体, 把大数据中隐藏的流动数据转变成为显性数据, 实现以信息可视化作为服务理念的智慧服务图书馆建设。

王世伟[6]对智慧图书馆进行了系统的论述:智慧图书馆是以数字化、网络化、智能化的信息技术为基础, 以互联、高效、便利为主要特征, 以绿色发展和数字惠民为本质追求, 是现代图书馆科学发展的理念与实践, 是未来图书馆发展的新模式。

如今, 文献服务、信息咨询、学科服务已经成为图书馆的基本服务内容, 而毫无疑问的是, 以信息处理与智慧服务为优势, 综合数据档案库与文献档案库两大资源, 并能够为政府、企业承担数据分析工作的图书馆类型将会成为未来发展趋势。

摘要:本文从大数据的角度入手, 简要叙述大数据的含义以及它的产生与发展, 并概括它在发展中逐渐形成的特征。本文第二部分简述大数据发挥的巨大影响力, 使得图书馆传统职能与地位受到极大冲击, 同时也给图书馆带来巨大转变。第三部分主要论述大数据在数字图书馆的服务中的应用。文章最后对未来新型智慧图书馆的产生以及服务模式进行展望。

关键词:大数据,服务,分析,图书馆,数据处理

参考文献

[1]Bigdata.Thenext frontierforinnovation, competition, andproductivity[EB/OL].http://www.mckinsey.com/Features/Big_Data, 2012-12-09.

[2]董瑞玉, 肖健.初探大数据时代的图书馆服务发展[J].科技信息, 2014, (07) :131, 182.

[3]朱静薇, 李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报, 2013, (05) :9-13.

[3]初景利, 杨志刚.物竞天择, 适者生存:图书馆新消亡论论辩[J].图书情报工作, 2012, 56 (11) :5-11.

[4]周晓英.数据密集型科学研究范式的兴起与情报学的应对[J].情报资料工作, 2012, (02) :5-11.

[5]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆, 2013, (01) :121-122.

从开卷数据解读Maya图书市场 篇11

[关键词] Maya图书市场 生命周期 定价中心 内容定位

[中图分类号] G235 [文献标识码] A [文章编号] 1009-5853 (2012) 06-0066-03

[Abstract] Openbook data on Maya books from July 2011 to June 2012 was analyzed. Information focused on changings of products maintain sales and amount of the sales, concentration ratio on sales amount, pricing, sales time and life span, contents are collected, which are used in analyzing market of Maya books.

[Key words] Maya books Life span Pricing center Content location

Maya是美国Autodesk公司出品的世界顶级三维动画软件,在影视动画、栏目包装、广告特效等领域有着广泛应用。近年来,Maya图书在计算机三维制作图书领域占据重要位置。本文拟通过最近一年Maya图书的开卷数据解读其市场状况,力求从多角度进行归纳分析,探索其中可能存在的规律,以帮助同行策划更多的优秀书籍。

1 动销品种及销售数量变化趋势

本文获取数据样本的时段为2011年7月至2012年6月,以月为单位,共12份数据表(包括出版时间、定价、作者、出版社、本月销量、当年销量、累计销量等信息)[1]。这段时间开卷公司监测到的Maya图书动销品种及销售册数如图1所示。

可以看出,在这一年里,Maya图书动销品种增速缓慢且平稳,与此同时,销售册数则呈波动下降趋势,尤其是2012年4月份后下降更为明显。具体到开卷数据,2011年7月的动销品种为369册,以后以月均不到10册的速度逐步增长到2012年6月的439册。同期,累计销售册数则从2133册下降到1273册,下降幅度达到40%。尽管开卷公司监测不是整个图书市场的数据,但也能显示Maya图书的销售量在这一年里是呈下滑趋势的。究其原因,一方面可能与近年来动漫行业就业压力大、新入职者逐步减少有关;另一方面,也说明随着Maya软件的推广、普及,读者对图书的购买需求不再那么强烈。

2 销售数量市场集中度分析

按“本月销量”降序排列所有动销品种数据后,逐月选取图书品种的5%、10%和20%作为样本,考察其合计销售数量占全部Maya图书当月销售数量的百分比,结果见表1。

可以看出,观察期内Maya图书当月销售数量的集中度是非常高的,5%的品种销量约为全部Maya图书销量的一半,最高达到56%;10%的品种销量则为全部Maya图书销量的2/3左右,最高达到76%;20%的品种销量则为全部Maya图书销量的90%左右,最高达到93%。如果仅从销量考量,Maya图书市场的集中度甚至超过经济学上的“二八法则”。这种现象的产生,与图书的专业优势、作者水平、编辑水平、封面装帧、读者口味、销售能力、价格、同质化产品的竞争程度等众多因素有关。其中很多方面是难以量化的,下面仅从图书价格、销售周期、内容分类等角度对单月或累计销量排在前面的图书进行分析,以发现其共性和差异,探究数据背后的“秘密”。

3 定价水平分析

笔者分别选取2012年上半年各月销量排在前40位的Maya图书(约为全部动销品种的10%,销量集中度为70%左右),根据读者普遍的承受心理对其定价(x)区间进行划分和统计,结果见表2。

统计结果可以看出,Maya图书的主流定价水平为50—100元,低于50元的相对较少,这与该类图书通常为全彩印刷、配光盘有关,其平均定价稳定在80—90元,高于100元的图书,读者接受起来有一定困难,所以也相对较少。Maya图书的定价跨度很大,从最低的29元到最高的128元,相差数倍,主要是因为有的图书作为中高职教材采取黑白印刷及低定价策略,而有的图书则走精美装帧的高端路线。从单月销售冠军的定价来看,除了没有100元以上的,剩下各个区间均有涉及,但绝大多数为较高定价。由此可以推断,在一定的价位以下如100元,读者都是可以接受的,他们主要看中的是价格以外的方面。还有一点需要注意的是,6月是秋季教材征订的高峰期,该月销售冠军为低定价的教材类图书,可见教材征订对于该类图书的销售还是具有比较明显的时段性影响的。

4 在售时间及生命周期分析

首先分别选取2012年上半年各月销售数量排在前20位的图书(约为全部动销品种的5%,销售数量集中度为50%左右),对其在售时间(x)进行统计,结果见表3。

可以看出,上架时间为半年以内的新书是最受欢迎的,其次是两年以内的图书,上架两年以上的图书认购率明显下降。由此可以判断,新书出版后迅速且全面铺货是非常重要的。

此外,笔者还对截至2012年6月累计销售数量前20位图书的2012年上半年动销数量(x)进行统计,结果见表4。

可以看出,纵然是累计销量跻身于全部Maya图书前20名的畅销书,75个月之后,市场上也无人问津了,但其骄人的销售业绩仍难以逾越,这部分图书占销量前20名中的35%。对于上架时间已达63个月左右的畅销书,尽管仍偶有动销,但其数量已很少,半年不足10册。由此可以推测,5年基本是优秀Maya图书的生命期。这部分图书在销售排行榜上的比例是最高的,占到45%。当上架时间41个月时,其销售仍在继续,但已不成规模,在目前的销售排行榜上,该类图书占15%。对于销售时间接近33个月同时质量不错的图书,仍有望冲击排行榜,但这样的优势品种是比较少的,仅为5%。但如果具备某种优势,即便过了33个月,仍有必要对其加大销售力度,使其生命周期尽量延长,从而创造更好的市场表现。

5 内容定位分析

同样以截至2012年6月累计销售数量前20位的图书为例,根据内容对其进行类型划分,结果见表5。

可以看出,在这排名前20位的畅销书中,既有把多个模块(模型、绑定、材质、动画、动力学)放在一起的基础入门书籍,也有专门介绍某个模块的精讲教程;既有单纯介绍软件基本功能的学习手册,也有某个应用领域的实战图书。

仔细分析这20本书,发现其作者既有水晶石、火星时代等业界知名的社会培训机构,也有经验丰富的从业人员;其出版单位既有清华、人民邮电这样规模大的出版社,也有海洋、兵器工业这样中小规模出版社;其图书定位,既有高等院校动画专业教材,也有适用于从业人员的市场书。

由此可以得出结论,只要是定位清晰、内容适用的图书都是有生命力的,并不局限于某种特定的写法或类型。

在关注网上读者反馈时,笔者发现,尽管这些书从销售业绩上看是同类书中的佼佼者,但仍存在许多不足,例如图片不清晰、光盘内容少、只有操作步骤、缺少思路提示等。

在Maya图书市场整体波动下滑的情况下,策划编辑要牢牢把关图书专业水平,仔细研究细分市场,尽可能从特定读者对象的切实需求出发,打造内容适用、印制精良的特色图书,使其通过比较优势,兼具社会效益和经济效益,成为“二八法则”下勇闯前20%的“黑马”。

注 释

[1]https://www.openbookscan.com.cn/Service/M/5100/BookSearch/

大数据时代的图书馆信息服务 篇12

一、大数据对图书馆信息服务的挑战

在大数据环境下, 各种结构化、半结构化、非结构化数据成爆炸式增长, 面对各种数据, 人们无所适从, 常常会因为各种数据太多而陷入困惑, 人们希望通过图书馆这一平台在纷繁的信息中迅速提取出对他们真正有用的信息。大数据下读者的信息需求变化是图书馆创新信息服务方式的根本动力, 同时也是传统图书馆面临的挑战与压力。因为, 在大数据环境下, 传统的图书馆信息服务已不能满足读者的信息需求, 主要表现在以下四个方面:一是数字资源单一, 传统图书馆主要是以结构化数据 (图书、期刊、报纸, 数据库) 为基础向读者提供信息服务, 在大数据时代, 除了结构化数据外, 各种半结构化、非结构化数据同样影响着人们的生活, 成为人们分析预测事物发展的重要信息。二是数据处理能力欠缺。传统图书馆信息服务主要以图书、期刊、报纸、各种数据库为基础向读者提供科技查新、定题服务、图书借阅及其他咨询服务, 图书馆所面对的数据量相对较小, 而面对各种结构化、半结构化、非结构化的大数据, 图书馆并没做好充分准备。三是数据存储能力不足, 传统图书馆数据存储基本以TB为单位, 而在大数据环境下, 各种数据呈爆发式增长, 数据存储基本以PB为单位, 这使得图书馆的数据存储能力严重不足。四是大数据时代要求各信息服务机构及时分析、处理各种数据为用户提供各种前瞻性信息, 而图书馆缺乏这方面的能力。

二、大数据时代下的图书馆信息服务新模式

面对大数据, 现阶段的图书馆信息服务面临一定的困难, 同时也给图书馆信息服务提供了广阔的发展空间, 图书馆应抓住信息服务变革所带来的机会, 积极探索大数据环境下的图书馆信息服务新模式, 为读者提供前瞻性的信息。

(一) 构建与读者沟通的平台。在大数据时代, 图书馆开展各种信息服务的基础是有效和读者沟通, 把握读者信息需求动向, 为读者提供其急需的独具个性的信息服务。为此, 构建与读者沟通的平台显得非常必要, 通过图书馆与读者构建交互式交流平台 (开设图书馆BBS, 博客, 微信等) , 馆员与馆员、馆员与读者、读者与读者、馆员与专家之间进行时时交流, 馆员通过专家了解最新服务策略, 读者通过馆员了解图书馆最新服务, 馆员通过读者了解读者的切实需求。同时, 图书馆应利用大数据相关技术, 搜集各种半结构、非结构数据并对其进行分析、处理, 及时了解馆员服务情况, 图书馆信息服务前沿以及读者信息需求, 为图书馆制定提升馆员业务素养, 探索信息服务模式, 读者各种个性化信息需求提供数据支撑。

(二) 整合数据资源, 构建—站式检索服务。在大数据时代, 各种数据呈爆炸式增长, 整个数据类型多样, 结构复杂, 图书馆很难搜集所有的数据信息, 数据信息包括各种结构化数据 (图书、期刊、报纸、各种数据库) 和半结构化、非结构化数据 (BBS记录、微博、微信、视频、聊天记录及各种网络数据) , 各种数据以不同的形态、格式出现, 其结构也不一样, 这导致图书馆拥有很多不同类型的数据信息资源, 面对这些数据资源, 读者变得很迷茫, 解决一个问题往往要找多种复杂的数据资源, 为此, 整合现有数据资源形成统一的检索平台成为图书馆现阶段必须解决的问题, 大数据技术的出现为此奠定了基础。大数据是基于Map Reduce、Hadoop、No SQL、云计算等技术对大量复杂的数据进行快速提取, 集成, 分析, 解释, 实现从不同类型信息资源中查找, 并用统一的数据标准表示査询的结果, 真正实现不同结构的数据的整合。通过对不同结构的数据进行整合 (去除各种重复、冗余的数据) 来实现对数据的统一管理, 利用大数据技术对图书馆现有的馆藏资源信息、各种读者行为信息, 网络信息资源等大数据进行有效整合, 形成一个统一的智能化检索平台, 为读者提供方便、快捷的一站式检索资源服务。

(三) 开展RSS个性化推送服务。在大数据时代, 伴随计算机通讯技术的迅速发展, 各种结构化、半结构化、非结构化数据呈爆炸式增长, 面对海量数据, 读者无所适从, 由于每位读者有其独特的兴趣爱好、教育背景、知识结构, 这使得读者对信息资源有其独有的个性化需求, 这为图书馆为读者提供个性化信息服务指明方向, 如何主动为读者推送个性化的信息成为图书馆信息服务探索的新领域。RSS个性化信息定制有效解决了图书馆为读者提供个性化信息的诉求, 利用相关技术, 通过简易信息聚合, 读者可以通过RSS定制自己所需的个性化信息, RSS阅读器自动将读者所定制的信息自动推送到读者面前。图书馆利用RSS阅读器对各种网络资源、新闻信息以及图书馆所拥有的新资源、新服务等以及用户定制的专题信息、借阅提醒、参考咨询、微博、微信、各种论坛以及网站专题信息等主动推送到读者桌面或在线RSS阅读器。RSS个性化信息定制在国内图书馆应用广泛。如上海交通大学图书馆通过RSS服务整合MSN、Talk、google资源为读者提供个性化信息服务。读者可以通过厦门大学图书馆的RSS定制服务, 整合个人借阅信息、图书馆公告信息、讲座信息、专题信息等。

(四) 充分挖掘数据潜在的价值, 为读者提供前瞻性的信息服务。在大数据环境下, 图书馆服务能力的高低不再是以拥有馆藏资源的多少作为唯一的衡量标准, 更多的是将不同类型的数据进行有效地整合, 为读者提供前瞻性的信息服务, 即用于大数据技术分析和处理数据, 将隐性知识变为显性知识, 为读者提供独具个性化、前瞻性信息已成为图书馆信息服务的核心工作。以机器学习、模式识别、高性能计算、聚类分析、可视化和数据仓库等为基础的高级数据分析技术, 将在图书馆服务中得到广泛应用, 并将有效促进数据向知识的转化, 知识向行动的跨越。要想在大数据环境下做好图书馆信息服务, 应在对数据分析与挖掘上下功夫。第一是揭秘数据之间的各种内在联系。在大数据环境下, 由于各种数据类型多样、结构复杂、数据间的相关性较为隐蔽, 通过对数据分析找出数据间的相关性, 建立关联数据。第二是要将数据所揭示的隐性知识转换为显性知识。在大数据环境下, 面对各种复杂的数据, 读者期望从中找到其所需的信息但又面临一定的困难, 图书馆应通过大数据技术分析, 找出读者急需的各种隐性知识, 以更好地提供信息服务。

上一篇:英语读写能力下一篇:抱轴事故