数字文献检索实习报告(通用8篇)
数字文献检索实习报告 篇1
《数字文献检索》实习报告
(一)班级:A09财务2班姓名:陆张彬学号:24
一、不定项选择
1、《中图法》中 “F”和“K”分别代表(B)
A经济法律B 经济历史
C哲学文学D 历史艺术
2、下列关于布尔逻辑检索技术表述不正确的一项(D)
A逻辑“与”,也称逻辑“乘”,使用符号 “and” 或 “*”,表示所连接的两个检索词必须同时出现在结果中才满足检索条件。
B逻辑“或”,也称逻辑“和”,使用符号“or”或“+”,表示所连接的两个检索词中任意一个出现在结果中就满足检索条件。
C逻辑“非”,也称逻辑差,使用符号“not”或“-”,表示所连接的两个检索词中应从第一个概念中排除第二个概念。
D使用“逻辑非”技术,可以扩大检索范围,防止漏检,提高信息检索的查全率。
3、正规的期刊的“增刊”用(A)
ASB ZC YD N4、ISSN是哪种文献特有的标识?(D)
A会议文献B标准文献
C学位论文D期刊
5、数字文献按其性质和功能划分,可分为(BCD)
A零次数字文献B一次数字文献
C二次数字文献D三次数字文献
二、填空
1、如果首次阅读全文,须下载并安装:万方数据资源系统是CAJViewer浏览器,中国期刊
全文数据库可使用CAJViewer 或Adobe Reader浏览器,中文科技期刊数据库是Adobe Reader浏览器。
2、数字文献有多个特点:高度的共享性、类型的多样性、检索的便利性、信息的时效性、信息的不安全性。
二、检索题
1、利用“中国期刊全文数据库”中的“高级检索”查找浙江海洋学院老师在2006年以后发表的有关篇名中含有“渔业”方面的论文,写出检索步骤以及检索结果,任选一篇,摘录该论文中的某一小段。
(1)、检索步骤:
1.百度搜索中国期刊全文数据库
2.进入中国期刊全文数据库首页,并登入
3.选择“高级检索”
4.左侧学科调研领域选择“全选”
4.在发表时间选中从“2006年1月1日”到“2011年9月21日(今天)”
5.选择“题名”,输入“渔业”
6.选择“并且”,选择“单位”,输入“浙江海洋学院”
7.匹配选择“模糊”
性质: 行业国标码 GBM: 行业 SIC: 生产性单位 股份制 153 2086
所在地区 / 市 / 县: 浙江 杭州 该公司成立于 1987 年,前身为杭州市上城区校办企业经销部,从 3 个人、14 万元借款起家,现已发展 成为中国规模最大、效益最好的饮料企业。目前在全国 29 省市建有 58 个基地 150 余家分公司,拥有总 资产 300 亿。先后投资 100 多亿元从美国、法国、德国、日本、意大利等国引进 400 条世界一流的自动 化生产线,主要生产含乳饮料、饮用水、碳酸饮料、果汁饮料、茶饮料、保健食品、罐头食品、休闲食 品等 8 大类 100 多个品种的产品。饮料产量、销售收入、利税、利润等各项指标已连续 13 年位居中国饮 料行业首位。公司位列 2010 中国企业 500 强 141 位,中国制造业企业 500 强 64 位,中国企业效益 200 佳第 25 位,饮料加工业第 1 位;在中国民营企业 500 强中,娃哈哈营业收入居第八位、利润第一位、纳 税第二位。目前,已拥有通过中国合格认定国家认可委员会(CNAS)认可的实验室、国家级企业技术中心、企业简介: 博士后科研工作站,拥有强大的食品饮料自主研发能力,以及各类产业化实施技术和生产线配套设计、制造、安装、调试能力,能自己开模具及制造替代部分进口设备。公司并积极参与了 40 多项国家、行业 标准、国家部门法规的制(修)订。历年获得的各项荣誉:国务院 520 家国家重点企业,中国企业 500 强,连续三年荣获“全国质量效益型先进企业”,连续三年获“中国食品工业科技进步优秀企业”,全国五 一劳动奖状,全国质量管理先进企业,全国实施卓越绩效模式先进企业,全国对口支援三峡工程移民工 作先进单位,全国东西扶贫协作先进集体,国家西部大开发突出贡献集体,中国企业管理杰出贡献奖,中国企业信息化 500 强,全国首批“守合同、重信用”企业,全国工商企业信用评级 AAA 级信用单位,中华慈善奖,2001-2005 连续五年获中国“最受尊敬企业”称号,“娃哈哈”为中国驰名商标,娃哈哈 纯净水、果汁饮料为中国名牌产品等。数据库名: 中国企业公司与产品数据库
4、检索 CNKI 中国期刊全文数据库中有关“世界文化遗产保护与开发”的近5 年研究 论文 2 篇(以引文格式记录,包括:刊名、篇名、作者、出处)。如果检索结果不满意(检 索结果过多或过少)你准备采取那些方法改善检索结果?
若检索结果过多,将检索范围缩小,增加检索项目,将“或含”改成“并含”,然后选择在 “在结果中检索”。若检索结果过少,将增大检索范围,会在右侧选择“模糊”,进行检索。也可以增加数据库 类型,跨
库检索。
5、利用 CNKI 中国期刊全文数据库,检索在《浙江海洋学院学报》2010 年度上刊载的浙江 省教育厅基金资助发表论文的数量,并以引文格式记录其中的 5 篇。(1)所采用的检索项、检索词: 参考文献: “浙江海洋学院学报” 基金: “浙江省教育厅” 时间:从 2010 年到 2010 年
(2)选取两篇文献的篇名、作者、刊名及参考文献数量。
章飞军,丁宏印,邱树萍,章芪,何贤保,沈明富,.浙江秀山岛潮间带大型底栖动物群落组成及其生物多样 性[J].浙江海洋学院学报(自然科学版),2010,(1).李庆龙,曲有乐,欧阳小琨,.离子液体微波辅助萃取金银花中绿原酸的研究[J].浙江海洋学院学报(自然 科学版),2010,(1).
数字文献检索实习报告 篇2
一、纸质文献回顾总结
纸质文献历史久远, 并有着几千年的文化积淀, 又称为传统文献资源, 属于实体馆藏, 主要形式有图书、期刊、报纸、图片、画册等, 其中图书、期刊、报纸对人类保存和传播知识信息起到了巨大的作用。它更符合人类阅读习惯, 无附加条件, 在任何有光线的地方均可阅读, 具有随意性和直观性。纸质文献资源的主要特征是文献信息内容以纸为载体, 以印刷为手段记录文字信息。我们的先人经过长期的生产实践活动, 发明了造纸术和印刷术, 人们长期以来形成的固定阅读习惯很难在短时间内改变, 即使在信息网络飞速发展的今天, 纸质文献仍是高校图书馆收藏的主要文献形式, 也是资源建设的主要部分。其主要有以下几个特点: (1) 阅读习惯的延续性。长久以来, 我们所获得的各项信息和知识都是通过传统文献。一些重要和珍贵的图书会作为人类文化遗产永远保存下来, 人们不会轻易放弃纸张印刷的出版形式。 (2) 携带随机性、保存持久性。纸质文献便于携带, 阅读方便, 随机性强, 具有观念的一览性, 一般不受阅读场所限制, 阅读无需辅助工具设备。 (3) 维护知识产权。纸质文献不具有涂改性, 可长久保存, 避免了数字资源的复制性、篡改性, 为捍卫作者的知识产权有一定贡献。
二、电子文献的认识
互联网和现代化传播技术的日渐普及和广泛应用为数字图书馆的建设提供强大的技术支持, 网络以其信息资源承载量大、传输速度快、传播范围广以及超时、跨界等特点日益受到广大读者的青睐。同时, 电子文献是一种新兴的文献, 它是信息社会文献载体形成、发展、进化的必然产物, 是以磁、光、电为介质, 以数码方式将文字、图形、声音等多种形式的信息存储磁、光、电等介质上, 通过计算机或具有类似功能的设备阅读使用。数字资源改变了传统信息资源的传播及利用方式, 对传统图书馆的经营方式、服务理念, 尤其是馆藏建设都带来了巨大的冲击。
电子文献的优越性: (1) 传播速度快, 范围广。世界上任何一个角落在网络环境下只需要几秒钟便可以得到所需的文献信息。 (2) 不受时空限制。数字化图书馆不受时空限制的远程高速特点及强大的检索查询功能使资源共享成为现实。 (3) 具有高度的整合性, 便于各种媒介信息的一体化。 (4) 能集成多元化信息。电子文献可以运用多媒体技术, 做到图、文、声并茂, 三维立体显示, 全面地再现信息的真实性。 (5) 交互性能强。由于数字信息存储在计算机能够识别的介质上, 因此随着计算机软件的更新与性能的日益提高, 用户逐渐具有更多主动性。
电子文献的的不足: (1) 阅读的不便利性。数字资源的使用和阅读必须借助于相应的信息技术设备, 必须有电源, 必须通过一系列特殊装置才能阅读。 (2) 图书馆数字资源建设的标准繁杂。数字资源的种类和形式多样, 给统一的计量和统计工作带来了很大的困难;数字资源的共享标准、协议制定困难, 这在一定程度上影响了资源共享。 (3) 在学术地位方面存在的问题。由于数字资源目前还缺乏统一的管理机制, 其信息的权威性、准确性、深度性变化莫测, 很难接受任何形式的同行评议或内容审查, 导致人们对数字资源学术权威性产生疑虑。 (4) 信息源复杂性。电子文献的信息来源比较复杂, 各种正式出版物和非正式网络信息交织在一起, 缺乏有效的统一管理机制, 信息安全和信息质量得不到有效控制和保证。
三、复合图书馆时代的到来
可以看到电子文献尽管具有诸多的优越性, 它迎合信息时代快节奏的工作方式和生活方式, 给人们带来极大的方便, 这些是纸质文献无法比拟的。但纸质文献以自身的价值和特点仍然受到人们的喜爱, 并弥补了电子文献的不足与局限。因此21世纪将是纸质文献与电子文献互为补充、彼此并存、整体结构比例逐步调整的世纪。电子文献代表着科学技术的发展方向, 它逐步渗透到人们的生活、学习环境当中, 随着科技的进步, 它所存在的脆弱性问题将逐步改观, 在文献收藏体系中的比例逐渐加大。复合图书馆就是在此大背景下产生出来的, 其有效地利用了纸质文献与电子文献的优缺点所建立的一种新型图书馆模式。
1. 复合图书馆的概念。
最早使用“复合图书馆”一词的是英国图书馆专家苏顿 (S·Sutton) 。他于1996年在一篇题为“未来的服务模式与功能的融合:作为技术人员、著作者和咨询员的参考馆员”的文章中, 将图书馆分成连续发展的四种形态:传统图书馆、自动化图书馆、复合图书馆和数字图书馆。苏顿提出“复合图书馆”的概念后, 立即得到英国电子图书馆计划主任路斯布里奇的赞赏。他在1996年11月修改了提交给电子图书馆发展计划工作小组的文件, 采纳了“复合图书馆”的提法, 并把这一概念介绍给广大的图书馆界, 使这一术语得到推广。
复合图书馆是以传统图书馆为基础, 实现传统图书馆与数字图书馆的共存互补与有机结合;是实体加虚拟, 围绕信息存储的物理场所和信息空间, 应用信息技术、数字技术、网络技术与传统技术, 根据版权法的规定, 对印刷型、电子型和网络信息资源进行收集、组织、转化、管理, 实现一体存取, 为信息用户提供馆内服务和不受时空限制的网络服务的机构。复合图书馆包括以下三个方面:一是信息载体多样化, 即在复合图书馆中, 传统印刷型文献资源与数字化信息资源互补并存。二是操作分工化, 使图书馆手工操作和自动化操作技术方法得到全面展现, 原有面貌获得改观, 也减轻了图书馆工作人员的劳动强度。三是管理服务集成化, 即强调对图书馆不同来源的技术和资源进行整合, 实现对传统文献资源与数字化信息资源的集成管理和服务。三是功能复合化, 即复合图书馆是传统图书馆与数字图书馆有机结合, 是优势互补的统一体。
2. 复合图书馆特点。
复合图书馆的诞生, 标志着传统图书馆、数字图书馆以其自身的特点、功能、作用、优势共同发展。它不是单独存在的形态之一, 是复合图书馆的另一组成部分, 在相当长的阶段里它与传统图书馆并存。传统图书馆是数字图书馆的母体, 数字图书馆是在传统图书馆基础上产生的, 并生成了图书馆系统又一分支, 与传统图书馆结合, 共同构建复合图书馆。其主要特点是:
⑴文献信息资源的多元化。传统图书馆主要收藏纸质文献, 而数字图书馆收藏的是电子文献, 在满足读者需要方面两者都有自己的局限。复合图书馆是传统图书馆与数字图书馆的整合, 文献信息来源丰富, 文献信息载体形式多, 既包含有传统的文献信息实体馆藏, 又包含有电子书刊及虚拟馆藏, 是电子文献和虚拟网络空间的电子信息资源。文献信息载体的多元化是随着社会的进步和科技的发展而产生的。复合图书馆必然以越来越多的数字化制品作为馆藏的发展趋势, 文献信息载体的演变过程, 也是一个多种载体长期共存、共同发展、互为补充的过程。作为图书馆工作对象的多种载体形式的文献信息, 是复合图书馆所表现出的最基本特征。
⑵综合业务技术, 提高服务质量。图书馆的最终目的是运用信息知识服务于社会, 满足读者的需求, 一切为读者着想。因此, 千方百计方便读者, 提高读者服务质量, 是图书馆首先要考虑的问题。作为现实存在的复合图书馆, 既保留和发展了传统图书馆的基本业务, 如珍贵文献的保存, 纸质文献的采、编、流阅、检索、摘编等, 同时也广泛开展了基于数字图书馆形式的电子阅览、远程检索、数据库建设等业务。传统图书馆与数字图书馆各有自己的优势和不足。两者有机结合于一体, 建立复合图书馆, 就可以实现传统服务与网络服务的一条龙。这样, 读者既可以使用传统文献, 也可以使用数字化文献;既可以亲自到馆查阅、借书, 也可以在单位或家里通过网络利用图书馆;既可以从图书馆获得系统、全面的知识信息, 又可以从网络上获得最新信息和资料。在一定意义上实现了各类信息资源共建、共知、共享。
⑶工作人员能力复合化。复合图书馆在某种程度上缓解了传统图书馆员的危机感和生存压力, 但并不意味着他们可以不思进取。恰恰相反, 未来的图书馆———复合图书馆需要大量的复合型人才。就是既要有图书馆学、情报学的基本技能, 又要有现代的信息技术、网络技术基础。复合图书馆人员结构的特性, 体现在数量上, 是图书馆专业技术队伍中的复合型人才比例在大幅提高。在质的变化上即传统的图书馆专业技术人员保留了传统图书馆的专业技术基础, 又逐步掌握了现代信息服务的技能, 专业面在拓展, 适用性更强, 由于工作的“复合”实现了工作人员素质的复合。那些拒绝接受计算机技术、数字技术及复合图书馆系统的人, 最终将被淘汰。
⑷体制和功能的一致性。复合图书馆是一个整体, 是图书馆发展过程中一种独立的形态, 传统图书馆与数字图书馆的复合, 不论是多元的载体形式, 传统和现代的工作方式, 还是机构的多元化, 人员的复合化, 均统一于复合图书馆这一整体。它遵循的是一致的工作原理和工作机制, 以服务社会, 提高国民素质, 促进经济发展为一致的目标, 仍然是一种非营利性的社会公益机构, 履行保存文化遗产, 促进知识信息交流的职能。由此可见, 数字图书馆的缺点正是传统图书馆的优点, 而传统图书馆的缺点正是数字图书馆的优点, 两者是共存互补、相互结合, 从而构成了世纪图书馆发展的新模式———复合图书馆。
在纸质文献与电子文献的长期互补期内, 广大读者既有对电子文献的需求, 又有对纸质文献的需求, 作为一个现代化的图书馆, 必须有数字化的前瞻性和敏感性, 未雨绸缪地推进相关工作, 做好电子信息资源的整合和服务。与此同时, 对纸载体期刊、图书的收藏也不能削弱, 这方面的服务也决不能放松, 特别是教学所需要的古籍、经典性原著以及各学科发展阶段中有代表性的、年代久远的文献, 在未能全部对其进行数字化处理之前, 还要十分珍视, 并注意充分发挥其作用。为了节约经费保证重点, 应调整文献采访的对策, 以适应网络条件下的新情况, 避免只把人力、物力投向数字图书馆, 而轻视纸质文献资源的投入和服务。在两者交融的基础上下工夫, 利用现代技术改造传统模式, 提高纸质文献的利用率。把馆藏文献信息资源和网络信息资源有机结合, 根据信息需求对纸质信息资源、网络信息资源和电子信息资源进行整理与组织, 形成科学的资源配置, 优化馆藏、建立起高校图书馆的文献保障体系。
参考文献
[1]张新.电子文献与纸质文献之比较[J].医学信息学杂志, 2007.
[2]赵艳红.电子文献与纸质文献的共享与互动[J].长春理工大学学报, 2004 (9) .
[3]杨忴.纸质文献和数字资源和谐发展的思考[J].焦作大学图书馆, 2007 (1) .
[4]彭运南.对我国数字图书馆工程启动的思考[J].江西图书馆学刊, 2000 (4) .
[5]初景利.复合图书馆的概念及发展构思[J].中国图书馆学报, 2002 (3) .
面向海量文献的数字化系统研究 篇3
关键词:OCR技术 扫描录入 文献识别 文献数字化
中图分类号:G203 文献标识码:A文章编码:1008-6938(2010)02-085-05
Solutions for Mass Literature Digitization
Su YunZhang QingLai (School OfManagement , Lanzhou University,Lanzhou,Gansu,730000)
Abstract:In this paper, a solution is proposed to input mass literature quickly into computer. First of all, through the comparison among the four kinds of data collection methods----keyboard entry, by-hand input, voice dictation, and scan input---scan input is found to be the only choice of mass information processing.Second, it is a review of the OCR technology and analysis of current situation. Finally a solution of OCR digital processing plant is put forward, that is to say, mass literature digitization can be perfected by text automatic input, pipeline management, quality control, personnel management, and system management.
Keywords:OCR technology;scan input; literature identification; literature digitization
CLC number:G203 Document code:AArticle ID:1008-6938(2010)02-085-05
1 引言
五千年的中国文化遗留下极其丰富且数量庞大的历史文献,这些文献主要保存形式以甲骨、简犊和纸张作为载体,通过编纂引得、通检、索引和汇编等工具书达成文献整理和查询的目标,由于文献数量巨大和人力有限的矛盾,经过系统整理和方便的检索工具非常稀缺,加之受存储空间的限制,许多年代久远的孤本书、善本书已出现了纸张脆弱、字迹变色、书页脱落和破损发霉等现象,很多出土的甲骨、简犊和纸张也出现了腐蚀和霉烂的状况,严重影响了文献的使用和保存寿命,文献的数字化迫切性已成为信息工作者的当务之急,图书馆和档案馆应该积极顺应网络时代的潮流,运用计算机相关的数字化技术,对文献进行加工和处理,建立书目数据库、全文数据库和综合检索系统,并通过光盘和网络等途径进行信息的传播。本文针对该问题提出了面向海量文献信息数字化的处理解决方案,尤其对文字的批量识别提出了系统化的解决途径。
2 海量文献数字化处理的现状
2.1 传统的海量文献数字化技术及比较
如何将海量的文献资料快速录入计算机是文献数字化研究工作的重要内容,而文献数字化的瓶颈就在于如何将海量的文献录入计算机的方式方法,就传统处理技术而言,数据的录入方法有键盘录入、手写录入、听写录入和扫描录入。
(1)键盘录入法。键盘录入法有阴阳码输入法、郑码输入法、形象码输入法、汉码系列输入法、智能二笔输入法、双笔码输入法、汉正码输入法等,总共不下几十种,最常用的是各式各样的五笔字型和拼音输入,其中五笔输入法常用的是王码五笔、陈桥五笔、念青五笔和极点五笔等,任何一种五笔输入法只要掌握文字的拆分规则就能使用;拼音输入法常用的有智能ABC、拼音加加、紫光拼音、搜狗拼音、中文之星智能狂拼、三好拼音、极点拼音、五万拼音、递推联想拼音等,只要会拼音就会输入,这两者录入速度不分伯仲,关键在操作人员的熟练程度。国际专业录入师的打字速度是在240字/分钟左右,一般打字员的速度是50~70字/分钟,这种录入速度相对海量的文献资料是一种效率极低的信息数字化处理方式,不但费时费力,而且资金耗费巨大,会造成大量文献资料的积压。
(2)手写录入法。手写录入法亦称为手写笔输入法,主要有台湾的蒙恬系列手写笔、大恒笔才子手写笔、汉王大将军手写笔和紫光绘写大师等,手写笔是由硬件和软件两部分构成,硬件部分包括电子手写笔和写字板,软件部分是汉字识别系统。手写输入法的使用比较简单,录入员只需用手写笔在写字板上书写笔划清晰的汉字,写字板中内置的高精密的电子信号采集系统,就会将汉字笔迹的信息转换为数字信息,然后传送给软件系统进行汉字识别。汉字识别系统的作用是将硬件部分传送来的信息与事先储存好的大量汉字特征信息相比较,从而判断写的是什么汉字,并通过汉字系统在计算机屏幕上显示出来,手写输入系统的难点在于汉字笔迹的识别,因为每个人的手写字体不一样,所以汉字笔迹比较系统就必须能允许一定的模糊偏差,才能做到较高的识别率,但是手写笔的最快录入速度仅有20~40字/分钟,显然不适合海量文献信息的录入,但对录入手绘图形图像十分有效。
(3)语音录入法。语音录入就是听写输入法,较之键盘和手写输入,既快速又方便,速度是键盘输入的2~3倍,是手写输入的6~8倍。硬件设备只需带声卡的多媒体计算机和无噪音的麦克风。从技术层面而言,实现语音识别就是让计算机识别和理解人类语言的过程,是把自然语音信号转变为相应的文本。在语音识别过程中,首先要将人类说话的声音由模拟的语音信号转换为数字信号,然后从信号中提取语音特征,同时进行数据压缩,输入的模拟语音信号要进行预处理,建立识别基本单元的声学模型和进行文法分析的语言模型,计算机根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较从而得出识别结果。语音输入法已经出现十余年,但由于计算机处理速度的限制,并没有形成气候,后来随着计算机CPU主频的不断提高,出现了许多以IBM语音录入为内核的软件,例如Windows Vista就内置了语音录入软件,但要快速高效能满足海量文字录入的要求,就必须使用专业的语音输入软件,例如IBM公司的ViaVoice语音识别专业软件、Scansoft公司的Dragon Naturally Speaking Preferred语音识别软件等。这里需要强调的是语音录入法对录入员的标准普通话水平的要求很高,由于中国是方言非常丰富的国家,这种录入法很难推广;而且语音录入时周边环境不能有噪音,即对环境要求过于苛刻。
(4)扫描录入法。键盘和手写录入面对的是漫长和繁重的工作,听写录入受到方言和周边环境噪音的影响,就现有技术而言,海量文献录入的唯一的选择就是扫描录入法,速度可以达到每分钟6000字,具有其它录入方法不可比拟的优势。扫描录入的英文缩写是OCR(Optical Character Recognition),就是让计算机认字和实现文字自动输入。它的工作原理是通过扫描仪或数码相机等光学输入设备获取文献纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,是一种快捷、省力和高效的文字输入方法。具有以下三大优势:时间上,扫描录入法速度快和效率高,是人工录入的数百倍,甚至数千倍;经济上,扫描录入法节省了大量人力资源开销和降低了录入成本;准确性上,扫描录入法的录入准确率远高于其它人工录入法。
文献扫描录入的必备的硬件设备是扫描仪,主要有平板扫描仪、多功能一体机、高速扫描仪和网络扫描仪等,常用品牌有全友(Microtek)、爱克发(AGFA)、清华紫光(Uniscan)和惠普(HP),常用幅面是A4、A4加长、A3等三种,如果扫描报纸、地图等,就需要A1、A2幅面的平板扫描仪,数据海量处理最常用的是高速滚筒式扫描仪,而高速扫描技术是依赖计算机CPU的性能来提高识别率和识别速度。最为常用的中文识别软件有清华紫光文通信息技术有限公司开发的TH-OCR(TH是TsingHua的缩写)、北京汉王科技股份有限公司研制的汉王文本王;其它优秀的识别软件还有:以我国战国时期“掌章奏文”官职命名的尚书OCR软件、以我国古代绘画颜色命名的丹青OCR软件、发明毛笔的古代大将命名的蒙恬OCR软件等等; [1 ]外文识别软件的普遍功能要比中文识别软件要强大,尤其对书籍、报刊的版面还原技术要强大得多。常用的有俄罗斯软件公司开发的ABBYY FineReader Professional、美国IGS公司研制的ReadIRIS Pro,此外还有能够识别114种语言文字的Recognita软件、能够将识别文字发音朗读校对(Text-to-Speech)的OmniPage软件、发明复印机的施乐公司推出的复印和识别一体化的XEROX TextBridge软件。
2.2 基于OCR扫描和识别的海量文献数字化处理现状与分析
让机器代替人认字并记录,是人类很久以来的梦想。早在20世纪20年代,西方就开始了字符自动识别的研究。有文献可考的最早机器字符识别系统是德国的科学家陶杰克(Tausheck)的“阅读机”,1929年这项发明获得了德国专利;几年后,美国科学家汉德尔(P·W·Handel),也提出了利用技术对文字进行识别的想法,研制了“统计机”的类似机器,也获得了美国专利。自此之后,人类经过几十年的不断努力,使得OCR技术渐渐成熟,从最初的机械识别模式一直发展到今天利用抽取图像的数字化特征进行识别的电子模式。
相比英文OCR识别,汉字的识别要困难许多,这是由于英文是由几十个字母符号组成的文字,而“方块符号”的汉字字库要比英文字母表庞大近千倍,难度可想而知。我国在上个世纪70年代末就开始了这项技术的研究,至80年代中期,可识别上万汉字,识别率在90%左右,尤其是1987年《汉字识别的特征点方法》的问世是一个里程碑,这种方法是以汉字字形结构的统计特征划分为汉字笔划上的特征点和背景处的关键背景点,并基于这个理论,推出了“印刷体汉字文本识别系统”,这个系统的研制成功标志着我国在印刷体汉字的识别技术研究方面已取得了实用化的突破;进入90年代之后,随着863项目在内的汉字识别系统逐渐成熟,不少研究单位相继推出了中文OCR产品,主要有清华文通(TH-OCR)、北信(BI-OCR)、中自(ICR)、沈阳自动化所(SY-OCR)、北京曙光公司(NI-OCR)等,这些系统均可以实现中英文混排,宋体、楷体、黑体、仿宋体、繁体等多字体、多字号的混排识别,文字识别率可达到95%以上。特别是21世纪的近十年,OCR识别技术随着扫描仪的普及得到了飞速的发展,扫描和识别软件的性能不断强大并向智能化升级发展。[2 ]
一般说来,传统的OCR扫描和识别软件主要功能是通过以下六大过程来实现,即影像获取、影像前处理、文字特征抽取、比对识别、人工校正和结果输出。其中,①影像输入就是将需要OCR处理的文献资料通过光学仪器(扫描仪、数码相机等)录入计算机;②影像前处理是OCR系统中,须解决问题最多的阶段,从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像单元的过程,都属于影像前处理,这其中包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理;③文字特征抽取可以说是OCR系统的核心,用什么特征、怎么抽取,直接影响识别质量的好坏;④比对识别是指当文字特征抽取结束后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容包含预先对所有欲识别的文字的集合中元素采用文字影像单元一样的特征抽取方法抽取特征所得的特征。通过比对,从而确定文字影像单元所对应的文字。由于OCR的识别率不可能达到百分之百,为了提高识别的准确度,字词后处理过程就必不可少了,它利用比对后产生的识别文字与其可能的相似候选字群,根据上下文的识别文字找出最合乎词义的词,对识别结果进行更正,例如识别出“找们”,在词库中找不到这个词,而“我”是“找”的相似候选字,因此很自然的将“我”取代“找”,而成“我们”;⑤人工校正是保证OCR质量的最后阶段,也是最有效、最直接的阶段,在这个阶段要求录入人员花费精力和时间,去直接更正甚至寻找可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,合理、有效和便捷的人工校正的操作流程及其功能,也很大程度影响着OCR的处理效率和准确性;⑥结果输出就是将OCR产生的结果将按照要求提交给用户。[3 ] [4 ]
基于以上的过程,这种传统的处理方式一般采用一台告诉扫描仪和多台计算机相连接,把扫描的文献资料分派到不同空闲的计算机上进行识别处理,再将识别结果返回整理。这是一种串行的工作方式,虽然在一定程度上提高了扫描和识别效率,但扫描和识别协调同步很难实现,而且辅助工作量极大。
3 面向海量文献的数字化处理系统设计与分析
为了满足书籍、报纸期刊、报表票据、历史档案等文字录入的需求,也为了满足资源性网站和数据库开发对数据的需求,针对银行、税务、工商、医院等行业尤其是图书馆、档案馆对文字识别的需求,本文提出了OCR数字化处理工厂的一揽子解决方案。
3.1 系统的总体设计
本文提出的数字化处理工厂系统是应用OCR技术、实现工业化流水线管理方式的大型Internet系统设计。该系统设计通过强大的网络功能实现流水线方式的数据加工,并通过网络供千千万万个用户享用。实现数字化处理工厂系统硬件需要:一台小型服务器作为数据服务器和主域控制器,管理多台终端;高速扫描仪和微软的操作系统的服务器;大容量硬盘或磁盘阵列的存储设备(视加工规模选用);磁带库或光盘库的备份设备(选用)。实现四大功能,即文字自动录入、流水线管理、质量控制和员工管理、系统管理(见图1)。
3.2 系统功能与模块介绍
整个系统围绕两个互相联系的员工管理和OCR扫描文件数据库展开工作。员工管理数据库由员工信息表、工种信息表、员工考勤表、员工工作量表、班次表、工资管理表等构成一个完整的员工资料库。员工依流程指定的步骤登录、考勤、申请工作、执行操作并接受管理监督。管理人员通过简明友好的系统管理界面可以方便地查询数据、备份数据和系统维护。该系统还提供安全日志供管理人员查询。OCR录入资料数据库经由扫描录入、图像处理、版面分析、识别、纵校、横校、版面还原等工序处理最终形成。其中在信息传输上采取申请任务方式与分配任务方式相结合使用。其中申请任务方式是用户完成一件工作包的同时查看是否有已经分配的工作包,如没有,则申请另一个工作包;分配任务方式是由管理员分配工作包给每一个员工;为对此流程进行有效管理,建立了原始工作包表、工序跟踪表、返工单表、员工工作分配表、工作包表等。
(1)文字自动录入功能模块。采用在OCR领域领先的成熟文字自动录入技术,实现包括横版、竖版、简体、繁体各种版式的古籍、报刊杂志、公文档案、报表或票据和现代书籍的自动图像预处理、版面分析,能识别中文简体、繁体、英文及混排和多字体多字号文档。
(2)流水线管理功能模块。采用生产流水线管理方式,根据OCR技术和操作的特点,将生产过程划分成以下几道工序:①文献资料整理:为了便于扫描和以后的查询、检索而进行的文献分类、拆装、命名、编号等。②扫描:扫描是将纸质文献图像输入计算机的过程。一般把相关按文献页码顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。③图像处理:为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。④版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,并对自动版面分析结果加入手工干预。 ⑤识别:把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、表格、中英文混排,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。⑥纵向校对:具有很强的查错、纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作人员发现错误和修改。⑦横向校对:这是传统的人工校对方法,操作人员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。⑧版面还原:将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。⑨数据入库:版面还原数字文档的保存。
(3)质量控制和员工管理功能模块。质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求将整体差错量控制在万分之二以内。员工的工作态度将会直接影响到数据录入的质量和工作效率,要使员工保持一种积极的工作态度,必须有好的管理制度和客观的评价标准和依据。该系统可以详尽地提供员工考勤情况和工作质量数据,并对员工的工作情况给予公正的评估。员工管理系统在整个系统中处于支配地位。该部分由考勤管理、工资管理、质量控制、工作分配、返工单管理和建立用户等几个模块组成。其中考勤管理是记录各员工的出勤、缺勤状况;岗位管理是记录各岗位的工作分配和员工的工作量、差错量(质、数量的差错要求控制在万分之五以内)的状况;工资管理是根据员工的考勤、工作量和差错量的情况,发放员工的工资并列出明细帐目表。
3.3 系统功能优势与创新分析
本文提出了一个基于大型的Intranet网络系统实现系统框架,可将汗牛充栋文献进行数字化录入识别处理,是一个包含成千上万的加工数据资料和员工详尽的工作信息数据库系统。这样的创新,将单独的扫描识别通过整合方式组成了完善的数据加工生产工厂。
(1)采用生产流水线管理方式,改进了传统的串行的工作方的效率低下,将冗长、复杂的数据生产过程合理地划分成若干道工序,每道工序操作简便,合理安排工作岗位,并行操作,生产效率和质量得到了3~4倍的提高。并且可以任意确定工艺流程操作顺序和组合,适于不同种类和不同要求的数据资源加工,实现了单机资源数字化过程和机群间高效率的相互协同作业。
(2)采用分布式操作,管理员可通过计算机网络实现对系统的远程管理,大大增加了管理员对数字化加工系统进行管理的灵活性。加之服务器对客户端的消息响应采用队列式管理,服务器运行会更加稳定和可靠。
(3)文字自动录入可实现批量扫描和识别,在不点击鼠标的前提下,实现数据自动命名、自动存盘、自动识别和自动校对,并将处理文件自动纠偏、去噪、OCR和压缩存储,极大的节省了人力资源。
(4)人工操作与后台自动运行相结合,把一些可由计算机自行处理的工序设置为后台自动运行,从而减少了人为造成的错误。
(5)数据质量得到了大幅度的提高,实现了数据检查、监督和协调的自动化,完善了系统权限管理和数据安全管理,员工工作效率得到了公正的统计和评估。
4 结语
概而言之,本系统的设计为数字图书馆、档案馆、政府机关等不同机构的大量文字、图表的自动录入提供了一种切实可行的处理方案,更适应网络时代建设网站过程中对文字和图像的需求,具有巨大的社会效益和经济效益。
参考文献:
[1]张烯中.汉字识别技术[M].北京:清华大学出版社,1992.
[2]任永芳.中文OCR与图书资料的再制作[J].高校图书馆工作,2001,(3).
[3]迟春佳.OCR技术及其在高校图书馆信息资源数字化建设中的应用[J].中国科技信息,2007,(7).
[4]王桂敏,齐凤河.0CR软件使用经验浅谈[J].科技信息,2006,(5).
地方文献资源数字化思考 篇4
3.1 先易后难 先建地方文献书目数据库,再建综合型、专题性篇目数据库,积聚力量,为最后建设全文检索数据库做准备。
3.2 确立重点 将重点放在特有的优势资源领域内,充分发挥地方特色,多建一些专题型数据库,如:山西名人资料、根据地方文献资料库等。把地方文献数据库建成新颖、独特、在特定领域内具有权威性和影响力的高水平信息资源库。
浅谈海南地方文献数字化建设 篇5
地方文献是记载一定区域内自然、社会和人群存在、发展变化及影响的特定文献[1]。海南地方文献作为海南省珍贵的文化和知识遗产,在海南省整个文献资源中占有特殊的地位。由于它具有鲜明的地方特色,因此,对海南省的政治、经济、文化教育的发展有着特殊的价值。它是海南人民长期以来精神生活和物质生活中的宝贵财富。一个地区地方文献的积累越多将对该地区政治、经济、文化的发展起着重要的促进作用。海南建省以来,地方文献的收集、加工、整理和利用的工作上了新的台阶,地方文献工作受到了政府的重视。但地方文献整理工作的手段大多数还停留在手工操作的阶段,地方文献数字化的建设步伐较慢。随着海南经济文化的迅速发展,海南地方文献数字化建设愈显迫切。
文献检索实习报告 篇6
二.检索举例说明:
课题名称:枸杞色素提取工艺的研究查找步骤:
1.分析课题。枸杞别名杞子、甘杞、红果,属茄科植物,是驰名中外的名贵中药材,主要分布在宁夏、甘肃、新疆、内蒙 和河北等地,其中以宁夏枸杞质量最优。根据新版药典规定宁夏枸杞的干燥成熟果实才是正品枸杞子。近年对枸杞子药理研究表明,其具有增强免疫力、抗肿瘤、防衰老、增加造血功能和抗脂肪肝等作用。另外,由于目前食品工业所用色素多为人工合成色素,大都存在不同程 度 的毒性,因此,对枸杞色素开展研究具有重要意义。
2.选择合适的数据库
可选择中国期刊全文数据库;Elsevier ScienceDirect数据库; Ei Compendex Web(工程索引);Springer Link;中国专利检索系统;中国标准在线服务网-强制性标准;读秀数字图书馆;EBSCO数据库平台;European Patent欧洲各国专利库;维普中文科技期刊题录数据库。
3.制定检索策略。
如利用《中国期刊全文数据库》检索:
检索方式1:高级检索
检索词(式):(Keyword_C=[铝活塞])*(Keyword_C=汽车)*(Keyword_C=加工工艺)
4.记录检索结果,摘录其中1条记录的题录信息如下:
(一)、核心检索系统
从Ei,Web of Sci,OCLC等核心检索系统中选择一个,进行重要学术期刊的文献检索 年限 :20008-20012
检索词(式):general search Topic(Wolfberry)and language(title only)
检出篇数 :15
题录(第1篇):Simulation of vibration harvesting mechanism for wolfberry Tang, Xiuying(China Agricultural University, Beijing, 100083, China);Ren, Jingrui;Liu, Chuan;Xiao, DanSource: American Society of Agricultural and Biological Engineers Annual International Meeting 2011, v 5, p 4096-4110, 2011, American Society of Agricultural and Biological Engineers Annual International Meeting 2011
Database: Compendex
(二)、全文数据库检索
1. 从中国知网期刊全文数据库、万方数据库资源、中国期刊篇名数据库等中文全文数据库中选择1种数据库进行全文检索
数据库1:中国学术期刊全文库
年限(取近三年中任何一年)2009-2012 限定类目文史哲辑专栏目录
检索词(式)__高级检索:(篇名)(枸杞色素)and(提取)
检出篇数___10
题录(第1篇)1.李宏燕.枸杞色素的提取工艺研究
.食品研究与开发2011,(10):180-1832、从EBSCO,Elsevier, OCLC First Search, LexisNexis等西文全文数据库中任选2种数据库进行检索 数据库1:__ELSEVIER__检索年限__2011_检出篇数_6
检索词(式)___advanced search__(Wolfberryand pigment)and language(abstract/Agricultural and Biological Sciences)
题录(第1篇)1.Improving public health?: The role of antioxidant-rich fruit and vegetable beverages Review Article
Food Research International, Volume 44, Issue 10, December 2011, Pages 3135-3148
Peter C.Wootton-Beard, Lisa Ryan
(三)、特种文献检索
中国专利检索系统;中国标准在线服务网-强制性标准;
检索年限2010-2011检出篇数_14_检索途径__标题词__
检索词(式)逻辑检索(篇名)(枸杞)and(色素)and(提取工艺)
题录(第1篇)_寇秀颖;徐勇;梁丽敏;杜阳吉一种微波提取枸杞中类胡萝卜素的方法
CN201010233243.1PQDD或万方学位论文数据库检索
检索年限___2000-2005 _ 检出篇数__
检索词(式)basic search: _(sex or gender or women)(title)and language(title)and phd__(gd)_
题录(第1篇)Language learning strategy use among Saudi EFL students and its relationship to language proficiency level, gender and motivation by Al-Otaibi, Ghazi N., PhD INDIANA UNIVERSITY OF
PENNSYLVANIA, 2004, 264 pagesAAT 3129188
(四)、引文检索
利用CNKI和Google scholar以本专业中外著名学者为被引用文献著者检索引用文
CNKI期刊(演示)
检索式: 数字化期刊知识链接数据库引文信息: 吴灿军
被引用文献题录(第1篇)吴灿军,赵萍,王雅,张轶,杨明峰.天然色素及枸杞色素的提取和抗氧化作用的研究进展[J].陕西农业科学.2010(01)
引用文献题录(第1篇)王黎明,韩赞,史影影.紫草红色素提取及体外清除自由基分析[J].吉林医药学院
学报.2011(03)(五)、参考文献回溯
“参考文献回溯”指用“追溯法”检索,即通过任意一篇与课题相关的论文原文后所附References(参考文献)中,得到相关文献。其中引用参考文献的相关论文原文为引用文献,参考文献即被引文献。(演示)
引用文献题录(第1篇)李宏燕.枸杞色素的提取工艺研究[j]..食品研究与开发2011,32(10):180-18
3被引用文献题录(第1篇)张云霞,刘敦华.枸杞功能性成分研究进展及深加工发展趋势[J].食品与药品,2009,11(5):67-69
(六).本专业重要网站
(1)百奥知_网址http://
生物无忧http:///是国内第一家以生物视频为教材主题的门户网站,生物视频教材内容从2006年开始拍摄,网站在2009年3月份创办,正式开通为5月,经过不断的修改和完善,生物无忧网已经发展成为一个生物视频教材数据库,并集资讯、论坛和生物产品信息平台于一体的综合门户网站。
生物无忧人以发展生物技术为己任,扩建万级实验拍摄中心,组建强大的实验技术团队和摄影制作团队网站,拍摄了细胞生物学、分子克隆、蛋白组学、动物模型和病毒学等实验操作视频。目前生物无忧已拥有800部视频,供给科研人员轻松学习高品质的实验技术。
网站拥有生物专业团队对生物资讯和生物技术方法进行每日的更新,发布国内外最新生物相关新闻动态,技术更新信息。生物论坛http://bbs.51atgc.com/为生物科研人员提供了一个学术探讨、经验交流、互相促进、共同提高的场地,现在论坛注册会员超过50000人,其中三分之二以上具有硕士和博士学历,九成会员是来自高校、科研院所和企业的研发部门,拥有无可比拟的专一性目标人群。
生物无忧旗下还设立了生物商场http://shop.51atgc.com/,集中展示生物仪器、试剂、耗材和技术服务等生物相关的各类产品。企业会员现已超过1000家,覆盖中国科研集中的六大区(北京、上海、广州、重庆、武汉和长沙)。生物无忧还为企业提供广告方案设计,网络营销方案设计,还可以为企业制作视频或产品实验技术过程拍摄,视频后期制作,配音、音乐背景、广告特效制作,网络推广和上门推广等全方位的服务。
生物无忧虽然年轻,但是通过新颖而突出的视频内容和生物信息,再加上独特而主动的市场推广方式,可以让生物无忧瞬间成名!再与各生物公司的深入交流与合作,定能缔造生物领域不朽的传奇!
(七).本专业中外文重要期刊(写出3个期刊名称和2010年影响因子)
1CA-CANCERJCLIN0007-9235980194.26
22ACTACRYSTALLOGRA0108-76731394454.33
33NEWENGLJMED0028-479322767453.484
(八).对本专业最有用的书目及数据库评价(3种)
读秀数字图书馆 “读秀”学术搜索提供260万种图书题录信息,6亿页全文资料,涵盖180万种中文图书全文,5000万篇期刊资料,以及报纸、论文、词条、人物,和外文资料等一系列学术资源。并且以每年十万种左右的速度递增。可以实现馆藏纸质图书、电子图书、学术期刊、报纸、学位论文、会议论文、专利、标准、视频、信息资讯等各种异构资源在同一平台的统一检索和获取。
读秀还是一种知识性搜索引擎,读者可以通过读秀对图书的题录信息、目录、全文内容进行搜索,检索结果直接定位到页,可以方便地寻找到所需资料。同时,检索到的图书可以看到我校图书馆的馆藏信息,直接借阅图书馆纸本图书,或不限量阅读、下载超星百万册电子图书等。对于学校图书馆暂时未收藏的图书,读秀可以将所需的文献“免费”、“即时”的传递到读者的个人电子信箱,使读者第一时间找到所需文献资料!
中国知网 中国知网是全球领先的数字出版平台,是一家致力于为海内外各界人士提供知识与情报服务的专业机构。
中国知网在全球范围内的注册用户数超过4000万,中心网站及设在全球的镜像站点年文献下量突破30亿次,是全球最受推崇的知识服务品牌。
凭借优质的资源、领先的技术和专业的服务,中国知网在业界享有极高的声誉,在2007年,中国知网旗下的《 中国学术期刊网络出版总库》获首届“中国出版政府奖”,《 中国博士学位论文全文数据库》、《 中国年鉴网络出版总库》获提名奖。这是出版领域的最高荣誉奖。
通过与期刊界、出版界等内容提供商达成合作,中国知网已经发展成为集期刊杂志、博士论文、硕士论文、会议论文、报纸、工具书、年鉴、专利、标准、国学等优质内容为一体的、具体国际领 先水平的网络出版平台。基于海量的内容资源,任何人、任何机构都可以在中国知网建立自己个性 化的数字图书馆。中国知网已经真正成为了人们在日常学习、工作、研究和决策中不可缺少的工具。
Ei Compendex Web是《Ei Compendex》和《Ei PageOne》合并而成的Internet版本。该数据库每年新增50万条工程类文献。其数据来自5100种工程期刊、会议文集和技术报告,其中2600种有文摘(Ei Compendex部分)。90年代以后,该数据库又新增了2500种文献来源。
目前,该数据库中化工和工艺的期刊文献最多,约占15%;计算机和数据处理占12%;应用物理占11%;电子和通信占12%;另外还有土木工程占6%和机械工程占6%。大约22%的数据是有主题词和摘要的会议论文,90%的文献是英文文献。每周数据库的数据都要更新。
(九):信息分析与研究
请简述:
1.国内外已有哪些相关研究以及研究水平。
2.目前的研究中尚有哪些问题有待解决
3.国内外研究的动向和主攻点
一.国内外相关研究
随着人们对食品添加剂质量和安全性认识的不
断深化,愈来愈多的研究表明,人工合成色素在不同程
度上存在着毒性[1],因此开发安全无毒、稳定性好、具有
保健功能的天然植物色素成为近年来食品工业的一个
发展方向。
当前欧美国家学者对枸杞抗氧化、抗衰老、抗
肿瘤以及增强免疫功能等诸多功效进行了大量的药理
学研究和临床试验,取得了良好的效果[23]。但对于
枸杞深加工产品的开发目前报道较少。
枸杞作为药食同源的中草药原料,具有丰富的营养价值和生理保健功能,使用高新技术高效提取
枸杞活性成分,开发新型枸杞食品及深加工产品将
有广阔的市场前景和可观的经济效益。
二.研究中需要注意以下几个问题:
枸杞色素通常用有机溶剂提取法获得:枸杞—
皮籽分离(水分法)—溶剂提取—真空浓缩—柱层
析纯化—枸杞色素,此法得率较低。白寿宁[18]用超
临界CO2 提取技术,以枸杞油为载体,从枸杞色素
中分离提取β-胡萝卜素,含量达64 %。
三.国内外研究的动向
枸杞色素安全性好,可用于饮料、医疗保健和
化妆品行业。对枸杞色素药效成分的研究以及从中
提取β-胡萝卜素将成为今后枸杞加工的重点。
参考文献:
李进, 瞿伟著.大孔树脂吸附分离黑果色素的研究[J ].食品科学, 2005 , 2 6(6): 47-51
[2] 张云霞,刘敦华.枸杞功能性成分研究进展及深加工发展趋势[J].食品与药品,2009,11(5):67-69
议民国文献的数字化 篇7
1 民国文献的数字化
国内对民国文献所采用的保护方式普遍沿用古籍保护的原生性与再生性两种方式。但由于民国文献先天纸质的脆弱, 加上又是双面印刷, 其保护与修复工艺至今尚在探索中。因此在还没有找到安全、高效、经济的原生性保护手段之前, 相比较而言, 数字化无疑是民国文献再生性保护的最佳选择。
目前, 对于大部分图书馆馆藏纸质载体民国文献的数字化制作方法有两种:
第一种是通过光学字符识别软件———OCR汉字识别软件, 把民国文献的信息资源内容录入计算机, 制成文本等文件类型;
第二种是通过缩微影像技术与扫描仪设备将民国文献的信息内容扫入计算机, 制成图像型文件资料[2]。
通过这两种基础性的文献数字化信息的整理、存储、传输, 不仅节省人力成本, 提高工作效率, 提高图书馆现代办公自动化程度, 更重要的是适应了计算机技术、网络通讯技术等数字化技术在图书馆建设的大规模应用的时代需要。
民国文献的数字化主要包括3个方面, 即民国文献组织管理的自动化、内容的数字化、传输平台的网络化[3]。
2 民国文献数字化存在的问题
随着民国文献数字化越来越被国人所重视, 许多民国文献馆藏机构也相继开展民国文献数字化建设, 但由于缺乏资金或相关经验等因素, 民国文献数字化建设还存在一定的问题亟待解决。
2.1 文献扫描加工质量良莠不齐
将民国文献完全数字化至少要经历两个流程:一是将, 扫描后的图片进行两次校对, 然后制成PDF文档, 刻录成光盘保存;二是, 将图书的目录、版号、出版时间、出版社等信息录入电脑, 然后对所有图片、录入信息进行一一核对。此项工作繁琐但技术性很强, 每个环节都要一丝不苟, 但由于扫描加工人员未经专门培训等原因, 致使文献扫描加工过程中出现诸多问题。
2.2 民国文献检索系统错误繁多
以上扫描加工的质量问题最直接的后遗症就是导致重图民国文献检索系统错误繁多, 如书名、出版时间录入有误, 一些文章有目录但无全文内容等等。
2.3 扫描时未注重保持书刊原貌, 图片扫描精度不高
由于经费和技术的限制, 民国文献数字化过程中未能完全扫描书刊全貌, 致使读者无法在阅读的过程中感受到民国文献的时代色彩, 另外, 扫描仪器分辨率的局限性使得图片无法精确呈现, 也是数字化过程中亟待解决的难题。
2.4 文献损毁严重[4]
虽然在数字化的过程中, 对民国文献采取了一定的保护措施:如扫描前将图书作区分, 针对有复本的图书, 只选择其中一本拆开做分页扫描, 扫描后再重新装订等, 最大限度的减少对民国文献的损毁, 但是效果仍不如人意, 部分图书在经过扫描加工后仍出现不同程度的破碎。
3 民国文献数字化的建议
3.1 转变文献保护观念
民国时期被学术界认为是中国“第三个诸子百家时代”, 文化与学术发展上承晚清西学东渐的遗绪, 此时的众多著名学者秉承传统中国文化, 吸纳西洋现代文明精神, 是学术发展的黄金时期, 民国文献不乏学术珍品。因此, 我们应转变文献保护观念, 将民国文献纳入新善本之列。
3.2 加强民国文献保护研究, 原生性保护与再生性保护并重[5]
为避免我国悠久的文献历史在我们手中出现民国时期的断层, 图书馆界应转变观念, 予民国文献保护工作以充分重视, 将原生性保护与再生性保护并重, 既要保护民国文献的原貌, 也要使其传承下去。
3.3 制定民国文献数字化的统一标准
民国文献数字化建设应建立统一的标准, 避免因该机构情况不同而导致的质量参差不齐。
3.4 资源共享, 避免重复加工造成的文献损毁和人财浪费
应由权威部门出面建立全国民国文献数字化加工指导小组, 统一指导协调各馆开展民国文献的数字化工程, 在统一标准的基础上对各馆已经完成的民国文献数字化资源进行清理, 建立共享资源数据库, 避免重复建设。
3.5 注重工程质量, 力争一步到位[6]
由于民国文献的数字化不可避免地会对原始纸质文献造成一定程度的损毁, 数字化后的纸质文献很大部分再次利用非常困难, 并且也将投入大量的人力和资金, 因此应该在项目立项之初慎重考虑, 高标准地制定技术标准, 注重加工质量, 切忌为了进度而牺牲质量。
4 讨论
民国文献数字化是传统图书的扩展, 既具有传统图书馆的收藏、保护、提供服务功能, 又提供集成化的、深层次的、数字媒体的远程数字图书馆服务, 是传统图书馆功能的补充和延伸[7]。S
参考文献
[1]郑春汛.民国文献的价值与保护对策研究[J].图书馆理论与实践, 2008 (4) :40-42.
[2]张丁, 王兆辉.民国文献数字化建设的历史必然性[J].数字与缩微影像, 2010 (2) :26-27.
[3]张丁, 王兆辉.试论民国文献的数字化建议[J].数字与缩微影像.2011 (1) :22-23.
[4]万华英.重庆图书馆民国文献数字化建设述评[J].四川图书馆学报, 2011 (6) :35-38.
[5]荣洪涛.重视民国文献保护:兼与民国前文献保护比较[J].图书馆理论与实践, 2010 (9) :9-12.
[6]刘晓景.重庆图书馆民国文献数字化实践[J].图书馆界, 2012 (4) :65-67.
数字文献检索实习报告 篇8
1 年度分布
全部63篇文献分布在2001年至2013年。平均年发表文献5.25篇,最低年份1篇,最高年份12篇,中位数为6篇,众数为4篇(3个年份)。
从文献发表年份分布趋势图看,研究整体活跃度呈台阶式上升趋势。大致可分为三个台阶:第一台阶从2001年至2006年,第二台阶从2007年到2010年,第三台阶从2011年到2013年。每个台阶均有一个起伏,但每个台阶又高于前一台阶。从年发表文献均量上看,第一阶段在1篇至4篇区间,年均2篇;第二阶段在4篇至7篇区间,年均5.5篇;第三阶段在6篇至12篇区间,年均8篇。2012年达最高峰值。
2 作者分布
全部63篇文献中署名文献61篇,涉及66名作者,人均发表文献数0.96篇。发表文献2篇以上6人,占署名作者9.5%;发表文献14篇,占全部文献22.22%。杨智勇等2人各3篇,罗亚琦等4人各2篇,武志辉等60人各1篇。从合作率来看,2人以上合作11篇占17.46%。涉及作者多,人均值不到1篇,合作率不高是关注这一问题作者最明显特征。
3 机构分布
63篇文献中署明作者单位39篇(报纸的17篇报道除外),涉及单位34个(7个报社除外)。其中发表2篇以上文献的有6个,占署明单位的17.65%;发表文献14篇,占署明文献的35.9%。杭州市萧山区档案局3篇、上海大学3篇,浙江舜宇集团股份有限公司、上海航天控制工程研究所、浙江省档案局、山西省阳泉广播电视台各2篇,成为这一研究核心机构。华东师范大学等其他28个单位各有1篇文献发表。
在34个单位中,合作发表文献的只有上海大学、上海航天控制工程研究所2个单位,占署明单位数的5.88%,发表文献2篇,占署明单位文献数的5.13%。合作率低。在34个单位中,档案行政管理机关5个,占署明机构数的14.71%;发表文献8篇,占署明机构发表文献数的20.51%;高校4个,占署明机构数的11.76%;发表文献6篇,占署明机构发表文献数的15.38%;其他机构25个,占署明机构数的73.53%;发表文献25篇,占署明机构发表文献数的64.1%。与档案工作其他研究内容上其他机构占比在机构数量、发表文献数量上远高于档案行政管理部门和高校。这表明,各种机构对各自档案室数字化关注度比较高,而档案行政管理部门和高校对此问题关注度相对较低。
4 文献来源分布
63篇文献来自38种刊物,刊均1.66篇。38种刊物中,发表文献2篇以上的8种,占刊物种类的21.05%,发表文献32篇,占全部文献数的50.79%。其中档案学刊物7种,发表文献29篇。这8种刊物,特别是档案学的7种刊物是刊载这一研究领域文献的核心载体。具体情况是:《中国档案报》10篇、《浙江档案》8篇、《嘉兴日报》3篇等。此外,《黑龙江档案》等30种期刊各发表1篇文献。在全部38种刊物中,期刊30种,占78.95%,发表文献44篇,占69.84%;报纸7种,占18.42%,发表文献18篇,占28.57%。档案报刊20种,占52.63%,发表文献42篇,占66.66%;其他报刊18种,占47.37%,发表文献20篇,占31.75%。期刊发表文献占比高于报纸,档案学刊物数量多、发表文献数量多是明显的特点。
5 结语
⑴在年度分布上呈阶梯式上升趋势。持续性比较好,起伏不大。在档案信息化不断推进的同时,各行各业对档案信息化,特别是对各个单位档案室信息化的关注度也逐步提升,而且这种趋势还会持续下去。
⑵从作者分布上看,涉及作者多,人均值低,合作率不高,表明各行各业已普遍开始关注数字档案室的问题,也说明研究还处于个体性随机性研究,缺少统一、系统、有组织的研究。也说明对此问题进行持续性关注的研究者还很少,没有分量的研究成果。
⑶从机构分布上看,已有一些单位对这些问题进行持续性关注,也有一定数量研究成果面世,但总体上合作率很低,档案行政管理部门和高校在机构数量、发表文献数量上明显不及其他单位,对这一问题关注度相对较低,对基层档案信息化关注度也不高,有必要引起重视。档案行政管理部门应加大对基层档案室信息化与数字化研究与指导。
⑷从文献来源分布上看,整个呈现出期刊发表文献占比高于报纸,档案学刊物数量多、发表文献数量多是明显的特点。特别是档案学期刊成为这一研究最主要载体。档案报在这方面作出了很多努力,表现出色。
【数字文献检索实习报告】推荐阅读:
数字文献06-29
数字图书馆文献09-02
古籍文献的数字化之路07-23
刍议高校图书馆纸质文献数字化加工业务外包05-22
文献检索检索报告12-08
文献检索报告样本05-26
文献检索实验报告一09-15
文献检索课程报告范文11-20
文献报告格式12-05
化学文献检索与利用课程实习报告20109-28