档案文献主题探测方法(精选2篇)
档案文献主题探测方法 篇1
引言
随着目前科技文献资源的大量增长,档案类文献的资源也在突飞猛进的增长,但对于大量的文献资源,要能更精确的找到我们所需要的信息却变得难上加难。主题探测(Topic Detection,作为一项旨在帮助人们应对信息过载问题的研究,其研究目标是要实现按主题查找、组织和利用来自多种媒体的多语言信息[1]。
1.常用的文本分类方法
传统的科技文献分类方法都是基于文本分类的,这些方法是对给定的文本,根据其内容自动或手动地加上一个类别标签,通过给定的训练集,用某种方法构建文本特征与文本类别之间的关系模型,再利用这个关系模型对新的未知类别文本进行类别训练。
1.1基于简单向量距离的分类法
简单向量距离分类法的主要思想,是首先确定新文本的向量,然后根据尚未分类的文本向量与每个类别中心向量的距离来判断此文本属于哪个类别,确定新文本向量的前提是:先根据算术平均为每类文本集生成一个代表该类的中心向量[2]。
简单距离向量分类法实现简单,分类的复杂度也不高,其缺点也很明显:直接使用特征空间的特征分布,受训练文本中的噪声影响较大,同时对分布不规则的数据,能够取得的效果是很有限的。
1.2 K近邻法(K-Nearest Neighbor)
KNN最初由Cover和Hart于1968年提出,是一个理论上比较成熟的方法,其分类方式是通过查询已知类别文本的情况,来判断新文本与已知文本是否属于同一类。算法的基本思想是:首先给定新文本,然后在训练文本集中找出与新文本距离最近的文本,依据找出的最近距离文本的类别,来判定新文本所属的类别。
KNN方法相对简单,易于实现,用于基于统计的模式识别中非常有效,并且对于未知和非正态的分布能够取得比较高的分类准确率。但对于样本分布依赖性较大,当样本分布不均匀时,可能造成一定的偏向性。
1.3 贝叶斯分类法
贝叶斯分类方法在使误判率或风险最小的问题上是很有意义的。它是将研究对象的先验概率来作为辅助判断,这样做可以使结论更精确的得到分析。但由于贝叶斯分类器的前提是需要已知条件概率,而且它的决策面比较复杂,因此在计算和构造方面是相对困难的[26]。
贝叶斯分类的优点在于算法逻辑简单,易于实现,并且算法稳定。但其也有缺陷,就是在其独立性假设时,在许多实际中并不能够成立,这样会引起分类的误差。
1.4 支持向量机(SVM)
支持向量机(Support Vector Machine,SVM)是统计学概念上一个有监督的学习方法,在解决小样本、非线性及高维模式识别问题中表现出特有的优势。这种方法是针对线性可分情况进行分析,通过寻找最优线性分类面来减小对新文档的误分概率[3]。
2.常用的文本聚类方法
作为一种无监督的机器学习方法,文本聚类是在给定的某种相似性度量下,把对象集合进行分组,使得相似的对象能够分到同一个组内。其方法通常是利用向量空间模型,将文本转换成高维空间中的向量,然后对这些向量进行聚类。因此,影响文本聚类结果的因素除了文档聚类算法的选择外,还包括语义问题和降维问题。
2.1基于划分的方法
划分法(Partitioning Method)也称分裂法,其基本原理是:首先得到初始的k个划分,然后通过迭代,将文档从一个中间类转移到另一个类中,以改进聚类的质量。代表性算法有K-means算法、k-中心点、CLARA、CLARANS等。
2.2基于层次的方法
层次法(Hierarchical Methods)首先假设所有文档自成一类,然后将最相似的两类合并,重复此过程,直到最后将所有文档合并为一类,因而可以形成一颗聚类树。层次法分为凝聚层次聚类和划分层次聚类两种,而划分层次聚类用的比较少。
典型的层次聚类方法包括:CURE(Clustering Using REprisent-
atives)方法、ROCK方法、Chameleon、BIRCH(Balances Iterative Reducing and Clustering using Hierarchies)方法等。
2.3基于模型的方法
基于模型的方法(Model-based methods)是从文本集合中学习一个模型,每个模型代表一个文本类,并优化给定的数据和数学模型之间的适应性。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。典型的基于模型的方法有:统计方法COBWEB和CLASSIT。
2.4基于网格的方法
基于网格的算法(Grid-based methods)首先将数据空间划分成为有限个单元的网格结构(所有的处理都是以单个的单元为对象的),然后利用网格结构完成聚类。其优点是处理速度比较快,通常与目标数据库中记录的个数无关,只与将数据空间所分的单元数量有关。代表性算法有:STING(STatistical INformation Grid)算法、CLIQUE(Clustering In QUEst)算法、WAVE-CLUSTER算法。
2.5基于密度的.方法
为了发现任意形状的聚类结果,提出了基于密度的方法(Density-based methods)。这类方法将簇看作是数据空间中被低密度区域分割开的高密度区域。只要一个区域中点的密度大于某个阀值,就将其加到与之相近的聚类中去。代表的算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
3.基于主题模型的档案文献主题探测研究方法
基于主题模型的档案文献主题探测,初步提出了将LDA主题模型运用到档案主题探测中。
使用LDA主题模型,旨在更好的获取文本的主题。主题模型采用了概率分析的方法,和以往其他模型的统计方法有着很大的不同。而LDA是服从于Dirichlet分布的概率模型,使得文本、主题、单词在模型超参数上有了不同的发生概率,LDA主题模型的提出,使文本不再局限于与主题一一对应,并且给出了文本在各个主题上的概率分布。
4.结束语
文本数据挖掘方法一直是数据挖掘工作人员不断探索的重要内容,而主题探测能够很好的帮助我们解决“信息过载”的现象。本文概述了文本挖掘的常用方法,并提出了最新主题模型LDA,将其运用到档案文献主题探测中,目前正对其方法做进一步的测试,将其与常用的文本分类或文本聚类方法做比较。
参考文献:
[1]李保利,俞士汶. 话题识别与跟踪研究[J]. 计算机工程与应用. (17): 7-10.
[2]庞剑峰,基于向量空间模型的自反馈的文本分类系统的研究与实现[D].中科院计算所硕士论文..
[3]T. Joachims. Text categorization with support Vector machines: Learning with many relevant features[C]. Lecture Notes in Computer Science,,(1398):137-142.
档案文献主题探测方法 篇2
关键词:档案文献,档案保护
做好档案文献保护利用工作,对于维护历史真实面貌,服务国家经济和社会发展具有重要意义。目前由于对档案文献的研究还不够深入、不够全面,保护与利用中还存在诸多的缺失和空白,使得保护与利用工作成为一项紧迫的任务。在档案文献保护过程中,应类同于文化遗产的保护,遵循以下原则:第一,尽可能保持其历史原貌,避免对档案文献做重大的改动;第二,防止和减缓档案文献的自然老化,最大限度地延长其使用寿命;第三,强化档案文献的保管与利用,慎重进行科学修复与加固的保护处理。档案文献保护的方法应注意四个方面。
一、档案文献的预防性保护
预防性保护分为三个层面:技术层面、管理层面和社会层面。在档案文献预防性保护的具体实施中,应坚持以技术为主、多方兼顾的基本原则和方法,特别要加大对制成材料濒危的档案文献的保护力度,并重点加强对信息濒危的档案文献的针对性保护策略。
1. 预防性保护的管理层面又分宏观和微观两个层面。其中,宏观层面是指站在国家的角度,为档案文献提供相应的法律保证、政策支持和标准规范。这就需要制定档案文献的长期保护策略,注重档案文献的整理与保管的前瞻性、科学性、系统性,提出档案文献保护的管理规章、管理机制、管理模式等,建立档案文献保护体系,针对不同类型的档案载体材料采用不同的保护模式与方法,对损坏程度和稀缺情况不同的档案文献采取不同的保护计划。微观层面是指将档案馆作为管理的实施者,对珍贵档案文献进行特殊的管理措施和方法。根据档案馆自身特点对珍贵档案文献实施特殊的管理方法,可以从一定程度上有效地提高珍贵档案文献的保护效率,达到预防性保护效果。通过提供特殊的保管形式,使得珍贵档案文献对诸多影响因素具备更强的抵御能力,延缓其老化的速度,预防损坏的发生。而特殊保管形式的提供可依靠微气候法实现(微气候法是指为价值重大、较为珍贵的文化遗产营造一个小环境,通过加强对其周围微气候的控制,达到重点保护的目的)。有条件的档案馆可以尝试建立“特藏室”,将珍贵档案文献集中保管,采用先进的设施、设备,对重点档案文献实施特殊保管和提供利用。“特藏室”的建立和微气候法的理念正好契合,即对珍贵、急需保护的档案文献提供特殊的管理方式和更加严格的环境控制,减缓其损坏的速度。建立特藏室的核心问题是如何选择特藏档案,大多数信息濒危的档案文献具有较好的文化和研究价值,因此,可将其放入“特藏室”中进行保护。通过宏观和微观的双重管理策略,可以减少档案文献损坏的几率,达到预防性保护的目的。
2. 预防性保护贯穿档案文献保护的始终,应依据档案文献的具体情况,分析其可能出现的危险,对其进行完整的预防性保护。在档案文献的保管、利用、运输和展出中,可能会出现预料不到的突发事件,并对档案文献的耐久性产生影响。前期预防和灾后应对的双线缺失, 是很多文献收藏机构的“软肋”。灾难随时可能不期而至, 而缺乏前期预防和灾后应对, 往往让文献保存机构损失惨重。2003年,伊拉克战争。在4月10日至12日3天期间内,伴随伊拉克国家档案馆里成千上万的档案文件、历史记录、古籍、古地图和照片的丢失、损毁,伊拉克的一部分重要记忆被永远抹去了。据统计,伊拉克国家档案馆丢失了60%的馆藏,包括大部分缩微胶片和胶卷。2004年印度洋海啸,印度尼西亚班达亚齐档案馆失去了80%的照片档案,亚齐文献信息中心失去了全部文献。2008年,我国四川汶川大地震,有的档案馆也遭受损失。这些触目惊心的案例一再提醒我们在档案文献的保护中应该制订相应的应急预案,提高危机管理意识,对可能发生的突发情况随时做好准备。档案文献应急预案应该包括:档案文献保管和保护中的环节,各环节中可能出现的危险,针对性的预防措施,危机出现后的抢救措施等。
3. 档案文献预防性保护的社会层面是指通过社会大环境改善档案文献的保护状况,提高其抵抗病害和损坏的能力,进而达到预防性保护的目的。其内容主要包括:加大资金投入,提高社会意识,加强人才培养,推进基础保护研究。持续充足的政府资金投入和广泛的社会支持是档案文献保护取得优良业绩的保证。由于档案文献数量巨大、损毁严重、载体特殊、抢救与保护成本高等因素,资金问题一直阻碍着档案文献抢救和保护的进程。为保证资金来源的长期稳定,档案文献保管机构应充分利用其价值大的特点,积极申报《中国档案文献遗产名录》和《世界记忆名录》,扩大档案文献在国内和国际的影响力,使国家和地方政府加大对档案文献保护的财政拨款。同时,以国家投资带动地方政府、社会团体、慈善机构及个人的多方合作投资;制定各类相关政策为档案文献保护提供多渠道、多层次的资金筹措方式,使资金得到有效保障。
二、积极开展档案文献的延缓性保护
所谓延缓性保护,就是在不改变原件载体的情况下,对档案文献进行修复、加固及控制保存环境等,以达到延长原件寿命的目的。这是保存和抢救珍贵档案文献的一种行之有效的方法。
1. 搞好库房温湿度调控。搞好库房温湿度调控,对于更好地延长档案文献的寿命具有关键作用。控制库房温湿度必须有合适的库房。库房必须满足密闭、隔热、防潮等要求。调节库房温湿度最有效、最快捷的措施是采用空气调节设备对进入库内的空气进行热湿处理。最经济、最节省能源的方法是利用库外气候条件,抓住有利通风时机,合理组织通风。
2. 进行档案文献的虫霉防治。档案文献在保存过程中易发生虫霉现象,严重影响档案文献的安全。为了有效控制库房虫霉的滋生,就要不断更新杀虫药剂的品种和改进消毒杀虫方法,既要达到杀虫灭菌的目的,又要尽可能地保证人体的健康。
3. 开展档案文献的保健检查。存放档案文献的档案馆、博物馆、图书馆等机构要对档案文献进行定期的保健检查,这是搞好防治工作的关键。
4. 为档案文献加装保护性外皮、配制函盒、裱糊粘贴等手工修复工作简便易行,对档案文献的延缓性保护也具有一定作用,在不具备更好的保护条件时也是不错的保护方法。
三、稳妥开展档案文献的再生性保护
所谓再生性保护,就是通过现代的技术手段将纸张载体上的内容复制或转移到其他载体上,以新型载体保护档案文献信息内容,从而达到对档案文献长期保护和有效利用的目的。再生性保护有以下几种措施和方法。
1. 整理编辑出版。“编研工作是另一种形式的档案保护”。许多档案文献由于年代久远,破损严重,为了最大限度地保护其原件,同时适应史学界和经济学界以及各方面人士研究的需要,可将其原件整理编辑出版,严格控制原件的外借利用。
2. 积极采用缩微技术。“档案缩微事业,关系我国文化遗产的保存,意义重大。”对馆藏档案文献进行缩微处理,有利于馆藏珍贵档案文献的长期有效保护。虽然目前缩微技术面临着光盘技术和数字档案馆的挑战和考验,但专家断言光盘的寿命为10~20年,而缩微胶片的母片在严格条件下可以保存500年,也就是说,至少现在,数字技术还不能完全替代缩微技术。在利用缩微技术上,要注重与数字信息技术的结合,用其所长,避其所短,实现“双赢”。
3. 科学推行数字化。对档案文献进行数字化处理,也是从根本上保护中国档案文献原件的重要措施之一。档案文献一旦数字化,既便于利用,也能够为原件提供更好的保护条件,这是推进珍贵档案文献保护的重要方法。但在数字化的同时,对档案原件要来回折腾,许多档案文献由于使用材料差、保管条件不良等原因导致十分脆弱,如出现纸张发黄变脆,边角皲裂上翘,装订线断裂,书脊裂开,失去机械强度,一触即破等现象,经受不了来回折腾。所以,对珍贵档案文献进行数字化处理应该慎之又慎,而且一定要将数字化工作和抢救保护工作紧密结合在一起。档案文献进行数字化应注意以下几点:一是档案文献数字化应尽量保持拟数字化档案的完整性,对绝大部分档案应尽可能全文数字化,建立文件级数据库;二是数字化应配合档案的规范化整理和抢救工作进行,对其中特别珍贵的档案可结合数字化进行彻底的规范化整理,以图一劳永逸;三是纸质档案数字化制作方式一般应以直接扫描为主,它具有操作简单、准确率高、速度快和高保真等优点,但扫描仪对纸张具有直接压力,所以对其中易脆的纸质档案可以考虑使用数码相机来进行模数转换或由人工直接录入。
四、三种保护方法的统筹协调
【档案文献主题探测方法】推荐阅读:
档案文献08-27
濒危档案文献05-27
档案文献管理08-30
文献历史档案10-04
建立地方文献主题目录的设想与实践08-29
北体大、日体大图书馆文献分类方法比较研究09-09
基建档案整理方法05-18
科技档案整理方法05-25
档案管理技巧方法07-03