元数据标准(精选12篇)
元数据标准 篇1
随着航空总线及电子技术的发展, 飞行试验对象测试数据源的多样性、测试手段的变革及测试系统的网络化发展使得试飞机载测试系统 (Flight Test Instruments, FTI) 的体系结构日趋复杂。FTI元数据作为描述和保存FTI系统信息的“数据”, 对其通用模型的设计及应用的研究将成为一个研究热点。
1 元数据简介
简单的说, 元数据是描述其他数据的数据。元数据主要分为两类, “结构”类元数据保存数据结构方面的信息, “描述”类元数据描述实际的数据。通常情况下, FTI用户最关注的是描述类元数据, 因为其是飞行试验测试设备中实际定义和配置信息的确切描述。而对于开发人员来说结构元数据通常用于处理文件包含的描述性信息。
1.1 元数据描述方式
元数据描述一般采取三种方式。第一种是采用硬编码的方式将结构规则定义在代码中, 以处理元数据;第二种方法是采用固定的语法描述元数据格式;第三种方法是使用一个基于XML的元数据格式。
第一种方法最不合理, 因为处理元数据的规则对于非软件工程师的人员来说是非常难以理解的。通常情况下, 维护这种类型的软件与其他方法相比, 构造元数据处理代码而使用一次性组件还会产生额外的开销。此外, 如果此方式在设计时没有考虑到可扩展性和灵活性应用, 则这种方式很难对软件进行扩展和更新维护。
第二种方法使用符号如巴科斯范形式 (Backus-Naur Form, BCF) 正式语法中定义的元数据结构。简单来说, 语法是一种机制, 用于描述允许“字符串”和“字符串”实例文档可以包含的顺序。通常情况下, 软件开发人员会使用库文件如YACC或ANTEL生成“解析器”以处理实例文档并从中抽取信息。此方法要求元数据标准的作者严格定义结构, 这种方式能使得软件高效处理实例文档。然而, 对于非专业的人来说其语法规则非常复杂。此外, 如果存在不同的供应商, 获取并处理不同厂家的语法描述非常麻烦。
第三种方法是使用XML模式 (schema) 定义一个元数据标准。XML或可扩展标记语言, 是标记文档的一种机制, 包括开放和关闭式元素和属性。它被描述为“通用的”的数据交换格式, 并已被用来定义数以百计的文件格式。一个XML文件结构和内容可以在一个XML模式中进行定义。采用XML模式定义一个元数据标准的好处主要表现在:有许多开源的工具库, 用于处理和验证XML文件与其相关的模式。同时, 对于众多普通用户来说, XML是非常好理解的。
1.2 元数据文件格式
早期的元数据专有文件格式通常是基于ASCII码的, 这种格式的元数据其数据结构和包含的数据类型差别很大。这些最基本的是逗号分隔变量 (Comma Separated Variable, CSV) 格式。这种格式的元数据通常由行组成, 每行中的数据使用逗号, 空格和制表符分隔。这种格式的优点在于容易解析, 但是在实际使用中它只针对特定的供应商, 并且不是自描述, 因此普通人员来说不是可读的。
另一种常见的格式是INI文件格式。这种格式基本上使用“[”和“]”标记的“章节”标签。这些章节依次包含“属性”集合。这些属性基本上使用“=”标记“name-value”对。这种格式的优点在于自描述性以及可读性, 但是其结构不是丰富的, 因此在实际使用中无法描述复杂的数据结构 ( 例如, IRIG-106 第4 章数据帧定义) 。
对于更加复杂的应用, 例如当整个FTI网络配置需要加以说明时, 供应商通常自定义开发自己的元数据文件格式, 他们通常会使用正式的语法描述数据, 但是其语法规则对其他用户来说往往是不透明的, 或者其包含只有开发和维护这些专有格式的软件开发人员才能理解的一些语法规则。
这种方法最大的缺点在于, 当与供应商合作时, 用户不得不重新学习一种新的“语言”。每当用户从一个新的供应商购买硬件, 他们必须理解不同供应商之间的“语言”并集成多个供应商的FTI设备, 这种人力物力开销复杂且庞大。
2 FTI元数据标准分析
2.1 TMATS
FTI早期的元数据标准TMATS, 是一种基于ASCII码的格式, 包括12 个章节, 每个章节定义采集系统配置过程中的不同方面。这些章节一般包括:PCM帧格式, PCM测试属性, 记录及转发属性、总线数据属性。
TMATS标准的主要优势是它是公认的标准, 其主要为FTI工程师设计, 因此其在IRIG-106 第4 章PCM标准和记录标准方面具有强大的描述性。TMATS标准的弱点也在于其主要关注PCM。而不能很好的处理基于以太网协议的数据模型。此外, 它仅处理两个总线协议即:MIL-STD-1553 和ARINC-429。另外, TMATS标准还缺乏一种描述和验证供应商专用仪器数据的通用方法。此外, 虽然有几个现成的工具可以读取并验证TMATS文件, 但与基于XML的标准相比, 可用的工具和库相对较少。同时, TMATS没有正式的语法定义, 因此, 无论给定的实例文件是否正确, 有时会导致工具和API接口不一致。
针对自定义ASCII码格式中存在的问题, TMATS委员会开发了基于XML版本的标准。TMATS使用者不再需要依赖供应商提供或其它专用软件来处理和验证TMATS XML文件。但是, 这种方法又无法验证文件中供应商专有信息。
2.2 Xid ML
Xid ML是基于XML的元数据标准, 于2004 年首次提出。自Xid ML 2.0 发布以来, Xid ML已经过多次迭代更新, 目前最新的版本是Xid ML 3.0。Xid ML模式设计之初, 就具有供应商无关性、及基于FTI域通用的数据模型, 同时其在设计时就兼具灵活性和可扩展性。此标准在2.41 和3.0 版本之间, 在设备配置描述方面进行了根本性的改变。它从一种设备类型 (40 多种类型) 对应一个模式的方法改进为单个高度通用的设备模式。
目前, Xid ML包括两部分:Xid ML模式本身和可选的Xdef ML模式。一个Xid ML实例文件包含用于实际配置数据采集网络的数据, 其主要围绕5 个关键概念:仪器设备、参数、数据包、链路、算法。一个Xdef ML实例文件包含用于验证Xid ML文件中用户专有数据的数据。Xid ML文件中每种类型的设备提供一个Xdef ML文件。
Xid ML的优点在于其简单 ( 例如, “Instrument”属性可以描述任何供应商的任何设备) , 使用Xdef ML可以定义约束任何供应商设备, Xid ML可用来配置不同厂商的数以百计的设备。Xid ML的主要缺点是, 其一般由特定的FTI供应商定义。
2.3 MDL
测试定义语言 (Measurement Definition Language, MDL) 是FTI组织最新制定的元数据标准, 现已纳入i NET协议。MDL是一个基于XML标准, 由6 个构造关联模式组成。其基本方法是以测试为中心, 通过避免在MDL文件中完全使用特定于供应商的信息, 解决不同供应商设备描述问题。此外, 其能充分描述基于网络的数据采集系统。
在MDL的原则中, 用户可以指定测试指标需求, 例如测试精度、不确定性等, 并将这些信息传递给供应商软件进行处理。然后供应商软件返回新的Xdef ML文件表明供应商硬件实际上包括了哪些内容。
MDL模式具有全面且丰富的组织结构, 用于描述网络属性信息和不同协议的网络, 以及网络间的流量模型。MDL使用差异服务 (Differentiated Services, Diff Serv) 提供专有的服务质量 (Quality of Service, Qos) 。
MDL最强大的功能是其对复杂测试信息的全面描述能力。MDL通过“Analog Attributes”章节详细描述数字滤波的测试特性。
由于MDL主要关注的是网络, 所以其缺点包括如PCM、CAIS等标准不支持其建立的技术。这些技术可能需要基于网络的系统与其进行交互, 需创建硬件的代理服务器, 将数据转换成网络数据, 然后在MDL中建立硬件代理服务的模型。MDL最大的缺点可能在于其模式的复杂性。尤其是在模式的“Network Nodes”属性中, 其包含了20 余个“Manageble APPS”, 每个“Manageble APPS”指定一个特定的功能。MDL使用XML模式“ID”来唯一标识一个关键实体, 这有时会使实体关系对用户不透明。此外, 虽然MDL模式从最初的版本进行了很大的改善, 但是其对供应商硬件配置和验证仍然缺乏支持。
2.4 i HAL
i HAL (Instrumentation Hardware Abstraction Language) 是FTI组织最近尝试开发的一种开源的标准。在最初的格式中, i HAL主要关注供应商硬件的配置方面, 同时在模式验证层提供了供应商特定信息的验证机制。i HAL实例文档分为两个部分, i HAL“使用”部分包含用于配置供应商硬件, 而“池”部分用于定义采集设备的供应商特定约束信息。软件可以使用“池”部分中包含的约束来验证i HAL实例文件中的用户数据。
i HAL模式后来经过迭代改进, 支持测试系统和测试单元, 如IRIG-106 第4 章PCM, 以及基于网络的测试系统, 并集成了MDL, TMATS XML, Xid ML模式中定义的内容。
i HAL项目另一个关键点是i HAL API。这是唯一一个具有相关API接口的标准。其API具有以下功能:用户可以使用API验证i HAL文件;用户可以通过API将i HAL文件加载到硬件中;API可以返回一个i HAL文件描述所有硬件以及这些硬件是如何配置的;API可以返回一个i HAL文件描述供应商硬件功能信息 ( 例如:使用i HAL文件中“池”部分) 。因此, 此API涵盖了上文所述的所有基本操作原理内容。
综上所示, i HAL标准最大的优点是将用于描述供应商硬件约束的数据和配置数据分离开来。其API追随“RESTful”范式采用分离的方法是一个很好的选择, 主要原因包括:其内在的可伸缩性及互联网上很多的API可供使用。这种方法也允许供应商选择硬件本身允许的API或者其他软件代理。
iHAL最大的缺点是其不成熟性, 特别是相对于TMATS、TMATS XML及Xid ML来说。与MDL相比, 其纳入其他模式会使用户很难理解和处理元数据信息。此外, 不同的元数据模式采用不同的结构, 而不同模式间关系是不成熟的, 需进一步开发。
3 成熟元数据标准的属性
通过分析以上元数据标准可以总结出, 一个FTI域成熟的元数据标准最少应具有以下属性:供应商无关性:具备描述不同供应商设备的能力;容易处理:最好能使用现成的开源处理工具;FTI域建模:数据模型应能对FTI域进行有效建模。这是为了确保标准简单易懂, 并能全方位的满足未来需求;成熟并被广泛采用:对一个新标准来说这是很难实现的, 一个经过不断改进及应用很长时间的元数据标准, 能满足很多不确定的用户需求, 肯定要比任何设想的新标准更加成熟合理。灵活性:不是所有的FTI应用都是相同的。任何成熟的标准应能满足这种多样性。可扩展性:FTI应用领域的需求不是一成不变的, 随着新技术和新协议的出现及测试数据量的增加而需要不断改进。因此, 成熟的元数据标准应能进行扩展以适应技术的发展。自描述性:理想情况下, 元数据标准应易于理解并且无二义性。操作原理:任何元数据标准应能支持FTI工程的“操作原理” (Concepts of Operation, ConOps) 。ConOps通常涉及元数据验证、设备发现、设备配置及设备描述的需求等。根据以上属性对比每种元数据标准的特性, 见表1。
4 结语
文章开始介绍了什么是元数据以及在这些标准中使用的常见格式。然后从TMATS入手讨论了FTI元数据各种标准及其优缺点, 提出一些成熟的元数据应具有的特性。FTI应用领域需要一种通用的元数据标准。目前, Xid ML已经在部分试验中进行应用并不断更新;同时, 最新的MDL具有很大的潜力及发展势头, MDL必须在原有基础上在配置和验证功能上及FTI域建模方面进行不断改进才能成为完全成熟通用的元数据标准。
摘要:随着试飞机载测试系统的信息资源共享及互操作需求的日益增长, 其元数据标准研究内容也不断深入。首先, 在介绍元数据的概念以及其描述方式的基础上;讨论了FTI应用领域元数据各种标准及其优缺点;接着分析了一个完全成熟的FTI元数据标准应该包括哪些特性, 并根据这些特性对比了现有FTI应用领域元数据标准。
关键词:元数据,元数据验证,试飞测试系统,操作原理
参考文献
[1]"Introduction to XidML 3.0 an Open XML Standard for Flight Test Instrumentation Description", Alan Cooke and Christian Herbepin, ITC 2010
[2]Michael S.Moore, Jeremy C.Price, Andrew R.Cormier, etc.A Metadata Language for Describing Telemetry Systems[J].Malatesta.ETC 2009
[3]"IHAL and Web Service Interfaces to Vendor Configuration Engines", John Hamilton, Timothy Darr, and Ronald Fernandes, Knowledge Based Systems, Inc.Joe Sulewski, L3 Communications-Telemetry East;and Charles Jones, Edwards AFB, ITC 2010
元数据标准 篇2
[论文摘要]分析了纺织印染行业引入的有毒有害物质及生态安全性问题,介绍了国内外生态纺织品标准针对有毒有害物质提出的限制,并对纺织印染行业有毒有害物的生态安全防范对策进行了探讨。
[论文关键词]纺织印染生态安全性分析对策
纺织品是我国出口创汇的主要产品,在国民生产中占有重要位置。近年来,生态纺织品及其消费已成为国际纺织品服装贸易的新热点。发达国家纷纷制定和出台了一系列环保法规和标准,对纺织品中有毒有害物质实施安全检测,对纺织品的安全性、健康性提出了更高要求。
1纺织印染行业的污染特点和国内控制现状
纺织品的印染加工作为一个典型的化学处理工艺过程,其对环境和消费者可能带来的生态安全问题一直受到人们的普遍关注,这又与纺织品的印染加工以及部分前处理和后整理加工紧密相关。特别在印染废水中含有染料、浆料、助剂、油剂、酸碱、纤维杂质及无机盐等杂质,它具有成分复杂、难降解、有机污染物含量高、色度高、碱性大、毒性大、水量大、水质变化大等特点。
多年来,我国对纺织印染行业的污染治理特别是印染废水治理开展了大量研究工作并在大力推行行业清洁生产,取得不少成效。但在污染物的控制方面主要针对废水中COD、BOD、色度等综合指标,忽视了应同步从源头上抓染化料使用中有害物质的控制,对纺织品中引入有毒有害物质的限量、检测方法及控制技术方面研究的进展大大滞后于国外出台标准的进程。特别是对原料的生产过程、纺织品的生产工艺、环境与人体健康的关系缺乏研究,国外废弃的原料或生产工艺,国内仍在沿用,在生态纺织品的法规、标准和认证方面的发展也相对落后。
2纺织印染行业引入的有毒有害物质及生态安全性
目前纳入生态纺织品监控范围的有毒有害物质包括禁用染料、防腐剂、杀虫剂、甲醛、含氯有机载体等,范围不断扩大。
2.1禁用偶氮染料
目前市场上流通的合成染料品种约有2000种,其中约70%是以偶氮为基础的,而可能还原出致癌芳香胺的染料品种(包括某些颜料和非偶氮染料)约为210种。这些染料在与人体皮肤的长期接触中,会在人体正常代谢过程中分泌物的生物催化作用下或因色牢度差通过皮肤吸收而在人体内发生分解或还原,产生某些对人体有致癌性的芳香胺。
2.2致癌染料
致癌染料是指未经还原等化学变化即能诱发人体癌变的染料,其中最著名的品红染料早在100多年前已被证实与男性膀胱癌的发生有关。目前已知的致癌染料有7种,致癌染料在纺织品上绝对禁用。
2.3致敏染料
某些染料已被证实对人体有致敏作用,因而在国际纺织品服装贸易中,这些染料的使用也列入受控范围。
2.4重金属
使用金属络合染料是纺织品上重金属的重要来源,而天然植物纤维在生长过程中亦可能从土壤或空气中吸收重金属。此外,在染料加工和纺织品加工过程中也可能带入一部分重金属,还有一些重金属来自某些服装辅料或饰品表面。重金属一旦为人体所吸收,则会累积在肝脏、骨骼、肾脏、心脏及大脑中,达到一定程度后会对人体健康造成巨大伤害,尤其是婴幼儿。
2.5游离甲醛
在印染加工中,甲醛污染主要来自于助剂中的游离甲醛及助剂分解产生的甲醛。甲醛对皮肤粘膜有强烈的刺激作用,也可能引起呼吸道发炎,作用时间过长将引起肠胃炎、肝炎等症,亦可能诱发癌症。
2.6含氯酚
五氯苯酚(PCP)是纺织品采用的传统防霉防腐剂。动物实验证明,PCP是一种毒性物质,对人体具有致畸性和致癌性。PCP十分稳定,在纺织品中的自然降解过程缓慢,穿着时会通过皮肤在人体内产生生物积累而危害人体健康。虽然世界上已有许多国家明令禁止,但实际上仍在使用中。2,3,5,6-四氯苯酚(TeCP)是PCP合成过程中的副产物,对人体和环境同样有害。
2.7含氯有机载体
载体染色工艺是聚酯纤维纯纺及混纺产品常用的染色工艺,有助于分散染料在常压沸染条件下对聚酯纤维进行染色。某些廉价的`含氯芳香组化合物,如三氯苯、二氯甲苯是高效的染色载体。研究表明,这些含氯芳香族化合物对环境是有害的,对人具有潜在的致畸和致癌性。
2.8杀虫剂
天然植物纤维,如棉花在种植中会用到多种农药。在棉花生长过程中被纤维吸收的农药在纺织品加工过程中虽大部被去除,但仍有可能会有小部分残留在最终产品上。这些农药对人体的毒性强弱不一,且与在纺织品上的残留量有关,其中有些极易经皮肤为人体所吸收,且对人体有相当的毒性,为致癌因素之一。
2.9多氯联苯衍生物(PCBs)
人们常把在纺织品上检测出残留的多氯联苯衍生物归入杀虫剂。其实多氯联苯并非作为杀虫剂,而是作为抗静电剂及阻燃剂而可能被引入纺织品。多氯联苯对人体有毒,会引起皮肤着色、肠胃不适,并有致癌作用。
2.10环境激素
环境激素是一类对人体健康和生态环境极其有害的化学物质。目前被禁止的环境激素有70多种,与纺织助剂有关的有10种左右,除五氯苯酚、多氯联苯外还有多氯二恶英、多氯二苯并呋喃、多溴联苯、烷基酚、对硝基甲苯、邻,对二苯基苯酚等。
3国内外纺织品生态标准的发展概况
从20世纪80年代起,工业化国家就开始对纺织品中可能存在的有害物质及其对人体健康和环境的影响进行了全面研究,并从法律法规和标准的制定方面采取了积极的步骤。目前最有影响的生态纺织品标准是奥地利纺织研究院设计、国际纺织品生态学研究与检测协会颁布的Oeko-TexStandard100标准。它首次引用了生态纺织品的概念,从消费者的角度,以不伤害使用者健康为前提,规定了纺织品生态性能最低要求,包括在纺织品中禁止或限量使用的有毒有害物质限量值及分析方法。检测项目共计14个大项42个小项,具体包括:pH值、甲醛、可萃取重金属、杀虫剂、含氯苯酚、氯化苯及氯化甲苯系列、PVC增塑剂、有机锡化合物、有害染料、抗微生物整理剂、阻燃剂、色牢度、挥发性物质、气味等。
OekoCTexStandard100的“生态性”是指最终产品对人身健康无害,即所谓人类生态学,不涉及生态环境保护,也不涉及纺织品生命全周期。欧共体的“Eco-Label”所倡导的则是全生态的概念,其评价标准涵盖了某一产品的整个生命周期对环境可能产生的影响,即生产的生态性、消费的生态性、处理的生态性。列入该标准考核范围的化学品包括:纤维及纱线用助剂和整理剂,杀虫或生物抑制产品,剥色或脱色、增重、辅助化学品清洗剂、织物柔软剂和络合剂、漂白剂,染料中的杂质、颜料中的杂质,铬媒染料、金属络合染料、偶氮染料,致癌、致突变或对生殖系统有毒害的染料、具有潜在致敏性的染料、聚酯用卤化载体,印染、甲醛、湿态加工的废水排放,阻燃剂、防缩整理剂、填充材料、涂层、复合和薄膜产品等。由于欧共体的“Eco-Label”标准是以法律的形式推出的,其影响力将会进一步扩大并逐渐成为市场的主导。
2001年以来,我国先后发布了《纺织品通用安全技术要求》、《生态纺织品通用及特殊技术要求》和国家环境保护总局起草的HJBZ30-2000《生态纺织品》等标准。我国第一个有关纺织品生态安全性能要求的国家强制标准GB18401-2003《国家纺织产品基本安全技术规范》于2005年1月1日起正式施行,产品涉及由天然或化学纤维为主要原料的服用或装饰用纺织材料,其考核内容包括:pH值、甲醛含量、色牢度、耐水、耐汗、耐干摩和耐唾液、禁用偶氮染料和异味。相对于国际上的一些生态纺织品标准,该标准基于为保证纺织产品对人体健康无害,对纺织品生态安全性能考核目前只选择了五项基本的要素。总体而言,这些标准与国际相应标准相比还存在一定差距。
4纺织印染行业的生态安全防范对策
4.1加大环保宣传和生态安全性信息的收集
首先,应加强环保意识和生态安全性纺织品消费的宣传,建立专门的生态安全性纺织品信息咨询机构,使纺织企业和消费者真正具有环保意识。其次,重视纺织品生态安全性信息的收集,帮助我国纺织和服装企业及时了解和掌握国外在纺织品服装领域对有害物质限量的最新要求和认证标准。
4.2加强对纺织品生态安全性的研究
纺织工业的生产链包括原料加工、纺纱、织造、印染、后整理加工和服装制成品加工等。纺织品中的有害物质除生产工艺不当会过量残余外,有部分是上游原料带来的。因此,我们对纺织品生态性的研究必须从原料的生产、加工到半制品生产过程有害物质含量指标及检测方法、功能性产品的评价方法及对纺织品可降解性等方面进行全方位的研究,为生产企业选择原料和工艺提供技术指导,也为提高最终产品的安全健康性奠定基础。
4.3制定纺织品生态标准,完善相应检测手段
必须结合我国国情,密切关注国际上相关法规的动态,制定系列与国际接轨的“绿色”纺织品强制性标准,并使之成为国际认可的标准。国外生态纺织品标准列入考核的内容多,公布的检测方法很少,未公开的检测方法都具有相当的难度。被列入欧洲的纺织品有害物质清单的项目中,我国仍有不少项目没有统一的检测方法。因此,我们也应加强对纺织品有害物质检测方法方面的研究和探讨。
4.4开发生态安全性产品,取得国际认证
生态安全性产品是未来的发展趋势,纺织企业开发生态安全性产品应重点抓好四个环节:(1)进行生态安全性设计。注重设计易于回收、节能、耐用、无污染或低污染、不影响健康的产品。(2)实施生态安全性生产。按生态工业模式,实现清洁生产,尽量避免使用有毒有害原辅料,减少生产过程中的能源和材料浪费,减少废弃物。(3)铸造生态品牌。纺织企业产品应符合环保要求,要取得国际环境标志,创造绿色品牌。(4)实行生态包装。纺织企业要按照进口国的要求,采取使用后利于回收再利用或易于自然分解的绿色包装。
参考文献
[1]吴湘济,沈晶.生态纺织品的监控及对策[J].上海纺织科技,2003,31(2).
[2]王建平.印染工业生态标准的现状与发展[J].印染,2005,(9):50-53.
[3]李伟等.论我国生态纺织品标准体系的建立[J].中国标准化,2004,(8):14-15.
[4]夏建明,陈晓玉,吴爱莲.开发、使用环保助剂,为印染清洁生产服务[J].印染助剂.2005,22(3):1-8.
[5]曾祥全,丁关海.解读生态纺织品标准100[J].世界标准化与质量管理,2004,(5):44-45.
[6]刘海珍.关于发展我国生态纺织品的建议[J].棉纺织技术,2001,29(11):28-31.
国内外科学数据元数据研究进展 篇3
关键词:科学元数据 科学数据 元数据标准
中图分类号: G254.36 文献标识码: A 文章编号: 1003-6938(2014)06-0102-07
Research Progress of Scientific Metadata at Home and Abroad
Abstract The value and role of research data has gain growing academic attention and recognition. The functions of metadata highlight in many aspects, such as data organization, management, and sharing. This article reviews domestic and foreign research progress of scientific metadata, including the functional requirements of scientific metadata, the development of scientific metadata standards, the application of metadata in data curation, data sharing, and the application of ontology technology in scientific metadata.
财会信息资源元数据标准的研究 篇4
一、概念介绍
1. 元数据及元数据标准内涵
元数据是专门用来对相关数据特征和属性等进行描述的一种信息数据, 在各行各业中具有着重要的作用价值。当前我国元数据的应用范围已经逐渐广泛, 其具有以下几个作用:第一, 元数据能够为不同种资源提供有效的检索工具, 从而能够更快的对各项资源进行充分的利用, 利用云数据资源将不同的社会资源信息和内容进行快速的整合和检索。第二, 元数据能够对许多数据进行共同管理, 从而实现相关信息的资源的描述。在元数据对数据进行管理过程中能够将不同数据的内涵信息进行记录, 从而实现高速的数据追踪和识别功能;第三, 元数据具有建立数据库的作用。因此, 元数据能够更好的促进用户快速将有效信息进行筛选, 加以利用。
元数据标准主要是指对一些列数据进行管理时所建立的标准。在应用元数据的过程中通过设定合理的元数据标准帮助对其数据内容和信息等进行综合性的管理, 从而实现信息系统化、专业化管理和应用。元数据标准内容中将其分为三个不同的层次内容, 即核心层、领域层和应用层。在核心层内是对信息进行标注审核的主要部分, 在领域层内主要是根据信息数据对其进行分类储存和管理, 在应用层次上主要是对信息内容进行整体整合和应用, 从而有效的使用元数据, 应用于人们日常工作和生活中。
2. 财会信息资源元数据标准
财会信息资源元数据标准主要是指多种经济类的数据和信息资源等进行综合的管理的一种电子文档建立方式。财会信息资源元数据标准的应用是企业在其长期会计工作处理过程中的主要标准内涵, 能够对当前我国企业会计信息资源等进行不同形式和信息类型之间的合理、快速转换, 方便财会人员的工作, 提高企业财务管理中的工作效率。此外, 财会信息资源元数据标准能够更好的对企业内部财会信息资源进行分类储存和管理, 从而方便用户对企业相关财会信息资源进行检索和计算。
现阶段我国政府在对国家经济建设过程中也需要依靠企业财会信息资源元数据标准对企业内部财会资源进行调查和管理, 这项工作内容的工作量很大, 工作人员在对其工作内容中的财会信息资源进行检索的过程中可以利用元数据标准对其进行快速检索以寻找到相关信息的内容从而提高了政府对我国企业财会信息资源的管理, 从整体上对我国企业的经济情况等进行宏观调控, 从而促进我国经济建设的不断发展, 完善当前我国财会信息环境。
二、财会信息资源管理的要求
随着我国企业信息化建设的不断发展, 企业内部内部系统中存放着大量的信息数据, 这些信息数据是企业在其建立和发展过程中重要的信息资源。由于企业信息资源管理系统最初建立过程中受到技术手段和环境因素等的影响, 其系统本身的建立上存在缺陷。后期, 随着我国信息技术手段的逐渐改善, 在全局系统管理上逐渐对其进行集成管理, 在这过程中企业管理人员发现对大量信息进行管理会伴随着企业的发展而逐渐增加其工作难度。根据当前我国网络环境在其建设过程中对各种信息资源的管理, 企业财会信息资源管理提出了新的要求:第一, 能够对企业财会信息进行集中储存。第二, 在应用过程中能够快速对信息内容进行检索。第三, 针对信息内容能够进行整理和模型建立, 从而快速的对企业内部财会信息进行管理。根据以上要求, 我国企业财会信息管理中逐渐开始应用新的技术手段对其进行统计和处理, 其中元数据标准的应用正好符合我国财会信息资源管理的要求。
三、财会信息资源元数据标准的必要性
1. 实现企业会计信息资源利用
财务会计资源元数据标准的应用能够有效的对企业会计信息资源进行可利用, 实现企业用户的快速检索。我国企业和相关政府部门在对内部财会信息资源进行利用过程中需要对其财会信息资源的可应用程度进行处理, 从而合理的利用现阶段企业内部的财务会计应用范围对其进行资源应用。这样能够更好的提高企业决策者的决策效率, 从而促进我国企业的长期发展。采用财会信息资源元数据标准够企业和政府部门能够对其资源进行针对性的查询和使用, 为其提供可靠的决策依据。此外, 应用财会信息资源元数据标准后能够对企业员工在制作内部财务信息报表的过程中提高工作人员的整体工作效率, 从而实现企业会计信息资源利用。
2. 构架企业业务系统和决策系统
财务会计信息资源元数据标准在企业内部应用的过程中能够进一步对当前我国企业系统进行构建, 从而使企业业务系统和决策系统更加完善, 促进我国企业的长期发展。我国企业和政府在日常工作过程中需要对相关业务信息进行统计和整合, 从而对业务经营范围和类型等进行处理和调整, 以促进我国企业业务的长期发展, 使其实现企业经济价值。此外, 我国财会信息在日常工作过程中还承担着为企业决策者提供有力的财务数据基础, 从而促进我国企业在其发展过程中的长期发展, 实现我国企业决策系统的建立。由此不难看出财会信息资源元数据标准的建立能够构架企业业务系统和决策系统, 对其信息资源进行特定的整合和管理。
3. 实现企业财务信息资源的长期保存
近几年由于我国经济的快速发展, 企业在市场环境中对相关企业内部资源进行整合和管理过程中需要不断的对企业内部财会信息资源进行更新, 从而使企业能够更加的适应当前我国的市场环境, 使其在发展过程中具有可持续性。而通过建立财会信息资源元数据标准, 使我国企业实现了财务信息资源的长期保存, 改变了传统单一资源保存中出现的相关内容和处理过程信息资源丢失的现象, 成为了企业财会信息储存的有力工具。财会信息资源在其生存过程中决定于信息资源自身的价值。企业的财会信息价值一直是企业长期发展的关键, 其价值意义较为优秀。因此, 在为进一步保障我国企业财会信息价值, 在其储存过程中必须对其进行各种文件形式的转换, 而采用元数据标准能够使其转换过程中保证信息的完整性和真实性, 促进企业财务信息资源的长期保存。
4. 保障财务会计信息的资源质量
应用企业财会信息元数据标准能够保障财务会计信息的资源质量, 从而使企业的决策者和工作人员能够更加准确的对其企业内部数据和发展趋势进行规划和管理, 实现企业的长期发展。企业在对财务信息进行统计过程中往往会采用统计报表的方式对其进行统计, 随后使用单一的系统对其进行录入和管理, 在中间环节中会产生数据异常的现象, 这样会严重影响数据的完整性, 降低财务会计信息的资源质量。而应用元数据标准后能够对其数据录入和管理过程中对其异常现象进行分析, 及时进行补救, 从而提高数据保存的质量。由此不难看出, 财会信息资源元数据标准能够保障财务会计信息的资源质量, 具有普遍应用的必要性。
四、改善企业财会信息资源元数据标准应用措施
1. 加强对元数据标准的认识
在改善企业财会信息资源元数据标准应用过如何能够加强元数据标准的认识成为改善企业财会信息资源元数据标准应用的主要方式, 具体的改善措施如下:第一, 在企业财会信息资源处理过程中对其有效利用率进行改善, 以提高企业对元数据标准的认识, 使其在实际应用过程中充分的认识到元数据标准的应用效果;第二, 企业财会信息资源处理过程中人员进行培养, 以促进其对元数据标准的认识。例如, 企业可以通过定期对其员工进行培训, 从而使员工深入的了解到元数据标准的价值。
2. 完善元数据标准系统建立
在对元数据标准系统进行建立过程中首先, 需要对企业应用元数据标准的目标进行建立, 从而确定元数据标准系统建立的方向, 对其进行针对性建立;其次, 在进行系统建立过程中需要对企业财会信息资源进行整合, 通过分类建立的方式使元数据标准能够更加系统的对其进行收集和处理, 从而形成具有应用价值和特殊性的标准系统建立层次;最后, 在系统建立过程中企业引进优秀的系统建立和管理人员实现企业元数据标准系统的专业化建立, 提高其应用效率。
3. 建立元数据标准管理系统
元数据标准管理系统的建立能够更好的对企业的财会信息资源进行管理。因此, 在其建立过程中需要针对财会信息资源的内容对其进行管理系统的建立。首先, 在建立过程中对财会信息资源的特殊性进行处理和确定, 完善元数据标准管理机构的行为规范性;其次, 对元数据标准的实际应用过程进行规范处理, 从而实现不同类型信息资源的元数据标准, 满足企业不同管理需求;第三, 在元数据标准制定过程中制定单位元数据管理, 实现责任制管理, 提高元数据标准管理价值。
4. 建立审计及税务部门税务分析
在建立审计及税务部分税务分析能够更有效的对财会信息进行获取。在建立过程中企业营改与监督管理部门、审计部门、税务部门等对其进行元数据标准的检索, 实现企业信息化管理。审计部门在对企业财会信息资源进行审核过程中能够完善企业信息资源中存在的漏洞, 从而将元数据标准进行完善, 更好的使其服务于企业的财会信息资源中。通过建立审计及税务部门税务分析的方式, 改善企业财会信息资源元数据标准应用, 使元数据标准在企业应用过程中实现其应用价值。
五、总结
通过本文的研究进一步了解到财会信息资源元数据标准的应用能够改善企业财会信息资源的管理, 为企业决策者提供更好的依据, 促进企业的长期发展。未来在其完善上可以从加强对元数据标准的认识、完善元数据标准系统建立、建立元数据标准管理系统和建立审计及税务部门税务分析四方面对其进行完善。
摘要:近几年随着我国经济的不断增长, 各种新型信息技术也逐渐被应用于各行各业中。财会人员对企业内部财务信息进行整合和记录一直是财会人员工作的主要内容, 也是最为繁琐的一项工作内容。随着我国信息技术的不断发展, 开始在该领域中应用元数据标准对其数据进行管理。因此, 本文中对当前我国企业财会信息资源元数据标准进行研究, 以期通过本文的研究能够提出有效的措施改善企业财会信息资源元数据标准应用。
关键词:财会,元数据,元数据标准
参考文献
[1]邹思杨.浅析会计信息化标准体系构建[J].时代金融, 2015, 05 (01) :205-206.
[2]陈薇.财会信息资源元数据标准问题探讨[J].经营管理者, 2015, 11 (02) :38.
[3]徐颖.财会信息资源元数据标准问题分析[J].现代商业, 2015, 09 (03) :182-183.
[4]周亚青.有关财会信息资源元数据标准的研究[J].中小企业管理与科技 (下旬刊) , 2013, 03 (04) :61-62.
[5]嵇俊康, 劳知雷, 魏文翠.会计数据采集中的元数据标准探讨[J].会计之友 (下旬刊) , 2010, 02 (02) :53-56.
海洋水色遥感元数据及其系统设计 篇5
海洋水色遥感元数据及其系统设计
在参考国内外元数据标准的基础上,提出了一个海洋水色遥感元数据框架,可以用来对海洋水色遥感数据进行描述、组织、存储和管理;在此基础上,利用XML Schema对此元数据框架进行描述,从而可以用于规范海洋水色遥感元数据.其次,从元数据的访问接口、存储系统及其安全体系结构方面设计元数据系统,实现对海洋水色遥感元数据的有效存储和管理.最后,对海洋水色遥感元数据系统进行功能和性能评价.
作 者:李学荣 李莎 LI Xue-rong LI Sha 作者单位:中国科学院南海海洋研究所,广东,广州,510301刊 名:热带海洋学报 ISTIC PKU英文刊名:JOURNAL OF TROPICAL OCEANOGRAPHY年,卷(期):26(1)分类号:P7关键词:水色遥感 元数据 元数据框架 XML 系统
3999元,廉价笔记本新标准? 篇6
X999元,永远是吸引消费者购买的本本一个耀眼数字,无论是3999元还是4999元,都会成为消费者关心的焦点,一同前几年出现的6999元惊爆价一样。未来,我们将看到更多低价本本,这是不可否认的、可以预见的事实。也许2999元的本本还有些距离,但今天,3999元产品正大踏步地向我们走来。
2004年末,联想、惠普先后发力,在国内市场率先推出了6999元的笔记本电脑。而今,低价笔记本早以不是6999元的了,取而代之的3999元产品蜂拥而至。
今年夏天,笔记本电脑市场又一次“疯狂”。7月16日,联想宣布展开“庆奥运倒计时一几十年,联想笔记本千元回馈”活动,对联想旭日系列笔记本价格进行调整,最高降幅达1000元,其中入门级的旭日410M竟报出3999元的震撼价格,成为市面上首款突破4000元的主流配置一线品牌笔记本。之后,华硕也马上跟进两款3999元机型,一时间宏碁、BenQ、海尔、TCL都推出了3999元的笔记本产品,再加上以价格见长的神舟,市面上一下子出现了七八款3999元笔记本电脑。“3999”成了这个夏天笔记本电脑市场炙手可热的话题。
厂商:3999元笔记本 我不想说
为何在这个夏天,笔记本市场出现了3999元的浪潮?难道只是这个夏天厂商的一阵促销“热风”?3999元是不是笔记本的价格底线?3999元能否承载主流配置笔记本的成本呢?本刊记者带着这些问题询问了联想、华硕等笔记本厂商。联想表示现在推出3999元笔记本是“水到渠成”,并称这次并不是“降价”,而是“千元回馈”。华硕方面对于这次两款3999元笔记本不愿做太多评论,称3999元笔记本不是华硕的重点产品,华硕出货量最大的价格区间在6000至8000元价位,而3999笔记本的推出,不会影响华硕笔记本产品线的整体布局。华硕方面还表示3999元笔记本不会是笔记本市场的主流,但是这个价位对于台式机甚至DIY市场有一定的冲击。总体说来,各厂商都不太愿意从价格方面宣传3999元笔记本。
当记者试图探究此次3999笔记本的产本控制以及今后笔记本的价格下探空间时,各家纷纷选择了“迂回”战术。记者了解到,市面上的3999元笔记本无一例外地采用了Intel Celeron M处理器、芯片组集成显卡,而且都不是预装用户熟悉的Windows操作系统。总体来说,3999元笔记本对得起这个惊人的价格。正如厂商宣称的“冲击台式机和DIY市场”,在配置上也向DIY产品靠拢了。
消费者:是不是再等等?摩尔定律不等人
买涨不买跌,向来是中国消费者的传统,这一次面对笔记本市场涌动的3999浪潮?有些消费者跃跃欲试,也有些消费者冷眼旁观。笔记本电脑是个性的东西,每个人都有自己的购买理由。如今的3999笔记本,基本上是主流中的低配置版本,而且都采用了比较通用的平台,有一定的升级空间,比较适合学生以及普通办公室应用。至于会不会再降价?本刊记者觉得没必要再等了,毕竟一分钱一分货。也许等到一年后,现在的3999元笔记本会降到2999元,甚至1999元,可是那时已经是淘汰产品了。
小提示:历年X999元笔记本发布
2004年10月——12月,联想、惠普先后发布6999元的旭日125C、M2010AP,宣告低价笔记本时代到来
2005年6月——7月,联想、惠普先后降价、发布5999元的旭日150C、Ze2202AP笔记本电脑
一种标准数据元与数据项匹配算法 篇7
关键词:数据元,数据项,匹配,特征词
随着数据元标准的建立,数据元在各行各业的数据集成过程中担任着重要角色,用于规范数据库、报表中的数据项。目前数据元标准多以文档形式出现,主要依靠研发人员自觉遵守数据元标准进行系统设计。在数据大集中体系下,业务系统彼此之间的数据依赖关系日益提高,数据质量关系到业务系统能否正常运行。依据标准数据元对数据质量进行有效核查,能进一步保障数据质量。标准数据元与数据项建立匹配映射关系是数据核查的前提。手工匹配费时费力,采用自动匹配算法可有效提高工作效率。目前的数据元与数据项的匹配算法主要利用字面相似程度实现匹配,这种算法对数据项命名结构规范有较强依赖,且大多业务数据库的数据项没有加入中文名,故无法实现匹配。
现有的数据元与数据项的匹配算法主要思想是基于字面相似程度实现匹配,这种算法对数据项命名结构的规范化有较强依赖,另外大多业务数据库中数据项没有加入中文名,故采用现有算法无法实现匹配。
现提出一种三级匹配算法,从数据项的归属实体名称、数据项名称、类型、长度、数据值特征等多个角度进行比对,对数据项命名是否规范性没有严格要求,在数据项无中文名称的情况下,根据数据特征也可实现有效匹配,通用性较强。
1 类型匹配
从数据类型转换表中读取数据元和数据项类型映射信息,在数据项信息上打上数据元类型标识,数据类型匹配运算主要为了缩小运算范围,提高运算效率,在进行第二级、第三级匹配运算时,只针对某种类型的数据项进行运算处理。数据类型转换表主要存放了标准数据元与数据项的类型映射关系。数据元一般表示为字符、数字、日期等,数据项表达的是数据库系统的数据类型,包括varchar、char、int、float等多种类型。
2 语义匹配
语义匹配运算主要从数据元和数据项的语义层进行匹配处理。数据元语义层包括名称(N)、同义词(Si)、对象(O)、特征词(P)、表示词(E);数据项语义层包括数据项名称(M)、归属实体名称(T)。在这些信息完整的情况下,本级运算可实现较高比率的匹配效果。未实现匹配的数据项将放入第三级运算中。
公式中,TO表示T是否包含O,则为1,否则为0;ME表示M包含E,则为1,否则为0;MP表示M包含P,则为1,否则为0;MNS表示M包含N或包含Si,则为1,否则为0;本级运算中,如据元的有效匹配。果匹配值Probability大于0.5,可达到很高的有效匹配率。
3 数据特征匹配
第三级运算是针对第二级运算中匹配值小于0.5 的数据项。本级运算的主要思想是实现以标准数据元为中心的聚类分析,能够适用算法的数据元其数值必定是有一定特征的,特征包括:
1) 是否具有特征词,特征词是什么。例如姓名,在第一个字符处,必然会出现一些常见姓氏。
2) 是否枚举值,获取具体枚举项。一般引用数据字典的数据项其值必定是枚举值。
3) 长度是否有固定范围,最短值、最长值是什么。例如身份证号有15位和18位两种。
4) 是否定长值、定长值是什么。
5) 数值是否有取值范围,最大值、最小值分别是什么。
6) 数据是有有一定格式,例如日期的特殊格式是XXXXXX-XX。
参见表2,数据元信息表。本步骤对数据元的信息完整性有较高要求,但考虑到如果使用数据元作为标准检测数据质量,对其约束信息的全面性完整性原本就会提出较高要求。
参见表3,数据项信息处理后如表所示。需要按照以上特征属性对于已有数据进行预处理,得到数据项信息,标识出其具有的特征和特征值。待处理的数据质量应尽量准确,可以采取异常点检测和平滑处理方法对数据进行清洗,目前已有很多此类算法,本专利不再赘述。数据项的特征词不在数据预处理阶段检测,只在与标准数据元进行聚类分析时按照数据元的特征词进行检索。
计算方法主要是对特征属性进行比对,如果数据项特征属性值在数据元特征属性值的取值范围内,则为1,否则为0。公式如下:
在数据元信息完整的情况下,匹配值大于0.6 的数据项可到达到较高的有效匹配率。
4 总结
元数据标准MODS的发展及应用 篇8
到目前为止, 描述图书馆资源的元数据标准主要由设计于20世纪60年代的MARC (Machine Readable Cataloge) 担当。人们普遍使用的MARC格式虽然产生比较早, 著录格式也修改得越来越完善, 但MARC格式过于复杂、繁琐。随着现代信息技术的发展和普及, 为了方便人们通过网络来直接存取图书馆资源, 数字图书馆的建设被提上日程, 而其中的元数据方案多采用DC (Dublin Core) 。尽管DC较为简单, 著录方式也较为容易, 但在应用过程中遇到了不少问题, 难以满足图书馆文献著录的需要。同时, 用DC描述Web资源中多种多样的资源类型还存在许多有待解决的问题。MODS就是针对DC和MARC描述图书馆资源存在的不足而开发出来的。
1 MODS的概念
MODS (Metadata Object Description Schema, 元数据对象描述模式) 是美国国会图书馆于2002年6月开发出的, 是继MARC之后的第二种以MARC为基础的文献编目元数据。MODS的元素来自MARC21的字段, 是MARC21的一个子集。它采用XML作为编码语言, 是MARC21的XML简略版。MODS的第一版MODS1.0颁布之后的版本有MODS2.0、MODS3.0和MODS3.1, 目前最新的版本是2006年6月1日公布的MODS3.2版。MODS以MARC21的元素和语义学为基础, 不是简单地将MARC数据XML化, 而是有所创新, 但它的设计主要是针对图书馆资源, 也可为各种目的使用, 适于网络环境下多种信息资源的描述, 是在立足现实的基础上扬弃传统、面向未来而开发的一种新的文献编目元数据。
2 传统图书馆资源组织方式的弊端
2.1 MARC存在的主要缺陷
MARC产生于20世纪60年代, 是图书馆文献资源组织的重要工具, 也是世界上流行最广的书目数据标准。随着信息技术的迅猛发展, 特别是电子资源的出现, MARC缺陷日益显露出来, 主要表现在: (1) 受制于卡片目录的思维。 (2) 繁杂的规定阻碍了著录的规范化。 (3) 拘泥于传统编码格式。 (4) FRBR对MARC产生了巨大的冲击。国际图联于1998年正式推出FRBR报告, 是国际编目原则和编目思维模式上的重大突破, FRBR认为编目对象不能停留在传统的平面层次上, 应根据用户的需求将编目对象分成若干层次, 它揭示了隐匿在编目对象中的深层次关系, 形成一个立体的元数据模型, 已经成为人们设计、考察和评估元数据的一个研究框架。
2.2 DC存在的主要缺陷
DC作为一种通用的元数据标准, 目前在很多数字图书馆项目中被用来描述文本信息, 但正是其通用性和简单性使它在描述文本信息, 特别是图书馆馆藏时存在诸多缺点。首先是它的不完整性。DC元素没有被有效地限定, 对许多应用不适合。其次, 没有一套广泛接受的使用说明。带来的后果是每一个应用DC的组织或机构都要对它进行自己的说明, 不但重复劳动, 而且造成说明的不一致。对于一个元数据标准来说这是一个致命的缺点, 影响其应用。第三个缺点实际上是它前两个缺点的结果:一个组织或机构应用DC的速度非常慢, 特别对于图书馆来说, 用起来不但困难, 而且代价比较高, 因此它不是图书馆描述馆藏方便且好用的标准。
3 国外有关MODS的应用项目
3.1 澳大利亚国家书目数据库元数据项目 (Australian National Biblio-graphic Database Metadata Project)
澳大利亚国家图书馆主办, 将原DC数据格式转换为MODS, 再转换为MARC, 最终全部转入澳大利亚国家书目资料库, 该项目也支持OAI-PMH, 已于2004年完成。
3.2 音、视频原型项目 (AV Prototype Project)
由美国国会图书馆发起, 其目的是探索视频和音频资源的数字化保存方案。该项目和美国国会图书馆的其它项目一起来设计一个文献信息库系统, 该系统用来支持视频和音频资源的存储、维护和传递。该项目的核心是元数据的产生, 其中大部分元数据是在它生成时直接抓取过来, 随后再转换为XML文档。这个项目用METS标准来封装数字对象和它的元数据。当前, METS的描述性元数据采用MODS方案。对于图书馆资源库中已经有MARC书目数据的对象, 直接转换为MODS, 其中的数据丢失将会很小;对于没有原始元数据的资源对象则直接用MODS模版。
3.3 经典幻灯片收集项目 (Classics Slide Collection)
凯斯西储大学的凯尔文史密斯图书馆主办, 该项目主要搜集关于希腊、罗马艺术的3000张数字幻灯片, 并利用MODS作为每一张TIF和JPEG200图形格式的元数据。该项目是凯斯西储大学“Digital Case”数字典藏计划的一部分, 已于2006年上半年完成。
3.4 MINERVA (Mapping the Internet:Electronic Resources Virtual Archive) 项目
这是一个网络资源保存计划, 其目的是支持人们开放式地定位、选择和保存网络资源。该项目的运作由美国国会图书馆连同theInternet Archive (Alexa) 、SUNY、the University of Washington一起向社会各组织机构及个人扩展。网络资源的元数据生成将依据MODS标准, MODS记录不但用于该项目的检索系统, 还要将其转换为MARC记录, 加入到图书馆的在线书目数据库中。图书馆准备实验性地用METS来提供更多的元数据, 比如保存和管理元数据等。美国国会图书馆的网络发展部和MARC标准办公室正在开发直接生成MODS记录的工具。
3.5 Copac学术目录 (Copac Academic Catalogue)
英国曼彻斯特大学发起, COPAC是一个联合目录, 主要提供英国和爱尔兰24家大学研究图书馆的联合在线目录, 还包括英格兰图书馆与苏格兰国家图书馆的目录。COPAC的书目格式为CURLMARC21, 该项目计划将其全部转换为MODS格式, 从2005年项目实施开始, 目前已取得了相当进展。
3.6 印地安那州片音乐项目 (In Harmony:Sheet Music from Indiana)
由美国印地安那州的多所大学、博物馆和历史研究所参加的印地安那州数字图书馆计划。该计划将收集超过10000种音乐数字对象, 这些音乐或其主题与印地安那州有关, 或其作者来自该州。为了使参与合作的院校、博物馆和研究所能够充分共享这些数字资源, 该计划将使用MODS作为数字对象的元数据标准, 预计于2007年完成。
从以上应用中可以看出, 目前世界各国图书馆界都在探索如何能更好地揭示和组织网络化数字化信息资源的目录元数据。
总之, MODS标准是符合数字图书馆和有关机构的愿望和要求而产生的适合在Web上运行的元数据, 是图书馆学界描述数字化资源的又一次创新, 它的出现必将有利于促进我国信息资源编目元数据规则的科学化、规范化和标准化。
摘要:本文论述了元数据标准MODS的内涵、特点及其使用的基本原则, 介绍了国外MODS近期应用的一些项目。
关键词:元数据,MODS,数字图书馆
参考文献
[1]The Library of Congress.Metadata Object Description Schema[EB/OL].[2009-05-16].http://www.loc.gov/standards/mods/mods-overview.Html.
[2]The Library of Congress.Outline of elements and attributes in MODS version3.3[EB/OL].[2009-05-16].http://www.loc.gov/standards/mods/mods-outline.html.
[3]吴万晔.论MARC元数据的缺陷及发展趋势[J].图书馆工作与研究, 2006 (2) :28-29.
[4]王妙娅, 李小梅.新的元数据标准MODS及其应用[J].情报杂志, 2004 (11) :82-83.
[5]李世玲, 李素喜.MODS与MARC、DC之比较研究[J].现代情报, 2006 (6) :138.
[6]王小平.浅析MODS元数据[J].图书馆论坛, 2008 (5) :65-67, 70.
元数据标准 篇9
统计数据和元数据交换 (SDMX) 标准是SDMX国际组织于2001年发起并提出的。SDMX组织由国际清算银行 (BIS) 、欧盟统计局 (Eurostat) 、经济合作与发展组织 (OE C D) 、欧洲中央银行 (E C B) 、国际货币基金组织 (I M F) 、联合国 (UN) 和世界银行 (WB) 七个国际组织联合发起并建立, 核心基础是其制定发布的《统计数据和元数据交换标准》, 用于数据收集与分发, 目的是提升国际组织和成员国之间统计数据和元数据的交换或共享的便利性及效率。
2 0 0 1年9月, SDMX工作组在华盛顿成立, 2 0 03年发布SDM X标准V1.0, 2 0 0 5年国际标准化组织 (ISO) 将SDMX技术标准V1.0采标为ISO/TS17369:20 05。SDM X主办方20 05年发布了SDM X技术标准V2.0以及元数据常用词汇表, 词汇表规范了元数据词汇。2009年SDMX标准得到第39届联合国统计委员会大会认可和支持, SDMX标准被称为“全球统计社区中的优选标准”。2011年, SDMX国际组织发布了SDMX技术标准V2.1征求意见稿。2011年5月, 第三次SDM X全球大会在华盛顿召开, 为推动标准研究与应用推广, SDM X国际组织成立了统计工作组 (SWG) 和技术工作组 (TWG) 。SDM X标准明确了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法, 规范了统计数据及元数据交换和共享的标准化格式。它一方面解决了一般性的统计问题, 另一方面通过网络服务达到了一种标准化的数据交互。
2 SDMX标准的技术构架
SDM X信息模型 (SDM X-IM) 是一个概念化的元模型, 开发了语法的具体实现。该模型由一组功能包构成, 这种构造形式有助于理解、重新使用和维护模型 (见图1) 。另外, 为了帮助理解, 每个包都可以被认为是在三个概念层之一中:
(1) SDMX基础层 (SDMX Base layer) 由结构定义层 (Structural Definitions layer) 和报告和分发层 (Reporting and Dissemination layer) 使用的基本块组成。
(2) 结构定义层由所需的支持数据和元数据报告和分发的结构化工具的定义组成。
(3) 报告和分发层由用于报告和分发的数据和元数据容器的定义组成。
实际上, 层没有隐式或显式的结构功能, 因为任意包能使用其他包里的任何部分。
S D M X标准通过数据结构定义 (D S D) 来描述数据和元数据, 其中, 数据结构定义决定了维度 (dimensions) 、属性 (attributes) 、代码表 (codelists) 等描述数据结构的概念。比较类似的概念有元数据结构定义 (MSD) , 该定义描述与元数据相关的观测值 (observation) 、系列 (series) 、组别 (group) 、数据集等级 (dataset levels) 等。SDM X的数据交换方面有X M L和E DI两种, X M L是更加通用的数据交换方式。
SDM X通过信息模型提供了对统计数据、结构化元数据和数据交换过程的模型化处理方式, 同时定义了参考元数据。为成为能够支持多个数据交换模型的技术标准, SDMX信息模型包含了大量正式的对象, 包括行为 (actor) 、过程 (process) 和资源 (resource) 。
SDMX信息模型结构图 (见图2) 主要包括:数据结构定义、元数据结构定义、数据集、元数据集、数据供应方、提供协议等多主要元素, 其概念如下:
(1) 代码表 (Code list) :枚举维度、属性和SDMX其他结构部分的表示形式中使用的一系列值。
(2) 数据结构定义 (DSD) :数据结构定义 (DSD) 描述了数据集的结构, 定义的一系列的概念。
(3) 元数据结构定义 (MSD) :元数据结构定义描述了元数据集 (包含参考元数据) 的组织方式。
(4) 数据集 (dataset) :是固定的时间段中, 相似或共用相同结构的数据的集合。
(5) 元数据集 (metadata set) :是关于统计交换的SDMX视图方面的信息集合。
上述元素中, 代码表可用于其他结构元数据的补充。数据结构定义 (DSD) 给每一个概念添加了附件属性。元数据结构定义 (MSD) 确定了哪些元数据能够进入数据交换、各概念之间的相互联系、概念表述方式 (用文本方式还是代码方式) , 关联方 (代理机构、数据流、数据提供方、数据流子集等) 对象类型等内容。数据集由时间序列、或者由许多与时间序列相关的数据构成。元数据集可描述数据或结构定义的维护方、数据发布的计划安排、一段时间内单一类型数据流、数据质量等内容。
3 SDMX标准主要内容
SDM X标准规定了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法, 规范了对外披露统计信息时统计数据的机构范围、地理区域、存流量性质、时间属性、频度以及对外披露信息文件格式等内容。SDMX标准包括如下七部分:
(1) 第一部分:框架。本部分规定了统计数据和元数据交换的框架结构、流程和业务范围、SDM X信息模型、SDM X-E DI、SDM X-M L、一致性、对于SDMX标准的依赖性等内容。
(2) 第二部分:信息模型UML概念设计。本部分规定了SDMX信息模型, 包括SDMX基础包、具体项目方案、关键字族、立方体、元数据结构定义、元数据集、层级编码方案、结构集和映射、数据约束和供应等。
(3) 第三部分:SDMX-ML模式和文档。本部分主要是针对金融统计数据和元数据的交换和共享, 分别描述了标准的背景、设计内容、非特定结构定义的通用模式、特定数据结构定义模式与元数据结构定义模式的XML规范性内容, 并提供了XML方案和XML文件范例, 帮助解答有关统计数据和元数据交换内模式和文档的相关问题。
(4) 第四部分:SDMX-EDI语法和文档。本部分主要介绍了SDMX-EDI的使用方法、所有的UN/EDI FACT GESM ES报文以及使用该报文满足用户特殊需求的方法, 通过中心机构管理SDMX-EDI数据交换的过程。同时说明使用SDMX-EDI进行数据和元数据交换时主要是建立在统计结构定义、统计概念以及统计概念赋值的代码列表基础之上, 使读者及用户在了解标准的同时理解统计数据和元数据交换内语法和文档的使用方法。
(5) 第五部分:注册表、规范逻辑功能和逻辑接口。本部分基于SDMX信息模型定义了SDMX注册机构应提供的基本服务:数据和元数据的注册、数据和元数据的查询、注册机构相关信息的更新和订阅, 并且定义了SDMX注册表的逻辑接口, 以便于用户选择任何规定方式进行SDMX一致性注册。
(6) 第六部分:技术说明事项。本部分描述了数据结构定义和数据集, 并通过图表及用户界面等形式解释了SDMX信息模型及实现, 特别是SDMX-ML和SDMX-EDI格式之间互用性实现等技术内容。
(7) 第七部分:Web服务指南。本部分规定了Web服务和SDM X-ML、SDM X Web服务的交换模式、WS-I符合性和大型数据和元数据集及其查询。
4 SDMX标准应用情况及展望
S D M X起初是规范S D M X组织成员国数据交换的标准, 随着技术的不断完善, 各国应用SDMX的案例逐渐增多。除SDMX的七大发起组织成功实施SDMX标准以外, 其他一些国际组织 (如国际粮农组织、世界卫生组织) 以及部分国家的统计局和中央银行也开始在统计系统中运用SDMX标准, 技术应用涵盖了劳动统计、教育统计、卫生统计、国民账户、国际收支平衡表、农业生产统计、外部债务统计、金融统计、环境和多领域统计等多个统计领域。例如, 在卫生领域, 世界卫生组织构建了SDMX卫生域 (Health Domain) 的定义, 在集合数据系统中对指标定义和数据的交换做了规定, 为SDMX标准在社区的应用提供了指导。除国际组织外, S D M X标准在一些国家也经过验证并取得良好的应用实施效果, 如图3所示, 地图上标蓝的国家已于2009年完成SDM X的实施, 标红的国家也于2009年后开始实现SDMX计划, 充分证明其在国际上具有广泛的实施应用基础和一定的优越性。
SDM X标准在国内的推广和应用任重道远。从2010年起, 中国人民银行成为SDM X国际组织统计工作组成员, 跟踪SDMX技术动态, 为SDMX标准的技术完善作出了相应贡献。下一步, 标准的实施应用应是工作的重点方向, 对此应结合我国数据交换的基本情况, 整合各方优势, 借助SDMX国际组织、国内相关政府主管部门和相关技术组织的力量, 加大对金融机构内部系统的标准化, 优化金融机构的数据披露模式, 采取“整合资源, 有序推进”的方式, 逐步推进SDMX标准在我国的应用。从国际组织及有关国家实施SDMX的情况来看, 我国实施SDM X应注意以下几点:
(1) 加大对标准的跟踪及研究力度。SDMX作为目前国际间统计数据和元数据的交换标准, 从开始制定到现在已历时10年之久, 虽已相对成熟, 但随着技术的进步和发展, 仍处在不断完善和维护过程中, 特别是代码表、数据元和元数据等内容随着业务的变化而处在不断的动态维护中, 为此, 必须积极跟踪SDMX标准的发展动态, 同时要加大对SDM X标准、IT工具、数据仓库、技术架构、内容导则等内容的研究力度。
(2) 加大标准国际间交流合作。吸取国际组织和发达国家实施SDMX标准的经验, 可以更好地指导我国SDMX实施路线图的构建, 为此应积极参加SDMX组织的各项活动, 增进与发起组织和已实施SDMX标准国家的交流合作, 分享各组织和国家的实施经验, 探索在我国实施SDMX标准的解决方案, 从而规范我国金融统计标准体系的内部处理和对外发布, 提高信息共享的效率。
(3) 加强统计业务与IT技术的协调。统计业务和IT技术的协调一致是实施SDMX标准的前提和基础, 统计业务需求为技术实现提供指导方向, 而技术反过来促进业务的完善, 二者同等重要, 不可偏废。为此, 应加强统计业务与IT技术的协调, 统计业务人员侧重于SDMX信息模型的建立和SDMX的应用, 而IT技术人员则重点在于统计数据和元数据的建模、数据管理系统的开发、数据交换格式的实施和处理, 只有二者协调一致, 才能提高SDMX实施的效率和质量。
摘要:《统计数据和元数据交换标准》 (SDMX标准) 是由全球七大国际组织联合发起并建立的SDMX组织制定的标准, 它提供了统计数据及元数据交换和共享的标准化格式, 目前在全球众多组织和国家的统计、金融等领域应用广泛。本文介绍了标准的产生与发展历程, 解读了标准的模型架构与主要内容, 并在分析标准国际应用情况的基础上, 提出了SDMX标准在国内的应用建议。
元数据标准 篇10
关键词:卫生监督,数据元,标准化
1 背景
2003年SARS的爆发,暴露了当时公共卫生信息系统在信息共享上的诸多弊端,卫生机构因此留下了"信息不畅、决策延误、指挥不灵"的深刻教训。这一教训使我们更加认识到国内的公共卫生信息系统之间存在着严重的信息孤岛现象。为解决这一问题,卫生部发布了卫办发[2003]212号文件--《卫生部关于国家公共卫生信息系统建设工作有关问题的通知》。该文件指出,"卫生监督执法信息系统是目前卫生信息化建设的薄弱环节,也是公共卫生信息系统建设的重要内容",故此卫生监督信息系统的数据元标准化建设,已经作为刻不容缓的工作被提上议事日程。
2 卫生监督信息系统数据元标准化实施
国家卫生部信息中心于2009年6月6日由发布了我国首部关于卫生监督数据集的文献-《中华人民共和国卫生行业标准--卫生监督基本数据集标准(征求意见稿)》。该标准分为《卫生行政许可与登记数据集标准》、《卫生监督检查与行政处罚数据集标准》、《卫生监督机构与人员数据集标准》三部分内容。其规范性的获得了专家的认同,并认为:数据集标准是信息化建设的基础;《卫生监督基本数据集标准》是实现各地卫生监督信息系统的互联互通、信息共享和业务协同的重要保障;同时,《标准》的出台,有助于对全国各地卫生监督信息化建设起到规范和引导作用,避免重复建设和浪费[1]。
数据标准化工作是信息系统建设的基础工作。数据工作的无规则性,必然会导致系统的低效能和资源的浪费。长期以来,我国公共卫生信息系统的建设缺乏整体规划,缺乏对公共卫生数据的标准定义与规范,导致了不同系统之间的数据难以交换、共享,也造成了资源的极大浪费。公共卫生数据元的标准化,不仅要对数据自身进行"名、型、值"的定义,还要找出数据之间内在与外在间的关联关系,这将对构建高效稳健的公共卫生数据模型起到积极的作用[2]。
课题组在开发中山市卫生监督信息系统时,尝试执行了《中华人民共和国卫生行业标准-卫生监督基本数据集标准(征求意见稿)》,并严格遵守国际和国内标准化组织已经颁布的各项数据元和代码标准。由于各项数据自身在"名、型、值"几个方面都实行了标准化参见图1,使得系统的后续模块开发和与其他信息系统的链接平滑方便,特别是在综合查询和数据分析阶段,基本消灭了字段名和字段值域的不确定性。
3 卫生监督基本数据集标准"应用及扩展
2009年7月,中山市卫生监督行政处罚子系统项目组将《卫生监督基本数据集标准》作为数据库开发标准。遵照"基本数据集"已经确立的一系列的数据元及其值域,在数据库建立过程中,根据卫生监督执法文书的业务逻辑对数据元进行仔细的分类,然后把标准数据元用作数据表中对应数据项的字段。另外为每一个已规定值域的标准数据元制作一张对应的字典表,把所有值域作为记录录入字典表中。在标准的指引下,提高了数据库建立的效率,同时也避免了重新设计字段所需花费的时间,实现了国家所提倡的避免重复定义。
作者在开发过程中发现《卫生监督基本数据集标准》并不能完全覆盖行政处罚子系统中的所有所需字段。在行政处罚各类文书中均存在很大一部分的所需字段未能与国家标准匹配。因此,有必要对国家《卫生监督基本数据集标准》进行扩展。
首先,从行政处罚各类文书中通过建模分析、确立关心"对象"。通过对象类的特性以及相关表示的分析、归纳和整理,提取具有共性的数据元。根据各数据元的通用属性和特有属性对数据元进行分类。根据分类以及数据元的属性对数据元进行以及命名。
然后根据《卫生监督基本数据集标准》制定扩展的编码规则如下:(1)内部标识符使用HIB02开头,代表卫生监督行政处罚标识符;(2)后三位中的第一位为分类标识位(标识位具体规则见表1),后两位为流水号。(3)数据元值的数据类型、表示格式以及数据元允许值参照《卫生监督基本数据集标准》制定。
最后对制定的数据元进行整理、修正,得出最后用于系统中的扩展数据元(部分扩展内容见表2)。
五、结束语
数据元标准化是避免出现信息孤岛现象的有效方法。虽然卫生监督信息系统的数据元标准化研究才刚刚起步,但也已经具有全国的标准。在中山市卫生监督信息系统项目实施中体现了《卫生监督基本数据集标准》应用的初步效果,同时项目中也根据实际对标准进行了扩展。希望以上工作能促进卫生监督信息系统的数据元标准化普及。
参考文献
[1]科学数据共享工程办公室.数据元标准化的基本原则与方法[M].北京:中国标准出版社.2006.2.
元数据标准 篇11
关键词:档案; 元数据; 电子文件; 保管期限; 自动鉴定
1 电子文件鉴定研究综述
随着电子文件的出现及其对传统纸质档案鉴定理论的冲击,国内外许多学者对电子文件的鉴定理论进行了研究。刘越南认为电子文件自动鉴定的方法是在系统中纳入并维护电子文件保管期限表。[1]于慧敏提出可以根据机关或部门的职能重要程度编写程序由系统自动鉴定,自动给文件保管期限。[2]谭琤培和章丹指出要建立元数据系统与制定元数据标准,通过系统自动记录与手工记录获取档案元数据。[3]由于电子文件的迅速增长,关于电子文件鉴定的迫切性在业内已经达成了共识,而大家期盼的最理想的目标是对电子文件实行自动鉴定。从综述看现有的理论研究并未达成共识,没有形成电子文件自动鉴定相对成熟的理论体系,需要相关研究不断地总结与完善。目前的研究成果大都集中在电子文件鉴定内容、程序、方法、原则等宏观方面的研究,缺乏微观方面的研究。
对电子文件的鉴定主要包括价值鉴定和保管期限的鉴定。价值鉴定十分复杂,需要考虑的内容很多,而且容易受鉴定者的主观影响,因此本文对价值鉴定不做过多的阐述。档案的鉴定同样可以通过保管期限来完成,在实际鉴定保管期限时,目前还是参照国家档案局出台的文书档案保管期限表进行判断,由于保管期限表条款划分过粗、加之人为的因素或者判断标准不统一的情况,使得电子文件的保管期限判断不够准确。笔者试图从电子文件的部分元数据内容入手来判断电子文件的保管期限。
本文以元数据为切入点,主要采用在文献调查的基础上,通过统计方法构建元数据库,将元数据内容信息作为电子文件保管期限自动鉴定的依据。笔者通过选取文件标题、主题词这两个能反映文件全貌的元数据内容项目进行了实证分析,对自动鉴定结果进行了验证。
2 电子文件元数据库的内容创建
元数据是指描述文件背景、内容、结构及其整个管理过程的数据。档案元数据描述的内容有以下三方面:(1)内容信息:如标题、档号、分类号、主题词等;(2)结构信息:如段落层次、文体、发(收)文者等;(3)背景信息:如形成文件的机构及其职能、业务活动等。[4]通过观察,档案元数据描述的内容中除了文件标题和主题词能反映文件全貌,其他元数据项目难以用来判断一份文件的保管期限。因此本文只选用了文件标题和主题词这两个项目来判断一份电子文件的保管期限。适当的情况下,在判断保管期限时,还可以加入责任者项目。
为了使电子文件自动鉴定具有可操作性,笔者根据国家档案局发布的第10号令《企业文件材料归档范围和档案保管期限规定》,将其中涉及的元数据内容抽取出来,该元数据库要嵌入档案管理系统自动鉴定模块中。部分元数据库如表1所示:
表格说明:
(1)一级标识限定了电子文件的内容方向,二、三、四级标识隶属于一级标识,只有同时满足一级标识、二级标识、三级标识或四级标识才能判断某份电子文件的保管期限。
(2)由于政策的变化,长期、短期、永久划分没有绝对的标准,各单位依据自身具体情况,参照国家档案局出台的保管期限划分等相关规定进行区分,短期可能是3年、5年、10年或15年不等,长期可能是15年或30年不等。
3 电子文件自动鉴定规则、流程与实例
3.1 电子文件自动鉴定规则。要使电子文件实现自动鉴定,只有元数据库是不够的,还需要一些规则对其进行规约,笔者归纳出以下鉴定规则:
3.1.1 元数据库中的元数据项目彼此之间存在从属或并列的关系,因此在设计数据库的时候,要把元数据项目之间的这种关系表达清楚,能提高自动鉴定的准确度。如下所示:
1党政企事业单位设立、变更、解散
1.1筹办申请、设立申请、批准设立永久
表中内容是永久元数据库中的项目,一级标识是代表党政企事业单位在设立、变更或解散过程中形成的文件材料;二级标识是代表在满足一级标题的情况下,如果涉及筹办申请、设立申请和批准设立的文件要永久保存。每一级标识里的元数据之间是并列的关系,而上一级标识和下一级标识之间是从属的关系。
3.1.2 当判断一份归档文件的保管期限时,系统自动从档案著录系统中提取专业人员拟定的主题词、文件标题等元数据,然后与元数据库进行匹配,可以设置精确匹配、模糊匹配、前向匹配等多种匹配方法。
3.1.3 当抽取的电子文件元数据与元数据库进行匹配时,匹配的内容之间可能存在同一关系、同涵关系、包含关系、参照关系。因此从电子文件中抽取元数据的时候要依据概念关联规则,寻求蕴含关系,力求匹配准确和全面。
3.1.4 如果匹配记录为0的话,就需要相关档案专业人员结合国家档案局对电子文件保管期限的相关规定确定该元数据项目的保管期限,并参照表1及时将新增加的元数据添加到元数据库中。
3.1.5 在档案管理系统中设定归档电子文件到期自动检测功能,根据电子文件归档时间和保管期限,将到期的电子文件筛选出来以方便档案人员对其鉴定。
3.1.6 标题相同的两份文件,在添加和删除的时候,可以根据责任者、主题词、文件形成时间等其他元数据项目进行判断,以防重复添加或误删重要文件。
3.1.7 通过对抽取出来的元数据进行分析,发现大部分元数据的词性均为动词或名词,因此在抽取词汇的时候,首先应当过滤掉名词与动词以外的词汇,以减少计算的复杂度。此外,考虑到抽取出来的元数据还有一少部分是副词词性,主要有重大、重要和一般三种。鉴于此,笔者认为需要编一个例外词库,将这三个副词分别标明代码为1,2,3。对于某些三级、四级标识中的一般、重要以及二级标识中重复的词可以放到例外词库中,减少重复判断的次数。将一、二、三级标识中不重复的名词和动词放入元数据词库中。当判断一份电子文件的保管期限时,将抽取出来的关键词与元数据词库和例外词库中的词进行匹配即可。
3.1.8 对于事先有保管期限的电子文件,当自动鉴定完成后,要将自动鉴定结果和原有的保管期限进行匹配。如果匹配结果不一致,系统将文件的保管期限修正为自动鉴定保管期限。
3.1.9 规则说明:例如,表中15.2.10职工培训,一般的为短期保存,重要的为永久保存;15.5综合治理工作一般的为长期保存,重要的为永久保存。此外表中二级标识中多次出现通知、请示、批复、报告、总结、决议、决定等词语,可以将其放入例外词库中。
3.2 电子文件自动鉴定流程。将表征电子文件内容的元数据项目抽取出来,如:文件题名、主题词、责任者等项目。然后判断鉴定模块中的元数据库中是否存在该元数据,若存在,则进行匹配;若不存在,则人工判断该元数据是否需要添加到元数据库中。流程如图1所示:
3.3 电子文件自动鉴定实例。为了证明该方法的合理性和易操作性,笔者选取了部分电子文件,来验证该方法的可行性。笔者以建国后山西省×××局部分档案为例进行说明,如表2所示:
由表2可以看出第5份和第7份文件保管期限的鉴定结果与原有的不符,究其原因可能是鉴定人员缺乏相应的专业理论知识、各组织单位为了丰富馆藏、领导对档案鉴定工作不重视,等等。对于新产生的电子文件,可通过将元数据库嵌入档案管理系统中一次完成保管期限的鉴定。总的来说,该方法具有很强的适用性和准确性。
4 电子文件自动鉴定的实施
笔者认为电子文件鉴定需要经过三个步骤:事前鉴定、事中鉴定和事后鉴定。
4.1 事前鉴定。对原有的电子文件,首先由各职能部门档案人员对其进行初次鉴定;若是新产生的电子文件,直接转到第二步。
4.2 事中鉴定。当电子文件由部门传输到内部档案室时,需要档案室人员对其进行二次鉴定。对于原有的电子文件,为了避免人为判断造成的影响,要使用档案管理系统中的元数据库对其进行自动鉴定,来修正保管期限。对新产生的电子文件直接使用自动鉴定模块来确定保管期限。此外,档案人员应对电子文件自动鉴定过程进行记录和实时监控,以防设备出现异常。
4.3 事后鉴定。为了减轻档案管理系统的负荷量,当电子文件到期后,档案人员应该使用元数据库重新判断到期电子档案是否需要继续保管,如果需要,保管期限是什么。对于没有保存价值的到期档案,档案人员应该做好销毁记录,将需要销毁的电子档案导出到销毁清单中,经领导和各部门同意后方可进行销毁。
参考文献
[1]刘越南.关于档案价值鉴定的理论与实践(五) ——对电子文件鉴定问题的思考[J].档案学通讯,2001(5).
[2]于慧敏.国外电子文件的鉴定理论分析及启示[J].兰台世界,2003(3).
[3]谭琤培,章丹.档案元数据在电子文件鉴定中的运用——元数据研究之三[J].浙江档案,2002(6).
[4]冯惠玲主编.电子文件管理教程[M].中国人民大学出版社.
科学数据元数据功能与内容分析 篇12
科学数据是一种重要的科技信息资源,具有广义和狭义之分。狭义上的科学数据是指人类社会活动中经过加工处理而变得有序化并大量积累后而有用的数据结合; 广义上的科学数据是指数据、数据生产者、开发利用的技术等要素的集合[1]。通常所说的科学数据是指狭义上的科学数据,可以被认为是一切内容和来源规范,数据收集方法科学合理, 且具有科学研究价值或其他使用价值的数据。科学数据既可以作为科学研究的结果,又可以作为科学研究的对象。随着人类科学研究活动的不断推进、 各种先进科学仪器的诞生,科学数据正以指数数量级猛增。科学数据只有在得到很好地保存与管理, 并在实现共享的前提下,才能充分发挥其作用,实现其价值。
在科学数据的管理与共享过程中,元数据发挥了重要作用,为用户发现数据和再利用数据提供了依据。元数据英文名称为Medadata,元数据 ( Metadata) 被定义为 “关于数据的数据”,或是描述和限定其他数据的数据。该术语属于计算机科学领域的专用术语,最早出现于美国航空与宇宙航行局的 “Direction Interchange Format” ( DIF) 《目录交换格式》 手册中[2]。国际标准化组织 ( ISO) 认为元数据是关于数据内容、质量、条件状态和其它特征的描述。实际上元数据起源于图书馆领域,早期图书馆的书目记录就是一种元数据。随着元数据应用范围的扩大,元数据逐渐成为了描述资源的一种工具, 广泛应用于各个领域。用于描述科学数据的元数据称之为科学数据元数据,它对科学数据外部形式和内部特征的进行了详细描述,为科学数据共享提供信息。其主要目标是提供科学数据资源的全面指南, 以便用户对数据资源进行准确、高效与充分的开发与利用[3]。本文主要对科学数据元数据的功能和内容进行探讨,详细分析了用户在发现数据、评价数据过程中对元数据的关注点,对如何完善科学数据元数据内容以更好地发挥数据评价的功能提出展望。
2科学数据元数据的功能与作用
元数据作为描述信息资源的特征和属性的结构化的数据,具有定位、发现、证明、评估、选择信息资源等功能。描述科学数据的元数据,学者们对其功能有不同的认识。Greenberg[4]认为描述科学数据的元数据功能包含6个方面: 资源发现和再利用、 数据互操作、元数据自动或半自动生成、连接相关出版物和底层数据集,数据质量控制和数据安全。Jian Qin等[5]把科学数据的用户任务分为几类: 一般任务 ( 数据发现、识别、选择和获取) ,科学任务 ( 数据审核、数据分析) ,数据任务 ( 管理、存档) , 传播任务 ( 发布,引用) ; 在此基础上总结科学数据元数据功能包含4个方面: 数据管理、数据质量控制、数据再利用、数据发现,其中数据管理是其他功能的基础。
对科学数据元数据功能的认识,图书馆领域与具体学科研究领域存在着差异。图书情报领域把科学数据视为一类特殊的信息资源进行组织与管理, 关注的是科学数据的标识和引用信息,认为元数据主要向用户提供科学数据的一些基本属性的描述, 目的是方便用户检索数据,并最终发现所需的研究数据。而在具体的研究领域,科学数据元数据的功能已经不仅仅局限于对资源的简单描述或索引,其实现的功能已经发生变化,除了承担描述、定位、 搜索、评价和选择资源的作用外,还承担着管理科学数据、维护数据安全和控制数据质量的功能。因此,科学数据元数据的功能可以总结为描述数据、 发现数据、评价数据、管理数据、存储数据、使用数据,科学数据元数据最终目的是服务于科学数据共享。
针对不同的对象,科学数据元数据发挥的作用也不同[6,7]: 对于数据用户而言,元数据是他们正确选择、使用、交换数据的不可缺少的工具。元数据通过对数据资源的内容、分类、质量和存储等的详细描述,回答了用户的一系列问题: 有什么数据? 数据怎么样? 如何获取数据? 怎么使用数据? 对于数据管理者而言,元数据方便了他们集成各种数据库,为数据集 ( 或库) 建立目录,更有效地管理并维护海量数据。对于数据生产者而言,元数据的存在方便了数据的生产、加工和更新,并可以使数据归档更高效,使数据成为了有生命力的资源,不必担心随着时间或者人员的变化而影响到数据的生产, 数据的增值具有了持久性。科学数据元数据的最大用户是科研人员,元数据是他们发现数据、评价数据和使用数据的不可或缺的工具。
3科学数据元数据内容分析
科学界普遍认为,描述科学数据的元数据越丰富,越有利于用户发现并再利用科学数据。但在实际应用中,科学数据元数据的内容决定于元数据所发挥的功能,元数据对科学数据描述的程度不同。
3.1图书情报领域科学数据元数据内容
图书情报领域和具体研究领域对科学数据元数据的认识存在不同之处。图书情报领域侧重于科学数据的发现与检索,科学数据元数据内容沿用了其他信息资源元数据的内容,偏重于提供数据资源内容方面的信息,主要关注于向用户提供科学数据的标识信息和引用信息,以实现有效的查询与检索; 而且往往忽略科学数据的学科差异性,侧重于描述科学数据的物理特征,包括数据对象的作者、大小、 维护信息和访问限制等信息,也包含了对与数据相关的其他信息资源的描述,向用户呈现科学数据的共性描述居多。国际上该领域最典型的元数据标准是Data Cite核心元数据标准[8],其内容中明确规定数据集标识、责任者、标题、出版单位、出版年份这5项信息在任何情况下都属于元数据的必选内容, 而主题信息、贡献者、日期、资源类型、摘要、地理位置等信息在特定条件下属于必选元数据内容; 除此之外,元数据内容还可根据需要扩展为对科学数据集更为详细的描述。
3.2具体研究领域的科学数据元数据内容
相比图书情报领域,具体研究领域的科学数据元数据内容往往复杂得多。Keith Jeffery在他的论文 《Data Surgery》 中提到元数据按照3个层次组织内容: 第一层通常是科学数据的一般描述,DC元数据通常正是发挥这个功能; 第二层是科学情境元数据, 反映数据的多方面属性; 第三层的描述粒度更多, 也涵盖了科学数据更为详细的信息。Ball[10]认为科学数据元数据应至少包含5类信息: 标识信息,包括数据集标识信息和元数据标识信息两类,反映数据集和元数据的名称、时间日期、版本等方面的信息; 责任信息,与数据集有关的研究或是项目方面的信息,包括项目承担机构、联系方式等,此外还包括数据集访问限制、使用限制等方面的信息; 数据存档信息,提供数据存储的位置、存储格式和存储介质、数据大小、质量、数据预览、数据集语言、 数据集状态等信息; 主题覆盖和派生信息,这部分信息涵盖内容较多,包含数据集类型、主题/关键词、摘要描述、数据产生过程中的参数、数据采集方法及仪器设备描述、数据处理过程和所采用的软件、数据集有关联的其他数据集、数据集派生的信息 ( 如与数据集有关的出版物等) ; 时间、空间覆盖信息,这部分信息在许多元数据标准中必不可少。
各个学科领域的数据有着不同的特征,元数据对科学数据的描述中需要体现出数据的特有属性, 如地理空间数据的属性需要从标识信息、数据质量信息、空间数据组织信息、空间参照信息、实体和属性信息、数据分发信息和元数据参考信息这7个方面来反映[11],这些内容也正是描述地理空间数据的代表性元数据标准FGDC的内容组成。除地理科学领域外,生物多样性领域的元数据标准有Darwin core[12],生态学领域的元数据标准有XML[13],气象科学领域的元数据标准有CF[14],此外还有专门描述社会科学数据的元数据标准DDI[15],详细内容如表1所示。
由此可见,具体领域科学数据元数据内容十分复杂,元数据对科学数据的描述更为详细,涵盖了数据的生产、加工、存储、发布和使用全过程。元数据的内容涉及了科学数据集物理特性、内容、背景、质量和存储等方面的信息,物理特性包括数据集的作者、大小、维护信息、访问限制等信息,内容信息与科学数据所属领域的本体密切相关,对背景信息的描述向用户提供了科学数据的来源、产生过程等方面信息,通过这些元数据内容,用户可再生产数据。元数据对科学数据的描述角度包括一般描述和专业描述两个方面: 一般描述主要向用户提供数据集的名称、摘要、主题、格式、版本、时间空间等基本信息,而专业描述主要体现在对数据内容、数据质量以及学科情境的描述上。纵观国内外科学数据元数据标准,不难发现,科学数据元数据的内容大致包含了科学数据的标识信息、内容信息、 人员和权利信息、技术性信息、关联信息、生命周期信息等6个方面。标识信息提供了便于用户识别数据的标识符、数据集名称、摘要、关键词、版本、 数据集状态等信息。内容信息体现为数据质量信息、 数据空间覆盖和学科语义信息等。人员和权利信息则反映了科学数据的生产者、责任者等信息。技术性信息包含了数据格式以及使用的参数、模型和测量方法等信息。关联信息则是向用户提供了与数据集有关的科学研究项目、出版物等信息。生命周期信息是反映了数据集时间方面的信息,包括数据内容覆盖的时间信息、数据加工处理的时间信息。
4数据用户关注的元数据内容
由于科学数据元数据发挥的功能是多方面的, 包括数据管理、数据存储、数据发现、数据评价和数据使用等,其中与数据用户关系最密切的功能是数据发现、数据评价和数据使用,因此用户关注最多的主要是那些在他们发现数据、评价数据过程中发挥作用的元数据。
4.1基于数据发现的元数据内容
数据发现是元数据发挥的最基本的功能,用户首先根据自己的信息需求检索元数据,尽管检索的关键词由用户产生,但关键词最终将与元数据的某些内容进行匹配。元数据的内容十分复杂,其中只有一部分内容支持了数据发现的功能,适合用户检索。在用户检索数据、发现数据过程中,可用于检索的元数据元素包括数据集的名称、作者、出版日期、资源链接、数据集摘要、关键词、资源类型、 文件格式、使用限制、时间空间覆盖、与之相关数据集和出版物以及一些重要的时间日期等信息[16]。 这些元数据元素大部分集中在标识信息部分,这部分元数据对科学数据集的基本信息进行了描述,通过这些信息,用户能够对科学数据集获得大致的了解,其中数据集关键词、数据集标题和数据集摘要等内容,不仅仅帮助用户发现数据集,还帮助用户对数据集是否满足需要作出初步的判断。
4.2基于数据评价的元数据内容
用户按照自己设定的条件完成对元数据的检索后,下一步的任务就是对检索到的元数据进行分析和评价,以判断元数据所描述的科学数据是否满足需求。用户以不同的角度判断数据,有的用户倾向于科学数据的采集和加工方法,有的用户则关注于数据获取的难易程度及成本,有的用户关注于数据的更新程度,也有用户关注于数据的质量。总之, 在人们利用元数据对科学数据作出评价时,所采用的标准不同,因此发挥评价功能的元数据并不集中, 而是可能分散在各类元数据当中。对于科学实验数据,用户往往会更关心数据产生的相关方法以及变量和参数等,用户可能会对数据进行验证和分析, 因此描述数据产生方法方面的元数据成为了用户的关注点。对于观察数据,用户关注的是提供描述数据产生的时间和空间,以及数据采集仪器的元数据内容; 而对于统计数据,用户关注更多的是统计机构的权威性和统计数据的可靠性。因此,用户评价数据时,更多的是关注于能反映出科学数据的特性的一些描述,这些描述不仅仅局限于标识信息部分, 更多地体现在元数据对科学数据的专业描述角度上。 以FGDC元数据标准为例,对于没有专业背景的用户,可能会通过元数据标识信息部分的题目、摘要、 关键词等来评价数据集,而对于具有地理知识背景的用户而言,他们对数据集的判断更多地依赖于数据质量信息、空间参考信息、空间数据组织信息等元数据内容,这部分元数据向用户提供了地理空间数据的特有属性方面的描述,为评价地理科学数据提供了更为有力的依据。
可见,元数据的存在为用户发现和利用科学数据提供了便利,元数据不论是从描述信息资源一般特征的角度,还是从描述数据专业情境的角度,都为用户评价和选择科学数据提供了一定的参考。鉴于用户在评价数据时所用的标准并不确定,因此科学数据元数据的内容力图为用户提供尽可能全面的描述,但具体详细到何种程度并不好把握。
5总结与讨论
元数据作为描述信息资源的结构化数据,为了发挥其数据发现与数据再利用的功能,元数据对科学数据的解释与说明尽可能的详细,涵盖了科学数据的产生、存储、加工和使用全过程,向用户提供科学数据全方位的描述,包含了数据的标识信息、 内容信息、时间和空间覆盖信息、人员和权责信息、 关联信息、技术信息等多个方面。相比其他元数据, 科学数据元数据内容复杂得多,许多现行的元数据标准中元数据元素项少则几十个,多达上百项。尽管理论上是元数据越丰富越有利于用户发现和再利用科学数据,但实际上用户的注意力有限,有时候信息量太大反而不利用于用户对数据作出判断,因此有必要分析清楚,如何改进元数据才能使其更易于用户认识和理解。笔者以为可以从以下两个方面考虑: 一是从用户角度分析,分析用户关注元数据的角度,也就是掌握用户判断信息是否相关的标准, 只有结合用户的要求对元数据进行改进,才能充分发挥元数据的功能; 二是借鉴其他领域元数据的实践对元数据内容进行改进,目前在图书馆领域元数据中专门出现了评价类元数据,其内容涉及了同行专家对信息资源的评价、用户使用信息后的反馈与评价信息等,尤其是在教育信息资源方面,用户在评价和选择资源时往往很依赖这些评价类元数据内容,也叫第三方元数据或注释类元数据[17]。而在科学数据元数据中,还没有出现这些内容。实际上, 同行专家评价信息和用户对资源的使用评价,在用户作出选择使用数据前通常也会发挥着一定的作用。 因此,有必要考虑在科学数据元数据中增加同行评议、用户评价和数据使用记录等信息,为用户选择和判断数据提供更多依据。
摘要:元数据以其对科学数据的描述与解释,为用户发现数据和再利用数据提供了方便。详细分析科学数据元数据的功能与内容,重点讨论用户在数据发现、数据评价过程中所关注的元数据内容,并对科学数据元数据内容的改进与完善提出展望。