元数据应用(共12篇)
元数据应用 篇1
摘要:元数据作为存储数据的数据, 在各种数据仓库教材中都涉及到元数据的管理知识, 但是在实际应用中对于元数据的管理却使用的很少, 大多数据仓库开发人员都了解元数据的重要性, 但是在真正应用中却很少使用, 或者说不知道如何构建元数据库, 本文就针对元数据的管理以及在Sql Server 2005中的具体实现。
关键词:元数据,数据仓库,数据模型,程序设计
元数据是整个数据仓库的核心, 它描述了仓库中的各个数据对象, 遍及仓库的各个方面, 同时它在数据仓库的建造及运行中起着极其重要的作用。而元数据大致分为关于数据源的元数据, 数据模型的元数据, 数据仓库映射的元数据以及数据仓库使用的元数据的四个方面类型。
(1) 数据源的元数据。关于数据源的元数据在利用这类元数据时对不同数据源平台上的物理结构和含义是现有系统业务数据源的描述信息。其具体有以下几点: (1) 数据源中所有物理数据结构, 包括所有的数据项及数据类型。 (2) 所有数据项的业务定义。 (3) 每个数据项更新的频率, 以及由谁或哪个过程更新的说明。 (4) 每个数据项的有效值。 (5) 其他系统中具有相同业务含义的数据项清单。
(2) 数据模型的元数据。关于数据模型的元数据是数据仓库管理的基础, 同时描述了仓库中有说明数据以及数据之间的关系。当一些用户提出需要哪些表系统就能从中选出这个表, 这就说明了元数据可以支持用户从数据仓库中获取数据。通过这种关系表用户就能获取很多希望数据。
描述数据仓库中的数据及数据之间的各种复杂关系, 元数据要定义以下内容。数据仓库中描述数据及数据之间的各种复杂的关系, 现定义以下内容: (1) I/O对象:元数据在描述I/O对象的定义、类型、状态以及存档周期都是支持数据仓库I/O操作的各个对象。 (2) 关系:两个I/O对象之间是关联的。这种关联有三种类型分别是一对一、一对多和多对多。 (3) 关系成员:描述每个关系中两个I/O对象的具体角色 (在一对多中是父亲还是儿子) 、关系度 (一对一还是一对多) 以及约束条件 (必须满足还是可选关系) 。 (4) 关系关键字:描述两个I/O对象如何建立关联。每个关系都是通过I/O对象的关键字来建立的, 元数据要指明建立每个关系的相应对象的关键字。
(3) 数据仓库映射的元数据。数据仓库映射的元数据是数据源与数据仓库数据之间的映射, 当数据源的数据项与数据仓库建立映射关系时, 就要记下这些数据项发生的一些转换、变换和加载的过程。就是用元数据反映数据仓库的数据项是从转换、变换和加载过程这些特定的数据源填充的。而转移元数据的数据到数据仓库的目标数据是一件复杂的工作, 其工作量占整个数据仓库的80%。其主要涉及以下两方面: (1) 抽取工作之间的复杂关系。 (2) 源数据与目标数据之间的映射。
(4) 关于数据仓库使用的元数据, 数据仓库使用的元数据时对数据仓库中信息使用情况的描述。数据仓库的用户最关心的是以下两类元数据。 (1) 元数据描述数据仓库中有什么数据, 它们从哪里来, 即如何按主题查看数据仓库的内容。 (2) 元数据提供已有的, 可重复利用的查询语言信息。如果某个查询能够满足他们的需求, 或者与他们的愿望相似, 他们就可以再次使用那些查询而不必从头开始编程。
1 元数据的管理
随着元数据越来越成为公司重要的资源, 就越来越需要完善的元数据管理功能, 包括: (1) 支持企业范围内的体系结构。企业在开发应用程序、封装应用程序、决策支持数据库时, 他们关心的是软件设计与开发、用户接口、操作管理、应用程序内部的消息传递、数据的协同工作能力。所有这些都驱使开发人员去理解各种元数据目录, 以及它们在企业范围内的体系结构的作用。 (2) 基于知识库的方法。元数据一般存储在其特定工具相关的属性知识库中。因此, 企业可以要求提供一种机制, 可以将其特定工具支持的元数据无缝地转移到一个共享的、公共的元数据知识库中。 (3) 配置管理。元数据知识库必须提供标准的配置管理能力, 如注册、退出、版本控制等。还需要提供抽取、修改元数据的定义以及将其定义存到知识库中, 此外, 还必须具有在必要的时候将元数据恢复到某一个前版本的功能。 (4) 支持开放的元数据交换标准。企业内部和外部对元数据的访问导致了对开放的元数据交换标准支持的需求。至少企业元数据应该支持MDIS (元数据交换标准) 。 (5) 动态交换和同步。企业应该采用MDIS标准, 实现动态交换或同步, 否则需要一个开放的元数据交换工具。
2 元数据在Sql Server 2005中的应用
2.1 概念
元数据描述OLTP中的表、数据仓库、数据集市和OLAP多维数据集等对象, 还记录程序引用的对象。
2.2 具体实现和元数据的获取
在Sql Server 2005中一般由数据库系统本身产生元数据, 或者在相应编程中产生元数据, 不需要用户自己创建, 当然用户也可以自己创建。例如在Dot.Net创建多维数据集时, 自动产生XML格式的元数据。
下面介绍如何从Sql Server2005中获取元数据。
(1) 使用系统提供的存储过程和系统函数访问元数据。
系统存储过程与系统函数在系统表和元数据之间提供了一个抽象层, 使得我们不用直接查询系统表就能获得当前数据库对象的元数据。
存储过程如下。
sp_columns返回指定表或视图的列的详细信息。
Sp_databases返回当前服务器上的所有数据库的基本信息。
Sp_fkeys若参数为带有主键的表, 则返回包含指向该表的外键的所有表;若参数为带有外键的表名, 则返回所有同过主键/外键关系与该外键相关联的所有表。
Sp_pkeys返回指定表的主键信息。
Sp_server_info返回当前服务器的各种特性及其对应取值。
Sp_sproc_columns返回指定存储过程的输入、输出参数的信息。
Sp_statistics返回指定的表或索引视图上的所有索引以及统计的信息。
Sp_stored_procedures返回当前数据库的存储过程列表, 包含系统存储过程。
Sp_tables返回当前数据库的所有表和视图, 包含系统表。
(2) 使用信息架构视图访问元数据。信息架构视图功能很强, 它独立于系统视图, 即便系统视图发生改变也不会更改信息架构视图。应用程序可以正常访问信心架构视图。
(3) 使用系统表访问元数据。Sql Server中所有的对象信息都存在系统表中, 可以通过系统表访问元数据。
3 结语
目前, 元数据库的建立主要通过系统自动产生, 然后由用户使用, 用户很少自己创建元数据, 但是随着数据量的增加和数据库设计的复杂性, 以及程序设计的复杂性, 尤其是数据仓库方面, 越来越需要设计人员构建自己的数据仓库。
元数据应用 篇2
DB34 安 徽 省 地 方 标 准 DB 34/ XXXXX—XXXX
农业基础信息数据元 Agricultural Fundamental Data Elements 点击此处添加与国际标准一致性程度的标识(征求意见稿)
-XX-XX 发布 XXXX-XX-XX 实施 安徽省市场监督管理局
发 布
DBXX/ XXXXX—XXXX I 前言 本标准按照GB/T 1.1-2009给出的规则起草。
本标准由安徽省农业农村厅提出。
本标准由安徽省信息技术标准化技术委员会归口。
本标准起草单位:安徽省农业信息中心、安徽省生态农业大数据工程实验室(安徽大学)。
本部分主要起草人:丁作坤、徐超、黄林生、丁晶晶、郑玲、梁苏丹、赵晋陵、翁士状、丁砥、张东彦、曾玮。
DBXX/ XXXXX—XXXX 1 农业基础信息数据元 1 范围 本标准规定了农业基础信息数据元的术语和定义、分类方法与表示规范。
本部分适用于农业基础信息资源的规划、采集、存储、交换、共享与利用。规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T
7408-2005 数据元和交换格式 信息交换 日期和时间表示法 GB/T
19488.1-2004 电子政务数据元第1部分:设计和管理规范 GB/T
18391.1-2002 信息技术 数据元的规范与标准化 第一部分:数据元的规范与标准化框架 3 术语和定义 下列术语和定义适用于本文件。
3.1 基础信息 Basic Information 农业农村活动必要生产要素的信息资源。
3.2 组织机构 Institutional Framework Class 农业农村活动中涉及政府机关、事业单位和企业等信息资源。
3.3 主题信息 Subject Information 按照不同时期不同阶段,农业农村工作重点领域和重点任务实施过程中产生的信息资源。
3.4 生产信息 农业生产环节产生的信息资源。
3.5 服务信息 农业服务环节产生的信息资源。
3.6 监管信息 农业监管环节产生的信息资源。
3.7 流通信息 农业流通环节产生的信息资源。
DBXX/ XXXXX—XXXX 2 3.8 产业信息 农业产业化环节产生的信息资源。
3.9 农村经营信息 农村土地制度、经营制度、产权制度、社会管理等产生的信息资源。
3.10 生态环境信息 以和谐、持续的发展方式的农业活动中产生的信息资源。
3.11 科教信息 农业科教环节产生的信息资源。分类 4.1 基础信息分为农业自然资源、农业业务空间地理信息资源。
4.2 组织机构信息分为政府机关、事业单位、企业、其他。
4.3 主题信息分为现代农业示范区、粮食生产功能区、重要农产品保护区、特色农产品优势区、农业可持续发展试验示范区、面源污染、特色产业扶贫、资源变股权、资金变股金、农民变股民、放管服改革、菜篮子工程、其他。
4.4 生产信息分为种植业、畜牧业、渔业、农机、其他。
4.5 服务信息分为政务服务、科技服务、防灾减灾、金融服务、农业保险、其他。
4.6 管信息分为农业执法、农业综合执法、投入品管理、农产品质量、兽医、其他。
4.7 流通信息分为农产品市场价格、农产品成本收益、农业综合统计、其他。
4.8 产业信息分为休闲农业、农产品加工、农村创业创新、二三产业、其他。
4.9 农村经营信息分为土地制度、经营制度、产权制度、社会管理、其他。
4.10 生态环境信息分为绿色发展、可持续发展、废弃物利用、节水节肥节地节能、其他。
4.11 科教信息分为产业技术体系、科技成果、农民教育、科技人才、其他。表示规范 采用摘要表示的方式定义和描述数据元,包括以下几个属性:中文名称、定义、汉语拼音缩写、数据类型、数据格式、值域、注释。
5.1 中文名称 数据元的中文名称。
5.2 定义
DBXX/ XXXXX—XXXX 3 数据元的解释。
5.3 汉语拼音缩写 数据元的中文名称的汉语拼音缩写。
5.4 数据类型 数据元值的类型。
5.4.1 字符型 string 通过字符形式表达的值的类型。
5.4.2 数值型 number 通过可计算的十进制形式表达的值的类型。
5.4.3 日期型 date 通过CCYYMMDD的形式表达的值的类型,符合 GB/T 7408-2005 规定。
5.5 数据格式 数据元值的表示格式。表示格式如表1。
表1 数据元表示格式表 字符 含义 C 表示数据类型为字符型 N 表示数据类型为数字型 D 表示数据类型是日期型..UL 表示长度不定的文本..从最小长度到最大长度,前面附加最小长度,后面附加最大长度。允许只附加最大长度。
N..p,q 表示数据类型为数值型,最长 p 位,小数点后 q 位(小数点前 p-q 位)。
注 1:
用 C 或 N 加上自然数的方式表示定长。
注 2:
用 D 加 4,6,8 分别表示不同数据格式的日期型数据元,D4 表示 CCYY,D6 表示 CCYYMM;D8 表示CCYYMMDD。
5.6 值域 数据元的有效值域和允许对该值域内的值进行有效操作的规定。
值域是指数据元可以取值的范围。
5.7 注释 对该数据元的其他相关说明,包括需要遵守的标准和规范。
元数据应用 篇3
【摘 要】 本论文针对海量移动学习资源元数据的分散,难以检索的难题,提出基于自组织特征映射网络 ()SOM的移动学习资源元数据聚类萃取算法,该算法将传统的数据库元数据进行合理的量化处理,形成表征移动学习元数据的四元组(资源编号,科目等级,学科等级,资源相似度),并且根据用户需求,通过调整权值四元组后三个个关键字所占比例,实现扩大或者缩小范围。最终利用 Matlab以高中物理的移动学习元数据为例实现该算法的仿真,进行多赋值聚类,其聚类萃取资源的准确度较高,能够满足一般用户对该移动学习资源的需求。
【关键词】移动学习 元数据萃取 神经网络 自组织特征映射网络 ()SOM
【中图分类号】 O453【文献标识码】 A【文章编号】1672-5158(2013)07-0024-02
1 研究背景介绍
移动学习是指依托目前比较成熟的无线移动网络、因特网以及多媒体技术,学生和教师通过利用目前较为普遍使用的无线设备(如手机、PDA、笔记本电脑等)来更为方便灵活地实现交互式碎片式教学活动,以及教育、科技方面的信息交流。 [1]随着移动互联网设施基础逐步完善和移动互联网产品的层出不穷,移动学习的优点越来越被人们关注。目前国内很多家高校和公司都加入了移动学习的研究,并且取得了比较好的成果。[2][3]本论文提出的自组织神经网络算法来对移动学习元数据数据库进行高效的聚类萃取,从而使得资源更加结构化,相关性更强,方便用户检索。
2 基于自组织特征映射网络 ()SOM的元数据挖掘模型
2.1 自组织竞争神经网络的知识介绍
由于移动学习资源的数据量比较大,每个数据量包含的信息较多,并且存在学科交叉问题,故在进行移动学习资源元数据萃取分类时,必须通过对这一客观事件的反复观察、分析和比较,自形查找出其内在的规律,并且对具有内在联系特征的事物进行正确的归类。
2.2 移动学习资源元数据量化
即是建立移动学习资源元数据语义关系(同义)的知识库。移动学习资源元数据语义关系知识库,采用 WordNet的基本思想,利用关系表示词汇语义,使用同义词集代表概念,并且在概念间建立不同的关系指针,表达不同的语义关系。[4]本文提出语义知识库的结构,包含:科目编号,学科等级,<章节号——章节主要内容关键词四个部分。
2.3利用自组织竞争神经网络进行移动学习资源的元数据聚类萃取
⑴数据预处理及网络初始化
1. 数据预处理
由于进行资源聚类时,用户可能会关注与关键字密切的资源,或者更可能像搜索与该关键词相关章节内容的介绍,故该论文又设定一个元数据量化资源组的权值函数:
(0.75,0.15,0.1)1(0.5,0.45,0.15)2(0.45,0.45,0.1)3
式中 ( , )w i j表示输入层的 i神经元和映射层的 j神经元之间的权值
⑷选择和权值向量的距离最小的神经元
计算并选择是输入向量和权值向量的距离最小的神经元,如: ( )d j为最小,称其为胜出神经元,记为 *j,并给出其邻接神经元集合。
⑸权值的学习
胜出神经元和位于其邻接神经元的权值,按下式更新:
⑹是否达到预先设定的要求
如达到要求则算法结束;否则,返回到步骤(2)。进行下一轮的学习。
3 仿真结果及算法评价
由上表可以清晰的看出:组1为 (1, 2,3),组4为 (4),组10为(5),组30为 (6),组36组 (7,8, 9,10),40组 (11)。其分组的正确率高达:85.1%。
由上述的仿真结果,该论文得出结论改进后的自组织竞争神经网络算法能够进行有效的自适应分类,从而高效的进行关键字元数据萃取的功能。但它仍存在一些问题,第一,学习速度的选择使其不得不在学习速度和最终权值向量的稳定性之间进行折中;第二,有,一个神经元的初始值向量离输入向量太远以至于它从未在竞争中获胜,也从未得到学习,这将形成毫无用处的“死”神经元。
4 结束语
目前,很多高校和公司开发出了移动学习(尤其是智能手机)的应用软件,并且提出较好的处理移动学习资源的处理方法[6],为用户的碎片式学习和随时随地学习提供了一个良好的环境。本论文提出的算法,很适合应用在这些碎片资源和微型学习资源的萃取,并且可以为这些应用系统或软件提供大量的聚类资源,从而使得用户能够获得更好的用户体验。
参考文献
[1] http://baike.baidu.com/view/3003454.htm百度百科 移动学习2012-12-7
[2] 叶成林 徐福荫 许骏 移动学习研究综述 电化教育研究 2004 No.3
[3] 陈伟超 国内移动学习研究现状及发展建议[J].中国电力教育,2009 No.9
[4] 词汇语义知识库浅述 刘兴林 福建电脑 2009 No.9
[5] MATLAB神经网络应用设计 张德丰 机械工业出版社 2009-01-01
元数据应用 篇4
关键词:元数据,数据共享,医学综述
1、元数据的基本概况
元数据词最早出现于美国航空航天局的《目录交换格式》手册中[1], 被译为“元数据”或“诠释数据”。其英文定义可理解为“描述数据的数据”或“关于资源的结构化数据”。对于元数据的具体含义虽有不同解释, 但一般认为元数据是用于提供某种资源的有关信息的结构数据 (如题名、外在表征、位置等) 。元数据最早主要指网络资源的描述数据, 常用于网络信息资源的组织和利用[2]。元数据的目标主要有两个方面:一是简单高效的描述、保存、组织和管理大量信息资源;二是使信息资源的检索、发现、定位和共享更加便利与高效[3,4]。
2、元数据的结构
2.1 内容结构
用于定义元数据的构成元素。包括:描述性元素、技术性元素、管理性元素和复用元素等[5]。元数据内容一般分为三层, 即元数据子集、实体和元素。元数据元素是元数据最基本的信息单元, 实体是同类元数据元素的集合, 子集是相互关联的元数据实体和元素的集合。在同一个子集中, 实体可以有简单实体和复合实体两种, 简单实体只包含元素, 复合实体既包含简单实体又包含元素, 同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系[6]。
2.2 句法结构
用来定义元数据的格式结构以及如何描述这种结构。如元素结构描述方法 (如XML Schema, RDF等) , 结构语句描述语言 (如扩展巴科斯范式标记法等。此外, 句法结构还可以定义元数据与被描述数据对象的捆绑方式。
2.3 语义结构
用于定义元素的具体描述方法。包括元素本身有关属性的定义, 一般采用IS011179标准, 《数据元素的规范和标准化》) ;元素内容编码规则定义, 编码规则可以是特定标准, 或最佳实践 (best practice) 或自定义的描述要求 (in.smlc曲n) [7]。
3、元数据的类型
按组织信息资源的功能, 元数据可分为以下类型:描述型元数据、结构型元数据、存取控制型元数据和评价型元数据。美国Getty信息研究所的Anne J.Gilliland—Swet—land根据元数据功能性将元数据划分为管理型元数据、描述型元数据、保存型元数据、技术型元数据和使用型元数据[7]。英国图书馆及信息网络化办公室将在结构和语义方面逐渐完善的一系列元数据分为三组:简单格式、结构化格式和复杂格式[3]。此外, 还可以按照元数据的内部结构、应用领域、编码标记方式、开发设计角度、通讯协议等方面进行分类[8]。
4、元数据特点和作用
4.1 著录描述
元数据对数据单元进行详细、全面的描述。元数据元素包括内容、载体、位置与获取方式、制作与利用方法等方面信息。
4.2 识别和确认
元数据对信息资源进行个性化描述, 将信息资源中的重要信息抽出并加以组织, 赋予语义并建立关系, 提供识别和确认信息资源的基础, 从而有利于用户识别和确认所需要的信息资源。
4.3 评估与选择
根据元数据所提供的信息, 参照相应的评估标准, 结合使用环境和实际需要, 用户可以对信息资源作出取舍, 选择适合自己使用的资源。
4.4 检索与定位
元数据通过在描述数据中提供检索点, 实现对信息资源的检索和利用。由于元数据同时包含信息资源位置方面的信息, 因此通过元数据可确定资源的存储位置, 从而使用户获取所需要的信息资源。
4.5 资源管理
元数据支持对资源利用和管理过程的政策与控制机制的描述, 包括权利管理、电子签名、使用管理、支付审计等方面的信息。
4.6 信息资源保护与保存
元数据支持对资源进行长期保存, 包括详细的格式信息、制作信息、保护条件、转换方式、保存责任等内容。
4.7
资源共享元数据可整合异质的信息资源, 提供分布式信息资源共享[9,10]。
5、元数据的互操作
5.1 元数据映射
所谓元数据互操作是指多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。元数据映射指两个元数据格式间元素直接转换, 或通过中介格式进行转换。这种途径转换准确、转换效率高, 但在面对多种元数据格式并存的开放式环境中此法应用受到限制。
5.2 标准描述方法
其过程是建立一个标准的资源描述框架, 用这个框架来描述所有的元数据格式, 只要系统能够解析这个标准框架, 就能解读相应的元数据格式。通用标准是可扩展标记语言和资源描述框架, 由于两者在应用中各有优缺点, 所以有人提出将XML和RDF模式相结合的元数据互操作机制[11]。
5.3 元数据复用
通过在一个元数据格式中, 引用其它元数据格式的部分元素或属性, 用来描述复杂资源, 从而扩展元数据格式适用范围, 以促进元数据的相互转换。
5.4
元数据开放搜寻利用元数据来进行资源搜寻和发现时, 可以采取元数据开放搜寻机制来实现元数据互操作。
5.5 元数据语义转换
通过元数据语义定义和元数据概念集, 支持两个元数据格式间元素通过语义分析进行转换。
5.6 数字对象方式
通过建立包含元数据及其转换机制的数字对象, 来解决元数据互操作。
6、元数据标准
6.1 定义
元数据标准是指描述某些特定类型信息资源的规则集合, 一般包括语义层次上的著录规则和语法层次上的规定。主要用于数据发布、数据集编目、数据交换、网络查询服务等, 同时也是数据集整理、建库、汇编、发布的依据。元数据标准一般具有适时、灵活、可扩展、易兼容和互操作性。
6.2 结构
元数据标准体系整体上采用层次式的树状结构。即先由管理部门制定根级元数据标准, 然后各学科领域根据根级元数据标准制定各自学科的领域元数据标准。由于相同层次上元数据标准的父标准都是统一的, 所以很容易对数据进行整合, 并保证元数据的通用性, 互操作性, 也保证专业元数据标准可以为自己专业服务。通常一个元数据标准主要包括:前言、适用范围、参考标准、术语、元数据分级、元数据内容及定义、元数据扩展原则及相关附录等。
6.3 制定原则
元数据标准的制定须遵从一定的原则, 即标准要支持元数据在行业或其他领域的应用;标准以提供数据的轮廓为目的;标准要提供一个实体与元素集, 并定义元素的性质 (如必选, 一定条件上可选及可选等) 。元数据标准定义的对象是数据, 而非定义与数据相关的计算机系统, 传输手段和信息表现方式等。
6.4 国内外应用的元数据标准
目前有几十种元数据标准, 这些标准可简单划分为两大类:一类是针对互联网上信息资源的, 典型的是都柏林核心元数据标准;另一类是针对行业的, 如美国联邦地理数据委员会地理空间元数据内容标准等[4,6]。
7、元数据技术在科学数据共享中的应用
7.1 元数据系统的组成
元数据系统主要由三部分组成:元数据编辑软件, 用于编辑生成符合特定元数据内容标准规范的元数据文档;元数据库系统, 由元数据库维护平台和元数据服务器两部分组成, 用于元数据的管理、维护、网络发布;元数据网关, 用于实现元数据的互联网发布, 代理用户对多个元数据发布服务器的访问。
7.2
元数据系统对科学数据共享的作用包括规范元数据;发布共享信息;促进元数据管理;减少重复生产和促进科学数据共享等。
7.3 元数据共享体系的建立
首先, 各科学数据提供机构建立自己的元数据系统, 然后, 将各参与机构的元数据系统的网关逐级联接, 就形成了元数据共享体系。在这个体系中, 网络用户可以通过任意一个元数据网关查询到所有在线元数据库中的元数据记录, 从而实现元数据共享。最后, 为实现科学数据的共享和交换, 科学数据提供者可以根据自身条件和实际需要, 建立相应的科学数据交易系统, 以实现科学数据共享。
8、元数据在医学科学数据共享中的研究进展
8.1 国外
当前在医学领域有多种元数据方案并存, 而这几种元数据方案都是基于Dc元数据标准。医学核心元数据方案 (Med。ical Core Metadata, MCM) 。该方案是由美国完成, 它是基于DC的医学核心元数据集, 主要用于描述和组织网络医学信息资源。MCM继承DC的语义及语法结构。为适应对医学信息资源的组织和描述, MCM在DC基础上进行扩展。主要体现在两个方面:McM—MeSH Term表和MCM—Resource Type表。MCM—MeSH Term表采用MED—LINE数据库中的医学主题 (MedicalSubjectHeadings, MeSH) ;MCM—Resource Type表是为适合网络医学信息资源的新类型, 在原出版物类型基础上扩展而来的, 共有19项, 其中新增类型有主页、文摘、新闻、图像、视频、音频、软件、病人教育和论坛等。此外, McM采用能够被网络系统识别和传递的超文本标记语言HTML予以标识, 主要使用HTMI/Meta元素, 用以标记关于资源整体的有关信息。法国医学资源元数据叫岫, 是由法国Rouen University Hos.pital (RUH) 发起, 于1995年实施, 主要用于描述和索引法语网络医学信息资源。法国医学资源元数据的设计思想与MCM基本一致, 即基于DC元数据集和MeSH词表来组织医学信息资源。在医学资源类型描述控制方面, 扩展MEDLINE出版类型列表, 根据网络医学资源特性增加一些新的资源类型。EBM元数据方案的特点是:提供原始研究的结构式摘要;除MeSH主题词表以外, 提出EBM实践中作为重要因素 (研究类型、临床展望) 的另外两个编码体系;提出EBM元数据用于因特网资源的可能性。它采用基于XML/RDF的可扩展标记语言, 面向内容描述, 文档结构灵活, 自定义标记, 增加了元数据的互操作性滔]。元数据及其技术在科学数据共享中的应用典范是“美联邦科学联盟元数据通道, 该元数据整合中心集结各个学科领域的30个数据库和1 700多个科学网址, 其中与医药卫生有关的数据库有5个, 用户发一个检索指令, 可以同时检索分布于美国的科学数据信息。其目的是为从事科学工作的公民及任何对科学有兴趣的公众, 提供跨部门的检索通道来查找和使用政府提供的有关科学技术的信息资源。
8.2 国内
我国是一个国有科学数据大国, 政府拥有的科学数据遍及科学研究的各个领域, 其中在医学研究领域, 已积累大量的基础、临床、预防和中医药方面的科学研究和观察数据, 如中国医学科学院建立的基础医学数据库 (包括中国人生理常数数据库、中国生物医学数据库、基因数据库等) 和临床数据库 (包括心血管病防治数据库、肿瘤数据库、高血压数据库和原发性骨质疏松症与老年性疾病数据库等) , 其中基础医学数据库的数据量已达到10GB左右;中国疾病预防控制中心 (CDC) 建立的数十个同规模的预防医学数据库, 其数据总量超过300GB;中国人民解放军总医院存有30多万份电子病历的电子病历数据库;中国中医研究院建立的中药科技基础数据库、古代本草文献数据库、针灸文献数据库等多个数据库, 其累积数据量已达到25GB, 并且每年新增与更新数据约4G。随着医学发展, 更多医学科学数据在不断产生, 这些医学科学数据形成我国医学科学研究的重要科学资源。但是由于国内还没有制定专门针对医学科学数据共享的标准和构建医学科学数据共享体系, 所以无法实现这些医学科学数据资源的检索、选择、交换、共享和有效利用。为实现医药卫生科学数据共享, 充分发挥其应有的效益, 2004年4月启动“医药卫生科学数据管理和共享服务系统”项目, 其总体目标是建立基础医学、临床医学、公共卫生、中医药学、特种医学、药物与创新药物6个科学数据中心, 并利用互联网技术将这6个科学数据中心连接起来, 构成一个物理上分布、逻辑上统一的医药卫生科学数据管理和共享服务网。主要工作包括整合现有医学科学数据资源, 建立50个主体数据库;制订数据共享规范及元数据标准;创建医药卫生科学数据目录查询系统等。现在国家信息中心正与相关单位协作制订有关科学数据共享工程的系列技术标准, 包括:《科学数据共享元数据标准》、《科学数据共享概念与术语》、《数据模式描述规则和方法》、《元数据标准化基本原则和方法》、《元数据检索和提取协议》等。目前中国医学科学院、中国人民解放军总医院、中国中医研究院、中国疾病预防和控制中心等机构已联合制定《医药卫生科学数据共享元数据标准》。
参考文献
[1]Cathro W, 袁芳, 苑二坡.元数据研究概述[J].现代情报, 2004 (4) :195—198.
[2]马费成.信息资源开发与管理[M].北京:电子工业出版社, 2004:122—129.
[3]张敏, 张晓林.元数据的发展和相关格式[J].四川图书馆学报, 2000 (2) :63—70.
[4]冯项云, 肖珑, 等.国外常用元数据标准比较研究[J].大学图书馆学报, 2001 (4) :15—21.
[5]张晓林.元数据研究与应用[M].北京:北京图书馆出版社, 2002:11—12.
[6]王国复, 吴增祥, 臧海侍.气象元数据标准与系统建设[A].见:孙九林, 施慧中.科学数据管理与共享[M].北京:中国科学技术出版社, 2002:187—188.
[7]秦笃烈.从VHP看医学科学数据共享政策的重大意义和实施[A].见:数字化可视人体国际研讨会论文集[C].Chongqing:International Workshop011Visible Human, 2003:91—96.
[8]李郎达.Metadata初探[J].情报科学, 2001 (6) :58—61.
[9]刘嘉.元数据:理念与应用[J].中国图书馆学报, 2001 (5) :32—36.
[10]高建勋, 吴开华.元数据发展中的热点问题讨论[J].图书馆, 2002 (5) :41—44.
[11]盛小平.元数据的互操作研究[J].图书馆, 2002 (2) :30—32.
浅谈地理信息行业元数据的管理 篇5
对数据仓库、元数据等进行了简单介绍,并针对地理信息系统中元数据的作用、内容进行了阐述,在此基础上,对地理信息系统中元数据的管理方法提出了建议.
作 者:刘越 刘国忠 LIU Yue LIU Guo-zhong 作者单位:刘越,LIU Yue(吉林省地理信息工程院,吉林,长春,130051)
刘国忠,LIU Guo-zhong(国家测绘局第二大地测量队,黑龙江,哈尔滨,150086)
档案元数据核心集系统的设计研究 篇6
摘要:档案元数据核心集是依据魂系历史主义思想,从档案历史联系的三个维度(来源、事由、时间)提出的,它既是对档案元数据标准的一种精简,又承载着记录社会实践活动的历史使命。为了更好地记录和管理档案元数据核心集,构建档案元数据核心集系统势在必行。本文以档案元数据核心集系统的设计要求为基础,提出系统的整体设计框架,依据档案元数据核心集系统的设计原则,归纳档案元数据标准,最后介绍元数据的著录流程,并强调对著录后元数据进行动态维护的重要意义。
关键词:档案元数据核心集档案资源整合档案管理系统
Abstracts:Archive metadata core set is come from three dimensions of the archival historical rela? tion,which is based on the thought of historical spir? it, it is not only one compact form of archive meta? data standard, but also bearing the history mission of recording the social practice activity. In order to better record and manage the archive metadata core set , it is imperative for building the system of archive metadata core set. This article is based on the design requirement of archive metadata core set system, put forward the overall design of the system framework, according to design principle of archive metadata core set, summarized the archive metadata criterion, lastly explain the record work? flow of archive metadata, and emphasize the signif? icance that it is important to dynamically maintain the existing metadata.
Keywords: Archive metadata core set; Archive resource integration; Archive management system
在档案管理中,元数据是描述档案资源的内容、结构、背景环境及其管理过程的数据。它既是保障电子档案原始性、真实性、完整性、一致性、关联性、可读性和长期保存性的基础,又是档案资源整合和信息集成共享体系中必不可少的工具。[1]
目前,虽然许多元数据标准被广泛应用于图书、情报、档案等信息领域,但是相似的元数据标准被应用到不同的文献领域却显得较为泛化。从本质上看,档案与图书、情报有所不同,它的研究对象、覆盖范围、管理方法以及服务模式与图情管理存在较大差异,使得将已在图情领域成功应用的元数据标准直接移植到档案管理中显得不切实际。在这种情况下,档案界亟需建立属于本领域的元数据标准,而这就需要结合历史主义精神,[2]从档案的本质属性中挖掘出档案所特有的元数据标准,即档案元数据核心集。
在此基础上,笔者提出档案元数据核心集系统的概念,简单来说,它是一种面向档案元数据核心集管理的应用系统。即通过构建档案元数据核心集系统,赋予档案元数据核心集以生命空间,发挥档案元数据核心集的作用,客观、真实、完整地记录档案历史联系,揭示档案内在的联系,实现档案记录历史的功能。可以说,建立档案元数据核心集系统,一方面,可以使用户通过系统提供的人性化界面对元数据进行操作,实现用户与元数据的直线通话,降低元数据的操作门槛;另一方面,系统通过科学合理的设计,能够最大限度地发挥档案元数据核心集的记录功能,承载档案的历史使命。它既是对档案元数据核心集理论的一种应用和实践,又是对档案元数据核心集理论的一种验证。所以,设计并实施档案元数据核心集管理系统,不仅具有实践的应用意义,而且对档案界元数据的理论研究具有促进作用。
一、档案元数据核心集系统的设计要求
档案元数据核心集系统,是以对档案元数据的捕获和著录为基础,以文件的整个生命周期为有效期,以信息挖掘与资源整合为技术手段,以输出全面、准确、关联的档案信息为目标,以纸质档案与电子档案为管理对象而实施的全过程管理系统。
经过深入分析,档案元数据核心集系统需要满足以下要求:一是系统需要针对不同类型的用户设计不同的元数据项目,并在这些用户完成各自元数据著录之后,将所有的元数据组合起来,形成最终的档案元数据核心集。因为档案管理本身就是一项复杂的系统性工作,形成档案的文书部门或档案室是无法单独完成档案元数据的全部著录任务的,这就要求文书部门、档案室、档案馆协同合作来实现元数据的著录。二是系统在元数据著录方式中应采用人工手动著录和系统自动著录相结合的方式,部分描述型档案元数据可由人工进行著录,而部分管理型元数据(如文件的生成时间、归档时间、借阅情况等),可以由系统根据对档案的跟踪实现自动著录。三是系统元数据应具有较强的扩展性,由于元数据标准不是一成不变的,这就需要系统动态地添加新的元数据,并将新的元数据注册到系统中,使系统在管理元数据方面更加灵活。四是系统需要为元数据提供存储空间,来实现元数据的导入导出功能和电子档案的封装功能。这样既可以实现对元数据及电子档案的永久保存或异地备份,又可以为今后系统之间进行数据交换或资源共享提供数据接口。五是系统需要设计一些管理型元数据,用来监控系统中电子档案在其生命周期内的所有动态,从而保障电子档案的真实性和完整性。例如可以利用电子档案的操作记录和数字签名等管理型元数据来检测电子档案是否被恶意篡改。
二、档案元数据核心集系统的总体设计框架
基于对档案元数据核心集系统的需求导向,系统的总体框架(如图1所示)可以分为数据层、用户层、业务层、应用层和存储层。其中,数据层是整个系统的基础,并贯穿电子档案管理的整个生命周期,原因在于用户层、业务层、应用层、存储层各自的功能都是基于对元数据的获取、解析和应用来实现的。
(一)数据层
数据层主要用来建立档案元数据的模型。所涉档案元数据包括核心元数据和扩展元数据,核心元数据是系统中不可缺少的档案元数据,而扩展元数据则是根据额外需求补充添加的元数据。在系统的具体设计中,必须对元数据进行明确的分类和定义,包括元数据描述、元数据结构、元数据功能和元数据关联。
(二)用户层
用户层主要是指系统的使用者。它是档案元数据著录的主要参与者,也是该系统的服务对象,所以系统应主要围绕用户层的需求对数据层、业务层、应用层和存储层进行功能设计。在用户层中,按照角色的不同,可以分为文书部门、档案室、档案馆和档案利用者。这些不同角色的用户可以根据自身权限,通过业务层或应用层来实现工作职责,同时享有对档案元数据的获取和利用。
(三)业务层
业务层涵盖了档案管理的各项功能。从文件的创建开始,业务层就开始将档案的元数据著录到系统中,此后经过对文件的修改、移交、接收、鉴定、归档等过程而形成了档案,再由档案管理部门对档案进行整理、保管、监控、统计和开放利用,之后由档案利用者对档案进行利用和反馈,最后由档案管理部门对档案进行鉴定和销毁。在这一完整的过程中,业务层始终需要动态地将元数据著录到系统中。
(四)应用层
应用层侧重对系统底层操作的实现,它是业务层得以实现的一种功能封装和技术支持,同时也是对业务层的一种功能扩展。一般来说,它包括元数据的注册、元数据的解析、元数据的封装、数字签名与签名校验的实现、文件关联的建立方式、数据交换的应用接口等。
(五)存储层
存储层是为元数据及电子文件的永久保存而设计的。它提供关系型数据库、XML文件和封装后的电子文件三种存储方式。其中,关系型数据库用于存储系统中著录的元数据,在数据检索时能够体现较快的响应速度。缺点是数据的存储与读取依赖数据库平台,脱离数据库平台后,数据将无法被识别。XML文件,用于存储系统导出的元数据,它属于国际通用的标准,具有较强的数据描述能力,同时不依赖任何平台。缺点是检索速度慢,只能存储文字,不能存储电子文件的附件,一般应用于元数据信息交换的中间组件。封装后的电子文件,将电子文件附件和元数据打包进行存储。优点是将电子文件的全文和元数据完整地存储下来,缺点是不易被其他系统识别。一般应用于电子文件及元数据的永久保存和异地备份。
三、档案元数据核心集系统的数据标准
(一)档案元数据核心集系统的元数据设计原则
通过对档案元数据核心集系统的整体分析,可以看到元数据模型的建立是系统正常运行的前提,而对元数据模型的描述和功能定位也直接牵动着档案资源建设、档案信息整合和档案利用服务的命脉。因此在创建档案元数据时,需要遵循以下原则:
1.尊重档案的历史原则。历史原则是历史主义精神[2]的一种表现形式,即尊重历史、尊重客观、尊重整体联系或有机联系。也就是说在元数据的设计中,既要客观真实地记录历史事件,又要通过对元数据的设计来实现档案文件内部的关联,并将隐藏在文件内部的联系通过可视化的描述或可被理解的形式展现出来。
2.注重文件前端控制和全程管理的原则。元数据的著录工作不是一蹴而就的,而是在文件生命周期内的不同阶段分步著录的。注重文件的前端控制要求文件在产生时就开始对元数据进行著录,而不是当文件归档后成为档案时才对元数据进行著录。文件的全过程管理则要求档案在未被鉴定销毁之前,系统应该一直利用元数据来监控档案文件的运行状态。
3.坚持元数据标准化、扩展性和互操作性。元数据标准化是指档案元数据的建立并不是凭空而来的,而是建立在参考国内外档案元数据标准的基础上提出符合档案元数据管理的标准。扩展性则是指元数据的设计需要具有动态扩展的功能。互操作性是指在设计元数据时,要考虑到不同系统的数据交换问题,通过建立不同元数据的映射关系,来实现系统之间的数据交换和信息共享。[3]
(二)档案元数据核心集系统的元数据标准
档案元数据核心集系统的元数据包括核心元数据和扩展元数据,如图2所示。其中,核心元数据应遵循档案的历史原则,从档案的本质出发,依据档案历史联系的三个要素(来源、事由、年代),将核心元数据集通过三个维度(来源维度、事由维度、年代维度)展现出来。可归纳为27项元数据:来源标识、来源名称、来源类型、全宗号、全宗名称、来源关联标识、来源关联关系、来源关联程度、事件标识、事件参与者、事件动作、事件开始时间、事件结束时间、事件环境、事件起因、事件经过、事件结果、事件关联标识、事件关联关系、事件关联程度、年代标识、年代开始时间、年代结束时间、重要时间点、年代关联标识、年代关联关系、年代关联程度。另外,扩展元数据则侧重对电子档案的管理功能进行描述,分为描述型和管理型元数据,应遵循文件的全程管理与元数据的扩展性等原则,便于系统实现对档案的全程监控及对元数据的互操作等功能。可归纳为12项元数据:文件题名、保管期限、密级、档号、关键词、责任者、分类号、文件权限、存储地址、电子文件、文件属性、数字签名。
四、档案元数据核心集系统的著录及维护
(一)档案元数据核心集系统的著录
元数据的著录工作不能完全依靠档案形成部门实施,依据文件运动周期理论,元数据的著录应是伴随文件的生命周期呈现出一种实时的、动态的著录过程,这就需要文书部门、档案室、档案馆协同参与,并依据档案的文件级、案卷级、全宗级、全宗群四个形态进行分层级著录。其著录流程是:首先,由文书部门将各种事件、活动记录下来形成文件,按照事由原则将属于同一事件的文件组成案卷。同时完成事件相关元数据的著录,并将案卷移交至档案室。其次,档案室根据来源原则,将不同立卷部门形成的案卷分别归置到不同的全宗下,同时完成全宗相关的元数据著录,并将不同全宗的档案归入档案馆。最后,由档案馆综合参照事由原则、来源原则和年代原则,建立不同的事由全宗、来源全宗和年代全宗,最终形成全宗群。并通过对关联元数据的定义和著录,实现文件与文件、案卷与案卷、全宗与全宗之间的内在关联,使档案馆资源成为一个内在相互关联的全宗群。如图3所示。
(二)档案元数据核心集系统的维护
档案元数据著录的最终目标是通过元数据建立文件之间的内部关联,使档案资源得到有效整合,为档案利用提供优质信息。利用元数据实现文件内部关联是通过档案管理者对元数据著录来实现的,其著录项一般包括关联文件的标识、文件之间的关联关系及关联程度,这些元数据的著录大多是档案管理者根据自身工作经验判断而生成的,具有一定的主观性,在某种程度上影响了文件关联的准确性,所以文件之间的关联性是否客观真实还要放到档案利用中去检验。档案管理者应该根据用户对档案利用的反馈信息,结合对文件本身的内在关联进行综合考虑,不断调整或更新文件之间关联的元数据,客观地揭示档案文件内部的关联。
档案资源整合与档案利用是相互推动、相互促进的,良好的资源整合可以为档案利用提供优质的信息,而通过对档案利用的准确评价,又可以更好地揭示档案文件内部的关联性,从而进一步优化档案资源整合。所以我们在档案管理中,除了要重视文件的前端控制以外,更要意识到档案利用的信息跟踪及后端反馈对档案元数据揭示的重大意义。
*本文为2015年度教育部人文社会科学研究项目“‘魂系历史主义的档案元数据核心集的构建研究”(项目编号:15YJC870007)的阶段性研究成果之一。
注释及参考文献:
[1]金更达,何嘉荪.档案信息资源集成管理中的元数据问题及对策研究[J].中国图书馆学报,2006(4):56-59.
[2]黄霄羽.魂系历史主义——西方档案学支柱理论发展研究[J].档案学通讯,2004(1):57-60.
探讨视频元数据在服装方面的应用 篇7
目前, 服装视频在元数据方案的设计工作上一般分为20个元素, 而根据元素在描述内容层面的异同, 还可以把“资源格式”归结到结构性的元数据中, 把“版权人”与“编目记录”归结到管理性的元数据上, 而其他剩下的17种元素则可以归结到描述性的元数据里, 因此也可以说具有“三大类”。下面以20种元素为独立单位进行简要的列举, 并作出服装视频元数据设计方案列表。
2 结构性元数据
资源格式, 一般指的是服装视频的参数, 其中主要有媒体的格式、资源大小、码流以及持续时间等。著录时, 计算机系统会自动的提取相关参数与填写。
3 管理性元数据
管理性元数据主要有两种, 一是版权人, 其一般指的是服装视频资源版权的所有者。著录时, 要严格规范。例如, 惠州市西湖服饰有限公司等。一是编目记录, 其一般是对编目情况进行的记载, 主要有编目人与编目时间、修改人与修改时间等组成。著录时, 系统会自动的填写。
4 描述性元数据
把描述性数据进行细分还可以分为自有被动选择与人为选择。
4.1 自有被动选择
包括日期、关联、文化、材料、工艺、发布地点、来源以及语种等, 其中, 日期一般指的是时装活动发布时的日期与服装视频的创建日期等。在著录的工作中, 可以运用ISO8601的标准格式, 而发布日期则靠编目人员进行著录, 创建日期一般是计算机系统自动的填写。关联一般指的是服装视频资源以什么格式转换的。文化主要指服装视频中所进行展现的服饰文化, 其中一般都包括民族、国家以及习俗等多方面。例如, 西装、唐装以及日本服装等。材料一般是指服装所运用到的面料, 主要包括棉布料、丝绸以及麻料等全部的服装材料。其进行著录时, 可选用下拉列表式来选择。工艺一般指的是视频内服装的制作工艺, 主要包括针织、编织、刺绣、手工等相关元素。对其进行著录工作时, 也可以选用“材料”式的下拉列表式。发布地点主要指的是时装在发布活动上选用的地点, 在著录的工作中, 可以直接著录城市的名称。
4.2 人为选择
包括名称、创建者、其他责任者、主题、描述、适用范围以及标识符等。其中名称一般是指文件名称、服装节以及品牌等元素的修饰词, 文件名称顾名思义是指视频文件的总名称, 一般情况下都会以其来进行著录工作, 如果出现视频文件没有篇排名称时, 编目人员要在符合视频文件内容的前提下进行自由拟定, 并把编目人员姓名列入描述项中。创建者一般指的是视频文件的创建人员或者责任人员, 而相关人员主要是服装设计人员与利用视频进行服装教学工作的主讲人, 如果出现责任人较多的现象, 可以重复的著录。例如, 惠州工程技术学校 (西湖校区) 服装设计XX班。其他责任者一般指创建者与主要责任人之外的但又与视频文件有密切关系的人员或者单位, 而相关人员主要有表演模特与其他创建者所在的单位等, 如果有多个其他责任人也可以重复的著录。描述一般是指对服装视频的内容进行简要说明, 而在其他元素中不能对资源充分说明或者缺少说明的事项都可以在“描述”中进行说明。在著录的工作中, 出版者要以规范的名称进行著录。标识符一般指的是资源唯一确定的标识。著录时, 要同一样的资源标识符URI。
5 结语
综上所述, 本文只是对服装视频元数据的相关要素进行简要列举, 希望能为我国相关人员在设计上提供依据资料。
摘要:近几年以来, 随着我国图书馆数字化与信息化工程建设不断的深入与发展, 视频资源数字化也逐渐的被抬上研发的台面, 而对于服装教学学院来说, 视频资源作为教学工作上的一种重要的辅助手段, 越来越成为现代化教学与学习工作的重要组成部分。本文主要从服装视频元数据在方案的设计上进行探讨, 以期能为相关教学与学习提供一份浅陋的参考资料。
关键词:服装,视频,元数据,设计
参考文献
[1]陈任.基于视频元数据的视频增强方法及应用[J].系统仿真学报, 2012.
元数据标准MODS的发展及应用 篇8
到目前为止, 描述图书馆资源的元数据标准主要由设计于20世纪60年代的MARC (Machine Readable Cataloge) 担当。人们普遍使用的MARC格式虽然产生比较早, 著录格式也修改得越来越完善, 但MARC格式过于复杂、繁琐。随着现代信息技术的发展和普及, 为了方便人们通过网络来直接存取图书馆资源, 数字图书馆的建设被提上日程, 而其中的元数据方案多采用DC (Dublin Core) 。尽管DC较为简单, 著录方式也较为容易, 但在应用过程中遇到了不少问题, 难以满足图书馆文献著录的需要。同时, 用DC描述Web资源中多种多样的资源类型还存在许多有待解决的问题。MODS就是针对DC和MARC描述图书馆资源存在的不足而开发出来的。
1 MODS的概念
MODS (Metadata Object Description Schema, 元数据对象描述模式) 是美国国会图书馆于2002年6月开发出的, 是继MARC之后的第二种以MARC为基础的文献编目元数据。MODS的元素来自MARC21的字段, 是MARC21的一个子集。它采用XML作为编码语言, 是MARC21的XML简略版。MODS的第一版MODS1.0颁布之后的版本有MODS2.0、MODS3.0和MODS3.1, 目前最新的版本是2006年6月1日公布的MODS3.2版。MODS以MARC21的元素和语义学为基础, 不是简单地将MARC数据XML化, 而是有所创新, 但它的设计主要是针对图书馆资源, 也可为各种目的使用, 适于网络环境下多种信息资源的描述, 是在立足现实的基础上扬弃传统、面向未来而开发的一种新的文献编目元数据。
2 传统图书馆资源组织方式的弊端
2.1 MARC存在的主要缺陷
MARC产生于20世纪60年代, 是图书馆文献资源组织的重要工具, 也是世界上流行最广的书目数据标准。随着信息技术的迅猛发展, 特别是电子资源的出现, MARC缺陷日益显露出来, 主要表现在: (1) 受制于卡片目录的思维。 (2) 繁杂的规定阻碍了著录的规范化。 (3) 拘泥于传统编码格式。 (4) FRBR对MARC产生了巨大的冲击。国际图联于1998年正式推出FRBR报告, 是国际编目原则和编目思维模式上的重大突破, FRBR认为编目对象不能停留在传统的平面层次上, 应根据用户的需求将编目对象分成若干层次, 它揭示了隐匿在编目对象中的深层次关系, 形成一个立体的元数据模型, 已经成为人们设计、考察和评估元数据的一个研究框架。
2.2 DC存在的主要缺陷
DC作为一种通用的元数据标准, 目前在很多数字图书馆项目中被用来描述文本信息, 但正是其通用性和简单性使它在描述文本信息, 特别是图书馆馆藏时存在诸多缺点。首先是它的不完整性。DC元素没有被有效地限定, 对许多应用不适合。其次, 没有一套广泛接受的使用说明。带来的后果是每一个应用DC的组织或机构都要对它进行自己的说明, 不但重复劳动, 而且造成说明的不一致。对于一个元数据标准来说这是一个致命的缺点, 影响其应用。第三个缺点实际上是它前两个缺点的结果:一个组织或机构应用DC的速度非常慢, 特别对于图书馆来说, 用起来不但困难, 而且代价比较高, 因此它不是图书馆描述馆藏方便且好用的标准。
3 国外有关MODS的应用项目
3.1 澳大利亚国家书目数据库元数据项目 (Australian National Biblio-graphic Database Metadata Project)
澳大利亚国家图书馆主办, 将原DC数据格式转换为MODS, 再转换为MARC, 最终全部转入澳大利亚国家书目资料库, 该项目也支持OAI-PMH, 已于2004年完成。
3.2 音、视频原型项目 (AV Prototype Project)
由美国国会图书馆发起, 其目的是探索视频和音频资源的数字化保存方案。该项目和美国国会图书馆的其它项目一起来设计一个文献信息库系统, 该系统用来支持视频和音频资源的存储、维护和传递。该项目的核心是元数据的产生, 其中大部分元数据是在它生成时直接抓取过来, 随后再转换为XML文档。这个项目用METS标准来封装数字对象和它的元数据。当前, METS的描述性元数据采用MODS方案。对于图书馆资源库中已经有MARC书目数据的对象, 直接转换为MODS, 其中的数据丢失将会很小;对于没有原始元数据的资源对象则直接用MODS模版。
3.3 经典幻灯片收集项目 (Classics Slide Collection)
凯斯西储大学的凯尔文史密斯图书馆主办, 该项目主要搜集关于希腊、罗马艺术的3000张数字幻灯片, 并利用MODS作为每一张TIF和JPEG200图形格式的元数据。该项目是凯斯西储大学“Digital Case”数字典藏计划的一部分, 已于2006年上半年完成。
3.4 MINERVA (Mapping the Internet:Electronic Resources Virtual Archive) 项目
这是一个网络资源保存计划, 其目的是支持人们开放式地定位、选择和保存网络资源。该项目的运作由美国国会图书馆连同theInternet Archive (Alexa) 、SUNY、the University of Washington一起向社会各组织机构及个人扩展。网络资源的元数据生成将依据MODS标准, MODS记录不但用于该项目的检索系统, 还要将其转换为MARC记录, 加入到图书馆的在线书目数据库中。图书馆准备实验性地用METS来提供更多的元数据, 比如保存和管理元数据等。美国国会图书馆的网络发展部和MARC标准办公室正在开发直接生成MODS记录的工具。
3.5 Copac学术目录 (Copac Academic Catalogue)
英国曼彻斯特大学发起, COPAC是一个联合目录, 主要提供英国和爱尔兰24家大学研究图书馆的联合在线目录, 还包括英格兰图书馆与苏格兰国家图书馆的目录。COPAC的书目格式为CURLMARC21, 该项目计划将其全部转换为MODS格式, 从2005年项目实施开始, 目前已取得了相当进展。
3.6 印地安那州片音乐项目 (In Harmony:Sheet Music from Indiana)
由美国印地安那州的多所大学、博物馆和历史研究所参加的印地安那州数字图书馆计划。该计划将收集超过10000种音乐数字对象, 这些音乐或其主题与印地安那州有关, 或其作者来自该州。为了使参与合作的院校、博物馆和研究所能够充分共享这些数字资源, 该计划将使用MODS作为数字对象的元数据标准, 预计于2007年完成。
从以上应用中可以看出, 目前世界各国图书馆界都在探索如何能更好地揭示和组织网络化数字化信息资源的目录元数据。
总之, MODS标准是符合数字图书馆和有关机构的愿望和要求而产生的适合在Web上运行的元数据, 是图书馆学界描述数字化资源的又一次创新, 它的出现必将有利于促进我国信息资源编目元数据规则的科学化、规范化和标准化。
摘要:本文论述了元数据标准MODS的内涵、特点及其使用的基本原则, 介绍了国外MODS近期应用的一些项目。
关键词:元数据,MODS,数字图书馆
参考文献
[1]The Library of Congress.Metadata Object Description Schema[EB/OL].[2009-05-16].http://www.loc.gov/standards/mods/mods-overview.Html.
[2]The Library of Congress.Outline of elements and attributes in MODS version3.3[EB/OL].[2009-05-16].http://www.loc.gov/standards/mods/mods-outline.html.
[3]吴万晔.论MARC元数据的缺陷及发展趋势[J].图书馆工作与研究, 2006 (2) :28-29.
[4]王妙娅, 李小梅.新的元数据标准MODS及其应用[J].情报杂志, 2004 (11) :82-83.
[5]李世玲, 李素喜.MODS与MARC、DC之比较研究[J].现代情报, 2006 (6) :138.
[6]王小平.浅析MODS元数据[J].图书馆论坛, 2008 (5) :65-67, 70.
元数据应用 篇9
本文简要介绍元数据的概念和它在数据仓库中的应用,提出了一个新的基于元数据的数据仓库的组织形式,并结合Agent技术将这种数据仓库应用于智能决策支持系统中,使之更有效地进行决策。
1 元数据概述
元数据最本质、最抽象的定义为:关于数据的数据(data about data)。元数据是可以用来定义存储在数据库中的数据形式的数据。换句话说,元数据包括了对系统自身有用的各种对象的细节信息。它是一种广泛存在的现象,在许多领域中有其具体的定义和应用。
在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。从数据仓库管理人员来看,元数据是在数据仓库中所有内容和所有处理过程的一个全面的仓库和文件;从最终用户的观点来看,元数据是数据仓库中所有信息的路标。只要是支持和管理数据仓库操作的任何所需的信息,元数据都将包括。具体来说,在数据仓库系统中,元数据机制主要包含以下内容:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
元数据是抽象的数据,但元数据的重要性也正体现在其所包含的信息中。例如,元数据用作目录,可以帮助DSS分析者对数据仓库的内容定位;当数据由操作环境到数据仓库环境映射时,作为数据映射指南;对于用在当前细节数据与低度综合的数据之间及低度综合的数据和高度综合的数据之间的汇总算法。如果没有元数据,数据仓库中的数据是完全孤立着的,元数据正如一座桥梁将他们联系起来。
2 基于元数据的数据仓库模型
本模型在将元数据应用于数据仓库的同时,设计了5种功能Agent对数据进行查找和获取,使之更有效地将元数据与数据仓库中的数据进行匹配。
2.1 基于元数据的数据信息查找与获取
为了更有效地管理数据仓库中大量的数据,本文设计了一种基于元数据的数据仓库模型,在这个模型中,设计了5种功能Agent来完成对数据的查找获取任务:数据读取Agent,数据读取控制Agent,数据映射Agent,位置查找Agent,位置查找控制Agent。
位置查找Agent和数据读取Agent接收数据查询请求,将其解释成一个计算机可识别、可比较的数据请求任务,前者将该任务传递给位置查找控制Agent,而后者则将该任务传给数据读取控制Agent。
位置查找控制Agent得到数据请求任务后,根据元数据信息,连接到元数据库,在元数据库中查找匹配目标数据的组成及其位置信息,并将获得的目标数据的组成和位置信息交给数据读取控制Agent。
数据读取控制Agent得到目标信息的组成及其位置信息后,再将所得结果交给数据映射Agent。数据映射Agent根据数据的位置信息及相关要求,与数据仓库进行交互,得到目标数据并返回给数据读取控制Agent。由于目标数据可能分布在不同的数据仓库中,数据读取控制Agent可以按照位置信息将数据按照所属的数据仓库进行归类,并据此将数据读取任务进行划分,将这些数据读取子任务交给不同的数据映射Agent分别访问不同的数据仓库以获得目标数据。这些数据映射Agent可以并行地执行,从而提高了数据读取的效率。
2.2 元数据管理的实现
在数据仓库中元数据不是一成不变的,元数据管理器执行对元数据的管理和维护。元数据管理的主要任务是负责存储和维护元数据库中的元数据,一般来说除了数据源监视器产生的元数据外,其他模块或工具产生的元数据都是通过元数据管理器存入元数据库的。
2.2.1 数据源及数据源监视器
数据仓库的数据来自于多个异构的数据源,它们可以是各种类型的数据库、文本文件,甚至是Web数据。因此对各个数据源的描述是最基本的元数据,主要是在数据仓库建模工具中定义。在数据仓库的运行过程中,数据源中的数据可能会发生变化,这就会使得数据仓库中的数据过期,因此必须进行定期或不定期的更新。
2.2.2 数据仓库建模工具
建模工具帮助用户通过需求分析创建数据仓库的数据模式,同时还要定义模式中各个表的数据来源、数据转换规则、有关的聚集操作等信息,与元数据管理的关系较密切。数据转换的基本规则有:一对一抽取;多对一抽取;混合抽取。
2.2.3 元数据浏览器
元数据管理的目的就是为了给数据仓库的各有关模块或人员提供元数据服务。元数据浏览器可以分门别类地组织和显示各种元数据,供数据仓库管理员或最终用户根据需要浏览或查看他所关心的元数据。当然,并不是每个用户都能浏览所有的元数据,通过用户授权规定每个用户的级别,借此控制每个用户所能看到的元数据。
3 基于数据仓库的智能决策支持系统
基于数据仓库的智能决策支持系统是将数据仓库技术和人工智能技术应用于决策支持系统中,以更加有效地进行决策。以往建立的决策支持系统,大多数都是以关系数据库为基础的,使得数据缺乏组织性,分析效率低下并无法支持灵活多变的分析需求。数据仓库作为一种管理技术,旨在通过通畅、合理、全面的信息管理达到有效的决策支持。
接口Agent与用户进行交互,接受用户决策任务,并将任务交给问题求解Agent;最后再与用户进行交互,对问题的中间结果或最终解决方案予以选择或确认。
信息管理与协作Agent负责协调与控制Agent之间的交互与通讯。
问题求解Agent根据用户决策任务,对任务进行分解,组织各种其他Agent完成各子任务,并对各个Agen的完成结果进行综合,最终形成问题的解决方案。
模型库管理Agent根据具体的决策子任务,从决策模型库中选择一个适当的模型进行解释执行。模型的完整执行可能需要其他Agent进行协作。
知识库管理Agent根据决策任务或模型执行的需要,利用知识或规则进行推理,以获得完成决策任务所需的目标知识或应采取的动作。在此过程中,也需要与其他Agent协作。
数据库管理Agent获取模型执行或推理过程中所需的数据以及元数据。
从上述体系结构可以看出,使用Agent技术,DSS的功能还是一样的,但是在系统的结构、工作方式以及实现的方法等方面,更加简单、清晰,各Agent之间相对独立性比较高,相互之间的关系可以在运行阶段进行设定,而不是在系统设计时预先确定。
4 总结
数据仓库系统可将来自各个数据库的信息进行集成,从事物的历史和发展的角度来组织和存储数据,供用户进行数据分析,并辅助决策支持,为决策者提供有用的决策支持信息与知识。因此,基于这一技术的决策支持系统提供了可取的数据组织方式,为决策人员提供了强有力的支持工具,能有力地推动决策的现代化进程。本文初步提出了一个基于元数据的数据仓库在IDSS中的应用模型,由于系统设计和实现技术的局限性,此模型还需要进一步完善。
摘要:将人工智能理论引入决策支持系统,构成智能决策支持系统。数据库是智能决策支持系统的重要组成部分,本文介绍了元数据的基本概念,将基于元数据的数据仓库技术运用到智能决策支持系统中,提出一个新的智能决策支持系统框架。
关键词:元数据,Agent,数据仓库,决策支持系统
参考文献
[1]Anne J Gilliland-Swetland.Setting the Stage[M]//Murtha Baca(Eds).Introduction to Metadate:Pathways to Digital Information.Los Angels,CA:Getty Publications,2000.
[2]Jill Dyche.Data Warehouse,Metadata and Middleware[J].EAI Journal,2000(9):71-76.
[3]徐立臻,刘安,等.数据仓库系统中的元数据管理[J].计算机工程与应用,2002,38(24):193-196.
[4]史忠植.智能主体及其应用[M].北京:科学出版社,2000.
元数据应用 篇10
统计数据和元数据交换 (SDMX) 标准是SDMX国际组织于2001年发起并提出的。SDMX组织由国际清算银行 (BIS) 、欧盟统计局 (Eurostat) 、经济合作与发展组织 (OE C D) 、欧洲中央银行 (E C B) 、国际货币基金组织 (I M F) 、联合国 (UN) 和世界银行 (WB) 七个国际组织联合发起并建立, 核心基础是其制定发布的《统计数据和元数据交换标准》, 用于数据收集与分发, 目的是提升国际组织和成员国之间统计数据和元数据的交换或共享的便利性及效率。
2 0 0 1年9月, SDMX工作组在华盛顿成立, 2 0 03年发布SDM X标准V1.0, 2 0 0 5年国际标准化组织 (ISO) 将SDMX技术标准V1.0采标为ISO/TS17369:20 05。SDM X主办方20 05年发布了SDM X技术标准V2.0以及元数据常用词汇表, 词汇表规范了元数据词汇。2009年SDMX标准得到第39届联合国统计委员会大会认可和支持, SDMX标准被称为“全球统计社区中的优选标准”。2011年, SDMX国际组织发布了SDMX技术标准V2.1征求意见稿。2011年5月, 第三次SDM X全球大会在华盛顿召开, 为推动标准研究与应用推广, SDM X国际组织成立了统计工作组 (SWG) 和技术工作组 (TWG) 。SDM X标准明确了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法, 规范了统计数据及元数据交换和共享的标准化格式。它一方面解决了一般性的统计问题, 另一方面通过网络服务达到了一种标准化的数据交互。
2 SDMX标准的技术构架
SDM X信息模型 (SDM X-IM) 是一个概念化的元模型, 开发了语法的具体实现。该模型由一组功能包构成, 这种构造形式有助于理解、重新使用和维护模型 (见图1) 。另外, 为了帮助理解, 每个包都可以被认为是在三个概念层之一中:
(1) SDMX基础层 (SDMX Base layer) 由结构定义层 (Structural Definitions layer) 和报告和分发层 (Reporting and Dissemination layer) 使用的基本块组成。
(2) 结构定义层由所需的支持数据和元数据报告和分发的结构化工具的定义组成。
(3) 报告和分发层由用于报告和分发的数据和元数据容器的定义组成。
实际上, 层没有隐式或显式的结构功能, 因为任意包能使用其他包里的任何部分。
S D M X标准通过数据结构定义 (D S D) 来描述数据和元数据, 其中, 数据结构定义决定了维度 (dimensions) 、属性 (attributes) 、代码表 (codelists) 等描述数据结构的概念。比较类似的概念有元数据结构定义 (MSD) , 该定义描述与元数据相关的观测值 (observation) 、系列 (series) 、组别 (group) 、数据集等级 (dataset levels) 等。SDM X的数据交换方面有X M L和E DI两种, X M L是更加通用的数据交换方式。
SDM X通过信息模型提供了对统计数据、结构化元数据和数据交换过程的模型化处理方式, 同时定义了参考元数据。为成为能够支持多个数据交换模型的技术标准, SDMX信息模型包含了大量正式的对象, 包括行为 (actor) 、过程 (process) 和资源 (resource) 。
SDMX信息模型结构图 (见图2) 主要包括:数据结构定义、元数据结构定义、数据集、元数据集、数据供应方、提供协议等多主要元素, 其概念如下:
(1) 代码表 (Code list) :枚举维度、属性和SDMX其他结构部分的表示形式中使用的一系列值。
(2) 数据结构定义 (DSD) :数据结构定义 (DSD) 描述了数据集的结构, 定义的一系列的概念。
(3) 元数据结构定义 (MSD) :元数据结构定义描述了元数据集 (包含参考元数据) 的组织方式。
(4) 数据集 (dataset) :是固定的时间段中, 相似或共用相同结构的数据的集合。
(5) 元数据集 (metadata set) :是关于统计交换的SDMX视图方面的信息集合。
上述元素中, 代码表可用于其他结构元数据的补充。数据结构定义 (DSD) 给每一个概念添加了附件属性。元数据结构定义 (MSD) 确定了哪些元数据能够进入数据交换、各概念之间的相互联系、概念表述方式 (用文本方式还是代码方式) , 关联方 (代理机构、数据流、数据提供方、数据流子集等) 对象类型等内容。数据集由时间序列、或者由许多与时间序列相关的数据构成。元数据集可描述数据或结构定义的维护方、数据发布的计划安排、一段时间内单一类型数据流、数据质量等内容。
3 SDMX标准主要内容
SDM X标准规定了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法, 规范了对外披露统计信息时统计数据的机构范围、地理区域、存流量性质、时间属性、频度以及对外披露信息文件格式等内容。SDMX标准包括如下七部分:
(1) 第一部分:框架。本部分规定了统计数据和元数据交换的框架结构、流程和业务范围、SDM X信息模型、SDM X-E DI、SDM X-M L、一致性、对于SDMX标准的依赖性等内容。
(2) 第二部分:信息模型UML概念设计。本部分规定了SDMX信息模型, 包括SDMX基础包、具体项目方案、关键字族、立方体、元数据结构定义、元数据集、层级编码方案、结构集和映射、数据约束和供应等。
(3) 第三部分:SDMX-ML模式和文档。本部分主要是针对金融统计数据和元数据的交换和共享, 分别描述了标准的背景、设计内容、非特定结构定义的通用模式、特定数据结构定义模式与元数据结构定义模式的XML规范性内容, 并提供了XML方案和XML文件范例, 帮助解答有关统计数据和元数据交换内模式和文档的相关问题。
(4) 第四部分:SDMX-EDI语法和文档。本部分主要介绍了SDMX-EDI的使用方法、所有的UN/EDI FACT GESM ES报文以及使用该报文满足用户特殊需求的方法, 通过中心机构管理SDMX-EDI数据交换的过程。同时说明使用SDMX-EDI进行数据和元数据交换时主要是建立在统计结构定义、统计概念以及统计概念赋值的代码列表基础之上, 使读者及用户在了解标准的同时理解统计数据和元数据交换内语法和文档的使用方法。
(5) 第五部分:注册表、规范逻辑功能和逻辑接口。本部分基于SDMX信息模型定义了SDMX注册机构应提供的基本服务:数据和元数据的注册、数据和元数据的查询、注册机构相关信息的更新和订阅, 并且定义了SDMX注册表的逻辑接口, 以便于用户选择任何规定方式进行SDMX一致性注册。
(6) 第六部分:技术说明事项。本部分描述了数据结构定义和数据集, 并通过图表及用户界面等形式解释了SDMX信息模型及实现, 特别是SDMX-ML和SDMX-EDI格式之间互用性实现等技术内容。
(7) 第七部分:Web服务指南。本部分规定了Web服务和SDM X-ML、SDM X Web服务的交换模式、WS-I符合性和大型数据和元数据集及其查询。
4 SDMX标准应用情况及展望
S D M X起初是规范S D M X组织成员国数据交换的标准, 随着技术的不断完善, 各国应用SDMX的案例逐渐增多。除SDMX的七大发起组织成功实施SDMX标准以外, 其他一些国际组织 (如国际粮农组织、世界卫生组织) 以及部分国家的统计局和中央银行也开始在统计系统中运用SDMX标准, 技术应用涵盖了劳动统计、教育统计、卫生统计、国民账户、国际收支平衡表、农业生产统计、外部债务统计、金融统计、环境和多领域统计等多个统计领域。例如, 在卫生领域, 世界卫生组织构建了SDMX卫生域 (Health Domain) 的定义, 在集合数据系统中对指标定义和数据的交换做了规定, 为SDMX标准在社区的应用提供了指导。除国际组织外, S D M X标准在一些国家也经过验证并取得良好的应用实施效果, 如图3所示, 地图上标蓝的国家已于2009年完成SDM X的实施, 标红的国家也于2009年后开始实现SDMX计划, 充分证明其在国际上具有广泛的实施应用基础和一定的优越性。
SDM X标准在国内的推广和应用任重道远。从2010年起, 中国人民银行成为SDM X国际组织统计工作组成员, 跟踪SDMX技术动态, 为SDMX标准的技术完善作出了相应贡献。下一步, 标准的实施应用应是工作的重点方向, 对此应结合我国数据交换的基本情况, 整合各方优势, 借助SDMX国际组织、国内相关政府主管部门和相关技术组织的力量, 加大对金融机构内部系统的标准化, 优化金融机构的数据披露模式, 采取“整合资源, 有序推进”的方式, 逐步推进SDMX标准在我国的应用。从国际组织及有关国家实施SDMX的情况来看, 我国实施SDM X应注意以下几点:
(1) 加大对标准的跟踪及研究力度。SDMX作为目前国际间统计数据和元数据的交换标准, 从开始制定到现在已历时10年之久, 虽已相对成熟, 但随着技术的进步和发展, 仍处在不断完善和维护过程中, 特别是代码表、数据元和元数据等内容随着业务的变化而处在不断的动态维护中, 为此, 必须积极跟踪SDMX标准的发展动态, 同时要加大对SDM X标准、IT工具、数据仓库、技术架构、内容导则等内容的研究力度。
(2) 加大标准国际间交流合作。吸取国际组织和发达国家实施SDMX标准的经验, 可以更好地指导我国SDMX实施路线图的构建, 为此应积极参加SDMX组织的各项活动, 增进与发起组织和已实施SDMX标准国家的交流合作, 分享各组织和国家的实施经验, 探索在我国实施SDMX标准的解决方案, 从而规范我国金融统计标准体系的内部处理和对外发布, 提高信息共享的效率。
(3) 加强统计业务与IT技术的协调。统计业务和IT技术的协调一致是实施SDMX标准的前提和基础, 统计业务需求为技术实现提供指导方向, 而技术反过来促进业务的完善, 二者同等重要, 不可偏废。为此, 应加强统计业务与IT技术的协调, 统计业务人员侧重于SDMX信息模型的建立和SDMX的应用, 而IT技术人员则重点在于统计数据和元数据的建模、数据管理系统的开发、数据交换格式的实施和处理, 只有二者协调一致, 才能提高SDMX实施的效率和质量。
摘要:《统计数据和元数据交换标准》 (SDMX标准) 是由全球七大国际组织联合发起并建立的SDMX组织制定的标准, 它提供了统计数据及元数据交换和共享的标准化格式, 目前在全球众多组织和国家的统计、金融等领域应用广泛。本文介绍了标准的产生与发展历程, 解读了标准的模型架构与主要内容, 并在分析标准国际应用情况的基础上, 提出了SDMX标准在国内的应用建议。
元数据应用 篇11
[关键词]元数据标签;搜索引擎;HTML;搜索结果;信息组织
[中图分类号]G354 [文献标识码]A [文章编号]1008-0821(2010)05-0163-04
Study on the Effect of Metadata on Improving the Searching EfficiencyXing Bo
(Department of Information Management,Beking University,Beijing 100871,China)
[Abstract]The aim of this paper was to determine the effect of metadata on improving the searching efficiency.First,the worth of metadata was discussed,and then,the effect of metadata on how to improve the searching efficiency was studied by the empirical study.The searching result was used to investigate the real status of the usage of metadata in HTML.The Generalized Linear Model(GLM)was used to describe the relation between the metadata and searching result.The result showed that the effect of metadata on improving the searching efficiency still existed.It was necessary to pay attention to the importance of metadata in HTML.
[Keywords]metadata label;search engine;HTML;search result;information organization
现今,搜索引擎已成为用户获得网络信息资源的最主要途径。网页资源在搜索引擎中的排名将直接影响到网页资源的内容被用户接收和利用的效率。而检索结果的排序由网页内容与特定检索主题的相关度所决定。网页资源的内容与特定检索主题的相关度越高,在用户搜索该检索词时,网页资源在检索结果中的排序也就越高。另一方面,资源描述是揭示信息资源,说明信息资源主题内容的重要手段。更为有效合理的资源描述,可以更为准确的揭示出信息资源与特定主题之间的相关程度。据此,元数据标签作为网络信息资源描述的重要手段,理应成为影响搜索结果排名的重要因素,在排序算法中具有较高权重。但随着搜索引擎作弊行为的日益泛滥,使许多网页中的元数据描述缺乏规范、甚至与实际主题毫不相关,影响了搜索结果的准确性。因此,搜索引擎降低了元数据描述在排序算法中的权重,元数据描述对结果排序的影响越来越小。针对这一问题,本文将通过分析元数据描述及优化方法,并对实际搜索结果进行调查分析,借此考察元数据标签对搜索引擎排序结果的真实影响,并讨论元数据标签是否对于优化搜索结果排序仍具有实际意义。
1 元数据描述及其在检索中的应用
11 HTML语言中的元数据描述
HTML(HyperText Mark-up Language)即超文本标记语言,由W3C(World Wide Web Consortium)负责控制和管理。现今,HTML语言是网络上应用最为广泛的语言,也是构成网页文档、进行网页编程的主要语言基础。HTML文档一般由头信息(Head)和主体(body)两部分组成。HTML头信息就是指HTML文件中被
标识符所作用的区域。这部分为可选内容,主要包含一些说明性的内容和预定义。对于网页编目来说,网页的元数据描述标签就主要集中在这一部分当中。其中,title、Meta-Description、Meta-keywords是头信息区中对网页资源内容进行描述所用到3种最主要的元数据标签。合理使用这些标签,可以使网络信息资源得到更合理的揭示,从而在检索结果中提高其相关度排名。111
112 元数据标签Meta-Description和Meta-keywords
元数据标签Meta项是HTML头部的主要组成部分,主要用于表示一个文档的页面信息,例如说明字符编码、鉴别作者、设定页面格式、标注内容提要以及网页关键字等等,还可以用来向服务器提供信息,例如截止日期和页面刷新间隔等。而其中与资源的内容描述最为相关的标签有2个:描述标签和关键词标签。描述标签,即Description标签,其内容是对页面内容的概括,相当于页面的简介。关键词标签即keywords标签,是通过若干关键词对页面内容进行概括描述。其具体的使用方式如下:
12 元数据描述对搜索引擎排序结果的优化作用
大多数搜索引擎都是提取网页标题中的全部或部分内容作为搜索结果中摘要信息的标题向用户展示,其在搜索引擎排序算法中的权重也是最高的。此外,类似于Google等搜索引擎会参考描述标签和关键词标签的内容作为检索结果中摘要信息生成的主要依据。因此,尽管由于搜索引擎作弊行为,通过堆砌关键词、过分滥用元数据标签,使搜索引擎排序算法给予这部分的权重越来越低,但不可否认元数据内容的优化,对提高页面相关性,吸引用户的点击还是具有较为重要的意义。
在元数据标签的优化过程中,内容的描述应做到主题突出、内容简洁。具体讲包括标签内容的长度控制、关键词分布及关键词词频等。
121 内容长度控制
为了提高页面的用户体验,搜索引擎会根据实际情况从页面
122 关键词分布
相较于传统检索系统,搜索引擎更为注重信息的位置对内容相关度的影响。搜索引擎一般认为一段文字中越靠前的词越重要越能反映文字的内容,关键词赋予的权值也越高。因此,在文字的最前面出现页面的主关键词,可以有效突出页面的主题,提高页面相关性。如:
123 关键词词频密度
关键词词频较高可以突出网页内容中重要的信息,但是关键词词频并非越高越好。相反,过高的关键词词频可能是人为堆砌关键词所致,影响用户的理解,甚至会触发搜索引擎的作弊惩罚。一般主关键词词频不超过3次,辅助关键词词频不超过1次。
2010年5月第30卷第5期元数据描述对搜索引擎排序结果影响研究May,2010Vol30 No52 调查的目的及方法
以下调查将对目前国内主要搜索引擎的检索结果进行调查研究,对元数据描述在实际中的应用情况以及其与检索结果相关度排序影响的真实情况进行分析。
根据网络调查机构艾瑞咨询集团(iResearch)的《2009年第三季度中国搜索引擎市场季度监测报告》最新数据显示,2009年第三季度中国搜索引擎市场的两大巨头百度、Google市场占有率达到了969%,因此选择这两个搜索引擎作为主要的研究对象。并且选取了Google热榜2009年度榜单中国内事件、国际事件、经济事件、社会事件和热点人物5个方面排名靠前的话题事件或人物各2个,共10个热点检索词:2009日全食、甲型H1N1流感、家电下乡、邓玉娇事件、小沈阳、新疆暴力事件、法航空难、创业板开市、躲猫猫事件、迈克尔•杰克逊。在调查检索词的选择方面,多选取的是事实型事件话题,以尽量避免具有过重商业色彩的搜索引擎优化手段对检索结果的影响。
分别取每个检索词在两大搜索引擎的检索结果的前五页检索结果,剔除其中的死链及非HTML文档,通过编程获得各网页结果的title、meta-description、meta-keywords标签内的元数据信息。统计元数据标签的使用率及使用效果,并分析其与实际检索结果排序之间的相关度。调查中共采集网页899个(不包含死链接及非HTML文档)。
3 调查结果分析
31 元数据使用情况分析
从表1的统计可知,在调查中有6307%的网页包含有Keywords标签的内容,6407%的网页包含有Description标签的内容,全部网页包含有title标签的内容。可以看出,title标签作为网页的标题,是对网页主题内容的概括,具有重要的意义,因此在网页制作和设计中得到了重视和应用,但Keywords和Description两个标签的使用仍不够普及。不过对比杨志于2008年的研究(Keywords:3980%,Description:3300%),这两个元数据标签的使用率已明显提高。表1 元数据使用情况统计表
项 目Google百度KDTAKDTA2009日全食2427434325274343甲型H1H1流感2321494926264444家电下乡2321454532294444邓玉娇事件2730464620264545小沈阳3432444429294444新疆暴力事件3735484833314747法航空难2729444431334747创业板开市3033454533304545躲猫猫事件2427434333324646迈克尔•杰克逊3032454526264242合 计279287452452288289447447
值得注意的是,部分网站已经有意识地使用这些标签,但由于网页编写上的不规范或者错误,导致机器无法将其识别为有效的元数据字段,使标签的使用没能起到应有的作用。因此,在今后网页编写的规范问题值得更加注意。
32 元数据描述对搜索引擎排序结果的影响分析
本次调查的有效网页共899个,为10个话题在两个搜索引擎结果中排名前五页的结果,因此排名分布在1~54位,其中由于部分排位的网页中存在死链接或非HTML文档,因此,每个排位的网页观测数量不完全相等,此外,由于排名在47之后的网页观测数量较少,不计入分析。故最终用于模型建立和相关度分析的网页观测共851个,检索结果排名分布于1~47位,每个位置的观测一般为16~20个,均值为1811个。以下,本文将从元数据的使用与优化两个方面分析其对搜索引擎排序结果的影响。
321 元数据标签的使用对搜索结果排序的影响分析
本部分主要分析元数据标签的使用对搜索结果排序的影响。由于被调查的所有网页都包含有title标签,因此在对元数据标签的使用与搜索结果排序的相关度分析过程中,不考虑title标签。将网页是否具有Keywords和Description标签作为模型建立的两个自变量,取值为0或1(0为不包含该标签,1为包含该标签),将网页的排名作为模型的因变量,建立数据集。并为数据集建立广义线性模型,可计算是否包含Keywords或Description标签对结果排序的影响。通过SAS编程,得到模型的回归系数,如下表(注:这里舍去了β参数部分):表2 元数据使用情况数据集分析结果
参数估计值标准
误差95%置信区间下限上限卡方
统计量p值VAR20291001783-005840640426601026VAR3-0435501799-07881-0082920701502
可见,两个自变量其p值都大于005,说明两自变量与因变量都不显著相关,是否包含Keywords或Description标签对结果排序的影响并不显著。产生这样的结果的原因,可能是由于搜索引擎作弊现象日益严重,搜索引擎的排序算法中,赋予Keywords和Description标签的权重越来越小。在这种情况下,元数据描述很难发挥其应有的效力,导致了Keywords和Description标签对结果排序的影响不显著。
322 元数据标签的优化对搜索结果排序的影响分析
本部分主要分析元数据标签的优化对搜索结果排序的影响。由于在前一部分中已经得出Keywords和Description标签的使用率不高,且其对结果排序的影响不显著,因此,在考虑元数据标签的优化对搜索结果排序的影响时,不再分析这两类标签。本部分的重点将分析title标签的优化对搜索结果排序的影响。
在前文中已经介绍了标签优化的三点注意事项,即:标签内容长度控制、关键词分布及关键词密度。基于以上分析,将对title标签优化的评估分为四方面的指标,即:title标签中是否含有检索词;title标签的内容长度是否能够在搜索结果中完整显示;title标签中检索词是否位于内容头部;title标签中检索词的词频。具体各指标的评分等级如下:表3 指标说明1
有否检索词:title标签中是否含有检索词指标得分含有检索词的完整词形(包括在内容中不连续出现)1含有检索词的不完整词形或近义词05不含有任何与检索词相关的关键词0
表4 指标说明2
标签长度:title标签的内容长度是否能够在
搜索结果中完整显示指标得分是1否0
表5 指标说明3
关键词分布:title标签中检索词是否位于内容头部指标得分是1否0表6 指标说明4
关键词词频:title标签中检索词的词频(次)指标得分001052~31405>40
分别评估各网页的指标得分,将各网页在以上4个方面的表现作为模型的自变量,将搜索引擎的排序结果作为因变量,建立数据集。为数据集建立广义线性模型,可计算标签优化的4个方面对结果排序的影响。通过SAS编程,得到模型的回归系数,如表7(注:这里舍去了β参数部分):表7 元数据使用情况数据集分析结果
参数估计值标准
误差95%置信区间下限上限卡方
统计量p值VAR2-0475805728-159850646906904062VAR308892026300373814046114300007VAR405948017560250509390114700007VAR5-0627105496-170420450013002539
可见,自变量VAR2和VAR5的p值都大于005,说明这两个自变量与因变量相关性不显著,即title标签中是否出现关键词以及关键词的词频对结果排序的影响并不显著。但同时,自变量VAR3和VAR4的p值则均小于005,这两个自变量与因变量具有较强的相关性,title标签长度符合规范的网页相对排名靠前(数值较小),title标签中检索词居头部位置的网页相对排名靠前(数值较小)。
预测这样的结果,同样与搜索引擎作弊、关键词堆砌现象严重,致使搜索引擎对title标签中检索词的出现和词频重视程度降低,title标签中检索词是否出现和词频是否较高,对搜索结果的排序影响不大。但另一方面,title标签内容的长度和检索词出现位置却与检索结果显著相关,说明对网页资源的元数据描述进行优化将对检索结果的排名具有积极影响,资源描述的规范化和最优化将有助于搜索引擎和最终用户识别和利用网页资源的内容。
4 结 语
本文通过对网页资源HTML元数据使用和优化情况的调查,分析了元数据描述的使用现状及其对搜索结果排序的影响。目前,Keywords、Description等元数据标签的使用仍未达到普及。由于搜索引擎作弊现象严重,也使搜索引擎排序算法中赋予元数据描述的权重越来越低,元数据中,关键词是否出现及其词频对排序结果的影响越来越小。但元数据的描述仍十分必要,规范化和优化网络资源的元数据描述,将有助于网页资源在检索结果中提高排名,有助于搜索引擎和最终用户识别和利用网页资源的内容。介于此,网页编写者应在今后的工作中注意以下几个方面的问题:
41 注意元数据标签的使用
在网页编写过程中,进一步提高元数据标签的使用率,使网页资源得到更好的揭示,帮助搜索引擎和最终用户识别和理解网页资源的核心内容。提高网页资源与特定需求的相关性。
42 提高网页编写的规范化水平
在网页编写过程中,注意HTML语言的特定格式和书写规范,减少网页内容中错误和乱码,增加网页内容的可读性,帮助搜索引擎准确定位网页内容的关键信息。
43 注意网页资源元数据描述的优化
采取合理方法,优化网页资源元数据描述,使网页资源的核心内容更加突出,更具有可读性和吸引力,从而使网页资源与特定主题相关度更好,提高在搜索引擎结果中的排名。
44 严禁各种形式的搜索引擎作弊行为
严禁利用关键词堆砌、大量使用不相关热门关键词等行为进行搜索引擎作弊,影响搜索结果的公正准确。元数据描述作为网页资源揭示的重要手段,其意义和权重不应被忽视。网页资源的描述和优化者应规范自身行为,净化元数据描述,使排序结果能够真实反映网页资源与特定主题的相关度。从而使搜索引擎和用户可以信赖元数据描述的内容,提高排序算法对元数据标签的支持,使元数据描述发挥其应用的效力。
参考文献
[1]吴泽欣.SEO教程:搜索引擎优化入门与进阶[M].北京:人民邮电出版社,2008.12.
[2](美)维尼.登上Google之巅——SEO技巧与技术[M].北京:机械工业出版社,2009.1.
[3]杨志.元数据标签Keywords在搜索引擎的应用现状研究[J].现代情报,2007,(9):134-137.
[4]杨志.元数据在中文搜索引擎的应用研究[J].科技信息,2008,(9):55-56.
[5]许四洋,柳晓春.元数据标签的使用情况调查(上)[J].图书馆杂志,2001,20(9):22-25.
[6]许四洋,柳晓春.元数据标签的使用情况调查(下)[J].图书馆杂志,2001,20(10):29-30.
[7]林华.解析HTML头信息[J].零陵学院学报,2004,(3):96-97.
[8]游,赵荣.我国元数据研究现状与发展[J].图书情报工作,2008,(Z1):202-205.
[9]粟慧.元数据、HTML和都柏林核心集——关于WEB网页的编目[J].情报科学,2001,(12):1272-1279.
[10]赵悦.数字图书馆元数据应用研究[D].武汉:武汉大学,2005.
元数据应用 篇12
反射(reflection)的概念由Pattie Maes导入到面向对象程序设计中。一个面向对象的反射系统逻辑上被分成2层或多层结构。第1层称为基本级,描述系统应该完成的计算;第2层称为元级,描述如何完成下一层的计算;最上层为元元级,具有自描述性。基本级中的对象称为基本对象,元级中的对象称为元对象。基本对象和元对象、以及元对象之间通过元对象协议(MOP:metaobject protocol)发生联系。
反射体系通常具有3个基本元素:元模型、元数据、元协议。元数据(meta-data)是对数据资源的描述,即关于数据的数据。Java语言提供了反射系统中内省的功能,即在程序运行时能够动态获得对象或类的结构信息。同时,Java也提供了描述元数据的方法,即Java Annotation。另外,Java还提供了获取数据库元数据的一些接口。
本文在介绍Java元数据机制的基础上,描述基于Java元数据功能的数据库浏览器的实现方法。
1 基于Java元数据功能的数据库浏览器的实现
1.1 Java的元数据功能
Java语言提供了反射API,用于动态获取对象或类的结构信息。Java Annotation被用来在Java程序中描述元数据。
本节主要介绍Java提供的获取数据库元数据的API。
DatabaseMetaData和ResultSetMetaData是获取数据库元数据的两个主要的类。DatabaseMetaData类提供了以下几个获取数据库信息的典型函数:(1)getTables():取得表的信息的结果集;(2)getDatabaseProductName():取得数据库的名称,如Oracle、Access等;(3)getDatabaseProductVersion():取得表示数据库版本的字符串。
ResultSetMetaData类提供了以下几个获取关于表的元数据的典型函数:(1)getColumnCount():取得字段个数;(2)getColumnName(int column):取得指定字段的名称;(3)getColumnType(int column):取得指定字段的类型;(4)getTableName(in column):取得表名。
1.2 简易数据库浏览器的实现
数据库浏览器的一个主要功能是显示指定数据库中所有表的名称,显示选定表的表结构和记录如图1所示。由于数据库中表的个数、名称、以及表结构是动态变化的,这就要求工具能够动态获取这些信息。
为了获得指定数据库中的所有表信息,需要使用DatabaseMetaData类提供的getTables()函数。getTables()函数返回一个表信息的结果集,可以从结果集中取出所有的表名,并显示在界面。
2 结束语
本文介绍了一个基于Java元数据机制的数据库浏览器的实现方法。反射和元数据为软件自适应功能的实现提供了可行的技术支持。
摘要:在介绍Java元数据机制的基础上,描述基于Java元数据功能的数据库浏览器的实现方法。Java语言提供了反射API,用于动态获取对象式类的结构信息,Java Annotation被用来在Java程序中描述元数据。
关键词:反射,元数据,数据库
参考文献
[1]Pattie Maes.Concepts and Experiments in Computational Reflection.In proceedings of OOPSLA’87,volume22of Sigplan Notices,pages147-156.ACM,October1987.
[2]Daniel G.Bobrow,R.G.Gabriel,and J.L.White.CLOS in Context-The Shape of the Design Space.In Object Oriented Programming-The CLOS Perspective.MIT Press,1993.
[3]Walter Cazzola.Evaluation of Object-Oriented Reflective Models.The ECOOP’98Workshop on Refective Object-Oriented Program-ming and Systems,Brussels,Belgium,1998.
[4]黄罡,王千祥,梅宏,等.基于软件体系结构的反射式中间件研究[J].软件学报,2003(11).
【元数据应用】推荐阅读:
数据抽象层应用06-29
大数据及应用07-07
影像数据应用与研究08-05
数据存储技术及应用10-29
数据控制方法的应用11-01
大数据的应用实例09-06
实验报告数据库应用10-20
数据挖掘技术应用07-21
大数据商业应用的未来05-08
实时协议数据通信应用05-25