数据库规范

2024-06-14

数据库规范(共11篇)

数据库规范 篇1

1 在企业信息数据库建设中数据库设计工作的规范化所起到的作用分析

企业信息在收集时,常常对企业信息收集提出来高效化和高质化的要求,这也正式企业信息数据库建设的目的。企业信息的收集工作对于一个企业发展来说起着至关重要的作用,它能够更好地确定顾客的市场需求,提高企业产品的市场竞争能力,是一个企业健康发展的重要历程。所以企业信息化的基础正是以企业数据信息的收集能力为基础的。所以,数据库设计工作的建设,直接的对一个企业的信息化建设起着十分重要的作用,也会对一个企业在未来的发展产生影响。

伴随着我国经济文化的不断发展,我国企业信息化也在不断地扩大,一个企业信息的收集工作已经成为了这个企业发展的重要历程,也是一个企业信息化建设的重要组成部分。企业信息文化的收集和分析工作将会对这个企业产生巨大的影响。一个企业想要依靠信息化实现健康的发展,企业的信息收集及处理能力是一个基础性的工作。企业信息收集工作会对企业的信息化建设,企业的效益产生很大的影响。企业信息化建设的优劣与企业的数据库设计有着密切的关联,在数据库建设质量保证的前天下,企业的信息化的建设意义才能够真正地体现出来,才具有更多的意义。

近年来,关于数据库信息化建设的许多问题都浮现了出来,且不说为企业带来多少效益,还已经影响到企业的正常运转,这种问题出现的原因可能是因为数据库建设人员不够重视,数据收集时的信息错误以及数据库设计人员的能力欠缺等原因是引起企业信息化建设存在问题的主要根源。

为了使企业的各项工作能够更加方便地检索到相关信息而对企业的信息进行了收集和数据库设计建设工作,相反这也对数据库的设计工作提出了更高的要求,增加了数据库建设的难度,因此数据库建设的管理人员如何准确地把握企业信息的现代化建设和企业信息收集工作之间的关系具有十分重要的意义。

因此,如何处理好企业信息的收集工作和企业信息化建设之间的关系是每一位数据库的建设人员都应该思考和研究的问题,怎样在最短的时间内给企业带来最大的方便的问题是每个建设者的出发点。企业信息收集工作的智能化和高效化对于一个企业来说是至关重要的,它是企业信息化建设的一座重要的基石和纽带。

企业数据库信息的建设工作是与企业信息每个阶段的收集工作是息息相关的,会对企业信息收集的方向和进行程度造成一定的影响,是一个企业是否开展信息收集的一个决定性结论,它对企业的信息化建设和企业信息收集是一个重要的协调者和衔接者。因此,在以企业数据库设计的规范化前提下,才能更好地体现出企业信息收集得高效性和智能化,只有这样,企业信息化建设和企业的收集工作的智能化才能更好地显现出来,才能更好满足市场的要求和企业的需求。

2 规范化设计的主要流程

2.1 数据库的概念设计阶段

1)初始化进程

初始化进程就是首先要对主要的目标和要进行的范围进行描述,并以目标的建模计划、计划的组织团队、在建设中所使用的原材料进行收集、来对建设进行约束和规范。通过分析调查资料得出调查结果,并对采集到的原始数据进行输入输出等工作,并形成基本的数据资料表,在初始化进程阶段,最重要的是对原材料的收集。

2)定义实体阶段

定义实体是从第一个阶段收集的材料中对大部分的实体进行标识,并依据表示物的术语和相关的“代码”符号,能够找出相对应的实体,两者之间形成相对应的关系。

3)定义联系阶段

在IDEFIX分析模型中,往往只允许存在着二元联系模式,而n元之间的联系,则必须建立起n个二元之间的联系。使用实体联系矩阵来辨别实体之间的二元关系,并以相应的规章和业务需求为依据,并结合于实际的相应情况,来分析出关系的名、关系的势等来确定相应的关系类型,如:分类关系、非确定关系、标识关系和非标识关系等。

4)定义码阶段

定义码就是在上一个阶段的基础之上,去除非确定的关系,并引入交叉实体,并通过标识候选码的属性,来对主选码进行确定分析。找出可信的确定关系,并作出进一步的实体分解,使键基视图体现出来。

5)定义属性阶段

定义提取说明性名词,这能够确定开发属性表和确定属性的所有者关系。通过定义和检查非主码区属性的问题,来确定非主码属性是依赖于主码属性的一种关系。此时,会得到改进后的全属性视图IDEF1X模型,而此视图符合于第三范式的关系理论。

6)定义其它规则和对象阶段

对属性的长度、精度、空缺值、约束规则等进行定义,并对角色、序列、视图等对象信息进行定义。

2.2 逻辑结构进行设计阶段分析

这个阶段主要是通过对上一个阶段的概念结构转换成一种数据模型即为某个数据库管理系统的支持类型,并对这个类型进行优化。通过选择最为合适的表达结构概念的数据模型来确定逻辑结构,以选出最为合适的数据库刮泥系统。将实体之间的属性和他们之间的联系转换成相应的关系模式即为E-R图的关系转化模型。

2.3 数据库的物理建设阶段

为了实现数据库满足企业的需求,而对数据库进行了物理设计,这会对数据库的使用性和方便性产生一定的影响。结合分析各项的要求因素,把逻辑数据模型转换成物理结构,以方便后续检索功能的进行,来评估数据库设计的是否合理。

3 数据库建设中的技巧分析

在数据库地建设时,要满足市场的需求切实的提高数据库的质量和工作时的效率,这就要求要做好市场充足的调查,真正的理解市场的需求,以此来满足市场对数据库的要求。除了对数据库市场有着一定的调研基础外,还要对数据库业务的相关流程有着清楚的理解,这样会切实的提高工作的效率和质量。符合企业发展的数据库建设,可以解决对公司之间的沟通问题,也使得由于不清楚公司的需求而产生的数据库建设不合理的情况。这样会形成一种共赢的良好的局面。E-R图和数据字典的创建。实体之间的相互关系可以通过E-R图体现出来,实体对象和其所对应的关系属性可以用逻辑表来进行描述即为数据字典。专业化和规范化统一能够最大限度地发挥E-R图和数据字典的作用,更好地为企业服务。

4 小结

企业数据库的规范化建设能够提高企业信息数据收集时的效率。我们要加强对数据库信息化建设对企业发展的重要认识,并对数据库进行规范化处理,因为只有这样才能最大限度地使数据库建设发挥相应的效益。

摘要:随着我国现代化进程的不断加快以及社会经济文化水平的不断提高,我国的信息文化产业已经得到了长足的进步与发展。一个企业信息的收集能力,是这个企业文化产业产业链的重要的组成部分,是企业形成社会信息化的基石,一个企业收集信息的能力,对于企业数据库建设的质量和数据库收集时的效率有着至关重要的作用。因此,企业信息收集质量的提高,以满足企业的需求,是现今一个企业发展的重要里程碑。我国的社会信息市场发展得越来越快,企业信息数据库的建设也体现出许多新的局面,如数据库的智能化和复杂化可以说是现代数据库最好的体现。本文分析了在企业信息收集中数据库的设计工作所起到的重要作用,深入分析和探讨了数据库在设计时如何更好地对数据库进行规范化、智能化进行设计。

关键词:数据库信息,设计规范,设计技巧,信息化建设

数据库规范 篇2

通常情况下,可以从两个方面来判定数据库是否设计的比较规范。一是看看是否拥有大量的窄表,二是宽表的数量是否足够的少。若符合这两个条件,则可以说明这个数据库的规范化水平还是比较高的。当然这是两个泛泛而谈的指标。为了达到数据库设计规范化的要求,一般来说,需要符合以下五个要求。

要求一:表中应该避免可为空的列

虽然表中答应空列,但是,空字段是一种比较非凡的数据类型。数据库在处理的时候,需要进行非凡的处理。如此的话,就会增加数据库处理记录的复杂性。当表中有比较多的空字段时,在同等条件下,数据库处理的性能会降低许多。

所以,虽然在数据库表设计的时候,答应表中具有空字段,但是,我们应该尽量避免。若确实需要的话,我们可以通过一些折中的方式,来处理这些空字段,让其对数据库性能的影响降低到最少。

一是通过设置默认值的形式,来避免空字段的产生。如在一个人事治理系统中,有时候身份证号码字段可能答应为空。因为不是每个人都可以记住自己的身份证号码。而在员工报到的时候,可能身份证没有带在身边。所以,身份证号码字段往往不能及时提供。为此,身份证号码字段可以答应为空,以满足这些非凡情况的需要。但是,在数据库设计的时候,则可以做一些处理。如当用户没有输入内容的时候,则把这个字段的默认值设置为0或者为N/A。以避免空字段的产生。

二是若一张表中,答应为空的列比较多,接近表全部列数的三分之一。而且,这些列在大部分情况下,都是可有可无的。若数据库治理员碰到这种情况,笔者建议另外建立一张副表,以保存这些列。然后通过要害字把主表跟这张副表关联起来。将数据存储在两个独立的表中使得主表的设计更为简单,同时也能够满足存储空值信息的需要。要求二:表不应该有重复的值或者列

如现在有一个进销存治理系统,这个系统中有一张产品基本信息表中。这个产品开发有时候可以是一个人完成,而有时候又需要多个人合作才能够完成。所以,在产品基本信息表产品开发者这个字段中,有时候可能需要填入多个开发者的名字。

如进销存治理中,还需要对客户的联系人进行治理。有时候,企业可能只知道客户一个采购员的姓名。但是在必要的情况下,企业需要对客户的采购代表、仓库人员、财务人员共同进行治理。因为在订单上,可能需要填入采购代表的名字;可是在出货单上,则需要填入仓库治理人员的名字等等。

为了解决这个问题,有多种实现方式。但是,若设计不合理的话在,则会导致重复的值或者列。如我们也可以这么设计,把客户信息、联系人都放入同一张表中。为了解决多个联系人的问题,可以设置第一联系人、第一联系人电话、第二联系人、第二联系人电话等等。若还有第三联系人、第四联系人等等,则往往还需要加入更多的字段。

可是这么设计的话,会产生一系列的问题。如客户的采购员流动性比较大,在一年内换了六个采购员。此时,在系统中该如何治理呢?难道就建立六个联系人字段?这不但会导致空字段的增加,还需要频繁的更改数据库表结构。明显,这么做是不合理的。也有人说,可以直接修改采购员的名字呀。可是这么处理的话,会把原先采购订单上采购员的名字也改变了。因为采购单上客户采购员信息在数据库中存储的不是采购员的名字,而只是采购员对应的一个编号。在编号不改而名字改变了的情况下,采购订单上显示的就是更改后的名字。这不利于时候的追踪。

所以,在数据库设计的时候要尽量避免这种重复的值或者列的产生。笔者建议,若数据库治理员碰到这种情况,可以改变一下策略。如把客户联系人另外设置一张表。然后通过客户ID把供给商信息表跟客户联系人信息表连接起来。也就是说,尽量将重复的值放置到一张独立的表中进行治理。然后通过视图或者其他手段把这些独立的表联系起来。要求三:表中记录应该有一个唯一的标识符

在数据库表设计的时候,数据库治理员应该养成一个好习惯,用一个ID号来唯一的标识行记录,而不要通过名字、编号等字段来对纪录进行区分。每个表都应该有一个ID列,任何两个记录都不可以共享同一个ID值。另外,这个ID值最好有数据库来进行自动治理,而不要把这个任务给前台应用程序。否则的话,很轻易产生ID值不统一的情况。

另外,在数据库设计的时候,最好还能够加入行号。如在销售订单治理中,ID号是用户不能够维护的。但是,行号用户就可以维护。如在销售订单的行中,用户可以通过调整行号的大小来对订单行进行排序。通常情况下,ID列是以1为单位递进的。但是,行号就要以10为单位累进。如此,正常情况下,行号就以10、20、30依次扩展下去。若此时用户需要把行号为30的纪录调到第一行显示。此时,用户在不能够更改ID列的情况下,可以更改行号来实现。如可以把行号改为1,在排序时就可以按行号来进行排序。如此的话,原来行号为30的纪录现在行号变为了1,就可以在第一行中显示。这是在实际应用程序设计中对ID列的一个有效补充。这个内容在教科书上是没有的。需要在实际应用程序设计中,才会把握到这个技巧。

要求四:数据库对象要有统一的前缀名

一个比较复杂的应用系统,其对应的数据库表往往以千计。若让数据库治理员看到对象名就了解这个数据库对象所起的作用,恐怕会比较困难。而且在数据库对象引用的时候,数据库治理员也会为不能迅速找到所需要的数据库对象而头疼。

为此,笔者建议,在开发数据库之前,最好能够花一定的时间,去制定一个数据库对象的前缀命名规范。如笔者在数据库设计时,喜欢跟前台应用程序协商,确定合理的命名规范。笔者最常用的是根据前台应用程序的模块来定义后台数据库对象前缀名。如跟物料治理模块相关的表可以用M为前缀;而以订单治理相关的,则可以利用C作为前缀。具体采用什么前缀可以以用户的爱好而定义。但是,需要注重的是,这个命名规范应该在数据库治理员与前台应用程序开发者之间达成共识,并且严格按照这个命名规范来定义对象名。

其次,表、视图、函数等最好也有统一的前缀。如视图可以用V为前缀,而函数则可以利用F为前缀。如此数据库治理员无论是在日常治理还是对象引用的时候,都能够在最短的时间内找到自己所需要的对象。

要求五:尽量只存储单一实体类型的数据

这里将的实体类型跟数据类型不是一回事,要注重区分。这里讲的实体类型是指所需要描述对象的本身。笔者举一个例子,估计大家就可以明白其中的内容了。如现在有一个图书馆里系统,有图书基本信息、作者信息两个实体对象。若用户要把这两个实体对象信息放在同一张表中也是可以的。如可以把表设计成图书名字、图书作者等等。可是如此设计的话,会给后续的维护带来不少的麻烦。

如当后续有图书出版时,则需要为每次出版的图书增加作者信息,这无疑会增加额外的存储空间,也会增加记录的长度。而且若作者的情况有所改变,如住址改变了以后,则还需要去更改每本书的记录。同时,若这个作者的图书从数据库中全部删除之后,这个作者的信息也就荡然无存了。很明显,这不符合数据库设计规范化的需求。

碰到这种情况时,笔者建议可以把上面这张表分解成三种独立的表,分别为图书基本信息表、作者基本信息表、图书与作者对应表等等。如此设计以后,以上碰到的所有问题就都引刃而解了。

首个云数据中心建设规范发布 篇3

云计算作为未来新一代信息技术与IT应用方式变革的核心、我国战略性新兴产业发展的重点领域,已经成为当前信息技术产业发展和应用创新的热点。大规模、高等级、服务化、节能型的云计算数据中心即是云计算技术的典型应用实践,更是新一代IT应用与云计算服务的关键支撑平台,因此成为云计算产业发展的排头兵,掀起了一场云计算数据中心建设与传统数据中心云化的热潮,为云计算产业发展提供了良好的基础设施保障。

云计算推动数据中心建设呈现“绿色改造、云化加速、产业融合、模块建设”四大特点

据不完全统计,目前超过20个城市将云计算作为重点发展产业,相继出台了产业发展规划、行动计划,鼓励建设示范试点工程,制定了土地、税收、资金等方面的优惠政策。在云计算的驱动下,数据中心大集中的发展趋势将进一步加快,第三方数据中心市场将快速发展,数据中心产业化发展成为大势所趋。目前数据中心建设呈现出四大特点:业务发展驱动传统数据中心加入绿色改造与重建行列;新技术应用推动下一代数据中心云化进程;产业融合化趋势明显,企业战略合作和联盟更加紧密;模块化数据中心建设模式在行业内迅速推广。

云计算促进数据中心发展呈现“区域布局集聚化、建设集约化、应用虚拟化”三大趋势

我国大国大市场的优势明显,无论人口基数,还是网民规模都位居全球第一,随着两化融合、三网融合、物联网等应用的纵深推进,数据中心需求潜在巨大。随着各地数据中心建设的热潮,数据中心的发展也正在发生变化,呈现三大趋势:从布局上,总体向富能源、高纬度地区转移;从云环境下对数据中心的需求上,呈现建设集约化、管理智能化、平台开放化、建设与运营服务标准化趋势;从数据中心应用上,数据中心网络虚拟化将成重点,自动化、智能化管理将成为数据中心高效运行的支撑,数据中心绿色节能技术应用将更加深入。

云计算数据中心建设面临“选址有风险、设计不规范、应用不充分、扩展难实现”等巨大挑战

数据中心由各种软硬件设备组成,由于这些设备所产生的能耗巨大,管理和维护复杂,使得数据中心在能源效率、降低成本、灾难恢复、业务连续性、空间拓展、智能管理等方面面临重大挑战。同时,由于中国云计算数据中心建设缺乏相关标准和规范,造成云计算数据中心的建设出现定位不清晰、规模评估不恰当、选址有风险、设计不规范、应用不充分、扩展难实现、能效标准低、运维成本高等问题。云计算数据中心的建设亟待引导和规范,这是数据中心得以健康发展,形成规模化、产业集群化发展的前提。

云计算数据中心建设亟待从“整体规划、基础设施、基础架构”等关键环节进行规范

时空数据库规范化问题的研究 篇4

对于传统关系数据库,一般用函数依赖、多值依赖和连接依赖表示关系模式满足的属性间固有的约束,文献[1,2,3]中基于它们对关系数据库进行的规范化问题作了大量的研究。

对于时态数据库,文献[4,5,6,7]分别提出了各自的时态数据依赖概念。CS.Jensen在文献[4]中讨论了基于BCDM 模型的时态函数依赖;J.Wijsen在文献[5]中定义了4 种类型的依赖:快照函数依赖(SFDs),动态函数依赖(DFDs),时态函数依赖(TFDs)及间隔依赖(IDs);XS.Wang在文献[6]讨论了具有多时间粒度的时态数据库的逻辑设计问题,定义时态三范式和时态BC范式,并提出了相应的分解算法。鉴于此,文献[7]中J.Wijsen又将其扩充到对复杂对象的约束。基于TFD,XS.Wang提出了时态三范式(T3NF)和时态Boyce-Code范式(TBCNF)的概念,并给出了相关模式分解算法。

有关关系数据库函数依赖以及时态函数依赖的论述见文献[8],对于关系数据库的规范化均有详细的论述。Wang在文献[6]中给出了时态模式及时态函数依赖等相应的描述。基于关系数据库和时态数据库规范化理论的成果,结合文献[6,7,8,9]提出了时空一范式、时空二范式、时空三范式,并对它们的规范化程度的高低次序进行了证明。

1 基本概念

由于时空数据库中引入了时间维和空间维,给时空数据库的设计带来了非常大的困难,在进行时态数据库逻辑设计时,传统关系数据库的一些基础理论需要进行相应的扩展和修改。扩展的核心是时态函数依赖(TFD)。

定义1(时态类型):时态类型是一个从确定的整数(时刻)集合到2R(绝对时间集合)的投影μ,使得对所有确定的整数i,j(i<j),满足:

(1) 若μ(i)≠Φ,μ(j)≠Φ,则μ(i)中的每一个实数小于μ(j)中的所有实数;

(2) 若μ(i)=Φ,则μ(j)=Φ

定义2(细于关系):μ1和μ2是时态类型,如果对每一个确定的整数i,存在整数j满足μ1(i)⊆μ2(j),则称μ1细于μ2,记作μ1≤μ2。

在本文中,经常把μ1(i)⊆μ2(j)描述为:μ2的时刻j覆盖μ1的时刻i。若μν,μv,则称μ严格细于v,记作:μ<v

任何时态类型集相对于细于关系都存在最小下界和最大上界,分别记作μBottom和μTop。它们的定义为:①对每个i>1,μTop(1)=R,μTop(i)=Φ。②对每个i,μBottom(i)=Φ。在不产生二义性情况下,用Top和Bottom分别表示μTop和μBottom。对任意一对时态类型μ1和μ2分别存在一个最大下界和最小上界,分别记作glb(μ1,μ2)和lub(μ1,μ2)。由细于关系的定义可知:μμ;若μ1≤μ2,μ2≤μ1,则μ1=μ2;若μ1≤μ2,μ2≤μ3,则μ1≤μ3。由此可知细于关系是自反的、反对称的、传递的,即对于任何时态类型集T,T对于≤是偏序集。

定义3(集细于关系):{μ1,…,μn}是一个时态类型集,v是一个时态类型。如果对每一个确定的整数i,存在1≤kn及整数j,使得v(i)⊆μk(j),则称v集细于{μ1,…,μn},记作vc{μ1,…,μn}。

空间属性域一般不会作为时空关系的主属性(关键字属性),在函数依赖概念的层次上可以不考虑它的决定作用。因此在研究时空关系的规范化理论时,主要考虑时间属性的作用。

定义4(时空模式与时空模型):一个时空关系模式定义为一个三元组(R,v,μ),其中R是传统的关系模式,v是空间类型,μ是时态类型。相应的时空模块定义为一个四元组(R,v,μ,Ф),Φ是时间窗口函数,是从一个确定的整数(时刻)集合到2Tup(R)的映射(Tup(R)表示R的所有元组的集合),Φ(i)等于在时间μ(i)以及v(i)内有效的元组集合,若μ(i)=Φv(i)=Φ,则Φ(i)=Φ

例1:考虑一含有时间和空间属性的模式BUS看成是时空模式(Bus,Line,Day)的一个时空模型,其中:Bus=<Time(发车时间),Bno(车次),Cname(司机姓名),Wage(司机工资)>,Line为公交线路,Day为时态类型。则表1所示的实例对应的时间窗口函数Φ为:

如果其中Line=<start(始发站),end(终点站)>,A=<火车站,哈尔滨理工大学>则表1所示的关系实例对应的时间窗口函数Φ为:

Φ(3/4/93)={<6:00, 11,张三,1000,A>}

Φ(3/4/93)={<9:00, 12,马六,1500,B>}

Φ(3/5/94)={<6:00, 11,张三,2000,A>}

定义5(逻辑蕴涵):F是STFD集,若每一个满足F的时空模型M都满足STFD:XμY,则称F逻辑蕴涵XμY

定义6(时空关键字):(R,V,μ)是一个时空模式,F是包含R,V中属性的STFD集,属性集XRV,若XμYF逻辑蕴涵,则称X是(R,V,μ)的一个时空超关键字。若对每一个属性AX,X-{A}都不是(R,V,μ)的时空超关键字,则称X是(R,V,μ)的一个时空候选关键字,简称时空码。

包含有时空候选关键字的属性称为时空主属性,反之,不属于任意一个时空候选关键字的属性称为非时空主属性。

定义7(时空函数依赖):设X,YRV上的有限集,μ是时态类型且存在i,使得μ(i)≠ΦX称在时态类型μ上函数决定于YY在时态类型μ上函数依赖于X,记作XμY

显然,时空函数依赖XμY表示:对于任意两个元组t1,t2,若分别使t1,t2有效的时间都被μ的某时刻覆盖,且t1[X]=t2[X],则t1[Y]=t2[Y]。

定义8(闭包):设F是包含RV中属性的STFD集,F所逻辑蕴含的函数依赖的全体叫做F的闭包,记为F+;X+F={AXA能由F导出},X+F称为属性集X关于函数依赖集F的闭包。

定义9(时空完全函数依赖): 设F是包含RV中属性的STFD集,如果时空函数依赖XμYF+,存在X的真子集X′⊂X,使得X′→μYF+,称Y时空部分依赖于X;若不存在这样的真子集X′,称Y时空完全依赖于X

现在给出STFD的有效和完备的推导规则,它们是Armstrong公理在时空上的扩展。

STFDIR1(自反规则): 若YX,则XμY成立,μ是任意时态类型;

STFDIR2(增广规则):若XμY,则XZμYZ;

STFDIR3(传递规则): 若XμY,YμZ,则XμZ;

STFDIR4(继承规则): 若Xμ1Y,Xμ2Y,…,XμnY,且μc{μ1,…,μn},则XμY

前面三个规则由传统FD直接扩展得出,第四个由集细于关系得出。同传统的函数依赖集一样,时空函数依赖集也存在冗余现象,根据消除异常的程度,可分为各种不同等级的范式。

定义10(时空一范式):一个时空模式(R,V,μ),若它的每个属性都是原子属性,即属性值域中的值是不可再分的最小数据单元,记为ST1NF。

如果某个时空数据库模式的每一个时空模式都属于时空一范式,则称该时空数据库模式属于时空一范式。

定义11(时空二范式):一个时空模式(R,V,μ)是时空二范式,若它是时空一范式,并且每一非时空主属性都完全依赖于它的每一个时空候选关键字。记为ST2NF。

如果某个时空数据库模式的每一个时空模式都属于时空二范式,则称该时空数据库模式属于时空二范式。

定义12(时空三范式):(R,V,μ)为一时空模式,F是包含RV中属性的STFD集。若F逻辑蕴涵的每一个STFD:XvA(XARV, AX,∃i,j使得μ(i)⊆v(j))至少满足以下条件之一,则称(R,μ)是时空第三范式(T3NF)。

(1) A是时空主属性。

(2) X是时空超关键字,并且不存在整数i1,i2(i1≠i2),使得XA∈πu(i1,i2)(F);除非存在i3≠i1,使得XA∈πu(i1,i3)(F),XA∉πu(i1,i2,i3)(F)。

2 相关定理

定理1:STFD推导规则是有效的。

证明:

(1) STFDIR1(自反规则):设XY,对(R,V,μ)中的任一时空关系r中的两个元组t1,t2,若分别使t1,t2有效的时间都被μ的某时刻覆盖,且t1[X]=t2[X],有t1[Y]=t2[Y]。所以XμY成立。自反规则得证。

(2) STFDIR2(增广规则):设XμY,对(R,V,μ)中的任一时空关系r中的两个元组t1,t2,则有t1[X]=t2[X]且t1[Y]=t2[Y]。若t1[XZ]=t2[XZ],则有t1[X]=t2[X]和t1[Z]=t2[Z],所以t1[YZ]=t2[YZ]。增广规则得证。

(3) STFDIR3(传递规则):设XμY,YμZ,对(R,V,μ)中的任一时空关系r的两个元组t1,t2,若t1[X]=t2[X],则有t1[Y]=t2[Y],再由YμZ,有t1[Z]=t2[Z],所以XμZ。传递规则得证。

(4) STFDIR4(继承规则):设Xμ1Y,Xμ2Y,…,XμnY,对(R,V,μ)中若存在时态类型μ使得μc{μ1,…,μn},则XμY。继承规则得证。

引理1:XμY1, Y2,…,Yn,成立的充要条件是XAi成立(i=1,2,…,k)。

定理2:STFD推导规则是完备的。

证明完备性的逆否命题,即若函数依赖XμY不能由F从STFD推导规则导出,那么它必然不为F所蕴含,它的证明分三步。

(1)若VμW成立,且VXF+,则WXF+。

证:因VXF+,所以有XμV成立;于是XμW成立。所以WXF+。

(2)若r不是时空模式上对应的时空关系,记r由{U-XF+}构成。由r的构成可知,V必定是XF+的子集,而W不是XF+的子集,与第(1)步矛盾。所以r必是时空模式上的一个时空关系。

(3)若XμY不能由F从STFD推导规则导出,则Y不是XF+的子集,因此必有Y的子集Y1满足U-XF+,则XYr中不成立,与第(2)步矛盾。

STFD推导规则的有效性和完备性得证。

定理3:任何时空三范式一定是时空二范式。

证明:考察原命题的逆否命题:一个时空模式(R,V,μ)不是时空二范式,则它一定不是时空三范式。

假设时态模式(R,V,μ)不是时空二范式,则根据定义11,存在非主属性对时空码的部分时态依赖。设时空码为X,R中的非时空主属性A部分时空依赖于时空码X,即有X′⊂X,使得X′→μA成立。

可以看出,XμX′,X′→μA,X′→/ μX,(若X′→μX,而X′为时空码X的真子集,根据时空码的定义,X不为时空码,与假设矛盾),且AX(由于A为非时空主属性)。由上可知,时空模式(R,V,μ)中有非时空主属性时空传递依赖于时空码X,即当i1≠i2,XμA∈πu(i1,i2)(F),且不存在i3,i1≠i3,使 XμA∈πu(i1,i3)(F),但XμA∈πu(i1,i2,i3)(F)。故(R,V,μ)不是时空三范式,定理3的逆否命题成立,因此定理3得证。

3 结束语

在关系数据库和时态数据库中,通常用范式这种形式化的方法来进行数据库的规范化,在时空数据库中也是如此。许多研究人员以及学者在关系和时态范式问题上进行了深入的研究,通过把其规范到某种范式级别来达到消除冗余的目的。本文在关系数据库、时态数据库规范化理论的基础上,提出时空函数依赖,时空关键字,时空完全函数依赖的概念,并定义了时空一范式、时空二范式和时空三范式,为解决实际的时空数据库逻辑设计问题开辟了新道路。

参考文献

[1]严云洋,杨民.关系数据库模式中候选码的求解算法[J].现代计算机,1999,6:89-94.

[2]张旭.关系型数据库的规范化[J].武汉工程职业技术学院学报,2002,4:98-105.

[3]马雪英,冯睿.基于函数依赖的模式分解方法[J].计算机应用与软件,2004,4:123-130.

[4]CS.Jensen,Clifford J.A Glossary of temporal database concepts[J].ACM SIGMOD Record,1994,23(1):52-64.

[5]Wijsen J.Design of Temporal Relational Databases Based Dynamic andTemporal Functional Dependencies[J]//Proc of the International Work-shop on Recent Advances in Temporal Databases,1995:61-76.

[6]Wang X S,Bettini C,jajodia S.Logical Design for Temporal Databaseswith Multiple Granularities[J].ACM Transactions on Database System,1997,22(2):115-170.

[7]Wijsen J.Temporal FDs on Complex Objects[J].ACM Transactions onDatabase System,1999,24(1):127-176.

[8]郝忠孝.关系数据库数据理论新进展[M].北京:机械工业出版社,1998.

数据库规范 篇5

大数据不仅改变了我们的价值思维,也将改变中国的经济格局。以前的贵州省,俨然是有如桂林山水甲天下一样的美景,旅游是贵州省的标签,但是整体经济发展并不好。现如今,云计算和大数据的时代,让贵州抓住了机会,“云上贵州”成为新的代名词,成为全国关注的焦点,经济“弯道超车”成为可能。抢滩大数据,架设新引擎

前不久,贵阳国际大数据产业博览会的盛景历历在目,不仅受到国家高度重视,企业广泛参与,更不乏BAT、甚至国际化巨头的身影。

从客观条件来讲,贵阳特殊的地形、气候因素,温度较为适宜,而且不适合发展化工、重工等产业,推进大数据产业的建设是时代大势所趋。从深层次讲,贵州是全国率先开放政府数据的城市,尽管全国很多地方政府都在推动大数据产业的建设,但贵州省却是第一个以全省之力推动其发展的地区,因此获得了阿里巴巴、富士康等大企业的大力支持。

如今,数据中心集群地、中国数谷、数博会、数交所、大数据战略重点实验室、全城公共免费Wi-Fi无线热点等先后落地,为贵州的经济发展架设了新引擎。看清价值,政府推动数据公开 中国已经来到转型期的关键时期,政府致力于通过实施“互联网+”行动计划,利用互联网、大数据、云计算为大众创业、万众创新提供平台数据和服务支撑。国务院副总理马凯在贵阳国际大数据产业博览会上指出,大数据已经成为新时代最具价值的宝藏之一。某种程度上说,谁拥有了大数据谁就拥有了未来。

数据在哪?统计显示,随着电子政务建设的不断发展,各级政府积累了大量与公众生产生活息息相关的数据,掌握着全社会信息资源的80%,其中包括3000余个数据库,数据“金矿”已经形成,亟待挖掘。

但是,长期以来,这些信息大多处于不对外公开状态,难以体现数据的价值。比如,部门之间、上下级之间的政府信息相互割裂,不共享,形成一个个“信息孤岛”,不仅制约了政府社会治理水平,也让百姓深受其苦,甚至出现了老百姓跑断腿证明“我妈就是我妈”的笑话,引起总理震怒。

清华大学经济学博士研究生冯煦明表示,人们往往只把公共信息公开和提高政府透明度联系起来。但实际上,开放公共数据的意义远不止此。如果埋藏在档案馆的文件中,数据永远只能是一堆数据;如果放在开放平台上,就有可能被深度挖掘,变成有用的信息,使社会运行更加高效。

认识到大数据的价值,国家领导人多次公开表态推动政府数据开放。自去年3月“大数据”第一次出现在《政府工作报告》中以来,就被李克强在不同的场合多次提及。仅去年就有6次国务院常务会议的议题与大数据运用有关。李克强总理曾表示:“不管是推进政府的简政放权,放管结合,还是推进新型工业化、城镇化、农业现代化,都要依靠大数据、云计算、所以,它应该是大势所趋,是一个潮流。”

紧接着2015年5月,国务院办公厅印发《2015年政府信息公开工作要点》,提出积极稳妥推进政府数据公开,为政府大数据的公开提供了政策支撑。政府大数据公开在行动

据了解,我国正在积极推动加快建立政府信息采集、存储、公开、共享、使用、质量保障和安全管理的技术标准方面的工作。

近日,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》,明确工信部、国家标准委员会、国家发改委、质检总局、网信办、统计局等多部门建立大数据标准体系,研究制定有关大数据的基础标准、技术标准、应用标准和管理标准等工作,计划将于2020年前出台并实施。

中国工信部部长苗圩在贵阳国际大数据产业博览会上说,工信部将编制实施软件和大数据产业“十三五”发展规划,支持软件企业和工业企业跨界融合、协同创新,在基础软件等重点领域突破一批核心技术,并加快安全可靠信息系统建设,全面提高信息安全保障综合能力。在近日召开的大数据产业“十三五”发展规划编制工作组会议上,贵阳大数据交易所作为规划编制组成员单位参加了会议,并在会上就大数据清洗工作等内容提出了建议,受到了工作组其他成员的高度认可。随着国家在部署运用大数据优化政府服务和监管、提高行政效能上的不断加强,地方政府对于开放数据的态度正在逐渐转变,步伐也在不断加快,北京、上海等全国多个地方政府均在一定程度上开放了政府数据,起到了引领和示范作用。开放数据,交易放大价值

政府数据不仅要开放,也要自由流动,如同银行货币,只有加速其流动,才能创造巨大的效益,促进经济增长。阿里巴巴董事局主席马云称大数据是未来最重要的“能源”。然而,如何让大数据通过转换,成为真正意义上的资产,让大数据资产在更大范围内合法规范化的商品交易和流通,才能体现数据的真正价值。

从过程来讲,数据的产生、收集是第一步,数据的分析、处理是第二步,将处理的数据进行交易,放大数据的价值是第三步,也是最核心的一步。大数据作为资产,必须经过清洗、分析、建模、可视化之后,才能进行交易,才具有价值。

贵阳大数据交易所总裁王叁寿曾表示,如今,大数据就像空气一样无处不在,深入渗透到社会生活的各个领域。但是,这些数据还需要进一步的加工才能发挥价值。他打了个比方,数交所的交易数据加工出来的商品,就像调鸡尾酒一样,几种酒调和在一起,融合后再卖给客户,这是交易所的价值。数据交易,规范化运作先行

提到数据,消费者往往非常敏感,尤其是将数据明码标价进行变现,实现互联互通,让消费者产生了很多疑问:有没有一个规范化的平台,确保数据交易的合法、安全、可靠?值得一提的是,以大数据产业为制高点,贵阳大数据交易所(下称“数交所”)成为国内首家数据交易中心。

从企业性质上,它既不是公益组织,也不是行政服务部门,而是100%市场化运营的商业机构。面向全国乃至全球提供数据交易服务,通过电子交易,利用大数据交易系统撮合客户之间的大数据产品交易。数据品种覆盖了政府、医疗、金融、企业、电商、交通、社会等30多个领域。

从运营模式上,数交所采用会员制,对会员的资质审查除了卖方数据合法性与价值,还会约束买方会员的数据使用准则,确保不能滥用。目前,已有天弘基金、京东、华为、软通动力、中国人寿、中国联通等150余家会员单位,预计到年底发展为1000多家会员,将进一步放大数据交易的价值。

另外,数交所只针对B2B,不针对B2C,不开展个人的会员交易。而且交易的数据不是底层数据,而是通过清洗格式等技术标准完成的交易数据,让它变成一种商品,不存在侵犯个人隐私的问题。据悉,数交所的所有交易环节都在法律法规和政府监管下进行,交易所也成立了专家委员会,不仅监管大数据来源的合法性,也对大数据购买后是否被滥用做了很多约束。

贵阳大数据交易所总裁王叁寿强调,数交所是一个资源聚合平台,不是一种简单的业务,而是生态圈的圆心。围绕大数据交易所,将衍生出大数据资产评估、大数据融资单方、大数据信用等很多产业链。结语

数据库规范 篇6

关键词:清水江文书;描述元数据;著录规范

中图分类号:G250.74

文献标识码:A

文章编号:1674-621X(2015)03-0059-04

清水江文书是流传于黔东南清水江流域苗族侗族地区特有的古代乡村文献,数量巨大,据有关专家保守估计散藏在乡村村民家中的清水江文书约30万件。对清水江文书这类多以纸质单件留存的古文献,最有效的保护方式是进行数字化保存。清水江文书数字化,需要建立系列标准和规范。目前有多家收藏单位分别在建设清水江文书数据库,如不规范建设,会导致开发的数据库不能兼容和正常使用,并会带来管理的新问题,还会造成人力和物力的大量浪费。清水江文书整理与开发研究团队为了建立一个通用并可实现异构多级管理的数据库,特探讨清水江文书数据库建设的系列标准,其中包括清水江文书数字对象描述元数据标准。清水江文书数字对象描述元数据,是指用来描述或标识清水江文书信息资源的数据,用于描述或识别清水江文书内容和外观特征,对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体位置与获取方式、制作与利用方法等。元数据标准是数据库建设的重要标准。为了满足我国数字图书馆建设规范的要求,清水江文书元数据设计特参考我国数字图书馆规范建设研究项目“专门数字对象元数据标准规范”系列成果,并结合清水江文书的特有属性,探讨和研究制定清水江文书数字对象描述元数据标准和著录规范。

一、清水江文书描述元数据基本框架的设定

作为一个数字对象描述元数据的设定,首先要明确其描述的对象和著录单位。本标准描述的对象即是清水江文书。清水江文书产生于明清至民国,主要包括卖契、财产析分合同、佃契、典契、借契、拨约字、宗族与婚姻文书、政治与法律文书、土地管理与赋税文书、军事与治安文书、民间信仰习俗、教育与科考、山场座簿与田土清册以及杂类。清水江文书的著录单位为每一份契约合同或文告。其数据信息的描述元数据应由核心元素、资源类型元素、个别元素三部分组成。

我国数字图书馆建设标准的数字对象描述复用Dublin Core的15个元素做为核心元素集,清水江文书描述元数据复用7个核心元素(Core ele-ment),它们分别是:题名、主要责任方式、其他责任方式、日期、出版者、附注、主题,由于清水江文书的特殊性,在复用这7个核心元数据时,变异调整为:文书题名,文书主体责任人,文书其他责任人,契约日期或文告时间,文告发布者,附注为对特定文书信息的附注,主题为文书类型的关键词。

清水江文书类型核心元素(Local Core ele-ment)参照我国数字图书馆建设标准设计为:载体形态,即为文书的物质载体、色彩、尺寸;收藏历史,包括获得方式和印记;馆藏信息。

个别元素作为清水江文书中的扩展信息进行记录。

二、清水江文书描述元数据设置及著录定义

1.题名

名称:题名;标签:Title;定义:契约文书的正题名及说明;术语类型:元素;元素修饰词:自拟题名、其他题名。

(1)自拟题名(文书签订时间+文书主体+文书类别)。名称:自拟题名;标签:Self;定义:文书不具有题名时,标引人员根据具体文书自行拟定的题名;术语类型:元素修饰;修饰:题名;注释:从文中拟定题名,按照(文书制定时间+契约文书主体+文书类别)拟定。

(2)其他题名。名称:其他题名;标签:Other;定义:清水江文书题名的其他替代写法或规范名称之外的其他名称;术语类型:元素修饰词;修饰:题名。

2.主要责任者

名称:主要责任者;标签:Creator;定义:契约主体人(卖方,其次买方)、官府文告发布者、文书责任实体;术语类型:元素;元素修饰词:责任者说明、责任方式。

3.其他责任者

名称:其他责任者;标签:Contributor;定义:契约签署的中人、凭中、担保人;术语类型:元素;元素修饰词:责任者说明、责任方式。

4.日期

名称:日期;标签:Date;定义:立契时间或文告时间;术语类型:元素。

(1)年号纪年。名称:年号纪年;标签:LunarDate;定义:明清皇帝年号纪年,且年号纪年前加上朝代:如“清”;术语类型:编码体系修饰词;修饰:日期。

(2)公元纪年。名称:公元纪年;标签:Grego-rian Calendar Date;定义:以耶稣诞生元年的太阳历纪年法;注释:国际通用的纪年法;修饰:日期。

5.出版者

名称:出版者;标簦:Publisher;定义:契约文告的发布者或发布主体;术语类型:元素。

6.附注

名称:附注;标签:Description;定义:契约文书中需要说明的问题。

(1)缺字附注。名称:缺字附注;标签:Description Quezi;定义:记录和描述扫描的契约文书缺少的文字描述;术语类型:元素修饰词;修饰:附注项。

(2)责任者附注。名称:责任者附注;标签:Description Creator;定义:对签约责任人或公告的实体需要进行的说明;术语类型:元素修饰词;修饰:附注项。

(3)相关文献附注。名称:相关文献附注;标签:Description Relation;定义:与契约文书有关联的文献说明。

7.关键词

名称:关键词;标签:Keyword;定义:不同种类的契约、文书;术语类型:元素。

8.载体形体

nlc202309011918

名称:载体形态;标签:Physical Description;定义:契约文书的载体形态;术语类型:元素;注释:此项著录契约文书的载体、色彩、开本或规格。

9.收藏历史

名称:收藏历史;标签:Collection History;定义:清水江文书的流传历史以及相关的内容;

注释:此项著录契约文书的收藏沿革、获得方式、购买价格等。

10.馆藏信息

名称:馆藏信息;标签:Location;定义:资源所属机构或提供资源的机构信息;注释:该项著录契约文书的收藏机构,如契约文书典藏号。

三、清水江文书描述元数据著录规范

为了准确地描述清水江文书,课题研究组拟定了《清水江文书数字对象描述元数据及著录规范》,其规范注释为:

1.清水汪文书题名无数据著录规范

清水江文书题名元数据是核心元素中的第一个。清水江文书的题名著录原则为:文书如有题名原则上照录;文书没有题名时,拟定题名。题名拟定的规范按照“契约文书签订时间+契约文书主体+契约文书类别(事由)”原则拟定。其中立契人为契约的主体,契约的种类按契约分类标准:卖契、佃契、典契等拟定。契约文书签订时间,按原契或文告时间照录。以下面的契约为例。

契1.立卖鱼塘人橱朝旺、朝举兄弟二人,夸因家下要钱使用,无从得处,自愿将到庙皆祖遗鱼塘二大房分落,外一边分为五股,自己出卖问到本房杨含珍兄弟二人承买为业,五股卖自己面分一股一半,议定价钱伍佰文正,其钱亲手领明,并无包卖他人分寸在内,自卖之后不得异言,如有不清,自前理落。今欲有凭,立有卖字为据。

亲笔 杨朝旺

凭中 龙广书

道光二十九年十一月十五日立卖

这份契约没有题名,按“契约文书签订时间+契约文书主体+契约文书类别(事由)”原则,拟定的题名为“道光二十九年十一月十五日杨朝旺、杨朝举立卖鱼塘契”

2.主要责任方式元数椐著录规范

立契人或文告人是契约文书的主要责任人,并进行元数据著录,符合数字对象描述的元数据著录规范。清水江文书的主要责任者可以是个人、家族、团体,或者官府文告发布者。同一责任方式著录不超过三个,多余三个著录为“某某等”。不同责任方式之间用分号。

如上契约为例:责任主体为“杨朝旺,杨朝举卖方”

3.其他责任方式元数据著录

在清水江文书数据库元数据著录规范中,是把契约文书中的“凭中”等作为其他责任人,有其特殊的意义。契约的签订,必有中人,曰“凭中”。清水江流域,民间各种契约活动的签订一定有中人参加,并在他们的介绍和参与下,当事者商定契约的内容,确认各自的意思并写下契据、文书。在契约文书签订中,中人有不可替代的作用,在交易双方中起中介,包括寻觅适当的交易伙伴,参与议定价格,监督和证明契、价的两相交付以及不动产中的临场踏清界址等。被选着中人的人在家族中是有一定的地位和声望,当事的各方都信任,并且大部分中人在契约签订过程中还分取定的担保金。所以在拟定的元数据著录规范中,把“凭中”作为责任人著录,在数据库中提供检索。上例中的其他责任人著录为“龙广书凭中”。

4.日期元数据著录

日期元数据是清水江文书数字对象描述的核心元素,每份契约文书都书写有日期。清水江契约文书中书写的日期除民国后期有些采用公元纪年的外,明清时期书写的日期一般是使用年号纪年时间或农历时间。契约日期在文书中起作重要的作用,清水江文书中的契约既是长期有效契约、同时又有时间段的限制。例如典契、佃契、杉木买卖契等。特别是“佃山栽种林木契”,林木从栽种到发卖,周期很长,契约中除了规定双方的权益外,还明确标注木质长大发卖后,土地要归还原主。像这样一类的契约,时间就有一定的约束力。所以契约文书日期是契约文书中的重要内容,在元数据著录规范中明确规定契约文书日期采用照录的原则,同时设立公元日期对应参照,并作为检索项。

5.出版者元数据著录

清水江文书对此项的元数据进行了变通,并且是作为一个可选择的著录项。因文书中的绝大部分是私人契约,并大量由个人收藏,一般是不被公开和发布的,也就不存在出版者这一项的内容。但清水江文书中有定量的官府文书,官府文告的发布者应可作为出版者著录,对此项元数据核心元素进行了保留和变通。

6.附注项元数据著录规范

附注项是清水江文书元数据中的核心元素,对于附注项的著录规范是,凡契约文书需要说明的都加以说明。例如文书缺字附注的说明、文书释义说明、红契白契的说明、官契或私契的说明、单契或粘连契的说明等等。契约文书的附注项是一个非常灵活,并且提供大量信息的特殊项。例如下面的这一张契约:

契2.立典柴山沙(杉)木人扬俨然,今因要银取用,无从得处,自己将魁杞屋背柴山沙(杉)木壹块出典,问到岳寨秦现澋承议作价银壹两伍钱铜钱整。山内除有沙(杉)木陆根、南(楠)木壹根、青岗木壹根不典,大小沙(杉)木细柴任从典主,日后欲禁伍年,不限远近俻得原本价赎约,夸欲有凭,立典是实。

于飞代笔

道光十二年七月初四

同治二年二月杨大吉照契转典与杨业兴耕种,立转典是实。

同治三年扬业兴照契转典扬事权耕种是实。

大吉笔

这份契约现保存在杨事权后人手中。从契纸字面文字可看到,立典所指的魁杞屋背柴山沙(杉)被两次转典,什么原固原土地权人没有赎回这块杉山,笔者不得而知。但从对契约的著录来讲,这张契纸实际是三份典契,且地产权最后属于杨事权。所以附注项就要对三次转典进行说明。

7.关键词

关键词的著录采用抽取文书种类进行著录,每份文书选取2-4个关键词不等。例如:契2关键词:柴山杉木契,土地契,典契。

8.载体形态元数据著录规范

载体形态是清水江文书类型核心元素。“清水江文书”按载体区分,有纸契、布契、石契、皮契。在数据库中的扫描件基本上是纸契扫描件。对于纸契在载体形态项标注是:纸契;多少页;长X宽cm;毛边纸或绵纸或别的材质。石契是以照片的形式在数据库中呈现,对契约文书载体的描述,首先指明载体的类型:石契;碑文的长宽厚度;碑文位置。

9.收藏历史

收藏历史著录文书收藏沿革,注明获得方式。在元数据著录规范中,明确著录契约文书的收藏沿革、获得方式、购买价格;如果是扫描件,需著录从何处对原件进行扫描。

10.馆藏信息的著录规范

对馆藏信息的著录规范,著录原件现收藏地、馆藏号或收藏农户姓名。

清水江文书数字对象描述元数据的设计和著录规范,对元数据集的核心元素进行了定义和规范,并实际运用于数据库建设中。在实际著录时,清水江文书是一个较为复杂的复合对象,需要利用大量的地方知识,才能进行完整的描述。同时该文由于篇幅的关系,对清水江文书中数字对象描述的扩展元素没有论及。

数据库规范化理论教学探讨与实践 篇7

一、数据库规范化理论

关系数据库规范化理论的目标是得到一组满足用户需求的关系模式, 旨在设计出一个“好”的关系模式, 这里的“好”指的是数据拥有较少的数据冗余度和操作异常, 以便我们对数据进行高效的管理。

例如, 需要建立一个描述学校教务的数据库, 有学生表student的属性集合U = { Sno, Sname, Sdept, Mname, Cname, Grade} , 其中Sno表示学号、Sname表示学生姓名、Sdept表示所在系、Mname表示系主任姓名、Cno表示课程号、Grade表示成绩;现实世界已知事实的语义: 一个院系有若干学生, 一名学生只属于一个院系; 一个院系只有一名系主任; 一名学生可以选修多门课程, 每门课程有多名学生选修; 每个学生所学的每门课程都有一个成绩。如何判断student是不是一个“好”的关系模式呢? 经分析, 关系模式student有如下问题:

1. 数据冗余

如果一个院系有1000名学生, 而且每名学生大约选修了20门课程, 则院系名称和系主任姓名就要重复出现20000次, 造成了巨大的数据冗余。

2. 插入异常

如果一个院系刚成立, 暂无招生, 或者虽然有学生但尚未安排课程, 按照实体完整性的原则, 就无法把这个院系及系主任的信息录入到数据库。

3. 删除异常

如果某院系的学生全部毕业且无新生的情况下, 我们在删除该院系学生信息的同时, 把这个院系及其系主任的信息也一并删除了。

4. 更新异常

如果某系更换系主任或更换院系名称后, 系统必须修改与该院系相关的每一条记录;若有一条记录中的数据未实时更新, 就会造成数据不一致现象。因此, student不是一个“好”的关系模式。事实上, 数据冗余和操作异常现象产生的根源, 就是由于关系模式中属性间存在着复杂的依赖关系, 这种依赖都称为数据依赖。对于关系模式student ={ Sno, Sname, Sdept, Mname, Cname, Grade} , 其属性关系如图1所示, 由图1可看出, 关系模式student中存在一定的数据依赖, 如学生学号和学生姓名、学生学号和院系名称、院系名称和系主任之间都存在着依赖关系。

关系规范化理论正是用来改造关系模式, 对于“不好”的关系模式, 通过分解关系模式来消除其中不合适的数据依赖, 以解决插入异常、删除异常、更新异常和数据冗余问题; 对于关系模式student, 依据规范化理论的指导原则, 若消除数据冗余、异常等问题, 可将关系模式Student分解为三个关系模式: S ( Sno, Sname, Sdept) 、SC ( Sno, Cname, Grade) 、Dept ( Sdept, Mname) , 可基本解决以上问题。

二、确定理论教学的关键点

数据库规范化理论中, 通常是通过一个关系模式是否属于某一范式 ( Normal Forms, 简记为NF) 来确定其是否解决了数据冗余、操作异常等问题, 是否为一个“好”的模式。范式的种类与数据依赖有着直接的联系, 主要有1NF、2NF、3NF、BCNF等多种。一个低一级范式的关系模式, 通过模式分解 ( 投影运算) 可以转化为若干个高一级范式的关系模式的集合, 这个过程叫做规范化, 关系模式规范化的基本步骤如图2所示。

由图2可知, 在范式的判断中, 主要是对模式中主属性、非主属性、部分函数依赖、完全函数依赖、传递函数依赖、多值依赖的判别。关系模式中, 属于候选键的属性称之为主属性, 反之则为非主属性, 则候选键则成为主属性和非主属性的判断标准, 故候选键的判定是规范化理论的基石知识点。

数据库定义中, 如果关系模式中某一个属性或属性组能够唯一决定关系中其他所有属性的值, 而且其真子集无此性质, 则称这个属性或属性组称为该关系模式的候选键。在很多教学中, 很多教师忽略了候选键判定的重要性, 再加上时间关系, 直接省略掉候选键的规范化计算, 故造成很多学生在应用中判别不清, 跟着感觉走的现象严重。

在关系数据库理论中, 关系模式中属性集的闭包可判断属性是否为候选键。故在设计数据库时, 需要找出不同属性间的函数依赖, 根据这些依赖关系, 计算出关系模式中各属性集的闭包, 进而确定该关系模式的候选键。例如关系模式STC ( SNO, SN, SA, TN, CN, G) , F = { SNO→SN, SNO→SA, ( SNO, CN) →G} , 经过属性集闭包的计算, 得出STC的候选码为 ( SNO, CN, TN) , 该计算结果准确科学, 而不是某人看出来的或者感觉出来的。

三、结束语

数据库规范化理论可有效的消除数据依赖引起的冗余、异常, 在数据库设计中起着重要的作用, 针对于教材中出现的大量定义和概念类的知识点, 我们不能照本宣科地介绍知识点, 而应积极探索教学新方法, 明确教学目标, 变学生被动学习为主动学习, 让学生带着兴趣进入课程的学习, 使理论知识学习和实践操作的结合落到实处, 真正提高课程的教学质量。

摘要:数据库规范化理论是数据库技术中的一个重要的理论基础, 对应用系统的数据库设计起着重要作用。针对其在教学中存在的一些问题, 提出了具体的教学方案, 并结合具体教学案例加以说明。这种教学方法有利于提高课程的教学质量, 有利于提高学生对数据库规范化理论知识的掌握能力。

关键词:数据库,规范化理论,函数依赖,范式

参考文献

[1]王哲, 姜姗.《数据库原理》课程教学改革探讨与实践[J].中国校外教育, 2013, (11) :166-167.

[2]王艳, 沈晓晶, 赵慧娟.计算机专业数据库原理教学体系及教学模式探讨[J].计算机教育, 2012, (2) :54-57.

浅谈关系数据库中的规范化 篇8

规范化的理论首先由E.F.Codd于1971年提出, 目的是要让设计者能够设计出最优秀的关系数据库模式。具体主要体现在两个方面, 一方面可以最大可能的消除冗余数据, 如把相同的数据存储在超过一个表里;另一方面可以最大限度的确保数据的依赖性处于有效状态, 如相关数据只存储在一个表里。这两个目标的实现对关系数据库很有意义, 因为能够减少数据库和表的空间消耗, 并确保数据存储的一致性和逻辑性。

国际数据库界制定了一系列构建数据库必须遵循的特殊规则, 以确保数据库的规范化。在关系数据库里, 这种规则就是范式, 在数据库的世界里用数字来定义不同级别的范式, 根据关系模式满足的不同性质和规范化的程度, 把关系模式分为第一范式、第二范式、第三范式、BC范式和第四范式等, 范式越高、规范化的程度越高, 则关系模式越好, 越能体现上面两个目标。

在研究规范化应用于关系数据库之前, 有必要了解关系数据库的相关知识。

2、关系数据简介

数据库这一概念提出后, 先后出现了几种数据模型。其中基本的数据模型有三种:层次模型系统、网络模型系统、和关系模型系统。60年代末期提出的关系模型具有数据结构简单灵活、易学易懂且具有雄厚的数学基础等特点, 从70年代开始流行, 发展到现在已成为数据库的标准。目前广泛使用的数据库软件都是基于关系模型的关系数据库管理系统。它具有如下性质:

1、列是同质的, 即每一列中的分量是同类型的数据, 来自同一个值域;

2、不同的列可以出自同一值域, 每一列称为属性, 要给予不同的属性名;

3、行和列的顺序是无关紧要的, 即行和列的次序可以任意交换;

4、元组不可以重复, 即任意两个元组不能完全相同;

5、每一分量必须是不可分的最小数据项;

6、每个关系都有一个主关键字唯一标识它的各个元组。

3、规范化在关系数据库中的应用

数据库的设计范式是数据库设计所需要满足的规范, 满足这些规范的数据库是简洁的、结构明晰的, 同时, 不会发生插入、删除和更新操作异常。如果没有数据库设计所需要满足的规范, 不仅给数据库的编程人员制造麻烦, 而且可能存储了大量不需要的冗余信息。

3.1 第一范式 (1NF)

每个关系模式都应满足最低要求, 即关系的所有分量都必须是不可分的最小数据项, 关把其称为第一范式 (1NF) 关系。图1所示的表格就不是规范化的关系, 因其"学生"不是基本数据项, 将图1转换成图2所示的表格后就是规范化的1NF关系了。

很显然, 在当前的任何关系数据库管理系统 (DBMS) 中, 谁也不可能做出不符合第一范式的数据库, 因为这些DBMS不允许我们把数据库表的一列再分成二列或多列。因此, 我们想在现有的DBMS中设计出不符合第一范式的数据库都是不可能的。

3.2 第二范式 (2NF)

数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖 (部分函数依赖指的是存在组合关键字中的某些字段决定非关键字段的情况) , 也即所有非关键字段都完全依赖于任意一组候选关键字。

假定选课关系表为选课 (学号, 姓名, 年龄, 课程名称, 成绩学分) , 关键字为组合关键字 (学号, 课程名称) , 因为存在如下决定关系:

(学号, 课程名称) → (姓名, 年龄, 成绩, 学分)

这个数据库表不满足第二范式, 因为存在如下决定关系:

(课程名称) → (学分) ; (学号) → (姓名, 年龄)

即存在组合关键字中的字段决定非关键字的情况。

由于不符合2NF, 这个选课关系表会存在如下问题:

(1) 数据冗余:

同一门课程由n个学生选修, "学分"就重复存储了n-1次;同一个学生选修了m门课程, "姓名"和"年龄"就重复存储了m-1次。

(2) 更新异常:

若调整了某门课程的学分, 数据表中所有行的"学分"值都要更新, 否则会出现同一门课程学分不同的情况。

(3) 插入异常:

假设要开设一门新的课程, 暂时还没有人选修。这样, 由于还没有"学号"关键字, "课程名称"和"学分"也无法记录入数据库。

(4) 删除异常:

假设一批学生已经完成课程的选修, 这些选修记录就应该从数据库表中删除。但是, 与此同时, "课程名称"和"学分"信息也被删除了。很显然, 这也会导致插入异常。

把选课关系表改为如下三个表:

学生 (学号, 姓名, 年龄) ;课程 (课程名称, 学分) ;选课 (学号, 课程名称, 成绩) 。这样的数据库表是符合第二范式的, 消除了数据冗余、更新异常、插入异常和删除异常。

另外, 所有单关键字的数据库表都符合第二范式, 因为不可能存在组合关键字。

3.3 第三范式 (3NF)

在第二范式的基础上, 数据表中如果不存在非关键字段对任一候选关键字段的传递函数依赖则符合第三范式。所谓传递函数依赖, 指的是如果存在"A→B→C"的决定关系, 则C传递函数依赖于A。因此, 满足第三范式的数据库表应该不存在如下依赖关系:

关键字段→非关键字段x→非关键字段y

假定学生关系表为学生 (学号, 姓名, 年龄, 所在学院, 学院地点, 学院电话) , 关键字为单一关键字"学号", 因为存在如下决定关系:

(学号) → (姓名, 年龄, 所在学院, 学院地点, 学院电话)

这个数据库是符合2NF的, 但是不符合3NF, 因为存在如下决定关系:

(学号) → (所在学院) → (学院地点, 学院电话)

即存在非关键字段"学院地点"、"学院电话"对关键字段"学号"的传递函数依赖。

这个关系存在数据冗余、更新异常、插入异常和删除异常, 这里就不进行详细的分析了, 读者可以参考前面的分析, 自己进行理解分析。

把学生关系表分为如下两个表:学生 (学号, 姓名, 年龄, 所在学院) ;学院 (学院, 地点, 电话) 。这样的数据库表是符合第三范式的, 消除了数据冗余、更新异常、插入异常和删除异常。

3.4 BC范式 (BCNF)

在第三范式的基础上, 每个函数依赖的左部都是关键字, 即所有的决定因素都是关键字, 则符合BC范式。

假设仓库管理关系表为仓库管理 (仓库号, 设备号, 职工号, 数量) , 且有一个职工只在一个仓库工作;一个仓库可以存储多种物品。这个数据库表中存在如下决定关系:

(仓库号, 设备号) → (职工号, 数量) ;

(职工号, 设备号) → (仓库号, 数量)

所以, (仓库号, 设备号) 和 (职工号, 设备号) 都是仓库管理的候选关键字, 表中的唯一非关键字段为数量, 它是符合第三范式的。但是, 由于存在如下决定关系:

(仓库号) → (职工号) ; (职工号) → (仓库号)

即存在关键字段决定关键字段的情况, 所以其不符合BC-NF范式。

这个关系存在更新异常、插入异常和删除异常, 这里就不进行详细的分析了, 读者可以参考前面的分析, 自己进行理解分析。

把仓库管理关系表分解为二个关系表:

仓库管理 (仓库号, 职工号) ;仓库 (仓库号, 设备号, 数量) 。这样的数据库表是符合BCNF范式的, 消除了删除异常、插入异常和更新异常。

3.5 第四范式 (4NF)

要了解第四范式, 要先了解多值依赖, 那么什么是多值依赖呢?我们以一个实例来加以说明这个问题。

假设手机生产销售关系表为Phone (手机型号, 手机生产商, 手机商店) , 并且某手机生产商生产的任何手机都要, 并且只能在本手机生产商的所有商店进行销售。根据这个描述, 我们可以理解为:

(1) 一家手机生产商制造多种型号的手机, 但一种型号的手机仅有一家生产商制造;

(2) 一家手机生产商有多个手机商店, 但一个商店只属于一家生产商;

(3) 一家生产商在其全部手机商店出售全部型号的手机。

在这个关系中, 任何一个或两个字段的组合都不可能成为关键字, 它的关键字只能是全部三个字段的组合, 显然这个关系是BCNF的。

根据以上的规则, 比如某生产商推出了新型手机, 应在所有商店销售, 那么有几个商店, 就得向关系表中插入几条新记录, 同样新开一家商店, 则有几种型号的手机, 就要向关系表中插入几条新记录。反之, 比如有些手机被淘汰了, 则有几个商店, 就得在关系表中删除几条记录, 有些商店不开了, 则有几种型号的手机, 就得在关系表中删除几条记录。

造成这样结果的原因就是因为每个手机生产商都有一组手机型号与其对应, 而手机生产商生产的各种型号的手机与商店无关。这就是多值依赖, 称为手机型号多值依赖于手机生产商。当然这个关系上的数据冗余也是非常明显的, 数据增、删非常不方便。

把手机生产销售关系表分解为两个关系表:

手机生产 (手机型号, 手机生产商) ;手机销售 (手机生产商, 手机商店) 。这样的数据库表是符合第四范式的, 消除了删除异常、插入异常和数据冗余等。

4、结束语

规范化是在逐步消除非需函数依赖和多值依赖的过程中进行的。首先将复合项分解成最小数据项, 如果是单属性关键字关系, 那自然就是2NF关系, 否则消除部分函数依赖可得2NF关系, 接着判断是否有非主属性对关键字的传递函数依赖, 如果有就消除之, 可得3NF关系, 单属性关键字关系自然是BCNF关系, 若是复合关键字, 且有主属性对非主属性的函数依赖, 消除这种函数依赖可得BCNF关系, 最后判断是否有多值函数依赖, 从而得到4NF关系。

多数3NF关系自然是BCNF关系或4NF关系, 并且3NF关系已经消除了绝大部分操作异常现象。所以在实际数据库设计中, 对个别不是BCNF或4NF关系的3NF关系, 是否有必要做进一步的分解和转换, 可以视具体情况而定, 可以在后期的程序上做一些限定, 来避免一些操作异常现象的发生。

摘要:关系数据库规范化和函数依赖等问题, 是设计一个比较好的关系数据库模式必须要掌握的知识。本文利用几个容易理解的实例, 对数据库模式规范化过程中要注意的问题以及如何进行规范化进行了详细的阐述。

关键词:数据库,规范化,关系,范式

参考文献

[1]崔巍.数据库系统及应用[M]北京高等教育出版社, 1999

数据库设计中反规范化技术的应用 篇9

(一)数据库的规范化设计

规范化理论是研究如何将一个不好的关系模式转化为好的关系模式的理论,关系数据库中的关系要满足一定的要求即规范 (约束条件) ,满足不同程度要求的为不同范式,规范化理论把关系应满足的规范要求分为几级,分别是:第一范式 (1NF) ,第二范式 (2NF) ,第三范式 (3NF) ,BCNF范式,4NF, 5NF。范式的等级越高,应满足的约束集条件也越严格,规范的每一级别都依赖于它的前一级别。

数据库中的数据规范化的优点是减少了数据冗余,节约了存储空间,相应逻辑和物理的I/O次数减少,同时加快了增、删、改的速度,从关系模型的角度来看,数据表最好满足3NF最符合标准,这样的设计容易维护。

(二)数据库的反规范

未经规范化的数据库一般都有下述缺点:较大的数据冗余,数据一致性差,数据修改复杂,对表进行插入删除时会产生异常。规范化的作用就在于尽量去除冗余,使数据保持一致,使数据修改简单,除去在表中进行插入删除时产生的异常现象,有时故意保留成非规范化的数据结构,或者规范化以后又反规范了,这样做通常是为了改进性能。

1. 反规范化的必要性

数据库的规范化提高了系统性能,但不是单纯为了规范化而规范化,一个完全规范化的设计并不总能生成最优的性能,特别高范式等级的数据库在网络中不一定有高性能,因为使数据库规范化的方法是把表拆分成相关列最少的表,在进行数据库查询时,通常需要更多的复杂的联结操作,这样查询时就需要用占用较多的CPU资源和输入输出操作,才能查到客户端所需的数据,这会导致复杂度的增加和性能的下降,从而影响查询的速度,因此,有时为了提高某些查询或应用的性能而破坏规范规则,特别在网络环境中,有必要对规范化进行必要的平衡,使系统有最优的性能,提高数据库的网络性能,即反规范。例如:学生收费系统中,有两个表:

收费标准={学号, 收费标准,已收费,收费项目,收费年度}

收费收据={收据序列号,学号,收费日期,摘要信息,收款人}

收据明细={收据序列号,收费项目,缴费金额,费用年度}

从理论上讲,我们可以根据收费收据,无需收费标准中的“已收费”列,统计学生某年度nd的已缴费用通过如下的SQL语句即可得到,即:

SELECT学号, sum (缴费金额)

FROM收费收据, 收据明细

WHERE收费收据.收据序列号=收费收据.收据序列号AND费用年度=@nd

GROUP BY学号

但是,由于学生并非一次性缴清,可能分多次缴款,所以要查询指定学生的欠款情况就复杂,利用这样的数据库模式实现比较困难。若在表“收费标准”中增加”已收费”列,每次收款时对指定学生指定项目指定年度的“已收款”进行累加,这样就十分方便的统计学生的应缴款、已缴款、欠款。用如下的SQL语句即可轻松的完成

Select学号,收费标准, 已收费,Sum (收费标准-已收费)

From收费标准

Group BY学号

另一种情况,在收据表“收费收据”、“收据明细”中,没有学生“姓名”列,只有“学号”列,要查询交费情况学生的姓名,必须与“学生表”连接才能完成。一种特殊情况,如果学生在缴款后,学生改名,此时查询输出的收据信息就和原始的收据信息有差异,这种情况在实际应用中是不允许的。所以,在“收费收据”表中增加一列“姓名”, 这样,保证了收据的原始信息的正确性。

2. 有选择地实现模型的反规范化技术

进行反规范操作,要充分考虑数据的存取需求、表的大小、一些特殊的计算 (例如合计) 、数据的物理存储位置、应用需求特征等。常用的反规范技术是有意识的增加数据的冗余度,特别在网络数据库中适当增加数据的冗余是有好处的。增加冗余分两个层次:一是数据库层,二是表层。

数据库层数据冗余:系统建模无论采用何种体系结构,冗余数据可以数据副本的方式出现,副本的存在使许多应用可以“本地性”,大大减少了网络通信,提高了系统的性能。再有当某一结点出现故障时,由于拷贝副本的存在,系统仍可对此副本操作,而不至于因一处故障而使系统无法使用。

表层数据冗余:一是建立临时表或定义视图以减少频繁出现的多表联结,二是在数据库的设计时仅采用恰当的范式等级,增加冗余列。

(1)增加冗余列

是指在多个表中具有相同的列,它常用来在查询时避免连接操作。例如在“教务管理系统中”中,按照规范化的要求,一般有建立如下表

课程={课程号, 课程名称}

教师={教师编号, 教师姓名, }

教学={课程编号, 教师编号, 课时}

在实际应用中,经常检索一门课为“数据库原理”的任课教师姓名、课时等信息,则需要将“课程”表、“教师”和“任课”表的连接查询:采用如下的SQL语句:

Select教师.教师姓名, 教学.课时

from课程, 教师,教学

where教学.教师编号=教师.教师编号and

教学.课程编号=课程.课程号and

课程.课程名称=“C1”

如果在“教学”表中增加一列“教师姓名”就可以减少连接操作了。增加冗余列可以在查询时避免连接操作,但它需要更多的磁盘空间,同时增加了对表维护的工作量。确定是否增加列要视系统的具体情况,要根据查询的频度、表维护的工作量、数据量的大小来确定。

(2)增加派生列

指增加的列来自其它表中的数据,由它们计算生成。它的作用是在查询时减少连接操作,避免使用集函数。

例如在“销售管理系统”中,有三个表:

销售定单={定单编号, 定单日期}

定单明细={定单编号, 产品编号, 数量}

价格表={产品编号, 价格开始执行时间, 价格结束执行时间, 单价}

为了要求计算出一个定单的全部金额,需要做以下的工作:

●找出定单中的所有产品项,每一项对应为产品编号以及该的订购数量。

●对每一个订购产品,使用订购单中的订购日期来找到该产品在下订购单时的价格。

●合计所有计算出的价格。

用户每次查看其定单信息时,都需要涉及这三个表,对该数据模型做如下的修改。增加一派生列“定单金额“。

销售定单={定单编号, 定单日期,定单金额}

采用此方法后,查询一个定单的金额就容易得多,但对“定单”的修改都必须对”定单金额”进行更新,它只适合与不经常对“定单”进行修改的情况下。派生列也具有与冗余列、数据一致性等缺点,在实际应用中,对于具有比较复杂的运算的时候可以采用此方法。

(3)复制副本

在分布式网络数据库中,可以在本地建立相关数据库副本,对于一些常用的数据检索,直接从本地数据库获取。例如“学生成绩登陆与查询系统”中,在教师进行成绩进行登记时,可以先将学生的相关信息在本地建立副本,当教师确认成绩完成登记时,再将数据传输到网络数据库,若传输中有误,可以重新连接网络传输。这样,可以保证数据传输的正确性,以及数据检索的速度。现在许多的“证券分析系统”都采用此方法,将股票相关信息在连接网络时在本地建立副本,以提高数据检索和统计分析的速度。

(4)将过程数据的计算保存在一个本地表中

对于有些查询,可能要经过大量的对不同表格的运算,才能得到结果,这种查询的实际运用中要多次出现,我们可以建立一个副本,将运算的结果存入到副本中,查询时只在副本中查询即可。如在“收费系统中”,要查询“某班各年度的应交款、已交款、欠款情况”,需要做以下的工作:

●确定学生所在的班级

●学生交款情况

●按年度分班统计

如果设置一临时表专门来存放该信息、则完成此查询就方便多了。

班级交款表={班级, 年度, 收费标准, 已缴款}

(5)增加标识列

当一个表需要多个列的组合才能组成主键时,可以在表中合理的增加一列作为主键,唯一标识此表中的记录,一般这一列用的值是一个编号或是时间戳 (timestamp) 。在这种情况下增加列虽然多占了存贮空间,但是在索引中以此列代替大的组合键,从而获得了性能的提高。另外,为了应用程序设计的方便,也常在表中增加标识列,如“在学生收费系统”中,对于“收据表”

收费收据={收据序列号, 学号, 收费日期, 摘要信息,收款人}

可以增加标识列“状态”, 根据不同数据处理的不同业务流程,确定“状态”的值,如状态可以设为“未结帐、结帐、作废”等。这样就方便的表达了收据的状况,对数据的统计分析,也很方便。

(三)结束语

规范化后的表一般都较小,小的表意味着一个数据页中可以包含较多的记录,这样客户端用户就可在同样的时间内获得所需的更多数据记录,从而减少客户端与服务器端的物理输入与输出,减轻网络的负担。数据库的反规范设计可以提高查询性能, 降低连接操作的需求,降低外码和索引的数目,还可能减少表的数目。但相应带来的问题是可能出现数据的完整性问题。因此在做反规范时,一定要权衡利弊,仔细分析应用的数据存取需求和实际的性能特点。

参考文献

[1]萨师煊.数据库系统概论 (第三版) [M].高等教育出版社, 200.2.

绿色数据中心能效测评规范 篇10

关键词:数据中心,能效测评规范,综合能效比EER,吞吐量

0 引言

“绿色”一词如今已成为世界性的流行词, 建设绿色节能的世界环境更是在全球范围内达成了广泛的共识。政府也更加重视绿色节能的问题, 在国内的各个行业都大力推行了绿色节能的产业方针。长久以来, 耗电量巨大的数据中心一直都是政府及企业首席信息主管们的心头之痛。根据美国节能联盟 (Alliance to Save Energy) 资料显示, 以目前的增长速度继续下去, 如果数据中心的能效保持不变, 那么互联网数据中心的电费和用电需求将在不到10年的时间内翻倍, 如果按照这样的速度发展下去, 越来越多的企业将面临“买得起, 用不起”的尴尬境地。根据伯克利构架国家实验室的报告显示, 在2005年到2010年之间电费的支出差不多增长了一倍。而且由于全球“能源危机”的呼声愈演愈烈, 能源也在变得更为稀缺和昂贵, 不断攀升的能源成本正在逐渐成为企业的巨大负担, 如何有效降低能耗支出, 已经成为政府、企业首席信息主管们急需解决的问题。在如此严峻的形势下, 打造“绿色数据中心中心 (以下简称IDC) ”已迫在眉睫。

1 能耗性能比测试与计算方法

1.1 IDC机房交换机/路由器

1.1.1 综合能效比计算方法

路由器与交换机产品设备的能效受设备的配置、业务流量大小、设备的应用环境等因素的影响比较大, 因此采用产品综合能效比的方法评价路由、交换机的设备能效水平, 充分考虑到产品的配置及流量的影响。

综合能效比计算方法如下:

IDC路由器、交换机能效比计算中n参数的选取说明:

n参数据的选取:IDC应用为路由器的一种应用场景, 因此将产品综合能效评价方法中的配置选为一种 (n=1) , 选择一种网络中典型应用的设备模型作为此类设备的能效考核标准;综合功耗P的计算方法:

对于给定的一种配置模型, 设备的综合功耗的计算方法如下式所示:

a, b, c为系统在不同负荷下的为u1, u2, u3时的权重系数。

其中:

u1%、u2%、u3%分别为100%、30%、0%;

a、b、c分别为0.1, 0.7, 0.2。

Pu%测试在64字节下进行。

设备吞吐量T的计算方法:

对于给定的一种设备配置模型, T为被测设备在IMIX模型下能够达到的吞吐量, 依照NLANR对互联网真实的统计分析得出的模型进行测试。在NLANR推荐的IMIX分布模型中, 需要将长度为64字节、594字节和1518字节的数据包混合在一起发送给被测设备。这三类数据包数量混合的比例依次为64字节:594字节:1518字节=7:4:1。

其中:

T64、T594、T1518分别是被测设备分别在帧长64字节、594字节、1518字节下的吞吐量。

T64、T594、T1518按以下公式的定义计算得出:

其中:

Rx1:被测设备每秒传输处理的最大上行的数据速率。

Rx2:被测设备每秒传输处理的最大下行的数据速率。

X:数据包长度

Y:包开销长度

1.1.2 测试设备配置要求

(1) 对于机架式设备, 每种类型端口 (10/100M、GE、10GE) 都需要选择其中包转发率最大的业务单板进行测试, 主控板也要选择包转发率最大的。

(2) 在不影响设备的基本性能和功能的前提下, 在测试中可以去掉冗余的可插拔模块或让某些模块停止工作, 包括备用电源、备用主控板等。

(3) 所有端口要求均处于工作状态。

(4) 对于同时支持AC和DC电源的设备, 可任意选择使用哪种电源。

(5) 对于POE设备, 不使能POE供电功能。

(6) 网线采用标准5m网线。

(7) 被测端口使用本规范推荐的光模块。

(8) 测定过程中不允许改变被测设备的硬件配置, 以及通过命令关闭相关功能。

1.2 服务器及其他计算机设备

1.2.1 机架式服务器

机架式服务器的能耗比测试采用SPECPower的测试方法。

服务器配置

操作系统:企业版Windows2003 64bit R2+SP2

或企业版Windows2008 64bit+SP1

测试软件:SPECPower_ssj2008

风扇的配置:常温下的自然调速。

电源的配置:根据实际应用原则, 若有交流和直流两种电源, 应都进行测试, 若有冗余设计, 电源应备份卸载与操作系统无关的程序。

该组网包括被测服务器系统SUT、控制和采集系统CCS、功耗分析器和温度传感器。控制和采集系统主要用来监视及调控被测试系统的负载水平和记录测试数据;功率计则用于测试被测服务器的功耗, 记录测试过程中的所有采样数据;温度传感器则记录不同负载水平下的测试环境温度。

1.2.2 刀片式服务器

刀片服务器的测试环境与机架服务器相同。

2 设备管理要求

2.1 基本要求

系统能提供系统各单元、模块、运行状态、温度、功耗等信息的监控和告警功能, 便于系统维护。

设备采用风扇调速, 风扇转速随温度变化散热效率, 风扇调速优选PWM调速, 降低系统噪音, 提高风扇寿命。

设备支持机框或单板级的功耗检测, 机框级的功耗检测误差<3%。

设备支持分级节能控制模式, 根据不同的业务特性, 通过用户配置能够实现设备节能。

支持风扇的智能调速, 根据实际单板温度进行风扇转速调节, 实现节能和降噪。

对于AC/DC供电的系统, 设备支持功率管理, 能够根据设备单板负载, 实现模块关闭等功率调节手段, 支持节能。

支持单板的掉电节能控制, 对于业务没有开通的业务单板, 支持远程的上、下电控制, 从而支持节能。

2.2 划分吞吐量等级的测试方法

一些可以提供最大吞吐量下能耗结果的基准测试, 在原理上也支持驱动系统工作在不同的负荷等级。由于不同工作负荷等级下服务器设备的能耗会不同, 在这类基准测试中, 应该通过允许通过驱动程序令系统工作在零到最大吞吐量之间的若干中间点上, 来增加测试的准确性。

基于吞吐量的基准测试需要有以下几个步骤:

(1) 系统做好测试准备;

(2) 基准工作程序启动环境监测;

(3) 有必要的话, 启动初始化校验程序来确定最大吞吐量;

(4) 计算中间测试目标点;

(5) 重复操作:

(1) 工作程序启动基准测试工作在吞吐量X处。X的初始值为最高目标吞吐量, 每次操作都减少一定的量直到零吞吐量点, 即“动态闲置 (Active-idle) ”点;

(2) 等待30秒 (或者基准测试所需的同步和达到稳态的时间) ;

(3) 工作程序启动能耗测量;

(4) 工作程序收集能耗和性能的测试数据;

(5) 工作程序结束测试数据的采集;

(6) 等待30秒 (或者基准测试所需的同步时间) ;

(7) 基准部分完成;

(8) 工作程序至少等待10秒 (或者按照同步的需求) ;

(6) 工作程序停止环境监测;

(7) 工作程序对能耗性能数据进行后处理。

2.3 确定目标最大吞吐量

最大吞吐量是决定吞吐量步长的依据, 因此确定最大吞吐量是一个关键需求。当然, 原始的基准测试一般也将确定最大吞吐量作为在运行步骤的一部分, 但可测能耗的基准测试是在原始的基准测试的改进, 所得到的结果也可能会与先前的基准有所不同。有多种方法可以测最大吞吐量。只要保证基准的测试与测试之间使用同一种方法, 每一个方法都是可用的。有如下的几种方法可供选择:

(1) 启动基准测试以高负荷运行一次, 将测试数据作为最大吞吐量;

(2) 启动基准测试高负荷运行三次, 将第二次和第三次的平均值作为最大吞吐量。或者是启动基准测试高负荷运行多次, 以最后两次的测试结果取平均值作为最大吞吐量;

(3) 高负荷运行基准测试多次。当工作程序认为本次测试结果低于上次时, 再次运行基准测试, 并且计算最后三次的平均值作为最大吞吐量;

(4) 将最大吞吐量设置为任意值。

尽管以上的任意一种方法都可以使用, 仍然建议基准驱动程序采用上述方法的前三种用于正式的基准测试。这三种方法都可用自动化的方法来确定目标最大吞吐量。当然, 基准驱动程序也可以支持另一些算法, 包括之前提到的最后一种方法, 这样可以在工程或学术需要的情况下, 通过多次设定相同的最大吞吐量来获得可控和可重复的测试。

3 能源之星标准与测试方式

能源之星计划于1992年由美国环保署 (EPA) 启动, 目的是为了降低能源消耗及减少发电厂所排放的温室效应气体。此计划并不具强迫性, 自发配合此计划的厂商, 就可以在其合格产品上贴上能源之星的标签。最早配合此计划的产品主要是计算机等信息电器, 之后逐渐延伸到电机、办公室设备、照明、家电等等。能源效与电源管准则 (Energy Efficiency and Power Management) 只有符合以下所之要求事项的计算机, 才具有能源之星资格。

3.1 能源之星对设备的要求

第一期要求事项 (Tier 1 Requirements) -2007年7月20日开始生效。

电源供应器的能源效要求事项:

使用在计算机的内部电源供应器:在评定输出 (rated output) 的20%、50%与100%时之效至少80%, 且在100%评定输出时的电因数 (Power Factor) ≥0.9。

使用在计算机的外接式电源供应器:必须具备能源之星资格或是符合能源之星单一电压交流-交流与交流-直流外接式电源供应器之要求事项中有关无负载与操作模式时之能源效规定, 有关能源之星规格标准与合格产品清单, 可得www.energystar.gov/powersupplies网页。

3.2 操作模式能源效要求事项

桌面计算机项目的待机准则 (Idle Criteria) :针对测定待机态用电量之目的, 桌面计算机 (包括整合式计算机、桌上型衍生服务器与游戏主机) 必须要具备以下所定义之A、B、C类别资格。

A类 (Category A) :所有符合B类或C类定义的桌面计算机, 在考量能源之星资格准则时将被视为是A类产品。

B类 (Category B) :要取得B类产品之资格, 桌面计算机必须具备多核心处器或是具备超过一个个别处器, 且最少具有1G的系统内存。

数据库规范 篇11

采用美国国立医学图书馆《医学主题词表(MeSH)》中译本,增强了其与MEDLINE的兼容性还有自身的规范性,对于用户而言,采用专业的医学主题词进行检索,可增强其检索的专指性,提高查准率。

采用中国中医研究院中医药信息研究所出版的《中医药学主题词表》,收录的中医药学主题词较多,对于检索中医药学文献时较有优势。较MEDLINE多了一些诸如中医药疗法、中医疗法、中药疗法、针灸疗法、气功疗法、按摩疗法等具有中医药学特色的副主题词。

提供中英文主题词两种检索入口,并设立了多种入口词,对于不熟悉中国生物医学文献数据库主题词检索功能的用户提供了很大的帮助。

提供主题词/副主题词组配检索与副主题词扩展检索的功能。副主题词用于对主题词的某一特定方面加以限制,强调主题词概念的某些专指方面,使用主题词/副主题词组配检索与副主题词扩展检索功能可以增加检索的查全率与查准率。

2 主题词系统的几个问题分析

2.1 标引深度问题

在中国生物医学文献数据库主题词检索中,我们可发现有关文献主题词标引的深度不够,由于主题词标引深度不够,可能会造成漏检现象。举例来说,分别用中国生物医学文献数据库、MEDLINE系统的主题词检索方法检索1985~2005年间有关"肝肿瘤"的文献,见表1,表2。

从表1,表2可以看出,中国生物医学文献数据库文献的主题词数尽管有逐年增加的趋势,但从与MEDLINE相比可以看出,在标引深度上与MEDLINE有一定的差距[1],而造成标引深度不够的原因大致有下面几种:

2.1.1 标引过粗(1)上位概念代替下位概念,造成越级标引。例:失血性休克的护理体会,数据库中有的文献用了上位主题词"休克"标引,而不是用更为专指的主题词"休克,失血性"。老年期与老年前期冠心病载脂蛋白PA00、A1与血脂观察,库中标"冠状动脉疾病/载脂蛋白类/分析脂类/血液",而在主题词表中.有更专指的主题词"载脂蛋白B类"与"载脂蛋白A1"可用。(2)副主题词标引不到位,以主题词代替了主题词与副主题词的概念组配,尤其是对一些医疗仪器和设备方面的文献标引。例:"自制OLYMPUS胃镜送水系统",数据库中仅标引一个主题词"胃镜检查",而未加副主题词进行限定。"胃镜检查/仪器与设备"才符合原文含义。"氧气湿化瓶消毒方法探讨"。有的仅标"氧吸人疗法"。而未限定在副主题词"仪器与设备"下。

2.1.2 词量不足,不能充分反映文献主题(1)一篇文献论及多个重要概念,仅标出一或两个主题词,有的连文献题目中表述出的含义都未能完全描述出来,过于简化。例:在文献"妊娠与尿道感染192例孕妇中段尿细菌培养结果分析"中,数据库将其标为"产前保健泌尿道感染/微生物学妊娠"。而文章篇名中涉及的"妊娠合并尿路感染"未揭示出来。在文献"急性心肌梗塞PTCA术患者的康复运动方案"中,数据库将其标为"心肌梗塞/康复心率",其手术方法"血管成形术经腔,经皮冠状动脉"却未加标引。(2)一些有检索意义的诊疗技术、方法,在标引中被遗漏。如:"彩色多普勒检测老年人颈动脉硬化的价值探讨",标为"动脉硬化/超声检查颈动脉疾病/超声检查",而诊断方法"彩色多普勒"未加标引。"半月神经节射频热凝与甘油封闭治三叉神经痛",仅标"三叉神经痛/治疗",而治疗手段"射频消融术"与使用药物"甘油"均未标出。(3)中医主题词标引不足。例如:"中药灌肠治疗婴幼穴位埋藏治疗癫痫的临床研究,标为癫痫/穴位疗法"。而中药是什么,穴位埋藏的药物成分是什么都未标明。这样给检索者判读命中文献造成了困难。(4)特征词在数据库中标引问题特征词是一种标识的概念,在标引每一篇文献时都应常规标引。特别是在机械检索中,医学工作者和检索人员能通过特征词进行一些特殊意义的检索限定、集合和排除,因而具有十分重要的作用。作者曾从动物实验、对比研究或年龄等特征词进行限定检查,均不能获得满意结果。可见中国生物医学文献数据库中的特征词标引为薄弱环节,有待完善。

2.2 主题词标引误标、漏标等问题

2.2.1 人工标引的问题中国生物医学文献数据库主题词检索使用了美国国立医学图书馆《医学主题词表(MeSH)》,由于主题词翻译不当可导致主题词误标现象,从而造成相关文献的误检、漏检现象。如"菌斑试验"与"牙菌斑"两个主题词是由专业人员从英文主题词"Plaque Assay"与"Dental Plaque"分别直译出来的,由于数据库相关专业人员将两个英文主题词中的"Plaque"一词均译为"菌斑",这就导致了由于计算机辅助标引或标引人员的疏忽中将含有"菌斑"一词的文献造成错误标引。"菌斑试验"英文主题词为Plaque Assay,由其下的主题词详解可知,"菌斑检测,是一种检测在培养细胞中病毒感染复制的方法。感染细胞孵化期间释放病毒颗粒时就形成一个透亮的溶解区或斑块。在某些病毒的作用下,细胞由于细胞变性作用而死亡;在另一些病毒作用下,细胞没有死亡,但可以通过血液凝集力测定来确定它。有时斑块细胞含有可用免疫荧光测出的病毒抗原。"[2]而牙菌斑的英文主题词为:Dental Plaque,其主题词注释为"一层附着于牙齿的薄膜,经常引起龋齿和牙龈炎。它由从唾液腺分泌的粘蛋白和微生物组成。"显而易见,两者是截然不同的概念。然而,在中国生物医学文献数据库检索"菌斑试验"与"牙菌斑"时,可发现检索出来的文献有重叠,见图1

在检索式中,我们可发现两者的重叠文献有198篇,在这之中可找到如"比较3种牙膏对菌斑、牙龈炎的控制效果"还有"三笑玉洁纯牙膏对牙菌斑清除效果的临床试验"等文献,这些文献均被标上了"菌斑试验",但实际上却与病毒感染完全无关,这其实就是一种误标现象。另外,在"美兰对体外菌斑糖代谢模型产酸代谢的抑制作用"一文中,标引的主题词为"菌斑试验;龋齿/*预防和控制;糖酵解/*药物作用;亚甲蓝/*药理学",这篇文献其实是有关牙科学的一篇文献,文中所提的"菌斑"实际上是"牙菌斑",而由于标引人员没有仔细阅读全文,错将"牙菌斑"标引为了"菌斑试验"。

2.2.2 计算机辅助标引的问题(1)漏标即计算机转词程序没有转换出反映该条文献题录主要涉及内容的主题词。出现此种情况的原因较多,主要有原始文献作者未给出主题词或者较通用的关键词、文献表达内容比较新、关键词-主题词转换词库中尚未收人该词与文献作者使用的词与通用的表达形式不同[3]。例如:数据库中收录有台湾出版的医学期刊,这些期刊文献中有一些医学术语与大陆出版的医学杂志中常见的医学术语的表达形式有所不同,如内窥镜乳突切开术、肾小球肾炎、超音波、颗粒-巨噬细胞族群刺激因子、糖原贮积病Ⅰ型、血管紧缩素转化酶,介白质等等。这些表达方式不同的词汇在标引时经常被遗漏。(2)误标如蛋白主题词蛋白与蛋白质类有本质误转出定向力,而定向力是心理学的概念疾病易感性人员素质常常误转出该词等等。另有一种情况,上位主题词和下位主题词同时被转出,如同时出现肿瘤和肝肿瘤。遇到误标的主题词,人工干预时应将其划去,同时考虑使用其它专指的主题词或者副主题词的概念反映该条文献题录的主要内容,并将有意义的关键词和关键词组补加到转换词库中。(3)混标在"中国生物医学文献数据库"中采用的主题词表是美国国立医学图书馆的《医学主题词表》即MeSH词表以及中国中医研究院中医药信息研究所新版《中医药学主题词表》。中医药学主题词表主题词混合标引是合理的,两个主题词表各具特色,混标可以更好地反映中国生物医学文献的内容,互相补遗。但需注意,在中医药学主题词表与MeSH词表对同一概念的表达有差异时,一般的处理原则为中医药文献用中医药学主题词[4],西医文献用MeSH收录的相关的中药主题词。但对疾病名称的标引通常西医概念更确切,此种情况下,即使是中医药学文献中涉及的疾病名称也可用西医主题词标引。例如有关消渴中医病名及其神经系统病变,可标引为糖尿病神经病变西医病名。

2.3 时间滞后问题

2.3.1 词表更新滞后

中国生物医学文献数据库采用的是MeSH词表,美国国立医学图书馆对MeSH词表每年进行一次修订,修订内容包括新词的增加、旧词的删除以及部分词的更改。MEDLINE每年依照MeSH词表的修订把所用的MeSH词表更新为最新版本。然而,中国生物医学文献数据库却不是对所用的MeSH词表每年更新一次。由于时间的滞后,会导致文献的查全率与查准率的降低。

2.3.2 机标导致的滞后

从1996年开始,中国生物医学文献数据库为了减少时滞,在数据库中加入了一部分预标引数据,这些预标引数据在中国生物医学文献数据库中均用"机标"字样加以标识。中国生物医学文献数据库的机标过程就是通过计算机辅助标引程序将文献记录中有意义的自由词(包括文献作者给出的主题词或者关键词)转变为主题词的过程。而在中国生物医学文献数据库上搜索发表年为2005年的文献,可检索到398055篇文献,但是,其中有135919篇都是机标,机标率为34.1%;而检索2006年的文献,共收录了470785篇,其中315552篇都是机标,机标率为67%;检索2007年的文献,共收录了460043篇,全部都是机标,更令人惊讶的是,在检索1990年的文献时,竟然还有机标文献,可见,中国生物医学文献数据库标引时间滞后问题相当的严重。文献经计算机辅助标引后,如果没有及时进行人工补标,将会给用户带来诸多不便,可能会造成文献查准率与查全率的降低。

3 结语

主题词检索作为中国生物医学文献数据库的一项重要检索功能,其专业性与规范性等优点,得到广大用户的青睐。规范化的中国生物医学文献数据库主题词检索功能主要体现在其标引的规范化上,标引主题词的准确性对检索结果的准确率有着深刻的影响。下面列出关于规范化主题词检索功能的几点建议:

提高标引的专指性,做到适度标引[5],即所标引的主题词概念与原文的实际主题概念基本一致。

标引深度适当。标引深度应反映目前国内外的医学现状和水平;反映各学科的动态和最新的研究课题检索系统中所揭示出来的材料应当是新颖、尖端、全面的,井为检索者所欢迎的。中国生物医学文献数据库作为专业的计算机检索系统,应作到二级标引[6],即不仅要标出文章论述的重点,而且还要揭示文献论述的次要重点,如一些方法、手段、条件等。准确、全面地反映文献主要内容。

加快词表的更新速度,并对计算机预标引的文献进行检查并及时标引出主题词。

增加一些辅助功能:如参照MEDLINE,增加对概念主题词的释义,帮助读者准确选词;如系统在已有的英文主题词指示到中文主题词的功能基础上,可增加由中文主题词指示英文主题词的功能,方便读者在中国生物医学文献数据库和MEDLINE之问进行检索词的转换。系统可增加提示主题词的功能,对于不熟悉主题词的用户,输入错误的主题词时,系统可提示给出类似的主题词供用用户选择。

参考文献

[1]秦东.主题词检索途径CBMdisc和MEDLINE on CD的比较[J].情报检索,2004,,4(9):86~87.

[2]戎文慧,张忠欣,方文,等.CBMdisc数据库主题标引中存在的问题与和几点建议[J].医学图书馆通讯,1998,7(1):60.

[3]诸文雁,任慧玲.CBMdisc数据库计算机辅助标引技术中值得注意的几个问题[J].医学情报工作,2001,22(4):55~56

[4]陈建宏.中医药文献主题词标引存在的若干问题探讨[J].广州中医药大学学报,2001,18(3):287~288.

[5]周潇洒.CBMdisc的主题标引不当与漏检分析[J].广州中医药大学学报,2001,18(3):287~288.

上一篇:运动方向分析下一篇:超级市场的诱惑