数据组织模型

2024-08-20

数据组织模型(共10篇)

数据组织模型 篇1

0 引言

要实现水利事业的可持续发展,建立国家级的水文数据中心就是其中的一个重要方面,做到水文数据的采集单位和科研单位等各方面的水文数据的规范化和一体化,成为水文信息共享的迫切需求[1]。但是,当前由于水文数据主要是为了各个部门的业务运营服务,来源不同,采集方法和加工方法也有别,缺乏统一的分类标准和信息编码方案,而且现在的信息处理主要以业务为主,数据使用完就会被丢弃,由于现在决策分析的需要,对历史数据的需求与日俱增,因此历史数据的存储和处理是目前研究的重点和难点[2]。

业务目标单一,数据源的异构,无法实现水文信息的共享,不能很好地支持综合决策分析,“数据丰富而知识贫乏”的局面已经出现[3]。然而激增的水文数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为了达到以上要求,需合并不同类型的水文数据,建立一体化的水文数据体系,为用户提供统一的数据视图。面向分析和决策支持的新一代水利业务应用的数据仓库技术已经兴起,并开始在水文领域得到广泛运用。在水文信息数据仓库的建设中,只有在成功实现水文信息的组织和抽取之后,水文在线分析处理(OLAP)和数据挖掘(DM)才能很好地发挥作用,从而建立水文领域行之有效的分析决策环境。

1 信息组织和水文信息组织

根据一定的原则和方法,对信息进行序化和优化,实现信息从散乱到有序的改变,以此来保证用户可以对信息的高效获取和应用的过程就是信息组织。信息组织属于管理的范畴,是信息资源管理的一个组成部分和特殊形式,是在漫长的信息化过程中诞生的。在人类社会的发展过程中,信息也逐步的积累起来,随着信息量的巨增,自然而然地出现了专门研究怎么来组织信息的学科,而这门学科主要的研究目的就是运用一定的方法和手段组织这些海量信息,方便用户能够按照自己的需求快速地获得所需的信息。

根据信息组织的定义,水文信息组织即对采集的水文信息进行分类,序化和优化的过程。目前水文信息组织主要有两种不同的方式,一种是国内为方便面向特定应用的系统开发依据《水文年鉴》进行组织的,另一种是美国的“原始化”数据存储,即采集到的什么数据就存贮什么样的数据。两种方式有各自的优势,也有不足。国内的这种从工程视角进行的信息组织能很好地适应特定应用系统,但是这样的信息组织方式不可避免地会造成信息的损失,且水文数据分散于各个部门中,没有形成完整的数据体系,不利于面向多种主题的在线分析和数据挖掘应用。美国的 “原始化”的数据存储的好处是能最大限度地保留采集到的数据中所包含的水文信息[4],但是,这样的存储方式带来的弊端就是它不针对具体的主题分析组织数据,这样的数据很难适用于特定的业务分析,往往要花很大的代价提取应用分析所需的数据。近些年来,欧洲的对水文信息组织就相对合理,兼顾了两种不同的组织方式,一方面它发布类似美国的统一的数字化水文数据产品,另一方面它也提供不同主题的水文数据产品,能较好地满足特定应用分析的需求,但面对主题化的分析型应用时,仍存在信息组织比较复杂的问题。长江水利委员会水文局采用“虚拟化”技术,以支持水文信息的综合性、主题化应用为目的,设计并开发了水文信息资源统一组织平台[5]。随着水文主题化业务的增加,越来越多的水文工作者提出了面向主题的水文信息组织。李剑锋[6]对多源水文信息组织进行了研究,对水文信息的组织同样采取了面向主题的策略;牟萍[7]从水文循环过程的角度出发,研究了水文信息的组织模式。陈德清[8]利用数据仓库技术,设计了水文数据仓库的总体结构。

2 数据仓库技术

2.1 数据仓库的定义

在数据仓库的发展过程中,许多人对此做出了贡献,虽然有许多不同的说法,但公认的数据仓库之父W.H.Inmon给数据仓库下的定义为:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2.2 数据仓库的特点

(1)面向主题的;(2)集成的;(3)相对稳定性;(4)反映历史变化的。

2.3 数据仓库的体系结构

从数据仓库的概念结构看,数据仓库可以分为以下几个层次:数据源、数据准备区、数据仓库数据库、数据集市、数据访问和知识决策分析。数据仓库在创建以后,首先要从数据源中抽取所需要的数据,经过抽取、清洗、转换和装载之后,再加载到数据仓库数据库中,最后根据用户的需求发布到数据集市/知识挖掘中。当用户使用数据仓库时,可以通过在线分析处理等数据仓库应用工具向数据集市、知识挖掘进行决策查询分析和知识挖掘。如图1所示。

3 水文信息组织数据仓库模型的构建

3.1 构建目标

由于面向的是水利系统用户, 除了要向单位管理者提供各部门业务流程和运营状况等需求信息外,还应该将洪水演进、水利资源配置以及各相关设备的运行状况信息提供给管理者, 以帮助他们在关键时刻能迅速做出正确决策。

数据仓库不同于以往的数据库,它是在数据库的基础上发展而来的,但是两者在许多方面都存在着相当大的差异。数据库中数据的目标是面向业务操作人员,提供事物处理的支持,而数据仓库则是面向中高层管理人员,提供决策支持。因此,支持水文信息组织的数据仓库模型必须具备以下特征:(1)水文信息数据的主题性;(2)水文信息数据的集成性;(3)水文信息数据的不可更新性;(4)水文信息数据的时变性。

3.2 水文信息数据组织模型

如图2所示,水文信息数据仓库中的数据分为四个等级:早期细节级,当前细节级,轻度综合级,高度综合级。早期的数据进入数据仓库后经过抽取,筛选和清理,使之成为高度综合级的数据。

3.2.1 概念设计

在概念上建立数据模型,确定如何组建数据及数据之间的相互关系,以满足业务应用的需要。作为建立模型的初级阶段,概念模型主要描述与业务有关的重要实体以及相互之间的关系,本文采用信息包图来设计概念模型。信息包图由粒度,维度,事实组成,采用二维表的形式反应用户使用数据仓库进行多维分析处理的需求,涉及到所要回答的基本决策问题。如图3所示,信息包图主要提供了用户要求的一下相关联的数据。

(1)不同流域,不同时间的水位,流量,降水量,含沙量大小的分析与比较。

(2)分析不同维度的最大,最小以及平均值。

(3)预测将来同一时刻的该维度的大小。

3.2.2 逻辑模型设计

逻辑模型是通用的数据模型,它的典型产品是实体关系图,用于描述现实世界中的实体和实体间的关系,在建立了完整的信息包图表后,接下来要将信息包表转换成星形图,根据转换的原则,星型图主要包括以下的三个主要实体。

(1)指标实体:

即指明用户查询活动的主题内容,它代表一系列相关的事实。

(2)维度实体:

通常把一系列相关事实的多个属性定义为多个维,使用户能对不同维上的数据进行比较。

(3)类别实体:

类别实体通常可以转化为一个数据库表,与现实世界的实体对应,图4即为转换相对应的星型图。

水文信息主要包括:

水文要素维={水文要素值,水文要素值的取值范围,水文要素维的描述}

空间维={维度、经度、海拔和地区区域}

时间维={年、月、日、时、分}

度量属性={汇总、合计、均值、方差}

经上述方法组织的水文数据是动态可变的,根据不同预报模型的分析需求,采取不同的数据分析方式。例如要做中长期水文预报,就要将数据在不同层次的时间维度上作深入分析,寻找相关的合适因子,建立相应的回归分析方程并进行分析;如果要预报河道洪水,就应对水位、流量等在空间维度上的变化情况,以及河流上下游间的水位、流量相关关系等分析;如果是预报径流过程则更为复杂,需要全面分析流域的属性等情况,并得到相关的模型计算参数,从而代入模型进行计算和验证。

4 实验验证

经过上述的主题建模分析,得到了基于星型模型的数据组织模式。本实验以“石羊河”流域为例进行说明,如表1和图5所示。在原有的水文数据库中根据水文预报的主题抽取出分析数据,以证明本文提出的数据抽取方案切实可行。

通过以上星型模型的建立,水文预报主题数据得到了很好地组织。该数据组织模式可以方便地进行各种分析和处理,在此星型数据组织结构基础上,通过Microsoft SQL Server 2005和Office Web组件可以很方便地实现水文预报主题数据的上卷、下钻、切片和数据的插补等分析应用,并为预报人员和决策者提供多角度和全方位的信息。

5 结束语

本文提出一种新的支持水文信息组织的数据模式,经过结构设计、模型构造后,初步得到了支持水文信息组织数据仓库的数据仓库模型。在建立初步的模型之后,就可以进入开发以及试运行数据仓库的阶段。在以后的工作中,会对现有的模型进行完善和修改,并尽可能地符合实际,为水利运营者提供综合的决策服务。

摘要:分散的水文数据之间交互性差的缺点造成各独立数据源成为“信息孤岛”问题,文中就水文信息本身固有的特性进行组织,探讨建立支持水文信息组织数据仓库的模型,最后以“石羊河”流域为例,验证了模型的可用性。为数据仓库的联机分析处理和数据挖掘奠定了基础。

关键词:水文信息组织,数据仓库,模型

参考文献

[1]寇继红.水利网络信息资源组织模式研究[D].武汉大学,2005.

[2]杨明.水文信息共享的应用研究[J].东北水利水电,2009(11):41-43.

[3]范敏,岳延兵.浅析水文信息孤岛及对策[J].水利发展研究,2010(4):57-60.

[4]牛玉国,寇怀忠.美加澳法——水文信息如何共享[N].地质勘察导报,2007-01-18.

[5]陈雅莉,马勤,陈春华.虚拟化自治多源异构水文信息资源组织研究[J].水文,2010,10(5):12-15.

[6]李剑锋.多源水文信息的组织及应用研究[D].南京:河海大学,2010.

[7]牟萍.基于水文循环过程的信息特征及组织模式研究[D].南京:河海大学,2012.

[8]陈德清,王问宇,杨海坤.数据仓库技术在水文数据综合分析中的应用研究[J].水利信息化,2010,6(2):18-21.

建立组织团队情商力模型 篇2

管理学研究发现,组织要有高效率的生产力,与员工的个人工作情商、组织的团队情商都有着显着的影响。本文的目的在于审视组织的团队情商力(Group Emotional Intelligence),并对其进行重新定义。基于对组织团队情商力的理解,本文得出了自己的结论。由于理论认识的不足和缺乏实证分析,组织团队情商力至今仍是理论研究面临的挑战之一。

本文作者建立了一个组织团队情商力模型,介绍了对其进行实证评估的方法,并通过对以往文献的研究揭示了组织团队情商力的本质。此外,作者对以往的组织团队情商力评估方法进行批判,提出了替代性的评估方法。

由于团队情商力的构成具有复杂性,因此必须建立一套较为复杂的评价体系。为此,本文建立了一个新的模型,帮助人们更好地开发企业的团队情商力。其中涉及的分析方法及手段可以帮助企业管理者更好地了解团队情商力。

本文提供的研究模型的实际应用表明,组织团队能够在组织内部对团队情商力进行开发,利用各种模式、规则建立一种具有凝聚力的内部机构,通过提高团队的沟通能力、增强团队的心理承受力等,增强企业的影响力,避免企业出现管理危机。

网络通信数据流组织结构模型设计 篇3

网络通信服务软件, 负责维护具有一定数量节点设备的网络通信, 及时获取并处理各节点设备采集的信息。随着计算机物联网应用逐步深入, 对物联网应用的核心——网络通信服务器软件的性能要求不断提高。用户追求能管理更多设备, 同时对设备信息能更快反应的, 即拥有高性能、高吞吐量的服务器软件。

要实现一个高性能服务器软件, 除了采用高效率的网络通信模型外, 对收发到的大吞吐量网络数据也要能迅速处理, 以防止服务器在数据处理环节形成瓶颈, 造成服务器性能下降。传统的数据处理模型是:

(1) 一个网络连接, 对应一个通信端 (Socket) 。每个通信端每次收发数据就分配一个相应大小的内存块, 用来填入待收发数据。收发完成后, 立即释放这块内存。每次收发, 都重复一遍这一过程。

(2) 好一点的设计, 则考虑到预先创建缓冲区, 避免频繁分配与释放内存, 但预先创建的缓冲区只能固定大小, 不能预知所需数据长度, 因此, 多分配通信协议长度最大数据命令, 造成空间浪费。或分配多个小缓冲区, 通过拼接得到完整数据命令, 增加处理时间。

(3) 各个通信端各自分配内存块, 在高并发、多连接的网络通信环境中, 大量内存块散布在内存各部分, 造成内存碎片。再加上通信端频繁连接、断开、重连, 对应内存块也频繁被分配和释放, 即使采用缓冲区设计, 也不能避免内存块的重复分配释放, 进一步加剧内存碎片化。

(4) 高并发网络通信, 不可避免考虑到多线程处理, 传统的多线程处理数据, 通过线程信号量锁住整个内存块, 以防止其他线程同时操作, 造成数据冲突。但锁定对象占用资源越大, 锁定开销越大, 能共享的资源越少, 造成死锁的可能性越大。

(5) 传统的数据处理, 处理逻辑与处理数据紧密结合, 基本上一个函数中, 既包括处理逻辑 (代码) , 又包含处理数据 (变量) , 而实际业务中, 处理数据 (通信协议) 和处理逻辑 (业务逻辑) 都很容易变动, 而二者的变化率不同, 关注点不同, 应在设计上加以分离。

2数据流组织结构模型的设计与实现

综合多线程并发、通信端预分配数据缓存、内存碎片管理, 处理逻辑与数据关注点分离等多方面考量, 为避免这些方面可能出现的缺点, 专门为高性能、高并发的网络通信环境设计了一个网络通信数据流组织结构模型。如图1所示:

如图1所示, 每个Socket通信节点不再为每次收发分配释放内存, 而是固定分配一小块内存缓冲区, 直至Socket通信节点释放。该内存缓冲区大小固定, 只有通信协议的帧头大小, 只用来接收数据帧头, 根据帧头可获得数据命令类型和数据命令总长度。该内存缓冲区采用循环数组结构, 可以重复循环接收任意多个命令, 但只有一个命令的帧头处理完毕, 才可能完整接收下一个命令的帧头。

接收完每个数据的帧头, 根据解析的命令类型和通信协议, 可知该命令是定长命令还是变长命令。

为协议定长命令建立定长数据命令内存池, 每个命令分配一段连续的大内存块。根据设置, 如设为N, 则分配N× (线程互斥量长度+命令长度) 大小的连续内存块。各个内存块由链表管理, 每个内存块头都有一个链表节点, 有前向、后向指针。定长数据命令内存池还维持一个空闲数据块链表, 记录所有未分配的内存块。当Socket收到定长命令后, 向空闲数据块链表直接申请对应长度的空闲内存块, 而不用遍历整个内存块去自己寻找。而一旦获得空闲内存, 则将内存地址和Socket IP的Hash值作为键值对, 存入已接收数据块哈希表, 以供任务线程的任务进行处理。而内存池的日常管理则通过内存块链表, 如程序结束, 整个内存池释放, 通过内存块链表可以不考虑内存是否分配, 直接完全释放。或者某一命令的内存块出现坏数据, 可以通过链表释放, 重新申请该长度的整块内存。

对于变长命令, 不再分配整块连续内存区, 而是为每次收发分配内存, 随用随申请, 用完释放。但是仍然通过链表管理所有内存块, 以备程序结束完全释放等操作。发数据命令, 场合不固定, 且服务器数据吞吐主要是流入业务, 流出占业务比例较小, 因此, 通常无论变长还是定长命令, 都在变长命令区申请发送数据内存块。

每个命令内存块, 块头都有一个区域存储线程互斥信号量。多任务 (多线程) 处理模块处理数据时, 检查数据内存块头的信号量是否被占用, 如未被占用, 则锁住互斥信号区域, 不再锁定整块命令内存区。该信号量可能是个整型in数据, 锁、解锁开销极小。且为可读锁, 即写访问时不能同时读、写访问该块内存, 而全为读访问时, 可以允许多线程同时访问。如占用, 则立即将该任务放回任务缓冲区, 释放任务线程, 执行下一个任务。

命令数据 (通信协议) 和命令处理逻辑 (业务逻辑) 二者的关注点、变化率都不同, 不再在一个函数中耦合二者, 而是将二者分离。任务线程池维护命令处理代码, 任务代码执行时, 通过IP Hash表访问特定IP的Socket数据, Hash表通过内存指针 (C++) 或对象引用地址 (C#、Java) 记录数据地址。函数代码不再直接分配数据变量, 而是将数据地址指针作为参数传递。这样一旦业务逻辑修改, 函数代码改变, 而传入的参数指针不受影响, 修改不会传递到数据内容部分。

3结语

本数据流组织结构模型, 整合、整理、优化了网络数据流的存储结构和处理流程, 是一个考虑到多线程、数据缓存、内存碎片管理、数据处理逻辑分离, 专门为高性能、高并发的网络通信环境设计的网络通信数据流组织结构模型。基于该设计实现服务端通信软件, 用于支持高并发、大吞吐量的网络通信, CPU的占用率低, 内存空间占用少, 因此, 被广泛应用在公司的各型新产品中。

参考文献

[1]彭红艳, 肖庆, 梁桂才, 等.网络服务器管理系统的设计与实现[J].电子科技大学学报, 2007 (6) .

[2]胡东红, 杜光海, 贺伟, 等.基于完成端口模型的应用程序实现[J].物联网技术, 2014 (3) .

大数据安全防御模型构建研究 篇4

大数据是指携带巨量信息的高增长率和多样化的信息资产,正处蓬勃发展阶段,怎样保证其安全可靠是一个亟待解决的问题。病毒探测、主动防御等传统安全防护体系,无法适用大数据的可靠性管理[1]。大数据安全防御的重点是构建可行的防御模型。本文基于大数据可靠性需求,提出一种动态安全算法,构建了大数据安全防御模型。

大数据安全防御模型的构建

安全架构层次设计。本文将大数据安全架构划分为以下4个层次:

数据拆分层,主要按照数据拆分策略对大数据进行分布式管理,通过聚类算法对所获取的数据集进行分类和预处理。

数据分析层,主要分析预处理之后的大数据,分析目标包括可疑病毒、非法任务等。发现的风险因素会被立即隔离。

数据包装层,主要实现大数据的有效封装。封装时要充分考虑信息的加密需求,确保封装后数据的隐私性、准确性和安全性。

客户应用层,主要是大数据的使用者和分析报告的上传者。

安全防御体系的定义。本文以粒子群算法为基础,构建大数据安全防御体系。

首先为计算出大数据的信任度,提出以下4个定义:

定义1:如果信任度的起始与个体最好值 相等,则进行迭代操作的时候不再改变;假若信任度的起始值比上一值更优,则根据粒子群算法的规则,以起始值替换上一值: 。

定义2:为提升寻优效果,引入进化度θ: ,当经过多次迭代且θ=1时,表示寻优能力已经符合要求。

定义3:粒子群所有成员的个数以 表示,因此可以把动态因子的耦合度以 表示,耦合度的大小与数据的分散程度有关,当耦合度接近于1的时候,证明局部最优解已经形成。

定义4:结合以上3个定义,能够将动态信任因子表示为:

基于上述研究成果,为描述大数据安全防御行为,提出以下5个定义:

定义5:假若大数据可靠度处在信任因子范围内,则可以视为大数据是强安全的,表示为:

定义6:假若大数据可靠度处在信任因子范围内,但对于其他的访问者处在“开放访问”状态,则被视为弱安全,表示为:

定义7:在合法性方面,假若大数据处在最高合法水平,并且对于其他的访问者处在“不可访问”状态,则大数据被视为强合法状态。表示为:

定义8:假若大数据处在最高合法水平,并且对于其他的访问者处在“验证访问”状态,则大数据被视为弱合法状态。表示为:

定义9:假若大数据处在“开放访问”状态,则大数据被视为不合法状态。表示为:

最后,客户的操作请求与大数据可靠度间的关系表示为:

安全防御体系证据分析。为保证大数据的“强安全”与“合法状态”,假设大数据服务信息系统共拥有m台服务器,在m台服务器中,提取n台作为构建安全防御体系的数据样本。进一步假设,从n台服务器所获取的样本数据α∈泊松分布,则这些样本在服务器输入端以排队的方式等候处理和传输,等候时间为1/α[2]。如果一段数据信息的等候时间超时,则可视为信息已被丢弃。此时会生成一个反馈信息,通知信息的发送者重发信息。结合马尔科夫定律,在这种数据传输环境中,可靠度不足的信息识别是符合遍历准则的[3]。

安全防御模型实现流程。综上所述,完整的大数据可靠性防御模型实现流程为:

安全防御的初始化过程,新任务加入等待队列。如果轮到该任务进行处理,便将其信息从数据存储区提取出来,按照数据预处理策略进行分布式管理和数据集分类。

当判定数据为有效信息之后,将任务提交数据拆分层进行信息拆分处理。在信息拆分之前,系统预置了信息判定单元,这个单元的功能是对所有的信息处理过程引入来自云端的可靠性监控。

如果信息中所含有的任务之和能够进行分解,使之成为n个子任务,则分割函数可以表示为:

将拆分形成的子任务提交数据分析层进行分析处理。如果子任务信息已经在任务数据库中存在,则判断为重复任务,将其删除以保证数据库的低冗余。

分析处理完毕的子任务,提交到数据包装层。依据其独有的索引代码,形成哈希表,将其重新连接为一个整体的任务单元,并进行加密封装,之后传输至客户应用层。

判断是否存在下一个需要处理的任务;如果存在,则转至第一步。

本文提出的大数据安全防御模型,基于动态安全算法,能够克服传统网络安全管理体系不足,在信息安全受到威胁之前定位和清除隐患。该模型成功实现了基于云计算环境下的大数据安全隐私保护,符合大数据可靠性管理要求,具有较高推广价值。大数据时代,现有的数据隐私保护技术还不够完善,需要从科研和技术层面加大对云平台的大数据安全隐私保护的研究。

数据组织模型 篇5

关键词:信息孤岛,配电虚拟数据中心,资源组织模型,织女星信息网格,REVP模型,社区

0 引言

电力系统的信息化起步于上世纪60年代,一方面系统中各种基础设施和应用软件在不断升级换代,另一方面随着电力信息化建设水平不断提升,一些单位和部门从各自的需求出发,建立了各自不同的信息管理系统。由于现有业务系统缺乏从整个企业的角度进行统一规划和设计,开发实践不同,使用的操作系统、系统模型、数据格式都各异,各电力信息系统间信息交互困难,形成了越来越多、大大小小的“信息孤岛”[1]。如何解决各应用系统之间信息交互是电力企业实现信息化面临的主要问题。目前采用的方法之一是给各应用系统之间编写数据交换接口[2],这种方法工作量大且通用性不好。至今采用最多的方法是应用数据仓库技术构建电力企业数据中心[3,4],采用这种方法存在的主要问题是:①数据中心与物理数据源隔离,在底层物理数据源发生变化时数据中心的资源不会同时发生变化,扩展性差;②要对海量数据进行抓取存储工作,效率低;③需要高性能的服务器构建大容量的数据库中心,投资大且浪费资源。近期提出的应用网格技术整合数据资源的方法[5],受到了广泛关注,这种方法将分布在不同地理位置的计算资源,通过高速互联网组成共享的资源集成,提供高性能计算、管理及服务的资源整合[6]。综合上述情况,针对地区供电系统本文提出基于网格技术构建虚拟数据中心的概念。

目前,比较有影响的网格体系结构有:织女星网格体系结构[7],五层沙漏结构,开放网格服务体系结构(OGSA),开放网格服务基础结构(OGSI)[8,9,10]。其中,织女星网格体系结构是中国科学研究院计算所织女星网格项目组提出的,该项目在国家“863”计划的支持下已经取得了很大进展。织女星信息网格作为该项目的一个组成部分目前处于应用研究阶段,如何根据不同行业领域的应用构建资源组织模型是值得研究的问题。

本文结合供电企业特点,研究了基于织女星信息网格技术的配电虚拟数据中心资源组织模型,提出了构建配电虚拟数据中心的方法,力求在解决电力行业数据整合问题的同时对织女星信息网格的发展提供一种可行性思路。

1织女星信息网格关键技术

织女星信息网格(Vega Information Grid,Vega-IG)的目的是在数据库技术、因特网技术、网格技术、万维网服务等技术的基础上,研究信息网格的机制和体系结构,进而指导信息网格系统及应用的开发[11]。其主要功能是消除信息孤岛,实现资源的集成和共享。从工程应用角度出发,织女星信息网格的关键技术主要是基于社区的网格资源空间REVP (Relation-based EVP)三层模型,该资源空间模型是一种基于关系的网格资源空间模型[12],包括三个层次:有效关系资源层(E)、虚拟关系资源层(V)和物理关系资源层(P),如图1所示。

(1)物理层

物理层是最底层,是指实际物理资源所构成的资源空间,物理资源可以是数据库、网页、程序等等,物理层的必要性是显然的,因为资源的最终使用发生在物理层。物理层资源是按节点组织的,物理层只能在一个节点内提供单一系统映象,两个节点的物理资源组织可能是异构的,如果两个节点要互相访问资源必须通过跨物理资源空间的特殊办法。在应用中,物理层资源节点不需要部署任何软件,只需提供一些最基本的信息(如:IP地址、数据库名称、访问权限等)即可。

(2)虚拟层

虚拟层是构建从应用层到物理层映射的过渡层,是应用VIG组织资源的关键层,虚拟层主要解决全局一体的共享问题。虚拟层资源是按社区组织的,如图1中C1、C2、C3,…,社区内部的虚拟资源可以按照虚拟表的方式组织。

网格社区是织女星网格的一个核心概念,用来解决互联网上分布、异构信息资源的共享和网格资源的定位问题。社区(Community)是网格无限空间的一种逻辑有限的划分,每个社区代表一个划分。社区是一个自主控制的管理空间,它拥有资源共享的策略,来安排社区资源的共享和对社区资源存取的控制;把一个社区的资源共享给其他社区的控制策略,决定了什么资源共享和如何控制[13]。简单地讲,社区(Community)是一个四元组GC=(S,O,C,P),其中S是主体(Subject,如用户)集合,O是客体(Object,如资源、服务)集合,C与P是社区共享的上下文(Context)与策略(Policy)的集合,上下文与策略都是主体和客体的关系。每个社区的策略和上下文都不能有歧义,也不能有矛盾,策略可以看成是广义的上下文[14]。

应用VIG进行资源组织的核心工作就是虚拟层资源的组织,包括社区划分和构建虚拟表。虚拟层的资源组织应遵循两个原则[12]:一是最大限度同类资源映射原则,即从虚拟层上看,所有同类物理资源是“一个”资源;二是单一社区内部访问原则,即有效层每个应用服务的资源都尽量来自虚拟层的一个社区。

(3)有效层

有效层与网格应用有关,是EVP模型中的最顶层,直接面向最终用户,主要解决好用性的问题。任何应用服务用户看到的是虚拟层与有效层同构的资源组织,虚拟层和有效层能够提供全网格的单一系统映象,例如图1中应用服务4通过C1能够访问从节点1到n的物理资源。

有效层的构建应遵循按用户组织原则,即将同一用户使用的应用组织在一起。按用户组织资源满足每个应用只有一个用户[12],同时一个用户可以使用多个应用的要求。

2 基于VIG的配电虚拟数据中心资源组织模型

构建基于VIG的配电虚拟数据中心的目的是为供电企业安全生产与营销服务业务功能提供一个统一的共享异构异地信息资源的平台,所研究的核心问题是资源如何组织可以最有效地为开发人员和最终使用者提供服务。

应用VIG技术构建配电虚拟数据中心,首先需要对供电企业信息管理系统进行功能分析。本节结合供电企业生产、运行、营销管理特点按照织女星EVP三层模型结构来说明基于VIG的配电虚拟数据中心资源组织模型和构建虚拟数据中心的方法。

2.1 供电企业安全生产与营销服务功能分析

全国各地供电企业的组织结构基本相同,主要分为营销处、生产技术处和调度所,分别负责营销、生产、运行方面的业务功能。营销处下设多个供电所,每个供电所负责各自管辖区域内低压用户抄表、核算、计费等工作,为营销管理系统提供低压电量数据;生产技术处下设四个工区:变电工区、配电工区、电缆工区、线路工区,各工区负责配网相关设备的运行检修工作、运行数据的采集以及维护工作、生产管理系统中设备信息以及GIS系统中拓扑信息的维护工作;调度所主要负责对遥测、遥信数据的监测以及遥控操作,负责整个电网的安全运行。各个部门都有自己独立的信息管理系统,系统之间的数据无法共享,导致数据重复存储、数据冗余大并且容易发生数据不一致的情况,影响上层决策结果。

针对以上情况,根据国家电网SG186工程规划中提出的构建适应公司管理需求的八大业务应用要求,本文对供电企业安全生产与营销服务的业务功能模块进行了归纳,如图2所示,分为营销、生产、调度三大业务功能组,在三大业务功能组的基础上构建配电虚拟数据中心资源组织模型。

2.2 配电虚拟数据中心物理层资源组织模型

结合图2供电企业的主要业务功能,与其直接相关的数据源主要有以下五种:关口电量数据库——存储地区与地区交界处关口电量表的供受电量,数据库存放位置一般为供电企业营销部门,主要应用于实际线损供入电量的计算;大用户电量数据库——存储通过远程采集装置采集的大用户用电量,同样存放在营销部门,主要应用于实际线损售电量的计算;调度SCADA数据库——存储变电站遥测遥信等运行数据,数据库服务器存放在变电工区集控站,主要应用于电网运行决策相关业务功能以及理论线损的求解;配电自动化数据库(简称配电数据库)——存储低压配电室的遥信、遥测等运行数据以及低压电量数据、网架结构数据,由于配电数据库存放数据量巨大,故一般分为多台,可分布在不同的地理位置上,主要应用于配网运行决策业务功能以及低压线损的计算;GIS数据库——存储配网设备基本参数及拓扑结构,数据库服务器一般存放在生产技术处,主要为各业务功能提供拓扑结构数据。不同的数据库结构不同,生产厂家不同,运行环境可能不同,分布在不同的物理服务器节点上,这些数据源连同存放应用系统计算结果的结果库共同为各个业务功能提供数据支持,构成了整个虚拟数据中心的物理层资源,如图3所示。

2.3 配电虚拟数据中心虚拟层资源组织模型

配电虚拟数据中心虚拟层资源组织模型的构建是整个资源组织模型中的核心部分,包括社区划分和虚拟表组织两部分。

(1)社区划分

社区的划分在具体实现中,本文总结归纳出以下四种方法可供选择:a.按应用划分社区;b.按用户划分社区;c.按地域划分社区;d.按组织机构划分社区。采用按应用划分及按用户划分社区都会导致构建的虚拟社区所容纳的虚拟资源有限,无法为更多相关的用户提供服务,可扩展性差;按地域划分社区的方法对于组织结构复杂,应用服务功能种类繁多的情况会出现虚拟社区包含的虚拟资源量过于庞大,资源不好管理;按组织机构划分社区,可以把访问同类资源、负责相近工作的用户组织起来,可以避免有效层资源跨社区访问的情况,既方便了资源的组织,也为上层应用系统的开发提供了很大的便利。

综合考虑以上因素,本文采用按最高层组织机构划分社区的方法,将数据中心的虚拟层资源划分为三个社区:营销社区、生产社区、调度社区,如图4示,每个社区中包含自身业务功能的虚拟表,图中的虚拟表是广义的虚拟表,每个虚拟表是由支持该业务功能的多个虚拟表组成。本文中部门下属的供电所及四个工区没有规划到社区的范畴,而是作为虚拟表的组织单位对社区内部的虚拟资源进行组织。

(2)虚拟表组织

为了方便为有效层应用提供资源,虚拟表应在满足最大限度同类资源映射原则的前提下按照应用来组织,这种虚拟表资源组织方式适用于任何社区划分方式。

按照这种方式组织的虚拟表如图4所示,营销社区中包含理论线损计算需要的虚拟表、实际线损计算需要的虚拟表、线损分析结果虚拟表等。针对实际线损业务功能组织的虚拟表划分如图5所示,图中的虚拟表是对图4中实际线损虚拟表的具体展开,包括关口电量虚拟表、大用户用电量虚拟表、供电所1~n配变电量虚拟表、变电站1~n配变电量虚拟表、线损计算结果虚拟表等多个虚拟表,共同为实际线损计算提供数据支持。

2.4 配电虚拟数据中心有效层资源组织模型

供电企业的所有业务功能构成了配电虚拟数据中心的有效层资源,有效层资源的组织是在应用的基础上按用户组织的,把每个用户使用的所有业务功能组织在一起。

按照上述方法组织的有效层资源如图4所示,线损专工负责理论线损及实际线损计算两个业务功能;营销局长则负责理论线损分析、实际线损分析等多个高级决策业务功能;方案员只负责设计方案一个业务功能。

3 实现

目前我们在局域网中建立了试验环境,并构建了一个原型系统,对基于VIG构建的配电虚拟数据中心资源组织模型的可行性进行了验证。实验环境包括5台WindowsPC服务节点,每个节点的性能、软硬件配置不同,图6给出了实验环境的组成。

在原型系统中,有的PC机既作为物理数据库服务节点同时也是VIG或Web服务节点;有的PC机上部署了两个物理数据源,构成两个物理数据服务节点。节点之间的虚线连接表示资源注册的连接关系,任何一个物理数据库服务节点都要注册到VIG服务节点上。Web应用服务程序通过VIG提供的接口访问资源。Web浏览器通过访问Web应用程序对资源进行相应操作。整个系统的实现模式如图7所示,应用功能及VIG资源整合平台共同构成了配电虚拟数据中心。

以线损分析应用为例在实验环境上进行实现,Web界面如图8所示。用户登录线损分析应用软件,选择想要查询的区域名称、线路名称、电压等级、查询时间等条件参数,点击查询按钮进行查询,如果结果数据库中没有相应数据则返回无数据信息,点击计算按钮进行计算,计算结束将结果写入到物理数据库服务器中供下次查询使用。

4 结论

数据组织模型 篇6

关键词:MBD,CATIA,检测信息,特征识别,数字化检测,组件应用技术

0 引言

伴随着数字化设计与数字化制造的广泛应用,对产品质量评价体系的要求也越来越高,数字化检测技术应运而生,制造行业逐步走向数字化设计、制造、检测相结合的现代化制造模式,但基于MBD的数字化检测技术的全面应用仍然处于探索阶段。基于MBD的检测信息获取与特征的准确关联是实现数字化检测的基础[1],目前各三坐标产商开发了适用于自己测量机的各类检测规划软件可自动识别检测信息与特征,如UG中CMM检测模块、PC-DMIS软件及AC-DMIS软件等,但各类检测规划软件对不同设计平台所设计的模型存在兼容性问题,造成读取模型时个别零件丢失、检测信息丢失及检测特征丢失等问题。目前国内部分大型企业已经应用数字化检测设备进行检测,但检测信息的获取仍然依靠人工读取二维图纸来确定,而设计、制造过程已经实现了三维数字化,就导致检验信息产生双数据源,给信息的管理与传递过程造成了潜在问题[2]。如何获取MBD模型的检测信息与关联检测特征是保证数字化检测结果正确的关键因素,文中对CATIA模型利用CAA[3](Component Application Architecture)技术对检测信息获取并关联检测特征,实现了检测信息的自动获取与关联特征,为数字化检测提供数据基础。

1 检测特征识别

特征识别是从零件模型中抽取具有一定工程意义的特征信息[4],特征是解决CAD/CAPP/CAM间“自动化”孤岛问题的有效办法[5],同样,在数字化检测系统中,检测特征作为系统的数据源,为检测规划系统提供了基本的检测信息。文中采用CATIA底层B-Rep数据对特征进行提取并识别[6]。

1.1 B-Rep信息提取

B-Rep边界表示法是指用点、边、面、环以及它们之间相互的关系描述三维模型[7],UG和CATIA等软件以B-Rep边界表示法为基础描述几何形体,B-Rep数据包含几何定义数据与拓扑数据,几何定义数据是指几何对象在空间中的表达,拓扑关系数据是指点、线、面、环的几何定义数据及相互之间的拓扑关系数据。在CATIA模型中,存在几何对象与拓扑对象之分,拓扑对象是由几何对象抽取而出,用来表达模型的拓扑关系。根据CATIA模型中所有拓扑对象之间的拓扑层次关系,可得出CATIA模型B-Rep数据提取的基本思路,其流程如图1所示,按照此流程对B-Rep信息进行提取,部分程序如下:

1.2 特征识别

特征识别技术中基于图的方法具有准确且高效识别特征的效果,并得到了广泛使用,该方法采用属性邻接图方式来描述构成特征的面集合之间的关系[8],节点对应零件的实体面,弧的属性表示两面交线的凹凸性,为凸弧时,表明与该节点所连接的边为凸边,相反则为为凹边,弧线的凹凸属性判断公式如下:

其中分别为两面F1与F2的法向量,为两面交线e的切向量,其中必须严格满足右手定则。当m为正值时,相交边e为凸边;m为零,为相切边;m为负值,为凹边。在基于图的特征识别方法中,模型中凹边出现的位置代表了特征所在的位置。从整体属性邻接图中分解出不包含凸弧的最小结构子图,并将形成凹弧的拓扑面以矩阵的形式输出并与特征数据库匹配,确定特征类别。

2 检测信息获取与分析

传统的检测方法需检测人员在尺寸标注与公差标注的位置查找检验要求并确定检验计划和检验工序,这种检测方法工作量庞大,效率极低而且准确度无法保证,遇到检测对象繁多的复杂零件,易造成检测数据丢失。本文的主要目的是保证检测信息不丢失的前提下提高检测效率实现数字化检测。

检测信息获取的过程即对模型中的MBD数据提取的过程[9],首先获取模型的标注队列(CATITPSList)对象,之后得到标注的依附面TTRS(Technologically and Topologically Related Surfaces),并判断其类型是Semantic还是Nonsemantic,再判断基本类型如Dimension(尺寸),Geometrical Tolerance(几何公差),Roughness(粗糙度)等,然后通过不同类型TPS特征对应的形为特征接口提取相应的数据,部分程序实现如下,图2为CATIA模型中MBD的数据提取流程。

3 应用实例

在CATIA平台下建立如图4所示模型并进行MBD信息标注,按照图1中B-Rep信息提取的流程对CATIA模型底层的基本数据进行获取,获取的拓扑面作为属性邻接图的节点,判断节点之间的凹凸关系,对输出的属性邻接矩阵分解出不包含凸弧的结构,与标准特征库进行比对后识别出独立的特征结构,如图3所示,为凹槽特征与圆孔特征的属性邻接矩阵,其中“2”所在位置为凹弧出现位置,“0”表示两面不相邻无交线,“1”代表凸弧出现位置,“3”表示两相交面处于相切状态。特征识别后,对检测信息进行分析与提取,并关联其特征,结果如图4所示。

经特征识别、检测信息分析与特征关联后获得的检测信息,通过后续的检测工艺规划,即检测点布置、检测碰撞检查与规避后,输出标准的DMIS程序,驱动三坐标测量机对模型进行检测,图5为零件的检测过程,检测结果表明,检测信息提取、信息分析与关联特征结果准确,三坐标测量机能够对其进行识别与评价,而且整个检测过程时间大幅度缩减,显著的提高了检测效率。

4 结论

文中提出在CATIA平台利用CAA技术实现自动获取检测信息与关联特征方法,针对传统检测过程中手动获取检测信息的丢失、错误和低效率问题,检测特征不能自动关联问题、特征属性不能自动获取问题进行了解决,由设计模型通过对底层B-Rep信息提取进行检测特征的识别,之后对检测信息进行提取与分析,关联相关的几何特征,经后续的检测工艺规划可实现三坐标测量机的驱动,验证了检测信息提取与特征关联的正确性。检测信息与特征的自动获取与关联告别了传统的检测方式,并且很大程度上提高了检测效率,为实现数字化检测提供了数据基础。

参考文献

[1]袁修华.基于STEP标准的三维实体制造特征识别技术研究[D].吉林:吉林大学,2008.

[2]段桂江,岑荣.基于MBD的飞机结构件检验规划技术研究[J].航空制造技术,2015,19:62-67.

[3]梁岱春,张为民,隋立江.浅析基于CAA的CATIA二次开发[J].航空制造技术,2012,10:65-68.

[4]李大磊,陈广飞,尹跃峰.基于图的混合加工特征识别方法[J].组合机床与自动化加工技术,2013,6:81-83.

[5]韩娟,张发平,高博,等.基于图和规则的混合式特征识别技术[J].机械设计与制造,2013,3:97-104.

[6]V.B.Sunil,Rupal Agarwal,S.S.Pande.An Approach to Recognize Interacting Features f rom B-Rep CAD Models of Prismatic Machined Parts Using a Hybrid(Graph and Rule Based)Technique[J].Computers in Industry,2010,61:686-701.

[7]徐同明,陈卓宁,李建勋.面向三维机加工艺规划系统的CATIA模型B-Rep信息提取与应用[J].计算机系统应用,2014,23(6):211-214.

[8]闫海兵.飞机结构件复杂加工特征识别技术的研究与实现[D].南京:南京航空航天大学,2010.

依据数据模型创建数据库 篇7

关键词:SQL Server,数据模型,数据库实现,数据库,数据表,数据结构,身份验证模式

主要任务是将数据模型变为实际的数据库, 即数据库实现, 包括创建数据库和数据表。

选择SQL Server作为数据库支持平台。SQL Server可以有两种方式创建数据库和数据表:

(1) 使用Transact-SQL的CREATE DATABASE或CRE-ATE TABLE命令编写代码, 然后在查询分析器中运行代码;

(2) 使用企业管理器中的数据库设计器或表设计器。采用后一种方式来创建项目实例的数据库和数据表。

1 创建数据库

首先, 为数据库确定一个名称Finnance。

然后, 按以下步骤创建数据库:

(1) 打开企业管理器, 展开服务器组, 然后展开服务器。

(2) 选择“数据库”->“新建数据库”, 打开“数据库属性”对话框。

(3) 在“数据库属性”对话框中, 键入新数据库的名称:Finnance, 如图1所示。

(4) 在“数据库属性”对话框中, 单击“数据文件”选项卡, 在“位置”处键入“D:FinnanceDataFinnance_Data.MDF”, 如图2所示。

(5) 单击“事务日志”选项卡, 在“位置”处键入“D::FinnanceDataFinnance_Log.LDF”, 如图3所示。

(6) 单击“确定”。

数据库Finnance被创建。

2 创建数据表

首先为数据表的列定义数据类型, 然后创建数据表。

2.1 数据结构设计

前文已经为数据表定义了列, 现在为列定义数据类型。

由于报销条件需要持久保存, 再增加一个表T_CtrlCondition, 用于保存报销条件信息。这样, 数据库包含4个数据表。

数据表的列的数据类型采用关系数据库SQL Server的数据类型。

2.1.1 表T_Project

表T_Project的数据结构如表1所示。

列“报销部门”的值来源于用户信息表T_User中“部门”列, 但不包括重复的值;列“报销人”的值来源于用户信息表T_User中“账户”列。

2.1.2 表T_Invoice

表T_Invoice的数据结构如表2所示。

列“报销内容大类”包含以下静态值:

(1) 耗材费

(2) 软件费

(3) 资料费

(4) 培训费

(5) 交通费

(6) 通讯费

(7) 劳务费

(8) 差旅费

(9) 会议费

(10) 咨询费

(11) 招待费

(12) 设备费

(13) 印刷费

(14) 测试费

(15) 外协费

(16) 开发费

(17) 其他

列“报销内容小类”包含以下静态值:

(1) (交通费) 汽油费

(2) (交通费) 出租费

(3) (交通费) 过路费

(4) (交通费) 过桥费

(5) (交通费) 其他

(6) (差旅费) 机票

(7) (差旅费) 火车票

(8) (差旅费) 长途汽车票

(9) (差旅费) 轮船票

(10) (差旅费) 会务费

(11) (差旅费) 住宿费

(12) (差旅费) 其他

列“付款方式”包含以下静态值:

(1) 现金

(2) 转账

列“是否附合同”包含以下静态值:

(1) 有

(2) 无

列“是否附通知”包含以下静态值:

(1) 有

(2) 无

列“状态”包含以下静态值:

(1) 1 (待送财务室)

(2) 3 (待审核报销)

(3) 5 (已报销)

2.1.3 表T_User

表T_User的数据结构如表3所示。

列“权限”包含以下静态值:

(1) 1 (高)

(2) 3 (中)

(3) 5 (低)

列“部门”包含以下静态值:

(1) 公司

(2) 财务室

(3) 总工办

(4) 产品设计所

(5) 工装设计科

(6) 材料研究所

(7) 动力科

(8) 质检科

2.1.4 表T_CtrlCondition

表T_CtrlCondition只需要两列:条件和控制值, 字段名称分别为f1和f2。表T_CtrlCondition的数据结构如表4所示。

2.2 创建数据表

定义数据结构以后, 现在就可以创建数据表。

(1) 展开数据库节点。

(2) 选择“Finnance”->“新建”->“表”, 打开表设计器。

(3) 在表设计器中, 按表1设计T_Project的数据结构, 添加列以及表的其他详细信息, 如图4所示。

(4) 关闭表设计器, 提示“您想要保存对表TABLE1的更改吗?”, 如图5所示。

(5) 回答“是”, 出现“选择名称”对话框。

(6) 在“输入表名”文本框中输入表的名称:T_Project, 如图6所示。

(7) 单击“确定”。

数据表T_Project被创建。

重复以上步骤3次, 分别按表2、3、4创建数据表T_In-voice、T_User和T_CtrlCondition。

3 设置身份验证模式

SQL Server服务器有两种身份验证模式:

(1) SQL Server和Windows

(2) 仅Windows

这里为SQL Server服务器选择SQL Server和Windows模式。

通过企业管理器设置身份验证模式, 步骤是:

(1) 打开SQL Server企业管理器。

(2) 展开一个服务器组。

(3) 右击一个服务器, 再单击“属性”。

(4) 在“安全性”选项卡的“身份验证”下, 单击“SQL Server和Windows”, 如图7所示。

(5) 在“审核级别”中选择在SQL Server错误日志中记录的用户访问SQL Server的级别:

1) “无”表示不执行审核。

2) “成功”表示只审核成功的登录尝试。

3) “失败”表示只审核失败的登录尝试。

4) “全部”表示审核成功的和失败的登录尝试。

(6) 单击“确定”。

为了使设置生效, 必须重新启动SQL Server服务器。

4 注册系统管理员

为了在后续系统编码过程中便于调试, 同时也为了让系统交付后用户能够启动系统, 在用户信息表T_User中必须注册一个用户。这个用户应该是系统管理员, 权限最高。注册信息如下:

(1) 账户:admin

(2) 姓名:管理员

(3) 权限:1

(4) 部门:财务室

(5) 密码:111

用企业管理器注册系统管理员:

(1) 在SQL Server企业管理器中, 右击T_User表。

(2) 选择“打开表”->“返回所有行”, 显示打开表窗口。

(3) 在窗格的空行中, 输入以上系统管理员信息。

(4) 关闭表窗口。

5 结语

数据库实现就是依据数据模型创建数据库和数据表。SQL Server创建数据库和数据表的方式有两种:使用Transact-SQL的CREATE DATABASE或CREATE TABLE命令编写代码, 然后在查询分析器中运行代码;使用企业管理器中的数据库设计器或表设计器。

参考文献

数据模型构建 篇8

ROLAP是在基础事实表上, 直接关联维度表, 因此, 比较灵活, 空间占用小, 但是速度较慢;MOLAP, 是在维度固定的情况下将数据首先进行所有维度层次之间组合的汇总, 最终达到给出查询条件直接命中汇总后的事实表, 进行无需关联维度表的数据的直接检索, 因此, 这是两个矛盾的过程。这对矛盾的焦点在于事实表是首先汇总, 还是不汇总, 为了提高速度, 汇总是正确的;为了减少空间占用, 不汇总就是正确的。我们将必要的层次组合进行提前汇总, 使得一部分状况下, 可以直接命中查询记录, 另有一部分状况下, 在轻量数据集上进行临时汇总生成查询结果的方式为HOLAP模型。

根据上面的描述, 整个问题的核心变成了汇总后的事实表的保留原则, 也就是说哪些表保留是合理的, 哪些表可以不保留的问题。

名词解释:

支撑表、层次差:当表A, 不存在, 针对表A的查询可以在表B上进行, 在得到的数据集上进行汇总生成所需查询结果的过程中, 表B称为表A的支撑表, B表与A, 层次标号差称为层次差。

数据源表:对于最细粒度上的表是不需要进行汇总操作的, 它为生成过程提供源数据, 这样的表称为数据源表。

事实表:在数据源表上, 进行汇总操作, 最终形成了一批各个层次组合的数据表, 这些数据表在检索过程中直接使用, 同ROLAP模型中的事实表作用等同, 对于这样的表, 我们称为事实表。

跳转:当一个事实表A不存在, 需用支撑表进行数据检索时, 我们称这样过程为跳转。

表的选取原则:

MOLAP模型中事实表是齐备的, 无需任何的跳转操作, 都能够直接命中事实表, 这样的检索效率是最高的, 但是如果采用部分数据表不生成的方案来降低空间使用率, 那么就一定存在跳转, 这就涉及到事实表的选择的问题。

当A表不存在, 需要使用支撑表时, 可以认为, 支撑表与A表的层次差越小越好。比如:表A的层次为Ca1Cb1Cc1, 它的两个支撑表为表B:Ca2Cb1Cc1和表C:Ca4Cb1Cc1, 那么通常状态下B表作为支撑表要比C表作为支撑表更为合理。那么也就是说, 最好情况是直接命中, 比较好的情况就是某一层进行一次跳转就可以到达支撑表, 跳转2层或更多才能到达支撑表, 这样的方案不好。

于是, 我们确定一个目标:不能直接命中的表, 能通过一层且仅一层跳转就可以到达支撑表。

表选取的解决方案:

假设, 只有两个维度, 每个维度为5层, 分别定义为A1、A2、A3、A4、A5和B1、B2、B3、B4、B5, 并且, 层次编号有有小到大代表粒度由粗到细。那么可以肯定, A5B5为数据源表, 它必定存在, 不需生成。而且, 它也必须存在, 没有它, 所有的数据都将无法生成, 因此, 我们使用如图1的选取表的方式, 红点表示最终被保留的数据表。选取过程可以用一个递归的过程来描述:由于A5B5存在, 那么它临近的两个表, 只需要一层跳转就可以达到A5B5, 因此, 可以不存在, 于是, A4B5和A5B4两个表就可以不存在, 由于A4B5不存在, 那么A4B4和A3B5失去了一层跳转就可以到达的支撑表, 因此, 这两个表就必须生成。

使用这样的选取方式, 我们将表数量减低为原来的约1/2, 记录总量在理想状态下也将降低为原来的约1/2。在仅有两维存在的情况下, 这样的选取方式可以认为是比较合理的。那么当维度变为3维时情况如何呢。

假设引入一个新的维度C, C仅有2层C1, C2。此时A5B5C2就是数据源表。

对于上面的操作过程我们使用了一个实例, 并且“整齐”的两个维度进行操作, 现在将其推广成为一种广义模式认为A有m层, B有n层, 并且规定m>=n。得到的这样一个操作过程:首先选取末节点Am Bn放置到集合R中, 查看集合R中的所有点是否存在某一个点的对角点不在R中, 如果不在, 提取该点放置到R中再重复上面的查找过程。直至R中的所有点的对角点全部出现在R中, 查找过程完毕。集合R则对应F模式, 没有在集合R中的点对应的就是S模式。

引入第3维以后, 我们命名新引入的维度为C, 维层次为C1, C2, C3, C4, C5。FAB和SAB交替出现在维度C的各个层次上。

我们可以看出, 问题, 又一次回到了2维模式下的表选取模式上来了。于是, 我们可以得到下面的结论{A, B, C}={{A, B}, C}={SAB, FAB;C1, C2, C3, C4, C5}=|SABC, FABC];其中:FABC=[C5FAB, C4SAB, C3FAB, C2SAB, C1FAB];

SABC=[C5SAB, C4FAB, C3SAB, C2FAB, C1SAB];

同理得到{A, B, C, D}={{A, B, C}, D}={{{A, B}, C}, D}={SABC, FABC;D1, D2, ….Dm}=|SABCD, FABCD]

综述:在实际的应用过程当中, 发现ROLAP的效率不高, MOLAP的易引起数据爆炸是两者公认的弱点, HOLAP必然是最终的归属。

摘要:在整个项目中, 数据表构建的模型是重要环节, 它影响着最终数据的膨胀比率和数据的检索速度。MOLAP模型下, 我们已经成功的使用所有层次组合的方式来生成数据, 最终达到了预期的目的, 用牺牲空间的方式换取了检索速度的提高。同时, 我们也看到了数据的大幅度膨胀和数据生成的困难性。系统中, 如果再增加一个维度或者再增加一个维层次可能都将导致数据爆炸, 导致整个优化工作的失败。因此, 在使用这种提前汇总的方式作为优化方案时, 控制膨胀比率成为一个很关键的问题。

关键词:数据源,数据模型,跳转

参考文献

[1]dorian pyle (著) :《业务建模与数据挖掘》, 机械工业出版社。

数据组织模型 篇9

【摘要】本文鉴于首钢集团的一业多地的生产框架模式,特别是各个子公司与港口之间的物料运输频繁,通过建立数学模型,在运价波动频繁的情况下,动态计算最合理的运输组织方案,以便降低企业日常运输成本。

【关键词】首钢集团;物流;数学模型

The mathematical model of the logistics organization of Shougang

Chen bo1, Yuan xiaoshuai2, Fan minghao2

(1 Shougang Jingtang Iron and Steel Plant, Tangshan 063200,China; 2 BSIET General Layout Degsign Division,Beijing 100043,China)

Abstract: in this paper, in view of the fact that an industry of Shougang Group much production framework, especially between the sub companies and port transport frequently, through the establishment of mathematical model, the rate fluctuates more frequently under the condition of transportation organization scheme, dynamic calculation of the most reasonable, in order to reduce the enterprise daily transportation cost.

Keywords: Shougang Group Logistics Model

钢铁冶炼业在我国经过60多年的快速发展,其产能已处于饱和状态。结合市场经济规则,在保证产品质量的前提下,降低钢铁企业的日常运行成本,特别是物流运输成本,是钢铁企业能够生存的有效战略之一[1]。本文针对首钢集团在河北省三个钢铁公司进口原、燃料的运输系统进行研究分析,通过对港口、运输方式等费用的比选,对运输通道能力的核算,择选出成本最低的进口原、燃料运输组织方案。

1.研究背景

首钢集团在河北省共设置3处钢铁公司,分别为首钢京唐钢铁公司、首钢迁钢公司、首秦钢铁公司。目前3处钢铁公司需求的原、燃料主要为进口,通过海运分别在A港口、B港口、C港口和D港口上岸,由于从渤海海峡到4处港口的里程相差较小,上岸前的海运价差忽略不计。

除首钢京唐钢铁公司与C港口之间只有胶带机连接外,其它2处钢铁公司与4处港口之间均具备铁路、公路两种运输方式的条件。

对于原、燃料需求巨大的钢铁公司,运输成本占公司总成本的20~25%,而厂外运输成本占运输成本的50~70%,因此,如何降低运输成本,特别是厂外运输成本,是钢铁公司近期研究的课题。

2.研究过程

针对首钢集团以上3处钢铁公司的厂外运输模式,设计一个动态调控运输组织方案的数学模型,做到有组织、有计划,且及时、有效的择优运输计划方案,使每一次运输方案都达到最优是本文的目标。

2.1 厂外运输费用的构成

厂外运输费用是指从原、燃料生产地至钢铁公司厂区内发生与运输相关的全部费用,主要包括装船港杂费、海运费、卸船港杂费、铁路或者道路运输费、以及进入厂区内部的卸车费[2]。

1)装船港杂费,对于首钢集团均一致,不参与模型计算。

2)海运费,对于首钢集团均一致,不参与模型计算。

3)卸船港杂费,在中国港口发生的全部费用,包括报关、换单、集装箱码头装卸作业费、港口费、提重、回空、掏箱等费用[3]。

4)铁路运费,铁路运输过程支付的全部运杂费。

5)铁路翻车机卸车费,主要包括翻车机的日常使用和维护费用。

6)道路运费,目前有2种模式,一是采取第三方物流的到厂一口价,二是企业自运的经营综合成本。本文按照第一种模式进行计算。

2.2 各个钢铁公司的原、燃料需求量以及卸车能力

各钢铁公司依其生产规模和外部运输条件,采取的大宗物料运输入厂及卸料的方式主要分为3种:道路运入及汽车受料槽卸料、铁路运入及翻车机卸料、水路运入及卸船机卸料。

根据3处钢铁公司的规模参数,其对应的需求进口原、燃料量、卸料能力(万t/a)见下表1

2.3 各个港口可供首钢集团的装车能力及港杂费

对于以上4处港口,首钢集团采取同港方签订长期供需协议的形式,以便协调日常生产进度计划。首钢集团与港口的供需协议如下表2。

2.4 4处港口至3处钢铁公司的通道容量、单价

1)受铁路运输通道能力的制约,首钢集团一般与北京铁路局、太原铁路局签订长期铁路运输协议,以便满足日常的生产需要,铁路局分配给首钢集团的运输能力如下表3。

注:通道能力单位:万t/a,单价单位:元/t。共用段能力是指与港口连接段,首钢集团与铁路局协商的运输通道量。

2)目前河北省及天津市的高速公路比较发达,道路通道能力足够大,本文不作为限制条件纳入计算,其单价是物流公司竞标取得,详见下表4。

2、单价单位为元/t。

3)C港口至首钢京唐钢铁公司胶带机运输单价为2元/t。

4)铁路翻车机卸料成本为1.5元/t。

3.数学模型

根据上述条件中需求量、卸车能力、单价、通道能力的数值分析,首钢京唐钢铁公司需求进口原、燃料为1500万t/a,应从C港口采用胶带机直接运输入厂最经济合理。因此,只需计算首钢迁钢公司需求进口原、燃料为800万t/a,首秦钢铁公司需求进口原、燃料为300万t/a,即可求和得出首钢集团在河北省入厂进口原、燃料的运输总费用。

3.1 首钢京唐钢铁公司进口原燃料入厂前运输成本:

F1=需求规模×总费用(港杂费+胶带机运输成本)=1500万t×(17.5+2)元/t=29250万元。

3.2 首钢迁钢公司和首秦钢铁公司进口原燃料入厂前运输成本:

目标函数:F2=min

其中:铁路运输量,:铁路运输费,:道路运输量,:道路运输费,i=1···4=A港口、B港口、C港口、D港口,j=1、2=首钢迁钢公司、首秦钢铁公司。

:铁路运输总费用由港杂费+铁路运输费+翻车机成本组成;

=

≤500(首钢迁钢公司铁路卸车能力);

≤90(首秦钢铁公司铁路卸车能力);

≤320(通道能力);+ <=340(共用段能力)

≤260(通道能力);+≤480(共用段能力);

≤340(通道能力);+≤430(共用段能力);

≤460(通道能力);≤100(通道能力);≤380(通道能力);

≤270(通道能力);≤350(通道能力);

:道路运输总费用由港杂费+道路运输费组成。

=

≤500(首钢迁钢公司道路卸车能力);

≤260(首秦钢铁公司道路卸车能力);

+=800(首钢迁钢公司年需求进口原、燃料总量)

+=300(首秦钢铁公司年需求进口原、燃料总量)

3)求解过程,将上述目标函数、约束变量、决策变量带入lingo软件编制的程序模型[4],计算得出:F2=54004.7万元

=160,=0,=340,=0,=0,=0,=300,=0;

=90,=0,=0,=0,=210,=0,=0,=0;

4)首钢集团河北省地区进口物料厂外运输总成本为:F=F1+F2=83254.7万元。

即其运输组织方案如下:

4.结束语

该数学模型根据运价波动、通道能力等,理论上能够实时动态计算出当前最合理的运输组织方案,以便提供运输方案决策。

参考文献

[1]冯林安.我国钢铁企业物流发展趋势研究[J].中国电子商务,2014, (21):76-79.

[2]薄洪光.刘晓冰.复杂生产过程集成化管理理论与方法:基于钢铁企业生产物流管理视角[M].北京:科学出版社,2013.

[3]苗凤红.对于港口企业费用控制的探究[J].新财经,2011, (10):18-20

[4]谢金星,薛毅.优化建模与LINDO\LINGO软件[M].北京:清华大学出版社,2005.

作者简介

多媒体数据库的数据模型研究 篇10

关键词:多媒体,数据库,数据模型

在当前的多媒体数据中,既有字符、数值、文本、图形、图像等静态数据;也出现了声音、视频、动画等基于时间的时基类型数据。这些多媒体数据不规则,没有固定的格式和一致的取值范围,也不具备相似的属性值。那么当前如何用数据库系统来存储和组织这些数据呢?传统的基于关键字检索只适合于静态性数据,那图像、声音,甚至视频数据,又将如何在数据库中存储,如何检索呢?

1 面临的问题

建立多媒体数据库是解决上述问题的必经之路。而要建立多媒体数据库就需要分析多媒体数据特征,根据特征确定存储方法。多媒体数据的特征:(1)多样性:指信息媒体种类的多样化和计算机处理多媒体数据技术的多样化。(2)集成性:指多种信息媒体的集成和处理这些信息媒体软硬件技术的集成。(3)交互性:指通过各种手段,有效控制和使用信息,使参与双方均可以进行编辑、控制和传递。(4)实时性:指音频和视频信息都是和时间有关的连续媒体,处理这些信息不保证实时性,就没有任何价值。(5)数字化:指计算机只认识二进制数据,处理多媒体数据时这些数据必须能数字化为二进制数据。

由此可见多媒体数据与传统媒体的有如下区别:传统传媒基本是模拟信号,而多媒体数据是数字化信息;传统传媒让人们被动接受,而多媒体让人主动与信息交互;传统传媒一般形式单一,而多媒体则是两种以上媒体的有机集成。

2 多媒体数据库的数据模型分类

根据多媒体数据的特点,多媒体数据库在传统数据库基础上还必须能对具有时空关系的数据进行同步和管理。目前多媒体数据库的功能以及实现方法还是一个较热门的前沿课题,多媒体数据库的数据模型大致可分为以下几类:(1)扩充关系数据模型,打破数据库的1NF,实现对非格式化数据的管理。(2)面向对象数据模型,通过对象模型描述对象和对象语义信息。(3)超文本/超媒体模型(4)信息元数据模型(5)表现和同步模型。

3 多媒体数据库数据模型的实现方式

当前多媒体数据库应用程序开发者面临的最大挑战是,要把文本、声音、图像和视频等不同形式的信息,组合在他们的应用程序中。因此多媒体数据库数据模型的实现主要采用以下几种方式:

3.1 扩展关系数据库

(1)引进大二进制对象(BLOB–Binary Large Object)扩展现有的数据类型。在常规数据类型的基础上,增加图像、图形、声音、视频等数据类型。关系数据表中只存放BLOB的位置路径信息,而相应的多媒体数据实际仍存于数据库外部的独立的图像、视频服务器中。

(2)扩充用户自定义的数据类型。通过抽象数据类型的定义,将数据与操作数据的程序进行封装,方便地实现组合信息的存储与查询。

(3)引入NF2模型,结合层次模型和面向对象模型层次结构的优点,打破了数据库中的关系必须满足第一范式的要求,允许表中可以有表,如图1所示。

采用扩充关系数据库模型继承了关系数据库的许多成果和方法,但只是对多媒体数据的存取有效,而对多媒体数据的空间关系、时间关系和语义关系不作模拟,因而不能满足对多媒体数据库语义、时空上的处理。

3.2 面向对象的多媒体数据库

随着面向对象技术的发展,面向对象方法在数据库领域也日益强大。利用对象模型描述对象和表达对象语义信息,使不同媒体的用户界面得以统一。

面向对象的多媒体数据库系统是根据面向对象的特点,用全新的技术和方法去设计和实现数据库系统。把面向对象的对象、属性、、方法、消息、类、继承、封装等概念引入数据库中,来表达和管理复杂嵌套对象。在多媒体数据库中媒体之间的关系即实体之间的语义关联。主要的关联有概括关联、聚聚关联、相互作用关联、has-method和has-rule关联、实例关联。同时在多媒体数据库中,数据的运算即对类和对象进行查询、操作等运算。

由于面向对象方法接近人的思维方式,对多媒体数据的管理具有许多好处。继承性降低了媒体数据冗余存储;封装性实现了通过公共接口对对象进行访问和操纵;对方法的管理,实现对多种媒体存储管理;对象类和实例概念的引入有效地维护了媒体数据的语义,实现媒体聚集关联。因此面向对象数据模型是解决多媒体数据库较为科学的方法和工具。

3.3 超媒体数据库

超媒体模型的基本结构是网状的,在超媒体模型中引进了节点和链两个主要概念。节点是信息单位,链用来组织信息,表达信息间的关系。节点可以是不同媒体,链可以表达媒体的时空关系,所以超媒体模型成为现在很普遍的一种多媒体数据模型,如图2所示。

由上可知,内容方面,多个多媒体数据元组成超媒体节点,多个超媒体节点组成信息网络;表现方面,操作系统内部完成低层同步;节点内各元素的时空安排是中层同步解决的问题;上层同步解决如何转化为系统的问题。

3.4 信息元数据模型的数据库

信息元模型打破超文本模型的从上层“应用级”入手研究上层组织,而是通过“信息元”的概念从中层入手来研究中层组织。多媒体信息元是具有一定语义并组成信息系统应用的信息子块。该模型通过制定一个标准,是“信息元”公共化和通用化,成为上层各类媒体或各类模型都可调用的信息元。同时把面向对象的一些特点如封装、继承等也引入进来,提供了强有力的抽象机制。

4 结语

目前多媒体数据库技术的研究仍是多媒体技术的一个热点。专家们提出的扩展关系数据库有其自身的局限性,只是现阶段对多媒体数据库管理系统的过渡技术。面向对象模型和超文本/超媒体在表示多媒体对象之间的语义关系、实现多媒体时空同步等方面有着独特的优点,将成为多媒体数据库的发展主流。另外现在跨媒体技术也逐渐成为专家学者们研究热点之一。

参考文献

[1]钟玉琢,等.多媒体计算机技术基础及其应用[M].北京:高等教育出版社,1999.

上一篇:甘肃中小学下一篇:广电监管