产品设计数据

2024-10-06

产品设计数据(共12篇)

产品设计数据 篇1

随着保险竞争的加剧和信息化建设进程的推进, 各家保险公司逐步实施了数据仓库建设, 而数据集成作为数据仓库建设的关键技术之一, 是数据进入仓库的入口, 其设计的好坏将直接影响整个数据仓库建设的成败。然而在数据集成的设计过程中, 经常由于数据源质量不高、数据源修改主键、多表对一表抽取数据不同步以及数据源不支持数据仓库的抽取等原因, 导致数据抽取遗漏、冗余、错误, 造成数据质量差并影响公司信息决策。本文结合自身实践, 就数据仓库建设的数据集成设计与大家一并探讨。

一、数据集成原理概述

由于保险业务性质决定保险业务系统处理逻辑复杂, 数据量大, 再加上种种原因还保留许多历史遗留系统, 开发平台和技术规范也不统一, 给数据仓库的数据集成带来了不小的难度。因此, 在数据集成设计时, 既要考虑满足数据仓库之初管理需求的实现, 又要考虑实现数据规范的统一、避免对OLTP (联机事务处理) 数据库性能的影响、减少对OLTP库结构的修改等约束, 在保证数据抽取质量和效率的前提下, 我们提出的保险数据仓库数据集成解决方案, 如图1所示。

(一) 各数据抽取层概述

1. OLTP数据源

即所有保险联机事务处理数据库, 以及其他非结构化数据。为减少对OLTP的性能影响, 对各生产库要抽取的源数据表增加了插入、删除、修改触发器, 由触发器调用数据库内核捕获OLTP数据源的表记录变化, 并按事务处理前后将这种变化保存在轨迹库中。

2. 轨迹库

即保存反映OLTP数据变化的轨迹数据库, 与OLTP数据源是一对一关系, 且尽量选择相同数据库, 这样确保对OLTP性能影响小。它与OLTP数据库表结构的不同之处在于, 轨迹库表除比OLTP数据库表多3个字段外, 其他字段结构相同, 多的3个字段分别为:变化类型标志 (I:插入, D:删除, U:修改) 、更新时间戳、标志型字段。如一条记录在生产库中先被插入, 而后修改再删除, 这样在轨迹库中将保存三条记录。

3. 同构库

选择与后续数据仓库、ODS相同的数据库平台, 实现各异构的OLTP数据库平台的统一, 其库结构与OLTP轨迹库相同, 而记录信息除要保存删除记录外, 其他与OLTP数据源表一致。它是通过ETL工具获取OLTP轨迹库中最后记录状态信息, 仅反映生产库的当前状态。

4. 操作数据存储 (ODS)

是对多个OLTP库经过ETL (即数据抽取、转换、装载) 过程按照主题进行有效地集成, 定期刷新, 包含当前有效数据, 是数据进入数据仓库前的缓冲区。其具备4个特点:面向主题、集成性、近实时数据发布、当前数据。

5. 数据仓库 (DW) 和数据集市 (DM)

包含大量从ODS层传送来的历史数据, 传入数据一般不再修改。它是面向分析型数据处理, 支持分析决策, 不同于操作型数据库, 具备4个特点:面向主题、集成的、相对稳定的、反映历史变化。数据仓库是满足企业级管理决策需要, 而数据集市是满足部门级管理决策需要而设置, 可看成数据仓库的子集。

(二) 数据抽取层间关系

OLTP数据源到轨迹库是通过触发器方式减少数据抽取对OLTP生产库的性能影响, 而轨迹库到同构库是解决数据库平台统一问题, 将不同数据库统一到同构库中, 形成与生产库同构的数据, 同构库到ODS库是分主题的数据集成, 用于数据进入DW前的数据缓存, ODS到DW是生成代理键及映射表的过程, 由于数据进入DW生成了代理键, 不便根据业务键进行回溯关联更新, 同时从同构库到ODS中有多对一表的抽取, 情况更为复杂, 不便查错。因此设计ODS非常必要, 这样也保证ODS到DW的抽取基本上是一对一的抽取。

二、关键抽取技术设计

数据抽取主要有全量抽取和增量抽取。全量抽取比较简单, 在此不再累述;增量抽取主要有触发器、时间戳、全表比对、日志比对等方式。下文就触发器和时间戳增量抽取方式中的一些关键技术与大家进行分享。

(一) 抽取控制表的设计

本控制表存在除生产库外的所有源数据抽取端的库中, 用于增量抽取控制。其中endid和curid是自增长型的标志型字段, 如数据从生产库进入轨迹库时会产生系统时间戳和标志字段, 而通过抽取控制表可以确定本次数据抽取范围, 实现增量抽取。另外, 此处endtime和curtime的设计是增加系统的可靠性。

(二) 抽取频率及精度设计

数据增量抽取是在各抽取层间从前至后顺序流动, 为保证数据抽取的有效性和准备性, 后面抽取频率应低于或等于前面的抽取频率, 后面抽取时间戳精度应低于或等于前面抽取层的时间戳精度。同时, 只要不是最后一级数据层, 即使是到DW层, 若还有后续抽取, 则都应在各级数据层中设计时间戳 (捕获更新数据行) 和增删标志 (有效确保删除目标数据层中的删除或被修改前的数据) 字段, 以便数据正确流转。

从同构库开始后的一表对一表的数据流转方式:根据源数据层Etl Ctl控制表中的时间戳起点及源数据表中的最大时间戳确定被更新的数据范围, 抽取数据到临时表, 根据主键关联删除目标正式表中的数据, 将临时表中的数据插入正式表, 若此时正式表为最后一层数据层, 此时将临时表中增删标志不为‘D’的插入即可。另外, 因为同构库中数据与OLTP数据源中数据是同构的, 所以即使后续数据的抽取频率变低, 数据流转方式与上面的相同。

(三) 防主键修改的触发器设计

针对有主键表的增量抽取方式, 若在OLTP生产库中修改了主键值, 通常做法是通过更新触发器插入轨迹库一条更新的数据记录, 但由于有主键的后续抽取是通过主键进行判重删除的, 这样将导致同构层数据原主键记录形成垃圾, 无法删除。鉴于此种情况, 我们对OLTP生产库的更新触发器改为两条插入触发, 插入一条主键修改前原记录, 同时标志为D, 再插入一条主键修改后的新记录, 同时标志为I。这样, 在抽取包中按主键查重后, 不会因修改了主键而产生冗余垃圾记录。如对表agent_post_mclerk的更新触发器修改为:

(四) 多表对一表的数据抽取设计

多表对一表的数据抽取过程中, 往往由于源数据层的多表数据准备不同步, 有的表数据先准备好, 有的表数据后准备好, 导致进行多表数据关联抽取时数据遗漏, 从而影响后续数据抽取的正确性, 为此须采取措施保证多表数据到目标层后数据的同步性和正确性。通常做法是:先通过在Etl Ctl控制表采取左关联, 确保控制表数据不会掉, 然后用另一个表关联更新目的表所有字段。这种抽取方式虽然可以保证数据的准确性, 但不能保证数据的一致性和同步性 (同步更新) , 同时关联更新此表时必须用另一个表的全表数据更新, 查询数据量大, 效率低, 因此这种方式不可取。为了保证数据的正确性、同步性, 采取的设计原则是:只有多表的关联记录数据全部准备齐了才一同到达目标层。

考虑到生成的目标表是否要对关联的源数据多表进行聚合运算, 在此分两种情况进行分别讨论。现假设要从源数据层的A表:psn_customer (cust_id, …, upd_flag) 和B表:customer (cust_id, …, upd_flag) 中, 抽取数据到目标层的C表:c02 (cust_id, …) 中, 前面带下划线的字段为表中的主键 (此处源表的关联条件是否构成目标表的主键均没有任何影响, 将其设置为目标表主键是为了更方便理解) 。

1. 多表对一表时不进行sum, average, count等聚合运算, 但可进行distinct运算的情况

根据表间关联条件抽取数据, 并根据upd_flag值决定, 只要有一个为‘D’, 则值为‘D’, 同时不为‘D’时, 才为‘I’, 然后生成的临时表数据根据目标表主键对目标表进行先删除后插入操作。

(1) 更新抽取控制Etl Ctl表:update Etl Ctl set

2. 多表对一表抽取时进行了 (不含distinct) sum, average, count等聚合运算的情况

此时应分两步:第一步先根据有效或无效 (删除) 数据生成2个临时表 (字段为目标层表的主键) , 2个临时表的数据为第二步回溯抽取数据的条件;第二步以临时表字段为条件关联回溯抽取源多表数据 (当然原多表的关联仍然保存) , 生成对应2个新的明细临时表, 进行distinct临时表数据, 而后取合生成正式表数据, 再对正式表进行先删后插操作。

(1) 更新Etl Ctl表:update Etl Ctl set

三、结束语

数据集成设计是一个复杂的工程, 也是一门艺术, 其设计好坏将直接决定数据仓库的数据质量。由于篇幅有限, 本文主要从增量抽取的关键技术设计进行了讨论, 抽取审计、查错跟踪等未能一一介绍。同时, 数据仓库的质量不仅需要好的数据抽取设计, 而且有赖于OLTP建设时能事先考虑到将来DW的数据抽取需要, 信息工作人员应站在企业级、行业级的高度去思考信息架构建设。

产品设计数据 篇2

陕西省级气象科学数据共享数据库设计与实现

介绍陕西省级气象科学数据共享数据库建设的内容、技术方案、设计参考标准、结构、信息流程等.元数据的基本概念、作用和使用方法.介绍了元数据库的表名,表结构及基于元数据导航的`数据发布;数据实体库设计的基本原则,数据集及数据库表;数据库管理系统的设计及维护.

作 者:夏巧利 陈高峰 邸永强 高宇 作者单位:陕西省气象信息中心,西安,710014刊 名:陕西气象英文刊名:JOURNAL OF SHAANXI METEOROLOGY年,卷(期):“”(2)分类号:P409关键词:气象科学数据 共享数据库 设计开发

大数据驱动产品创新 篇3

许多公司在利用大数据,精确定位客户需求,推出量身定制的新产品,以期提高成功几率。大数据是说公司可以挖掘分析大量各种信息,以改善下一代产品和服务:呼叫中心服务工单、保修记录、在线客户评论、博客、互联网搜索分析、基于位置的服务等。

著名调研机构Ovum Research的分析师托尼·贝尔(Tony Baer)表示,大数据和产品开发“最易见效”的方面就是客户情绪分析:公司密切关注社交媒体帖子、Twitter消息及其他在线信息,了解人们的所思所想。

客户情绪分析基本上将互联网变成了世界上最庞大的专题小组,以便在各种问题和想法完全被意识到之前,及早发现它们。

网上有人议论一家计算机公司的新笔记本电脑存在过热的毛病,该公司发现这个预警信号后,认真分析了原因,发现问题原来出在高级用户将外接显示器连到笔记本电脑上。这些用户在这么做时,势必要关掉屏幕,这就挡住了排风扇,因而导致笔记本电脑过热。该公司马上重新设计了笔记本电脑,以解决这个问题。

为旧产品赋予新含义

大多数公司认为,如果结合来自客户关系管理(CRM)或企业关系管理(ERM)系统等传统数据源的客户数据,通过在线监听收集而来的非结构化数据就能派上最大的用场。

以一家其主打产品销量出现下降的公司为例。该公司利用客户情绪分析工具查看自己的Twitter消息和Facebook页面;发现客户们特别提到一款新的竞争产品已添加了功能。于是,这家公司分析了CRM记录,结果发现同一个问题(缺少功能)是退货的主要原因。它立马给自己的产品添加了相应功能,销量也随之回升。

许多公司有大量的内部数据(现在基本上没有利用起来)可用来指导创新。高科技智囊团Cyon Research的负责人布拉德·霍尔茨(Brad Holtz)举了一个假设的例子:航空公司可以从顾客购买机票时选择座位中获得大量宝贵信息,比如他们是不是宁可以伸腿空间换取靠窗座位。他说:“如果留意一下顾客如何挑选座位,就会发现一些模式,从而可以建立不同的飞机内部布局。”

呼叫中心可以说是洞察客户的基础,是个重要的大数据资源。许多公司在联络中心经常记录下所有的客户对话。处于领先的公司把那些对话自动转录下来,搜寻可能表明需要推出新产品或改进旧产品的常见词,从而满足未得到满足的客户需求。

基于位置的服务是为旧产品赋予新含义的另一种方式。贝尔提到了汽车保险。目前,保险费率是固定的,一方面取决于车主说车子每年要保多少英里。GPS技术可以提供准确信息,了解车主开往何处,这样保险公司就能提供不同的产品,或者为旧产品确定更合理的价格。

托马斯·雷德曼(Thomas Redman)著有 《数据驱动:靠最重要的商业资产获利》(Data Driven: Profiting from Your Most Important Business Asset)一书。他表示,每家公司都需要一个“信息化”战略,通过积聚更多的数据和信息,提高现有产品和服务的价值。

“不管是什么产品,你都可以想方设法让它实现信息化。一个例子就是医院病服。智能病服配备有传感器,可以无线监测病人的血压、体温及其他信息,从而提供更有效的医护服务。” 雷德曼说。

将大数据应用到产品生命周期

不过,将大数据应用到产品创新可不是查看Twitter消息这么简单。首先,公司必须把注意力放在合适的数据上。霍尔茨说:“许多人没有认识到,大数据的关键不是使用海量数据,而是深入分析数据流,解读这些海量数据,从中推断出正确的结论。”

除此之外,将大数据应用到产品创新还需要内部协调达到较高的水平。比如说,客户服务部和市场营销部可能都会发现如果结合起来,能让公司深入了解推出何种新产品和新服务可能比较明智的信息。不过,不同的部门可能有互不兼容的度量标准,所以它们不知道如何轻松地汇集各自拥有的知识。

公司扩大大数据的应用范围时,常常要重新考虑产品开发的基本方法。贝尔说:“只有公司着眼于整个产品生命周期,才会得到最大的好处。但许多公司之前还没有考虑过以这种方式来使用数据。”

不过,如果它们这么做,就会发现众多机会摆在面前。以汽车业为例。霍尔茨说:“曾经一度,我们只分析出现故障后的设备,以便我们能修复。但如果我们着眼于产品生命周期来考虑,就能改变一开始设计产品的方式,从而提高产品在将来的有用性。”

产品设计数据 篇4

21世纪产品的竞争, 主要在于市场的竞争, 而产品的创新决定了市场竞争的生命力。要把科技成果转变成有竞争力的商品, 产品设计至关重要[1]。产品设计是一个不确定的创新的设计过程, 主要包括:设计、评价、再设计[2]。产品的开发设计直接影响了产品的成本、产品开发的时间和产品的质量[3]。数据挖掘技术和数据融合技术是多学科的融合, 两者相辅相成—分别针对数据的海量性和分散性, 分析处理海量数据、提取有用知识。数据挖掘技术与产品优化设计的结合主要是因为:1) 企业设计部门需要数据挖掘处理大量的设计数据;2) PDM的实施使得数据挖掘应运而生[4]。而数据融合技术依据多源信息识别同一对象, 运用数据融合建立评价模型, 可以综合处理顾客的反馈信息, 在总体评价的基础上, 对产品的设计进行优化[2]。综合运用数据挖掘和数据融合技术, 将两者进行深层次的结合, 可以更加高效地完成复杂的数据分析, 进一步实现产品设计的优化[5]。

1 基于数据挖掘的产品设计优化

1.1 数据挖掘的基本含义

数据挖掘 (Data Mining, DM) , 是为了发现人们事先不知道的但却潜在有用的知识, 而对大量的、不完全的数据进行选择、探索和建模的过程[6]。DM挖掘的并非数据, 而是数据背后隐藏的知识。因此, DM并非一个精确的用词[7]。

1.2 基于DM的产品设计的研究现状和发展趋势

利用DM技术, 可以帮助设计者把海量的设计数据转化为有启发性的和有用的知识。产品的设计往往建立在原有技术上, 利用原有的数据知识, 可以给阅读者以启发[8]。

1.2.1 研究现状

在1995年加拿大蒙特利尔召开的第一届知识发现和数据挖掘国际会议上, Usama Fayaad首次提出“数据挖掘” (KDD) 概念[9]。

如今, DM的研究已经有不少成功的案例。例如, 由DB Miner Technology公司研发的数据挖掘系统DB Miner、由史忠植教授提出的智能搜索引擎GHunt[10]。目前, 国内对DM的研究正从理论上升到应用, 但是将DM技术应用于支持产品设计方面的研究还较少。华科大周济教授[11]、东南大学景旭文博士[12,13]、华南理工大学的卢清华[14]、天津大学管理学院的白爱民[15]、武汉理工大学杨峰硕士等在这方面有一定的理论成果[16]。DM在天体发现、经济预测分析、基因研究等方面已经得到成功应用;特别是Acknosoft公司的KDD系统Gassiopee已用于波音公司的飞机制造过程的问题 (故障) 诊断和预测[17]。

当前, 在产品设计的研究中, 我国制造业主要存在以下问题[18]:l) 缺少适用的知识供应与决策支持工具;2) 不能充分利用潜在产品设计实例中的信息, 仅靠对现有知识的推理;3) 缺乏对设计书籍知识的灵活运用;4) 产品设计决策支持和智能化程度较低, 产品开发速度迟缓, 不能满足市场需求[16]。

1.2.2 发展趋势

当前, DM的研究趋势有以下方面:研究DM过程的可视化方法;研究用于知识发现的专用标准化DM语言;研究网络环境下的DM技术;加强DM对各种数据的适用性。随着DM的发展, DM的会得到越来越广泛的应用[19]。

2 基于数据融合的产品优化设计

2.1 数据融合的基本定义

数据融合 (data fusion, DF) , 是对按时序获得的传感器的观测值利用计算机技术在一定规则下自动分析、融合完成所需的决策和估计任务而进行的信息处理过程。

2.2 基于数据融合产品优化设计研究现状和发展趋势

产品设计的过程一般包括:前期准备阶段、概念设计阶段和详细设计阶段[20]。在产品设计过程中, 根据产品反馈的评价信息, 反复修改产品的设计方案, 达到优化设计的目的。随着社会发展, 人们的设计更加注重审美、环保、人性化等因素, 所以设计的优化不再局限于方案的选优[21]。不仅如此, 在产品设计评价与优化的过程中运用数字化和智能化技术, 多重技术的结合已经成为发展的新方向[22]。

2.2.1 产品设计评价的研究现状

常用的多指标的综合评价方法主要分为:

1) 经验性评价方法;

2) 数学分析类评价方法;

3) 试验评价方法。

其中, 数学分析类评价方法是研究的重心。R.K.Paasch、邹慧君、Hui Zhongwu、田志斌、汪利、黄荣瑛等学者都有重要的研究成果[23~26]。

2.2.2 数据融合的研究方向

1) 建立多学科融合机制, 高效处理更加复杂的问题。

2) 研究并建立更加稳健和准确的融合算法与模型。

3) 针对DF, 研究专用的数据库和知识库。

4) 为进行融合过程的状态估计和决策分析, 开发新的推理系统。

5) 将多种智能技术有机地结合起来。

6) 使分布式处理结构在检测、估计和跟踪方法中进一步发展。

7) 将人工智能运用于DF技术中, 构成多传感器数据的融合[27]。

3 数据挖掘和数据融合集成运用于产品优化设计

目前, 分别将数据挖掘和数据融合运用于产品优化设计的文献报道并不多, 尚没有将数据挖掘和数据融合结合运用于产品设计优化的研究, 本文首次提出了将DM与DF结合运用于产品设计优化的过程。

笔者所提出的基于数据挖掘和数据融合技术的产品设计的优化体系结构如图1所示, 该结构将顾客对产品设计评价的大量反馈信息存于数据库或者数据仓库之中, 然后运用数据挖掘中关联规则的挖掘, 计算支持度, 从而得到评价指标的权重, 再利用数据融合算法, 将产品设计变量指标及其权重融合起来, 通过综合评价, 实现对产品设计方案的优化。

所设计的系统分为问卷调查模块、数据库或数据仓库、基于关联规则挖掘的评价指标的权重模块、基于数据融合的设计变量与权重融合模块、用户界面等模块, 各个模块具体功能如下:

1) 问卷调查模块:问卷调查模块的主要功能是收集顾客对产品设计方案的反馈信息, 为优化设计提供数据。

2) 数据库或数据仓库:数据库或数据仓库的主要作用是存储由问卷调查收集的反馈信息。

3) 基于关联规则挖掘的评价指标的权重模块:该模块的主要作用是利用数据挖掘中的关联规则挖掘, 计算支持度, 确定各个评价指标权重的大小。

4) 基于数据融合的设计变量与权重融合模块:该模块的作用是利用数据融合技术, 将产品设计变量指标与其权重进行融合计算, 从而获得产品设计方案的优化。

5) 用户界面:该模块是用于将优化的结果展示给用户, 使得企业或用户能够更加明了产品设计方案优化的结果[3]。

4 结论

笔者认为, 综合运用DM和DF理论, 建立基于DM和DF技术的产品设计评价与优化模型, 能够持续改进产品设计, 完善设计参数, 实现产品设计方案科学客观地评价, 从而取得很好的效果。

摘要:本文从数据挖掘的定义、技术、发展以及数据融合的定义、原理、发展等角度出发, 研究了数据挖掘与融合技术在产品设计领域的国内外研究现状以及应用趋势, 并基于上述理论对数据挖掘与融合技术集成运用于产品设计优化进行了研究。

数据库设计练习 篇5

1.根据周围的实际情况,选择一个小型的数据库应用项目,例如仓库管理系统、物流管理系统、图书馆管理系统等。

2.进行系统需求分析,写出系统需求分析报告,应包括采用的设计方法、数据流图和数据字典。

3.进行系统的概念设计,使用E-R图表示对数据库中要存储的信息及语义进行详细描述,对数据约束和数据之间的关联进行详细描述。

4.进行系统的逻辑设计,详细描述系统需要的基本表及属性、视图和索引,对基本表的主、外键等进行说明,对基本表中数据的约束条件进行说明。

5.在SQL Server 2005中,实现系统中所需基本表、视图、存储过程、完整性等要求的定义。

“数据收集整理”教学设计 篇6

教材分析:

“数据的收集整理”是在学生已经积累一定的认数、计算以及把一些物体简单地分类整理的知识的基础上学习的,通过教学让学生学会用调查法经历简单的数据收集、整理、描述和分析过程,为学生进一步学习统计与概率领域的内容打好基础。

教学过程:

一、创设情境,引入新课

师:同学们,新学期开始了,学校要给大家订做校服,有下面4种颜色,选哪种颜色合适?

(出示例1中的4种颜色)

红 黄 蓝 白

生:选大多数同学喜欢的颜色。

师:怎样才知道哪种颜色是大多数同学喜欢的呢?

生1:可以在全校同学中做一个调查。

生2:全校有那么多学生,怎样调查呢?

生3:可以先在班里进行调查。

生4:还可以先在组内进行调查。

师:同学们真聪明,调查也就是要进行统计。

揭示课题:统计。统计出喜欢每种颜色的学生人数,首先要进行数据的收集,下面我们就一起来调查喜欢每种颜色的学生人数。

【设计意图】通过创设贴近学生生活的情境,不仅可以激发学生的学习兴趣,还能让学生认识到数据收集整理产生的必要性和在生活中的广泛应用。

二、收集数据,深入探究

1.收集数据。

师:在这4种颜色中,你最喜欢哪种颜色?为什么?

师:要想知道喜欢哪种颜色的同学最多,我们应该怎样调查呢?

(学生自由发言。)

出示要求:采用举手、起立、画“√”、“○”做记号等方式来收集数据。这些方式中举手既快速又简捷,我们就用举手的方式来进行调查。

出示规则:每个人只能选一种颜色,每当老师说出颜色时,喜欢这种颜色的同学就举手,好吗?

教师强调:一个人能选两种颜色或不选吗?

生1:能。

生2:不能。

师:为什么?

生2:如果选一种以上就重复了,而不选又遗漏了。

师:是呀,收集数据有很多不同的方式,但是无论采用哪种方式调查,都要做到不重复、不遗漏,也就是说你只能选择一次。那好,现在我们开始举手调查。

2.整理数据。

师:刚才同学们通过举手方式选出了自己喜欢的颜色,老师也知道了,但是负责订制校服的厂家还不知道,怎么办呢?

(学生自由发言。)

师:你们真会想办法。我们现在再举一次手,在下表中统计出喜欢每种颜色的人数,好吗?

【出示统计表】

师:喜欢红色的请举手,请一个学生数出人数,老师记录在统计表中,其余三种颜色采用同样的方式进行统计。

3.认识简单的统计表。

师:同学们,刚才我们将统计后的结果用表格的形式展示出来,这种表格就是简单的统计表。大家仔细观察一下统计表。

师:你看到什么?

生:……

4.根据统计表解决问题。

师:是的,这张统计表的第一行表示的是同学们最喜欢的颜色,第二行表示的是最喜欢这种颜色的人数。统计表可以直接看出各种数据的多少,同学们可以根据这些信息分析和解决一些问题。下面请大家根据统计表中的信息解决问题。

1.全班共有( )人。

生1:要想知道全班有多少人,应该把喜欢这4种颜色的人数全部加起来,即9+6+15+8=38(人),所以全班共有38人。

师:你真聪明,谁能解决第二个问题?

2.喜欢( )色的人数最多。

生2:比较喜欢每种颜色的人数,15>9>8>6,所以喜欢蓝色的人数最多。

师:你真是一个会思考的孩子,你能解决最后这个问题吗?

3.如果这个班订做校服,选择( )色合适。全校选这种颜色做校服合适吗?为什么?

生2:因为全班喜欢蓝色的人数最多,所以如果这个班订做校服,选择蓝色合适。

生3:但是全校选择这种颜色做校服不一定合适,因为全校学生不一定喜欢蓝色的最多,应该再调查其他班同学喜欢什么颜色的人数最多,最后比较全校学生喜欢哪种颜色的人数最多,从而确定全校学生做哪种颜色的校服。

师:你们真的很厉害,会分析并解决问题,相信厂家一定会采纳你们的意见。

【设计意图】精心创设学生主动探索的教学情境,积极地引导学生亲自经历收集、整理数据的过程,充分体现学生的主体作用,保护学生自主发展的积极性。

三、巩固练习,汇报

师:同学们,请用刚才学到的知识解决课本第4页练习一的问题,你们敢挑战吗?

1.完成练习一的第1小题。

调查本班同学最喜欢参加哪个课外小组,并解决问题。

生:先调查,完成统计表后,再独立解决问题,最后汇报。

2.完成练习一的第2小题。

调查本班同学最喜欢哪一个季节,把结果填入下表。

生:先调查,完成统计表后,再独立解决问题,最后汇报。

四、归纳总结

师:同学们,通过今天的学习,你有什么收获?(学生交流后,教师总结。)

师:今天这节课我们学习了统计的相关知识,知道在统计时要先收集数据,而收集数据有举手、起立、画记号等多种方式,但无论选择哪种方式都要做到不重复、不遗漏。还知道收集完数据后要对数据进行整理,数据整理记录填入的表格叫作统计表。统计表可以告诉我们很多信息,并帮助我们分析和解决生活中的实际问题。

五、课堂总结,归纳提升

师:同学们,想一想生活中还有哪些事情可以用统计知识来解决?

生:(略)。

◇责任编辑:徐新亮◇

教学内容:人教版数学二年级下册第2页的内容及相关练习题。

教材分析:

“数据的收集整理”是在学生已经积累一定的认数、计算以及把一些物体简单地分类整理的知识的基础上学习的,通过教学让学生学会用调查法经历简单的数据收集、整理、描述和分析过程,为学生进一步学习统计与概率领域的内容打好基础。

教学过程:

一、创设情境,引入新课

师:同学们,新学期开始了,学校要给大家订做校服,有下面4种颜色,选哪种颜色合适?

(出示例1中的4种颜色)

红 黄 蓝 白

生:选大多数同学喜欢的颜色。

师:怎样才知道哪种颜色是大多数同学喜欢的呢?

生1:可以在全校同学中做一个调查。

生2:全校有那么多学生,怎样调查呢?

生3:可以先在班里进行调查。

生4:还可以先在组内进行调查。

师:同学们真聪明,调查也就是要进行统计。

揭示课题:统计。统计出喜欢每种颜色的学生人数,首先要进行数据的收集,下面我们就一起来调查喜欢每种颜色的学生人数。

【设计意图】通过创设贴近学生生活的情境,不仅可以激发学生的学习兴趣,还能让学生认识到数据收集整理产生的必要性和在生活中的广泛应用。

二、收集数据,深入探究

1.收集数据。

师:在这4种颜色中,你最喜欢哪种颜色?为什么?

师:要想知道喜欢哪种颜色的同学最多,我们应该怎样调查呢?

(学生自由发言。)

出示要求:采用举手、起立、画“√”、“○”做记号等方式来收集数据。这些方式中举手既快速又简捷,我们就用举手的方式来进行调查。

出示规则:每个人只能选一种颜色,每当老师说出颜色时,喜欢这种颜色的同学就举手,好吗?

教师强调:一个人能选两种颜色或不选吗?

生1:能。

生2:不能。

师:为什么?

生2:如果选一种以上就重复了,而不选又遗漏了。

师:是呀,收集数据有很多不同的方式,但是无论采用哪种方式调查,都要做到不重复、不遗漏,也就是说你只能选择一次。那好,现在我们开始举手调查。

2.整理数据。

师:刚才同学们通过举手方式选出了自己喜欢的颜色,老师也知道了,但是负责订制校服的厂家还不知道,怎么办呢?

(学生自由发言。)

师:你们真会想办法。我们现在再举一次手,在下表中统计出喜欢每种颜色的人数,好吗?

【出示统计表】

师:喜欢红色的请举手,请一个学生数出人数,老师记录在统计表中,其余三种颜色采用同样的方式进行统计。

3.认识简单的统计表。

师:同学们,刚才我们将统计后的结果用表格的形式展示出来,这种表格就是简单的统计表。大家仔细观察一下统计表。

师:你看到什么?

生:……

4.根据统计表解决问题。

师:是的,这张统计表的第一行表示的是同学们最喜欢的颜色,第二行表示的是最喜欢这种颜色的人数。统计表可以直接看出各种数据的多少,同学们可以根据这些信息分析和解决一些问题。下面请大家根据统计表中的信息解决问题。

1.全班共有( )人。

生1:要想知道全班有多少人,应该把喜欢这4种颜色的人数全部加起来,即9+6+15+8=38(人),所以全班共有38人。

师:你真聪明,谁能解决第二个问题?

2.喜欢( )色的人数最多。

生2:比较喜欢每种颜色的人数,15>9>8>6,所以喜欢蓝色的人数最多。

师:你真是一个会思考的孩子,你能解决最后这个问题吗?

3.如果这个班订做校服,选择( )色合适。全校选这种颜色做校服合适吗?为什么?

生2:因为全班喜欢蓝色的人数最多,所以如果这个班订做校服,选择蓝色合适。

生3:但是全校选择这种颜色做校服不一定合适,因为全校学生不一定喜欢蓝色的最多,应该再调查其他班同学喜欢什么颜色的人数最多,最后比较全校学生喜欢哪种颜色的人数最多,从而确定全校学生做哪种颜色的校服。

师:你们真的很厉害,会分析并解决问题,相信厂家一定会采纳你们的意见。

【设计意图】精心创设学生主动探索的教学情境,积极地引导学生亲自经历收集、整理数据的过程,充分体现学生的主体作用,保护学生自主发展的积极性。

三、巩固练习,汇报

师:同学们,请用刚才学到的知识解决课本第4页练习一的问题,你们敢挑战吗?

1.完成练习一的第1小题。

调查本班同学最喜欢参加哪个课外小组,并解决问题。

生:先调查,完成统计表后,再独立解决问题,最后汇报。

2.完成练习一的第2小题。

调查本班同学最喜欢哪一个季节,把结果填入下表。

生:先调查,完成统计表后,再独立解决问题,最后汇报。

四、归纳总结

师:同学们,通过今天的学习,你有什么收获?(学生交流后,教师总结。)

师:今天这节课我们学习了统计的相关知识,知道在统计时要先收集数据,而收集数据有举手、起立、画记号等多种方式,但无论选择哪种方式都要做到不重复、不遗漏。还知道收集完数据后要对数据进行整理,数据整理记录填入的表格叫作统计表。统计表可以告诉我们很多信息,并帮助我们分析和解决生活中的实际问题。

五、课堂总结,归纳提升

师:同学们,想一想生活中还有哪些事情可以用统计知识来解决?

生:(略)。

◇责任编辑:徐新亮◇

教学内容:人教版数学二年级下册第2页的内容及相关练习题。

教材分析:

“数据的收集整理”是在学生已经积累一定的认数、计算以及把一些物体简单地分类整理的知识的基础上学习的,通过教学让学生学会用调查法经历简单的数据收集、整理、描述和分析过程,为学生进一步学习统计与概率领域的内容打好基础。

教学过程:

一、创设情境,引入新课

师:同学们,新学期开始了,学校要给大家订做校服,有下面4种颜色,选哪种颜色合适?

(出示例1中的4种颜色)

红 黄 蓝 白

生:选大多数同学喜欢的颜色。

师:怎样才知道哪种颜色是大多数同学喜欢的呢?

生1:可以在全校同学中做一个调查。

生2:全校有那么多学生,怎样调查呢?

生3:可以先在班里进行调查。

生4:还可以先在组内进行调查。

师:同学们真聪明,调查也就是要进行统计。

揭示课题:统计。统计出喜欢每种颜色的学生人数,首先要进行数据的收集,下面我们就一起来调查喜欢每种颜色的学生人数。

【设计意图】通过创设贴近学生生活的情境,不仅可以激发学生的学习兴趣,还能让学生认识到数据收集整理产生的必要性和在生活中的广泛应用。

二、收集数据,深入探究

1.收集数据。

师:在这4种颜色中,你最喜欢哪种颜色?为什么?

师:要想知道喜欢哪种颜色的同学最多,我们应该怎样调查呢?

(学生自由发言。)

出示要求:采用举手、起立、画“√”、“○”做记号等方式来收集数据。这些方式中举手既快速又简捷,我们就用举手的方式来进行调查。

出示规则:每个人只能选一种颜色,每当老师说出颜色时,喜欢这种颜色的同学就举手,好吗?

教师强调:一个人能选两种颜色或不选吗?

生1:能。

生2:不能。

师:为什么?

生2:如果选一种以上就重复了,而不选又遗漏了。

师:是呀,收集数据有很多不同的方式,但是无论采用哪种方式调查,都要做到不重复、不遗漏,也就是说你只能选择一次。那好,现在我们开始举手调查。

2.整理数据。

师:刚才同学们通过举手方式选出了自己喜欢的颜色,老师也知道了,但是负责订制校服的厂家还不知道,怎么办呢?

(学生自由发言。)

师:你们真会想办法。我们现在再举一次手,在下表中统计出喜欢每种颜色的人数,好吗?

【出示统计表】

师:喜欢红色的请举手,请一个学生数出人数,老师记录在统计表中,其余三种颜色采用同样的方式进行统计。

3.认识简单的统计表。

师:同学们,刚才我们将统计后的结果用表格的形式展示出来,这种表格就是简单的统计表。大家仔细观察一下统计表。

师:你看到什么?

生:……

4.根据统计表解决问题。

师:是的,这张统计表的第一行表示的是同学们最喜欢的颜色,第二行表示的是最喜欢这种颜色的人数。统计表可以直接看出各种数据的多少,同学们可以根据这些信息分析和解决一些问题。下面请大家根据统计表中的信息解决问题。

1.全班共有( )人。

生1:要想知道全班有多少人,应该把喜欢这4种颜色的人数全部加起来,即9+6+15+8=38(人),所以全班共有38人。

师:你真聪明,谁能解决第二个问题?

2.喜欢( )色的人数最多。

生2:比较喜欢每种颜色的人数,15>9>8>6,所以喜欢蓝色的人数最多。

师:你真是一个会思考的孩子,你能解决最后这个问题吗?

3.如果这个班订做校服,选择( )色合适。全校选这种颜色做校服合适吗?为什么?

生2:因为全班喜欢蓝色的人数最多,所以如果这个班订做校服,选择蓝色合适。

生3:但是全校选择这种颜色做校服不一定合适,因为全校学生不一定喜欢蓝色的最多,应该再调查其他班同学喜欢什么颜色的人数最多,最后比较全校学生喜欢哪种颜色的人数最多,从而确定全校学生做哪种颜色的校服。

师:你们真的很厉害,会分析并解决问题,相信厂家一定会采纳你们的意见。

【设计意图】精心创设学生主动探索的教学情境,积极地引导学生亲自经历收集、整理数据的过程,充分体现学生的主体作用,保护学生自主发展的积极性。

三、巩固练习,汇报

师:同学们,请用刚才学到的知识解决课本第4页练习一的问题,你们敢挑战吗?

1.完成练习一的第1小题。

调查本班同学最喜欢参加哪个课外小组,并解决问题。

生:先调查,完成统计表后,再独立解决问题,最后汇报。

2.完成练习一的第2小题。

调查本班同学最喜欢哪一个季节,把结果填入下表。

生:先调查,完成统计表后,再独立解决问题,最后汇报。

四、归纳总结

师:同学们,通过今天的学习,你有什么收获?(学生交流后,教师总结。)

师:今天这节课我们学习了统计的相关知识,知道在统计时要先收集数据,而收集数据有举手、起立、画记号等多种方式,但无论选择哪种方式都要做到不重复、不遗漏。还知道收集完数据后要对数据进行整理,数据整理记录填入的表格叫作统计表。统计表可以告诉我们很多信息,并帮助我们分析和解决生活中的实际问题。

五、课堂总结,归纳提升

师:同学们,想一想生活中还有哪些事情可以用统计知识来解决?

生:(略)。

产品设计数据 篇7

启动VS 2010集成开发环境[1],链接Excel电子表格,以程序方式将Excel电子表格中的数据读出,定义一个中间件Dataset数据集,将取到的数据缓存在内存中的一个临时存储区,链接各种数据库,构造插入数据记录的程序代码,打开数据库链接,将中间件Dataset数据集中暂存的数据永久插入数据库中,关闭数据库链接[2]。

1 导入Office模块

VS 2010加强了对Office的支持,给开发带来了极大的灵活性,增强了应用程序与Office的交互,并且能够在很大程度上精简代码。

为了开发Excel应用程序,首先得把其相关应用程序集导入到VS 2010集成开发环境中[3],具体操作是,在创建的项目上单击鼠标右键,在关联菜单上选择“添加引用”菜单项,会出现“添加引用”对话框,在“.NET”标签页上选择“Microsoft.Office.Interop.Excel”程序集,填加到创建的应用程序项目中,如图1所示。

如果要进行Word应用程序开发,也可以用同样方法把“Microsoft.Office.Interop.Word”程序集导入到应用程序项目中。

2 链接数据源

数据源泛指各种不同位置上的数据库、各类数据文件,每种数据源都有自己不同的链接规范,VS 2010按这些不同规范都组织在一起,为编程人员提供了一个统一的操作接口,编程人员可根据自己应用程序所用不同数据源,而选取不同的链接方式和参数。

在这里把Excel表数据导入My SQL数据库,因此具体论述这种数据源的链接方式,其他数据库原理相同。

2.1 链接Excel电子表格文件

填写好要导入的电子表格,保存为硬盘文件。为了提高软件通用性,能动态选择数据源,以text Box文本框来接收通用打开对话框提交的Excel电子表格文件名,程序代码如下:

再以text Box.Text来构造链接字符串,打开将指定的Excel电子表格文件,程序代码如下:

在上式中,connect String Builder是Ole Db ConnectionString Builder实例,该变量中存放链接字符串,其中this.text Box1.Text.Trim()是接收到的指定文件名常量。

把上述代码写入用VS 2010生成的程序框架中,Excel电子表格文件在程序代码中就可以正常打开了,下一步是读取电子表格文件内单元格中的数据。

2.2 链接SQL Server数据库

VS 2010带有一个轻型的SQL 2008数据库系统[4],首先用这个系统建立一个SQL数据库abc.mdf,在数据库中建立一张二维数据表文件,取名为temp1。在VS 2010中的操作路径是:在项目上右击鼠标→在快捷菜单中先“添加”菜单项→在下一级级联菜单中选“新建项”菜单项→打开添加新项对话框,选择“数据”选项卡→在“数据”选项卡内选择“基于服务的数据库”项,填好自己的数据库名,本例用abc.mdf。

这时在服务器资源管理器上会添加拟建数据库的链接,展开数据库节点,在“表”节点上右击鼠标,在快捷菜单上选择“新建表”菜单项,建立新表结构,然后输入表名存盘,本例用temp1表名,这时新表中是一个空的表结构,表中的数据要用程序代码动态从推入。这里要注意,建立的新表结构要和Excel电子表格所输入的数据结构一致,否则不能导入数据。数据库链接的程序代码如下:

上述代码中使用Configuration Manager类,可以访问计算机、应用程序和用户的配置信息,ConnectionStrings类用来从app.config文件中获取链接字符串,该字符串内容如下:

其提供程序为:System.Data.Sql Client。

把上述代码写入用VS 2010生成的程序框架中,SQL数据库就可以正常打开了,下一步就是向数据库中推入数据了。

读入Excel电子表格数据

通过2.1节,已经用程序代码打开了Excel文件,下面用程序代码把单元格数据读出,为此,需要在程序的命名空间上面引入Ole DB名字空间:using System.Data.Ole Db,然后才能使用该名字空间里的资源。程序代码如下:

在上述程序代码中,(1)语句是根据2.2节所述的内容,建立与数据库abc.mdf的链接,链接变量为cn;(2)语句是构造读取Excel电子表格内容的字符串,其变量名为sql;(3)语句是以cn和sql变量为参数,建立读取Excel电子表格文件的命令对象,对象名为cmd Liming;(4)语句是,实现与数据库的链接;(5)语句是,创建数据适配器对象,其名称为my Adapter;(6)语句为定义中间件数据集对象,对象名为my Data Set;(7)语句为,把从Excel电子表格中读取到的数据填入中间件my Data Set中暂存,(8)(9)两条语句把中间件中的数据展示在屏幕上。图2是程序的运行结果,此时的数据是从Excel电子表格读取到中间件Data Set中的临时数据,如果计算机关掉或程序退出,此数据将不复存在,下一步,将编程实现将其永久存入数据库中。

程序运行结果如图2所示。

3 将数据永久存入数据库

下一步要把中间件Data Set中的临时数据永久存入数据库中[5]。根据2.2节所述内容,数据库已经连通,库结构也已经建好,并与Excel电子表格数据结构一致。为了使用SQL数据库,需要在本项目的名字空间之上加入引用语句:using System.Data.Sql Client,程序代码如下:

在上述程序代码中,(1)是建立数据库链接,其中Confirmation Manager与2.2节论述相同;(2)为定义向数据库插入数据的字符串变量;(3)是打开链接,为插入数据库数据作准备;(4)构造一个上限为my DataSet.Tables[0].Rows.Count的循环,其值为Excel表中数据行的总数,链接字符串str SQL在循环体内动由程序语句构造,构造因子为my Data Set.Tables[0].Rows[i][2].ToString(),它可以定位到中间件Data Set的行、列焦点上,在循环控制变量i的作用下,可以遍历表中所有数据。Sql Command类实例变量cmd用来执行指定链接conn上的具体插入命令strsql,在cmd的成员函数Execute Nor Query()的作用下,将从中间件my Data Set中取到的数据按行插入数据库中[6]。循环执行结束,即可将所有数据存入数据库中;(5)是关闭数据库链接,以保证数据安全,并释放资源。将数据永久导入数据库后的程序运行结果如图3所示。

4 结语

在科研工作中,常会遇到海量数据处理的问题。这些数据通常由采集卡保存在Excel中,如果能够方便地输入数据库中,可以帮助科研工作者完成很多重复性、规律性的工作,节约人力,提高效率,便于后续的数据处理和数据分析[7]。程序开发者也可以针对具体的应用,将Office开发做成一些类或组件,增强软件重用性,更加提高开发效率。

摘要:在此详细分析了将电子表格导入到数据库的基本原理和实现方法,解决了大量工程实验数据散落在多个文件中、主要靠手工组合、处理的原始方法,减轻了工程技术人员的负担,提高了数据处理效率,杜绝了数据处理差错。在此采用先进的VS 2010.NET开发工具,动态选择导入文件,在可靠的数据库连接上,构造导入数据中间件Dataset,采用数据库中数据字段与Excel表中列的对应关系,以中间件为桥梁逐行自动读入库外数据并统一保存。该论述方法具有通用性,程序代码稍做修改可适用与其他类型规则数据文件的导入。

关键词:Excel电子表格,数据库,中间件,数据库连接

参考文献

[1]ROBINSON S.C#高级编程指南[M].北京:清华大学出版社,2009.

[2]罗斌.Visual C#.NET精彩编程实例集锦[M].北京:中国水利水电出版社,2009.

[3]PETZOLD C.Microsoft C#Windows程序设计(上册)[M].北京:北京大学出版社,2009.

[4]王晟.Visual C#.NET数据库开发经典案例解析[M].北京:清华大学出版社,2010.

[5]PETZOLD C.Microsoft C#Windows程序设计(下册)[M].北京:北京大学出版社,2009.

[6]ARDESTANI K.高效掌握ADO.NET[M].北京:清华大学出版社,2010.

[7]侯高雷.基于C#的终端自动化测试系统设计与实现[J].现代电子技术,2012,35(11):103-105.

产品设计数据 篇8

在信息时代, 谁能在信息的海洋中获取更多的知识, 谁就能取得成功的主动权。信息技术在企业的决策和商业活动中起着重要的支持作用。

信息技术的迅速发展和企业管理决策的迫切需要, 使数据仓库理论应运而生, 并成为决策支持领域中实用性极强的技术。

一、数据仓库和数据集市

数据仓库技术是当前用于企业决策支持的、先进的有效方法。

1993年, W.H.lnmon在其所著《Building the Data Warehouse》中对数据仓库进行了完整的界定。他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性的数据集合, 用以支持管理层的决策”。这一界定被学术界广泛认同。W.H.lnmon关于数据仓库的定义, 可以从几方面来理解:

1. 数据仓库是一种数据资源集成与整合的具体方法。

数据仓库不同于一般的数据库。它是按照一定的要求、围绕明确的主题, 对原有分散的、相互独立, 异构的操作型数据进行有效集成。

2. 数据仓库存储的数据具有相对的稳定性。

3. 数据仓库的数据主要用于对管理决策过程的支持。

数据仓库的鲜明特点, 使数据仓库技术具有广泛的应用前景。目前, 已有不少行业把数据仓库技术用于数据管理和决策支持, 取得了经验, 产生了效益。

数据集市是数据仓库的一个子集, 它面向部门级业务, 面向某个特定的主题。是一种简化的小型数据仓库。实际上, 多个相互联系的、围绕一个宏观大主题的多个数据集市的集成, 就构成了数据仓库。数据集市和数据仓库在其实现过程和数据模式方面, 没有根本的差异。而数据集市比数据仓库更为简洁、方便, 易于快速实施并应用。因此, 在建立企业级的数据仓库前, 可规划建立多个部门级的数据集市, 在此基础上, 集成实现企业级的数据仓库。

二、数据仓库的“星型模型”

“星型模型”是数据仓库广泛采用的数据模型。它能准确、简洁地描述出实体之间的逻辑关系。数据仓库的其他数据模型, 一般是在“星型模型”的基础上的变形与扩充。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。如图1所示:

事实表是星型模型的核心。用于存放大量的具有业务性质的事实数据。事实表由主键和事实的度量数据两部分组成。事实表通过主键, 把各维度表链接在一起, 形成一个相互关联的整体, 共同描述主题。事实表中存放的大量数据, 是同主题密切相关的、用户最关心的、对象的度量数据。

维度是观察事实、分析主题的角度。维度表的集合是数据仓库数据模式的关键。维度表通过主关键字与事实表相连。用户依赖于维度表中的维度属性, 对事实表中的事实数据进行查询、分析, 从而得到支持决策的数据。

因此, 对事实表和维表的分析设计, 是数据仓库数据模型设计的关键。

三、连锁超市数据集市的数据模型

数据模型是建立数据仓库的基础。业务需求是进行数据仓库数据模型设计的驱动力。连锁超市商品销售情况可以看作超市管理数据仓库的一个子集, 即数据集市。适宜选用以“星型模型”为基础, 建立能满足需求的连锁超市数据集市的数据模型。

1. 事实表的设计

如前所述, 事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。针对本文的研究主题, 最需要关注的是连锁超市商品销售情况。因此, 在事实表中, 要准确记载各连锁超市所畅销的商品、销售数量、营业额、利润等度量数据。

事实表中数据的细节程度或综合程度的级别称为数据“粒度”。粒度是数据仓库事实表的重要的特征。粒度的级别依赖于维表的属性。不同的需求, 对数据仓库的粒度要求不同。

连锁超市数据集市需要保留最低层次的细节数据, 以满足数据集市的信息查询要求。很多数据挖掘的应用程序也需要最低层次的数据颗粒。再者, 低粒度的事实表便于从操作型系统中抽取源数据。此外, 最低层次的细节数据是聚集事实表的基础。

另一方面, 为提供决策支持, 需要多方面的高粒度的汇总数据。

因此, 连锁超市数据集市的数据模型设计, 要能方便获取从最低层次的细节数据到高度概括的汇总数据。这不仅需要设计好事实表, 同时依赖于维度表属性的设计。

2. 维度表的设计

维度表的集合是建立数据仓库数据模型的关键。

建立连锁超市数据集市的目的是要从各个角度, 分析对商品销售情况的影响, 为管理者在研究超市发展策略等方面, 提供决策支持。

针对连锁超市需要掌握的基础信息和决策的需求, 在连锁超市数据集市中, 设计了以下维度及其主要属性。

客户维:这是最重要的一个维度, 在商界, “客户就产上帝”。在客户维中, 建立了客户的基本信息、是否为会员客户、客户居住地域等, 以便掌握客户个人细节数据。从数据粒度的需要, 客户维还建立了客户的会员关系和属地等。为建立聚集事实表作好准备。

商品维:商品维也是一个重要的维度。商品不仅决定了超市的经营范围, 商品的结构、品牌、质量直接影响营业额。在商品维中, 设计了商品代码、商品名称、商品类别、品牌名称、包装类别等维度属性。

时间维:在数据仓库的多维数据结构中, 时间维往往是不可少的一个维度。因为每项“销售事实”都是在一定的时间或者时间段内发生。针对需求, 时间维采用日、月、季、年四个属性。

连锁店维:各连锁店承担了全部商品的销售业务。连锁店的服务质量直接影响企业的竞争力、销售业绩和企业利润。连锁店维中建立了连锁店名、销售经理、规模、所在地域等维度属性。

根据上述分析, 建立连锁超市数据集市的星型数据模型, 如图2所示:

3. 处理好大维度问题

在上列各个维度中, 客户维和商品维都是典型的大维度。这是因为:大的连锁超市, 客户维和商品维很深, 累计可能有数以万计的客户和上万种商品;客户维和商品维很宽, 根据需要, 这两种维可以有多个维度属性。

数据仓库的大维度, 会给数据仓库的操作应用带来一些问题。大维度中的长文本字段不仅占用存储空间, 而且维度数据不易更新和维护;向大维度表填充数据难度增大;对事实表的查询涉及大维度表时, 会影响效率。解决数据仓库“大维度”问题较好的办法是采用“雪花模型”。

“雪花模型”是在星型模型的基础上拓展而来的。将“星型模型”中的大维度表进分解, 通过增加详细类别表, 形成一些局部的层次区域, 就演变成为“雪花模型”。将连锁超市数据集市中的两个大维度表——客户维和商品维进行“雪花化”。分解出相应的类别表, 既解决了大维度表带来的问题, 也为建立“聚集事实表”作好了准备。

基于上述分析, 设计出低保基础信息数据集市的雪花模型构架。如图3所示:

四、连锁超市数据集市聚集模型设计

“聚集”是从最低粒度的事实表中衍生出来的的预先计算的汇总数据。这些汇总数据形成了一组独立的聚集事实表。实际应用中, 可以根据需要用跨越任何维度的特定的汇总数据构建为一个聚集事实表。

1. 建立数据集市聚集事实表的必要性

建立低保基础信息数据集市的主要目的, 是要为管理者提供具有决策价值的汇总数据。因此, 把使用频率高的汇总数据存放在聚集事实表中, 对提高数据集市的的使用性能, 为管理者提供决策支持, 使用户获得更好、更快的查询结果, 是非常必要的。数据集市聚集模型的好坏将在很大程度上影响到数据集市的使用效果。

2. 怎样建立聚集事实表

在数据集市中建立聚集事实表, 要注意以下原则:

⑴每一个不同的聚集必须使用单独的事实表存储聚集数据, 成为相对独立的聚集事实表。

⑵聚集事实表中的维表必须是基本事实表中的维表的压缩。

⑶基本事实表中的度量数据加载后, 才能作聚集处理。

3. 连锁超市数据集市常用的聚集事实表

每一个数据仓库 (数据集市) , 都可能有多个维度表。因此, 一个数据仓库 (数据集市) 会有很多个聚集事实表。究竟需要那些聚集, 要针对用户需求和决策需要。例如, 连锁超市数据集市中可建立以下常用聚集事实表:

⑴单路聚集:在有多个维度的数据模型中, 如果只有一个维度升高维度层次, 其他维度保持最低层次, 所生成的事实表为单路聚集事实表。在连锁超市数据集市中, 把时间维度的属性层次升高到月、季或年, 其他维度层次保持不变, 就生成一个单路时间聚集事实表。

⑵二路聚集:在多维数据模型中, 如果有二个维度升高维度层次, 其他维度保持最低层次, 所生成的事实表为二路聚集事实表。在连锁超市数据集市中, 如果需要掌握在某年对会员客户的销售情况, 可以生成时间维属性为年, 客户维属性为会员, 其他维保持不变的二路聚集事实表。如图4所示。

⑶三路聚集:在多维数据模型中, 如果有三个维度升高维度层次, 其他维度保持最低层次, 所生成的事实表为三路聚集事实表。例如:在连锁超市数据集市中, 需要掌握在某年会员客户对某个品牌商品的购买情况, 就需要对销售事实表进行三路聚集, 如图5所示。

按照上述方法, 可以根据需要灵活方便地生成多个聚集事实表。

五、结束语

能否满足需求, 是衡量一个应用软件质量的重要依据。利用本文提出的连锁超市数据集市的数据模型架构, 不仅为建立连锁超市数据集市奠定了基础;而且为数据集市的发展利用创造了条件。通过数据挖掘技术, 能够从多方面获取连锁超市经营管理中的重要信息, 为企业在竞争中取得主动权, 促进企业的进一步发展, 提供决策支持。

参考文献

[1]王志海:数据仓库[M].机械工业出版社, 2003

[2]邵红全 赵 茜:运用多维数据模型实现数据集市[J].河北省科学院学报, 2003 (2) :99~102

[3]段云峰:数据仓库基础[M].电子工业出版社, 2004

[4]李姗姗 宁 洪 陈 波:通用数据仓库元数据模型的研究[J].计算机工程与应用, 2004, 26 (5) :52~55

[5]刘中蔚 陈 红:用基于元数据库的工作流调度数据仓库的更新[]].计算机应用研究, 2006, 23 (3) :178~180

[6]范 明:数据挖掘概念与技术[M].机械工业出版社, 2004

[7]平 静 林平瑞:元数据管理及其在数据仓库中的应用[J].平原大学学报, 2006 (8) :130~132

产品设计数据 篇9

随着社会科技的不断发展与进步,互联网得到了飞速发展,计算机技术也得到了广泛的应用,但另一方面信息的安全问题却日益突出,信息安全技术应运而生并得到了极大的发展。信息安全技术的核心是数据加密技术,它不仅能够加解密数据,而且还能够鉴别、认证数字签名等,从而使在网络上传输的数据的完整性、确认性及机密性得到了切实的保证。本文将DES算法和RSA算法的优点结合起来,将一个数据加密系统设计了出来,同时将Java安全软件包充分利用起来,实现了数字签名。

1 数据加密技术

1.1 私钥加密体制

私钥加密体制指在加密和解密时所使用的密钥是相同的,由两种类型,分别是分组密码和序列密码。分组密码对明文进行分组的依据是其固定的长度,用同一个密钥加密每一个分组,从而促进等长的密文分组的产生。序列密码又称流密码,因为它将明文数据一次加密一个字节或比特。和序列密码相比,分组密码使用于软件实现,并且具有较快的加密速度,因此在人们的日常工作和生活中得到了极为广泛的运用。

1.2 公钥加密体制

1976年,W.Diffie和Hellman最早提出了公钥体制,利用两个不同的密钥分开加密和解密的能力是该体制最大的特点。公开密钥在加密信息中得到了应用,而使人密钥则在解密信息中得到了应用。通信双方可以直接进行保密通信,而不需要事先交换密钥。同时,在计算机上也不能实现从公开的公钥或密文中将明文或密钥分析出来。

2 数据库“敏感”数据安全加密系统设计

2.1 数据库“敏感”数据安全加密系统的体系结构

该加密系统是在目前较为成熟的仿真网络体系结构HLA的基础上发展起来的,由两部分组成,分别是CA服务器端和客户端。在联邦成员中嵌入加密客户端,可以对各联邦成员之间的“敏感”数据进行加密,CA服务器则可以生成、分发及管理密钥。联邦成员和CA服务器之间及各个联邦成员之间进行通讯的途径是HLA-RTI接口。加密系统体系结构如图1所示。

2.2 数据库“敏感”数据安全加密系统的功能模块

CA服务器端与加密客户端组成了加密系统的功能模块。其中,CA服务器端的主要功能是认证客户端的身份、生成、存储并分发RSA密钥等。密钥是在用户口令字和大数分解理论的基础上生成的,每次有一对密钥(公钥和私钥)产生,用于对会话密钥进行加密和数字签名,也就是对称加密算法AES或DES、3DES算法的密钥;将生成的密钥对和申请者的用户名联系起来,促进一个关联目录的生成,以方便客户端查找即是密钥的存储;依据客户端的请求信息,在关联目录中将与之相匹配的信息查找出来,如果找到的话,就把密钥向请求的客户端发送即是密钥的分发。

加密客户端的主要功能是完成对文件的加密和解密、传输实时数据的加密和解密密文、管理和传输对称加密算法的密钥及和CA服务器交互等。其中,对称加密算法AES或DES、3DES及混沌序列加密算法的密钥均在密钥生成模块生成;密钥的加密传输模块主要是使会话密钥的安全得到切实的保障,也就是说,用公钥密码算法RSA的公钥对会话密钥进行加密,然后一起传输加密后的密钥和密文,在解密端,为了得到会话密钥,可以使用TSA的私钥来进行解密;实时数据的加密和解密模块的基础是混沌特性,在加密或解密实时数据时利用混沌序列密码算法。加密系统的功能模块划分如图2所示。

2.3 数据加密模块的设计与实现

混合加密体制是数据加密系统所使用的,它将对称密码算法具有的较快的贾母速度、较高的加密强度、较高效的加解密大量数据等能力进行了充分的运用;公钥密码算法具有较高的加密强度,密钥便于管理。为了弥补传统密码算法中不便于传递密钥的缺点,可以加密明文的密钥。将二者结合起来,可以实现数据传输的安全性。

2.3.1 3DES算法的设计与实现

目前,虽然DES具有较为广泛的应用范围,并且人们可以很方便地从公开渠道获取,但是因为DES只有56位的密钥长度,易于攻击,其加密强度已经远远不能满足现代安全的需要,因此可以将两个56位的密钥混合起来使用来完成加解密,这样密钥就达到了112位的长度,从而大大增强了加密强度,这就是3DES。3DES的算法原理如图3所示。

图3中密钥K1、K2是随机产生的。

三重DES算法的实现主要包括DES类和THREE类两个类。其中DES类的主要函数是public static byte[]encrypt(byte[]oword64,int[][]i Sub Keys)//加密;public static byte[]decrypt(byte[]b Cipher-text,int[][]Sub Keys)//解密。THREE类的主要函数是public static byte[]encrypt(byte[]oword,int[][]Sub Keys1,int[][]Sub Keys2)//解密;public static byte[]decrypt(byte[]sword,int[][]Sub Keys1,int[][]Sub Keys2)//加密,返回明文。

2.3.2 RSA算法的设计与实现

大数分解是RSA的安全性赖以存在的基础。公钥和私钥都是两个大素数的函数。RSA算法的实现主要包括三个部分,即生成密钥、加密数据和解密数据。在变量的定义方面,在对p、q、n、e、d、t进行定义时,利用Java中的大数Big Interger();在密钥的生成方面,利用publi boolean generate PQNTED(Stringe);在加密数据方面,利用public String Encrypt(String msg、Big Integer pbkey、Big Intiger n),在加密的过程中,在对所要加密的字节数组进行分组时,可以利用转换函数copy Bytes();在解密数据的过程中,利用之前产生的公钥n与私钥d。把所要解密的数据与公钥n与私钥d作为参数向加密函数public String Decrypt(String msg,Big Integer prikey Big Integer n)传递。

RSA只有在大数运算的基础上才能实现,只有这样才能执行大量的大数加减乘除和模逆、模幂运算。这就导致相对于其他特别是对称密钥算法来说,RSA的实现效率十分低下。本文设计的系统中生成的DES密钥用RSA替代的原因也就是这种速度上的差异。

本文设计的数据库“敏感”数据安全加密系统,将数据的加密技术和签名技术综合了起来,一方面解决了密钥的管理问题,另一方面也使数据的不可否认性及完整性得到了切实的保障,同时也将该系统网络通信的程序设计和界面设计方法提供了出来。本系统将集中主要的加密算法进行了具体的分类,使代码的高效性、可扩展性等得到了有效地增强,有利于以后的再次开发。

摘要:本文首先简要阐述了数据加密技术,然后从数据库“敏感”数据安全加密系统的体系结构、功能模块及数据加密模块的设计与实现三个方面,对数据库“敏感”数据安全加密系统设计进行了相关的研究。

关键词:数据库,敏感数据,安全加密系统,设计

参考文献

[1]胡向东,魏琴芳.应用密码学[M].北京:电子工业出版社.2006.

[2]贺雪晨,陈林玲,赵琰.信息对抗与网络安全[M].北京:清华大学出版社.2006.

[3]褚雄,王子敬,王勇.一种基于FPGA的DES加密算法实现[J].江南大学学报(自然科学版),2006,15(6):661—664.

[4]朱作付,徐超,葛红美.基于DES和RSA算法的数据加密传输系统设计[J].通信技术,2010,43(4).

[5]Compag,HewIett-Packard,InteI,Lucent,Microsoft,NEC,PhiIips.UniversaI Bus Specification(Revision2.0)[M].InteI,2000.

产品设计数据 篇10

近年来,随着综合治税工作的深入开展,涉税信息目录及采集范围不断扩大,税收征管、行政许可、建设项目、注册登记等各类涉税信息数据规模快速增长,特别是综合治税信息系统在省市县三级的推广与应用,为综合治税数据分析与决策支持提供了规模庞大的数据资源。研究如何基于这些海量数据开展数据分析,从中获取与综合治税相关的信息与价值,为各级税务部门加强税源控管、堵塞税收漏洞、实现信息管税提供支撑,具有重要的理论和现实意义。

数据仓库是一个面向主题的、集成的、非易失且随时间变化的数据集合,用来支持管理决策[1],是实现数据整合和分析利用的最佳解决方案。目前,综合治税信息系统所使用的数据库,是按照联机事务处理(OLTP)的要求进行设计的,其数据结构、内容用法与数据仓库有很大不同,无法满足复杂查询和数据挖掘的需要。例如,复杂查询所涉及的多表链接、汇总排序等操作,会很大程度上影响系统相应速度[2]。因此,构建综合治税数据仓库,以数据仓库为基础开发综合治税数据分析系统,是充分利用综合治税数据资源,提升涉税信息利用水平的有效手段。

1 功能需求分析

根据综合治税数据整合与应用需求,数据分析系统建设应以信息管税为目标,按照“覆盖广泛、详实可靠、开放共享、安全高效”的原则,依托数据仓库技术,逐步将税收征管、行政许可、建设项目、注册登记等各类涉税信息接入系统,构建集信息采集交换、审核校验、统计汇总、分析预测、应用发布为一体的综合治税数据仓库,实现第三方涉税信息整合分析与深度应用,包括以下主要功能:

(1)涉税信息采集交换。按照综合治税信息共享目录的要求,依托现有综合治税信息系统,通过人工报送和自动交换两种方式采集原始涉税信息,形成综合治税数据仓库初始数据。此外,系统应提供异构数据源支持,支持半结构化和非结构化数据采集导入功能。

(2)建立综合治税数据仓库。按照数据仓库设计、建设要求,按照统一编码体系,对原始涉税信息进行抽取、转换、装载(即ETL过程)。此外,系统应能根据数据仓库的数据处理流程,按照数据质量控制标准对数据进行校验和审核,保证数据正确性。

(3)涉税信息报表和查询。根据综合治税工作需要,按照规范的数据统计口径,建立综合治税数据统计报表体系,定期生成各类统计报表。同时,系统应提供直观的查询功能,能够对报表数据进行钻取操作,实现从汇总数据到明细数据的分层下钻和逐级浏览。

(4)税收风险评估。以第三方涉税信息整合应用为出发点,建立风险评估模型,通过模型将各类涉税信息与税务部门的征管信息进行比对分析,及时发现税收管理的薄弱环节,查找定位税收风险点,堵塞税收征管漏洞,为提高税收征管水平提供数据支撑。

(5)重点税源监控。依托涉税部门提供的企业生产经营信息以及税务部门的税收征管信息,建立重点税源监测指标,对重点纳税人的经营与纳税情况进行监控,并以图形、表格等形式进行展现,直观地反映微观经济主体的运行状态,为制定税收优惠政策、促进企业发展提供参考。

(6)税收收入预测预警。基于综合治税数据仓库所整合的历年度税收数据,建立数据挖掘模型,将税收收入与相关宏观经济指标进行关联分析,对二者的相关性进行深入挖掘。此外,借助计量经济学模型,对税收收入未来走势和波动幅度进行科学预测,为税收政策的制定和领导决策提供依据。

2 系统架构设计

系统整体架构如图1所示,分为4个层次:数据采集层、数据服务层、应用分析层、信息展现层。

图1 系统整体架构

(1)数据采集层。数据采集层是整个系统中涉税信息的统一入口,该层能够屏蔽异构数据源的差异,使系统中后续数据处理基于统一的数据接口,降低技术复杂性。系统采集的各类涉税信息,首先在这一层中进行保存,既能减少对数据源性能产生影响,又能在数据ETL失败时再次加载,从而提高系统效率。

(2)数据存储层。数据存储层根据分析主题的要求,采用星型结构对业务数据进行建模,形成数据仓库逻辑模型和实体模型。在数据处理方面,数据存储层先通过ETL处理从数据采集层获取原始数据,再按照数据模型结构对原始数据进行整合,形成一系列事实表和维表。此外,部门数据分析所需数据集市也在该层进行设计和实现。

(3)应用分析层。应用分析层基于数据存储层中的模型数据,对信息展现层提供不同类型的数据分析服务。其中,即席查询服务通过语义层映射机制,可以为涉税信息自定义查询提供支持;报表服务通过定义报表模板,提供可扩展报表生成和查询服务;OLAP通过建立多维数据结构,为复杂数据分析操作提供快速响应服务;数据挖掘服务通过封装特定算法,对综合治税数据进行关联分析,为风险评估、预测预警等系统功能提供支撑。

(4)信息展现层。信息展现层按照数据分析需求,将数据仓库中的数据以及应用分析结果,通过数据展现工具以图形、报表、文字等形式呈现到用户面前。此外,还提供管理维护界面,完成包括用户管理、权限分配等系统管理功能。

3 关键技术实现

3.1 数据自动交换

涉税信息采集是进行数据分析的前提和基础,信息采集的质量直接对数据分析结果产生影响。因此,对于信息化程度高、业务数据集中存储的涉税部门,应当建立数据自动交换平台,实现涉税信息的自动采集,提高数据的完整性、准确性和及时性。

数据自动交换技术的实现模式主要有两种:一是数据库复制模式,其优点是交换双方数据库结构相同,交换数据的内容能够保证较好的一致性和实时性,缺点是扩展性和适应性不足,对异构数据交换的支持较差;二是前置机模式,其优点是支持数据库、文件、接口服务等多种接入方式,有较好的适应性和扩展性,数据交换流程可配置、管理和监控,缺点是数据较难实时同步,交换服务程序对硬件要求较高。本系统采用前置机模式,在各涉税部门部署数据交换前置服务器及软件工具,利用XML文件对异构数据格式进行转换,在保持数据库相对独立和自治的基础上,实现涉税信息的自动提取、整理、传输和保存[3]。

3.2 ETL

ETL是建设数据仓库的重要步骤。在完成不同部门、不同类型涉税信息采集后,涉税信息需要经过抽取、转换、加载进入数据仓库,形成一系列维表和事实表,为后续数据分析与挖掘提供数据基础。在数据抽取环节,系统采用触发器的方式,在数据采集层保存涉税信息的同时,启动对应的数据抽取处理,实现数据采集与ETL的有效衔接,确保采集的涉税信息及时进入数据仓库;在数据转换环节,要对涉税信息的有效性进行检查,然后对照税收收入、纳税人登记信息等事实表,以及区划、行业、税种等维表,经过数据变换、清理、集成、聚集和概括等处理,形成格式一致的事实表和维表数据[4];在数据加载环节,要将转换完成的事实表与维表,批量存储到综合治税数据仓库中。

3.3 数据建模

在数据仓库数据建模中,星型模式能够提高查询性能,降低维表复杂度,因而得到广泛应用[5]。在此模型中,根据数据分析的主题构造事实表,用于存储分析数据的度量值和维度值;根据数据分析的角度构造维度表,用于存储分析数据的维度值(包括历史版本)。事实表和维表以主外键的形式进行关联,形成主题分析所需的星型模型[6]。例如,分产业税收分析主题所对应的数据模型如图2所示。

3.4 联机分析处理

联机分析处理(OLAP)是数据仓库的主要应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。在应用分析层,OLAP服务利用数据仓库的模型数据,根据主题分析需求建立多维分析模型(CUBE多维立方体),并以ROLAP方式进行存储,可从不同层次、阶段共享、存取和分析涉税数据[7]。在信息展现层,系统采用Cognos组件,按照用户的分析需求,以报表、图形、记分卡、仪表盘等多种形式,把CUBE的数据和分析结果展现给最终用户。

4 结语

建设综合治税数据仓库,并以此为基础构建综合治税数据分析系统,是充分利用综合治税数据资源、提升综合治税信息价值的有效手段。本文从应用角度,阐述了综合治税数据仓库及数据分析系统的功能、架构和关键技术。综合治税数据的深层次数据挖掘功能及其实现等问题,还有待进一步研究。

图2 税收收入分析主题数据模型

摘要:为提高综合治税涉税信息利用水平,实现对各类综合治税数据的整合分析与关联比对,为数据分析提供应用支撑,在分析系统业务需求的基础上,设计了基于数据仓库的综合治税数据分析系统,探讨数据自动交换、ETL、数据建模、联机分析处理等关键技术。

关键词:综合治税,数据仓库,决策支持

参考文献

[1][美]荫蒙(Inmon,W.H).数据仓库[M].王志海,译.北京:机械工业出版社,2006.

[2]林建明,琚春华,李军.基于数据仓库的财政综合信息分析系统研究与设计[J].计算机时代,2008(9):24-26.

[3]张丽华.基于XML的异构数据交换技术研究[J].苏州科技学院学报:工程技术版,2010(6):77-79.

[4]黄容,党齐民,陈宝树.财政数据仓库的设计开发[J].计算机工程与应用,2003(32):190-193.

[5]陈荣保,何伟华,戚维田.基于数据仓库的财政收支多维分析系统设计[J].常州信息职业技术学院学报,2008(1):13-15.

[6]张军占,陈光伟.基于数据仓库和OLAP的城市财税分析系统的构建[J].计算机与现代化,2008(9):126-128.

产品设计数据 篇11

关键词:元数据;数据集成;中间件;元数据字典

中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)15-30609-02

Design and Realization of Metadata Management in Database Integration Middleware System

JIANG Wei-wei, ZHAO Zhen-nan

(Engineering Institute of Engineering Corps,PLA University of Sci. & Tech.,Nanjing 210007, China)

Abstract:This paper introduce the concept of metadata and analysis the needs of heterogeneous data sources integration then puts forward the necessity of using metadata in Database Integration Middleware System, Set forth the design and realization process of metadata management.

Key words:metadata; data Integration; middleware; metadata dictionary

1 数据集成的相关概念

随着信息化建设发展,各类企业数据标准也在完善,而在各类旧系统多年的使用中,数据库中积累了大量的宝贵数据。因此,我们将面临着如何将原有的各类已趋于成熟的数据库系统纳入到新系统中的问题。如何有效地利用旧系统中存储的大量的宝贵数据和实现各个子系统之间数据的透明访问,成为我们开发数据集成系统必须解决的重要课题。

数据集成是为各种异构数据提供统一的表示、存储和管理,屏蔽各种异构数据间的差异,为用户提供一个访问异构数据源的统一接口,使用户不必考虑数据模型异构、数据抽取以及数据合成等问题。典型的数据集成技术有:

联邦数据库:是最简单的一种异构数据库集成方式,各个数据源是相互独立的,通过数据源之间的数据交换格式进行一一映射,这种方法的优点是容易实现,尤其是在集成的数据源种类和个数限定的情况下,缺点则是工作量极大,扩展性差,如果有n个异构数据源需要互连,那么我们就要去构造n*(n-1)个映射程序来支持这n个异构数据源之间的互相访问。

数据仓库集成异构数据源的策略是将来自几个异构数据源的数据副本,按照一个集中、统一的视图要求,进行预处理、转换,以符合数据仓库的模式,并存储到数据仓库中。数据仓库模式的异构数据库数据共享集成的优点是便于进行联机分析和数据挖掘,缺点是数据重复存储、难以及时更新。

中间件模式(Mediator/Wrapper模式)通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等,如图1所示。中间件位于异构数据源系统(数据层)和应用程序(应用层)之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要为异构数据源提供一个高层次检索服务。

图1 中间件集成模式

如果系统已经按照用户的要求建立了各种数据,但是用户却没有办法知道这些数据代表了什么,如何表示才是符合要求的,它们从哪里来,经过了怎样的变换等等,将会增加用户使用系统的难度。元数据实现了业务模型到数据模型的映射,把数据以用户需要的方式“翻译”过来,从而帮助用户理解和使用数据。数据集成系统中的底层数据对用户来说是“不透明”的,用户很自然会对集成结果产生怀疑。元数据记录了数据的来源和目标,记录了转换的规则,从而使得最终用户能够很容易的了解数据产生的全过程,这对于最终用户发现数据中存在的质量问题是非常有帮助的,从而增加数据可信度,减少数据仓库中蜘蛛网现象所造成的不利影响。中间件模式中的元数据管理作为各异构数据源的“翻译”和“协调者”,考虑到最终用户的非专业性,向中间层提供了一个源数据的“介绍”和获取方式,这既避免了数据源间的直接接触又避免了对源数据的复制,简化了数据的管理过程。

2 元数据

元数据(Metadata):“关于数据的数据”,为各层次信息内容提供规范的定义、标记、解析和利用机制。元数据的精神应该是用尽可能少而精的数据反映对象尽可能多而全的信息。

元数据的产生源于网络信息资源的快速增长,信息资源的组织与利用出现了巨大的困难,传统的信息组织方法不仅在数据加工和数据标引上费时费力,而且需要大量经过特殊培训的专业人员来操作。同时由于网络环境下的一些其他问题,如内容加密、资源庞大或资源收费等,造成资源不能被每个人直接使用,人们无法看到电子文档的实际内容。因而不可能使用传统的信息管理方法组织网上的信息。元数据是一个有效的解决方案。基于元数据的信息组织主要用于实现两个功能:一是较为准确地描述信息资源的原始数据或主题内容;二是能够实现网络信息资源的发现,即实现计算机网络定位、自动辨析、分解、提取等功能,将网络信息资源的无序状态变为有序状态。

在数据集成中间件中,元数据包含数据从哪里来,什么时间传输和传输到哪里去的一系列信息,提供给数据管理者一种追踪数据的方法。元数据被存储到服务器端,被数据库或XML文档管理,可以方便的展现给数据管理者。

3 元数据管理策略

从元数据的发展历史不难看出,元数据管理主要有两种方法:

(1)对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。

(2)对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。元数据管理策略通常都包含一些基本特征:

(1)一个元数据的全局安全策略;

(2)对所有元数据源和目标以及元数据元素的确认机制;

(3)对每个元数据元素语义的一致理解;

(4)每个元数据元素的所有权;

(5)共享、修改和重新发布元数据元素的规则;

(6)元数据元素的重用目标。

4 元数据管理的实现

数据集成中间件中的元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据集成中间件中检索工具、数据访问接口模块、接收查询结果模块等之间的消息传递,协调各模块和工具之间的工作。本文元数据管理系统的实现过程有如下步骤:

(1)分析数据源,确定元数据映射范围;

(2)从实际系统中抽象元数据描述,加入语义层的对应,存人一个数据库中。本文采用一般的关系型数据库;

(3)确定元数据管理范围;

(4)确定元数据管理的工具。

举一个简单的例子,现有两数据库如图2所示:

图2 异构数据库示例

根据对数据源的分析,由于他们都表示了一个共同的关于企业编制的信息,因此元数据字典中可以抽象出一个全局的类“企业编制”,代表公有的领域概念。并分别用企业名称,企业编号,企业标识,企业地址,编制人数,实有人数等几个全局概念来表示“企业编制”类的属性。

本文使用元数据字典表示:各局部数据库的模式信息、集成系统的全局视图信息以及异构模式间的转换规则等。它是整个系统解决语义异构问题的核心,可确定来自不同数据库的相关数据,并将相关数据整合在全局视图上。

元数据字典通过精确表达领域内使用的公有概念以及概念的属性和它们之间的关系,能够对用户屏蔽这些异构数据的不同,使得用户的查询只根据这个元数据视图的概念进行描述。这个元数据字典描述文件如下所示。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<metadata>

<class name="企业编制" description="">

<object name="企业A编制" id="001001" address="D1" database="sqlserver" table="bdbzwj" key="企业编号"/>

<property name="企业编号" type="varchar" length="10" precision="50"/>

<property name="企业名称" type=" varchar " length="50" precision="50"/>

<property name="企业标识" type="varchar" length="10" precision="10"/>

……

<property name="企业驻地" type="varchar" length="50" precision="50"/>

<property name="编制人数" type="int" length="4" precision="10"/>

<property name="实有人数" type="int" length="4" precision="10"/>

</object>

<object name="企业B编制" id="001002" address="D1" database="oracle" table="bdbzmj" key="企业编号">

<property name="企业编号" type="varchar" length="10" precision="50"/>

<property name="企业名称" type=" varchar " length="50" precision="50"/>

<property name="企业标识" type="varchar" length="10" precision="10"/>

……

<property name="企业驻地" type="varchar" length="50" precision="50"/>

<property name="编制人数" type="int" length="4" precision="10"/>

<property name="实有人数" type="int" length="4" precision="10"/>

</object>

</class>

</metadata>

元数据的建立,一方面,采用XML进行描述、保存与交换,保证了系统的开放性与灵活性;另一方面,采用数据库表实现基于内容与集成的检索服务,保证了系统面对大容量的数据依然能够保证优秀的查准率、查全率和快速响应,数据客户端发送来查询字符串提供给服务端的功能模块解析,解析时需要查询元数据信息。因此把元数据信息从XML文档转换并导入到数据库中。本文用SQLServer 2000来存储元数据数据库。关系数据库中建立的对象表和属性表,如图3所示:

图3 元数据数据库

对元数据数据库的管理:建立友好的用户界面,用户无需了解元数据在数据库中的具体结构就能完成元数据维护工作。本文以树控件显示元数据机构,实现了元数据的添加、修改、删除,元数据数据表的维护等操作。

5 结束语

元数据是数据之数据,因此方便用户对资源的发现和辨识,大大提高了资源被利用程度,元数据的应用领域越来越广泛和深人,元数据的格式也进一步多元化,体系更加复杂,功能更加完善,元数据格式的标准化和格式之间的整合、可互操作将是一个严峻的问题。

参考文献:

[1] Maraco Bellinaso,等. C#入门经典[M]. 清华大学出版社,2002.

[2] 刘强. 基于中间件技术的异构数据集成[M]. 郑州:河南大学, 2003.5.

[3] 王真. 数据仓库中的元数据管理[M]. 福建教育学院学报, 2004.4.

产品设计数据 篇12

20世纪90年代以后,Web应用遍及全球,网络深入人心,数据库日益普及。大型机构由于分支机构不断变化、产生,原有集中式应用模型不能适应新环境,分布式数据库成为主要研究方向。企事业单位不能真正解决信息孤岛问题[1],信息化建设很难成功,真正发挥应有作用。为消除信息孤岛,实现信息共享,迫切需要建立一种公共环境,对用户提供统一、透明的访问界面,信息集成研究因此而起。历经十多年信息化工作积累,信息化程度已初具规模,为了能共享数据,可以建立统一的数据交换平台实现。交换平台为系统提供了基于XML的数据交换机制,可以直接为全局的应用系统提供信息交换服务,是实现信用信息系统业务功能的技术基础。同时,为了能更充分利用现有系统,可采用Web服务和中间数据库构建数据交换平台。

1 异构数据库

1.1 异构数据库系统

异构数据库系统是相关的多个数据库系统集成,实现不同数据库之间数据信息资源、软硬件设备资源和人力资源“并轨”共享,。为各种系统提供集成、统一、安全、快捷的信息查询、数据挖掘和决策支持等服务,实现数据(主要是异构数据)共享和透明访问。每个数据库系统在加入异构数据库系统前就已存在,拥有自己的DBMS(Data Base Managment System)。异构数据库各组成部分具有自身的自治性,实现数据共享的同时,仍保有自己的应用特性、完整性和安全性控制。异构数据库系统的异构性主要体现在三个方面:系统异构、DBMS异构和逻辑异构[2]。

1.2 异构数据库的发展和特征

数据库技术的出现为信息管理带来了新手段。作为计算机科学技术发展最快、应用最广泛的重要分支之一,数据库已成为计数机信息系统和应用系统的重要技术基础和支柱。数据库技术发展大致经历了三个阶段,在发展第二和第三阶段,分布式数据库系统(Distributed Databses)基本解决了集中式数据库系统的弊端;但对不断发展的大型机构,由于发展阶段、应用目的不同等原因而产生的不同数据系统,有机地结合在一起共同工作仍存在问题,这便首次产生了异构数据库系统的研究需求。在20世经90年代,数据库发展面临新挑战,在Web、新的应用需求及硬件技术飞速发展情况下,web提供一个集合异构数据源平台;Web发展促进了异构数据库系统理论进一步研究和发展。异构数据库系统是对分布式数据库系统的继承和发展,二者既有相同之处又有区别。最根本的区别在于:分布式数据库系统只拥有单一逻辑数据库,虽然可以在物理上分布,但只有一个DBMS为其服务,提供一致的查询与更新,严格说,各分布子系统是同构的;而异构数据库系统则以多个异构、自主的数据库系统为基础,通过一定程度集成而构成一个分布式数据库系统。异构数据库特征则可从以下三方面说明[3]:

(1)分布性。

异构数据库系统各组成部分是分布在不同位置的各种自治数据库系统,通过通讯网络建立各部分之间连接。系统的数据保存在分布的数据库系统中,可以以各不相同方式保存,没有严格逻辑要求。每一个独立自主的数据库系统只是整个异构数据库系统中的一个网络结点。

(2)异构性。

排除数据库宿主系统的异构性,异构数据库系统的异构性主要由两方面产生:

(1)数据库管理系统(DBMS)的异构:由于组成系统的各数据库系统可以不同,因此形成了DBMS的异构,这种异构实质上可分为三个方面:

A.结构不同:根据不同的方法论,DBMS采用不同的数据模型和数据结构,反映在物理上的存储方法也可能不同。例如层次数据库与关系数据库。

B.数据存储种类异构:相同或相似的现实世界数据,存在表达多样性,因此不同数据库系统存储方式不同,可以是数据类型、范围、精度以及组成部分的异构。例如:在一个数据库中可以采用整型表达的数据,很可能在另一数据库中采用字符串表示,而在第三种数据库中则变为某种对象的一个属性。

C.关系表达异构:由于不同环境及需求,事件中两个事务之间关系可从多方面理解,由此造成在数据库中关系表达的异构,这种异构与该数据库系统采用的数据型或密不可分,可能出现同一数据的不同分割和组合以及关系连接。

(2)数据遗漏及冲突:不同的应用对数据对象的不同侧面要求不同,很可能在某领域内非常必需的数据在另一环境中却可以忽略,或者实际上是另一种数据,所以数据遗漏和冲突在所难免。

(3)自主性。

构成异构数据库系统各子系统具有各自的自主性,拥有对自身系统内各种资源使用的权利,包括设计、执行、修改等,同时拥有与其它系统交互的权利,包括加入、退出、通讯、提供服务等。它们有权利接受外来服务请求,也有权利拒绝请求服务的权利。但在这些权利与承诺的系统义务之间必须有机结合。

2 数据交换平台的总体设计

2.1 系统的体系结构

由于各业务系统是异构的,首先必须定义一个统一的XML文件数据标准进行交换。考虑到旧系统改造和新系统扩展方便性,本文采用的数据交换系统结构如图1所示[4]。

首先,各业务系统按自身系统数据结构情况开发应用程序,以共同的数据标准规范,将要共享的数据生成合符要求的XML文件;然后将XML文件通过数据采集接口模块传输到数据交换平台。这样,外部系统就可通过查询请求查询到平台中间数据库中自己需要的数据,从而达到数据共享目的。下面,对图1数据交换系统架构四大部分作一简析。

(1)业务系统:是指企业内部各业务系统,负责将自身系统需要共享数据转换成规范的XML文件。它是共享数据提供者,又是共享数据使用者。

(2)外部系统:是指需要查询共享数据并具有对应权限的用户系统。

(3)数据采集模块:是数据交换系统重要组成部分,包括传统采集接口和Web Service接口两种方式,将要传输的数据采集出来,送到数据交换平台处理。

(4)数据交换平台:是数据交换系统重要组成部分,由原始数据池、平台中间数据库及核心处理模块三部分组成,负责XML文件的处理和存储。

数据采集模块和数据交换平台是系统实现数据共享的核心部分。

2.2 数据交换平台

数据交换平台负责所传输到达的XML文件转换和存储操作,其中包括原始数据池、核心处理模块和中间数据库三部分。

(1)原始数据池。

它是数据缓冲池,在采集模块和核心处理模块之间起缓冲作用;负责将从数据采集接口模块中采集到的数据以XML形式分类暂时存储[5],在核心处理模块空闲时再行处理,处于数据交换和存储模块最前方位置;数据按各业务系统分类存放,各业务系统都有自己对应的文件夹,XML文件暂存在文件夹里,如果在获取数据过程中有错误发生时,将错误信息打包成XML文件,发送到错误反馈信息子目录中。

(2)核心处理模块。

它是数据交换的中心,是连接原始数据池、数据库和外部系统的纽带,负责XML数据处理和数据库数据转换,包括两种功能:

(1)从原始数据池传输过来的XML文件,按照规定的数据结构存放到中间数据库中。(2)根据用户查询请求,将需要的中间数据库的共享数据处理组合成XML文件,传输给用户使用。

这里涉及XML文件到数据库之间数据转换问题。由于原始数据池中数据以XML文档形式发送到平台中间数据库,假如将整个文档原封不动存储到数据库中,就会切断数据与数据之间联系,且难于管理和维护。因此数据交换平台中使用的是按XML文档结构层次拆分的,分别存于不同的表或字段形式当中。

(3)中间数据库。

它是业务系统上传的共享数据集中存储的地方,是由核心处理模块处理后的共享数据。各业务系统只要将自己的数据按照一定通用格式如XML提供出来,完全不用改变原来数据库结构。中间数据库,方便了网上检索需要,易于操作。这一方式使各业务系统对自己的数据有完全的控制权[6]。如果用户需要查询信息,那么对应的数据信息将从中间数据库取出,并经核心处理模块进行从数据库结构到XML文件的处理,将XML文件传输给用户,在用户的系统中被处理和显示。

中间数据库的数据表分为两大类:基本码表和用户表。码表用于维护系统中基本不变的数据,包括性别、民族、职务、国家、提交方式、办结结果、特别程序种类、特别程序结果等。用户表用来维护用户日常经常操作的数据,主要包括申请人信息表、申请企业信息表、受理信息表、业务信息表、业务规则信息表、补给信息表、审批是想信息表、经办人信息表、办结信息表、特别程序信息表等。

3 结束语

Web技术及Internet的飞速发展,使产品信息集成要求迅速与新兴技术相结合;但由于信息来源多样化,产生了大量异构数据。如何使各种应用程序能够透明地操作多种数据源,在应用程序和各数据源间建立传输信息的纽带,对实现信息化至关重要。本文探讨了基于XML的企业信息集成问题,可为企业间信息共享提供良好的理论支持。

参考文献

[1]熊光楞等:《并行工程的理论与实践》[M];清华大学出版社,23-24。

[2]李黎:《基于XML的异构数据库数据集成技术研究》[R];四川师范大学计算机科学学院,2008:5-7。

[3]C W Chung.“DATAPLEX:An access to heterogeneous distributed databases”[M],Comm.——ACM,Vol.1No.1.2002.

[4]李阳:《数据交换系统设计与实现》[R];北京交通大学,2006:21。

[5]Charles F Goldfarb.《XML实用技术》[M];清华大学出版社,1999:56-58。

上一篇:反应单元下一篇:京津冀区域协同发展