数据通信技术研究

2025-01-23

数据通信技术研究(精选12篇)

数据通信技术研究 篇1

随着网络技术的高速发展, 互联网已经成为人们利用信息和资源共享的主要手段, 面对这个互连的开放式的系统, 人们在感叹现代网络技术的高超与便利的同时, 同时, 由于计算机网络的不安全性, 网络上传输的信息随时都受到非法存取、盗听、篡改和破坏等的威胁, 网络安全性问题日益突出。如何保护计算机信息的安全, 也即信息内容的保密问题显得尤为重要。数据加密技术是解决网络安全问要采取的主要保密安全措施, 是最常用的保密安全手段, 通过数据加密技术, 可以在一定程度上提高数据传输的安全性, 保证传输数据的完整性。

1 加密技术

数据加密的基本过程就是对原来为明文的文件或数据按某种算法进行处理。使其成为不可读的一段代码, 通常称为“密文”传送, 到达目的地后使其只能在输入相应的密钥之后才能显示出本来内容, 通过这样的途径达到保护数据不被人非法窃取、修改的目的。该过程的逆过程为解密, 即将该编码信息转化为其原来数据的过程。数据加密技术主要分为数据传输加密和数据存储加密。数据传输加密技术主要是对传输中的数据流进行加密, 常用的有链路加密、节点加密和端到端加密三种方式。

2 数据存储加密技术

数据存储加密技术的目的是防止在存储环节上的数据失密, 可分为密文存储和存取控制两种。前者一般是通过加密法转换、附加密码、加密模块等方法实现;如上面提到的PGP加密软件, 它不光可以为互联网上通信的文件进行加密和数字签名, 还可以对本地硬盘文件资料进行加密, 防止非法访问。这种加密方式不同于OFFICE文档中的密码保护, 用加密软件加密的文件在解密前内容都会作一下代码转换, 把原来普通的数据转变成一堆看不懂的代码, 这样就保护了原文件不被非法阅读、修改。后者则是对用户资格、权限加以审查和限制, 防止非法用户存取数据或合法用户越权存取数据, 这种技术主要应用于NT系统和一些网络操作系统中, 在系统中可以对不同工作组的用户赋予相应的权限以达到保护重要数据不被子非常访问。

3 数据传输加密技术

3.1 链路加密。

链路加密是传输数据仅在物理层前的数据链路层进行加密。接收方是传送路径上的各台节点机, 信息在每台节点机内都要被解密和再加密, 依次进行, 直至到达目的地。使用链路加密装置能为某链路上的所有报文提供传输服务。即经过一台节点机的所有网络信息传输均需加、解密, 每一个经过的节点都必须有密码装置, 以便解密、加密报文。如果报文仅在一部分链路上加密而在另一部分链路上不加密, 则相当于未加密, 仍然是不安全的。与链路加密类似的节点加密方法, 是在节点处采用一个与节点机相连的密码装置 (被保护的外围设备) , 密文在该装置中被解密并被重新加密, 明文不通过节点机, 避免了链路加密关节点处易受攻击的缺点。

3.2 端——端加密。

端——端加密是为数据从一端传送到另一端提供的加密方式。数据在发送端被加密, 在最终目的地 (接收端) 解密, 中间节点处不以明文的形式出现。采用端——端加密是在应用层完成, 即传输前的高层中完成。除报头外的报文均以密文的形式贯穿于全部传输过程。只是在发送端和最终端才有加、解密设备, 而在中间任何节点报文均不解密, 因此, 不需要有密码设备。同链路加密相比, 可减少密码设备的数量。另一方面, 信息是由报头和报文组成的, 报文为要传送的信息, 报头为路由选择信息。由于网络传输中要涉及到路由选择, 在链路加密时, 报文和报头两者均须加密。而在端——端加密时, 由于通道上的每一个中间节点虽不对报文解密, 但为将报文传送到目的地, 必须检查路由选择信息, 因此, 只能加密报文, 而不能对报头加密。这样就容易被某些通信分析发觉, 而从中获取某些敏感信息。

3.3 节点加密。

尽管节点加密能给网络数据提供较高的安全性, 但它在操作方式上与链路加密是类似的:两者均在通信链路上为传输的消息提供安全性;都在中间节点先对消息进行解密, 然后进行加密。因为要对所有传输的数据进行加密, 所以加密过程对用户是透明的。

然而, 与链路加密不同, 节点加密不允许消息在网络节点以明文形式存在, 它先把收到的消息进行解密, 然后采用另一个不同的密钥进行加密, 这一过程是在节点上的一个安全模块中进行。

节点加密要求报头和路由信息以明文形式传输, 以便中间节点能得到如何处理消息的信息。因此这种方法对于防止攻击者分析通信业务是脆弱的。

4 加密技术在网络商务上的应用

加密技术的应用是多方面的, 但最为广泛的还是在电子商务和VPN上的应用, 下面就分别简叙。

4.1 在电子商务方面的应用。

电子商务 (E-business) 要求顾客可以在网上进行各种商务活动, 不必担心自己的信用卡会被人盗用。在过去, 用户为了防止信用卡的号码被窃取到, 一般是通过电话订货, 然后使用用户的信用卡进行付款。现在人们开始用RSA (一种公开/私有密钥) 的加密技术, 提高信用卡交易的安全性, 从而使电子商务走向实用成为可能。许多人都知道NETSCAPE公司是Internet商业中领先技术的提供者, 该公司提供了一种基于RSA和保密密钥的应用于因特网的技术, 被称为安全插座层 (Secure Sockets Layer, SSL) 。也许很多人知道Socket, 它是一个编程界面, 并不提供任何安全措施, 而SSL不但提供编程界面, 而且向上提供一种安全的服务, SSL3.0现在已经应用到了服务器和浏览器上, SSL2.0则只能应用于服务器端。

4.2 在VPN方面的应用。

VPN, 英文全称是Virtual Private Network, 中文名称一般称为虚拟专用网或虚拟私有网。它指的是以公用开放的网络 (如Internet) 作为基本传输媒体, 通过加密和验证网络流量来保护在公共网络上传输的私有信息不会被窃取和篡改, 从而向最终用户提供类似于私有网络 (Private Network) 性能的网络服务技术。VPN加密机是基于VPN技术而实现的一种网络安全设备。它利用VPN技术, 来实现数据的加密和解密, 保证数据在公网上传输的安全。

运用了VPN加密机, 虽然数据还是通过公网传输, 但由于VPN加密机的作用, 使总部和分支机构之间建立了一条私有的隧道, 组成了一个虚拟的私有网, 所有数据通过这个虚拟私有网传输, 保护数据不受外界的攻击。在实际应用中VPN加密机, 能解决以下的问题:4.2.1数据源身份认证:证实数据报文是所声称的发送者发出的。4.2.2保证数据完整性:证实数据报文的内容在传输过程中没有被修改过, 无论是被故意改动还是发生了随机的传输错误。4.2.3数据保密:隐藏明文的消息。4.2.4重放攻击保护:保证攻击者不能截取数据报文, 且稍后某个时间再发放数据报文, 且不会被检测到。

结束语

信息加密技术作为网络安全技术的核心, 其重要性不可忽略。随着加密和解密技术的发展, 我们应该不断发展和开发新的信息加密技术以适应纷繁变化的网络安全环境。

参考文献

[1]李克洪, 王大珍, 董晓梅.实用密码学与计算机数据安全[M]沈阳:东北大学出版社, 2001:52-112.

[2]刘晓敏:网络环境下信息安全的技术保护[J].情报科学, 1999.

[3]黄凯, 浅析信息加密技术与发展[J].甘肃水利水电技术, 2004 (3) .

数据通信技术研究 篇2

航空雷达数据总线技术研究

在给出航空雷选数据总线种类的基础上,详细阐述了RS-232C、RS-422A、RS-485、ARINC429、MIL STD_1553B等串行数据总线的信号特点、电气特性、和调制形式,并比较了它们的使用方法和应用条件,为航空雷达的深入研究奠定了基础.

作 者:王勇 张欣 钱玉莹 作者单位:中国人民解放军海军航空工程学院青岛分院,山东,青岛,266041刊 名:科技信息英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):“”(15)分类号:V2关键词:RS-232C RS-422A RS-485 ARINC429 MIL_STD_1553B

多源空间数据集成关键技术研究 篇3

摘要:伴随着GIS技术发展与地理信息共享要求,多源空间数据的集成研究既是亮点也是难点。多源空间数据呈现多语义、多尺度、多格式等显著特征,对数据的综合利用和信息共享带来不便。文章针对多源空间数据特征,探讨空间数据多源性的产生和表现,指出多数据格式是多源空间数据集成的瓶颈,对其集成过程中的格式交换、互操作及共享等三种主要技术进行了探索,并解决了其中的一些关键问题,为特定条件下的多源数据有效集成摸索出一条实用途径。

关键词:空间数据集成;互操作;共享

引言

地理空间数据不同于一般的事务管理的数据,其数据由于内容和来源的多样性、空间数据模型和GIS软件平台的差异性,造成了GIS系统之间空间数据集成的极大困难。空间数据是数据库建设和平台研制的基础,为GIS进一步研究工作提供支撑。但是空间数据的来源多样性,不同数据分散在不同地点和部门,使用不同的结构和标准,共享和有效利用也存在一定的困难。因此,本文旨在探究多源数据集成关键技术,把不同来源、格式、比例尺、多投影方式或大地坐标系统的地理空间数据在逻辑上或物理上的有机集中,从而实现地理信息的共享。

1 多源空间数据产生特性

1.1 空间数据多样性

目前,随着IT和GIS的紧密结合,3S技术集成的不断完善,使得GIS获取的空间数据资源获得急剧膨胀。同样,空间数据的获取途径多种多样,既可以继承現有空间数据,也可通过遥感或通过全站仪、GPS等工具实地测量,还有描述性文字、各种统计报表、与地理实体相关的属性信息等。另外,数据来源的多样性还表现在数据载体的多样性,如:传统的纸质地图、纸质表格等;存储在计算机硬盘或者移动存储器上的各种电子数据。

1.2 空间数据尺度差异性

在GIS领域尺度是一个无法回避的问题。空间数据根据尺度可以分为空间尺度和时间尺度,空间尺度我们可以通过比例尺的大小来确定,时间尺度是根据数据的采集时间来确定,不同的数据尺度会产生不同的数据类型。

1.3 GIS软件平台的差异性

现在随着GIS技术不断普及,国内外主流GIS工具软件蓬勃发展,由于不同的GIS软件的制作数据的标准不同,产生不同的数据格式和不同的存储方式。同时对于使用不同软件的操作人员也造成不便。

2. 多源数据集成途径

目前GIS多源空间数据集成主要有三种模式:一是:空间数据集成格式的交换,二是:空间数据的互操作,三是:空间数据的共享访问。

2.1 空间数据集成格式的交换

为了有效的组织各类空间数据、提高数据的传输和利用效率以及达到空间数据共享的目的,对相关空间数据按一定的标准、规范进行标准化,是空间数据库建设的基础和前提。目前,GIS行业公认的几种空间数据交换格式是数据标准化组织负责提出的明码交换格式。本文主要以MapGIS和ArcGIS的数据转换进行介绍。MapGIS到ArcGIS之间数据的转换有两种途径。途径一:首先,从MapGIS获得的点、线、面数据经过图形处理输出为明码中间格式E00,其次,利用ArcGIS提供的转换工具“Import71”将E00转换为ArcGIS识别的Coverage文件。最后,通过Export转化为Feature class。途径二:从MapGIS得到的数据直接转化为shape格式的数据通过Export转化为Feature class。途径二简单便捷线转换较为适合,途径一步骤相对复杂但是其基本保证数据转化的完整性。

2.2 空间数据的互操作

数据互操作模式是OpenGIS Consortium(OGC)制定的数据共享规范,GIS互操作是指在异构数据库和分布计算情况下GIS用户在相互理解的基础上,能透明的操作获取所需信息。伴随着IT技术的迅猛发展,空间数据引擎技术以及大型关系数据库日趋成熟和完善,不仅为多来源、多格式、多时相、多区域的海量地理空间数据的存储、管理、检索及共享提供了成熟的解决方案,而且也为多用户并发访问等技术难题奠定了基础。Oracle是目前最为流行的大型关系数据库管理系统,因为其在数据安全性与数据完整性控制方面的优越性,以及跨平台进行互操作的特点被广泛使用。在Oracle数据库中进行多源数据互操作,首先,数据库管理员设置用户的资源文件PROFILE以确定用户的存取限制,创建操作用户为其设置初始口令,用户登录可以自行修改,口令在数据库中加密存储。以便数据库管理员监督与管理。其次,数据库管理员为用户分配一定的角色,对用户的权限进行设置。然后,以关系型数据库Oracle 10g为后台存储中心对空间数据和非空间数据进行组织和管理,以ArcCatalog和ArcMap为客户端,通过空间数据库引擎(ArcSDE)对数据进行显示和互操作。

2.3 空间数据的共享

2.3.1 空间数据库共享访问

不同的生产实践部门对数据的关注度不同,因而各部门拥有各自独立的业务管理数据,使得数据的共享与利用难度增强,随着当前网络技术快速发展,为空间数据共享提供了多种可选方案。ESRI在2008年底推出的ArcGIS 9.3版本时,同时发布了ArcGIS Server REST API,提供REST风格的开发接口;面向ArcGIS Server发布的服务的简单开发接口。REST暴露的所有资源的操作都可以通过对应的GIS服务的端点或URL获得。通过URL,REST使发现工作和查找所需的信息更加容易。利用服务浏览器,用户可以浏览服务器内容,查看可用的地理信息系统网络服务,也可获取开发过程中的有用信息。

2.3.2空间数据的上传下载

多源空间数据海量性特征,使得一些用户采用分布式数据管理方法,这样对数据的统一管理来带一定的困难,从而使空间数据实时修改和更新发布不能快速有效进行。ArcGIS Server 9.3产品为空间数据共享作出一定的成绩。ArcGIS Server 9.3中可以通过发布GeoData Service服务将空间数据库发布在局域网或广域网中。数据管理员可以通过设置用户的不同权限选择性的为用户提供数据上传下载服务。GeoData Service提供创建本地数据复制移动;执行数据空间查询;同步编辑数据库等的数据连接。ArcGIS Server 9.3在发布GeoData Service数据库过程中可以提供三种操作方法:提取、空间查询、复制。在提取方法中不会影响原数据,复制方法选择过程会影响原数据。

通过GeoData Service发布的空间数据库备份类型可分为三种情况:Checkout/Checkin、One-way、Tow-way。Checkout指可以从Utilities本源数据库备份并创建本地组,管理员直接在本地组修改不需要连接服务;Checkin管理员修改完成后传递给Utilities本源数据库,不会发生人为与自动传输的冲突。One-way方式首先数据下载到本地的工作geodatabase同时必须其经常保持与本源数据库连通,其次通过工作geodatabase创建备份geodatabase,管理员仅通过一次编辑工作geodatabase来改变备份geodatabase数据的编辑。Tow-way两个不同的编辑组同时访问编辑同步传输均不发生冲突。

3. 结束语

空间多源数据集成是数据库建设和管理信息系统进一步研究的基石,本文针对地理信息空间数据格式的交换、互操作、以及数据共享访问三大关键技术对多源数据集成问题进行了探讨。有效地解决了不同格式数据资源的综合利用,提供了互操作性的数据存储方式,探究了多源数据共享并发访问,增强了GIS技术的应用范围。

参考文献:

[1] 闾国年,张书亮. 地理信息共享的关键技术问题研究[J],江苏省测绘学会2003学术年会专辑. 2003.

[2] 尹晓慧,宋庆斌,王利伟. 多源空间数据集成方法探讨[J],测绘科学 2009(34):59-60.

[3] 许辉熙,卢正,薛万蓉. GIS中多源空间数据集成方法研究[J],测绘与空间地理信息 2009 32(5):1-5

数据转换技术研究 篇4

随着信息技术的飞速发展, 大量信息系统和产品的普及应用使其已成为现代生活不可或缺的一部分, 与信息系统的应用一起伴生的数据资源越来越成为各单位的核心资产。这些数据资产具有海量、多源、异构等特点, 如何将这些异构数据源进行格式转换, 从而形成不断聚集的数据资源间实现集成共享, 是有效提高数据资源利用水平、促进系统间集成进而提高单位信息化建设水平的关键技术环节。

2 数据转换概念

2.1 定义

对于数据转换, 业界并没有一个统一和精确的定义。查询中国知网的元数据知识可以得知, 数据转换对应的英文为:data transformation和data conversion。Wikipedia上对“data conversion”的描述是:“Data conversion is the conversion of computer data from one format to another”, 而对data transformation的描述是:“In metadata, a data transformation converts data from a source data format into destination data”。可见两个词条都在强调:数据转换是对数据格式的转换。

通过研究发现, 数据转换其实就是指将不同的数据格式和语义重新转换成能被其它对象所理解的数据整合技术。数据转换的需求由来已久, 只要源数据与目标数据存在差异, 就需要进行数据转换, 如数据类型的转换、数据量纲的改变、数据内容的截取、数据合并等。数据转换可分为格式转换和语义转换两方面。

█格式转换:将一种格式的数据转换为另外一种格式的数据, 也包括数据类型的转换。例如, 将CSV文件转换为XML格式文档。

█语义转换:在现实的数据环境中, 数据在不同的场景下具有不同的语义。数据要在不同的应用系统之间交互, 必须确保交互的双方对数据表达的语义有统一的认识, 对于存在语义冲突的数据需要进行语义转换。例如, 对速度这一字段的描述, A系统采用的量纲是公里/小时, 而B系统采用的是米/秒, 两个系统对速度描述则存在语义冲突, 需要进行转换。

2.2 数据转换分类

与数据转换定义类似, 数据转换的分类也没有统一的标准。综合多种观点, 本文认为可从两个角度来划分:一是数据的存储或组织形式, 二是数据模型。由于数据本身就是以某种数据模型来组织的, 并且存储在某种介质 (此处指数据库、数据文件等) 上。所以, 通常情况下, 两者又会交织融合在一起, 而且每一种分类都可以进行进一步的划分, 具体分类如图所示:

从上图可以得出, 数据转换主要可分为五大类:

█数据库之间转换:针对各种数据库, 如Oracle、SQL Server、DB2和My SQL之间的数据相互转换。

█数据文件转换:针对不同格式的数据文件, 如将CSV格式的数据文件转换成XML格式。

█消息转换:在消息队列系统中, 所有的数据都是以消息形式存在和传递的。目前一些消息代理中间件 (Message Broker) 提供消息转换功能, 如IBM公司的Web Sphere Message Broker。

█数据模型之间转换:主要是针对不同数据模型之间的相互转换。

█特定模型内转换:针对某种特定数据模型, 对数据的结构或内容进行改变。

3 数据转换相关理论研究

根据前文所述的数据转换分类, 数据转换是一个很宽泛的领域。从研究的内容来看, 大体上可以分为模式级别和数据级别。模式级别是指各种数据模型之间的转换, 而数据级别则是在特定数据模型内针对具体数据的。数据模型从早期的层次、网状, 发展到关系、对象和XML等。由于多种数据模型的存在, 所以, 它们之间的转换难以避免。目前, 关系数据库、面向对象技术和XML使用广泛, 所以, 模式级别的转换研究热点主要集中在它们三者之间的相互转换。

3.1 关系模型与XML模型相互转换

随着XML成为信息交换事实上的标准, XML与关系数据库系统的集成已成为一个极其活跃的领域。目前, 映射XML或半结构化数据到关系数据、把关系数据输出为XML文档、提供关系数据的XML视图和扩展关系查询引擎以处理XML数据的查询等技术得到了大量研究人员的关注。许多数据库厂商已经提供XML数据的本地存储和XML文档管理以及一些简易的API用于关系数据导入/导出XML文档。

从关系模式到XML模型的转换有许多方法, 归纳起来主要有两种:一是基于映射规则模板的方法, 如IBM的XML Extender、Silk Route、XPERANTO等算法都要求用户指定从给定关系模式到XML的映射模板;二是利用算法自动完成从关系模式到XML的转换, 如DB2XML、FT、Ne T、Co T等算法。XML Extender使用一个称为XML Extender或DAD的转换语言定义映射;Silk Route则用一种关系到XML的转换语言RXL来定义关系数据库的XML视图。XPERANTO使用XML查询语言XQL浏览XML中的关系数据。在Silk Route和XPERANTO中, 用户需要使用合适的查询语言定义查询。FT按照关系的平面结构直接将关系模型转换为与之对应的XML模型, 但是它不能利用XML提供的正则表达式如 (*, +) 等, 缺乏层次, 也不够直观。Ne T能自动推导出具有层次的、较为直观的XML模型, 不要求用户输入关系模型到XML模型的映射规则, 然而它只能处理单一的关系模式, 并且整个推导过程需要多次嵌套操作才能完成, 所以效率不高。Co T在Ne T的基础之上作了进一步的改进, 能够建立满足一定完整性约束 (外键约束) 的、更为直观的XML模式。Co T首先对外键约束进行处理, 将多关系模式转换为适合Ne T处理的单一关系模式, 然后利用Ne T算法建立完整的XML模式。

从XML模型到关系模式的转换, 主要是出于采用关系数据库来存储XML文档的目的。根据存储时是否使用XML模式 (DTD或XML Schema) , 基于关系的存储可以分为模型映射方法和结构映射方法。模型映射方法是一种与XML模式无关的映射方法, 它用固定的关系模式来存放任何格式的XML数据, 而不考虑XML文档的模式, 其本质是存储XML文档本身的结构信息。在该方法中, XML文档被看作由元素和属性等节点组成的有向有序的树或图, 关系模式就相当于一个模板, XML在关系数据库中的存储按照数据库提供的模板来组织数据。典型的算法有Edge、Xparent和XRel。而结构映射方法是与XML模式相关的, 即依赖XML文档模式的关系存储。这种存储映射策略把XML文档中的模式看成是数据库模式, 而把XML文档本身看成数据库中的数据区。依赖与文档模式的关系存储映射就是把XML模式映射为关系数据中的模式, 然后把XML文档中数据存储到数据库中。

3.2 对象模型与关系模型相互转换

面向对象技术支持从类 (其实现了数据和行为) 的角度创建应用程序。关系技术支持在表中存储数据, 以及从数据操作语言的角度来创建应用程序。从长期的使用情况来看, 这两项技术之间的配合并不是非常完美。20世纪90年代初期, 这两种方法之间的差异被称作对象——关系的阻抗失配 (或简称为阻抗失配) 。

一般认为的对象——关系映射, 多半是指结构映射, 可以细分为:关系的映射和继承。关系可分为一对一、一对多、多对多, 一对一可认为是特殊的一对多关系, 一对多利用表外键来实现到关系数据模型的映射, 而多对多关系的映射则采用增加关联表来解决。

对象数据模型中存在继承关系, 而关系模型中是没有的。Scott在参考文献[3]中提出了四种方式来解决关系数据模型的继承问题:将整个类体系映射成一个表、将每个具体的类映射成它自己的表、将每个类映射成它自己的表和将类映射成一个通用的结构。每种方式的具体含义请参见原文献, 这里不再一一叙述。

业界为了解决二者之间的差异, 加速应用系统的开发, 提出了Object/Relational Mapper (ORM) , 即对象关系数据映射组件, 常见的开源框架有JBoss组织的Hibernate、Apahce组织的OJB和i Batis以及Sun公司 (现已被Oracle公司收购) 的JDO和Oracle公司的商业产品Top Link等。Sun公司在Java EE5.0中提出了JPA (Java Persistence API) 规范, 大有一统Java领域ORM的趋势。上述的ORM框架基本都是通过编写映射配置文件或利用代码上的注解来实现两种数据模型之间的转换的。

3.3 XML模型与对象模型相互转换

由于XML文档本身和对象模型存在一定的相似性, 二者的转换难度不大。在开源领域, 有大量的成熟框架可用, 如XMLBean、Digester和Castor, 通过定义规则, 能够自动完成XML与Java对象之间的映射。

在数据级别的数据转换研究中, Panos Vassiliadis等人对数据转换进行了分类, 并着重阐述了在数据转换过程中的映射关系、转换方法的表示等。数据级别的转换可认为是针对特定数据模型的, 目前的研究主要集中在关系数据模型和XML模型。在关系方面主要采用SQL函数等进行转换;而在XML则使用XSLT结合XPath来进行数据转换。在文献提出了一种称之为关系树模型的XML数据转换模型, 能够有效地把XML层次化的特点和关系理论结合在一起, 把XML模式语言建模成由多个节点集组成的关系树, 定义了数据转换语义, 并把关系运算引入到转换规则中。

4 总结

本文阐述了数据转换的概念及其相关技术基础。数据转换概念相对简单, 但所涉及的业务逻辑和支撑技术却十分复杂, 要设计并实现一个数据转换系统还有许多工作要做:包括应用业务领域具体需求的定义、转换模型的建立、转换策略的制定及编程实现等等。虽然有一些商业数据库和专用工具可以完成类似功能, 但对于特定的业务逻辑, 考虑到使用和采购的成本等因素, 还需要我们进一步研究相关理论与技术, 独立实现“按需而变”的数据转换系统。

参考文献

[1]网上资源http://sysdocdoors.ch/IBM, http://java.sun.com, http://www.apache.org等.

[2]孙宏伟.XML与RDB的多层次双向数据集成技术研究[D].西北工业大学博士学位论文.2003.

[3]Scott W.Ambler.敏捷数据[M].李巍, 译.北京:机械工业出版社.

数据通信技术研究 篇5

航测空间数据生产及入库相关技术研究

本文笔者基于多年从事航测的空间数据生产经验,研究探讨了相关生产流程及其中所涉及的关键技术,文章首先对空间数据产品的模式和基本特征进行了详细的阐述,而后给出了基于航测的空间数据生产流程,最后结合笔者工作经验,重点探讨了流程中所涉及的.关键技术,全文既是笔者长期工作实践基础上的经验总结,同时也是在实践基础上的理论升华,相信对从事相关工作的同行有着重要的参考价值和借鉴意义.

作 者:梁锦潮 作者单位:广州市城市规划勘测设计研究院,广州,510060刊 名:科技资讯英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):2009“”(32)分类号:P2关键词:航测 空间数据 生产流程 关键技术

云计算服务数据安全储存技术研究 篇6

关键词:数据安全;云计算;云存储;储存技术

中图分类号:TP309.2 文献标识码:A 文章编号:1674-1161(2016)04-0049-02

随着互联网技术的快速发展,应用软件日趋成熟,2000年软件即服务(Saas)开始兴起,特别是2005年亚马逊推出了AWS服务,云计算服务真正受到人们的认可和重视。此后,谷歌、IBM、微软等公司都从不同角度提供了不同层面的云计算服务,作为一种全新的计算模式,云计算服务因为具有成本低、部署快、调整灵活等诸多优势,受到的关注度越来越高,日趋步入快速发展的轨道。目前,云计算服务已经突破了互联网市场的范畴,在政府、企业等部门和行业的应用越来越广泛。

1 云计算和云存储

云计算服务是指个人在数据处理过程中,不是在个人计算机或服务器上进行,而是充分利用互联网的高速传输特性,把数据处理转移到互联网上的某个大型数据处理中心的计算机集群上,数据处理中心根据客户的实际需求,对计算机资源进行最优化的分配,从而使客户享受到超级计算机的数据处理服务。从本质上看,云计算是一种分布式系统,它利用互联网的高速传输能力,把互联网上的计算机资源整合起来,为客户提供各种各样的数据处理服务。云存储是互联网上的无数存储设备构成的庞大存储系统,优质高效的云存储是实现云计算的基本条件。

2 云存储数据安全分析

云计算在给人们带来巨大便利的同时,还存在一定的安全隐患,集中存储的数据一旦发生安全问题(被窃取、篡改或删除等),将难以避免给客户带来危害。云存储的数据安全性一直是客户最关心的问题,近年来,Amazon,Google等云计算相继发生数据泄露事件,使人们更加担忧云存储数据的安全性。思科公司首席执行官John C ham bers曾预言,数据安全问题将成为云计算前进道路上的“噩梦”。

云计算是互联网上某个大型数据处理中心的计算机集群为客户提供的数据存储和操作服务,客户个人进行数据处理对于服务提供方来说是完全处于透明状态的,如果数据存储的服务器遭到攻击或是服务提供方出现数据泄露问题,势必会给客户数据安全造成威胁。另外,客户的数据是在互联网上的计算机服务器上存储的,在数据传输的过程也存在一定的安全问题。云计算是一种分布式系统,每台计算机都是互联网上的一个节点,在没有安全可靠保护的情况下,每个节点通过一定手段访问其他任何节点在理论上是可以实现的。

云计算数据安全存储技术主要存在以下几方面问题:1) 数据加密存储问题。常规信息系统通常采取加密的方式对存储数据进行安全保障,云服务器中数据如果选择加密的方式,虽然可以有效保障数据安全,但会导致操作和运算等变得非常麻烦和困难,影响客户使用效率。2) 数据隔离问题。多个客户的数据同时存储在同一个计算机或服务器,云服务提供商通常采取应用隔离技术,避免存储数据被非授权访问,但利用程序漏洞仍然可以进行非授权访问。大多数云服务提供商会请第三方审核应用程序,但是审核标准很难统一。3) 数据残留问题。数据被删除后服务器上仍然会有数据残留,如果对存储介质进行随意释放,就可能无意透漏给未授权一方,造成客户数据泄漏。4) 数据迁移问题。保证服务正常使用,发生宕机时,云计算服务通常把正常工作进程进行转移,迁移的数据包括内存中的动态数据和磁盘上的静态数据。如果进程处理的是机密数据,在数据迁移过程中必须保证安全。5) 数据审计问题。数据存储在云服务器中,客户最关心的是数据归属权及访问专属权问题。在云服务器中数据审计问题是非常复杂的,因为客户如果先下载再审计,一方面浪费时间,另一方面将产生不必要的高额费用。有效的办法是下载少部分数据,就可以对整体数据进行准确判断。

3 云计算服务数据安全存储对策

云计算服务数据存储,一方面要保证数据安全,另一方面要确保操作简便。云存储服务在设计过程中,按照数据安全存储的要求,对客户的数据进行加密保护,有效防止非受权方对数据进行窃取、篡改或删除,确保客户在云中保存的数据是安全的。在云计算服务应用中,为了保证数据的安全存储和传输,必须在上传或下载数据过程中进行有效保护,对数据加密是解决数据安全存储和传输的常用手段。

当前,常用的数据加密算法分为对称和非对称加密算法两个类别。对称加密算法是在加密和解密过程中双方使用同一个密钥,因其在加密解密过程中操作简便且速度较快,所以应用比较普遍,并且经过多年的发展技术也相对成熟,其主要优点是算法公开、操作简便、速度较快、效率高,主要缺点是安全性能难以保证。非对称加密算法的加密钥和解密钥是不同的密钥,分别对加密和解密进行控制,其主要优点是安全性能好、使用灵活,主要缺点是运算量较大、难以保证速度和效率。对称加密算法由于使用一个密钥进行加密和解密,管理方面困难较大,在分布式网络系统中使用较麻烦;非对称加密算法由于使用不同的密钥进行加密和解密,运算量过大,对于大数据量的加密和解密方面应用不方便。把对称加密和非对称加密结合起来使用,就可以有效解决以上问题,确保云计算服务数据存储安全。

3.1 加密环节

客户在加密时,可以从密钥库中提取所接收用户数据对称加密算法公钥。加密处理中,由一个对称加密算法密钥生成器随机生成一个包含校验信息的密钥,经过非对称加密算法对这个密钥进行再加密,最后,将处理过的数据信息和对称加密算法密钥密文作为一个数据包,保存在云端。重复上述做法,直到所有数据包都发送完成。

在上述数据加密过程中,针对客户数据量的实际情况,用对称加密算法处理量大的数据,用非对称加密算法处理量小的数据,将两种加密钥和密文存储在云端,用户端只存储非对称加密算法和解密密钥。应用这种方法,一方面可以有效避免对称加密算法采用一个密钥造成的密钥管理困难问题,另一方面也克服了非对称加密算法对大量数据加密速度慢、效率低的问题。

3.2 解密环节

客户在解密时,首先运用非对称加密算法将对称加密算法的密钥解密,从而还原密钥;根据密钥运用对称加密算法将数据包解密,从而还原全部密文,一个数据包解密就完成了。重复上述做法,将所有数据包进行解密,就得到了全部的原始数据。

运用对称加密算法和非对称加密算法相结合的方式,既有效克服了对称加密算法密钥管理难题,又有效克服了非对称加密算法不适合数据量较大时的加密难题。对于对称加密算法密钥管理问题,用户持有非对称加密算法密钥,对应的公钥在云端保存,进行数据交换时,用户可以从云端下载非对称加密算法和密钥,用密钥对数据进行加密处理,应用两种加密方式结合的方法进行加密,将密文数据传输保存在云端;目标用户用非对称加密算法密钥对数据进行解密,这样就可以对数据进行双重加密,从而确保了数据安全。

参考文献

[1] 袁富芳.云计算服务中数据安全的若干问题分析[J].中国新通信,2016(1):53-54.

[2] 章建萍.云计算服务中数据安全问题探析[J].中国新通信,2013(24):4-5.

[3] 邵华.关于云计算服务中数据安全的问题研究[J].计算机光盘软件与应用,2013(24):163.

数据通信技术研究 篇7

数据迁移是系统升级中最重要的环节之一,公司在做数据迁移时,一般数据库是不允许停库的,尤其是公司在做电信、银行等行业时,更是不允许数据库停库的,这样在不允许停库的情况下进行数据迁移,尤其是在迁移数据量比较大的时候,就加大了数据迁移的难度。所以在做数据迁移之前,不仅要考虑在迁移过程中会遇到的困难,还要考虑迁移时的效率。就要对数据迁移技术进行研究,包括迁移过程、迁移方案、迁移应该注意的地方和迁移的效率不足。

1 Oracle数据库

Oracle数据库是基于客户端/服务器的技术,是分布式的数据库产品,是一个高度集的互联网运用平台,它支持多用户、分布式数据、大事务量事物处理。

Oracle数据库存储结构分为逻辑存储结构和物理存储结构。(1)逻辑存储结构是由表空间、段、区、数据块组成的。(2)物理存储结构是由数据文件、归档日志文件、控制文件、跟踪文件等组成。

Oracle基本类型的输出。(1)表方式(T方式),将指定表的数据导出。(2)用户方式(U方式),将指定用户的所有对象及数据导出。(3)全库方式(Full方式),数据库中的所有对象导出。

2 迁移的方法及其实现

2.1 Exp/Imp数据迁移

使用Exp实用程序可以导出整个数据库、一个用户的所有对象、一个表空间或特定的表。

2.1.1 Exp命令进行导出

可以用以下两种方式完成:

(1)传统路径方式:Exp采用SQL语句的方式把要导出的表的数据检索出来,然后通过网络,将这些数据传输到客户端,并在客户端上生成转储文件。既然是SQL语句的方式,就需要在Shared_pool中解析生成执行计划以后,将数据缓存到Buffer中,然后传递到客户端,该方式就是默认的导出方式。

(2)直接路径方式:在这种方式下,Exp不采用SQL的方式,而是直接获得数据块,并绕过Shared_pool和Buffer cache。将数据块里的数据直接抽出来以后直接传递到客户端上,这种方式相对于传统路径来说,速度要快得多。在导出时,加上Direct=y则表示进行直接路径导出,该方式有一些限制,比如不能导出含有LOB、BFILE等大对象的表。

2.1.2 Imp命令进行导入

Imp指令用户导入通过Exp指令导出的备份数据,Imp可以导入完整的数据库,一个指定用户的所有数据库对象,一个特定的表空间以及一个特定的表。Imp使用程序将备份的整个数据库导入当前的数据库中,在导入过程中包括一系列地创建数据库对象的过程,如创建表空间、表、表的索引,系列号以及授权用户数等。如果要创建数据库表对象,但某个表已经存在,则创建语句就会失败。此时需要使用Ignore参数,该参数使得Imp程序忽略这些错误。

2.1.3 使用Exp/Imp实现表空间传输

从Oracle10g开始支持跨平台的表空间传输,表空间传输是实现数据迁移的一种方法。在传统方式中,如果一个表空间中的数据需要迁移到另一个平台,往往需要使用Exp/Imp数据库导入导出工具迁移,这样的方式花费较多的恢复时间,而使用传输表空间则可以很快速地表空间。使用传输表空间实现在两个数据库之间制表空间数据集。

(1)使用Exp/Imp实现同平台表空间的迁移:

同平台之间的转换很简单,因为不必考虑EN-DIANESS的问题,如图1所示。

在迁移之前在源主机上使用Exp工具将迁移表空间的元数据集备份下来,然后将该备份集与表空间对应的塑胶文件的二进制文件统一复制到目标主机。在目标主机端使用Imp工具将表空间的元数据集和数据文件导入目标数据库。

(2)使用Exp/Imp实现跨平台表空间的迁移。

在不同平台之间迁移表空间关键是确认两个平台的ENDIANESS是否相同,如果不同则需要进行转换,如图2所示。

同操作系统平台之间与异构操作系统平台之间的表空间迁移主要区别就是数据文件格式转换,将源数据库平台的字节系列转换为目标数据库所在操作系统平台的字节系列。

2.2 Expdp/Impdp数据迁移

数据泵技术(DataPump)是在Oracle10g中最新引入的一种技术。它运行在数据库内部,而不是作为一个独立的客户端应用程序存在。在Oracle10g之前,导出实用程序都作为客户端程序运行。导出的数据由数据库实例读出,通过连接传输到导出客户程序,然后写到磁盘上,所有数据在整个导出进程下通过单线程操作。在数据泵导出和导入技术中,涉及导出实用程序Expdp和导入实用程序Impdp,当启动数据泵导入或导出程序时,在数据库服务器端启动相应的服务器进程,完成数据的导出和导入任务,所以也称数据泵技术是基于Oracle数据库服务器的,导入及导出的数据文件也保存在数据库服务器端。

传统的Exp实用程序是一个普通的本地用户进程,它将备份的数据写入本地磁盘。Exp实用程序是普通会话的一部分,它从服务器进程中获得要备份的数据。数据泵Expdp程序启动数据库服务器端的服务器进程,服务器进程完成数据的备份并将备份文件写入数据库服务器端的计算机磁盘空间,文件格式Filename.dat。导出的备份文件在导入时只能通过数据泵的导入实用程序Impdp完成,将数据导入到运行在其他平台上的数据库中。

2.3 Db_link方法数据迁移

利用Db_link来实现模式复制,在使用Db_link方法时,要保证创建了db_link,检查是否创建了Db_link的方法:

使用db_link时,不需要导出,直接在要把数据迁移的数据库服务器中使用。

3 迁移的过程

在做大数据迁移时,都要根据迁移的步骤来实施,如图4所示。

3.1 模拟迁移

3.1.1 Exp/Imp迁移方式进行模拟迁移

(1)用Exp实用程序以表作为对象进行数据导出:

(2)用Imp实用程序进行数据导入:

导入成功后,可以在目标数据库中查询如图5所示。

3.1.2 数据泵技术进行模拟迁移

(1)用Expdp实用程序以表作为对象进行数据导出:

(2)用Impdp实用程序进行数据导入:

3.1.3 采用DB_LINK的方式进行模拟迁移

使用DB_LINK时,首先要在目标数据库中创建表结构,在目标数据库中创建的表结构必须和源数据库中的表结构相同,另外还要创建好Db_link.

通过以上三种模拟迁移,迁移在新的运行环境中,运行程序都可以正常运行,但是,使用数据泵迁移必须在源数据库有存储资源,源数据库主机上的资源非常少,无法存储用数据泵迁移数导出的文件,这样的话,就不能使用数据泵迁移。使用Exp/Imp数据迁移方法进行数据迁移,在迁移大数据量的时候,在迁移过程中,磁盘的存储,CPU的性能等都会影响数据迁移的速度,使用Exp/Imp迁移,速度非常慢,这种方法不可行。

3.2 正式实施数据迁移

正式实施数据迁移之前,都要做一些实施前的准备,正式实施数据迁移是在Linux环境下,数据库是从低版本到高版本,迁移的数据量是1.3TB。迁移这大数据量,只能选用数据泵技术。选用数据泵技术,需要源数据库主机上有存储,因为使用数据泵技术,备份的文件是存放到源数据库的主机上。使用数据泵技术只能以表为对象做数据迁移,如果以一个用户为对象做迁移,源数据库上没有存储。如果以表为对象做数据迁移,不仅工作量大,还会影响迁移的速度。做数据迁移要求的是效率,迁移时是要一次性完成迁移,还要保证两个数据库中的数据同步。

这样,就要用到一种方法使两个数据库连接起来,两个数据库连接起来的方法就是配一个公钥和一个私钥,配置Linux系统免密码登陆两个数据库服务器:

从源数据库服务器上可以直接登陆目标数据库的服务器,不用密码就可以在源数据库服务器上直接登录到目标数据库的服务器上。

源数据库和目标数据库配通后,就可以写一个程序,用数据泵技术以表为对象做迁移,写的这个程序循环来调源数据库中的表完成迁移。这个循环程序是使用一个Shell脚本来写的。Shell脚本如下:

通过Shell脚本,使用数据泵导出来的数据文件就不需要占用源数据库大量的存储空间,导出来的数据文件直接就可以用数据泵的导入方法将文件导入到要迁移到的目标数据库中,用这种方法不仅可以节省导出和导入的时间(因为源数据库导出,需要迁移到的目标数据库就可以直接导入),另外还解决了源数据库主机存储不够的问题。在脚本运行的过程中,可以在数据库中查到迁移过来的数据如图6所示。

4 结束语

Exp和Imp是Oracle比较早的数据备份和恢复方式。Exp/Imp技术实现的是逻辑备份,使用Exp实现对数据库的逻辑备份,可以指定对全库、某个数据库模式、特定的表空间以及特定的表进行备份,相应地使用Imp对不同的备份进行恢复。

数据泵技术是Oracle对于Exp/Imp备份与恢复工具的改进。数据泵实现了数据库的逻辑备份,使用数据泵可以迁移表空间,极大地提高数据的迁移速度和效率。在使用数据泵技术导出数据备份时,只能将备份的数据写入磁盘文件,无法写入磁带设备。所以使用数据泵技术时要有足够的磁盘存储来存储导出的数据。

在做模拟测试的过程中,选择同一个表作为对象来进行导出和导入,使用数据泵技术导出和导入的速度和效率要比使用Exp/Imp技术和DB_LINK的方式快。使用DB_LINK的方式时首先要保证数据库中创建了DB_LINK,其次要在目标数据库中创建和源数据库中的表结构一样。使用数据泵时源数据库中要有足够的存储来存放导出的数据备份。

数据迁移,可以根据迁移的数据量来选择迁移的方法,在做数据量比较小时,可以用Exp/Imp技术、DB_LIINK技术、数据泵技术,在做数据量比较大时,最好选择数据泵技术,数据泵技术是Exp/Imp技术的加强版,但是在使用数据泵技术时,源数据库主机上必须有足够的存储资源,因为在使用数据泵数据备份时,备份出来的数据只能放到源数据库的主机上。

Exp/Imp技术可以实现全库或表空间的逻辑备份,但是它不支持用户的交互模式,在备份的过程中无法控制或切换备份进程,而Oracle的数据泵就可以很好地实现用户交互,因为数据泵支持网络操作以及重启失败的备份作业。

摘要:随着公司业务的不断扩展及业务需求的增长,原有系统不断被功能更强大的新系统所取代。但在旧系统运行间往往积累了大量珍贵的历史数据,在系统切换中,如何将历史有效数据快速迁移到新系统中,对系统切换以及后续新系统的正常运行都有着至关重要的影响。从数据迁移的实际出发,通过对Oracle数据库数据迁移的多种方法研究,根据数据迁移量和数据迁移方法工具的优缺点,选择数据泵技术来实现高效的数据迁移。

关键词:Oracle数据库,数据迁移,跨版本,跨平台

参考文献

[1]Kathy Rich.Oracle Data Pump,10g Release 2(10.2)[M].Oracle Database Utilities,2005.

[2]何平,杨树强.基于oracle10g的VLDB备份与恢复技术[J].计算机工程,2006,32(19)79-81.

[3]袁胜中.Oracle数据库的性能优化[J].电信技术,2007(6):75-77.

[4]梁昌明,秦占伟,郑盘根.Oracle数据库之间数据传输方法探讨[J].医疗设备信息,2007,22(9):55-57.

[5]王琴,宋顺林.Oracle数据库管理系统的备份策略及应用举例[J].计算机工程,2002,28(12):262-264.

[6]柳丹.Oracle PL/SQL面向对象特性Web应用研究[J].计算机技术与发展,2006(1):234-237.

基于数据集的数据交换技术研究 篇8

(1)以往的研究的重点主要放在数据交换实现的过程,而忽略了数据才是数据交换的真正核心,没有关注数据交换中资料数据的采集、传输、存储、审核、管理、驳回、整理、展示和追踪过程。

(2)以往的数据交换文件仅仅是一个文件,并不能描述数据模型的结构信息,对于用户来说,不可见,所以无法对交换文件进行管理。

所以,本文采用了一种数据集元模型来实现数据库间的数据交换。通过对本课题的研究将数据集的思想引入到数据交换当中,研究数据集的定义、管理、应用等技术,并将数据集应用于数据交换过程的各个环节。设计出一种基于XML的数据映射规则,便于数据模型映射的管理,实现异构数据库间的数据交换。实现异构数据库之间数据的动态迁移,保证数据的一致性。

1基于数据集的数据交换基本框架

在数据交换过程中,每次交换的数据,从开始提取数据,到质量检查、数据审核、数据提交、数据撤销、数据查询等,始终都是一个完整的整体,我们把一次交换的一组数据称为一个数据集。由于数据集具有可定制、易扩展、可撤销的优势,可以便于数据按照某主题进行维护,可以形成树状的、多层次的、多角度的数据集组织结构。

基于数据集的数据交换是指通过建立源头数据库和目标数据库之间的数据模型的映射关系,以数据集为交换单元,根据元数据模型[2],实现从源头数据向目标数据的集成。在数据交换过程中引入了数据集的概念,对数据集提出规范的、统一的描述。分别对结构化数据、半结构化数据和非结构化数据提出数据集的定义和表示方法,满足数据集的一致性和完整性约束。在数据交换的整个生命周期中,便于数据集的管理和使用。基于数据集的数据交换过程见图1。

数据集定义:数据交换以数据集为粒度控制,建立数据集描述元模型。对数据集的名称、相关的数据表及查询条件、相关的文件等信息进行定义。根据主题对数据集进行管理,按照时间、名称、单位等主题查找数据集,查看数据集的内容,检查数据集的完整性、一致性。同时方便数据集的浏览、修改和删除。

数据提取:根据数据集的定义,提取数据源中的数据,同时根据数据质量约束集中的规则对数据集进行质量检查,有质量问题的数据需要整改。由于XML文件的跨平台性,提取的数据集将以XML的方式存在。

数据转换:根据数据映射中生成的映射关系,将提取出的数据集进行数据变换。

数据传输:将经过变换后的数据集提交给数据加载服务器。

数据加载:从图2中可以看出数据加载是数据交换的聚集点,需要提供数据加载调度功能,按照数据优先级顺序进行数据加载。在数据加载前进行数据质量检查,对于质量不满足的数据不能加载到目标数据库中。

数据查询:由于采用了基于数据集的数据交换,在数据提取中以及加载的数据,可以通过查询方式获取数据,便于数据的跟踪和管理。

数据质量控制:数据质量控制贯穿整个数据交换的始终。定义一个质量约束元模型,将各种数据检查条件以规则的形式存储并管理起来,质量控制的可扩展性。具体的规则包括:实体间约束条件,例如外键约束、一致性约束;实体内约束条件,例如标准格式约束、合法值约束、主键约束。

数据撤销:通过审核发现有质量的数据,可以对目标数据库中的数据进行撤销。

2 关键技术

2.1 数据映射元模型

数据映射字典用来在两个结构不同的数据模型之间建立实体以及数据项的对应关系,数据交换系统根据这样的对应关系可以实现源数据集到目标数据集的转换,从而实现了不同数据源的数据迁移。

完成数据映射包括以下内容:

(1) 映射描述规则建立。建立一组数据映射规则,也就是针对实体、数据项等数据集合,给出相应的映射运算操作,在此规则上,设计数据映射元模型。

(2) 检查实体依赖关系。数据模型之间的实体之间,存在数据依赖关系,为保证数据交换的参照完整性。可以根据实际的应用需要,设置是否检查实体间的这种依赖关系。如果要检查依赖关系,那么建立数据模型间的映射关系的时候,当选择一个实体后,通过检查所选实体与其他实体间的依赖关系,会自动将所选实体所依赖的各个实体加入到源实体集合,或者目标实体集合中。实体依赖关系的检查选项,默认情况下是不对依赖关系进行检查。

(3) 建立数据映射关系。映射关系的建立要经过下面几个步骤:选择源实体和目标实体,选择其映射关系类型,建立模型间实体和属性间的数据对应关系[3]。

(4) 保存映射关系。对于数据映射的结果需要设定规范的格式,便于数据交换程序使用。由于数据集采用XML格式的形式,那么映射关系文件使用XSLT格式。

(5) 映射关系的管理域维护。对已存在的映射关系进行更新、删除、查看等操作。

可以从不同的角度描述两个数据模型之间映射关系。以源实体为主体,即一个源实体实例如何对应到目标实体中。图2给出了这种对应关系。

在图2中表达的是一个源实体实例,对应多个目标实体。一般情况下,目标实体中一个属性对应一个源实体属性,我们称源属性为目标属性的值。但并不是所有的目标属性都对应到源属性,这包括自动取值的属性,我们称为自动值属性,如各种ID值。自动值属性是通过软件自动生成的不重复的值,如在Oracle 可以通过sequence产生,在Access中可以自动生成整数值。除自动值属性外,还有目标实体之间的对自动值属性的引用属性也不需要映射到源属性。

一个源实体的实例,可能映射到同一个目标实体的多个实例中,为了区分同一个目标实体的不同实例,需要给每一个实例取一个名字,我们称为别名或变量名或实例名。在源实体的映射中,如果一个目标实体只有一个实例,则不需要为实例另取名字,目标实体名即为实例名。实例名只在一个源实体的映射定义范围内有效。

在映射过程中还需要为每一个目标实体指定一个关键字,一个关键字由一个或多个属性组成,这个关键字用来在目标实体范围内唯一确定一个实例。自动值属性不能做为关键字属性,但对自动值属性进行引用的属性可以做为关键字属性。

在实际应用中,源实体可能并不是对应一个数据表,而是对应多个数据表组成的一个视图或一个查询。当源实体中有自动值属性时,源实体中的自动值属性不能映射到目标实体中。

根据以上映射规则,我们制订了映射字典,用来描述两个模型的映射关系。数据映射字典采用XML格式进行描述[4],其XML模式如图3所示。

映射字典中的XML标记定义如下:

(1) 标记MapDictionary。映射字典的根标记。

(2) 标记Maps。用来表示映射集合。它有一个或多个子标记Map。

(3) 标记Map。描述两个模型间的映射。标记Map有一个属性type,用来描述映射的方式。本项目的映射描述采用”lr”即从左到右方式,表示从源模型到目标模型的映射。其它方式有”rl”表示从右到左,即从目标模型到源模型的映射。

标记Map有三个子标记:Name、TargetModel、Entities,其中Name表示源模型名称,TargetModel表示目标模型的名称,Entities用来表示一组源实体。

(4) 标记Entity。描述一个源实体的映射。这是映射字典中最关键的一个元素。

Entity有一属性:

Name:表示实体的名字。

Entity有4个子标记:Attributes、Sselected、Tselected、TargetEntity,见相应的说明。

(5) 标记Attributes。定义源目标的属性名列表,属性名之间用逗号分开。标记Attributes的值可由映射工具自动生成。

(6) 标记Sselected。当源实体是一个查询时,用一描述从源实体提取实例的查询语句。缺省时,表示select * from 源实体名。

(7) 标记Tselected。表示从目标实体中反向提取源实体实例的查询。不可缺省。标记Tselected的值可由映射工具自动生成。

(8) 标记TargetEntity。表示一个目标实体的实例。标记TargetEntity有5个属性:

name:表示目标实体的实体名。

alias:表示目标实体的实例名。当alias缺省时,实例名与实体名name相同。

cname:表示目标实体的中文名称。

delete="Y":表示删除映射实例集时,是否删除该实例。

update="Y":表示如果按关键字查找,存在与着关键字相同的实例时,是否更新这个已经存在的实例。

标记TargetEntity只能出现在标记Entity下,一个Entity下可以一个或多个TargetEntity标记。

当Entity下有多个TargetEntity标记,而且TargetEntity表示的实例之间有引用关系时,被引用的实例一定要排在引用它的实例之间。实际上,TargetEntity标记之间的排列顺序代表了实例的创建顺序。

(9) 标记Attribute。用来描述一个目标属性。标记Attribute有5个属性:

name:表示目标属性的属性名。

cname:表示目标属性的中文名称。

datatype:表示目标属性的数据类型,其中“C”表示字符类型,“D”表示日期类型,“N”表示数值类型。

value:表示目标属性的值。目标属性的值有三种定义方式

方式1:源属性名,是出现在标记Attributes中的属性列表中一个属性名,表示以该属性的值作为本属性值。

方式2:“*”表示该属性是一个自动值属性。

方式3:“目标实例名.属性名”,表示该属性值是对前面TargetEntity实例中的一个属性值的引用。目标实例名必须是TargetEntity的name或alias,而且在当前源实体范围内是唯一的。

isKey:取值“T”时表示该属性为关键字。缺省或取值不为T,则表示不是关键字。

2.2 数据集元模型

数据集元数据针对某一业务主题定义和组织对应的数据,业务主题可以根据应用主题进行组织,例如可以按照单位组织数据集,还可以按照井的状态,按日期等多种方式组织数据集。可以形成树状的,多层次的、多角度的数据集组织结构。业务主题可以由公共数据主题统一定义和管理,在这个数据主题集合里,各个应用系统依照集合中的各个数据主题来设置与自身数据内容之间的匹配关系,同时在数据集的定义中包含数据的“源头”和“目标”位置等信息。

数据集分为两层次:数据集模板和数据集实例。

数据集模板提供对一个或多个源数据表的数据查询条件,该查询条件可以是一个查询模板或能反映主题含义的查询。例如:在数据集模板中,可以指定对完成井数据表的查询,但不一定指定井号,指出需要指定的井号后才能进行数据查询。数据集模板不指定从哪一个数据库中提取数据,也不指定目标数据库是哪一个。在数据集模板中,还可以指定数据集是结构化数据还是非结构化数据、半结构化数据,非结构化数据是以文件形式提交到数据中心的。

数据集实例则是在数据集模板的基础上,进一步细化查询条件,保证可以准确地获取源数据。在数据集实例化时,根据井号进行查询后得到具体实例集。由于直接得到数据实例集合,因此在数据集实例中,要指定源数据库和目标数据库。

查询条件是由一组查询组成,每一个查询占一行,结尾可以用分号结束。单个查询的格式如下:

查询名[:查询表达式][:关键字表];

查询名必须是映射字典中定义的一个源实体名。

查询表达式是一个SQL语句,可以是对一个或多个源表的查询。

关键字用来对数据集模板进行实例化,关键字的格式为:

key(字段1=关键字中文名,字段2=关键字中文名,..)

指定关键字后,在数据集实例化时,要求用户给出关键字的值。

例如,以下是一个查询:

az01:select jh,jwzb from az01:key(jh:井号);

在实例化的时候,可以用“井号”提示用户输入jh的值,例如:徐深23,然后将此值作为约束加入到查询中,这样实例化后的查询条件变成:

select jh,jwzb from az01 where jh=’ 徐深23’

当查询表达式省略时,默认为:

select * from 查询名;

当出现联合查询时,查询名与表名不同。对单表查询,建议查询名与表名一致。

以下是几个合法的查询例子:

(1) az01:select jh,jwzb from az01:key(jh=井号);

(2) az01::key(jh=井号);

(3) az01;

3 实现示例

基于数据集的数据交换技术已经应用于大庆油田的实际项目建设中。对于勘探开发生产数据在规范的业务流程控制下,将油田业务范围内的五个专业分公司中涉及的静态数据集成到数据中心,建立满足静态基础资料数据采集、传输、存储、审核、管理和应用的静态数据交换平台。

在该交换平台中,采油厂作为数据的需方,主要负责数据的接收、审核和应用,服务公司作为数据的供方,主要负责数据的提交工作,数据交换所涉及的各方在交换平台的支持下各尽其责,保证交换的数据齐全、准确、及时,从而达到数据在油田各个部门实现共享的目的,收到了很好的效果。

4 结束语

基于数据集的数据交换已经在实际中得到了应用。由于这种数据交换能够跟踪和管理数据在各个不同时期的状态,提供了数据在流转过程中查询的效率,但是对于一些特殊的数据项类型[5],如Blob等大字段还需经过一些特殊处理,将映射格式标准化,是今后工作的重点之一。

摘要:在数据交换技术的发展中,数据交换技术的实现往往作为研究的重点,而忽略了数据交换过程中数据才是核心。在数据交换过程中数据的生命周期的研究成为重点。因此,介绍了一种以数据集为中心的数据交换模式,采用元数据来记录数据信息在数据交换的整个生命周期中的流转状态。分析了数据交换技术,其关键是如何保持数据的完整性和一致性。设计了基于XML中间件的数据映射规则,满足源数据和目标数据的完整性。将数据集引入到数据交换中。

关键词:数据集,数据交换,元数据

参考文献

[1]靳强勇,李冠宁,张俊.异构数据集成技术的发展和现状.计算机工程与应用,2002;11:112—114

[2]葛科,周伯生,周建国.基于元模型的软件开发与管理集成研究.计算机工程与应用,2001;12:27—30

[3]王守信.基于模型驱动的数据映射技术研究.大庆:大庆石油学院,2005

[4]文必龙,王守信,文义红,等.一个基于XML Schema的数据交换模型.大庆石油学院学报,2004;2:65—68

远程数据通信技术的研究与应用 篇9

移动公网的覆盖范围愈来愈大,提供的信息服务也愈来愈多,例如基本的数传(data)、短信(sms),还有应用前景更加广阔的GSM-GPRS、CDMA1X。利用电信部门现有的稳定的可靠的网络,实现用户信息的广泛覆盖、轻松传输,具有无建网成本、功耗低、价格低等优势,已经成为不可阻挡的主流,正在成为越来越多用户的明智选择。

1.1 GPRS

GPRS是通用分组无线业务 (Ge ne ralPacke tRadio Se rvice) 的英文简称,是一种新的分组数据承载业务。GPRS与现有的GSM语音系统最根本的区别是,GSM是一种电路交换系统,而GPRS是一种分组交换系统。因此,GPRS特别适用于间断的、突发性的或频繁的、少量的数据传输,也适用于偶尔的大数据量传输。这一特点正适合大多数移动互联的应用。目前,中国移动通信公司(CMCC)建成的GPRS网络,在采用编码方式为CS-4、且无线环境良好,信道充足的情况下,支持的理论最高速率为171.2kbps。

GPRS在达到理论最高值171.2kbps时,己经完全可以支持一些多媒体图像传输业务等对带宽要求较高的应用业务,但实际数据传输速率受网络编码方式和终端支持的因素影响。现在用户的接入速度大概在30kbps~40kbps,在使用数据加速系统后,速率体现大概在60kbps~80kbps左右。

GPRS最主要的优势在于“永远在线”和“按流量计费”。也就是说,GPRS不用拨号即可随时接入互联网,随时与网络保持联系,而且计费更合理,完全按照实际使用的流量进行收费。GPRS是在现有GSM系统上发展出来的,它采用与GSM相同的无线调制标准、相同的频带、相同的跳频规则及同样的TDMA (Time Division Multiple Acce s s,时分多址)帧结构,因此,GPRS的网络覆盖是比较成熟的。

1.2 CDMA1X

移动通信网络3G技术尚未完善,标准也没有统一,但由于代表了未来的发展方向,所以在近年,以CDMA1X为代表的2.75G移动通信技术将有一个较快的发展。CDMA1X是一种新型的移动数据通信业务,是中国联通在完善优化CDMA网络建设过程中推出的第2.75代通信技术,它在目前的IS-95CDMA网络的基础上进一步升级了无线接口,使其支持高速补充业务信道,从而可实现高速互联网接入服务。CD-MA1X在传递速率、功能方面具有突出的技术优势,CDMA1X理论速率153.6Kbps,目前实际测试速率为80kbps,超过目前普通有线电话拨号上网的56kbps,特别适合像金融交易、远程监测等行业的通信需求,完全可以取代过去传统的有线MODEM、X.25、数传电台、短信等通信方式。

另外,CDMA1X终端模块的低功耗特性———通过有效方式,将电池寿命延长了一倍,使得该方式成为低功耗远程传输的首选。基于CDMA1X数据业务组成系统原理图如图1所示。

利用CDMA移动通信网络的CDMA1X业务完成数据的传输,可免去用户自己组网的初期建设费用以及日后的网络维护费用。

通过CDMA数据采集与监控终端,将采集到的现场数据以IP包形式发送到监控中心,在监控中心进行数据处理、存储,并提供相应的查询、统计及报表功能。监控中心也可以通过向数据采集监控终端发送IP包设定监控终端配置信息或控制命令,获取监控终端的实时数据。

2 基于工业以太网的远程数据通信

上世纪90年代中后期,国内外利用业已成熟的以太网技术,对基于以太网的工业测试系统进行了大量研究和实践,国外对现场级高速以太网的研究则大约始于1997年。尽管对以太网测控系统有不同的看法,但一般认为应是一种较好的解决方案,并具有很好的发展前景,是未来现场总线发展的方向。

远程测控主要解决的是通过计算机实现与远距离监控对象的数据通信,实现监控对象的测量与控制,系统结构图如图2所示,多台控制计算机接入以太网,远程测控模块(RTU)通过工业以太网集线器和工业以太网交换机也接入同一个以太网。远程测控模块可以完成对模拟信号、温度、数字信号的采集和初步处理,并通过工业以太网络将这些信息快速传输到控制计算机,还可以对远距离的测控对象实施视频监控,视频监控单元完成对监控对象的实时监视。

控制计算机在地理上可以不受限制,只要它联入了以太网就可以。各个模块分别安装在测控现场,引出一条RJ-45网线接入工业以太网集线器,从而通过工业以太网交换机接入以太网,和控制计算机一起组成测控网络。

3 基于Internet的远程数据通信

基于Internet的远程数据采集系统可利用Internet网络收集各个站点的数据,并将这些数据保存到数据库服务器中,供管理人员和用户查询。若干个测试点采集的数据,连接到一个站点,测试点和站点之间可通过RS232进行通信,所有站点和总控机一起连接到Internet上,以TCP方式进行数据传输,总控机通过发送命令字采集具体站点的特定数据,并将采集到的数据存放到后台数据库服务器中。

TCP的目的是提供可靠的数据传输,并在相互进行通信的设备或服务之间保持一个虚拟连接。TCP在数据包接收无序、丢失或在交付期间破坏时,负责数据恢复。它通过为其发送的每个数据包提供一个序号来完成此恢复。较低的网络层会将每个数据包视为一个独立的单元,因此,数据包可以沿完全不同的路径发送,即使它们都是同一消息的组成部分。这种路由与网络层处理分段和重新组装数据包的方式非常相似,只是级别更高而已。为确保正确地接收数据,TCP要求在目标计算机成功收到数据时发回一个确认即ACK。如果在某个时限内未收到相应的ACK,将重新传送数据包;如果网络拥塞,这种重新传送将导致发送的数据包重复,但是,接收计算机可使用数据包的序号来确定它是否为重复数据包,并在必要时丢弃它。

4 结语

基于移动公网的远程数据通信技术组网简单、迅速、灵活,不依赖于运营商交换中心的数据接口设备。通过CDMA将数据传送到中心服务器,或接收中心服务器发送的数据,能够实现实时数据传输。采用以太网进行通信,可避免以前的测控系统连线复杂、结构单一的缺点,能够方便地将测控设备和仪器连接起来,系统的结构灵活,可根据不同的情况采取合适的结构。其应用范围十分广阔,可以实施分布式的测控,在地理上分散的多个地方可以对远程的测控对象进行监控。利用TCP/IP协议进行通信,基于Inte rne t的远程数据通信可以实现在复杂的网络环境下对工业系统数据采集、处理、控制。

参考文献

[1]孙彩云, 赵远东, 高超.基于Internet的远程数据采集系统设计与实现[J].微计算机信息.2007.

[2]徐飞, 雷斌.基于LPC2114处理器的远程地温及沉降监测系统的设计[J].电子元器件应用.2007.

数据通信技术研究 篇10

因此,借助于数据仓库技术建立一个专用的银行数据系统是非常必要的。通过该数据系统可以集成银行不同业务系统的数据,提供分析统计,从而提高银行的经营水平和利润率。

1 数据仓库技术概述

数据仓库中的数据组织模式是根据主题而进行综合并归类抽象的,而且具有集成性、稳定性以及随时间变化等诸多特征。数据仓库中的数据需要不断进行累积,而且更偏向于工程,设计流程如图1所示。

首先,从逻辑意义进行分析,数据仓库中的主题对企业分析领域中的对象所对应;从组织角度进行分析,相关数据及数据项之间的关联描述必须是完整的、一致的,并应该完全满足分析需求。

其次,由于原数据库系统的相关记录只是业务流水帐的处理表述,存在诸多冗余数据,不适用分析,因此数据仓库中的数据不能直接从原有数据库中导入,而需要经过计算并过滤不需要的数据项。

另外,数据仓库中的数据还包括了大量的历史数据,这些数据是企业过去业务数据的重组集合,这是与传统操作型数据库的显著区别之一。针对于数据仓库的操作是以查询为主,只有在必要时才涉及到数据的更新操作,因此稳定性也是数据仓库所必须保障的特征。

2 银行数据系统的设计分析

2.1 需求分析及功能设计

为了有效展现银行机构和用户对数据仓库的需求,本文主要是通过业务主题的形式归类并整理各类需求。当然,想要穷举全部需求是不现实的,对于业务主题之外的需求,则主要是通过联机交易形式加以满足。通过与银行业务人员的沟通,银行数据库系统的功能(业务主题)主要涉及到如下几个方面:

1)业务分析。业务分析包括跨行业务(境内外)、传统金融业务、金融创新业务等。

2)经营管理。经营管理包括绩效考核管理方面的支持、财务管理方面的支持以及银行人力资源管理等。

3)营销服务。营销服务包括活动策划支持、营销活动评估及管理以及银行忠诚客户的服务支持。

4)风险管理。风险管理包括银行业务欺诈交易、异常交易的管理以及银行黑名单客户以及其他交易风险的监控统计等。

2.2 系统的总体结构设计

根据银行数据系统的需求分析及功能设计,本文借助于DB-ODS-DW对系统的体系结构进行构架,具体如图2所示。

其中,银行数据系统的最低层:操作环境层主要处理银行金融业务的OLTP以及外部数据信息;DW层则主要是将操作环境层的业务元数据进行抽取、过滤、重组,并归纳至银行的数据仓库中;银行业务层则主要是对银行业务元数据进行分析统计,并进行各种业务操作,比如:即时查询、OLAP分析以及数据挖掘等。

3 银行数据系统的实现分析

3.1 系统的维度建模

银行数据系统的维度建模主要以星型和雪花模式为主,是支持查询的建模方式。本文主要是通过星型模式进行建模操作。星型模式的原理就是以一个事实表为中心,该事实表的Main Key主要由系统维表的Main Key所组成,可见事实表的Main Key都是外键。以银行卡事实表为例进行研究说明。

银行卡事实表的字段包括:交易时间代码、受理机构代码、交易渠道代码、借记卡活动量、货记卡活动量等。而其相关维表包括:时间维表、机构维表以及交易渠道维表。其中,时间维表的字段包括:时间代码、年、季度、月、日等。机构维表的字段包括:机构代码、机构名称、上级机构、下级机构以及机构描述等。交易渠道维表的字段包括:渠道代码、渠道名称以及渠道描述等。根据星型维度建模原理,银行卡事实表的主键是由其周围的维度主键所组成,也就是银行卡事实表的主键共有三个,分别是:交易时间代码、受理机构代码、交易渠道代码。这些主键又同时作为外键,与另外三个维表建立关联。

总之,通过星型模式的建模,对各种维表进行了统计并排序预处理,提高了查询效率。但也有不足的地方,就是当银行业务发生变化时,需要对事实表的维表个数进行重改,这是一个相对复杂并耗时的操作。这个问题可以通过在数据库建立时引入三范式来解决,因为三范式可以引入较少冗余,具有良好扩展性。

3.2 数据粒度的选取

数据仓库的一个重要概念是数据粒度,用来表示数据的综合度,也决定了数据量的大小以及数据仓库能力。数据粒度的选取应该进行权衡考虑,如果粒度过大,数据综合度虽然有所提高,但针对细节的查询支持能力就会减弱;如果粒度过小,数据的细节描述更为详细,但存储开销增加,特别是综合查询时,因为数据量过大而必须进行汇总,显然对降低了查询效率。

本文研究的银行数据系统的数据粒度分了四大层次:ODS、SOR、DPA以及DM,如图3所示。

其中,ODS层存储银行业务数据粒度的级别,对银行业务数据进行定义,并保证银行业务数据的一致性,从而满足银行中高层的决策查询。SOR层是银行数据系统的核心层,通过对ODS层的抽取,将银行业务数据转换成符合维度模型的数据形式。DPA层主要是对银行业务数据进行汇总,该层的数据粒度又细分为:日。该层为DM层以及其他下层提供银行业务数据的应用服务。DM层是根据银行业务用户的需求,对不同粒度的数据(比如说:月、季度、年)进行汇集,并提供银行业务数据的调用服务。

3.3 系统的ETL逻辑流程

ETL能够保证在规定的时间内,完成银行业务数据的自动加载,这些数据可以是初始银行业务数据,也可以是历史银行业务数据,从而满足数据的扩充需求。银行数据系统的程序较复杂,但其程序结构应该尽可能的简洁,因此应该对银行数据系统中的数据抽取程序进行优化,ETL逻辑流程的设计可以很好的平衡银行数据系统开发管理性及程序性能之间的关系。

从宏观进行设计分析,ETL作为一个整体来支持银行数据系统加载银行业务初始数据和日常数据。从银行数据系统源数据中抽取完数据后,将其保存到ODS中,并且附上时间标签。银行业务数据经过清洗、转换后加载入SOR数据库。这包括三个过程:银行业务数据变换CV(convert/Clean)、数据转换TR(Transform)以及数据加载LD(Load)。CV阶段产生CIF文件,每个目标表的加载对应一组TR程序与LD程序。清洗过程中产生银行业务源数据拒绝文件,需要对有质量问题的银行业务数据进行处理以进入银行业务数据库或者直接拒绝入库。

3.4 系统的集成转换

在银行业务数据的清洗转换过程中由于ETL对业务转换规则的理解错误或者程序代码的问题都可能造成银行业务数据的质量问题,而且当ETL程序出现异常时也容易造成银行业务数据的质量问题,因此,银行业务数据进入数据仓库都是需要进行集成转换的。银行数据系统的集成转换必须进行银行业务数据的预检查。

首先,业务逻辑检查。其次,交叉验证。包括ODS、SOR、DPA、DM层交易笔数一致、SOR、DPA、DM交易金额一致等。此外,银行业务数据完整性检查。主要包括如下一些方面:银行机构在机构关系表而不在机构基本表的记录等。

银行业务数据集成转换时如果通过预检查处理发现数据质量问题时,逆向排查数据质量问题产生的原因,并做出修正然后重新对数据进行抽取加载即可。

4 总结

总之,银行数据系统通过利用数据仓库技术,整合了银行业务相关的内外数据源,有效得升了银行的数据支持服务能力,推动了银行业务市场。当然数据仓库的建设是一个长期而又复杂的过程,其涵盖的内容还包括有数据挖掘、元数据管理、系统维护等方面。因此,随着对银行数据仓库技术研究的深入,在未来的发展应用中要对以上几个方面做进一步的研究。

参考文献

[1]张晓东,王建民.浅谈商业银行建立数据仓库的必要性[J].金融与经济,2009,1:27-28.

数据库加密技术方法的比较研究 篇11

关键词:数据库;加密技术;比较

中图分类号:TP393.092

1 数据库加密技术

数据库加密技术是将数据库中人们能够看懂的数据信息转化为无法识别的数据信息,从而有效避免数据外泄。其中,需要加密的数据统称为明文,而经过转变之后,人们无法看懂的信息则是密文,两者的转化规则即为加密。一般情况下,加密和解密都是在密钥管理中被控制的。

通常,对系统加密时可从三个层次进行:(1)数据库操作系统层加密。即对系统文件直接加密,只需要添加一个中间层,就能够实现加密要求。此方法需要进行数据库的加密或者解密操作,可靠性较低。此外,由于无法生成有效的密钥,也就无法对密钥进行管理控制。因此,此方法只适用于小型数据库,而加密大型数据库则不现实;(2)管理系统内核层加密。即数据在存储到硬件设备之前对信息进行加密及解密。此方法的优势在于难以破解,不会给DBMS带来较大影响,容易将加密与系统融合在一起。不过此方法需要服务器支持,因而会为服务器带来影响,且两者之间需要DBMS生产商提供相应的接口。;(3)在DBMS外层加密。通常是把加密系统当做工具,外围在DBMS上,用户根据自己的实际情况进行加密及解密操作。此方法的优势在于直接在客户端执行,不会为服务器产生任何影响,并顺利完成网络传输。缺点则是难以实现,与系统无法默契的融合在一起。

2 数据库加密的技术方法

数据库数据量比较大,存储时间长,内容繁杂,常需进行大量的查询操作,因此数据库加密操作、解密操作以及密钥管理等内容要满足一定的要求:首先,要确保数据库数据处于一定的安全范围内,因此,加密算法要数据的完整性、保密性得到切实保障,避免相关数据未经授权被访问或者篡改;其次,由于数据库数据较多,常需要进行查询操作,因此要提高加密算法的方便性,尽量避免降低查询效率;再次,数据库组织结构尽量不要都大的变动,要确保明文及密文的长度相当,没有很大差别;最后,数据库数据存储时间长,密钥管理要做到安全、可靠、灵活。目前,对数据库进行加密的研究内容主要是数据库加密/解密引擎的寻找,以及查询、删除及插入等方法上。基于以上内容的加密方法有以下几点:

2.1 秘密同态技术。数据库加密技术的探索方向是研究确保数据库安全性、实用性、简便性的加密方法。為了有效提高数据库的查询效率,有人提出了秘密同态的概念。所谓秘密同态,即假设Ek1代表加密函数,Dk2代表解密函数,明文数据空间中的元素是有效集合{M1,……,Mn},α与β表示运算,假如α(Ek1(M1),……,Ek1(Mn))=Ek1(β(M1,……,Mn))成立,则函数族群(Ek1Dk2、α、β)可以被看做秘密同态。秘密同态技术在数据处于密文的状态下可直接进行操作,因此在很大程度上提高了密文数据库的查询速度。不过此方法对已知明文攻击具有很大的漏洞,缺乏足够的安全性。秘密同态技术可以查询没有被解密的密文,因而提高了密文数据库的查询效率,但是此方法对加密算法有约束条件,因此没有很强的适用性,无法被广泛使用。

2.2 密文索引技术。密文索引技术也可以有效提高数据库查询效率。假设用户的查询属性是A,为其建立的索引是A+,A作为保密内容,用户只能看到其索引A+,如此一来,不仅使用户的查询操作比较方便,还有效提高了数据库数据的安全性。加密粒度中具有为字段、记录等内容进行加密的方法,此方法同样适合建立索引。加密粒度中还具备为属性加密的方法,此加密算法将属性列作为最小加密单元,就算为属性建立索引,也需要在检索过程中解密整个属性列,因此不适合用于建立密文索引。

关于密文索引的建立方法还有很多。比如,分散密文索引技术,此加密技术是以哈希算法为基础的。因为索引数据的地址是按照密文形式存储的,难以获得密文和索引之间的对应关系,虽然可以和低手的静态分析进行抗衡,但无法有效消除动态跟踪技术。以防止内部受攻击的基于元祖的索引方法,对索引查询统一会返回与之匹配的元组,从而降低了查询速度及效率。此外,还有数组索引、顺序索引以及矩阵索引等多种技术。为大型数据库建立索引时,由于其包含的数据量比较大,建立的索引无法全部存储在主存中,可采用B+树的方法把多余的索引存储在外存中,需要采用时再把所需索引调入主存中进行使用。B+树存储方法有较大缺陷,因为数据库常会进行存储、修改或者删除等操作,节点的删减容易导致B+树存储的不平衡,致使查询效率低下。因此,小型数据库则可以采用矩阵形式存放索引,将所有索引存入主存,可有效提高查询速度。目前常使用的密文索引技术大多数防范外部攻击的,少数防范内部攻击的密文索引技术在实用性、安全性及可靠性等方面还是存在较多的安全问题。

2.3 子密钥加密技术。基于数据库的加密方法,主要是以记录为单位进行加密,查询时需要解密整个字段,或者解密需要查询的明文,在一定程度上降低了查询效率。因此子密钥数据库加密技术应运而生。采用多级子密钥可以有效提高子密钥系统的安全性能。从加密算法的核心内容是根据数据库数据组织的特点,以记录为单位实施加密操作,解密时则以字段为单位进行操作。因此,系统中存在两种密钥,即加密记录的密钥和解密字段的密钥。采用子密钥加密技术,弥补了针对记录进行加密的方法的不足之处。不过,由于此系统存在两种密钥,从而在一定程度上提高了密钥管理的难度与复杂性。

3 结束语

数据库加密技术可有效保证数据库的安全性。选择合适、有效的数据库加密技术,能够在很大程度上提高数据库的安全性能。目前,使用的数据库加密技术虽然很多,但各种技术仍然存在不同程度的缺陷,无法充分保障数据库的安全性。因此,我们还要进一步研究数据库加密技术,有效提高数据库的安全性与可靠性,确保系统访问控制不会被黑客攻破,避免数据库信息被泄露。

参考文献:

[1]马文斌.数据库中常用的加密技术[J].同煤科技,2013(02).

[2]李爱英,白艳玲.文件型数据库加密技术分析[J].网络与信息,2012(01).

[3]刘勇.网络数据库加密技术研究与实现探析[J].计算机光盘软件与应用,2014(04).

作者简介:朱振立(1976.07-),男,河北固安人,工程师,本科,研究方向:计算机。

数据挖掘技术研究 篇12

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程, 这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据, 并从中发现隐藏的关系和模式, 进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

2 数据挖掘的方法

统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法, 常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具, 处理数据挖掘中的分类问题, 回归分析用来找到一个输入变量和输出变量关系的最佳模型, 在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归, 还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响, 是许多挖掘应用中有力的工具之一。

关联规则。关联规则是一种简单, 实用的分析规则, 它描述了一个事物中某些属性同时出现的规律和模式, 是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系, 原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系, 但是, 并不是所有通过关联得到的属性之间的关系都有实际应用价值, 要对这些规则要进行有效的评价, 筛选有意义的关联规则。

聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组, 同组内的样本具有较高的相似度, 不同组的则相异, 常用的技术有分裂算法, 凝聚算法, 划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系, 从而对样本结构做出合理的评价, 此外, 聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效, 在运用某一个算法之前, 一般要先对数据的聚类趋势进行检验。

决策树方法。决策树学习是一种通过逼近离散值目标函数的方法, 通过把实例从根结点排列到某个叶子结点来分类实例, 叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试, 该结点的每一个后继分支对应于该属性的一个可能值, 分类实例的方法是从这棵树的根结点开始, 测试这个结点指定的属性, 然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

神经网络。神经网络建立在自学习的数学模型基础之上, 能够对大量复杂的数据进行分析, 并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析, 神经网络既可以表现为有指导的学习也可以是无指导聚类, 无论哪种, 输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构, 建立三大类多种神经元网络, 具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

遗传算法。遗传算法是一种受生物进化启发的学习方法, 通过变异和重组当前己知的最好假设来生成后续的假设。每一步, 通过使用目前适应性最高的假设的后代替代群体的某个部分, 来更新当前群体的一组假设, 来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖 (选择) 是从一个旧种群 (父代) 选出生命力强的个体, 产生新种群 (后代) 的过程;交叉 (重组) 选择两个不同个体 (染色体) 的部分 (基因) 进行交换, 形成新个体的过程;变异 (突变) 是对某些个体的某些基因进行变异的过程。在数据挖掘中, 可以被用作评估其他算法的适合度。

粗糙集。粗糙集能够在缺少关于数据先验知识的情况下, 只以考察数据的分类能力为基础, 解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性, 对数据库中的元组根据各个属性不同的属性值分成相应的子集, 然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合, 形成知识的基本成分。任何初等集合的并集称为精确集, 否则, 一个集合就是粗糙的 (不精确的) 。每个粗糙集都具有边界元素, 也就是那些既不能确定为集合元素, 也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

支持向量机。支持向量机 (SVM) 是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的, 尽量提高学习机的泛化能力, 具有良好的推广性能和较好的分类精确性, 能有效的解决过学习问题, 现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外, 支持向量机算法是一个凸优化问题, 局部最优解一定是全局最优解, 这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

3 结语

事实上, 任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法, 很难说哪种方法好, 那种方法劣, 而是视具体问题而定。

目前, 数据挖掘技术虽然得到了一定程度的应用, 并取得了显著成效, 但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究, 数据挖掘技术必将在更加广泛的领域得到应用, 并取得更加显著的效果。

摘要:随着信息技术迅速发展, 数据库的规模不断扩大, 产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息, 而传统的查询、报表工具无法满足挖掘这些信息的需求。因此, 需要一种新的数据分析技术处理大量数据, 并从中抽取有价值的潜在知识, 数据挖掘 (Data Mining) 技术由此应运而生。本文主要介绍了数据挖掘的基本概念, 以及数据挖掘的方法。

关键词:数据挖掘,数据挖掘方法

参考文献

上一篇:中医调理下一篇:变电站的运行维护