数据集成交换平台(共8篇)
数据集成交换平台 篇1
1 引言
近年来, 随着互联网应用与信息化技术的快速发展, 高校的财务、教务、招生、后勤等各职能部门逐渐建立了相应的业务管理信息系统。各个信息系统的建设有效提高了办公效率, 促进了高校管理工作的规范化, 在高校改革发展中发挥了不可或缺的支撑作用。
随着校内各部门之间联动性的不断增强, “信息孤岛”的问题亦日渐突出, 各业务系统之间的数据不能充分共享与直接利用。如笔者所在的财务部门在学生学杂费管理工作中, 与教务、后勤等部门进行业务数据交换过程中, 常常会遇到数据传递不完整、不及时和重复维护等问题, 既影响数据的准确性, 也影响工作效率。
可见, 在高校“局部信息化”迈向“全面信息化”进程中, 焦点将逐步转移到业务的管理精细化和协同化, 信息集成和应用集成是大势所趋, 而在信息集成的过程中, 如何实现数据的集成无疑是重点。因此, 研究、构建适用于高校内部异构系统间的数据集成与交换平台则显得十分必要而有意义, 它是消除数据孤岛、实现各项业务数据有效交互的基础, 也为日后开展管理决策、建立门户信息服务打下坚实基础。
2 高校信息化的现状与问题
当前, 各高校信息化工作历经了“诺兰模型” (由美国哈佛大学教授查理·诺兰提出) 的初始、推广、控制阶段, 基本建成高速校园网, 高校各部门广泛地将信息系统应用在辅助教学、科研、行政等管理工作中。随着业务的深化和管理要求的提高, 现有信息化建设模式逐渐暴露出许多难以解决的问题和亟待突破的瓶颈, 主要体现在以下几个方面:
(1) 因缺乏统一规划, 不同时期建设的业务管理信息系统, 在技术平台、系统架构等方面都存在众多差异, 系统开放性、规范性和可扩展性均不可预料, 系统间横向协同的能力较差。
(2) 各业务管理信息系统建设时处于各自为政的状态, 缺乏统一的数据规范, 信息编码方式、数据的格式及数据的存储方式各异, 信息系统越建越多, 却逐渐陷入信息共享困难、数据无法有效集成的窘境。
(3) 信息维护的方式差异大, 不仅信息维护的途径和工具多种多样, 甚至许多业务仍然采用电子表格人工维护等方式, 数据的及时性、一致性和规范性均无法保证。需要应用这些信息和数据时, 往往出现不可靠、不可信或者不完整的情况, 校核这些数据又需要耗费巨大的工作量。
3 解决思路和步骤
针对高校信息化建设的现状和问题, 从尽可能保障现有业务正常开展、尽可能保护现有信息系统投资的角度出发, 必须构建面向异构数据的数据集成与交换平台, 以解决数据交互的难题;同时, 为了避免新建的信息系统重蹈覆辙, 还应逐步建立高校的信息化建设标准, 指导将来的信息系统建设。
(1) 建立高校信息化标准体系, 包括基础设施建设、信息编码规范、系统接口规范、信息系统建设框架等标准规范。对于新建的信息系统, 要求必须依照统一的高校信息系统建设规范, 从技术架构、数据架构和应用架构上确保有规划地建设;对于现已建成的信息系统, 遵照信息编码规范重新梳理信息编码, 在统一的系统接口规范下, 建设适配接口, 为数据交换与信息共享提供基础。
(2) 构建高校数据集成与交换平台, 用于高校内各信息系统数据的抽取、汇聚、清理、转换和交换;通过搭建数据总线和服务总线, 为各信息系统的数据交互打通渠道。在构建数据集成与交换平台时, 除了提供数据交换功能外, 还必须建立数据质量管理的机制, 确保平台数据的权威性和可信度。
(3) 为保障数据集成与交换平台的正常运行, 还应建立配套基础设施和管理制度, 包括:网络规划和硬件资源、安全防护、运行维护管理等。
4 平台建设的重点
4.1 高校信息化标准体系建设
信息化标准体系的建设是一个长期的过程, 需要各业务部门密切配合、持续完善才能起到实效。各项标准与规范主要包括基础设施的规范要求、应用系统建设的规范要求、信息编码的规范要求以及面向用户的交互规范要求等。在构建标准体系的过程中, 也可参考IT行业和软件工程的相关标准, 结合自身的业务特点, 形成符合高校信息化建设实际要求的标准规范。
(1) 开展业务流程调查, 结合校内各业务流程和数据产生特点, 编制各项业务的数据字典。若已有信息系统, 则需按规范格式提供数据, 为数据交换提供统一的依据。
(2) 信息编码规范设计。针对公共的数据集成与交换平台, 从整个高校的角度出发, 为公共的数据编制统一的信息编码, 避免多个业务系统之间“同物异码、同码异物”的情况。
(3) 建立数据交换标准。采用Web Service、XML作为数据传输的标准, 协助各业务部门建立数据传输与数据交换规范, 实现不同的业务数据之间的交互基础, 并且充分考虑扩展性。
(4) 建立信息系统的文档数据规范。各业务信息系统必须依据文档数据规范出具系统建设的过程文档, 对非结构化的数据要提供交互、检索的基础依据。
4.2 数据集成与交换平台的实现
4.2.1 数据集成与交换平台框架
数据集成与交换平台的框架结构如图1所示:
如图1所示, 各业务信息系统处于数据来源层 (数据提供层) , 基于信息系统的数据接入要求, 在适配层建立统一、规范的数据适配接口, 将各业务信息系统的数据抽取到数据交换层的临时数据存储区和操作数据存储区;操作数据存储区经过转换、清理, 成为正则的数据存放到数据仓库中, 此时已经将冗余的数据剔除。最后, 针对数据访问层, 即业务应用层的需求, 构建不同业务主题的数据集市, 将数据提供给各项业务, 实现数据的交换与共享。
4.2.2 数据适配接口的实现
数据适配接口主要采用Web Service的方式, 通过统一的数据规范, 以XML为载体, 实现多个业务系统之间的数据适配。在这个过程中, 特别强调交互数据格式的统一性和规范性, 数据来源层中的各业务系统在提供数据时, 必须遵循这个交互的规范。接口开发主要涉及XML、XSD、Web Service、SOAP、WSDL等关键技术。
XML即可扩展标记语言, 它使用一系列简单的标记描述数据, 是互联网环境中跨平台、依赖于内容的技术, 是一种处理结构化文档信息的有力工具。在高校数据集成与交换平台中应用XML技术, 在制定基于XML交换的规范和标准基础上, 可通过统一数据接口将各类数据源转化成XML格式, 以便与不同的信息系统实现数据交换。另外, 平台提供XML到XML的映射转换工具, 实现不同的业务系统之间的数据映射与格式转换。
XSD定义了一套标准数据类型, 并给出语言扩展该数据类型。Web Service平台即采用XSD作为其数据类型系统。当用某种语言, 例如C#来构造Web Service时, 为符合Web Service标准。使用的数据类型必须转换为XSD类型。
Web Service (Web服务) 是开放的基于因特网标准, 具有松散藕合、可重用、可编程访问、自适应和自描述等特质的Web组件。它具有模块化、良好描述、实现独立、可访问性和互操作性好等优势。Web服务由WSDL、SOAP和UDDI三个基本结构单元组成, 它们解决了Web服务的描述、通信和发布等基本问题, 是构建Web服务的核心与基础。Web服务协议栈进一步对Web服务的互操作、路由、安全和服务质量等进行了规范。
SOAP (简单对象访问协议) 基于XML和XSD, XML是SOAP数据编码方式。SOAP提供类似XML的能通过HTTP描绘参数和返回数值的方法, 可运行在任何传输协议上。
WSDL (Web Service描述语言) 能用机器阅读方式提供的正式描述文档, 用于描述Web Service及其函数、参数和返回值。因基于XML, 所以人可阅读。
4.2.3 数据存储结构
交换数据临时存储区是用来保证数据交换过程中安全隔离和临时存储的存储区。该存储区按业务系统创建, 负责临时存放从各业务系统采集上来的数据, 在数据采集策略上, 一般采用先删除后新增的更新方式, 不保存历史数据;若有特殊的要求时, 也可将历史数据做短期暂留。
操作型数据存储区存放集成的、可更新的、近实时的业务数据。主要用于交换数据临时存储区的明细数据整合后、导出数据文件进入数据交换区前的存储。操作型数据存储区按业务主题创建, 按查询需求保存一段时间内的数据, 可新增、删除、修改。
4.2.4 数据抽取 (ETL) 和转换
ETL是数据抽取 (Extract) 、转换 (Transform) 、清洗 (Cleansing) 、装载 (Load) 的过程, 是构建数据仓库的重要一环, 它直接通过内部机制把根据用户需求从数据源 (关系数据库、平面数据文件等) 抽取出的所需数据, 经过数据清洗, 最终按照预先定义好的数据模型, 将数据加载到目的数据库中去。数据集成与交换平台的开发工作可以直接面向这个数据库进行开发, 开发者可以很方便地利用该数据库的优越特性进行性能上的优化, 或者数据结构的调整, 从而不影响到底层的业务系统的数据。ETL还应具有丰富、灵活的数据转换策略, 能够把底层的数据库数据重新转变成更符合业务逻辑的数据。具备数据采集流程控制, 提供管理监控流程的措施, 使得数据从来源端到目的端的传输有条不紊地运行。
在数据采集过程中, 因ETL的实时性相对较弱, 需要使用ETL工具自身的一些采集机制定时到各数据源中获取数据, 以实现数据的同步。数据采集的过程中应能够分不同的时间颗粒度, 如按小时、分钟、日、月、年采集不同数据库的数据。在自行定制的ETL工具中也可具备更好的同步机制, 其“复制”的机制能够分时段同步指定范围的数据, 源端数据的改动能够快速地反映到目的数据库中。
数据转换机制方面, 实现映射的手段通常有三种。第一种是数据源直接映射, 它是指按照源数据库的原始结构采集进入数据集成与交换平台的数据库, 与源数据库的结构完全保持一致。此种手段是最简单的映射手段。第二种是数据源策略转换映射。这种方式完全改变源数据库的结构, 反映在数据集成与交换平台上的数据结构是全新的数据结构, 利用ETL工具的各种策略把源数据库的数据进行转化, 产生新数据体, 并存储进入数据库。第三种是上述两种方式的融合, 即:该映像除了包含与源数据库一致的结构外, 还加入了经过策略算法形成的新结构。例如:两表间的数据合并、表格式的转置等, 此种映射手段将随着数据集成应用的逐渐深入而变得日益广泛。尤其是在为数据集成与交换平台提供综合报表分析的时候, 采用这样的手段会越来越多。
根据ETL的特点可知, 对于海量的数据挖掘, ETL优势极为明显, 它可以为历史数据的分析工作提供更佳的底层数据基础。
4.2.5 数据清理
数据清理是ETL的一个重要内容, 该环节负责把冗余数据、不规范数据实现规范化, 保证数据的正确性、完整性、一致性、完备性、有效性、时效性和可获取性。
4.3 数据质量管理和评估
数据质量管理是采用科学的方法, 对数据集成与交换平台中存储数据的准确性进行判断, 对存在的数据质量问题进行核实, 并最终确认的过程。数据质量是数据集成应用的“生命线”, 质量差的数据即便可以共享, 也达不到预期目标, 所以在建立数据交换平台时, 必须时刻将数据质量摆在第一位。在数据交换过程中, 通过数据质量评估, 及时掌握各类数据的可靠程度或差错率的大小, 系统查找影响数据质量的因素, 并有针对性地采取措施, 持续提高数据质量。对于具体数据的质量检查模式可采用以下几种方法:
(1) 记录数检查法。通过比较记录条数, 对数据情况进行概括性验证, 主要是检查数据表的记录数是否为确定的数值或在确定的范围内。这个方法的适用范围是:对于数据表中按日期进行增量加载的数据, 每个加载周期递增的记录数为常数值或可以确定的范围时, 必须进行记录条数检验。
(2) 关键指标总量验证法。对于关键指标, 对比数据总量是否一致。指标总量主要是指具有相同业务含义, 从不同维度统计汇总逻辑的检查, 适用范围包括:同表内对同个字段从不同的维度进行统计, 存在汇总关系时, 必须进行总量检验。例如:某表的字段与其它表中的字段具有相同的业务含义, 从不同的维度统计, 存在汇总关系, 且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行总量检验。
(3) 历史数据对比法。通过历史数据观察数据变化规律, 从而验证数据质量, 通常以同比发展速度进行判断。评估时应根据各种指标发展特点, 重点对同比发展速度增幅 (或降幅) 较大的数据进行审核。历史数据对比法包括同比和环比两种方式。历史数据对比法的适用范围是:不能进行记录数检查法、关键指标总量验证法, 且事实表的记录数小于1000万条时必须进行历史数据对比法。
(4) 值域判断法。确定一定时期内指标数据合理的变动区间, 对区间外的数据进行重点审核。其中数据的合理变动区间范围是直接根据业务经验来确定的。当事实表中的字段可以确定取值范围、同时可以判定不在此范围内的数据必定是错误的, 满足此条件必须进行值域判断法。
(5) 经验审核法。针对报表中指标间逻辑关系仅靠计算机程序审核无法确认、量化, 或有些审核虽设定数量界限, 但界限较宽不好判定的情况, 需要增加人工经验审核。适用范围:以上方法都不适用的情况下, 可以使用经验审核法, 在计算机自动校核的基础上, 由人工聚焦某些问题数据进行审核。
(6) 匹配判断法。与相关部门提供或发布的有关数据进行对比验证。适用范围:与有相关部门提供或发布的有关数据口径一致的, 可以使用匹配判断法。匹配判断后, 应当具备经验累积机制, 在确立某个数据口径为标准后, 自动遵循该项规则。
数据质量是一个长期性的问题, 要解决这个问题, 除了技术手段保障外, 还是必须从产生数据的源头抓起。根据经验, 70%的数据质量问题都是由用户输入产生的。因此, 在信息系统建设过程中要规范用户的使用方式, 保证数据的录入是按照定义的标准流程和方式进行维护;其次, 系统要严谨的对各数据项进行约束, 按照规范要求设计, 保证关联数据的一致性。
4.4 配套基础设施和管理制度
数据集成与交换平台的建设, 还可参考以下几个工作要点:
(1) 按照“科学规划, 合理布局”的原则有序建设高校网络。根据不同时期的信息化需求, 充分考虑业务量、数据量和应用增长情况, 配备适当的硬件设施, 为避免初期投入过大造成浪费, 可根据数据和业务的实际增长量, 分步持续扩充。在系统硬件设施规划方面, 要以保障系统的可用率和可靠性为出发点, 充分考虑关键设备的冗余, 避免单点故障带来的影响。
(2) 为高校各业务管理信息系统制定配套的系统运行维护管理规范, 主要包括网络、设备、数据、软件维护要求以及机房管理、运维质量管理要求等管理规范。通过IT运行维护流程的规范化管理, 不断提高系统运行保障能力, 保证高可用的平台环境。在日常管理的过程中, 还应编制配套的应急预案, 定期演练, 以应对突发的故障。
(3) 制定高校信息系统安全保障措施, 抵御外部对高校信息系统资源的非法的访问和使用, 保证高校信息系统的软、硬件和数据不因偶然或人为因素而遭受破坏、泄露、修改或复制, 确保信息安全。一是在管理层面, 明确高校信息化工作的职责与分工, 成立相应的领导工作机构, 制定信息系统安全管理制度, 利用行政管理防止安全事故的发生。二是在技术层面, 通过采取各种相应的技术手段, 包括防火墙技术、数据加密技术、身份认证技术、访问控制技术、漏洞检测、数据存储、数据备份和安全恢复等;保障网络环境、应用系统、通信环境的安全性。
(4) 针对高校数据交换和信息系统应用的特点, 配套建设数据集成与交换平台的运行管理工具, 例如监测平台数据通道的健康状况、平台运行日志的主动分析等功能, 增加平台运行的健壮性, 也为持续的运行维护带来便利, 节省人工成本。
5 结语
综上所述, 在建立高校信息化标准体系的基础上, 构建面向异构数据的高校数据集成与交换平台, 对数据质量进行管理与评估, 将从根本上解决数据质量差, 数据交互难的问题, 逐步实现高校数据资源共享与应用集成, 对高校自身发展及进一步推动教育信息化发挥积极作用。显而易见, 高校数据集成与交换平台建设是一项复杂、长期的系统工程, 而随着高校事业的不断发展及信息领域新技术的不断涌现, 平台建设势必也是一个动态、变化、发展的过程。本文提出的高校数据集成与交换平台建设方案, 需在实际运行和服务实践中不断完善升级, 最终形成一个高效、标准的, 能充分满足高校信息化工作需要的数据集成与交换平台。
参考文献
[1]黄松.基于诺兰模型的高校信息化建设趋势分析与展望[J].江汉大学学报:自然科学版, 2013, (1) :71-75.
[2]李幼军, 张广庆, 刘炳兴.高校信息化建设中信息标准的确立及应用[J].计算机时代, 2008, (10) :66-68.
[3]胡致涌.基于信息整合的数据中心平台的研究[J].制造业自动化, 2011, 33 (18) :69-71.
[4]高江锦.基于XML和Web Service的高校数据交换平台设计[J].软件导刊, 2012, 11 (8) :141-143.
数据集成交换平台 篇2
关键词:数据共享;数据交换;大数据;数据可视化
中图分类号:G642.0 文献标志码:A 文章编号:1673-8454(2016)19-0048-05
一、引言
近年来,随着信息技术产业的蓬勃发展,高校的信息化建设工作也受到了广泛关注。推进高校信息化建设,打造数字化校园已成为各高等院校的普遍共识。2010年,我校完成了数字化校园建设信息门户平台、统一身份认证平台和统一数据库平台“三大平台”建设。由于信息化建设初期缺乏统一规划,数据标准各异,业务系统各自为政,导致数据非集成化并形成了许多的信息孤岛,这使得大量优秀数据无法共享和利用,获得更大价值。我校于2014年又进行了数据共享交换平台的建设。该平台是整个数字化校园建设的重要组成部分,利用此平台对校园内散乱分布的数据进行集成化整合,同时将原来分散、利用率低下的信息资源进行数据挖掘,对于我校的发展战略和决策支持具有重要意义。
二、发展现状
我校从2006年开始着手进行信息化校园建设工作,整体建设历程具有阶段性和分布性的特点。按照《信息化校园建设总体规划》的部署,截至2010年,学校信息化基础设施建设已基本完备,并完成了信息门户平台、统一身份认证平台和统一数据库平台三大公共基础平台的建设。
2012年1-6月,我校完成了应用系统一期项目建设,包括本科生管理服务、研究生管理服务、人事管理服务和办公自动化管理四个系统;至2013年12月,我校完成了應用系统二期项目建设,包括招生管理、宿舍管理、毕业离校、就业管理等七个系统,同时集成了教务管理系统和资产管理系统。
2014年至今,通过对基础平台和应用系统的完善推广,我校将管理信息系统建设作为支撑学校管理现代化的基础,现基本完成对学校各机关部处、教学教辅部门的核心管理业务的横向整合。
统一数据库平台负责集中存储和处理各种信息数据,并为全校提供信息共享交换服务。为了实现业务系统的集成和数据共享,进而为学校领导提供有力的决策支持,需要建立基于数据管理和综合性技术方案的数据共享交换平台,在对大量数据进行安全存储的同时,通过建立畅通的数据访问通道,能够有效协同地将数据进行共享、分析及应用,保证数据共享及交换的时效性、完整性和一致性。[1]
数据共享交换平台主要需完成以下任务:
1.数据的采集
负责采集更新各业务系统数据,利用数据抽取或同步工具将数据采集至共享数据中心,同时生成数据更新报告。
2.数据的整理
按照学校制定的信息化标准进行数据整合,报告异常数据,保证数据的一致性和准确性,并保留历史数据。
3.数据的共享
对统一数据库内的部分或全部资源进行共享和交换,可生成数据使用情况报告。
4.数据的挖掘分析
通过数据挖掘工具对共享数据和历史数据进行分析评估,用报表、视图等可视化工具进行展现,为决策提供参考。
目前,我校统一数据平台可以实现数据导入、共享数据查询与维护、灵活报表管理、统一代码管理、通用组合查询显示、设置数据查询和维护权限以及数据同步等功能,但平台功能仅局限于数据的查询展示,尚不能实现校园内各业务部门的信息交换交换功能。我们希望对各业务部门的资源、平台进行更充分的整合,使得应用系统之间虽不具有直接关联,但数据交换可以在业务数据库与数据共享交换平台上完成,建成一个各应用系统耦合度较低、安全性能较强、可以完成数据集中存储与管理的数据共享与交换平台。
三、实际需求
目前,建设以全局数据为基础的数据共享交换平台已成为各高校信息化建设的核心内容。通过其建设可以有效消除信息孤岛,节约人力、物力、财力成本,提高工作效率。各职能部处可以通过该平台获取其他业务部门的数据信息,通过对数据的交换、共享、分析、挖掘,为广大师生提供更加完善的服务,为学校建设以及科学管理提供重要的依据。
另外,数据共享交换平台的建设是高校信息化建设下一阶段——智慧校园建设的工作基础。完成对学校内大数据有机的整合和继承管理,掌握学校各项活动中发生的庞大、海量数据,并利用大数据处理技术对这些信息资源进行挖掘、整理、分析,为学校的发展提供决策支持,是下一步我校信息化发展的重点工作。
经过多年的建设与发展,我校网络的基础设施建设已经基本完成,已经初步建成了支撑学校日常运行的校级统一信息系统,在业务工作中发挥了积极的作用。但现有的这些系统基本上都是各自封闭的,随着信息技术的发展以及教育改革的不断深入,当前信息系统的现状已经远不能满足学校发展的要求,数据整合工作仍然面临着诸多难题和挑战。
1.数据资产意识薄弱
数据作为重要的无形资产,其利用水平的高低可以直接反应一个高校的教学科研水平和管理能力。目前我校对数据建设的意识相对薄弱,没有充分认识到数据也会在学校的教学科研管理中发挥重要作用,导致学校内部业务系统林立,数据没有形成统一的管理制度,数据资产不能发挥有效价值。
2.数据管理缺乏规范性
目前我校内部已形成了多个业务系统,各部门依据各自的业务需求,分别采用了不同的架构及其开发技术,设计了信息系统建设标准和数据标准。但这些系统在应用及数据层面上彼此分离,导致各单位数据标准不一致,在数据共享平台的建设过程中,不能有效分析数据库表结构,在共享过程中时常出现匹配错误等现象。
3.存在信息孤岛
由于各业务系统的数据维护及管理工作缺乏统一部署,导致我校各业务系统间缺少统一的数据格式和交换接口,虽然部分数据可以通过直接传输等形式实现数据资源的交换和共享,但这种传统方法并不能及时有效地解决大量数据的交互问题,同时各类数据信息分别存储于不同部门或不同地域(分布性)的不同数据库(异构性)中,客观上形成了许多“信息孤岛”。
4.数据挖掘与决策支持应用较少
目前,我校的数据共享交换平台主要应用于数据的展示、查询、统计等单一层面,对数据进行深度挖掘分析的应用较少。合理整合校内数据,不仅能有效提高数据的利用率,优化管理结构,而且可以通过整合进行数据的挖掘、分析和预测,优化学校管理结构。通过数据整合可以大量减轻学校内部行政、教学、教辅等部门繁杂的事务性管理工作,帮助其更加关注于本部门的业务职能,并为部门及整个学校的发展提供决策支持。
四、有效措施
1.建设统一数据标准
我校于2010年12月由东北财经大学数字化校园基础平台建设组进行统一规划,制定并颁发了《东北财经大学信息标准》(以下简称“标准”)。标准的制订参照教育部《高等学校管理信息标准》(CELTS-33)的制订规范,并根据我校特点做了适当补充和调整。
标准根据高等学校职能划分和业务组成,将我校主要管理领域分为学校、学生、教学、研究生、教职工、科研、财务、办公管理、图书、资产与设备十个域,也就是对应图1的十个管理数据子集。
TB——通用/标准数据子集。作为其他十个业务数据子集的公共数据集,构成高校主要管理业务的完整数据标准集。
标准从结构上分为两部分,即数据标准和代码标准。数据标准包括一系列以管理对象为主体的数据项,其作用是明确管理对象所具有的属性,并使其在命名,类型,长度,取值范围等方面标准化。代码标准从属于数据标准,是对数据标准中数据项的属性或取值范围的描述。数据标准和代码标准的层次结构如图2所示。代码标准按照适用范围不同分为国家标准、教育部标准、行业标准、学校标准四个模块。
数据标准为我校数据平台的设计搭建提供了类似数据字典的参考作用,为信息交换、资源共享提供了基础性条件,有效地增加了各业务部门间的沟通效率。但信息标准在新的形势下也应有新的扩展,在建设过程中应与时俱进,不断加以补充完善。
2.建设数据共享交换平台
数据共享交换平台为校内各业务系统提供了一个集成的数据仓库,它将重要的、通用的数据集中到一个数据库内,数据可以在各部门之间进行有效的共享与利用。数据共享交换中心的建设有效解决了“信息孤岛”问题,可以为各项决策提供强有力的支持,最终为实现大数据综合分析提供一个可靠的、统一的数据支撑平台。[2]
应用系统与共享数据平台之间是松散耦合,数据共享交换平台的架构如图3所示。
在数据共享与交换平台中,利用ETL工具通过简单配置实现异构数据和公共数据库的数据同步、数据的解析和清洗、数据的转换等过程。管理员通过ETL客户端可以创建复杂的同步任务,只需要简单的拖拽就可以完成任务的配置。
通过数据共享交换平台,实现对ETL任务的统一监控与管理。
截止2015年12月31日,我校数据交换共享平台在运任务42个,涉及到十个系统,包括财务数据同步、资产数据同步、教务数据同步、一卡通同步、科研数据同步和多媒体教学信息同步。其中,财务系统同步任务共执行819次,资产设备同步任务共执行748次,教务系统教务成绩同步任务共执行714次,教务上课授课同步任务共执行714次,等等。2015年,所有数据同步任务共运行6182次,交换数据量约15个T。
3.完善数据展现
完成数据整合后,如何对积累的海量数据进行有效利用,充分挖掘其潜在价值是首要问题。按照教育信息化建设移动化、智能化、云化的趋势,从数据的使用方式、新媒体展现形式、数据可视化等多角度来完善数据表现,不断加强信息技术与广大师生教育教学、科研管理、公共服务等业务的深度融合。
(1)多层面多角度的数据使用
采用推送(订购),拉取(查询)等形式,用综合查询、大数据综合分析等形式为各级用户服务。如各级管理者使用的通用查询工具、数据管理服务、数据订购服务、数據分析服务等。
(2)多种新媒体形式的数据展现
除了传统的PC端数据展示之外,如何在现有移动信息化技术之后出现的多种新媒体形式,包括微信、微博、移动智能终端的进行数据展现,例如与微信平台、移动校园APP的结合,实现信息anyone,anywhere,anytime随时可达,是下一阶段工作的重点。
(3)数据可视化
在Hadoop上将HDFS存储的PB级的海量数据利用MapReduce处理之后,数据容量缩小为GB级,然后利用R语言等类似工具进行分析研究,最终转化为能为决策支持提供支撑的KB级数据,这依赖于Tableau等数据可视化工具。数据的收集、存贮、转换、筛选、分析、归纳,一切都为最终的展示服务,数据可视化工具能够以一种简便易用的方式将复杂的数据呈现出来,使用户更容易理解,并做出决策。
五、应用特点
1.架构合理,数据可控
以数据共享交换平台为核心,依托ETL技术实现数据的共享与交换,采用星形模型是最常用的实现模式,它使整个数字化校园形成了一个松耦合集成系统,实现数据调度任务的运行、监控、维护,整体系统灵活、安全、可控。
如图6所示,首先,星形架构采用不同业务系统与数据交换共享平台直接联接,而不必把多业务系统充分网状互联,建设成本低,投入小,复杂度较小,易于后期的管理维护。其次,整体系统松耦合,因为采取同步模式实现数据统一,独立业务系统故障不影响其他系统,单点故障不会对整体数字化校园系统造成冲击。最后,当某一业务系统升级或者替换,其基础数据格式、内容将发生变化,只需通过ETL调整其与数据共享交换平台的接口,并不影响与其相关的其他业务系统的正常操作,实现成本低、效率高。
2.操作简单,体验良好
目前,高校的传统业务系统并不兼容,彼此之间难以实现数据共享交流。我校使用的开源的ETL工具Kettle具有基于Java的图形化界面,支持拖拽等方式的可视化设计,能方便使用者便捷地对从业务系统抽取到的数据进行传输、清洗和加载等。同时,ETL屏蔽了应用系统中较为复杂的业务逻辑,为基于数据仓库的分析和应用提供了统一的数据接口。利用数据共享与交换平台,ETL在不同的业务系统之间搭建了一座桥梁,实现数据、业务的互联互通。
3.良好的弹性与可扩充性
数据共享交换平台的核心为ETL技术,具有良好的可扩充性。首先,ETL提供了一些可扩展组件以支持某些ETL定制逻辑的实现,同时支持自定义的SQL查询、JavaScript和正则表达式等,可自行定制开发相关组件满足学校业务逻辑的需要。另外,ETL技术支持典型的结构化数据库系统以及非结构化数据,作为应用广泛的开源工具,典型的分布式大数据架构、数据立方体等数据源也都可以处理,整体架构具备良好的可扩充性。
六、下一步计划
随着人工智能与数据库相关技术的发展,在做好数据清洗与整合的基础上,有效地应用数据挖掘手段进一步处理数据、分析数据,近年来,高校大数据挖掘与分析也成为技术研究的热点。在完成数据整合的基础上,不仅能完成传统的数据库的数据查询、统计、录入等功能,利用数据挖掘技术还可以发现数据中的隐含规则和潜在联系,而且可以通过多种有效手段对数据进行分析、对未来的发展进行预判以及对可能出现的问题进行防范。
1.数据挖掘基本概述
数据挖掘(Data Mining)一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势、模式及相关性等,并将其中有价值的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识。[3]
目前,数据挖掘技术已被广泛应用于医疗、商业、科研、金融、工程管理等领域。在高校中引入数据挖掘技术,可以加快推进学校管理方式的转变,即以科学管理方式取代传统管理方式,提高高校管理质量和教学水平,提升人才培养效果,有效增强学校竞争力。
2.数据挖掘的方法
(1)关联分析
关联规则的挖掘主要有两个步骤:首先是要从数据集合中找到频繁项集,然后通过找到的频繁项集产生关联规则。
关联规则挖掘的第一阶段,必须从数据集合中,根据某一项目出现的频率来找到隐含的频繁项集,其中某项目组出现的频率称为支持度,只要某项集的支持度超过初始设定的最小支持度时,就算找到了频繁项集,然后再继续寻找下一个集合。
关联规则挖掘的第二阶段,是找到频繁项集中产生的关联规则。系统预先设定一个最小信度,如果某一规则得到的信度超过最小信度,就称这个规则为关联规则。
(2)决策树方法
决策树的输入是一组带有类别标记的样本,最终会生成一棵二叉树或多叉树,节点、叶子和分支是它的基本组成部分。决策树方法主要分为决策树生成和决策树剪枝这两个步骤。
决策树的顶端节点叫做根节点,一切决策的过程是从根节点开始的。然后根据系统的需要和特定算法创建子节点,最末端的节点成为叶子。在决策树的分析过程中,每个节点都会遇到问题,对于问题的不同回答就产生不同的分支,直到最后产生叶子节点。这就是决策树分类的整个过程。
(3)遗传算法
遗传算法是由生物进化的过程演变而来的一种算法,含有三个基本过程(算子):选择(繁殖),在旧的种群中选出具有较强生命力的个体,产生新的种群;重组(交叉),选择两个不同个体,转换它們之间的部分基因,产生新的个体;突变(变异),通过对个体进行某些基因的基因突变(1变成0,0变成1)产生新的个体。
3.数据挖掘的目标
数据挖掘的目标是从数据库中发现隐含的,有意义的知识,其主要功能有概念(类)描述、预测趋势、关联分析、聚类、偏差检测、演化分析等。下面以概念(类)描述、预测趋势、关联分析这三个主要功能,结合高校实际情况进行分析:
(1)概念(类)描述
是指通过数据区分、数据特征化比较可以得到对数据的概念或类的描述,简单来说就是对某类对象的内涵进行描述,并概括这类对象的有关特征。
例如:通过对学生基本信息数据进行数据挖掘后,我们可以将接受助学贷款、参加勤工助学、有欠缴费记录等信息的学生划分为经济困难的学生这一类别,并授权就业指导中心、各学院院办等部门在数据共享交换平台查看学生名单,以帮助辅导员更有针对性地了解个别学生生活情况,积极帮助这类学生参加勤工助学、社会实习工作等。
(2)预测趋势
是指通过建立区分概念或数据类别的函数、模型,对未知的对象进行类别预测并加以标记。数据挖掘可以自动在数据库中寻找预测性信息,以往需要通过大量手工分析解决的问题如今可以迅速通过数据得出结论。
例如:对历年学生选课时间、选课人数等数据进行数据挖掘后,系统可以自动监测到学生选课高峰期、某热门课程等,可以为学校合理规划选课时间,合理安排教室等做出预测、规划。
(3)关联分析
大量的数据中存在的某些可被发现的有用知识就是数据关联。很多数据库中都存在着数据关联,但并不为人所知,因此关联就是希望找到隐藏在数据库中的规律和有用的知识。
例如:将每位学生视为一个数据对象,将其学习成绩、在校表现、奖惩情况等属性视为该数据对象的不同数据维度,进行多维数据关联后,可以构建学生考核、测评标准,建立评价指标体系,对学生进行科学测评,减少传统测评中的人为干扰,使对学生的评价更为客观、全面和科学,同时也更加便利。
我校的数据共享交换平台存储了非常丰富的教学、科研、管理等各方面的信息,范围宽广,数据复杂,一方面为我们提供了大量可供研究的数据,另一方面在目标的选择、数据的取舍、算法的性能等方面又向我们提出了很大的挑战。
随着数据挖掘技术的不断进步,我们希望未来可以透过数据表面,分析得到其内在本质,获得更有价值的信息,用更加科学系统的方法对学校的信息资源加以利用,优化资源配置、提高教学质量、提高学校综合实力。
参考文献:
[1]戚丽,蒋东兴,武海平.校园数据中心建设与管理方法的探索[J].中国教育信息化(高教职教),2002(7):54-55.
[2]丁智君.高校数字化校园的数据中心平台建设[D].上海:复旦大学,2009.
[3]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.3:88-100.
数据集成交换平台 篇3
关键词:三网融合,数字内容,内容交换,承载网
1 项目背景和目标
根据国家“十一五”科技支撑重大项目课题“数字媒体内容集成交换平台的研制”任务书要求, 基于国家广电宽带骨干网建立连接8个示范节点 (6个内容提供商和2个网络运营商) 的内容集成交换示范平台承载网, 为实现电视台、内容提供商和网络运营商间的数字媒体内容的在线共享和交换交易, 支持异构网络环境下多格式内容的分发的跨区域多运营商广播电视服务系统提供网络支撑。
承载网连接北京、上海、南京, 杭州、深圳、海口等的集成交换示范系统。交换平台系统结构示意图如图1所示。
2. 集成交换平台承载网系统设计
(1) 承载网的需求分析
内容提供商需要通过标准的接口将自己的内容支撑系统接入数字媒体内容集成交换平台, 通过该平台将内容输出给其它的内容提供商和内容运营商, 实现内容的共享和交换交易。内容运营商也需要通过标准的接口接入该平台, 根据需求从不同的内容提供商处获取数字媒体内容。
内容的共享互联是构建开放集成、资源共享的数字媒体内容集成分发平台所必须面临的重要问题。由于不同内容提供商拥有的内容资源不同, 管理方式不同, 服务对象不同, 如何建立与不同内容提供商的互联模式, 实现在统一规范接口之上的数字媒体内容资源互联与交换, 为分散异构的内容资源共享和交换提供基础性支撑, 是本项目的重要技术难点。
(2) 承载网设计
MPLS是一种在开放的通信网上利用标签引导数据高速、高效传输的技术。MPLS采用标签交换机制, 网络设备只需判别标签后即可进行转发处理, 提高了IP业务流转发效率, MPLS兼容现有各种主流网络技术, 可在提供IP业务的同时确保QoS和安全性。广泛应用的MPLS技术, 能够提供传统IP路由技术所难以支持的要求保证QoS的业务, 包括各种新兴的增值业务, 进而实现扩展和完善更高等级的基础服务。
为保证在多平台互联中实现多种媒介内容交互业务的高可靠性, 对网络的健壮性、有效性、可应用性、长时间运行等方面都有很高要求。本项目方案选取基于高可靠的电信级网络设备和合理的网络拓扑来构建多站点平台交换承载网, 企业客户将路由交给服务提供商来管理, 采用MPLS的三层VPN技术。通过这种技术, 各地方站点采用物理专线接入中国有线 (CCN) IP数据骨干网, 即可实现各示范站点与交换平台的1000M带宽的点对多点VPN专线互联, 从而获得方便、透明、快捷的多媒体业务安全传输服务。因此, 这个承载网络将是一个高性能、高可靠、而且经济安全的VPN专属网络系统。这种偏平化的网络结构设计, 便于网络规模的扩展, 具有很强的扩展性。承载网系统示意图如见图2。
(3) 网络地址规划
规划原则:
a) 采用互联网保留地址。
b) 与现有主干网络地址不重复。
c) 综合考虑专网的服务规模与业务扩展需要, 采用1个B类地址段来规划整个子网。
d) 为了便于规划和管理, 每个站点分配2个C类地址段。
具体方案:
a) 用户地址段采用互联网保留地址段10.10.0.0/255.255.0.0。
b) 中央交换平台使用地址10.10.0.0/255.255.254.0。
c) 其他站点使用地址10.10. (2~254) .0/255.255.254.0。
d) 网关互联网段统一为10.10.255. (0-254) /255.255.255.252。
专网用户IP地址分配情况参看表1。
(4) 承载网服务质量保障QoS
Qo S (Quality of Service) 服务质量, 是网络的一种安全机制, 用来解决网络延迟和阻塞等问题的一种技术。在正常情况下, 如果网络只用于特定的无时间限制的应用系统, 并不需要QoS, 比如Web应用或E-mail设置等。但是对关键应用和多媒体应用就十分必要。当网络过载或拥塞时, QoS能确保重要业务量不受延迟或丢弃, 同时保证网络的高效运行。
根据网络安全规划及信令控制与业务发布严格分离保障的设计要求, 在MPLS-VPN组网中将承载专网与公网业务有效隔离的基础上, 在运营商端边缘设备 (PE) 与终端配置接入设备 (CE) 间单一物理接入通道的条件下, 采用Diff-Serv模式对信令、业务发布两种数据分组进行带宽预留分配, 优先保障信令控制数据可靠转发, 根据业务规模动态调整带宽资源分配比例, 满足业务隔离、控制优先、发布可靠的承载网设计要求。
(5) 承载网扩展能力
在本项目专网构建实施方案中, 采用MPLS技术, 通过广电国干网数据平台将各个发布平台站点之间连接成一个互连互通、安全可靠的VPN网络。在整个实验平台VPN网络结构中, 拥有1个核心业务交换平台, 及8个实验发布平台/站点。将CCN-IP数据骨干网各省市业务汇聚路由器 (PE设备) 设置为运营商端边缘路由器, 各示范站点终端配置接入设备 (CE设备) 接入相应的运营商端边缘路由器 (PE设备) 。考虑带宽占用和现有设备及网络情况, 项目实验期全部示范站点采用Ethernet 1000M带宽接入CCN-IP数据骨干网, 完成实验平台组网。这种方式架构简单灵活, 路径保护安全, 使用成本低, 能有效的利用带宽, 满足在IP网络上传输高质量、高可靠性业务的要求。同时, 这种方式易于拓展与裁减, 尤其是对传输带宽的需求突然变化的时候, 只要在软件上修改配置, 无需做硬件调整, 就可以方便、快捷的实现。
(6) 用户终端接入设备选型
基于CCN-IP数据骨干网的高可信网络搭建多媒体业务分发交换平台, 用户CE设备必须完整支持线速转发、Qos标记与识别、扩展灵活等基本特性, 经过实验测试, 比照性能价格等因素, 采用Cisco 3845路由器设备配置为用户CE设备, 实现CE-PE的业务可靠互通。采用Cisco 3560G多层交换机用于各示范站点内部设备互联。
4 承载网系统部署
按照项目计划, 完成了集成交换平台承载网系统部署。承载网系统部署示意图见图2, DWDM系统拓扑结构图见图3, 内容交换中心平台、各示范节点部署见图4、图5、图6。
5 承载网系统测试
课题组委托国家广播电影电视总局广播电视计量检测中心, 对集成交换平台承载网性能进行了技术检测。
测试选取全部6个承载网接入点 (北京, 深圳, 南京、上海、海口和杭州) 作为测试站点, 测试内容为各示范节点到交换平台的端到端通道性能测试 (通道吞吐量测试) 。北京、南京、深圳、海口和杭州节点承载网边缘设备为Juniper M120, 上海节点承载网设备为Juniper M20。
(1) 通道吞吐量
测试环境见图7, 测试结果见表2。
6 承载网QoS测试
(1) 测试目标
匹配不同服务的流量, 对应保障一定的带宽。当链路发生拥塞时可以有预留带宽转发匹配的数据流量, 保障流量的正常转发。在Cisco 3845上做QoS, 用ACL匹配出两条数据流, 分别给这两条数据流分配不同的带宽, 达到用QoS控制预留带宽的目的。
(2) 测试环境
测试在两个环境中进行, 一个是纯实验环境, 没有经过任何外网;另一个环境是中间通过MPLS网络。
A.纯实验环境测试拓扑图 (见图8)
测试拓扑说明:
ftp server网关指向3845 g0/0口, FTP server的IP地址为10.10.0.4;左侧3560做客户端接入, 所有client在vlan 2里, 网关指向vlan 2地址10.10.2.1, 通过在3845上启用acl匹配client 1和client 2模拟两种数据流, 匹配client1的数据流打上dscp 56标记, client2的数据放入默认类队列里, 启用policy-map给client 1分配带宽为80M, client 2分配带宽为20M。
B.接入MPLS网环境测试拓扑图 (见图9)
测试拓扑说明:
首先, server端 (FTP server PC) 直接与3845 g0/0口相联, 左侧C3560做客户端接入, 所有client在vlan 2里, 网关指向vlan 2地址10.10.2.1, 通过在C3845上启用acl匹配client 1和client 2模拟两种数据流, 匹配client1的数据流打上dscp 56标, client2的数据流放入默认类里, 启用policy-map给client 1分配带宽为80M, client 2分配带宽为20M。
(3) 测试步骤
纯实验环境测试:
1) 搭建实验拓扑, 保证设备配置正确, 确定client可以正常访问ftp server;
2) client 2首先从server端下载数据, 因为限制client 2的带宽为20M, 实测数据client2的带宽稳定在17M-20M之间;
3) client 1从server端下载数据, 因为限制client1的带宽为80M, 实测数据clinet1的带宽稳定在74M-80M之间;
4) 因为client 1的数据为打标记的受保护流量, 所以定义它的策略为超出部分传输, 当网络中没有不受保护的流量时, client1的流量可以超过80M。
接入MPLS网环境测试:
1) 搭建测试环境, 保证设备连通, 保证client能正常访问FTPserver;
2) client 2首先从server端下载数据, 因为限制client 2的带宽为20M, 实测数据client2的带宽稳定在17M-20M之间;
3) client 1从server端下载数据, 因为限制client1的带宽为80M, 实测数据clinet1的带宽稳定在74M-80M之间;
4) 因为client 1的数据为打标记的受保护流量, 所以定义它的策略为超出部分传输, 当网络中没有不受保护的流量时, client1的流量可以超过80。
(4) 测试结果
client 1从FTP server下载的流量基本可以达到80M, 稳定在74M左右, 见图10。
Client 2下载流量基本可以达到20M, 稳定在17M-18M之间。, 见图11。
测试结论:在试验拓扑和接入MPLS网络这两个环境中, QoS配置与实现的效果一致, C3845都能较精确的控制相应的带宽流量。
7 结束语
数据集成交换平台 篇4
中医智能化诊断是根据中医的四诊理论,利用计算机人工智能技术进行中医证候的自动化诊断过程。在此过程中,计算机对中医知识的获取、表现方式及内部的推导机制是核心内容。中医的四诊包含望诊、闻诊、 问诊、切诊等诸方面。本研究主要探讨在四诊信息的获取中,四诊信息异构数据源的集成问题。
1异构数据源
当前数据信息源在形式上差别较大,无统一模式。 数据库类型、运行平台、数据格式、数据的加载和卸载方法等千差万别。在异构数据源环境中,有文本、Oracle, Sybase,SQL Server,DB2,Access等多种类型。
不同数据源有不同的存储结构、组织表达形式、信息描述等差异,进而造成数据的抽取困难。在异构数据源环境中,必须建立一个数据源与数据源之间的中间层,作为数据通信的中间接口。集成数据库的命令通过中间接口传送到不同的数据源;各数据源把发送的数据转换成中间接口的格式,通过中间接口发送到集成数据库中[1]。
2中医智能化诊断系统框架
按中医四诊原理,智能化诊断系统由舌诊、脉诊、面色诊、问诊及穴位诊等子系统组成,其构架如图1所示。其中,综合诊断系统与SQL数据库在服务器端,其他子系统位于不同PC的客户端。各子系统之间、子系统与综合诊断系统之间存在异构性。
3 XML数据交换技术
XML又称为可扩展标记语言(Extensible Markup Language),是一种元标识语言,提供了结构化资料的一种自我描述,是一种开放的数据结构。XML不但描述数据内容,而且描述数据的结构,使数据之间的关系得到很好的体现。XML具有结构化程度高、平台独立性强、保存格式简单、便于扩充延展及网上传输等特性, 因此XML非常适合于不同数据库间的信息交换。以XML为中介实现数据交换是当前研究的热点,正成为网络资料交换的标准。
XML数据交换,一是从数据源中抽取交换的数据, 转化为XML交换文档;二是对交换文档的格式进行转换,并映射数据源和目的库中的相关字段,进而把数据载入到目的库中。在不同的应用系统中,采用统一的XML标签和格式生成XML文档,是实现数据动态交换的基本要求。
目前常见的数据交换技术主要有[2]:EDI系统、中介层、数据仓库和中间数据等方式。XML采用中间方式,利用XML文件作为中间数据,提供数据通用格式, 达到数据交换的目的。
4基于XML的Web异构数据源之间的数据集成
数据集成是将多个数据库、数据多维立方体或一般文件中的数据,存放在一个格式统一的数据库中。
在数据集成的逻辑关系中,Web服务在客户与数据仓库之间。客户层必须经过XML接口访问数据源数据,保证了源数据的安全。标准XML编码,能很好地支持异构数据源之间的数据交换;同时,基于HTTP和SOAP协议的Web服务技术,让数据可以无障碍地越过防火墙。逻辑结构如图2所示。
元数据(Metadata)是“关于数据的数据”,是对数据源信息的描述[3],是标准的XML文件。 元数据字典(MDD)对元数据进行管理,依靠XML的XML Schema技术设计和建模,与公共数据模型保持一致性,方便与XML数据集成器合作。元数据字典必须注册所有参与的数据源。
XML数据集成器并不存储具体数据,只存储所有数据的集成模式。XML数据集成器,对客户层屏蔽数据源的差异,向客户层保证相同的数据视图,充当数据总线,把实际数据源转变成用户数据视图。对不同数据源的数据,用XML Schema技术设计一个公共数据模式(Common Data Model,CDM)进行统一处理。不同数据源有不同的模式,对他们进行集成时,数据字典(MDD) 是解决他们异构性[]的重要方法。
(1)命名异构:一是相同的对象和属性在不同的源数据中用不同的名字表示(异名同义),二是不同的对象用相同的名字表示(同名异义)。命名异构成为不同模式之间语义冲突的重要原因。在设计集成系统时,必须在元数据字典(MDD)中利用一个统一的名字表示每个数据源相应的字段。例如商品的价格,在两个数据源中, 一个用price,一个用cost,在MDD中统一用Price表示。
<Field name="Price" type="String">cost</Field>
(2)结构异构性:指元数据信息的组成方式在数据源间各不相同。用定义全局模式的方法解决。关心的数据成分在全局模式中定义,并许可在集成数据时让某些成分为空(Nul1)。
例如,在定义全局模式时,允许价格(Price)为空。
<Element Typename="Price" content="text Only" dt:type= "String" Nullable="yes">
·····
</Element Type>
(3)值的异构性:数据单位、数据精度在不同的数据源中不同。可以在元数据中定义数据单位、数据精度,进而与全局模式中定义的数据进行响应转换。
<Field name="Price" type="Float" unit="$">price</Field>
(4)数据模型的异构性:不同数据源通过各自的Wrapper/Agent解决数据模型的异构性。首先定义一个公用的统一的数据模型(CDM),再把从单个数据源中提取的局部数据转换成CDM中间模型数据。事实上,单个数据源通过自身的Wrapper/Agent结构,就能把从中提取的局部数据转变成符合CDM要求的XML文档数据。
(5)时间异构性:随着时间的推移,数据源的结构描述、属性表示和取值发生变化。可以通过MDD管理软件对数据源的元数据描述进行增添、删除或修改。
5 XML数据集成技术与中医智能诊断系统
在中医智能化诊断系统,各子系统数据库采用不同的技术标准和不同的软硬件平台,因此各数据库类型与结构之间存在很大的差异。用“虚拟集中”的方式管理数据,即通过XML数据集成器对数据请求进行存取访问。
在智能化诊断系统中,舌诊系统用SQL server数据库,面色诊、问诊、脉诊系统用access数据库,穴位诊系统用txt文本数据。服务器的数据仓库用SQL servers数据库。它们之间有异构性。
如在舌诊系统中,有关舌象的信息在Tongue表中, 有如下字段:
在服务器的数据仓库中有关舌诊的信息在t Lingua表中,有如下字段:
两个数据库系统的结构不相同,需要进行名称对应的转换和值对应的转换,部分XML文件如下:每一个末节点有两个属性,其中client是相关节点在客户端的值或字段名,server属性是服务器的数据仓库中的值或字段名。
由于各子系统提起的信息量不大,客户端浏览器以Get方式发送请求,Web服务器端解析客户端送来的字符串,参照上面的XML文档,利用XML文档对象模型(DOM),进行相关字段和值的转换工作,最后把处理好的结果用ADO技术写入服务器端的数据仓库。
6结语
数据安全交换平台的研究 篇5
一、新型数据安全交换系统的设计思路
该新型数据安全交换系统按以下思路进行设计:网闸负责在网络层进行内外网之间的安全隔离和访问控制;内外网数据交换平台负责在应用层代理内外网之间的数据交换以及数据交换的访问控制与安全审计。网闸、内外网数据交换平台可综合采用并行处理、多机热备和负载均衡等技术, 以加强数据交换的吞吐能力, 保证数据交换的可靠性、可用性和扩展性, 满足当前和未来业务发展对数据交换性能的需求。
二、新型数据安全交换平台的架构设计
1.内外网数据交换平台通过专门的应用软件实现数据交换, 可运行在各种开放的操作系统 (如IBM RISC/6000或其他使用Unix操作系统) 的服务器上。它集成了大型数据库系统, 采用消息队列中间件作为主要通信方式 (BEA Message Q, IBM MQ) 。
2.交换平台采用J2EE架构, 提供统一的报文、二进制文件、XML报文、邮件等多种通模块之间具有非常弱的偶合性, 在功能、性能和安全等方面均具有良好的灵活性和扩展性, 能够不断适应信息化发展过程中新的业务及其安全需求。交换平台由业务接入模块、交换引擎模块、通信适配模块、监控管理模块和安全认证模块组成。
3.内网和外网数据交换平台。它为网闸提供单一私有通信协议, 并为内外网交互的系统提供统一模式的规范接口, 而且分别在应用层负责本端数据外流的合法性检查, 即在数据流出内网和外网安全域之前, 进行数据外流的合法性检查, 在体系结构上保证了数据交换的安全。
4.内外网数据交换平台基于可靠的消息传递机制, 实现报文在各个应用系统之间可配置的格式转换, 交换路由和事务完整性保证功能。在提供用户可配置方式使用交换平台的同时, 也允许用户扩展交换平台, 实现客户化的工作。整个交换平台架构从下到上分为四层:
(1) 网络通信协议层, 提供系统最底层的通信保证。
(2) 消息中间件层, 提供系统可靠的消息传递机制。
(3) 交换中间件层, 提供格式转换、交换路由、事务完整性保证等功能。
(4) 客户化层, 提供用户扩展接口, 实现用户客户化要求。
5.交换平台应用系统可以分为三层体系, 即平台核心层、前置与通信层和外部应用层。
平台核心层是指交换平台所提供的核心服务和核心API;前置通信层是指与外部应用进行通信, 并调用核心服务或者核心API完成交换转发的中间层;外部应用层是指独立于交换平台的客户应用系统, 客户通过定义交换平台对这些外部应用调用的次序, 实现报文在这些应用之间的流转, 从而实现指定的交换流程。本层的应用完全由客户提供, 并通过前置通信层接入交换平台。
交换平台三层之间的关系是平台核心层提供核心服务和核心API以支持前置通信层的开发, 前置通信层调用核心服务和核心API实现交换在各外部应用之间的转发, 并负责和外部应用层之间的通信;外部应用层提供真正实现交换的客户应用系统, 并通过前置通信层实现交换报文的转发。外部应用层通过前置通信层接入核心, 并不与平台核心层直接发生连接。
三、新型数据安全交换平台的数据交换机制
本系统的数据交换机制是基于消息总线的交换, 能够实现报文、数据文件、图像、数据库等各种类型实时、批量交换。内外网数据交换平台由消息队列和核心交换处理两大部分构成。核心交换处理可将各个系统有机结合在一起。同时交换平台之间能够相互连接, 实现交换平台的互联。
参考文献
[1]杨剑, 唐慧佳, 孙林夫, 王胜银.基于XML的异构数据交换系统的研究与实现[J].计算机工程.2009 (19)
数据集成交换平台 篇6
为促进与完善高校各部门管理工作的数字化、规范化和科学化, 推动数字化校园的全面建设, 各高校分别在保留原有系统的基础上将各个应用子系统进行整合集成为一个整体。由于各应用子系统所使用的系统及数据库不尽相同, 可能同构, 但更多的是异构系统, 因此需要建立一个公共数据交换平台, 将原有各系统数据整合到公共数据库, 同时各系统可方便调阅公共库中的数据进行应用, 从而形成一个无缝数字化校园体系结构。
1 数据交换平台的设计原则
1.1 遵循统一的数据交换标准
数据交换平台的目的是在数据中心和各业务部门等原有业务系统之间交换数据。由于各原有系统的技术构架不同, 信息的表示也各不相同, 要在这些不同的系统之间交换数据, 首要的问题就是定义一种标准的数据格式及数据交换的规范, 以方便实现不同硬件平台、不同操作系统平台、不同语言平台应用之间的平滑通信。
1.2 支持异构系统、异构数据库的交互及数据存取
数据交换首先涉及到如何与各级部门、各异构系统及其异构数据库进行交互, 实现数据的存取。能够对各级部门、各业务系统的数据库定义数据抽取规则, 从而实现自动地从各级部门的数据库或相应业务系统中抽取公共数据库所需的数据。数据存取的需求具体可归纳为:支持多种异构数据库, 如主流的关系型数据库包括:Oracle、SQL Server、DB2、Sybase等;能够集成各种异构的业务系统, 通过接口实现与应用的交互, 完成数据的存取, 如Web Service接口、文本型数据库接口;
1.3 信息传输
支持灵活的数据交换方式:可以根据不同部门的情况, 对于不同类型的数据有不同的更新要求, 可分别灵活采取多种数据上传的方式, 比如, 对于信息变更频繁的数据, 能够实现实时更新, 而对校园中变动不是很频繁的数据, 如人事数据、设备数据, 则实现定时更新, 如可定义每日上传一次, 或每周一次。对于数据上传的时间, 也可灵活定义, 如为了避开网络高峰, 减少对系统的影响, 可定义在晚间及凌晨等系统和网络均比较“空闲”的时候来进行数据的同步;支持大数据量、支持跨平台、跨多种网络模式的分布式数据交换;有高可靠性和和安全性。
1.4 数据转换
平台需要能够适应各系统数据内容和格式的变化, 提供可视化的转换配置界面, 并实现各系统数据与中心标准数据之间灵活的转换。
1.5 质量控制
能够对交换数据进行验证和质量控制, 能够根据一定的规则, 进行数据验证, 验证数据是否符合入库要求;能提供完善的日志。
1.6 数据交换的安全
支持对敏感数据进行加密传输。
2 数据交换平台中的数据整合模式
根据不同子系统的数据库, 可以建立图1所示的整合模式。在该模式中的公共库选用Oracle (9i/10G) , 应用系统业务库包含Oracle8i/9i/10G、DB28.1.2/8.2、Sybase11.5/12、SQLServe2000、DBF、A CCESS、EXCEL等, 其整合线路可以定义为3类: (1) 基于业务库表进行ETL抽取输入公共库 (A、ETL抽取) ; (2) 基于业务库输出虚视图进行ETL抽取输入 (B、ETL抽取) ; (3) 基于业务数据源文件或中介文件进行ETL抽取输入 (C、ETL抽取) 。
其中A类线路的适用于业务库遵循执行标准规范、两个数据库系统网络连接有保障、业务库能为公共库提供需要公共的表的读取帐号的情况;B类线路适用于业务库遵循执行标准规范、两个数据库系统网络连接有保障、业务库能为公共库提供该视图的访问帐号、公共库能够明确给出业务库输出格式要求、业务库能依据公共库整合的要求建立输出视图的情况;C类线路适用于公共库不能直接访问业务库、应用系统能依据公共库整合要求提供输出文件、业务库能为公共库管理员提供文件结构说明的情况。
4 平台中数据的订阅模式
要将公共库中的有用数据调入各子系统中加以应用, 需要制定数据的订阅模式。根据系统的不同, 制定了同构系统的订阅模式和异构系统的订阅模式。
4.1 同构系统的订阅模式
在同构系统的订阅模式 (图2) 中, 公共库和业务库都选用Oracle (9i/10G) , 其订阅线路为: (1) 应用系统基于公共库数据表的ETL抽取 (A、ETL抽取) ; (2) 基于公共库数据表的增量快照输出 (B、增量快照) ; (3) 基于公共库数据表跨库视图输出 (C、跨库视图) ; (4) 应用系统基于公共库视图的ETL抽取 (D、ETL抽取) ; (5) 基于公共库视图完全快照输出 (E、完全快照) ; (6) 基于公共库视图跨库视图输出 (F、跨库视图) ; (7) 基于公共库数据文件输出 (G、文件输出) 。其中A线路主要适用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共表读取帐号的情况;B线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行的情况;C线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行的情况;D线路主要适用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共输出视图的结构和读帐号;E线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行;E线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行的情况;F线路主要适用于应用系统能处理中介数据文件的情况。
4.2 异构系统的订阅模式
异构系统的订阅模式 (图3) 中, 公共库用Oracle (9i/10G) , 业务库可能是Oracle8i DB2 8.1.2/8.2、Sybase 11.5/12、SQL Server2000、DBF、ACCESS、EXCEL等, 其订阅线路为: (1) 应用系统从公共库数据表中抽取 (A、ETL抽取) ; (2) 基于公共库数据表跨库视图输出 (B、跨库视图) ; (3) 基于公共库视图应用系统ETL抽取 (C、ETL抽取) ; (4) 基于公共库视图跨库视图输出 (D、跨库视图) ; (5) 基于公共库中介文件输出 (E、文件输出) 。其中A线路用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共表读取帐号;B线路用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行;C线路用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共输出视图的结构和读帐号;D线路用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行;E线路用于应用系统能处理中介数据文件。
5 结语
在数据整合的过程中, 建立有效安全的数据交换平台是关键。在该平台的公共数据库基础上逐步形成的数据仓储, 将为高校的决策和分析提供更好的支持, 从而加快高校的教育信息化进程。
参考文献
[1]许鑫, 苏新宁.高校共享数据中心平台的设计与实现[J].现代图书情报技术, 2005 (6) .
[2]黎小红, 田富鹏.异构数据库中数据集成技术研究[J].西北民族大学学报 (自然科学版) , 2006 (4) .
[3]段永威, 秦峰.异构数据源数据转换工具的设计与实现[J].现代图书情报技术, 2004 (4) .
[4]董向辉.分布数据整合与共享中的关键问题及解决方案研究[N].吉林大学硕士学位论文, 2004.
数据集成交换平台 篇7
20世纪90年代以后,Web应用遍及全球,网络深入人心,数据库日益普及。大型机构由于分支机构不断变化、产生,原有集中式应用模型不能适应新环境,分布式数据库成为主要研究方向。企事业单位不能真正解决信息孤岛问题[1],信息化建设很难成功,真正发挥应有作用。为消除信息孤岛,实现信息共享,迫切需要建立一种公共环境,对用户提供统一、透明的访问界面,信息集成研究因此而起。历经十多年信息化工作积累,信息化程度已初具规模,为了能共享数据,可以建立统一的数据交换平台实现。交换平台为系统提供了基于XML的数据交换机制,可以直接为全局的应用系统提供信息交换服务,是实现信用信息系统业务功能的技术基础。同时,为了能更充分利用现有系统,可采用Web服务和中间数据库构建数据交换平台。
1 异构数据库
1.1 异构数据库系统
异构数据库系统是相关的多个数据库系统集成,实现不同数据库之间数据信息资源、软硬件设备资源和人力资源“并轨”共享,。为各种系统提供集成、统一、安全、快捷的信息查询、数据挖掘和决策支持等服务,实现数据(主要是异构数据)共享和透明访问。每个数据库系统在加入异构数据库系统前就已存在,拥有自己的DBMS(Data Base Managment System)。异构数据库各组成部分具有自身的自治性,实现数据共享的同时,仍保有自己的应用特性、完整性和安全性控制。异构数据库系统的异构性主要体现在三个方面:系统异构、DBMS异构和逻辑异构[2]。
1.2 异构数据库的发展和特征
数据库技术的出现为信息管理带来了新手段。作为计算机科学技术发展最快、应用最广泛的重要分支之一,数据库已成为计数机信息系统和应用系统的重要技术基础和支柱。数据库技术发展大致经历了三个阶段,在发展第二和第三阶段,分布式数据库系统(Distributed Databses)基本解决了集中式数据库系统的弊端;但对不断发展的大型机构,由于发展阶段、应用目的不同等原因而产生的不同数据系统,有机地结合在一起共同工作仍存在问题,这便首次产生了异构数据库系统的研究需求。在20世经90年代,数据库发展面临新挑战,在Web、新的应用需求及硬件技术飞速发展情况下,web提供一个集合异构数据源平台;Web发展促进了异构数据库系统理论进一步研究和发展。异构数据库系统是对分布式数据库系统的继承和发展,二者既有相同之处又有区别。最根本的区别在于:分布式数据库系统只拥有单一逻辑数据库,虽然可以在物理上分布,但只有一个DBMS为其服务,提供一致的查询与更新,严格说,各分布子系统是同构的;而异构数据库系统则以多个异构、自主的数据库系统为基础,通过一定程度集成而构成一个分布式数据库系统。异构数据库特征则可从以下三方面说明[3]:
(1)分布性。
异构数据库系统各组成部分是分布在不同位置的各种自治数据库系统,通过通讯网络建立各部分之间连接。系统的数据保存在分布的数据库系统中,可以以各不相同方式保存,没有严格逻辑要求。每一个独立自主的数据库系统只是整个异构数据库系统中的一个网络结点。
(2)异构性。
排除数据库宿主系统的异构性,异构数据库系统的异构性主要由两方面产生:
(1)数据库管理系统(DBMS)的异构:由于组成系统的各数据库系统可以不同,因此形成了DBMS的异构,这种异构实质上可分为三个方面:
A.结构不同:根据不同的方法论,DBMS采用不同的数据模型和数据结构,反映在物理上的存储方法也可能不同。例如层次数据库与关系数据库。
B.数据存储种类异构:相同或相似的现实世界数据,存在表达多样性,因此不同数据库系统存储方式不同,可以是数据类型、范围、精度以及组成部分的异构。例如:在一个数据库中可以采用整型表达的数据,很可能在另一数据库中采用字符串表示,而在第三种数据库中则变为某种对象的一个属性。
C.关系表达异构:由于不同环境及需求,事件中两个事务之间关系可从多方面理解,由此造成在数据库中关系表达的异构,这种异构与该数据库系统采用的数据型或密不可分,可能出现同一数据的不同分割和组合以及关系连接。
(2)数据遗漏及冲突:不同的应用对数据对象的不同侧面要求不同,很可能在某领域内非常必需的数据在另一环境中却可以忽略,或者实际上是另一种数据,所以数据遗漏和冲突在所难免。
(3)自主性。
构成异构数据库系统各子系统具有各自的自主性,拥有对自身系统内各种资源使用的权利,包括设计、执行、修改等,同时拥有与其它系统交互的权利,包括加入、退出、通讯、提供服务等。它们有权利接受外来服务请求,也有权利拒绝请求服务的权利。但在这些权利与承诺的系统义务之间必须有机结合。
2 数据交换平台的总体设计
2.1 系统的体系结构
由于各业务系统是异构的,首先必须定义一个统一的XML文件数据标准进行交换。考虑到旧系统改造和新系统扩展方便性,本文采用的数据交换系统结构如图1所示[4]。
首先,各业务系统按自身系统数据结构情况开发应用程序,以共同的数据标准规范,将要共享的数据生成合符要求的XML文件;然后将XML文件通过数据采集接口模块传输到数据交换平台。这样,外部系统就可通过查询请求查询到平台中间数据库中自己需要的数据,从而达到数据共享目的。下面,对图1数据交换系统架构四大部分作一简析。
(1)业务系统:是指企业内部各业务系统,负责将自身系统需要共享数据转换成规范的XML文件。它是共享数据提供者,又是共享数据使用者。
(2)外部系统:是指需要查询共享数据并具有对应权限的用户系统。
(3)数据采集模块:是数据交换系统重要组成部分,包括传统采集接口和Web Service接口两种方式,将要传输的数据采集出来,送到数据交换平台处理。
(4)数据交换平台:是数据交换系统重要组成部分,由原始数据池、平台中间数据库及核心处理模块三部分组成,负责XML文件的处理和存储。
数据采集模块和数据交换平台是系统实现数据共享的核心部分。
2.2 数据交换平台
数据交换平台负责所传输到达的XML文件转换和存储操作,其中包括原始数据池、核心处理模块和中间数据库三部分。
(1)原始数据池。
它是数据缓冲池,在采集模块和核心处理模块之间起缓冲作用;负责将从数据采集接口模块中采集到的数据以XML形式分类暂时存储[5],在核心处理模块空闲时再行处理,处于数据交换和存储模块最前方位置;数据按各业务系统分类存放,各业务系统都有自己对应的文件夹,XML文件暂存在文件夹里,如果在获取数据过程中有错误发生时,将错误信息打包成XML文件,发送到错误反馈信息子目录中。
(2)核心处理模块。
它是数据交换的中心,是连接原始数据池、数据库和外部系统的纽带,负责XML数据处理和数据库数据转换,包括两种功能:
(1)从原始数据池传输过来的XML文件,按照规定的数据结构存放到中间数据库中。(2)根据用户查询请求,将需要的中间数据库的共享数据处理组合成XML文件,传输给用户使用。
这里涉及XML文件到数据库之间数据转换问题。由于原始数据池中数据以XML文档形式发送到平台中间数据库,假如将整个文档原封不动存储到数据库中,就会切断数据与数据之间联系,且难于管理和维护。因此数据交换平台中使用的是按XML文档结构层次拆分的,分别存于不同的表或字段形式当中。
(3)中间数据库。
它是业务系统上传的共享数据集中存储的地方,是由核心处理模块处理后的共享数据。各业务系统只要将自己的数据按照一定通用格式如XML提供出来,完全不用改变原来数据库结构。中间数据库,方便了网上检索需要,易于操作。这一方式使各业务系统对自己的数据有完全的控制权[6]。如果用户需要查询信息,那么对应的数据信息将从中间数据库取出,并经核心处理模块进行从数据库结构到XML文件的处理,将XML文件传输给用户,在用户的系统中被处理和显示。
中间数据库的数据表分为两大类:基本码表和用户表。码表用于维护系统中基本不变的数据,包括性别、民族、职务、国家、提交方式、办结结果、特别程序种类、特别程序结果等。用户表用来维护用户日常经常操作的数据,主要包括申请人信息表、申请企业信息表、受理信息表、业务信息表、业务规则信息表、补给信息表、审批是想信息表、经办人信息表、办结信息表、特别程序信息表等。
3 结束语
Web技术及Internet的飞速发展,使产品信息集成要求迅速与新兴技术相结合;但由于信息来源多样化,产生了大量异构数据。如何使各种应用程序能够透明地操作多种数据源,在应用程序和各数据源间建立传输信息的纽带,对实现信息化至关重要。本文探讨了基于XML的企业信息集成问题,可为企业间信息共享提供良好的理论支持。
参考文献
[1]熊光楞等:《并行工程的理论与实践》[M];清华大学出版社,23-24。
[2]李黎:《基于XML的异构数据库数据集成技术研究》[R];四川师范大学计算机科学学院,2008:5-7。
[3]C W Chung.“DATAPLEX:An access to heterogeneous distributed databases”[M],Comm.——ACM,Vol.1No.1.2002.
[4]李阳:《数据交换系统设计与实现》[R];北京交通大学,2006:21。
[5]Charles F Goldfarb.《XML实用技术》[M];清华大学出版社,1999:56-58。
数据集成交换平台 篇8
8月23日,全球领先的独立企业数据集成软件提供商Informatica公司,在广州成功举办了“智汇数据集聚价值——2012 Informatica全球巡展”活动。会上,Informatica高级管理层与来宾深入探讨了IT产业的变革、数据集成的挑战和影响行业发展的重要趋势,并向中国用户全方位展示了Informatica最新数据集成平台中的创新亮点,并通过示范展示Informatica如何帮助企业充分利用其数据,以帮助企业实现大数据的最大回报。
Informatica高级副总裁兼首席信息官托尼·杨在会上表示:“Informatica作为数据集成方面的专业领袖,推出了一系列全面而先进的数据管理解决方案,能够帮助企业提升大数据的价值并同时减少成本,从而实现大数据的最大回报。”
在新的技术趋势下,由于具备大容量、多结构化、增长速度快和价值密度低等特点,大数据处理不能使用传统流程和架构来处理,需要借助新的技术手段和管理思路。Informatica最新推出的数据集成平台Informatica 9.5,拥有令数据变得更可信、更及时、更具权威性、更易访问、更全面及更安全的创新功能,从而可在多个方面提升大数据价值。
【数据集成交换平台】推荐阅读:
空间数据集成05-20
企业数据集成09-02
Web数据集成07-03
数据集成和变换12-16
数据库集成技术07-14
集成系统数据管理07-12
高校数据中心走向集成08-04
数据交换与交换平台05-23
数据交换平台08-08
浅析GIS多源数据集成模式论文07-23