异构系统融合

2024-06-08

异构系统融合(精选8篇)

异构系统融合 篇1

1 概述

1.1 项目背景

安徽播控中心现有广告系统、广告串编系统、播出系统、播出制作域系统、字幕系统共同承担广告、宣传片、角标字幕、节目播出等任务,由于建造年份不一致,以及限于以往建设时技术条件的限制系统之间没有网络互连,且建设厂家不同,系统为异构系统,每一个系统在功能上自成体系,但系统与系统之间无法通信,元数据信息无法共享,原有的广告串编系统、字幕系统不能适应未来节目制作播出的需要。比如:字幕系统虽然播出条目时间和播出系统串联单时间条目一致,单由于字幕系统和播出系统是异构系统不能够自动读取播出系统的串联单,也不能使用总编室送来的串联单,字幕编单人员就要重新进行编单,造成工作重复、人力资源浪费。同样广告系统也使用自己独立的编单方式,各个频道也都有自己的编单软件,规则和格式都无法统一。

因此该项目的主要计划分两步一是新建三个子系统,分别是全台编单子系统、广告整备子系统、在线包装子系统。二是对播出子系统、播出制作域子系统、广告子系统、编播域网络安全子系统进行升级改造。

1.2 系统实现目的

①传递信息统一用电子单,实现编播域内部子系统之间的业务电子化、资源共享;②建立编播域高安全区网络安全子系统,保障编播域核心系统安全;③建立广告整备子系统作为广告子系统与播出子系统之间的桥梁;④新建在线包装子系统,代替原有字幕系统的工作,同时完成与编播域的系统互联。

2 系统设计

编播域全台编单异构融合平台是根据安徽台原有广告系统、广告串编系统、播出系统、字幕系统、播出制作域系统、串联单编辑系统六个系统的实际情况(如图1所示),为了提高工作效率、保证系统间协同工作、全台编单统一标准化、资源整合再利用而进行的系统级别的升级改造或重建,最后将各个独立无关的7个系统融合成一个编播域全台编单异构融合平台,它包括6个业务子系统,分别是全台编单子系统、广告子系统、广告整备子系统、在线包装子系统、播出制作域子系统、播出子系统和一个编播域网络安全子系统组成。

6个系统的融合包括业务融合和信号流程,融合方式从四个方面入手分别是通信规则、素材传递、电子单规范、信号传输。

2.1 业务融合流程设计

编播域全台编单异构融合平台的设计目的主要是在各个子系统间建立桥梁作用,将广告子系统、广告整备子系统、播出制作域子系统、在线包装子系统、播出子系统五个异构子系统通过全台编单子系统有机的融合起来,各个子系统的业务信息通过电子单在各个子系统之间传递。下图为电子单在业务系统间传递流程图所示。全台编单系统制作的电子串联单(以下简称“电子单”)

全台编单系统导出的电子单为excel格式,通过邮件发送给播出子系统和在线包装子系统,根据《电子串联单使用规范》,广告子系统和播出制作域子系统中的节目命名必须和全台编单系统中的命名规则一致,才能完成节目单中的素材查找与自动匹配。

广告子系统将素材信息和广告单通过编播域网络安全子系统中的多重杀毒,再通过U盘摆渡通过堡垒主机进入到由广告备播子系统、播出制作域子系统、播出子系统组成的高安全区内。广告备播子系统根据素材信息完成素材的基带信号上载,将广告单发送给播出子系统供播出子系统中的上载系统进行节目素材的合并。

广告备播子系统在向播出子系统推送素材时,要先向播出子系统提取节目单信息,并且比较播出子系统数据库中存在的素材,当播出子系统数据库中显示素材为空时,则启动素材推送流程,如果素材已经存在于播出子系统中,则告知播出子系统素材已经传送完毕。

在线包装系统接收全台编单子系统的excel格式的节目单,先进性预编单,在播出线上调单后,在通过串口接收播出线上的实时播出单,将实时播出单和预编单中的条目信息进行时间、名称匹配,完成节目单的编辑。

2.2 信号流程设计

编播域异构融合系统采用电子单来融合各个子系统的业务,最终目的还是要将节目素材或节目信号送入播出子系统中,供播出系统使用。如下图编播域异构融合系统信号流程图

在广告备播子系统上载的广告素材由广告备播子系统查询播出子系统节目串联单和数据库后,如果该素材在播出子系统已经提交的节目串联单中,且播出子系统数据库中没有该素材,则启动推送文件服务。如果素材不在已经提交的串联单中,或者播出子系统数据库中该素材已经存在,则告知播出已经素材已经传送过。

在播出制作域经过编辑的宣传片,可以通过手动操作推送到播出子系统,但宣传片的名字必须符合《电子串联单使用规范》中的《节目名称命名规范》,否则即使素材推送到播出子系统,也无法完成节目素材的正确匹配。

对于广告备播子系统和播出制作域子系统来说,传输网络在高安全编播域内,且与外界交接的内容较少,通过编播域网络安全子系统的检测进入系统。素材基本通过基带信号上载的方式上载到两个子系统形成素材文件后通过以太网传输到播出子系统。在线包装系统由于和外界经常交换短信素材、角标模板素材,电子单,且通过U盘和网络传输,所以放在编播域高安全区之外,输出信号直接采用基带信号送到播出子系统。

3 经济效益

整个项目已经完,6个业务子系统能够很好的协同工作,全台所有频道都使用全台编单子系统进行节目制作,使用时间接近2年;所有频道的广告素材都通过广告整备子系统自动提交到播出子系统,使用时间超过1年;在线包装系统已经在卫视频道、高清频道开始使用。播出子系统、播出制作域子系统、广告子系统子2013年建成后,适当增加接口服务器、迁移服务器等一直稳定运行。

该系统节省了大量的人力资源,广告时长串编时长从每天传输460分钟下降到30分钟以下,广告条目串编修改量从1300多条下降到几十条,节目审核也从1300多条下降到只需审核新更新的几十条广告条目。原来15个人的工作,现在只需要3个人即可完成。总工作量下降到原有工作量的十分之一,日更新量下降到原有更新量的二十分之一。在线包装(原字幕)编单工作量由原来每天要检查4000多条的节目时间变为自动匹配,人工编辑条目有4000条减少到2000多条,工作量缩减到原来的一半。

摘要:安徽台播控中心编播域内原有广告子系统(广告管理系统)、广告串编子系统、播出域制作子系统、字幕子系统、播出子系统五个子系统,这个系统的数据库相互独立,没有信息交换,对信息共享、资源重复利用很不方便。因此通过建立编播域全台编单系统,将所有子系统之间信息都通过电子单来传递,同时增加广告整备子系统、在线包装子系统、网络安全子系统,提出编播域高安全区的概念,使得原有的分散的子系统之间能够相互合作,有机融合,成为一个宽泛的业务运营平台。

关键词:编播域,异构融合,全台编单

参考文献

[1]徐威.数字电视网络制播技术(实用电视节目制作与播出丛书)[M].北京:广播电视出版社.

[2]梁彦.播控中心广告备播系统设计[J].西部广播电视,2016(5).

异构系统融合 篇2

【摘 要】水对于人类社会发展而言意义非常,不论是人类的日常生活,还是工农业生产都离不开水资源。特别是在现代社会发展中,随着人民物质生活水平的提高和对生产资源的不断提升,对水质的要求也越来越严格。人类对水资源的处理历史悠久,可以追朔至两千多年以前,但是一直以来这种处理方法都仅仅局限于小规模、家庭为主的水处理工作中,而面对大型供水企业的生产处理就显得有些无力了。为此,在这里我们有必要对供水企业传统自动化系统进行改造,并提出有关改造思路。

【关键词】供水企业;网络技术;信息技术;系统集成;计算机技术

随着我国城市经济的发展和城市化步伐的加快,自来水供应在城乡建设中的应用越来越普及,已经成为人类日常生活用水的主要来源。在这种时代背景下,国内各地兴建了许多大规模水厂,同时也有很多的水厂在扩建和改建当中,通过系统改造和处理我们不仅可以节省更多的人力、物力和财力,同时更是符合了我国未来国情发展需求。当然,与新建水厂相比较,传统的供水系统改造技术是一个难度更大、更为复杂的工程。这主要是因为水厂改造工作中新旧技术结合难度大、新旧设备的共用繁琐、磨合期较长等,但是它在建成之后可以成功的解决各种难题,且减少新建水厂所消耗的各种费用,有着良好的社会经济效益。为此,在当前的工程施工建设中我们有必要对供水企业自动化系统改造工作进行研究,以保证其工作效率的发挥。

1.供水企业自动化系统现状分析

供水企业和其他行业一样,自出现以来就一直在不断的钻研和革新,不断的向着现代化方向发展,其工作效率、生产能力和水质净化效果也在不断的提高,时至今日日产百万吨以上优质自来水的超大型水厂早已经屡见不鲜。但是维持如此大规模的水厂运行且需要保证出水质量,对处理工艺和自动化水平都提出了很高的要求。水厂的生产技术一般都是经历了上百年才成熟的,其基本上都是采用混凝沉淀、过滤进而消毒的系统化处理技术。在水厂的处理过程中混凝剂的采用通常都是以铝盐、铁盐为主的,是利用凝聚原理将原来水质中存在的各种悬浮颗粒进行处理,然后在采用沉淀法进行过滤和消毒,从而进行优化。在近十年来的社会发展中,随着进水里了的发展,各工艺逐渐完善,使得原来供水企业自动化系统中的问题也越来越突出,其具体表现在以下几方面:

1.1给水自动化系统起步晚

我国给水自动化系统由于起步较晚,虽然发展很快,但是与发达国家相比较在技术上还存在着明显的不足,供水标准显著较低,而且随着人们生活水平的提高和对用水量的增加,传统的给水自动化处理系统在应用的过程中逐渐出现了无法满足社会发展的现象,因而需要在应用的过程中做好相应的改进和处理工作。

1.2设施问题

在原先的水厂给水自动化系统中,大多数的一级泵站因为远离水厂而采用了无线电通信传播技术,其他各个泵站都是采用环境的光纤来相互连接的,在这个时候因为当时光纤技术的不够科学,造成了信号在传递的过程中兼容性差,没有提供集成接口,这就造成了在可编程控制系统的应用中存在着工作上的漏洞,同时更是不存在专门的管理程序,为此在施工建设中有必要对这种问题进行改进和优化。

1.3人员管理上存在的问题

随着信息技术的发展,供水企业自动化建设已经有原有的企业业务信息化逐渐转换成企业信息流的自动化管理,即利用信息化技术将供水管理系统、人事管理系统、仓库管理系统等企业供水系统中相互孤立的环节有机的组合起来,从而形成一个有效的集成,最终采用现代化信息技术来进行简化,让企业供水系统各环节在工作的过程中都能够得到有效的控制,从而为整个供水系统的管理自动化提供扎实可靠的理论基础。

2.新老异构系统的网络集成

新系统要兼容集成老系统,就必须要做到与老系统的网络互联互通,这样才可能从老系统中获取数据和控制老系统。但是老的PLC系统采用专有光纤环网,并不提供对其他标准网络的接口,其驱动程序只对上位机应用提供DDE接口。而且随着PLC的停产,相应的文档也难以查找,这给两个系统的网络直接互通带来了困难。一般情况下,不同网络之间的连接可以通过建立能够和两种网络都连通的网关来实现互通。本系统即是采用这一思路:在上位机上开发网关软件,实现两个网络协议之间的转换。也就是将A(B)网的数据包转换成B(A)网的数据包使之在B(A)网上传播。上位机同时与这两个网络相联接,分别在两者中读取、写入数据,在将两套网络融合为一个完整的监控网络的过程中扮演了最重要的角色。这种同时、大量的三方通信,能否良好、稳定、持续地运行,是整个系统成功的关键。以目前工控机的性能,是完全能够实现的。实践也证明该方案是可行的。出于对整个系统的后续性和柔性考虑,在一期系统的光纤网络瘫痪或损坏后,上位机网关软件应能分别实现各车间一期系统PLC和二期系统的互联互通,从而保证整个监控系统的完整性和有效性。

3.供水企业自动化系统改造中的异构系统集成工作要点

供水企业的各类业务数据呈现多源、异构特性,从而导致业务系统集成时,面对大量数据却不能高效甚至无法利用的困境。因此,要实现供水企业信息系统的无缝集成与整合,需要解决两个核心问题:首先,集成系统应该共享一个统一的数据模型,使得各类基础地理信息和专业业务信息具有通用的表达方法。其次,设计一个数据共享与交换子系统,向上支持多源异构数据的透明读取与访问,向下屏蔽数据的具体存储格式,从而可以借助数据之间的联系,无障碍地实现数据的统一发布,支持异构数据的查询、浏览、更新与维护。

3.1面向供水企业信息系统集成的统一数据模型

当前,供水企业各类业务信息系统的数据模型是对现有专业信息的直接映射和模仿上的简单结构化表达,但其在数据结构、字段规则、内容构成、存储方式等方面都有各自特有的定义与表达规则,即使是同类型数据在不同系统中也有很大差异。例如,供水企业中的一只水表在管网中侧重空间位置与管网的分层管理,而营业收费系统则关注水表用户的收费信息管理,两套系统中水表的字段在构成与表达意义上均有较大不同。所以,供水企业信息系统的集成与整合需要一个以管网数据为基础的统一数据模型,通过数据交换协议与访问规则,屏蔽数据访问的复杂性,支持数据透明的共享与交换。

3.2数据共享与交换子系统

基于以上统一数据模型,可以较为精确地将供水企业的各类业务信息系统中异构、非空间的行业数据与以空间数据管理为核心的管网数据进行映射和整合,以便实现水务数据的共享与交换。在这一过程中,为了对内完成数据的提取、剔除和聚合,对外实现数据的发布与交换,设计了一个独立的数据共享与交换子系统。同时,子系统还必须具有如下特征:(1)有足够的健壮性,以适应大多数的应用环境,有足够强大的容错性能;(2)有良好的可扩展性,为以后的需求、应用扩展预留接口。

4.结束语

异构系统之间的网络、数据集成问题是旧系统改造的瓶颈所在。本文阐述的设计思路扩展性强、成本低廉、实现简单,在自来水厂成功实施,自动化系统自投入运以来,运行稳定,节约设备投资多万元,取得了明显的直接经济效益。

【参考文献】

[1]甘早斌,李志欣,彭彬.多异构系统集成模型的研究[J].计算机应用研究,2003(10).

[2]罗维平,向阳.PLC监控系统在自来水厂的应用[J].中国农村水利水电,2003(04).

[3]解智.水厂水处理自动化控制系统[J].现代机械,2003(03).

异构系统融合 篇3

广西电视台多元纯异构融合网络是在国内第一家省级全台媒体资产管理系统基础上完成的已运行一年以上的多元纯异构松耦合网络, 系统在广度上实现了收录、新闻、制作、播出、数字内容管理等子网的互联互通, 在深度上实现了网络层、信号层、媒体数据层、媒体信息层、应用层间的互联互通。该项目包括了国内先进的多维多层的媒体系统安全纵深防护体系、国内先进的自动智能化关联的全域监管平台、国内第一个基于并行分布式网格计算的视音频质量算法审查引擎和国内技术领先的自适应编目架构生成器等, 并在国内率先建立了远程异地协作的编目工作模式, 实现了资源的共享利用。本系统完成了6个厂商、9个子系统的互联互通, 实现了系统资源的整合、生产方式的转型和业务流程的再造。

本项目的研究成功, 解决了电视台数字化网络化进程中的一些关键技术问题, 有效推动了数字广播电视的发展。本项目覆盖了广西电视台卫星、综艺、都市、资讯、公共、影视、体育等7个频道, 渗透了广西电视台的制作、播出、存储、管理的全部流程, 实现了全程文件化的无磁带网络制播, 整合了台内信息资源, 使媒体资源实现了科学的存储、管理和再利用;节约了人力, 优化了资源配置, 实现了成本的最小化;支撑了新业务的开展, 提供了数字化网络化的内容制作、节目传输、视频播出、网上发布、存储利用、交换出售等众多服务。本项目大大提高了广西电视台的综合竞争力, 并具有较大的行业示范效应。

本项目节省了播出近线存储系统的投资, 节省了上下载录像机, 降低了节目磁带费用, 提高了节目生产能力, 支撑了新媒体业务, 具有显著的经济效益和社会效益。

异构系统融合 篇4

互联网技术的发展, 使得信息数据爆炸式增长。特别是在企业信息中, 其非结构数据占到了增长数据的80%, 包括PDF、word文档, 图像、音频和视频等。企业在不同的应用平台拥有不同的检索系统, 这给用户检索信息带来了诸多不便。如何构建一个统一的检索平台, 使得用户在海量的异构数据中实现统一检索, 一直是研究人员研究的热点。

2 异构数据融合技术

异构数据是指数据格式不同, 内容不一, 描述不同内容的数据, 包括结构化数据 (如数据库) 、半结构化数据 (如HTML、XML) 和非结构化数据 (如文本、图片) [1]。数据的统一访问的基础在于数据融合集成, 目前对于解决异构数据融合的研究有数据仓库、数据抽取和数据转换。

数据仓库是指不同来源的数据在进入数据仓库之前, 转换为统一的格式为复杂的查询提供统一的视图, 实现数据的统一访问[2]。其代表性的成果是ETL集成工具, ETL[3]允许提取、转换和加载异构数据到数据仓库中和实现数据迁移任务。但数据仓库主要是针对不同数据库中的结构化数据的整合, 很难应用于非结构化数据的集成、实现非结构化数据的统一访问[4]。

数据抽取是指将无结构的的文本结构化处理, 即输入原始文本输出固定格式[5]。部分数据库管理系统自带有数据抽取工具, 能够低成本的解决异构数据整合问题, 但在实际应用中有一定的局限性。

XML整合是数据转换技术的代表, 即将各种异构数据转换为统一的xml文本格式, 实现异构数据整合。XML (e Xtensible Markup Language, 扩展标记语言) 是互联网下的一个关键技术, 它能很好地实现来源极端异构的数据描述和传输。XML能独立于应用系统, 不受任何特殊的软件或者硬件平台限制, 并且这些数据能重复使用, 简单易懂, 成为交换各种结构化、半结构化、非结构化信息的良好方式[6]。因此, 采用XML文档作为底层数据的融合与集成技术, 实现了异构数据源间数据共享并且更有效地利用信息资源。XML整合数据的一般模型为下图一所示:

3 solr搜索引擎

3.1 solr简介

Solr (Searching on Lucene Replication) [7]是Apache软件基金会下的一个开源子项目, 它是一个高性能的、采用java5开发的、基于lucene全文搜索库的企业搜索服务器。提供了比Lucene更为丰富的查询语言, 同时实现了可配置、可扩展并对查询性能进行了优化, 并且提供了一个完善的功能管理界面, 是一款非常优秀的全文搜索引擎。

3.2 solr体系架构

Solr的系统结构图[8]如图2所示, solr主要分为3层, solr在lucene的基础上进行了大量的改进, 其中solr的底层为对lucene一些功能的改进封装。中间层为solr的核心层, 搜索引擎的主要功能都是在这一层实现的, 包括对文档进行分析、建立索引、配置solr运行文件和保存索引文件等。最顶层包括HTTP接口, 负责通过HTTP传入和返回XML文档;管理界面和索引更新模块。另外, 索引复制功能是一个独立的模块, 它是由一个主索引和多个从索引构成, 从索引从主索引复制索引, 主索引负责更新索引, 从索引复制同步索引和查询, 一个主索引可以复制索引到多个从索引库。索引复制功能主要用于分布式索引和检索[8]。

3.3 solr的特性

⑴灵活性。Solr支持从数据库、web页面和文本中直接导入数据, 进行索引。它的索引方法非常简单, 用POST方法向服务器发送一个请求, 就可完成索引;并且solr的索引文件与lucene完全兼容;Solr的灵活性还体现在可以根据需求灵活的修改配置文件, 定义字段类型以及是否被索引、存储。

⑵异构性。Solr作为企业级搜索服务器, 它最大的特点就是提供了对异构系统的整合, 解决了企业搜索的一大难题。Solr它提供了基于HTTP的标准XML和JSON接口, 能对XML文件直接建立索引。solr还提供了DIH (Data Import Handler) , 用来从其他的异构系统批量导入数据的批处理器。

⑶可扩展性。Solr在顶端定义了一些对外的抽象接口, 开发者可以将自己定义的模块功能添加到solr中, 而只需要修改相应的配置文件就可以将相应的功能添加进去。

4 异构数据融合检索系统的设计与实现

4.1 系统架构

异构数据融合检索系统需要实现:

⑴从各数据库中提取数据信息, 并转换为相应的xml文件, 即完成数据爬虫功能;

⑵采用solr对xml文件创建索引;

⑶友好的用户界面, 实现响应用户的搜索请求, 返回结果。

异构数据融合检索系统框图如图3所示, 爬虫模块完成提取数据的xml文件, 实现异构数据的融合;solr索引模块需加入中文分词功能, 完成对xml文件的索引;用户界面模块需要完成接受用户的查询请并且高亮显示, 加上solr查询结果默认是以xml文件显示的, 还需要实现xml文件与原数据库的关联显示。

4.2 异构数据抓取

为了实现异构数据整合, 本文采取将所有异构数据源转换为xml文件。本文具体采用Dom4j开源库提供的类和函数来生成xml文件。部分代码如下:

4.3 solr系统实现

⑴solr的安装。Solr是apache的开源项目, 需安装在JDK和servlet容器 (如tomcat) 的基础上。安装好JDK和tomcat后, 在官网下载solr安装文件, 解压到当前目录。复制solr的dist目录下的war文件到tomcat的webapps目录下, 并重命名为solr.war。复制solr的example目录下的solr文件到指定目录下, 并把该目录设置为solr.home。solr安装完成后, 访问solr的管理界面http://localhost:8080/solr/, 如出现solr的系统管理界面, 则配置成功。Solr的管理界面如图4所示。

⑵中文分词。Solr只能提供简单的中分分词效果, 为了提高异构数据检索系统的检索精准度, 需要为solr添加中文分词器, 本文选择IKAnalyzer作为solr的中文分词器。在官网下载IKAnalyzer安装包, 解压到本地目录, 并将IKAnalyzer2012FF_u1.jar、IKAnalyzer.cfg.xml、stopword.dic文件添加到tomcatwebappssolrWEB-INFlib文件中。最后, 修改schema.xml文档中的内容。具体修改内容如下, 在标签中添加如下内容:

⑶元数据定义标准。在进行xml文件索引之前, 需要在schema.xml文件中定义元数据字段, 包括字段名称、字段类型和和是否索引、存储等信息。Solr对文件索引一定要定义唯一标示符uniquekey, 一般将id字段设置为唯一标示符。为了实现不加字段名搜索, 还需要配置默认搜索字段default Search Field, 若需多个默认搜索字段, 可将其余字段复制到default Search Field设置的默认字段中。具体配置如下:

⑷用户界面。设计用于界面时要求美观大方, 它的主要功能有接受用户的查询输入, 提交给solr, 查询后在返回和显示查询结果。在浏览器中输入http://localhost:8080/search将显示系统主页, 如图5所示, 检索结果如图6所示。

5 结束语

Solr作为一种开源的搜索引擎, 为企业搭建融合搜索提供了可能。本文在solr基础上进行二次开发, 搭建了异构数据检索系统。本文的主要工作如下:完成了数据融合, 将异构数据转换为统一的xml格式;对solr进行相关研究, 搭建了solr检索系统;编写了用户友好界面。

该系统目前还存在一些问题, 如对查询结果重排问题、分布式索引检索问题, 接下来需要考虑系统存在的不足对其改进优化, 以提高系统的实用性和整体性能。

参考文献

[1]柏永斌, 许利亚, 冯震宇, 黄爱军.基于XML和WebService的异构数据整合技术应用研究[J].数据库与信息管理.2009 (8) :1796-1797.

[2]赵军, 王国胤, 吴中福, 李华.数据仓库及其实现[J].数字通信, 2000 (8) :35-38.

[3]A.Albrecht, METL:Managing and Integrating ETL Processes, [C]VLDB’09, 6p:24-28, 2009, August, Lyon, France.

[4]杨岳.非结构化数据统一访问平台及索引技术研究[D].解放军信息工程大学硕士论文, 2010:9-11.

[5]刘桂峰.Deep Web数据抽取及集成技术研究[D].苏州大学硕士论文.2009:7-9.

[6]魏东平, 潘向阳.基于XML的异构数据的整合与集成模式探讨[J].内蒙古科技与经济2004:87-88.

[7]http://code.google.com/p/ik-analyzer/.

异构系统融合 篇5

电网运行基础数据的质量直接决定电力调度控制中心各种高级分析与应用的实用化水平,也严重影响电力调度控制的准确性、可靠性及精益性。电网运行基础数据主要包含模型、参数、量测数据等部分,其中每部分均会对其质量产生直接影响。运行维护经验表明,电网参数是影响电网运行基础数据质量与状态估计结果有效性的主要因素之一。

针对电网参数问题,业界研究的焦点主要集中在参数辨识与估计算法上[1,2,3,4],其基本原理是在假定量测数据准确无误的基础上,利用网络拓扑、各种物理约束等特性进行参数辨识与估计,整个过程类似于状态估计[5,6,7,8,9,10,11,12,13]的逆过程,在提高电网参数质量方面发挥了一定作用。然而,电网量测数据的准确性受到采集、传输、处理等多环节的影响,利用准确性不可靠的量测数据去开展参数辨识与估计,其有效性与可靠性是不确定的。

目前,调度中心自动化、运行方式及继电保护等多个专业因业务需要,通常都建立了独自的模型参数库并且各自独立进行维护,因缺乏协同管理机制, 很难保证其一致性,出现了“一个电网,多套参数”的局面,即面对同一个电网,不同专业存在不同的模型参数。与此同时,下级调度中心还向上级调度中心相应专业传送电网参数信息。不同专业的参数以不同类型、不同编码与命名规则的文件形式存储,彼此之间难以互相辨识及共享参数信息,致使其不能互为校验和参考,无法达到提高各个专业参数准确性与一致性的目的。

为此,提出一种多源异构电网运行参数融合方法,其基本原理是:在充分获取不同专业参数信息的基础上,应用对象名称匹配知识库实现多源异构电网运行参数的互相辨识,通过纵向参数融合、横向参数融合技术消除多源电网参数之间的差异进而实现有机融合。该方法不仅能克服当前参数辨识与估计算法的缺陷与不足,还能逐步缩小不同专业参数数值的差异并满足各专业对高质量电网运行参数的现实需求。

1 基于知识库的对象名称匹配

目前,调度中心不同专业各自建立了若干电力生产业务系统,这些系统类别繁杂且由不同的生产厂家制造,彼此按照私有规则对设备对象进行命名, 导致设备对象难以互相辨识,不便于多源参数信息的融合与共享。为了让以私有规则命名的不同系统设备对象之间能够互相辨识,需要研究不同系统之间设备对象名称匹配关系建立的方法。

以对象名称匹配知识库为基础,分别研究了两级相同专业、同级不同专业2种类型对象名称匹配方法。

1.1 对象名称匹配知识库

对象名称匹配知识库指的是完成不同系统之间设备对象名称的匹配所需知识的总称,由特征向量和匹配规则两部分构成。

对象名称特征向量是由若干标识某类对象名称基本特征的属性构成的向量,其数学表达形式为:

式中:n为对象名称特征向量Td的维数。

对于交流线路、主变绕组及发电机等不同设备, 其对象名称特征向量的属性构成与维数均不相同。

对象名称匹配规则是建立在特征向量基础上, 用以判定不同系统对象名称之间存在相同或等价关系的约定准则。由于不同对象名称的特征向量存在差异,因而其对应的匹配规则也彼此不同。

对象名称匹配知识库的形成过程包含4个步骤:1搜集大量 对象名称 样本。从能量管 理系统 (EMS)、电力系统分析软件BPA及继电保护定值整定计算系统(以下简称保护整定系统)中获取交流线路、主变绕组 及发电机3类对象的 名称信息。 2总结归纳与特征抽取。通过分析大量对象名称样本的特点,总结、提炼出反映对象名称基本特征的若干属性。3分类组合对象名称的属性,形成对象名称特征向量。4以特征向量为基础,产生判定对象名称相同或等价的对象名称匹配规则。

按照对象名称匹配知识库形成的方法与步骤, 可分为交流线路、主变绕组、发电机3类对象名称的匹配知识库。

1)交流线路

特征向量:一端厂站名称、二端厂站名称和线路回路编号。

匹配规则:1比较两条线路的一、二端厂站名称是否相同或具有等价关系(一、二端厂站名称顺序忽略);2当存在回路编号时,比较两条线路的回路编号是否相同,反之,判断两条线路的名称是否相同或具有等价关系。

2)主变绕组

特征向量:厂站名称、变压器类型、变压器编号和所在电压侧。

匹配规则:1比较两个主变绕组的厂站名称是否相同或具有等价关系;2比较两个主变绕组所属的变压器类型是否相同;3比较两个主变绕组所属的变压器编号是否相同;4比较两个主变绕组所在电压侧是否相同。

3)发电机

特征向量:厂站名称和发电机编号。

匹配规则:1比较两台发电机的厂站名称是否相同或具有等价关系;2当存在发电机编号时,比较两台发电机的编号是否相同,反之,判断两台发电机的名称是否相同或具有等价关系。

在实际运用对象名称匹配知识库设计对象名称匹配算法时,常常通过降低特征向量的维度与减少匹配规则的个数来实现对象名称匹配条件的松弛, 并辅以人工干预来提高匹配算法的准确度。

1.2 两级相同专业对象名称匹配

构建两级相同专业对象名称的匹配关系的主要目的为解决上下两级调度中心相同专业对共同设备对象命名的差异化问题,这种差异性部分源自相同类型系统生产厂家不同造成设备对象命名与编码规则存在的差别,同时也由人工录入设备对象名称时普遍存在的随机性差异所引起。

通常各级调度中心均包含自动化、运行方式及继电保护等专业,因而两级相同专业对象名称匹配关系的构建也需按照这些专业分别进行。

在匹配过程开始前,需要指定基准对象和待匹配对象。以上级EMS的对象名 称为基准 对象名称,下级EMS的对象名称作为待匹配对象名称,其匹配关系的构建过程为:1分别获取基准对象名称和待匹配对象名称的特征向量;2按照对象名称对应的匹配规则判断2个特征向量是否相同或具有等价关系。如果是,则对象名称匹配成功;反之则松弛匹配条件并辅以人工干预完成对象名称的匹配。如果仍然没有建立匹配关系,那么对象名称匹配不成功。

下面通过自动化专业介绍上下两级EMS中交流线路、主变绕组及发电机3种对象名称匹配关系的构建过程。

1.2.1 交流线路

一条交流线路一般由一端厂站、二端厂站和线路名称(通常包含线路回路号信息)进行标识和说明,故可以从上下两级EMS的线路信息中提取其特征向量。

1)分别提取一端厂站、二端厂站的核心词汇作为特征向量中一端厂站名称、二端厂站名称属性的值。核心词汇是指厂站名称中去掉公用词汇与特殊字符后剩下的能够标识厂站关键信息的词汇,如“沙角A厂”和“西江变电站”中的“厂”“变电站”为公用词汇,而其中的“A”则是特殊字符。公用词汇与特殊字符可通过总结归纳法从大量的厂站名称样本中获得。

2)采用基于正则表达式的模糊匹配法[14]。从线路名称中提取其回路编号作为特征向量中线路回路编号属性的值。

提取出线路名称的特征向量后,根据交流线路名称的匹配规则判定上下两级EMS交流线路名称的特征向量是否相同或等价,并以此作为两者匹配关系构建成功与否的依据。如果不存在相同或等价的特征向量,则松弛匹配条件,仅以其中部分规则 (如规则1)并通过人工干预法完成线路名称的匹配。

1.2.2 主变绕组

一个主变绕组通常由厂站名称、绕组名称(包含变压器类型、编号及所在的电压侧等信息)进行标识和说明,故可以从上下两级EMS的主变绕组信息中提取其特征向量。

1)特征向量中厂站名称的提取参照交流线路部分。

2)从绕组名称中提取变压器类型作为特征向量中变压器类型属性的值。变压器类型划分为普通变压器、联络变压 器、其他变压 器3种类型,标识这3种类型的核心词汇可通过总结归纳法从大量的绕组名称样本中获得。

3)从绕组名称中提取变压器编号作为特征向量中变压器编号属性的值,变压器编号的提取参照线路回路编号进行。

4)从绕组名称中提取所在电压侧作为特征向量中所在电压侧属性的值,标识绕组所在电压侧的核心词汇可通过总结归纳法从大量的绕组名称样本中获得。

提取出主变绕组名称的特征向量后,根据主变绕组名称的匹配规则判定上下两级EMS主变绕组名称的特征向量是否相同或等价,并以此作为两者匹配关系构建成功与否的依据。如果不存在相同或等价的特征向量,则松弛匹配条件,仅以其中部分规则(如规则1和3)并通过人工干预法完成绕组名称的匹配。

1.2.3 发电机

一台发电机通常由厂站名称、发电机名称(包含发电机编号信息)进行标识和说明,故可以从上下两级EMS的发电机信息中提取其特征向量。

1)特征向量中厂站名称的提取参照交流线路部分。

2)从发电机名称中提取发电机编号作为特征向量中发电机编号属性的值,发电机编号的提取参照线路回路编号进行。

提取出发电机名称的特征向量后,根据发电机名称的匹配规则判定上下两级EMS发电机名称的特征向量是否相同或等价,并以此作为两者匹配关系构建成功与否的依据。如果不存在相同或等价的特征向量,则松弛匹配条件,仅以其中部分规则(如规则1)并通过人工干预法完成发电机名称的匹配。

1.3 同级不同专业对象名称匹配

构建同级不同专业对象名称的匹配关系的主要目的为解决调度中心内部自动化、运行方式及继电保护等不同专业之间系统设备对象命名的差异化问题,这种差异性主要源自不同类型系统设备对象命名与编码规则存在的差别,也由人工录入设备对象名称时存在的随机性差异所引起。

由于系统建设年代的差距,EMS模型参数(对应自动化专业)、BPA模型参数 (对应运行 方式专业)和保护整定系统模型参数(对应继电保护专业) 的建模规则相差很大,尤其是20世纪90年代初就引入中国的BPA程序,其以文本形式保存数据和以不规则拼音定义对象名称的模式非常落后,给参数分析和维护工作增加了难度与不便[15]。

由于构建同级不同专业对象名称的匹配关系涉及多个专业,故需要分别建立任意2个专业之间的对象名称匹配关系,此时需要设定基准专业来完成匹配关系的构建。鉴于系统对象命名与编码的标准化,选择自动化专业EMS的对象名称为基准对象名称,而运行方式专业BPA系统与继电保护专业保护整定 系统的对 象名称作 为待匹配 对象名称。 EMS与BPA系统、EMS与保护整定系统的对象名称匹配关系的构建过程参照图1进行。

鉴于保护整定系统的对象名称命名与编码规则和EMS类似,EMS与保护整定系统的对象名称匹配可以参照上下两级EMS的对象名称匹配的详细过程进行。而EMS与BPA系统的对象名称匹配原理与总体流程跟上下两级EMS也相似,以下重点介绍其中的特殊之处。

1)交流线路

在BPA系统中,通过2个节点来 标识一条 线路。这2个节点名称的字符串中一般包含EMS线路名称中的一端、二端厂站名称的核心词汇,或核心词汇的全拼或短拼或中拼字母字符串。根据上述特点,EMS与BPA系统的交流线路厂站名称的匹配方法为:提取EMS交流线路一、二端厂站名称中的核心词汇及其对应的拼音字母字符串,在BPA系统的2个节点中检索是否包含上述字符串。

2)主变绕组

在BPA系统中,通过2个节点来标识一个主变绕组。这2个节点名称的字符串中通常包含厂站名称、变压器编号、所在电压侧等信息。根据上述特点,提取BPA系统主变绕组名称的特征向量的方法为:1厂站名称的处理过程同交流线路部分;2由于节点名称中不含变压器类型信息,BPA系统主变绕组名称特征向量中变压器类型的属性值不予填充;3从BPA系统节点名称1中获取变压器编号作为其特征向量中变压器编号属性的值;4从BPA系统节点名称2中获取所在电压侧作为其特征向量中所在电压侧属性的值(具体参考1.2节相应部分内容)。

3)发电机

在BPA系统中,通过一个节点来标识一台发电机。这个节点名称的字符串中通常包含厂站名称、 发电机编号等信息。根据上述特点,提取BPA系统的发电机名称的特征向量的方法为:1厂站名称的处理过程同交流线路部分;2从BPA系统节点名称1中获取发电机编号作为其特征向量中发电机编号属性的值。

2 多源异构参数融合

由于调度中心应用与维护主体的多元化,电网运行参数呈现如下鲜明特点。

1)多来源。调度中心各专业各自独立建立了辖区内电网设备的模型参数库,而且还接收下级调度中心相应专业上传的模型参数,使上下两级调度中心的共同设备部分的参数来源多样。

2)异构化。调度中心各专业独自建模,所采用的设备命名与编码规则差别较大,例如自动化专业使用标准公共信息模型(CIM)文件,继电保护专业采用EXCEL文件,而运行方式专业使用DAT文件。

3)一致性差。调度中心各专业独立维护各自建立的模型参数库,进行参数更新操作时缺乏协同,易造成不同专业参数库的失步。

针对多源异构电网运行参数容易失步的问题, 提出一种电网参数融合方法,通过纵向参数融合与横向参数融合技术实现多源异构参数的有机融合, 提高不同专业参数库的一致性。如图2所示是多源异构电网运行参数融合的原理示意图,包含参数获取与解析、纵向参数融合及横向参数融合3个环节。

2.1 纵向参数融合

纵向参数融合指的是通过消除上下两级相同专业(自动化、运行方式或继电保护)共同设备的参数差异进而实现参数在同一专业纵向上的融合。3个专业的纵向参数融合分别单独进行,其实现过程类似,具体包含以下步骤。

1)参数获取与解析。通过标准Web Service接口[16]获取多来源的电网参数文件,包括上下两级调度中心的 自动化专 业CIM文件、继电保护 专业EXCEL文件、运行方式专业DAT文件;解析异构文件获取所需的参数,供后续分析使用。

2)两级相同专业参数匹配。通过两级相同专业对象名称匹配技术(参见1.2节),实现两级相同专业设备参数的匹配和对应。

3)参数差异分析与纵向融合。引入纵向参数差异度指标表征 两级相同 专业之间 的参数差 异,如式(1)所示。

式中:Xt,i和Xb,i分别为上、下两级第i个参数的对应取值;Dv,i为第i个参数的纵向差异度,其值为上下两级参数之差的绝对值与其对应均值的比值。应取值;为上、下两级同一专业第i个参数的均值;Dv,i为第i个参数的纵向差异度,其值为上下两级参数之差的绝对值与其对应均值的比值。

由于不同系统中的参数存在有名值、标幺值、铭牌值等多种表达形式,上、下两级同一专业的参数统一选取有名值进行分析计算。当某个系统中的参数以有名值之外的形式存在时,则根据该系统所采用的计算基准、计算方法将其折算为有名值后再进行后续的分析计算,以消除参数表达形式、计算基准、 计算方法等方面的差异对参数分析结果的影响。

如果Dv,i超过设定的阈值,说明参数的纵向差异度较大,此时不能确定具体是哪级的参数可疑或错误,需要通过参数差异处理流转流程由上下两级分别进行参数核查,借助管理手段消除参数的差异; 反之,则说明上下两级参数处于较合理的位置,经过参数合理性验证之后,通过两者的平均值替换各自参数的原始值,以此消除上下两级参数之间的微小差异。

2.2 横向参数融合

横向参数融合指的是通过消除同级不同专业的参数差异进而实现参数在不同专业之间横向上的融合。横向参数融合的具体实现过程如下。

1)分别获取经纵向融合后的自动化、运行方式及继电保护3个专业的电网参数文件。

2)同级不同专业参数匹配。通过同级不同专业对象名称匹配技术(参见1.3节),实现同级不同专业设备参数的匹配和对应。

3)参数差异分析与横向融合。引入横向参数差异度指标表征 同级不同 专业之间 的参数差 异,如式(3)所示。

式中:X1,i,X2,i,X3,i分别为自动化专业、运行方式专业、继电保护 专业的第i个参数的 数值;为3个专业第i个参数的均值;Dh,i为3个专业第i个参数的横向差异度,取值为3个专业参数的标准差与其对应均值的比值,3个专业的参数同样选取有名值进行分析计算。

当Dh,i超过设定的阈值时,采用数理统计分析

法定位质量较差的参数,通过X1,i,X2,i,X3,i和差值的绝对值大小来衡量参数质量的好与差,即距离均值越远的专业,其参数质量越差。在定位参数质量较差的专业后,启动该专业电网参数校核流程并人工修正质量差的参数,同时将该修正的参数同步更新至另外2个专业。如果Dh,i没有超过设定的阈值,则说明3个专业的参数处于较合理的位置;经过参数合理性验证之后,通过三者的平均值替换各自参数的原始值,以此消除不同专业参数之间的微小差异。

2.3 参数版本管理

由于不同来源电网模型参数库更新周期存在较大的差异性,因而提出参数版本管理功能来实现具有不同更新时标的多源参数文件的组装和对应。

参数版本管理分为纵向版本管理和横向版本管理。纵向版本管理将上下两级相同专业的2个参数文件组合在一起形成一个版本号,这2个参数文件可能具有不同的更新时标;横向版本管理将同级不同专业的多个参数文件组合在一起形成一个版本 号,这些参数文件的更新时标可能彼此不同。

每次进行参数分析与融合时,均需通过参数版本管理功能生成相应的版本号。具备版本号的优势在于,能够对各个时期不同版本号的参数分析结果进行比对分析和趋势分析,据此判定电网参数质量的变化趋势。

3 工程应用

多源异构电网运行参数融合方法自2011年底在中国南方电网电力调度控制中心应用以来,南方电网220kV及以上大模型参数的质量、状态估计遥测合格率等均得到持续改善。

1)参数名称匹配成功率高

应用基于知识库的对象名称匹配算法实现了EMS、保护整定系统及BPA系统之间的交流线路、 发电机和主变绕组3种异构对象名称的匹配,匹配结果已集成至南方电网调度管理信息系统(DMIS) 平台上。交流线路名称匹配结果见附录A。

根据运维统计分析,交流线路、发电机、主变绕组3种参数名称的匹配成功率均超过90%,对于各级调度中心后续开展参数差异分析与融合奠定了基础。

2)参数质量改善

自2011年底起,南方电网总调各专业借助参数融合方法并通过参数校核流程,不断核查调整电网模型参数。截至2013年底,全网共发现有问题的参数2 949个,向各专业流转和处理了2 600多个差异度较高的参数。元件参数变化趋势见表1。

从表1可以看出:自动化、运行方式和继电保护3个专业的变压器与交流线路的参数(电阻、电抗) 平均差异度逐渐变小,并且高相似率的参数占比逐渐增加,说明各个专业元件参数的质量得到了明显改善。

3)状态估计遥测合格率显著提高

在EMS模型参数持续改善和人工对状态估计模块运维、调试的共同作用下,南方电网220kV及以上大模型 状态估计 遥测合格 率得到显 著提升。 图3是2011年11月以来的一年中大模型状态估计遥测合格率月 度平均值 的变化曲 线,年末已超 过99%,相比年初提升了近5个百分点,参数质量的改善对状态估计结果准确度提升的支撑作用得到很好体现。

4 结语

针对调度中心各专业独立构建与维护各自模型参数库容易导致多源电网运行参数一致性差的现状,提出了一种多源异构电网运行参数融合方法,取得的成果如下。

1)提出了对象名称匹配知识库的概念,提炼了交流线路、主变绕组及发电机3种对象名称的特征向量与匹配规则,并将其应用于两级相同专业对象名称匹配和同级不同专业对象名称匹配,实现了不同系统参数名称之间的互相辨识及对应。

2)引入参数差异度指标衡量不同来源电网参数之间差异的大小,通过纵向参数融合与横向参数融合手段实现多源异构参数的有机融合,显著提高了不同来源参数之间的一致性,为逐步实现“一个电网,一套参数”的目标奠定了基础。

尽管该方法在南方电网220kV及以上大模型的应用中取得了一定的成效,未来仍需结合不同电压等级设备对象的特性,不断完善对象名称匹配知识库以使匹配算法具有更强的适用性和更高的匹配成功率。

异构系统融合 篇6

随着对无线网络带宽的更高追求以及业务的多样化, 网络模式越来越复杂, 从提供全球漫游和无缝接入的3G, 到提供局域网和城域网的WLAN, 再到提供设备与设备之间短距离无线传输的Bluetooth等, 无线通信网络多样化的发展格局日益显现。

然而目前不同的通信网络之间是相对独立的, 很难互联互通, 单一模式的通信设备必然会成为信息孤岛。没有哪个移动通信系统能够满足人们所有通信需求。因此用户和市场的需求激励着人们去探讨实现这种通信要求的可能性。但是重新开辟一种全新的统一的机制是不现实的, 因为目前的各种网络投资已经非常大, 因此未来的移动通信系统发展需要考虑在多种无线网络间保持通信的连续性, 将不同通信模式之间的互联互通, 实现异构无线网络融合。

异构无线网络就是将各种不同通信模式连接在一起、实现不同模式通信设备之间的互联互通的网络。异构无线网络需要利用众多网络的互补特性来为用户提供方便可靠的接入机制和更好的服务特性。怎么样将这些网络融合到一起, 实现互联互通, 提供覆盖范围更为广泛的、带宽更高的、移动性更强的并且费用较低的接入服务, 将是下一代通信系统行业所共同关注的问题。无线宽带通信技术的快速发展, 用户业务多样化、个性化需求的不断增长决定了异构无线网络融合相关技术研究具有很高的理论价值以及实际应用价值。

异构无线网络的研究在1995年美国加州大学伯克利分校发起的BAR-WAN计划中最早被提出, 在该计划中提出了多模移动终端在无线局域网和无线广域网之间的垂直切换方案。之后研究人员在异构无线网络的基本架构及核心功能的实现方面取得了杰出的成果。

关于异构无线网络的基本架构按照异构网络集成的紧密程度, 可以分为紧耦合和松耦合两类。

1紧耦合型

紧耦合指的是构成异构无线网络的无线接入系统之间存在主从关系。

图1 描述了紧耦合的系统架构。 (以3G网络和WLAN网为例) 从图中可以看出, 3G网络的互操作模块是整个系统的关键, 它通过Gb接口与SGSN相连, 在这里WLAN的特性被屏蔽, 这样, SGSN就把WLAN作为3G网络系统中的一个无线接入网, 而WLAN的所有业务都能在3G网络核心网中实现, 并且能共享3G网络系统中的鉴权、计费系统及加密机制, 实现移动性管理, 从而使得用户能在3G和WLAN之间切换并保证用户业务的连续性。在紧耦合的连接方案下用户在不同网络切换的时延、失败率和丢包率相对较小。但是作为主网 (本例中的3G) 必须向从网 (WLAN) 开放自己的网络接口, 这势必会对主网带来安全隐患及商业利益的威胁, 一般只有当主从网属于同一个运营商时才可能使用紧耦合架构。除此之外, 紧耦合架构的扩展性较弱, 将从网的业务加入到主网中, 会对主网的性能带来一定的影响, 需要调整主网系统的网络部署及业务规划。

2松耦合型

松耦合指的是构成异构无线网络的无线接入系统是相互独立的、平等的不存在主从关系。图2描述了松耦合系统架构 (以3G网络和WLAN网为例) 。从图中可以看出, WLAN通过Gi接口与3G网络的GGSN相连, 以实现两个系统之间业务的联通。这里WLAN系统和3G系统是相对独立的, 它们之间的耦合率非常低互相不会产生干扰。WLAN使用的是Internet协议, 可以不必对协议进行改造。两种网络之间的移动性管理可在网络层解决, 当用户需要切换网络时, 通过移动IP等技术来保持业务的不中断。松耦合方案的使用范围和可扩展性方面都强于紧耦合方案。

目前松耦合架构可分为3种方式:直接互连型、基于专用核心网型和基于IP核心网型。

2.1直接互联型

在直接互连方式下, 各种无线接入系统可以通过网关彼此连接起来。这就必须保证每两个接入网之间使用专用的网关来实现它们之间的互连, 并且需要在任意两个无线接入系统之间建立服务等级协议。因此, 这种方式只适用于数目很少的无线接入系统间的互连。

2.2基于专用核心网型

在基于专用核心网的方式下, 需要建立专用的第三方核心网络, 然后再将各种无线接入网都连接到核心网络中。可以将该核心网的任务进行分工, 形成基础接入网和公共核心网。基础接入网的工作为多模终端提供统一的控制/信令行道, 协助多模终端完成位置更新和网络发现等。公共核心网的工作为承担各类无线接入系统之间的数据交换及整个网络中的资源管理、认证和信息管理等功能。在该方式下, 可扩展性比直接互联型要好, 但是建立专用核心网络, 其技术复杂度高, 建设成本高, 建设周期也较长。

2.3基于IP核心网络型

在基于IP核心网络型的工作方式下可利用Internet作为核心网络, 将IPv6协议作为异构系统的互连协议。图3描述基于IP核心网络的松耦合架构, 在这种工作方式下, 系统具有很好的可扩展性, 并能充分利用现有的Internet网络基础设施, 有效地降低异构无线网络的技术复杂度、降低建设成本、缩短建设周期。因此, 该架构能够在学术界和业界取得广泛的共识, 被认为是未来异构网络融合最有可能的架构形式。

异构无线网络是利用众多网络的互补特性来为用户提供方便安全的接入机制和更好的服务特性。当前无线宽带通信技术的快速发展, 用户业务多样化、个性化需求的不断增长决定了异构网络融合相关技术研究具有很高的应用价值。异构无线网在为移动用户带来方便的同时, 也提出了更多的技术挑战。

参考文献

[1]Q TIAN, D C COX.Location management in a heterogeneous net-work environment[C].IEEE Wireless Common.Netw.Conf, Chica-go, IL, Sep.2000.

[2]D ASSOUMA, R BEAUBRUN, S PIERRE.Mobility managementin heterogeneous wirelessnetworks[J].IEEE journal on SelectedAreas in Communications, 2006.

[3]JIA HUI-LING.Access selection and call admission control in het-erogeneous、wrireless networks[Ph.D.dissertation][D].GraduateSchool of ZhejiaIlg University, Hangzhou, 2007.

[4]CNNIC.27th Statistical Report on Internet Development in China[R].Jan.2011.

异构系统融合 篇7

关键词:智能健康管理,异构数据,数据融合

0 引 言

智能健康管理[1]实现的是区域化、多级、多中心的实时互动健康管理模式,将不同区域不同级别的信息传输到健康信息管理平台,对个人的健康状态进行实时监护,形成区域协同多级多中心的健康服务体系。在该体系中,一方面实现了智能健康管理中不同形式的信息的分布式采集与集成化应用,另外一方面则无法避免地出现了网络中海量多源异构数据的集成以及共享问题[2,3]。在健康服务网络环境的支持下,智能健康管理服务平台对采集来的各种信息进行处理,这些信息包括数据、影像、音频、文本资料等。在对这些信息进行智能化加工之后,形成了一系列的健康档案信息资源,并根据相应的实时监测数据,做出个人健康促进报告,进行各种形式的跟踪干预。这些使得智能健康管理中的信息从采集、处理到应用,都表现出显著的多源异构特征[4,5]。因此,解决多源异构健康数据融合问题,完成信息资源的高效储存、无缝流转,是区域化健康服务平台的基本建设任务,也是实现区域协同健康服务体系的关键技术。

本文分析了智能健康管理中数据的多源异构性以及信息的集成特点,设计了多源异构数据融合系统,并在OMNeT++仿真环境下将采集到的健康数据进行仿真。实验证明,该系统可以有效地实现数据的融合,优化管理的效果。

1 智能健康管理中数据的多源异构性

在智能健康管理中,采集到的数据来源于多个区域多个级别。不同级别的信息资源,都有相应的数据存储方式以及独特的信息处理方案。同时,各个区域之间,区域内容呈现出了复杂的多源异构特性[6,7],如图1所示。

各个区域将各自的信息进行初步的融合和汇总后,分别将信息传送给医疗健康云计算中心,在此中心对数据等信息进行处理,进行相应的分析、评估、跟踪干预等服务。智能健康管理系统通过这一体系将现代化的健康管理服务理念和先导医学科学技术、管理科学技术及信息技术相结合,形成围绕“家庭—社区—健康服务机构—医院—疾控中心”的区域化多级新型健康管理和服务模式。在这一过程中,涉及到大量的健康数据空间分布、就医信息、体检数据、健康测量评估、设备运转以及参数等分散系统的时空数据,这些海量的时空数据分散在异构系统中,基于不同的数据规范格式和数据分析方式,故需要采用相应的数据融合方式来整合医疗和卫生保健资源,实现数字医疗资源共享和个人的健康资产的全人全方位的无缝动态连续管理,以达到提高人们的健康资产整体价值的目的。

由此可见,智能健康管理中多源异构数据融合需要解决的问题首先是数据信息表达的复杂性,这是由数据信息的多源多语义性、多时空性和多样性等特点决定的。其次,随着健康调查的深入开展,对个人行为的跟踪和干预,需要从外部网络挖掘更多隐含的信息。最后,多源异构数据融合后,在不同的层次上的要求对数据进行集成化,减少数据的冗余度,提高决策的效率。

2 智能健康管理中的信息集成

针对智能健康管理中信息资源的多源异构性,信息资源具有一定的层次性。在不同层次中,对于信息的存储格式和处理方案不同,解决多源异构数据融合的问题,要对数据的存储和集成进行规划。

1) 现场仪器数据

数据的采集系统包括LIS系统、HIS系统、体检系统和其他信息系统。这些系统能够将实验仪器与计算机组成网络,利用电子计算机和通信设备,为医院所属各部门提供对病人诊疗信息和行政管理信息的收集、存储、处理、提取及数据交换的能力,能将登录病人样品、存储实验数据、审核报告、分发打印,分析实验数据统计等复杂的操作过程进行智能化、自动化和规范化管理,完成与其他智能设备之间的通信。

2) 数据采集接口

数据接口能够方便地与医院现有的HIS系统、LIS系统、体检系统及其他管理软件进行连接并获取数据,将获取的数据自动存入数据库中,建立相关的管理对象的健康档案。将产生的数据信息分散存储在各自的实时数据库中,进而形成实时信息存储网络。

3) 健康知识智能数据库

集成的健康知识数据的采集和加工平台,可以实时感知数据采集接口中的信息存储网络,通过结合管理对象的档案以及相应的健康服务终端的信息,系统能够对管理对象的健康档案的智能分析耦合,为每一个管理对象量身制定相应的健康管理方案,能够实现个性化的管理。健康知识智能数据库是健康管理系统的支撑系统,由于采集的信息量庞大,信息实时采集,信息的代表能力不强,需要经过加工处理、集成之后,才能够为智能健康管理系统提供有效的数据。

4) 健康关系数据库

在健康关系数据库中,存储着对管理对象的健康进行干预以及交流反馈等流程之后产生的数据,以及在外部的数据,非关系型的数据,如以电话、短信、邮件和在线等方式产生的图形、文本等数据,将这些数据导入加工成功之后,经过互动平台和健康日志跟踪管理对象的健康状况,系统能够定制更为个性化的健康计划并能自动提醒管理对象。它与健康知识智能数据库的最大的区别是数据集成度不同,健康关系数据库是实时数据经过汇总、规范以及集成之后,形成的相应的数据集。

5) 健康数据仓库

数据智能化的相应的数据保证。数据的存储和管理是数据仓库的核心,建立元数据,对健康数据进行抽取、清理,并有效集成,按照相应的主题进行组织。利用OLAP对需要分析的数据可以进行有效的集成,按照多维模式组织对数据进行多角度、多层次的分析,满足不同的系统对于数据集成程度的要求。

3 智能健康管理多源异构数据融合系统

3.1 系统的体系结构

基于智能健康管理的多级多中心、逐层集成的信息处理特点,本文采用的体系结构如图2所示,在图中,椭圆代表健康数据采集检测手段,是由分布在相应区域的检测设备的外部环境接口组成。整个系统是一个由若干融合节点组成的融合树网络系统,其中每个节点都描述了一个标准的功能范例,范例描述系统的接口和组件。

融合节点包含数据融合和资源管理双重节点体系结构,数据融合和资源管理之间存在不可分离的特性,任意反馈都是通过过程管理来实施的,是资源管理的一部分。在融合树网络结构的底层,由健康信息采集系统、知识库耦合系统和反馈系统采集系统信息,将所采集的信息在相应融合节点进行融合处理。

健康信息采集通过生理指标采集终端设备、嵌入式网关设备、智能手机传输设备等方式来完成。知识库耦合系统和反馈系统将数据信息进行融合管理之后,实现对个人健康的评估和干预。经过对第二层数据的融合处理,将融合的信息存入健康知识智能数据库,再将其与其他外部系统融合数据和干预交流反馈后的数据在第三层上进行融合处理,存入健康关系数据库,最后,将数据存入健康数据仓库进行核心处理。

3.2 系统的设计

本文数据融合系统的设计包括两个部分:

第一部分,在融合节点之间选择数据流,也就是数据如何进行成批关联以及融合处理。

第二部分,在每个融合节点中,选择对批量输入的数据进行处理的方法,从而提高对所观测对象评估的精度。

融合节点包括三种基本的功能:数据配准、数据关联和实体状态估计,这些功能的完成方法和它们之间的数据流和控制流会因节点和系统的不同而不同,如图3所示。

1) 数据配准

对节点收到的数据进行预处理,以便对比和关联数据。数据配准包括:数据表示形式的规格化,数据冲突的检测与消解;数据的时空校准,将数据转换到统一的时空框架内;源数据/传感器可信度的规格化。

数据关联 将观测数据分配给假设的实体,观测数据采用传感器测量数据或者报告的形式,数据关联之后实体估计称为航迹[9]。

2) 状态估计和预测

这一功能是使用一些经过挑选的数据来精确地估计传感器测量数据,从而推断出实体的属性以及它们之间的关系。例如,对实体中的健康参数(所测量数据)进行评估,以获得更加准确的健康报告。联系知识库系统中已有的数据参数、评估准则,推断观测环境中实体的特征、健康状况等,就有更好的参考价值。

4 智能健康管理多源异构数据融合算法

本文设计的融合树系统中,为确定每个融合节点的处理方法,完成节点功能,数据融合的算法包括数据配准算法、数据关联算法以及状态估计/预测算法,如图4所示。

数据配准算法是将源数据的时间和坐标变换。只有当数据在格式上兼容的,并且在坐标和置信度的分配上是一致时,才能有效地融合来自两个或更多传感器的数据。包括坐标变换、时间外推和配准偏差补偿等方式来实现。坐标变换将不同坐标系中接收的数据转换到一个公共的空间参考系中,时间外推是将原来的航迹位置和运动数据外推到一个当前的更新时间,例如跟踪实时测量的位置到当前报告时间的外推,配准偏差补偿是校正传感器之间已知的偏差或视差。

数据关联算法是使用匹配的数据信息确定应该关联哪些数据以提高状态估计性能的算法,包括假设生成、假设评估和假设选择。假设生成是数据经过先验假设的可行性门限或数据聚类生成关联假设,假设评估是给可行的关联假设分配评估值,方法包括条件贝叶斯评估、逻辑和符号评估、可能性评估和神经网络等。假设选择是在全部假设的置信度的基础上,为状态估计选择一个或者更多的关联假设,可以在航迹层次上操作,例如利用贪心技术来实现。

状态估计和预测算法包括估计和预测实体的离散和连续状态的方法,基于观测对象的需求和类型的信息情况,状态估计可以包括运动学跟踪,如配准偏差估计、参数估计,以及离散属性和分类决策(例如健康检测状态)。离散状态估计技术划分为逻辑或符号、统计、似然或专家预测法。

本系统以学院智能健康实验室为平台,在OMNeT++仿真[10]环境下,将500个传感器节点分布在50m×50m的区域内,把区域内采集到的相关的健康数据进行分类以及数值分析,采用融合树的体系结构,根据各层的特点,调整相应的算法,对采集的健康数据进行融合。具体的仿真过程如图5所示。

仿真观测所得的融合数据如表1,其中设置单位传输接收能耗为100nJ/bit,如表中所示,随着通信半径的增大,数据相关性的增加,能耗比呈现先增后减的趋势,数据融合率增加,证明该系统能够有效地对数据进行融合处理,减少网络中数据的传输。

5 结 语

本文针对智能健康管理多源异构数据融合的层次集成化的特点,提出了由融合节点组成的融合树的数据融合体系结构,以及相应的数据融合算法。在网络系统数据融合的过程中,由于各个系统的数据先后到达融合中心,需要由不同时间段获得的不同系统内的监测数据的特点,根据数据源的类型和数量等来实时调整决策、推理规则。下阶段将充分发挥融合节点的作用,根据不同系统的数据特点,进一步研究可行的数据融合的算法,节省节点的能量消耗,获得更优的管理效果。

参考文献

[1]郭清.智能健康管理[J].健康研究,2011,31(2):81-85.

[2]Jesneck J L.Optimized decision fusion of heterogeneous data for breast cancer diagnosis[D].North Carolina:Duke University,2007.

[3]Tacconi D,Miorandi D.Using wireless sensor networks to support intel-ligent transportation systems[J].Ad Hoc Networks,2010,8(5):462-473.

[4]Ronan J L.Multisensor data fusion project final report[R].USA:SAIC Tech report,2008.

[5]袁刚.无线传感器网络数据融合系统设计[D].北京:北京邮电大学,2009.

[6]何友,等.信息融合理论及应用[M].北京:电子工业出版社,2010.

[7]Lollett C.Belief based reinforcement learing for data fusion[D].New York:State University of New York at Buffalo,2009.

[8]David L H,James L.Handbook of Multisensor Data Fusion[M].Lon-don:CRC press LLC,2008.

[9]彭冬亮,等.多传感器多源信息融合理论及应用[M].北京:科学出版社,2010.

异构系统融合 篇8

信息社会已进入数据洪流时代,大规模数据的涌现对数据的处理带来了挑战。现有信息媒介包括广播电视网络、新闻网站、微博和视频分享网站等多种承载平台,其数据以文本、图像、视频等多种形式传播。一方面,各种信息不仅局限于单一平台中,还通过互动方式迅速跨平台传播;另一方面,用户不再简单地用文字直接表达观点,而会用多种形式的媒体来表达看法。这种新的媒体形式被称为“异构媒体”,异构媒体的一致性表示是进行关联与聚合的基础。现有媒体描述和表达仅仅针对特定的任务,对于不同媒体数据往往独立表示,缺乏对不同平台下的多媒体数据的一致性表示,如图1所示。

面向媒体融合的海量异构数据一致性表示成为了一个重要的研究课题。高效的异构媒体描述是有效分析的前提,它不仅需要刻画媒体的自然属性,还应能够有效描述社会属性。媒体数据的自然属性主要刻画的是媒体本身的内容信息。为了描述各种媒体数据的自然属性,对于音频数据、视觉数据和自然语言数据,都分别有不同的表示方法。

(1)音频数据

首先需要将属于不同说话者的声音片断分割出来,Delacour等将一些二阶统计量作为特征,对连续语音信号中的不同语义声音进行分割[1]。该方法不需要知道说话者的数目和其他一些先验信息,但是要求说话人不能同时讲话。Kim等比较了声谱投影(audio spectrum projection,ASP)和MFCC这两种特征在说话人分割问题中的有效性[2]。

(2)视觉数据

传统的媒体表达方式往往采用自然语言表示中的“词袋”模型[3]及其变种,如所提出的“视觉单词”[4]以及“视觉文法”[5]等。但“词袋”表示方法忽略了空间、结构信息。为此,研究人员提出了区域划分的表示策略,如空间金字塔划分[6]和形状上下文描述子[7]等。基于中层语义表示的方法也被广泛应用,如概率隐语义分析方法[8]、隐狄利克雷分配模型[9]和语义样例检索[10]等。另外,研究人员也进行了直接利用高层语义表达[11,12]的研究,取得了良好的表示效果。但是,现有方法往往无法处理虽然视觉相似,但语义完全不同的问题。

(3)自然语言数据

自然语言处理中,文档常先被分割为词项、短语等元素。而在文档集中频繁出现的有意义的词项、短语,可以看作是具有一定的标识性。一种行之有效的方法是:首先在每个文档中提取短语,然后去除很多无意义的短语,比如过短、过长或者过于频繁的短语,并将短语视为图节点;再根据短语间的编辑距离,得到短语间的相似度,从而得到短语图;在得到短语图后,对短语图进行分割。

媒体数据的社会属性主要指的是媒体数据本身在社会事件中起的作用,侧重于对其社会影响的描述。网络事件的语义不仅体现在媒体数据本身的自然属性方面,也体现在其社会属性方面。现有的社会属性获取方法主要可以分为两种:基于语义标注的方法[13,16]和基于信息挖掘[17,19]的方法。基于语义标注的方法往往利用有标注的训练样本,通过视觉、文本相似性来传递标注词,从而达到对于未知图像、视频和文本的社会属性获取。基于挖掘的社会属性获取方法也引起了研究人员的广泛兴趣,并提出了一系列行之有效的方法,如概念发现[17]等。另外,网络信息挖掘还可以获取用户行为等社会属性,如基于习惯挖掘的相似移动用户选择[20]等。对于媒体数据社会属性的提取和挖掘尚处在起步阶段,还存在大量的问题亟待解决。

上述方法大多是针对特定媒体数据、特定语义理解任务的,而异构媒体一致性表示的方法流程如图2所示。将异构媒体进行特征抽取与表示,并在此基础上进行结构化数据组织,以实现一致性表示,为后续的关联与聚合提供基础。

2一致子空间学习

在抽取完异构媒体各自的特征表示后,需要进行一致性子空间投影,以实现异构数据之间的相似性度量。原始表示的维度往往较高,而一致子空间的维度较低,因而,一致子空间的学习可以认为是降维的过程。降维技术可以分为特征选择、特征变换、距离度量学习和基于排序的子空间学习。特征选择是从原始的特征集合里直接选取某些特征作为新的低维表示。依据是否利用类别信息,可以分为监督的特征选择[21]和无监督的特征选择[22]。

特征变换是指利用某个线性的或者非线性的变换函数去产生原始数据的简洁表示。根据变换函数的性质,可以分为线性和非线性两种。特征变换也可以利用排序的方式进行。这种方法基于两点假设:查询数据和相关联的数据通常分布在一个低维的流形上;查询数据和相关联的数据间存在一定的顺序关系。在排序过程中,不仅要识别出是否属于同一个层次,还要保持层次之间的顺序关系。给定训练集,通过优化下述目标函数实现:

目标函数的第一项是寻找d个正交方向,使得d个保持数据几何结构信息的方向尽量相同。

距离度量学习是利用某些给定的辅助信息,从输入空间学习一个距离度量来测量数据点之间的距离。一个有代表性的距离度量学习方法是LMNN[23],其目标是对于输入空间中的每个样本,其k个具有相同类标的近邻应尽可能地接近,而属于不同类别的样本应保持一定距离。

基于排序的子空间学习方法主要是针对高维数据进行排序。排序学习框架如图3所示。

大部分的距离度量学习技术都是为了分类或聚类任务设计的,无法直接应用与排序任务。在实际的排序问题中,也需要依赖距离度量来比较并确定排序关系。如果能够学习一个合适的距离度量,就容易构造一个好的分类器。基于这种假设,相应的线性学习模型可以表示为:

其中,第四项是松弛变量,w(i,j)是加权因子,其定义为:

算法通过梯度下降的方式进行求解。

类似地,基于多核度量学习的非线性学习模型可以表示为:

在移除松弛变量后,上述目标函数可以重新表示为:

可以通过交替的梯度下降进行求解。

3多模态结构化一致索引

在获取异构媒体的一致性表示后,还需要对其进行索引表示。不同模态信息之间存在结构化的关联关系,利用结构化信息进行一致性索引更有利于多模态数据的关联和聚合。现有的方法大致可以分为特征高阶特性的分析和基于二值化的结构索引两部分。

3.1高阶特性分析

传统的多媒体分析方法往往采用词袋模型,忽视了不同特征之间的关联关系。而空间上下文关系等高阶特性对于一致性表示的改进被忽略了。由于对于二维图像数据来说,这种空间上下文关系的利用更能改进表示的效果,因此,现有的方法主要针对视觉数据进行。随机抽样调查,即RANSAC是一个比较经典的算法,它假设查询图像与数据库图像之间存在一种仿射变换模型,这种变换可以通过匹配的局部特征对估计出来。将视觉特征的空间上下文关系,即高阶特性,嵌入到倒排表结构中,用以获得更好的初始特征匹配,提高检索精度。

近些年,研究人员投入了很多精力,关注如何生成可以保持高维视觉特征相似度的紧凑二值特征码。将高维的特征编码成二值比特流,具有很好的存储便利性和特征相似度计算的便利性。下面着重介绍将局部视觉特征的高阶特性进行高效利用。

对每个视觉特征来说,根据其周围特征和该特征的空间关系,这些周围特征被分为几个组,如图4所示,绿色的点代表局部特征,红色圆中的特征点表示绿色特征的有意义的空间上下文范围。为了描述每个特征组中的视觉内容,首先对每个组生成一个统一的描述子,其次将左右组的描述子连接形成描述该特征的上下文关系的描述子,最后将生成的上下文关系描述子二值化以方便应用和存储。除了特征的上下文描述子之外,还揭示了局部视觉特征的多模态特性。图5中展示了几个多模态特性的例子,该图中采用海森仿射检测子,每个黄色的椭圆代表一个检测到的特征区域,其中被红色矩形框标出的是两个具有多模态特性的示例。

这里以图6中特征A为例说明空间上下文表示方法,记A的空间位置的主方向为OA,并以此为基础建立一个以IA为原点,以OA为x轴的坐标系。这样可以将图像平面划分为4个子区域,在图6中给出了每个子区域的标号。由于以特征点的主方向为基准,这样的划分方式具有平移、旋转的不变性。实验的结果显示,图像平面被划分为3个子区域的时候能得到较好的结果,每个子区域为120度角,这样对特征点主方向的误差有较好的鲁棒性。考虑到存储和相似度计算的复杂度问题,将环境特征描述子编码成二值字符串。令A的环境特征记为,其中NA表示A的环境特征的数目,然后把每个子区域中的环境特征以加权求和的方法融合成一个向量表示:

其中,fi表示特征fi落在第k个子区域,di表示特征fi的描述子,wi表示fi的权重。

其中si和Ii表示特征fi的空间位置,t决定了特征环境描述子的范围。基本上是对距离特征A较远的环境特征分配较小的权值,较近的环境特征分配较大的权值。然后将所有子区域的描述子连接形成一个长向量。

3.2二值化结构索引

特征的匹配可以被当作查找特征的最近邻或者近似最近邻,当特征量变得非常巨大的时候,这种最近邻的匹配方法就变得太费时而不能使用,从文本检索中引入的倒排表的数据索引结构可以解决这个问题。

在倒排表结构中,每个特征被分配一个整数ID,如图7(a)和7(b)中所示。每个整数ID对应倒排表中的一个表项,表项中记录着含有这个整数ID对应的特征的所有图像ID和特征的一些其他信息,如空间位置、尺度、主方向等。特征采用在视觉码本中的最近邻或者近似最近邻的方法量化到视觉单词。

对于基于编码单词和基于视觉单词的索引结构,特征空间被编码单词和视觉单词划分成很多字空间。在高维空间中,给定了一个查询特征,它的正确匹配特征有可能落在量化后不同的特征字空间内,两个匹配的特征之间的二值化字符串之间的编码单词(前32比特)之间的汉明距离是3比特。为了获得更好的查询查全率(recall),检索时通常要检查多个编码单词字空间或者视觉单词字空间,分别称之为编码单词查询扩展和视觉单词查询扩展。

对于视觉单词查询扩展,在特征空间中进行均匀的查询扩展效率并不高,因为有些查询特征与它的正确匹配特征之间并不是均匀分布,有些特征的正确匹配特征落在较多的视觉单词字空间中,有些落在较少的视觉单词字空间中,如图8所示。

基于上述对编码单词和视觉单词查询扩展的分析,可以采用交叉索引进行处理。考虑到查询过程中的复杂度,仅进行一比特的编码单词查询扩展,用以找到一些正确的匹配,和这些正确匹配量化到的视觉单词ID,这样可以自动发现需要进行查询扩展的视觉单词。交叉索引过程如图9所示。首先,如图9(a)所示,绿颜色十字表示的查询特征对应的编码单词被用作编码单词查询扩展,查询扩展到的编码单词以紫颜色的虚线三角形表示,在这个过程中有两个正确的匹配特征被找到,在图9(a)中以绿颜色的矩形表示。然后,查询上一步骤中找到的正确匹配特征对应的视觉单词字空间,如图9(b)所示,紫颜色的虚线表示的不规则多边形,这个过程中新发现的正确匹配特征,也以棕颜色的矩形表示。最后,对第二步中找到的正确匹配的特征对应的编码单词,进行小范围查询扩展,如图9(c)所示。

在视觉单词袋模型中,每幅图像被表达成含有TF-IDF加权的视觉单词直方图。图像之间的相似度以图像视觉单词直方图向量之间的L1或者L2距离来计算。在含有二值码字符串的图像检索系统中,特征的二值码被用作特征匹配的校验,并且正确匹配的特征数目被用来衡量两幅图像之间的相似度,算法可以用以下公式:

其中,i表示第i幅数据库图像。B(d)和B(q)表示数据库中的特征d和查询特征q的二值码。T是一个预先设定的阈值,它的影响将在实验部分给出。H(B(q),B(d))表示两个二值特征码之间的汉明距离,如果两幅图像和查询图像之间有相同的匹配特征数,就将含有特征数较少的数据库图像排在前面。这种交叉索引结构可以提高查询特征的查全率。图10给出了码本大小为一百万时,交叉索引算法在UKBench数据集[25]上的性能。

4总结与展望

在市场需求和全球大潮流的驱动下,媒体融合已经是大势所趋。而现在多种媒体共存,造成信息的多渠道和分众化传播。网络媒体虽然有在线传播的优势,但是新闻传播角度的先天缺陷和技术的不够成熟使其在短时间内还很难一统当今的媒体。现有的几种传统媒体中,广播电视媒体的前期投入最大,针对广电数据进行媒体融合就尤为迫切。不同平台的数据在表示形式、结构和语义内容上存在很大差别,它们具有非结构化、异质等特性,给数据内容分析和挖掘造成巨大挑战。因此,首先需要对这些异构媒体数据进行结构化抽取和一致性表示,为后续的关联与聚合分析提供数据基础。

摘要:随着信息技术的发展,急需处理海量异构数据的方法。面对媒体融合的需求,海量异构数据的一致性表示成为一个关键问题。本文首先对媒体融合、海量异构数据一致性表示的必要性进行了讨论,随后对海量异构数据一致性表示的主要步骤进行了介绍,并详细介绍和分析了一致子空间学习和多模态结构化一致索引这两个主要步骤,最后对面向媒体融合的海量异构数据一致性表示进行了总结与展望。

上一篇:法律英语术语下一篇:中学生读书活动