数据挖掘技术综述

2024-06-09

数据挖掘技术综述(共12篇)

数据挖掘技术综述 篇1

1 引言

随着信息技术飞速发展和应用领域不断拓宽,信息技术极大地提高了人们的工作效率,给人们的生活带来了诸多便利。然而在信息化建设初期,由于缺乏有效的和合理的规划和协作,造成信息化建设的大量重复和“信息孤岛”现象,随着信息量的爆炸式增长,信息化建设遭遇到巨大的浪费。针对目前情况,迫切需要一种技术用于将之前的各个独立的信息化系统集合起来,给各个“孤岛”架起沟通的桥梁,为将来各种各样的信息化建设服务。随着互联网技术的诞生,在一定的程度上可以很好的支持信息发布和信息收集,但对于之前的信息化资源的重用需求,对于日益迫切的分散数据访问和分析需求——跨地区的连锁经营销售商要求对其每天总的销售状况进行分析等,对于越来越复杂的应用环境——在线分析处理(OLAP)、决策支持系统(DSS)、数据挖掘(DM)等,人们迫切需要形成跨组织、跨领域、多应用的信息交换和共享。在这种背景下,数据集成技术应运而生。

数据集成技术是将分布的、异步的,甚至异构的独立信息源中的有用数据集成在一起,使得用户能够以透明的方式访问这些数据源,以供将来信息检索、分析处理等等应用的技术。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据,图1显示了数据集成系统模型。[1,2]

数据集成是信息系统集成的基础和关键,好的数据集成系统可以保证用户以低代价、高效率使用异构的数据。现在,越来越多的现代企业已经意识到商业数据集成在企业日常运作和管理中的重要性,全球著名的IT企业如Oracle、IBM,数据开发环境单一,工具环境无关性差等缺点。而且随着应用的不断深入,对Microsoft和Sybase等都针对自己的产品提出了数据仓库的数据集成解决方案,这些解决方案提供了方便了数据集成方法,但它们都或多或少地存在这样或那样的缺陷,比如兼容性数据集成提出更新更高的要求———任意订制需要抽取的数据、灵活而高效的数据抽取方式(实时或周期性抽取等)、数据抽取的一致性、异构信息源(包括半结构化和非结构化数据)集成和系统平台无关性等。数据集成的研究与设计必须深入,解决以前方法的局限性,提供更高的实用性,找到一种更优的维护方法等等任务。[3]

2 传统的异构数据集成方法

传统的数据集成所采用的方法基本可以分为两大类:数据复制方法和模式映射方法。

2.1 数据复制方法

数据复制方法将各个数据源的数据复制到与其相关的其他数据源上,并维护数据源整体上的一致性,提高信息共享和利用的效率。数据复制可以是整个数据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可减少用户使用数据集成系统时对异构数据源的数据访问量,提高数据集成系统的性能。最常见的数据复制方法就是数据仓库方法。该方法将各个数据源的数据复制到同一处——数据仓库,用户则直接访问数据仓库获取数据。这种方法既可用于数据集成,亦可用于决策支持查询。但是,这种对数据仓库的间接访问方式带来的问题就是数据更新不及时、数据重复存储。斯坦福大学DB Group的数据集成方案是数据复制方式数据集成方法的代表性方案。然而在应用领域中,信息源数据通常含有企业商业机密信息或政府部门公众机密信息,不能让数据集成系统访问这些信息或基表。[4]

2.2 模式映射方法:即虚拟视图的方法

模式集成(Schema Integration)是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是,在构建集成系统时,将各数据源共享的数据视图集成为全局模式(Global Schema),供用户按照全局模式透明地访问各数据源的数据。该方法不需要重复存储大量数据,能保证查询到最新的数据,比较适合于集成数据多、且更新变化快的异构数据源集成。

模式集成要解决的两个基本问题是:构建全局模式与数据源共享数据视图间的映射关系;处理用户在全局模式基础上的查询请求。模式集成过程需要将原来异构的数据视图作适当的转换,消除数据源间的异构性,映射成全局模式。全局模式与数据源数据视图间映射的构建方法有两种:全局视图法和局部视图法。全局视图法中的全局模式是在数据源数据视图基础上建立的,它由一系列元素组成,每个元素对应数据源的一个查询,表示相应数据源的数据结构和操作;局部视图法先构建全局模式,数据源的数据视图则是在全局模式基础上定义,由全局模式按一定的规则推理得到。

2.2.1 联邦数据库

联邦数据库是早期人们采用的一种模式集成方法。联邦数据库中数据源之间共享自己的一部分数据模式,形成一个联邦模式。联邦数据库系统按集成度可分为两类:采用紧密耦合联邦数据库系统和采用松散耦合联邦数据库系统。紧密耦合联邦数据库系统使用统一的全局模式,将各数据源的数据模式映射到全局数据模式上,解决了数据源间的异构性。这种方法集成度较高,用户参与少;缺点是构建一个全局数据模式的算法复杂,扩展性差。松散耦合联邦数据库系统比较特殊,没有全局模式,而是提供统一的查询语言,将很多异构性问题交给用户自己去解决。松散耦合方法对数据的集成度不高,但其数据源的自治性强、动态性能好。

2.2.2 中间件集成方法

中间件集成方法是另一种典型的模式集成方法,它使用全局数据模式。与联邦数据库不同,中间件系统不仅能够集成结构化的数据源信息,还可以集成半结构化或非结构化数据源中的信息,如Web信息。基于中间件的数据集成系统主要包括中间件和包装器,其中每个数据源对应一个包装器,中间件通过包装器和各个数据源交互。用户在全局数据模式的基础上向中间件发出查询请求。中间件处理用户请求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行优化,以提高查询处理的并发性,减少响应时间。包装器是对特定数据源进行封装,将其数据模型转换为系统所采用的通用模型,并提供一致的访问机制。中间件将各个子查询请求发送给包装器,由包装器来和其封装的数据源交互,执行子查询请求,并将结果返回给中间件。中间件注重于全局查询的处理和优化,相对于联邦数据库系统的优势在于:它能够集成非数据库形式的数据源,有很好的查询性能,自治性强;中间件集成的缺点在于它通常是只读的,而联邦数据库对读写都支持。

2.2.3 peer-to-peer数据集成方法

peer-to-peer(P2P)[6]数据集成方法是在新兴的P2P计算技术的基础上,对原有的模式集成方法的扩展。P2P是一种基于对等网络的架构,是计算机系统的结构从传统的集中式发展为松散耦合分布式的新模式。在P2P数据集成方法中,参与集成的各个数据源节点分别被视作一端,每个节点可以将自己的一部分本地数据模式映射成为端共享模式,向其他节点共享自己的数据。纯粹的P2P数据集成方法没有全局数据模式,各节点可以直接通过P2P映射使用其他节点共享的数据模式,从而形成各节点之间对等的数据共享与访问机制。P2P数据集成方法已成为当前数据集成研究的一个热点。

3 异构数据集成的新技术

虽然数据集成技术已经取得了很多应用成果。但由于应用和需求的不断拓展变化。数据集成迄今仍是困扰企事业单位信息系统建设、维护和发展的难题。还远未得到很好解决。已有的数据集成方案普遍存在难以适应数据源的动态变化、难以完成动态集成以及传输成本高等缺陷。而且很多系统中的数据是从数据源向集成模式单向流动的,不能支持局部数据源之间的数据交换和共享。也不能在集成数据上进行新型跨部门综合业务的开发针对以往数据集成方案的不足,人们不断探索,新的数据集成技术也不断涌现。其中包括网格技术和本体集成技术。

3.1 网格技术

网格技术提出目的就是实现分布式环境下的资源共享和协同计算。网格(Grid)又称为虚拟计算环境。是近年来兴起的一种重要的网络信息技术网格利用计算机网络把地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源、知识资源等连成—个逻辑整体,然后像一台超级计算机一样为用户提供—体化的信息应用服务。实现互联网上所有资源的全面连通、全面共享。以消除信息孤岛和资源孤岛。

3.2 本体技术

数据的异构性分为两个方面:一是结构性异构,即不同数据源数据的结构不同:二是语义性异构,即不同数据源的数据项在内容和含义上有所不同或有冲突。目前,XML已经成为异构系统间数据交换的公认标准,所以,语义异构成为数据集成技术的难点。已有的各数据集成方法也都面临如何更好的解决语义异构的问题。

本体是对某一领域中的概念及其之间关系的显式描述。是语义网络的—项关键技术。本体技术能够明确表示数据的语义以及支持基于描述逻辑的自动推理,为语义异构性问题的解决提供了新的思路,对异构数据集成来说应该有很大的意义。但本体技术也存在一定的问题:已有关于本体技术研究都没有充分关注如何利用本体提高数据集成过程和系统维护的自动化程度、降低集成成本、简化人工工作。基于语义进行自动的集成尚处于探索阶段,本体技术还没有真正发挥应有的作用。

因此,可以采取本体技术和中间件相结合的方法[5]:采用中间件架构,支持虚拟视图或视图集合,且不存储任何异构数据库中的实际数据。为了更好地解决语义异构,在中间件中引入了一个本体库。

整个系统架构如图2所示,包括如下3个层次:

1)应用层

应用层为终端用户提供访问中间件层的查询接口,用户可以通过应用层的浏览器调用中间层。系统提供统一的查询检索平台,它能够显示用户可以查询的集成信息,而底层集成的数据源对用户是透明的。

2)中间件层

中间件层从更高层次上屏蔽了数据源的分布性和异构性。用户认为所有的数据都是本地的,处于同一服务域中,而具体的查询请求的处理、结果的返回都由中间层负责。中间件主要由中介器、包装器和本体库3个部分组成,其中,中介器又包括查询生成器、查询分解引擎、查询执行引擎和结果处理4个功能组件。

3)数据源层

数据源层是由分布式异构数据源组成,数据源可以是关系数据库、Excel表格,也可以是半结构化的XML文档。每一个数据源都可以位于Web上不同的服务站点,采用本地的方式对数据进行管理。

4 数据集成技术展望

鉴于异构数据集成所固有的难点。可以相信,异构数据集成技术会随着各个难题的解决而得到越来越广泛的应用。今后,数据集成的研究方向应该包括:(1)基于网格、本体语义的数据集成方案的研究;(2)多种技术相结合的数据集成方案;(3)集成数据的完整性、一致性,实时性。

5 结束语

本文从对数据集成技术需求出发,说明了数据集成技术对当前信息系统的重要性。对传统的几种数据集成技术进行了概括,并对数据集成的两种新技术进行了研究,给出了数据集成技术发展的方向

摘要:从现行信息需求出发,介绍了数据集成技术发展的必要性,讨论了已有的数据集成技术,分析了这些技术的优缺点,介绍了网格技术、本体技术两个新的异构数据集成技术。在此基础上给出了本体技术和中间件相结合数据集成解决方案。最后,提出了数据集成方法的发展方向。

关键词:数据集成,数据复制,模式集成,本体

参考文献

[1]Widom J.,"Research Problems in Data WareHousing",In Proceedings of the4th,Int'L Conference on Information and Knowledge Management(CIKM),November1995.

[2]薛惠忠,庄晓青,董逸生.数据仓库中的数据集成转换[J].现代计算机,2003.12:78-82.

[3]Ullman J D.Information integration using logical views[c]//proceeding of ICDT97,Volume1186of LNCS,1997:19-40

[4]Hammer J.,Garcia-Molina H.,Widom J.,Labio W.,Zhuge Y."The Stanford Data Warehousing Project",In IEEE Data Engineering Bulletin,1995,18(2):41-48.

[5]周刚,郭建胜.基于本体的异构数据源集成系统分析与设计[J].北京:北京联合大学学报,2007.10:45-48.

[6]周傲英,凌波.Peer-to-peer系统及其应用[J].计算机科学,2001,29(8):200-202.

[7]徐立臻,谢鸿强.数据仓库系统中源数据的提取与集成[J].小型微型计算机系统,2003,24(5):869-873.

[8]都志辉,陈渝,刘鹏.网格计算[M].北京:清华大学出版社,2002.

数据挖掘技术综述 篇2

国内多源遥感数据融合研究综述

本文主要针对广泛应用的多源遥感数据融合方法,如IHS变换、主成分变换、小波变换法、神经网络法等进行简要介绍.概括了国内学者的主要研究成果,指出了遥感图像融合技术的`关键是图像之间的空间配准,发展方向是多源遥感数据融合模型的普遍适用性.

作 者:李菲菲 作者单位:北京林业大学林学院刊 名:山西水土保持科技英文刊名:SOIL AND WATER CONSERVATION SCIENCE AND TECHNOLOGY IN SHANXI年,卷(期):“”(2)分类号:V557+.2关键词:遥感数据源 数据融合技术 IHS变换 主成分变换 小波变换法

基于数据库防火墙的专利技术综述 篇3

【关键字】DBFirewall 数据库防火墙 WEB服务器 SQL注入攻击

一、引言

数据库防火墙系统,是一种基于数据库协议分析与控制技术的数据库安全防护系统,其被部署于应用服务器和数据库之间,是针对关系型数据库保护需求应运而生的一种数据库安全主动防御技术,主要应用于以数据库为基础的经济、金融、医疗等领域。

数据库防火墙本质上是一种介于应用程序和数据库之间的代理服务器,应用程序连接到数据库防火墙并像正常连接到数据库那样发送查询,数据库防火墙分析预期的查询,如果认为是安全的,就将它传递给数据库服务器加以执行,反之,如果认为是恶意的,就阻止运行该查询。数据库防火墙通过SQL协议分析,根据预定义的禁止和许可策略让合法的SQL操作通过,阻止非法违规操作,形成数据库的外围防御圈,实现SQL危险操作的主动预防、实时审计。

二、数据库防火墙技术专利的主要分类与应用分析

数据库防火墙采用网络防火墙中的包过滤技术,主要在过滤规则上进行改进。基于上述规则策略,数据库防火墙技术可以具有以下分支:静态防御技术、动态防御技术,其中对动态防御技术进行细分,又主要具有以下分支:基于统计分析的动态防御技术、基于语义分析的动态防御技术。

2.1静态防御技术

数据库防火墙模型中的简单的规则匹配属于静态防御技术,基于此类规则的数据库防火墙模型提供的防护程度相比网络防火墙有所提升,由于静态防御技术属于数据库防火墙中的基本防御技术,因此涉及到此方面的专利文献非常多,例如专利文献CN101370008A、CN101425937A、CN101448007A、CN102104601A等都是基于规则匹配的方式进行防御。但是基于规则的配置及使用都极为不便,基于静态防御的方法也并不是“智能的”和“动态的”,只能检测到允许或者组织特定规则的数据包,因此基于静态防御的数据库防火墙的防护能力有限。

2.2动态防御技术

动态防御技术通过对基于规则匹配的静态防御技术加以改进,通过采用经验值累加的统计分析、语义分析等智能分析的技术,对数据库防火墙的攻击进行识别,从而达到捕获SQL注入攻击和提高防火墙防御能力的目的。

2.2.1基于统计分析的动态防御技术

基于统计分析的动态防御技术中,常见的统计方式为统计攻击行为次数和攻击行为的经验值。基于经验值的行为分析是对基于规则匹配的改进,对不同的特征指定权值,对每一个操作计算风险值,即从异常的行为中提取出具有代表性的特征来作为识别异常行为的标识。如对于某一操作分别取出操作主体、操作客体、操作类型以及操作结果的经验值,将四项相乘得到此操作的风险值。

例如,申请人为IBM,公开号为US2008/0172347A1的专利申请,其公开了一种使用专家系统来决定是否变更防火墙配置的方法,所述专家系统接受与防火墙相关的信息包所在的信息流,专家系统预先定义信息流数据的风险值。专家系统使用确定的风险值来决定与信息包相关的总的风险值。最后,专家系统产生基于总的风险值的建议措施,如根据信息流中的规则集允许或者禁止所述信息流。

2.2.2基于语义分析的动态防御技术

基于语义分析的动态防御技术是指通过进行对攻击语句语义分析,即通过进一步的拆解SQL语句,分析语句的直接的含义分析得到潜在的SQL攻击的技术,该技术可以有效的避免被人精心构造的SQL语句对于数据库的攻击。

例如,申请人为北京启明星辰信息技术股份有限公司,公开号为CN101901219A的专利申请,其公开了一种数据库注入攻击检测方法及系统,该方法包括:通过对数据库历史访问记录进行自学习,对所述历史访问记录进行自学习的步骤:设置所述历史访问记录;对所述历史访问记录中的每条记录进行SQL语句解析,提取SQL模板;建立所述访问行为模式库,接收数据库实时访问;根据访问行为模式库,判断实时访问是否为注入攻击,获得判断结果。

三、结束语

数据挖掘技术综述 篇4

关键词:隐性知识,数据挖掘,隐性知识挖掘方法

一、引言

隐性知识是指人们无法清楚地传达出来的知识, 这些知识存在于其头脑中, 只能通过具体的行动来表示。在对隐性知识管理的研究中, 如何使得隐性知识显性化是知识管理的重要研究内容之一。本文对数据挖掘、隐性知识的基础知识进行了梳理, 同时陈述了现有文献和企业中的隐性知识挖掘方法, 旨在使以后的学者能够在此基础上开发出新的、更优的隐性知识挖掘途径与方法。

二、隐性知识的转换

著名的英国学者波兰尼于20世纪60年代, 在其代表作——《个人知识》中, 首次对知识进行分类, 分为明晰和默会知识, 著名的日本学者——野中郁次郎 (Ikujiro Nonaka) 在其书——《创造知识的公司》中, 借鉴并发展了波兰尼所提出的知识分类方法, 将知识分类为隐性知识和显性知识。

Nonaka提出隐性知识的两个要素是认知和技术, 认知是指个人对外部状态的模拟和理解, 如信仰、范式、价值观, 技术是有关具体如何操作的知识, 指对具体问题的解决方案等。Nonaka从知识相互转化的角度阐述了隐性知识与显性知识转化的动态过程, 提出了著名的SECI模型 (隐性与显性知识转化过程:社会化、外在化、组合化、内隐化) , 为后续的研究提供了一个崭新的视角。

三、基于数据挖掘的隐性知识挖掘

(一) 数据挖掘及其应用

数据挖掘 (Data Mining) 是从大量的随机、不完全、模糊的数据中提取出隐含在其中的、事先不为人知但是具有潜在价值的知识和信息的过程。数据挖掘技术可以应用在许多领域, 诸如金融服务、电力供应业 (负荷预测) 以及市场营销和销售, 同时也能够应用于以产品发展为目的的领域, KDD还可用于工业、交通、电信、市场营销、保险等其他行业。

对数据挖掘技术的使用可以在大量未经筛选的数据中提取出可供学习的、有价值的知识和信息。在构建知识管理系统时, 普遍采用的数据挖掘方法如:分类、聚类、Web页挖掘和关联规则等。分类、聚类以及关联规则方法都是使用某种挖掘算法对企业内部知识归类, 方便员工进行搜索和文件管理;而Web挖掘技术则是通过对Web日志的挖掘总结出企业员工在工作过程中进行知识搜索的相关内容, 主要是有关哪个方面以及企业知识库中是否需要添加新知识和新信息以满足员工需求。

(二) 知识管理

为了适应市场竞争力的不断变化, 企业需要不断提高企业客户知识、加强企业员工对于知识的获取、创新以及共享, 随之便产生了基于IT技术的对数据和信息的管理, 即知识管理 (KM) 。有学者提出, 知识的处理以及利用主要包括如下三个阶段:第一, 知识库阶段;第二, 知识共享阶段;第三, 知识发现阶段。

在知识库阶段, 经过手工处理的知识进入到预先被定义的知识库中, 知识库阶段的技术主要是单机数据库和文件系统。数据共享阶段, 人们意识到自己需要哪种知识但没有该知识, 因此开始搜索知识。知识发现阶段出现了求知欲, 也产生了知识发现的希望, 这也许正是文本挖掘出现的内因。由上述三个阶段我们也可以得到如下结论:知识管理的整个进程都是与数据库技术密不可分的。

(三) 隐性知识挖掘方法列举

由于隐性知识对于企业的重要性, 学术界和企业都采用了许多不同的方法来进行隐性知识的挖掘。本文对隐性知识挖掘方法列举如下:

1. 基于案例的隐性知识挖掘方法

当前许多企业运用建立案例库的形式来留存在具体工作过程中处理事件所运用的隐性知识, 在新案例的处理过程中使用人工智能的案例推理取得了不错的效果, 该方法通过搜集大量的案例 (在实际工作过程中专家如何解决问题) , 采用建立映射关系 (专家解决问题到实际的知识领域) 以构成相对应的知识结构图, 或者通过关联分析的方法从案例中挖掘出隐性知识。

2. 基于Microsoft三种算法的隐性知识挖掘方法

基于Microsoft的隐性知识挖掘方法包括如下三种:基于Microsoft决策树算法的隐性知识挖掘方法、基于Microsoft线性回归算法的隐性知识挖掘方法、基于Microsoft神经网络算法的隐性知识挖掘方法。

Microsoft决策树算法是通过在树中创建一系列拆分来生成数据挖掘模型。Microsoft线性回归算法是Microsoft决策树算法的一种变体, 更加易于计算独立变量和依赖变量间的线性关系, 并使用该线性关系进行预测。Microsoft神经网络算法对输入属性的所有可能状态以及可预测属性的所有可能状态进行组合, 并通过使用定型数据来计算概率。

3. 基于其他算法的隐性知识挖掘方法

通过数据挖掘的其他算法, 如遗传算法、FP算法、Pairwise analysis等途径都能够实现对隐性知识进行挖掘。

4. 基于web的隐性知识挖掘方法

企业通常也直接针对企业员工的隐性知识共享与挖掘, 设计、开发或直接购买基于web平台的知识挖掘系统。目前应用尤为广泛的是基于e-learning的隐性知识外化方法, 隐形知识外化方法能够将知识持有者的知识外部化到知识库中, 企业中的知识组织者和教学设计者对知识进行组织, 进而使得知识探寻者能够学习知识库中的知识, 同时对学习效果进行反馈, 形成操作型的知识数据库。该方法能够很好地发挥e-learning和知识管理的优势, 有效地提升企业的学习能力和工作效率。

四、讨论与展望

在企业的知识构成中, 隐性知识占很大一部分, 对隐性知识的挖掘就显得尤为重要。本文梳理并讨论了基于数据挖掘技术的隐性知识挖掘的背景知识和现有文献以及企业中的隐性知识挖掘方法。企业应根据其自身状况, 针对不同种类的隐性知识并结合实际情况, 利用知识挖掘算法以及其他的分析途径, 开发企业内的知识挖掘系统或建立相应的平台, 同时加强员工分享知识的积极性。

参考文献

[1]张喜征, 陈博.基于案例的隐性知识挖掘研究[J].情报杂志, 2006, 25 (07) :8-9.

[2]芦昆.基于Web2.0的隐性知识外化研究[J].情报科学, 2008 (002) :247-251.

数据挖掘技术综述 篇5

依据《国家中长期科学和技术发展规划纲要(2006-2020年》、《关于促进云计算创新发展,培育信息产业新业态的意见》、《国务院关于印发促进大数据发展行动纲要的通知》等文件,科技部会同相关部门组织开展了《云计算和大数据重点专项实施方案》编制工作,在此基础上启动“云计算和大数据重点专项”2016年度项目,并发布本指南。

云计算和大数据专项总体目标是:形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键技术自主可控,促进我国云计算和大数据技术的研究与应用达到国际领先水平,加快建成信息强国。

专项围绕云计算和大数据基础设施、基于云模式和数据驱动的新型软件、大数据分析应用与类人智能、云端融合的感知认知与人机交互4个创新链(技术方向部署31项研究任务,专项实施周期为2016年-2020年。

按照分步实施、重点突出原则,2016年首批在4个技术方向启动12个任务。针对任务中的研究内容,以项目为单位进行整体申报,研究内容需覆盖相应指南方向的全部考核指标。项目设1名项目负责人,项目下设课题数原则上不超过5个,每个课题设1名课题负责人,每个课题牵头单位及参与单位原则上不超过5个。

1.云计算和大数据基础设施

1.1 软件定义的云计算基础理论和方法(前沿基础类

研究内容:软件定义的云计算基础理论;能效优化的分布存储和处理的硬件及软件系统架构;大数据的复杂性、可计算性与云平台处理效率的关系;混合云中面向软件定义的虚拟专用云的动态构建理论与方法以及应用运行机理;资源聚合与解耦的模型与构建方法;软件定义云平台的可用性、可审计性等度量与测评方法;软件定义的云计算原型系统。

考核指标:建立软件定义的云计算基础理论,设计一组有效的模型与方法并在云计算原型系统中予以验证;形成软件定义云计算的可用性、可审计性与性能的度量模型与评测方法;形成一批高水平、有国际高影响力的成果;形成一组软件定义的云计算相关规范和标准(送审稿。支持年限:不超过5年。拟支持项目数:1-2项。

1.2 新型大数据存储技术与平台(共性关键技术类

研究内容:大数据环境下基于新型存储器件的存储体系架构及控制方法,以及与之对应的持久内存管理和数据组织方法。在此基础上形成基于非易失存储器件的新设备、驱动软件、专用高效持久内存管理和文件系统;异构存储介质高效融合的高并发低延迟的万亿文件级大数据存储系统;新型数据冗余技术,数据冗余的高效转化与高效重构技术;数据保存50年以上的方法和技术,以保障信息不丢失、能再现;大数据存储系统的评估理论、方法及其工具软件。

考核指标:(1研制有自主知识产权的高速低耗存储控制器及设备、驱动软件、专用高效持久内存管理和文件系统;容量型设备容量≥10TB,性能型设备IOPS≥100万、带宽≥10GB/s,能耗最低可达10瓦/TB;节点内可扩展;(2系统支持多存储介质设备异构融合,支持高密低耗、系列化的存储节点,节点容量达PB级;(3系统支持万亿文件;在万级并发访问下,巨量小文件平均访问延迟低于10ms;(4在EB级大数据场景下应用于1-3个典型领域;(5申请一批本领域的知识产权。

支持年限:不超过4年。拟支持项目数:1-2项。

1.3基于数据流的大数据分析系统(共性关键技术类

研究内容:研究用于大数据分析的数据流加速器系统,包括数据流加速器硬件、数据流编程模型及优化编译器以及运行时系统等。(1数据流加速器硬件;(2面向数据流加速器的编程模型及优化编译器,提出能充分发挥数据流在并行性和同步方面的优势的编程模型;研究数据流的无编程动态模型定制与生成方法;(3面向数据流加速器的运行时系统,包括加速器资源的分配与回收、动态重构、通信管理、内存管理等,支持基于数据流编程模型的在线计算和实时计算;支持对基于不同硬件架构的异构计算资源的统一抽象和一致高效管理;(4数据流处理分析的可视化展示和监控管理工具。

考核指标:(1在加速器上完成不少于三个典型大数据应用的加速;在不少于5个领域进行成功应用示范;(2在典型大数据应用上的性能功耗比是通用CPU平台的10倍以上;(3单块加速器卡上内存不少于256GB,单台服务器可支持4块加速卡,加速器之间可以高速互连,互连理论带宽≥100Gbps,实测带宽≥80Gbps;(4系统可通过多机互连扩展,可处理PB量级的大数据;(5针对高并发的数据流实时分析,单物理节点(普通PC服务器流式数据处理吞吐量不小于3万笔/秒,集群数据处理吞吐量不小于100万笔/秒,单笔请求处理平均延时小于10毫秒。支持年限:不超过3年。拟支持项目数:1-2项。

1.4 面向云计算的网络化操作系统(共性关键技术类

研究内容:软件定义的新一代ICT系统体系结构,重新界定软硬件的功能划分以及面向应用的配置方法与机制;超大规模资源管理和调度核心技术和基础平台;研

制新一代云操作系统、云组件、数据中心操作系统等基础核心软件;研究硬件元素管理的合理粒度并提供应用编程接口,通过软件方式实现高效资源整合、调度、自适应与自动化协同;突破支撑大规模数据处理、内存计算、科学计算等具有海量资源需求的巨型虚拟机支撑方法,支持新型异构设备的巨型虚拟机;研究基于容器的虚拟化方法,在提升效率的同时显著提升容器的隔离性;研究面向领域需求的快速领域虚拟机定制方法,建立领域虚拟化组件库,集成面向领域的虚拟机仓库;研究管理灵活性、能耗和性能损耗之间的合理平衡,降低软件定义系统的复杂性和故障率,通过软件管理降低系统能耗,研究评估理论、方法及其工具软件。考核指标:研发具有自主知识产权的网络化操作系统;显著提升现有虚拟化方法的资源整合能力与管理效率,云系统整体资源利用率比现有世界先进水平提高1倍;支持包括FPGA、GPU、RDMA与非易失内存等设备虚拟化,单个巨型虚拟机支持各类内存超过2TB,虚拟处理核数目超过500个,性能相对当前主流虚拟化平台提升30%以上;建立面向专业领域的虚拟机示范仓库,支撑不少于5个领域的应用,可定制的虚拟机类型超过100种;研发新一代云计算核心软件,形成软件定义的技术体系、方法、工具、环境和最佳实践,初步形成支持软件定义的一体化硬件架构、基础软件,并在2个或者2个以上的重点领域进行应用验证与推广。支持年限:不超过4年。拟支持项目数:1-2项。

1.5面向特定领域的大数据管理系统(共性关键技术类

研究内容:支持典型应用场景的开放架构大数据管理系统的设计,以及大数据管理系统标准和规范、系统评测基准的研制;面向关系数据、图数据、键-值对数据、非结构化数据等不同数据模型的大数据管理关键技术研究与相应大数据管理系统研制;数据驱动的大数据管理系统的监控、运维与调优工具研制。

考核指标:设计开放式架构大数据管理系统架构,形成大数据管理系统的系列国家标准和规范,提出针对至少3种数据模型的大数据管理系统评测基准和测试工

具。研制针对不同数据模型的具备高扩展性、高可用性、高性能的数据管理系统及其关键技术,在基准测试上的指标与国际主流产品可比。研制大数据应用所急需的、可独立部署的系统管理工具不少于5个。开展2-3个示范应用,数据规模达到EB级别。申请一批本领域的知识产权。支持年限:不超过3年。拟支持项目数:1-3项。

2.基于云模式和数据驱动的新型软件

2.1基于大数据的软件智能开发方法和环境(共性关键技术类

研究内容:研究软件开发相关大数据的收集、整理、存储、检索等关键技术;围绕知识获取、管理和利用形成知识驱动的软件开发方法,提升传统软件工具的知识处理机制,为软件建模、编码、程序理解、测试等工具建立起基于知识的处理架构,形成知识驱动的功能支撑,为开发人员提供基于问答(QA:Question-Answer的开发环境,面向特定领域建立软件知识图谱,实现基于大数据的软件智能开发环境。

考核指标:产出基于大数据的软件智能开发关键模型、算法、技术、工具和系统,形成PB级的软件工程大数据资源,问答系统覆盖10个领域或行业的软件开发,问题回答性能与效果均优于通用中文搜索引擎,在5个大型软件企业进行应用推广,申请一批本领域的知识产权。支持年限:不超过3年。拟支持项目数:1-2项。3.大数据分析应用与类人智能

3.1 大数据知识工程基础理论及其应用研究(前沿基础类+共性关键技术类

研究内容:针对大数据异构、自治、复杂、演化的网络环境,研究多源、动态、异质碎片化知识/知识簇的表示模型与在线挖掘方法,揭示碎片化知识的时空特性和演化机理;研究碎片化知识间语义关联与涌现特性,探寻其动态挖掘与拓扑融合机理;设计多粒度情景感知与知识寻径模型,研究交互式个性化服务的知识适配机理。

考核指标:建立大数据知识工程基础理论,针对目前大数据向大知识转化过程中困惑人们的难题,设计出一组有效的算法并在实际应用中得到验证;研究和形成利用海量、低质碎片化知识构建新型多通道知识服务平台的方法学体系,在此基础上融合10个以上领域的碎片化知识,建立PB级别的网上知识服务中心;选择既能体现国家重大需求又具有知识密集型应用特点的应用领域(如普适医疗、远程教育、互联网创业等,开展示范应用,用户规模超过100万人。支持年限:不超过5年。拟支持项目数:1-2项。

3.2面向大范围场景透彻感知的视觉大数据智能分析关键技术(共性关键技术类 研究内容:从个体、群体和场景三个方面研究大范围场景视觉感知大数据的智能分析关键技术。在个体信息感知方面研究多模态高通量生物特征获取与身份识别技术、个体属性特征与动作行为识别技术、行人重识别技术;在群体信息感知方面研究人群流量监测与人群密度估计技术、群体行为理解和群体事件检测技术;在场景信息感知方面研究大范围场景的视觉语义建模、复杂事件的演化分析、视觉对象的时空定位与搜索、跨场景数据关联技术等。

考核指标:实现十万到百万级以上视觉感知终端的图像视频大数据智能分析;远距离获取和分析虹膜、人脸、步态等多模态生物特征,个体身份识别精度>98%,个体属性特征和行为识别精度>90%,行人重识别精度>90%;人群流量监测和人群密度估计误差<10%,群体行为理解和群体事件检测的准确率>90%;复杂事件演化

分析的准确率>85%,视觉对象位置信息分析和预测的误差<3米,视觉对象检索准确率>90%。

支持年限:不超过4年。拟支持项目数:1-2项。

3.3跨时空多源异构数据的融合、开放共享技术与平台(共性关键技术类 研究内容:研究非完整、非一致、非准确、跨时空多源异构数据的精准采集和清洗、异构数据的结构化描述和语义协同、以人为中心的多源信息感知融合与理解、数据程序化交易及其在线监管等关键技术;研制大数据开放共享技术与平台,满足省部级政府以及大型企业数据的采集、清洗、分析、服务、交易、监管的功能、性能、时间、成本、风险等需求。

考核指标:可实时采集数据库封闭、文档源码缺失、原开发团队缺位、第三方商业构件依赖等情况下的Web应用、移动应用、PC应用中的业务数据,数据可采集比例不低于90%,人力成本缩减10倍以上;在主流x86服务器单节点配置下,开放共享平台的业务数据(不含音视频日开采量达TB级,支持万级用户并发访问;在1000个以上的政府和央企真实业务系统示范应用;形成多源异构数据的融合与智能服务相关技术规范和标准(送审稿5项以上。支持年限:不超过4年。拟支持项目数:1-2项。

4.云端融合的感知认知与人机交互

4.1人机交互自然性的计算原理(前沿基础类

研究内容:研究自然交互的基础计算理论,研究面向连续、不确定人体运动行为的内在结构和计算表示,包括精度和速度的关系;建立多感知动作识别理论框架和

新型交互范式;建立多模态交互的信息处理模型,度量交互模态的信道容量;研究多尺度视听触觉认知在并行加工时的数据表征、融合和替代机制;研究面向云端融合的多模态交互接口输入输出融合方法;研究生理数据的获取和识别方法,以及生理数据与认知状态的关系;研究心理模型的机理,解释学习成本和交互选择;形成自然人机交互的评价体系和优化理论基础。

考核指标:建立面向连续和不确定特征的运动模型,建立动作可区分度量化度量,构建新型动作交互范式;可量化度量任意输入输出接口的交互带宽;用户信息处理模型支持主动精细操控运动到隐式活动行为;支持5种以上自然交互接口通过云端融合实时高效推理交互信息,多模态融合输入输出算法的执行时间不超过1ms;用户心理模型表示方法应包含认知、感知和行为要素;建立自然交互计算理论的验证平台和原型系统,实现具备高效率的自然交互新型装置;发表国际高水平论文,在核心算法等方面形成专利群,获得国际领先的基础研究成果,培养高水平基础研究人才。支持年限:不超过5年。支持项目数:1项。

4.2云端融合的自然交互设备和工具(共性关键技术类

研究内容:研究支持云端融合的穿戴式动作捕捉关键技术和设备;设计结合生理信号与空间姿态作为控制信息的穿戴式手势装置、体感控制器;研究用户意图理解和高精度的输入推理算法和输入技术;研究跨设备用户界面表示方法和描述语言;研究远程交互、桌面交互和多移动设备间的跨设备交互技术;形成融合手势、体态、生理等多感知触控交互核心算法;构建面向云端融合的多感知触控式用户界面工具和交互技术集;研究和开发面向教育、办公、医疗等不同人群使用的触控式应用套件。鼓励优势单位强强合作,提升自然交互技术原创水平,形成用户界面工具和交互设备研发平台,所研发的套件实现规模化应用。

考核指标:手部运动数据精度达到毫米级,手部弯曲感应位置不少于18个,数据精度不低于16位;手势集中通用手势数目不低于50个,识别率不低于95%;动作捕获的位置涉及全身多个关键部位,动作捕获延时小于20ms,帧率不低于50Hz,精度在所捕获的身体部位尺寸的5%以内;英文输入速度不低于30单词/秒,中文不低于50字/秒;提交界面描述语言规范,支持输入输出的重定向。支持笔、触控、手势、体态、语音、生理等6种以上自然交互方式,支持冗余、互补、混合等3种以上交互通道融合方式;建立交互意图理解计算框架,研发用户界面工具和交互设备研发平台;形成专利池;构造的套件装机数量30万套,应用单位至少500家。实施年限:不超过4年。支持项目数:1-2项。

4.3支持大数据理解的头戴式无障碍呈现技术(共性关键技术类

研究内容:研究匹配个体差异并可长期佩戴使用的适人性虚拟现实技术,研制个性化高沉浸虚拟现实整套装置及应用系统,搭建以全浸没式虚拟现实为核心的社会化网络社区系统,并形成示范应用;研究大尺度非配合环境下摄像机的实时跟踪定位和三维注册融合技术,设计并建立适合云服务器和各种显示终端的增强现实统一描述语言及其解析器;研制面向移动终端的虚实融合内容生成系统及具有超大视场的增强现实头盔显示装备。

考核指标:沉浸式头盔显示系统视场角不小于150度; 光学透射式头戴显示系统视场角不小于80度;非配合环境中的实时识别、跟踪、配准/注册技术的准确率达到95%以上,跟踪注册帧率不低于20帧/秒,面向移动终端的云-端结合虚实内容融合系统具备十万级的并发应用服务能力;支持千平方米级范围内自由行走及无标记手-眼协同交互;形成虚拟现实社会化网络平台及应用示范;并形成专利池。支持年限:不超过4年。

基于大数据的英语写作研究综述 篇6

【摘 要】随着互联网和各类移动终端的不断普及,人类已经进入到大数据时代。大数据已广泛应用于政治、经济、教育等领域。本文通过对有关大数据背景下英语写作研究的相关文献进行梳理,指出现有文献研究的主要内容,并提出了现有研究的不足以及未来研究的方向。

【关键词】大数据 英语写作研究 主要内容 前景

科技飞速发展,信息不断增加的大数据时代影响着社会的方方面面。英语写作的教学理念、教学方法、教学评价等也毫无例外地面临新挑战和新机遇。因此,基于大数据背景的英语写作研究论文开始见诸各类期刊。本文拟对有关大数据背景下英语写作研究的相关文献进行梳理,并对其主要内容、存在的不足以及研究前景进行分析。

一、大数据的定义、特征以及对英语写作教学的影响

美国的Gartner Group公司将大数据(Big Data)定义为:无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡公司给出的定义为:大数据是一种大到在获取、储存、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据的上述特征改变了英语写作教学资源、写作目的、写作辅助手段、评估主体、写作成果的处理方式等等,从观念到行为带给英语写作教学巨大影响,推动着英语写作教学不断变革(王海啸,2014)。

二、基于大数据的英语写作研究主要内容

(一)大数据背景下大学英语写作教学改革途径研究

首先,多角度认识作者、文本与读者的关系,以语言应用为教学目的;其次,将写作教学活动与网络教学平台和评估系统无缝衔接;再次,提升英语教师的信息技术能力,与技术人员紧密合作(王海啸,2014;王凡,2014;张鸾,2015)。此外,大數据时代的大学英语写作教学中,教师必须重新定位自己的职能和角色,从传统的资源拥有者转变为资源整合者,从讲授者转变为引导者,推动学生自主学习(张红艳,2015)。

(二)大数据背景下大学英语写作教学模式的探索与实践研究

随着网络和移动终端的普及运用,基于网络资源的英语自主写作能力的培养模式得以实现。充分利用网络资源,并通过阅读、讨论等方式带动写作,以学生为中心,让学生主动探索、发现和构建知识来提高写作内容的丰富性和语言表达的质量(胡小颖,2013)。此外,基于语料库的数据驱动学习为英语写作教学提供了创新工具,在词汇和篇章教学活动中提供丰富的语言素材,语料库研究工具的应用激发了学生主动探索和学习,使学生的自主学习能力得到了充分的锻炼(蒋婷,杨梅,2006)。基于现代信息技术的在线写作自动评价系统的应用日渐增多,句酷批改网在国内的应用较为广泛,具有操作简单、反馈及时、按句点评、激励反复修改、记录学生成长轨迹等优点,被公认为英语写作教学的好帮手(陈成辉,2013)。

(三)基于大数据的英语写作智能评价系统信度和效度研究

何旭良(2013)通过实验研究分析了句酷批改网英语作文评分的信度和效度,结果表明:从信度上看,批改网的评分比人工评分显著偏高,不能反映学生英语作文的真实水平;从效度上看,批改网着重评价文中词汇和语法的使用,但在思想内容、逻辑关系及篇章结构方面反馈较少,不能评估作文的流畅性、句子结构的复杂程度、文体修辞及内容逻辑性与关联性。因此,英语写作智能评价系统在教学中只是一个辅助工具,不能取代教师,需要将教师的课堂讲授和在线写作训练有机结合(蒋艳,马武林,2013)。

三、基于大数据的英语写作研究前景分析

通过上述分析发现,目前基于大数据的英语写作研究内容主要集中在大学英语写作教学的改革途径和模式探索方面,研究方向比较单一,内容上也大同小异,这类研究浪费了研究者的时间精力,也无益于英语写作研究的发展。因此,在今后的研究中,可以充分利用大数据提供海量数据信息的特点和在线智能评估系统提供科研平台的功能,深度挖掘相关数据,采用科学实验的方法来开展多角度的实证性研究。

四、结语

随着智能化平台的普及,大数据对于英语写作教学和科研的作用日益彰显,但时代在不断变化发展,基于大数据的英语写作研究才刚刚开始,还有待于专家学者们继续探索,不断丰富该领域的研究成果。

【参考文献】

[1]王海啸.大数据时代的大学英语写作教学改革[J].现代远程教育研究,2014(03):66-72,86.

[2]王凡.大数据时代的大学英语写作教学改革[J].读与写(教育教学刊),2014,11(11):24-25.

[3]张红艳.大数据时代下大学英语写作教学的变化和反思[J].漯河职业技术学院学报,2015,14(03):171-172.

[4]张鸾.大数据时代下大学英语写作教学改革途径探讨[J].亚太教育,2015(34).

[5]胡小颖.基于网络资源的英语自主写作能力培养模式的构建[J].湖南科技学院学报,2013(04):164-167.

[6]蒋婷,杨梅.数据驱动学习与专业英语写作创新[J].重庆大学学报(社会科学版),2006,12(06):115-120.

[7]陈成辉.基于语料库和云计算技术的写作自动批阅系统评介——以句酷批改网为例[J].江苏科技信息,2013(07):56-57,69.

[8]何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术,2013(05):64-67.

数据库技术发展综述 篇7

1 数据库技术发展现状

在信息技术、计算机技术飞速发展的今天, 与之相关联的数据库技术也在不断变化发展中。关系型数据库的发展曾受到面向对象型数据库技术的挑战。但在当时, 世界上的几大家软件公司, 始终支持关系型数据库技术。随着国际互联网技术的快速发展, 出现了XML格式的数据存在形式, 但就发展势头, 市场占有额, 关系型数据库技术仍是主要领导力量。

2 数据库技术发展的趋势

由于关系型数据库的发展具有一定的技术基础和使用经验, 但由于它的使用中存在局限性, 因此下一代数据库技术的发展主流可能是面向对象型数据库技术, 也可能是两者的结合, 就此, 业界研究人员有以下观点。

2.1 支持面向对象的数据库技术成为下一代数据库技术的主导力量

在数据库的研究内部, 有一些学者认为, 面向对象型数据库技术要比关系型数据库技术更加完备, 更加符合人们认识世界的看法。原因是, 面向对象型数据库技术, 吸收了面向对象程序设计法学的核心概念和基本思想, 很多学者对这种看法表示赞同, 有学者甚至认为, 下一代数据库技术的主导力量, 是面向对象型数据库技术。

2.2 将面向对象型数据库技术引入关系数据库中

在数据库技术发展的今天, 关系数据库的发展技术的成熟度, 可以说是没有哪种数据库技术可以与之相比较。但是, 由于关系数据库技术自身内部有不可解决的局限性, 比如说, 只能对比较简单的模型进行建模, 数据的类型也有限, 程序设计的结构受到制约, 等等, 都是制约关系型数据库发展的因素。对于面向对象型数据库, 由于其开发的源泉就是起源于程序设计语言, 通过对现实世界的实体对象描述, 作为基本元素, 来阐述客观世界, 符合人们认识世界的基本规律。同时, 面向对象型数据库技术, 具有关系型数据库不具备的技术, 因此, 有学者认为, 应该将面向对象型数据库技术, 引入关系型数据库, 取长补短, 符合关系型数据库技术的发展方向。

2.3 演绎面向对象数据库技术

由于面向对象数据库是较为先进的数据库技术, 同时也是新兴的数据库技术, 因此, 相应的技术设施还不够完善, 没有统一的数据模型和形式化理论, 缺乏对数据的逻辑性处理基础。因此, 不能独当一面, 妥善处理数据管理中的相应问题。而演绎数据库, 恰恰具有面向对象数据库所没有的技术能力———对数据进行严格的逻辑关系处理, 弥补了面向对象型数据库的缺点。有学者认为, 应将两者结合在一起, 组成新的数据库技术, 应对今天的发展需要。

3 数据库技术发展的新方向———非结构化数据库

由于计算机信息系统的快速发展, 要求更加完善的符合实际生产需要的数据库技术, 来适应信息系统的发展需要。基于关系型数据库模型过于简单, 不能满足对复杂数据形式进行快速的表达, 同时又由于支持数据的类型有限, 因此研究人员设计出了非结构化数据库技术。这种数据库技术, 是本着全面适用于因特网应用技术的新型数据库技术, 这种数据库技术的根本优越性, 主要是突破了关系型数据库结构定义不易改变、数据定长的限制, 围绕支持重复字段, 实现了对数据可以任意变长的突破, 具备处理连续信息和非结构信息的优越功能, 是关系型数据库无法比及的。但很多学者还是认为, 它不能取代关系型数据库技术, 只适合作为它的辅助性配套软件。

4 数据挖掘知识发现与数据仓库是未来数据库技术发展目标

数据库技术是计算机信息系统发展的配套软件系统, 为了配合计算机技术快速发展的需要, 数据库技术就要不断更新, 不断研发新技术。在数据库技术中, 数据挖掘技术的出现, 成为数据库技术的核心。数据挖掘技术就是在数据库中, 根据不同信息, 进行分析, 同时找出信息中隐藏的规律, 为程序的编程提供一定的帮助。数据挖掘技术是如今发展较快的技术, 它综合了机器结构学、统计分析学、数据库技术等相关的技术, 为数据库整理信息分析信息后, 为编程决策提供帮助。数据仓库的作用就是从外部数据源、历史业务数据中, 提取有用的数据, 进行编排后, 为数据的处理分析做准备。有学者认为, 数据挖掘技术和数据仓库是数据库技术发展的目标, 通过对数据仓库数据的分析研究, 发现数据中的潜规则, 为数据的编程提供应用作用。另一方面, 数据挖掘技术逐渐成为独立的重要工具, 成为数据库技术发展必不可少的辅助工具, 成为新一轮数据库技术研究的主推力量。

5 结论

在计算机信息系统发展过程中, 数据库技术逐渐成为其运行顺利的辅助性重要软件, 数据库技术的发展过程中, 出现了新旧技术的更新和技术间的相互补充、相互配合, 共同为数据库技术的新发展做出贡献。虽然我国是计算机应用大国, 但是由于我国对相关技术的研发较晚, 对于相应技术核心掌握的还不够成熟, 因此, 在信息技术发展飞快的背景下, 我们要努力研究数据库技术, 顺应信息时代的发展。

摘要:文章通过对国家学术期刊网全文期刊库、维普中文数据库、SCI数据库的发展状况、发展趋势及方向的研究, 提出看法:数据库技术的发展必须与文化信息量的存储相持平, 保证数据库技术的发展能够满足信息存储量的实际要求。

关键词:数据库技术,趋势,方向,数据仓库技术

参考文献

[1]薛微.数据挖掘系列讲座之二[J].中国计算机用户, 2003, (2) :82.

[2]赵民德.数据挖掘系列讲座之一[J].中国计算机用户, 2003, (2) :29.

[3]胡天平.新一代数据库技术面向对象数据库系统[J].中国计算机报, 2003, (1) :68.

数据挖掘技术综述 篇8

总体来说, 数据挖掘 (Data Mining, 本文下面均简称DM技术) 在房地产行业的应用主要使用了三种技术:

(1) 分类技术

(2) 聚类技术

(3) 关联规则发现技术

本文主要从商业贷款风险评估技术、房地产公司经营等级划分和客户关系管理这三点综述数据挖掘技术在房地产行业的应用。

1 房地产商业贷款风险分析———基于神经网络技术

随着房地产市场的逐步走热, 投身于房地产项目开发的企业日益增多, 在贷款企业情况的多数不确定因素面前, 银行的商业贷款风险也随之提高.信息不对称情况下, 银行在贷款的过程中不得不承担由于缔约方违约或经营的失败而使得银行不能回收贷款利息与本金的风险。因此, 银行机构为了对贷款风险的有效管理与控制, 必须寻求有效的贷款风险预测量化的方法和技术.

针对此问题, 可以构建一种基于神经网络的客户模糊分类数据挖掘方法, 旨在对客户的贷款风险进行分类, 为银行贷款风险分析部门准确分析目标客户提供一种有效的方法.该方法对客户进行了合理区分, 试图为充分做好客户关系管理, 增强企业竞争优势, 提高企业的核心竞争力提供有效的解决方案.该方法的思想是运用模糊神经网络分析探索影响因素之间共同作用产生的交互效应, 用过去的事实进行综合评价, 训练网络, 来确定权重的大小。这样将会使结果更加准确可信。

1.1 贷款风险评估中指标体系的建立。

数据挖掘针对不同行业的具体运作具有不同的分类方法, 输入量也具有各自的特点, 对于建设企业的贷款风险系数等级的确定, 建立需要影响风险系数的指标体系, 依据以下8个方面的分析方法。即: (1) 行业发展趋势; (2) 国家政治与监管环境; (3) 管理层素质及承担风险态度; (4) 公司经营及竞争地位; (5) 财务状况及流动资金来源; (6) 公司结构框架; (7) 母公司担保及支持协议; (8) 突发事件风险。指标性质分为定性指标和定量指标。

1.2 客户贷款风险模糊神经网络分类器体系的建立。

模糊逻辑与神经网络从概念到方法都不相同, 但是它们都是为了表示预处理不确定性知识而引入的方法, 而且都是一种模型的估计器。因此, 在不确定知识处理中, 模糊逻辑与神经网络可以结合。模糊逻辑要求把使用的知识以模糊命题、模糊规则的形式表示在知识库中, 模糊命题和模糊规则是模糊概念的一种逻辑表示形式.模糊知识只能通过领域专家提供或其他途径获取, 模糊逻辑系统本身不具备学习能力。模糊神经网络以学习实例的形式隐含所需要的知识, 学习实例是以确定的输入输出模式表示的数值集合。神经网络具备学习能力, 经过学习后获得的知识的表示形式是网络的互连结构及其相应的邻接权矩阵。

模糊逻辑的推理是以模糊匹配和模糊集的运算方法为基础, 得出的推理结论是模糊概念之间的模糊逻辑关系。神经网络的推理是以网络的非线性数值运算为基础, 得出的推理结论也是数值的, 需要通过对输入输出模式的解释才能得出相应的逻辑结论。

由于本文只做综述性汇总和概括, 原理及应用的具体问题请参阅相关文献。

具体过程可以用Matlab软件程序编辑实现BP神经网络, 网络的输入层的神经元对应问题产生影响的测试变量, 输出层分别对应各种风险等级, 其中还包括隐层设置、学习率、最小误差的设定等。

对建筑行业企业贷款风险等级的确定, 可以引入一个基于模糊数学与神经网络的解决体系构架.通过利用模糊逻辑模仿人脑模糊思维、模糊推力的能力, 与神经网络模仿人脑结构映射输入特征与输出结论的非线性关系的优点相结合, 取长补短, 最终准确地预测客户的贷款风险等级, 将能够为企业带来两方面的好处:

(1) 有效地识别有价值客户, 提高获利机会, 并且有针对性的向顾客提供满意服务, 维持良好的合作关系, 从而延长客户生命周期。 (2) 减少银行不良贷款比率, 规避贷款风险, 以备扩大利润空间。

2 房地产业上市公司的统计数据挖掘分析———聚类分析和因子分析

对上市公司而言, 对外披露的财务指标中往往隐含很多能具体反映出公司在某年度财务状况的信息, 但如果仅仅是笼统的、盲目的去查看这些繁杂的财务指标, 一般很难从中发现更多对投资者做出投资决策有帮助的信息。故这种分析将以多元统计分析的方法对这些财务指标进行数据挖掘工作。首先选取若干个能够反映公司财务状况主要参考指标进行因子分析, 缩减变数并提取出对这一系列指标做出主要贡献的因素 (即主成分) , 然后再对各上市公司进行聚类分析, 划分营运等级, 找出各类公司存在的财务状况的相似性。

这种利用多元统计分析的方法分析房地产业上市公司的好处是:投资者可以根据划分出来的上市公司的等级情况, 透视企业的财务状况, 做出合理的投资决策;而各上市公司也可以根据自己的营运等级, 找出问题所在, 弥补自身不足, 修正自己公司的经营模式。

2.1 因子分析

可以借助若干家房地产板块上市公司的年度财务报表, 从中选取若干个具有重要参考价值的指标, 首先利用SPSS统计软件分析包进行因子分析, 寻找这些财务指标背后是否有公共因子的存在, 并籍以缩减变数进行分析。可以提出如下一些指标做参考:流动比率、总资产周转率、应收帐款增长率、速动比率、主营业务收入增长率、应收帐款周转率等。

在因子分析过程中, 将上市公司的若干个财务指标通过提取其公因子, 得到几个能较好反映原指标所包含信息的因子, 根据财务管理的专业知识, 可以对这几个公因子加以归纳分析。如:代表房地产企业盈利能力的“盈利能力因子”, 还有“偿债能力因子”、“周转运营能力因子”以及“未来发展能力因子”等等, 相应的指标可以分别为每股收益、流动比率、总资产周转率、每股收益增长率等。

由于这种利用多元统计的方法对各种指标进行抽象地提炼和划分, 能够较客观地反应各房地产企业的财务能力。还可以通过因子分析得出因子得分矩阵, 将各指标量化汇总, 得出各公司的总得分, 是能够较充分反映公司营运能力的指标。

2.2 聚类分析

根据选取的所有财务指标, 对若干家公司进行聚类分析, 得到聚类分析的龙骨图。将具有相似财务状况的房地产公司聚成一类, 通过与其他类公司的比较和分析, 得出自己竞争的优势和劣势, 以及该企业在整个同行业中所出的地位, 这对企业未来发展有较大的指导作用。

基于多元统计分析的视角, 可以从大量繁杂的数据信息中, 挖掘到很多实际的、有价值的东西, 从而更有利于管理者和投资者决策活动, 这也就是数据挖掘技术的含义所在。总之, 若企业能够及早发现自己的经营绩效上已出现危机, 就必须找出原因加以改善, 以提高自己的市场竞争力, 投资者也可以对公司历来的业绩情况进行分类, 判断该公司是否值得投资, 以降低投资风险。

3 DM技术在房地产客户关系管理系统中的应用

3.1 DM技术在房地产客户关系管理系统中的应用。

随着市场竞争的进一步加剧, 房地产企业对客户关系管理的关注比以往更高, 能否对客户数据进行合理、有效地利用, 决定着一个企业的成败。面对海量数据, DM技术越来越成熟地应用于房地产CRM系统中, 为企业制定营销策略、开展营销活动提供决策支持。

房地产行业的客户信息有许多特点, 如客户群广泛、客户特征描述结构复杂, 又如, 客户需求层次不一, 易受外界因素影响等, 因此, 有必要针对这种复杂、多变和多层次性的客户信息进行分析挖掘, 以识别客户购买行为, 发现客户购买模式和趋势, 从而进一步提高企业的服务质量, 降低企业营销成本。下面是DM技术在房地产行业不同营销阶段上的应用:

3.2 将DM技术应用于房地产CRM系统的具体步骤

3.2.1 明确商业目标。

描述出需要解决的问题, 并且确定所要解决的问题属于哪种应用类型, 是属于关联分析、时序模式、分类、聚类、偏差分析和预测, 还是综合应用。

3.2.2 数据准备。

数据挖掘是由可以获取的数据驱动的, 其成功很大程度上取决于所收集数据的数量和质量。建立可靠数据资源的第一步就是确定系统将要使用数据的数据字典。它们应包括如下工作:确定数据库每一列预期存放的内容;数据来源的描述;对缺失数据的处理等。

3.2.3 利用数据挖掘技术建立模型。

利用数据挖掘的一些算法对数据进行分析, 建立模型, 并选择好相应的实现工具。假如明确了主要任务是分类, 可以采用的算法有遗传算法、决策树和人工神经网络等。选择了模型的类型及实现的工具后, 有时还需对数据进行预处理。

3.2.4 反复验证。

从较小的系统 (如较小的客户群体) 开始, 但要完成全过程 (即从数据收集和处理, 到数据挖掘, 最后到产生促销数据结构, 如邮件发送列表) 。通过验证, 可以纠正系统中的错误, 并有利于用户对系统功能的进一步理解。

3.2.5 实施与维护。

在应用模型之后, 还要不断监控模型的效果。因此随着模型使用时间的增加, 要不断的对模型做重新测试, 有时甚至需要重新建立新的模型。

4 结束语

音频数据检索专利技术综述 篇9

音频数据检索最初使用的是基于人工产生的信息进行检索,例如使用人工标注的标题,艺术家信息等信息用于查询[1]。但随着音频数据的快速增长以及为满足人们对实时音频数据流检索的要求,需要大量的人工劳动且其主观性强的基于人工产生的信息进行检索的技术越来越难以满足用户需求,人们希望能够实时通过一小段未知来源的音频快速地获取其相关的完整信息,于是基于音频内容特征的音频检索技术应运而生。基于内容的音频检索,是指利用音频的频谱、旋律等特征实现检索[2],如通过“哼”某音乐的曲调在海量音频库中查找此音乐,现如今流行的“听歌识曲”就是这一技术的体现,其也代表了音频数据检索的重要发展趋势。对音频数据检索领域相关专利进行分析和总结将有助于了解本领域的研究现状,引导科研人员的研究方向。文章对音频数据检索技术领域的专利年申请量趋势、专利申请区域分布和重要申请人分布分别进行统计分析,并简单梳理了音频数据检索关键技术的发展脉络。文章以截止到2016年6月3日SIPOABS数据库已受理的公开专利数据为基础。

2 专利的整体情况分析

2.1 申请量趋势分析

图1显示SIPOABS数据库中音频数据检索领域的专利申请年度分布图。可以看出,在2000年前处于技术萌芽期,此时专利申请量相对较少。而2000年开始,音频数据检索技术开始进入快速发展期,该领域的技术专利申请量出现持续快速增长;并且在2006年全球申请量第一次达到高峰,而后可能受全球经济形势的影响,专利申请量有所下滑,但是得力于语音识别技术的快速发展,到2012年该技术的申请量再次来到高峰,并且在2012至今每年申请量都保持在高水平。

2.2申请人区域与重要申请人分析

图2和图3分别示出了国内外该领域专利申请人区域分布图和重要专利申请人分布图。由图2可知,美国、中国、欧洲、日本、韩国是排名前五的国家。其中,美国申请量最大,占比54%。

从图3可以看出,上述该领域的多个重要申请人均是源于这些国家。美国的微软和IBM领先与其他申请人,飞利浦、谷歌、三星紧跟其后,中国的腾讯也有大量的申请。由此得出众多国际知名企业在音频数据检索领域做出的大量研究,且做出了相应的专利布局。

3 音频数据检索技术演进路线分析

为了能够更加全面地了解音频数据检索技术,下面将该技术的基于音频内容特征的检索和基于人工产生的信息检索两个技术分支进行演进路线分析,重点分析两个分支在不同发展时期的关键专利。

3.1 基于人工产生的信息的音频检索

基于人工产生的信息的音频检索是指利用人工产生的信息如标题,艺术家信息,标签,关键词,时间,用户评价等用于查询[1]。1999年IBM申请的使用内容和扬声器信息进行音频信息检索的方法和装置(申请号US19990288724),首次结合了人工标注的信息进行音频检索,实现了根据音频内容和演讲人标识执行查询的音频检索系统。微软及索尼都在该技术上做出进一步研究,分别申请了用于封装媒体对象的代表性样本的系统和方法(申请号CN200480012356)和基于音频搜索条件的搜索系统和搜索方法(申请号CN200780031603)。随后国内公司也在这方面做出大量研究,其中包括关键专利有腾讯申请的音频标签设置方法及装置、存储介质(申请号CN201410025446)在检索效率上做出改进。

3.2基于内容的特征的音频检索

基于音频内容的特征的音频检索是指如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现与音频内容信息相关的检索[2]。索尼公司申请的专利对于机器人装置的动作教学装置和方法(申请号JP2001091030A)为该技术奠定基础,该申请通过语音识别结合关键词检索方便与机器人对话。此后,国内外对音频指纹、旋律等特征的识别效率和检索效率上不断做出改进,不断推动着音频检索技术的发展。2011年后国内该项技术迎来发展高峰,重大企业公司及重点院校都对该技术申请了关键专利。如腾讯在2011年申请的音频指纹检索方法及装置(申请号CN201110340094)和复旦大学在2013年申请的基于音频指纹特征的音乐检索系统(申请号CN201310378000)都对音频指纹的识别做出改进,提高了检索效率。

4结束语

音频数据是最重要的多媒体数据之一,随着网络技术的普及,其重要性不言而喻,结合不同的音频处理技术,其在不同领域里的应用也愈加广泛。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,也可广泛的应用于远程教学、卫生医疗、数字图书馆、环境监测等领域。

摘要:随着计算机技术的快速发展,人与机器之间的交流也越来越广泛,让计算机听懂语音,从海量的音频信息中迅速、有效地检索出所需要的音频信息就变得越来越重要。文章通过检索、统计、分析音频数据检索技术的国内外专利申请,从中获得音频数据检索的申请量趋势、申请人区域分布、重要申请人等信息,并从基于人工信息的音频检索和基于内容的音频检索两个技术分支简单梳理了音频数据检索中关键技术的发展脉络,最后对音频数据检索的未来发展进行了展望。

关键词:音频数据检索,基于内容,人工信息,专利

参考文献

[1]李晨,等.音频检索技术研究[J].计算机技术与发展,2008,18(8):215-218.

数据挖掘技术综述 篇10

关键词:数据挖掘技术,软件工程,问题,应用,对策

网络信息技术日渐发展使得软件需求越来越大, 软件规模逐渐扩大以及规模复杂化促使软件开发可控制性并不强。传统软件开发中存在着数据问题, 由于爆炸式信息增长使得数据挖掘技术在软件工程中具有至关重要的作用。利用数据挖掘技术能够在大量信息数据中有效提取相关信息并且能够有效应用于软件工作中, 利用数据库来提取更加具有价值数据信息, 有效处理系统工作故障, 提升成本评估有效性。作为软件工程发展领域中的新型应用技术, 数据挖掘技术实现了信息数据的有效转化, 这样能够有效满足人类对信息实际需求, 通过能够有效发掘大量信息数据, 同时能够有效发展程序数据规律、文档数据规律等等, 为软件工程提供有效指导。二十世纪九十年代, 数据挖掘及时已经广泛应用于软件工程工作中, 需要有效发现可复用代码, 结合软件工程复杂性以及数据挖掘技术日渐发展来将数据挖掘技术广泛应用于软件工程领域工作中, 有效利用实证数据来降低成本, 提升软件工程工作有效性。利用数据挖掘技术能够做好数据分类工作、聚类工作、预测工作以及统计分析工作, 进而能够有效利用数据库潜在知识以及潜在规则, 为软件工程互动提供反馈指导, 提高开发有效性。

1 数据挖掘技术实际应用中存在的问题

1.1 信息数据过于复杂

从目前的发展来看, 软件工程数据包含了结构化数据以及非结构化数据两种。软件代码在非结构化数据中具有非常重要的作用, 而软件版本信息则对结构化数据具有非常重要的影响, 实际上, 结构化数据、非结构化数据二者之间具有非常密切的关联, 这就需要有效利用数据挖掘技术, 充分整合结构化数据以及非结构化数据, 提升挖掘技术实际使用难度。

1.2 缺乏一致性评价工作标准

在实际的生产生活过程中, 由于非常多领域已经开始逐步使用数据挖掘技术, 利用数据挖掘技术能够更好的评价实际结果, 但是由于评价方式存在着不一致性使得软件工程缺乏统一化的评价标准, 这就使得软件工程信息较为复杂, 再加上表达方式方面存在着一定的差异性使得获取者无法有效的对比以及应用相关信息, 这就使得软件工程工作中面临着非常大的困难, 这就使得信息数据的挖掘结果存在着不准确性。

2 数据挖掘技术在软件工程中的应用对策

2.1 做好漏洞检测工作

在软件工程工作过程中, 检测软件漏洞能够及时发现软件开发工作中存在着的错误或者是漏洞, 这样能够做好完善工作以及修复工作, 为软件质量以及软件可靠性提供保障。一般性数据挖掘技术主要进行软件漏洞检测工作, 在实际检测过程中, 需要确定软件的测试项目, 结合用户实际需求, 具体规划软件实际测试内容, 这样能够决定实际的测试方式, 这样能够制定出更加有效的计划以及对策, 这样能够有效收集数据库中存在的漏洞, 进而有效清理数据并且转换数据。在开展数据采集的过程中, 还需要做好软件缺陷的相关数据, 有效清理多余信息以及不需要信息, 这样能够完善实际的补充措施, 进而有效转换数据工作属性。在进行数据模型选取过程中, 需要坚持恰当性, 保证验证工作以及训练工作有效性, 通海还需要结合项目发展需求来选择有效挖掘方式, 实现测试工作与训练工作的有效结合, 这样能够比较实际结果, 制定出更加合理、更加符合实际需求的工作方式。此外, 还需要充分利用数据挖掘方式来进行软件漏洞的准确描述以及精确定位, 这样能够有效收集漏洞库中的数据, 有效寻找出未知漏洞, 这样能够有效描述并且分类漏洞数据, 将数据挖掘技术有效应用于软件测试工作中。因此, 在进行数据挖掘过程中, 需要确定软件测试项目, 结合客户实际需求来确定软件测试内容, 制定出符合客户需求的测试计划以及实施方案, 同时还需要做好软件工程漏洞数据库收集工作、清理工作以及转换工作。有效采取软件工程信息数据, 有效提取软件工作系统数据方面的漏洞信息, 同时有效清理无用信息以及多余信息, 有效补充项目数据, 实现信息数据到信息知识方面的有效转化。在进行信息数据挖掘过程中, 需要选择合适软件, 进而整合系统信息训练结果以及测试结果, 结合软件工程需求来选择更加合理的数据挖掘方式。结合软件工程漏洞来进行分类以及面熟, 结合实际规则, 利用数据挖掘技术来分类漏洞以及描述漏洞。此外, 还需要在软件测试工作中有效运用数据挖掘技术, 实现挖掘数据信息的有效转化, 并且将阮欢数据有效应用于数据库中, 同时还需要做好软件系统重新测试, 确认系统漏洞, 并且将测试结果应用于软件开发工作中。

2.2 重视挖掘版本控制信息

在进行信息挖掘过程中, 工作人员需要共同完整同一档案的编辑工作, 做好档案信息更新工作, 保证档案统一性以及全局性。从目前软件工程开发工作来看, 版本控制工作系统在其中具有非常重要的作用, 对软件开发管理工作以及软件开发保护工作具有非常重要的作用。在版本控制信息的挖掘过程中, 需要做好变更历史信息挖掘工作, 利用不同模块以及子系统之间关系, 需要深化实际工作程序, 需要有效检测程序未来变化可能存在的漏洞以及程序引入方式漏洞, 这样能够有效降低后期的系统维护成本, 避免出现由于后期数据变更所产生的漏洞, 提升后期软件的维护作用以及警示作用。作为软件工程领域关键性挖掘对象技术, 版本控制信息工作系统能够为功编程工作人员档案管理工作提供有效保障, 因此, 在实际的开发过程中, 需要不断更新历史数据方式, 这样能够明确各个程序模块之间的重要关联, 进而有效预测系统模块引入方式漏洞以及未来程序发展可能存在的漏洞, 尽可能减少后期维护工作, 避免由于系统更新而出现漏洞或者是缺陷, 这样能够提升软件系统后期维护工作效率, 提升软件工程后期管理有效性。

2.3 做好开源软件的挖掘工作

在软件工程领域实际工作过程中, 开源软件是非常重要的挖掘对象, 其中克隆代码检测工作在其中具有非常重要的作用并且广泛应用于源文件开发工作中, 有效实现数据拷贝工作以及数据粘贴工作。利用克隆代码技术能够提升代码拷贝工作以及代码粘贴工作有效性, 同时还能够有效完成代码检测工作, 避免软件工程系统中存在着代码漏洞, 提升软件工程系统后期维护有效性。由于开源软件的挖掘项目环境具有动态性、开放性以及全局性特点, 特别是软件开发和软件管理工作与传统软件存在着非常大的差别。对于较为成熟开源软件, 需要完整记录错误报告、软件应用情况以及开发者实际活动, 促使开发工作人员能够构建典型社会网络, 结合其开放性特点, 促使工作人员能够有效掌握实际变化。此外, 还需要做好开源软件动态性挖掘, 提升开源项目管理有效性。

2.4 重视执行记录的挖掘工作

执行记录的挖掘工作也是属于软件工程领域挖掘技术方面的内容。利用软件系统执行路径方面的分析有利于明确软件工程各个系统模块工作代码之间关联。实际上, 执行记录挖掘运行工作就是利用跟踪软件来实现逆向建模工作, 提升软件工作系统理解工作、跟踪工作、维护工作、验证工作有效性。在执行记录挖掘过程中, 需要分析程序执行工作路径, 这样能够明确各个程序代码之间的有效关联。在进行应用过程执行记录实际挖掘过程中, 首先需要分析被分析工作系统, 进而利用挖掘软件来实现应用编程的结构工作, 记录基本系统信息以及模块变量, 进而约简信息、聚类信息以及过滤目标, 构建系统功能模块。

5) 利用数据挖掘技术实现软件项目管理

从目前发展来看, 软件项目管理工作方面呈现出系统化以及复杂化发展倾向, 数据挖掘技术在软件工程管理工作中具有至关重要的作用。数据挖掘技术主要体现在组织关系方面挖掘, 诸如, 当公司举办大型年会活动等, 如果无法做好人力资源配置工作, 那么就需要利用数据挖掘技术来有效区分各个工作人员的工作职责, 为软件工程有序发展提供保障, 提升软件工程工作有效性。利用数据挖掘技术能够有效挖掘软件工程项目版本的控制系统, 面临外部系统入侵时能够及时发出警告, 进而有效检测系统实际修复情况, 人们能够更加方便查询版本相关信息, 进而为数据挖掘技术的安全运行提供有效保障, 提升软件工程管理工作水平。总之, 需要充分发挥数据挖掘技术在软件工程管理工作中的重要作用, 为软件工程管理工作有效性提供保障。

3 结束语

总之, 由于软件技术复杂化以及系统化发展使得数据挖掘技术在其中具有越来越重要的作用, 同时也能够为软件开发工作提供有效保障。从目前发展来看, 数据挖掘技术仍然是处于发展的阶段, 这就需要进行深入研究, 提升数据挖掘技术实际应用率, 为数据挖掘技术发展以及创新提供保障。因此, 数据挖掘技术能够有效探究相关数据, 是信息技术发展必然结果, 这就需要从技术、实践等角度着手, 为提升软件工程工作质量提供保障。

参考文献

[1]MAO Chengying, LU Yansheng, HU Xiaohua, 等.Data MiningApplications on the Software Engineering Tasks:A State of theArt数据挖掘技术在软件工程中的应用综述[J].计算机科学, 2009, 36 (5) :1-6.

[2]王贯天.试论基于数据挖掘的计算机动态取证技术[J].电子技术与软件工程, 2015 (8) :211-211.

[3]范凯文.软件工程中数据挖掘技术的应用研究[J].移动信息, 2016 (5) :78.

[4]刘静, 于琬梅, 孙卫红, 等.数据挖掘技术在智能循证医学支持系统中的应用[J].电子技术与软件工程, 2015 (3) :212-212.

4G技术综述 篇11

【关键词】移动通信技术;通信系统;4G

1.4G通信基本概念

4G通信即第四代移动通信的简称[1]。到目前为止4G的定义、它的技术参数、国际标准、网络结构、乃至业务内容依然没有完全确定下来[2]。但不管人们对4G通信怎样进行定义,有一点能够肯定,4G通信将是一个比3G通信更完美的新无线世界,它将可创造出许多消费者难以想象的应用。4G通信技术是以传统通信技术为基础,并利用了一些新的通信技术,来不断提高无线通信的网络效率和功能的。如果说现在的3G能提供一个高速传输的无线通信环境的话,那么4G通信将是一种超高速无线网络,一种不需要电缆的信息超级高速公路,这种新网络可使电话用户以无线及三维空间虚拟实境连线[3-4]。

1.1 4G通信的特点

与传统的通信技术相比,4G通信技术最明显的优势在于通话质量及数据通信速度,同时具有更高的数据率、更好的业务质量、更高的频谱利用率、更高的安全性,更高的智能性、更高的传输质量和更高的灵活性;她还能支持非对称性业务,并能支持多种业务。从传输速率上看,第一代模拟通信仅能提供语音服务;第二代数位式移动通信系统传输速率也只有9.6Kbps,最高可达32Kbps,如小灵通;第三代移动通信系统数据传输速率可达到2Mbps;而第四代移动通信系统可以达到10Mbps至20Mbps,甚至以每秒100Mbps速度传输无线信息,这相当于目前手机的传输速度的1万倍左右[5]。

从网络频谱看,每个4G信道将占有100MHz的频谱,相当于W-CDMA 3G网路的20倍。

从频率资源上看,3G使用1.8-2.5GHz的频率,其频谱效率只有2bps/Hz,频率资源不够丰富,而4G使用2-8GHz的频率,其频谱效率能达到5bps/Hz,能够满足手机用户的日益增长。因此,4G灵活性要比3G强得多,能自适应地进行资源分配。

从覆盖性能上看,目前3G的地区覆盖方面存在着许多技术问题,而4G可在不同接入技术之间进行全球漫游与互通,实现无缝通信,另外4G还可以在DSL和有线电视调制解调器没有覆盖的地方部署,然后再扩展到整个地区。

从IP网络兼容性看,3G系统不是基于IP的,如CDMA2000基于美国国家标准局-41,WCDMA基于GSM-移动应用层。而4G则支持下一代的Internet和所有的信息设备,将能在IPv6网络上实现话音和多媒体业务。

另外由于技术的先进性确保了成本投资的大大减少,未来的4G通信费用也要比目前的通信费用低[6]。

同时,第四代无线通信网络系统是一个非常复杂的技术系统,在具体实施的过程中会出现大量令人头痛的技术问题,这些问题可能需要花费好几年的时间才能解决。主要表现为标准难以统一,市场难以消化,设施难以更新,技术难以实现和容量受到限制等五个问题[7]。

例如,如何保证楼区、山区,及其它有障碍物等易受影响地区的信号强度,如何使手机很容易的从一个基站的覆盖区域进入另一个基站的覆盖区域时和网络保持联系。

1.2 4G的可选方案

移动通信的发展和定义,不是基于技术本身的,而是基于专门术语的描述,更多是技术分支的体现。例如WCDMA R99版本等等,用以表明,某项技术处于何种阶段[8-9]。据此,国际电信联盟已将4G技术正式命名为IMT-Advanced[10]。

在美国高通被迫放弃超移动宽带,而WiMAX又无法继续成为新的4G标准之后,LTE很有可能成为唯一的4G单选方案。这样一来,就可以看出和3G时代的差别。

3G时期,在IMT-2000框架下,陈列了WCDMA、CDMA 2000、TD-SCDMA、WiMAX四个分支标准,这些标准又各成体系、庞大而复杂,甚至成为新的标准群集。

4G时期,在ITU目前命名的“IMT-Advanced”框架下,只有LTE是一个成型的可选方案。包括中国移动、沃达丰在内的全球主流移动运营商都已宣布支持LTE作为未来的4G技术。而所有之前的移动通信标准中,从未像4G这样强调“融合”的重要性。从现有情形看,这一融合必然会在全IP和正交频分复用上得到最终体现,而这恰恰这也正是LTE的方向[10]。

LTE的技术指标与4G的技术指标非常接近。但其最大带宽、上行峰值速率两个指标都略低于4G要求。而LTE-A的技术整体设计则远超过了4G的最小需求。LTE-A是LTE的演进,前者包含后者。作为LTE技术的后续演进,所有LTE技术的相关要求同样适用于LTE-A。同时LTE-A的复杂度和成本也将降低。

2008年6月,第三代合作伙伴計划完成了LTE-A的技术需求报告,提出了LTE-A的最小需求:下行峰值速率1Gbps,上行峰值速率500Mbps,上下行峰值频谱利用率分别达到15Mbps/Hz和30Mbps/Hz。这些参数已经远高于ITU的最小技术需求指标,具有明显的优势[11]。

2.4G技术的应用和发展前景

目前日本的NTT公司称4G通信服务将于2010年推出,网络的下载速度可以达到100Mbps,上载速度为20Mbps。美国AT&T公司也推出了4G通信网络的试验,可以配合目前的EDGE进行无线上传,并通过正交频分复用技术达到快速下载的目的。在2008年二月份,欧洲的四家移动设备生产商——阿尔卡特、爱立信、诺基亚和西门子组成了世界无线研究论坛,以研究3G以后的发展方向。论坛预计4G技术将在2010年开始投入应用。这一代通信技术可以将不同的无线局域网络和通信标准,手机信号,无线电通信和电视广播以及卫星通信结合起来,这样手机用户就可以随心所欲的漫游了。国际电信联盟无线电通信部也已经达成共识,将把移动通信系统同其他系统结合起来,在2010年之前是数据传输数率达到100Mbps[12]。

2.1高智能终端

4G手机的功能,已不能简单划归“电话机”的范畴,未来4G手机应该算得上是一只小型电脑。而且4G手机从外观和式样上,将有更惊人的突破。未来的4G通信将使人们不仅可以随时随地通信,更可以双向下载传递资料、图画、影像,当然更可以和从未谋面的陌生人网上联线对打游戏。

第四代移动通信的智能性更高,不仅表现在4G通信的终端设备的设计和操作具有智能化,例如对菜单和滚动操作的依赖程度将大大降低,更重要的4G手机可以实现许多难以想象的功能。例如4G手机可以将电影院票房资料,直接下载到PDA之上,这些资料能够把目前的售票情况、座位情况显示得清清楚楚,大家可以根据这些信息来进行在线购买自己满意的电影票;4G手机可以被看作是一台手提电视,用来看体育比赛之类的各种现场直播[13-14]。

2.2高质量的多媒体通信

尽管第三代移动通信系统也能实现各种多媒体通信,但未来的4G通信能满足第三代移动通信尚不能达到的在覆盖范围、造价上支持的高速数据和高分辨率多媒体服务的需要,第四代移动通信系统提供的无线多媒体通信服务将包括语音、数据、影像等大量信息透过宽频的信道传送出去,为此未来的第四代移动通信系统也称为“多媒体移动通信”。

无论在什么地方,无论使用何种屏幕,都能够得到同样、无缝地体验和服务,回家路上用手机观看球赛,进家门便可直接转到电视上观看[15]。

3.结束语

无论任何人在任何时候和任何地点都能和任何人进行任何方式的通信。长期以来,这都是人们的美好幻想。但现在,4G技术使之成为可能。虽然4G系统的发展道路是坎坷的,但是随着新技术和新需求的不断出现,4G必然会成为未来移动通信领域的主导,使未来通信前景更美好。

【参考文献】

[1]王洪,彭翡.中国移动通信技术发展回顾与展望[J].中国电信业,2007,83(1):79-81.

[2]丁守谦.中国将立足通过TD的演进思路独立提出4G标准[N].通信信息报, 2008-07-18(3).

[3]董柱.未来无线通信技术以OFDM为核心[N].人民邮电报,2008-01-31(7).

[4]高娟.无线通信技术最终将迈向4G网络时代[EB/OL].北京:通信世界网,(2009-02-17)[2010-01-23].

[5]Garwolf.无线通信工程[M].姚彦.清华大学出版社,2001.

[6]姜绪永,颜彪,李志军.基于OFDM技术的第四代移动通信系统[D].扬州: 扬州大学信息工程学院, 2005.

[7]贾新华,卢军.第四代移动通信预研[D].武汉:武汉邮电科学研究院,2005.

[8]游乔君,王滨.技术标准——技术哲学研究的新视野[D].上海:同济大学,2009.

[9]付晓.LTE-3G技术的未来发展[J].邮电设计技术,2006,21(1);34-37.

[10]雍昊澄.LTE是4G的乳名[EB/OL].上海:中国通信网.(2009-06-02)[2010-01-23].

[11]李建东,郭梯云,邬国扬.移动通信[M].西安电子科技大学出版社,2007.9.

[12]吴伟陵,牛凯.移动通信原理[M].电子工业出版社,2005.01.

[13]杨金志.新一代4G手机带宽将达100兆[EB/OL].北京:新华网.

[14]李宽.4G手机[EB/OL].深圳:搜搜百科.

[15]许小溯,忠卫.4G标准有望明年出台[EB/OL].上海:中国通信网.(2009-10-19).

数据挖掘技术综述 篇12

数据挖掘可以定义为: 从大量的、不完全的、随机的、有噪声的数据库中, 提取隐含着的那些预先不知道的并且对人们潜在有用的信息和知识的过程。主要包括以下四个层次的含义:

( 一) 数据的来源必须真实, 数据量要大并且包含噪声;

( 二) 发现的是用户感兴趣的知识;

( 三) 知识可以被理解和应用, 可以用自然语言来表达;

( 四) 知识是有特定前提和约束条件, 是相对的应用于特定领域。

数据挖掘就是从大量的数据中, 把潜在的、有用的信息和规律提取出来, 为决策提供信息支持。

二、数据挖掘在国内外的研究现状

数据挖掘是一门新兴的科学, 蕴含广泛, 各个学科都在进行研究。1989 年8 月举行了第一届国际联合人工智能会议, 数据库中的知识发现 ( KDD) 的概念在该次会议上被提出。目前专家们认为数据库的本质不只限于查询, 查询只是众多应用中的一个工具, 深层次发掘其中的信息知识才是数据库的本质所在。把数据库作为信息源的中心, 建立共享平台可以使数据库技术加速发展。正是基于这些原因, 在需求的驱动下, 很多专家学者将重点面向数据仓库和数据挖掘的研究[1]。

从上世纪90 年代开始, 国内就已开始数据挖掘的研究, 发展也十分迅速。数据挖掘研究人员主要集中于国内高校, 其主要研究方面为: 模糊方法在知识发现中的应用、数据立方体代数、关联规则开采算法的优化和改造、知识发现的基础理论及其应用等, 这个时期理论方面的研究占了绝大部分。可以实际应用的成果寥寥无几。其中有两个著名的应用: 第一个是上个世纪九十年代初, 宝钢公司为了解决钢板生产问题, 引入了当时国际上成熟的SAS公司的技术解决方案, 开创了国内第一个数据挖掘项目: 提高钢板质量用来造船, 该项目的实施大大提升了宝钢在同行业的竞争力, 带来了巨大的经济效益和社会效益[3]。第二个是铁道运输部为了缓解春运期间铁路运输的压力, 利用数据挖掘工具, 对春运期间的铁路客流量进行了分析和研究, 从中挖掘出关键信息用来指导铁路运输[1,3]。

三、数据挖掘技术在图书馆的应用

用数据挖掘技术应用于图书馆管理工作, 国外做了很多研究工作。美国许多大学图书馆人员联合本校计算机专业人员, 已经做了一些实际的应用。比如芝加哥大学图书馆研究院的Swansan等一直在从事认知科学文献内容管理的研究[1]。美国图书馆与信息技术联合会的多位著名专家在1999 年的讨论会上, 就己经把向读者进行个性化服务推荐作为以后图书馆发展技术的重要研究方向[2,3]。

数据挖掘应用于国内图书馆的研究在近几年才开始。由于数据挖掘是一门刚刚起步的技术, 它在数据库和信息决策领域的研究成果还不是很多。仅有高校中的一些图书馆研究人员和计算机专业人员从事了少量的工作, 他们的研究重点集中于研究数据挖掘在图书馆个性化信息服务推荐方面。

理论方面, 从2000 年开始, 将数据挖掘技术应用到图书馆个性化服务方面的研究逐年增加, 已成为近几年的研究热点。这些文章探讨了数据挖掘在图书馆信息服务中的应用, 揭示了个性化信息服务在图书馆中的作用和发展趋势。研究内容包括数据推送技术、个性化信息服务的概念与内涵、个性化信息服务的模式、个性化信息服务的特点、以及个性化信息服务发展对策及展望等。

实践方面, 个性化信息推送服务已受到越来越多高校图书馆的重视。国内知名高校如浙江大学、人民大学等图书馆都着手于个性化信息推送服务[1]; 浙江大学图书馆系统将馆藏的各种电子资源和网络资源二次加工以后, 系统主动向读者推送信息, 主要功能有: 定制图书馆各种网络资源和本地数字资源, 用户可以把常用的数据库放在定制页面上以方便检索, 允许读者挑选几个常用Web页面的URL地址放入书签。用户可根据自己的需要来点击国内外著名图书馆的链接地址[1]。

在图书馆使用者行为模式研究方面, 西南大学陈文老师对读者社群关系利用数据挖掘技术进行了摸索, 详细介绍了对读者分类的方法; 关联规则算法方面, 东南大学的周蓓有深入的研究并开发了应用的产品;此外, 其他研究人员将数据挖掘在数字图书馆方面的应用进行了理论研究。

基于我国的具体国情和文化背景的差异, 数据挖掘技术在国内的应用还缺少具体的实现环境, 大多数学者把研究重点放在对技术和概念的介绍等方面, 即国内学者关于数据挖掘理论研究较多, 对数据挖掘应用系统和算法测试的研究方面较少, 特别是数据挖掘在图书馆读者借阅记录中的应用研究, 目前还没有具体的实践案例, 学术性较强, 应用的实例较少, 特别是能在各图书馆间推广的应用实例[1]。

四、结语

湖南工程学院图书馆从2000 年实行计算机管理以来, 图书管理系统包含了大量馆藏文献信息和读者借阅记录信息, 这些业务数据的使用范围仅限于检索和查询以及简单的数据统计, 没有对这些馆藏数据作进一步的研究, 这些蕴含在馆藏数据中的模式和规律没有被发现和利用。我馆纸本图书有130 多万册, 如果读者对图书馆的检索系统功能不熟悉, 读者想要快速、准确的找到自己所需要的文献信息资源是比较困难的。流通子系统中, 读者的借阅记录每天都有新的数据产生, 读者借阅记录的信息对于读者的信息需求是真实可靠的, 因此对读者借阅记录进行数据挖掘, 可以较好掌握每个读者的借阅兴趣、爱好和需求, 其中所包含的那些读者和图书馆互动的历史记录对于我们提供个性化的信息推送服务是不可或缺的资源, 如果我们能把这些有意义的信息挖掘出来, 能帮助我们熟悉读者的文献信息需求, 主动对读者进行资源推送, 提高图书馆文献信息资源的利用率和个性化服务水平。

参考文献

[1]王斌.数据挖掘在高校图书馆服务中的应用研究[D].西安理工大学, 2010.

[2]李宏运.关联规则挖掘在图书馆管理中的应用[D].华东师范大学, 2009.

上一篇:传感器虚拟实验设计下一篇:区域特色农产品