数据库技术发展综述(精选12篇)
数据库技术发展综述 篇1
随着计算机技术的快速发展, 信息技术的交流不断增加, 作为信息存储设备的数据库面临较大的压力。如何更好更快地使用、存储、管理信息, 成为人们关注的问题。
1 数据库技术发展现状
在信息技术、计算机技术飞速发展的今天, 与之相关联的数据库技术也在不断变化发展中。关系型数据库的发展曾受到面向对象型数据库技术的挑战。但在当时, 世界上的几大家软件公司, 始终支持关系型数据库技术。随着国际互联网技术的快速发展, 出现了XML格式的数据存在形式, 但就发展势头, 市场占有额, 关系型数据库技术仍是主要领导力量。
2 数据库技术发展的趋势
由于关系型数据库的发展具有一定的技术基础和使用经验, 但由于它的使用中存在局限性, 因此下一代数据库技术的发展主流可能是面向对象型数据库技术, 也可能是两者的结合, 就此, 业界研究人员有以下观点。
2.1 支持面向对象的数据库技术成为下一代数据库技术的主导力量
在数据库的研究内部, 有一些学者认为, 面向对象型数据库技术要比关系型数据库技术更加完备, 更加符合人们认识世界的看法。原因是, 面向对象型数据库技术, 吸收了面向对象程序设计法学的核心概念和基本思想, 很多学者对这种看法表示赞同, 有学者甚至认为, 下一代数据库技术的主导力量, 是面向对象型数据库技术。
2.2 将面向对象型数据库技术引入关系数据库中
在数据库技术发展的今天, 关系数据库的发展技术的成熟度, 可以说是没有哪种数据库技术可以与之相比较。但是, 由于关系数据库技术自身内部有不可解决的局限性, 比如说, 只能对比较简单的模型进行建模, 数据的类型也有限, 程序设计的结构受到制约, 等等, 都是制约关系型数据库发展的因素。对于面向对象型数据库, 由于其开发的源泉就是起源于程序设计语言, 通过对现实世界的实体对象描述, 作为基本元素, 来阐述客观世界, 符合人们认识世界的基本规律。同时, 面向对象型数据库技术, 具有关系型数据库不具备的技术, 因此, 有学者认为, 应该将面向对象型数据库技术, 引入关系型数据库, 取长补短, 符合关系型数据库技术的发展方向。
2.3 演绎面向对象数据库技术
由于面向对象数据库是较为先进的数据库技术, 同时也是新兴的数据库技术, 因此, 相应的技术设施还不够完善, 没有统一的数据模型和形式化理论, 缺乏对数据的逻辑性处理基础。因此, 不能独当一面, 妥善处理数据管理中的相应问题。而演绎数据库, 恰恰具有面向对象数据库所没有的技术能力———对数据进行严格的逻辑关系处理, 弥补了面向对象型数据库的缺点。有学者认为, 应将两者结合在一起, 组成新的数据库技术, 应对今天的发展需要。
3 数据库技术发展的新方向———非结构化数据库
由于计算机信息系统的快速发展, 要求更加完善的符合实际生产需要的数据库技术, 来适应信息系统的发展需要。基于关系型数据库模型过于简单, 不能满足对复杂数据形式进行快速的表达, 同时又由于支持数据的类型有限, 因此研究人员设计出了非结构化数据库技术。这种数据库技术, 是本着全面适用于因特网应用技术的新型数据库技术, 这种数据库技术的根本优越性, 主要是突破了关系型数据库结构定义不易改变、数据定长的限制, 围绕支持重复字段, 实现了对数据可以任意变长的突破, 具备处理连续信息和非结构信息的优越功能, 是关系型数据库无法比及的。但很多学者还是认为, 它不能取代关系型数据库技术, 只适合作为它的辅助性配套软件。
4 数据挖掘知识发现与数据仓库是未来数据库技术发展目标
数据库技术是计算机信息系统发展的配套软件系统, 为了配合计算机技术快速发展的需要, 数据库技术就要不断更新, 不断研发新技术。在数据库技术中, 数据挖掘技术的出现, 成为数据库技术的核心。数据挖掘技术就是在数据库中, 根据不同信息, 进行分析, 同时找出信息中隐藏的规律, 为程序的编程提供一定的帮助。数据挖掘技术是如今发展较快的技术, 它综合了机器结构学、统计分析学、数据库技术等相关的技术, 为数据库整理信息分析信息后, 为编程决策提供帮助。数据仓库的作用就是从外部数据源、历史业务数据中, 提取有用的数据, 进行编排后, 为数据的处理分析做准备。有学者认为, 数据挖掘技术和数据仓库是数据库技术发展的目标, 通过对数据仓库数据的分析研究, 发现数据中的潜规则, 为数据的编程提供应用作用。另一方面, 数据挖掘技术逐渐成为独立的重要工具, 成为数据库技术发展必不可少的辅助工具, 成为新一轮数据库技术研究的主推力量。
5 结论
在计算机信息系统发展过程中, 数据库技术逐渐成为其运行顺利的辅助性重要软件, 数据库技术的发展过程中, 出现了新旧技术的更新和技术间的相互补充、相互配合, 共同为数据库技术的新发展做出贡献。虽然我国是计算机应用大国, 但是由于我国对相关技术的研发较晚, 对于相应技术核心掌握的还不够成熟, 因此, 在信息技术发展飞快的背景下, 我们要努力研究数据库技术, 顺应信息时代的发展。
摘要:文章通过对国家学术期刊网全文期刊库、维普中文数据库、SCI数据库的发展状况、发展趋势及方向的研究, 提出看法:数据库技术的发展必须与文化信息量的存储相持平, 保证数据库技术的发展能够满足信息存储量的实际要求。
关键词:数据库技术,趋势,方向,数据仓库技术
参考文献
[1]薛微.数据挖掘系列讲座之二[J].中国计算机用户, 2003, (2) :82.
[2]赵民德.数据挖掘系列讲座之一[J].中国计算机用户, 2003, (2) :29.
[3]胡天平.新一代数据库技术面向对象数据库系统[J].中国计算机报, 2003, (1) :68.
[4]王心裁, 吕元智.超媒体数据库技术与档案信息组织[J].中国图书馆学报, 2003, (1) :56.
数据库技术发展综述 篇2
张禄鹏
摘要:本文回顾了医学超声影像技术的发展历史,阐述了A型、B型、M型和D型超声诊断方法的历史、原理、特点、用途和发展状况,总结了医学超声影像技术的局限性,介绍了三维超声和超声造影等医学超声影像技术的新进展。
关键词:医学超声影像技术,超声诊断法,三维超声,超声造影
Abstract:This paper reviews the development history of medical ultrasound imaging technology.The history, principles, characteristics, uses and development status of A model, B model, M model and D model ultrasonic diagnostic method.This paper also sums up the limitations of medical ultrasound imaging technology and introduces three-dimensional ultrasound and ultrasound contrast and other new medical ultrasound imaging technology advances.Keyword:medical ultrasound imaging technology,ultrasonic diagnostic method,three-dimensional ultrasound,ultrasound contrast
医学超声影像技术和X-CT、MRI及核医学影像(PET、SPECT)一起被公认为现代四大医学影像技术,成为现代医学影像技术中不可替代的支柱。医学超声影像技术是指运用超声波的物理特性,通过电子工程技术对超声波发射、接收、转换及电子计算机的快速分析、处理和显象,从而对人体软组织的物理特性、形态结构与功能状态影像一种非创伤性技术。目前,由于超声显像技术具有实时动态、灵敏度高、易操作、无创伤、无特殊禁忌症、可重复性强、费用低廉和无放射性损伤等优点。从而使这一诊断技术成为了现今临床各学科疾病的检查、诊断和介入治疗中所不可缺的重要手段之一。
1.超声影像技术发展历史
1880年,两位法国科学家Jacques和Pierre Curie发现了压电现象,成为超声探头的基础。某些电介质在沿一定方向上受到外力的作用而变形时,其内部会产生极化现象,同时在它的两个相对表面上出现正负相反的电荷,当外力去掉后,它又会恢复到不带电的状态,这种现象称为正压电效应。相反,当在电介质的极化方向上施加电场,这些电介质也会发生变形,电场去掉后,电介质的变形随之消失,这种现象称为逆压电效应,或称为电致伸缩现象。根据压电效应,用压电晶体可以用来作为声波的产生器与接收器,压电效应是可逆的,这奠定了用同一超声波换能器既能发射又能吸收的基础。
直到第一次世界大战,随着声纳在军事上的应用,压电效应才得到重视。1915年,法国科学家Paul Langevin发现了超声的第一个用途:水下声波测距法探测水下目标,也就是今天大家熟知的声纳。正常人的耳朵可接听到声波频率的范围为16-20000Hz,高于2万赫兹的声波就称为超声波。
超声医学影像所用的声频率通常是300万-750万次/秒(3MHz-7.5MHz)。超声波是一种机械波,其传播是通过介质中粒子的机械振动进行的,它不同于电磁波,在真空中不能传播,但在人体复杂的介质中传播较好,同时它属直线传播,因此有良好的方向性[1]。超声诊断技术出现后获得了迅速的发展,上世纪40年代末,A型(Amplitude Mode)超声诊断仪开始应用于临床,常用A型法测量界面距离、脏器径值以及鉴别病变的物理性质,结果比较准确,为最早兴起和使用的超声诊断法,目前已多被其他方法取代,只在脑中线测量等方面还在应
用。
随后B 型(Brightness Mode)和M型(Motion Mode)和超声诊断仪相继问世。70年代灰阶和实时技术取得重大突破超声技术日趋成熟。二维灰度显示的 B 型超声诊断仪取得迅速发展,它们显示的均为人体内结构形态信息,成像基础为人体内的声阻抗变化。所谓的B超,此法是将回声信号以光点的形式显示出来,为辉度调制型,回声强则光点亮,回声弱则光点暗。B超向人体发射一组超声波,按一定的方向进行扫描。根据监测其回声的延迟时间,强弱就可以判断脏器的距离及性质,经过电子电路和计算机的处理, 形成了我们今天的B超图像。按扫描方式分类,B超已经发展了四代,包括手动直线扫描、机械扫描、电子直线扫描和电子扇形扫描。M超声诊断法是在辉度调制型中加入慢扫描锯齿波,使回声光点从左向右自行移动扫描,故也称超声光点扫描法,它是B型超声中的一种特殊的显示方式[2]。80年代出现的彩色血液显像(Color Flow Imaging , CFI),则是在实时B 型超声图像中,以彩色表示心脏或血管中的血液流动,利用多次脉冲回波相关处理技术来取得血液运动信息。
1982年,日本Aloka公司研制第一台二维彩色多普勒显像仪,建立在多普勒效应基础之上的,显示血流及心脏等运动信息D型(Doppler Mode)超声诊断仪开始出现。继而出现B型和D型相结合的双功型(Duplex Mode)超声诊断仪,它用同一探头既显示B 型图,又在图像中任一处取样显示其多普勒频谱。通常称为彩超的彩色多普勒血流成像系统是一种能同时显示 B 型图像和多普勒血流数据(血流方向、流速、流速分散)的双重超声扫描系统。超声频移诊断法,即D型超声诊断法,通称为多普勒超声,此法应用多普勒效应原理,当超声发射探头和反射体之间有相对运动时,回声的频率有所改变,此种频率的变化称之为频移。多普勒超声最适合对运动流体做检测,所以多普勒超声对心脏及大血管血流的检测。目前常用的超声多普勒有脉冲式多普勒(Pulse Waveform Doppler, PWD)、连续式多普勒(Continual Waveform Doppler, CWD)彩色多普勒显像(Color Doppler Flow Imaging, DFI)。
2.超声影像技术发展现状
随着科学技术的飞速发展,超声技术与计算机技术紧密结合,探头高频化,线路数字化。上世纪90年代经颅多普勒(Trans Cranial Doppler,TCD)诊断仪应用低频多普勒超声,通过颞部、枕部、眶部及颈部等透声窗,可以显示颅内脑动脉的血流动力学状况。而新型的彩色三维TCD则采用独特的颅脑血管扫描技术,同步对颅内血管的X、Y、Z三维空间坐标参数进行检测并馈入计算机,重建颅内血管的三维图像,并可以在颅内血管多普勒信号模拟三维图上选择样点,显示脑血管血液的流速和流向。该技术用于脑血管疾病的诊断、功能评论、危重病人的监护和预防保健等[3]。其后发展的具有三维空间超声技术的诊断仪可显示三个截面:纵截面、横截面和水平截面,并可对空间的所有平面的结果进行扫描、存储、分析。随着全自动三维超声扫描和三维图像存储技术的应用,使人体受检脏器的解剖学分析更加完善。
超声检查不是万能的,对于含气体和受骨骼遮挡的器官检查不如其它器官,对于过小目标的检查也受到仪器分辨率的限制。超声检查受检查孕周、胎儿体位及羊水影响并不能排除所有胎儿的畸形[4]。有些超声检查需要空腹,必须要空腹检查的器官:胆囊。正常胆囊在夜间空腹状态下储存了肝脏分泌的胆汁,这时胆囊呈充盈状态、壁薄光滑张力大、胆囊内无回声。餐后(尤其食用奶制品、脂肪类食物)会收缩使胆汁排出参与消化,如果餐后胆囊收缩了,难以确定是否为病理状态的超声征像,而结石息肉等可能显示不出或难以辨别。
3,超声影像技术发展趋势
近几年来 医学超声成像系统向更高层次发展 其目标主要是利用更多的声学参数作为载体以获取体内更多的生理病理信息,提高图像质量,使图形清晰显示更为细微的组织结构
[5]。从工程技术角度看,医学超声成像在三维超声等方面的发展特别引人注目。
最近几年,三维超声图像重建是超声图像处理方面的热点 已成为超声成像技术的一个
发展趋势。三维超声和实时三维超声三可以弥补二维超声检查的空间关系不强的缺点,同时可以减少因为二维超声检查过快造成的漏诊,扩大超声的观察视野。利用三维超声可以快速、全面地对各检查脏器进行评价。目前,三维和实时三维超声的应用价值已经得到临床和超声医师的认可。但随着对该技术应用的深入,其应用范围会不断的被发现,从而在产前检查中发挥更大的作用。
超声造影(Ultrasonic Enhanced Contrast)是利用造影剂使后散射回声增强,明显提高超声诊断的分辨力、敏感性和特异性的技术。借助于静脉注射造影剂和超声造影谐波成像技术,能够清楚显示微细血管和组织血流灌注,增加图像的对比分辨力,大大提高超声检出病变的敏感性和特异性。随着仪器性能的改进和新型声学造影剂的出现,超声造影已能有效的增强心、肝、肾、脑等实质性器官的二维超声影像和血流多普勒信号,反映和观察正常组织和病变组织的血流灌注情况。有人把它看作是继二维超声、多普勒和彩色血流成像之后的第三次革命。超声造影作为一种全新的影像学检查技术,目前在临床上的普及程度远远不如CT和MRI,和传统超声一样受体形影响和气体干扰大,穿透力较X线弱,空间分辨力也低于CT和MRI,但超声造影剂进行超声检测,简便、耗时短而且实时无创、无辐射,具有其他检查方法无法比拟的优点,已成为超声诊断的一个十分重要和很有前途的发展方向。
总之,三维或实时三维超声、超声造影技术在临床的应用才刚刚起步,更多的应用价值有待广大的超声医务工作者不断地探索和发现,相信随着这些新技术在临床的不断应用,其 可适用的领域会不断地扩大,并适应新的发展趋势。
参考文献:
综述计算机数据恢复技术 篇3
[摘要]随着全球信息化的不断加剧,信息早已成为社会发展的重要资源,围绕这一资源展开的竞争也日益激烈。而数据是信息的重要载体,所以系统与数据恢复技术作为一种新技术就应运而生了。本文首先介绍了数据的存储结构原理,然后对计算机数据损害进行了分析,最后介绍了计算机数据损坏的相关类型及其相关数据恢复的方法。
[关键词]计算机;信息安全;数据恢复
[中图分类号]G71 [文献标识码]A [文章编号]1672-5158(2013)06-0339-02
随着计算机技术的不断发展,计算机已经进入到了各行各业中,当然计算机中也会储存一些大量的数据,这样将必会存在着数据损坏或丢失的风险。计算机安全专家威廉史密斯曾经说过这样—句话:‘创建这些数据也许只花了10万元,但是当你在关键时刻打算把它们全部找回来时,你得准备100万元的支票。这句想你有其一定的道理,但是,如果我们掌握了数据恢复的技能,那么我们就会省下这100万的支票了,也许还会有意想不到的惊喜。由此可见,计算机数据恢复技术是多么的重要。
一、数据存储结构原理
想要掌握了数据恢复技术,首先要了解数据的存储结构原理,这样在做恢复工作时才能有针对性的分析并且解决问题。大家都知道新买来的硬盘要先分区,再格式化后才可以使用。而在分区过程中主要将硬盘分成五个部分:主引导区和操作系统引导记录区,还包括目录区和FAT表以及数据区。
操作系统可访问的第一扇区是操作系统的引导区,该引导区主要由一个引导程序以及一个BPB分区参数记录表。引导程序的任务便是负责判断文件是否为引导文件,如果是,那么就读入内存,并且将其的控制权交给该文件。而参数快BPB则记录着许多重要的参数,有分区的起始和结束扇区,还记录着文件的存储格式和根目录的大小等。
文件分配表即FAT,是操作系统的文件寻址系统。一般为了确保其的安全,都会准备两个,第二个则是第一个的备份。硬盘上的文件都是被分成若干小段,但是彼此之间都是有联系的,操作系统可以很准确的读取出文件。在FAT区之后还有两个区:即目录区和数据区。
二、计算机数据损坏分析
(一)硬盘数据损坏常见的软件故障
软件故障导致数据损坏的原因有很多种,有的是由操作人员误操作导致的,有的是被病毒侵入导致的,还有是被恶意的程序占领并且锁死硬盘导致硬盘的数据不可读,还有一些比较常见的原因,如误删除文件和误格式化等。但是这些软件类的故障都有着一些常见的特点,如操作系统无法进人,还有无法读取文件,文件无法被相关程序打开,还有文件丢失或乱码显示等。
(二)硬盘数据损坏常见的硬件故障
硬盘数据损坏也有很多硬件方面的原因,当硬盘的读写磁头在受到剧烈的震动后很容易被破坏,并且导致不认硬盘,这是硬盘最为常见的故障;还有硬盘的借口故障、供电故障;或者是主板被烧;芯片损坏等。另外,如果硬盘的缓存出现问题也会发生许多故障如死机、乱码等。
1 确定数据的存储结构
确定数据的存储结构时要考虑综合的存取时间,存储空间的利用率和维护的代价。这三方面因素相互矛盾,例如消除一切冗余数据虽然能够节约存储空间,但往往会导致检索代价的增加,因此必须进行权衡,选中一个折中的方案。
2 设计数据的存储路径
在关系数据库中,选择存储路径主要是指确定如可建立索引,例如,应把哪些域作为次码建立次索引,建立单码索引还是组合索引,建立多少个为合适,是否建立聚集索引等。
3 数据的存储位置
为了提高系统性能,数据应该根据应用情况将易变部分与稳定部分,经常存取部分和存取频率较低部分分开存放。
三、数据损坏类型及相关恢复方法
(一)文件的删除及恢复
文件的删除要从两个方面人手:一方面要查找出文件在其磁盘中的相应的文件目录,将登记的第一个字节成为ESH;另一方面查找出文件在文件分配表中的符号并清除记录,释放文件空间。因此,文件的数据信息如果仍然保留在硬盘的数据中,那么此类的恢复工作只要通过一些恢复软件就可以完成数据恢复工作,但是需要注意的是恢复后的数据不能再存放到故障硬盘的分区中。
(二)硬盘重分区或分区表损坏下得数据恢复
硬盘的重分区或者分区表的损坏主要是由人为因素或者病毒入侵将硬盘的逻辑零扇区修改了。因此,解决该种问题的方法有:
1、将硬盘插入到另一台计算机上进行系统操作,查看该硬盘的逻辑零扇区的结尾标识,看结尾标识是不是为55A,如果不是要将其改为55AA,然后将硬盘重新接到计算机上看是否正常。2、如果硬盘可以确定是分区表损坏,而且以前存有备份,那么可以利用备份来恢复硬盘的分区表。如果磁盘的分区表没有备份,那么可以利用数据恢复工具在另一台电脑往常恢复工作。3、进行手动修复分区表的操作人员往往需要有足够的经验,在WINHEX软件下操作分区表数据。4、用disk genius找回丢失的分区,如果误将硬盘克隆后丢丢失分区,最简单最快捷的方法便是用该种技术。同时,DBA应该和相应的项目管理人员或者程序员沟通,确定怎样建立相应的数据库底层模型,最后由DBA统一管理,建立和维护。任何数据库对象的更改,应该由DBA根据需求来操作。
(三)硬盘DBR损坏
操作系统可以直接访问的扇区便是DBR,该扇区主要包括一个BPB及一个引导程序。引导程序的主要用途是当MBR把系统的控制权交给他是,它要判断出本分区是否为引导分区,如果是,那么将其读入内存并且将控制权交给该文件。BPB则记录着本扇区的主要参数,主要有起始扇区和结束扇区,还包括文件的存储格式和根目录大小等重要参数。DBR对操作系统中有着很重要的作用,如果其被破坏,那么计算机将无法启动,因此,做好备份工作很重要,这样就可以利用备份来恢复被损坏的数据了。
四、数据恢复软件的应用
(一)WINHEX的应用
该种软件是一种磁盘比较强大,文件是利用二进制进行查看和修改工具的,这样比较方便硬盘数据的查看和数据修改工作。而该种软件的编辑器以为非常通用的16进制为核心的,这样在进行文件的修复和检查工作是可以节约大量的时间。
(二)Eaw Recovery的应用
该种软件的功能有很多,有磁盘的诊断,还有数据和文件的修复,或则Email的修复等19项,而且使用时也比较简单,非专业的人士也可以使用,唯一不足的是不利于数据的查找。
(三)R-studio的应用
该种软件是一种特别的数据恢复新技术,其为某些软件提供的较为广泛的数据恢复解决方案。其不仅可以恢复本地的数据,还可利用网络来恢复远程计算机上的数据。
(四)Final data的应用
这种软件的用法比较简单,这种软件的操方法以及界面风格都与我们平时所用的WINDOWS的操作非常接近,即使是非专业的用户也可以很快的掌握其使用方法来完成恢复工作。
总而言之,随着人们对数据安全行的认识以及对数据恢复技术的了解,数据恢复技术行业的价值已经得到了各个方面的认可,数据恢复技术不仅可以为个人或者企业用户恢复丢失的文件数据,还可以为公安机关打击各种计算机犯罪行为提供技术支持。因此,数据恢复技术在计算机领域中占有重要的位置,我们在用电脑的过程中,也要养成良好的习惯,对硬盘和系统的数据进行备份工作,并且也要对硬盘的分区表定时备份,这样,我们在进行数据才能得到最大程度上得恢复。
参考文献
[1]刘伟,数据恢复技术深度揭秘[M]北京,电子工业出版社,2010
数据集成技术综述 篇4
随着信息技术飞速发展和应用领域不断拓宽,信息技术极大地提高了人们的工作效率,给人们的生活带来了诸多便利。然而在信息化建设初期,由于缺乏有效的和合理的规划和协作,造成信息化建设的大量重复和“信息孤岛”现象,随着信息量的爆炸式增长,信息化建设遭遇到巨大的浪费。针对目前情况,迫切需要一种技术用于将之前的各个独立的信息化系统集合起来,给各个“孤岛”架起沟通的桥梁,为将来各种各样的信息化建设服务。随着互联网技术的诞生,在一定的程度上可以很好的支持信息发布和信息收集,但对于之前的信息化资源的重用需求,对于日益迫切的分散数据访问和分析需求——跨地区的连锁经营销售商要求对其每天总的销售状况进行分析等,对于越来越复杂的应用环境——在线分析处理(OLAP)、决策支持系统(DSS)、数据挖掘(DM)等,人们迫切需要形成跨组织、跨领域、多应用的信息交换和共享。在这种背景下,数据集成技术应运而生。
数据集成技术是将分布的、异步的,甚至异构的独立信息源中的有用数据集成在一起,使得用户能够以透明的方式访问这些数据源,以供将来信息检索、分析处理等等应用的技术。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据,图1显示了数据集成系统模型。[1,2]
数据集成是信息系统集成的基础和关键,好的数据集成系统可以保证用户以低代价、高效率使用异构的数据。现在,越来越多的现代企业已经意识到商业数据集成在企业日常运作和管理中的重要性,全球著名的IT企业如Oracle、IBM,数据开发环境单一,工具环境无关性差等缺点。而且随着应用的不断深入,对Microsoft和Sybase等都针对自己的产品提出了数据仓库的数据集成解决方案,这些解决方案提供了方便了数据集成方法,但它们都或多或少地存在这样或那样的缺陷,比如兼容性数据集成提出更新更高的要求———任意订制需要抽取的数据、灵活而高效的数据抽取方式(实时或周期性抽取等)、数据抽取的一致性、异构信息源(包括半结构化和非结构化数据)集成和系统平台无关性等。数据集成的研究与设计必须深入,解决以前方法的局限性,提供更高的实用性,找到一种更优的维护方法等等任务。[3]
2 传统的异构数据集成方法
传统的数据集成所采用的方法基本可以分为两大类:数据复制方法和模式映射方法。
2.1 数据复制方法
数据复制方法将各个数据源的数据复制到与其相关的其他数据源上,并维护数据源整体上的一致性,提高信息共享和利用的效率。数据复制可以是整个数据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可减少用户使用数据集成系统时对异构数据源的数据访问量,提高数据集成系统的性能。最常见的数据复制方法就是数据仓库方法。该方法将各个数据源的数据复制到同一处——数据仓库,用户则直接访问数据仓库获取数据。这种方法既可用于数据集成,亦可用于决策支持查询。但是,这种对数据仓库的间接访问方式带来的问题就是数据更新不及时、数据重复存储。斯坦福大学DB Group的数据集成方案是数据复制方式数据集成方法的代表性方案。然而在应用领域中,信息源数据通常含有企业商业机密信息或政府部门公众机密信息,不能让数据集成系统访问这些信息或基表。[4]
2.2 模式映射方法:即虚拟视图的方法
模式集成(Schema Integration)是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是,在构建集成系统时,将各数据源共享的数据视图集成为全局模式(Global Schema),供用户按照全局模式透明地访问各数据源的数据。该方法不需要重复存储大量数据,能保证查询到最新的数据,比较适合于集成数据多、且更新变化快的异构数据源集成。
模式集成要解决的两个基本问题是:构建全局模式与数据源共享数据视图间的映射关系;处理用户在全局模式基础上的查询请求。模式集成过程需要将原来异构的数据视图作适当的转换,消除数据源间的异构性,映射成全局模式。全局模式与数据源数据视图间映射的构建方法有两种:全局视图法和局部视图法。全局视图法中的全局模式是在数据源数据视图基础上建立的,它由一系列元素组成,每个元素对应数据源的一个查询,表示相应数据源的数据结构和操作;局部视图法先构建全局模式,数据源的数据视图则是在全局模式基础上定义,由全局模式按一定的规则推理得到。
2.2.1 联邦数据库
联邦数据库是早期人们采用的一种模式集成方法。联邦数据库中数据源之间共享自己的一部分数据模式,形成一个联邦模式。联邦数据库系统按集成度可分为两类:采用紧密耦合联邦数据库系统和采用松散耦合联邦数据库系统。紧密耦合联邦数据库系统使用统一的全局模式,将各数据源的数据模式映射到全局数据模式上,解决了数据源间的异构性。这种方法集成度较高,用户参与少;缺点是构建一个全局数据模式的算法复杂,扩展性差。松散耦合联邦数据库系统比较特殊,没有全局模式,而是提供统一的查询语言,将很多异构性问题交给用户自己去解决。松散耦合方法对数据的集成度不高,但其数据源的自治性强、动态性能好。
2.2.2 中间件集成方法
中间件集成方法是另一种典型的模式集成方法,它使用全局数据模式。与联邦数据库不同,中间件系统不仅能够集成结构化的数据源信息,还可以集成半结构化或非结构化数据源中的信息,如Web信息。基于中间件的数据集成系统主要包括中间件和包装器,其中每个数据源对应一个包装器,中间件通过包装器和各个数据源交互。用户在全局数据模式的基础上向中间件发出查询请求。中间件处理用户请求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行优化,以提高查询处理的并发性,减少响应时间。包装器是对特定数据源进行封装,将其数据模型转换为系统所采用的通用模型,并提供一致的访问机制。中间件将各个子查询请求发送给包装器,由包装器来和其封装的数据源交互,执行子查询请求,并将结果返回给中间件。中间件注重于全局查询的处理和优化,相对于联邦数据库系统的优势在于:它能够集成非数据库形式的数据源,有很好的查询性能,自治性强;中间件集成的缺点在于它通常是只读的,而联邦数据库对读写都支持。
2.2.3 peer-to-peer数据集成方法
peer-to-peer(P2P)[6]数据集成方法是在新兴的P2P计算技术的基础上,对原有的模式集成方法的扩展。P2P是一种基于对等网络的架构,是计算机系统的结构从传统的集中式发展为松散耦合分布式的新模式。在P2P数据集成方法中,参与集成的各个数据源节点分别被视作一端,每个节点可以将自己的一部分本地数据模式映射成为端共享模式,向其他节点共享自己的数据。纯粹的P2P数据集成方法没有全局数据模式,各节点可以直接通过P2P映射使用其他节点共享的数据模式,从而形成各节点之间对等的数据共享与访问机制。P2P数据集成方法已成为当前数据集成研究的一个热点。
3 异构数据集成的新技术
虽然数据集成技术已经取得了很多应用成果。但由于应用和需求的不断拓展变化。数据集成迄今仍是困扰企事业单位信息系统建设、维护和发展的难题。还远未得到很好解决。已有的数据集成方案普遍存在难以适应数据源的动态变化、难以完成动态集成以及传输成本高等缺陷。而且很多系统中的数据是从数据源向集成模式单向流动的,不能支持局部数据源之间的数据交换和共享。也不能在集成数据上进行新型跨部门综合业务的开发针对以往数据集成方案的不足,人们不断探索,新的数据集成技术也不断涌现。其中包括网格技术和本体集成技术。
3.1 网格技术
网格技术提出目的就是实现分布式环境下的资源共享和协同计算。网格(Grid)又称为虚拟计算环境。是近年来兴起的一种重要的网络信息技术网格利用计算机网络把地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源、知识资源等连成—个逻辑整体,然后像一台超级计算机一样为用户提供—体化的信息应用服务。实现互联网上所有资源的全面连通、全面共享。以消除信息孤岛和资源孤岛。
3.2 本体技术
数据的异构性分为两个方面:一是结构性异构,即不同数据源数据的结构不同:二是语义性异构,即不同数据源的数据项在内容和含义上有所不同或有冲突。目前,XML已经成为异构系统间数据交换的公认标准,所以,语义异构成为数据集成技术的难点。已有的各数据集成方法也都面临如何更好的解决语义异构的问题。
本体是对某一领域中的概念及其之间关系的显式描述。是语义网络的—项关键技术。本体技术能够明确表示数据的语义以及支持基于描述逻辑的自动推理,为语义异构性问题的解决提供了新的思路,对异构数据集成来说应该有很大的意义。但本体技术也存在一定的问题:已有关于本体技术研究都没有充分关注如何利用本体提高数据集成过程和系统维护的自动化程度、降低集成成本、简化人工工作。基于语义进行自动的集成尚处于探索阶段,本体技术还没有真正发挥应有的作用。
因此,可以采取本体技术和中间件相结合的方法[5]:采用中间件架构,支持虚拟视图或视图集合,且不存储任何异构数据库中的实际数据。为了更好地解决语义异构,在中间件中引入了一个本体库。
整个系统架构如图2所示,包括如下3个层次:
1)应用层
应用层为终端用户提供访问中间件层的查询接口,用户可以通过应用层的浏览器调用中间层。系统提供统一的查询检索平台,它能够显示用户可以查询的集成信息,而底层集成的数据源对用户是透明的。
2)中间件层
中间件层从更高层次上屏蔽了数据源的分布性和异构性。用户认为所有的数据都是本地的,处于同一服务域中,而具体的查询请求的处理、结果的返回都由中间层负责。中间件主要由中介器、包装器和本体库3个部分组成,其中,中介器又包括查询生成器、查询分解引擎、查询执行引擎和结果处理4个功能组件。
3)数据源层
数据源层是由分布式异构数据源组成,数据源可以是关系数据库、Excel表格,也可以是半结构化的XML文档。每一个数据源都可以位于Web上不同的服务站点,采用本地的方式对数据进行管理。
4 数据集成技术展望
鉴于异构数据集成所固有的难点。可以相信,异构数据集成技术会随着各个难题的解决而得到越来越广泛的应用。今后,数据集成的研究方向应该包括:(1)基于网格、本体语义的数据集成方案的研究;(2)多种技术相结合的数据集成方案;(3)集成数据的完整性、一致性,实时性。
5 结束语
本文从对数据集成技术需求出发,说明了数据集成技术对当前信息系统的重要性。对传统的几种数据集成技术进行了概括,并对数据集成的两种新技术进行了研究,给出了数据集成技术发展的方向
摘要:从现行信息需求出发,介绍了数据集成技术发展的必要性,讨论了已有的数据集成技术,分析了这些技术的优缺点,介绍了网格技术、本体技术两个新的异构数据集成技术。在此基础上给出了本体技术和中间件相结合数据集成解决方案。最后,提出了数据集成方法的发展方向。
关键词:数据集成,数据复制,模式集成,本体
参考文献
[1]Widom J.,"Research Problems in Data WareHousing",In Proceedings of the4th,Int'L Conference on Information and Knowledge Management(CIKM),November1995.
[2]薛惠忠,庄晓青,董逸生.数据仓库中的数据集成转换[J].现代计算机,2003.12:78-82.
[3]Ullman J D.Information integration using logical views[c]//proceeding of ICDT97,Volume1186of LNCS,1997:19-40
[4]Hammer J.,Garcia-Molina H.,Widom J.,Labio W.,Zhuge Y."The Stanford Data Warehousing Project",In IEEE Data Engineering Bulletin,1995,18(2):41-48.
[5]周刚,郭建胜.基于本体的异构数据源集成系统分析与设计[J].北京:北京联合大学学报,2007.10:45-48.
[6]周傲英,凌波.Peer-to-peer系统及其应用[J].计算机科学,2001,29(8):200-202.
[7]徐立臻,谢鸿强.数据仓库系统中源数据的提取与集成[J].小型微型计算机系统,2003,24(5):869-873.
纳米科学技术与纳米材料发展综述 篇5
摘 要:介绍了纳米科学技术、纳米材料的概况及纳米材料的结构、特性、制备方法和应用前景.关键词:纳米科学技术;纳米材料;纳米效应
纳米是长度单位,原称“毫微米”即10’9米(10亿分之一米)。纳米科学是研究在1一100纳米内原子、分子和其他类型物质的运动和变化的学问。在这一尺度范围内对原子、分子进行操纵和加工,称为纳米技术。20世纪80年代,纳米材料体系开始为科学家所关注,目前已成为跨世纪材料科学研究的热点。纳米科学技术
纳米科学技术是在0.1~100 nm尺度上研究和应用原子、分子现象,并由此发展起来的多学科的、基础研究与应用研究紧密联系的新的科学技术.它是现代物理(介观物理、量子力学、混沌物理和分子生物学等)和先进工程技术(计算机、微电子和扫描隧道显微镜等技术)结合的产物.纳米并非是一个新名词,但是在Nano ST中的纳米却是一种新的思考方式,即生产过程要越来越精细,以致最后在纳米尺度上直接由原子和分子制造具有特定功能的产品.因此,随着Nano ST的发展,必将引发一系列新的科学技术.国际纳米科技会议将纳米科技分为6个主要部分,即纳米电子学、纳米物理、纳米化学、纳米生物学、纳米机械学和纳米测量学.其中纳米电子学处于重要地位,其研究的直接目标就是新型的纳米电子器件,在纳米器件中,最有特色的是单电子器件.其典型结构是纳米粒子,它的电子结构特点是一个势阱内具有分立能级的量子点,若处于量子点内的电子能量高于热起伏,那么就可以检测到单电子隧穿现象.在此基础上可以构造单电子晶体管、逻辑电路、存储电路以及纳米功能元件阵列的超高密度集成电路.与现在的微电子器件相比,它具有更低的功耗、更快的开关速度、更高的存储密度以及更高的集成度.因此,它不仅有丰富的理论内容,而且有极为现实的应用前景.2 研究纳米科技的背景和意义
从真空电子管的发明到晶体管的出现,从集成电路的诞生到大规模集成电路和超大规模集成电路的广泛应用,每一代小型化电子器件的出现,都带来了电子技术的革命,推动了电子科技的迅速发展,也促进了其它科技和社会生产的进步.特别是以微电子器件为基础的高速计算机的出现和个人计算机的广泛应用,使人类社会进入了计算机时代.促进计算机时代继续发展的一个重要因素是微电子器件的集成度不断提高,其芯片上的功能元件尺寸不断减小,按照目前功能元件尺寸减小的速度推算,不久的将来,芯片上功能元件的尺寸将进入纳米范围.目前,人类广泛应用的功能材料和元件,其尺寸远大于电子自由程,观测的电子输运行为具有统计平均结果.描述这些性质的主要是宏观物理量,现已有成熟的理论和技术.当功能材料和元件的尺寸逐渐减小到纳米量级时,其物理长度与电子自由程相当,载流子的输运将有明显的量子力学特征,传统的理论和技术已不再适用.因而,需要发展基于电子的波动性、电子的量子隧道效应、电子能级的不连续性、量子尺寸效应和统计涨落等特性的新的理论和新的技术.传统科学技术中元件尺寸是从毫米向微米过渡,现在,在新技术、新效应的应用中,功能元件的尺寸要求从微米向纳米过渡.如果再进一步发展,需要组装性能更新颖、结构更复杂的功能元件,就需要开发新材料和相应的组装技术,也就更需要多学科的协作与交叉发展.因此,从80年代后期开始逐渐发展起来了一个新的综合性的多学科交叉的研究领域———纳米科学技术.纳米科学技术的诞生将对生产力的发展产生深远的影响,并且有可能从根本上解决人类面临的一系列问题,例如粮食、健康、能源和环境保护等重大问题。纳米材料学
纳米材料学是纳米科技领域中发展最为迅速的学科。纳米材料包括纳米颗粒材料和由纳米颗粒组成的纳米相块体材料。纳米材料学主要研究纳米材料的制备、结构、性能及其应用等,是纳米科技与材料学交叉而成的边缘学科。
3.1纳米材料的特性
在生产实践中人们发现,如果将宏观尺度的物质微细化到纳米尺度,这种纳米颗粒在性能上就表现出与原宏观尺度物质完全不同的性质,人们将这种纳米颗粒称为“物质的新状态”。纳米物质之所以表现出这些奇异的性能,主要是由于物质进人纳米尺度后表现出了一些宏观物质不具备或在宏观物质中可忽略的物理效应。据目前人们对纳米颗粒的研究,这些效应主要有表面效应、量子尺寸效应、小尺寸效应、宏观量子隧道效应等。
3.1.1表面效应
凝固态物理学告诉我们,处于物质内部的粒子和处于物质表面的粒子其状态完全不同,后者具有很高的能量和化学活性,在电子显微镜的电子束照射下,表面粒子仿佛进人了“沸腾”状态。一般情况下,由于表面原子数和整个物质的原子数相比微不足道,所以无表面效应显示。但当物质的尺度进人纳米量级,表面原子数就达到了不可忽略的地步(表1),这时表面效应就表现得非常明显。纳米材料的表面效应可增加材料的化学活性、降低熔点等。利用这一特性可制作高效催化剂、敏感元件、用于高熔点材料冶金等。实际上,目前已成熟的粉末冶金法及无机材料行业普遍采用的粉碎一成形一烧结工艺流程,在一定程度上就是利用了这一原理。
3.1.2量子尺寸效应(九保效应)能带理论指出:由无数原子组成固体时,各原子的能级就合并成能带,由于各能带中电子数目很多,能带中能级间隔很小,可以看成是连续的。但对于纳米粒子,能带中能级间隔增大;当能级间距大于热能、磁能、电能、光子能量或超导态的凝聚能时,物质就会呈现出一系列与宏观物质截然不同的反常特性,这就是量子尺寸效应。量子尺寸效应会导致纳米物质在磁、电、光、声、热以及超导性等方面表现出与宏观物质显著不同的特性。例如,导电的金属在纳米状态下变成绝缘体;磁矩的大小和颗粒中电子是奇数还是偶数有关,光谱线会向短波长方向移动等。有人曾利用九保关于能级间距的计算公式计算出金属银粒子在IK时出现量子尺寸效应时的临界尺寸为14nm,指出当银粒的粒径小于14nm时将变成绝缘体。
3.1.3小尺寸效应
当固态物质的粒子尺寸与光波波长、德布罗意波长以及超导态的相干长度或透射深度等物理特性尺寸相当或更小时,晶体周期性边缘条件将破坏,非晶质的表面层附近原子密度减小,导致声、光、电、磁、热等特性发生显著改变,即谓之小尺寸效应。小尺寸效应为纳米物质的实用技术开拓了新领域,如果磁性物质当其处于纳米尺度时具有很高的矫顽力,可以制成磁卡,或制成磁性液体,广泛用于电声器件、阻尼器件、旋转密封、润滑、选矿等领域。利用等离子共振频率随尺寸变化的性质,可以通过改变纳米颗粒的尺寸控制吸收边位移,制造具有一定频宽的微波吸收纳米材料,用于电磁波屏蔽、飞机隐型等。
3.1.4宏观量子随道效应
电子等微观物质具有穿越热垒的能力称隧道效应。现在人们发现一些宏观的量如纳米颗粒的磁化强度、量子相干器中磁通量等亦显示出隧道效应,称之为宏观量子隧道效应。宏观量子隧道效应早期曾被用来解释纳米镍在低温下继续保持超顺磁性等,后来发现在许多纳米物质中普遍存在。对宏观量子隧道效应的研究既有基础理论意义,又有重要的实用意义。它限定了磁介质进行信息存储的时间极限。量子尺寸效应和宏观量子隧道效应一起将会是未来电子器件的基础,一方面它指出了现有电子器件微型化的发展方向,同时又确定了其限度。纳米材料的制备方法
制备高纯、超细、均匀的纳米微粒,发展新型的纳米材料,就显得格外重要。通常,纳米微粒制备的要求是:(l)表面洁净;(2)粒子形状及粒径、粒度分布可控,防止粒子团聚;(3)易于收集;(4)有较好的稳定性;(5)产率高。随着纳米微粒研究的深入,对纳米超细微粒提出了不同的物理、化学特性需求,而解决问题的关键就在于研究、发展新的合成技术,并实现纳米材料的规模化、产业化。纳米超细微粒的制备方法很多,总体上可分为物理方法和化学方法,以物料状态来分可归纳为固相法、液相法、气相法,进而发展、衍生出模板合成法。具体包括固相物质热分解法,物理粉碎法,高能球磨法,水热合成法,表面化学修饰法,化学沉淀法,胶体化学法,溶胶—凝胶法,电解法,激光加热蒸发法,气相等离子体沉积法等。合成的方法各有优缺点,通常存在的问题往往是反应需要高温、大量使用有机溶剂、过程控制复杂、设备操作费用昂贵、颗粒均匀性差、粒子容易粘结或团聚等。因此,需要根据对纳米材料的不同要求和特点,选择研究不同的合成方法。由纳米粉体制备具有极低密度、高强度的催化剂、金属催化剂载体以及过滤器等工艺有待改进。
5纳米技术的前景
现在很多国家,尤其是美国、日本和欧洲都非常重视发展纳米技术,他们在纳米技术研究和应用方面投人的经费成倍地增加,我国政府也十分重视纳米技术的基础研究和应用。据有些科学家分析,我国目前纳米技术的基础研究处于世界上第5第6位,应用研究主要是纳米粉体(材料)的研究处于世界先进地位。纳米技术将是二十一世纪最关键的科学技术,将是二十一世纪里各个国家实力较量的最主要、最根本的领域,二十一世纪将是纳米技术的时代。
参考文献
2011年军事技术发展综述 篇6
2011年,世界主要国家继续把争夺技术制高点作为军事优势竞争的核心,制定规划计划,超前部署、持续投入,以保持其武器装备优势和发展后劲。美国公布了国防部2013~2017财年7个科学与技术优先发展领域,俄罗斯确定了未来几年优先发展的科技领域和关键技术,印度正在勾划名为《国防科技愿景2050》的发展蓝图。
信息技术保持强劲发展势头
第三代半导体材料电子器件实现量产
近年来,以氮化镓(GaN)、碳化硅(SiC)等第三代宽禁带半导体材料为基础的新型电子器件研究非常活跃。2011年2月,美国国防高级计划研究局的新一代氮化镓电子器件达到一定程度的可靠性并实现了批量生产,将大量取代高功率电子设备中常用的砷化镓(GaAs)电子器件。氮化镓的功率密度是砷化镓的5~10倍,具有高频、耐高温、大功率的优点,将成为未来高性能军事通信、雷达、电子对抗等电子装备的关键器件,进一步提高其作战能力、可靠性及工作寿命。
集成电路技术达到22纳米工艺水平
微电子集成电路生产工艺的每一次重大进步都将极大提高微电子产品的性能水平。目前,22纳米微电子集成电路生产工艺基本成熟,将于2012年上半年开始量产。其中,芯片业龙头英特尔公司22纳米工艺将采用三维结构的晶体管(称为三栅晶体管),使电流控制由一个栅极增加到3个栅极,实现从平面到立体的转变,是半导体技术领域的一次重大技术突破。与传统平面架构的晶体管相比,三栅晶体管的功耗可降低50%,运行速度提高37%。2011年7月,英特尔公司在其未来工艺计划路线图中提出,将在未来10年内逐步过渡到10纳米生产工艺,持续推动摩尔定律的延续。
光纤通信技术取得多项技术创新
日益增长的海量信息的快速传输需求,不断推动着高速光通信技术的发展。2011年3月,日本研制出一种七芯径大容量光纤传输系统,成功解决了光信号互相干扰、内核偏离等技术难题,使传输速率高达109太比特/秒,刷新了以前69.1太比特/秒的世界最高记录。5月,德国卡尔斯鲁厄理工学院的研究人员利用“快速傅里叶变换”方法,将一束激光光束分离出350多种色光,对每种色光携带的数据信息进行编码,通过光纤进行传输,创造了利用单束激光实现26太比特/秒的高速数据传输,相当于1秒钟传输700张DVD的数据容量。
超级计算机领域竞争激烈
超级计算机的研制能力及应用水平已经成为衡量一个国家科技竞争力的重要标志之一,也是主要国家近年来开展竞争的一个重要领域。2011年6月,国际超级计算机TOP500组织发布了新一期超级计算机500强排行榜,排名前10的超级计算机系统运算速度都超过千万亿次/秒。去年占据运算速度排行榜第一名的中国“天河一号”超级计算机(运算速度为2.566千万亿次/秒),被日本超级计算机“京”(K Computer)超越(运算速度达到8.162千万亿次/秒)。美国橡树岭国家实验室、IBM公司都已计划在2012年推出具有2亿亿次/秒运算能力的超级计算机,美国国防高级计划研究局则启动了运算速度达百亿亿次/秒的超级计算机研究计划。
新概念武器技术发展扎实推进
战术高能激光武器技术迈向实用化
近年来,随着高能固体激光技术的发展,战术高能激光武器实用化步伐明显加快。2011年,美国“高能液体激光区域防御系统”演示了高功率、高质量出光能力,计划2013年完成研制,该系统目标功率150千瓦、功重比大于200瓦/千克,比现有系统提高一个量级,具有小型化和轻便化特点,可装配在作战飞机上,有效防御地空导弹的攻击。美军“海上激光演示”系统还完成了摧毁无人艇的试验,首次验证了固体激光器从海上平台摧毁移动目标的能力。德国研制出10千瓦车载战术防空激光武器样机,并对无人机进行了打靶试验。
弹载高功率微波武器研制取得初步进展
高功率微波武器能够破坏武器系统中的电子设备,有望在未来的网络电磁空间战中发挥重要作用。2011年初,美国空军在犹他州试验靶场完成了“反电子高功率微波先进导弹”的首次飞行试验,验证了该导弹对抗多个目标的瞄准和精确定时能力。“反电子高功率微波先进导弹”计划旨在开发一种革命性、低附带毁伤的机载非致命定向能武器,利用高功率微波束破坏或摧毁敌方武器中的电子系统,从而在作战中夺取信息优势。
新材料技术稳步发展
反物质基础研究实现新突破
反物质在新一代高能核武器及先进推进系统中具有巨大的应用潜力,其研究得到美、俄、日等多国的重视,近年来取得了显著进展。2011年5月,欧洲核子研究中心的科学家在实验中成功制造出了309个反氢原子,并借助特殊的磁场使其存在了1000秒。在2010年11月的实验中,科学家制造出了38个反氢原子,使其存在了约0.17秒。相比之下,此次实验制造出了更多的反氢原子,将其存续时间提高了近4个数量级,同时首次测量了反氢原子的能量分布,将极大推动有关反物质的研究。
石墨烯材料制造与应用水平不断提高
石墨烯是一种具有半导体和金属属性的新型材料,应用前景广泛。2011年,美国研究出一种可批量生产石墨烯的简单方法,即通过在干冰中燃烧纯金属镁的方式直接将二氧化碳转化成多层石墨烯(厚度小于10个原子)。石墨烯在电子器件、集成电路方面的应用研究也取得了重要进展。6月,美国研制出首块基于石墨烯的集成电路,运行频率最高达10吉赫兹。石墨烯材料的发展有可能取代硅成为未来的电子元件材料,其优异的机械强度等特性在航空航天新材料、新型装甲材料、传感器和储能装置等多个领域也表现出了巨大的应用潜力,其未来发展将对武器装备和国防科技产生广泛影响。
零折射率“超材料”问世
通过人工设计材料结构,使其呈现出天然材料所不具备的超常物理性质的“超材料”,在军用电子系统、隐身等领域具有重要应用价值。2011年7月,美、英等国的科学家联合研制出了一种新的零折射率“超材料”。科学家们将正折射率和负折射率结合在一起,实现了对光子相位的精确控制,使得最终得到的材料结构的折射率为零。这一研究成果在研制高指向性天线、隐身等领域具有重要应用价值。
生物技术不断创新发展
生物计算技术取得重要进展
生物计算技术具有运算速度快、能耗低等显著优势,可能会为一些计算领域带来革命性进步。2011年6月,美国研制出最复杂的DNA计算机,包含74个DNA链,能够像传统计算机一样,使用逻辑函数来解决数学问题。10月,英国研制出一
nlc202309010837
种新型模块化“生物逻辑门”,可以模块化地进行逻辑门之间的叠加,是迄今制造出的最先进的“生物电路”,标志着生物计算机研究又迈出了重要一步。
仿生技术潜力巨大
生物的多样性特点赋予了仿生技术巨大的发展潜力,也为军事技术创新发展开辟了广阔天地。2011年,蒲公英、含羞草、蜥蜴等生物都给研究人员带来了设计灵感。美国陆军正在通过模仿蜥蜴和家蝇等生物运动研究作战仿生机器人,可在复杂的城市环境中完成侦察探测等任务。以色列利用蒲公英的作用原理,运用纳米技术制造出一种类似蒲公英的电子纤维,能够有效拦截雷达引导的导弹。美国研究人员还受含羞草的启发,正在开发一种能够扭转、弯曲、硬化,甚至自我修复的结构,有望据此实现在不同情况下改变飞机机翼形状,从而获得最佳飞行性能。
生物交叉技术取得新成果
生物技术与信息、纳米、认知等技术的交叉融合已经衍生出多项新兴技术,并展示出广阔的应用前景。2011年4月,美国在使用纳米技术构建人造大脑方面取得重大突破,研究人员利用碳纳米管构建了一个具有神经元机能的神经键电路,这一研究成果将增进对人类智力发展进程的理解,未来的进展可能对整个人类社会产生长远影响。8月,IBM公司成功研制出模仿人脑功能、具有一定认知计算能力的芯片,演示了利用传统硅材料构建类脑结构的可能性,为未来智能计算机的发展奠定了坚实基础。
先进制造技术发展活跃
先进制造技术受到高度重视
先进制造技术在军民领域都是一项基础性、支撑性关键技术,在国防建设和国民经济发展中具有影响全局的战略地位。2011年6月,美国总统奥巴马启动“先进制造伙伴关系”(AMP)计划,将聚合工业界、高校和联邦政府力量,打造高品质制造业,加快产品研发速度,提高美国全球竞争力。美国国防部在这一计划中扮演重要角色,将加大对透明装甲、隐身技术等制造技术领域的投资力度,进一步加强军工制造商与国防部及其业务机构的联系,提高对于国家安全至关重要的工业制造能力。
电子束光刻技术达到新水平
在芯片制造领域,除传统光学光刻技术外,科研人员还在研究蚀刻精度高、成本低的电子束光刻技术。2011年8月,美国麻省理工学院开发出一种新技术,可将电子束光刻的分辨率尺度推进到9纳米,而此前电子束光刻技术所能刻制的图像尺寸极限则为25纳米左右。科研人员表示,这次突破主要得益于两点,一是使用了更薄的绝缘层,以尽量避免电子散射,二是使用了特殊材料对接收电子较多的区域进行了加固。电子束光刻技术的进步,为未来微电子集成电路技术的发展提供了更多制造工艺选择方式。
三维打印技术进展显著
三维打印技术属于一种先进快速成型技术,采用类似于喷墨打印机的打印原理,根据计算机软件设计模型,利用塑料、尼龙、陶瓷以及钛、铝等材料,灵活快速地制造出各种零部件、成品,具有结构紧凑、节省原材料、生产周期短等优点。2011年7月,英国南安普敦大学科研人员首次使用三维打印技术打印出了一架功能简单、体积较小的无人机,巡航时几乎没有噪音。9月,美国弗劳恩霍夫研究所的科研人员利用三维打印机和“多光子聚合”技术,成功研制出了人造血管,具有柔韧而结实的结构,能够与人体自生组织融合。
新能源技术发展步伐加快
生物混合燃料的军事应用领域不断拓展
生物混合燃料在无人机、战斗机、驱逐舰等军事领域的应用正在不断扩大。2011年3月,美国空军F-22战斗机进行了以生物混合燃料为动力的飞行试验,其混合燃料由亚麻生物航空燃料与常规JP-8燃料按1:1的比例混合而成,结果显示混合燃料与JP-8燃料没有明显的性能区别。之后,美国海军“火力侦察兵”无人机和“保罗福斯特”号驱逐舰也分别进行了以生物混合燃料为动力的飞行试验和航行试验。这一系列的试验标志着生物混合燃料将在更多的军事装备上获得更广泛的应用。
燃料电池的性能水平将获大幅提高
燃料电池的供电时间一直是制约其军事应用范围的关键因素之一。2011年3月,洛克希德·马丁公司和技术管理公司首次采用JP-8军用标准燃料,使燃料电池发电机运行了1000小时,这极大缩短了燃料电池发电机的服役进程。此外,美国国防高级研究计划局正通过“先进战术电源”项目开发以高能量密度碳氢化合物丙烷为燃料的紧凑型“固体氧化物燃料电池”,其研发的“追踪者”XE小型无人机使用这种燃料电池,续航时间超过8小时,是现有小型无人机续航时间的4倍,并能确保实际作战任务所需的可靠性和持久性。
高能量密度锂离子电池引人关注
锂离子电池一直存在受尺寸限制无法提供足够能量的问题,提高能量密度已成为该领域的研发重点。2011年8月,美国空军启动一项军用高能量密度锂离子电池研制项目,要求电池能量密度需达到250瓦时/千克,以用于长航时无人机、战术车辆、步兵使用的背负式电源等。此外,ADA技术公司正为美国空军研发微型高能量密度无人机用锂电池,其含能量、功率密度、循环寿命和安全性将有巨大提升。目前ADA技术公司已在新型锂电池用纳米复合材料电极研制上取得重大进展,下一步将确定电极合成方案等。
可逆数据隐藏技术综述 篇7
1 基于无损数据压缩的可逆信息隐藏算法
无损数据压缩[1]是实现可逆信息隐藏的基本方法。通过压缩原始图像数据, 可以获得信息隐藏的空间而不覆盖原始图像信息。
下面以一种简单的基于算术编码和LSB的可逆信息隐藏方案为例, 说明基于无损数据压缩的可逆信息隐藏的过程。算法流程如图1所示。
数据嵌入过程:设原始图像为I, 首先提取I的LSB平面位并一维化得到序列L和图像I’, 利用算术编码对L进行压缩, 压缩结果作为待隐藏信息W的一部分。将W置乱后嵌入到I’的LSB平面位, 得到最终的含秘图像Iw。
此算法数据嵌入率较低, 算法鲁棒性很差, 含秘图像也不能完全恢复, 常用于图像认证。
2 基于差值扩展的可逆信息隐藏算法
差值扩展技术最早是由Tian提出的, 其基本思想是通过扩展相邻像素点差值来隐藏数据, 即将数据隐藏在原始图像的高频分量或扩展的LSB上。算法基本原理如下:
设x和y是相邻像素点的灰度值, 且x, y∈[0, 255], 则差值d和平均值l分别为
相应的逆变换为
数据嵌入公式为
数据嵌入过程:首先利用式 (1) 计算相邻像素点xi和yi的差值di和均值li, 再利用公式 (3) 根据待隐藏的1比特数据wi (0或者1) 计算扩展差值di'2diiw, 最后利用式 (2) 计算嵌入数据后的像素值x'i和y'i。重复上述过程直到原始图像所有相邻像素点对都被处理完毕, 即得到含秘图像。
这种算法数据嵌入容量很大, 但像素值可能发生溢出。利用定位图可解决溢出问题, 但对嵌入容量影响较大。Coltuc等提出一种基于RCM变换可逆数据隐藏算法, 无需嵌入溢出定位图, 但载体图像质量严重下降。Lin C等提出一种无定位图的无损数据隐藏方法, 但该方法仅适于不可扩展像素对较少的图像, 普适性较差。
3 基于直方图调整的可逆信息隐藏算法
此方法最早由Ni提出, 其主要思想是通过对原宿主图像的直方图进行调整, 利用零点冗余来嵌入秘密数据。该类方法数据的嵌入描述如下:
数据的嵌入过程:设原宿主图像为I, x为像素点的取值。首先根据宿主图像I生成直方图h (x) , 然后找出直方图中的零点lp和峰值点pp。如果lp
Ni等提出利用直方图中三个最大点和最小点进行信息隐藏, 嵌入容量大且含秘图像质量较好, 但该算法复杂度高。高铁杠等[4]根据统计特性将图像直方图进行分类, 给出了不同情形下利用多个零点和峰值点进行数据隐藏的方法, 该方法普适性好, 含秘图像质量也较好。顾巧论等提出一种利用每个最大值点进行多位数据嵌入的方案, 嵌入的数据位数可以根据宿主图像和含秘图像的峰值信噪比自适应确定, 该方法嵌入容量大, 而且含秘图像质量较好。
4 问题与展望
仍需继续进行深入优化和完善的问题:
⑴如何在保证含秘图像质量 (PSNR) 的前提下, 提高嵌入容量。⑵如何消除定位图来处理像素值溢出的问题。⑶如何设计针对彩色图像和一些矢量图像的大容量可逆信息隐藏算法。
摘要:本文主要介绍了可逆数据隐藏技术的应用与研究进展, 对当前几种典型的可逆数据隐藏算法进行研究分析, 并对其未来发展方向进行了总结。
关键词:可逆数据隐藏,差值扩展,直方图调整
参考文献
[1]CELIK M U, SHARMAG, TEKALP AM, eta1.Lossless Generalized Lsb Data Embedding[J].IEEE Transactions on ImageProcessing, 2005, 14 (2) :253-266.
[2]Ni Z, Shi Y, Ansari N, et al.Reversible data hiding[J].IEEE Tran On Circuits and System for VideoTechnology, 2006, 16 (3) :354362.
大数据系统和分析技术综述 篇8
1.1 批量数据处理系统
大数据处理系统的最主要的任务就是根据大批数据分析适合的模式,并得出相关的明确含义,制定相应的策略,最后制定出科学有效的应对措施,实现特定的业务目标。大数据通常来源于互联网、云计算等网络平台,可以有效解决上述平台中出现的若干问题,并提出新的问题。对于企业来说,他们可以通过处理过程中所产生的数据进行恶意软件或者是网络攻击的识别,进而可以有效判断某些外来的信息是否为安全产品。
1.2 交互式数据处理系统
同非交互式的数据处理相比较而言,交互式数据处理具有更为灵活和直观的特点,该系统与相关的工作人员可以通过人机对话的方式进行输入,系统便可以自动进行数据或者信息的提示,并指导操作人员按照要求一步一步进行操作,直至最终获得有效的处理结果。这种处理方式的使用可以方便系统中的应用信息进行有效及时的处理,便于交互方式的继续进行。
2.大数据分析
2.1 深度学习
在大数据分析过程中,最为关键的问题就是如何有效地表达、解释以及学习数据,无论何种形式的数据都具有很多种数据的表达方式,最为主要的方式就是相对比较简单的模型,这种模型还处在低级阶段,不能有效地带来良好的学习效果。为此,深度学习应运而生。深度学习就是根据层次的构架中针对对象在不同阶层上的表达来解决相对较为抽象的问题。深度学习起源于20 世纪80 年代,近几年来深度学习无论是在图像、语音还是在语言的理解等应用领域中均取得了许多有效的进展。2009 年,微软研究院的Dahl等人首次在关于语音的处理中使用了这一深度神经网络,这一网络使得语音在被识别过程中的正确率明显提升,这便使语音的处理成为了在深度学习的相关应用中最为成熟的一个应用。
2.2 知识计算
以大数据为基础的知识计算是进行大数据分析的一个基础环节。知识计算在世界范围内的工业界来说是一个十分关键的研究热点。从目前来看,国内外共建立起了50 多种相关的知识库,有效的应用系统更是建立了上百种,其中,代表性的知识库或应用系统有Know It All,Text Runner,NELL,Probase,Satori以及一些基于维基百科等在线百科知识构建的知识库,如DBpedia。随着大数据信息的逐步发展,针对较大规模网页信息中所包括的知识,自动地构建知识库这种方式已经得到越来越多人的重视与认可。面对海量知识建库,需要根据不同信息领域及其不同需要建立各种知识间的相互融合,这是当亲应该解决的主要问题之一。
3.当前大数据计算面临的问题及解决对策
3.1 数据复杂性挑战
随着大数据的不断涌现,人们在计算过程中遇到了以往所不曾出现的问题,即大规模样本的出现,这一现象的出现导致人民也面临越来越复杂的数据对象。正如前所述,大数据的重要特征就是数据的类型和模式具有更多的多样性,联系也较为复杂,数据的质量显得良莠不齐,这便造成数据在理解、计算与表达上面临了相当大的困难,传统的全量数据模式下计算的复杂性与难度增大,语义的分析与情感的体会也变得非常复杂。然而,目前人们对于数据中所蕴含的物理意义相对缺乏,加上相关知识的匮乏,这在一定程度上影响了计算机模型的设计与制作。
因此,将大数据的复杂本性定量化,有效研究数据所包含的内在问题是当前我们在计算机模型的设计上应该着重解决的重要问题。通过这一问题的有效解决可以在一定程度上帮助人们理解复杂的大数据模型,了解其所具有的本质特征,进而更好的获得抽象化的知识信息。由此可见,我们应该不断完善多模式关联之下的数据分析理论与模型,梳理好各个数据之间存在的内部联系,对复杂的模型系统进行有效的解析,有效降低其原理的复杂程度,使之逐渐转变为大数据的坚实基础。
3.2 计算复杂性的挑战
众所周知,大数据具有规模大、速度快、结构多样等特点,这一特点使得以往的机器学习、信息搜索以及数据收集得不到当前大数据的有效支持,尤其是大数据在面对小样本的数据处理时,不能够进行全局式的数据分析与计算,因而需要在计算时适时脱离传统计算的束缚。在进行大数据的求解过程中,要求我们对它的可计算性进行有效的评估,对计算方法进行有效的确认,并对价值驱动在特定领域的应用给予一定支持,这是当前的核心问题。但当前大数据的样本较多、结构较为复杂、分布极不均衡,这在为大数据的研究工作提供了机遇的同时也带来了一定的挑战。
因此,应将目光放眼于大数据的生命周期,在大数据自身的复杂性特征的基础之上,对以数据为中心的相关的计算模式进行有效的探究,合理改善守旧得数据计算模式,建立起更为规范化的推送式的数据模式,对大数据的相关理论进行深入研究,摒弃传统计算理念,不断探索充足的数据,按简约的方式研究局部计算的相近办法,建立起牢固的不依赖于全量数据的较为新式的数据计算理论基础。
3.3 系统复杂性的挑战
当前,有效支持大数据研究的平台是针对不同数据类型的大数据的处理系统。这一数据处理的大平台在面临数据较大、结构较为复杂的情况下也会存在计算周期长、难度较高的问题。这一问题不仅给大数据处理系统的整体结构、计算机构以及计算方式提供更加严峻的挑战,同时也在数据处理系统的运行速度及其耗能方面都造成了巨大的挑战,对其处理系统的要求也更为苛刻,这些问题是解决大数据处理应面临的重要问题,也是该系统进行设计与优化的最根本的准则,更是系统进行优化与处理的有效基础,因而,这是大数据处理中必须解决的关键性问题。
因此,必要充分了解大数据处理系统存在的复杂性难题,针对大数据在价值上的洗属性以及局面访问较弱这一特点的基础之上,有效整合大数据的处理与存储系统构架,严格执行大数据的感知与计算准则,在其系统机构方面、性能评估方面以及数据的处理方面开展具有针对性的深入研究,以便形成高效率、低能耗的大数据处理系统。
参考文献
[1]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,09:1889-1908.
数据库技术发展综述 篇9
随着物联网、云计算、下一代互联网等新一代信息技术的快速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,推荐系统(recommender systems)被认为可以有效的缓解此难题,帮助用户从海量数据中发现感兴趣信息,满足个性化需求[1]。
近年来,我国在农业个性化知识服务服务领域从本体论、语义网、知识工程角度开展了广泛的研究,成果主要体现在三个方面[2,3,4]:以搜索引擎为代表的知识检索系统,需回答大量预设问题进行知识推理的专家系统,特定领域应用系统,它们在各自的场合都发挥了积极作用。然而知识检索系统不能满足用户个性化需求,专家系统的应用很难普及,特定领域应用开发成本高和重用难度大。物联网与数据挖掘云服务提供知识服务云实现物理世界的“感知控”[5,6,7],知识服务云的研究主要集中在制造和图书情报领域[8,9,10],云环境下的农业个性化知识服务的研究尚处于起步阶段[11,12,13,14],主要集中在服务模式的构建与展望。
本文是对科技部科技支撑课题“农村农业信息化关键技术集成与示范”(2011BAD21B03)与“农村物联网综合信息服务科技工程”(2012BAD35B00)研究成果的总结,也是对农业云推荐系统研究的升华。
1 农业云大数据自组织区域推送的提出
1.1 农业信息资源特点
我国自“十一五”时期以来,农业农村信息化发展取得了显著成效,主要表现在农业农村信息化基础设施不断完善、业务应用深入发展、物联网技术在农业中逐步推广应用等方面。从中央到省,市、县建立了“三农”综合信息服务平台,涉农企业、组织和科研院所也积极搭建了各具特色的农业信息服务平台,目前正向乡镇村发展。农村信息员队伍及以农业综合信息服务站和农业合作社为代表的农村信息服务机构发展迅速,“三电合一”、“农民信箱”、“农村热线”等信息服务模式应用深入。云计算利用海量的存储能力把农业信息资源形成高度集成和虚拟化的计算资源一“农业知识聚合云”,支持用户在任意位置、使用各种终端方便获取信息,但由于农业领域生态区域性和过程复杂性及农业区域发展不平衡和农民文化的多层次性也带来了“信息过载”、“资源隐晦”“资源迷向”等问题[11,12,13,14,15]。
1.2 农业云环境下大数据自组织区域推送
物联网和云计算背后是大数据,在云计算模式下,用户不确定的、智能的交互,个性化需求更加多元化,信息交互行为更加频繁;在大量用户通过社会标注达成共识的过程中,逐渐形成不同社区,涌现出群体智能,形成“农业用户兴趣社交云”。利用云的海量存储、群体涌现智能、强大的计算能力和物联网感知控优势,可以提供面向用户复杂分析计算,实现业务重点由面向应用和资源的传统信息服务,转变为基于对海量农业知识进行动态划分,有目的、主动、定制、自组织推送给有需求的农业用户,为农业用户提供实时性、个性化知识服务,指导农业生产过程。
首先以Hadoop+MapReduce+HBase分布式框架为处理平台,对“农业用户兴趣社交云”,融合用户兴趣偏好和社交网络进行建模,将这些多元用户信息充分融入推送系统会更好产生推荐结果;将推荐对象“农业知识聚合云”按农业知识高维性、多样性、多层次性特征分类聚类为各种知识块静态和动态元数据;通过智能算法推荐和社会网络推荐为用户发现个性化内容;根据用户的地理位置、用户服务的评价以及云基础服务提供商信息将预测值最高的服务推送给用户实现与物理世界的互动(如图1)。
从以上分析可知,农业云大数据自组织区域推送的关键技术有用户兴趣模型、推荐对象模型,推荐算法、数据挖掘四个部分,以下分别对这几项技术进行论述。
1.2.1 用户兴趣模型
用户兴趣建模是个性化服务技术的基础和核心,包括数据收集、模型表示、模型学习与模型更新[16]。用户兴趣建模的方法有很多,常用的有向量空间模型、神经网络、遗传算法、用户一项目评价矩阵、基于案例的表示、基于本体论的表示、基于加权关键词的表示,基于社会网络的表示等[17,18,19,20]。几乎每种表示形式都是以一种私有形式进行知识表示,此外一些表示技术还依赖于模型学习,如广泛使用的基于向量空间模型的表示与TF-IDF学习技术联系在一起。表示形式的私有性和对学习技术的依赖性阻碍了用户模型在系统间的共享,这种共享对于减少用户建模工作量,提高推荐算法启动效率具有重要意义[16]。因此开发独立于模型学习技术的通用用户模型表示技术是目前研究中热点[20,21,22,23,24],基于语义网和社交网络的用户模型在这方面表现了优势。
用户的兴趣或需求会随时间、情景发生变化,结合长期和短期兴趣及兴趣的变化用户兴趣建模的重点,目前的更新机制很难及时跟踪用户兴趣的变化,有更好的学习效率和动态变化适应能力的建模是未来的重要研究方向[18],国内外大量的文献对此展开了研究,遗忘函数、时间窗、用户兴趣的漂移特性等被提出[25,26,27]。
在湖南农业云中,基于呼叫中心、互联网,手机报、手机短信,电视广播等用户在多应用系统中形成的兴趣偏好和社交网络特征,提出“农业用户兴趣社交云”建模思路:以图论模型表示用户“兴趣图”数据和“社交图”数据,根据经典的局域世界演化理论[20],综合考虑实际情况中用户之间的多重关系和关系的强弱程度,以用户之间相似度为节点连接概率因素,生成动态多维网络,进行用户数据的挖掘和更新;结合农业本体[15],在多维社交网络的基础上,将基于农业本体的区域用户兴趣融合在云计算平台上进行处理。
1.2.2 推荐对象模型
推荐本质上是将推荐对象的特征与用户的兴趣偏好进行推荐计算,所以推荐对象的描述和用户的描述密切相关。推荐系统应用不同领域,它推荐的对象也就各不相同,目前,湖南农业云主要是文本性数据;不同的对象,特征也不相同,目前没有一个统一的标准来进行统一描述,主要有基于内容、分类、聚类的方法[18,28]。
基于内容的方法是从对象本身抽取信息表示对象,常见的是向量空间模型,使用最广泛的是加权关键词矢量方法进行特征选取,使用TFIDF计算每个特征的权值。向量空间模型对模型中的特征词进行权重估计(TF-IDF)过程中不考虑特征词之间的相关性,直接用特征词作为维度构建文档向量,降低了文档向量对文档概念表达的准确性以及对不同类型文档的区分能力[18,28]。
基于分类的方法是把推荐对象放入不同类别,把同类文档推荐给对该类文档感兴趣的用户。主要有两种,一种是基于知识工程的方法,使专家的类别知识直接编码为分类规则,正确率和召回率高,但工作量大;近期研究最多的是另一种一机器学习,根据训练样本集建立分类器,方法有很多,常见的有概率分类、贝叶斯回归分析、决策树分类器、决策规则分类器、Rocchio分类器、神经网络分类器、支持向量机(SVM)、分类器融合、Boosting分类器、k最近邻方法(KNN)等[18,28,29]。
研究文本聚类的最初目的是为了提高信息检索的查全率和查准率,近年来,文本聚类用于自动产生文本的多层次的类,并利用这些新生成的类对新文本进行效率较好的归类,已经提出了大量的文本聚类算法。传统的聚类算法在处理高维和海量文本时效率不很理想[28,29,30]。针对这样的问题,将聚类分析与计算智能理论,并行计算、云计算等相结合,设计出高效的并行聚类算法,己经成为一个比较流行的研究思路[31,32]。
在湖南农业知识云数据模型中,将能更好反映特征词相关性的超图模型[33]引入,将文档中提取的特征项表示为图中节点,特征词条之间的关系构成图中边,用边上权值表示相关联特征项之间共现程度。通过对文本图模型K最近邻划分实现降维降噪的粗粒度数据切片;对切片后数据反映用户兴趣如地域、时间、诉求等多维度特征的智能聚类,实现细粒度的聚合与分割。“农业知识聚合云”模型算法建立在基于MapReduce处理的大规模图上[34,35],得到各种知识块静态和动态元数据。
1.2.3 推荐算法
推荐算法是整个推荐系统中核心部分,大量的论文和著作都关注了这个方面[18][35,36,37,38,39,40,41,42,43,44]。目前,基本包括以下几种:基于内容过滤推荐、协同过滤推荐、基于关联推荐、基于知识推荐、基于效用推荐、基于网络结构推荐、基于聚类推荐、基于社会网络分析推荐、混合型推荐等。通过对众多推荐算法进行比较分析,各种算法都有优缺点(如表1):
各种推荐方法都有各自的优缺点,在实际问题中采用多种策略进行混合推荐,主要有两种混合思路[18]:推荐结果混合和推荐算法混合。目前大部分的推荐算法都是混合推荐算法,主要还是以协同理论为核心,再配合其他算法的优点或交叉学科的理论来改善推荐的质量。另外基于社会网络个性化推荐算法研究是一个趋势,基于社会网络的推荐是协同过滤的延伸,通过考察结点之间(用户和用户之间或产品之间)的相关性和结点之间的信任度可以获得比一般协同推荐更高推荐效果,如文献[20,40,44]提出将社会网络关系结合到推荐算法中。纵观国内外在推荐算法上的研究,主要集中在基于用户显性评分数据的协同过滤算法上,对基于非显性评分行为数据场景下的研究却显得有点不足。目前在扩展性问题上学术研究不是很具有针对性,主要集中在通过各种交叉学科中的方法来对用户进行聚类或对行为数据进行降维、压缩等缩短推荐的项目集或减少计算量,从而提升算法的性能;有关基于云平台上的推荐算法研究目前主要集中于协同过滤算法MapReduce化[45,46,47]。而实际应用中,己出现利用分布式集群解决算法扩展性方法,如Google News的推荐算法就是部署在分布式环境下,从而满足海量数据下的推荐服务。
根据农业云大数据自组织区域推送实际情况将推荐结果和推荐算法混合,提出“三层推荐”策略:在丰富的知识块云元数据基础上,将知识块属性和用户兴趣行为基于频繁模式的知识关联撮合推荐;通过复杂网络聚类算法识别一个用户多个社区兴趣,融合“兴趣图”和“社交图”协同过滤推荐,突破算法推荐的局限性,让用户信任的朋友圈子为其发现和推荐内容,取得社交推荐的时效性和算法推荐的长尾性[43,48]之间的互补,从而针对每个社区成员提供精准个性化推荐;根据基础设施服务供应商、用户所在的地理位置以及用户对服务可用性评价值的相似性等,将大量用户云终端聚类为一定数量的社区,提高云端推送服务的有效性,最终形成通过大众参与,支持云间变换,集电信网、广播电视网、互联网合一的自组织区域推送,较有效地处理一般推荐算法中存在的稀疏性、冷启动以及大规模实时计算的问题。
1.2.4 云计算下个性化数据挖掘
数据挖掘采用了多种领域中的思想,包括来自统计学的抽样、估计、假设检验以及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。随着数据挖掘的不断发展,也采用了包括最优化、进化计算、信息论、信号处理、可视化、信息检索、云计算、并行计算等技术。与传统的数据挖掘相比,云计算下的个性化数据挖掘的目标,就是通过云计算中心,向用户提供针对其即时演化需求的数据挖掘SaaS (Software as a Service,软件即服务)服务,其基础问题主要为:对于用户不同的数据挖掘需求以及针对用户特点进行个性推荐的建模和表征;数据挖掘算法适应云计算的并行分布式化;使数据挖掘的结果和算法能够支持云间变换并形成一种面向用户、即时组合的、变粒度的云服务,其中数据挖掘的云服务化是研究的难点[49,50,51,52]。
(1)云计算下个性推荐的建模和表征
云下的个性推荐建模和表征与传统上个性化推荐明显的不同在于海量异构大数据和用户间群体涌现的社交网络,它们本质上形成了多个顶点的大规模图。云计算可以为大规模个性化提供技术支撑,云服务本身也有大规模个性化定制应用需求,目前研究两者结合的文献还很少,张泽华[50]从计算资源的角度基于复杂系统理论对云计算联盟体系结构进行建模,并基于蚁群优化算法和复杂系统理论进行了负载均衡研究;郭昱[51]就有效处理客户需求信息该如何选择与分布云计算平台中的关键节点问题,提出了基于云计算的大规模定制客户需求模型。赵东杰[52]对复杂网络、数据挖掘与群体智能有效结合进行了探索研究。农业云大数据自组织推送通过“农业知识聚合云”分解的静态、动态知识元数据和“农业用户兴趣社交云”形成的兴趣图、社交图基于用户行为和知识元数据的关联撮合,通过人工智能和社交圈子帮助用户发现内容,实现搜索和推荐的无缝结合,为智能个性化推荐实现“内容找人”愿景。
(2)算法并行分布式与高性能计算
对于大规模数据的处理,典型系统结构大致分为三类[35]:基于MapReduce模型的分布式并行处理系统、基于BSP模型的分布式并行处理系统和分布式图数据库系统。数据挖掘算法现在的发展趋势是基于云计算的并行数据挖掘,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用MapReduce这种方式[53]。Bhaduri等[54]整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。
2 基于云计算推荐系统研究的重点、难点与热点
2.1 云环境下用户偏好获取安全与可信问题
推荐系统中,用户数据集的数量和质量问题,影响用户模型的精确度、可用性,导致问题的根本原因在于用户对隐私和安全的考虑。而云环境下,数据的安全与隐私是用户非常关心的问题。既能得到准确用户信息而提高推荐系统性能,又能有效保护用户信息同时检测并能预防推荐攻击(一些不法的用户为了提高或降低某些对象的推荐概率,恶意捏造用户评分数据而达到目的)将是未来推荐系统的一个重要研究方向[18,55]。
2.2 模型过拟合问题
过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似或者太不相关。过拟合(过学习)的问题本质上来自于数据的不完备性,这在实际应用中是无法完全避免的。在于兴趣偏好获取方式或隐私等原因使用户没有对足够多类别的对象进行评价。目前解决的主要方法是引入随机性,使推荐算法收敛到全局最优或者逼近全局最优,关于既要保证推荐的多样性,又不能与用户看过的对象重复或毫不相关这一问题的研究是推荐系统研究的一个难点和重点[18,20]。
2.3 稀疏性与冷启动问题
稀疏性和冷启动问题困扰推荐系统很长时间了,前者的解决办法主要过滤和降维[20]。目前针对冷启动问题提出了一些解决方法,主要分为两大方面,一是直接利用传统协同过滤的评分数据结合特定的方法进行解决,二是新用户或新项目的内容属性信息与传统的协同过滤评分数据相结合的方法进行改善冷启动问题[42]。稀疏性与冷启动问题一直是推荐系统研究的一个难点和重点。
2.4 数据挖掘的结果和算法智能服务化
将数据挖掘算法融入针对海量用户的使用记录和计算资源间协作进行优化组合,利用这些特性通过大众参与的交互作用,提高云间服务的智能性、有效性将是大数据时代推荐系统研究的一个制高点[49]。将数据挖掘任务及其实现算法服务化,通过SaaS方式向云计算中心索取所需的相应的数据挖掘,这可能是目前突破数据挖掘专用软件使用门槛过高、普通大众难以触及、企业用户使用成本太大、挖掘算法和结果难以实时得到评价和相应修改等问题的最有希望的解决方案之一,也是数据挖掘走向互联网大众、走向实用化的重要的一步。
2.5 大数据处理与增量计算问题
目前对大数据的研究仍处于一个非常初步的阶段[56],半结构化和非结构化数据给传统的数据分析带来巨大挑战,尤其算法如何快速高效地处理推荐系统海量和稀疏的数据成为迫在眉睫的问题。当产生新的数据时,算法的结果不需要在整个数据集上重新进行计算,而只需考虑增量部分,对原有的结果进行微调,快速得到准确的新结果,是增量计算的理想状态。但一般而言,随着信息量的增多,算法的误差会累积变大,最终每过一段时间还是需要利用全局数据重新进行计算。一个特别困难的挑战是如何设计一种能够保证其误差不会累积的算法,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升,要达到这种程度,还有很长的路要走[57]。
结束语:
随着新一代信息技术的快速发展和信息内容的日益增长,搭载在云计算平台的自组织区域推送具有它天然的优势:云的海量存储使得推荐系统能有效获取训练数据;云的分布式计算能力提供了较高的响应能力;海量用户的使用记录和计算资源间大众参与的交互涌现,最终形成自组织优化组合的智能个性化云推送。因此,农业云自组织区域推送具有重要的研究意义和广阔的应用前景,对云环境下其他领域的个性化推送应用具有借鉴意义,但目前存在大量问题需要进行深入细致的研究。
摘要:“信息过载”是大数据时代农业用户发现感兴趣信息面临的一个严重问题,个性化推送是解决该问题的一个有力工具。本文提出了农业云环境下大数据自组织区域推送的必要性,同时阐述了当前几项热点关键技术,包括用户建模、推荐对象建模和推荐算法及云计算下个性化数据挖掘,并尝试给出了推荐系统未来研究的难点、重点和热点问题。
数据库技术发展综述 篇10
关键词:隐性知识,数据挖掘,隐性知识挖掘方法
一、引言
隐性知识是指人们无法清楚地传达出来的知识, 这些知识存在于其头脑中, 只能通过具体的行动来表示。在对隐性知识管理的研究中, 如何使得隐性知识显性化是知识管理的重要研究内容之一。本文对数据挖掘、隐性知识的基础知识进行了梳理, 同时陈述了现有文献和企业中的隐性知识挖掘方法, 旨在使以后的学者能够在此基础上开发出新的、更优的隐性知识挖掘途径与方法。
二、隐性知识的转换
著名的英国学者波兰尼于20世纪60年代, 在其代表作——《个人知识》中, 首次对知识进行分类, 分为明晰和默会知识, 著名的日本学者——野中郁次郎 (Ikujiro Nonaka) 在其书——《创造知识的公司》中, 借鉴并发展了波兰尼所提出的知识分类方法, 将知识分类为隐性知识和显性知识。
Nonaka提出隐性知识的两个要素是认知和技术, 认知是指个人对外部状态的模拟和理解, 如信仰、范式、价值观, 技术是有关具体如何操作的知识, 指对具体问题的解决方案等。Nonaka从知识相互转化的角度阐述了隐性知识与显性知识转化的动态过程, 提出了著名的SECI模型 (隐性与显性知识转化过程:社会化、外在化、组合化、内隐化) , 为后续的研究提供了一个崭新的视角。
三、基于数据挖掘的隐性知识挖掘
(一) 数据挖掘及其应用
数据挖掘 (Data Mining) 是从大量的随机、不完全、模糊的数据中提取出隐含在其中的、事先不为人知但是具有潜在价值的知识和信息的过程。数据挖掘技术可以应用在许多领域, 诸如金融服务、电力供应业 (负荷预测) 以及市场营销和销售, 同时也能够应用于以产品发展为目的的领域, KDD还可用于工业、交通、电信、市场营销、保险等其他行业。
对数据挖掘技术的使用可以在大量未经筛选的数据中提取出可供学习的、有价值的知识和信息。在构建知识管理系统时, 普遍采用的数据挖掘方法如:分类、聚类、Web页挖掘和关联规则等。分类、聚类以及关联规则方法都是使用某种挖掘算法对企业内部知识归类, 方便员工进行搜索和文件管理;而Web挖掘技术则是通过对Web日志的挖掘总结出企业员工在工作过程中进行知识搜索的相关内容, 主要是有关哪个方面以及企业知识库中是否需要添加新知识和新信息以满足员工需求。
(二) 知识管理
为了适应市场竞争力的不断变化, 企业需要不断提高企业客户知识、加强企业员工对于知识的获取、创新以及共享, 随之便产生了基于IT技术的对数据和信息的管理, 即知识管理 (KM) 。有学者提出, 知识的处理以及利用主要包括如下三个阶段:第一, 知识库阶段;第二, 知识共享阶段;第三, 知识发现阶段。
在知识库阶段, 经过手工处理的知识进入到预先被定义的知识库中, 知识库阶段的技术主要是单机数据库和文件系统。数据共享阶段, 人们意识到自己需要哪种知识但没有该知识, 因此开始搜索知识。知识发现阶段出现了求知欲, 也产生了知识发现的希望, 这也许正是文本挖掘出现的内因。由上述三个阶段我们也可以得到如下结论:知识管理的整个进程都是与数据库技术密不可分的。
(三) 隐性知识挖掘方法列举
由于隐性知识对于企业的重要性, 学术界和企业都采用了许多不同的方法来进行隐性知识的挖掘。本文对隐性知识挖掘方法列举如下:
1. 基于案例的隐性知识挖掘方法
当前许多企业运用建立案例库的形式来留存在具体工作过程中处理事件所运用的隐性知识, 在新案例的处理过程中使用人工智能的案例推理取得了不错的效果, 该方法通过搜集大量的案例 (在实际工作过程中专家如何解决问题) , 采用建立映射关系 (专家解决问题到实际的知识领域) 以构成相对应的知识结构图, 或者通过关联分析的方法从案例中挖掘出隐性知识。
2. 基于Microsoft三种算法的隐性知识挖掘方法
基于Microsoft的隐性知识挖掘方法包括如下三种:基于Microsoft决策树算法的隐性知识挖掘方法、基于Microsoft线性回归算法的隐性知识挖掘方法、基于Microsoft神经网络算法的隐性知识挖掘方法。
Microsoft决策树算法是通过在树中创建一系列拆分来生成数据挖掘模型。Microsoft线性回归算法是Microsoft决策树算法的一种变体, 更加易于计算独立变量和依赖变量间的线性关系, 并使用该线性关系进行预测。Microsoft神经网络算法对输入属性的所有可能状态以及可预测属性的所有可能状态进行组合, 并通过使用定型数据来计算概率。
3. 基于其他算法的隐性知识挖掘方法
通过数据挖掘的其他算法, 如遗传算法、FP算法、Pairwise analysis等途径都能够实现对隐性知识进行挖掘。
4. 基于web的隐性知识挖掘方法
企业通常也直接针对企业员工的隐性知识共享与挖掘, 设计、开发或直接购买基于web平台的知识挖掘系统。目前应用尤为广泛的是基于e-learning的隐性知识外化方法, 隐形知识外化方法能够将知识持有者的知识外部化到知识库中, 企业中的知识组织者和教学设计者对知识进行组织, 进而使得知识探寻者能够学习知识库中的知识, 同时对学习效果进行反馈, 形成操作型的知识数据库。该方法能够很好地发挥e-learning和知识管理的优势, 有效地提升企业的学习能力和工作效率。
四、讨论与展望
在企业的知识构成中, 隐性知识占很大一部分, 对隐性知识的挖掘就显得尤为重要。本文梳理并讨论了基于数据挖掘技术的隐性知识挖掘的背景知识和现有文献以及企业中的隐性知识挖掘方法。企业应根据其自身状况, 针对不同种类的隐性知识并结合实际情况, 利用知识挖掘算法以及其他的分析途径, 开发企业内的知识挖掘系统或建立相应的平台, 同时加强员工分享知识的积极性。
参考文献
[1]张喜征, 陈博.基于案例的隐性知识挖掘研究[J].情报杂志, 2006, 25 (07) :8-9.
[2]芦昆.基于Web2.0的隐性知识外化研究[J].情报科学, 2008 (002) :247-251.
西方技术创新理论发展综述 篇11
[关键词] 技术创新理论
科学技术的每一次重大创新总是能带来社会生产力的一次重大发展。随着技术的进步,技术创新所提供的推动力日益成为决定一个企业生存和发展的关键,成为推动生产力发展的最活跃因素。
一、技术创新理论的提出
技术创新理论(Innovation theory)的首次由熊彼特 (Joseph A Schumpeter)的《经济发展理论》系统的提出, “创新”就是“一种新的生产函数的建立(the setting up of a new product in function),即实现生产要素和生产条件的一种从未有过的新结合,并将其引入生产体系。创新一般包含5个方面的内容:(1)制造新的产品:制造出尚未为消费者所知晓的新产品;(2)采用新的生产方法:采用在该产业部门实际上尚未知晓的生产方法;(3)开辟新的市场:开辟国家和那些特定的产业部门尚未进入过的市场;(4)获得新的供应商:获得原材料或半成品的新的供应来源;(5)形成新的组织形式:创造或者打破原有垄断的新组织形式。
创新并不仅仅是某项单纯的技术或工艺发明,而是一种不停运转的机制,只有引入生产实际中的发现与发明,并对原有生产体系产生震荡效应,才是创新。
二、技术创新理论的发展
后来熊彼特的创新理论被他的追随者发展成为当代西方众多经济学理论的两个分支:一是新古典经济学家为将技术进步纳入到新古典经济学的理论框架,主要成果就是新古典经济增长理论和内生经济增长理论。二是侧重研究技术创新的扩散和技术创新的“轨道”和“范式”等理论问题。从熊彼特提出创新理论至今已有将近100年的时间,这期间有众多学者对技术创新问题进行了大量研究,形成了许多有特色的理论。但是由于这些研究的出发点和前提存在着不同程度的差异,再加上技术创新是一个设计面广、影响很大十分复杂的过程,所以至今各专家学者以及研究机构对“技术创新”概念的定义莫衷一是。
表1 技术创新定义
资料来源:范柏乃:《区域技术创新研究的一个新视角》,机械工业出版社:2003年10月
1.新古典经济增长理论和内生经济增长理论
(1)新古典经济增长模型
1976年的诺贝尔经济学奖获得者罗伯特·索罗(RobertSolow)于1956年提出了新古典经济增长模型:该经济使用两类投入(资本和劳动)生产一种均质产品,首先假定技术保持不便,集中考察资本在经济增长中所起的作用(资本累计模型)。假定只有一种资本品而且总资本存量是K,工人的数量是L,总产出为Q:
产出方程为:Q=F(K/L)
式中的(K/L)表示人均资本量。
人均资本量随着时间而增长的进程称为资本深化,而在这样一个没有技术创新的古典增长模型下,经济会进入一种稳定状态:资本深化终止,实际工资不再增长,资本收益率也保持稳定,生活水平的提高最终停止。然而20世纪中期,实际工资并未停滞,单位资本收益率反而上升。此外,这种理论既不能解释为什么经过一定时间生产力有巨大的提高,也不能解释不同国家间的单位资本收益率的巨大差距。
技术创新就是这种模型所遗漏的要素,它主要涉及了生产工艺的改进、新产品改良以及新服务的引进。我们可以将技术创新表示为下图中生产函数的上移。图中APF1950和APF1955分别代表1950年和1955年的总生产函数;正是由于技术创新,总生产函数曲线从APF1950上移到APF1955。资本深化和技术创新作用的综合则用箭头表示,它使得人均产出从(Q/L)1950增长到(Q/L)1955。技术创新提高了资本生产率,抵消了利润率下降的趋势。
图 美国1950年、1955年生产函数
索罗分析了1909年~1949年间,美国经济中每小时劳动总产值增加了一倍,这个增额中大约7/8可归功于“最广义的技术进步”。
(2)内生经济增长理论
1986年,罗默(Paul·Romer)在《收益增长和长期增长》中,提出了一个与收益递减的传统模型不同的收益递增的增长模型。他把技术进步视为经济的内生变量和知识积累的结果,认为知识积累才是经济增长的原动力。
在罗默的模型里,知识被分解为一般知识和专业知识。一般知识产生经济外部性,使所有企业都能获得规模收益;专业知识则产生经济内部效应,给个别企业带来垄断利润,从而为这些企业提供了研究与开发的基金和内在的动力。因此,知识作为一种内生的独立因素,不仅可以使知识本身产生递增收益,而且使资本、劳动等其他投入要素的收益递增。这就为经济的长期增长提供了条件。技术与众不同的一个特点在于它是公共品,产出这种技术发明的费用昂贵,但复制它很廉价。
新增长理论的贡献在于改变了我们关于增长途径的思维方式。如果技术水平的不同是导致各国生活水平的诧异的主要原因,并且假定技术知识是一个可以生产出来的要素,那么需要着重研究的方面就有:国家怎样才能提高技术水平?怎样有效的进行技术的转移、扩散和增值等。这就引发了有关国家创新系统的探索。
2.技术创新的“轨道”和“范式”
(1)从“线性范式”到“网络范式”
20世纪70年代,在熊彼特的影响下形成了创新研究的“线性范式”。该范式认为技术创新一般经历发明→开发→设计→中试 →生产→销售等简单的线性过程,局限于单个企业内部的技术过程。后来的研究发现外部的信息交换及协调对于创新具有重要的作用,它可以有效克服单个企业技术创新时的能力局限,降低创新活动中的技术和市场不确定性。此后,创新研究的视野从单个企业内部转向企业与外部环境的联系和互动,导致“网络范式”的兴起。阿歇姆(Asheim T, 1998 )对线性范式与网络范式的特征进行了比较。
表2 线性范式与网络范式的比较
资料来源:Asheim T.1998,转引自丘海雄等,《产业集群技术创新中的地方政府行为》,管理世界,2004第10期
(2)区域创新与集群创新
“网络范式”最初应用在国家层面,形成了“国家创新系统”理论,随着全球化的发展,经济意义上的“国家状态”日益让位于“区域状态”,区域成为了真正意义上的经济利益体,关键的商业联系集中于区域范围内。进一步的研究发现创新网络的成效似乎跟创新主体的空间分布有很大的关系,地方化的创新网络似乎比跨国技术联盟更能持久。原因是地理邻近带来了可以维持并强化创新网络的支撑因素,如文化认同和相互信任等(Baptista and Swann,1998)。
当创新系统研究发展到区域创新阶段,已经开始与产业集群的研究结合起来了。从概念界定上看,区域创新系统和集群创新系统都建立在产业集群的基础上。罗斯菲尔德(Rosefield ,1997)认为,区域创新系统可以首先通过区域集群定义来界定,也就是地理上的相对集中的相互独立的企业群;阿歇姆(Asheim,2002)认为区域创新系统就是由支撑机构环绕的区域集群。从这两个概念的语义学者对它们的界定可以看出,区域创新系统和集群创新系统主要存在两点区别,一是前者的产业可能是比较分散,不一定是集中于某一产业,而后者主要集中于某一产业;二是从地域范围来看,前者的范围可能弹性比较大,而后者的范围往往比较小。
三、结束语
我国技术创新的研究要比国外晚许多年,1981年张培刚和厉以宁教授才開始在其《国外经济学讲座》一书中首次介绍了技术创新理论。但是技术创新理论研究及其实践受到我国各界的高度重视而发展迅速。因此了解西方发展较为成熟的技术创新理论对于我国开展技术创新工作是有着积极的借鉴意义。
数据库技术发展综述 篇12
总体来说, 数据挖掘 (Data Mining, 本文下面均简称DM技术) 在房地产行业的应用主要使用了三种技术:
(1) 分类技术
(2) 聚类技术
(3) 关联规则发现技术
本文主要从商业贷款风险评估技术、房地产公司经营等级划分和客户关系管理这三点综述数据挖掘技术在房地产行业的应用。
1 房地产商业贷款风险分析———基于神经网络技术
随着房地产市场的逐步走热, 投身于房地产项目开发的企业日益增多, 在贷款企业情况的多数不确定因素面前, 银行的商业贷款风险也随之提高.信息不对称情况下, 银行在贷款的过程中不得不承担由于缔约方违约或经营的失败而使得银行不能回收贷款利息与本金的风险。因此, 银行机构为了对贷款风险的有效管理与控制, 必须寻求有效的贷款风险预测量化的方法和技术.
针对此问题, 可以构建一种基于神经网络的客户模糊分类数据挖掘方法, 旨在对客户的贷款风险进行分类, 为银行贷款风险分析部门准确分析目标客户提供一种有效的方法.该方法对客户进行了合理区分, 试图为充分做好客户关系管理, 增强企业竞争优势, 提高企业的核心竞争力提供有效的解决方案.该方法的思想是运用模糊神经网络分析探索影响因素之间共同作用产生的交互效应, 用过去的事实进行综合评价, 训练网络, 来确定权重的大小。这样将会使结果更加准确可信。
1.1 贷款风险评估中指标体系的建立。
数据挖掘针对不同行业的具体运作具有不同的分类方法, 输入量也具有各自的特点, 对于建设企业的贷款风险系数等级的确定, 建立需要影响风险系数的指标体系, 依据以下8个方面的分析方法。即: (1) 行业发展趋势; (2) 国家政治与监管环境; (3) 管理层素质及承担风险态度; (4) 公司经营及竞争地位; (5) 财务状况及流动资金来源; (6) 公司结构框架; (7) 母公司担保及支持协议; (8) 突发事件风险。指标性质分为定性指标和定量指标。
1.2 客户贷款风险模糊神经网络分类器体系的建立。
模糊逻辑与神经网络从概念到方法都不相同, 但是它们都是为了表示预处理不确定性知识而引入的方法, 而且都是一种模型的估计器。因此, 在不确定知识处理中, 模糊逻辑与神经网络可以结合。模糊逻辑要求把使用的知识以模糊命题、模糊规则的形式表示在知识库中, 模糊命题和模糊规则是模糊概念的一种逻辑表示形式.模糊知识只能通过领域专家提供或其他途径获取, 模糊逻辑系统本身不具备学习能力。模糊神经网络以学习实例的形式隐含所需要的知识, 学习实例是以确定的输入输出模式表示的数值集合。神经网络具备学习能力, 经过学习后获得的知识的表示形式是网络的互连结构及其相应的邻接权矩阵。
模糊逻辑的推理是以模糊匹配和模糊集的运算方法为基础, 得出的推理结论是模糊概念之间的模糊逻辑关系。神经网络的推理是以网络的非线性数值运算为基础, 得出的推理结论也是数值的, 需要通过对输入输出模式的解释才能得出相应的逻辑结论。
由于本文只做综述性汇总和概括, 原理及应用的具体问题请参阅相关文献。
具体过程可以用Matlab软件程序编辑实现BP神经网络, 网络的输入层的神经元对应问题产生影响的测试变量, 输出层分别对应各种风险等级, 其中还包括隐层设置、学习率、最小误差的设定等。
对建筑行业企业贷款风险等级的确定, 可以引入一个基于模糊数学与神经网络的解决体系构架.通过利用模糊逻辑模仿人脑模糊思维、模糊推力的能力, 与神经网络模仿人脑结构映射输入特征与输出结论的非线性关系的优点相结合, 取长补短, 最终准确地预测客户的贷款风险等级, 将能够为企业带来两方面的好处:
(1) 有效地识别有价值客户, 提高获利机会, 并且有针对性的向顾客提供满意服务, 维持良好的合作关系, 从而延长客户生命周期。 (2) 减少银行不良贷款比率, 规避贷款风险, 以备扩大利润空间。
2 房地产业上市公司的统计数据挖掘分析———聚类分析和因子分析
对上市公司而言, 对外披露的财务指标中往往隐含很多能具体反映出公司在某年度财务状况的信息, 但如果仅仅是笼统的、盲目的去查看这些繁杂的财务指标, 一般很难从中发现更多对投资者做出投资决策有帮助的信息。故这种分析将以多元统计分析的方法对这些财务指标进行数据挖掘工作。首先选取若干个能够反映公司财务状况主要参考指标进行因子分析, 缩减变数并提取出对这一系列指标做出主要贡献的因素 (即主成分) , 然后再对各上市公司进行聚类分析, 划分营运等级, 找出各类公司存在的财务状况的相似性。
这种利用多元统计分析的方法分析房地产业上市公司的好处是:投资者可以根据划分出来的上市公司的等级情况, 透视企业的财务状况, 做出合理的投资决策;而各上市公司也可以根据自己的营运等级, 找出问题所在, 弥补自身不足, 修正自己公司的经营模式。
2.1 因子分析
可以借助若干家房地产板块上市公司的年度财务报表, 从中选取若干个具有重要参考价值的指标, 首先利用SPSS统计软件分析包进行因子分析, 寻找这些财务指标背后是否有公共因子的存在, 并籍以缩减变数进行分析。可以提出如下一些指标做参考:流动比率、总资产周转率、应收帐款增长率、速动比率、主营业务收入增长率、应收帐款周转率等。
在因子分析过程中, 将上市公司的若干个财务指标通过提取其公因子, 得到几个能较好反映原指标所包含信息的因子, 根据财务管理的专业知识, 可以对这几个公因子加以归纳分析。如:代表房地产企业盈利能力的“盈利能力因子”, 还有“偿债能力因子”、“周转运营能力因子”以及“未来发展能力因子”等等, 相应的指标可以分别为每股收益、流动比率、总资产周转率、每股收益增长率等。
由于这种利用多元统计的方法对各种指标进行抽象地提炼和划分, 能够较客观地反应各房地产企业的财务能力。还可以通过因子分析得出因子得分矩阵, 将各指标量化汇总, 得出各公司的总得分, 是能够较充分反映公司营运能力的指标。
2.2 聚类分析
根据选取的所有财务指标, 对若干家公司进行聚类分析, 得到聚类分析的龙骨图。将具有相似财务状况的房地产公司聚成一类, 通过与其他类公司的比较和分析, 得出自己竞争的优势和劣势, 以及该企业在整个同行业中所出的地位, 这对企业未来发展有较大的指导作用。
基于多元统计分析的视角, 可以从大量繁杂的数据信息中, 挖掘到很多实际的、有价值的东西, 从而更有利于管理者和投资者决策活动, 这也就是数据挖掘技术的含义所在。总之, 若企业能够及早发现自己的经营绩效上已出现危机, 就必须找出原因加以改善, 以提高自己的市场竞争力, 投资者也可以对公司历来的业绩情况进行分类, 判断该公司是否值得投资, 以降低投资风险。
3 DM技术在房地产客户关系管理系统中的应用
3.1 DM技术在房地产客户关系管理系统中的应用。
随着市场竞争的进一步加剧, 房地产企业对客户关系管理的关注比以往更高, 能否对客户数据进行合理、有效地利用, 决定着一个企业的成败。面对海量数据, DM技术越来越成熟地应用于房地产CRM系统中, 为企业制定营销策略、开展营销活动提供决策支持。
房地产行业的客户信息有许多特点, 如客户群广泛、客户特征描述结构复杂, 又如, 客户需求层次不一, 易受外界因素影响等, 因此, 有必要针对这种复杂、多变和多层次性的客户信息进行分析挖掘, 以识别客户购买行为, 发现客户购买模式和趋势, 从而进一步提高企业的服务质量, 降低企业营销成本。下面是DM技术在房地产行业不同营销阶段上的应用:
3.2 将DM技术应用于房地产CRM系统的具体步骤
3.2.1 明确商业目标。
描述出需要解决的问题, 并且确定所要解决的问题属于哪种应用类型, 是属于关联分析、时序模式、分类、聚类、偏差分析和预测, 还是综合应用。
3.2.2 数据准备。
数据挖掘是由可以获取的数据驱动的, 其成功很大程度上取决于所收集数据的数量和质量。建立可靠数据资源的第一步就是确定系统将要使用数据的数据字典。它们应包括如下工作:确定数据库每一列预期存放的内容;数据来源的描述;对缺失数据的处理等。
3.2.3 利用数据挖掘技术建立模型。
利用数据挖掘的一些算法对数据进行分析, 建立模型, 并选择好相应的实现工具。假如明确了主要任务是分类, 可以采用的算法有遗传算法、决策树和人工神经网络等。选择了模型的类型及实现的工具后, 有时还需对数据进行预处理。
3.2.4 反复验证。
从较小的系统 (如较小的客户群体) 开始, 但要完成全过程 (即从数据收集和处理, 到数据挖掘, 最后到产生促销数据结构, 如邮件发送列表) 。通过验证, 可以纠正系统中的错误, 并有利于用户对系统功能的进一步理解。
3.2.5 实施与维护。
在应用模型之后, 还要不断监控模型的效果。因此随着模型使用时间的增加, 要不断的对模型做重新测试, 有时甚至需要重新建立新的模型。
4 结束语
【数据库技术发展综述】推荐阅读:
军用数据总线技术发展综述06-14
数据挖掘技术综述06-09
数据库技术发展方向07-03
大数据技术发展05-31
数据处理技术发展07-14
数据挖掘算法综述07-27
大数据时代数据库技术09-10
数据库技术08-03
产业发展数据库08-22
数据库发展趋势论文09-23