海量信息

2024-09-24

海量信息（精选12篇）

海量信息篇1

一、背景

随着社会的发展和文明进步, 计算机和网络在生活中的普及和应用, 数字图书馆应运而生。数字图书馆的出现, 解决了传统人工服务的许多弊端, 如:可以足不出户在家借阅图书;可以网上预约书籍;可以搜索引擎查找自己需要的资料, 而不用在书架前一本一本的筛选…

数字图书馆作为一种时代的新生产物, 又因其方便快捷、安全性高, 所以很快被大家所认可并很风靡全球。

数字图书馆的建设从根本上改变了传统图书馆的存在方式和服务方式, 使读者能够更方便的博览群书。

但是随着数字图书馆的不断增大, 资料库的不断增加, 以及每天都要产生的数据的增加, 现有的储存服务已经有些捉襟见肘了, 者不得不让我们在考虑现有经济情况的情况下重新寻找新的存储模式。

二、图书馆海量信息存储的现状概述

1. 图书馆海量信息存储的种类

海量信息存储介质分为磁带、磁盘和光盘三大类, 由三种戒指分别构成的磁带库、磁盘阵列、光盘库三种主要存储设备。目前图书馆主要的存储设备是磁盘阵列。因为这种设备存取速度快、信息查询方便、简单易用, 适合于一级存储, 目前国内磁带设备的技术相当成熟、并且价格低廉, 因此适用于二级存储, 关盘存储则以其独特的优势应用于广泛的领域中。

2. 图书馆海量信息存储的模式

图书馆海量信息的存储需要系统要求数据的存储和读取速度快, 并且具有较强的容错性和数据恢复性。目前常见的存储模式有以下几种:

(1) 直接式存储 (DAS)

DAS是Direct Attached Storage的缩写, 它指的是将外置存储设备通过连接电缆, 直接连接到一台计算机上。这种方案的服务器结构如同PC机架构, 外部数据存储设备采用SCSI技术, 或者FC (Fibre Channel) 技术, 直接挂接在内部总线上的方式, 数据存储是整个服务器结构的一部分, 在这种情况下往往是数据和操作系统都未分离。

DAS的优点是:对网络带宽的依赖程度低, 能够解决单台服务器的存储空间扩展、高性能传输需求, 便于扩容, 存储设备和服务器可以分别购买。现今, DAS无疑是的图书馆数据存储中最常用的方式。究其原因, 除了它出世早、价格低之外, 主要还是因为它的操作程序简单而又稳定。DAS的不足在于:依赖于服务器, 其本身是硬件的堆叠, 不带有任何存储操作系统, 扩展性差, 有几台服务器就必须有几台相应的DAS设备, 这样一来, 数据信息一旦被孤立, 管理起来也就有了相当的难度。

(2) 网络附加存储 (NAS)

NAS和以往的的文件存储服务不同的地方在于NAS设备上边的操作系统和图案件只是提供了数据存储数据访问等相关的管理功能NAS系统一版有一个以上的硬盘, 而且和传统的文件服务器一样, 一般来讲会把它们组成RAID来提供服务;有了NAS以后, 网络上的其他服务器就可以不必再兼任文件服务器的功能。NAS的型式很多样化, 可以是一个大量生产的嵌入式设备, 也可以在一般的电脑上运行NAS的软件。

NAS用的是以文件为单位的通信协定, 例如像是NFS (在UNIX系统上很常见) 或是SMB (常用于Windows系统) 。NAS所用的是以文件为单位的通信协定, 大家都很清楚它们的运作模式, 相对之下, 存储区域网络 (SAN) 用的则是以区块为单位的通信协定、通常是通过SCSI再转为光纤通道或是i SCSI。 (还有其他各种不同的SAN通信协定, 像是ATA over Ethernet和Hyper SCSI, 不过这些都不常见。)

NAS电脑或设备用的通常是精简版的操作系统, 只提供了最单纯的文件服务和其相关的通信协定;举例来说, 有一个叫Free NAS的开放源代码NAS软件用的就是精简版的Free BSD, 它可以在一般的电脑硬件上运行, 而商业化的嵌入式设备用的则是封闭源码的操作系统和通信协定程序

NAS的优点:容易安装、随插随用NAS设备的物理位置可以灵活安排, 价格低廉, 容易维护可扩展性强, 增加存储空间仅需要在网上增加新的NAS设备就可以了。作为网络化存储产品, 由于NAS拥有较好的多平台共享能力, 非常强大的数据集中能力、方便的管理和可扩展性。

(3) 存储区域网络 (SAN)

SAN是独立于服务器网络之外的高速存储专用网, 采用高速的光纤通道作为传输媒体, 以FC (Fiber Channel, 光纤通道) +SCSI的应用协议作为存储访问协议, 将存储子系统网络化, 实现了真正高速共享存储的目标。

SAN的优点是:引入存储网络的理念, 实现数据存储的集中化;通过专用网络进行数据存储与备份, 不占用原有网络带宽, 有效的改善了网络的传输性能;允许多台服务器使用由SAN连接的磁盘存储设备组成的存储池, 具有几乎无限的扩展能力;能方便的实现高性能的服务器集群、负载均衡、双机热备、异地容灾等应用, 极大的提高系统的性能和可靠性;光纤接口使得服务器和存储系统实现物理上分离, 体现了部署的极大灵活性。

(4) 数字图书馆海量信息存储存在的问题

随着数字图书馆的广泛普及, 数据信息的访问和存取量的急剧增加, 使原有的存储系统接近崩溃边缘, 再加上各种信息存储系统标准不一, 是个存储系统从立项到实施都无据可循, 随着问题的升级, 我们不得不重新寻求一种新的存储方式。这种新的存储方式不仅能对原有的数据进行存取和访问, 而且还要能够适应海量信息的快速存取, 并具有相当强的恢复备份能力和很好的共享性。当然, 在现实情况中, 也有许多图书馆不能够清醒的认识到现有的设备和资金问题, 盲目追求现代化主流技术, 导致不能清楚的了解自身需求, 并且对建成后系统运行维护费用等缺乏理性分析, 因此造成所建成存储系统后期投入更多或投入大量资金却无法满足自身需求的现象。

3. 数字图书馆海量信息存储解决方案

数字图书馆海量信息的存储采用云存储结构, 将信息通过镜像转换器将其压缩, 压缩成更为精简的形式进行存储, 其系统详图如下图所示:

本系统的客户端仍然是本机客户端, 服务器仍然采用本地服务器, 每天每个客户端所产生的数据通过本例局域网传输到本地服务器上进行存储, 每个本地服务器都要将客户端传输进来的数据通过镜像转化器进行压缩转化, 再通过高速光纤交换机传输给云, 在云中, 分类系统将传输进来的数据信息进行详细的分类再按类别分别存储到各个磁盘列阵中。本地服务器可以通过高速光纤交换机进行数据更新服务, 下载最新的数据信息存储到本地服务器, 供客户端进行共享, 这样既可以提高存取的速度, 又可以实现存储空间的无限性。

三、结束语

数字图书馆海量信息存储为图书馆用户提供了一个更为简单、廉价的资源共享模式。然而任何事物都是机遇与挑战并存, 为了使数字图书馆海量信息存储更加完善的应用, 它就必须迎合大部分用户的需求, 不断地解决用户在应用过程中遇到的各种问题。只有这样才能使数字图书馆海量信息存储系统真正的发挥其本身的价值。

参考文献

杜海宁:基于云计算的图书馆海量数据存储研究[G], 图书与情报, 2010 (, 3) ;99-101

海量信息篇2

一、指导思想：

结合联合校“阅读中外经典，享受读书乐趣”课题的研究，结合韩兴娥海量阅读和窦桂梅主题教学的学习，本学年研究的重点在“海量阅读”的研究上。以教材为原点，挖掘文本中蕴含的文化因子的辐射作用，以师生为资料链接的双主体，共同探寻相关阅读材料，并在这些参照文本的交互印证下，或体验、或证实、或演绎课文中已有的观念，使阅读的触角伸向文本的文化源头、作者的生命经验、学生的生命体验。在“法定”的语文学习时空内弥合“课内”与“课外”的鸿沟，让学生在有限的语文课堂内掌握最大量的信息，激发学生的阅读兴趣，从而达到语文学习的理想境界。培养课题组成员的课题研究能力，为提高教学质量打下扎实的基础。

二、研究内容：

1、探索培养小学生课外阅读兴趣的手段、途径。全面提高小学生课外阅读的兴趣。

2、扩大学生的阅读范围和质量，培养学生学习语文的能力，减轻负担，提高质量，从而全面提高语文课堂效率，使学生语文素养全面发展的课堂教学研究。

3、探索低、中、高年级积累能力的要求，构建小学阶段课外阅读中积累能力的层次、体系和指导模式。

4、初步探索适合小学生的单元教学模式，形成有效地课型。

三、具体工作:

1、制订计划：

召集课题组成员，制定本学期的课题研究计划，确定研究目标和研究内容，讨论课题组活动形式。向课题组教师提出明确的自学要求、规定每学期应完成的研究任务，扎扎实实的做好课题的研究工作。

2、理论学习与交流：

首先，我们将组织课题组成员对“课题研究方案”再次学习，进一步明确研究的目的，清晰研究的内容，加深对“海量阅读”有关概念的了解。

同时，我们将借助网络提供有关韩兴娥“海量阅读”及窦桂梅“主题教学”的学习材料，采取自主学习、集体交流的形式，在概念上面都有比较清晰的认识。

另外，我们会安排一些特级教师特别是窦桂梅老师的教学案例，学习在课堂实践中他们是如何利用课外文本来提高课堂教学的有效性，提高阅读理解能力，提升语文素养的。

在理论学习的基础上我们将专门组织课题组成员进行研讨沙龙活动，对学习的心得、实践中的思考与困惑等进行交流，在交流中碰撞出思维的火花，促进课题研究的深入。

3、课堂实践：

课题研究要基于课堂，立足于课堂，要在课堂教学实践中发现课内外文本最佳的契合点，发现激发学生阅读兴趣，提高阅读能力、积累丰富知识、提升语文素养的指导方式和方法，并形成一定的教学指导模式。本学期每月开展课堂专题研讨课一次，并邀请学校领导和各级领导对研讨课进行评点与指导。

本学期注重随堂课形式与效果，打算形成系统的教学案例与教案。

4、撰写论文：

组织教师积极撰写论文、教学案例，参加各级各类的评比。组织好课题优秀论文、优秀案例等的汇编工作，形成课题成果群。提高本组老师的科研能力。

四、每月工作安排： 10月：

1、调整课题组成员。

2、讨论课题组计划，制定课题实施方案。

3、上课题组研究课。11月：

1、组织课题组成员进行关于“海量阅读”的理论学习。

2、各实验教师根据自身的教学班级进行实验。12月：

1、各实验教师进行研讨。

3、上好两节课题研究课。1月：

1、学习相关理论，写好随笔。

2、上好两节课题上研究课。

大英图书馆将存档海量网上信息篇3

这项存档计划的目的，在于更好地保存关于重大事件的记录以及我们时代的文化与思想性作品。组织者表示，最终，在英国网络上发表的所有公共推文、脸书条目都能够被囊括进去。这项计划也会涵盖电子书、报纸的iPad版本以及其他电子格式的出版品，甚至包括网页上内嵌的视频与音频材料，但暂不包括youtube和spotiry等视频和音频网站上的内容。

大英图书馆的内容策略主任露西·伯杰斯（Lucie Burgess）女士称，英国花了三百年来存档7.5亿报纸版面，但从今年开始，六所图书馆将着手存档480万个英国网站上的海量信息，他们计划十年内存储一千万亿字节的内容，所有这些信息都将免费提供给公众使用。该项目将从今夏开始向公众开放部分内容，明年1月，项目网页将上线，公众能够通过在线目录检索信息。

电子书已占美国图书业销售额近四分之一

据国外媒体报道，美国出版商协会旗下的StatShot近日发布报告称，去年电子书销售额已经占据了美国出版商图书销售总额的近四分之一（精确值为22.55%）。这一比例高于2011年的17%，以及2009年的3%。

图书市场的前景依旧非常乐观。2012年，美国图书销售总额达到71亿美元，较上年增长6.2%。其中，电子书销售额为15.4亿美元。按照类别计算，成年人小说/纪实文学与儿童/年轻人书籍销售增长喜人，但是来自宗教类图书的销售状况不佳。

不仅仅是电子书销售状况喜人。有声读物和平装本书籍的销量均出现增长，儿童/年轻人书籍中精装本的销量也出现了增长。

非常有趣的是，电子书销售额所占美国图书销售总额的比例，与用户采用电子书的比例基本相同。皮尤近期发布报告称，去年21%的美国成年人阅读了一本电子书籍。

德国第二大通讯社停业

因资不抵债提请破产保护的德国第二大通讯社——德国国际通讯社（DAPD）4月12日宣布，该通讯社从当天起正式停止全部新闻发稿业务，彻底退出历史舞台。

声明说，德国国际通讯社向其所有用户提供的新闻发稿服务定于当天17时起全部终止，现有员工将在领取当月足额薪水后全部离职。

德国国际通讯社是由美国联合通讯社旗下的德语新闻部与原德意志电讯社于2010年合并成立的，在德国曾是与德新社齐名的著名德语新闻通讯社。然而，在仅仅成立不到两年半的时间后，该通讯社于2012年10月初突然向法院提出其下辖8个子公司的破产申请。在多方寻找新投资者未果的情况下，德国破产监管部门最终勒令其所有业务停止经营。

德国国际通讯社轰然倒下让人颇感意外。就在2012年，该通讯社还宣布并购了世界四大新闻图片社之一的西霸图片社，并雄心勃勃地高调宣称要接管美联社的法语新闻业务部门，与法新社在法国本土新闻市场展开竞争。然而由于主要投资方突然终止了资金注入，而导致其陷入经营困境。

德国“2013年度图书馆未来设计师”大奖揭晓

2013年3月12日，第五届图书馆与信息大会（Kongress fuer BibEothek& Information）在莱比锡举行，并选举出本年度“图书馆未来设计师”大奖得主：瑞士Sitterwerk艺术图书馆团队及柏林国家图书馆（Zentral-undLandesbibliothek Berlin）团队。

此奖项由德国德古意特出版社（De Gruyter）创立，携同“图书馆研究与实践杂志”以及“文化与知识传播未来工作室协会”联合颁发。

评审团由五人组成，分别是来自于“图书馆研究与实践杂志”以及“文化与知识传播未来工作室协会”的代表，他们针对这一评审结果说：“评审以图书馆的高度专业性为标准。获奖者在两方面给评审团留下了尤其深刻的印象：对最新技术的应用，以及让读者参与到信息处理过程中，使读者成为与图书馆具有同等权利并不可或缺的一部分。”

Sitterwerk艺术图书馆团队的获奖项目是“无线射频识别技术所开创的新体系”，形象地展示了图书馆如何利用“无线射频识别技术”创造一种灵活而内在关联的新体系，这不仅体现在书架上，而且体现在阅览室的智能书桌中。图书馆的图书排列顺序可以由读者决定或更改，而不是由图书管理员决定，由此读者也可留下自己的“知识痕迹”，这一想法给评审团留下了深刻印象。

柏林国家图书馆团队在他们的项目“DigiTABBerlin”开创了互动的新形式，这是第一次在德国图书馆使用“众包”（Crowdsourcing）形式，以便于有效地处理或补充海量信息。这些开放的数据信息包括300多本柏林地址与电话簿的数字信息，以及1799年到1991年共约1.5亿电话簿条目，并且这些信息的再使用须遵循知识共享许可协议（creative Commons-SA-BY-Lizenz）。这些数据信息对于历史学家、系谱学家以及其他兴趣群体来说绝对是一个独一无二的在线宝库。

海量信息篇4

数字地球也称虚拟地球,是融合了海量地理信息、高程信息、航拍信息、标注信息的三维地球,是真实地球的数字化仿真实现[1]。数字地球的研究具有广阔的商业前景与实用价值。国外及国内的一些研究机构及大型公司纷纷投入人力物力开发和拓展数字地球的相关应用。国外,比较著名的数字地球系统包括Google Earth,Microsoft Virtual Earth,NASA World Wind,ArcGIS Explorer,Skyline等。国内,比较出名的有IMAGIS,VRMap,GeoBeans等。

分析研究数字地球现有的系统和资料,发现在数字地球研发中都涉及了海量地理信息、高程信息、航拍信息、标注信息的处理问题。这一问题也是实现数字地球的关键。针对此,重点研究了如何设计架构数字地球平台实现汇聚调度海量信息,并分析了在汇聚调度海量信息实现数字地球平台时的关键技术。在上述研究基础上实现了数字地球基础平台。

2 数字地球平台

数字地球平台是遥感技术(Remote Sensing RS)、地理信息系统(Geographical information System GIS)、全球定位系统(Global Positioning System GPS)的结合与延伸。在此3S[2]技术的基础上,同时运用网络平台实现用户与三维虚拟地球的交互操作,包括对虚拟地球的旋转、视点区域远近拉伸、平移漫游、地点标注、模型增删、测距及其他各类拓展应用[3]。

2.1 信息汇聚的网络拓扑

数字地球平台可以通过网络技术实现用户与三维虚拟地球的交互。搭建数字地球平台的网络拓扑结构完成海量地球信息及业务数据的汇聚,并为应用系统的总部提供信息基础,为总部决策提供数据支持。图1展示了数字地球平台在网络搭建的拓扑结构。

单位1代表了数字地球平台的运营单位。它承担了数字地球构建的主要任务,主要完成数字地球平台的开发,并提供数字地球平台的信息搜集拓展的各种开放接口。在数字地球平台研发上线后,整个单位在不同地区下设许多分管运营处来保障数字地球的应用。每个分管运营处负责数字地球中特定的区域,承担两部分职能:一是负责该区域信息的搜集与录入,一是负责对录入信息的确认审核。运营处搜集的信息为构建数字地球平台的基础信息,包括地球的航拍图像信息、地形地貌信息、地理交通信息、重要地点标注信息。运营处确认审核的信息来源有两类,一类是自己单位录入的信息,一类是由个人录入的负责区域内的信息。

单位2代表了参与数字地球信息搜集建设的合作单位。这些合作单位也都承担两部分职能:一是负责信息的录入与搜集。一是负责对录入信息的确认审核。这里搜集的信息包括两大类:一类是构建数字地球平台的基础信息,包括地球的航拍图像信息、地形地貌信息、地理交通信息、重要地点标注信息。一类是丰富数字地球平台的专有信息。如,该单位是图书馆,则基于数字平台构建拓展SQL SERVER的信息库,可录入本单位的馆藏书目信息及电子文献。如,该单位是物资仓储单位,则可以录入本单位库存种类及数量信息。

单位3代表了自由参与数字地球信息搜集建设的个人。他们来自网络,出于好奇、热爱共享、个人方便或其他因素,会自发地在数字地球中增加一些地点信息的标注说明,增加一些地点信息的实拍照片及三维模型。他们录入信息的准确性由单位1负责审核。

在总部,应用系统的决策领导可以实时地查询和获取数字地球平台的各种数据。通过对数据进行比较,做出相应决策。

2.2 平台软件架构设计

平台采用客户机/服务器的架构。客户端完成数字地球的旋转、拉伸、聚焦,服务器端完成客户端为用户提供了一个可视化的三维数字地球控制与信息显示平台。客户端使用组件技术和DirectX技术构建。组件包括三维控件和功能组件构成,三维控件负责三维空间数据的可视化和虚拟地球的基本控制,功能组件负责业务数据的分析处理。通过HTTP协议与服务器进行通信。服务器端主要用于处理海量存储和查询构建数字地球的各种地理信息。服务器端基于标准的Web服务器构建,基于HTTP协议通信。服务器端由空间数据的高速缓存,数据服务,空间分析,空间计算功能模块以及离线的数据处理程序组成。它主要负责海量数据的存储、索引、压缩等,并把被请求的数据提交给客户端。图2展示了数字地球平台的软件架构的详细设计内容。

3 数字地球海量信息汇聚的关键技术

3.1 信息分类调用与汇聚模块设计

2.1节中提到在构建数字地球平台的基础信息中需要用到地球的航拍图像信息、地形地貌信息、地理交通信息、重要地点标注信息等系列信息。对这些信息汇聚归类,将其在软件平台中实现分类汇聚并设计相应接口调用。将实现上述功能的信息分类调用与汇聚模块命名为GlobeDataSource模块。GlobeDataSource模块可以通过文件读取,代码创建等方式,通过本地数据文件、数据库或远程数据库、Web服务等方式来创建并管理空间数据对象,例如点、线、面、三维模型等。该功能主要用于应用中业务数据相关应用。GlobeDataSource模块的具体设计如图3所示。图3中展示了GlobeDataSource模块的数据结构

·DataLayer:GIS数据

·ImageLayer:影像数据

·FloatLayer:三维的点(POI)、线、面以及模型。用户可以自动拓展的层次。

·LabelLayer:三维标注

·TerrainLayer:DEM,提供地形数据,用于三维地形建模

通过在不同的层次增加相应的内容,实现与数字地球的交互。例如,如果想在数字地球中增加一个新的地点,比如河北博物馆。因为是用户自定义内容,首先确定该层隶属于用户自定义的层次FloatLayer下面。又因为它属于地点,所以隶属于IconLayer中。因此,我们定义一个隶属于IconLayer的名为“博物馆层”的新层,

IconLayer _iconLyr; // 创建POIIcon图层

_iconLyr = new IconLayer("博物馆层"); // 将其命名为“博物馆层”

然后再定义具体河北博物馆的地点信息。按照POIIcon(id, 名称, 纬度, 经度)格式定义一个地点。

POIIcon ico = new POIIcon(323, 河北博物馆,114.48, 38.03);

最后把该地点放置在博物馆层。

lyr.Add(ico);

在图3展示的层次模块中,按照以上方式,各级单位或用户可以自行增加用户自定义的地理信息,丰富数字地球的数据资源。

3.2 海量可视影像数据调度

在构建数字地球的过程中,用到了海量的可视数据,这些数据包括地形地貌数据以及航拍影像数据。如何检索和快速调度这些数据,是构建数字地球的关键。海量数据的检索和调度问题可以细分为两个子问题:一是地球球体的航拍图像贴图和加载调度显示问题。详细来说,就是如何将地球航拍、高程等图像加载在球体上,当用户操作数字地球时,在软件视窗内应如何又加载图像的问题。二是纵深层次的图像调度加载策略。详细来说,就是当用户深入观察地球中某一区域时,软件视窗内显示的地理区域应该由大变小。而针对该地点的图像应由模糊变清晰,由简略变细节丰富。

解决第一个问题,基本思想将全球影像定义为一张图像,对整个图像标识经纬度范围,使图像贴合在程序创建的椭球体上。对全球影像数据分块并编号。这样在软件平台中操纵并浏览数字地球时,只需要调度落在视窗内的影像数据块,就能实现快速精准地显示所浏览区域中的图像。对全球影像数据的划分上,可以采用等间隔空间划分的算法,也可以采用等面积空间划分的算法[4]。见图4。

等间隔划分是用平行于经纬度的对线条全球进行空间划分。等面积划分是沿平行于子午圈和平行圈的方向,将地球椭球体的表面划分成许多四边形面片,用这些地球球体上实际相同面积的面片划分全球的空间。

比较这两种空间划分方法,等间隔划分法的算法特点是比较简单,索引速度快,在地球两级面片有交叠冗余。等面积划分的算法特点比较复杂,索引速度慢,在地球两级面片无交叠。通过这一分析,可以看出在调度效率上等间隔划分的算法具有优势。再来分析冗余面片在数字地球贴图上的影像。采用等面积划分法,出现两极和赤道上的面片数目相等的情况。但实际上虚拟球体上两级的同样经纬度范围所对应的面积要远小于赤道中同样经纬度范围所对应面积。因此,两极分割出这么多的面片在拼合成球体时会数据冗余。也正是由于这些冗余面片的存在,才使得相邻面片之间的接边问题变得简单起来。而采用等面积划分的算法在两极处的冗余面片较少,由于冗余面片少,会导致接边难度大于等间隔划分算法。综上两点比较,采用等间隔划分算法比采用等面积划分算法无论从调度速度上,还是在运算复杂度上,均占优势。因此,解决软件视窗内球体贴图的图像调度加载策略的问题,主要可通过等间隔划分法来对地球表面整体分块,再根据索引进行拼接实现。

解决第二个问题,需要对全球影像数据定义层次结构。结合地球影像数据,首先构建影像图形的四叉树。四叉树结构[5]根本思想是一种四分式的分层结构。构建全球影像数据的四叉树,就是将全球的图像作为四叉树的第0层,在第0层中放置了初始根节点。这里根节点为2块正方形图像,表示分别显示的是东西半球。第1层图像是对第0层图像的四分显示。第2层图像是对第1层图像的四分显示,每下面一层是对上一层的四分显示。当层次越深入,全球图像分割越细碎,每块图像块细节越丰富,分辨率越高。这样构建了影像数据的四叉树,见图5。分割图块编号用“层次—计数”方式表示,计数顺序从左向右,从下向上依次增加。如第0层是两块图像,0—1表示的第0层第1块图像;如第1层分为8块图像,1—3表示第1层第3块图像。

当用户在软件平台中控制数字地球拉近或变远时,实际是用户观测视点相对地球球体降低或升高。当视点高度达到最高时,可以在视窗中显示整个地球球体,此时可以设置当前的视点高度对应影像数据四叉树的第0层,此时视窗加载影像图层第0层的数据。当视点高度逐步变低,逐步加载影像数据四叉树中的第1层,第2层,第3层等更高的层次。当视点深入时,逐步加载的图像越清晰。而且四分法将大图像分割为小的图像单元,当加载大的图像时,可以分线程加载分割好的小的图像单元。这样实现了快速的球体贴图和图像加载。另外一个重要的思想是分层思想。金字塔模型在四叉树分层的基础上,更直观地解决了视点深入后的图像调度分层机制。

4 系统实现与下一步工作

针对数字地球研发中的海量信息调度问题,分析了在处理海量信息时设计数字地球平台采用的网络拓扑、软件架构,并分析了数字地球平台研发中信息分类调用与汇聚模块设计实现,研究全球影像数据的分割法及四叉树模型的加载调度策略。

在上述研究的基础上,在项目中初步实现了数字地球平台。可操作数字地球放大缩小平移进行观察,支持8层影像数据,支持在数字地球上进行地点标注及地标的快速定位。

当前实现的数字地球平台仅提供对数字地球球体的基础操作,全球影像航拍图像只支持8层深入加载。在下一步工作中,一方面会进一步深化数字地球平台的地球影像信息数据量,支持更深的层次加载和细节展示。另一方面,将针对单位业务和总部决策应用展开基于数字地球平台的二次开发。

摘要：构建数字地球需要融合海量地理信息、高程信息、航拍信息、标注信息和其他用户自定义业务信息。如何汇聚调度这些海量数据是实现数字地球软件平台的关键问题。针对这一问题,分析了数字地球平台的信息汇聚实施网络拓扑结构、信息处理软件架构,研究信息分类调用与汇聚模块设计及全球海量影像数据的调度策略。基于上述研究成果,初步在项目中实现数字地球平台。

关键词：数字地球,信息汇聚,信息调度

参考文献

[1] Craglia M,de Bie Kees,Davina Jackson,et al.Digital Earth 2020:towards the vision for the next decade.International Journal of DigitalEarth,2012,1

[2]史文中,贺志勇,张肖宁.浅析3S技术集成于公路交通建设.测绘学报,2012;(03):12—15

[3]姜仁贵.基于数字地球的WebGIS开发及其应用.计算机工程,2011;(06):231—233

[4]杜莹.全球多分辨率虚拟地形环境关键技术的研究.北京:中国人民解放军信息工程大学学位论文,2006

我的海量词汇篇5

欢呼雀跃、奔走相告、满载而归、前赴后继、横行霸道、神出鬼没、负隅顽抗、耀武扬威、营私舞弊、兴风作浪、扶老携幼、昂首挺胸，手舞足蹈、昂首阔步、上窜下跳、大快朵颐、张牙舞爪、抓耳挠腮、嬉皮笑脸、口若悬河、对答如流、滔滔不绝、谈笑风生、高谈阔论、豪言壮语、夸夸其谈、花言巧语、发奋图强、废寝忘食、全力以赴、披荆斩棘、顶天立地、奋不顾身、舍己为人、坚强不屈、贪生怕死、厚颜无耻、眉飞色舞、百发百中、一步登天、促膝谈心、前俯后仰、专心致志、笨手笨脚、喜笑颜开、悬梁刺股、守株待兔、掩耳盗铃、买椟还珠、长吁短叹、翻山越岭、鬼鬼祟祟、窃窃私语、喋喋不休、跃跃欲试、盲人摸象、调兵遣将、东倒西歪、三下五除

二、快刀斩乱麻、迅雷不及掩耳、【走】散步、漫步、踏步、信步、转悠、闲逛、徜徉、踉跄、蹒跚、踱方步

健步如飞、步履矫健、步履轻盈、大步流星、飞檐走壁、大摇大摆、步履艰难、一瘸一拐、匍匐前进、蹑手蹑脚、偷偷摸摸、踉踉跄跄、【跑】小跑、慢跑、飞跑、飞奔、飞越、跑得上气不接下气、跑得比兔子还快、扭头就跑、拔腿就跑、连蹦带跳、东奔西窜、飞似得跑、抱头鼠窜、跋山涉水、飞檐走壁、散步，漫步，踏步，信步，转悠，闲逛，徜徉，跟踪，【快】

飞速。神速、超速。加速。风速

干巴利落、势如闪电、势如破竹、大步流星、劈波斩浪、健步如飞、马不停蹄、风驰电掣，动如脱兔，身手敏捷、一目十行、一日千里、手到擒来、手急眼快、一气呵成、一挥而就、指如疾风、健步如飞、飞似得跑、大步流星、身手敏捷、风驰电掣、披星戴月、日夜兼程、超轶绝尘、急起直追、狼奔豕突、星驰电走、倍道而进、直截了当、干净利落、速战速决、东奔西窜、奔走如飞、眼明手快、眼疾手快、电光石火、眼明手捷、雷厉风行、流星赶月、弩箭离弦、超尘逐电、潮鸣电掣、电火行空、目下十行、雷腾云奔、蹑影追风、齐足并驰、日行千里、势若脱兔、望尘追迹、五行俱下、五行并下、星移电掣、一瞬千里、一息千里、振笔疾书、逐电追风、追风掣电、追风蹑景、追风逐电、追风逐日、走及奔马、疾如雷电、电光火石、转瞬即逝、稍纵即逝、风驰电掣、势如破竹、飙发电举、阪上走丸、急如星火

风驰云走、风驰云卷、转瞬即逝、白驹过隙、讯雷不及掩耳、倍道而进、奔逸绝尘、五行并下、快马加鞭、长驱直入、凫趋雀跃、高材疾足、举步生风、昙花一现、一泻千里、倚马可待、【看】瞧、瞅、过目、注视、端详、凝视、仰视、俯瞰、远眺、了望、张望、回顾、环视、扫视、窥视、怒视、浏览、审视、洞察、打量、巡视、目击、目睹、会见、召见

定睛一看、目不转睛、凝神注视、怒目而视、左顾右盼、东张西望、挤眉弄眼、瞻前顾后、举目远望、极目了望、尽收眼底、察言观色、刮目相看、面面相觑、虎视眈眈、走马看花、举目眺望、走马观花、【听】倾听、聆听、窃听、旁听、听候、当作耳边风、左耳进，右耳出、侧耳细听、听得入迷、听信谣言、百听不厌、道听途说、充耳不闻、【想】猜想、推想、设想、回想、空想、梦想、联想、遐想、妄想、思念、思绪、思考、思索、思慕、寻思、考虑、揣测、惦念、挂念、牵挂、心潮起伏、思潮澎湃、思绪万千、思绪纷繁、浮想联翩、思前想后、心往神驰、想方设法、绞尽脑汁、三思而行、牵肠挂肚、挖空心思、异想天开、想入非非、胡思乱想、痴心妄想、不假思索、【哭】啜泣、抽泣、呜咽、哀号、号哭、痛哭、潸然泪下、泪流满面、放声痛哭、失声痛哭、痛哭流涕、声泪俱下、哭哭啼啼、泣不成声、哭爹叫娘、捶胸顿足、号啕大哭、抱头痛哭、老泪纵横、哭声震天、【笑】微笑、大笑、欢笑、嬉笑、狂笑、嗤笑、憨笑、傻笑、哄笑、苦笑、干笑、阴笑、狞笑、奸笑、嘲笑、冷笑、讥笑、耻笑、笑眯眯、笑嘻嘻、笑盈盈、笑哈哈、笑吟吟、点头微笑、抿着嘴笑、淡然一笑、吃吃得笑、咧着嘴笑

【惊、怒】

狐疑不决、六神无主、目瞪口呆、喃喃自语、呆若木鸡、没精打采、沉吟不决、张口结舌、张皇失措、迟疑不决、局促不安、诚惶诚恐、神思恍惚、惊恐万状、惊慌失措、慌手慌脚、唉声叹气、噤若寒蝉、瞠目结舌、黯然神伤、怒形于色、屏息凝神、心不在焉、泰然自若、若无其事、若有所思、垂头丧气、受宠若惊、冥思苦想、愁眉不展、愁眉苦脸、精神恍惚、语无伦次、举止失措、支支吾吾、吞吞吐吐、面面相觑、忐忑不安、心惊肉跳、心神不定、心猿意马、心慌意乱、七上八下、心急如焚、大惊失色、大发雷霆、破口大骂、疾言厉色、反唇相讥、恶语伤人、勃然大怒、恼羞成怒、怒不可遏、怒气冲天、怒火中烧、怒发冲冠、横眉冷对、疾言厉色、【语气、神态】

温和、热情、亲切、严厉、生硬、肯定、否定、冷淡、安慰、取笑、挖苦、狡辩、分辩、讪笑、嗤笑、训斥、追问、询问、忠告、命令、幽默、夸耀、感激、盘问

据理力争、自吹自擂、出言不逊、豪言壮语、依依话别、言词恳切、侃侃而谈、夸夸其谈、谆谆告诫、心平气和、平心静气、全神贯注、兴致勃勃、兴高采烈、忍俊不禁、哑然失笑、幸灾乐祸、若有所失、和颜悦色、和蔼可亲、怡然自得、炯炯有神、洗耳恭听、神气十足、神色活现、神色自若、神采飞扬、神采奕奕、眉飞色舞、眉开眼笑、眉来眼去、破涕为笑、热泪盈眶、哭天抹泪、哭笑不得、笑逐颜开、笑容可掬、谈笑风生、谈笑自若、捧腹大笑、悠然自得、得意忘形、得意洋洋、喜上眉梢、聚精会神、精神焕发、嫣然一笑、嘻皮笑脸、【气势】

惊天动地、地动山摇、山崩地裂、波澜壮阔、浩浩荡荡、气势磅礴、排山倒海、鳌掷鲸吞、八面威风、拔地参天、拔地倚天、拔山举鼎、笔底龙蛇、笔力独扛、笔扫千军、笔走龙蛇、避其锐气、避其锐气、击其惰归、波澜老成、财大气粗、长江大河、徜徉恣肆、潮鸣电掣、潮鸣电挚、称斤注两、乘酒假气、叱咤喑呜、摧枯拉朽、摧朽拉枯、大气磅礴、倒海移山、倒峡泻河、跌宕昭彰、咄咄逼人、风樯阵马、风行电击、风行电扫、风行雷厉、锋不可当、凤翥龙翔、管弦繁奏、函牛之鼎、韩潮苏海、韩海苏潮、浩然正气、欱野歕山、红旗招展、后拥前驱、狐鸣枭噪、虎虎有生、气回山倒、海见棱见、角剑拔弩、张鲸鳌掷、狂风怒吼、拉枯折朽、拉朽摧枯、来势汹汹、理直气壮、柳骨颜筋、龙蛇飞动、龙威虎振、龙威虎震、龙骧豹变、拿云攫石、年少气盛、年盛气强、年壮气锐、年壮气盛、盘空硬语、蟠天际地、旗鼓相望、气冲斗牛、气冲牛斗、气冲志骄、气粗胆壮、气盖山河、气高胆壮、气骄志满、气凌霄汉、气满志骄、气盛言宜、气势磅礴、气势汹汹、气势熏灼、气吞斗牛、气吞河山、气吞虹霓、气吞牛斗、气吞山河、气吞万里、气压山河、气焰熏天、气壮胆粗、气壮理直、秋风扫叶、如火如荼、如荼如火、锐不可当、锐挫气索、锐未可当、杀气腾腾、山奔海立、山高月小、山呼海啸、声势浩大、声势赫奕、声势显赫、声势汹汹、声势烜赫、声势熏灼、声张势厉、盛气临人、盛气凌人、势如破竹、苏海韩潮、唐哉皇哉、堂而皇之、天马行空、吞牛之气、汪洋大肆、汪洋闳肆、汪洋自肆、汪洋自恣、汪洋恣肆、威武雄壮、舞凤飞龙、下笔风雷、掀雷决电、鲜车怒马、心高气硬、雄辞闳辩、雄伟壮观、虚张声势、熏天赫地、薰天赫地、夭矫不群、摇山振岳、一泻千里、衣冠赫奕、以火止沸、以汤沃沸、意气自得、鹰撮霆击、硬语盘空、郁郁葱葱、云垂海立、云屯席卷、云涌飙发、云涌风飞、遮空蔽日、遮天蔽日、遮天盖日、阵马风樯、峥嵘轩峻、志冲牛斗、助我张目、壮气吞牛、潮鸣电挚、称斤注两、乘酒假气、叱咤喑呜、摧枯拉朽、摧朽拉枯、大气磅礴、倒海移山、倒峡泻河、跌宕昭彰、咄咄逼人、风樯阵马、风行电击、风行电扫、风行雷厉、锋不可当、凤翥龙翔、管弦繁奏、函牛之鼎、韩潮苏海、韩海苏潮、浩然正气、浩浩荡荡、欱野歕山、红旗招展、后拥前驱、狐鸣枭噪、回山倒海、见棱见角、剑拔弩张、鲸呿鳌掷、狂风怒吼、拉枯折朽、拉朽摧枯、来势汹汹、理直气壮、柳骨颜筋、龙蛇飞动、龙威虎振、龙威虎震、龙骧豹变、拿云攫石、年少气盛、年盛气强、年壮气锐、排山倒海、年壮气盛、盘空硬语、蟠天际地、旗鼓相望、气冲斗牛、气冲牛斗、气冲志骄、气粗胆壮、气盖山河、气高胆壮、气骄志满、气凌霄汉、气满志骄、气盛言宜、气势磅礴、气势汹汹、气势熏灼、气吞斗牛、气吞河山、气吞虹霓、气吞牛斗、气吞山河、气吞万里、气压山河、气焰熏天、气壮胆粗、气壮理直、秋风扫叶、如火如荼、如荼如火、锐不可当、锐挫气索、锐未可当、杀气腾腾、山奔海立、山高月小、山呼海啸、声势浩大、声势赫奕、声势显赫、声势汹汹、声势烜赫、声势熏灼、声张势厉、盛气临人、盛气凌人、势如破竹、苏海韩潮、唐哉皇哉、堂而皇之、天马行空、吞牛之气、汪洋大肆、汪洋闳肆、汪洋自肆、汪洋自恣、汪洋恣肆、威武雄壮、舞凤飞龙、下笔风雷、掀雷决电、鲜车怒马、心高气硬、雄辞闳辩、雄伟壮观、虚张声势、熏天赫地、薰天赫地、夭矫不群、摇山振岳、一泻千里、衣冠赫奕、以火止沸、以汤沃沸、意气自得、鹰撮霆击、硬语盘空、郁郁葱葱、云垂海立、云屯席卷、云涌飙发、云涌风飞、遮空蔽日、遮天蔽日、遮天盖日、阵马风樯、峥嵘轩峻、志冲牛斗、助我张目、壮气吞牛、虎虎有生气、1形容知识丰富、学问深广：学富五车、满腹经纶、才高八斗、学贯中西、博学多才、博古通今

2形容春天的成语：鸟语花香、百花齐放、繁花似锦、桃红柳绿、春色满园、春意盎然

3形容秋天的景色的成语：秋高气爽、丹桂飘香、天高云淡、红叶似火、金风送爽、硕果累累

4形容人的外貌：美如冠玉、眉清目秀、闭月羞花、国色天香、如花似玉、鹤发童颜

5形容焦急：坐立不安、心急如焚、焦急万分、心急火燎

6形容情况紧急：迫在眉睫、危在旦夕、千钧一发、燃眉之急、火上眉梢、刻不容缓

7形容冬天景色：数九寒冬、寒气逼人、冰天雪地、天寒地冻、滴水成冰、鹅毛大雪

8形容考试：冥思苦想、东张西望、抓耳挠腮、聚精会神、专心致志、左顾右盼

9形容长江：一泻千里、惊涛骇浪、波峰浪谷、浊浪排空、波澜壮阔、风急浪高

10类似“穷途末路”：排忧解难、甜言蜜语、诗情画意、搭窝筑巢、扶危济困、雕梁画栋

11以“喜”字开头：喜上眉梢、喜闻乐见、喜形于色、喜笑颜开、喜气洋洋、喜出望外

12含有意思相近和相反的成语：欢天喜地、开天辟地、惊天动地、瞻前顾后、南腔北调、南征北战、13含有早晚意思的成语：朝思暮想、朝令夕改、朝秦暮楚、早出晚归、危在旦夕、朝夕相处

14表示英勇行为的：前赴后继、冲锋陷阵、赴汤蹈火、视死如归、奋不顾身、舍生忘死

15表示能说会道的成语：妙语连珠、出口成章、伶牙俐齿、侃侃而谈、口若悬河、滔滔不绝

16描写雪景的成语：鹅毛大雪、粉妆玉砌、冰天雪地、银装素裹、大雪初霁、雪虐风饕

17含有“想”意思的成语：浮想联翩、异想天开、朝思暮想、思前想后、冥思苦想、痴心妄想

18含有“快”意思的成语：一泻千里、风驰电掣、健步如飞、快步流星、稍纵即逝、瞬息万变

19含有“拿”意思的成语：强取豪夺、挑肥拣瘦、顺手牵羊、取之不尽

20表示诚信的成语：拾金不昧、表里如

一、言行一致、光明正大、光明磊落、路不拾遗

21含有“走”意思的成语：安步当车、寸步难行、跋山涉水、奔走相告、步履维艰、蹑手蹑脚

22含有“笑”意思的成语：粲然一笑、哄堂大笑、眉开眼笑、捧腹大笑、破涕为笑、嫣然一笑

23描写雨大的成语：瓢泼大雨、狂风暴雨、滂沱大雨、暴雨如注、倾盆大雨

24描写医术高明的成语：妙手*、华佗再世、扁鹊重生、悬壶济世、杏林高手

25表示杰出、不一般的成语：出类拔萃、卓尔不群、非同凡响、凤毛麟角、鹤立鸡群

26不是四字的成语：伸手不见五指、谦受益、莫须有、十年树木，百年树人

27形容数量少的成语：绝无仅有、独一无

二、沧海一粟、寥寥无几、凤毛麟角、盖世无双

28形容人很多的成语：人山人海、比肩继踵、万人空巷、座无虚席、门庭若市、高朋满座

29形容工作认真的成语：一丝不苟、全神贯注、兢兢业业、勤勤恳恳、聚精会神、废寝忘食

30描写山的成语：重峦叠嶂、崇山峻岭、悬崖峭壁、连绵起伏、峰峦雄伟、危峰兀立

31描写水的成语：滔滔不绝、一泻千里、波澜壮阔、惊涛骇浪、浊浪排空、波峰浪谷

32描写山水的成语：湖光山色、山清水秀、山明水秀、青山绿水、山水相依、山水一色

33描写夏天景色的成语：骄阳似火、汗流浃背、烈日炎炎、暑气蒸人、热浪炙人、烈日当空

34描写建筑物的成语：亭台楼阁、富丽堂皇、雕梁画栋、古色古香、别有洞天、鳞次栉比

35描写心情高兴的成语：喜上眉梢、兴高采烈、眉飞色舞、喜笑颜开、欣喜若狂、心花怒放

36描写人很有精神：神采奕奕、精神抖擞、容光焕发、神采飞扬、意气风发、精神焕发、37描写房间干净、整洁得成语：一尘不染、窗明几净、焕然一新、洁白无瑕、面目一新、井然有序

38三个字的成语：莫须有、满招损、谦受益、冷不丁、破天荒、言必行

39A风B雨式的成语：春风化雨、栉风沐雨、斜风细雨、凄风苦雨、暴风骤雨、呼风唤雨

40含有“马”字的成语：马到成功、快马加鞭、千军万马、五马分尸、走马观花、马革裹尸

41含有“兴”字的成语：兴高采烈、兴致勃勃、兴风作浪、兴师动众、万事俱兴、百废待兴

42“不”在第三个字的成语：卓尔不群、永垂不朽、一丝不苟、无微不至、一尘不染、六亲不认

43一、三字是近义词的成语：挑肥拣瘦、赴汤蹈火、抓耳挠腮、扶危济困、丢三落

四、唉声叹气

44含有两个人体器官的成语：狼心狗肺、张口结舌、鸡毛蒜皮、目瞪口呆、七手八脚、瞠目结舌

45形容事物很大的成语：庞然大物、硕大无朋、硕大无比、宏伟壮观

46含有两个动物名称的成语：鸡飞狗走、虎头蛇尾、生龙活虎、鸡鸣狗盗、羊落虎口、狼狈为*

47描写花的成语：花团锦簇、繁花似锦、百花齐放、姹紫嫣红、迎风吐艳

48含有贬义的成语：自私自利、口是心非、狼狈为*、阴谋鬼计、阳奉阴违、丧家之犬、49含有褒义的成语：舍己为人、奋不顾身、拾金不昧、赴汤蹈火、万古长存、舍生忘死

50形容刻苦学习的成语：废寝忘食、十载寒窗、悬梁刺股、程门立雪、囊萤映雪、凿壁借光

51来源于寓言故事：拔苗助长、守株待兔、自相矛盾、掩耳盗铃、滥竽充数、亡羊补牢

52来源于神话故事：夸父追日、嫦娥奔月、后羿射日、精卫填海、女娲补天、哪吒闹海

53来源于历史故事：四面楚歌、纸上谈兵、背水一战、负荆请罪、卧薪尝胆、洛阳纸贵

54描写天空景色的成语：万里无云、碧空如洗、湛蓝如洗、天高云淡、乌云密布、晴空万里

55古代巧妙的计策：三十六计，走为上、瞒天过海、反客为主、围魏救赵、借刀杀人、草船借箭

56描写人物慌张的成语：心慌意乱、惊慌失措、惶恐不安、慌不择路、落荒而逃

57与读书有关的成语：韦编三绝、一览成诵、一目十行、过目不忘、走马观花、博览群书

58含有“一”但不在开头：千钧一发、千虑一得、不堪一击、万众一心、九死一生、万无一失

59含有两个“看”：高瞻远瞩、左顾右盼、东张西望、察言观色、瞻前顾后、熟视无睹、60形容书的内容精彩：引人入胜、精妙绝伦、扣人心弦、韵味无穷、精彩纷呈、百看不厌

61运动场上的运动员们：针锋相对、汗流浃背、争先恐后、大汗淋漓

62“专心致志”的近义词：全神贯注、一丝不苟、聚精会神、心无旁若、心无二用

63表示精神永久的：永垂不朽、万古长存、万世流芳、千古流芳、万古常青

64做事情有把握的：稳操胜券、成竹在胸胜券在握、十拿九稳、65形容没有退路的：穷途末路、日暮途穷、走投无路、山穷水尽、66形容关心他人的：无微不至、体贴入微、抑强扶弱、急公好义、嘘寒问暖、67描写态度和蔼的：平易近人、和蔼可亲、合声细语、笑容可掬、笑容满面

68含有两个数字的成语：三心二意、五湖四海、五花八门、一心一意、横七竖八、七嘴八舌

69表示悔过自新的：幡然悔悟、迷途知返、弃旧图新、浪子回头、洗心革面、改恶从善

2015，突围海量综艺篇6

在这个全民娱乐时代，成功综艺节目的标杆效应，“大投入，高回报”的诱惑，让各大卫视雄心勃勃，纷纷在招商期间抛出大量综艺节目计划。“超200档新节目”已成业界热议的话题，内容制作领域也开始面临“泡沫危机”。

在有限的综艺市场里，有多少节目可以出线？观众有多少“精力”为之消磨？广告商的价值回报又有几何？都是繁荣景象之下，需要客观审视的问题。

海量综艺

数量激增是2015综艺节目热度的直接表现。有人对各家卫视在招商中推出的综艺节目做了粗略统计——2015年国内主要卫视将推出超过200档新节目。

湖南、浙江、江苏、东方等卫视继续加码。湖南卫视宣布，2015年每季度都有两档大型综艺节目上档。浙江卫视对《综艺报》记者表示，虽然浙江卫视目前综艺节目总量已经不少，但2015年仍将有20%的增长。东方卫视也表示，“明年比今年一定会有增长，具体增长多少还要看市场情况。”

以往在大型综艺上发力不足的卫视也跃跃欲试。江西卫视总监朱育松表示，明年将全力推行季播节目。在他看来，在卫视竞争日益激烈的当下，日播节目要创新已经很难，需要通过大型季播节目激发观众对平台的关注。

湖北卫视一口气抛出《纲到你身边》《我为喜剧狂》《你好，陌生人》《梦想桃花源》《嘻游记》《模范星导师》《鲁豫的礼物》《天才想得到》《如果爱》等9档综艺节目计划。而一向主打“大剧策略”的安徽卫视，也开始筹划“全面升级”，新增7档大型季播综艺节目，数量创历年新高。

投入量级飙升是2015综艺市场的另一参考热值。“只有大投入，才会有大产出。”湖南卫视常务副总监李浩表示。浙江卫视策划推广部主任王征宇也坦言，“2014年以来，浙江卫视投入10亿资金研发新节目，打造新团队。2015年浙江卫视的投入只会比2014年更多。”

大手笔投入的背后，是巨额广告赞助的支持。湖南卫视即将于2015年第一季度播出的《我是歌手》第三季，“立白”以3亿元继续冠名;第三季度的《爸爸去哪儿3》由伊利以5亿元继续冠名;新节目《偶像来了》获得了OPPO手机4亿元的冠名赞助。湖南卫视在11月13日举行的2015年部分黄金广告资源招标会当天，总计拿下了30亿元的广告收入。

其他卫视同样期待着他们的创意能卖个好价钱。辽宁卫视推出由成龙监制的大型公益季播节目《梦筑中国》，为其标出高达1亿元的独家冠名费。湖北卫视2015年主推的明星合宿真人秀《你好，陌生人》，独家冠名6000万元，再加上联合赞助、指定产品、互动伙伴等其他招商合作形式，该节目广告招商的标价总额达1.78亿元。

“2015年综艺节目的竞争肯定很激烈，高投入、大成本、拼明星，以及类型化追随，是明年节目激烈竞争的特征。”东方卫视中心常务副总鲍晓群表示。

理性突围

“所有电视节目的最终出口都是观众”，王征宇认为，综艺节目多，对观众来说意味着有更多选择，但具体到每一档综艺节目，竞争加剧压缩了市场突围和出线的空间。

中国传媒大学教授许行明表示，明年愈加严峻的竞争态势令人担忧。“蛋糕就这么大，每家的收视率一定是从现有的观众群里去切分的。节目量还是需要控制在合理的范围内，才会在收视率上有正常体现。供大于求，收视率势必会被稀释、分流。”

对于外界“‘一剧两星’‘一晚两集’的政策将利好综艺节目”的说法，鲍晓群认为，政策实施与综艺节目有一定关联，但并不代表会对综艺节目有多大帮助。“虽然两集之后不能播第三集电视剧，但也明确规定不能播综艺娱乐节目。”王征宇也表达了同样观点，“综艺节目能否胜出最终还是市场选择。”

200档新节目并不等于200档创新节目，观众对同质化综艺节目难免会审美疲劳。

在鲍晓群看来，所谓的200档节目其实是个伪命题。“200档节目或许只是电视台的招商手段，最后只有招商成功的节目才能制作、播出。现在没有哪家电视台的节目是‘裸奔’的。最终播出的节目与现在招商的节目，基本是两个概念。”

江苏卫视广告部主任王霆也认为，“季播节目的招商与生产实际上是脱节的，在今年这个时间段任何一家卫视都不可能推出明年所有的季播节目。”

一位不愿具名的业内人士表示，在商业利益驱动下，前期宣传、招商中的真真假假，反映出当前综艺节目市场上投机风气严重，带有一定的泡沫成分。“现在的综艺节目市场还不是一个健康理性、公开透明的市场。综艺节目价格随着炒作、投机波动，不像电视剧价格那么透明。电视剧市场经过多年的市场化，已经相对健康，而且政策上对电视剧的限制也比较多，所以不少人转向综艺市场，冒险投机。”

受投机心态的驱使，“不惜亏本砸钱，重金请明星，跟风抄袭”之风渐盛。很多电视台都要承受相当的压力和风险：首先是招商压力，拿不到广告赞助的节目只能被无情砍掉;其次是收视压力，广告赞助与节目收视率、排名等收视成绩是挂钩的。一档节目如果收视率不能达到预期，不能让客户认同，广告赞助也会相应缩水。

与其盲目跟风炒作，不如在内容上下工夫。多位业内人士表示，要理性看待当前综艺节目市场的火热，真正把节目做好。

强台创新方法论

“内容为王，以质取胜”是综艺节目的立身之本。中国传媒大学影视学院教授关玲表示，“一档成功的综艺节目要符合大众的审美需求和娱乐需求，体现当代精神。”

从2010年东方卫视的《中国达人秀》到2012年浙江卫视的《中国好声音》，以及2013年湖南卫视的《我是歌手》《爸爸去哪儿》，这些现象级的标杆节目一步步激活了业内对海外正版模式的热情，掀起一波又一波的模式潮。

反思模式潮，凸显出自主创新的匮乏。北京大学文化产业研究院贾辰、邢文敏分析称，当前国内综艺节目存在的主要问题，一是过度依赖模式引进，原创动力不足;二是同质化风气泛滥，造成资源浪费，不利于挖掘潜在的观众群体。

面对2015年更加激烈的综艺竞争，不少卫视将自主研发视为从综艺鏖战中突围的重要手段。

“2015年湖南卫视将加大棚内节目的创新。”李浩表示，“电视观众愿意接受精品，突围的关键是能否制作出观众喜爱的节目。只要是理性竞争，在创新上做足功课，打开视野和境界，而非囿于抄袭和模仿，在制作上也不要一味以拼明星资源为噱头，相信市场空间会很大。”在湖南卫视公布的2015年新节目中，两档原创真人秀《动物园奇遇记》和《偶像来了》备受关注。

王征宇认为，完全自主研发和引进模式再创新都属于自主创新的范畴。“《中国梦想秀》《我不是明星》《回到公元前》等都是完全自主研发的，而《奔跑吧兄弟》则是与韩国SBS电视台战略合作，进行本土化改造，属于第二种类型的创新。”

为了获得更多的创新资源，浙江卫视提出“两条腿走路”的方针：一方面自己积极研发，另一方面向社会开放资源，寻求更多的合作方式和可能性。“我们的原则是‘对内百舸争流，对外风云际会’，即内部形成竞争机制，员工竞争上岗，好节目有好位置，有高回报;外部寻求更多空间，只要方案好，什么样的合作机制都可以谈。”王征宇说。

2014年浙江卫视举办了“首届中国蓝电视节目原创模式大赛”。即将于2015年推出的真人秀节目《回到公元前》，就是来自于南开大学文学院3名学生在大赛中摘得特别创意奖的策划案。在明星牌渐成主流的国内综艺圈，这档纯“拼创意”的草根节目令人期待。

江苏卫视也在寻求社会上新鲜血液的注入。江苏卫视从今年8月起面向全社会公开召集节目创新方案。江苏卫视总监李响在2015资源推介会上表示，江苏卫视共收到了12000份方案，考量方案的首要标准即必须是“无版权纠纷的原创节目模式。”

鲍晓群特别强调了东方卫视对版权的重视。“我们有自主创新的节目，但如果涉及海外节目模式，无论是欧美的，还是韩国的，我们制作的前提就是明确版权的归属。”

许行明表示，真正的创新应着力于有突破性的节目样态和观众新的需求点，而不是在现有模式基础上做一些简单的改动就视为一档新节目。“观众肯定是喜新厌旧的，所以要不断地研究他们的社会生活和心理变化。观众不可能说得出他们喜欢什么，一定是我们研发一些新的东西，去契合观众的心理诉求，这样的节目创意才能火起来。”

王征宇认为，综艺节目的更新换代非常快，卫视频道一要加快自主研发与开放合作的步伐，二要有敏锐的市场嗅觉。“会有一个优胜劣汰的过程，但不必担心过多的综艺节目会导致收视率分流的问题。”

错位竞争

错位竞争方能另辟蹊径，避免陷入同质化的缠斗中。

在2015年招商会上，东方卫视打出了“新闻权威大容量、剧场贴近都市生活脉搏、综艺时尚多样”的节目定位。鲍晓群表示，与其他卫视不同，东方卫视一直坚持都市人群的市场定位，而且主要面向都市当中比较成熟的人群。

湖南卫视的特色则是年轻、新锐、偶像、时尚。李浩表示，湖南卫视一直是以年轻观众为核心， 2015年的综艺节目将着重关注年轻观众的成长、教育等社会议题。同时对个人与家庭，人与自然、动物、人文等之间关系的节目题材做深入研究和策划。

山东卫视是少有的以男性为定位的上星卫视，提出了“最男人，最中国”的口号。2015年，山东卫视将推出《中国面孔》第二季、《中国最美丽》《向世界出发》《我本闪耀》等综艺节目。

作为旅行文化、生活方式、时尚理念的传播者，旅游卫视的差异化的定位在卫视频道中独树一帜。旅游卫视总裁、频道总监韩国辉表示，2015年旅游卫视将以产业立台，大项目立台，在旅游、时尚、高尔夫等强势节目带外开发人文节目带和子夜时尚带，用产业倒逼节目，用节目带动产业，以多维度的节目组合向都市人群提供由客厅到全球的生活引领与服务，实现从单一节目生产到产业开拓的“越域”。

此外，节目编播也需“错位”。综艺节目数量越来越多，国家新闻出版广电总局调控政策从未放松，这也必然促使各大卫视对编播策略审慎思量。

湖南卫视在编播策略上进行了比较大的改动。摒弃了2013年招商期间发布的“主题日编播”，强化带状分布和板块集结。

李浩将湖南卫视的综艺编排比喻成一架“冲上云霄的飞机”，“每周五和周六晚间两档大型季播活动是‘飞机’的引擎，金鹰独播剧场、钻石独播剧场和新推出的《青春进行时》是机身，拉通全年的品牌节目《天天向上》和《快乐大本营》是机翼。”如此编排意在放大电视剧场的周间优势和户外真人秀等大型活动的周末优势。

网络海量信息处理系统设计研究篇7

1 网络海量信息处理平台的基本架构

笔者所设计的信息处理平台主要是以高性能计算机技术为基础, 其中包括统一视图中间件、分布式并行数据库、并行数据挖掘服务、并行计算环境、集群高速互连等等, 从而形成了一个功能良好的信息处理系统, 深入分析、挖掘各种数据信息, 提高网络空间整体的信息处理、信息检索、舆论分析、趋势研判的能力等。该平台的总体架构主要包括数据获取、存储和组织, 业务分析层、数据整合层、用户接口层等几个部分。

在该系统中, 整个软件系统的核心部分是数据挖掘模块, 其主要是在传统的数据挖掘算法的技术条件之下, 设置了一项包含热点、统计、溯源、行为分析、勾联分析和挖掘等业务分析模式在内的综合处理、分析、检索和有效应用网络海量信息的数据库平台或者是软件信息系统。具体来说, 数据获取部分主要是通过互联网的数据网关接入平台, 经过一系列的数据清洗以及格式统一化处理之后将不同类别的数据信息传输至目标数据组织之内, 从而在后续处理这些数据信息时候, 使其具有一定的有效性和精确性。数据组织主要是在线处理各项数据信息内容, 其中包括快速扫描、文字的提取、文件去重、文字的识别、数据过滤、特征提取、信息分类等诸多鲜明内在联系的功能。运用分布式并行数据库技术, 数据存储能够同时处理三层粒度, 由此大大提高系统的数据处理质量和处理效果, 并且通过分布式中间件, 来实现各个数据信息的并行处理活动, 而且还可以同时处理多个节点以及各个节点之上的多线程特征等等, 随后运用统一视图中间件进行数据信息的存储和管理活动, 最终使系统内的上层应用可以直接地、透明地访问底层分布式并行数据库。另外, 数据整合层经过特定的统一视图中间件, 一方面从分布式的并行数据库中提取原始的数据信息内容;另一方面, 通过面向主题的方式集成和存储数据信息, 由此提高软件系统的数据处理效率和处理质量。具体来说, 数据整合层主要包括以分析为主要目标的整合型数据建模以及数据清洗与加载等功能项目。其中, 以分析为主要目标的整合型数据建模是依据不同的挖掘应用, 通过一种以面向主题为基础的多维数据模型来进行数据信息的集成。该模型可以多层次、多角度地组织海量数据信息, 提供不同粒度的物化效果的视图, 从而即时查询从宏观到微观的数据信息, 以此来保证不同粒度并且是全方位的数据挖掘和数据分析。

业务分析层的主要功能是进行并行数据的挖掘, 它包含具体数据挖掘业务和开放式数据挖掘算法库两个部分。最后, 用户接口层是为网络信息检索者与使用者提供特殊的自动后台任务、挖掘任务向导、自定义任务、挖掘分析可视化、用户筛选与评价等诸多技术服务。

2 网络海量信息处理平台的关键技术

2.1 基于Infini Band RDS协议的并行数据库高速互连

并行数据库IB、RDS网络环境主要是由主机通道适配器、IB交换机、数据库应用支撑软件、子网管理四个部分组成。RDS极大地提高了并行数据库的可展性以及应用程序的性能。与IPOIB相比, 其CPU的占用率减少了大约50%, 而与UDP协议相比, 其延迟也减少了一半。RDS比千兆以太网的优势主要存在于易于使用、低延迟与低处理器占用率、高带宽与高可用性、无丢弃或者是重发的可靠包传输等等。以Infini Band RDS协议为基础, 在笔者所构建的高速互连的八节点RAC并行数据库实验环境中, 运用TPC-H benchmark基准测试比较Oracle RAC数据库IB RDS协议和千兆以太网互连之间的性能, 三个TPC-H典型查询的总运行时间, 后者比前者提高了大约33%。

2.2 分布式并行数据库统一视图中间件

通过统一视图中间件, 分布式并行数据库能够将众多并行数据库集合成一个比较大的分布式并行数据库系统, 因此, 统一视图中间件在整个系统中发挥着极为重要的作用。一般来说, 统一视图中间件系统以及分布式并行数据库主要包括客户端API、统一视图中间件服务、统计备份模块、系统安全、策略管理服务、数据库访问等。在该数据库系统中, 统一视图中间件能够促使上层应用透明化地访问底层分布式并行数据库, 从而为网络海量信息处理平台应对上层应用提供了高效的开发接口。除此之外, 该软件应用并行查询优化、SQL语法解析、多级负载均衡以及容错等诸多重要技术, 从而极大地保证了整个系统的可靠、可用、高速、并发等性能。

2.3 以数据库为基础的并行数据挖掘

以数据库为基础的并行数据挖掘主要是底层构建开放式挖掘算法库, 包括聚类、分类、关联、文本挖掘、序列模式、异常识别、重要属性、特征提取等等, 其优势在于方便网络信息的管理与数据准备、挖掘计算自动并行、减少数据移动、充分利用SQL的功能服务、提高数据安全性等。上层开发出的网络信息处理平台包括热点分析、统计分析、勾联分析等多种业务分析手段, 其优势在于支持并行计算和多个并行数据库挖掘、支持Windows/Linux平台、高速与并发的性能比较好等特征。

2.4 网络文本数据挖掘

网络文本是最常见的网络信息呈现方式, 因此, 其数据挖掘是网络海量信息处理平台的一个极为重要的基础功能, 主要包括文本的存储与管理和安全检索两项重要内容。一般来说, 前者是基于文件系统, 通过逻辑存储、物理存储、用户视图三层模型结构来组织和存储全文文本。其中, 在物理存储中, 整个系统支持根据地域、时间、主题等类别进行的多级、多目录存储。逻辑存储则主要是存储文本库索引信息, 它采用多级文件索引技术, 在计算机操作系统提供的文件管理之上, 采用各种数据结构, 将文件的物理存储位置进行分级存储。用户视图以逻辑存储为核心, 通过便捷而高效的文本索引技术, 来管理不同的文本信息。

3 结语

海量信息篇8

随着信息技术的发展和互联网的普及, 在Internet中有着数以亿计的网页, 成千上万的TB数据, 包括文本、图像、声音、影像等等。另外, Internet中每天有数十万的网页更新, 数百万的新网页加入, 使得其信息丰富而复杂, 在网络上获取任何信息已成为可能, 但获取准确、有效的信息, 成了计算机技术发展需要解决的主要问题, 对Internet中海量信息的有效处理的需求越来越迫切。

海量数据的优化处理, 一方面要合理使用数据库工具和合理分配系统资源;另一方面要有好的处理方法。好的优化处理方法及其优化查询能进一步提供查询效率, 提高用户的查全率和查准率。

1 海量信息的优化处理方法

1.1 选择合适的数据库

海量数据的处理对所使用的数据库工具的要求比较高, 一般情况下使用Oracle、DB2或者微软的SQL Server2005。另外在BI领域、数据库、数据仓库、多维数据库和数据挖掘等相关工具也要进行选择, 较好的ELT工具和较好的OLAP工具对海量数据的有效处理都是十分必要, 例如Informatic、Eassbase等。

1.2 优化程序代码

处理数据离不开优秀的程序代码, 尤其是对海量复杂数据处理时, 必须使用程序。优良的程序代码对海量数据的处理至关重要, 可以提高数据处理的准确度和效率。好的程序代码包括好的算法、流程处理、效率和异常处理机制等。

1.3 数据分区操作

对海量数据进行分区操作可以提高处理速度, 像按月份存取的数据, 可以按月份进行分区, 例如移动手机话费查询系统。不同的数据库管理系统有不同的分区方式, 单处理机制大体相同, 像SQL Server数据库管理系统分区是将不同的数据存储在不同的文件组下, 而不同的文件组又存储在不同的磁盘分区下, 这样即可分散数据, 以减少磁盘I/O和系统负荷。

1.4 建立索引

针对海量的数据处理, 在大表上建立索引可以提高处理效率。但建立索引要考虑到具体情况, 大表的分组、排序等字段, 应该建立相应索引及复合索引。但对于插入操作较频繁的表要慎重建立索引, 例如:在一个ETL流程中, 若先建立了索引, 在聚合操作完成后, 当再次进行插入数据操作时, 则要先删除索引, 然后才能插入数据。所以, 在海量数据处理时要在恰当的时候用索引, 并且要考虑到索引的填充因子和聚集、非聚集索引等。

1.5 分批处理

海量数据处理难的主要原因在于数量大, 我们可以对海量数据分批处理, 再把处理后的数据进行合并操作, 这样, 可以避免海量数据处理带来的诸多问题。但采用这种方法处理海量数据时要因时因势进行, 如果某些数据不允许拆分, 则不能对其进行分批处理。一般按时间、按部门、按地域等存储的数据, 都可以采用先分批后合并结果的方法, 即对数据进行分批处理。

1.6 采用文本格式存储数据

利用程序处理数据有程序操作数据库和程序操作文本两种方法, 但对海量数据的处理一定要选择程序操作文本, 因为程序操作文本的速度快, 对文本格式数据进行处理时不容易出错, 且文本格式数据的存储不受限制。例如海量的Internet日志一般都是文本格式, 最好利用程序对其进行数据清洗处理, 而不应先把海量的Internet日志导入数据库再做清洗处理的操作。

1.7 使用数据仓库和多维数据库

在系统的开发中, 当数据量增大时可以利用OLAP技术, 即建立数据仓库, 建立多维数据集, 基于多维数据集进行报表展现和数据挖掘等, 基于Cube的查询在很大程度上能提高数据的查询效率。因此, OLAP多维分析是处理海量数据的利器之一。

2 海量信息的查询优化

2.1 优化SQL查询语句

在海量数据中进行查询处理时, SQL查询语句的性能很大程度上决定着查询效率, 高效优良的SQL脚本和存储过程能提高其查询速度。

(1) 避免在SQL查询语句中使用select* from table, 应用表中具体的字段列表代替“*”。

(2) 避免写一些没有意义的查询, 如生成一个空表结构的查询:select sno, sname into #table1 from stu where 1=0。像这类代码不会返回任何结果集, 但会消耗系统资源, 应改成这样:create table #table1 (...) 。

(3) 用exists代替in: select nume from table where nume in (select nume from stu) 。

最好改成用下面的查询语句: select nume from table where exists (select aa from bb where nume= table.num) 。

2.2 避免全表扫描

要避免全表扫描, 首先应在where及order by字句涉及的列上建立索引。但以下情况仍会导致全表扫描, 应该尽量避免:

(1) 在where子句中若没有判断字段是否null值, 则将导致引擎放弃使用索引而进行全表扫描。如:select id from table where num is null, 可以在num上设置默认值0, 确保表中num列没有null值:select id from table where num=0。

(2) 在where子句中使用!=或<>操作符, 或者在where子句中使用or来连接条件, 以及在where子句中对字段进行表达式操作, 搜索引擎将放弃使用索引而进行全表扫描。如: select id from t table where num=6 or num=8。应为:select id from table where num=6 union all select id from table where num=8。

(3) 在where子句中使用参数, 也会导致数据库引擎进行全表扫描。因为SQL语句只有在运行时才会解析局部变量, 如果在编译时建立访问计划, 变量的值还是未知的, 无法作为索引, 这样就导致数据库引擎进行全表扫描。如:select id from table where num=@num。可以改为使用索引的强制查询:select id from table with (index (索引名) ) where num=@num。

(4) 在where子句中对字段进行函数操作, 将导致数据库引擎进行全表扫描。如:①select id from table where substring (name, 1, 3) ='nam';②select id from table where datediff (day, createdate, '2011-10-30') =0。

应改为:①select id from table where name like 'nam%';②select id from table where createdate>='2011-10-30' and createdate<'2011-12-1'。

2.3 正确使用索引

索引可以提高相应的select查询效率, 但索引并不是越多越好, 索引的使用也在一定程度上降低了insert及update操纵的效率。因为基表在执行insert或update操作时有可能会重建索引, 所以索引不是建立就好, 需要慎重考虑, 视具体情况而定。同时, 索引也不是建的越多越好, 一个表的索引数最好不要超过5个。同时, 在使用索引时还要注意下面几个问题:

(1) 不要在where子句中的“=”左边进行函数运算、算术运算或其他表达式运算, 否则系统将可能无法正确使用索引。

(2) 复合索引字段作为查询条件时, 必须使该索引中的第一个字段作为条件, 否则该索引将不起作用, 并且应尽可能地使索引顺序与字段顺序相一致。

(3) 有些索引对查询是不起作用的, SQL语句是根据基本表中的数据来进行优化查询, 当索引列有大量数据重复时, SQL查询语句可能会放弃索引, 例如基表中的“婚否”字段, 当“是”和“否”值几乎各占一半时, 在“婚否”字段上建立的索引对查询效率起不了作用。

2.4 合理选择字段类型

基本表是存储数据的主要形式, 在建立表结构时必须合理地选择数据字段类型。

(1) 只含数值信息的字段尽量使用数字型字段, 而不要设计为字符型, 否则会降低查询和连接的性能, 并增加存储开销。因为数据库引擎在进行查询和连接操作时会逐个比较字符串中每一个字符, 若是数字型字段则只需要比较一次。

(2) 存储字符数据时尽可能使用varchar/nvarchar类型而不是char/nchar类型。因为varchar/nvarchar字段类型存储空间小, 可以节省存储空间, 同时, 在一个相对较小的字段内进行查询操作, 其搜索效率要高些。

3 结语

对海量信息的处理是目前信息检索与数据库技术的热点。本文主要从数据库选择、海量数据区分、批处理、使用采样数据进行数据挖掘等方面研究海量信息的优化处理方法;并针对信息检索的查询操作进行研究, 提出了优化SQL语句、避免扫描全表、正确使用索引和合理选择字段类型等查询优化方法。本文提出的优化方法是笔者在教学工作中总结出来的, 只是在局部海量数据的处理中的优化方法, 在今后的工作中还要将本文提出的海量数据处理的优化方法进一步进行实验, 以更好地处理海量数据。

参考文献

[1]陈越州, 杨树强, 贾焰.基于CORBA的并行海量数据处理系统的研究[J].中南林学院学报, 2006 (6) .

[2]汪晓岩, 胡庆生, 李斌.面向Internet的个性化智能信息检索[J].计算机研究与发展, 1999 (9) .

[3]KOORANGI M, ZAMANIFAR K.A distributed mobile agent basedweb search for adaptive meta search engines[C].ITI 3rd Internation-al Conference on Information&Communications Technology, 2005.

[4]郑吉平, 秦小麟.数据挖掘中采样技术的研究[J].系统工程与电子技术, 2005 (11) .

[5]谷震离.基于SQL查询语句的查询优化方法[J].计算机时代, 2005 (2) .

[6]冯玉才, 张鹏程.基于近似查询的在线分组聚集及其应用[J].计算机工程, 2005 (16) .

[7]韩恺, 岳丽华, 龚育吕.利用关系数据库系统对半结构化数据进行近似查询[J].中国科学技术大学学报, 2005 (5) .

海量信息篇9

关键词：云平台,海量数据,信息处理

1 数据挖掘概念

数据挖掘就是从大量的、模糊的、不完全的、毫无规律的、真实的、随机的数据中挖掘或抽取出有价值的、未知的、新颖的、隐含在大规模数据中不为人知的模式或规律等知识的复杂过程, 提高海量信息知识的服务质量。如何通过寻找数据间潜在的关联, 把隐藏于大量数据之内的事先不为人们所知的知识挖掘出来, 数据知识挖掘的过程如图1所示。

2 开源云计算平台Hadoop

云计算是一种新型的基于互联网的、大众参与的计算模式, 它将大量的计算资源共同组成了IT资源池, 巨大的资源池连接在一起, 将庞大的计算任务, 分布在大量的、廉价的并行计算机上运行, 其计算资源是动态、可伸缩、被虚拟化的, 它将IT资源、数据以及应用作为一种服务, 通过互联网提供给用户。用户可根据自身的需来访问计算机以及存储系统。云计算用于动态创建高度虚拟化的资源提供用户使用。云计算平台是以文件系统HDFS、分布式并行编程模型Map Reduce和分布式数据库HBase为核心的开源分布式的计算平台。HDFS文件系统用于可靠地存储海量的数据集, Map Reduce模型是一个在超大集群下进行海量数据计算的一种编程模式。由Map和Reduce两个模块处理海量信息, Map负责把一个大Map任务分解成多个Map任务, 在可接受的时间内, Reduce把分解后的多个Map任务处理结果汇总起来, 得到最终结果。在云计算平台Hadoop的基础上, Map Reduce模型可以为海量和复杂数据对象的数据挖掘提供基础设施。Hadoop云平台为不同的用户提供了编程环境。用户可以根据需要, 构建自己的Hadoop计算云平台。Hadoop云平台的项目结构如2所示。

3 基于Map Reduce的海量信息处理

随着网络信息飞速地膨胀, 从信息的海洋中查找和获取所需要的信息愈发重要。本文探讨通过Hadoop云计算平台, 设计基于Map Reduce模型的信息处理系统。系统由三个阶段组成: (1) 提取网页数据。系统利用Hadoop平台下的Map Reduce计算模型进行数据收集, 首先将感兴趣的网页的链接地址写入本地一个文件中, 然后启动Hadoop平台中的HDFS文件系统将文件导入。 (2) 对提取到的数据按需要进行分析处理, 系统对收集到的海量网络数据进行分析并处理, 把收集的网络数据属性进行封装, 封装后的数据可以方便地应用到Map Reduce计算模型中, 这样可以大大降低代码量, 提高数据处理速度。Map阶段主要是数据收集部分的处理, 是通过各种判断语句来实现的。Reduce阶段主要是把符合标题长度的数据输到HDFS上, 分析Map Reduce模型, 通过对网页数据的分析和处理, 就可以得出所需要的数据类型, 然后输出所需要的特定的数据信息格式。 (3) 用户根据自己的需要, 对自己感兴趣信息进行查询。当用户输入査询内容时, 系统使用双向匹配算法, 对输入的中文通过査询己经准备好的数掘字典 (用Berkeley DB存储) 进行分词, 得到很好的处理效果。实验表明, 通过利用Hadoop平台运行程序, 当获取大数量的网络信息时, 能够大大缩短程序的运行时间。

4 系统实现的关键技术

本文采用的关键技术是网络爬虫和双向最大匹配算法, 网络爬虫是通过用户给定的网页链接地址抓取相应的内容, 是一个自动提取网页的程序。在抓取网页数据时, 应用多线程的抓取方式, 把抓取到的网页数据存储在HDFS文件系统中, 不需要经过本地。这样整体爬行速度就大大提高了。本系统在进行中文分词时, 系统采用双向最大匹配算法。首先对用户输入的查询字符串经过处理进行划分, 把一个短语分解成词语的组合。然后, 根据最少切分原理, 最终确定分词的结果。数据存储方式采用的数据库是一个嵌入式数据库Berkeley DB。DB管理的数据方式相对比较简单, DB对数据类型不做任何限制, 由程序员自己设计。由于它是嵌入在编写程序的函数中, 所以可以管理256T大小的数据量。在数据预处理过程中, 选择并行处理方式, 以提高数据管理和挖掘效率, 实现高效的云计算并行海量数据挖掘算法。

5 结语

海量信息篇10

云存储 (Cloud Storage) 是在云计算基础上一个扩展和延伸。通过网格技术、集群应用、分布式文件系统和大数据存储技术, 将网络中不同类型的计算机存储设备, 通过协同软件技术让他们一起协同工作, 网络技术为依托, 以分布式存储技术为核心, 共同对外提供安全可靠的数据存储和业务访问功能的一个服务系统。云存储是一种服务, 是有很多服务器和大大小小的存储设备组建而成的综合体。通过网络提供给用户。主要通过互联网发接口 (如REST) , 使得第三方网站可以通过云存储提供的服务为用户提供完整的服务。云存储是一个公用访问接口、客户端程序、应用软件、网络设备、存储设备和服务器等多个功能模块组成的服务体系。每个功能模块存储设备为核心, 以获取外部提供商务服务和数据存储应用程序和应用软件。云存储系统主要有存储层、基础管理层、应用接口层和访问层四层组成。

2 云存储数据的加密

为保证第三方提供的云存储数据库中敏感数据和重要数据的安全, 防止数据信息的泄露, 目前最好的方法就是对数据进行加密保护。通过加密数据信息, 实现信息的安全传递。在关系型数据库中, 数值型数据和字符型数据最为常用。如对数值型数据加密后, 原有数值型数据的有序性、可比较性的属性发生了改变。对字符型数据加密后, 原有字符型数据的相似性等也发生了改变。因此, 需要找到一种方式保护云存储数据库中的敏感数据的安全。由于关系型数据库自身的特点及实际应用的需求, 关系型数据加密有如下要求:关系型数据库中的数据信息的存储周期一般比较长, 因此加密的力度要大、使之难以破译;加密后的数据, 存储空间不能明显变大;加密和解密速度要快, 不要影响数据库使用的响应时间。为了满足数据库这种高响应要求。对称加密方式比较适合数据库加密。分组密码是对称密码体系中的一种, 分组密码具有加密速度快、安全性好、易于标准化等特点, 分组密码是对一个大的明文数据块 (分组) 进行固定变换的操作, 用软件实现较好。另外, 对数据的保密传输、加密存储等场合比较适用。

3 加密策略和安全性分析

3.1 加密策略

针对云存储中数据库服务的安全性问题, 提出了一种适用于云存储数据库的加密策略, 该策略通过变换初始化向量改变数据库中的密文分布规律, 初始化向量相当于密钥存在客户端, 在数据库中只需要记录变换次数即可, 可以有效的避免基于频率攻击方式的攻击。在数据库只需存储一个TINTINT型数据, 对数据库造成的冗余很小。在云存储的数据库中, 对敏感数据进行加密保护, 为了降低数据库加密后的冗余度, 釆用基于数据项的加密方式。用分组密码算法进行加密, 加密需要初始化向量IV (Initial Vector) , 对于不同的明文, 一般密文不相同。遇到相同的明文数据时, 我们需要变换IV。以学生信息表中Age字段为例, 假设Id为学生编号, Age字段为敏感数据字段, Id=3的Age与Id=5, Id=6的记录Age重复, 就需要对Id=5, Id=6的Age变换初始化向量值。为了防止hash碰撞。变换初始向量采用安全序列算法SHA256算法进行变换, 设OIV (Original Initial Vector) 为原始初始化向量, IV表示变换后的初始向量, 变换过程可以表示为:IV=SHA256 (OIV) n, 其中n代表哈希循环的次数。

3.2 初始化向量存储和加密策略的安全性

由于在云存储的数据库中, 数据信息一般是海量的, 如果把每次变换后的初始化向量各存储一次, 可能对数据存储会造成大量的冗余, 攻击者可以根据那些重复出现的记录, 进行数据库攻击, 因而造成敏感数据信息的泄露。因此, 采用初始化向量保存在客户端, 只存储原始的初始化向量IV变换次数的方法, 实现减少数据存储的数量, 保证初始化向量的安全, 在云端数据库中, 加密策略和方法是隐密的, 只能看到初始化向量的变换次数。对敏感数据信息解密, 首先根据主键计算哈希的循环次数n, 然后通过计算得到当前需要的初始化向量。

采用分组密码进行加密, 运用改变初始化向量的加密方式, 隐藏明文的统计特征, 防止错误的传播控制, 防止基于频率的数据库攻击, 采用安全散列算法SHA256可以防止Hash碰撞, 生成满足要求的变换向量。

针对云存储在云端关系数据库服务的安全性问题, 提出了一种采用分组密码用于云存储数据库的加密策略, 策略思想:首先变换初始化向量, 来改变数据库中的密文分布规律, 初始化向量相当于密钥存在客户端, 在数据库中只需要记录变换次数即可, 可以有效的避免基于频率攻击方式的攻击。在数据库只需存储一个TINTINT型数据, 对数据库造成的冗余很小。在此基础上提出了, 提出了基于数值型密文划分器和密钥散列序列的查找方式, 这种方式能很好的解决等值检索和范围检索。该检索方案返回满足要求的密文, 对此密文进行解密即可, 避免了不必要的解密和数据传输, 提高云存储数据的密文检索效率。

4 结束语

安全的云存储系统, 要求用户的敏感数据在云端是以密文形式存储的, 云存储服务提供商无法得到与用户数据有关的任何信息。在云存储系统中, 解决云存储中敏感数据信息隐私保护问题, 既要保证敏感数据信息拥有者的隐私, 又要兼顾客户端的性能开销。本文提出的基于分组密码的云存储数据隐私保护机制, 在云存储环境下服务器不可信, 防止恶意用户和拥有管理员权限的系统管理员非法窃取、篡改用户隐私数据。因而保证了敏感数据的安全性。

摘要：云存储模式是在云计算基础上的一个延伸和发展, 云存储是一种服务, 主要基于网络技术, 提供给用户数据存储和访问服务。本文分析了云存储基本概念, 云存储模式的基本结构, 针对云存储中数据库服务的安全性问题, 提出了一种适用于云存储数据库的加密策略。采用基于数据项的加密方式, 降低数据库加密后的冗余度。以在保护云存储用户数据的隐私。

关键词：云存储,数据,加密

参考文献

[1]刘思得.基于网络的云存储模式的分析探讨[J].科技通报, 2012, 10:206-209.

[2]徐小龙, 周静岚, 杨庚.一种基于数据分割与分级的云存储数据隐私保护机制[J].计算机科学, 2013, 2:98-102.

[3]王鹏.云计算的关键技术与应用实例[J].北京:人民邮电出版社, 2009.

海量资讯时代篇11

我们已经不可避免地身处资讯大爆炸年代了，每天早晨，在度过了30分钟汽车广播的喧嚣，5分钟等待电梯时分众媒体的广告轰炸后，你终于到达了公司。打开电脑收发邮件，上门户网站浏览时事新闻或是打开RSS浏览器查看你订阅的新闻(通常也是海量的)，手机也不会闲着，购书网站根据你过去购买的图书，不断向你推荐被认定的你会喜欢的书目。晚上回到家，电视和报纸上所谓的新鲜资讯总是排山倒海的向你涌来，总看不完，总有太多想看的，而看得多忘得也越多。

资讯如今围困着所有的城市，人们在享受着资讯无微不至的服务时，也沦为了资讯的奴隶。大多数人面对资讯的态度仍是“宁可错杀三千，不可放过一个”，真正做到了“吾日三省吾身”。手机、电台、电视台，短信、网络、报纸，资讯逼人来。太多的“危险信息”让许多人如电影《手机》里的严守——样整天担惊受怕，魂不守舍，资讯解读专家理查，伍尔曼告诉我们：“资讯焦虑症”是一种身心障碍。信息消化不良足够让你拥有自我强迫感和紧张感，头晕脑胀、心悸恍惚、胸闷气短、精神抑郁、烦躁不安、痛经都是可能症状。

不是人人都能当知道分子

“时事评论员”梁文道每天保持着时刻阅读，海量阅读。他的资讯菜单是：每天看14个网站、13张报纸，包里时刻放着两本正在读的书，定期消化21本杂志。每天的午夜零点到凌晨3点属于网络阅读时间，而每天上班前、上班途中、下班途中、下班后一段时间属于读报时间，晚餐时间属于电视，写稿想放松的时候看杂志。他把自己定义为“买办”，把高层知识分子的东西翻译出来给其他人。他认为读书最重要。光读报纸跟杂志会营养不良的；第二是越投入，越要有意识地保持一种距离感。

知道分子是资讯的二道分子，上通天文、下知地理，起着资源整合功能，就比如凤凰卫视宣传的：让李敖去读书，我们读李敖，我们看电视上的李敖，是因为把“深”的任务转嫁给了他，而我们只需要浅显的读李敖。他们拥有各种门类不同的知识，每一样不是非常精通，只是泛泛而知一些相关方面的基础知识和信息，但他们的知识面却是横向的，开放的。

从知道分子身上，我们似乎隐约可以看到当今社会的浮躁。从另一角度来说，别说拥有人类几千年积攒下来的知识储备，就是对某一门类的知识，要大致理出个头绪，恐怕都要让一个人穷尽一生。知道分子的存在意义在于让人懂得有选择的阅读、懂得适当放弃是惟一可行的途径，知道分子只说别人要听的话，说别人想要知道的东西。

人生是一次浏览，关键在哪里停留

不可否认，我们生活在一个注意力绝对一切的世界里。经济学家为此发明了“眼球经济”这个概念。最初它代表的只是互联网发展过程中的一个特有现象，现在已经引申到其他形形色色的行业领域中。一个新浪头条每天会有上千万的浏览量、上百万的评论，在新浪总编辑陈彤看来，点击率就是网络媒体江湖地位的标志之一，传统的出版流程，从组稿、报选题、编辑、制作到付印，一般需要半年以上。而如今的很多畅销书特别是热点题材书的操作方法第一要诀就是快。于是市面上就有了许多具有杂志形态和特征的书，被称为MOOK。

海量信息篇12

1、数字化图书管理技术的现状及关键问题

面对如此庞大的数字图书资源, 现代数字化图书管理技术也迎来了新的挑战[1]。从以下几个方面对数字图书管理技术有了新的要求:

首先, 对数据管理系统的整体架构也有了新的要求, 传统的数据库管理系统中, 缺乏设计商务数据处理功能, 而且欠缺必要的转换, 以数据的管理和控制为中心, 构成了传统数据管理的系统结构, 这种结构不仅不适合数字数据资源的管理, 而且在结构上也逐渐落伍, 因此, 在这一方面, 现代数字图书管理技术对海量星系管理体系有了新的要求[2]。

其次, 在数据信息的存储量上也逐渐加大, 传统的数据存储设备主要使用小型的计算机系统进行存储, 不仅在存储的效果上存在很大缺陷, 而且在存储的量上也严重不足, 基本上都是数据的在线迁移和长时间的档案传输。因此, 现代数字图书管理技术在信息数据存储量上, 也有了较大的进步, 多计算机多层次的存储系统进行了研发。

另外, 在数据信息组织和交换的信息量上越来越大。现代数字图书管理技术, 针对不同类型的媒体, 建立了新型的信息数据组织模型, 进行全面的信息交流与共享, 采用国际化规范标准进行信息数据的互换和传输。

最后, 在信息数据的查询处理方面, 也有了更高的要求。传统的数据库系统中, 查询的方式主要以查询语言为主, 而在实际的查询中, 搜索大量的数字资源时, 传统的查询缺乏必要的查询机制, 应用加入新式的搜索模式, 如利用关键字搜索, 全文内容搜索、相似性搜索以及基于全文内容的多媒体检索等。在此方面, 现代数字图书馆的海量信息管理技术对检索系统进行了多方面的研究, 针对海量信息数据的检索, 提出了一个新型的体系结构, 不仅满足了海量信息数字检索的要求, 而且针对数字资源的特点, 包括其动态分布及数据的差异性, 做了必要的技术革新。

2、数字图书馆的海量信息管理体系结构研究

2.1 开放式信息存储系统

开放式信息存储系统, 该系统是随着网络技术的不断发展而兴起的, 它见证了网络技术发展的成果, 该系统是在传统的网络五层结构中发展起来的。它和最新的网络服务技术相融合, 是一个具有服务性的新系统。该系统最大的设计特点就是在设计过程将服务思想以及虚拟思想融合进去, 它把信息服务以及资源、数据管理等各方面的网络技术和网络中的服务机制很好结合在一起, 因此这种架构可以通过包装各项资源, 将其转化成具有开放性和通用性的网络服务模式, 就可以用一致的协议来对服务接口加以描述和定义。这种统一的通信服务管理, 能够优化数字图书馆在建设过程中的虚拟性设计, 从而有效解决数字图书馆传统结构的缺陷。

作为起源于空间数据和应用卫星及地理信息数据技术的开放式存储信息系统[3], 在现代图书馆海量信息管理技术上广泛运用。随着现代科技的不断发展和普及, 开放式信息存储系统的运用和系统的模型以及有了更好的了解和认识, 作为图书数据和档案的管理, 是一个需要长时间保存的资源管理工作, 并且在数据的长期保存策略和技术方面, 都有相当高的技术要求, 比较数据模型和数字信息的保存档案, 对信息数据模型的基本信息进行讨论, 从而解决数字图书馆的海量信息管理技术中的各种功能, 包括档案的提取、档案的存储、数据的管理、数据的访问及数据的传输。

2.2 数字图书信息资源网络存储技术

所谓网络存储其实就是将必要的数字信息存储在独立的网络服务器或其他网络通信设备中, 以其快捷、可靠、方便、效率等优势, 逐渐替代了传统的信息数据存储, 其有三个主要的网络存储方式[4]:网络附加存储、FC-SAN (存储区域网络光纤通道) 和基于SAN存储区域网络存储技术。除此之外, 还有很多有待开发和正趋于成熟的存储技术, 例如技术的硬盘, 磁盘, 网络通信协议等方面, 都可以加大研发力度, 充分投入数字图书馆的海量信息管理中, 而新技术本身也具有很多的特点:如成本低, 易于安装, 易于使用, 易于管理, 易于规模和可靠性好等, 并且, 可以用来快速解决问题的相对大型共享数据在不同的平台。但是, 当不只有移动瓶颈之间的服务器和存储设备的通信网络, 也可以只分布在有限的范围。因此, 一些新式的存储技术尚不适合的应用海量数据访问, 远程备份, 灾难恢复。

3、结语

综上所述, 随着现代网络信息技术和数字化技术不断发展普及, 数字图书馆的海量信息管理体系结构中, 现代科技的大力投入与广泛运用逐渐成为现代数字图书馆的发展趋势, 充分应用现代网络信息技术, 完善数字图书馆的信息管理体系, 在当前数字图书管理发展中具有十分重要的地位。

摘要：利用数字化信息技术, 不仅可以有效地将海量的图书信息进行有序管理, 还可以通过检索系统对大量的图书信息进行准备检索, 提取有效数据。本文通过对目前管理海量图书数字资源的现状及关键性问题进行论述, 深入探析数字图书馆的海量信息管理体系的结构。

关键词：数字图书馆,信息管理,管理体系,海量信息

参考文献

[1]张显政, 单广荣, 杨筱平, 王晓.基于WSRF的数字图书馆体系结构网格化研究[J].甘肃科技纵横, 2009, (02) .

[2]杨传明.基于移动代理的数据挖掘在数字图书馆中的应用研究[J].情报理论与实践, 2008, (03) .

[3]徐原青.基于读者满意度的数据挖掘在数字图书馆中的应用[J].图书馆学刊, 2009, (07) .

【海量信息】推荐阅读：

海量阅读05-15

海量存储技术05-17

海量数据传递05-27