信息数据

2024-09-16

信息数据(精选12篇)

信息数据 篇1

公元前221年,秦始皇统一六国后做了七件事情:车同轨、书同文、统一度量衡、建立驰道、巡游六国、实现郡县制、修建长城,而在我看来,这些都是统治信息化的手段。秦始皇的信息化建设,奠定了中国后来的1000年盛世基础,也带来落后的病根。按照信息发生方式研究,秦始皇的信息化建设,建立了极权秩序的开端,只是那个时代这种制度还不成熟。秦始皇采用的七项信息化手段,实现了中央命令上情下达,但信息还是单向的,即秦始皇让全国人民知道了中央政府,而秦始皇却不知道全国人民怎么想的。也因此,几个极为关键人物——陈胜、吴广(王侯将相宁有种乎),项羽(彼可取而代之),刘邦(大丈夫当如是)及赵高(阳奉阴违),都是秦始皇单向的极权秩序无法掌控的。

不仅如此,秦始皇的第七项信息化手段——修建长城,不仅没有帮助建立极权秩序,反而多次成为游牧民族的超级信息体,一直影响着中原王朝。事实上,长城并不是秦始皇所修建,只是秦始皇将数段长城连成一片,而就是这“连成一片”,让中原王朝从此数度遭殃。按其本意,长城的烽火台、烽火、驿站、驰道构成的信息化手段是确保秦始皇万世基业长治久安的策略,然而,正是这连成一片的长城的信息基础设施建设,忽略了一个非常重要的因素。

按照地质学家和农学家计算,北部游牧民族在每年降水量400毫米以上的时候,都以放牧为生,中原的农耕百姓与游牧民族相安无事,而每当年降水量低于400毫米的时候,草原退化,强悍的游牧民族就会过来抢,而当降水量恢复之后,游牧民族又会回到草原,周而复始。原来的长城,就是战国时期的平均400毫米降水线。但之所以没有形成很强大的游牧民族,是因为长城没有连成一片,在长城的间隙,抢劫的游牧民族可以进入中原,且容易得手,而容易得手的游牧民族就存在一个巨大的问题——因为没有长城的阻拦,无法聚集在一起,无法形成一个统一的民族。然而,长城被连成一片后,游牧民族总是在灾年被堵在长城之下,于是首先自相残杀,然后产生英雄,最后聚集在一起,一举歼灭中原。

秦始皇的极权秩序并不是特例。1533年,西班牙殖民者发现了印加帝国,便拿着枪对印加帝国的皇帝说:“要么给我黄金,要么给我命。”结果给出了黄金的皇帝,也没能保住命。这个时候,西班牙殖民者无论从人数上还是从军力上,都根本无法和庞大的印加帝国抗衡,然而,靠极权秩序建立的印加军队失去了单向信息发号施令的皇帝,从而瞬间被灭掉。

灭掉印加帝国的西班牙殖民者和后续的殖民者,却无法剿灭这样一个特殊的群体——阿帕奇部落。阿帕奇部落与印加帝国不同的是,根本没有皇帝,并建立了一种类似中国游牧部落的有机的秩序。后来,阿帕奇部落最终被打败,原因是殖民者在其内部扶持了一个极权秩序,这不仅被殖民者认可,也被阿帕奇部落认可,最终导致被灭。

●极权秩序与有机秩序

十年前有一本很畅销的书,叫《海星模式》,就是讲上面的故事。按照《海星模式》中的说法,极权秩序是非常不稳定的,而海星组织却是异常稳定和有机的。秦始皇构建的信息由上至下的单向或者双向传递模式,有致命的缺点,那就是一旦中间产生断裂,就是灾难性的。

按照今天信息传播的视野,建立起信息垄断的逻辑组织的同时,也会被信息丧失所困扰。而在一个信息全透明的组织体内,如果一旦建立起有机的秩序,将是很难被灭绝的。这与海星组织相类似,网状组织、球队型组织、信息扁平化都不断被发现和研究。例如,在奥运会中,我国队员的表现就有一个很有趣的现象:凡是隔着网的运动(网球、乒乓球、羽毛球、排球),团队的成绩都还不错;而那些不隔着网(足球、篮球等)的团体运动就不是很好。事实上,这不仅仅是体能和战术问题,更多的是一种信息文化问题,习惯于极权秩序的中国人,怎样能在全息和瞬间变化的局势中建立配合呢?谁说了算呢?这不是技术能解释的。在瞬息万变的赛场上,全息透明的信息、直接的信息表达与游牧文化更加类似,而接受着原产于农耕的等级文化的中国队员在面对信息时的第一反应是善意与否、合适与否、越位与否,很难组织成为有机的秩序。

●信息集中、权力下放

“信息化就是一把手工程”,这是我在硕士、博士期间经常听到的一个信息化建设的金科玉律。按照这个模板,很多传统的极权体制,在试图建立起有序的集权信息化秩序时,却很难成功。薛华成教授提出的“信息集中、权力下放”,是在极权秩序下信息传递较好的一种信息哲学。按照这种哲学,信息集中和权力下放互为因果,信息集中是权力下放的保证,权力下放是信息集中的前提。信息集中就是尽可能地减少信息流程而将重点聚焦在数据层,而权力下放就是尽可能地发挥个体的积极性。

事实上,明朝基本上实现了“信息集中、权力下放”,也将极权秩序发展到了极致。所有领土的太守、巡抚构成互为制约的通知架构,东厂、西厂又构成自下而上的特务机构,一个太监可以横行一时却无法造反,草民也可以将贪官送到京城。

●消费者即生产者

著名的未来学家托夫勒在《财富的革命》一书中,强调了一个概念:PROSUMER(消费者即生产者)。按照书中的未来世界,PROSUMER由彻底的Prosumers、改造玩家、见多识广的消费者、个性化定制者构成。然而,现实比想象走得更快,我们今天在淘宝上买东西并评价,在携程上买机票并将信息输入系统,甚至我写的文章到处找不到而网上比我自己的电脑还全。我们自己在生产信息的同时,也成为信息的消费者。

2015年QQ用户超过6亿,而如今微信用户数量更高,每一个网络节点的消费者,都使用一个手机与世界相连,他们既是信息的消费者,也是信息的生产者。人们在一个巨大的、没有等级的信息空间中,构成了一种有机的秩序,这种秩序将各种志愿者构成一个个信息生命体。在生命体中,会产生各种思潮,来无影去无踪,没有领导,也没有皇帝,除了巨大的导向问题,甚至找不到元凶:高尚是高尚者的通行证,卑鄙是卑鄙者的墓志铭。

在互联网时代,人们即像被逼到长城脚下的游牧民族,大家信息透明、过剩、压力极大、没有任何等级、充满了英雄崇拜,又像足球场上的队员,没人告诉你谁是一把手,也没有一把手,但却可以建立一种有机的秩序。

有一种东西,中国人称其为“太岁”,科学家称其为“超级有机体”,不是植物,不是动物,也不像传统的菌群,但是摸上去软乎乎,具有生长的特征且生命期特长。目前,网络空间太岁已经形成。你既不能对他善意、也不能对它恶意,很难说它是好的,或是坏的,就是不能忽视它的存在。

●回归教育

说到这里,一直没有谈到教育,而传统的教育难道不像极权建立起来的秩序吗?无数校长将自己打扮成皇帝,试图建立起自己的教育王国。然而,时代变了,互联网学习更像打一场没有隔着网的比赛,赛场只有球员,没有队长,每个球员都是信息的生产者,也是信息的消费者,教练可以指导球员,却并不能冲进赛场比赛。

美国有一个网站,也是一个留学机构(ZINCH),每年会发布每个大学的SAT录取分数、录取政策(如左图),申请的学生将自己的数据输入网站,便能够得到一个自己录取可能性的信息。事实上,这是一个数据生产融合数据消费的例子。大量的学生将自己的各种各样的表现输入系统:SAT、GPA、志愿者、TOFEL、班级排名和申报信息。这事实上就生产了一个样本数据。

数据生产者主导数据消费的时代,招生官也没有网站的数据准确。招生如此,教育也是如此,最近,在线教育的教师月入数万、数十万的现象再次提醒我们,这不是有偿家教那么简单,学习的数据消费者已经有效地构造了一个有机秩序,这是市场的力量,千百年来构成的等级秩序的长城正在垮塌,这次不是“孟姜女哭塌的”,是教育长城外聚集的“游牧教师”形成了组织,具有了英雄,即将要冲击“中原”了。

这种情况下,长城、海禁已经没有作用,无形的网络队员联系在一起构成了一个超级信息体,“教练”能做什么呢?禁止学生上网和建立网络长城?

信息数据 篇2

一、人类社会三大要素

人类社会三大要素(能源 材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化時代,使现代社会所有大的机构都卷入到以数据及其处理(数据搜集 存储 检索 传送 分析和表示)的浪潮中。而随着人类活动范围扩展,节奏加快,以及技术的进步,人们能以更快速较易而廉价的方式获取和存储数据,这就使得数据和信息量以指数形式向上增长。早在八十年代,人们粗略地估算到全球信息量,每隔20个月就增加班一倍。进入九十年代,各类机构所有数据库数据量增长更快。一个不大的企业每天要产生100MB以上来自各方面的营业数据。美国政府部门的一个典型的大数据库每天要接收约5TP数据量,在15秒到1分钟时间里,要维持的数据量达到300TB,存档数据达15-100PB。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3-4TB之多,而为了研究的需要,这些数据要保存七年之久。九十年代因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(V P N--Virtual Private network)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。据估计,1993年面全球数据存贮容量约为二千TP,到达会增加到三百万TB,对这极度膨胀的数据信息量,人们受到“信息爆炸”“混沌信息空间”(Information Chaotic Spact)和“数据过剩”(Data glut)的巨大压力。

然而,人类的各项活动基于人类的智慧和知识,即对外部世界的观察和了解,正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到智慧,要经过分析加工处理精炼的过程。如图1所示:数据是原材料,它只是描述发生了什么事情,它不提供判断或解释,和行动的可靠基础。人们对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们手上的任务没有什么关联,还不能做为判断 决策和行动的依据。对信息进行再加工,进行深入洞察,才能获得更有用可资利用的信息,即知识.所谓知识,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的。”从信息中理解其模式,即形成知识。在大量知识积累基础上,总结成原理和法则,就形成所谓智慧(Wisdom).其实,一部分人类文明发展史,就是在各种活动中 知识的创造 交流 再创造不断积累的螺旋式上升的历史。另一方面,计算机与信息技术的发展,加速了这种过程,据德国世界报的资料分析,如果说19世纪时科学定律(包括新的化学分子式,新的物理关系和新的医学认识)的认识数量一百年增长一倍,到本世纪60年代中期以后,每五年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,也感到像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用.这样,相对于“数据过剩” 和“信息爆炸”,人们又感到“信息贫乏”(Information poor)"数据关在牢笼中”(data in jail).

二 从数据到知识

早在八十年代,人们从“物竞天择 适者生存”的大原则下,认识到“谁最先从外部世界获得有用信息并加以利用谁就是优胜者”。现时当市场经济面向全球性剧烈竞争的环境下,一家厂商的优势不在于像产品 服务 地区等方面因素,而在于创新。用知识来作为创新的原动力,就能使公司长期持续保持竞争优势。因此要能及时迅速从日积月累的庞大的数据库及网络上获取有关经营决策有关知识,这是应付客户需求易变性及市场快速变化引起竞争激烈局面的唯一武器。

针对上述情况,如何对数据与信息快速有效地进行分析加工提炼以获取所需知识并发挥其作用,向计算机和信息技术领域提出了新的挑战。其实计算机和信息技术发展的过程,也是数据和信息加工手段不断更新和改善的过程。早年受技术条件限制,一般用人工方法进行统计分析,和用批处理程序进行汇总和提出报告.在当时市场情况下,月度和季度报告已能满足决策所需信息要求。随着数据量的增长,多渠道数据源带来各种数据格式的不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是所谓数据仓库(data Warehousing).它不同于只适用于日常工作的数据库.它是为了便于分析针对一定主

题(Subject-oriented)的集成化的 时变的(time-Variant即提供存贮5-10或更老的数据,这些数据不再更新,供比较以求出趋向及预测用)非破坏性(即只容易输入和访问不容许更新和改变)的数据集中场所。数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速人们提出了能实时分析和报表的在线分析手段OLAP(On Line Analytical Processing),它是一种友好而灵活的工具,它能允许用户以交互方式浏览数据仓库对其中数据进行多维分析,能及时地从变化和不太完整的数据中提出与企业经营动作有关的信息。例如能对数据中的异常和变化行为进行了解,OLAP是数据分析手段的一大进步,以往的分析工具所得到的报告结果能回答“什么”(What),而OLAP的分析结果能回答“为什么”(Why)。但上述分析手段是建立在用户对深藏在数据中的某种知识有预感和假设的前提下。而由于数据仓库(通常数据贮藏量以TB计)及联网界面上的数据来源于多种信息源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时迅速准确地作出经营动作的决策,以适应变化迅速的市场环境,就需要有一种基于计算机与信息技术的智能化自动工具,来发掘埋藏在数据中的各类知识。这种手段不应再基于用户假设,而应能自身生成多种多种假设,再用数据仓库或联网的数据进行检验和验证,然后返回对用户 最有用的结果。同时这种工具还应能适应现实世界中数据的多种特性(即量大 含噪声 不完整 动态 稀疏性 异质 非线性等)。要达到上述要求,只借助于一般数学分析和算法是无能为力的。多年来,数理统计技术以及人工智能和知识工程等领域的研究成果,诸如推理 归纳学习机器学习知识获取 模糊理论 神经元网络 进化算法 模式识别 粗糙集理论等等分支给开发上述工具提供了坚实而丰富的`理论和技术基础。九十年代中期以来,许多软件开发商,基于上述技术和市场需求,开发了名目繁多的数据发掘(DM--Data Mining)和知识发现(KDD--Discovery from Data)工具和软件,DM和KDD形成了近年来软件开发市场的热点,并且已不断出现成套软件和系统,并开始朝智能化整体解决方案发展,这是从数据到知识前进过程中又一个里程碑。

从数据中获取有用信息或知识,是一个完整的对数据进行加工 处理的过程。如图3所示,其中DM是关键的一步。挑选:按一定的标准从数据源中挑选或切取一组数据,形成目标数据。净化和预处理:将不必要或影响分析进程的部分数据删去。转换:将预处理后的数据进行某些转换使之成为可用和可导引的数据。数据发掘:这是关键的阶段,从数据中抽取出信息的模式。所谓模式,可以作如下定义:给定一组事实(数据)F,一种语言L,和某种可信度测量C,模式就是一种用L的描述方式S,它以可信度C对F的一个子集Fs各事实间的关系进行描述,这种描述在某种意义上比枚举Fs中所有事实上要简单得多。解释赋义或可视化:将模式解释为可以支持决策的知识,例如预测 分类 汇总数据内容和解释所观察到的现象等。上述阶段之间也许还需要某种迭代分析.(见图3)从上述过程可以看出,从数据中获取知识是涉及多个领域内技术融合的综合应用(见图4)

数据库 模式识别

技术

机器学 可视化

习技术 技术

AI技术 统计学

图4 DM(KDD)与相关技术

三 KDD(DM)的任务 技术和应用

利用DM(KDD)技术可以完成多项决策所需任务,但大致可分为下述几方面:预测:从事例中求得模式,构造模型以预测目标度量。分类:找出一函数能使每事例映射到某种离散类别之一。查出关系:搜索到对某选定目标变量最有影响的其它独立变量。显式模型:找出描述不同变量间依赖关系的显式公式。聚类:认定出描述数据的类别的有限分组。偏离检测:从数据已有或期望值中找出某些关键测度显著的变化。

由于上述任务的不同,就需要采用不同的技术方法和手段,因而在市面也出现种类繁多的商品工具和软件。大致可以归纳为下列主要类型:

传统主观导向系统:这是针对专业领域应用的系统。如基于技术分析方法对金融市场进行分析。采用的方法从简单的走向分析直到基于高深数学基础的分形理论和谱分析。这种技术需要有经验模型为前提.属于这类商品有美国的Metastak,SuperCharts,Candlestick Forecaster 和Wall Street Money等

传统统计分析:这类技术包括相关分析 回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。属于这类商品有美国的SAS,SPSS和Stargraphis等。由于近年来更先进的DM方法的出现和使用,这些厂商在原有系统中综合一些DM部件,以获得更完善的功能。

以上两种技术主要基于传统的数理统计等数学的基础上,一般早已开始用于数据分析方面。

神经元网络(NN)技术:神经元网络技术是属于软计算(Soft Computing)领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM(KDD)的应用方面,当需要复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特别有效。经过训练后的NN可以想像具有某种专门知识的“专家”,因此可以像人一样从经验中学习。NN有多种结构,但最常用的是多层BP(back propagation)模型。它已广泛地应用于各种DM(KDD)工具和软件中。有些是以NN为主导技术,例如俄罗斯的PolyAnalyst,美国的BrainMaker,Neurosell和OWL等。NN技术也已广泛地做为一种方法嵌入各种DM成套软件中。其缺点是用它来分析复杂的系统诸如金融市场,NN就需要复杂的结构为数众多神经元以及连接数,从而使现有的事例数(不同的纪录数)无法满足训练的需要。另外由受训后的NN所代表的预测模型的非透明性也是其缺点,尽管如此,它还是广泛而成功地为各种金融应用分析系统所采用。

决策树:在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解,虽然在机器获取领域内,多年来已研制出不少实施决策树的有效算法(如ID3及其改进算法等)。但这种方法限于分类任务。在系统中采用这种方法的有美国的IDIS,法国的SIPINA。英国的Clementinc和澳大利亚的C5.0。

进化式程序设计(Evolutionary programming):这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的务种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式,预测表等。由于采用通用编程语言,这种主法在原则上能保证任何一种依赖关系和算法都能用这种语言来描述。这种方法也许是目前最年青的和最有前途的DN方法之一。这种是方法的商用产品还只见诸俄罗斯的Poly Analyst,据报导,它用于金融到医疗方面军的各种应用于,能获得者很好的结果。

基于事例的推理方法(CBR棗Case based reasoning)这种方法的思路非常简单,当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案,这种方法能用于很多问题求解,并获得好的结果,其缺点是系统不能生成汇总过去经验的模块或规则。采用这种方法的系统有美国的Pattern Recognition Workbench和法国的KATE tools.

遗传算法(GA棗Genetic Algorithms):严格说来,DA不是GA应用的主要领域,它是解决各种组合或优化问题的强有力的手段,但它在现代标准仪器表中也用来完成DA任务。这种方法的不足之处是:这种问题的生成方式使估计所得解答的统计意义的任何一种机会不再存在。另外一方面,只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。在系统中包含遗传算法的有美国的GeneHunter.

非线性回归方法:这种方法的基础是,在预定的函数的基础上,寻找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合,比较好的提供可信赖的结果。在俄罗斯的Paly Analyst以及美国的Neuroshell系统中包括了这种技术。

上面所列DM技术不可能是详尽的囊括,因为多年来数理统计分析以及AI与KE的研究提供了种类繁多特点各异的手段,DM开发人员完全可

以根据不同任务加以选择使用,另外近年来在软计算(Soft Comp-uting)和不确定信息处理(dealing with Uncertainty of information)方法的研究,促使DM(KDD)技术向更深层次发展。

另外需要说明的,上面所说的DM中的数据是指数据库中表格形式中的记录和条目,这种数据称作结构型数据(Structured data)。在一个企业中,还有一类像文本和网页形式的数据,称作非结构型数据(unstructured data)。它来自不同的信息源,如文本 图像 影视和音响等,当然文本是最主要的一种非结构数据.对一个企事业单位来说,非结构型数据往往占数据总量的80%,而结构型数据只占20%。1995年分析家已预言,像文本这样非结构型数据将是在线存贮方面占支配地位的数据形式。到初,在Internet上的信息网页数,已超过5亿,到20,预计网页数将达到15亿。随着Internet的扩展和大量在线文本的出现,将标志这巨大的非结构型数据海洋中,蕴藏着极其丰富的有用信息即知识。人们从书本中获取知识方法是阅读和理解。开发一种工具能不需要阅读而能协助用户从非结构数据中抽取关键概念以及快速而有效地检索到关心的信息,这将是一个非常引人入胜的研究领域。目前,基于图书 索引 检索以及超文本技术的各类搜索引擎,能协助用户寻找所需信息,但要深入发掘这类数据中的有用用信息,尚需要更高层次的技术支持,人工智能领域有关知识表示及获取的方法(如语义网络 概念映射等),和自然语言理解的研究成果,可望被采用。还可能要涉及到语言学 心理学等领域。最近已出现针对文本的DM工具的报导。如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。

DM(KDD)工具和软件已在各个部门得到很好的应用,并收到明显的效益。在对客户进行分析方面:银行信用卡和保险行业,用DM将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。在客户关系管理方面:DM能找出产

品使用模式或协助了解客户行为,从而可以改进通道管理(如银行分支和ATM等)。又如正确时间销

售(Right Time MarKeting)就是基于顾客生活周期模型来实施的。在零售业方面:DM用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。在产品质量保证方面:DM协助管理大数量变量之间的相互作用,DM能自动发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生范围和采取改正措施。在远程通讯部门:基于DM的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售计划.在网络容量利用方面,DM能提供对客户组类服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。在各个企事业部门,DM在假伪检测 及险评估 失误回避 资源分配 市场销售预测广告投资等很多方面,起着很重要作用。例如在化学及制药行业,将DM用于巨量生物信息可以发现新的有用化学成分.在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。总之,在国外,DM已广泛应用于银行金融,零售与批发 制造 保险 公共设施 政府 教育 远程通讯 软件开发 运输等各个企事业单位。据报导,DM的投资回报率有达400%甚至10倍的事例。

四 DM(KDD)产品状况

九十年代开始出现DM商用产品以来,据不完全统计,到19底初,已达50多个厂商从事DM的开发工作,在美国DM产品市场在1994年约为5千万美元,达到3亿美元。预计年将达到8亿美元。从产品的类型来分有下列产品:提供广泛的DM能力,典型产品有IBM的Intelligent Miner,SAS的Enterprise Miner.为某个部门旨在求解问题,典型的有Unica公司的Response Modeler Segnentor,IBM公司的Busiess Application等。与提供服务一起,典型的有NeoVista,Hyperparallel,HNC Marksman.黑匣工具,典型的有GroupModell,ModelMax,NewralWare的Predict.解决客户问题有Marketier Paregram,Exchemge Application等。

据不完全统计,目前出现的DM工具和软件,可以按采用技术分类如下表:采用技术分 类成 套聚 类统计与回 归连接与相 关序列模式可视化文笔与网络DM报告与汇总偏差虚假检测商品数73071157141132发表数4657217413。

DM商品软件一般包含多种技术方法,以适应不同要求。经常将成套工具按不同方式分成模块,例如Spss的DM套件由下列按功能的模块组成:基于规则的影响发现模块。多维共性发现模块。OLAP发现模块。增量发现模块。趋向发现模块。比较发现模块。预测发现模块。而Neovista的DM套件却按所采用的技术分组,基于GA的DecisionGA和基于规则相关的DecisionAR.

由于DM不能只看作一个独立的操作,它是与前后操作联系起来,形成数据到知识的整体过程。有各种不同的组合方式,最自然的方式是将DM系统与数据仓库和常规的SQL用户界面和可视化工具联系在一起。如图5所示是NeoVista公司所提出的集成系统的示意简图。它是将集成化知识发现环境和开放式数据仓库组成一个DM的集成环境。为了使DM所得到的结果更广泛直接地为用户所用,人们提出了模式库(Patterm Base)模式仓库(Patterm Warehouse)加上联网模块的方案,如图6所示,这个称作DMsuite的结构直接工作在大型多表格的SQL数据库基础上,同时90%的DM工作在服务器上完成,这样就使DM工作不受客户机容量限制。

DM(KDD)的目的原本是为企事业单位提供决策的正确依据,从分析数据发现问题作出决策采取行动这一系列操作是一个单位的动作行为,利用计算机及信息技术完成这整体行动,是发挥机构活力和赢得竞争优势的唯一手段。所以前几年一位分析学家将这种机构行为和手段称这为“事务智能”(BI棗Business Intelligent).他认为BI能极大地改进决策的质量和及时性,从而改进机构的生产率或发挥竞争优势。所以近年来,一些大公司将数据分析和DM(KDD)工具和有关技术组合起来形成所谓BIS(Business Intelligent Softwave)。其中SAS公司的作法是将数据源 ,数据预处理 ,数据存贮 ,数据分析与发掘 ,信息表示与应用等方面技术有机地综合成一体,IBM公司更全面地考虑BI系统的结构和功能,与其它公司共同合作来开发BI各类软件和工具。并从多方面来加以考虑:首先必须有一良好的数据库和数据仓库,并能使企业过渡到下一个世纪,所以提出了一个统一的数据库系统DB2和一个可视化数据仓库VDW(Visual Data Warehouse),可以将各种应用和各部门的信息融为一体,加上Visual Warehouse OLAP工具可以生成实时报告。在信息发现和数据发掘工具方面,提出能对结构型和非结构型数据进行发掘的一整套智能工具(Intelligent Miner Family)。BI手段只有在好的数据基础才能见效,因此提出数据重组工具。向用户提供联合统一观点的企业数据是作出聪明决策的前提,提出能支持异形数据库的DataJointer(数据接合)工具,具有简单而强有力的数据查询和优化的数据访问功能,并能对异形数据库数据进行复制,以便不断更新数据仓库内容。所有工具不仅易于使用外,并能与数据仓库无缝地集成在一起。图 8是IBM BI系统的结构图。BI系统标志着从数据到知识到决策的进程中的更深入的一步,展示着真正的实用的智能信息系统的雏形。有人将电子商务和BI看成90年代以来推动企业创新的两大重要技术,二者的结合可以提供指数增长的机遇。电子商务通过网络加速核心事务处理过程,改善对客户的服务,减少周期时间,从而从有限的资源中获得多的回报。而BI能利用丰富的数据资产做出最佳决策,以获取竞争优势。有人将两者的结合比做光速的飞行器加上精密的制导系统,能迅速而准确地命中目标

五 结束语

大数据的信息力量 篇3

关键词 大数据 信息 力量

中图分类号:G203 文献标识码:A

1什么是“大数据”

我们先来看一個互联网上流传的故事:2012年年初的一天,一个父亲闯入他家附近的 Target超市向经理兴师问罪,因为超市将婴儿尿片和童车的优惠券寄送给了他17 岁的女儿,经理只能解释这是个误会。但一个月后,这位父亲打来电话道歉,因为他的女儿的确怀孕了。

这其中的玄妙就在于Target运行的大数据平台,能够通过对客户购买行为的分析将各种类型的顾客细分出来。实际上,Target用25种典型商品的消费数据构建了“怀孕预测指数”,这样可以较为精确地辨别出孕妇群体,并且早早地将孕婴童优惠广告寄给她们,毕竟这是含金量非常高的客户群。理所当然,Target的孕婴用品销售出现了爆炸性的增长。

那么什么是大数据?大数据具有四个特性:(1)数据量特别庞大;(2)数据种类特别多;(3)速度很快,像流水一样在运动,如业务交易、微博、短信、微信等每时每刻都在产生数据;(4)价值密度低,即单个数据的价值低。所以,大数据是指海量的、多种类的、需要大规模的处理才能够凝聚足够价值的、处理和检索响应速度快的数据。

大数据是一个数据集合,包括三类数据:(1)结构化数据,如企业用的人事系统、财务系统、ERP系统,这些系统中的数据都是结构化的;(2)半结构化数据,如电子邮件、用windows处理的文字、在网上看到的新闻;(3)非结构化数据,如传感器、移动终端、社交网络产生的数据。

2企业管理中如何应用大数据

大数据在企业中的应用,与企业组织的行为模式是相关的,不同的阶段需要不同的资源支持。对此,有以下五点建议:(1)以客户为中心,推动大数据起步;(2)制订整个企业的大数据蓝图,规划数据如何应用;(3)从现有的数据开始,比如企业内部的业务数据、网站、邮件等,实现近期目标;(4)根据业务优先级逐渐建立企业的分析能力。企业分析能力分为三大类,除了传统的数据库数据挖掘以外,还要培育内容挖掘能力、实时分析能力,并将三者结合起来;(5)基于可衡量的指标,制订投资回报的分析。

简单来说,要想利用大数据来提升管理,首先要建立和积累起企业的大数据平台。而当前大部分企业管理中的数据主要是结构化的数据,即由销售、采购、生产、品管、技术等相关部门日常业务运作中产生的数据,通常可以通过搭建ERP、CRM、QM、MES等信息管理系统作为相关业务部门的工作平台,从而在日常工作的开展中就积累起大量的业务数据,逐步形成企业的大数据,后期可通过商务职能分析等手段快速的提炼出企业经营决策需要的数据信息。

在销售工作上企业可利用大数据实现精准营销。如本文开头的案例, Target创建了一套女性购买行为在怀孕期间产生变化的模型,事实上不仅如此,如果用户从他们的店铺中购买了婴儿用品,在接下来的几年中就会根据婴儿的生长周期情况定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。诸如此类的应用,在国际零售行业巨头中已屡见不鲜。大数据的力量,不仅让商家提升了自己的业绩,还让客户为之心甘情愿买单。

企业也可以选择向大数据服务公司购买服务来利用大数据。淘宝网通过对海量的交易数据进行提炼,推出了淘宝数据魔方这款数据产品,主要提供行业数据分析,店铺数据分析,其中包含了品牌、店铺、产品的排行榜,购买人群的特征分析(年龄、性别、购买时段、地域等等),帮助经营者实现精准营销。淘宝网所属的阿里巴巴集团也表示,“将阿里集团变成一家真正意义上的数据公司”已经是阿里巴巴集团内部的战略共识,而支付宝、淘宝、阿里金融、B2B的数据都会成为这个巨大的数据分享平台的一部分。如何挖掘、分析和运用这些数据,并和全社会分享,则是这个战略的核心所在。

大数据时代下信息数据安全的探讨 篇4

根据IDC (互联网数据中心) , 预计在2017年将达到530亿美元, 同时Google趋势反映出大数据的关注度, 表明我们已经进入到大数据时代, 所以各国在大数据方面提出了自己的发展部署。2012年3月, 白宫网站发布《大数据研究和发展计划》, 提出将通过收集庞大并且复杂的数字资料, 获得知识和洞见以提升能力, 并协助加速在科学上发现的步伐, 强化美国国土安全。欧盟启动了“未来投资计划”, 总投资3500亿欧元推动大数据等尖端技术领域创新。2013年9月中央政治局以实施创新驱动发展战略为题举行第九次集体学习, 主题之一就是大数据的发展情况。

1 什么是大数据

1.1 大数据的概念

顾名思义, 可将翻译为大规模数据或海量数据, 因为这些数据结构较为单一, 人们还能用传统的技术和方法进行分析和处理, 所以它并不能完全概括大数据的本质内涵。实际上大数据至今没有一个权威性的定义。麦肯锡称:”数据, 已经渗透到当今每一个行业和业务职能领域, 成为重要的生产因素。人们对于海量数据的挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来”。亚马逊网络服务有一个简单的定义:“大数据就是任何超过了一台计算机处理能力的庞大数据量”。大数据在维基百科中定义为:”所涉及的数据量规模巨大到无法通过当前主流软件工具, 在合理时间内达到管理、截取、处理、并整理成为帮助企业经营决策更积极目的的信息”。综上意见, “大数据”被IDC定义为:为了更经济更有效地从大容量、高频率、不同类型和结构的数据中获取价值而设计的新一代架构和技术, 用它来描述和定义信息爆炸时代产生的海量数据, 并命名与之相关的技术发展与创新。

1.2 大数据的特点

目前, 较为统一认识的是大数据具有四个基本特点:第一, 数据量大。从TB级别跃升到PB或EB级别。第二, 数据类型多。比如视频、博客、图片、音频信息等。第三, 价值密度低。比如在连续不间断监控视频中, 有价值的可能就是一两秒。第四, 处理速度快。有些数据的实时性非常强, 需要很快的速度来处理。

1.2.1 数据量大 (Volume)

这是大数据的基本属性。根据IDC估计, 到2020年, 全球数据使用量预计将达到35.2ZB。使数据规模增加的原因有很多, 首先是迅速发展和应用的互联网, 比如, 社交网络、搜索引擎等网站、传感器及移动网络等都在不停的产生数据, 促使当前数据增长比以往任何一个时期都要快。其次是随着不同传感器获取数据能力的不断提高, 获取的数据也越接近于事物本身, 描述事物的数据量也会增加。最后是采样的样本不断变大, 以前是用少的数据量描述大事物, 这样得出结论可能不准确, 随着技术的发展, 样本数目逐渐接近原始的总体数据, 高数据量带来高的精确性, 可以从更多的细节来了解事物属性, 同时所需的数据量也会显著增多。

1.2.2 数据类型多样 (Variety)

这是大数据的重要特性。当前的数据存储、处理、查询都是基于数据格式统一、事先定义好的结构化数据。但随着互联网快速发展, 涌现出大量的非结构化数据, 由于非结构化数据没有统一的结构属性, 所以在存储时, 不但要存储数据还要存储结构, 这样增加了数据存储、处理的难度。目前人们上网不但要浏览新闻、网上购物, 还要发送微博、视频聊天及上传下载文件等, 那么这些数据大部分是非结构化数据。综上所述, 即将处于主流地位的非结构化数据量已占到总数据量的75%以上, 且增长速度比结构化数据快, 那么数据的分析和处理将面临挑战。

1.2.3 数据处理速度快 (Velocity)

大数据分析区分于传统数据挖掘的显著特征。随着微信、移动网络等信息传播、获取技术的不断发展, 数据的产生也更快速和方便, 产生数据的量也越大, 即呈新摩尔定律式的快速增长, 不断产生的数据也要求有相应的处理速度来匹配, 才能使得大数据发挥有效的作用, 否则快速增长的数据不能给解决问题带来优势, 反而变成一种负担。同时, 网络中的数据是不断变化的, 通常这种数据的价值会随着时间的变化而降低, 如果数据在规定的时间节点内没有得到有效快速的处理, 那么这些大量的数据就失去了其存在的价值。此外, 在许多环境中要求能够实时处理新增的数据, 比如在京东, 亚马逊、淘宝等电子商务网站中, 就具有很强的时效性, 大数据以数据流的形式产生、消失, 且数据量的产生表现形式不是一条直线形式, 而是呈现为波浪式, 这就要求对大数据的处理要快速、实时、持续。

1.2.4 数据价值密度低 (Value)

这是大数据的重要特性。从统计学角度看, 可以对传统的结构化数据进行采样, 然后进行抽象、分析和归纳等处理, 那么在进行采样时, 样本越大, 所得到的统计结果也就越接近于事物本身。但是对于大数据通常是直接采用全部数据, 由于省去了归纳和采样, 就包含了所有的数据信息, 保障了分析结果的可靠性, 但同时也带来了许多无用的信息, 所以大数据关注的非结构化数据的价值密度偏低。如果能将它们“提纯”并迅速处理为有价值的信息, 就相当于掌握了一把能够开启宝藏大门的钥匙。目前, 如何通过强大的机器算法更迅速地完成数据的价值“提纯”, 是大数据时代亟待解决的难题。

2 国内外开展的相关工作

美国政府由于意识到大数据技术的重要性, 所以将大数据看作“未来的新石油”, 把其作为战略性技术进行大力的推动, 于是, 在2012年3月宣布投资2亿美元资金启动“大数据研究和发展计划”, 大力改善和推动与大数据有关的政策, 组织和分析工具和技术, 以提升美国利用收集的庞大且复杂的数字资料, 提炼真相的能力, 协助工程领域创新步伐、加速科学, 转变教育和学习模式, 强化美国国土安全。

国内对大数据的应用主要集中在能源/制造、公共事业、金融等三大领域。2011年12月工信部发布了物联网“十二五”规划, 把信息处理技术作为4项关键技术创新工程之一被提出来, 其中包括了海量数据存储、数据挖掘、图像视频智能分析, 这都是大数据的重要组成部分。2013年11月国家发改委正式批复同意, 国家超级计算天津中心建设“面向新兴产业的大数据处理技术研发与应用”国家地方联合工程实验室。这也是目前国家发展改革委在大数据领域批准的第一家工程实验室。这些都说明了大数据得到了国家层面的充分重视。

3 大数据技术

大数据的核心思想是对数据采集、处理、加工、挖掘、分析等, 把数据资源转化为有价值的信息, 为政府部门、企事业单位和个人创造经济价值和社会价值。

3.1 大数据采集

随着互联网、云计算和物联网的迅猛发展, 传感器、RFID射频、移动设备及社交网络等方式所产生的各种类型的非结构化、结构化的海量数据, 要获取这些数据, 必须要解决针对大数据源的感知、识别、适配、传输、接入等技术。主要是提供大数据服务平台所需的虚拟服务器, 物联网资源和非结构化、半结构化和结构化数据的数据库等基础支撑环境, 重点要攻克分布式虚拟存储技术, 大数据获取、挖掘、分析等操作的可视化接口技术, 大数据的压缩技术、网络传输与大数据隐私保护技术等。

3.2 大数据存储

从海量数据时代开始, 大量数据的长期存储、数据迁移一直都是研究的主题。目前主要存储方式有:存储局域网络 (SAN) 、网络附加存储 (NAS) 、直接外挂存储 (DAS) 和IP SAN等。这几种存储方式虽然是不同时期的产物, 但是各有特色, 数据中心往往是根据要处理的数据对象和自身的服务器数量进行选择。此外, 最近这云端存储非常流行, 其实就是一种虚拟化的存储。所谓虚拟化, 就是将原有的服务器中的硬盘空间划分为若干个独立的小空间, 这样在一台服务器上就可以提供多种存储服务, 既节约存储成本, 又提高了存储效率, 也是异构数据平台的最好选择。

3.3 大数据挖掘

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、又是潜在有用的信息和知识的过程。海量数据挖掘一直是热点和难点, 也是一种决策支持过程, 它主要基于人工智能、数据库、模式识别、机器学习、统计学、可视化技术等, 高度自动化地分析大量数据, 做出归纳性的推理, 从中挖掘出先前未知的并有潜在价值的信息, 帮助决策者调整市场策略, 减少风险, 做出正确的决策。

当前非结构化的数据是按TB级别增长, 以至于达到PB、EB级别, 因此无法使用常规的工具或技术来处理。由于大数据的规模是不断在扩大的, 所以在数据挖掘过程中要考虑其增长带来的影响, 因此, 大数据的挖掘需要采用云计算技术和分布式挖掘, 目前较流行的且适用于各种类型的大数据挖掘工具是Hadoop, 这个工具具有高效、高扩展、高可靠性和高容错率等特点。

3.4 大数据分析

众所周知, 在全部大数据中, 大约有80%是非结构化和半结构化数据, 而被利用的数据很少, 大部分的非结构化数据尚未得到开发利用, 所以最重要的是对大数据进行分析, 只有通过分析才能获取很多有价值的信息。那么越来越多的应用涉及到大数据, 而这些大数据的属性, 包括速度, 数量, 多样性等都是呈现了大数据不断增长的复杂性, 所以大数据的分析方法在大数据领域就显得尤为重要, 大数据分析普遍采用统计方法来进行。统计与分析主要利用分布式数据库, 或者分布式计算集群来对存储于其内的海量数据进行的分类汇总和分析等, 以满足常见的分析需求。

4 大数据面临的机遇和挑战

由于大数据会给企业和组织带来有价值的信息, 所以会形成以大数据为中心的一个完整的产业链, 在这个链上的每个节点即会产生相应的价值。但由于大数据是个新兴的产业, 所以在技术不成熟, 人才稀少及安全方面都会有一定的挑战。

4.1 机遇

大数据打破了传统信息体系架构, 将数据仓库转化为具有信息共享和连接、流动的数据池。大数据技术使人们可以利用非结构化的数据类型, 分析出有价值的信息, 从而使企业组织更加高效和智能。

(1) 大数据的应用和挖掘成为核心, 将从多个方面创造价值。大数据从采集、传输、存储, 一直到数据的挖掘和应用, 在这一系列的过程中, 会产生出多个方面价值, 这将会影响企业未来的运营模式。

(2) 在大数据使用中, 安全尤为重要, 这为企业带来发展契机。随着移动互联网、物联网等新兴IT技术迅速发展, 有价值的数据无处不在, 这对信息安全提出了更高要求。同时, 基于大数据领域出现的产品与技术将为安全分析提供新的可能性, 信息安全贯穿于大数据产业链的各个环节, 这将推动信息安全产业的大发展。

4.2 挑战

大数据发展在面临重大机遇的同时, 也面临一些挑战。

4.2.1 信息安全问题

目前, 人们生活越来越多地与互联网发生关联, 每天产生大量的数据, 如何防止非法用户对数据被篡改或窃取, 这不是一个防火墙就能满足安全要求的, 而目前中国相关法律法规还存在许多空白, 互联网监管还存在一些漏洞, 所以必须采取专门针对大数据的安全保护措施, 以满足大数据应用带来的新的安全需求。

4.2.2 人才和技术问题

设计和实施大数据解决方案, 需要专业化技术和工具, 包括建模、统计学、自然语言处理和可视化技术。目前, 我国数据产业发展仍然存在一些短板, 如核心技术缺失, 相关工具软件少, 复合型人才匮乏, 政府数据开放程度低等。大数据产业的发展, 不能光靠炒概念, 而是要遵循市场规律, 努力的把短板补上。

4.2.3 数据存储的问题

目前, 所产生的数据量正呈新摩尔定律增长, 但就数据的保存和管理来说, 目前的技术改进并不大, 而数据的易失性风险却在增加。大数据的存储将会是一个非常严重而现实的问题, 但最后还是要依赖于硬件进行处理和计算的, 所以硬件的更新换代将是大数据发展的基础。

5 结束语

随着人们对大数据的认识不断提高, 数据也将被越多的企业当作一种无形的资产, 那么与大数据相关工具的研发也将受到企业的重视, 处在大数据产业链中各个结点也将受益, 也将逐步提高自身的素质及服务水平。

摘要:随着移动互联网、便携设备和云计算技术的发展, 人类社会进入了“大数据”时代。人类产生、获取、处理和存储的数据量正以指数级别增长, 这样改变人类的生活、工作和思维方式。伴随着机遇和挑战的同时, 也有大数据本身安全问题, 如何解决这些问题, 并挖掘出有价值的信息是具有十分重要的意义。

关键词:大数据,数据挖掘,关键技术,信息安全

参考文献

[1]马建光, 姜巍.大数据的概念、特征及其应用[J].国防科技, 2013.

[2]严霄凤, 张德馨.大数据研究[J].计算机技术与发展, 2013.

信息数据 篇5

乡直各单位:

采集全乡干部职工信息按以下文件准确填报。本次信息数据采集时间紧、任务重,望各单位高度重视,于2012年1月10日前以电子表格(Excel)上报。联系人:赵永明

电话:******

电子邮箱:48841748@qq.com

附:

1、市发文件

2、外纳乡全员人口信息登记表

外纳乡人民政府二○一二年一月五日

陇南市统筹解决人口问题领导小组办公室

关于采集干部职工全员人口信息数据库

相关信息的通知

各县(区)统筹解决人口问题领导小组办公室、市直及驻陇南各单位:

为了进一步健全我市全员人口信息数据库,为人口和计划生育宏观决策提供准确的依据,提高人口和计划生育服务、管理信息化水平,经市统筹解决人口问题领导小组研究,决定在全市范围内采集城镇干部职工人口和计划生育有关信息,现将具体事宜通知如下:

一、信息采集范围

单位内所有在岗人员,包括公务员、参公人员、事业人员、工人、临时聘用人员、国有企业人员、驻陇南各单位人员等,不论婚否均应填写《全员人口信息登记表》,此表由各单位相关人员在陇南市人口和计划生育委员会网站下载,网址为http://

附:全员人口信息登记表(样表)

大数据时代的信息安全 篇6

IDC数据监测平台分析指出,2015年全球数据规模总量已经超过10ZB,相当于比人类过去历史的数据总和还多,有专家学者预计到2020年左右全球数据总量将达到惊人的40ZB,届时地球上人均数据量预计将达到5247GB。据统计,全球活跃互联网用户已经突破30 亿人;GOOGLE首页每秒搜索量已经达到了惊人的200万次。这一切的现象表明我们已经迈入了大数据时代。

信息安全一直是一个热门话题,其本身所包含的内容就十分宽泛,前人的研究成果也十分丰富。在本文中即指在大数据时代下,移动运营商所面临的信息安全威胁。

信息安全现状

在大数据时代,运营商们针对大数据开展运营还处在初始的探索阶段。运营商作为国家的基础通信服务提供者,掌握着海量的用户通信数据、企业通信数据、政府通信数据等等。无疑,这些数据的经济价值和社会价值是无法估量的,甚至有些政府内部的保密数据直接关系到国家的安全问题。由于这些数据的重要性,在大数据时代,运营商们更是承受着来自全世界范围内的黑客攻击,它们所面临的信息安全问题更加的严峻。

和众多企业一样,运营商们也亟需信息化技术来支撑企业的长远发展,不同的是运营商们拥有基数庞大的基站,用户群体,不仅仅需要维护众多设备正常运转,还需要负责用户基数庞大的应用系统的正常流转,这一切,使得运营商的信息安全工作更加复杂。鉴于对运营商信息安全现状的理解,结合信息保障技术框架理论,本文设计了如图1所示的运营商的信息安全模型。其中作用域(网络安全层、业务安全层、应用安全层)、安全需求(包括基础电信业务需求、增值电信业务需求、网络维护管理需求)、安全措施(安全技术和安全管理)等分别代表了3个维度。通过该模型,我们提出了以下运营商面临的信息安全问题及应对措施。

信息安全面临的问题大数据自身的安全问题

大数据的发展是在近几年兴起的,是伴随着云计算、互联网、物联网等发展而壮大的,由于技术上的更新迭代之快、相关标准规范的缺失、对大数据的接受程度等多方位因素,导致大数据自身存在多种多样的安全问题。大数据自身的安全问题不是一时就能解决的,而是在信息技术不断发展的过程中,需要各行各业通力协作,数据交换与共享,不断技术创新才能逐步解决。

数据量大,容易成为攻击重点目标

运营商们的数据规模巨大,数据总量呈指数型增长。由于运营商极具经济价值和社会价值的数据之“大”及大数据分析挖掘过程中可以产生的大量有潜在价值信息,使得运营商们更加容易成为全世界范围内众多潜在黑客攻击的目标。

缺乏自主的计算机网络软、硬件核心技术

目前来看,运营商行业信息化建设过程中所用到的计算机网络软硬件设施设备都存在致命问题,那就是主要设备缺乏核心技术支撑。计算机网络相关的比如CPU、主板等硬件,操作系统、数据库、中间件等基础软件都依赖于国外技术。这些设备、基础软件存在大量安全漏洞容易为别有用心的人植入病毒、木马等提供可能。这使得运营商行业所具有的计算机网络安全性能降低,网络处于被窃听、干扰等多种安全威胁中,网络安全处于极度脆弱的状态。

大数据成为获取用户隐私行为的重要手段

多年来,运营商们已经积累了海量的客户数据,这些数据隐藏着诸多有价值的信息,众多犯罪团伙、黑客组织、网络水军极易获取该类数据,并利用这些数据进行客户资金盗窃、客户隐私信息曝光等。

信息安全应对措施搭建自身的安全防护体系

大数据时代下,运营商们设计信息安全规划、搭建自身的安全防护体系,需要全盘考虑。将网端、终端、云端三端一体的综合协同联防的安全防御思想融入安全防护体系的建设过程中,充分利用大数据进行威胁情报的数据收集、处理与深度挖掘,才能有效应对大数据时代的各种新型威胁,保护运营商们的重要信息资产,保护数以亿计用户的信息安全。

积极培养大数据分析能力

由于行业的特殊性,运营商们的大数据分析能力并不十分突出。运营商们必须集中力量,建立安全的大数据处理系统,提供大数据分析能力,才能有效应对大数据时代的信息安全问题,收集、处理、分析、预测已有乃至即将发生的信息安全威胁,同时,运营商们还需要加大力度重点培养网络运营大数据的分析能力,多管齐下,形成应对信息安全的核心竞争力。

建设大数据时代相关标准

大数据时代发展至今不过短短数年,伴随着云计算、互联网、移动互联网、物联网的发展而发展。由于技术的更新日新月异,因此大数据信息安全相关的国家标准、行业标准等尚且不完善或者都没有进行有效建设。这就导致了各行业、各运营商都采取自己定义的安全规范、协议,最终变成了数据孤岛、很难统一,这样也不利于大数据时代信息安全的防范与规避。

加强数据安全保密建设工作

运营商行业要加强对信息安全工作的重视程度,要深刻理解运营商所面对的信息安全现状之严峻,要深刻领会信息安全工作是综合性的基础性的工程。因此需要对现有的运营商数据,包括客户数据及自身所有的业务数据按照法律法规、行业应用、价值程度等多个维度进行分类定级,对不同级别的数据在采集、传输、存储、访问等过程中给予不同程度的保护。

未来的时代必然是大数据时代,大数据是一把“双刃剑”,我们必须对其顶层设计、善加利用、科学对待、确保安全。当前,运营商们正在进行着一场“大数据”的战略性转型,对于运营商来说,大数据时代的信息安全本身就是一个复杂的系统性工程,运营商们要充分意识到目前面临的威胁以及该做好的应对措施。只有这样,才能更好地利用大数据而不被大数据所利用。

信息数据 篇7

农业信息空间是描述全球信息化未来的新词汇,随着近年来世界范围的新技术革命的开展,农业科学研究人员开始利用计算机网络获得信息,帮助分析农业领域财务或市场供求状况,提出可选择的决策模式[1],科技信息已经成为农业发展和支撑的动力。当前,农业信息空间里的海量数据每日均呈爆炸性增长,为了更好地提高农业信息服务功能,农业信息空间里的显性知识和隐性知识的传播与利用,成为当前一个亟待解决的热点问题。

1 农业信息空间概述

数字信息资源作为现代农业资源的主要形式和种类,从记录载体、表达方式及传播手段等各个方面代表着农业信息交流的最新水平和发展方向。农业信息空间作为一种开放动态的服务模式,其主要功能是为农业知识工作者提供一种协同交流的环境,通过农业信息空间的数据资源和信息服务促进农业知识群体的交流与合作。随着网络技术和信息环境的发展,农业信息空间已经成为农业知识创新的主流模式。在此模式下,农业信息组织者已经转变为农业知识管理者,以此提供农业信息资源和知识问题的相关服务,并且通过引入新的技术工具平台和信息组织检索方式来帮助知识传递和研究,并将其作为农业知识工作者的伙伴,与农业知识团体一起改进知识的生产、获取和保存,创造灵活的基于数字资源的学习模式来促进革命性的思考。因此,农业信息空间不仅是农业知识学习和使用信息技术以及使用和检索信息的场所,更是一个促进农业知识发展和创造知识合作机会以及支持交叉学科知识研究的场所[2]。

2 农业信息空间数据组织国内外研究现状

农业信息空间可看作是一种开放动态的服务模式,为农业知识人员和科研人员提供一个交流平台,其核心功能是通过提供资源和服务来促进农业知识交流与知识合作。在世界农业信息化发展进程中,美国、德国、澳大利亚和日本等国处于领先地位,这些国家都根据本国的实际情况,因地制宜地开展农业信息数据服务建设,并形成了自己特色的农业信息空间。美国政府以其雄厚的经济实力,从农业信息技术应用、农业信息网络建设和农业信息资源开发利用等方面全方位推进农业信息化建设,构建了以政府为主体,以国家农业统计局、经济研究局、世界农业展望委员会、农业市场服务局和外国农业局等5大信息机构为主线的国家、地区与州三级农业信息空间,形成了完整、健全和规范的农业信息服务体系。德国作为欧洲信息化发展的成功典型,从建立村庄道路的信息系统入手,逐步发展成为目前较为完善的农业信息处理系统空间。澳大利亚政府与各类涉农组织都注重农业信息资源的挖掘和加工整理,形成了丰富的农业信息资源空间。

国外的信息空间建设主要是通过构建虚拟网络平台的方式实现,具体包括建设农业资源知识库、农业知识过程协助、农业主题资源共享以及农业知识数据共享等。其农业知识数据组织方式也有一定的特点,例如一个设计咨询和技术研究实验室MAYA (http://www.maya.com/infocommons/ research.html)提供农业信息空间,让农业知识工作者更容易探索出新的思路、问题和联系,不必花费大量的时间去下载输入和格式化数据[3]。在农业信息空间里面,数据已经可以获取和重复使用[4],其优势在于能够获取已经规范一致的各种数据,将数据融合成为最终确定的概念,扩展单一和多元领域的搜索能力,使用农业信息空间的灵活数据格式,使农业知识工作者的数据随着研究的进行而不断提炼以及通过数字签名保持其对数据的所有权。

进入 20世纪90 年代以来,我国加快了网络化和数字化技术的发展,加强了分散在各个地区的农业研究分支机构与中央管理机构之间的网络化联系和协作,加强了农业信息资源的共建共享,也正在走向分布式网络化的管理体制。国内农业信息空间的知识组织方式主要采用的是导航目录的方式。导航目录实际上是对农业信息空间基本数据和知识的分类及授权服务进行控制的机制[5]。导航目录是一个有架构的组织系统,在一个广泛的农业信息空间范围内,导航目录的工作挑战是如何确定和定位数据资源,因此导航目录是一个在农业信息空间提供定位和确定系统中数据资源的一种方法。当前,导航目录成为扩展农业信息空间最重要的部件之一,未来发展将表现在如何提升简化管理、加强安全性和扩展互操作等方面。在我国农业信息基础设施建设中,最薄弱的环节是农业信息资源的开发与利用。目前,普遍存在着农业数据库建设缺乏统一规划、农业信息数据组织结构不合理、农业信息资源商业化程度低、标准不统一、规范性差以及服务能力不强等问题。

3 关联数据

3.1 关联数据简介

当前,Web农业信息空间已经从对互联网设备的松散集成发展成为由相互依存资源所组成的复杂生态系统,因此农业信息空间的海量数据服务需要一种良好的分布式数据资源的关系组织和管理。现有的Web空间数据资源组织方式是建立在Internet的基础上,通过链接来实现数据或文档的关系。此种农业信息空间的数据组织在应用过程中还是存在很大的局限性,网页文件内容松散。从信息构建理论上得知,用户关心的是主题事务而非文本信息,以HIML书写的网页语言并不包含可视化信息,知识工作者难以立刻从文档数据中提取主题,因此需要提升农业信息空间数据组织的结构化程度。

2006年,Web的发明人Berners - Lee提出了一种URL规范,使得人们可以通过HTTP UR L机制直接获得数字资源( Thing)[6]。Berners-Lee曾提出关联数据的4个原则,维基百科对其进行了阐述:

1)通过URI(统一资源标识符)识别用户在网上发现的东西,并把其当作资源;

2)使用HTTP URI,就可以定位并查找(解引用)这些东西;

3)当URI被解引用时,提供资源相关的有用信息;

4)在发现的数据中,包括链向其它相关URI的链接,是一种提高发现网络信息能力的手段。

简而言之,关联数据允许用户发现、关联和描述,并再利用各种数据。用户与数据的关系就好比万维网和文件的关系。

3.2 关联数据的应用研究现状

数据集内的知识库都可以被访问,并和其它数据集的内容连接在一起,如图1所示。

LOD遵循了万维网的基本设计原则,即简单、兼容、模块化设计以及去中心化。目前,该计划含有20多亿个RDF三元组 (triple),其中包含了大量知识。此外,参加该计划的数据集还在不断增加。目前,这些数据集可以通过非均匀方式(heterogeneous)访问。比如,通过语义网页浏览器或者通过语义搜索引擎爬虫收录,如Falcons( http://iws.seu.edu.cn/services/falcons/),Sindice (http://sindice.com),SWSE(http://www.swse.org)和Watson (http://watson.kmi.open.ac.uk)等均能搜索基于网络的数据提供关键字,由此寻找不同主题的数据集。目前,已经有数十亿条传统网页上的数据(包括维基百科)被自动半自动地转换成了关联数据。

从2007 年起,关联数据发展很快。W3C的关联开放数据运动(LOD ,Linking Open Data)正式启动,一些新的和期待已久的W3C标准也发布了,如SPARAL,GRDDL和RDFa等。大型媒体公司(如BBC,纽约时报)已经把他们的海量数据转换成了关联数据。英国和美国等国家也开始了政府信息语义网的相关工作,英国政府已在2011年6月把主要的政府信息发布成可以重用的关联数据,并且建立起重用数据的通用协议[7,7]。

随着关联数据相关研究的不断深入,不但减轻了整合农业信息空间分布式异构数据源的复杂性,而且推动了基于关联数据的新应用。目前,国内外围绕关联数据进行了一系列的理论研究和应用开发,相关的研究项目主要涉及利用关联数据实现数据网络和合作、基于关联数据构建Mashup服务、基于关联数据实现本体的再利用、关联数据的语义Web搜索引擎以及利用关联数据实现自动语义问答等。

4 基于关联数据的农业数据组织方式

4.1 RDF简介

资源描述框架RDF(Resource Description Framework)是一个语法独立的数据模型,也是描述关联数据的数据模型。RDF从本质上可以认为是XML处理元数据的一个应用。同XML一样,RDF也由是W3C组织主导而形成的一个架构,它在语法上完全遵从XML。在RDF里,基本模型包括了资源、特性和声明。它与元数据的主要不同之处在于:元数据一般是用比较简单的资料来描述资源的内容;而RDF可以同时定义多个元数据,再用定义的多个元数据来描述资源的状况。

4.2 关联数据的知识组织机制

关联数据是数据的一种发布方式,以URL的方式链接到一个数据对象,而不是一个文档。这个URL通常就是这个数据的URI,并且这个数据对象基本上是由RDF来描述的(这样才能保证数据具有语义),而且RDF文件中应该包含更多的由URI所标识的其它资源。RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系,如图2所示。

从图2可以看出,任何人都可以在农业信息空间发布数据,实体之间都是通过链接来关联,数据都可以按照RDF和OWL实现自定义。更为重要的是,数据发布是开放的,每天都有大量的数据源实时发布。

4.3 基于关联数据的农业数据组织应用

由于关联数据的简单、可靠、灵活、松散耦合、丰富语义以及自定义等特征,在农业信息空间范围内实现新的数据组织方式是十分必要和可行的。数据资源发现对于农业知识服务是非常重要的,关联数据为农业知识的资源发现服务提供了良好的途径。关联数据创造了显性知识的资源和外部世界隐性知识资源相互连接起来的机会,可以增强和扩展知识发现与知识挖掘的平台。目前,农业信息空间领域展开的或者是可以运用到的基于关联数据的数据组织应用可以考虑集中在以下几个方面。

1)将农业信息空间的知识资源发布成为关联数据。

目前,已经有一些农业信息空间开始采用RDF和关联数据,如瑞典国家图书馆、美国国会图书馆、OCLC和德国国家经济图书馆等。以RDF的格式标准发布农业信息空间内的数据资源,实现所有主题资源的关联数据化,不仅能降低服务器的负载,而且能增加规范格式文档的利用率。

2)扩展农业信息空间知识资源发现服务。

许多的农业信息空间通过实施资源发现服务,扩展其目录检索和导航界面。资源发现服务可以浏览动态更新的结果,展示更多的知识信息,但在浏览和精练结果的深度方面还具有一定的局限性,因为主要是通过主题标目和MARC记录里的其他数据来实现的。关联数据可以通过提供结构化的数据以此扩展知识信息,为知识工作者提供新的资源发现和访问服务。关联数据允许用户关联到更广泛的信息资源,并不局限于知识资源本身的信息(如图2所示)。

3)利用关联数据实现数据融合与语义检索服务。

CultureSampo[8,8]是博物馆使用开放数据的例子,是芬兰文化记忆的语义Web门户。关联数据的最大优势是可以提供多个分布式异构数据源整合的关联的访问,将来自不同数据源的同一个对象进行整合,返回给用户关于该对象的所有相关信息的统一视图。在未来,越来越多的农业信息空间将在数据融合方面发挥更大的作用。伴随语义网的发展,农业信息空间下的各个知识机构同其他组织进行数据的识别和交换的方法越来越容易,数据可以重新使用和组织的方法也越来越多。

5 结语

将不同的数据源整合在一起,可以比在任何一个组织中获取的数据更能提供背景和深入的洞察力。建立基于关联数据的农业信息空间数据组织方式,不仅能更好地扩展知识资源的内容,提升知识资源的发现服务,而且还有助于推动和构建大规模的分布式服务,帮助建立一个更为开放的网络,促使新的农业信息空间信息生产模式的生产,并结合新的语义技术实现增值性的信息组织。

参考文献

[1]李思经.试论国外农业研究信息体系的管理[J].情报海外,2005(5):92-93.

[2]邬宁芬.信息共享空间:大学图书馆的机遇与挑战[J].图书馆杂志,2005(11):30–33.

[3]Dr D Russell BA ILEY.Information commons services forlearners and researchers:evolution in patron needs digitalresources and scholarly publishing[EB/OL].[2007-11-30].Http://librar2y.uncc edu/info commons/confer-ence/p rague2005/bailey2inforum2005.Doc.

[4]鄢小燕,李娜.科研协同信息空间[J].图书馆杂志,2008(11):49-50.

[5]王德禄.知识管理的IT实现[M].北京:电子工业出版社,2003:93-94.

[6]Berners-Lee T.Linked Data[EB/OL].[2010-02-11].http://www.w3.org/Design Issues/Linked Data.html.

[7]HM Government.Putting the frontline first:smarter govern-ment[EB/OL].[2009-12-01].Http://www.hmg.gov.uk/media/52788/smarter-government-final.Pdf.

[8]Hyvonen E,Makela E,Kaupp inen T,et al.CultureSampo-finnish culture on the semantic Web 2.0:thematic per-spectives for the end-user[EB/OL].[2010-01-20].http://www.arch muse.com/mw2009/papers/hyvonen/hyvonen.html.

[7]姚宗路,王晓燕,李洪文,等.2BMD-12型小麦对行免耕施肥播种机改进与试验研究[J].干旱地区农业研究,2005,23(5):46-51.

信息数据 篇8

1 不良数据研究现状分析

在电力信息系统中, 所涉及到的数据来自于多个方面, 除了相对比较常规的办公数据以外, 还包括营销和输配状态两个重要的数据来源。在这样的环境之下, 有效提升各类数据准确水平, 对于稳定电力供给有着毋庸置疑的积极价值。

在电力信息系统中, 对于供配网络各个方面的实时测量结果, 会因为测量系统本身安排的不合理以及冗余度不足, 或者通信网本身可靠性不够等因素, 而在系统环境中呈现出某些数据无法进行有效的辨识, 从而形成不良数据。对于这一类的数据, 必须展开检查和清理, 否则会影响调度系统决策失误, 无法形成有效的决策支持信息。同样的问题会出现在任何一个相对大型的信息系统环境中, 包括电力销售数据环境等, 而当前以二次系统以及电力通信系统所组成的信息反馈体系, 则成为不良数据辨识工作的重点领域。不良数据检测与辨识是电力系统状态估计的重要功能之一, 其功能是在获得状态估计值的基础上, 依靠系统本身的冗余信息, 通过数据挖掘和识别等自动化技术, 发现采样数据中偶然出现的不良数据进行剔除, 借以实现对于状态估计的可靠性提升。

不良数据的检测与识别, 对于状态估计结果的正确性有着至关重要的作用, 也因此一直都得到相关领域的关注。近年来数据挖据技术成为该领域中广泛研究的重点, 并且在不良数据的检测和识别过程中表现良好。其能够有效面对海量数据, 并且从不完全和模糊、随机的实际应用数据中分理处正确和可理解的信息, 并且在一定程度上对于保护数据的及时性和有效性有着积极价值。当前国内外在基于数据挖据技术的基础上, 已经提出了多种不良数据检测与辨识的方法。其中首先包括相对传统的, 以目标函数极值检测法、加权残差检测法、标准化残差检测法以及测量量突变检测法作为突出代表。同时随着相关技术的发展, 更多新的理论和对于不良数据的检测方法开始得到应用, 其中包括模糊数学法、神经网络法、聚类分析法、间隙统计法等, 且大部分都以数据挖掘作为重要的技术基础之一。

2 电力环境中不良数据检测工作分析

在电力信息系统环境中, 对于不良数据的检测呈现出其独有特征。通常而言, 可以将电力系统量测数据看作为有效的量测数据和量测噪声的线性组合, 并且通常以白噪声作为突出表现。通过一定的技术手段, 能够对白噪声产生的不良影响进行消除, 但是如果在量测数据中包含有不良数据, 则通常会通过如下两类方法展开辨识和剔除, 其差异在于状态估计与不良数据辨识展开的先后顺序。

如果先展开状态估计, 而后进行检测和辨识, 则在检测之前可以通过状态估计获取到量测量残差, 对其进行加权和标准化处理之后, 设定阈值, 进一步展开假设检验, 确定是否存在残差, 并且进一步利用残差搜索展开对于不良数据的辨识工作。此种工作方式在辨识的有效性方面表现良好, 但是问题在于计算量会相对较大, 随着电力环境中更多数据的涌入, 整体工作效率会略有下降。除此以外, 残差淹没也是会降低此种检测灵敏度的一个重要问题。另一种方法, 即首先对量测数据展开预测而后展开状态估计。预测之后先偶去量测残差, 而后依据量测残差之间的相关关系展开检测, 并且对不良数据进行辨识。此种方法在动态系统中可能会出现检测困难, 并且对量测过程中产生的冗余信息无法展开有效利用。

两种面向电力信息系统展开不良数据检测的技术, 各有优劣, 在实际工作环境中也均呈现出不同的适用特征。其中前者, 即先展开状态估计而后进行不良检测的工作方式相对而言比较成熟, 而后者则起步较晚尚待进一步的成熟。

从常规工作展开的层面看, 想要落实针对不良数据的检测工作, 首先需要选取一定长度的窗口样本作为量测数据的范本, 并且针对其展开该时间段内的量测数据方差的计算, 如果方差没有超过规范阈值, 则可视为不存在不良数据。在方差超过规定阈值的情况下, 需要进一步将超标数据置入可疑数据集中, 并计算可疑量测量与其它量测量之间的相关系数, 随后确定该系数是否超过预定阈值, 如果超过, 则认定该量测量最近一个数据为不良数据, 并且加以处理并展开进一步的检测, 如果未超过阈值则认为不存在不良数据。

3 结论

信息系统中, 尤其是自动化信息系统之中, 必然会存在不良数据。而想要通过人工智能等相关技术从海量数据中获取到有用的信息用于支持决策, 对不良数据展开识别和剔除就成了信息系统面对的首要问题。实际工作中需要密切关注技术发展方向和趋势, 切实深入地了解电力系统内数据环境与特征, 谨慎选择和引入才能取得良好效果。

摘要:文章首先针对当前在信息系统环境中的不良数据所产生的危害进行说明, 而后进一步结合该领域技术发展的主要特征和应用情况, 对于电力信息系统中的两类检测实现技术展开分析并且加以对比, 为依据环境需求合理选择技术提供了必要依据。

关键词:大数据,信息系统,不良数据,检测

参考文献

[1]张海波, 李林川.电力系统状态估计的混合不良数据检测方法[J].电网技术, 2001, 25 (10) .

大数据与信息安全 篇9

大数据现象是由多种社交网络服务的快速增长引发的,目前,每天都产生2.5兆字节的数据,数据的创建速度远远大于分析速度。用户生成的信息产生了可从多种用途加以分析的巨大的数据,从商业到安全性,机器到机器通信(M2M)和物联网也产生了大量的数据。其他领域,如DNA测序,也有助于产生大数据。数据演变成为大数据引起了数据安全和管理的重要问题,一些大数据计划失败正是由于不清晰的安全控制。因此,在大数据方面安全是非常重要的。

1.1 大数据等于大机遇与大问题

数据的数量随着现代企业的发展以指数级的速度与日俱增,从这些数据中提取有商业价值的信息的期望也随之增加。越来越多的企业领导人明白,近乎实时的大量数据收集分析可以帮助他们应对市场趋势,在日益严酷的经营环境中占据一个独特的竞争优势。随着大数据主动获取越来越多的数据,为企业领导人提供了增强的商业价值同时,企业在存储数据方面将面临着巨大的风险和威胁。

1.2 大数据等于大安全威胁

公司刚开始体验到大数据的优越,像任何新的恋情一样忽视对方的缺陷。然而,了解这些海量数据存储包含大量的“有毒”的数据对用户来说是很必要的。有毒数据是指脱离控制后会造成损害的数据。通常情况下,有毒数据包括监护信息如信用卡号码,个人可识别信息(PII)如身份证号码,和个人的健康信息(PHI)和敏感的知识产权,包括商业计划和产品设计。

如今,网络黑客和一些代理商正在偷这类有毒的数据。安保不全和缺乏控制的大数据环境可能会使这些恶意行为更容易。随着大数据热度的消退,公司必须意识到大数据环境问题,并适当控制和保护他们的大数据环境。

1.3 大数据等于大安全挑战

像任何技术创新一样,应用大数据带来的好处已使企业下意识的忽略了其潜在的负面影响。当安全专家指出其潜在后果时,业务和IT领导人会认为专家是为了商业利益故意将弊端夸大化,现有的安全技术被直接应用上去,而不考虑实际。我们都知道,直接覆盖或者套用的方式是无效的并且会引起很多安全方面的问题和挑战。现在是时候承认大数据的安全风险,并开始计划进行适当的控制了。

1.4 大数据等于大责任

除了存储相关的知识产权问题,大数据环境还包括公司可以控制但不能拥有的数据。这通常包括客户数据和业务合作伙伴数据。由于大数据是整个组织的数据集中,安全和风险管理专业人士必须努力消除现存的数据存储上的权责问题。例如,法律团队和负责数据泄漏防护(DLP)的安全小组来一起从事分散数据发现和项目分类,这样的组合可以提高效率,降低成本,提高可操作性。在应用安全控制之前(如加密,标记,和权限管理等),可以用一个统一的方法来提取和分类归档数据,便于存储和删除如此大量的数据。

法律、安全团队还需要一起研究了解大数据相关的监管问题。例如,也许你的企业要发展从客户大约24000000000微博中挖掘和分析市场情报的能力,这听起来是个好主意,但它在一些个人隐私法比较严格的欧洲国家也可能触犯法律,如德国、西班牙和意大利等,你的大数据事业甚至在开始之前就突然死亡了。然而,如果安全人员参与了项目的早期建设,企业能有更好的机会来利用更多的或更有前途的替代技术,如在大数据初始化处理上使用标记技术来代替PII技术。

2 安全发展的驱动

如果我们把信息安全行业作为一个整体来看,除了快速发展的的威胁形势外还有什么能推动创新?

回顾过去,有两大创新驱动力 :一个是内在力,即顺应发展要求。它看起来跟创新没关系,但实际上它在某些领域确实推动创新,像加密和标记等。解决这些问题涉及实际的经济利益。

第二个驱动力是外在力,即环境威胁,主要是攻击,特别是高频率高质量的攻击。这两个驱动因素今天依然存在。个人设备的广泛应用,和公共云服务的快速发展也必将推动安全性的创新。

但现在,还有另外一个驱动力,它很有趣,而且对于安全来说相当新鲜,那就是隐私。最近隐私问题一直出现在聚焦排行榜前列,绝对是推动建立创新解决方案的驱动。关于这方面有一个很具古义的创新app :阅后即焚,一种邮件自毁程序,即邮件或聊天内容存在一定时间后即删除。这对于安全来说就是个很新鲜的尝试。

IT安全的最重要的问题之一就是缺乏良好的指标。很多时候,我们不得不基于先例来处理问题,在某些情况下,甚至是基于使我们更安全或更不安全的迷信。大数据和数据分析提供了一种进行安全实衡量的可能,它或许可以给我们一套可落地的实用标准,这将不只是影响尝鲜的大企业,也会给中小型企业带来非常具可操作性的想法。

3 大数据的影响

大数据改变了信息安全领域的本质。在过去的几年里,看似不可能的大量消费者和行业数据(又名大数据)的概念频频出现在新闻中,由于它引起了人们对公共,私人消费,政府信息安全和隐私问题和业务水平。发现,收集和保存敏感数据(如消费者的IP地址,企业的预算,购物习惯或信用卡信息)的做法,不仅挑战了数字时代的隐私概念,同时也为黑客、网络窃贼和网络恐怖分子创造了新的难以抗拒的目标。其结果是,就算是信息安全专家都需要了解如何调整自己的工作,以有效的方式来管理大数据现象。

3.1 在健康医疗上的影响

在健康保险方面,在过去的二十年中,医疗费用以惊人的速度增加,目前估计为GDP的17.6%。医疗专家在提高治疗过程效果的同时也在寻求如何降低费用,大数据的出现给了转变医疗卫生及保险行业一个合理的解决方案。麦肯锡全球研究院估计,如果发挥大数据战略杠杆的最大潜能,每年估计能有十亿利润增加。举例来说,利用大数据分析和基因组研究与病人实时记录,可以让医生对治疗做出更加有效的决定。

此外,大数据将迫使保险公司重新评估其预测模型。随着医疗服务的成本上升和医疗保险费的上升,将有必要进行积极的医疗管理和健康管理。这种转变从被动到主动的医疗保健和保险可能导致护理质量的提高,降低医疗费用,并最终导致经济增长。

在过去的十年里,在医疗IT中的安全漏洞呈现稳定增长。在2013年,Kaiser Permanente的(美国最大的非营利性医疗保健机构)通知其49000例患者,他们的健康信息被泄露,因含有患者记录未加密的USB盘被盗窃。此外,对病人的隐私和数据安全的一项研究表明,医疗及保险商94%的客户在过去的两年中至少有一个安全漏洞。在大多数情况下,这些攻击是来自内部人士,而不是外部。随着不断变化的风险环境和新出现的威胁和脆弱性,安全方面的违例将层出不穷,电子病历及保单的安全性必须予以高度重视,以确保客户的安全。现在患者的信息以不同的安全级别被存储在数据中心,并且大多数的医疗数据中心有安全认证,但认证并不保证病历的安全性,更侧重于确保安全策略和程序而不是执行它们,而通过在健康医疗及保险上应用大数据将显著提高安全性和病人的隐私关注度。

3.2 大数据在商务的影响

数字数据和信息安全的管理几十年一直是一个热门的商业问题。自互联网在上世纪80年代成为主要通信设备开始,人们就不得不开始为保护公共和私有数据而和黑客的攻击作斗争。

但是,大数据的出现,彻底改变了信息安全领域。虽然大数据的概念可能使隐私问题受到过分关注按,单从商业营销策略和产品开发的角度看它一直是一个宝库。通过分析从城市,省,国家或全球客户收集数据点,公司能够分析特定的购买趋势和区域影响力。事实上,这些数据库已经变得如此有价值,以致它们通常被认为是一个企业的资产清单的一部分。

然而,大数据已成为网络威胁,它已经成为黑客或企业间谍活动的主要目标。在过去的五年里,已经出现了跨多种行业的众多的对大数据的攻击。几年前,TJX公司经历了一个信用卡信息安全漏洞事件,影响了数以百万计的全球客户。除了丢失的数据是保密的或有价值的外,另一个主要后果是消费者对企业信心和信任的丧失。这就是为什么大数据的安全性已经成为核心业务战略的一部分,精明的企业都在寻找合格的专业人才,以保护自己对敏感信息的大量投资。

3.3 大数据在信息安全方面的影响

企业聘请技术专家来管理网络安全和信息技术的时代已经一去不返了,因为大数据需要信息安全产业利用所有领域的专家来提供对重大漏洞的安全防护。作为其主要的业务资产之一,许多企业正在推动扩大他们的数据基础设施系统以保护大数据。一个有趣的结果是,扩大或升级技术基础设施也成为一个公司的价值增加的重要方式。安全信息基础设施,包括服务器,网络,防火墙,工作站和入侵检测系统是不可或缺的安全,因为他们支持复杂算法的快速处理,并提供对大数据威胁防御的第一道防线。在大数据世界里大家都开始变得不同了。大数据需要在许多方面都有研究的信息安全专业人士,而不是跟以前一样专注于该领域。

4 结语

“大数据”时代已经迎来了大量的发展机会 :推进科学,完善的医疗,促进经济增长,改革教育体制,并建立社会交往和娱乐的新形式。然而,这些机会也带来了安全性和隐私性的挑战。这些挑战包括 :缺乏有效的工具和方法用于安全地管理大规模分布式数据集 ; 第三方数据共享 ; 漏洞不断扩大的公共数据库……数据是强大的,而且数据也是危险的,错误的数据落入错误的人之手可能带来毁灭性的后果。同时还必须关注众多法规和隐私法,违反这些职责和法律可能导致显著的财务和品牌声誉的损失。是时候启动大数据安全规划了,越早建设大数据安全措施将越有利于降低成本、风险和发展期阵痛。

摘要:大数据(big data)现象源于越来越多的来自各种渠道的数据,大数据的大不仅是指尺寸或体积,大数据的特点被称为4V:体积,种类,速度,和价值-(volume,variety,velocity,and value),大数据的这种特性使其很难从安全角度管理,本文概述了大数据对安全及应用方面影响,对大数据安全发展提出了可能的方向。

信息数据的编码技术 篇10

实际上,关于编码技术在计算机基础课程里学习过,因为计算机集成电路器件的工作原理,就是采用二进制的编码技术。现在重点是讨论信息数据的编码技术。

随着现代计算机网络技术的发展,网络提供给人们巨大的方便。应该在实现开放性信息共享的同时,又保证网络能够安全运行。由于开放的网络存在很多的安全隐患。包括病毒、黑客攻击事件,为了使得互联网的信息能够正确有效地被人们所使用,互联网的安全就变得非常重要。因此,必须选择各种信息数据的加密技术,做到保障网络信息的安全。

保护信息数据的加密编码技术是指把需要加工处理的数据信息,科学地用特定的符号来表示,这是根据一定的数据结构和特征,将信息数据转换为代码或字符,以便在网络数据传输应用中表示信息组成,并作为传送、接收和处理应用。信息数据加密编码技术的优点是简化,压缩,快速,而且保密。

现在就简单地举一些实际例子来说明。我们遵照教学要有启发性,由简到繁,由浅入深,主张教与学都不能太枯燥,乏味,呆板,要争取娱乐化,让大家感到很兴趣,轻松,有吸引力。所以我们举的例子是生活化的,结合娱乐活动的很熟悉,感兴趣的内容。

二、简单的信息数据保密方法

假设,需要保存一封重要信件,要求保密,如果就是被别人看到了,也看不懂。应该怎么办?

有人曾简单地把原稿倒着来写,自己知道,可以看懂,但是太简单,根本就不够保密。

也可以想法在原来文字之间加上杂乱的字穿插混着,别人就看不懂。如图一所示,(这里保护的信息数据用李白的诗为例)。这是一种比较简单的保密方法。

如果插了很多杂字,超过了原稿的字数,这样保密程度就提高了。当然自己要制作一种屏蔽格子的方法,来记录信息。并且注意能够保存好屏蔽格子,需要解密的时候,自己能够使用。如图二所示。

所述这种加密方法,比较简单,没有采用到编码方法,保密程度较差。因为,原来的所有字都还在里面放着。

图 二 特 制 屏 蔽 格 子 写 原 稿 文 字通 过 屏 蔽 格 子 解 密 得 到 明 文

三、字母移位的保密方法

对于信息是英文,属于拼写文字,如果26个英文字母A–Z,都用移位的方法来保存,就可以进行加密,文字信息就完全被改变了。

举例:‘computer’各个字母右移一位,变成‘dpnqvufs’,谁也不懂了。

同时,这种方法很容易用字符全部复位的办法来解密。

四、数据编码加密方法

数据编码加密方法,全部信息内容都要用另外的符号来表示。原来的信息都没有出现。提高了加密程度,确保了信息的安全。

假设,有一些汉字,为了保密,我们规定用简单符号一一对应表示。如图三,有十个汉字,用0-9符号对应表示。

使用时候,只需要写出符号,就表示对应的汉字信息含义。例如‘52’就是‘天路’。

这个例子,好象是在娱乐活动中的点歌台上做联络游戏。当然也可以看作是特工在做口令联络工作。如果没有看到这个编码表,肯定谁都不知道。

这个例子简单明了,很容易看出编码加密的优点。就是简化,压缩,快速,而且保密。

实际上,现在信息量非常大。没有上面例子这么简单。我们进一步,假设有100个汉字,也用规定的0-9符号组合表示。

现在,一个字就要用2个符号来表示了。

如图四,每个汉字由它对应的行号列号来表示。如:‘爱’是‘02’,‘军’是‘31’,‘上’是‘88’。

现在我们举行A,B两场音乐会,有两个节目单,分别已经代码化了。见图五所示。代码化的节目单大家看不懂,但是我们的系统能够正常准确工作,指挥音响和演出活动。通过解密,人们就能够看到真实的节目单了。

五、信息加密解密的可逆方法

大家如果有兴趣深入学习信息加密解密的可逆方法和实际应用,请看我的一篇文章,《信息的加密解密可逆方法》,刊登在福州大学学报自然科学版上,具体参见参考文献。

六、讨论

1、加强信息技术的教改工作。本文就是其中一例,关于信息数据的编码加密技术,好象很深奥,如果能够通过适当举例,通俗讲解,就好懂多了。而且能够通过启发、互动,引起兴趣,调动学生的学习积极性。希望任课老师经常能够交流教学改革的方法,共同努力推动教改工作,提高教学质量。

2、注意开展创新教育。本文内容就是课本教材的扩展和补充。就是在启发、引导、鼓励、帮助学生,能够灵活地运用已学的、知道的知识,自己大胆提出课题,独立解决问题。希望通过习题、作业训练,举一反三,这是培养青年学生创新精神与创新能力的有效方法。

信息数据 篇11

关键词:大数据;地理信息数据资源;管理与应用

引言:当今世界,信息技术革命日新月异,对国家政治、经济、文化、社会和国防等各个领域都产生了深刻的影响。国务院秘书局“9202”工程以及2015年8月通过的《促进大数据发展行动纲要》以来,地理信息产业高歌猛进,在政府决策、应急处置、重大事故、基础建设、资源探测、水利森林、规划建设等方面发挥着重要的作用。在服务于经济社会全面发展的同时,可以看到,在地理信息数据资源管理上,还存在着许多问题,有待于进一步提高认识,加强管控,从而科学有序地加大多层面共享服务的力度,解决部门各自为政、互不共享,使其不断成为城乡综合发展的助推器和人们日常生活的便利器,保障地理信息数据资源健康有序发展,这便是本文浅探地理信息数据资源由政府统一管理的一些建议,仅供参考。

1. 大数据概念与特征

1.1 基本概念

“大数据”就是一个体量和数据特别大的数据集,并且无法用传统数据库对其进行抓取、管理和处理。美国麦肯锡是最早研究大数据的先驱,它给出的大数据定义是:超出常规数据库工具获取、存储、管理和分析能力的数据集。但他同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。

1.2 基本特征

大数据的基本特征可以用4个V来总结,即国际数据公司(IDC)提出的海量的数据规模(Volume)、快速的数据传输和动态的数据体系(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value)。

1)数据体量巨大。从TB级别到PB级别;

2)类型繁多。如文字、数字、视频、图片、地理位置坐标、高程、社会动态信息数据、国民生产经济数据等信息;

3)数据价值密度低。以视频为例,连续不间断的监控过程中,可能有用的数据只有两秒;

4)处理速度快。数据的快速处理,是大数据的重要特征之一。

从大数据的定义和特征可以看出,大数据并不是简单的海量数据,而是包含了海量数据及其处理规则和能力,最终重要的是从海量数据中提取有价值的数据。

1.3互联网

大数据+网络光纤+无线传输=互联网。

2. 地理信息概述

2.1地理信息相关概念

地理信息(Geographic Information)是指与空间地理分布有关的信息,它表示地表物体和环境固有的数量、质量、属性、分布特征,以及联系和规律的数字、文字、图形、图象等要素的总称。

地理信息系统(Geographic Information System或 Geo-Information system,GIS)有时又称为“地学信息系统”或“资源与环境信息系统”。它是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。

2.2地理信息系统技术组成及相关学科

地理信息系统简称“UGIS”,它是地理信息系统的一个分支,是一种运用计算机硬、软件及网络技术,实现对城乡各种空间和非空间数据的输入、存贮、查询、检索、处理、分析、显示、更新和提供应用,以处理城乡各种空间实体及其关系为主的技术系统。它是城乡基础设施之一,也是一种城乡现代化管理、规划建设、科学决策和社会经济发展的先进工具。

基础地理信息是指城市最基本的地理信息,包括各种平面和高程控制点、建筑物、道路、水系、境界、地形、植被、地名及某些属性信息等,用于表示城市基本面貌并做为各种专题信息空间定位的载体。它具有统一性、准确性、基础性和动态性的特点。

专题地理信息是指各种专题性的地理信息,包括城乡规划、土地利用、交通规划、综合管网、房产数据、地籍信息、环境资源等,用于表示城乡某一专业领域要素的地理空间分布及规律。它具有专业性、统计性和空间性特点。

3S技术是遥感技术(Remote Sensing,简称RS)、地理信息系统(Geography Information Systems,简称GIS)和全球定位系统(Global Positioning Systems,简称GPS)统称,是空间技术、传感器技术、卫星定位与导航技术和计算机技术、通讯技术相结合,多学科高度集成的对空间信息进行采集、处理、管理、分析、表达、传播和应用的现代信息技术。广义的“3S”技术包括空间信息获取、传感器和信息探测、图形图像处理、空间定位、动态监测、信息管理与存储、预测评价与决策分析等。3S技术是现代技术发展的先导,对全世界的科技进步发挥着重要作用。

2.3定义与种类

地理信息数据资源是大数据海量信息中的基础框架主力军部分,是指通过计算机把各类专业探测、测量、研究成果等活动进行計算加工形成的数据成果、计算资料、原始记录、图像资源、航空影像、磁盘、图纸、图表、照片等集合的数据群。

2.4体系结构与形式载体

1)按体系结构分为:卫星影像、航空遥感影像、大地与工程测绘、国情与地理信息采集、地下探测、海洋与江湖测绘、界线测绘、地图制作、数据库建设与维护、资料成果应用、动态维护、相关学科研究和其它等,几乎涵盖了从空间到地表以及地下的全部地理信息量。

2)形式与载体:有文字、数据、图件、图表、电子文档、声像、数据库和其它形式等。

nlc202309081751

3. 加强资源整合,促进管理应用

大数据时代下的信息化建设,不是哪一个部门的事,更不是一家独享。整合资源群是信息化建设的最终之路。通过整合,建立“一个平台,多层级共享与应用”的格局,才是信息化建设真正要达到的目的。

3.1 解决多部门自成体系、各自为用

目前,很多城市的相关部门、单位都各自积累了不同程度的原始数据资料,大部分资料互不共享、各自为用,且资料的标准不统一;政府公共数据资料需求、信息化建设管理、行业管理等均“管出多头、各有主张”。笔者所在城市同样存在类似问题,从不同形式的管理到工作中的实际应用,如政府层面的信息化服务相关协调保障、经济信息方面的信息化建设管理、国土或规划方面的行业管理;数据资料方面,如城建、公安、规划、国土、房管、城管、智慧城市、社区网格化管理等多个部门,均拥有或多或少的各类地理信息数据资源,且均为财政出资,多头上马,建立各自为本部门服务、大小不一的各类数据库。造成了人力、财力、物力上的极度重复浪费和多头难管。所以,整合资源和改变现状体制的重要性尤为突出,政府责任首当其冲。

3.2 集约资源,术有专攻

专门的机构,专业的人才,实施统一的管理,按需进行数据资源有效研发利用,有序推进动态的常态维护和管理,是當今比较适合地理信息数据资源管理的有效管理和应用模式。据笔者长期对全国其它地区做法的观察了解,以深圳为例,深圳的类似机构目前约有70人(正处级公益性事业单位),专门负责全市地理信息数据资源的管理与应用等相关工作,实行“一头管理、多家共享”,后台服务器直接对接全市各数据资料需求单位,并根据不同需求,进行不同的研发与加工,满足各单位工作需要。由此一来,节约了多头齐上的财政投入,节约了多家从业的人力资源,解决了多家数据不融合、不统一等诸多问题,有效推进了数据采集、研发应用、动态维护、行业管理与实际应用等系列工作,在地区经济建设和各项事业发展中起到了很好的示范带头作用。

4.顶层设计,合理布局

所谓顶层设计者,应为以地区为单元的地区政府。从地区区域角度出发,要统筹规划地理信息资源体系建设,要做到科学有序、统一管理、高效便捷、先急后缓、逐步推进,不可一蹴而就,更不能各自为据,违背它的严肃性、统一性、现实性和动态性。

4.1 立足当前,实事求是

政府作为本地区地理信息产业的顶层设计者、管理者,不能放手不管,更不能一味追求行业发展潮流,而“贪大、求新、求全”。不能脱离本地发展现实,更不能简单地以财政资金,找来队伍,照猫画虎,生搬硬套的做表面文章,做形象工程,做完一了了之。应当按需设计、按需采集,并进行常态化动态维护和研发应用,以延长数据资料的使用周期和提高资料的利用值。

4.2 建立机构,统筹管理

政府在推进信息化建设和有效利用地理信息数据资源的道路上要高瞻远瞩。应着眼于长远,建立统一服务于本地区的专门机构,科学有序地对本地区信息化建设和地理信息数据资源实施采集、加工、整合、维护、研发和资源共享。

笔者在参照深圳做法的基础上,初探一种模式,对本地区大数据时代下的信息化建设进行顶层管理、统一实施、资源共享。就是把各部门、单位相关的工作内容或机构整合到一起,在市政府办公室辖设一个二级机构(可定义为公益性公共服务类型),负责对上级政府和本级政府信息化建设层面的常态化管理与应用保障服务;对全市各需求部门和单位提供数据资源共享服务;对秘级资料进行有效管控管理;对社会定期发布相关信息;接受上一级相关业务指导与管理;这样可以做到行业顶层层面统一管理,以专门的机构、专业的人员,提供专业的共享和服务,最大化发挥地理信息数据资源的作用,有效杜绝机构多、数据无序,数据资料不统一、不共享等问题。

5. 展望与应用

空间交互一直是地理学的传统命题,人类社会的一切活动,包括经济、生产等活动均是在一定或特定地理空間范围内完成,与地理空间密不可分。在时空地理信息数据基础上利用大数据技术,对海量的数据资源进行聚类、分类、相关性分析,找到之间关系,不断建立各种新的数据关系和数据模型,以其不断形成的巨大的数据体量、高超的分析后台、秒级的处理速度,使其具有了超常智慧。这些数据和由其产生的智慧,将不断刷新和改变我们对当下事物的意识和思维。

随着信息时代的发展,地理信息范畴的相关学科技术将得到更广泛的应用,带动全社会对地理信息资源的大量需求。从国家国防、航天、探测、气象,到各类监控,监测;从电力、通信、水务、油气、交通、城乡规划建设等基础设施建设,到各类民用服务应用;从对事物的空间、貌相实施特征快速认识,到研究、决策;地理信息数据群为社会提供了更深的广度和宽度,成为国家或全球信息流中的重要组成部分,成为当今社会最基本的信息领域服务产业,对我们未来的工作、生活和社会发展更将产生不可估量的作用和价值。

结语:大数据下的互联网时代,是人类产业的重大变革与挑战,如何管理好、利用好大数据框架下的海量信息和资源,是考验我们政府在信息时代前行道路上的智慧与能力。

大数据时代的信息安全 篇12

大数据环境下信息安全面临的主要挑战

1大数据集群数据库的数据安全威胁

现在使用的大数据并不是一个控制用户进行对网页以及相关性服务数据的访问, 它不会隐藏自己, 使其它程序不能访问。在大数据中不存在“内部的”概义, 它不依靠于数据访问时的集中点。大数据把自己的系统结构充分显示给在使用它的一些程序中, 这时客户在进行操作的时候连接其它不同的节点进行通信, 要区别客户的访问权限是很困难的。

2智能终端的数据安全威胁

智能终端数据的安全问题已是当前大数据时代中最为关键的问题之一。我国现在已是智能终端数据使用的最大市场。这些终端占据了人类大部分时间, 但是也帮助人类存储了大量的数据。也使人们产生了觉得“大数据并不安全”的想法。所以智能终端数据的安全性就成为了一个非常重要的问题。如果所使智能手机感染病毒, 那手机所有的信息就会被攻击, 所造成的后果不堪设想。

3数据虚拟化带来的数据泄密威胁

大数据时代可谓是人类社会的宝藏、财富, 而虚拟化数据作为挖掘这些宝藏的工具。大数据时代中的数据虚拟化中允许用户对数据进行管理、访问、以及优化分析的方法。最为典型的即是存储数据的虚拟化技术。在这个存储数据的仓库中, 用户不知道自己的数据通过哪条路径哪个设备进行传输和存储。因此, 在虚拟化的数据存储设备中, 怎么可以实现统一化管理是一个难题, 虚拟化后, 不一样级别的数据信息都存储在一个物理介质上, 将造成越权访问、数据泄密等问题。 (1)

大数据时代信息安全应对策略

应对大数据时代的到来, 全世界各个国家都在对大数据进行不断的完善中, 可以从以下几个主要方面考虑安全策略:

第一, 出台相关政策。在我国的物联网发展已经列入到“十二五’规划中, 不过针对大数据的政策及规划还没有。由于大数据在社会中的重要性, 所以作为国家要捕捉到这一科技的竞争点, 出台相关政策法规予以支持很重要。

第二, 加强网络安全保障。大数据中信息的采集量、传输量越来越大, 种类增多, 所分析出来的信息数据极高。而且个人上传信息的频率也增多, 个人信息的私隐性很高, 在传输过程中就会引起一些信息的泄漏, 然而大数据可以利用不同渠道进行信息的收集、分析等。由此一些非法分子也利用一些非常手段进行盗取这些信息, 如果盗取成功, 就会造成不可估计的后果。因此网络安全保障在大数据时代中非常重要, 而且需要在法律法规中明确对这些信息的使用权以及所有权的规定, 需要进行严格的法律保护。

第三, 着力发展安全防护技术。当前的信息安全防护技术已经不满足某些个体的需要。大数据研究中, 针对大容量数据存储的保护技术是重中之重的科研工作, 发展新型信息安全保护技术是当前我们急需解决的重要问题。

第四, 采用新技术抵抗持续性的攻击。大数据发展过程中, 其中核心技术包括了, 人工智能、机器学习、自然语言处理、情感、网络、空间、回归、聚类分析等时间序列分析以及数据挖掘、遗传算法、神经网络、数据融介等新技术的创新应用, 已初显成效。 (2) 将计算机系统中的存储计算以及各种分析能力融合到一起, 应对由于各类路径和渠道的高级攻击, 提高了系统的实时监测能力, 是解决APT的较好方法。

结束语

大数据时代的来临将传统的信息时代体系架构之间固定的数据存储仓库变换成可以共享数据、连接数据的存储中心。使人们可以利用各种各样的数据类型, 创造新的机遇和挑战。在大数据时代的信息安全要求下, 一定要结合多方面、多角度、多层次地保证信息的安全。

摘要:在大数据时代中, 数据信息泄露、盗取问题时常发生, 许多企业和个人用户开始担心由于数据的泄露所造成各方面的损害。在本文中针对大数据时代的一些主要的信息安全问题进行了分析, 提出一些针对数据安全的解决措施。

注释

11 吴蓓, 刘海光.浅析大数据时代的信息安全[J].计算机光盘软件与应用, 2013, 15:155-156.

上一篇:流动人口子女教育问题下一篇:小学美术课中的预习