数据挖掘背景

2024-07-16

数据挖掘背景(精选12篇)

数据挖掘背景 篇1

21世纪是信息化的时代, 也是数据时代, 随着世界范围内数据挖掘技术的不断深入研究, 大数据时代的到来给数据挖掘技术带来了机遇的同时, 也带来了挑战。面对浩瀚的数据库海洋, 如何在茫茫海洋中寻找针对特点人群有用的数据是数据挖掘技术在大数据时代背景下的意义。通过数据挖掘技术的充分应用分类技术, 挖掘大数据时代中的数据删选, 同时通过大数据时代背景下数据挖掘技术的应用技术探讨了数据挖掘技术在大数据时代背景下的应用。

1 大数据时代背景下数据挖掘的意义

在信息时代的背景下, 数字化技术和信息化技术在各行各业的应用, 随着互联网技术、信息技术、物联网技术、云计算技术等数字信息技术的高速发展, 结合当前高速发展的移动互联网技术以及数字地球技术的发展与应用, 全世界范围内数据呈爆炸式增长, 据统计2012年世界范围内产生的数据总量约1.86万亿GB。国际互联网数据统计中心根据近十年来来的数据增长速度计算, 2020年全球范围内数据总量预计达到100万亿GB。信息化技术的发展给企业带来的冲击是巨大的, 信息化技术彻底改变了传统的社会信息传输方式, 带来全新的信息传播途径。对于社会来说, 信息化是社会未来发展方向。信息化要求社会重视信息的形成、信息运用, 社会用信息化的工具整合业务、共享信息构建企业“信息化网络体系”才能使企业在当今信息爆炸, 高效率的社会背景下, 是企业高效运转, 才能综合企业的人力、物力、财力和管理能力是企业的各种资源通过信息化网络凝聚在一起, 共同为企业的高效发展和全球化的进程的目标凝聚力量。企业信息化作为国民经济发展的重要组成部分, 同时也是我国社会迈向信息化进程的重要前提。

企业信息化要求企业将大量的信息资源进行整合和电子化处理, 从而提高信息的交互与传输效率, 并希望藉此提高企业的生产经营管理方式和管理效率, 从而达到利用现代信息技术提高企业生产力、提高企业生产效率和利润的根本目的。云计算作为现代信息化产业发展的新技术, 给社会的信息化建设带来了巨大的改变, 降低了社会在信息化建设中的投入, 随着近年来云计算技术的不断成熟, 云计算构建的信息化平台使社会的信息化、生产与办公效率前所未有地提高毫无疑问, 当前的信息时代的发展已经达到了大数据时代的阶段, 大数据时代的来临意味着人们在应用和利用数字信息技术时不得不花费更多的人力、物力、财力去筛选、存储和利用庞大的数据库。例如对于一个银行系统来说, 每天数以万计的银行和ATM终端都发生庞大的交易和数据交换, 这些庞大的数据交换信息构成了庞大的数据, 如何在庞大的数据中筛选、分类和提取有价值的数据是数据挖掘技术在当前大数据时代存在的意义。

2 大数据时代背景下数据挖掘技术的分类应用

数据挖掘技术在当代数据爆炸的现代社会的重要性越来越强, 随着社会信息化程度的不断提升, 数据挖掘技术也逐渐发展成为一门独立的学科, 数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据的需要, 通过分类技术对数据进行分类挖掘, 是当前大数据时代背景下大数据技术应用最为广泛的手段之一。

通过数据库类型分类技术是数据挖掘技术在大数据时代的应用之一。数据库的自动存储系统在数据存储过程中按照数据的类型、场景进行基础分类, 数据挖掘技术在数据存储的基础分类的基础上进行数据库类型细分, 通过数据模型的导入和数据类型包括关系型、对象型、时间型、空间型的分类进行数据挖掘的分类。其次通过数据知识类型分类技术是数据挖掘的重要分类方法之一。知识类型分类包括知识相关性、知识预测型和样本偏离分析法等知识类型分类方法。数据的抽象性和数据的粒度是数据知识类型分类的层次之一。通过挖掘数据分类中的抽象层和价值层找出数据的模式和规则性。数据的规则性通过不同的方法挖掘, 通过数据概念的描述和数据预测等方法实现大数据精细化分类。

3 大数据时代背景下数据挖掘的应用技术

大数据时代背景下数据挖掘技术的应用技术主要包括神经网络算法、数据遗传、数据决策树、数据粗糙集等算法。数据神经算法通过对庞大的数据库进行分类, 对符合优先条件的有用数据进行分类, 能够在规模庞大的数据中迅速定位和精选有用数据。例如网络构架的基础传输通道光缆发生故障时, 通过神经网络算法能够及时诊断网络中的损坏数据点, 能够迅速定位故障点, 并排除。神经网络算法针对网状结构的数据库利用效率较高。遗传数据挖掘技术是仿生学和遗传学中发展而来的数据算法。遗传数据挖掘技术针对全局数据进行优化计算, 能够较好的兼容性和隐含并行性, 因此在数据挖掘中与其它算法进行联合应用范围较广, 应用较为普遍。决策树算法是在对模型的预测中, 该算法具有很强的优势, 利用该算法对庞大的数据信息进行分类, 从而对有潜在价值的信息进行定位, 这种算法的优势也比较明显, 在利用这种算法对数据进行分类时非常迅速, 同时描述起来也很简洁, 在大规模数据处理时, 这种方法的应用性很强。粗糙集算法是大数据时代背景下数据挖掘技术应用的典范, 粗糙集算法通过数据划分将模糊知识和精确知识进行合并分析, 并最终获得有效数据, 应用范围十分广泛, 应用效果较好。

4 结论

总之, 在大数据时代背景下, 数据挖掘技术是人们面对浩瀚的数据库所必备的技能, 也是提高数据利用的有效方式数据挖掘技术在大数据时代背景下面临着挑战也面临着机遇。

摘要:21世纪是信息化的时代, 也是数据时代, 随着世界范围内数据挖掘技术的不断深入研究, 大数据时代的到来给数据挖掘技术带来了机遇的同时, 也带来了挑战。本文探讨了在大数据时代的背景下, 面对浩瀚的数据库, 如何充分利用数据挖掘技术进行数据挖掘与分析, 以及数据挖掘技术在大数据时代背景下的应用和发展。

关键词:大数据,数据挖掘,数据提取

参考文献

[1]刘华婷, 郭仁祥, 姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件, 2009 (1) :146-149.

[2]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学, 2012:16-17.

[3]陈明奇, 姜禾, 张娟等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全, 2012, (08) :32-35.

[4]王珊, 王会举, 覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报, 2011, 34 (10) :1741-1752.

数据挖掘背景 篇2

1大数据

来自生物、医药、医械、临床实验与健康管理等各个方面的数据,构成生物医学的各类大数据资源,它们形式多样,具有自身的特殊性,主要表现在以下几个方面:

(1)原始数据量大,且呈异构、多样性。

(2)难以用数学方式表达其结构及特征。例如:医生对医学影像、信号和其他临床数据的解释多是非结构化的语言或文字形式自由的口述,难以标准化。

(3)数据可能包含冗余的、无意义的或不一致的属性,并且数据经常要更新。

(4)数据采集很难完全避免噪声干扰,而噪声往往会影响处理结果。生物医学大数据处理包括数据的收集、抽取与集成、分析与挖掘、解释和共享等诸多方面,涉及数据库、信息科学、统计学、高性能计算、网络科学、心理学等多个领域。

2生物医学信息处理

2.1数据挖掘在生物医学信息分析中的应用

数据挖掘是对海量数据进行处理和分析,找出数据间的隐含联系,发现未知规律,最终获得知识的过程。挖掘的过程包括信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤[5]。近年来,数据挖掘是生物医学信息分析的常用手段,尤其是在循证医学研究、基因组和蛋白质组的研究领域中有很广泛的应用价值。KDNuggets在全球数据挖掘应用行业调查的结果表明:健康行业位居10大数据挖掘应用领域的第3位。生物医学领域大数据多是不完整的、不一致的、有噪声的,数据具有独特的复杂性、丰富性、规模和重要性,需要数据挖掘的特殊关注。数据挖掘经典算法,如:分类、聚类、关联分析、序列等在生物医学数据挖掘时都可使用。

2.1.1 分类(Classification)

分类是根据己知数据的特征和分类结果,为每个类找到合理的模型(构造分类器),然后用这些模型对新数据进行分类。K最邻近算法、决策树、支持向量机、神经网络等是常用的分类模型构造方法。疾病的诊断和鉴别就是典型的分类过程。例如:美国学者利用数据挖掘软件Clementine,以决策树算法为模型,分析挖掘了医疗机构HealthOrg的数据仓库中有关年龄、BMI指数、腰臀比和周锻炼次数等数据,得出糖尿病患病危险因素的分析结果。此外,还有一些国内外研究者针对肺癌、乳腺癌的诊断数据,通过分类挖掘的方法提高诊断的精确性。

2.1.2 聚类(Clustering)

分析聚类分析是将有共同特征或相似度高的数据对象实例聚成一类的过程,常用来研究样品或指标分类问题。聚类分析在生物医学领域已经得到广泛的应用,例如:可以根据流行病学特征属性的相似程度将病例数据划分成若干类,通过比较各个类别之间的临床医学状态特征属性的差异来分析某类疾病。国外学者选取SEER数据库中的217558例肺癌病例,通过分析每个病例的22个临床医学特征属性和23个流行病学特征属性的相似度后,将这些病例划分为20类,这就是典型的聚类分析。

2.1.3 关联(Association)分析

关联反映的是一个事件和其他事件之间依赖或关联的知识,可以通过表征事物特征的两个或多个变量的取值之间存在的某种规律性,找出数据之间隐藏的关联关系。关联现象在生物医学领域普遍存在,例如:临床上的某些疾病会同时呈现几种不同的病症,这些病症之间就表现为一定程度的关联性,而医生诊断病症的过程常常以观察症状为基础。

2.1.4 序列挖掘(SequenceMining)

序列是指按一定顺序或规律排列构成的一系列符号、数值或事件。存储于DNA、RNA和蛋白质中的`遗传和功能信息可用符号序列表示,分析序列数据能找到其统计规律或发现序列组成部分片段之间的相似性或相同性,这是生物信息学研究中最常用方法。此外,还可用时间序列数据进行某些疾病的研究与治疗,例如:欧盟资助的T-IDDM(TelemetricManagementofInsulinDependentDiabetesMellitus)项目通过Internet采集糖尿病患者的连续监测数据,经时间序列分析后找到患者一天内血糖水平变化的规律和趋势,为医生调整或精确胰岛素治疗方案提供有效的数据和支持。

2.1.5 图挖掘(GraphMining)

利用待研究的数据对象构建图这种数学模型,然后从图中寻找频繁出现的子图,从而挖掘出有价值的信息。例如:美国学术界整合出H5N1禽流感感染风险地图,经过图挖掘分析出H7N9人类病例区域[11]。此外,从政府管理角度来看,公共卫生部门可以针对覆盖全国患者的电子病历数据库进行图挖掘,从而完成全面疫情的监测。

2.2文本挖掘——生物医学文献信息的大数据处理

2.2.1 文本挖掘

目前,全球医药类期刊近3万种,每年发表论文200多万篇,并且以每年7%速度递增,互联网上的信息资源约有30%以上的是与医学信息相关的。文本挖掘(Text-Mining)和信息可视化(InformationVisualization)是分析这些数据,揭示知识领域的内在联系的最有效手段。文本挖掘主要结合文字处理技术,利用智能算法,分析大量的半结构化和非结构化文本源(如文档、电子表格、电子邮件、网页等),抽取散布在文本文件中的有价值知识,并转化为可利用的知识的过程,其工作流程如图2所示,挖掘前要完成包括文本收集、文本分析和特征修剪三个步骤的预处理工作。文本挖掘多以计算机技术实现,文档聚类、文档分类和摘要抽取是应用最多的技术。文档聚类主要完成大规模文档集内容的概括、识别文档间隐藏的相似度、减轻浏览相关、相似信息等功能。文档分类多以统计方法或机器学习自动实现,简单贝叶斯分类法,矩阵变换法、K最邻近分类算法以及SVM等都是其常用的分类方法。摘要抽取主要是利用计算机自动地从原始文档中提取全面、准确反映该文档中心内容的简单连贯的短文。此外,文本挖掘的结果评价常用分类正确率、查准率、查全率、支持度和支持度置信度等世界公认的重要参数进行评价。生物医学信息处理领域所涉及的DNA序列综合特征分析、蛋白质功能和相互作用分析、疾病基因发现、药物作用靶点预测等都与文本挖掘技术密不可分。在我国,已经有一些研究者利用文本挖掘技术来研究医学文献背后隐藏的知识。临床上,医生用文本挖掘技术对疾病的处方和中药用药规律进行了分析。

2.2.2 信息可视化

信息可视化是一种运用计算机图形学和图像处理技术,将信息转换为具有一定意义图形或图像,并进行交互处理的理论、方法和技术。它能有效发掘、过滤和研究海量数据,以更直观、有效的方式使研究人员更容易发现隐藏在信息内部的特征和规律,深层次地发掘包括生物医学领域在内的多个学科的研究热点和研究前沿信息,为研究人员把握研究方向提供帮助。信息可视化的常用工具有TDA、CiteSpace、Histcite、Vxinsight等软件,主要完成数量统计、共现分析和统计图表、共现矩阵、节点链接图、技术报告展示等功能。例如:国外学者针对PubMed数据库中到20的文献,分析了以“电子健康档案”、“医疗记录系统”和“计算机辅助诊疗”为主题的文献的引用情况后,用可视化工具展现其研究结果,使相关领域的科研人员很直观的了解了该领域的研究状况。

3总结与展望

大数据背景下的小说格局 篇3

一、人物数据分析

塑造丰满的人物形象是小说的艺术使命。王雄百万字的汉水文化小说三部曲,共有260位历史人物、312位小说人物活跃在跌宕起伏的故事中。作者以其精巧的构思、丰富的想象和细腻的笔触,成功塑造了达官贵人、店铺掌柜、夫子学究、江湖艺人、平民百姓等众多人物形象,并让这些人物展现出不同的性格、秉性和文化品位。高尔基曾经说过,托尔斯泰的人物使人常常想伸手去“抚摸”。王雄手下的人物活灵活现、栩栩如生,也有一种吸引人“抚摸”的感觉。

195位达官贵人。这是一个外表风光、内部争斗的群体。以清朝末代皇帝、皇后皇妃、王爷为代表的皇室贵族,或明争暗斗、争权夺利,或性情软弱、任人宰割,或逃避现实、自得其乐;以革命人士孙中山、陈独秀等为代表的先进分子,饱读诗书、学识渊博、思想开化、作风民主,为社会的进步贡献着自己的才智;以袁世凯、蒋介石、段祺瑞、吴佩孚等为代表的官僚人物,欺名盗世、野心膨胀、无视民众,最后都落个悲惨下场;以王占元、黎天才、孙殿英等为代表的行武显要,土匪出身、攀附权贵、唯上唯利、鱼肉百姓,为民众所厌恶。

93位店铺掌柜。这些店铺掌柜可以分为四类。第一类是以金匮银楼老板贾哲义、祥符古泉店老板祥符得坤、鞭炮铺老板权国思、苍佩室老板陈昔凡等为代表的儒商,有学识、有见地、讲诚信、重感情,心胸开阔,待人厚道;第二类是以韫古斋老板姚兴甫、姚以宾,阿福古玩店老板阿福、庆丰元大烟馆老板皮二等为代表的奸商,工于心计、长于暗算、唯利是图、认钱不认人,反映了商人的本质特征;第三类是以六爷杠子铺老板权六爷为代表的把头,闯荡江湖,心地扭曲,阳奉阴违,讲究义气,以施爱博口碑,阳光与阴暗并存,地地道道的两面人生;第四类是小本生意的商贩,不问时事、勤劳经营,一心想过安稳日子,大事面前无担当,灾难面前求自保。

62位夫子学究。这些学究可以分为老夫子型与新派学究,以王鉴、陈老夫子、戈先生等为代表,他们学识渊博,讲究礼仪,德高望重,受人尊重,但传统影响很大,观念守旧;新派学究以文熙宁、牛主任等人为代表,年轻好学、满腹经纶,却脱离实际、不谙世事,若是单兵独将在现实中拼搏难有作为,需要助力方可有所成就。

61位江湖艺人。一类以汉中丐王黑子、安康丐王棒子、枣木师爷、安老头子、李青山、杨庆山等人为代表的江湖匪首,浪迹江湖、划地为王,称霸为王,逍遥自在;另一类是以西门深人、胡大神、黄大神、马相和文武讨的乞丐为代表的社会杂人,靠点小花招骗人钱财,或靠乞讨度日;第三类是如小凤仙、小玲珑、馥香、香草一样的艺人,有身价高贵的名角,也有流落在二花楼、花船上的艺妓,她们美若天仙、技艺高超,却红颜薄命、飘零江湖。

161位平民百姓。一类是随从、主妇和佣人。如宫女赵氏、家庭主妇潘兰珍等,他们忠心耿耿,唯命是从;另一类是大家族的管家、工匠,他们勤勤恳恳劳作、小心谨慎处事,唯恐得罪主人丢了饭碗;第三类是街坊邻居,他们心地善良,热心快肠,乐于助人,但也会口无遮拦,家长里短,说是道非。

二、事件数据论证

《金匮银楼》和《阴阳碑》的故事主要发生在清朝末年至新中国成立之初这一时段,而《传世古》的历史跨度大一些,从清光绪时期始,至2000年止;三部曲的大体时间主要是近现代,几乎是一部襄阳古城的近现代史,也是一部近现代中国的大事记。自古以来,襄阳乃兵家必争之地。小说记述和描绘了大大小小116件历史事件,包括历代朝廷事件、军阀混战事件、国民革命事件、抗日战争事件、解放战争事件以及解放后大规模运动等事件。作者在讲述各个时期的历史事件时,十分善于将全国的大事件与各地的小事件结合起来,与故事中的人物结合起来,生动传神,有血有肉。

40件历代朝廷事件。既有朝代兴衰、民族存亡的大事件,又有达官贵人兴趣爱好的小故事。在《传世古》中,作者讲述了王莽称王后的“币制改革”大事件,王莽复古币制,发行虚价大额钱币,大肆搜括钱财,导致盗铸四起,生产停滞,民不聊生,最终被义军砍了头。然而,王莽钱以品种多样、式样奇特、铸工精美、文字隽秀而受到世代收藏者推崇。“国宝金匮直万”铁首推其一。正是这枚“国宝金匮直万”钱,让祥符家族四代人为之不懈追求。在三部曲中,类似重大事件引出的小说故事比比皆是,如八国联军进北京、慈禧太后发动政变、戊戌变法失败等,作者不是空谈大事件,而是通过巧妙设置故事,让大事件与小说人物密切相关。《金匮银楼》中,慈禧太后大笔一挥“斩首金匮银楼”的懿旨,由此诞生了一个令人啼笑皆非的故事。

19件军阀混战事件。军阀混战,是民国年间的大戏。三部曲中,民国战事连绵,风云变幻,尽收作者笔下。袁世凯称帝,做起了洪宪皇帝;孙中山坐镇京城,派出党员赴各地起兵声讨袁世凯;蔡锷将军云南宣布独立,袁世凯在唾骂声中死去;北洋裂变,黎元洪任大总统;“北洋之虎”段祺瑞主政,张勋复辟;湖北王王占元卖身求荣,北洋军占领了襄阳城。小说中,作者并没有枯燥列举这些军阀事件,而是通过多条线索将大事件与襄阳关联,纺织纵横交错的关系网,支撑起有血有肉的襄阳故事。

34件国民革命事件。国民革命轰轰烈烈,大事件风起云涌。小说人物发展与这一时期事件相存相依。三部曲中,有关武昌新军起义和襄阳起义,真可谓浓墨重彩。起义军占领襄阳城后,便以军政分府和分司令部的名义发出文告,传檄所属各县立即起义。同时,起义军在襄阳开始了剪掉长辫子群众运动。小说还涉及到了上海和广州相继爆发的“五卅运动”和省港大罢工、国民政府成立、组建国民革命军等大事件,还原了国民革命军东征、南征肃清反动军阀势力等经典场面。尤其对国民革命军进攻襄阳后,“惩办土豪劣绅,打倒贪官污吏”的行动进行了绘声绘色的描述。民国二十年,蒋介石亲临襄阳指导革命,点画出人杰地灵效应。当然,在这一时期,还有孙殿英东陵事件、宋美龄惦念孙殿英夫人祖母绿翡翠挂件等事件,这些都构成了小说的丰富资源。

9件抗日战争事件。关系着民族存亡的抗日战争描写,在三部曲中自然是必不可少。“七七”卢沟桥事变后,日军多次出动飞机,对襄阳和樊城进行狂轰乱炸,全城民众同心协力支援抗日,向国民政府捐献“襄阳号”飞机一架。《传世古》中随着主人公祥符得坤逃难重庆,作者将日军对重庆进行的大轰炸进行了描述:日军共投入飞机4758架次,炸死炸伤民众1万余人。同时,小说还提到了惨绝人寰的南京大屠杀,讲述了国民党三十三集团军总司令张自忠将军在襄阳中阻击日军以身殉国的事件。还有日军无条件投降后,襄阳城的欢天喜地场面。小说人物也正是在这些事件背景中活跃、成长。

10件解放战争事件。解放战争时期,襄阳依然硝烟弥漫。日本人走后,襄阳马背巷涌进一批国民党军队。共产党领导的军队和国民党军队进行浴血奋战。民国三十七年夏天,中国人民解放军中原野战军发动了著名的襄阳战役。驻守襄阳的国民党军队第十五“绥靖”区康泽部队固守襄阳,企图阻止人民解放军渡江入川。七月初,中国人民解放军中原野战军对敌宣战,相继攻克老河口、谷城、南漳等地,十六日占领襄阳。不久,人民解放军进行战略转移。国民党军队整编二十师驻守襄阳。这些事件直接决定着解放新中国的进程,黎明前的襄阳,黑暗沉闷,斗争艰苦卓绝。

3件解放后的事件。《传世古》是三部曲中唯一写到了解放后历史的。小说涉及到了解放后3次大规模运动。解放后的第一个春节,襄阳开始了镇压反革命的斗争,着重打击土匪、特务、恶霸、反动党团骨干和反动会道门头子,简称“清匪反霸”运动;在蒋介石反攻大陆时期,《传世古》小说人物“我的父亲”因一块貌似蒋介石像的玉石,而锒铛入狱;文化大革命运动中,襄阳钱王祥符得坤、王鉴老人等一批文化人受到批判,吃尽苦头。王鉴为此丧命。为保护文物,他们将许多古钱珍品埋入汉江沙滩中,却不幸遇洪水暴发,全部珍品销声匿迹。

三、店铺数据文化

在作者的笔下,种类繁多的商铺院楼可以说是一道十分亮丽的景观。这些店铺分布地域较大,以襄阳为中心,上至北京、下至杭州。有银楼、铺庄、当铺、鞭炮铺、灯彩铺,还有茶楼会馆、古玩店、餐饮店、服装店、药铺等,多达106家。

29家古玩店。这些古玩店大都经营钱币、玉器、瓷器、青铜器等,按照古玩行业的行规运转。店门高悬匾牌,店内古朴典雅,一件件古玩摆放有序,散发着浓浓的文化气息。店老板精通历史,识文断字,鉴赏古玩,其乐无穷也。小说中,襄阳祥符古泉店则最为出众,店铺藏品丰富,掌柜学识过人,诚信友善,被誉为“襄阳钱王”。祥符古泉店的生意自然是风生水起。还有樊城阿福古玩店、北京崇古斋为代表的一大批古玩店,“利”字当头,重财轻友,到底是福报不支,生意只是一时兴起,大都逃脱不了倒闭的命运。

18座钱庄、银楼与典当铺。一是钱庄与银楼。旧时钱庄与银楼联系紧密,交易互通。《金匮银楼》中描写道,省城里每日钱盘儿交易的情报上午八点通过电报从武汉传来,樊城钱商总市场开市交易两小时后报出本地价。襄阳樊城的钱庄、银楼都以钱商总市场的报价进行当日交易。二是银楼的显赫地位。旧时对打制金银饰品的店铺,统称银楼。银楼流金淌银,设有管家、首席银匠、银匠及佣人多名。小说中,襄阳金匮银楼、河南陈州汇增银楼,最为显赫。“金匮银楼”为皇帝御笔题匾,陈州汇增银楼的对联则是袁世凯所题写。三是各类典当铺。在那个年代,落魄人家或急需用钱人家,去典当铺当东西极为正常。被逐出皇宫的溥仪也曾偷偷典当古玩度日。

17家餐饮店。一类是豪华大酒店。如鸿运楼、隆中酒楼等,酒菜高档,装修考究,名厨聪明能干,跑堂小伙计嘴勤脚快。满汉全席、八大菜系无所不能,乃政界要员、有钱人家出入的场所。第二类是特色小吃店。如曾家水饺店、陈家羊肉铺、王膀子卤肉店、朱四辈的窝子面店等。这些店门面不大,店伙计不多,但生意火爆,食客川流不息,在襄阳当地很受欢迎。第三类是推车、挑担叫卖。如红炉煮酒、糊辣汤担等,虽没有店铺,却颇具地方特色。

10家服装店。一类是服装店铺。以白海记服装社为代表,这些店以定制服装为主,服务体贴入微,工艺丝丝入扣。其款式不墨守成规,能随着时代的进步随时改进,像掐腰和垫肩这些时髦要求,都会做得很好,很受大户太太的喜欢。另一类是布料店。以永远福布店、鹿角门布店、华昌绸布店、杭州丝绸店等为代表,这些店卖国货,也卖洋货,讲究卖特种布料,卖自认为很时兴的布料。

13家茶楼会馆。一类是以襄阳茶馆、沈氏茶馆为代表的茶馆,主要为客人提供茶水服务,供客人喝茶聊天;搭建平台,请戏班子唱戏,请人说书,供客人娱乐消遣。有的也应客人之需,做些简餐,供客人洽谈业务之用。另一类是像抚州会馆、河南会馆等会馆,这些会馆规模宏大,琼楼玉宇,庭院开阔,正殿巍峨,设有戏院,建有舞台,能彩唱,也可开大戏,后面还有花园鱼池,建筑精美,环境优雅,主要供来襄阳办事的抚州人、河南人食宿之用,为当地有名望有身份的人娱乐消遣之处。

9家鞭炮、灯彩铺。一类是以权府鞭炮铺、万字鞭炮铺等为代表的鞭炮店铺,这些鞭炮铺家大业大,历史悠久,品类繁多,远销全国各地,享有很高声誉。民国二年春,在香港万国博览会上,权府鞭炮铺的“樊鞭”竟然击败了不可一世的“浏阳鞭炮”,获得金牌,令国人刮目相看。另一类是以廖记灯彩铺、汪记灯彩铺、吴记灯彩铺、皮记灯彩铺为代表的灯彩铺。逢年过节,襄阳城里城外的各家各户总喜欢在大门口悬挂一两盏灯彩,氤氲出一派喜气。廖记灯笼铺的灯好在“新奇”二字上,制作的灯彩很有动感,活灵活现。皮记灯彩行学制京津古雅宫灯,学广东人做走马灯,在四官殿举办的灯会上,一举夺魁,在汉江两岸传为美谈。

10家药铺医院。一类是以顺兴药铺、罗骨医诊所为代表的中药店铺。拿脉看病,开方卖药。这些药铺的掌门人大都慈悲为怀,悬壶济世,坐堂郎中人品端正,医术精湛。如顺兴药铺的正福先生、劳改场诊所的罗骨医医术医德在当地都是有口皆碑的;另一类是以铁佛寺同济医院、杭州教会医院为代表的外国教会医院。这类医院大都是基督教会所办,以洋医生为主,而且这些洋医生大都是很虔诚的基督教徒。他们医术高明,西医显神通,打针吃药,做手术,为民众解脱病痛疾苦;他们医德好,精心救治病人,传播着仁爱思想。

四、风俗数据趣闻

在汉水文化小说三部曲中,作者认真挖掘汉水流域历史积淀下来的人文底蕴,深入用心地开掘汉水流域的文化宝藏,对汉水流域的民俗文化进行了动态的描绘。共有90种汉水流域的民俗文化趣闻被小说中人物演绎得活灵活现、妙趣横生,给读者呈现出一道道独特的文化景观。包括庆典文化、佳节文化、服饰文化、饮食文化、戏曲文化、茶馆文化等。

23种庆典文化趣闻。在襄阳,婚丧嫁娶生孩子大都要举行仪式庆祝。大户人家将这些家庭大事看得更重,举行庆典更为隆重,仪式也更为繁复。比如,《阴阳碑》描写权六子出生,先是权府给小巷街坊挨家挨户送红鸡蛋,名曰喜蛋。接着是小巷人家提着馓子、云片糕之类的贺礼前来府上恭贺。按清末的襄阳风俗,婴儿出世三天后,就要举行“洗三”仪式,以示婴儿完全脱离了孕期的胎气。外公外婆要带着猪蹄、鲤鱼、母鸡、红糖、鸡蛋及婴儿衣物等“送粥糜”。《金匮银楼》写道,孩子出生后,襄阳有送长命锁的风俗,孩子十二岁生日时,才能打开长命锁,还要邀请亲朋好友摆开关宴。《金匮银楼》中的银根娶新娘时,吴妈与苗嫂则忙着铺婚床。在床的四角被子底下放了不少的枣子、筷子、花生、核桃、藕等物,预示小两口早(枣)得贵子,快(筷)得贵子,有儿有女花着生,孩子大脑像核桃形聪明,孩子的胳膊、腿长得犹如藕一样粗壮。《铺床歌》唱道:“床两头摸摸,五子登科;床两头按按,得个状元。”就为图个吉利,图个热闹。

21种佳节文化趣闻。汉水流域的佳节文化可谓独具特色,一个个充满人情味的故事,载着季节的变幻、人们的喜庆,走进人们的生活之中。天贶节,六月六。传说唐僧历尽八十一难终于从西天取来佛经,六月六这天经过大海时,佛经坠入大海中,为水所湿。皇天感其艰辛,当即赐以炎晴天气,将被水所湿佛经全部晒干。自此,便有了天贶节之说。据说,六月六,晒衣衣不蛀,晒书书不蠹,家畜洗澡不生虫。《金匮银楼》中的彩凤就是在天贶节给猫咪洗澡掉入汉江,被小武子救起,引出了一段缠绵的爱情故事。“穿天节”则为襄阳古代特有的节令。相传,正月二十一是郑交甫与汉水女神相遇定情的日子,谓之“穿天节”。这天,襄阳城有情男女就会不约而同地来到城外的万山,乘船沿江而下,在汉江边聚会玩乐,妇女们则在沙滩上捡拾有孔窍的小石子,用彩色丝线穿起来,戴在头上,以祈求早日获得美满的婚姻,祈求早生贵子,全家平安。《阴阳碑》中的寡妇女贞正是在“穿天节”这天来到汉江边捡小白石,犯了大忌,遭到一帮妇女围殴。小说中大量别具特色的节日传说和喜庆方式,为小说增添了不少阅读的乐趣。

23种饮食文化趣闻。三部曲中,饮食文化是很重要的章节。襄阳人爱吃、会吃、讲究吃,很多襄阳名吃应运而生。譬如,陈家羊肉铺的“蒸而炸”是用羊肉西葫芦作馅而成,羊肉与西葫芦相配,蒸与炸的结合,使“蒸而炸”味美色香,许多大老板专门从外地赶过来吃;曾家水饺的特点是,选料优良,制作精细,外形美观,皮薄馅大,鲜味独特。饺馅选用上等猪肉,调味适口,各种配料都有一定的比例,用油炸之后,再放入骨汤爆煨十五分钟,使收缩的猪肉馅充分吸水恢复原样,这样吃到嘴里滑嫩无比。作者的描写精致老道,令人馋涎欲滴。另外还有“汉江三鲜”、汉元汤包、王膀子卤肉、红炉煮酒、诸葛菜、槐花饭、槐花饼和槐花饺子,深受到当地老百姓的喜爱。

11种民居文化趣闻。防水防火,是襄阳民居的两大特征。襄阳马背巷靠江面的房屋大多是“一面墙”的门面楼,屋后拖出一溜的吊脚楼齐着江岸,吊脚楼的木柱就立在堤坡上或江水里。而靠城边的房屋,一溜的后墙则悬在古城的房头上。马背巷人在建筑房子时,特别重视房子的实用性和防火功能。左邻右舍间都是卧砖做到顶,风火垛子的隔山墙,排出一溜溜巨大的“脊”,肩负着主人的安危。这里的檐角屋脊挺有趣,立着许多数不清的小动物,以“仙人骑凤”领头,列队端坐,栩栩如生,有着一种不以物喜、不以己悲的稳重和宁静。

再看看院内房屋结构特点,以《金匮银楼》的贾府为例,穿过前厅,就是由几面房子围成的一方天井,两边由南至北纵向深入,分别用作账房、管事、银匠和伙计的住处。中间是一栋上下两层的楼房,共有八个房间,居住着老爷、太太,还没有成家的子女,以及伺候老爷太太的老妈子和丫头。金匮银楼的后院很宽阔,中央长着一株参天的古槐树,根深叶茂。两边是八间厢房,用作杂物库、粮房、灶房等。临江一溜的住房是吊脚楼,为银炉作坊、贮藏室等。吊脚楼靠三十根檀木柱支撑在堤坡上,楼下是滔滔江水。

12种戏曲文化趣闻。看戏、听戏是襄阳民众的精神生活之一。各个会馆、茶楼经常会有来自全国各地的戏班子演出。显贵之家的男男女女,当然不会错过名家演出,小户人家也热衷于看戏助热闹。在三部曲中,在襄阳各家舞台上先后上演过汉剧、楚剧、豫剧、苏州评弹、江西宜黄旧腔、滇曲、安徽高拨子、京剧、西皮腔、二黄、曲剧、越调、二夹弦、梆子戏、四平调、紫阳民歌等众多的戏种,《陈圆圆》《空城计》《追韩信》《铡美案》《汉宫秋》《春江花月夜》《五蝶大红袍》《金镯玉环记》等多个剧目,丰富了汉水文化内涵,深受民众喜爱。

襄阳腔、襄阳皮影植根于汉水民众,经久不衰,有着旺盛的艺术生命力。襄阳腔作为南北交通要塞上一个戏种,在集纳来自各地剧种精华的同时,也被各地戏班、游客所传扬,至今很多地方戏都保留着襄阳腔的韵味。襄阳皮影戏的艺术元素十分宽广,是一门兼有戏曲、木偶、剪纸、动画等艺术特色的综合艺术。一本皮影戏可以连续演上两个多月,每天留有悬念,戏迷们欲罢不能,非接着看下去不可。

五、大数据支撑起三部曲格局

所谓小说格局,就是小说人物组合在一起形成的一个群体结构和布局,包括小说的态势、度量与胸襟。本文通过对三部曲海量数据的梳理、整合和分析,不难发现,大数据支撑起了“汉水文化三部曲”的小说格局,呈现出一种可贵的小说度量与态势。

大数据时代正在向我们走来,谁拥有了大数据,谁就占有了制高点。这种制高点,文学创作也有异曲同工之效。在一部作品中,如果塑造的人物越多,人物的生活层次越丰富,历史事件越充沛,空间维度越广阔,那么这部作品的厚度、高度和力度无疑会被这些大数据拓展到一个全新的境界,呈现出一种宏大的格局效应。

展现了人物驰骋的开放度。像《荷马史诗》《战争与和平》《红楼梦》中广阔的场景一样,王雄的“汉水文化三部曲”中活跃着260位历史人物、312位小说人物,既有达官贵人、店铺掌柜、夫子学究,也有江湖艺人、平民百姓。这些人物或者在历史的巨浪中起起伏伏,或者在权势的争斗中激烈博弈,或者在利益的天秤上锱铢必较,或者在学识的天地里自我陶醉,或者在江湖的对峙中扩大圈地,当然更多的是在普通的岁月里度日。他们中既有孙中山这样伟大的人物,试图改写中国的历史,也有像银匠小武子一样渺小的普通人,只知做好本分工作;既有祥符得坤之类的儒雅人物,富有精神追求,守望着民族的星空,也有像吴妈、苗嫂这样卑微平凡人,生活所迫每日为生活奔波……这些人物以各自相同的生活方式活跃在小说中,淋漓尽致地表现了他们的渴望,恰如其分地展现了他们的追求。他们是小说人物大军中不可或缺的一员,在现实中是助推历史发展的重要人物。由此共同构成了小说中最活跃的人物群体,多层次、立体化地展现了一个宏大的人物场景。

彰显了大千世界的广阔度。汉水文化三部曲从多个维度展现了广阔而丰富的大千世界。从时间上讲,三部曲几乎跨越了两个世纪。从空间上讲,小说故事远涉美国纽约拍卖会、香港拍卖会,近至汉水码头;在国内,人物活跃北至北京、天津,南到广州、杭州。从历史事件讲,既有军阀混战、国民革命、抗日战争、解放战争等重大历史事件,也有历史人物的小故事、小爱好、小情调。从小说故事讲,既叙述了三个襄阳大家族的故事,又有无数平民故事推动着剧情发展。譬如,《传世古》讲述了祥符家庭四代人寻觅“国宝金匮直万”钱的故事,而这个大故事中又有姚兴甫设计陷害高祖、汪无事和汇丰票号的大少爷联合做“局”诱导姚兴甫上当等一系列小故事,其中涉及鉴宝知识、行内规矩、察人常识和诱敌入“套”等趣事,让读者欣赏了大千世界的丰富多彩,充分展现了小说的广阔天地。

矗立起经纬交织的文化空间。这个文化空间是自由的,是一个可以恣意泼洒情感和才情的地方。三部曲中共涉及90种汉水流域民俗文化表现,通过这些民俗表现,呈现出汉水流域的文化生态、文化厚度和文化力量,给读者亮出一道道独特的文化景观。中国自古就有“地灵人杰”“钟灵毓秀”之说,一方水土养一方人,受地理和人文环境的影响,一个地方的山水地貌养育一方人,传承着丰富多样的民风民俗,由此形成这一地域特有的文化传统、文化心理和文化性格。汉水两岸的文化空间滋养了“博大精深”的汉水文化,如古玩文化、银楼文化、饮食文化、服饰文化、节庆文化等,弥漫在整个襄阳古城,镶嵌在小说的字里行间。从而共同承载起大文化的格局。

作者的文化眼界决定了小说的格局。作者是一位汉水文化学者,熟读汉水流域历史,熟悉民众生存状态。在小说创作期间,他多次行走于汉水上下,感受汉水文化的张力和厚度。他习惯于用一种文化的视野,考察历史,观察社会,探究在河流文化背景下的人物性格、人物气节和人的生存状况。基于作者渊博的学识和丰富的创作经验,加之他从事新闻宣传所具备的敏锐目光和著名钱币收藏家的丰富阅历,以及作为男性作家的广阔胸襟,使得他的汉水文化小说站在了传播民族先进文化和精品文化的高度。由此很容易拥有一种强烈的责任感,一种责无旁贷的文化担当,讲好汉水故事,讲好中国故事。在这样的创作实践中,自然而然地形成了汉水文化小说的宏大格局。

大数据背景下的数据流挖掘技术 篇4

Web网站收到的流包括各种类型, 如百度一天收到几亿个搜索查询, 新浪各个不同网站上收到数十亿个“点击”, 基于这些流数据可以学习到很多有趣的结果, 如某个链接的点击率的突然上升可能意味着有些新闻连向此网页, 否则的话可能意味着该链接失效急需修复。

1流数据

Web网站收到的流包括各种类型, 如百度一天收到几亿个搜索查询, 新浪各个不同网站上收到数十亿个“点击”, 基于这些流数据可以学习到很多有趣的结果, 如某个链接的点击率的突然上升可能意味着有些新闻连向此网页, 否则的话可能意味着该链接失效急需修复。数据以一个或多个流的方式到来, 如果不对数据进行及时的处理或存储, 数据将会永远丢失, 即是数据到来的速度太快, 以致将全部数据存在传统数据库并在选定的时间进行交互是不可能的。流数据处理所受的一些限制, 一方面, 流元素的分发速度通常很快, 必须对元素进行实时处理, 否则就会永远失去处理它们的机会, 除非访问归档存储器。流处理算法通常在内存中执行, 一般不会或者极少数访问二级存储器;此外, 即使当数据流很慢时, 也可能存在多个这样的数据流, 即每个流本身能够基于很小的内存就能处理, 但所有数据流的内存需求加在一起可能就很容易超过内存的可用容量。所以, 当内存足够大时, 流数据的很多问题很容易解决, 而实际情况, 在一个真实规模的机器上获得现实的处理速度, 问题变得相当困难, 需要采用新技术解决:1) 通常情况下, 获得问题的近似解比精确解要高效得多;2) 为了产生与精确解相当接近的近似解, 需采用哈希相关技术。

2流当中的数据抽样

从流中选择一个子集, 以便能够对它进行查询并给出统计上对整个流具有代表性的结果;流由一系列n字段元组构成, 这些字段的一个子集称为关键词段, 样本的选择基于它来进行, 比如, 一个流由三元组 (user, query, time) 组成, 其中user可以作为关键词段。若关键词段包含的字段不止一个, 那么哈希函数就要将这些字段的值组合起来形成单一的哈希值。最后得到样本由有某些特定键值的所有元组构成。为了保证样本由键值子集所对应的所有元组组成, 可以选择一个哈希函数h, 将键值映射到一个很大的取值范围0, 1, …, B-1。另外, 维护一个阀值t, 它的初始值可以设置成最大的桶编号B-1。任何时候, 样本都由键值K满足h (K) <=t的元组构成。当且仅当满足同样条件的情况下, 流中的新元组才会加入到样本中。如果样本中存储的元组数目超过分配的空间大小, 那么就将阀值降低为t-1, 并将那些键值K满足h (K) =t的元组去掉。为提高效率, 还可以将阀值降低更多。无论何时需要将某些键值从样本中丢弃时, 都可以将几个具有最高哈希值的元组去掉。

3流过滤

只想接受流中满足某个准则的元组集合。如果选择的准则基于元组的某个可计算属性得到, 那么选择操作很容易完成, 当选择准则中包含集合元素的查找时, 特别当集合大到无法在内存中存放时, 问题就变得尤其困难;对此要去掉不满足选择准则的大部分元组, 可以采用布隆过滤器:布隆过滤器的目的是让所有键值在S中的流元素通过, 而阻挡大部分键值不在S中的流元素。一个布隆过滤器由如下几部分组成:

(1) n个位组成的数组, 每个位的初始值都为0;

(2) 一系列哈希函数h1, h 2, (43) hk组成的集合。每个哈希函数将“键”值映射到上述的n个桶 (对应于位数组中n个位) 中;

(3) m个键值组成的集合S。

位数组的所有位的初始值为0。对S中的每个键值K, 利用每个哈希函数进行处理。对于一些哈希函数hi及S中的键值K, 将每个ih (K) 对应的位置为1。

当键值为K的流元素到达时, 检查所有的h1 (K) , h 2 (K) , (43) hk (K) 对应的位是否全部为1, 如果是, 则允许该流元素通过, 若有一位或多位为0, 则认为K不可能在S中, 于是拒绝该流元素通过。另外可以将多个过滤器串联起来使用来进一步过滤。

4 流中元素的数目统计

假定流元素选自某个全集, 想知道流当中从开始或某个已知的过去时刻开始所出现的不同元素数目。如百度网站, 它不需要登录就可以提交搜索查询, 可能只能通过用户提交查询时的URL来识别用户。这里所有可能的URL全集可以想象成所有登录主机名的全集。这需要在内存中保存当前已有的所有流元素, 但是如果不同的元素数目太多, 或需要即刻处理多个流, 那么就无法在内存中存储所需数据。处理策略是仅仅对独立元素数目进行估计, 具体思想是:通过将全集中的元素哈希到一个足够长的位串, 就可以对独立元素个数进行估计。位串必须要足够长, 以致哈希函数的可能结果数目要大于全集中的元素个数。流中的不同元素越多, 那么不同哈希值也越多, 在众多不同哈希值中, 其中有一个值变得异常, 该值后面会以多个0结束。任何时候在流元素a上应用哈希函数h时, 位串h (a) 的尾部将以一些0结束, 当然也可能没有0, 尾部0的数目称为a和h的尾长。假设流当中目前所有已有元素a的最大尾长为R。那么将使用2R来估计到目前为止流中所看到的独立元素数目。

5 总结

对任一到达流元素的键值进行哈希处理, 使用哈希值来确定包含该键值的全部元素会是抽样样本的一部分。采用布隆过滤器允许属于某个特定集合的流元素通过, 而大部分其他元素被丢弃。为了估计流中出现的不同元素的数目, 可以将元素哈希成整数, 这些整数可以解释为二进制整数, 任意流元素的哈希值中最长的0序列长度作为2的幂得到的结果会作为独立元素数目的估计值。

《中国科技信息》杂志社投稿说明

在线投稿

提高稿件审核速度同步查看审核进程

登录www.cnkjxx.com页面右上角在线投稿

数据挖掘背景 篇5

【内容摘要】信息技术的快速发展与互联网的普及应用使得数据的收集与处理变得更加快捷,海量数据的收集与分析可以为人们的行为提供更加准确的指导,减少人们在开展活动时发生错误的几率,这种技术与处理方式也被称为大数据技术。随着大数据的全面推广应用,人们的生活、工作和学习方式都发生了巨大改变。本文针对大数据背景下的高中信息技术教学展开研究。

【关键词】大数据 高中信息技术 教学研究

高中阶段学生已经开始全面接触并学习信息技术知识,信息技术是一门更新换代非常迅速的学科,这就要求信息技术教师要更加全面地掌握信息技术的发展动态,结合这些内容展开信息技术教育教学活动。

一、高中信息技术课堂上大数据的应用现状

大数据是信息技术在发展过程中产生的一种全新技术方式和数据处理思路,它对于信息技术的变革和发展具有重要意义。但是大数据在高中信息技术教学过程中的存在感非常薄弱,很多教师并未能真正理解大数据的概念并将其应用于信息技术教学过程中,这并不利于信息技术课程的发展,学生们对于大数据的了解非常少。大数据不但可以帮助学生更加深入理解和了解信息技术,更能够帮助教师对学生的学习能力及学习效果展开分析,扩大教学样本的覆盖面,根据相关数据对学生的学习展开有针对性的指导,并且结合数据分析结果来及时调整自己的教学方式方法。

二、高中信息技术课堂中大数据涵盖内容

高中信息技术课堂教学效果直接关系到学生的未来发展以及信息技术的掌握情况,而高中信息技术课堂中主要包含的大数据内容涵盖了以下一些内容:

1.教学资源大数据。信息技术所涉及到的内容比较丰富,高中信息技术课程教材中的内容虽然能够有效包含大部分信息技术知识,但是信息技术的更新变化非常迅速,而学生们的接受能力和学习能力差异性较大,教师在教学内容选取上需要更有针对性。教学资源大数据可以建立在教学效果基础上,教师通过对相关内容的分析与研究寻找更加合适的教学资源并展开深入挖掘,有效提升教学资源的有效性。

2.学生信息大数据。信息技术课堂教学离不开教师和学生的共同参与,学生们在课堂上的表现直接关系到课堂教学效果和学生信息知识的获取效率。当前高中学生的个性化差异表现得更加明显,教师的课堂教学如果不能够满足学生的需要则很容易导致学生的学习效果不尽如人意。教师根据学生信息进行大数据分析,能够更加准确地寻找到学生们的特点和喜好,展开更有针对性的信息技术知识教学,为学生发展营造全面发展的良好氛围。

3.教学方式大数据。教师的教学活动不但要依靠教学资源,更要依赖于教学方法,教学方式方法的差异性很容易导致教学效果产生巨大差异。教师可以分别采用不同的教学方式展开教学活动,对学生展开调查研究,根据调查结果判断学生对教学方式的喜好程度和接受程度。教学方式大数据能够帮助教师及时调整和转变自己的教学方式,有效促进信息技术课程发展。

三、大数据背景下高中信息技术教学调整发展策略

高中信息技术教师在开展课程教学过程要充分考虑大数据时代所带来的变化,充分利用大数据技术调整教学思路和教学内容,营造良好的教学氛围。

1.利用大数据积极推进差异性教学和个性化教学

大数据能够有效转变当前信息技术课堂千篇一律的教学模式,教师可以根据学生的实际情况及课堂教学效果建立教学信息大数据库,利用大数据库对学生的爱好、兴趣、学习动力等等内容展开具体化分析。帮助学生更加高效地学习信息技术知识,教师在教学过程中要注意及时调整和更新数据库内容,使得数据库能够满足教学需求,并且根据数据库的分析结果选择最适合的教学方式,同时也要根据学生的差异性选取个性化教学策略,使得每一个学生都能够参与到课堂学习活动中。

2.利用大数据开展教学资源共享服务

大数据的全面推广和应用使得教师们能够利用的教学资源更加丰富,教师们的教学内容不再局限于书本知识,教师可以充分利用大数据分析收集和整理网络教学资源,从中选取最适合高中学生学习的内容。另外教师也可以利用这些教学资源建立高中信息课程数据库,为学生们提供资源共享服务。

3.利用大数据推进信息技术核心素养培养

信息技术核心素养的培养有助于提高学生的信息意识、信息思维和信息接收及处理能力,教师可以利用大数据对学生核心素养培养的重点方向展开研究分析,寻找最适合学生发展的信息技术核心素养,根据分析结果对学生展开更有针对性的培养,使得学生们能够满足未来的发展需要,也使得学生能够在未来承担更多的责任,为国家发展和社会进步作出自己的贡献,进而实现自己的人生价值,这也是高中信息技术课堂教学的核心目标。

总结

高中信息技术课程主要以培养学生信息意识及核心素养为目标,信息技术的发展变化日新月异,在大数据背景下,教师有必要积极转变教育教学方式,营造全新的教学环境,引导和帮助学生更好地学习信息技术知识。

【参考文献】

数据挖掘背景 篇6

关键词:大数据;人力资本;新发展

一、引言

21世纪,是人类探索新疆域——数据的时代,又被成为“大数据时代”。随着互联网的发展和应用,智能设备的研发和普及,数理统计分析的的演变和深化,大量的生活元素被转变为“数据”,手机定位系统的发明,使我的行为轨迹、位置变化成为了可以被记录和分析的数据。海量的数据无时无刻充斥在人类的现实生活中,人类又将这些有形或无形的数据收集、分析,开启了一场大规模的生产、分享和应用数据的新时代。

英国著名作家维克托.迈尔-舍恩伯格,将人类迈入大数据时代看作是一场生活、工作与思维的大变革。他在《大数据时代》一书中这样描述:“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,二更多的改变正蓄势待发。”如此一场重大的变革,即将改变人类生活、工作的方方面面,潜移默化的影响着人们看待世界的方式、方法,那么,人类又该如何发展自己,满足新时代的要求,适应新时代的变化,成为当今社会亟待解决的问题。

二、大数据时代的新变革,对人力资本发展的新要求

首先,大数据时代的首要特征是“数据化”——一切皆可“量化”。数据,不再是沉睡在深奥的书本里,也不掌握在少数人手中。大量的数据被人类测量、记录、分析,这也是大数据时代发展进步的核心动力。数据化的对象不仅仅是数字、文字,而且包括方位、轨迹、甚至沟通。沃尔玛超市通过统计不同货架上的物品被人们选择的次数,以及不同购物者在超市内浏览路径等,适时调整货品的摆放位置、摆放次序,大大的提升了销售业绩。一旦我们生活的世界能够被数据化,人类认知将根本性转变。那么,摆在人们面前的问题就是,如何收集海量的数据,将数据的样本无限量的扩大;如何筛选数据,让数据更加还原事物的真实面貌;如何后期处理数据,分析出既定目标需要的结果。这些问题的提出,就意味着人类面临着一次自身素质质的飞跃。

其次,数据真正发挥作用在于“预测能力”,在还原事实的前提下,对未来情况的发展有指引作用。1978年,由24颗卫星构成的全球定位系统(GPS)的诞生,实现了自古以来无数航海家、旅游者、制图家的梦想。这一技术陆续被应用到车辆、航海、手机等移动设备上,极大地方便人类的同时,大量数据又被反馈到数据中心,重新整理、分析。UPS快递公司,首先通过运用安装在车辆上的设备收集回的数据,跟踪到车辆的位置、行驶路线,统计车辆的消耗信息,设计出货车的最佳行驶路径,科学的指导车辆行驶。2011年,这项成果为UPS快递公司节省了近4828万公里的路程,以及近300万加仑的燃料,大幅度的为公司节约了运营成本,提高了工作效率。UPS管理总监杰克.莱维斯说:“数据的预测给我们知识,而知识赋予我们智慧和洞见。”数据的预测功能,拓展了运用数据的维度,从发现问题层面跨越到解决问题、解决未来的问题的新层次。数据的“运用”,掌握在人类的手中,那么,如何将数据正确运用,如何用数据解决问题,如何杜绝数据所有可能引发的的技术上、道德上等多方面的问题。在这些问题有待解决之前,数据不应该被滥用。也只有人们约束好自己,才能将数据充分、合理的运用。

最后,数据,在练习“发声”,在以全新视角描绘着我们已经熟知的世界。在数据为我们做出巨大贡献的同时,有些人会不会“固步自封”?有些人会不会“讳疾忌医”?在我们肯定“数据”的同时,也会有人在质疑、歪曲“数据”。数据的统计在于人类,分析在于人类,得出结论的任然是人类,正在需要做到公正、真实的其实是“人类”。那么,如何看待数据?是否应该在技术操作、实施、甚至舆论宣传的多个环节,加以监管?为了使“数据”和“人类”之间和谐相处,追求共赢,首先“安身立命”的应该是人本身。

三、大数据时代背景下,人力资本发展的新方向

人力资本的发展成为“大数据时代”背景下的热门课题,面对大数据、大挑战,要及时调整发展方向,发展目标以及人力资本投入规模、投资方向。只有首先打破“人为限制”,才能掌握数据的合理运用,讓其真正发挥作用。

首先,加大对新兴领域,如科技研发、移动设备、数理分析等领域人力资本投资力度。过去,我国投资是刺激经济增长的重要动力,而忽略了科技创新的力量,忽略了新时期投资方向的改变。数据,像一座取之不竭的矿产,只有用合适的工具开采,才能提高产量,尽可能的保存原始形态。为实现这一目标,需要先进的终端设备,熟练的操作人员,以及长时间的人力、物理的投入。

其次,规范数据相关人员,建立、健全法制机制,监管互联网、移动设备,防止数据的非法获得、滥用。无论是亚马逊、淘宝,还是百度、谷歌,都以不同形式采集我们日常的“数据”,我们始终被“第三只眼”监视着。前美国中央情报局(CIA)雇员,也曾担任美国国家安全局(NSA)的美籍技术人员的斯诺登,将美国国家安全局关于PRISM(棱镜)监听项目的秘密文档披露给了《卫报》和《华盛顿邮报》。这一情况的纰漏,引起了各国政界的轩然大波。这就是一场因“数据”而引发的“战争”。合理有效的杜绝大数据带来的威胁,更好的规范个人行为,保护公民合法的隐私权等权益。(作者单位:云南民族大学经济学院)

参考文献:

[1] 张燕南,赵中建.大数据时代思维方式对教育的启示[J].教育发展研究,2013,21:1-5.

[2] 刘小霞,陈秋月.大数据时代的网络搜索与个人信息保护[J].现代传播(中国传媒大学学报),2014,05:125-128.

[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,01:146-169.

[4] 胡树祥,谢玉进.大数据时代的网络思想政治教育[J].思想教育研究,2013,06:60-62+102.

[5] 宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版),2013,05:38-43.

大数据背景下的数据治理模式 篇7

在当前信息时代, 随着互联网技术与物联网的不断普及与发展, 人们获取、收集信息的渠道越来越多样化。各种搜索引擎、社交网站、通讯工具等的普及应用, 使得数据呈爆炸式增长的趋势, 因此, 当今时代也被称为大数据时代。大数据在现阶段已不是一个新颖的话题了, 但就目前而言, 大数据的有效管理与使用却一直是各个行业致力于研究的问题, 也就是所谓的数据治理。

在20世纪90年代, IBM就开始了对数据治理的研究与探索, 经过不断实践与完善, 如今在企业中已形成了一套较为成熟完善的数据治理模式。虽然数据治理的实践开始较早, 但在理论研究上, 学术界对数据治理还没有给出一个精准的定义, 各界学者对于数据治理的理解与定义各有不同。国外学者对于数据治理的理解也有几种不同的观点, 有人认为数据治理指的是, 将企业的各种数据信息作为企业的重要资产, 对其进行规范的管理、开发、维护等, 并制定与之相关的标准、流程、决策权、制度、技术等。还有人认为数据治理指的是, 企业内部的员工及信息系统, 为完成与信息相关的流程, 而涉及到的组织结构、规则、决策权以及责任, 也认为数据治理的实际意义就是为组织使用数而设立相应的管理规则。在国内, 多数的学者主要集中于数据治理内容的研究, 包括数据质量管理、元数据管理、数据标准管理、主数据管理、数据安全管理、数据生命周期管理以及数据应用等方面的内容。

在当今的大数据时代, 人们对数据治理的研究热度只增不减, 索雷斯在其著作《大数据治理》一书中, 提及大数据治理的概念, 并将之作为广义数据治理的一部分, 将其定义为制定与大数据有关的数据优化、隐私保护与数据变现的政策。该书详细阐述大数据治理的准则、不同类型数据的治理以及不同行业中的应用场景等, 提出了一系列具体的操作建议。

2 当前企业数据治理的现状

随着信息技术的不断发展及普及, 各个行业都逐渐的意识到数据治理的重要性。尤其在企业中, 数据治理已经成为当前业务应用集中建设、整合分析数据信息、辅助管理决策的一个重要手段。在企业中, 数据被当作是一项重要的企业资产, 企业通过数据治理完成对数据的优化、管理、利用等决策, 并对组织内部的员工、工作流程以及策略等进行合理的调整, 以发挥企业数据的最大价值。

企业通过建立良好的数据治理体系, 可以在与企业战略保持一致的前提下, 在数据应用方面进一步的增强跨业务的综合决策能力, 为企业管理决策层提供更好的辅助支持, 在数据管理方面优化为更合理的企业级数据架构, 使系统间的数据交换在一个统一标准的环境下进行, 并且建立常态化数据管控机制, 以应对更广泛的数据应用需求, 以保障企业数据标准、数据质量及数据的安全, 支撑顶层智能决策等应用。

使用数据治理手段辅助企业管理经营已经是大势所趋, 但由于数据治理的应用在我国起步较晚, 发展还不成熟, 在当前企业的数据治理过程中, 仍然存在着一些问题与不足。以下是几点当前企业数据治理过程中存在的问题与不足。

(1) 虽然企业中已开展了数据治理的相关工作, 但由于对数据资料的认识度不够, 在实际的应用中数据治理很容易流于形式, 不能发挥出真正的价值。

(2) 目前大多数的企业在数据治理工作中仍然偏重于技术, 不太注重数据质量的问题, 也没有建立起完善健全的数据体系。

(3) 企业各部门之间缺乏通用的业务规则。各个部门都有各自的业务标准, 经常造成部门之间标准的混淆与矛盾。

总的来说, 数据治理并不仅仅指技术层面的工作, 还要使企业的业务部门与信息部门之间达成共识, 形成及数据、应用、技术、组织四位一体的数据治理体系, 有效的提企业的信息化管理水平与数据应用水平。

3 大数据背景下改进数据治理模式的对策

数据治理参与企业的管理运营过程是大势所趋, 针对当前企业数据治理过程中存在的问题与困境, 以下提出几点改进的建议与对策。

3.1 健全数据治理体系

企业要将数据治理作为一项专门的业务来对待并管理, 根据企业的实际情况制定相应的数据治理目标, 成立专业的数据治理组织, 健全保障机制, 构建一个全方位、高效率的数据治理体系。该数据治理体系需要企业各个部门、组织、技术等方面的全面参与和与配合。

首先, 要建立相应的数据治理组织机构。可以在企业顶层建立数据治理委员会, 由高层管理人员、信息管理部门以及业务部门主要负责人共同组成。在中间层设立由各业务部门业务专家、数据库管理专家、信息部门技术专家、培训专家等共同组成的数据治理工作组。在基层则设立由信息系统项目组成员共同组成的数据治理工作组。

其次, 建立相应的标准规范。从整个企业的角度出发, 建立统一的数据标准, 结合数据治理工作, 成立技术标准工作组, 制定工作计划, 组织完成各类标准制定, 主要包括技术标准、业务标准、管理标准、数据质量标准等内容。

最后, 在数据治理过程中, 离不开数据技术的支撑, 企业需要利用数据技术来完成对企业信息数据的管控与支撑, 将元数据采集、管理和应用作为核心, 加之规范的数据标准、较高的数据质量, 充分利用企业已建设的元数据管理平台、主数据管理平台以及数据分析技术、数据质量整治技术, 实现健全的数据治理体系。

3.2 提升数据质量管理水平

根据企业的实际情况, 改进当前的额数据质量管理现状, 健全数据质量管理体系。选择与企业密切相关的指标为切入点, 分析数据成熟度, 进行集中抽取。以实现标准、编码、模型和数据的统一管理, 避免数据多头管理和冲突, 消除数据冗余, 达到数据共享、数据集中管理的目的。逐步实现事前防范、事中监控、事后治理的闭环管理, 并建立企业级数据质量管理制度、规范, 来识别高价值数据属性, 确保能获得高质量的数据来支撑业务运营与经营分析。

3.3 全方位数据应用

企业的数据应用指的是对整合后的数据进行较深层次的分析, 并利用各种方法进行数据挖掘分析、多维分析、即时查询等方面的数据应用。利用数据治理手段, 借助数据中心, 对业务源数据作深入分析, 挖掘出数据之间、指标之间的关系。并通过决策指标、跨业务主题等形式, 展示数据中心历史数据的积累程度、数据的质量、数据应用范围的真实情况, 实现智能决策分析应用, 体现本单位数据治理的最大成效。

4 结语

企业结合自身的实际情况, 通过建立完善的数据治理组织机构, 设立相关的标准规范, 提升数据质量管理水平, 全方位实现数据应用等方式, 可以极大的提升企业的数据治理与应用水平, 提升企业的信息化建设水平, 增强企业的核心竞争力。

摘要:在当前的大数据背景下, 数据治理通常被应用于各个领域, 其中应用最为广泛的就是政府、企业。在当前的大数据时代, 数据治理已逐渐成为企业进行智能化决策的重要手段, 帮助企业在竞争激烈的市场中, 快速有效地分析处理大量数据信息, 占据有利地位。基于此, 主要以企业数据治理为研究内容, 描述当前企业数据治理的现状及出现的问题, 并详细分析了当前大数据背景下企业的数据治理模式。

关键词:大数据,企业,数据治理

参考文献

[1]巨克真, 魏珍珍.电力企业级数据治理体系的研究[J].电力信息与通信技术, 2014 (1) .

[2]陈慧玲, 贾德红, 王春辉.供电企业财务业务数据治理探析——三个“实时”构建精益高效的财务业务数据治理体系[J].安徽电气工程职业技术学院学报, 2015 (4) .

[3]李明.管理信息系统中提高数据质量方法技术[J].电脑知识与技术, 2013 (4) .

数据挖掘背景 篇8

随着大数据时代的到来,数据成为一种资产,其安全性也越发重要。数据库安全建设已经从安全数据库管理系统、安全的数据库服务向海量信息处理安全过渡和发展。在保障数据库安全上,应体现预防与控制为主,结合数据库技术发展的方向和趋势,以技术为根本手段、以组织为保证、以管理为灵魂,在数据库的建、管、用全生命周期中加强数据库的安全保障手段,形成完善的数据库安全保障体系。

1 完善外部环境,巩固安全支撑

网络是大数据时代数据库应用的外部环境与基础,数据存储一般在云端,而数据库的安全首先依赖于有一个安全的网络环境。在操作系统层上,操作系统漏洞和维护管理是威胁系统安全的两个最大的因素,因此,在数据库安全保障上,首先要加强网络环境和操作系统的安全保障。

(1)合理分配网络资源。合理分配网络资源是保障数据库服务器所在网络安全高效运行的前提。通过网络管理程序对网络上的资源进行集中管理、集中调度和分配,确保一定范围内的网络及其网络设备能够稳定、可靠、高效的运行,使所有网络资源处于良好的运行状态,保障数据库服务器所在网络的安全、高效运行。

(2)构筑防火墙。对数据库系统的入侵最先是从网络系统开始的,防火墙技术是保护系统安全的第一道屏障。防火墙是数据库内部与外部网络之间的安全墙,它可拦截来自外部的非法访问并阻止信息的外泄,并可设定外部哪些用户可以访问内部服务,以及外部哪些服务可以被内部人员访问,将网络分割成多个安全区域,各安全区域之间用防火墙过滤数据通信,只允许经过授权的数据通过,内部网络中的主机就不会直接暴露给来自外部的攻击,并且在安全管理上更加便捷。

(3)使用入侵检测技术。尽管防火墙对内部网络起到了很好的保护作用,但是防火墙并不能防范来自内部网络的攻击,也不能控制不通过它的连接。因此,在防火墙之后加入入侵检测,能够迅速地检测到恶意入侵,甚至能确认入侵者,并能在破坏发生或数据损坏前加以阻止,能够有效减少破坏的危害并迅速地恢复系统。入侵检测是指发现或确定入侵行为存在或出现的动作,也就是发现、跟踪并记录计算机系统或计算机网络中的非授权行为,或发现并调查系统中可能为试图入侵或病毒感染所带来的异常活动。为了让数据库系统更加安全,通常的做法是防火墙和入侵检测系统的结合提高数据库系统的整体防护性能。

(4)及时更新补丁程序和杀毒软件。由系统漏洞带来的安全威胁往往也是致命的,这些安全隐患一旦被不法分子利用,极有可能导致数据库的安全失效。应及时安装补丁程序,有效解决漏洞程序所带来的安全问题也是完善安全环境的有效方法。杀毒软件也可以协助保护计算机系统免受蠕虫病毒、木马程序等的攻击,降低计算机系统所遭受的安全威胁。由于病毒程序都在不断产生新的变体,所以杀毒软件的杀毒引擎和病毒库也要及时更新,使其保持病毒库处在最新的状态,才能有效防范最新的病毒。

2 运用技术手段,加强安全建设

在数据库建设的过程中,充分考虑数据库安全的需求,根据选定数据库系统特点,结合各种数据库安全手段,完善数据库安全建设。

(1)使用安全的文件系统。在数据库服务器操作系统选择上,尽量使用Unix系统。在Windows系统运行的数据库的数据文件应该尽量存储在NTFS文件系统中,这样既可以加强数据文件的安全,又可以最大化数据库的访问性能。

(2)加密数据库文件。为了保证数据库文件中的数据不被非法窃取和修改,对数据库文件进行加密保护可以提高其安全性,目的是文件中的信息变成不可直接阅读的数据。常用的对数据库文件的加密方式一般有库外加密和库内加密两种,由于每种加密方式都有自己的优缺点,所以采用哪种加密方式需要综合考虑各种因素,选择最合适的加密方式,保证数据文件的安全。

(3)数据库视图的使用。为不同的用户定义不同的视图,可以限制各个用户的访问范围。通过视图机制把要保密的数据对无权存取这些数据的用户隐藏起来,从而自动地对数据提供一定程度的安全保护。现在很大一部分数据库安全问题是在应用程序端造成的,造成这些安全问题的原因包括应用程序编写SQL代码不规范使数据库受到SQL注入攻击、应用程序使用过高权限的账户来访问数据库以及在应用程序端暴露了过多数据库细节等。在编写数据库应用程序时,数据库开发者和安全维护人员要从攻击者的角度来共同分析数据库,确定数据库的潜在威胁,对数据库存储和处理的信息进行分类。这个过程不仅能帮助大家了解黑客攻击数据库的原因和方式,还能确保必要的安全控制适应数据库的设计结构。

(4)云安全技术。“云安全”是大数据时代信息安全的体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网络上大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到服务器端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端,能够有效地提高数据库系统环境的安全。

3 落实管理机制,提高安全水平

数据库管理系统是数据库安全的最后一道屏障。因此,在数据库管理过程中,一定要充分落实各种安全机制,提高保障数据库安全水平。

(1)数据库用户口令管理。数据库系统是不允许未经授权的用户对数据库进行操作的。用户名和口令是数据库提供的最外层的安全保护措施。针对攻击者可能通过穷举、猜想、窃取等方法获取数据库的用户名和口令的问题,可以通过对口令的合理设置、管理以及一些技巧的使用,来加强口令的安全性,有效组织针对数据库口令的攻击。如,对口令进行复杂性验证,复杂的口令可以在一定程度上加大被攻击难度,减小泄露的几率。因此,应保证口令具有一定的复杂性。作为数据库管理员可通过一定手段来规范数据库用户密码的复杂度。

(2)数据库角色和权限管理。数据库管理系统大多提供了完善的权限和角色管理机制来加强数据库的存取控制。权限是执行一种特殊类型的SQL语句或存取另一用户的对象的权力,有两种类型的权限,即系统权限和对象权限。其中系统权限是执行一种特殊动作或者在对象类型上执行一种特殊动作的权利。对象权限是在指定的表、视图、序列、过程、函数或包上执行特殊动作的权利。在实际的权限分配方案中,通常利用角色来管理数据库权限,角色为相关权限的命名组,可授权给用户和角色。建立角色的目的是为数据库应用管理权限和为用户组管理权限。利用角色对权限管理可以加强权限管理效率、提高权限管理的灵活性与安全性等。

4 做好审计追踪,排除安全隐患

任何系统的安全性措施都不是绝对可靠的,窃密者总有办法打破这些控制。对于某些高度敏感的保密数据,数据库服务器必须以审计作为预防手段。对数据库系统中审计工作主要是审查系统资源的安全策略、安全保护措施及故障恢复计划等对系统的各种操作,如访问、查询、修改等,尤其是对一些敏感操作进行记录、对用户的行为进行有效的监控和记录,及时发现用户威胁军用数据库的操作企图,采取相应措施,保证军用数据库的安全。审计还可以用于监视和收集相关指定数据库活动的数据,例如可收集哪些表经常被修改,用户共执行了多少次逻辑I/O操作等统计数据。利用这些信息,可以重现导致数据库现有状况的一系列事件,以进一步找出非法存取数据的人、时间和内容等,及时挽救或恢复数据,排除不安全因素。

审计是入侵检测系统的基础。它是一种较为积极的安全措施,通过审计可以监视系统的活动,收集系统各个方面的数据。而入侵检测系统则综合分析这些数据,从中发现可能发生的来自内部和外部的入侵,并依照一定的策略采取适当的应对措施,限制和防止入侵行为破坏系统的安全性。所以要使用入侵检测系统,就必须进行必要的审计,同时,借助于入侵检测技术,审计数据能在保证系统安全方面发挥更大的作用。

5 全面数据备份,降低安全损失

数据的备份与恢复是实现数据库系统安全运行的重要手段。数据库系统总免不了发生系统故障,重要的数据难免遭到破坏,数据库管理员应及时做好数据备份。当系统发生故障时,管理员能利用已有的数据备份,把数据库恢复到原来的状态,以便保持数据的完整性和一致性,将损失降到最低。

(1)及时备份数据库。数据库的物理备份有两种模式,脱机模式和联机模式。如何选择备份方案,是在数据库创建时就该考虑的问题。脱机模式备份是在数据库正常关闭后,对数据库进行备份。在联机模式下,在数据库内部建立一个所有作业的完整记录,数据库系统以循环方式保存联机日志文件。物理备份的一个好处是可将数据库管理系统完整转储,一旦发生故障,可以方便及时地恢复,提高管理效率。数据库也可采取逻辑备份的方式,转存数据库文件来进行备份。

(2)使用后端存储系统。人为的操作错误、硬件的损毁以及各种自然灾难等诸多因素都有可能给存储系统造成破坏,从而造成存储在系统上的数据丢失,给组织造成无可估量的损失。为了在灾难事件发生或者存储设备发生硬件故障时保护数据库系统的数据安全,最大限度地降低损失并保持业务系统的不间断运行,可以采用后端存储系统。采用后端存储系统保障数据安全的措施有很多,常用的措施有异地备份、集群存储和镜像技术等。

异地备份是保护数据的最安全的方式,无论发生什么情况,那怕是火灾、地震,当其它保护数据的手段都不起作用时,异地备份的优势就体现出来了,但是困扰异地备份的问题在于速度和成本,这要求拥有足够带宽的网络连接和优秀的数据复制管理软件。

集群存储一般由多个存储节点组成,每个节点都包含了前端端口、控制器和后端的磁盘,共同组成了一个存储单元。而在需要扩展容量或性能时,会以节点为单位进行扩展。集群存储可以实现像搭积木一样的简易扩展性,同时也不会影响现有存储的使用。在一个节点出现问题时,可以自动切换到其它节点重建数据,提高了数据的安全性。如果故障发生在异地分支部门,可以使用镜像技术,进行不同卷的镜像或异地卷的远程镜像,或采用双机容错技术自动接管单点故障机,保证无单点故障和本地设备遇到不可恢复的硬件毁坏时,仍可以启动异地与此相同环境和内容的镜像设备,以保证服务不间断。当然,这种方式会增加对存储设备的投资。

摘要:结合数据库技术发展的方向和趋势,从数据库的建、管、用的角度,提出了在大数据背景下,应从完善数据库系统外部环境、运用技术手段、落实管理机制、加强审计追踪和全面备份数据等方面建立数据库安全保障体系,以此来提高数据库安全保障水平。

关键词:大数据,数据库安全,管理,体系

参考文献

[1]黄浩.大数据浪潮[J].中国信息化,2012(1).

[2]何明,陈国华,梁文辉.物联网环境下云数据存储安全及隐私保护策略研究[J].计算机科学,2012(1).

[3]王珊,王会举,覃雄派.架构大数据:挑战、现状与展望[J].计算机学报,2011(10).

[4]陈越.数据库安全[M].北京:国防工业出版社,2011.

[5]文叙菠,白海娟.Oracle数据库安全策略[J].信息技术,2009(5).

[6]胡予淮,张玉清,肖国镇.对称密码学[M].北京:机械工业出版社,2002.

[7]牛夏牧,赵亮,黄文军.利用数字水印技术实现数据库的版权保护[J].电子学报,2003(6).

[8]张敏,徐震,冯登国.数据库安全[M].北京:科学出版社,2005.

[9][美]格鲁曼.计算机安全[M].北京:人民邮电出版社,2003.

数据挖掘背景 篇9

关键词:大数据,数据新闻,数据可视化,数据挖掘

当很多人还沉浸在信息时代时, 一个大规模生产、分享和应用数据的时代已然到来。大数据时代不仅意味着信息或数据量的巨大, 还意味着对于数据的处理、分析、分享、挖掘等能力将得到前所未有的提升, 不同行业、不同领域之间数据的交换与相互利用也变得十分频繁。[1]大数据时代显著的特征之一即数据规模的爆炸性增长, 这些海量的信息数据来源多样, 包括政府机构、社会组织、企业等采集并公布的数据, 用户使用各类媒体平台产生的数据, 移动终端上的地理位置信息以及物联网上的各种状态数据等。这些随时随地都在生成的海量信息汇聚成可观的数据洪流。

最初, 对于“大数据”的关注与运用主要集中在IT行业、 市场营销、公共健康等领域。大数据的真正价值不在于它的大, 而在于它的全——空间维度上的多角度、多层次信息的交叉复现, 时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。[2]因此, 对大数据进行分析, 其真正的价值与意义就在于透过多层次、多维度的数据以及历时态的关联数据, 找到问题症结, 直抵事实真相。

一、数据新闻的兴起

如今, 大数据的影响已经波及了传媒业。“数据新闻”也被称为“数据驱动新闻”, 但是关于“数据新闻”的概念, 业界并没有一致的界定。与传统以文字叙述为主的新闻报道不同, 数据新闻以数据为核心, 同时应用数据挖掘、数据抓取、数据分析、云计算等相关数据技术来组织新闻报道。具体而言, 数据新闻在形式上不需要连篇累牍的文字, 而是以数据、图表为主, 辅之以简要的文字进行说明;在实际操作中, 记者主要通过相关数据技术手段挖掘海量数据背后的意义维度, 最后依靠数据可视化技术将经过筛选后的数据进行融合, 以生动形象的方式加以可视化呈现。与精确新闻和计算机辅助报道比较而言, 数据新闻在报道的系统性、时效性、交互性以及阅读体验等方面都有了进一步的发展和提升。此外, 互联网将海量数据向用户自由开放, 用户通过相应的工具能够便捷地使用这些数据来自制新闻, 充分体现了数字化时代的开放、共享精神。

数据新闻作为大数据时代一种跨学科、跨领域的新闻报道方式, 逐渐为业界所重视。从兴起至今, 多家国际知名媒体都展开了相关业务并陆续发布了许多优秀的数据新闻作品。 近年来, 中国新闻界也开始了对数据新闻的摸索, 并获得了相当不错的成绩。以财新数据可视化实验室的数据作品为例, 其2013年发布的青岛中石化管道爆炸事故系列报道荣获亚洲出版业协会 (SOPA) 颁发的“2014卓越突发新闻奖”。2015年底, 财新数据可视化实验室的作品——现场直播新闻应用 “Hawkeye”在国际数字媒体创新大赛香港站比赛中获胜。财新团队提出, 随着移动端的普及, 新闻报道可以通过移动应用来完成, 现场前线记者实时上传新闻消息进行新闻直播的同时, 用户可以通过追查记者报道路径回顾新闻事件。

二、财新数据可视化实验室的数据新闻报道特点

(一) 及时跟进, 时效性强

2013年11月22日, 青岛中石化管道爆炸事故发生后, 财新记者在第一时间赶赴现场, 与后方30余名工作人员组成联合报道组, 24小时关注事件进展, 同时运用新技术手段协同工作, 通过引导及交互两个界面, 将前线记者获取的采访信息充分以数据新闻的方式大幅度、多角度地呈现了事态整体进展, 深入挖掘了事件根源。该新闻报道图集利用卫星定位技术, 将事故现场记者拍摄的照片标注于地图上, 使读者更易理解各爆炸点的地理位置与爆炸时间, 同时快速帮助用户建立起对事件始末的整体直观感受。事故发生24小时左右, 财新数据可视化实验室上线了完整的数据新闻作品, 充分体现了新闻报道的时效性以及财新团队利用移动互联网技术和新媒体手段报道重大突发事件的突出能力。

(二) 多元呈现

数据新闻的可视化利用图表讲故事, 在财新数据可视化实验室的《青岛中石化管道爆炸》报道中, 其核心是将记者拍摄的爆炸现场的照片按现场位置逐一还原到谷歌地图上, 让用户在互动过程中得到身临其境的感受。在该数据新闻作品中, 财新团队依次通过数个画面, 对谷歌地图进行逐步缩小, 让用户逐步了解爆炸事故发生现场具体的地理位置, 同时辅之以简要的文字描述, 对事件发生的时间、地点、起因等背景做完整交代。随着地图不断被放大, 用户会看到红色小标记标示的该事件的众多小现场, 点击其中每一个红色小标记, 用户即可浏览记者在所标记地点上拍摄的新闻图片。除此之外, 用户还能通过新闻图集充分了解到输油管道与损坏管道的分布、爆炸地点的分布、死亡地点等多方面信息。其不同的新闻呈现方式——网页版和手机版, 也满足了不同受众通过不同方式获取新闻信息的需求。

(三) 技术应用与信息传播并重

数据新闻中, 互动图表的发展以互联网的普及和编程语言的发展为技术基础。财新数据可视化实验室开发互动图表作品的主要工具为HTML5、CSS3和Java Script。HTML5用于绘制图形和动画, CSS3实现排版, 而Java Script用来处理交互和动画, 可视化技术能够为新闻传播带来很多可能。由于手机上的浏览器相对统一, HTML5技术使解决网页兼容性难度大大降低, 同时用HTML5发布的作品可以轻易地通过社交平台进行分享, 这在当下移动端普及的情况下, 对新闻传播有很大的帮助。财新数据可视化实验室手机平台数据新闻作品——《从调控到刺激楼市十年轮回》包括楼市十年、房价地图、环比分布、 房奴计算器与结语部分。在房价地图页面显示中, 手机用户可以下拉右上角的城市列表进行自主选择, 其可视化设计动态向读者全面显示了2005年~2015年这十年间全国平均房价及各城市平均房价的变动情况。

财新数据可视化实验室的数据新闻作品充分利用了数据挖掘技术与可视化分析之间的密切关系, 将数据信息图形化, 充分挖掘了海量数据背后容易被忽略的关系与特征。这样的数据新闻就像是一个数据库, 但它不是简单的、枯燥的数据展现, 它不给出绝对的结论, 不同的用户在获取信息的同时可以根据自身的兴趣点以及需求获得不同的内容。正是这样开放式的报道结构让受众在获取有用信息的同时, 也获得了完美、人性化的阅读体验。

数据新闻报道是一个综合、系统的过程, 它需要新的思维方式与多种能力的支撑。[3]数据新闻的出现与发展对新闻从业者也提出了较之以往更高的要求。由于数据新闻本身是跨学科、跨领域的, 未来的新闻从业者除了要具备传统新闻从业者所需的新闻敏感和文字能力外, 还需具备一定的数据搜索、 数据挖掘和统计分析能力, 以及设计或制作完成具有良好阅读体验的信息图表的能力。

参考文献

[1]彭兰.社会化媒体、移动终端、大数据:影响新闻生产的新技术因素[J].新闻界, 2012 (16) :3-8.

[2]喻国明.大数据方法与新闻传播创新:从理论定义到操作路线[J].江淮论坛, 2014 (4) :5-8.

[3]文卫华, 李冰.大数据时代的数据新闻报道——以英国《卫报》为例[J].现代传播, 2013 (5) :139-142.

[4]方洁, 颜冬.全球视野下的“数据新闻”:理念与实践[J].国际新闻界, 2013 (06) :73-83.

[5]杨雅.大数据分析与可视化技术:新闻传播的新范式——“大数据与新闻传播创新”研讨会综述[J].国际新闻界, 2014 (3) :161-168.

[6]黄志敏.程序员获新闻奖, 你怎么看?——解读财新网可视化数据新闻[J].中国记者, 2015 (1) :89-90.

[7]财新数据可视化实验室.青岛中石化管道爆炸[DB/OL].http://datanews.caixin.com/2013-11-24/100608929.html, 2013-11-24.

[8]从调控到刺激楼市十年轮回:房价地图[DB/OL].财新数据可视化实验室微信公众号:财新数据新闻作品集 (手机平台) , http://datanews.caixin.com/mobile/home/, 2015-12-31/2016-02-02.

数据挖掘背景 篇10

大数据时代最突出的特征就是数据产生信息或者成为信息本身, 而信息则作为最终决策的重要依据。通常我们所称的“大数据”中“大”的含义是指在信息处理过程中, 数据来源广、数据数量巨大、存储时需要耗费巨大的储存媒介、处理时需要占据较多的时间, 且在数据的处理上涉及到模型及编程等较为复杂的工作。在大数据时代, 原有的传统的数据管理工具和处理方式都已经无法满足要求, 难以对数据进行有效的处理。我们认为随着大数据时代的不断深入, 数据主要表现出以下三个主要的特征。

1、所获得的数据来源十分广泛, 且往往容量巨大

以具体的指标来衡量的话, 大数据往往指的是容量在10T以上的数据集合。数据来源的广泛性主要是得利于目前人们可以越来越多地在日常生活和工作中接触并使用到现代化仪器, 这些现代化仪器帮助人们可以更加方便地随时随地进行数据记录与采集, 使得人们能够更加完整、及时地感知事物, 获得更加广泛的数据来源渠道。数据的容量巨大是大数据的最主要特征。通信工具的大范围使用, 加上集成电路的成本越来越低, 人们可以随时在日常生活中进行数据的交流与交换, 使得数据量得到成倍的增长, 且由于储存媒介的容量越来越大, 使得最后智能、社交设备上产生并储存的数据十分的巨大, 甚至超过了互联网上的数据流量。可见大数据时代数据的容量必然会越来越巨大, 呈现爆发性的增长。

2、所获得的数据种类繁多, 且价值量巨大

在以前, 数据的来源主要是结构化数据, 随着获得数据渠道的不断多样化, 数据的主要来源已经变更为半结构化数据和非结构化数据。通常所指的结构化数据是那些直接可以在关系数据库中发现并采集的数据, 但是随着目前信息技术领域社交网络快速发展, 再加上智能设备的不断普及, 大大增加了来自云邮件、视频、音频、网页、社交平台等的半结构化数据和非结构化数据量, 且这些数据逐渐开始成为大数据时代主要的数据来源。正是因为来自原网页、社交平台等的数据是半结构化或非结构化的数据, 其往往未经过事先的加工, 也未发生折损, 所以有着更为巨大的价值。如果说结构化数据是将生产经营情况进行了更为详尽的记录, 那么半结构化、非结构化数据则包含了更多决策有用的关键性真实信息, 可以避免数据失真带来的毁灭性的影响。当然数据的庞大, 也对数据处理技术提出了更高的要求。

3、个性化的数据需求越来越普遍

前文提到的大数据时代中占主导地位的半结构化、非结构化数据内含更多的真实、原始的信息, 所以人们也逐渐意识到对于数据进行价值挖掘的重要性。随着数据的容量呈现爆炸式的增长, 人们对于数据的需求也在迅速膨胀。由于现在信息的获取越来越容易, 所以人们重在的是寻找对自己有价值的、能够满足个性化需求的信息。可见在这种趋势之下, 原有的采用统一模板来向不同的群体提供同样数据的形式已经无法无法满足大数据时代信息需求者们对数据的个性化需求。

二、大数据时代对会计数据及会计工作的影响

会计数据作为企业数据的核心, 顺应大数据时代潮流, 会计数据已由原来简单的核算记录工具转变为影响企业经营决策的重要因素, 是企业在日常经营过程中重点关注的战略资源。前文提到的大数据时代的数据具有容量巨大、种类繁多以及个性化需求强的特点, 这些都催生了“大数据”采集、加工、处理、储存、输出等方面的改革。会计数据在大数据时代下, 也在数据的来源、价值、形式等方面呈现出了重要的新特征, 并且会计数据的新特征对企业的会计工作带来了新的要求。

1、大数据时代会计数据的新特征

(1) 会计数据的来源从以“结构化”数据为主导变更为以“非结构化”数据为主导。此前的“结构化数据”主要采集来源是非关系型数据库, 这种数据库相比而言对于数据格式的约束没有那么强, 并且随着互联网在企业的广泛应用, 这些“结构化”的会计数据源源不断渗入到企业的经营管理活动中, 企业管理运行的方方面面都离不开会计数据。会计人员在处理结构化数据时, 但是随着信息技术的不断发展, 前文提到的半结构化、非结构化数据的来源与价值都在变得越来越丰富, 它们对结构化数据的取代不仅从数据数量上体现出来, 更从提供的价值量上体现出来。随着会计云计算得到越来越广泛的运用, 同一套软件要满足大量不同企业的需求, 此时若还采取严格统一结构化存储字段的措施, 必然将大大削弱云计算系统的灵活性, 所以目前大所属会计软件的开发商们更倾向于采集非结构化数据。对于企业会计而言, 要把握新型数据中的巨大价值, 进行深入挖掘, 挖掘的越多就越有竞争优势。

(2) 会计数据的价值从简单的“数据仓库”转变为“深度学习对象”。传统的会计数据, 更多地被企业看成是一种“数据仓库”, 是数据的简单汇总与集合, 通过从数据仓库里提取的数据来编制企业财务报表, 满足监管的需要。但是随着大数据时代中非机构化数据的大量涌入, 原有的从“数据仓库”中简单提取数据已经无法最大限度实现数据的价值, 数据成为使用者深入学习的对象, 其价值得到更好的体现。对数据的深入学习要求使用者必须要对数据进行文本分析、自然语言处理、深入挖掘内容等, 才能够最大限度地获得数据的内在价值。人们通过对获得的会计数据进行详细的解读和定向的分析, 甚至在会计数据的基础上加入对人们行为趋势的预判, 使得会计数据具有预测未来趋势的能力。根据已有数据显示, 通过对会计数据的深入学习, 不仅能够促进企业业务能力的创新、提高其盈利能力, 还能够定量评价企业的市场营销策略和产品定价机制, 在大数据的深入分析上, 知己知彼, 在竞争中获得优势。

(3) 会计数据具有实时更新的新特征, 更多时候体现为一种动态的“流数据”形式。

大数据时代的会计数据具有实时更新的特点, 这就要求企业在处理会计数据时形成“流处理”的思想, 目前比较广泛的运用于实时在线销售、实时售后服务、实时信息反馈等领域。在会计数据的“流处理”中, 要借助于计算模型、人工智能等, 这其实是前文“深入学习”的补充, 只不过“流处理”中体现的是机器自动对会计数据进行“深入学习”。

2、会计数据新特征给会计工作带来的新要求。

前文我们已经分析了大数据时代会计的主要新特征体现在数据来源、数据价值、数据“流”三个方面, 针对这三个特征, 我们认为将从以下几个方面给企业的会计工作带来新的要求。

(1) 企业会计应该注重对多种结构、多种来源的会计数据的搜集和储存。从前文分析中我们已经看到大数据时代中数据的价值不可小觑, 且作为主导的非结构化数据蕴含着更为有价值的信息, 企业之间的竞争已经有很大一部分体现在对有效数据资源的争夺上。可见尽可能地多渠道、多来源地获取多种结构的会计数据, 并运用先进的数据处理系统来进行有效处理和分析, 克服信息不对称, 尽可能地全面反映企业经济业务的现状, 为决策的准确制定提供尽可能详尽的信息依据, 这都将极大地提高企业的竞争能力。

(2) 要注重对获得的会计数据的深入学习, 满足信息使用者个性化需求。随着会计数据从“数据仓库”的简单角色中转变出来, 企业会计工作人员应当意识到其在处理会计数据中已经有被动使用的地位转换为主动挖掘价值的地位。深入学习会计数据意味着企业会计要具备一定的学习能力, 此时加强员工培训是一个不错的方案, 在对员工的数据处理技术能力进行培训的同时加大对重要信息识别的能力, 并且使最后通过深入学习会计数据得到的处理结果能够满足信息使用者的个性化需求。

(3) 完善企业会计制度, 提高数据处理的效率。正是由于大数据时代背景下企业的会计数据“流”特征体现明显, 所以数据采取和分析必须要及时、快速, 时间的拖延可能会使原本极具价值的信息变得一文不值。尤其是在目前企业竞争异常激烈的市场环境中, 任何一个失误都有可能造成不可弥补的损失。企业会计制度的完善可以从根本上来提高会计数据处理的效率, 通过制定详尽的、恰当的制度, 正确引导员工的工作, 避免出现职责不分明, 有些工作重复做, 有些工作没人做的低效工作状态。

参考文献

[1]冯芷艳.大数据背景下商务管理研究若干前沿课题.管理科学学报.2014 (1)

[2]谢国忠.大数据正在改造企业.企业管理.2013 (7)

大数据背景下高职大学英语教学 篇11

【关键词】大数据 高职大学英语 英语教学

【基金项目】2015年市级课题“吉尔认知负荷理论指导下高职英语口译教学模式探讨”。

【中图分类号】G71【文献标识码】A 【文章编号】2095-3089(2016)09-0097-01

一、引言

近年来,随着社会经济与科学技术的快速发展,移动互联网、云技术、物联网等已渗透到人们的工作、学习、生活方方面面,社会步入了大数据时代。大数据时代的到来,必将对传统的教学方式、学习方法以及教学评价带来巨大的影响。《大学英语课程教学要求》提出,新的教学模式应以现代信息技术,特别是网络技术为支撑,使英语的教与学可以在一定程度上不受时间和地点的限制,朝着个性化和自主学习的方向发展。

二、大数据背景下的英语学习

大数据兴起于2009年,也被称为海量数据、巨量数据,由大量结构复杂、类型多样的数据组合而成,通过云技术的处理,对数据进行加工、集成或共享。大数据的特点就是数据体量巨大、数据类别繁多、价值密度底、处理速度快。大数据不仅仅意味着更多的信息,它也改变了人们的生活习惯、行为方式,甚至认知方式和思维方式。

大数据时代不仅为英语学习者带来了海量、内容丰富多样、形式各种各样的学习资源,而且大量的英语学习工具、学习平台和在线学习课程应运而生,学习者可以选择自己感兴趣的课程,按照自己的学习基础来安排学习的进度,可以随时随地学习,向老师提出问题,和同学在线讨论,教师在线答疑,给出正确的答复。

三、高职大学英语教学现状

随着经济全球化的发展,我国与其他各国的经济、贸易往来日益频繁。众所周知,英语是最重要的国际通用语言,被广泛应用于商贸往来。梁桂春(2011)认为,对于高职高专学校而言,要想在经济全球化背景下培养出高质量的人才,必须要重视英语教学质量的提升。与之同时,人才市场对劳动人才的英语水平也提出了要求,只有具有较高英语水平的人才,要人才市场更具有竞争力,被更多的公司和企业所青睐。目前高职大学英语教学现状如下:

第一,从学生方面看,各大高职院校生源参差不齐,学生基础薄弱,学习英语兴趣不浓厚,学习动机不明确、且学习态度不端正。

第二,从教师方面看, 师资力量薄弱,职业英语师资匾乏、师资队伍结构不合理,“双型“教师数量不够,教师教学理念落后。

第三,从教学过程看,教学目标模糊不清、教学内容偏离目标、教学模式依旧传统、教学评价形式单一。

四、大数据背景下高职大学英语教学

随着大数据时代的到来,利用大数据,创造有利于英语学习的环境,转变教学理念,更新教学内容,提高教学质量,以培养适应新时代发展和需要的个性化的高职人才。

第一,利用大数据,为学生提供个性化教学。利用大数据技术,搜集和分析学生在英语学习过程中产生的数据,了解其学习特点、动机和需求,统计出学生普通薄弱的语言环节,学习中普通存在的问题,帮助学生找到适合自己的学习方式,更好地提升英语水平,对学生的个性化学习和自主化学习有极大地推动作用。

第二,利用大数据,为学生提供海量的、丰富的、地道的英语学习资源。通过网络平台以及云计算技术,教师可以搜索所需的教学资源,包括英语教学的多媒体资源、音频资料、数据资料等,而且形式多样,有文本、音频、视频、电子词典等。在教学中,教师加入生活中的真实地道的语言材料,让英语贴近学生生活,激发学生学生学习兴趣。

第三,利用大数据,丰富教学手段和教学模式。在教学过程中,教师可以将互联网大数据与传统教学方法优势相结合。教师通过设计自然真实的交际任务,激发学生的求知欲和好奇心,鼓励学生输出所学的知识,将互联网获取的知识、数据转换为实际技能,提高英语的应用能力。

五、结语

大数据时代已经来临,它给高职大学英语教学带来了机遇和便利,同时也带来了新的挑战。大学英语教师要积极应对大数据对英语教学的挑战,充分利用大数据,丰富英语教学资源,设计真实灵活的英语任务,激发学生学习兴趣,培养适应社会和时代发展需要的个性化高职人才。

参考文献:

[1]崔慧,《大数据时代大学英语教学的新尝试和新思考》, [J],海外英语,2015.10:51-52.

作者简介:

数据挖掘背景 篇12

电子政务是一个复杂的巨系统,简单说就是政府组织力求通过信息化手段和技术为辖区谋求更高效的管理和服务,电子政务建设发展的核心是数据。电子政务发展的下一个目标是为服务对象提供个性化的、贴身的服务,在服务每个对象的同时,不能损失其他社会成员的利益。电子政务的服务对象不仅包括辖区内的个人,也包括企业组织、事业单位、公众团体等社会有机组成部分,甚至包括政府自身。

但目前政府部门实行的电子政务只是方便了政府与政府、政府与社会之间的信息交流和办公,仍然停留在信息化办公的阶段,并没有实现严格意义上的电子政务。而对服务对象提供个性化的、贴身的服务目标,要求能够为服务对象提供智能预测系统、智能推荐系统甚至智能决策系统。部分信息化发展程度较高的省市建立数据中心,但是这些数据中心仍然属于传统的数据中心,其主要功能是提供统计、查询功能,如图1 所示。

这些数据中心以业务部门为主,一般由省厅或市局来建设,主要存在以下问题。第一,业务部门之间存在竞争关系,通常数据是保密的,这些数据往往是孤立和片面的,而社会上的人或企业个体是综合性的,在这种情况下只能在业务的基础上建设推荐或决策系统,不能实现个性化服务系统。第二,这样建设的数据中的数据来源都是结构化和理性的数据源,这些数据都是确定的,所建设的智能决策系统并非真正如人一样思考问题,而是根据确切数据进行统计分析,这仍然是传统的分析方式,而人往往是一种感情的社会个体,非理性的思考多。第三,传统模式的数据中心需要业务部门重复建设,数据中心的建设往往投资巨大,中心机房、灾备系统、服务器等设备都需要大量投资,同时也将给社会资源造成巨大浪费。

1 大数据背景下数据中心建设要求

大数据时代背景下,数据资源在电子政务中显得更为重要。麦肯锡对大数据的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据不仅具有数据规模大这个特征,同时更多的是具有数据来源广泛、数据结构模糊等特征,但毫无疑问,大数据更符合社会实际情况。

本文提出通过建设基于大数据的数据中心来满足更先进的电子政务服务理念,基于大数据的数据中心建设应该具有数据来源多样化、建设高度集中化的特点。数据来源多样化是指根据电子政务服务对象来采集数据,而不是根据业务来采集相对片面的数据。以居民为例:辖区内居民个人基本信息、个人消费信息、个人工作信息、个人医疗社会保险信息等信息都是结构良好的、容易采集的信息,这些信息可以构成一个个业务系统,通过融合这些业务系统数据可以构成传统的数据中心。但对于个人来讲,其个性信息(通过朋友圈和说说、文章等获取)、个人习惯(通过手机等定位信息)、消费偏好(通过购买和购买过程分析)等信息构成一个感性人的信息。而这些信息往往是模糊的、非结构化、私密性的。基于大数据的数据中心如图2 所示。

建设高度集中的大数据中心要求以地级市或者省级单位为中心进行建设,政府相对业务性部门作为数据补充,地市一级的信息中心应该有充分的权利,最好由市府办功能进行直接转变,单独成立的信息中心难以担任这样的责任。服务对象的基础信息在工商和公安数据库中,这样的机构不是类似于水电煤气等单位是可以调度的,政府部门之间权力大小不同,基于大数据的数据中心就是要破除电子政务中存在的信息孤岛问题。传统的以业务为核心的电子政务系统或数据中心,无论怎么预留接口、怎么加强数据交换,其本质还是一个个数据库构成的孤岛,这样的电子政务越发展,后续问题越大。通过高度集中、高度集权、直接隶属于政府的数据中心建设,从根本上解决电子政务发展的顽疾。

2 关键问题

2.1 权力分配问题

从某种意义上讲,信息是权力的主要载体,有用的数据就是信息。基于此,如果数据仍然分布在业务部门,政府部门效率低下的官僚主义将不可避免地从普通政务阶段转移到电子政务阶段,各个部门将数据视为自己的私有财产,并且可以堂而皇之的以系统为掩护,不进行数据交换。

2.2 隐私问题

很显然,基于大数据的数据中心囊括了公众、企业的隐私性数据,政府本身有没有权力收集这些数据?这些数据在什么样的情况下授权给什么样的人来看?从事IT技术的人会不会因此获取超然的权力?这些统统都是需要进一步研究的问题。

2.3 安全性问题

基于大数据的数据中心一旦建成,会随时掌握政府辖区内每个人的一言一行,这些数据如果为不法分子掌握,有可能对人们造成伤害,由此可见,数据的安全性非常重要。

3 结语

基于大数据的数据中心建设是电子政务未来发展的一个趋势,随着大数据及相关技术的日趋成熟,政府组织会更多地利用信息技术为服务对象提供个性化、贴身的服务,尽管在发展过程中会存在各种各样的问题,但基于大数据的数据中心必将会成为电子政务建设的核心之一,也会给人类社会的进步带来新的助力。

摘要:电子政务的主要内容是政府机构利用信息技术为辖区市民提供优质服务,目前国内电子政务的实施已经具备较为完备的基础,按照业务的数据中心建设逐步进行。在当前大数据技术发展背景下,原有的数据中心能否适应大数据分析业务的要求,成为制约电子政务进一步发展的瓶颈,本文主要探讨下一步更精确化电子政务服务目标的数据中心构建方案。

关键词:大数据,电子政务,数据中心

参考文献

[1]Martin Hilbert,Priscila López.The World's Technological Capacity to Store,Communicate,and Compute Information[J].Science,2011(6025).

[2]Bernhard Warner.“Big Data”Researchers Turn to Google to Beat the Markets[J].Bloomberg Businessweek,2013(9).

上一篇:骶髂关节综合征下一篇:海南国际旅游岛建设