大数据工作实施方案

2024-06-13

大数据工作实施方案(精选8篇)

大数据工作实施方案 篇1

促进大数据发展工作实施方案

为夯实我市大数据发展基础,以政府大数据开放开发为先导,提升政府治理水平为示范,营造适合大数据产业发展的市场环境,抢抓大数据产业发展机遇,形成大数据产业和应用特色优势,根据《国务院关于印发促进大数据发展行动纲要的通知》、《x省人民政府关于印发x省促进大数据发展实施方案的通知》、工信部《大数据产业发展规划》和《xx市大数据应用与产业发展规划》,制定本工作实施方案。

一、指导思想

坚持市委、市政府主导,加强顶层设计和统筹协调,把握国家大力发展新一代信息技术产业、推进中国制造xxxx、促进信息消费、全面推广三网融合等战略带来的新机遇,发挥市场在资源配置中的决定性作用,以体制机制创新为动力,以政府大数据开放开发为先导,推动大数据技术与社会经济各领域应用的深度融合;以企业为主体,突破大数据关键技术研发,着力推进数据汇集和发掘,深化大数据在各行业创新应用,重点锤炼若干优势产业环节,全面提升我市大数据产业发展水平。

二、工作目标

加快大数据部署,深化大数据应用,坚持创新驱动,坚持“资源、技术、应用、产业”四位一体、协同互动的发展模式,推进政府治理精准化、公共服务便捷化和产业发展协同化,释放大数据红利,着力将我市打造成为国家级大数据综合示范应用城市。

(一)创新应用成效明显

建立政府大数据管理应用相关制度和标准,构建大数据汇聚、共享、开放、应用体系。到xxxx年底,完成全市政府数据资源梳理,建成政府信息资源目录体系,建设完善大数据管理和服务平台。到xxxx年底,完成卫生、教育、交通、信用、环保、旅游、气象、公共安全等重点领域数据整合共享及应用示范项目建设,促进政府治理能力和公共服务水平的提升。

(二)技术产业发展领先

推动大数据与云计算、物联网、移动互联网等新一代信息技术融合发展,探索工业大数据技术产业化应用,促进传统工业转型升级和新兴产业发展。到xxxx年底,大数据开发利用在全市各领域中全面展开,多项大数据关键技术在国内领先,形成一批具有自主知识产权的大数据应用产品、系统和解决方案,培育一批特色鲜明的创新型示范企业,构建政产学研用多方联动、协调发展的大数据产业生态体系。

三、主要任务

(一)夯实大数据发展承载基础,构建政务数据共享体系

1.强化信息通信基础设施建设。实施全光网工程,全市建制村通光纤率达到xxx%。积极推进xG网络试验和领先发展,推进下一代互联网络建设,提高数据网络传输能力和覆盖率。加快各类大数据中心的建设,加强“三网融合”技术和业务应用创新。加快基础传输网络和感知网络建设,部署面向智能制造单元、智能工程以及物联网应用的低时延、高可靠的工业互联网。

(牵头单位:市通信管理局,实施单位:各基础通信运营企业,配合单位:各有关部门)

2.提升政务云平台服务水平。采用先进的云计算架构建设政务云计算数据中心,形成统一的应用基础支撑平台、统一的安全保障体系、统一的运行维护及管理平台,促进跨地区、跨部门基础资源的整合和共享。

(牵头单位:市经信局,实施单位:市信息中心,配合单位:各有关部门)

3.强化城市基础大数据库建设。按照大数据技术标准和要求,以市民库、法人库、空间基础数据库为基础,进一步建设信用库、电子证照库、视频库、交通信息库等城市基础大数据库。通过加强互联网.信息采集和利用,加大物联网数据采集设备部署和数据处理,鼓励通过合作、政府购买数据服务的方式,利用电信运营商、银行、企业的数据服务,形成城市基础大数据库群。

(牵头单位:市经信局,实施单位:市信息中心,配合单位:各有关部门)

4.建设政务信息共享协同平台。进一步推进《xx市政务信息资源共享管理暂行办法》实施,整合政府部门公共数据资源,促进互联互通,提高共享能力,提升政府数据的一致性和准确性。到xxxx年底,市级政府各部门实现数据统一共享交换的全覆盖,建成以市为节点的“横向到边,纵向到底”的政务信息共享协同平台。

(牵头单位:市经信局,实施单位:市信息中心,配合单位:市、区、街道、社区等)

5.建设政务数据开放平台。建设全市统一的政务数据开放平台,实施身份统一认证,面向公众提供数据查询、数据下载、应用接口等服务。利用统一开放平台汇聚和发布政务数据,保障数据权威、有序和安全。支持各类社会主体依托开放平台进行开发利用,支持政务数据开放平台与社会各类数据资源开放平台互联互通。

(牵头单位:市大数据办,实施单位:市经信局、市信息中心,配合单位:各有关部门)

6.加强大数据采集和利用。开展政府和社会合作开发利用大数据试点,完善金融、税收、审计、统计、规划、消费、投资、进出口、城乡建设、劳动就业、收入分配、电力、产业运行、质量安全、节能减排等领域国民经济相关数据的采集机制,推进各部门按照统一体系开展数据采集和综合利用,加强对宏观调控决策的支撑。

(牵头单位:市大数据办,实施单位:各有关部门)

7.建立健全政务大数据开放管理机制。制定《xx市政府大数据开放管理暂行办法》,建立政府部门和事业单位等公共机构数据资源开放的目录清单制度,制定数据开放标准和开放计划,明确开放政府数据的原则和要求,并对开放政府数据的对象、形式、边界进行严格定义,建立以共享、开放为原则的数据开放机制,纳入各部门政务绩效考核目标。政府部门信息系统建设应适应大数据发展需要,具备数据采集、汇聚、共享和开放设计基础,实现基础信息集中采集、统一汇聚、多方利用。推动中央国家机关、x省直机关信息系统建立数据共享机制,保证信息资源属地存储和共享应用。

(牵头单位:市大数据办,实施单位:市经信局、市法制局、市效能办)

(二)运用大数据提升政府治理水平

1.提升城市公共安全和执法管理的支撑能力。建立统一的公共安全调度指挥平台,实现执法部门间的数据流通共享。加强社会治理相关领域数据的归集、发掘及关联分析,增强风险管控能力,强化对妥善应对和处理重大突发公共事件的数据支持和应急联动,为综合应急管理提供支撑。

(牵头单位:市公安局,配合单位:各有关部门)

2.建设社会公共信用体系。贯彻落实《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》,建立全市统一的社会信用体系。归集政务、商务、社会和司法等各领域信用数据,完善共享应用平台,在企业监管、质量安全、节能降耗、环境保护、食品安全、安全生产、旅游服务、市场准入、商事广告、消费维权等领域,推动企业信用数据统一公示;在行政管理、执法和公共服务事务中逐步利用信用信息,开展多部门的信用联动奖惩机制;在市民生活中,加强诚信价值观的督导,通过大数据运用,构建公平诚信的`社会环境。在自贸区率先试点大数据对市场主体服务和监管,营造国际一流的营商环境。

(牵头单位:市信用办,实施单位:市发改委、市经信局、自贸区管委会、市信用服务中心,配合单位:各有关部门)

3.实施生态环境全方位监测。集成空气、水、土壤等监测数据,统一规划建设xx市环境监测大数据平台。加强多部门监测数据综合分析,全面、精确、及时掌握监测对象现状、动态变化、发展趋势以及相互影响,综合评价环境生态保护工程的实施效果,为城市规划、资源开发、生态环境保护等工作提供数据支撑。加强部门联防联动,共享监控监测数据资源,汇总分析环境监测、监察执法、污染源在线监控等信息,精准定位污染源头,为及时处置和反馈提供支撑。

(牵头单位:市环保局,实施单位:市海洋渔业局、市市政园林局)

4.构建城市空间建设规划管理协同工作体系。统筹国土、规划、建设、气象、海洋等部门的数据资源,建立城市建设多规平台大数据库,实现城市建设规划“一张图、一个平台、一张表、一套机制”,实现多个部门规划协同。依托市地理信息公共服务平台和市级政务信息共享协同平台,开发各类城市公共应用部件,建立专业业务应用图层,为政府决策、城市规划、地下管网管理、环境监测、卫生防疫、社会经济统计、人口计生、公安指挥、资源管理、交通管理、现代农业、海洋开发以及位置服务等提供开放性的空间应用支撑,进一步优化“多规合一”的发展布局和城市空间的科学治理,带动我市空间应用技术产业发展。

(牵头单位:市规划委,实施单位:市规划委、市国土房产局等)

5.完善社区网格化管理系统。通过大数据、云计算、物联网、移动互联网等新一代信息技术的应用,加快升级完善社区网格化管理系统,进一步优化系统功能,推进信息采集、问题受理、事项流转、处置反馈、考核评价等流程标准化、规范化。探索建设智慧综治平台,根据居民需求和特点,开发特色应用模块,实现人性化服务,推进审批受理服务和政务便民服务进社区。

(牵头单位:市综治办、市社区办,实施单位:市民政局、市经信局、市政务中心管委会、市行政执法局、各区政府、市信息中心)

(三)运用大数据提升公共服务能力

1.提升市级统一行政审批平台服务水平。建设统一的全流程行政审批平台,推进行政审批信息共享应用,提升审批效能建设。推进单一审批和并联审批融合,实现跨部门、跨层级项目审批、核准、备案的“统一受理、同步审查、信息共享、透明公开”。在“五证合一”、“一照一码”改革中,积极运用大数据手段,简化办理程序。

(牵头单位:市政务中心管委会,实施单位:各有关部门)

2.夯实“ixx”一站式惠民服务平台。建立全市公共惠民服务一站导航、一证通行、一次申办、一页查询的体系。整合政府各部门网上办事资源,提高社会服务供给和管理水平,利用大数据技术增强政务、民生服务的主动性、精准性、便捷性,促进社会管理服务模式创新。

(牵头单位:市经信局,实施单位:市信息中心)

3.促进医疗健康服务体系建设。构建电子健康档案、电子病历数据库,建设覆盖公共卫生、医疗服务、医疗保障、药品供应、计划生育和综合管理业务的医疗健康管理和服务大数据应用体系。探索预约挂号、分级诊疗、远程医疗、检查检验结果共享、防治结合、医养结合、健康咨询等服务,优化形成规范、共享、互信的诊疗流程。鼓励和规范有关企事业单位开展医疗健康大数据创新应用研究,构建综合健康服务应用。推进健康医疗大数据中心和产业园国家试点工程建设工作。

(牵头单位:市卫计委,实施单位:市人社局、市市场监督局、各医疗卫生机构等)

4提升社会保障服务能力。建设统一社会保障大数据平台,加强与相关部门的数据对接和信息共享,支撑大数据在劳动用工和社保基金监管、医疗保险对医疗服务行为监控、劳动保障监察、内控稽核以及人力资源社会保障相关政策制定和执行效果跟踪评价等方面的应用。利用大数据创新服务模式,为社会公众提供更为个性化、更具针对性的服务。

(牵头单位:市人社局,配合单位:市卫计委、各区政府)

5.构建新型教育文化服务体系。建设完善市教育云平台,提供统一门户、统一身份认证、统一接口和统一数据中心、“人人通”空间等基础支持服务,实现全市通用教育业务的集中化管理和信息资源的按需分配。推动智慧校园建设,以云计算、普适计算和物联网等新一代信息技术为基础,对校园的基础设施、教学内容、教育活动、教育信息等进行以人为本的数字化改造。探索终身学习管理制度,充分利用市网络和教育云服务中心的基础设施,以远程教育作为推进教育均衡发展和终身学习的手段,创建智慧学习社区。

(牵头单位:市教育局)

6.促进交通旅游服务能力提升。建立综合交通服务大数据平台,共同利用大数据提升协同管理和公共服务能力,积极吸引社会优质资源,利用交通大数据开展出行信息服务、交通诱导等增值服务。建立旅游大数据平台,对旅游产业发展情况分析、研判,科学制定管理决策,为提升旅游服务水平和管理水平,促进旅游消费和旅游产业转型升级提供有力支撑。

(牵头单位:市交通运输局、市旅游局,实施单位:市交通运输局、市公安局、市旅游局、市港口局)

7.构建智慧海洋服务体系。打造“智慧海洋”公众服务平台。以建设统一的xx海洋立体观测平台和海洋大数据平台为基础,主动对接,争取国家“智慧海洋”项目落地xx,发挥xx渔港、军港、商港三港合一的优势,形成覆盖空中、沿岸、海面、海底的立体综合感知网,通过对海洋生态、资源、渔业、海岛等信息的开放共享,全力推动我市创建全国首批智慧海洋示范城市,为公众提供更高质量的海洋景观文化体验、滨海旅游、灾害预警、文化科普、产业技术等服务,进一步实现关心海洋、认识海洋、经略海洋。

(牵头单位:市海洋渔业局,配合单位:市发改委)

8.建设市民卡大数据应用系统。适应移动互联网发展,依托市社保卡为主要载体,建立虚实结合的用卡环境。建设集统一身份认证、融合各种政务服务应用和便民支付为一体的市民卡综合服务平台,整合建立注册信息系统、读发卡系统、数据核检系统、身份认证系统、支付服务系统,应用接入交互系统等,实现虚实多卡融合,为市民的工作和生活提供更便捷的服务。

牵头单位:市经信局,实施单位:市人社局、人行xx中心支行、市信息中心)

(四)运用大数据推动相关产业发展

1.布局“大数据+”。面向经济社会发展需求,加大对大数据龙头企业和研发机构的招商,研发一批大数据公共服务产品,实现不同行业、领域大数据的融合,扩大服务范围、提高服务能力,推进大数据创新服务。积极推动不同行业大数据的汇聚、分析、挖掘和可视化,大力培育互联网金融、数据服务、数据安全、数据影视、数据探矿、数据化学、数据材料、数据制药等新业态,布局“大数据+”的产业新业态。

(牵头单位:市经信局,配合单位:市发改委等)

2.发展工业大数据。推进工业大数据应用,利用大数据推动信息化和工业化深度融合,研究推动大数据在研发设计、生产制造、经营管理、市场营销、售后服务等产业链各环节的应用,研发面向不同行业、不同环节的大数据分析应用平台,选择典型企业、重点行业开展工业企业大数据应用项目试点,积极推动制造业网络化和智能化。

(牵头单位:市经信局,配合单位:市发改委)

3.发展服务业大数据。推进服务业大数据应用,利用大数据支持品牌建立、产品定位、精准营销、认证认可、质量诚信提升和定制服务等,研发面向服务业的大数据解决方案,扩大服务范围,增强服务能力,提升服务质量,鼓励创新商业模式、服务内容和服务形式。推动大数据在贸易便利化、电子商务中的应用,充分利用口岸、海关、电子商务中形成的大数据资源为政府实施市场监管和调控服务,促进电子商务健康发展。

(牵头单位:市经信局,配合单位:市发改委、市商务局、自贸区管委会)

(五)强化大数据应用安全管理

1.加强大数据安全顶层设计。建设大数据应用安全保障体系,明确数据采集、传输、存储、使用、开放等各环节保障网络安全的范围边界、责任主体和具体要求,明确开放政府数据的原则和要求,严格定义开放政府数据的对象、形式、边界等,加强对基础信息网络和关键行业领域重要信息系统的安全保护,保障网络数据安全。建立网络安全信息共享机制,通过大数据分析,对网络安全重大事件进行预警、研判和应对处置。

(牵头单位:市大数据办,实施单位:市经信局、市信息中心)

2.加强大数据安全防护和监管。在大数据应用中推广国产密码算法。完善安全等级保护、风险评估等制度。加强网络空间和关键信息基础设施的信息安全防护,定期组织对大数据平台及服务商的可靠性及安全性测评、应用安全和风险评估,增强技术设施、重大系统、重要信息的安全保障和保密防护能力。推动大数据安全监测和预警通报工作常态化,加强大数据环境下防攻击、防泄露、防窃取的监测预警和应急处置能力建设。

(牵头单位:市大数据办,实施单位:市经信局、市信息中心)

四、保障措施

(一)加强组织领导

市促进大数据发展工作领导小组统筹全市大数据集中管理及开放应用工作,引导社会各行业大数据能力建设和开放共享,指导、督促、检查有关任务和政策措施的落实。

市促进大数据发展工作领导小组办公室(以下简称“市大数据办”)负责日常工作,以政务大数据共享开放为主线,推动建设市大数据公共开放应用服务平台,推进政务信息资源共享平台与大数据公共开放应用服务平台对接,促进相关产业发展。

设立大数据专家咨询委员会,负责审核政府数据开放的技术、法律、安全、知识产权、商业运营等专业性问题,对政务信息资源共享平台、政务数据开放目录、大数据公共开放应用服务平台的技术架构、实现路径和运维模式等提出专业咨询意见。

(二)加大政策支持力度

市信息化专项资金、市软件和信息服务业专项资金、市科技重大专项资金等相关产业资金,向大数据技术研发、公共服务平台建设、大数据应用和产业发展倾斜。引导社会资本共同发起设立市大数据产业投资基金,从不同层次和阶段扶持大数据产业发展,满足不同类别企业及其在不同阶段的发展需求。

(三)统筹规划建设与统一管理

统筹规划全市大数据应用建设发展,并统一管理市本级大数据相关项目建设资金,市本级大数据建设项目需经市经信局立项,有目标、有步骤地推进建设,促进政务数据资源互联互通、共享共用。完善资金管理配套办法和专家评审制度等,提高财政资金使用效率。

(四)加强人才培育引进

加强政府、高校、社会和企业之间合作,构建完备的人才体系。引导在闽高校开展数据科学和大数据专业学历教育,依托社会化教育资源,培育大数据跨界复合型人才和高端技术人才,提高我市大数据产业人员的业务水平。依托“海纳百川”人才政策,培养和引进大数据技术人才,鼓励和支持大数据高端人才来厦创业。切实推进产学研合作,推动科研机构和企业联合建立大数据工程中心、重点实验室和博士后工作站。

五、近期工作重点

(一)成立大数据专家咨询委员会。由行业主管部门、学术界、产业界国内一流专家学者组成,专家委设在市大数据管理中心,负责专家日常管理工作。

(牵头单位:市大数据办,实施单位:市经信局、市信息中心)

(二)制定《xx市政府大数据开放管理暂行办法》。建立政府部门和事业单位等公共机构数据资源目录,制定数据开放标准和开放计划。按照“开放优先、安全例外、分类分级”的原则,梳理第一批数据开放清单,加快开放资源汇聚。

(牵头单位:市大数据办,实施单位:市经信局、市信息中心,配合单位:各相关单位)

(三)建设政府大数据管理和服务平台。加快数据开放进程,培育新兴业态,助力经济转型,促进大数据创新应用和产业发展。

(牵头单位:市经信局,实施单位:市信息中心、各有关企业)

(四)建设医疗健康大数据中心。推动全市健康医疗数据平台的统一建设和数据整合、采集、互通、共享,打破条条框框和行业壁垒。制定完善相关方案和配套政策,全面启动健康医疗大数据中心建设。到xxxx年底,建成xx健康医疗大数据中心并成为全省大数据中心。

(牵头单位:市卫计委,配合单位:各相关部门)

(五)建成交通大数据分析应用平台。整合市交警支队、市公安xxx指挥中心、市交通运输局和信息集团等多个部门和单位的交通数据资源,对交通大数据分析挖掘,提高综合路况融合判态与发布、交通状态预测、交通事件监测及分级处理、车辆稽查布控等应用水平。

(牵头单位:市公安局,配合单位:市信息中心等)

(六)建设统一的城市公共安全管理平台。实现公安、安监、执法、气象、市政、水利、交通等多个部门之间的业务应用互联互通互动,通过综合应用系统,达到数据挖掘、综合研判、辅助决策及指挥调度的功能,加强城市公共安全风险管控及应对突发事件的能力,提升城市公共安全管理水平。

大数据工作实施方案 篇2

以往的业扩供电方案的编制依据主要依靠相关专业人员的专业知识以及工作经验,这样业扩供电方案的好坏便将受限于技术人员的水平,考虑到影响供电方案的因素的多元化,光靠人力分析势必有诸多局限。随着近些年大数据技术的发展,使得通过海量数据挖掘获取其潜在的知识更加容易实现[3]。现通过分析用户信息数据、供电设施信息数据以及城市地形、地貌和城市道路规划要求等信息,综合考虑,选取最佳的供电方案,在满足客户安全可靠的供电情况下,尽量控制供电的成本,达到节约电力资源的目的。

1 供电方案编制考虑因数

1.1 用电客户信息因数

供电方案编制的好坏最终是取决于用户对使用情况体验的反馈,因此在制定供电方案的时候要充分考虑用户信息数据,根据用户信息制定合理适用的供电方案,主要考虑的用户信息有:用电容量、用电性质、用电时间、用电负荷重要程度等因素[4]。这些因数直接决定了供电电源和电压等级的选取。根据《国家电网公司业扩供电方案编制导则》,特级重要电力客户应具备三路及以上电源供电条件,其中的两路电源应来自两个不同的变电站,当任何两路电源发生故障时,第三路电源能保证独立正常供电。一级重要电力客户应采用双电源供电,二级重要电力客户应采用双电源或双回路供电。临时性重要电力客户按照用电负荷重要性,在条件允许情况下,可以通过临时架线等方式满足双电源或多电源供电要求。对普通电力客户可采用单电源供电。

1.2 电力设备信息因数

电力设备的位置情况及状态信息直接影响到供电方案的编制,通过调用国网GIS和PMS的电力设备信息数据,可以直观的在地图上展现出电力设备的位置及状态信息。主要考虑的电力设备信息有:开关柜、地下管网、电源点等。在进行新的供电方案编制时,充分利用原有开关柜和地下管网,可以大大节约供电成本。

1.3 城市地理信息因数

城市地形、地貌和城市道路规划要求等信息对供电方案的优化具有重要的作用,以往的方案编制对这方面的考虑较少,从而导致方案实施后才发现方案制定忽略了一些重要信息。例如,低洼处在雨季容易积水,若事先未考虑此因数对电缆的敷设做高密度防水措施,则会影响到电缆的使用寿命,严重的将会影响用电安全,事后补救便将提高供电成本以及造成人力、财力的浪费。

2 大数据平台分析决策

要综合考虑影响供电方案编制的诸多因数,通过传统的分析决策方式难以实现,大数据技术的出现正好弥补了这一缺陷。依靠大数据技术,建立算法分析模型,便可通过对海量历史数据的分析,挖掘其潜在的经验知识,也可对海量的现实数据分析,探究其存在的共性特征。结合历史经验和现存的共性特征将有助于实现最佳供电方案的编制。。

2.1 建立大数据分析库

通过Hadoop平台实现海量分布式数据库的搭建,将供电方案编制需考虑到的用电客户信息、电力设备信息、城市地理信息等数据通过HDFS存储到分布式数据库中,在数据计算时,通过MapReduce实现海量数据的分布式计算。

2.2 算法分析模型搭建

使用聚类分析算法实现对海量历史用户信息数据的分析,从而获取用户对供电可靠性的需求,结合用户新报装申请的数据,综合分析其合理性,制定既能保证用户实际需求又能充分节约资源的方案。

通过对最新的电力设备信息数据的分析,在供电方案制定的过程中,充分考虑现有资源的可利用情况,例如附近存在开关柜和地下管网可用的情况下,利用这些现有资源便可以大大节约供电成本。

通过对城市地理信息与供电方案制定的关联分析,分析地势、道路等因数对供电方案编制影响的程度,从而在供电方案编制的过程中,依据因数的支持度(支持度是对关联规则重要性的衡量)[5],作为其在优化供电方案时所占的比重。

3 结语

大数据技术的出现,弥补了一般分析无法解决的并发问题,同时使得对海量数据的分析更加的便捷,通过建立大数据分析平台,综合考虑影响供电方案编制的各方面因数,通过数据分析结合历史经验和现存共性,寻找出最佳的供电方案,在满足用电客户的需求同时,实现了资源的整合节约和供电规划的可持续发展。

参考文献

[1]王中华.资阳电力公司业扩报装系统的研究[D].重庆市:重庆大学,2007:1-7.

[2]胡开君.电力营销中存在的问题及对策[J].科学与财富,2014(12):431-431.

[3]余方兴.浅谈计算机数据挖掘[J].计算机光盘软件与应用,2013(14):298-300.

[4]秦光洁.关于高压客户供电方案编制的探研[J].大科技,2014(6):52-53.

国家大数据战略 如何实施 篇3

3月5日,正在北京举行的十二届全国人大四次会议审查的“十三五”规划纲要草案引发热议,该草案提到拓展网络经济空间,涉及构建泛在高效的信息网络、发展现代互联网产业、实施国家大数据战略、强化信息安全保障四大要点。大数据首次被纳入国家战略的高度,2016年,可称为发展大数据元年,国家大数据战略具体该如何实施?且看两会代表委员们谈大数据。

大数据落地 立法当先

我国对大数据发展高度重视。2015年8月,《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号),明确了发展大数据的指导思想、发展目标和发展任务,为未来我国大数据发展与应用指明了方向。2015年10月出台的《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》,提出要“实施国家大数据战略,推进数据资源开放共享”。在国家战略的引领下,20多个省市已经发布了促进大数据发展的政策文件,一些动作快的省份更是闻风而动,先手布局,现全国已规划或建设成255个数据中心,投入使用的有173个。

面对大数据涌动的热潮和对未来应用的期待,有识之士认为,要发展必须有序,要有序就要立法,落实大数据国家战略,立法应一马当先。

今年的全国两会期间,大数据立法成为代表、委员们热议的话题,全国人大代表、上海市经济和信息化委员会副主任邵志清接受媒体记者采访时表示,应制定大数据法,明确数据各类主体的责任义务,规范数据采集、流通与使用,保护数据产权、安全和隐私,维护市场效率与公平。

尽管目前大数据发展已经呈现良好的发展趋势,但邵志清认为还存在一些问题和不足,如数据资源要素使用不足,数据开放程度不够;大数据深度应用少;产业集聚度不高、创业氛围不够活跃。此外,产业政策、知识产权、技术标准等方面还存在不少差距。

因此,邵志清建言要加快政府数据共享开放,促进市场数据交易流通,统筹大数据资源;服务治理能力提升、民生改善和经济转型,促进大数据应用;实现自主知识产权的关键技术和产品突破;建设大数据功能型设施,加强数据采集和储备;加强数据安全防护,提高安全保障能力;完善政策措施,健全标准体系,营造发展环境。

无独有偶,全国人大代表、天津市工业和信息化委员会主任李朝兴在今年全国两会上也提出了“抢占国家竞争制高点制定大数据发展促进条例”的建议。他认为,大数据已成为国家基础性战略资源,是未来核心竞争力,当前尽快启动数据立法,对推动大数据发展意义重大。

国际上,发达国家已将大数据上升到国家基础性战略资源,纷纷围绕大数据立法,如,欧盟通过新版《数据保护法》,强调本地存储和禁止跨国分享,成为首部从真正意义上保护5亿欧盟公民数据资料及隐私权的重要法律;德国在2009年对《联邦数据保护法》进行修改,防止因个人信息泄露导致的侵犯隐私行为;俄罗斯从2015年起实行新法,禁止互联网企业将公民数据存储在国外服务器上;新加坡出台了《个人资料保护法》,加大对国内数据和源于境外的个人资料的滥用行为的防范力度。

经各国的发展实践启示,我国大数据法治建设已迫在眉睫,需要尽快提上议程。李朝兴建议,由于大数据发展领域新、涉及面广、专业性强,目前立法时机还较不成熟。可按照“急用先立,成熟先立”的原则,由国务院出台大数据发展促进条例,之后在实践中修改完善,待条件成熟后再上升为国家法律。

大数据应用 公众民生安全先行

研究资料显示,2011至2015年全球大数据产业年均复合增长率达到30%,其中中国市场增速高达50%。预计2016至2020年,中国大数据产业仍将保持30%以上的年均复合增长率,是同期IT市场年均复合增长率的两倍(12%)。

一边是纷杂万象的数据信息,一边是蓬勃发展的全新的大数据产业,如何发展大数据产业,今年两会上,代表委员们的话题集中在公众数据、民生、安全和安防等行业,由此可见,涉及公众、民生、安全和安防的大数据行业可优先发展。

李朝兴表示,发展大数据,首先要推动公共数据开放共享。建立开放标准,优先开放高价值数据,逐步开放其他数据,界定不予开放的范围,从数据开放源头上划出底线。其次是促进行业数据规范交易。立足资产属性,构建数据资源交易机制和定价机制,从平台、主体、对象等方面规范数据采集、传输、存储、使用、开放、交易的行为,发展在线、离线、托管等交易模式,推动数据交易走向规范。三是保障商业和个人数据安全。制定专项条款,保护涉及国家秘密、个人信息和商业秘密的数据资源。健全数据安全等级保护、风险测评、应急防范等安全制度,明确危害数据安全行为的法律责任以及处罚方式。

面对大数据在行业中的落地应用,紧随时代而来的银发族的需求被提上议程,两会期间,全国政协委员、中国电子学会副理事长兼秘书长徐晓兰提出,应当充分利用大数据等技术促进居家养老服务。目前中国的三种养老方式:机构养老、居家养老和社区养老方式,其占比分别为3%、96%和1%,传统观念下的养儿防老式的居家养老仍占主流。虽然现有的居家养老服务机构涵盖了护理、家政、救助、维修、配餐、心理关爱等领域,但问题不少,如分布较为零散,质量参差不齐,同时这些服务机构相互之间的合作交流较少,各自为政,造成了一定程度的资源浪费。

徐晓兰认为养老服务的公共数据共享困难是另一大难题,信息化程度低,缺乏合作交流平台。因此她建议,首先要建立国家老龄信息数据中心,开放养老服务方面的公共数据;其次是建立居家养老服务相关的标准及规范,吸引社会力量和民间机构积极参与、共享共治,形成集技术、服务、监管于一体的综合信息管理体系。

还有,借助大数发展安防产业、构建开放共享的综合交通数据平台等涉及民生也成为代表、委员们的讨论话题,并纷纷提出发展建议建言。

大数据工作实施方案 篇4

2015-04-09 11:53:32 来源:CPS中安网 作者:邓长春 责任编辑: sillyna 收藏本文

摘要:在安防领域,大数据具有广阔的应用场景,带来深度的价值。经过初步摸索,安防大数据也面临一些技术难点。对于这些问题,我们分析安防行业特有的场景特点,探讨一些贴切的解决方案,使得大数据技术更好地为安防业服务。

【CPS中安网 cps.com.cn】伴随着大数据技术在IT领域的持续发展与成熟,大数据逐步渗透到各行各业。在安防领域,大数据具有广阔的应用场景,带来深度的价值。经过初步摸索,安防大数据也面临一些技术难点。对于这些问题,我们分析安防行业特有的场景特点,探讨一些贴切的解决方案,使得大数据技术更好地为安防业服务。

大数据当前在各行业的应用

大数据技术发端于IT领域,当前在互联网、电子商务中应用得最为成熟。Google公司根据用户海量的搜索日志,成功预测病情在北美的蔓延情况;通过分析处理大量的语料库,为用户提供精准的在线翻译。亚马逊根据用户过往的购买行为,分析出特定用户群的购买“口味”,从而在自己的网站中提供精准的广告推荐。而国内的淘宝网,通过分析网民浏览商品的日志,给买家提供到特定商品的关联匹配。

在其他行业,大数据的使用也屡见不鲜:

在卫生行业,基于全民的电子档案与电子病历库正在构建。通过全民电子病历库,我们能分析全民的健康状况,监控相关疾病的蔓延走势,为做好卫生防范措施提供参考。

在电力行业,通过分析大区域的用电记录,能够优化电力企业管理模式,提升企业经营水平,为基建决策提供有力参考,提高智能控制水平,加强电力的协同管理。同样对于整个国家,通过分析用电情况,在宏观掌握国家的经济状况,为制定经济政策提供参考。

在物流行业,通过分析大量以往的配送记录,在宏观上掌握大类物品的流向,提前把物品运送到特定区域,提高送货效率。在国外,一家大型的超市,通过分析交通与商品大体流向,能在精确的时间范围内,把特定类商品送到特定的门店,减少库存时间,提高周转率,创造企业利润。

同样,在安防领域,大数据也得到广泛使用。大数据助力安防行业

经过一段时间的摸索,大数据助力安防行业的发展取得相当的成效,部分企业如海康威视等已经有了较多的成熟项目案例。

在智慧交通方面,海康威视借助大数据技术,交通管理系统能够在恶劣的网络环境,对城区交通要道进行拍摄与录制,同时把图片与视频数据输往后端的大数据处理平台。通过后端大数据处理,识别繁忙的路段,提前做好交通分流措施。借助车牌识别技术,综合各卡口的过车记录,能够分析特定车辆的运行轨迹。同样,通过对大量行车违法记录的模式识别,能在特定路段对具有违规倾向的车辆进行报警,比如在高架桥,高速公路上。通过对城市周边主要卡口大量的行车记录分析,能识别出异常的进出城的记录,做好防范措施。

在公安执法方面,海康威视通过人脸识别技术,提高对犯罪嫌疑人追查的效率。通过对大量异常行为的模式特征提取,能提前判别违法行为,比如在火车站,通过对扒手外观打扮,行为举止,作案时的动作特征分析,能够提前把嫌疑信息告知车站治安人员,提高执法的效率。

在平安城市、智能家居,方方面面,安防大数据也引领很多新奇的应用。

安防大数据当前面临的技术难点

然而,伴随着大数据在安防领域越来越深入的应用,也突现出一些技术难点。在IT领域,大数据技术发展较为成熟,针对不同的应用场景有较为丰富的技术选型以及技术路线,其中很多技术可以移植应用到安防领域中。但IT与安防毕竟是两个不同的领域,两者之间存在很多不一样的地方。最大的不同,就是数据本身的不同,主要体现在一下方面:

数据类型不同。在IT领域,大数据处理的对象往往是网页索引、用户行为、日志记录等字符型数据,这些是结构化、方便计算识别处理的数据。而在安防领域,数据往往以图片、音频、视频等非结构化的数据,往往计算机不能直接识别,这些数据只有在人面前才显得有意义。

数据量在数量级上的不同。在互联网领域,单条日志记录一般在一百字节之内,到了1PB的日志记录,已经是一个足够大的量。但在安防领域,一张普通的缩略图就几百KB,如果考虑高清摄像,高清视频,这个数量要更大。一个普通的中等城市,在主要交通卡口拍摄的图片,一年下来就能积压几个PB的数据,如果考虑视频,这个数据量更大。

对数据的实时性要求不同。在互联网行业,以日志型数据分析为主的典型应用中,对实时性要求没那么高,比如淘宝的推荐系统,是否分析最近一个小时用户的浏览记录对于推荐效果关系不大。而在安防领域,前端摄像头录制的都是实时流,这是一个不间断的数据流,最近录制的数据超过一定时间没有得到有效保存,将会永远被丢失。

针对安防领域与IT领域在数据本身上的异同,把适合IT领域常规的大数据技术搬到安防领域就会碰到一些技术难点,表现如下:

存储成本问题。在IT领域,海量的数据往往保存在分布式存储系统中,为了提高数据的可靠性,一份数据往往复制成几份相同的副本,分别保存在不同的节点中,当其中一些副本丢失时,可以从其他节点读出数据。比如在Hadoop中,一份数据往往在集群中保存了相同的3份。如果有1PB的原始数据,则至少要占用3PB的磁盘空间。而在安防领域,几个交通卡口的视频,在一个较短的时间内,如果不覆盖之前的数据,就能轻易积压几个PB。由于图像、音频、视频数据本身的量太大,生搬传统的多副本策略成本过高,我们需要设计出一些更高效同时不损失可用性的方案。

小文件存储问题。这个问题是大数据技术面临的一个共性问题,但在安防领域可能又突现得较为严重。在互联网,小文本、图片、音乐都是小文件,当层积较多时,都面临如何存取这些海量小文件的问题。而在安防行业,小文件主要以图片为主,比如一个城市的主要交通卡口在一年内,就能产生百亿张图片。对于这些海量的小文件的存储,涉及到大量元数据的管理,保证存取的性能是问题的关键。

当然,问题并不可怕,通过分析研究安防应用场景,我们摸索出一些贴合安防大数据的解决方案。

解决问题的方向

引入擦除码(ErasureCode)技术,节省存储空间。擦除码是一个在通信理论中的术语,其基本思想就是:一条原始信息由K个符号构成,在信息发送前,通过某种具有冗余功能的数学映射,生成由(K+M)个符号组成的编码后的信息,然后把编码后的信息通过信道发送给接受方,由于信道的不可靠特性,在信息传输的过程中可能会丢失几个符号,接受方在接受到信息后,只要丢失的符号不超过M个,则接受方在剩余的符号中通过逆向的数学变换,能还原出由K个符号组成的原始信息。

图-1:信息在信道中的传输过程

如上图所示:原始信息由[A、B、C]三个符号组成,现在通过编码函数f对其进行编码,生成编码后的信息为[a、b、c、d、e],编码后的信息在信道上进行传输,在传输的过程中由于某种原因符号a与b丢失了,接受方只接受到了三个符号[c、d、e],接受方通过解码函数-f(实际上就是编码函数的逆函数)进行解码,能够计算出原始的信息[A、B、C]。由上可看出,信道虽然不可靠,但在信道上丢失的两个符号并不影响我们整个信息的传输,我们唯一要做的工作就是在发送信息前与接收信息后做一定的编码与解码工作。

受上面思想的启迪,在分布式存储系统中,一个大文件分成若干块,这些不同的块分发到不同的节点中,现在假设一个文件由K个数据块组成,我们通过编码后变成(K+M)个编码块,再把这(K+M)个编码块分发到不同的节点中。现在由于集群中几个节点失败,丢失了几个块,只要丢失的块数不超过M,我们依然能从其他节点中读入K个编码块,通过解码运算,得出我们之前的K个数据块,也就还原出那个完整的文件。而在分布式系统中,超过M个数据节点同时失效的可能性很小,由此可以看出,虽然存在节点失败的情况,但依然不影响我们数据存储的可靠性。这里引入额外的存储空间为(M/K)倍,而传统的N副本策略,引入的额外存储空间为(N-1)倍,通过调节M与K的关系,我们能把存储空间降到1.3倍,这与传统Hadoop占用存储空3倍相比,具有巨大的节省价值。

在工程实践中,我们通过数据分条带,优化编码分组策略,进行高效快速的编解码计算,既保证数据存取的性能,又节省了大量的磁盘空间。如图-2,数据横向分条带,同一个条带内,左边为原始数据(K=4),右边为编码后的数据(M=2),存储时,把同一个条带内的所有数据分发到分布式系统上的不同节点。当处于同一个条带内的数据丢失块数不超过2时,依然能从剩下的数据块中通过解码计算出原始的数据。

图-2:数据分条带,进行编码存储

建立索引,小文件合并成大文件集中存储。对于大量的数据,单机无法存储,借助分布式存储技术,将数据分散存储到不同的节点上。但主流的HDFS分布式存储系统适合存储少量的大文件,就是文件个数较少,但单个文件的很大。如果大量的小文件朴素的存放在HDFS中,由于要管理的元数据巨大,严重印象集群的可扩展性,以及文件本身的存储性能。解决问题的思路是,把大量的小文件合成一个大文件,同时对这些小文件建立索引,索引信息集中管理。当要读取文件时,先查找索引信息,根据查找出的索引信息再定位到那个大文件具体位置,读出小文件。

图-3小文件合成大文件,并且建立索引

如图-3,上面为把若干小文件合成一个大的文件,下面为针对这些小文件建立的索引,所有的索引又合成一个索引文件。在工程实践中,我们又对索引文件的结构进行了优化,引入了哈希索引结构,由于哈希定位过程相当过,所以提升了小文件的读取性能。同时,由于索引文件很小,我们除把索引文件持久化到底层文件系统,还同时把索引信息读入内存,这样极大提升了文件存取效率。

结语

随着大数据技术的逐步发展与深入应用,它会给我们带来越来越多的潜在价值。当安防行业进入就计算化时代后,各种前端设备采集大量的图片、音频、视频,这个数据在一个较小的区域一个较短的时间内,就能积攒海量的数据,要掌握并且成功挖掘出这些数据的价值,更好的为安防服务,急需我们掌握大数据技术。目前,安防行业仅有海康威视等极个别企业掌握了该项技术。

大数据分析政府工作报告 篇5

有权不可任性 【出处】

在今年的政府工作报告中,国家总理李克强在谈及简政放权时强调:“大道至简,有权不可任性。”

大数据分析:

2014年,政府交出了一张漂亮的简政放权成绩单:10多次国务院常务会议进行专题研究,2次电话会议全国动员,246项行政审批事项被取消和下放、149项职业认证被取消。获得感 【出处】

两会前夕,习近平再次强调,要把改革方案的含金量充分展示出来,让人民群众有更多获得感。政府工作报告提出基本实现高速公路电子不停车收费联网、综合治理农药兽药残留问题、大幅提升宽带网络速率等细节,力图让群众获得实实在在的获得感。健康中国 【出处】

“健康是群众的基本需求,我们要不断提高医疗卫生水平,打造健康中国。”李克强总理在作政府工作报告时,这句承诺得到了热烈的掌声。大数据分析:

“健康中国”最核心的是加快健全基本医疗卫生制度,让民众看得上病、看得起病、看得好病。《报告》提出要全面推开县级公立医院综合改革,在100个地级以上城市进行公立医院改革试点,破除以药补医,降低虚高药价,合理调整医疗服务价格,通过医保支付等方式减轻群众负担。互联网+ 【出处】

李克强总理提出“互联网+”行动计划,可以预见这将成为新兴产业和新兴业态的竞争高地。大数据分析:

互联网+新媒体=网络媒体 互联网+娱乐=网络游戏 互联网+零售=电子商务 互联网+金融=互联网金融 目前,“互联网+金融”已走入正轨,“互联网+交通”各方仍在博弈磨合。今年春节的全民“抢红包”就是互联网金融移动支付暗战传统金融的典型案例。仅除夕当天,微信红包的收发总量就达10.1亿个,1541万微博网友分享了由央视春晚及39位明星与商家送出的1.01亿个红包。书香社会 【出处】

书香社会今年第一次出现在《政府工作报告》中,李克强指出,要提供更多优秀文艺作品,倡导全民阅读,建设书香社会。大数据分析:

一个民族的文化自信离不开崇尚阅读、尊重文化的氛围,让阅读成为一座城市高贵的坚持。3月2日,国家新闻出版广电总局发布通知,将加快全民阅读立法进程,其中,“深圳读书月”作为“书香中国”的活动品牌,截至2014年已坚守了15年,15年参与总人次达1.06亿。创客 【出处】

今年“创客”一词第一次被写入《政府工作报告》。《报告》指出,互联网金融异军突起,电子商务、物流快递等新业态快速成长。李克强鼓励众多“创客”脱颖而出,文化创意产业蓬勃发展。大数据分析:

“创客”一词来源于英文单词"Maker”,指把各种创意转变为现实的人。创客与众创、众包、众筹紧密结合,正在发挥经济新引擎的作用。

李克强总理今年1月初参观了深圳的柴火创客空间。《报告》中提到,2015年高校毕业生将达749万人,为历史最高。因此今年《报告》特别鼓励大学生大众创业、万众创新,有创新式解决就业问题的考量。中国已形成以北京、上海、深圳为三大中心的创客生态圈。深港通 【出处】

2015年政府工作报告首次提到深港通,并表示2015年将适时启动深港通的试点工作。大数据分析:

有评论认为,深港通核心不在于“通”,而在于“融”,不仅是深圳、香港两地股市的互联互通,更是金融、会计、法律等众多高端产业全面融合。“通”是领导一句话,“融”得市场十年功。南上资金依然会显得火热,北下资金则要看政策的安排。领跑者 追赶者 准备者

沈阳、株洲、伊犁、江阳 智慧城市6大关键词

城镇化、工业化、信息化、低碳、绿色、可持续。

北京、上海、广州、深圳、天津、武汉、宁波、南京、佛山、扬州、浦东新区 重庆、无锡、大连、福州、杭州、青岛、昆明、成都、嘉定、莆田、江门、东莞 智慧城市 【出处】

李克强在政府工作报告中提出,发展智慧城市,保护和传承历史、地域文化。大数据分析:

物联网、电子支付、云计算、4G网络„„2015年“两会”上,构建智慧城市成为代表委员关注的热点。事实上,“智慧城市”已成为全国新型城镇化的一种战略选择。据《中国智慧城市发展水平评估报告》,当前国内“智慧城市”发展水平可大致分为3种类型。为官不为 【出处】

政府工作报告指出:“目前少数政府机关工作人员乱作为,一些腐败问题触目惊心,有的为官不为,在其位不谋其政,该办的事不办。”这是政府工作报告中首次纳入治理庸官懒政内容。

大数据分析:

“为官不为”20年来首次写入政府工作报告,与反腐高压下少数官员群体“懒政”有关系。《报告》提出,要完善政绩考核评价机制,分3类对待:对实绩突出的,要大力褒奖;对工作不力的,要约谈诫勉;对为官不为、懒政怠政的,要公开曝光、坚决追究责任。7% 【出处】

政府工作报告中表示,2015年GDP增长目标在7%左右,居民消费价格涨幅3%左右,城镇新增就业1000万人以上。GDP“7%左右”不再是硬指标。大数据分析:

过去十年《政府工作报告》中GDP增长目标从8%缓慢降至2015年的7%,体现了自2013年以来中央强调的不简单以GDP论英雄。据报道,全国已有29个省主动降低了GDP的增长目标,上海甚至取消了GDP的增长目标。

回望

2014年政府工作报告 已改变生活的“新词” ● 互联网金融

“互联网金融”或许是最快被写入政府工作报告的经济新词汇之一。虽然在2014年的政府工作报告中只有一句“促进互联网金融健康发展”,但其火爆态势“一发而不可收拾”。最盛行领域:

1、打车服务;

2、网上购物;

3、网上银行;

4、互联网理财。

优点:起步门槛低;手续简单,无时间地域限制;收益高。风险:法律法规不健全;能否达到承诺的收益;监管和立法。● 舌尖上的安全

2014年“两会”政府工作报告提出了“一个严守、三个最严”,坚决治理餐桌上的污染,切实保障“舌尖上的安全”。

亿赞普(IZP)大数据显示,2013年人们对食品安全的平均关注指数是40,2014年这一数据降为34,远低于2014年人们对汽车(98)、住房(85)、教育(80)、养老(73)和空气污染(61)问题的关注度。

2014年,排在食品安全搜索首位的始终是“食品安全法”。过去人们关心的是地沟油、三聚氰胺、地沟油等重大食品安全事件本身,现在则把目标从治标转向治本——监管和立法。● 企业黑名单

哪些企业会上黑名单?2014年“两会”政府工作报告中给出了答案:违背市场竞争规则,侵害消费者权益的企业。

最常出诚信问题黑名单的行业:

1、食品行业;

2、餐饮行业;

3、药品行业。

大数据架构师工作的岗位职责 篇6

1、负责spark, hadoop, flink等开发和优化。

2、参与前期需求沟通和分析,以产品化开发的思维,完成需求分解和数据架构设计。

3、与研发和数据科学家合作保证产品定义清晰,按时完成产品上线。

4、能够洞察市场状况,与各部门合作转化为基于大数据挖掘的新策略或方案.

5、主动创造和发掘新的基于大数据挖掘产品商业模式.

任职要求:

1、全日制本科及以上学历,计算机软件相关专业,5年以上开发经验,3年以上架构经验

2、精通hadoop/MapReduce/Spark/Hbase/Flink/Hive/R/Mahout等分布式数据存储和分布式计算平台原理,流式计算开发,有开源二次开发经验者优先。

3、精通大数据挖掘、机器学习.熟练掌握Java/Perl/Python至少一种编程语言。

4、具有数据挖掘和分析、机器学习等项目实施相关经验者优先;

5、良好的跨部门沟通合作能力,解决不同观点能力并取得结果。具备敏锐的互联网产品理解力,学习能力和逻辑思维能力强;

大数据虚拟化系统的实施与管理 篇7

虚拟化就是将原来运行在真实环境上的计算机系统运行在虚拟的环境中。通过虚拟化可以用与访问抽象前资源一致的方法访问抽象后的资源。这种资源的抽象方法并不受实现、地理位置或底层资源的物理配置的限制。近年来随着技术的发展, 目前虚拟化技术已经深入到各行各业, 逐步被企业所接受, 成为大数据处理的关键技术之一, 这种技术能够将设计的程序应用到不同的层次, 以不同的形式展示给用户, 使用者、设计人员、维护人员都能够根据自己的需要使用这个系统, 管理系统的程序。虚拟化包括了软件虚拟化和硬件虚拟化。

2.1 硬件虚拟化

软件虚拟化包括应用层虚拟化、业务逻辑层虚拟化、数据层虚拟化。

2.1.1 应用层虚拟化

在用户使用应用软件的时候, 不用挂载操作系统, 直接将软件压缩放在可执行文件夹中运行, 不需要使用驱动设备或者文件系统与用户对接, 能够减少应用程序带来的风险。

2.1.2 业务逻辑层虚拟化

在用户发送数据请求后, 虚拟化系统根据请求的内容给出执行的方案和流程, 然后在确定了数据访问方式之后对整个流程进行优化, 提高数据处理的效果。

2.1.3 数据层虚拟化

数据层需要进行数据视图或者虚拟表的定义, 并对访问的用户进行认证和授权, 在得到数据访问的请求后, 将虚拟化后的数据发送给用户。

2.2 软件虚拟化

硬件虚拟化包括存储虚拟化、网络虚拟化、服务器虚拟化。

(1) 存储虚拟化是针对服务器文件的操作进行虚拟化的技术, 通过对文件进行复制和快速扫描的方式能够提高数据文件的处理效率;

(2) 网络虚拟化。对于局域网内的公司用户, 可以将网络进行划分, 利用虚拟局域网和专用网络的方式减少区域的用户数量, 提高网络访问效率;

(3) 服务器虚拟化。将服务器的物理资源进行转化, 转化成为多台逻辑资源, 这样系统的运行就不再局限于服务器的硬件设施, 可以提高系统资源的利用率, 简化目前的管理系统。

3 大数据的虚拟化系统应用研究

目前的数据中心是虚拟化使用较多的地方, 由于经常大规模处理数据, 所以对于数据中心而言必须搭建虚拟化的应用系统。应用系统实施以后需要进行管理工作, 才能保证虚拟化系统中运行的大数据处于正常状态。

3.1 大数据的虚拟化系统实施

企业可以按照大数据的虚拟化结构搭建网络图, 搭建完成以后需要安装虚拟群集管理软件VMware, 该软件属于虚拟化常用的软件, 能够帮助系统进行虚拟化的设置, 设置完成以后可以使得服务器具有虚拟化的高级功能, 通过进一步安装虚拟化软件VMware ES-XI, 同时对网络和设备进行配置, 然后设置数据中心, 将数据服务器连接到数据中心, 对所有的虚拟服务器进行统一的管理。在管理的过程中可以将部分占用资源小且独立使用一台服务器的应用进行迁移, 迁移到一个服务器中, 并给予单独的存储环境。

3.2 大数据的虚拟化系统管理与分析

在企业实施了大数据的虚拟化环境搭建后, 需要对系统进行管理, 管理主要包括以下几个方面:

3.2.1 系统的转移

在实际运行过程中会占用多台服务器, 一台服务器出现故障以后, 在该设备运行的虚拟服务器就迅速将数据转移到其他的服务器中, 避免了数据的丢失。

3.2.2 数据的转换

虚拟机由于经常处理大规模的数据, 负荷较大, 需要随时对数据进行转换, 转换的目的是提高服务器的工作效率, 可以将物理服务器转换为虚拟服务器, 也可以将虚拟服务器转换为虚拟服务器, 由于虚拟机工作的连续性, 即使在转换的过程中, 虚拟机也可以正常运行和工作。

3.2.3 系统的调试

针对大数据的虚拟化系统需要定期的完善和升级, 因此可以采用快照技术, 当虚拟化系统在处理数据的时候, 对这个状态进行快照处理, 将这个状态的数据保存下来, 在升级和维护以后重新将状态维护。

3.2.4 大数据的保存

大数据的数据量非常大, 可以利用虚拟化系统建立一个系统还原点, 在系统出现故障导致不能运行的时候, 将系统恢复到还原点, 此时运行的状态和数据都能够得到恢复。

4 大数据的虚拟化特点

4.1 大数据的虚拟化优点

大数据的虚拟化实施以后, 对于企业来说具有许多优点:

(1) 通过虚拟化可以提升服务器的利用效率, 整理服务器的资源, 使得系统能够达到最高的效率。

(2) 对于企业使用的中小型服务器来说, 利用虚拟化的技术可以节约资源、更加经济, 扩展也有更大的优势。

(3) 数据虚拟化在大数据的环境下承担着重要的基础工作, 没有虚拟化的技术, 云计算的弹性和多用户使用就很难落实。

(4) 大数据混合使用共享存储和本地存储, 进而提高运行的性能, 而虚拟化能够满足用户的需求, 并且可以根据用户的需要进行扩展。

(5) 大数据环境下的虚拟化非常有利于整合其它的数据应用, 将这些应用统一在一个虚拟化的平台上, 可以降低IT架构的复杂程度和运行维护的成本。

4.2 大数据的虚拟化存在问题

虽然虚拟化在大数据中可以很好地应用, 而且无论从性能或者功能方面来说都有很大的优势, 但是在企业选择虚拟化的应用之前, 也需要关注以下问题:

(1) 传统的服务器、存储器、网络构成了系统运行的核心, 虽然效率不高, 但是比较稳定。在大数据的环境下, 采用虚拟化的整合后, 数据运算量非常大, 一旦服务器出现故障, 那么大批虚拟机应用都不能正常使用;

(2) 性能受到影响。由于应用安装在虚拟机上, 一旦高负载的应用大面积使用, 对于虚拟平台来说是一种挑战;

(3) 安全性问题。用户的所有数据都存储在虚拟化平台上, 一旦平台的安全性得不到保障, 容易出现数据泄露的问题。

5 总结

在大数据的时代, 随着技术的发展, 尤其是服务器及信息化的发展, 各行各业对于数据处理和集成化的要求也越来越高, 数据处理已经成为制约技术发展的一个瓶颈。利用虚拟化的技术可以提高数据处理的效率, 简化服务器群管理的复杂性, 对于信息技术发展来说具有战略意义, 同时能够降低维护成本以及提高信息安全的水平, 在未来虚拟化技术的前景中具有更加广泛的应用。

参考文献

[1]沈来信, 王伟.基于Tree-lib的大数据实时分析研究[J].计算机科学, 2013 (06) :23-25.

[2]米沃奇.云计算数据中心综合布线的七大发展趋势[J].电脑知识与技术 (经验技巧) , 2016 (06) :45-49.

[3]王元卓, 靳小龙, 程学旗.网络大数据:现状与展望[J].计算机学报, 2013 (06) :50-54.

[4]刘智慧, 张泉灵.大数据技术研究综述[J].浙江大学学报 (工学版) , 2014 (06) :38-42.

大数据工作实施方案 篇8

关键词:档案馆大数据档案资源云

目前,大数据已经成为档案界研究的热点。笔者在CNKI上以“大数据”为主题进行检索,发现在档案学领域相关研究主要集中在大数据时代档案馆生存与发展的相关策略;档案管理中运用大数据技术的策略;数据挖掘与档案利用服务等方面。这些研究大多以介绍大数据为主,其提出的策略也较为宏观。鉴于此,本文拟从大数据架构、实施路径等方面进行分析,并以郑州市档案馆为例,对大数据如何在档案工作中进行试点展开研究。

一、档案馆实施大数据战略实践的框架构建

所谓大数据,就是一种规模大到在获取、存储、管理、分析方面超出传统数据库软件工具能力范围的数据集合,它具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。从上述定义中可以看到,庞大的数据量以及多样的数据类型,需要海量的结构化数据与非结构化数据。同时,它还要求传输这些海量数据的网络具有较高的性能与速度,并且能够在对海量数据进行分析处理的基础上提取有效信息,而这主要通过云计算、分布式架构来实现。其中,大数据处理流程如图1所示。

具体而言,第一步是构建云计算平台,由于数据源具有TB甚至PB级以上的数据容量,因此可以将其用来构建数据云计算平台。其中,所涉数据源是各档案馆馆藏的档案资源。第二步是进行大数据处理,在进行大数据处理之前,需要进行信息整合与治理,即对各级各类档案数据进行数据质量治理并管理信息生命周期,通过聚类、相似性分析等分析档案数据间的有机联系,以保证大数据处理的质量。在构建数据云计算平台和进行大数据处理之间,需要实现海量档案数据的传输,而这主要通过高速网络来实现。高速网络,则以高性能网络(如UltraScience Net、ESnet5/OSCARS等)为基础,将数据传输集中在一个较大的服务器集群中,进行信息整合与治理、大数据处理。第三步是结果显示,它主要是指以可视化的方式,将处理后的结果提交用户利用。将图1中的大数据流程与档案工作实际相结合,并与各类物理设施建立联系,构建出档案工作实施大数据战略的具体框架,如图2所示。

(一)数据整合与清洗

所谓数据整合与清洗,是指将分布在多个异构平台的数据,集中到大数据的数据仓库前对数据进行重新审查,以删除重复的数据、补充不完整的信息以及修正错误的信息,从而提高数据的质量。比如,郑州某类民生档案数据分析,需要从郑州市6区5县的该类民生档案数据中抽取并分析,这些来自于不同档案系统的数据可能存在重复,可能存在关键著录项的缺失或错误,可能因存在不同的档案信息格式而造成数据质量下降,引起大数据分析结果的不准确。

存储在多个异构平台的档案信息的数据整合与清洗,完全可以通过构建档案信息云计算平台来实现,即档案信息资源云。它是一个以数据存储和管理为核心的云计算系统,具有云存储的作用。档案信息资源云应该是全国性的资源云,鉴于当前的档案工作实际,目前建设全国性的资源云并不现实,可以考虑先建设区域性的公有云,实现区域内档案条目的集中与共享,也就是说实现区域性的档案信息分布式存储与管理。具体来说,在建设区域性公有云的时候,可以通过区域性分布式档案馆联盟,构成区域性的资源云。李泽锋曾提出“分布式档案馆联盟”的概念,即在分布式联盟中,“当利用者查找的信息可能涉及多个档案馆的多个文件时,分布式检索系统根据公共目录同时向多个档案馆发送电子文件请求,在收到多个档案馆分发的档案数据后,将其压缩打包,并在压缩包中生成文件列表,以显示各档案数据的来源”,在此基础上逐步构建更大甚至全国性的资源云。在公有云下,区域内的档案部门还可以建设自己的私有云。

通过档案信息资源公有云搭建云计算平台,一是实现档案信息的查重,即按照档案信息的元数据或著录项进行比对,尤其是主要项如题名与责任说明项、密级与保管期限项、时间项等。如果相似度为90%,则要全文比对。相似度为100%,表明档案重复。一旦比对是重复的,只需将所保留全文的地址与相应全宗的目录建立对应关系。建议先进行档案目录的比较,因为全文作为非结构化信息,比对占用的云资源较多、时间较长;而目录一般为结构化信息,其比对简单迅速。二是对档案信息生命周期的治理。它主要用于档案鉴定与处置,尤其是达到保管期限的档案鉴定与处置。

(二)大数据处理

大数据处理是该框架的核心。大数据处理就是在收集庞大复杂的数据基础上,建立信息间的聚合,从而进行知识获取。由于大数据处理的是海量数据,非常规软件所能分析,它需要特殊技术在可容忍的时间内进行有效工作。

目前,主流的大数据处理主要包括语境搜索、数据仓库、Hadoop系统和流计算等。其中,语境检索是指对档案信息进行索引与联邦检索,在信息整合的基础上实现上下文聚合,在上下文中关联并不相似的信息,探索和挖掘大数据,以发现知识。数据仓库是档案数据按照预定规则进行存储以及数据库内分析。Hadoop系统是实现分布式文件系统,可以经济高效地分析PB级的结构化与非结构化数据。在处理海量的数据时,流计算是必不可少的。它主要用来分析流数据和激增的大型数据。在云存储的环境下,各节点都有可能产生新的电子文件或数字化结果,而将这些新增数据纳入到大数据处理中是信息整合与处理的基础。

(三)结果显示

结果显示包括两部分。一是可视化显示功能,即通过利用最佳的可视化模块组合,收集、提取并探索大数据的处理结果,并以可视化的形式提交用户。二是数据分析,它包括预测分析、内容分析、辅助决策分析等,以便将与业务相关的结果提交用户。一般来说,国家档案馆较为侧重内容分析。而企事业单位的档案馆(室)则认为预测、辅助决策更有帮助。

二、档案馆实施大数据战略的必要条件

(一)高性能的网络技术

档案馆实现大数据处理的前提是以高性能的网络访问档案信息资源云,然后再将TB或PB级海量数据传输到大数据处理平台上。其中,高性能的网络具有带宽高、稳定带宽的特征,拥有高达10G甚至更高带宽,用来支持庞大的数据传输,以及高达百兆以上的稳定传输速度。目前,相当多的大学、科研院所甚至政府部门都相继建立了高性能计算中心,如郑州大学、河南师范大学、郑州高新区等。这些高性能计算中心除了服务于本单位以外,一般都与外界有合作关系,如河南省气象局就是郑大高性能计算中心的用户。在这种情况下,档案部门可以借用外力已有的高性能网络,实现海量数据的传输。

(二)应用明确的大数据分析处理

目前,档案部门主动提供的档案编研、编纂相对较少,主要是历史档案信息的编纂,这与信息处理与利用思想存在一定差距,与大数据思想更是存在较大差距。而大数据处理则需要对海量数据进行管理、处理以辅助决策等,这就需要档案部门变被动为主动,目前可以考虑与其他部门合作,如与环保等部门合作,利用保存多年的海量信息,分析多年来雾霾、水污染的历史变化规律等。这种合作,档案部门以提供相应信息为主,将数据分析、数据模型交给合作方,既可以积累经验,又可以提升档案服务。

三、档案馆实施大数据战略的路径

按照大数据战略,结合郑州市档案馆的实际情况,郑州市下辖6区5县的相关档案信息通过河南省教育网集中整合到郑州市档案信息资源云平台,进行信息查重与治理,再通过河南省教育网传输到郑州大学高性能计算中心,将处理结果通过河南省教育网传输到郑州市档案信息资源云平台进行可视化处理,并提请专家分析,形成分析报告、辅助决策。如图3所示。

(一)数据存储:郑州市档案资源云

郑州市新档案馆于2011年建成,信息化建设较为完备,构建了涵盖郑州市下辖6区5县的档案信息整合平台。考虑以此为公有云基础,将6区5县档案馆藏目录及数字化成果纳入并对档案信息进行整合。按照郑州市数字档案馆建设实施方案,郑州市在数字档案馆建设时,专门构建了数字档案信息资源整合与共享平台,整合全市所辖12个市区县三级综合档案馆数字档案信息资源,包括所有目录、档案原文、音视频、珍贵历史、专业、专门档案数据。它具有在线报送、接收存储、审批、业务指导、维护、查询利用、综合统计等功能,实现了郑州市区域内档案信息资源的有机整合。同时,郑州市社会公共信息管理云平台也在郑州市档案馆建设,进一步增加了信息的完备性。图4是郑州市档案资源云示意图,它构建了以郑州市档案馆公有云、6区5县档案馆私有云的档案资源云服务平台。

(二)数据处理:郑州大学高性能计算中心

2008年,郑州大学与联想集团合作,建设郑州大学深腾1800高性能并行计算机系统,并于近年来进行了改造升级。目前,该高性能计算中心主要用于网格计算环境与集群计算技术及应用、数据挖掘与海量信息处理、虚拟现实与多媒体处理技术及应用,自然语言理解研究等领域,以此作为大数据服务器集群硬件的高性能计算。

(三)数据传输:河南省教育网

河南省教育网于2014年建成10G光网络,最高带宽40G。郑州市新档案馆通过河南省教育网进行资源云的数据传输,将数据传输到郑州大学,依托郑州大学进行大数据试点处理。处理结果通过河南省教育网传输到郑州市档案局,提请专家分析数据。在实际实施中,考虑到国家规定档案存储网络与互联网相互隔离,郑州市档案馆离郑州大学距离较近,可以租用河南联通的裸光纤直连到郑大的高性能计算中心服务器集群上。

*本文为国家社科基金“可信电子文件全生命周期管理体系研究”(项目编号:10BTQ043)的研究成果之一。

参考文献:

[1]维克托·迈尔-舍尔维恩,肯尼斯·库克耶.《大数据时代》[M].杭州:浙江人民出版社,2013:39.

[2]大数据时代要有大数据思维.[EB/OL].[2016-6-14]. http://www.thebigdata.cn/html/c3/14416.html.

[3]李泽锋.基于OAIS的电子文件服务体系构建[J].档案学通讯,2011(4):73-77.

[4]IBM大数据平台与应用程序架构.[EB/OL].[2014-2-5].

上一篇:向平淡无味的实习说NO下一篇:大班科学活动《奇妙的声音》说课稿