基础数据挖掘技术(共12篇)
基础数据挖掘技术 篇1
1 竣工测量是大比例尺基础地形图更新的有效途径
地理信息系统 (GIS) 技术的应用价值己得到普遍认同。但在国内大多数城市, 大比例尺数字化基础地图 (即地形图、地下管线图、地籍图) 的供应却一直困扰着GIS在城市规划、市政公用事业、土地管理、房产管理中的推广应用, 很多GIS应用项目长期停留在试验阶段或局部应用阶段。有些城市, 原有的测绘基础太差, 显然要靠政府的集中财政投入来解决。但对多数城市来说, 一次性的财政拨款无法解决基础地图的长期更新问题。在经济迅速增长、城市大规模建设、地面物质形态快速变化的形势下, 如何经济、有效地更新大比例尺基础地图是各地政府、GIS用户、测绘机构面临的紧迫问题。
规划竣工测量的质量不仅涉及到测量成果的准确性和可靠性, 而且还将影响到规划管理部门审批的落实和监督管理, 因此施测时, 作业人员都比较谨慎、细致, 加之其起算数据一般为高等级的平面和高程控制点, 这使得竣工测量成果比相应的一般地形图测量精度高, 体现了成果的准确性;另外规划竣工测量一般都在工程竣工完成后6个月时间内必须完成, 具有很高的现实性;同时竣工测量是由施工单位实地测量和建设单位共同配合进行的, 地形、地貌各要素表示齐全, 权属关系清楚, 因而具有权威性。所有这些有利条件都使得利用规划竣工测量成果动态更新城市基础地形图是最经济、最适用的一种方法。
要做到动态更新, 首先需建立动态修测基础地形图数据库, 可直接利用已存档基础地形图的拷贝, 再及时利用规划竣工测量成果进行动态更新。规划竣工测量的外业应采用全野外数字化采集, 地形图要素的测量应符合《城市测量规范》 (CJJ8-99) 的要求, 对建筑面积等面积计算则应依据《房地产测量规范》 (GB/T179861-2000) 。测量范围除包含规划用地范围外, 还需测量与四周相关的地形和地物, 若与周边无规划间距要求也应测至用地边界外约3cm范围。对于房高、间距和室内地坪高等非地形图要素也应实地测量, 采集时各要素可单独分层编码, 尽量做到满足GIS数据格式要求, 一些相关信息的调查需采用统一格式的手簿进行记录, 如建筑物名称、结构、用途和层数等。内业应在统一的软件平台上 (如CASS6.0) , 编辑形成1∶500 (或1∶1000) 地形图, 对照“规划许可证副本”和己通过审核的规划总体方案编制规划竣工测量图和成果汇总表。经检查验收合格的1∶500地形图即可插入到动态基础地形图图库中, 插入时应以标准图幅为基本作业单元, 对叠加后的基础图进行必要的修剪, 删除被新插入图形压盖的地形和地物。经检查无误后可入动态基础图库, 并覆盖库内原图幅。
(1) 在经济、技术上的合理性。
目前国内多数城市, 均由地方财政拨款, 下达大比例尺地形图、地下管线图的测绘任务, 一项任务通常以几十、甚至上百平方千米计。大比例尺地图的成片测绘周期长、出图慢。无论是航测还是实测, 前后2次测量的相距时间越短, 实际地物改变内容越少, 测绘中重复劳动的比例就越高。前后2次测量相距时间越长, 实际地物改变内容越多, 地图现势性越差, 用户的意见也越大。这是一对难以调和的矛盾。对于地物变化很快的城市, 用成片测绘的办法更新大比例尺地形图、地下管线图, 投入的资金、人力再多, 即使是“滚地毯”式地来回“扫荡”, 反复测绘, 也难以及时跟踪。
如果有针对性地, 在某一关键时机进行测绘, 就有可能解决上述矛盾。例如:在房产登记前测量房屋, 在地籍变更时测量宗地, 就可实现有关房屋、宗地信息的及时更新。但对地形图、地下管线图来说, 实施建设项目的竣工测量, 也应该达到良好效果。竣工测量之前, 什么地物有变化、什么无变化, 可大致掌握, 现场容易辨认, 被测的对象有很强的针对性、选择性、及时性, 可以避免成片测量中的盲目性、重复性、滞后性。对于地下管线, 竣工测量在覆土前进行, 其简便性、准确性、精确性远胜于覆土之后测量。采用传统手工模拟的测绘技术, 实行成片测量有其一定的合理成分, 但野外解析测量、计算机成图、空间数据库技术在局部修测、资料更新上的灵活性很大, 用于竣工测量正好可以发挥这些技术的特长。
(2) 在法律上的有效性。
靠竣工测量更新大比例尺地形图除技术、经济上合理外, 法律上也有一定的依据。按1990年施行的《城市规划法》以及现行城市规划、城市土地管理体制, 都规定了建设项目从选址到竣工每一步骤的行政审批程序。《城市规划法》还规定, 建设项目竣工后6个月内, 建设单位应向政府主管部门报送竣工资料。但在目前, 除广州等极少数城市对地下管线要求覆土之前测量外, 绝大多数城市的测绘管理、规划管理制度对竣工测量没有强制性的规定, 建设项目竣工资料中没有修测地形、管线的具体要求对竣工资料不符合规定的建设项目惩罚措施并不严厉。作者呼吁, 尽早调整、补充现行城市测绘管理、建设管理中的有关规定依靠法定程序, 强制推行竣工测量, 实现城市大比例尺地形图、地下管线图的快速、及时、低成本的更新。
用竣工测量成果来动态地跟踪维护GIS基础图库。基础图库的现势性是衡量GIS系统使用价值的重要标志之一, 直接影响到GIS的有效应用与可持续发展。
竣工测量在变化信息获取, 变化信息采集, 变化信息动态跟踪及数据精度等方面具有独特的优势, 随着GIS的不断发展, 城市规划建设逐步走向正规化, 用竣工测量成果来动态地跟踪维护GIS基础图库的方法, 会在各GIS产业单位广泛采用。另外在目前时空数据模型还存在着诸多的欠缺, 时空GIS尚不完善, 还没有一个成熟的时空数据库管理系统的情况下, 项目竣工测量数据库系统的建立将对未来时空数据库的建立有着重要的意义。原来的动态更新模式如图1所示。
2 基于要素的增量式更新方法
在实际情况当中, 数据生产部门根据自己的更新周期和生产成本定期对基础地理数据库进行更新。为了避免重复劳动, 经常把需要更新的局部范围内的数据提取出来用作修测的数据源, 只对其中需要更新的内容进行更新, 这样可以节省成本、提高效率, 因此, 整个数据库更新过程存在着三个子过程:从数据库中提取需要更新的局部范围数据;进行实地修测更新 (离线状态) ;将修测合格的新数据更新到基础地理数据库。在实地修测工作完成时, 数据只是处于离线状态在本地进行了更新, 尚未真正更新到空间数据库当中去。所以, 还需要对实地测量的更新内容进行自动识别、处理和迁移, 才能完成对空间数据库的更新过程。
目前, 矢量数据的更新主要有两种方式如下。
(1) 基于“块”的方式, 将更新区域的新数据对旧数据进行覆盖, 实行替换式的更新处理。这种方式操作简单, 可控性强。但是会导致数据的重复加载, 造成资源的浪费。 (2) 基于“要素”的方式, 这是一种增量式的更新方法, 先从数据中识别并提取出更新部分的要素, 然后对要素进行逐个处理。这种方式可以避免不必要的重复加载, 但是技术路线比较复杂。
由于竣工测量的成果只涉及新建建筑物及有关的周边建筑物, 那么所测建筑物就作为变化信息, 提取出新建建筑物的点、线、面要素, 生成设计好的增量信息文件格式, 进入基础地理信息数据库, 实现对数据库的增量更新, 本文采取第二种方式, 即基于要素的增量式更新方式, 如图2所示。
摘要:本文基于笔者多年从事城市竣工测量的相关工作经验, 以城市竣工测量数据在城市基础地理信息数据库增量更新中的应用为研究对象, 论文分析了竣工测量作为城市大比例尺地形图更新途径的理论基础, 进而结合笔者实践给出了具体的更新方法, 全文是笔者长期工作实践基础上的理论升华, 相信对从事相关工作的同行能有所裨益。
关键词:竣工测量,增量更新,基础地理信息数据库
参考文献
[1]陈东武.竣工测量对GIS基础图库跟踪维护的方法探讨[J].测绘通报, 2001 (2) .
[2]王金坡, 王磊, 林巩固.规划测量数据处理系统的研究[J].北京测绘, 2004 (3) .
[3]周英华, 李杰.竣工测量数据处理系统[J].城市勘测, 2006 (4) .
[4]罗晓燕, 秦学秀, 刘鹏.北京市规划建设竣工项目动态监督管理系统建设[J].北京测绘, 2006 (3) .
[5]宋小冬.大比例尺基础地图更新的有效途径[J].测绘通报, 2001 (11) .
基础数据挖掘技术 篇2
1). 已知一棵二叉树的先根序列为ABDGCFK,中根序列为DGBAFCK,则结点的后根序列为( )
A.ACFKDBG
B.GDBFKCA
C.KCFAGDB
D.ABCDFKG
正确答案:B
答案解析:根据先根遍历、中根遍历的规则我们可以画出这棵二叉树的图,由此可以写出后根序列为GDBFKCA。
2). 如果属性A是关系R的主属性,则属性A( )。
A.不能取空值
B.只能是唯一性值
C.可以不为唯一值
D.可以为空值
正确答案:A
3). 下列( )进程间的通信方式不能传递大量信息。
A.共享内存
B.消息缓冲
C.信箱通信
D.信号量及P、V操作
正确答案:D
答案解析:P、V操作只是低级通信原语,不能承担进程间大量信息的交换任务。
4). 以下哪个设计内容不属于数据库应用系统总体设计范畴( )
A.数据库应用系统体系结构设计
B.软硬件选型和配置设计
C.数据库软件总体设计
D.关系模式设计
正确答案:D
答案解析:系统总体设计的主要内容包括确定DBAS体系结构、软硬件选型和配置设计、应用软件总体设计和业务规则初步设计。
5). 数据的( )是数据库的主要特征之一,是数据库与文件系统的根本区别。
A.结构化
B.共享性
C.独立性
D.完整性
正确答案:A
答案解析:在文件系统中,相互独立记录的内部结构的最简单形式是等长同格式记录的集合。这种方法会造成存储空间的大量浪费,而且也给使用者带来众多不便。另外,在文件记录中,尽管记录内部己有了某些结构,但记录之间是没有联系的,是孤立的。而在数据库中,数据是结构化的,这种结构化要求在描述数据时不仅描述数据本身,还要描述数据之间的联系。因此,数据的结构化是数据库主要特征之一,是数据库与文件系统的根本区别。
6). 在SQLServer中,有系统数据库master、model、msdb、tempdb和用户数据库。下列关于系统数据库和用户数据库的备份策略,最合理的是( )
A.对以上系统数据库和用户数据库都实行周期性备份
B.对以上系统数据库和用户数据库都实行修改之后即备份
C.对以上系统数据库实行修改之后即备份,对用户数据库实行周期性备份
D.对master、model、msdb实行修改之后即备份,对用户数据库实行周期性备份,对tempdb不备份
正确答案:D
大数据与IT基础架构 篇3
事实上,数据分析的案例自古有之,在前几年也有很多数据挖掘技术和应用的出现。但这些数据挖掘技术对数据的使用,都是先抽样、萃取人们或系统认为有价值的数据,再分析、挖掘,而并不是使用全部数据。原因很简单——信息的收集、存储和信息分析的系统构建、维护成本过于巨大,所以人们总是习惯在信息收集的过程中,把有关联的少部分精确数据留下。
以人们的日常购买行为为例,传统超市会通过对“时间、产品销售量/销售额”这几个指标的分析,判断近期哪些货品是热销产品,在短期更受用户的欢迎,进而对热销货品提供充足的货源保障,把热销货品放在超市最容易接触的位置,提供某些促销优惠等等。
再看另一个来自美国的零售商塔吉特的案例,它使用大数据进行“怀孕趋势分析”。通过对大量消费记录的分析,塔吉特公司注意到,准妈妈很可能在怀孕第三个月的时候购买某种乳液,并陆续购买营养品(如钙、镁、锌等)。塔吉特公司找到了几十种关联物,通过这些关联关系,预判客户是否怀孕以及预产期的大概日期。在客户怀孕的不同阶段,该公司会向客户推销相应的产品或优惠券。
前两个案例,分别是典型的“小数据”分析和“大数据”分析。大数据不仅是数据量大,同时数据种类多;不是数据的抽样,而是数据的全集;不是与目标有因果关系的数据,而是所有有关联的数据。与传统的数据分析相比,大数据可以被用来开发新产品和新型服务,其价值越来越受到关注。
为什么在几年前,没有人收集和利用全部的数据,再进行大数据分析呢?除了成本上的考虑,还存在另一个问题:传统上,人们是基于单一“业务”去构建系统,而不是基于“数据”去构建系统。例如,某超市要建设一个CRM系统,IT部门会基于“客户管理”这个业务采购软硬件,所有建设都围绕“客户管理”,很少考虑开放、兼容等特性;如果想再上一套“行为分析”系统,则围绕“行为分析”这个业务去采购软、硬件。当需要把两个系统的数据进行统一分析时,由于两套系统不兼容,需要中间件来转接、编译,因此两套系统各自要进行二次开发以实现兼容,使得操作难度变高,造成有价值的“数据”被困在了“系统”这个孤岛里。因此在规划初期,就应充分考虑到数据的流动性、系统的兼容性,考虑到数据将会被各种系统多次使用的情况。
也许有人会说:这样的系统规划会非常复杂,构建成本太高,很难把系统的模型和方案想清楚。我们再来看看互联网公司。大型互联网公司这几年在构建IT系统时,都会采用标准架构:如X86服务器、标准化的网络协议、开源的数据库、分布式存储等等。因为只有这样,才能够通过统一的硬件和软件平台来承载各种各样的业务。比如微信、QQ、游戏、视频等业务都是承载在同一个平台上,所有数据的流动在基础设施这个维度里都是自由的。所以我们看到如腾讯、阿里巴巴等互联网公司上线新业务的速度非常快,而且能够根据用户各种网络行为,判断互联网用户感兴趣的“热点”,在某项业务上再叠加新服务。这就是大数据的典型应用。
在构建了标准的硬件、软件基础设施之后,业务可以被逐步规划,分阶段上线,但是所有的业务架构、程序接口,都应按照标准基础设施的统一要求进行设计开发。大数据本身是“业务”,需要建设者用更多的时间去摸索业务模型,在实践中完善新技术,把现有的封闭的系统逐步改良为开放的标准化架构。
从IT的发展趋势看,大数据时代是在云计算建设成熟之后到来的,大多数互联网公司的建设历程也遵循了这种规律。云计算将带来标准、统一的IT架构,消除割裂和信息孤岛,并且简化大规模IT部署和运维的复杂程度,而这些都是大数据分析系统建设的前提。
杭州华三通信技术有限公司(以下简称华三通信)的云计算方案,就是要实现IT基础设施的标准化、智能化,为大数据分析提供更加智能灵活的基础设施平台。例如统一的云管理平台CSM,将所有IT资源拉通管理,并且把沟通过程流程化;X86服务器+虚拟化软件CAS,屏蔽底层硬件服务器间的差异,使虚拟机应用可以在不同的物理服务器间飘移;SDN网络虚拟化技术,使网络真正成为资源池,由上层应用调用;VSAN分布式存储,屏蔽了底层硬件存储间的壁垒,存储数据可以分布在不同的物理服务器的硬盘上。
身处大数据时代的前夕,伴随着云计算建设的浪潮,我们已经清晰地看到云计算和大数据的价值,也在期待它们为我们带来更多的改变,更多的惊喜。
基础数据挖掘技术 篇4
引言
随着互联网应用的高速发展,对传统媒体带来的冲击是非常巨大的,国内各传媒集团对于新技术的接受和应用系统建设都十分重视,如何将新媒体的应用有效的转化成新媒体发展的方向,其中运行支撑环境已经成为现今各传媒主要考虑和重点关注的地方。
传媒发展的不断深化和信息技术的飞速发展,新媒体应用的基础资源建设已成为传媒集团新媒体建设发展的核心内容,并逐步成为各传媒集团转型新媒体的重要标志之一。但随着业务和市场需求的不断变化,很多传媒集团均开始建设各种各样的新媒体应用系统,虽然这些应用系统也满足了部分传媒转型发展的应用和业务上的需求,但是也带来了一系列问题,如:1、新媒体相关应用建设的快速和多方并行,造成整体规划的缺失,各应用系统之间数据无法互通,同时基础技术架构设计单一,无法应对大规模的用户增长;2、各应用系统需要采购大量软硬件设备,然而大部分应用系统资源利用率不高,同时运行管理维护水平不统一,造成巨大浪费;3、没有完整的数据视图、应用系统集成复杂度和代码重用程度低等问题,从而导致不能有效的进行数据整合和数据分析;4、无法对整体IT系统的运行情况进行全面的监控,也就不能通过监控对产生的数据来进行IT系统的优化;5、每个应用开发商都有各自的设计思路和想法,从而对各个应用软件开发商的协调和控制非常困难。因此对于传媒集团规划建设一个统一的技术架构和基础资源平台,能够为将来的应用系统建设设计提出相应模板或最佳实现方式,如:完整的技术架构和规范要求、应用软件参考架构、数据业务编码标准、应用系统部署、系统运行响应的等级和维护规范等,从而使传媒集团的未来应用系统更加稳定可靠、高性能、高易用性和高可维护性。
作为一种全新的互联网应用模式,云计算的出现给传统IT产业带来了变革。结合传统模式的现状和未来的挑战,必然需要利用相应的新技术—云计算(Cloud Computing),通过虚拟化等技术(例如:服务器虚拟化技术、存储虚拟化技术、网络虚拟化技术、应用虚拟化技术、高速内存缓冲技术、NoSQL技术等),实现整合使用大量的虚拟资源,为用户提供相适应的PaaS(Platform as a Service),SaaS(Software as a service)和IaaS(Infrastructure as a Service)服务。云计算是一种典型的网络计算模式,强调在虚拟计算环境下运行大规模应用的可伸缩性和可用性。
通过云计算技术整合传媒现有的资源和新增的资源,建设一个“大规模的、可扩展、高性能、成本可控、易运维、易访问、易设计和开发和高可靠性的集群系统”—即基于云计算技术的传媒数据中心。它不仅仅是传媒发展、新媒体转型、运行管理以及服务等方面的重要技术支撑,更重要的是带来人才培养的观念、发展模式及内部管理的深刻变革。
云计算
1. 云计算概念
根据美国国家标准与技术研究院(NIST)的定义,云计算是一种利用网络技术实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模式。计算机资源服务化是云计算重要的表现形式,它为用户屏蔽了数据中心管理、大规模数据处理、应用部署等问题。通过云计算,用户可以根据其业务负载快速申请或释放资源,并以按需支付的方式对所使用的资源付费用,在提高服务质量的同时降低运维成本。
云计算的特点可归纳如下几点:
1) 弹性服务:服务的规模可快速伸缩,以自动适应业务负载的动态变化。用户使用的资源同业务的需求相一致,避免了因为服务器性能过载或冗余而导致的服务质量下降或资源浪费。
2) 资源池化:资源以共享资源池的方式统一管理。利用虚拟化技术,将资源分享给不同用户,资源的放置、管理与分配策略对用户透明。
3) 按需服务:以服务的形式为用户提供应用于程序、数据存储、基础设施等资源,并可以根据用户需求,自动分配资源,而不需要系统管理员过多干预操作。
4) 服务可计费:监控用户的资源使用量,并根据资源的使用情况对服务计费。
5) 资源可视化:对所使用的基础资源进行统一管理、维护,并形成基础资源使用情况报表,直观体现资源利用率,有利于基础资源平台的长期规划和建设。
未来云计算将形成一个以基础资源设施为核心、涵盖基础软件、平台服务与应用服务等多个层次广泛的基础资源服务化网络。未来谁掌握了云计算的核心技术主动权以及核心云服务的控制权,谁就会在信息技术领域竞争格局中处于优势地位。云计算是一个具有更广泛含义的计算方向,能够快速方便的支持相关应用系统的技术架构,按照展示(WEB)层-应用层(中间件层)-数据库层的三层模式进行构建。
2. 云计算架构
云计算从服务角度划分,云计算服务类型可以分为基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)。
1)IaaS在服务层次上是最底层服务,接近物理硬件资源,通过虚拟化的相关技术,为用户提供计算(运算处理)、存储、网络,以及其他资源方面的服务从而让运维和系统部署人员看到的是一个虚拟的硬件资源池从而降低运维和部署难度、工作量,提高硬件资源利用率,便于用户能够部署操作系统和运行软件。如亚码逊的弹性云(Amazon,AWS)。
2)PaaS是构建在IaaS(基础设施即服务之上)的服务,通过提供运行应用系统所需要的一系列的系统软件资源(例如关系型数据库资源、非关系型数据库资源等等),解决应用系统为了承受大并发和大数据量挑战所需要的一系列复杂的技术问题,给应用的开发和运行提供一个易用、可靠、高效、安全的运行和开发基础环境;让应用开发人员毋须关注底层技术细节,就可以快速开发出一个高性能、高可靠性的应用系统。它主要提供关系型数据库服务环境、J2EE应用服务器环境、消息队列支撑环境、工作流引擎服务器环境、Web服务器环境等应用所需要的基础软件设施,并且为大数据分析提供所需要的Hadoop集群基础软件设施。具有代表性的有Apache的开源项目Hadoop,Google App Engine和Micorsoft Azure。
3)SaaS是最上层服务,该服务是在PaaS的基础之上并根据相应的业务需求等需要开发出一个能承受大并发和大数据量挑战的高性能、高可靠性、较好用户体验的软件应用环境,从而根据不同的业务应用的场景,演化出不同的云计算商业模式。例如消费者可以根据自己的实际需求,通过网络向提供商定制所需的应用软件服务,按服务多少和时间长短支付费用。例如提供该服务模式的是SalesForce公司运行的客户关系管理系统(CRM),还有Google的在线办公自动化软件,思科的Webex平台。
云计算涵盖了硬件(服务器、网络、存储、终端及机房基础环境)和软件(例如Google的GFS、Mapreduce、BigTable、Megastore等技术和Google Application Engine;IBM的BigInsight、GPFS On Hadoop等技术和产品等等)。云计算不仅仅是技术模式上的发展变革,并且也是商业模式上的变革创新。对于主流的云计算三种模式(Saas、Paas、Iaas),Paas模式的云计算对IT生产商和客户来说最具有价值,必将是将来几年的重点发展方向,而Paas模式的云计算必然是一个重大的技术变革,正如应用软件架构从C/S架构过渡到B/S架构一样。Paas模式的云计算提供的是一种大规模地、可靠、高效、稳定的基础资源系统,它能够帮助我们的使用者和开发人员解决Big Data、BigConcurrent User、Better User Experience、Better Develop&DeployApplication等一系列问题,将来的应用软件架构必然是Paas模式的云计算架构。
云计算数据中心设计与实现
1. 云计算数据中心特点
基于云计算技术的传媒数据中心现阶段将是一个PaaS的技术架构,并在未来向SaaS发展进化。现在设计的PaaS架构是一个软硬件结合的基础系统,它需要依赖一个先进的硬件架构、软件系统底层架构以及应用开发设计规范和架构。
基于云计算技术的传媒数据中心必然具有以下几个重要的特点:
1) 是一个软硬件结合的系统,它需要依赖一个先进的硬件架构、软件系统底层架构以及应用开发设计规范和架构。它吸收和补充以及裁剪相应成熟可靠的原有技术,以适应传媒发展的需要。
2) 提供了一个完整的开发堆栈,使用成熟技术和新技术、成熟可用的数据标准规范和成熟可用的可重用服务来构建和托管应用程序。
3) 可自动伸缩:根据应用的需要自动分配出相应的计算资源并利用相应的技术来满足应用的伸缩需要。大幅提高硬件资源的利用率、降低空间占用和降低电力损耗。
4) 可靠性、性能和安全性:提供可实现高度可靠、高性能的基础设施结构,从而可以大规模运行可扩展、高性能和高安全的应用系统。
5) 成本可控:通过内置完整的端到端的IT监控模块,监控整体的硬件情况(如:服务器、存储、网络的使用情况、数据库系统和中间件系统的使用情况);监控各个应用的运行情况(如:请求负载情况、性能瓶颈,数据存储容量消耗情况等)。通过自动化的监控模块,运维人员可以更加快速和方便的维护各应用系统。
6) 管理可控:通过提供一系列的开发设计和架构规范,以及可重用的服务等,降低和协调成本,提高开发效率。
7) 消除数据孤岛和应用竖井:统一管理各应用系统所需要的数据库系统和数据服务,为大数据分析提供数据资源。
8) 客户体验至上,适应频繁的应用发布与线上系统变更调整工作,以及对数据的归纳反馈分析。
2. 云计算数据中心实现
2.1基础设施架构(IaaS)实现
在基础设施架构(IaaS)中,通过对服务器等基础资源的虚拟化形成基础资源池以充分利用服务器资源以降低所需的服务器数量从而降低机房空间和节能低碳,逐步将现有核心模块和应用迁移运行到虚拟机环境中;通过网络虚拟化形成相应的网络隔离以建设一个更加高效、安全的网络基础设施,并把各应用从网络上隔离开;通过存储虚拟化让存储资源更加高效的利用和降低对不同厂商和不同型号存储设备的维护成本,并且可以提高存储的工作效率。通过基础设施架构实现各相关应用系统环境之间通过云计算技术的数据中心进行联络,建设一个更加高效、安全的基础设施。
2.1.1服务器资源
基础架构中服务器资源的建设对于云计算平台而言是核心基础建设工作,虚拟化对于计算或者处理资源的需要及利用是云计算平台建设成功的标志。根据应用的需求搭建合适的服务器资源平台,实现应用服务的支撑环境,如针对WEB应用环境和应用(中间件)环境均可以采用虚拟化平台实现资源的充分利用,同时通过对硬件服务器资源的冗余架构建设,实现最短时间内的系统重建工作,实现服务器硬件资源环境的稳定可靠。
2.1.2网络环境
基础架构中网络技术对于云计算平台而言的要求在于高速交换和低时延响应上,现在虚拟化技术的发展对于网络环境而言是一种变革,变革的方向是将网络也转换成为计算资源的延伸和附加,以满足计算数据交换时的高速和低时延响应。
2.1.3存储系统
基础架构中存储技术对于云计算平台而言是整个数据中心平台的核心,针对传媒数据中心平台规划的存储系统,主要考虑长期的发展,采用可扩展的节点建设的模式,最大程度的满足存储系统长远的发展和数据暴增带来的数据压力;采用节点扩展的方式,也为建设高性价比和可扩展性强的存储系统,减少在建设初期的一次性投入,便于后期的扩展确保建设的长远性。
2.1.4虚拟操作系统平台
对于云计算平台的核心技术就是虚拟化技术的实施,对于建设一个功能完善的云计算平台而言选择合适的虚拟操作系统至关重要。现今主流的虚拟操作系统如Vmware EXS、CitrixXenServer、Microsoft Hyper-V、KVM等都可以实现虚拟环境的搭建工作,但如何充分利用基础资源各种虚拟操作系统各不相同,需要根据相应的建设实际进行选择。
2.1.5灾备建设
基础架构的建设中,考虑到传媒数据中心的长远建设发展规划,为确保各应用系统的连续性也是建设的关键所在。对于基础资源的规划中还需要建设一个灾难恢复平台,确保所有应用得到最基础可靠的保护,同时通过规划定义的恢复处理机制,实现无中断应用支撑以及站点恢复和迁移流程的自动化。
2.2软件基础设施架构(Pass)实现
2.2.1基础架构实现
基于云计算的软件基础设备架构必然是建立在一套完善可扩展的基础资源平台上的,采用多级架构平台实现数据库环境、应用服务环境、WEB应用环境的基础建设。同时辅助各种支撑服务功能,如计费和安全管理,确保整体平台的建设。
基于云计算技术的传媒数据中心平台,采用“展示-应用-数据库”三层的技术架构来建设传媒的基础软件支撑平台,从而让所有的应用成为一个整体,充分利用现今的技术和今后的发展方向来确保系统的长远发展。
2.2.2数据库环境
现在主流的数据库资源平台都可以实现群集功能,并逐步向规模化、分布化、节点化方向发展,通过建立数据库平台防范因为硬件资源造成的数据库的故障,同时支持多数据库的应用需求,减少传媒应用中不同项目对数据库基础资源的建设。数据库平台的建设实现数据库环境的冗余,确保相应的应用稳定和快速扩张。
2.2.3应用服务(中间件)环境
应用服务(中间件)环境主要满足前端展示平台向后端数据库平台数据访问调用的应用建设模式,同时确保应用后台数据的安全可靠。
基于云计算环境的应用服务基础,针对不同的应用需求提供应用支撑。现今流行的应用解决方案大多采用应用负载均衡的方式,提供所需的应用服务环境,实现应用运行的快速可靠,并确保后台数据的安全稳定。
2.2.4 WEB应用环境
互联网的发展对于各应用系统而言,基本上向B/S架构进行转化,通过WEB模式提供应用的展示或者交互访问需求。基于云计算技术,结合新媒体应用的WEB访问需要,采用虚拟化技术搭建整个应用支撑基础平台,提供完整的WEB访问应用环境。
同时针对不同项目的WEB应用,集中在一个平台上进行支撑,充分利用虚拟化技术和负载均衡机制,减少基础资源的消耗,充分利用技术提供最新的WEB应用的访问服务环境,便于整个平台的建设和管理,同时实现自动化的资源调配,减少对外提供WEB应用所消耗的硬件资源、IP地址资源等。
2.2.5自助服务
对于传媒数据中心平台上的各种服务资源的调配,通过建立自助服务平台,实现自动调配和发布应用的方式,减少后台技术人员的人为参与和管理维护,通过流程化的管理实现规范,使应用的设计和构建方式实现标准化,从而使用户只需进行一次建模,随后即可在多种资源中进行部署和更新应用;也可以建立标准模板,直接对用户提供从基础资源、软件、配置和依赖关系的相关配置服务,达成真正意义上的云计算服务。
2.2.6安全平台
基于云计算技术的服务平台建设,因为提供的是服务,同时相关的安全防护措施是必不可少的。对于云计算技术建设的数据中心,采用的是虚拟化技术建设的平台,可以充分利用虚拟平台的安全服务功能来保护和隔离关键应用,包括应用防火墙、负载均衡、流量管理、入侵检测和病毒防护体系。
2.2.7计费管理
基于云计算技术建立的数据中心平台还能够准确地计算各项基础资源的建设成本、分析和产生相关资源使用情况报告,通过报表对云计算平台上的资源,进行记录、监控和优化,通过优化资源,确保应用的运行稳定可靠。对于用户在获得实际基础技术架构支撑的同时,也可以明确用于支持业务应用服务所需运营的可视性成本,通过成本的具体反应和分析,便于用户更好地了解项目的发展预期,提高资源利用率,实现资源按需支付的愿景。
结束语
在数据中心建设完成后,不断通过对应用上线进行的调整来完善整个数据中心的支撑能力,通过标准化的IT服务,实现现有的基础资源设施环境,达到以天为单位的可扩展的云服务,快速经济地响应业务需求,为各应用系统提供强有力服务支撑。
同时通过对数据中心的数据分析,对传媒相关业务数据进行有效分析,为传媒的转型提供相应的解决思路,也为进一步完善和改进各种资源调度策略提供依据,从而实现更加智能的辅助运维及管理功能,最终实现传媒发展的长远目标。
基础数据总结 篇5
1、混凝土重量2500KG/m3
2、钢筋每延米重量0.00617*d*d
3、干砂子重量1500KG/m3,湿砂重量1700KG/m34、石子重量2200KG/m3
5、一立方米红砖525块左右(分墙厚)
6、一立方米空心砖175块左右
7、筛一方干净砂需1.3方普通砂
一点不同观点:
1、一般多层砌体住宅: 钢筋25-30KG/m2,其中经济适用房为16--18KG/m2.2、一般多层砌体住宅,室外抹灰面积占建筑面积0.5--0.7。
3、一般多层砌体住宅,模版面积占建筑面积1.3--2.2,根据现浇板多少、柱密度变化很大。
4、一个砖工一天砌240砖墙1000—1800块,370或500墙2000--3000块。
5、钢筋混凝土重量2200KG/m3,素混凝土重量2100KG/m3。
6、工程石子重量1800KG/m3。
0.617是圆10钢筋每米重量。钢筋重量与直径(半径)的平方成正比。
G=0.617*D*D/100 每米的重量(Kg)=钢筋的直径(mm)×钢筋的直径(mm)×0.00617 其实记住建设工程常用的钢筋重量也很简单φ6=0.222 Kg φ6.5=0.26kg φ8=0.395kg φ10=0.617kg φ12=0.888kg Φ14=1.21kg Φ16=1.58kg Φ18=2.0kg Φ24=2.47kgΦ22=2.98kgΦ25=3.85kgΦ28=4.837kg............Φ12(含12)以下和Φ28(含28)的钢筋一般小数点后取三位数,Φ14至Φ25钢筋一般小数点后取二位数 Φ6=0.222Kg Φ8=0.395Kg Φ10=0.617Kg Φ12=0.888Kg Φ14=1.21Kg Φ16=1.58Kg Φ18=2Kg Φ20=2.47Kg Φ22=3Kg Φ25=3.86Kg
钢材理论重量计算简式
材料名称 理论重量W(kg/m)
扁钢、钢板、钢带 W=0.00785×宽×厚
方钢 W=0.00785×边长2 圆钢、线材、钢丝 W=0.00617×直径2 钢管 W=0.02466×壁厚(外径--壁厚)
等边角钢 W=0.00785×边厚(2边宽--边厚)
不等边角钢 W=0.00785×边厚(长边宽+短边宽--边厚)工字钢 W=0.00785×腰厚[高+f(腿宽-腰厚)] 槽钢 W=0.00785×腰厚[高+e(腿宽-腰厚)] 备注:
1、角钢、工字钢和槽钢的准确计算公式很繁,表列简式用于计算近似值。
2、f值:一般型号及带a的为3.34,带b的为2.65,带c的为2.26。
3、e值:一般型号及带a的为3.26,带b的为2.44,带c的为2.24。
4、各长度单位均为毫米
一、普通住宅建筑混凝土用量和用钢量:
1、多层砌体住宅:
钢筋30KG/m2
砼0.3—0.33m3/m2
2、多层框架
钢筋38—42KG/m2
砼0.33—0.35m3/m2
3、小高层11—12层
钢筋50—52KG/m2
砼0.35m3/m2
4、高层17—18层
钢筋54—60KG/m2
砼0.36m3/m2
5、高层30层H=94米
钢筋65—75KG/m2
砼0.42—0.47m3/m2
6、高层酒店式公寓28层H=90米
钢筋65—70KG/m2
砼0.38—0.42m3/m2
7、别墅混凝土用量和用钢量介于多层砌体住宅和高层11—12层之间
以上数据按抗震7度区规则结构设计
二、普通多层住宅楼施工预算经济指标
1、室外门窗(不包括单元门、防盗门)面积占建筑面积0.20—0.24
2、模版面积占建筑面积2.2左右
3、室外抹灰面积占建筑面积0.4左右
4、室内抹灰面积占建筑面积3.8
三、施工功效
1、一个抹灰工一天抹灰在35平米
2、一个砖工一天砌红砖1000—1800块
3、一个砖工一天砌空心砖800—1000块
4、瓷砖15平米
5、刮大白第一遍300平米/天,第二遍180平米/天,第三遍压光90平米/天
四、基础数据
1、混凝土重量2500KG/m3
2、钢筋每延米重量0.00617*d*d
3、干砂子重量1500KG/m3,湿砂重量1700KG/m3
4、石子重量2200KG/m3
5、一立方米红砖525块左右(分墙厚)
6、一立方米空心砖175块左右
应以数据为基础进行信息监管 篇6
P2P是最能代表互联网金融的一种安排
P2P并非只是一种技术手段,而是理念与方法的革新。狭义的P2P是指P2P网络借贷,即债权众筹;广义的P2P是指参与者之间通过互联网直接达成的金融交易行为,包括各种金融产品的类众筹、P2P换汇甚至网络慈善筹款等,其主要特征是互联网技术推动下的金融脱媒。金融产品需求者在互联网上通过不同的平台寻找金融产品的提供者,以达到风险和期限的匹配,此时互联网就是一个以个体为中心、以关系为纽带,囊括信息、交易的自组织金融市场。
P2P是最能代表互联网金融的一种新型金融组织形式,互联网连接一切、高速匹配、海量信息以及边际成本趋向零的特征,使得P2P具备任何一种传统金融体制不能比拟的优势:
一、极大地扩大了金融交易边界,有效降低了金融活动的交易成本。P2P市场可突破交易成本的约束,使得P2P更加适合解决小微贷款、完成跨区域贷款等短平快的金融交易,实现资金快速周转。效率上得天独厚的优势,使P2P网贷市场在理论上可以成为信贷资源配置效率最高的市场。
二、最能体现互联网金融的精神。金融不应贵族化,而互联网精神的核心恰恰是自由、开放、平等、共享、大众化、民主化、去中心化。互联网金融的特性无疑可以更好地实现人人平等。目前来看,P2P是最能体现金融民主化和大众化的金融市场,使高信用的个人可以获得低利率贷款,普通民众可以像专业金融机构一样参与放贷,实现自己的金融权利。
三、 促进了金融市场化进程,加快金融脱媒。P2P作为具有强烈互联网属性的新生金融力量,可加快金融脱媒的进程,有效降低社会资金成本,更有利于实体经济发展。从短期来看,P2P从事的还是“新瓶旧装”的信用中介业务,但在我国金融管制的大背景下,这种初期形式的P2P为我国传统民间借贷赋予了新的活力,弥补了长久以来我国正规金融中小微贷、高收益债的缺失,对促进传统金融机构由垄断走向竞争,推动利率市场化,倒逼监管改革,减少金融管制等均有重大意义。
目前,P2P规模虽小,但增长迅速,究其原因,可以发现三大因素催生了P2P现阶段的繁荣:一是信息技术、移动互联、第三方支付等技术的大发展;二是金融监管的放开,目前对P2P并无特殊监管,丰厚利润吸引了大量P2P平台的建立;三是细分市场的需求,对民间借贷等小微贷或高收益债的大量需求,直接反映为P2P贷款余额的增长。
P2P发展的核心障碍是征信系统不健全
数据基础和外部监管,是P2P网络借贷健康发展的前提条件。目前中国P2P处于发展的草莽时代,出现了鱼龙混杂的局面,跑路、倒闭情况不断,社会上也出现了各种质疑声音。造成这种情况的原因,一是监管缺位、准入门槛较低;二是我国的征信系统尚不完善,P2P平台缺少大数据基础,从而制约了网络借贷的信用评估、贷款定价和风险管理。
由于数据基础薄弱,竞争激烈,P2P在发展初期必然要进行担保,并进行大量的线下尽职调查,造成运营成本较高。在这种情况下,一些P2P网站不得不采取本金担保、提取风险准备金、委托专业放贷、债权转让及对接理财资金池等措施,不免触及监管红线,同时由于道德风险和违约风险的存在,短期流动性问题促使一些P2P平台选择跑路。
然而这些问题会随着数据的积累而改善,一是我国正在逐步完善社会征信体系;二是P2P自身的数据也在不断积累。当P2P的重复博弈足够多的时候,P2P的发展将与其数据积累之间形成正向回馈机制。海量数据将支持P2P平台更加精准地把握风险,走向正常运营,从而降低坏账率水平和运营成本,实现去担保化,成为完全的信息中介。
P2P监管关键是信息充分公开
P2P监管始终要以数据为基础进行信息监管。目前,中国的监管理论完全是针对银证保等传统机构而设置,在一定程度上并不适用于诞生于互联网的P2P形态。
作为信息中介,P2P监管应采取类似于直接融资的信息披露原则,关键是信息充分公开,包括股东信息、交易程序、管理层构成、交易记录备份等。可以采用现代信息技术,特别是利用好搜索引擎的作用。
具体监管工作不一定由监管机构负责,部分监管任务可以外包给专业的IT公司来完成。更重要的是,监管部门要负责监管规则的制定和完善,对监管执行机构进行督查,对相关从业机构的违法违规行为进行事后处罚,减少风险事故的发生,缩小风险波及范围。
P2P将改变传统金融模式
目前我国P2P更接近互联网小微贷,只是我国金融市场的补充,还远远不能撼动我国传统的金融体系。然而正如凯文.凯利(Kevin Kelly)说的那样,创新往往发生在边缘地带,最为明显的事例是电子商务对于零售、拍卖等传统行业的冲击。互联网刚开始进入传统行业时,看上去都比较边缘化,一开始只是占据一个小板块,但慢慢就会侵占整个渠道,进而倒逼传统机构改革。因此我们强调,对待互联网金融要有想象力。对金融体系来说,理想中的市场应该是平等、自由、便捷、高效、信息不对称程度及交易成本都大幅降低,互联网金融特别是P2P的运作方式更符合这个发展方向。
P2P的发展取决于信息技术的发展速度。未来,随着移动互联网、第三方支付、信息积累和处理技术以及人工智能等科学技术的快速发展,互联网金融将从低基数水平迅速增长。
未来的P2P不仅可以在“P”的内涵上扩大,交易产品也将更加丰富。P2P不仅仅是一个小额网贷市场,类似网贷的派生业务未来将在P2P市场上慢慢变大,派生出许多类似P2P的其它金融业务,例如在P2P基础上的非标资产交易、个人间交易行为、类众筹业务等。这时的市场更接近充分有效市场,一旦达到充分有效市场,P2P的信贷配置功能会越来越强大,资金运转更加有针对性,信者有其贷,金融细分市场将做到极致,最终实现金融资源的优化配置,有效支持实体经济发展。
基础数据挖掘技术 篇7
1.1研究现状
近年来, 天津市环境信息化建设步入了快速发展期, 已经基本完成了环境信息化基础网络和网络机房的建设。随着环境质量在线监测体系的日益完善, 国控重点污染源在线监控的广泛应用, 初步完成了数据的集中存储。随着环境信息与统计能力建设项目、污染源管理、环境质量监测等多个系统的建设完成, 初步构建了我市环境信息化的基础框架。
1.2存在问题
由于环境信息化体制机制的问题, 统一规划、统一建设、统一管理的成效不佳。主要存在的问题有:
(1) 大量环保数据信息尚未得到有效处理
长期以来, 天津市各级环保部门都保存了大量的环境信息数据, 但由于缺乏对信息资源的统一规划, 很多环保业务数据存放分散, 常发生重复采集现象, 且采集的数据不准确、不一致, 使得在环境管理中数据查找不便, 严重制约着工作效率和执法水平的提升。
(2) 环境管理业务系统尚未达到高度集成
天津市环境信息化建设缺乏宏观规划的指导, 一方面以需求为导向促进了环境信息化的发展, 同时也使环境信息化建设比较零散, 集成度不高。环境管理业务系统基本上都是根据某一特定业务编制相应软件, 各软件彼此之间的通用性不高、数据共享困难。
(3) 信息资源尚未实现共享
现阶段开发建设的各系统基本上独立运行, 各系统间的信息共享与交换存在障碍, 各类数据资源大都停留在信息管理专业部门的层面, 是从“数据”到“数据”的小循环, 跨部门之间的数据共享和业务协同, 与环保系统各项业务工作的衔接不够。
(4) 信息化辅助决策尚未形成能力
天津市环保系统数据资源的综合利用多停留在查询检索和统计功能上, 并未全面有效的转化为环保工作人员和管理人员所需要的具有分析和决策功能的信息。
2. 天津市环境信息数据中心的构建
2.1 天津市环境信息数据中心总体建设方案
根据《十二五国家战略新兴产业发展规划》、《关于数据中心建设布局的指导意见》等相关政策, 并对各级各类政府信息中心及相关负责人员进行调研, 构建以顶层设计的方法为主, 充分结合设计其他设计方法而形成的基于新一代环境信息数据中心的解决方案。实现最大程度上保证数据和业务的规范性、可扩展性、可管理性。环境信息数据中心包括数据库设计、信息资源目录、数据管理、和数据挖掘技术中心四大部分。总体框架如图1所示。
2.2 天津市环境信息数据中心基础构架
(1) 数据库的建立
数据库的建立可以分为基础数据库、中心数据库和专题数据库的建立。基础数据库是基于各业务部门的管理信息系统所产生的数据而建立, 主要目标是实现数据采集、数据质量控制和适合于数据采集部门内部数据管理与分析等。中心数据库建立在信息中心服务器上, 主要功能是数据的存储、分析加工、数据挖掘、查询统计、备份和为各个业务系统提供专题数据库。专题数据库用于环境业务分析的专题数据存储, 主要采用数据仓库方式存储, 采用Top-Down与Bottom-Up相结合的模式进行。
(2) 数据管理整体功能结构
天津市环境信息数据中心按照用户分为应用共享系统和管理存储系统两部分, 前者主要包括数据预入库、采集、数据服务、采集监控等部分。后者包括数据库管理、元数据管理、数据字典管理等部分。
(3) 环境信息资源目录建设
环境信息数据中心是环保局信息资源的集散地, 许多业务系统都需要与其进行数据交互, 通过信息资源目录的建设, 规范环境数据交换与共享规则, 实现跨部门的数据交换、共享和整合。信息资源目录的建设根据管理需求的实际情况而定, 按照环保部颁布实施的《环境信息分类与代码》进行建设。基于构建好的资源目录功能, 协助用户对历史数据进行元数据整理和资源编目, 将历史数据批量导入数据中心, 在共享资源目录体系中进行发布, 供各单位用户查询、浏览、下载。
(4) 数据挖掘技术中心建设
数据挖掘中心主要利用数据挖掘的技术和数据转化信息手段, , 建设数学模型库、参数库, 建设智能化数据挖掘系统, 利用环境信息数据中心提供的污染源和环境质量数据进行数据相关性、时空变化规律等的分析等, 同时能以2-D图、3-D图、树状图、散点图、线图、饼图、ROC图、Gain Lift图等形式对建模后的数据进行展示发布。
3. 几个关键技术的分析
环境信息数据中心的核心技术是数据管理、数据整合、数据共享、数据交换、内容管理。
3.1 XML技术
XML技术主要用于系统间的数据交换, 能够很好的满足环境信息数据的复杂性、可理解性和灵活性要求, 具有的特点:
a.采用自描述的标签式数据描述方式。数据本身能够描述自己的含义, 很大程度的提高了数据的可读性, 方便人和程序的理解。
b.采用层次型的方式来组织数据。可以通过层次关系来表现数据和数据之间的关系, 对复杂对象也能够清楚的进行描述, 扩展也很方便。
c.已经成为数据交换的事实标准, 且形成了很多行业性的XML技术标准。
3.2 数据整合
数据整合可以分为:理解数据、整理数据、将数据转变成信息、提交信息四个阶段。
理解数据可以实现:一、了解数据源及其关系;二、避免不良数据的使用, 降低不良数据造成的风险;三、对数据进行合并, 可以利用分析和报告功能, 生成集成规范和业务规则, 长期对规范和规则的使用进行监控。
整理数据:可以通过标准化、验证、匹配并合并数据, 实现信息质量和一致性的要求。
将数据转变成信息:可以转换和转移海量的复杂数据, 适用于单独的提取、转换、装载 (ETL) 环境。
提交信息:可以虚拟化并同步信息, 基于时间和事件来处理信息、发布信息, 可以在位置之间移动大量的信息, 并访问无法合并的信息, 可从本机直接访问广泛的信息, 捕获变化的数据。
3.3 数据共享和交换
数据共享和交换可以在部门内的应用系统里、各个部门间、部省市间和外部系统间的共享和交换, 实现技术方式有信息集成技术和ESB技术。
信息集成技术有数据联邦技术、数据复制技术和数据侦听技术。数据联邦技术可以将异构的数据库映射到统一的逻辑数据库中, 可直接在数据平台获取业务数据库的数据。数据复制技术和数据侦听技术可以实现对数据库增量数据的识别和同步。信息集成技术的数据采集途径有批量数据抽取、数据复制、数据侦听同步三种。
ESB技术是SOA架构的重要核心组成部分, 为SOA提供连通性基础架构。主要功能有:传输服务、中介服务。ESB产品本身具有很好的通讯中间件基础, 在消息的通信架构下, 保证消息的及时、可靠传送和沟通。中介服务有智能路由功能和对各种消息的处理功能。
4. 结语
基础数据挖掘技术 篇8
API ( Application Programming Interface, 应用程序编程接口) 是一些预先定义的函数。 Google Map API是Google为开发者提供的API, 允许开发者在不必建立自己的地图服务器的情况下, 将Google Map地图数据嵌入到网站之中, 并借助Google Map的地图数据为用户提供位置服务。 Google Map AP除了帮助开发者将地图嵌入到Web应用中之外, 还允许开发者利用Java Script脚本进行应用开发拓展, 给地图添加标注和折线及其他地图图层覆盖物, 或者响应用户的点击动作, 并显示包含内容信息在内的气泡提示窗口。
通过Google Map API, 可以将不同地图图层加载到应用中, 如卫星影像、 根据海拔高度绘制的高山和植被地形图、街道视图等, 从而帮助开发者打造个性化的地图应用。
2 地震应急基础数据库
地震应急基础数据库是指当地震发生后, 或地震预报发布后, 为了开展对灾区的一系列救灾活动所需要了解和掌握的各种社会、 经济、 人口、 城市地图、 自然地理地貌、 重要目标位置、 救灾队伍情况、 救灾通信联络、 地震应急预案等的一种综合性数据库。
地震应急基础数据库从数据类型来分主要分为空间数据和属性数据两大类, 包括71 张表格, 其中空间表格38 项, 属性表格33 项。 整个数据库以地市、 区县、 乡镇等行政区划为基础, 所有空间数据和属性数据与之对应关联。 空间数据的关联主要通过经纬度的空间对应, 而属性数据的关联则主要通过行政区划编码。
地震应急数据库的内容之广泛决定了数据库维护工作是一项长期艰巨的任务。 从相关协议单位获取数据时发现部分数据并不具备空间信息, 严重制约了数据的利用效率, 如何通过对属性数据进行空间化来更新地震应急基础数据库也成为一个急需解决的问题。
3 地址解析功能
要通过地图上的地名点来查询经纬度, 在Google地图AP中, GLat Lng对象提供了此类机制。 可以构造一个GLat Lng对象, 按照制图学的惯例以 (纬度, 经度) 的顺序传递参数来获取地点的经度和纬度信息, 将地址转换为地理点的过程称为地址解析。 地址反解析 (Geocoding) 是将地址 (如 “合肥第五十中学”) 转换为地理坐标的过程, 可以用于放置标记或定位地图。Google地图API包含地址解析服务, 可以使用GClient Geocode对象访问。 目前中文地图API只支持市/县/区级别的地址解析。
4 数据准确性
通过属性数据的批量导入, 可以实现数据转化的方便快捷, 节省大量的人力、 物力和财力。 但其中存在一个重要的问题, 由于根据地名点搜索到的数据可能不止一个, 搜索所需的某个位置时会出现同地名点的现象, 对其中准确数据和冗余数据的界定是本次研究中关键性的技术难题。 本研究通过各方面的尝试, 通过限定区域选择范围来控制其经纬度获取数据, 结合相关数据以及调研, 可以发现限定范围后经纬度获取数据结果具有较好的准确性。
在不同区域范围内出现相同地名点的现象时, 可以通过限定区域的方法来实现区分, 例如杏花村, 可以通过限定池州市青阳县, 再对杏花村进行地址解析; 在同一区域分为内出现相同地名点的情况时, 在数据录入时对地区所属ID以及所在地址进行规范化处理, 通过ID和地址匹配的方式来对同地名点的信息进行解析和区分。
5 应用成果
我们对已有的地震应急基础数据库进行数据检查与梳理, 并对基础数据库的空间数据和属性数据进行认真研读。 42 大类基础数据中的部分数据只包含属性数据, 而未包括空间数据, 属性表内的内容包含多项属性字段, 主要依靠字段的连接来实现数据的读取, 如图1 所示。
通过软件对属性数据进行空间化处理, 如图2 所示为空间化后的学校数据, 包括空间与属性数据。
6 结语
Google Map API的基础数据属性地址解析地震应急基础数据库, 在对数据进行更新时使用价值较强, 对基础数据库进行数据维护和更新时发挥了重要作用, 提高了工作的效率。同时, 计划在下一步工作中解决下列问题:
(1) 通过设定范围目前可以消除不同区域内相同地名点的混淆情况, 计划下一步通过对软件的继续开发来消除冗余数据的影响, 从而得到更加准确的地址解析经纬度。
(2) 对生成的Excel表格形式, 可以在arcgis下直接导入并生成shp格式文件, 软件尝试通过开发的方式将此功能集成到软件中, 实现一体化导入和导出功能, 更加方便快捷地实现地址解析成空间化属性。
摘要:Google Map在线地图服务为用户提供了友好的界面和多种图层, 还提供了便于用户开发的Google Map API技术, 开发者可以将其应用到不同场合。而地震应急基础数据库更新任务量大, 耗时耗力, 根据Google Map API技术研究其在地震应急基础数据库中的应用。
关键词:Google Map API技术,地震,数据库
参考文献
[1]中国地震局.区域级抗震救灾指挥部地震应急基础数据库格式规范 (修订稿) , 2006.
[2]陈述彭, 鲁学军, 周成虎, 等.地理信息系统导论.科学出版社, 1999.
[3]苏娟.基于Google Map API地震信息发布系统的研究与实践.工学硕士学位论文, 首都师范大学, 2009.
基础数据挖掘技术 篇9
2014 年3 月3 日,“基于大规模有源配电网大数据的基础计算与优化关键技术研究”项目正式启动,该项目是2014 年国家电网公司科技项目,由公司“智能配电网优化规划与高性能控制技术科技攻关团队”承担。
项目组汇报了项目的工作大纲,包括项目的组织管理机构、项目研究内容、分工与成果要求、项目进度安排、项目管理等,并与各外委单位就项目具体执行过程中可能存在的问题进行了交流和讨论。项目各外委单位就项目的重要性、主体内容及任务分工达成了共识,为项目的顺利开展奠定了坚实的基础。
项目的实施,对配电网应对大数据分析的挑战、复杂有源配电网进行智能分析、配电网的安全可靠经济运行具有积极影响,将产生重要的社会效益和经济效益。
基础数据挖掘技术 篇10
1 数据库技术基础教学平台系统设计思路
数据库技术基础教学平台系统需满足系统管理员、从事数据库技术基础教学的老师、学习数据库技术基础的学生的需求, 他们具有登陆应用系统的权限, 设计时个根据需要对工作人员的登陆本系统进行了更多的考虑, 设计了不同用户的操作权限和登陆方法。
对于一个数据库技术基础教学平台来说, 讲稿、教案、作业和课外资料这四个模块, 是比较重要的部分, 用户可以根据实际情况对数据库技术信息进行分类管理, 包括添加, 删除和更新数据库等。老师提供给学生的实验、教学效果、课件以及系统的系统管理的一些信息, 以便于同学们的预习和复习的资料, 不管老师是否在课堂上能不能完成自己的教学内容, 同学们都能按本系统来完成自己的学习任务, 老师也提供给学生一些参考资料和优秀作品, 帮助同学们更深层次的理解, 提高同学们的学习兴趣。
首先根据《数据库技术基础》课程教学小组进行分析, 并调查教师和学生的要求, 收集分析有关报表、管理标准, 提出合理的功能方案, 设计合理的数据库和代码文件, 完善相应的设计文档;其次, 应用ASP.NET与Windows 2000 Server的完美组合, 开发windows环境下的数据库技术基础教学平台, 编写相应应用程序, 满足上述功能处理要求;接着, 通过试运行, 就发现的问题或改进意见对系统做进一步完善。然后, 采用数据库服务器及网络编程技术开发B/S环境下的功能模块, 实现网络环境下的信息集成, 共享。最后, 做技术总结, 建立必要的文档。
2 数据库技术基础教学平台系统设计开发过程
2.1 系统设计
本教学平台系统主要分为11大部分, 即系统管理、教学指导、导入项目、讲稿、教案、课件演示、实验、作业、课外资料、教学效果、BBS。每个项目又分小项, 可以直观的向学生展示课堂新动向, 实现老师轻松教学, 学生轻松学习。老师了解学生, 更方便及时地解决学生们的问题, 学生从而提高老师们的教学和学生们学习的效率。通过讲稿、教案、作业和课外资料、BBS等模块的管理, 让老师在上课或课后都可以为同学做教学的辅导, 同学们可以按照这些资料进行课程的预习和复习工作, 通过课外资料学生们能更深层次的学习, 保证教师与学生之间的课程交流效益。
系统功能构成如图1所示。
2.2 数据库设计
数据库是需要设计的, 数据库设计反映在两方面:数据库逻辑设计和数据库物理设计。数据库逻辑设计是设计数据库的逻辑结构, 与具体的DBMS无关, 主要反映业务逻辑。数据库物理设计是设计数据库的物理结构, 根据数据库的逻辑结构来选定RDBMS (如Oracle、Sybase等) , 并设计和实施数据库的存储结构、存取方式等。
2.2.1 数据库逻辑结构设计
数据库逻辑设计是整个设计的前半段, 包括所需的实体和关系, 实体规范化等工作。数据库逻辑设计决定了数据库及其应用的整体性能, 调优位置。如果数据库逻辑设计不好, 则所有调优方法对于提高数据库性能的效果都是有限的。为了使数据库设计的方法走向完备, 数据库的规范化理论必须遵守。
在规范的数据库逻辑设计时, 本平台考虑适当地破坏规范规则, 即反规范化设计, 来降低索引、表的数目, 降低连接操作的数目, 从而加快查询速度。
2.2.2 数据库物理设计
数据库设计的后半段则是数据库物理设计, 包括选择数据库产品, 确定数据库实体属性 (字段) 、数据类型、长度、精度确定、DBMS页面大小等。
数据库技术基础教学平台的数据库下设15个数据表。分别是:BBS答案表TBbsAnwser、BBS问题表TBbsQuestion、子功能类别表TChildFunCatgy、班级信息表TClassInformation、系部信息表TDepartInformation、功能类别表Tfunctioncatgy、分组信息表TGropInfor、课件类别表TPackCatgy、课件信息表TPackInformation、密码答案表TPAnswer、密码问题表TPQuestion、学生作业表TStudentAssgin、学生信息表TStuInfor、用户表Tuser、用户类别表TUserCategory。
其中课件信息表具体设计如图2所示。
2.3 数据库技术基础教学平台界面设计
界面美观、操作易用性、维护成本低是评价系统的关键。本平台参考了一些成熟产品科学的开发方法, 将开发过程中的方式、规则等强行的约束。藉此来提高用户操作感受, 提升教学平台的质量。
2.4 系统安全性设计
数据库技术基础教学平台系统在安全设计上, 使用权限通过角色和用户来实现。角色分为:系统管理员、从事数据库教学的老师、学习数据库的学生、以及普通老师。
各个角色所拥有的权限如下:系统管理员:拥有所有的权限。从事数据库教学的老师:拥有添加、删除、修改、浏览、查询和下载等权限。学习数据库的学生和普通老师:浏览、下载、查询等权限。
3 系统开发工具与数据库选择
3.1 开发工具的选择
在教学平台开发过程中, 考虑到开发工具功能的强弱以及是否具有简单易用的开发界面, 采用了A SP.NET。ASP.NET提供了更易于编写、结构更清晰的代码, 这些代码很容易进行再利用和共享, 同时ASP.NET使用Web表单使开发更直观, 利用面向对象技术促进组件的再利用, 另外, 供ASP.NET使用的库以及在Microsoft.NET框架中允许通过Web使用客户商用函数, 为程序员提供了更多新的开发机会。ASP.NET完全基于模块与组件, 具有更好的可扩展性与可定制性, 数据处理方面更是引入了许多激动人心的新技术, 有效缩短了web应用程序的开发周期。。
3.2 数据库设计
数据库软件是整个软件系统的关键所在, 它的性能在很大程度上确定了系统软件的性能。在系统开发的过程中, 精心设计了这部分软件。首先, 在数据库规划方面, 考虑到程序的可扩充性以及在网络方面的应用, 故以SQL Server数据库为软件的数据库。
4 结论
经过一年时间的调研、开发的数据库技术基础教学平台系统已在我校数据库技术基础教学投入运行, 系统功能齐全, 满足业务要求;用户界面美观、操作使用方便;对用户使用权限进行了有效控制, 系统安全性好, 达到了预期目标。并针对教学过程使用时出现的需求对系统进行了完善, 反应良好, 使数据库技术基础的教学管理水平上了一个新台阶。
参考文献
[1]刘源, 何玉香, 宋金桥, 刘琳.基于ASP.NET的网络教学网站设计与实现[J].网络与信息, 2009 (4) .
[2]高祖彦.基于ASP.NET的网络教学系统设计与实现[J].恩施职业技术学院学报, 2010 (2) .
基础数据挖掘技术 篇11
[关键词]电力营销;基础数据;质量;提升
一、提升营销基础数据质量的意义
国家电网公司自SG186营销业务系统成功上线应用后,公司以SG186营销业务系统为技术支撑,努力推行客户档案信息化。但目前营销基础数据存在信息不完整、不规范、不准确,客户基础信息不准确,计量信息不完善等问题,严重影响和制约营销GIS系统、线损管理系统、短信系统等各类营销信息系统的深化应用,影响营销管理与优质服务水平的提升,必须从根本上改善数据质量,夯实营销管理基础,助力营销管理水平提升,抓实营销基础数据清理工作,消除数据多口径产生的冗余,强化过程管控和结果稽查,实现营销基础数据现场、信息系统、纸质三统一。
二、提升营销基础数据质量的主要做法
(一)基础数据现场普查
现场客户纸质资料收集
针对企业客户需收集营业执照、组织机构代码、税务登记证、法人身份证、电工证件的复印件以及客户联系人电话,停电联系人信息及电话;针对机关、事业单位客户需收集组织机构代码、电工证件的复印件以及客户联系人电话,停电联系人信息及电话;针对低压用户需收集身份证以及联系电话。
现场客户电子资料收集
电子资料的收集是指用望远设备观察记录相关设备及用相机拍摄客户现场相关设备。主要拍摄各电气设备的铭牌、用户搭火点的线路及杆号。
(二)数据整理
把现场收集的数据按时间,台区等统一的格式分类整理,务必做到“颗粒归仓”。并将于营销GS186核对的结果,按照错误类型分类归纳整理,形成对比文档。对各普查组现场普查回的数据及相关图片资料进行归纳整理,规范文档管理,记录各数据项修改前后情况。分阶段将已经收集现场数据的台区、客户信息绘制成网络拓扑图,与历史地理接线图、GIS系统、SG186营销业务应用系统等信息比较,确认是否有遗漏区域没有数据普查收集。
严格按照“三统一、五拓扑”的目标任务,即按照“现场、系统、纸质档案”统一的总体要求,清理“站-线-变-箱-户”五级拓扑关系,通过现场数据采集、系统数据修正、纸质档案修订三个步骤,确保营销基础数据完整性、准确性、一致性达100%。以满足营销业务系统、辅助决策系统、营销GIS系统等各类信息系统对数据质量的应用需求,为全面提升客户服务能力和营销精益化水平提供重要的手段和工具。同时,公司进一步细化了清理标准、规范,明确了站、线、变、箱的命名规则,现场数据采录要求,保障了公司数据的统一性、规范性。
按照营配基础数据清理工作部署及安排,结合自身情况,完全依靠自有力量,全面自主实施营销用电客户基础数据清理工作,确保目标任务的全面完成。一是建立市县所三级业务培训机制,及时掌握操作步骤及要点,确保市、县、所均有“普查能手”,组织开展用电客户数据清理培训工作;二是实行倒排工期,签订责任人。各县公司、供电所就所清理的用电客户、配网设备,按照进度要求制定了倒排工期表,落实了责任人,明确了工作目标及任务,保障按期完成。三是召开营销工作专题推进会。今年营销工作任务重、时间紧,为此公司召开了营销工作专题会,分析清理工作存在的实际问题及难点,提出切实解决问题的办法。五是攻坚克难,全力自主。营销基础数据清理工作任务重,时间紧,要求高,各县供电公司实行“白天跑现场、晚上传数据”,“利用周休日,集中录数据”等方式,以提高清理进度,保障工作质量。
(三)数据修改
数据修改应采取现场清理和系统修改同步进行,前期现场清理利用手工纸质档案对现场情况进行清理,进行现场数据与机内数据的逐项比对,并对比对差异结果在普查设备内进行修正。对涉及电费计算的关键信息的应按日常档案维护流程修改数据,其他信息则根据现场检查结果,修改营销SG186系统数据。同时,系统内数据修改时间点应充分考虑现有业务的开展,防止在数据修改过程中影响正常的营销业务。
(四)问题沟通及处理
对现场普查中发现存在重大安全隐患、严重数据偏差、违约用电或窃电的情况,应做好相关记录,发现违约用电或窃电应及时通知用电检查人员调查处理。
建立电力生产和电力营销信息共享机制:电力生产部门在线路拆除、异动后应及时将修改信息反馈到电力营销部门进行客户信息修改,电力营销部门应定期将客户的基本资料信息与生产部门共享。
(五)数据质量源头控制
严控数据质量源头,严格遵循营销基础数据标准,做好对新增基础数据录入在准确性、完整性和规范性方面的管控,杜绝旧问题数据未梳理整改,又产生新的问题数据的恶性循环。同时利用信息技术建设营销问题数据源头防范及控制软件,实现新增、变更营销数据的实时规范验证。问题形成时,业务办理人员能够得到实时提醒,监控中心人员能够实时督促业务办理人员即时纠正错误;定期按核查规则、部门、人员分析新增问题发展趋势,可以实施有效的预防措施;按单位、人员统计分析新增问题和问题即时整改情况,可以进行有效的数据质量管理和考核。
三、建立长效的数据质量管控机制
一是要建立数据质量管控的相关制度,从源头入手,落实到工作业务流程中的每个部节,把握标准,规范程序,避免和防止在业务操作过程中产生错误,对数据更新、数据清理等做出相应规定。
二是要加强的数据质量的监督,建立岗位监督机制,明确各级职责分工,发现问题要及时整改纠正,严格把关,确保数据质量准确无误。
三是要加强营配基础数据清理实施进度及质量管控、安全风险防范,公司成立了营配基础数据清理办公室,负责公司整体工作计划及统筹安排,定期每周发布工作周报,通报各单位实施进度情况、数据质量情况、存在的主要问题、下周工作计划及工作重点等内容。成立质量督查组,主要负责督查各县公司数据清理进度、现场安全巡查、数据质量抽查,督导各单位质量整改。
四、结束语
通过机内数据、纸质资料及现场数据的全面普查,实现电网资源完整及准确,实现专变、公变台区信息的及用户基础档案信息的高度完整准确,实现计量资产信息的机内核查规则筛选,实现电网资源及用户的机内、纸质、现场数据三统一,建立数据质量管理长效机制,从源头上管控数据,全面提升营销基础数据质量。
参考文献
[1]简桂林.电力系统营销模式与自动化建设[J].中国高新技术企业,2010,(6).
[2]罗国忠.关于建立电力营销数据分析系统[J].供电企业管理,2008,(1).
基础数据挖掘技术 篇12
为了适应能源互联网发展趋势及日益复杂的运行环境,针对以电网为核心的能源互联网这一复杂网络属性,有效融合信息物理系统理念、多源信息采集,并在大数据相关技术支撑下开展适用于大型能源互联网的分析、控制及大数据应用模式研究,以便增强能源互联网多源信息采集的深度挖掘和广泛利用,为能源互联网提供更强的分析与表达能力,更精确地全面感知复杂能源网络的运行态势,并为更高效的实时优化控制打下基础,从而全面提升能源互联网智能化水平,助推能源互联网核心业务创新和价值创造。
与会专家共进行了以下9个专题的报告:①薛禹胜(国网南瑞集团):关于因果分析与统计分析深度融合的探索;②王继业(中国电力科学研究院):大数据在电网领域的探索与实践;③张剑云(国家电网调度控制中心):特高压交直流电网安全形势与需求—大电网安全综合防御体系设计;④李柏青(中国电力科学研究院):信息驱动的能源互联网全景安全防御概念及架构;⑤穆钢(东北电力大学):基于数据的电力系统运行特征分析初探;⑥毕天姝(华北电力大学):复杂电网动态相量监测技术与系统实时状态感知;⑦郭庆来(清华大学):信息能量系统综合安全评估与运行知识发现;⑧邱才明(上海交通大学):高维统计分析及其电网大数据—随机矩阵理论框架;⑨吕金虎(中国科学研究院):复杂网络的控制与识别及其在智能电网中的应用。