数据标准化处理方法(通用11篇)
数据标准化处理方法 篇1
数据标准化处理方法
2011-11-04 10:36:44 来源: 作者: 【大中小】 浏览:2749次
统计上综合经济实力测评经常用到数据的标准化处理。那么什么是数据标准化处理? 数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性,在此我们采用指数化处理方法。指数化处理以指标的最大值和最小值的差距进行数学计算,其结果介于0-1之间。具体计算公式如下:zi=xi-xmin/xmax-xmin其中:zi为指标的标准分数xi为某镇某指标的指标值xmax为全部镇中某指标的最大值xmin为全部镇中某指标的最小值经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。
数据标准化处理方法 篇2
热电偶是温度测量仪表中常用的测温元件, 它可直接测量温度, 热电偶测温的基本原理是两种不同成份的材质导体组成闭合回路, 当两端存在温度梯度时, 回路中就会有电流通过, 此时两端之间就存在电动势——热电动势。
根据JJG 75-1995《标准铂铑10-铂热电偶检定规程》要求, 对二等标准铂铑10-铂热电偶 (以下简称“标准热电偶”) 检定结果应提供整百度热电动势, 另外在检定廉金属热电偶时, 需要用到标准铂铑10–铂热电偶在整百度时的热电动势, 有时甚至需要知道某个温度时对应的热电动势。由于在计算热电动势时, 其计算公式中的系数有效位数较多, 手工计算很麻烦, 容易出差错, 目前多采用计算机软件编程计算方法。本文介绍一种应用Excel电子表格实现标准热电偶整百度热电动势的计算方法, 不需要通过复杂的计算机软件编程计算, 又能实现数据处理并保证计算精度。以供参考使用。
2 计算方法
根据JJG 75-1995:“附录1: (300~1300) ℃温区内标准热电偶热电动势E (t) 和温度t之间关系的计算方法”。
式中:
E (t) ——e (t) 标准E铂r (t铑) 10-铂热电偶的热电动势, m V;
△e (t) ——热电偶热电动势E (t) 与热电偶参考函数表的热电动势Er (t) 的差值, m V;
Er (t) ——S型热电偶参考函数表中温度t时的热电动势, m V。
根据标准热电偶检定结果:锌、铝、铜三个温度点热电动势, E (tZN) 、E (tA1) 、E (tcu) , 及热电偶分度表值:Es (tZN) =3.44689m V、Es (tA1) =5.86013m V、Es (tcu) =10.57480m V, 计算△e (tZN) 、△e (tA1) 、△e (tcu) 为:
利用JJG 75-1995附录1中提供的a、b、c系数计算公式计算。
式中:
△e (tZN) 、△e (tA1) 、△e (tcu) 分别为锌点、铝点、铜点热电偶的热电动势差值。
3 Excel运行计算
将计算的a、b、c系数与查S型热电偶参考函数表Er (t) 值计算E (t) 的值, 也就是某支标准热电偶在温度t时对应的热电动势。为了便于实际方便计算, 本文利用Excel电子表格就很快反映其热电偶整百度的热电动势。如某支S型二等标准铂铑10-铂热电偶, 其检定结果E (tZN) =3.447m V、E (tA1) =5.861m V、E (tcu) =10.584m V, 根据JJG 75-1995要求编制电子表格计算热电偶整百度的热电动势 (见下表) 。
在实际检定时, 方便地利用Excel电子表格根据不同计量检定规程需要编制热电偶整百度的热电动势, 建立各种热电偶的热电动势计算的Excel电子表格。只要根据每次不同检定结果:锌、铝、铜三个温度点热电动势E (tZN) 、E (tA1) 、E (tcu) , Excel电子表格就很快反映其热电偶整百度的热电动势, 如某支S型二等标准铂铑10-铂热电偶, 其检定结果E (tZN) =3.443m V、E (tA1) =5.855m V、E (tcu) =10.571m V, 则热电偶整百度的热电动势计算如下表。
4 结束语
基于标准DLG入库数据加工处理 篇3
关键词:DLG 地形图 数据检查
一、引言
目前,有些地区是1:1万无图覆盖区,在基础测绘地形数据生产的时候,既要生产纸质地形图满足用图需求,又要生产DLG的GIS入库数据以满足应用需求。这两种数据前期均在GeoWay3.6平台上加工生产。
二、基本思路
紧密结合生产实际在现有生产的基础上,对DLG数据生产技术工艺流程进行改进,开发标准DLG入库数据批量处理及重点内容检查系统软件,使生产得DLG入库数据统一规范,进一步保证数据质量,提升地理信息数据库建设生产效率,加快基础地理信息数据库建设进程。
三、技术路线及实现方法
系统整体技术路线如下:(图一)
1. 在Geoway下导出E00格式数据之前,对Geoway数据进行整理。
(1) 图层属性整理
由于在图形处理的过程中由于多次拷贝、删除,可能会造成图形与数据库中的属性不一致,通过图层属性整理,可以去掉属性数据库中的冗余,实现图属的一致性。
(2) 方案整理
方案整理是对历史数据进行整理或对现有数据进行整理输出不同数据结果,并且能批处理多个工程。
(3) 固有属性转出
导出GIS数据前,一般需要将对象的某些固有属性值转出到指定的属性字段中,这样既免去手工对字段赋值的麻烦,又可与导出数据格式的属性处理机制相对应。其中字段名称为方案中已有的字段,且该字段必须在图层上。如果符合操作条件的对象上缺少相应字段、字段类型不符合要求、或获得的值超出字段设定范围,则程序不做处理且给出错误报告提醒用户。
(4)固有属性整理
固有属性转出后,可能需要对部分属性值进行整理和修改,如编码修改、有向点方向调整等。整理时取值方式有按实体值和按属性值两种,按实体值整理时,将取实体值按规则处理后存在指定字段中;按属性值整理,则取指定字段中的值,处理后替换原来的属性值。按实体值方式可以避免因属性值被修改或属性值没有及时更新等问题造成结果错误现象。
2. 设置好各项符合入库需求的参数,如地物类及高程等字段输出类型及宽度,然后用Geoway导出E00格式数据。
3. 在ARCGIS环境下用AML语言开发批量处理及重点内容检查系统软件。重点对DLG的数学基础、数据完整性、逻辑一致性、数据接边等做全面检查处理并重新拓扑要素关系,完全满足基础地理信息数据库建库要求。
数学基础检查包括数据的大地基准、高程基准、地图投影方式、分带情况是否符合数字线划图产品标准的要求。数据完整性检查包括数据分层的正确和完整性、属性项定义的正确和完备性,检查数据范围的正确性,检查要素属性项是否完整、顺序是否正确。逻辑一致性检查包括各层层名是否正确;检查属性项定义、属性项之间关系;检查拓扑关系是否正确,编辑完后是否重建拓扑关系。检查DLG数据与相邻图幅的图形和属性接边是否正确。数据接边为了能够满足接边要求在ARCGIS平台下利用相邻对象橡胶耦合功能对所有数据进行接边处理,对于图内的悬挂点、伪结点等进行处理。数据批量处理及重点内容检查系统具备如下的基本功能:
(1) 数据转换,包括E00转换批量转换成Coverage和 Coverage批量转换成E00,以便提高转换效率及避免人工操作造成的错误。
(2) 投影定义,Geoway导出E00后原投影信息丢失,需要重新定义。可根据不同比例尺数据重新定义。
(3) 数据自动接边,提供相邻图幅自动接边功能。只需输入图号,批量将两个Coverage数据层在0.02米范围之内进行自动接边,如果接边要素偏差较大,需人工干预处理。
(4) 换带接边,如果图幅跨带,将需要换带接边的数据进行转换后接边,自动进行接边。自动接边后,将数据再转回。
(5) 数据整理,将Geoway導出的数据剔除多余的特征,符合ARCGIS数据标准要求。之后对点、线、面要素进行重新拓扑,从而建立正确的拓扑关系。
(6) 必要的重点内容批量数据检查,包括图层名及图层数检查、接边情况、属性数据完整性及逻辑一致性等内容检查。接边检查,将要进行接边的数据拼接合并,检查接边情况和面层合并后产生不必要的破碎面等。利用code码为0功能进行非正常属性值检查。查找作业过程中产生的破碎小短线并删除。对数据的悬挂点进行检查是否正常,同时对不必要的伪节点查询修改。
四、结束语
通过一系列的数据批量整理与检查,使得基础测绘在同时生产两种数据的情况下,既能满足地形图数据规范要求,又能保证生产的DLG数据规范统一,确保DLG数据成果质量同时极大地提高生产效率。
参考文献:
数据标准化处理方法 篇4
为解决雷测数据中的.随机误差分离问题,本文建立了雷测数据自由节点B样条非线性最小二乘表示的数学模型,介绍了确定样条节点数的方法,将弹道参数的求解问题分解为线性最小二乘的参数估计问题和非线性优化的求解问题,并通过求解最优节点和弹道参数实现了测量数据野值点的剔除、重构和随机误差分离.工程实践表明,该方法简化了数据处理过程,有效地提高了雷达准实时数据处理的精度.
作 者:张广兴 吴振军 作者单位:92941部队,辽宁,葫芦岛,125000 刊 名:飞行器测控学报 ISTIC英文刊名:JOURNAL OF SPACECRAFT TT&C TECHNOLOGY 年,卷(期):2009 28(5) 分类号:V557 关键词:准实时数据处理 自由节点 最小二乘拟合 随机误差 野值★ 测斜测读方法有那些?
★ 应用于飞机健康管理的数据挖掘方法研究
★ 研究方法怎么写
★ 压力检测仪表常用的测压方法是什么?
★ sybaseiq1.6下数据load方法
★ 飞行计划冲突预探测算法研究
★ 利用海洋磁力梯度数据重建总场的方法研究
★ 高职数据统计课程设计研究论文
★ 大数据时代管理会计研究论文
数据标准化处理方法 篇5
多种数据源地理信息处理的Internet GIS 方法
介绍了多种数据源获取、管理和地理信息处理的Internet GIS方法和用这种方法设计的Internet GIS 的原理及功能特征.
作 者:袁相儒 龚健雅 陈莉丽 韩海洋 Yuan Xiangru Gong Jianya Chen Lili Han Haiyang 作者单位:武汉测绘科技大学测绘遥感信息工程国家重点实验室,武汉市珞喻路129号,430079刊 名:武汉测绘科技大学学报 ISTIC EI PKU英文刊名:JOURNAL OF WUHAN TECHNICAL UNIVERSITY OF SURVEYING AND MAPPING(WTUSM)年,卷(期):199924(1)分类号:P208关键词:Internet GIS方法 互操作性 Java/JDBC 客户/服务器
数据标准化处理方法 篇6
1 数据处理算法研究
随着人工智能科学的深入发展,对智能控制的研究已演变成多元层次、树层次与子层次递阶控制的模式。有学者将遗传算法与人工神经元网络算法结合,分别提出了“基于人工神经元网络的遗传算子自学习”和“基于权值进化的人工神经元网络”的思想体系。也有学者对遗传算法、人工神经元网络算法和免疫算法三者的集成进行了研究。其主要的思想是对外界环境学习、自适应功能由人工神经元网络算法完成,算法参数的调节、升级功能由遗传算法完成,算法对环境适应性的评价由免疫算法完成。智能算法的多元化意味着算法复杂度的上升,同时也意味着编程难度和软件潜在故障率的上升。是否采用多元智能算法及如何采用多元智能算法,需要根据系统性能要求和设计精度进行相关的评估。
1.1 多元算法的研究
多元算法已经成为当前数据挖掘技术和数据处理中重要的方法之一,而求解多元算法模型的关键问题是如何确定回归系数和模糊测度。针对以往使用遗传算法确定回归系数和模糊测度时间复杂度高和收敛速度较慢的问题,使用一种高效的搜索算法——粒子群算法求解基于广义Choquet-积分的多元非线性回归模型,分别在人工数据和真实数据上进行实验,对粒子群算法和遗传算法进行比较.结果表明,用粒子群算法求解该模型不仅比遗传算法收敛速度快,而且还能搜索到比遗传算法更优的解。
1.2 数据流工程正则算法的研究
数据流工程正则算法的研究以形式化的方法研究数据流分析的基本原理,给出了数据流表达式的概念。并在此概念的基础上,研制出一个数据流异常的数据流分析算法。算法要求通用性强,运用本算法不难开发出相应的程序,根据标准工程的特点研发“正则集的代数”算法并形成表达式,进而完成编写代码。
正则集的代数”算法格式如/abc/,其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容,正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
较为常用的元字符包括:“+”,“*”,以及“?”。其中,“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次,“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次,而“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。这也是项目的创新点。
1.3 标准工程算法
主要研制出符合标准化GB/T 1.1-2009要求的工程算法及20多个重点子算法。如:GB/T 321优先数和优先数系及ISO图形算法。通过国标规定,建立数据库,然后通过数据挖掘技术方法建立研究算法,然后依数据分析技术建立数据模型,最后完成算法代码。标准工程用到的数据挖掘技术算法(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知识的过程。嵌入式线性算法技术主要用在数据处理、解释、结果呈现上面。
2 建立多元企业标准数据处理分析编写系统的开发设计
2.1 系统的架构设计
软件分为多层架构,即客户交换层—中间元数据交换--数据存储层,并为设计、开发、集成和部署软件平台应用提供基于组件的方法。在硬件上实现灵活多样,即可用一台计算机(单机)来实现所有的功能,也可以分为客户端、应用服务器和DataBase数据服务器等网络系统来实现,提高了执行和运算的效率。这种方法不但能降低成本,还能对整个设计和实施过程进行快速跟踪。
2.2 系统的安全设计
本集成系统平台具有功能完善的信息交换式管理界面(如图1所示),安全的系统嵌入式接口和强壮的用户管理,整个软件系统是一个完整的统一整体平台,密不可分。使用加强的MD5口令算法加密,各模块之间紧密集成与子程间具有防拷贝功能。
2.3 系统的功能设计
如图2为制定标准的首页输入界面,第一功能区,即黑色圈与黑色键头为封面头信息;第二功能区,制定标准与修订标准选择区,选择追随技术设置,即图中浅蓝色区;第三功能区为标准编号、标准中文标题、标准英文标题输入区,即图中的深蓝色区;第四功能区为发布单位、发布时间、实施时间区,即图中淡蓝色区;第五功能区为目次、引言选择区。
如图4为前言编辑页面具有制定与修订不同前言提示功能、具有提出单位、归口单位、起草单位下拉选择可编辑功能,而参加起草单位具有是否选择和下拉选择功能双重可编辑功能的,具有批准单位、编写人与参加编写人编辑输入等功能。具有预览功能。如图3为新制定的标准及有参加标准起草单位选择的窗口输入情况。
如图4为范围与引用文件可选设计,引用文件的选择具有树型及部分文字引用文件的多种检索方式,引用文件原文查看,多项次引用文件修改功能。
如图5正文全功能编辑,进入正文编辑功能前具有程序转换与提示功能,具有控制窗口与正文Word窗口双双并列编辑功能,其中控制窗口具有最上面的窗口功能,控制窗口具有显示编辑工具、隐藏编辑工具、正文保存、正文关闭、再打开正文、重置窗口、退出提示功能等。正文窗口具有退出功能被屏蔽,只能从控制窗口选择退出,功能菜菜单、标题样式、内容样式、标准单位输入等四大工具菜单120多项功能。如图24所示,出现两个窗口,一个为正文编辑功能的控制窗口,另一个为Word编辑窗口,其中Word编辑窗口的关闭功能已失效,但可随时存盘,关闭退出功能必须由控制窗口来操作。两个窗口都有“显示工具”与“隐藏工具”按钮,功能完全一样,主要是为了操作方便而设的。
3 结束语
“多元企业标准数据处理分析编写系统的开发设计”的软件设计规范,操作简单灵活,适应性强,易学易用。它是由系统平台管理模块、数据库管理模块、标准编写起草模块、标准编写修改模块、标准编写标准生成模块、与word集成模块、Windows API控制模块、数据导出模块、数据导入模块、内存优化管理模块及众多算法模块有机地集成在一起而成的综合系统。它具有程序设计算法的创新性及国际软件编程的先进理念,软件投入使用可减轻企业标准制定者的疲劳强度及软件学习的效率,提高企业标准编写质量及标准制定的工作效率。软件的推广使用,得到了企业标准制定人员的良好应用与用户好评,在石油行业企业标准制定中,获得良好的工作效率、经济效益和社会效益,为整个石油行业生产质量节能工作做出贡献。
摘要:在当今的企业中,标准领先的企业都是该行业中居于主导地位的,决定着行业发展趋向。多元企业标准算法已经成为当前数据挖掘技术和数据处理中重要的方法之一,而求解多元算法模型的关键问题是如何确定回归系数和模糊测度。“多元企业标准数据处理分析编写系统的开发设计”是集管理技术、格式化文档处理、多项算法技术、海量级数据处理技术于一体的多元企业标准编写与数据处理分析应用开发系统。
关键词:多元智能算法,智能处理技术,神经元网络技术,差分嵌入编程技术,数据挖掘技术
参考文献
[1]马有志.钻井多元数据分析处理系统的开发设计[J].计算机应用研究,2008(25):2005.
[2]马有志.动态测井曲线公式计算器的研究设计[J].计算机应用学报,2006(24):3.
数据标准化处理方法 篇7
摘 要:随着工程建设事业的蓬勃发展,检测技术手段的无损化成为检测的主流要求,但现阶段,检测数据的分析处理手段与解释方法发展不足,使其在实际工程中的应用空间尚不足,本文根据国内研究现状列举并分析对比了几种锚杆(固)无损检测数据处理方法。
关键词:锚杆;相位;Hilbert变换;小波分析
中图分类号: TU757 文献标识码: A 文章编号: 1673-1069(2016)27-187-2
1 研究目的和意义
当下,工程事业蓬勃发展,各类人工隧道、高边坡等高难度大深度工程越来越普遍。锚杆(固)作为边坡支护的重要手段在基础建设更高更深的大背景要求下使用越来越频繁,已在路、洞、桥、站、基坑等工程施工中得到广泛应用。近年来,然后检测无损化进程方兴未艾,检测人员在摸索中前进,故对于锚杆、锚固检测数据的分析与处理方法的研究就表现得尤为重要。
2 研究现状
当今国内,对锚杆(固)国内技术人员和相关专家,最常见的处理分析手段是能量对比法[1]。该项方法分两个思路,一是在锚杆(固)体系中,广义波阻抗在锚固段从首至末由大而小,声波能量沿锚固段轴向衰减存在下述近似数学关系A=Aoe-ax,该式中的能量衰减系数的幅值就成为了锚杆(固)质量评价的分级依据。二是使用标准锚杆的一维模型为基准,检测并保留其各段幅值曲线数据作为标准值,把实际检测的锚杆检测所得的相应指标逐段与标准曲线相比较,把比较差值而非衰减系数作为了锚杆(固)质量评价的分级依据。以上两种方法都是直观对比,完全以传播能量在各区的强度作为评价依据,因此,该类处理思路一般对锚固体系的轴向性状变化做定性分析,由于能量分布和衰减会受到噪声影响,该手段一般很少能准确地判断出缺陷存在的具体位置和幅度。汪明武等利用计算机算法优势将BP神经网络分析的方法用于对该类数据的分析与处理[2],其选定、对比和运算的特征值仍然是锚固及自由端长度、声波衰减及吸收系数等能量参数,虽然能利用计算机更强大的运算能力进行更加精细的对比计算和幅度衡量,但是仍然受到信噪比的限制使得处理结果精度受限。
3 研究方法
3.1 时域分析
时域分析是利用由实测波形在时域内的传播特性(主要是声波在波阻抗差异位置的时域幅值变化),来评价锚杆施工质量,具有易操作、快速、直观等优点。当波在理论上的各向同性介质中传播时(锚杆分析一般是近似一维分析),波的传播速度、幅值均被认为保持不变;但当波在这类介质中遇到波阻抗差异点(对于本文的锚杆检测数据即是指断裂、夹泥、离析、缩颈等浇筑差异导致的质量问题)中传播时,声波将发生反射、透射和散射等,波的传播速度和幅值将在奇异点发生变化,在几何地震学中,该变化认为是反射角度的变化和反射信息的增多;在物理地震学中则表现为波场能量的重新分配;这都将导致反射波中携带奇异点信息,这些信息会在返回到杆顶传感器并理论上在时域谱上显示。
时域分析法类似于低应变动测法的常用数据分析思路,具有快速直观的特点,但是缺点是时域信号容易受到干扰,信噪比低,因此定量分析的抗噪能力和精度有待提高[3]。
3.2 常规频谱分析
以往,对于锚杆(固)质量弹性波检测工作的信号处理,常规频谱分析采用的是地球物理常用的谱分析思路,即Fourier变换、高、低、带通滤波、自和互相关等经典滤波理论,解释工作基本上是以频谱幅度为主、相位为辅一般进行定
性-半定量分析,由于滤波参数的选择具有地区性,固比较依赖该地区当地技术人员的经验[4][5]。
以Fourier分析为代表的常规频谱分析,将3.1中讨论过现场初采的时域信号通过Fourier变换为频谱数据,再从其中分频段分析,亦常谓之的稳态的信号分析(部分学者把其当作广义的一种频域的滤波)。利用复杂问题近似简化的思路,将锚杆注的浆和其周围耦合围岩看成是加载在其之上的荷载,这样锚杆加上灌浆、围岩这一三维的复杂体系便成功的简化成了一维杆体法线向受均匀变化轴力的体系[6],而断裂、夹泥、离析、缩颈则全部变成了轴向广义阻抗的变化。在这一思路的指引下以幅度谱为君相位谱为臣的定性-半定量分析,成了他域(信号分析)成熟理论之于我域(锚杆检测)“老瓶装新酒”的创新应用实例。
傅里叶分析是信号频域分析处理之基石,原理清晰明了,相比时域分析具有更强的抗干扰能力,但是算法收敛慢,对于非稳态信号的分析不够精确。
3.3 基于Hilbert变换的时频分析
Hilbert变换又称90O相移滤波,其基本原理是将实信号变换为自己定义的复信号,即将实信号u(t)看成是复信号z(t)的实部,通过Hilbert变换得到对应的复信号的虚部v(t),然后分析该复信号的瞬时振幅、瞬时相位及瞬时频率等[7]。按下述计算:
基于Hilbert变换的时频分析,用快速傅里叶变换的方法实现,具有算法结构简单,时间复杂度低,收敛迅速,对频域信号瞬时振幅、瞬时相位和瞬时频率的识别更准确等特点,是对常规频谱分析的一个加速和改进,但并未解决固有缺陷[8]。
3.4 小波时频分析
經典的Fourier变换作为信号处理之基提供了一个从时域到频域的变换,但二者在Fourier变换中是分离的:时域中难以准确提取频域信息;反之频谱如音乐之乐谱,仅表示各个分频能量之于总能量的权重,通常不能提供建立谱分量之时间权重(理论上该信息通过相位谱可计算,但通常来说仅仅较难计算准确)。非稳态信号 在时域的突变会如完整的乐谱增加了数个音符而影响整个频谱分布规律。因此,锚杆(固)常得到的非稳态信号业内尝试了更新的信号处理理论——小波时频分析法[9][10]。
该方法用新的思维将信号以相平面为基在其上多尺度分解,借助Matlab等数学工具用不同的小波基成功地将时频作为整体处理,其优势有二:一是比之Fourier变换小波变化的时频统一性宛如将乐谱分为多阶,从而其抗干扰能力更强,避免被局部奇异影响整体。二是其能量集中特性[11]使得在多尺度下的分解后,能量按奇异信号程度(对应锚杆的缺陷大小)在有限范围内进行重新的更少散射更集中的分布,这就保证了对于奇异信号(缺陷)的刻画更精细,从而对于我们从定性-半定量分析最终未来实现准确的定量分析指出了一个很好的方向。
小波时频分析是比较新的分析思路,是锚杆(固)质量检测由定性向定量转变的重要一步,但算法还需进一步优化以提高其稳定性并降低其时间复杂度。
4 结论
本文列举并分析对比了几种锚杆(固)无损检测数据处理方法,为当前无损检测的主流处理方法,各种方法都有其优点和弊端,在实际的工作中需要根据数据的特点加以灵活使用,准确的判断锚杆(固)的质量,从而保障工程质量。
参 考 文 献
[1] 汪明武,王鹤龄.声频应力波在锚杆(固)状态检测中的应用[J].地质与勘探,1998,34(4):54.
[2] 汪明武,罗国煜,王鹤龄.应力波无损检测锚固质量的BP网络分析[J].水文地质工程地质,1999(2):50.
[3] 李张明.锚杆(固)质量无损检测理论与智能诊断技术研究[D].天津:天津大学,2007.
[4] 夏代林.锚杆(固)质量快速无损检测技术研究[D].焦作:焦作工学院,2000.
[5] 科恩L,白居宪,译.时频分析——理论与应用[M].西安:西安交通大学出版社,1998.
[6] 任智敏.锚杆(固)质量无损检测研究[D].太原:太原理工大学,2007.
[7] 王富春,李义,孟波.动测法检测锚杆(固)质量及工作状态的理论及应用[J].太原理工大学学报2002,33(2):169-172.
[8] 秦莹.基于系统动力响应的锚固结构无损检测及模型试验研究[D].武汉:武汉理工大学,2009.
[9] 孙涛,刘晶璟,孔凡,万平.小波变换和希尔伯特——黄变换在时频分析中的应用[J].中国水运(理论版)2006,4(11):111-113.
[10] 肖国强,刘天佑,周黎明,王法刚,杨宇山.小波多尺度分析在岩石锚杆质量弹性波无损检测中的应用[J].长江科学院院报,2006,23(4):67-70.
数据库数据处理故事多 篇8
这两天别人总在问我,你们基础出了什么问题,为什么总在导数据。数据没问题,为了做足准备,我们需要将8期版的最全的数据整理到10期数据库中。
背景介绍:问题在于从8期版基础系统到10期版基础系统在数据库设计方面有了很大的变化,例如10期学生表中存放着班级外键,而8期表中是用第三张表来维护关系的。10期的‘上课班’ 中需要课程和老师的关系,而再8期表中需要多个表才能将其关联起来。 20来张表,各种外键关联,最多的一个表存50多万条数据,怎么做,怎么做快 是摆在我们面前一个迫切需要解决的问题。
故事一:
由于8期表间都是通过第三张表联系起来的。而像1:n的关系10期表基本都是外键之间关联的。
例如,我想在10期表添加学生信息(包括学号,姓名,班级外键等)。我需要先从8期学生表中导出学生信息(不含班级外键)再从班级和学生的第三张表中导出学生和班级的关系,然后一一对比将两个表整合到一张表上去。
这样做是我们最初最天然的想法,当然效率低而且人工核对出错率极高。于是我们改用PlanB。在数据库中建立学生和第三张表的视图,然后将视图导出到excel。
故事二:
建立视图的时候,我们又遇到另一个问题。将两个表联合起来,发现学生总共为22052行,而视图总数为22191 行。如果数据没问题的话,这是不应该出现的。因为按道理来说,学生和班级两个表的n:1关系, 而且表数据无冗余。应该无论做链接还是右链接数据都是一样的。
于是我们用了一个查询语句 select ClassID from BasicClassEntities where ClassID not in(select ClassID from BasicStudentEntities)先原谅我用了这样一条效率低的查询语句。我们查出来有正好139个班级里面没有学生。后来再研究发现原来这里面有100多虚拟行政班( 是为考试留的),也真的有三个班是由于人为失误没有加上关联,
利用表和表之间的关系查询,是真的可以检查错误的,此处就不一一列举了。
故事三:
我想到了之前的一道面试题。于是自己建表实践了一下。如题是:A表有5条数据,B表有8条数据。如果两个表有3条公共数据,那么分别用交叉连接,左右连接能得到多少条数据。vcD4KPHA+yrXR6dK7o7rI5828PC9wPgo8cD5zdHVkZW50ILHtwO+1xMr9vt2hoyAgICAgICAgICAgICAgICAgCiAgICAgICB0ZWFjaGVyse3A77XEyv2+3TwvcD4KCjxwPjxpbWcgc3JjPQ==”www.2cto.com/uploadfile/Collfiles/0601/2015060110063584.png“ width=”260“ height=”132“ alt=”">
通过学生表和教师表分别进行右左连接,如图所示。
实验二:如图 在此基础上,将3条公共数据 改为不是一一对应,现在是有两个ID一样都和学生同一ID一致。
显示结果如下。
看!显示内容如下
故事四:
第一次将整理好的数据excel 复制到数据库中的时候,我们采取的方法是将excel字段和数据库字段设置成一致的然后之间 ctrl+c 再ctrl +v 。结果2万多学生需要10多分钟才能导入进去。于是我们利用数据库自带的导入excel功能,发现即便是50万数据也能瞬间搞定。只是导入后会新生成这样一个表。
然后从表数据到另一个表上 使用语句 insert into BasicStudentEntities select * from BasicStudentEntities$ 也是秒秒钟的事。
数据标准化处理方法 篇9
关键词:系统工程;标准化;数据通信与管理;海洋观测
1引言
数据标准化处理方法 篇10
关键词:沉降监测;数据分析;地铁
1、引言
作者简介:王彦伟(1979-),男,辽宁葫芦岛人,硕士研究生,主要研究方向为变形监测与预报。
E-mail:18944230@qq.com
收稿日期:
随着“十二五”规划纲要的颁布,中国的城市轨道交通已经进入了快车道发展,尤其是地铁建设速度已经达到了世界前列。据建设部统计,15个城市近期建设规划了61 条线路,共长1700 km,目前已开工建设1000 km 线路,已建成运营581 km线路,按规划还有约1 200km 线路在今后10 年左右內建成,据预测,到2020年,城市地铁及轻轨总里程将达到2500km,大约30个城市将发展成以地铁交通为主的节能型城市[4]。地铁的施工通常都在大中型城市的地下空间,这些地段高层建筑物密集,地下管线纵横交错[5]。在施工过程中会导致周围建筑物和管线的形变,通过对变形监测的数据分析可以有效的检验形变的稳定性,能够做到早期可防,中期可控,后期可治理。
目前,城市规模的不断扩大,超高层建筑物层出不穷,国内外对地铁施工引起的建筑物的变形越来越重视,通过不断改进监测手段,不断更新监测仪器,其数据处理的方法也具有高精度、高可靠性[8]。
2 建筑物沉降监测内容
地铁施工对沿线环境的变形监测包括对地面建筑物的倾斜、沉降监测,对燃气,热力和大直径上水污水等管线变形监测[3]。本文着重研究地铁施工过程中对沿线高层、超高层建筑物的影响、产生相应的沉降形变及沉降数据处理。首先对于变形监测点应设于被观测的关键建筑物和主要设施上,根据建筑物变形结构分析所需要的关键部位进行观测点的布设,如在建筑物的外墙角、内窗边角、立柱等突出部位布设。基点的埋设方法与地表下沉监测的埋设方法相同。同时要求监测点稳定,持久(图1)。
建筑物沉降监测是采用精密水准测量的方法,要求其已知的高程控制点远离地铁施工影响的地域范围(一般应距施工中线35m以外),且高程控制点不少于3个,然后在被监测的建筑物周围布设垂直位移监测控制网,此控制网可布设成闭合附合或结点水准路线等形式。同时,还应制定监测的时间间隔,在施工前,每15天进行一次监测,在施工期间,每3天进行一次监测,如果局部沉降量较大,还应缩短监测时间间隔,可每天监测一次。在施工后期到运行期仍要每30天进行一次监测,直到建筑物沉降量趋于稳定。此外,建筑物沉降的变形监测还应遵循“三固定”的原则,即固定仪器,固定人员,固定观测线路。
3 沉降监测的精度要求及分析
沉降监测需要采用具有良好稳定性和时间性的水准点。对于地铁建设沿线的重要建筑物、重要厂房以及高层、超高层建筑物,有必要建立相应的监测闭合导线,使用精密水准仪与精密水准尺进行观测,使其能够反应出毫米级的沉降量,闭合差不得超过± mm(n为测站数),观测宜在上午10点之前及下午4点以后进行。
沉降监测的水准网也可采用符合导线或闭合导线分段监测,每段往返高差误差值不得超过M限=±2Mw (Mw为采用水准测量等级千米级高差中数的权中误差,L为附合或闭合测段长度)。沉降监测的精度要求,要根据具体监测的预计变形值及相关的监测规范(表1)来确定。通常,观测的目的是为了确保在地铁施工期间及运行后沿线建筑物的安全,其观测中误差应小于允许变形值的1/10—1/20。
4 工程实例
苏州轨道交通一号线I-TS-16标区间包括星湖街站~南施街站,左右线全长约2194.4单线延米,区间隧道主要在翠园路下穿行,翠园路道路下地下管线密集,主要分布在隧道线路方向两侧,主要有电信及有线电视的通讯光缆,污水及雨水管道,路灯管线、天燃气输送管道。场地地形较平坦,无滑坡、泥石流、岩危等不良地质状况。本标段邻近建筑物主要为里程DK23000~DK23185的园区电信大楼,其建筑物主体距盾构右行中心线距离为9.4m。
电信大厦的变形监测点均布设在建筑物的特征点处,有角点、立柱点等。这些点能够反映出建筑物的大体变形情况(图2),根据施工阶段某期的变形监测数据(表2),可以通过AUTOCAD等软件生成沉降等值线,沉降等值线可以了解沉降分布情况以及是否均匀沉降[1]。图2可以看出J1-J2和J3-J4之间几乎无等值线穿过,而J1-J8之间等值线较为密集,对沉降等值线分析表明J1-J2及J3-J4之间为均匀沉降,J1-J8之间的沉降差较大,J8沉降最为严重。J1-J8之间的距离L=9.4m,由于为直接观测得到相应点的高程值,则设定差异最大容许值:
这个误差符合相应的国家测量规范(三等变形监测规范,高程中误差为0.5mm)要求,但沉降中误差值较大,应引起注意。如果连续多期监测数据均体现出此类问题,不加以重视,地表上层建筑物就会出现倾斜、断裂等事故,所以应采取相应的预防、治理措施。
对建筑物的沉降监测另外的一种手段是收集“纵向”监测数据,通过MATLAB等软件进行图形化处理,对所得到的拟合曲线进行对比,分析,可以对过去被监测点数据的分析;对现在被监测点监测频率的合理安排以及对被监测点未来监测到的数据进行正确预判。例如:取J1—J8连续监测18期变形监测数据,生成2次拟合曲线(如图3)[2]。可以看出J1—J8均趋于稳定,且沉降差值逐渐变小,这样的曲线则表明目前施工安全,对过去的治理行之有效,并可以为后期预警提供有效支持。
5 结 语
本文以苏州地铁一号线的施工建设为例,利用沉降等值线、时间沉降量曲线以及误差精度评定,在建筑物沉降监测的数据处理中取得了较好的效果,具有早期预警、数据可视化和精度标准高等优点。对地铁工程施工的设计方案具有重要的利用价值。
参考文献
[1]胡振琪. 应用工程测量学 [M].煤炭工业出版社, 2008. 282-307
[2]姚东. MATLAB命令大全 [M].人民邮电出版社, 2000. 245-278
[3]GB 50308 1999 .地下铁道 轻轨交通工程测量规范 [S].中国质量监督局, 中华人民共和国建设部, 1999
[4]钱七虎. 中国地下工程安全风险管理的现状_问题及相关建议 [J].岩石力学与工程学报, 2008,27(4):649-655
[5]晏远见. 城市地铁施工中的变形监测 [J].测绘技术装备, 2007,9(1):35-36
[6]苏州轨道一号线I-TS-16标盾构区间施工安全监测方案 [S], 2009
[7]郑志勇. 高大建筑物沉降监测的方法及精度分析 [J].地矿测绘, 2005,21(3):20-21
[8]王晓华. 变形监测研究现状综述 [J].测绘科学, 2006,31(2):130-132
[9]陈健. MATLAB在变形监测数据处理中的应用 [J].城市勘测, 2009,(2):130-133
[10]白迪谋. 工程建筑物变形监测和变形分析 [M].西安出版社, 1987
数据标准化处理方法 篇11
DEA(Data Envelopment Analysis,数据包络分析)是一种基于被评价对象间相对比较的非参数技术效率分析方法。这一分析方法由美国的Charnes、Cooper和Rhodes于1978年首次提出[1]。由于DEA适用范围广,特别是在分析多投入、多产出的情况时具有特殊的优势,因而其应用范围迅速拓展,目前已涵盖工业、农业、商业、行政、教育、卫生、体育等各个领域,DEA已从最初的一种分析方法发展成为一门融汇了数学、运筹学、管理学、计量经济学和计算机科学的重要工具[2,3]。
DEA效率分析结果与投入和产出指标所采用的单位无关,即单位不变性,是其优点之一。单位不变性是指效率测量的无量纲(dimensionless )特征,它是DEA效率测量方法需要满足的条件之一[4,5]。CCR、BCC等径向DEA模型[6,7,8]和SBM(slack based measure)等非径向DEA模型的效率测量均符合单位不变性的要求[5,9,10,11]。方向距离函数模型是对径向模型的推广[12,13,14]。在方向距离函数模型中,可以由研究者自定义被评价DMU往前沿上投影的方向,在欧氏空间中,该方向由方向向量所决定。通过定义不同的方向向量,可以使被评价DMU投影到前沿上的任意一点,当定义的方向向量指向坐标系的原点时,方向距离函数模型等价于径向模型。方向距离函数模型主要有两方面的作用:一是可以由研究者通过定义方向向量来指定投入和产出指标改进的方向;二是能够方便地处理存在非期望产出(undesirable outputs,例如生产过程中废气的排放)的情况。但方向距离函数存在的一个问题是,到目前为止,其效率测量尚未解决单位不变性(units invariance)问题。单位不变性问题是制约方向距离函数及新的DEA效率测量方法发展的一个障碍。本文提出的DEA数据标准化方法是解决DEA效率测量的单位不变性问题的通用方法, 不仅适用于方向距离函数的效率测量,也适用于任何新的DEA效率测量方法,这为方向距离函数模型的应用和DEA效率测量方法的发展创造了条件。
2 DEA数据标准化方法及其性质
径向DEA模型对效率的测量之所以不受投入和产出单位的影响,是因为效率的测量采用的是被评价DMU与其目标值相比,各项投入或产出需等比例改进的程度。在非径向模型中,效率测量放松了“等比例”改进的限制,但效率测量采用的仍然是比值,是各项投入或产出需改进的比例的平均值,所以非径向模型的效率测量结果也不受投入和产出单位的影响。
DEA的效率测量一般采用算术平均方式,虽然对其他的计算方法,例如二次平均和广义平均,也有探讨,但是受到DEA线性规划方法和单位不变性问题的限制,效率值的算法难以实现[15,16]。如果在建立DEA模型之前,对数据做适当的无量纲化变换,则采用变换后的数据所建立的DEA模型的效率测量结果一定是与投入和产出数据的单位无关的,这可以为拓宽DEA模型效率测量方法的发展消除障碍。这种无量纲化数据变换需要满足以下条件:
①数据变化后,现有的径向和非径向DEA模型的效率测量结果应保持不变;
②对于具有单位不变性的DEA模型,采用变换后的数据建立的DEA模型的结果应能够进行反变换,经过反变换后的分析结果与采用原始数据建立的DEA模型的分析结果完全相同;
③变换后的数据所代表的意义应易于理解。
从上述思路出发,本文建立以下DEA数据标准化方法:
假设有n个DMU,每个DMU都有m种投入和q种产出,被评价DMU的投入和产出向量分别为x0和y0,任意DMUj的投入和产出向量分别为xj和yj,标准化之后为
j=1,2,…,n
上述DEA数据标准化实质是投入和产出数据分别采用被评价DMU的投入和产出数值作为测量单位,可以看作是投入产出数据单位的改变。因此,凡是具有单位不变性的DEA效率测量方法(包括径向和非径向模型),在采用标准化数据后,其效率分析结果保持不变。
与一般的数据标准化方法“一对一”的变换方式不同,DEA数据标准化采用的是“一对多”的变换方式,每个DMU均有各自的标准化数据集,如果有n个DMU,就相应的会有n个标准化数据集。
DEA数据标准化具有以下性质:
①DEA数据标准化是无量纲化变换,即对于同一数据集,无论投入和产出指标采用什么单位,其标准化数据是相同的。
②被评价DMU的投入向量和产出向量标准化后变为所有元素均等于1的向量。
③针对同一数据集建立的径向DEA模型和非径向DEA模型,采用原始数据和采用标准化数据的效率值相同,其松弛变量存在固定的数量关系:
s:采用原始数据的松驰变量;
④DEA数据标准化在被评价DMU的投入产出改进值、目标值(投影值)和效率值之间建立了明确的关系。
采用原始数据的投入导向CCR模型表示为:
采用原始数据的产出导向CCR模型表示为:
在径向DEA模型(例如CCR模型)中,投入指标的径向改进值和松弛改进值表示为负值,产出指标的径向改进值和松弛改进值表示为正值。投入和产出指标的原始值、径向改进值、松弛改进值和目标值之间的关系为:目标值=原始值+径向改进值+松弛改进值,即
Xλ=x0+(θ-1)x0+(-s-)
Yλ=y
采用标准化数据后,投入导向CCR模型表示为:
采用标准化数据后,产出导向CCR模型表示为:
在采用标准化数据的径向DEA模型中,由性质(2)知,被评价DMU的各项投入和产出指标值均为1,从而有
在投入导向模型中,各项投入指标的径向改进值相同,等于1-θ; 在产出导向模型中,各项产出指标的径向改进值相同,径向改进值等于φ-1。
采用原始数据的混合导向(non-oriented)规模收益不变(constant returns to scale,CRS)非径向(slack based measure,SBM)模型表示为:
采用标准化数据后,混合导向CRS-SBM模型表示为:
在采用标准化数据后,非径向模型的无效率程度表示为松弛改进的平均值。
表1用示例数据说明了DEA数据标准化的方法及其分析结果。共有7个DMU,两项投入(x1和x2)和一项产出(y)。以投入导向CRS模型,被评价DMU为G为例,数据标准化方法为所有DMU的投入、产出数据除以G的投入、产出值,即x1j标准化为x1j/x1G, x2j标准化为x2j/x2G,yj标准化为yj/yG. G的投入和产出向量在标准化之后各元素均为1。采用原始数据和标准化数据的效率值相等,在径向模型中,径向改进值(-0.31)表示无效率的程度,在非径向模型中,松弛改进值(-0.20和-0.50)的均值(-0.35)表示无效率的程度。
3 方向距离函数模型的效率测量方法
方向距离函数模型是对径向DEA模型的推广,其线性规划方程定义如下(v和u分别表示投入和产出方向向量):
在方向距离函数模型中,不同方向向量决定着无效率DMU的投入和产出指标不同的改进方向,进而获得不同的目标值(在前沿上得到不同的投影点),从而得出不同的效率值。方向向量的方向同时也反映了在效率测量中各项投入产出指标的相对重要程度。图1以采用标准化数据的投入导向CRS方向距离函数为例演示了不同方向向量对效率测量的影响。横坐标代表单位产出所消耗的x1的数量,纵坐标代表单位产出所消耗的x2的数量,当方向向量与横坐标平行时,例如v=(1,0),改进指标仅涉及x1,同时效率值完全取决于x1的无效率程度;当方向向量与纵坐标平行时,例如v=(0,1),改进指标仅涉及x2,同时效率值完全取决于x2的无效率程度;当方向向量由(1,0)向(0,1)过渡时,例如由v1改为v2, x1的作用逐渐减小, x2的作用逐渐增加。
在对方向距离函数的实际应用中,通常取被评价DMU的投入和产出向量作为方向向量,这种情况下,方向距离函数模型与径向DEA模型等价,反映无效率程度的β值满足单位不变性的要求。当方向向量取其它数值时,β值不满足单位不变性要求,目前国内外文献中还没有提出满足单位不变性要求的效率测量方法,这限制了方向距离函数的应用。
DEA数据标准化为建立满足单位不变性要求的方向距离函数效率测量方法提供了条件。在此基础上,将采用DEA标准化数据的方向距离函数模型效率值的测量方法定义如下:
式中, βv和βu表示投入和产出向量的无效率程度,在计算投入和产出的无效率值时,采用了其算术平均值。方向距离函数模型是径向模型的推广,在式中当投入方向向量v取被评价DMU的投入数值,即v=(1,1,…,1),产出方向向量u取0向量时,方向距离函数模型等价于采用标准化数据的投入导向径向DEA模型,效率值θ=1-β; 当投入方向向量v取0向量,产出方向向量u取被评价DMU的产出数值,即u=(1,1,…,1),方向距离函数模型等价于采用标准化数据的产出导向径向DEA模型,效率值θ=1/(1+β)。采用方向距离函数(8)计算的效率值与采用径向模型(1)~(4)计算的效率值完全一致。
定理1 针对同一数据集建立的方向距离函数模型,如果改变方向向量的长度而保持向量的方向不变,则效率值保持不变。
证明 设投入和产出的方向向量由v和u分别变为变为bv和bu(b为正实数),在欧氏空间中,向量的方向没有改变,长度变为原来的
用α=βb做替换:
式(10)与式(9)等价,故得出的效率值保持不变。
定理2 针对同一数据集,式(8)与式(11)等价。
证明 在标准化数据中,被评价DMU的投入和产出向量元素值均为1,由式的约束条件可得出
在β的取值范围内,式(11)的分子是单调递减函数,分母是单调递增函数,故在β的取值范围内,θ是单调递减函数,式(11)与式(8)等价。
式(11)为非线性规划,所以在实际应用中应采用式(8)计算方向距离函数的效率值。在式(11)的基础上,还可以对投入和产出指标在效率测量中的相对重要性进行进一步加权处理:
w:投入的权重向量;h:产出的权重向量。
上述效率测量方法可以推广到存在非期望产出的情况,具有非期望产出的方向距离函数模型定义如下:
q′:非期望产出向量维度,即负面产出指标的个数;h′:非期望产出的权重向量;u′:非期望产出的方向向量;ω:期望产出指标的总体权重;ω′:非期望产出指标的总体权重。
4 算例
利用表1中的示例数据,以投入导向CRS方向距离函数模型为例,给出采用不同方向向量时各DMU的效率值。分析工具为MaxDEA 5.0软件,效率计算采用式(8)。
5 结束语
单位不变性是DEA研究领域所公认的DEA效率测量方法需要满足的条件之一。由于DEA标准化数据是无量纲化的,具有单位不变性,即无论投入和产出指标采用什么样的单位,其DEA标准化数据保持不变,所以采用DEA标准化数据后任何形式的效率测量都能符合单位不变性的要求。DEA数据标准化方法是效率测量保持单位不变性的通用方法,它为新的DEA效率测量方法的发展创造了条件。以此为基础建立的方向距离函数效率测量方法,在保持了与径向和非径向模型效率测量结果一致的前提下,解决了方向距离函数效率测量的单位不变性难题。