离散数据

2024-05-26

离散数据(精选9篇)

离散数据 篇1

一、选择题

1.某市5月份连续五天的日最高气温(单位:℃)分别为:33,30,30,32,35.则这组数据的平均数和中位数分别是().

A. 33,32 B. 32,30 C. 31,30 D. 32,32

2. 如图是某位射击选手5次射击成绩的折线图,根据图示信息,这5次成绩的众数、中位数分别是( ).

第 2 题图

A. 7、8 B. 7、9

C. 8、9 D. 8、10

3. 在2015年5月某市教育局举行的“经典诗朗诵”比赛中, 有11名学生参加决赛.他们决赛的成绩各不相同,如果一名学生想要知道自己能否进入前6名,不仅要了解自己的成绩,还要了解这11名学生成绩的().

A. 众数B. 中位数C. 平均数D. 方差

4. 甲、乙、丙、丁四人进行射击测试,每人10次射击成绩平均数均是9.2环,方差分别为,则成绩最稳定的是( ).

A. 甲B. 乙C. 丙D. 丁

5.某公司招聘一名公关人员,对甲、乙、丙、丁四位候选人进行了面试和笔试,他们的成绩如下表所示:

如果公司认为,作为公关人员面试的成绩应该比笔试的成绩更重要,并分别赋予它们6和4的权.公司将录取().

A. 甲B. 乙C. 丙D. 丁

二、填空题

6.有一组数据:3,a,4,6,7.它们的平均数是5,那么这组数据的方差是_______.

7.已知杭州市某天六个整点时的气温绘制成的统计图,则这六个整点时气温的中位数是_______.

8.为了了解一路段车辆行驶速度的情况,交警统计了该路段上午7∶00至9∶00来往车辆的车速(单位:千米/时),并绘制成如图所示的条形统计图.这些车速的中位数是_______千米/时,众数是_______千米/时.

第 7 题图

第 8 题图

9. 期末考试后,办公室里有两位数学老师正在讨论他们班的数学考试成绩. 何老师:“我班的学生考得还不错,有一半的学生考80分以上,一半的学生没考到80分.”李老师:“我班大部分的学生都考在85分-90分之间.”依照上面两位老师所叙述的话,你认为何老师所说的话是针对_______,李老师所说的话是针对_______.(填“平均数”、“中位数”、“众数”)

第 10 题图

10. 如图是根据今年某校九年级学生体育考试跳绳的成绩绘制成的统计图.如果该校九年级共有200名学生参加了这项跳绳考试,根据该统计图给出的信息可得这些同学跳绳考试的平均成绩为_______.

三、解答题

11. 八(1)班五位同学参加学校举办的数学素养竞赛.试卷中共有20道题,规定每题答对得5分,答错扣2分,未答得0分.赛后A,B,C,D,E五位同学对照评分标准回忆并记录了自己的答题情况(E同学只记得有7道题未答),具体如右表.

(1)根据以上信息,求A,B,C,D四位同学成绩的平均分.

(2)最后获知A,B,C,D,E五位同学的成绩分别是95分,81分,64分,83分,58分.

1求E同学的答对题数和答错题数;

2经计算A,B,C,D四位同学实际成绩的平均分是80.75分,与(1)中算得的平均分不相符,发现是其中一位同学记错了自己的答题情况.请指出哪位同学记错了,并写出他的实际答题情况.(直接写出答案即可)

12. 九(3)班为了组队参加学校举行的“五水共治”知识竞赛,在班里选取了若干名学生,分成人数相同的甲乙两组,进行了四次“五水共治”模拟竞赛,成绩优秀的人数和优秀率分别绘制成如下统计图.

根据统计图,解答下列问题:

(1)第三次成绩的优秀率是多少?并将条形统计图补充完整.

(2)已求得甲组成绩优秀人数的平均数甲组=7,方差s2甲组=1.5,请通过计算说明,哪一组成绩优秀的人数较稳定?

第 12 题图

第 13 题图表

13. 我市某中学七、八年级各选派10名选手参加学校举办的“爱我荆门”知识竞赛, 计分采用10分制,选手得分均为整数,成绩达到6分或6分以上为合格,达到9分或10分为优秀.这次竞赛后,七、八年级两支代表队选手成绩分布的条形统计图和成绩统计分析表如图所示,其中七年级代表队得6分、10分的选手人数分别为a,b.

(1)请依据图表中的数据,求a,b的值;

(2)直接写出表中的m,n的值;

(3)有人说七年级队的合格率、优秀率均高于八年级,所以七年级队成绩比八年级队好,但也有人说八年级队成绩比七年级队好.请你给出两条支持八年级队成绩好的理由.

14. 为选派一名学生参加全市实践活动技能竞赛,A、B两位同学在校实习基地现场进行加工直径为20 mm的零件的测试,他们各加工的10个零件的相关数据依次如下图表所示:

第 14 题图表

根据测试得到的有关数据,解答下列问题:

(1)考虑平均数与完全符合要求的个数,你认为_______的成绩好些;

(2)计算出sB2的大小,考虑平均数与方差,说明谁的成绩好些;

(3)考虑图中折线走势及竞赛中加工零件个数远远超过10个的实际情况,你认为派谁去参加比赛较合适?说明你的理由.

参考答案

1. D 2. A 3. B 4. D

5.B提示:根据加权平均数算得甲、乙、丙、丁的最终成绩分别为87.6,88.4,87.2,86.6.

6. 2提示:由一组数据的平均数是5,得a=5,再利用方差公式得数据的方差为2.

7.15.68.(1)60,(2)709.中位数,众数

10.175.5提示:平均成绩为180×22%+170×27%+175×26%+178×25%=175.5.

答:A,B,C,D四位同学成绩的平均分为82.5分.

(2)1设E同学答对x题,答错y题.由题意,得

答:E同学答对12题,答错1题.

2C同学,他实际答对14题,答错3题,未答3题.

12. 解:(1)因为第一次成绩优秀的人数是11人,优秀率为55%,所以选取的学生总人数为.所以第三次成绩的优秀率是. 因为乙组第四次成绩优秀的人数为20×85%-8=9(人),所以将条形统计图补充完整如右.

(2)乙组成绩优秀人数的平均数为.因为两组成绩优秀人数的平均数相同,甲组成绩优秀人数的方差小于乙组成绩优秀人数的方差,所以甲组成绩优秀的人数较稳定.

13.解:(1)依题意得:

(2)m=6,n=20%.

(3)1八年级队平均分高于七年级队;2八年级队的成绩比七年级队稳定;3八年级队的成绩集中在中上游,所以支持八年级队成绩好.(注:任说两条即可)

14.(1)B.

(2)由统计图可知,∴B的波动性小,即B的成绩较好些.

(3)派A去参加比赛较合适.理由:从图中折线走势可知,尽管A的成绩前面起伏较大,但后来逐渐稳定,误差小,预测A的潜力大,派A去参赛更容易出好成绩.

离散数据 篇2

1.(2011重庆潼南中考)4.下列说法中正确的是()

A.“打开电视,正在播放《新闻联播》”是必然事件

B.想了解某种饮料中含色素的情况,宜采用抽样调查

C.数据1,1,2,2,3的`众数是3

D.一组数据的波动越大,方差越小

2.(2011衢州市中考)3、在九年级体育中考中,某校某班参加仰卧起坐测试的一组女生(每组8人)测试成绩如下(单位:次/分):44,45,42,48,46,43,47,45.则这组数据的极差为()

A、2B、4C、6D、8

3.数据0、1、2、3的标准差是()

A.1B.2C.3D.4

4.样本方差的计算式S2=[(x1-30)2+(x2-30)]2+…+(xn-30)2]中,数字20和30分别表示样本中的()

A.众数、中位数B.方差、标准差

C.样本中数据的个数、平均数D.样本中数据的个数、中位数

5.(2011湘潭市中考)2.数据:1,3,5的平均数与极差分别是()

A.3,3B.3,4C.2,3D.2,4

6.一组数据的方差为S2,将该数据每一个数据,都乘2,所得到一组新数据的方差是()

A.B.S2C.2S2D.4S2

7.已知一组数据:-1,x,0,1,-2的平均数是0,那么,这组数据的方差是()

过度离散型数据的统计模拟与分析 篇3

关键词 过度离散;车险索赔次数数据;负二项模型;广义泊松模型

中图分类号 O212.1 文献标识码 A

1 引 言

保险公司在进行费率厘定时,需要建立索赔次数模型与索赔强度模型,在实际应用中,车险索赔次数数据常常出现过度离散现象,亦即观察值方差大于均值的情况.刻画车险索赔次数数据最常用的是泊松模型,但当数据存在过度离散现象时,泊松模型不再适用,这时可以用负二项模型或者广义泊松模型替代泊松模型,结果能从一定程度上改善过度离散问题,但不是所有的情况都适用.杨肇和朱凯旋针(2003)、郭海强等(2005)对logistic回归中的过度离散现象,通过调整协方差以及用估计的离散参数影响参数估计和参数的标准误来调整回归系数的假设检验结果,结论得到一定的改善[1-,2];Noriszura Tsmail和Abdul Aziz Jemain(2007)用负二项模型与广义泊松模型作了实证研究,他们对一组特定的理赔次数找到了合适的模型[3];同年,Richard Berk和John MacDonald对泊松模型和负二项模型进行了讨论,得出,在犯罪学应用中用负二项模型去替代泊松模型不是任何情况都适用[4];之后的一些文献讨论了过度离散现象的检验,也将过度离散模型运用到了不同的领域,杨娟(2013)等基于一组真实的B2C商务数据,比较了泊松模型、负二项模型、Tweedie模型对此数据的拟合效果、预测效果以及对过度离散的刻画[5];可见,过度离散现象在理赔次数中是普遍存在的,因此,为数据寻求合适的模型是必要的.

本文将考虑在不同过度离散程度条件下,基于均方误差准则、偏差准则、AIC准则与BIC准则,对Poisson,NB,GP三种模型的优良性进行比较研究,为过度离散数据寻求合适的模型.

2 基本模型

2.1 泊松回归模型

对计数数据进行分析通常采用的最基本的模型是泊松模型,设随机变量Y服从Poisson分布,记为Y~Poisson(μ),则概率密度函数为:

3.3 结果分析

首先,在均方误差与偏差准则下对3个模型进行比较研究,如图1所示,当n=50,μ=1时,Poisson模型、NB模型、GP1模型的均方误差都随着离散程度的增大逐渐减小,且3个模型的均方误差完全相等,其值都非常小;偏差在零的附近波动,且3个模型的偏差完全相等,其值接近于零,可以得出,3个模型对于参数估计,效果都很好,实际应用时,择一即可.随着样本量n以及均值μ的增大,亦即n=50,μ=2、n=100,μ=1、n=100,μ=2的情况,结论与n=50,μ=1时类似,说明3个模型在参数估计上差别不显著,如果只是针对参数估计,那么3个模型择一即可.而就Poisson模型来讲,针对过度离散车险索赔次数数据,虽然其参数估计值与NB模型、GP1模型差别不明显,但它会低估参数的标准误与增大参数的显著性水平,所以在数据存在过度离散现象时,Poisson模型要慎用[5].

其次,对3个模型进行拟合优度检验,如图2所示,当n=50,μ=1时,Poisson模型、GP1模型的AIC值逐渐减小且随着离散程度的增大趋于平稳,NB模型的AIC值逐渐增大且随着离散程度的增大也逐渐趋于平稳;GP1、NB模型整体优于Poisson模型;当θ<0.5时,NB模型优于GP1模型,当0.5<θ<0.8时,NB模型与GP1模型几乎无差别,当θ>0.8时,NB模型优于GP1模型.样本量n=50不变,均值增大到μ=2时,结论如图3所示,可以看出,模型AIC值变化趋势和μ=1时一致,说明数据均值变化对模型的优良性没有影响,同样,当n=100,μ=1、n=100,μ=2的情况,结论也类似,说明样本量n的变化对模型的优良性也没有影响.对于BIC值,其变化趋势与AIC值大致相同,这里不再赘述.

4 结 论

本文应用Monte Carlo模拟方法比较研究了Poisson模型、NB模型、GP1模型对于不同离散程度的车险索赔次数数据的拟合效果,并且对3个模型的优良性进行了比较研究.得出以下结论:1)从模型参数估计值来看,Poisson模型、NB模型、GP1模型3个模型之间没有显著的区别,如果只是参数估计,三者择一即可,但当数据存在过度离散现象时,用Poisson模型去拟合过度离散数据会低估参数的标准误与增大参数的显著性水平,出现较大的模型偏差,所以Poisson要慎用;2)由模型拟合优度检验来看,NB模型与GP1模型整体优于Poisson模型,当θ<0.5时,NB模型优于GP1模型,此时选择NB模型较好;当0.5<θ<0.8时,NB模型与GP1模型几乎无差别,二者择一即可;当θ>0.8时,NB模型优于GP1模型,此时选择NB模型较好;并且模型选择与样本量n、均值μ的大小无关.

参考文献

[1] 杨肇,朱凯旋.Logistic回归分析中的过度离散现象及纠正[J].中国卫生统计,2003(4):48-49.

[2] 郭海强, 程大丽,黄德生,等.Logistic回归中数据过度离散及其软件处理[J].中国医科大学学报,2005(2):144-145+166.

[3] Noriszura ISMAIL, Abdul Aziz JEMAIN. Handing overdispersion with negative binomial and generalized poission regression models[C]//Proceedings of Casualty Actuarial Society Forum,2007:102-158.

[4] Richard BERK, John M.MACDONALD. Overdispersion and Poisson regression [J]. Journal of Quantitative Criminology, 2008,24 (3):269-284.

[5] 杨娟,谢远涛.基于过度离散广义线性模型的来电量预测[J].统计与决策, 2013(6):33-36.

[6] Jiewu HUANG, Hu YANG. A twoparameter estimator in the negative binomial regression model[J]. Journal of Statistical Computation and Simulation, 2014,84(1):124-134.

离散试验数据三维图形可视化处理 篇4

关键词:数学插值,等值线,云图,可视化,计算机技术,离散试验数据

1 概述

在我国油田开采区域, 通常是用蒸汽辅助重力泄田技术进行稠油开采。在设计稠油采收方案和工艺流程时, 通常通过建立三维比例物理试验模型方法, 对注入蒸汽油层温度场、压力场等的变化进行连续监控, 并实时采集相关的试验数据[1]。计算机数据采集和试验测试技术作为一种高效可靠的试验研究分析手段, 被广泛地应用于石油开采中[2]。

为了连续动态监控试验模型内部 (油层样本) 三维温度场等的发育和变化情况, 需要在模型内部设置大量的传感器点, 数据采集的时间步长从几秒钟到几十分钟, 需要采集和处理的数据量也很大。本文采用传感器测点网格层非均匀优化布置, 传感器网格节点对应析算优化方法, 大量减少使用传感器的数量。通过非线性数学插值算法将传感器测点的测量值映射到试验模型的网格单元节点上, 用等值线和云图形式描述出离散试验数据。

本文基于面向对象的程序设计方法, 应用VC++和Open GL作为主要开发工具, 开发出对稠油采收的三维比例试验模型中获得的离散数据进行三维图形可视化处理的软件系统。

2 网格划分

网格划分包括三部分:一是试验模型空间网格划分;二是传感器网格层非均匀优化布置;三是传感器测量点对应折算优化布置。

2.1 试验模型空间网格划分

本文采用八节点六面体单元三维网格单元。六面体单元不仅在处理离散点的映射插值方面具有更高的效率, 而且数据结构简单, 能获得很好的插值计算精度。

2.2 传感器网格层非均匀优化布置

在本文使用的试验模型中, 高温、高压蒸汽从试验模型底部某一对角线两端A和B位置注入。温度、压力等在底部附近变化比较剧烈, 并形成一个不断扩展的蒸汽腔。随着蒸汽腔不断向上向内扩展, 温度、压力也随之降低, 变化也较为缓慢。本文采用了传感器测量层非均匀优化布置, 即在靠近底部区域, 传感器测量层布置的密一些;在靠近顶部区域, 布置的疏一些, 如图1所示。

2.3 传感器测量点对应折算优化布置

在蒸汽注入点A、B处, 注入蒸汽的温度、压力是相同的, 可以认为在某些传感器测量层上各对应点的温度场、压力场及其变化情况也是相同的。利用这一对应性, 可以在一侧传感器测量层网格节点上设置传感器;另一侧对应节点上不设置传感器, 这些节点的数据可通过对应折算获得。

3 离散数据数学插值

形函数插值:

形函数法是目前实体插值领域最重要的一种算法, 被应用于等高线的生成。美国学者D.Sulsky是物质点法MPM (Material Point Method, MPM) 的创始人, 他提出了对离散点采用形函数法向固定的背景网格进行插值计算的理论[3]。当传感器测量点网格为规则的八节点六面体网格单元时, 采用MPM法的形函数可以实现离散数据测量点向三维试验模型网格单元节点的插值计算。这种插值方法运算速度快、插值精度高, 能够生成高质量的等值线和云图。待插值点的值由八个离散点值共同决定。

在图2中, N1~N8为八个离散数据点, 中间的P点为待插值点。

形函数法的优点是计算速度快、插值精度和平滑度好, 在大规模离散数据插值中有突出的优势。缺点是当离散数据点不规则分布或非均匀分布时, 构造形函数比较复杂。

4 等值线绘制

等值线在科学研究及工程领域中有广泛的应用, 如航空测量中的等高线地形图, 应力应变场中的等效应等值线图等。与图表、曲线等数据处理方法比较, 等值线和云图更加直观和高效。本文采用等值线和云图对稠油蒸汽辅助热采三维试验模型离散试验数据进行图形可视化处理。

4.1 等值线生成网格选择

在三角形网格单元内绘制等值线算法比较简单, 等值点计算、等值线追踪及走向搜索也相对容易。相对于四边形网格单元的等值点追踪要简单很多, 而且等值线之间也不会产生相互交叉[5]。因此, 本文采用三角形网格单元绘制等值线。

为此, 首先对测量数据向六面体网格单元各节点进行插值映射计算。然后在六面体单元的每个面的四边形中间增加一个插值点5, 形成四个三角形单元。最后在形成的各三角形单元中绘制等值线。在一个三角形内绘制等值线时, 需将三个节点值 (u1, u2, u3) 按从小到大 (或从大到小) 进行排序并编号, 便于确定等值线的起始点位置及等值线的走向。

4.2 等值线绘制

设全部三角形网格单元节点值的最小值为umin, 最大值为umax, 全部等值线条数为m, 则相邻两条等值线的间隔值为:

三维试验模型包括三种坐标平面 (XOY, XOZ, YOZ) , 在每种坐标平面内绘制等值线的方法和步骤完全一样。以XOY平面为例, 绘制等值线的步骤如下:

步骤1:对于三个坐标视图内, 绘制第k条等值线, 其值为uk=umin+Δu×k, 令初始值k=1;

步骤2:接下来判断 (u1-uk) × (u3-uk) ≤0是否成立, 如果不成立, 则表示该条等值线不通过该三角形单元, k=k+1, 返回步骤1, 如果成立, 表明值为uk的等值线通过该三角形单元, 接下来就要找出等值线与三角形单元的两个交点;

步骤3:在三角形单元节点1和节点3构成的边一定有一个交点, 记为 (xk1, yk1) , 该交点坐标等于:

步骤4:等值线的另外一个交点记为 (xk2, yk2) , 判断uk≥u2是否成立, 如果成立, 表明交点在节点1和节点2构成的边上, 该交点坐标等于

如果不成立, 表明等值线交点在节点2和节点3构成的边上, 该交点坐标等于

步骤5:连结两个交点 (xk1, yk1) 和 (xk2, yk2) , 即为等值线的一部分, 如果两个交点有一个在三角形单元的边界上, 就在这个交点处记录为uk, 令k=k+1, 返回步骤1, 然后重复执行步骤1到步骤5, 一直循环到uk=umax-Δu为止, 这样在该三角形单元中所有的等值线都已经绘制完毕。对所有的立方体单元网格中的每个面的四个三角形都作如上处理, 即可绘制出所有单元的等值线。

5 填充两等值线间区域绘制云图

彩色云图是在等值线图的两条相邻等值线间填充不同颜色来表示的图形, 是图形可视化的重要方法之一。目前, 常用的云图绘制算法有好多种:根据所选择的物理量, 在网格单元上以不同颜色填充网格, 生成既简单又十分直观的量值分布彩色云图;应用扫描线算法绘制云图;Open GL自动插值绘制云图等。

本文采用两相邻等值线间的区域以不同颜色填充的方法。假设在整个区域内共有m条等值线, 则绘制云图需要m-1种颜色, 等值线的间隔值为。与等值线类似, 考查一个正方形网格, 在网格正中间设置一节点, 并对其进行插值, 依次考查形成的4个三角形, 通过三角形来画云图, 较为简单的处理办法是等值线相夹判断法, 对四边形网格中的任一个三角形单元, 将其3个顶点的值分别定义为u1、u2、u3 (按由大到小的顺序重新排列u1≥u2≥u3) , 考查相邻两条等值线经过该三角形的情况, 如图3所示。

图3中的两条线段是相邻的两条等值线, 其数值分别等于

如果满足条件uk≥u3, uk-1≤u1, 则该三角形单元有一部分或者全部区域在这两条等值线中间, 为了使用不同颜色填充等值线所构成的多边形区域, 还需要进行以下详细判断:

a.若uk≥u1, uk-1≤u3, 则该三角形单元全部区域都在这两条等值线中间, 将该三角形单元全部填充为第k种颜色, 对应图3-a;

b.若uk

c.若uk≥u1, uk-1>u3, 则该三角形单元有一部分区域在这两条等值线的中间, 找到值为uk-1的等值线与该三角形单元的交点4和5, 将所等值线夹区域填充为第k种颜色, 对应图3-c;

d.若uku3, 则该三角形单元有一部分区域在这两条等值线中间, 找到值为uk的等值线与该三角形单元的交点4和5, 再找到值为uk-1的等值线与该三角形的交点6和7, 将等值线所夹区域填充为第k种颜色, 对应图3-d。对三维试验模型的所有网格单元都作如上处理, 即可以绘制出云图。

6 比例实验模型三维温度场等值线、云图实例 (见图4、5)

参考文献

[1]田利.洼38块转换开发方式三维比例模拟技术研究[D].大庆:大庆石油学院, 2006.

[2]郑小雄.蒸汽辅助重力泄油技术的优化设计[D].北京:中国石油大学, 2007.

离散数据 篇5

一、认清本质,算对平均数

例1 (2015·广西玉林)学校抽查了30名学生参加“学雷锋社会实践”活动的次数,并根据数据绘制成了条形统计图,则30名学生参加活动的平均次数是_________.

【错误解答】 x=[3+5+11+114]=7.5.

【诊断分析】30名同学参加社会实践活动次数的平均数不仅与个人社会实践活动次数有关,还与不同活动次数所对应的人员数量有关.

【正确解答】

x=[3×1+5×2+11×3+11×43+5+11+11]=3.

二、应对中位数,排序是关键,奇偶有区别

例2 学校团委组织“阳光助残”捐款活动,九(1)班学生捐款情况如下表:

则学生捐款金额的中位数是 .

【错误解答】将捐款金额5,10,20,50排序,所以取10和20的平均数15(元);将捐款人数10,12,13,15排序,故12.5(人).

【诊断分析】对于这种求表格中数据中位数的题目,首先要看清研究对象,此处要求研究捐款金额的中位数,则确定要分析的是以元为单位的那组数据.

【正确解答】若从小到大排列,则为10个5,13个10,12个20,15个50,共有50个数,则中位数为第25、26个数的平均数,第25、26个数均为20,所以中位数是20.

三、多则为“众”,众数必存在于原数据中

(1)众数是出现次数最多的数据,而非出现的次数.

例3 某鞋店销售了9双鞋,各种尺码的销售量如下表:

计算这9双鞋尺码的众数.

【错误解答】22出现了4次,所以众数为4.

【诊断分析】本题研究对象是鞋的尺码,所以众数应围绕鞋的尺码求解.在理解上要明确出现次数最多的那个数据,而不是出现的次数.

【正确解答】这9个数据中出现次数最多的数据是22,所以众数是22.

(2) 一组数据可以同时有多个众数.

例4 10名工人,某天生产同一零件,生产的件数是:15,17,14,10,15,19,17,16,14,12,则这一组数据的众数是 .

【错误解答】15.

【诊断分析】一组数据的众数可能不止一个.求一组数据的众数的方法:找出频数最多的那个数据,若几个数据频数都是最多且相同,此时众数就是这多个数据.若每个数据都只出现一次,则这组数据没有众数.

【正确解答】题中14、15、17都出现2次,所以这组数据的众数是14、15和17.

四、极差考虑要全面,不确定时要分类

例5 已知一组数据:-1,4,6,x的极差为9,则x的值为 .

【错误解答】8.

【诊断分析】一组数据中最大值与最小值的差叫做这组数据的极差,即极差=最大值-最小值.本题中,确定的三个数据-1<4<6,6-(-1)=7<9,所以x必为最大值或最小值.当x为最小值时,6为最大值;当x为最大值,则-1为最小值 .

【正确解答】x-(-1)=9,x的值为8;6-x=9,x的值为-3.所以x的值为8或-3.

五、方差公式要熟练,重要结论要记牢

(1) 连续五个整数的方差均为2.

例6 (2015·内蒙古包头)一组数据5,2,x,6,4的平均数是4,这组数据的方差是________.

【错误解答】10.

【诊断分析】方差是反映一组数据的波动大小的一个量,通常用s2表示.计算时,经常要用到公式s2=[1n][(x1-x)2+(x2-x)2+…+(xn-x)2].记错公式及计算能力不过关是造成错误的主要原因.若能巧用“连续五个整数方差为2”这一结论,此处可起到事半功倍的效果.此结论说明如下:不妨设连续5个整数为 a-2, a-1,a,a+1,a+2,则这五个数的平均数为a,代入公式得:s2=[15](4+1+4+1)=2.

【正确解答】2.

(2)①若一组数据x1,x2,…,xn的方差是s2,则数据x1+b,x2+b,…,xn+b的方差还是s2;

①若一组数据x1,x2,…,xn的方差是s2,则数据ax1,ax2,…,axn的方差是a2s2。

③ 若一组数据x1,x2,…,xn的方差是s2,则数据的ax1+b,ax2+b,…,axn+b的方差是a2s2.

例7 (2015·贵州遵义)如果一组数据x1,x2,…xn的方差是4,那么另一组数据x1+3,x2+3,…,xn+3的方差是_______.

【错误解答】7.

【诊断分析】当一组数据同时加上或减去同一个数后,新数据的方差不变.

【正确解答】4.

本次“会诊”到此就要结束了,相信同学们可以借助诊断结论,在“作战”中灵活应用,享受不俗的作战成果!

离散数据 篇6

一、认清本质,算对平均数

例1(2015·广西玉林)学校抽查了30名学生参加“学雷锋社会实践”活动的次数,并根据数据绘制成了条形统计图,则30名学生参加活动的平均次数是_________.

【诊断分析】30名同学参加社会实践活动次数的平均数不仅与个人社会实践活动次数有关,还与不同活动次数所对应的人员数量有关.

【正确解答】

二、应对中位数,排序是关键,奇偶有区别

例2学校团委组织“阳光助残”捐款活动,九(1)班学生捐款情况如下表:

则学生捐款金额的中位数是____.

【错误解答】将捐款金额5,10,20,50排序,所以取10和20的平均数15(元);将捐款人数10,12,13,15排序,故12.5(人).

【诊断分析】对于这种求表格中数据中位数的题目,首先要看清研究对象,此处要求研究捐款金额的中位数,则确定要分析的是以元为单位的那组数据.

【正确解答】若从小到大排列,则为10个5,13个10,12个20,15个50,共有50个数,则中位数为第25、26个数的平均数,第25、26个数均为20,所以中位数是20.

三、多则为“众”,众数必存在于原数据中

(1)众数是出现次数最多的数据,而非出现的次数.

例3某鞋店销售了9双鞋,各种尺码的销售量如下表:

计算这9双鞋尺码的众数.

【错误解答】22出现了4次,所以众数为4.

【诊断分析】本题研究对象是鞋的尺码,所以众数应围绕鞋的尺码求解.在理解上要明确出现次数最多的那个数据,而不是出现的次数.

【正确解答】这9个数据中出现次数最多的数据是22,所以众数是22.

(2)一组数据可以同时有多个众数.

例4 10名工人,某天生产同一零件,生产的件数是:15,17,14,10,15,19,17,16,14,12,则这一组数据的众数是_____.

【错误解答】15.

【诊断分析】一组数据的众数可能不止一个.求一组数据的众数的方法:找出频数最多的那个数据,若几个数据频数都是最多且相同,此时众数就是这多个数据.若每个数据都只出现一次,则这组数据没有众数.

【正确解答】题中14、15、17都出现2次,所以这组数据的众数是14、15和17.

四、极差考虑要全面,不确定时要分类

例5已知一组数据:-1,4,6,x的极差为9,则x的值为____.

【错误解答】8.

【诊断分析】一组数据中最大值与最小值的差叫做这组数据的极差,即极差=最大值-最小值.本题中,确定的三个数据-1<4<6,6-(-1)=7<9,所以x必为最大值或最小值.当x为最小值时,6为最大值;当x为最大值,则-1为最小值.

【正确解答】x-(-1)=9,x的值为8;6-x=9,x的值为-3.所以x的值为8或-3.

五、方差公式要熟练,重要结论要记牢

(1)连续五个整数的方差均为2.

例6(2015·内蒙古包头)一组数据5,2,x,6,4的平均数是4,这组数据的方差是________.

【错误解答】10.

【正确解答】2.

(2)①若一组数据x1,x2,…,xn的方差是s2,则数据x1+b,x2+b,…,xn+b的方差还是s2;

①若一组数据x1,x2,…,xn的方差是s2,则数据ax1,ax2,…,axn的方差是a2s2。

③若一组数据x1,x2,…,xn的方差是s2,则数据的ax1+b,ax2+b,…,axn+b的方差是a2s2.

例7(2015·贵州遵义)如果一组数据x1,x2,…xn的方差是4,那么另一组数据x1+3,x2+3,…,xn+3的方差是_______.

【错误解答】7.

【诊断分析】当一组数据同时加上或减去同一个数后,新数据的方差不变.

【正确解答】4.

离散数据 篇7

神经网络是一种模拟生物神经系统的信息处理模型, 它具有高度自主并行处理以及自适应学习等能力, 在模式识别问题上表现出一定的优势。神经元的工作原理实际上是一系列联想、记忆、比较、推理和归纳的过程, 神经网络正是模拟这一生物机理, 解决文献检索智能识别。

1 离散Hopfield神经网络

1.1 神经网络基础

神经网络的基本单元称为“神经元”, 是对生物神经元的简化和模拟。如图1所示, 人工神经元具有多个输入信号, 它们同时输入神经元。神经元的每一个输入都有一个加权系数w, 根据每个输入的权重分配, 神经元对全部的输入信号进行整合, 以确定输入的总效果。得到输入的总效果后, 神经元会对输入进行处理, 主要体现为将总输入和偏置值进行比较以及将比较后的值进行函数的转换, 最后得到人工神经元的输出yi。

因此, [1~3]可以将人上神经元的输入输出对应关系表示为:

其中, yj为人工神经元的输出, xj为人工神经元的输入, wij为输入xi到神经元i的权重, θi为人工神经元i的阀值, f (x) 为神经元的转移函数。

1.2 离散Hopfield网络的基本原理

离散Hopfield网络是二值神经网络, [4]神经元的输出只取1和0这两个值, 它们分别表示神经元处于激活和抑制状态。

Hopfield网络是一种单层网络, 令网络由n个单元组成, n1, n2, ..., nn表示n个神经元, 这些神经元既是输入单元, 也是输出单元, 其转移特性函数为f1, f2…fn, 门限值 (阈值) 为θ1, θ2…θn。对于离散型Hopfield网络, 各节点一般选取同样的转移函数, 且为符号函数,

为了分析方便, 选取各节点的门限值 (即阈值) 全部为0, 即:θ1=θ2=…θn=0 (2.2)

同时, x= (x1, x2…xn) , x∈{-1, +1}为网络的输入;y= (y1, y2…yn) , y∈{-1, +1}n为网络的输出;V (t) = (v1 (t) , v2 (t) , …vn (t) ) , v (t) ∈{-1, +1}n为网络在时刻t的状态, 其中t∈{0, 1, 2…}为离散时间变量:Wij为从ni到nj的连接权值, Hopfield神经网络是对称的, 有

整个网络所有n个节点之间的连接强度用矩阵W表示, 显然W为n*n方阵。

Hopfield网络为一层结构的反馈网络, [3]能处理双极型离散数据 (即输入χ∈{-1, +1}) , 及二进制数据 (χ∈{0, 1}) 。当网络经过训练后, 网络处于等待工作状态, 而对网络给定初始输入X时, 网络就处于特定的初始状态, 由此初始状态开始运行, 可以得到网络输出即网络的下一状态。然后, 这个输出状态通过反馈回送到网络的输入端, 作为网络下一阶段运行的输入信号, 而这个信号可能与初始信号X不同, 由这个新的输入又可得到下一步的输出, 这个输出也可能与上一步输出不同。如此下去, 网络的整个运行过程就是上述反馈过程的重复。如果网络是稳定的, 那么, 随着许多次反馈运行, 网络状态的变化减少, 直到后来不再变化, 达到稳定状态, 此时, 在网络的输出端可得到稳定的输出, 可用以下公式表示为:

其中fj是由 ( (2.1) 定义, 为方便, 一般θj值取0。从某个时刻t之后网络状态不再变迁, [6]即有, 那么, 输出有y=v (t) 。

2 离散型Hopfield在数据检索的运用

离散型Hopfield神经网络解决数据检索智能识别的思想如下:先输入多个标准样本 (32*32) , 然后组建一个Hopfield网络, 该网络由1024 (32*32) 个神经元组成, 通过学习这些标准样本, 网络将所有样本的模式“记忆”下来, 当然, 在记忆的过程中, 各个神经元之间的权值是固定不变的。程序运行时输入加了干扰信号的样本, 网络通过对1024个神经元的目前状态进行迭代计算, “回忆”所输入的样本, 多次迭代以后, 网络逐渐稳定, 最后输出匹配输入模式的标准样本模式。

2.1 如何让计算机学习

下面给出一个单个神经元和单层网络, 把个输入和第i个神经元连接起来的权向量或者它的分量。一般来说, 第j个输入能够是别的神经元的输出或者它能够是外部的输入。

图2中每个神经元模型是与突触输入连接的处理单元和单个输出组成。神经元输入Xi的信号流是单向的, 神经元输出信号流也是如此。图2中的符号表示展现一组权和神经元处理单元或节点, 神经元输出信号由以下关系给出

其中W是权向量, 是输入向量。函数被ÁÂÁÂÁÂÁÂÁ称为激活函数, 它的定义域是神经元模型的一组激活值net, 那么我们用这个函数当做f (net) 变量net被定义成为权和输入量的点积net=WTX。

激活函数的自变量net, 是生物学神经元膜电位的模拟。假设被模拟的神经元有来自实际可变输入x1, x2, …, xn-1的n-1个实际突触连接, 还假设了xn=-1和wn=G。由于对于某些模型, 域值扮演重要角色, 有时往往需要明显地提出域值作为单独神经元模型参数。域值参数作为权重之一, 可以被包括入学习中。这将要求这些输入固定一个, 例如xn, 这里将假设如果固定xn, 它取-1的值, 即域值相当于一个输出始终为-1的单元的连接权重。

2.2 如何还原残缺或者噪声输入样本

还原就是将残缺或噪声样本恢复输入样本本来的面貌, 步骤大致如下:

首先输入残缺或者噪声的样本, 该模型中神经元实际上是一线性阈值单元, x1, x2, …, xn为该自适应线性元在t时刻的外部输入。

然后要将模式向量X的n个元素x1, x2, …, xn分别赋予与之对应的神经元, 作为相应神经元的初始状态, 即ai (0) =Xi, i=1…n。

最后在Hopfield神经网络模型中按其动力学特性sgn函数进行操作, 反复迭代, 直到收敛为止。其数学描述如下:

当整个神经网络稳定后, 神经元的输出就最终给出了匹配输入模式X的标准样本模式, 直接完成了提取记忆信息的操作。

3 讨论

由于离散Hopfield神经网络本身的限制, 使得系统在运行过程当中会有伪状态的出现, 即出现一个样本被破坏以后, 通过迭代收敛成另外一个错误的样本的情况, 如果使用海明神经网络则可以大大减小伪状态出现的机率。

参考文献

[1]郑君里, 杨行峻.人工神经网络.北京:高等教育出版社, 1993

[2]周继成, 周青山, 韩飘扬.人工神经网络-一第六代计算机的实现北京:科学普及出版社

[3]张立明.人工神经网络的模型及其应用上海:复旦大学出版社1993

离散数据 篇8

逆向工程是将已有产品或实物模型转换为工程设计模型和概念模型, 并在此基础上对已有产品进行分析、改进和再造的过程。其中曲面重构技术通常通过插值或拟合一系列离散点来构建一个近似模型来逼近原型。经过观察与研究发现, 虽然大多数重构模型都具有复杂的曲面外形, 但组成其表面的各曲面都隐含着几何特征信息。传统曲面重构算法往往忽略或者不能有效利用这些特征, 即使在大量运算后能够达到满意的拟合精度和外观质量, 却仍然不能为后续CAD/CAE/CAM处理提供充足有效的几何特征、设计意图信息。所以逆向工程的目的不只是对已有实物的简单拷贝, 而是要反求实物原形的设计意图, 建立包含设计意图的特征模型。

大多数重构模型都由多个解析曲面及自由曲面组合而成。由于解析曲面均具有显著几何意义与精确的数学表达, 因此分离解析曲面并识别其相应几何特征将对后继的模型分析与改进带来巨大的帮助。在曲面重构过程中, 将具有几何特征的区域从原始点云数据中分割出来, 利用其隐含的特征参数快速重构, 而对于少数不具有几何特征的自由曲面再使用一般的曲面重构方法处理, 能有效提高重构速度与精度, 并能同时显式地得到原模型的原始设计意图。

本文以曲面法矢空间为基础, 结合“区域离散扩张算法”实现在多个特征曲面组合而成的复杂模型中寻找不同几何特征的曲面并将其相互分离。曲面法矢空间能够很好地反映复杂曲面的形状与区域特征, 而“区域离散扩张”算法则能实现相同特征区域的离散扩张聚类, 它避免了传统自顶向下 (Top-Down) 与自底向上 (Bottom-up) 算法在迭代次数和误差控制上的缺陷, 算法在很少的迭代次数下收敛, 实现快速地对原始数据的分类。实验结果表明, 算法能很好地将单张或多张特征曲面从噪声或自由曲面点云背景中分离并得到其基本几何特征参数。此算法收敛速度快、结果稳定精确并能适应具有自由曲面和噪声干扰的情况, 可应用在基于特征的逆向工程或文物复原等诸多领域。

1 大容量法矢估计

本文采用了“微切平面法”来进行法矢的初步估算, 即利用散乱数据点的k邻域通过最小二乘平面拟合, 对局部曲面中心点的法矢进行估算, 并利用LR分解代替通常的雅可比法, 以提高运算速度。

最小二乘平面的拟合方法描述如下:给定散乱点集Pi (i=0, 1, ..., n) , 求一张平面S (ui, vi) , 使得点集Pi (i=0, 1, ..., n) 中的每一个点到平面距离的平方和最小:

这里平面方程的一般形式为:

则平面的法矢为:N軍 (a, b, c) , 由平面方程可知其参数a, b, c, d为线性表示, 因此此最小二乘平面的拟合属于线性最小二乘问题。平面方程的系数a, b, c, d非独立, 由数据点{Pi (xi, yi, zi) , i=1, ...n}来确定。

根据特征向量估计法, 最小二乘平面拟合的目标函数如式 (3) 所示:

采用上述特征向量估计法 (EVE) , 便可以求得矩阵 (AT, A) 的特征值λi和特征向量xi (i=1, ...4) , 对应绝对值最小的特征值λi的特征向量xi即是待求平面参数 (a, b, c, d) 的最小二乘解。本文求解特征值和特征向量所用方法使用LR矩阵分解法代替常用的雅可比法, 从而在底层算法上直接降低了计算复杂度。

当求得平面参数 (a, b, c, d) 后, 由数据点{Pi (xi, yi, zi) , i=1, ...n}确定的最小二乘平面就已确定了。由于 (a, b, c, d) 不是相对独立的参数, 它们的值不是绝对的, 因此在以上述最小二乘解为基础求解最小二乘平面的法矢时必须对矢量进行单位化处理, 如式 (4) 所示:

所以P点在局部曲面处的单位法矢为:N軑 (a′, b′, c′) , 至此便完成了对法矢的初步估算。

由“微切平面法”计算出的法矢指向可能会存在两种完全相反的情况 (与待重构曲面法矢指向一致, 或者相反) , 这必然会给后续处理环节 (如曲率估算等) 造成混乱, 因此必须在全局范围内统一法矢的方向。一般解决方法有法矢传播调整方法, 通过在邻域的Riemannian图的边结点中增加一个域cost, 该值永远为非负值, 并且当两个切平面接近平行时该值很小, 然后遍历Riemannian图生成最小生成树 (MST) 来完成所有切平面的方向调整, 使得法矢都指向待重构曲面的同一侧。由于把所有的散乱点云数据同等对待, 沿着数据集中曲率变化最小的方向进行调整, 故该算法效率较低, 随着散乱点数量的增加, 调整时间迅速增大。

为了提高法矢调整的速度, 本文在分析现有研究成果的基础上, 提出了一种基于“局部光源”的全局法矢调整策略, 由于法矢调整以k邻域为单位进行法矢调整, 所以本文算法极大地加快了法矢一致性的判定和调整速度, 因而大大提高了法矢方向调逆向工程中数据分块技术的研究与实现整的效率, 并有效解决了现有法矢调整算法在法矢方向传播过程中可能出现的死锁现象。

基于“局部光源”的法矢调整算法的基本思想如下:

在未对任何点进行法矢调整之前, 假设要对数据点P进行法矢方向进行调整, 那么首先假定对P点估算出法矢是正确的, 然后以P点k邻域内数据点的加权平均值N軍作为法矢方向调整的标准 (可能向内, 也可能向外, 本文只要求一致即可, 如果需要, 可以对所有点的法矢方向进行统一取反) , 对点P的k邻域内的数据点进行法矢方向的调整。也就是相当于在法矢N軍的方向上设定了一个“局部点光源”, 然后以该“局部光源”为目标, 将P点k邻域内的所有数据点的法矢方向调整为指向光源的方向, 然后再利用调整过的点的法矢, 仍然利用加权平均法计算出新的法矢调整标准, 也就是新的“局部光源”, 来调整其k邻域内数据点的法矢方向, 直到所有点的法矢均已调整。

2 曲面离散扩张分割算法

由于原始模型通常由多张特征曲面以及自由曲面组合而成, 故要将具有几何特征的曲面从复杂原始模型中分离而后才能对于各特征曲面分别进行几何参数分析。本文算法主要分为以下两个环节: (1) 将三维空间中的点云数据投影到法矢空间中; (2) 使用离散扩张算法从复杂模型中分离特征曲面。

为在噪声和自由曲面背景下, 快速分离特征曲面并分析提取曲面特征, 首先需要对原始数据进行处理, 将符合旋转特征的点与自由曲面背景以及噪声点数据分离, 并把不属于同一张旋转面的点相互分离, 分离得到单张曲面后, 再进行特征提取。

点云数据的特征提取与分离一般可采取的方法有两种:

(1) 自底向上 (bottom-up) 的方法。这种方法的思想是:在原始数据中建立邻域为k的面片, 对每个面片进行逐个判别, 提取其特征。然后用聚类算法对其聚类, 最后得到整个特征曲面。这样做辨别精确、误差小, 但也有其不可避免的缺点: (1) 需要在海量数据中逐个判别面片特征并进行聚类, 算法复杂耗时巨大; (2) 由于原始点云疏密不同、特征面大小不一等因素, 邻域面片建立时k值的选取十分困难。k值过小, 可能将曲面误判成平面, 而k值过大超出单张曲面范围, 则可能提取不到特征。

(2) 自顶向下 (top-down) 的方法。此方法首先将特征曲面分类 (如:平面、球面、旋转面等) , 按照一定顺序, 逐个分离, 每次从原始数据集中寻找一种类型的曲面。此方法容易把握整体特征但需要多次遍历原始数据。并且由于平面、球面等符合旋转特征, 所以无法将它们相互分离。综合以上分析, 我们希望找到一种既能符合自底向上方法精度高的优势, 又能达到自顶向下方法对整体特征把握的效果, 并且不需要多次遍历数据的快速特征分离方法。

本文提出的离散扩张曲面分割算法, 是一种基于法矢空间的自适应快速离散扩张的曲面分割算法 (我们可以称之为局部k邻域离散增长分离法) 。它既克服了自底向上方法速度缓慢的缺点, 也不需像自顶向下方法一样对特征反复筛选, 为多曲面、多特征的快速、精确提取奠定了基础。算法的具体步骤如下:

(1) 从初始点云数据集Cm中随机选取点Pi∈Cm, 建立k-邻域点集Si。估算Si中每点法矢并将其映射到法矢空间MP; (2) 通过计算高斯曲率K与平均曲率H将点集Si分类。以k/3为步长, 对Si进行扩张。若点pj与Si属于同一性质平面, 则将其合并入Si, 若点Pj与Si性质不同, 则建立一个新“块”Sj并将其加入新块中。如此, 建立一个点云初分集合{S1, S2, …Sn}; (3) 对扩张后的k-邻域点集{S1, S2, …Sn}, 对于扩展后的k邻域ф我们称之为local域。在每个local域ф上通过RANSAC方法再次计算其曲率K与H (经过STEP2的扩张, 初始k邻域范围自适应地向同特征范围扩展, 故得到的线性丛能更准确地反映数据整体特征) , 将其作为点云分类的模板曲率; (4) 遍历点云, 将点云分类, 已分类的数据从初始点云数据集中剔除据Cm=Cm-pi, 直至Cm为○或者Cm中数据不再属于某类特征。

可以看到, 算法充分利用了原数据的局部及全局特征, 在不增加算法复杂度的情况下, 估计出比较接近精确值的初始参数。基于此初始参数估计对数据进行离散扩张, 在修正初始特征参数的同时分离同类特征数据。

3 算例分析

本文在Visual C++6.0和Open GL环境下实现了上述算法, 硬件运行环境为P4 1.6G CPU, 512M RAM。计算结果如下:图1—图4为部分代表性零件模型以及和实物曲面的特征分离结果。

从图1、图2中可以看出, 算法能够很好地将不同类型的平面分割开来, 边缘点被排除在外, 并且轮廓清晰。图3、图4的特殊零件包含多个平面与一个半球面, 从运行结果可以看到算法很好地将半球以及各平面相互分离。

试验表明, 使用基于法矢空间结合RANSAC与离散扩张方法, 对数据进行分离处理, 算法耗时只和特征数量有关, 在特征不多但数据量较大的情况下能很好地提升特征提取速度并且在精度上也达到了满意的结果。

4 结束语

本文提出了一种曲率离散扩张的曲面点云分割算法。其中结合自适应k邻域以及RANSAC的离散扩张算法能快速、准确地将具有相同几何特征的点云从噪声与自由曲面背景中分离。其相关数据还能为分析各特征曲面的几何特征提供有用的依据。实验表明, 算法能够准确地分离特征曲面, 在复杂模型情况下具有良好的健壮性, 算法精确度以及时间效率上也都达到了预期的要求。

参考文献

[1]ALON WOLF, ERIKA OTTAVIANO, MOSHE SHOHAM, MARCO CECCARELLI.Application of line geometry and linear complex ap-proximation to singularity analysis of the3-DOF CaPaMan parallel manipulator[J].Mechanism and Machine Theory, 2004, 39 (1) .

[2]A.WILLIS, X.ORRIOLS, AND D.COOPER.Accurately estimating sherd3D surface geometry with application to pot reconstruction[C].In Proc.CVPR:IEEE press, 2003.

[3]HELMUT POTTMAN, MARTIN PETERNELL, BAHRAM RAVANI.An introduction to line geometry with applications[J].Computer-Aided Design.1999, 31.

[4]B.ODEHNAL, H.POTTMANN, AND J.WALLNER.Equiform kine-matics and the geometry of line elements[C].Technical Report128, Geometry preprint series, TU Wien, 2004.

[5]ADRIEN BARTOLI.A Random Sampling Strategy For Piecewise Planar Scene Segmentation[C].CVIU (Computer Vision and Image Understanding) , 2007, 105 (1) .

离散数据 篇9

一、菱形格网

现如今全球离散格网主要有三角形格网, 菱形格网, 六边形格网等。菱形网格具有几何结构简单、方向一致、空间对称易搜索的优点, 它类似于正方形网格, 具备嵌套的特性, 支持有限元和有限差分, 支持大规模全球尺度的模拟。格网是采用每个单元的地址编码代替地理坐标在球面上进行各种操作。对于菱形单元位置信息的存储, 采用Morton码, 使用Morton码便于快速定位到菱形块的位置。先将地球等经度线分成四份, 用0、1、2、3分别代表四个区域, 对于每个子区域, 左下上右分别取0、1、2、3进行编码, 每个菱形单元的Morton码就是以这几个数字排列组成的字符串。

二、海量菱形格网数据的组织

采用文件系统管理数据库能将整个数据库的内容保存在单个索引文件中, 便于数据的查询和定位。棱形格网数据并不需要用到关系数据库的并发操作等功能, 并且对于海量的数据, 文件数据库的搜索和更新速度比其他数据库要快。

2.1瓦片金子塔数据模型

海量菱形格网数据的组织, 参考Google Earth所用的影像金字塔塔模型, 它是将参考椭球面按一定原则递归剖分成多层次、多分辨率的格网单元, 同时采用每个单元对应的地址码代替地理坐标在球面上进行各种操作, 这和菱形格网对Morton码的操作所实现的功能是一样的。

Google Earth中所有的影像数据都是256X256像素的瓦片数据, 并且它按照了四叉树的方式对每一层的每一个瓦片的索引字段信息进行了编码。菱形格网虽然不是正方形格网, 但它是类似于正方形的格网, 菱形格网具有可嵌套性, 因此可以套用正方形格网的存储和索引方法。瓦片金子塔模型是一种多分辨率层次模型。把原始的数据放在金字塔的最底层, 在这一层进行分块处理, 每次分块都是分成上下左右四块菱形块, 组成一个倾斜的似正方形矩阵, 以一分为四的原则划分到最细最为金字塔的最底层。在此基础上, 倒数第二层按照最底层划分出来的基菱形进行合并的操作, 也就是将相邻的上下左右四个菱形合并成一个基菱形作为最小的存储单元。以此类推, 根据数据精度的需求划分若干层, 相邻两层的数据块是4的倍数。

2.2瓦片数据的大小和索引

瓦片数据块的大小和数据库的访问次数和检索次数是密切相关的。如果数据分块太小, 数据库的访问次数就多, 相反则每次数据库的写入和输出的数据量就很大, 因此要权衡数据块大小的利弊。邓雪清对数据块大小的选取做了相关的实验, 实验主要是针对数据块大小对磁盘读性能、网格传输性能及对磁盘读和网格传输综合性能的影像做了分析。最终结果是:数据块大小最优值大概是在32KB左右, 对应的数据量大小的菱形格网的数量为256X256或者是128X128, 由于现阶段菱形格网所包含的属性数据比较少, 采用256X256作为一个瓦片单元。金字塔模型会增加大约1/3的数据存储空间, 但是对于海量数据量, 数据的读取效率会有显著的提高。

数据块的索引按照数据在文件数据库中的存储路径来命名, 金子塔数据模型中每一层的数据分别存储在一个文件夹中。对于该层数据的子块再进行分类存储, 分类的方法是:将所有菱形块按相邻关系分成16个相等的块, 然后对这16等块按相同的方法继续划分, 由于文件的分块方法也是按照类似于Morton编码的方式进行的, 因此通过其中任意一个子文件夹的文件名可以得到父文件夹的文件名, 他们的关系是:该父文件的文件名是其中任意一个子文件夹文件名的上2级的Morton码。由于菱形网格剖分的最大层次是26, 因此文件路径的深度最多是8, 通过路径名称很快就能找到需要的数据块。

三、结论与展望

上一篇:开放式髓核摘除手术下一篇:特殊教育