数据不确定性(精选10篇)
数据不确定性 篇1
0 引 言
随着计算机技术的快速发展, 传统的确定性数据 (Deterministic Data) 管理技术也得到了极大的发展。近年来, 随着具有感知能力、计算能力和通信能力的微型传感器的广泛应用, 不确定性数据 (Uncertain Data) 得到广泛的重视。在许多现实的应用中, 例如:经济、军事、物流、金融、电信等领域, 数据的不确定性普遍存在, 不确定性数据成为数据库的主要数据。传统的数据管理技术却无法有效管理不确定性数据, 这就引发了学术界和工业界对研发新型的不确定性数据管理技术的需求。
一般说来, 传感器数据是以一种实时动态、持续变化的数据流的形式存在, 同时由于传感器数据的精确度受到传感器各方面参数的影响[1], 使得传感器数据流是一种不确定信息。目前, 基于传感器数据流的不确定性数据库的研究还比较少, 其研究对象主要集中于无线传感器网络、无线射频系统、数字化家庭、股票交易系统、网络监测系统、道路交通监测系统、电信通话记录系统等[2]。主要研究方向有:原型系统设计与实现[3]、查询处理优化[4]、分布式数据流[5]、不确定数据流的研究[6]等。
本文主要研究对象是传感器数据流, 其目的在于研究一个组织、管理传感器不确定数据流的数据库系统。在对国外数据流管理原型系统研究的基础上[7], 比较了一般数据流数据库和不确定数据流数据库, 在RedHat Linux 9.0平台上部分地实现了不确定数据流数据库系统UCDS (Uncertain Data Stream Database System) 。实现的语言为C/C++, 系统采用了面向对象的设计与实现方法。
1 UCDS系统概述
不确定性数据库是高效地获取不确定性数据, 科学地组合和管理不确定性数据的数据库系统。UCDS数据库系统部分地实现了不确定数据流的管理功能, 包括带可信度的属性值的查询管理, 具有动态性的属性值的查询管理, 不确定输入数据的预处理和一般数据流 (即不包括不确定信息的数据流) 的查询管理等。
本文的不确定据库系统中的算子分为两类:一般数据操作算子和不确定的动态数据操作算子。一般数据操作算子还可以分为关系-数据操作算子和数据-数据操作算子。这两种算子中既包含一元操作也包含二元操作。由于不确定数据的属性是以一定概率取值的, 因此对不确定性属性值进行连接、聚集等操作没有意义。这里保留了大多数的一般数据操作算子, 增加的不确定性动态数据算子主要有CONF, PROB和PDF算子。CONF表示求属性值的隶属度, PROB表示求动态属性值的概率, PDF表示求动态属性值的概率密度函数。这些算子和运算符的词法、语法分析由LEX与YACC两个分析器完成。LEX是一个通用的词法分析生成器。它可以分析任何语言的词法, YACC由贝尔实验室开发, 是一个通用语法分析器。具体关于LEX和YACC的技术资料请参考文献[8]。
2 UCDS的体系结构
UCDS采用客户机/服务器体系结构, 如图1所示, 主要的子系统有:用户接口子系统、计划子系统、执行子系统和不确定数据预处理子系统。其中计划子系统和执行子系统是核心部分。计划子系统负责把UCQL注册和查询语句进行词法语法分析并转换成内部表示方式, 经过优化形成物理查询计划。执行子系统负责查询语句的执行。
2.1 用户接口子系统
用户接口子系统由三部分组成:服务器模块、数据源获取模块 (关系或动态数据元组的获得) 和查询结果输出模块。服务器模块功能有:服务器的配置、动态数据或关系的注册模块、不确定数据查询的注册和运行。
2.2 计划子系统
计划子系统的结构如图2所示。由词法和语法分析、逻辑和物理计划产生器、查询管理器、表管理器和计划管理器等组成。计划子系统负责把UCQL语句进行词法语法分析并转换成内部形式, 并经过优化形成物理查询计划。
语法分析 将查询字符串转换成表示查询的语法树, 语法解析也适用于动态数据与关系的注册。该子系统主要是通过YACC与LEX对UCQL语句进行语法分析与词法分析。
语义分析 把语法树转换成查询的内部表示结构。语义分析主要解决以下问题:解决属性参照;补充实现UCQL的缺省及缺失信息 (例如“SELECT*”中的“*”) ;把基于字符串的动态数据流名称、属性标识符转换成内部的表示形式。
逻辑计划产生器 把查询的内部表示形式转换成查询的逻辑计划。该逻辑计划是由逻辑算子组成, 逻辑算子与关系代数算子类似 (例如:SELECT, PROJECT, JION) 。增加逻辑计划查询层的原因是:由逻辑计划到物理计划的转换比直接到物理计划层要容易, 同时, 逻辑计划中的算子比与底层细节有紧密关系的物理计划算子更抽象。
物理计划产生器 把查询的逻辑计划转换成查询的物理计划。物理计划中的算子可以准确地在执行子系统中应用。
查询管理器 查询管理器存储注册的查询, 它为每个查询分配一个惟一的ID号, 目的在于方便系统其他部分的使用。
表管理器 表管理器存储注册的动态数据流和关系的名称和数据模式, 这些数据流和关系可以是输入的数据流和原始的关系, 也可以是查询得到的中间结果。
计划管理器 计划管理器存储了与所有注册查询相对应的物理查询计划。
2.3 执行子系统的实现
执行子系统如图3所示, 负责查询语句的执行。
执行子系统中的数据有三种类型:元组、元素和中间数据。元组是数据的基本单元。在逻辑上, 元组是属性值的集合;在实现时, 一个元组是属性值集合所对应的内存单元的指针。元素是一个带有时间戳与符号的元组。中间数据是一种只有时间戳的元素, 与元组的符号无关。中间数据将用于算子间时间进程的通讯。
每个查询计划包括三种元素:算子、队列和大纲。
(1) 算子:算子用于处理输入并把输出放入输出队列。
(2) 队列:连接输入算子和输出算子, 队列中包含部分数据流或整个关系, 也可看作是执行算子前的一个缓存区。
(3) 大纲:存储了查询计划的中间状态, 连接算子必须能获得当前窗口输入的所有数据流元组, 所以连接算子必须具有一个大纲。而投影操作和不消除重复数据的并操作就不需要大纲。
如有如下两个对数据流S1, S2的查询Q1和Q2:
Q1:SELECT B, MAX (A) FROM TS1[ROWS 10 000] GROUP BY B;
Q2:SELECT*FROM S1[ROWS5000], S2[RANGE 500 SECONDS] WHERE S1.A=S2.A;
窗口算子1从队列1中读入数据流元组S1, 更新大纲1, 并把带有元素的数据流输出到队列3和队列4, 大纲1包括最近到达的10 000个元组, 这里选择查询1和查询2中较大的一个。同理, 大纲2则存储最近500 s到达的元组。聚集算子求出对相同S1.B数据流元组中最大的S1.A的值, 并将结果存储在大纲6中, 将带有元素的数据流放入队列6中, 因为大纲6中的结果是持续增长的, 所以必有较旧的结果被剔除出大纲6, 从而大纲6必须从大纲3中寻找新的满足查询的结果。所以大纲3仅仅是队列1的一个时间戳较小的数据流拷贝, 可以看出大纲3和大纲1是共享的关系而不是简单复制的关系, 同理大纲4和大纲1, 及大纲5和大纲2。连接算子结果为大纲4和队列5进行连接, 已经大纲5和队列4进行连接的结果。
同时, 图3中的还有四个功能模块起着重要的作用:
(1) 存储分配:
系统中的所有元组由存储分配算符对象进行分配空间。一个存储分配算符由一个算子拥有, 用来分配空间给算子输出元素的元组。不是所有的算子都拥有一个存储分配符, 例如, 选择算子只是简单地输出、输入元组, 并不产生新元组。存储分配算符也跟踪元组的空间使用与收回元组不使用的空间。
(2) 存储单元:
存储分配算符与大纲的描述主要集中在算子的接口上。大多数存储分配算符与大纲的实际逻辑是在存储单元内实现。每一个存储单元支持一个存储分配单元和一个大纲集合。每一个大纲与一个存储单元关联, 并且大纲中的所有元组的分配由存储单元进行分配。
(3) 内存管理器:
内存管理器管理一个公共内存池, 按照需要以页为单位为存储单元、索引、队列分配内存。
(4) 调度器:
调度器分成两部分, 一部分负责系统内算子的调度, 另一部分负责持续查询的事务调度。
3 结 语
针对传感器数据流具有不确定性的特点, 采用客户机/服务器体系结构, 在RedHat Linux 9.0平台上部分地实现了基于UCDS系统。本数据库系统虽然只是实现了部分功能, 但对不确定性数据库系统的研究仍不失为一次有益的探索。
摘要:针对不确定的传感器数据流, 在对国外数据流管理原型系统研究的基础上, 采用客户机/服务器体系结构, 在Red Hat Linux 9.0平台上部分地实现了不确定数据流数据库系统 (UCDS) 。详细描述了不确定数据流数据库系统的基本定义、系统的体系结构等, 为不确定性数据库的研究做出了有益的探索。
关键词:不确定性数据,不确定性数据库,体系结构,数据结构
参考文献
[1]李建中, 李金宝, 石胜飞.传感器网络及其数据管理的概念、问题与进展[J].软件学报, 2003, 14 (10) :1717-1727.
[2]BABCOCK B, BABU S, DATAR M, et al.Models andissues in data streams system[C]//Proceedings of the 21stACM SIGACT-SIGMOD-SIGART Symposium on Princi-ples of Database Systems.Madison:ACM Press, 2002:1-16.
[3]ARASU A, BABCOCK B, BABU S.STREAM:the Stan-ford data stream management system[J].IEEE Data Engi-neering Bulletin, 2003, 26 (1) :19-26.
[4]GOLAB L, TAMER M.Processing sliding window multi-joins in continuous queries overdata streams[C]//Proceed-ings of the 29thInternationall Conference on VLDB.Berlin:Morgan Kauf mann Publishers, 2003:500-511.
[5]BULUT A, SINGH A K, VITENBERG R.Distributed da-ta streams indexing using content-based routing paradigm[C]//Parallel and Distributed Processing Symposium2005, Proceedings 19th IEEE International.Washington DC:IEEE Computer Society, 2005:94-94.
[6]SARMA A D, HEFFERY S R, FRANKLIN MJ, et al.Esti mating data stream quality for object-detection applica-tions[C]//Proceedings of the 3rd International ACM SIG-MOD Workshop on Information Qualityin Information Sys-tems.Chicago:Illinois, 2006:16-28.
[7]BONNET P, GEHRKE J, SESHADR P.Towards sensordatabase systems[C]//Proceedings of the 2nd InternationalConference Mobile data Management.Hong Kong:Spring-er-Verlag, 2001:3-14.
[8]LEVINE J R, MASON T, BROWN D.Lex与Yacc[M].杨作梅, 张旭东, 译.北京:机械工业出版社, 2003.
数据不确定性 篇2
阐述了利用近地点磁场探测数据确定卫星自旋轴参数的`理论方法和实施步骤,并说明了这种研究对卫星运行和科学探测的重要性.特别强调了需要注意的基本条件,即卫星必须自旋稳定且近地点不很高(1000 km以下).这种方法关键的步骤是,根据卫星轨道数据定出模型磁场数值,比较近地点星载磁强计探测数据和近地点地磁模型数值确定卫星自旋轴的指向.通过对TC-1和TC-2卫星姿态的具体计算,对确定精度和应用效果进行了分析和比较.结果表明,在实际的卫星应用过程中此方法和措施非常有效,在科学分析和将来的卫星运行工程中具有重要的应用意义.
作 者:陈涛 张效信 李文曾 王权 CHEN Tao ZHANG Xiaoxin LI Wenzeng WANG Naiquan 作者单位:陈涛,李文曾,王权,CHEN Tao,LI Wenzeng,WANG Naiquan(中国科学院空间科学与应用研究中心,中国科学院空间天气学国家重点实验室,北京,100080)
张效信,ZHANG Xiaoxin(中国气象局国家空间天气监测预警中心)
数据不确定性 篇3
在全球的各行各业中,高管们都认识到,他们需要更多地了解如何利用大数据。但是,尽管大数据吸引了媒体的广泛关注,但从企业正在做的事情中很难发现深层次的信息。
因此,我们试图更好地了解企业如何看待大数据,以及它们目前在多大程度上使用大数据而使其业务受益。IBM商业价值研究院与牛津大学赛德商学院联手进行了2012 Big Data @ Work研究,调查了95个国家中的1144名业务和IT专业人员,并采访了20多名学者、业务主题专家和企业高管。
我们发现,近三分之二(63%)的受访者表示,信息(包括大数据)和分析的使用为其组织创造了竞争优势。在IBM的2010年新智慧企业全球高管联合调研中,有此看法的受访者比例是37%——在短短两年内增幅达到了70%。
从大数据中获取商业价值的五项建议
作为日益扩大的信息与分析市场中越来越重要的一个领域,大数据具有重要的影响。对于在其组织内已经实施大数据试验项目或者部署项目的受访者来说,通过信息(包括大数据)和分析而获得巨大优势的比例要比仅依赖传统分析方法的组织比例高15%。
那么,当前的大数据活动为何与以前不同?有些组织使用大数据已有多年时间。例如,一家全球电信公司每天从120个不同系统中收集数十亿条详细呼叫记录,并保存至少9个月时间。一家石油勘探公司分析几万亿字节的地质数据,而证券交易所每分钟处理数百万个交易。对于这些公司,大数据并非一个新概念。
然而,两个重要趋势使得大数据时代与之前有显著的区别:
一是目前在广泛行业中几乎“所有方面”的数字化产生了新型的大量的实时数据。其中,非标准数据占据很大一部分,例如流数据、地理空间数据或传感器产生的数据,这些数据并不能完美地适用于传统的、结构化的、关系型数据仓库。
二是当前先进的分析技术和工艺使得各组织能够以从前无法达到的复杂度、速度和准确度从数据中获得洞察力。
在各行业和各地区,我们的调研发现,组织对大数据采用了一种务实的方法。最有效的大数据解决方案首先识别业务要求,然后定制基础架构、数据源和分析方法,以支持业务机会。这些组织从现有的和新的内部信息来源中获取新的洞察力,制定大数据技术战略,然后随着时间的推移逐步地升级相应的基础架构。
我们的调研结果为各组织逐步开展大数据举措以及从大数据中获取最大的商业价值提供了五项关键建议:
(一)以客户为中心推动初始举措
最初的大数据举措必须注重能够为企业提供最大价值的领域,这一点势在必行。对许多行业来说,这意味着从客户分析开始,通过真正了解客户需求,并预测未来行为,从而为客户提供更好的服务。
全面数字化是有助于带来大数据迅猛发展的一个推动力,已经改变了个人和组织之间的力量平衡。如果企业希望了解并向有能力的客户和市民提供价值,他们必须集中精力将客户作为个体进行了解。企业还需要向新技术和高级分析能力投资,以更好地了解各个客户的交互和偏好。
但是,当今的客户——包括最终消费者或者企业对企业客户——需要的不仅仅是了解。要想有效地培养与客户之间有意义的关系,企业必须以客户认为有价值的方式与客户联系。
价值可能来自更及时、更明智或者更相关的交互;也可能来自于企业通过改进底层运作而增强交互的整体体验。无论来自何处,分析都有助于从大数据中获得洞察力,这对于在这些关系中达到这一深度日益重要。
(二)制定整个企业的大数据蓝图
蓝图包含企业内的大数据愿景、战略和要求,对于在业务用户的需求与IT实施路线图之间做到协调非常关键。它实现了关于企业如何利用数据改进业务目标的一致理解。
有效的蓝图通过确定大数据适用的关键业务挑战,规定如何使用大数据的业务流程要求,以及包含实现该蓝图所需数据、工具和硬件的架构,从而定义了企业内大数据的范围。这是为指导企业以实用的方式,并以创造可持续的商业价值为出发点,开发并实施大数据解决方案而制定蓝图的基础。
(三)从现有数据开始,实现近期目标
要实现近期目标,同时为持续开展大数据项目创造发展动力和专业知识,企业必须采取实用的方法。我们的调研表明,要开始寻求新的洞察力,最具逻辑性和性价比的地点就是企业内部。
从内部着眼允许企业利用现有数据、软件和技能,提供近期业务价值,并且在考虑扩展现有的能力而处理更复杂的数据来源和类型之前积累重要的经验。大多数企业希望通过这样做而充分利用现有存储库中的信息,同时扩展其数据仓库,以处理更大数量和更多类型的数据。
(四)根据业务优先级逐步建立分析能力
在世界范围内,越来越多的分析工具使企业目不暇接,同时企业也面临着分析技能的严重缺乏。大数据效率取决于消除这一巨大差距。简言之,企业必须获取工具和技能。在这个过程中,随着分析、功能和IT技能的完美平衡,预计新角色和事业模式将会出现。
关注内部分析人员的专业发展和事业进步——他们已经熟悉企业独特的业务流程和挑战——这应是业务高管的首要任务。同时,大学和个人自身(无论什么背景或专业)都有义务培养强大的分析技能。
(五)基于可衡量的指标制定投资回报分析
制定综合且可行的大数据战略以及后续的路线图需要可靠且可量化的投资回报分析。因此,一位或多位业务高管积极参与并支持这一流程非常重要。要实现长期的成功,强大、持续的业务和IT的协作同样重要。
nlc202309012208
许多企业的投资回报分析基于以下可从大数据获得的益处:
1.更聪明的决策——利用新的数据源提高决策质量;
2.更快的决策——实现更实时的数据获取与分析,支持在“影响点”做出决策,例如在客户访问您的网站或者与客户服务代表通电话时;
3.创造奇迹的决策——使大数据举措注重于那些能够提供真正差异化的领域。
这些建议中有一个基本原则:业务和IT专业人员必须在整个大数据实施过程中通力合作。最有效的大数据解决方案首先确定业务要求,然后定制基础设施、数据源和量化分析,以支持该业务机会。
按阶段的更多建议
在大数据采用的生命周期内,某些关键活动是每个阶段的特征。以下各阶段建议为从一个阶段进入下一个阶段提供了经过验证且实用的方法。
(一)从教育到探索:为后续行动奠定基础
1.注重大数据为企业提供竞争优势的领域,包括行业内部和外部,持续增加您的知识;
2.与不同的业务部门和职能合作,确定可以通过更好、更及时的信息访问而应对的最关键的业务机遇和挑战。许多企业通过客户数据和分析开始,以支持其前台转型举措;
3.注重增强您的信息管理环境和基础架构,包括制定大数据蓝图;这些蓝图通常基于行业标准、参考架构和其他可用的技术框架和资源。
(二)从探索到接触:将计划付诸实施
1.在制定大数据战略和路线图时,确认业务领导层的积极支持;
2.为您计划通过POC或试点项目而解决一个或两个关键业务挑战制定投资回报分析;
3.在开始为满足更长期的要求而做出计划时,定期确认您的信息管理基础和IT基础架构能够支持POC或试验项目需要的大数据技术和能力;
4.评估您当前的信息治理流程及就绪程度,以应对大数据的新方面;
5.分析内部资源现有的技能集,并且开始进行差距分析,以了解您需要在哪些方面增加和/或获得更多技能。
(三)从接触到执行:了解面临的机遇和挑战
1.积极推动试点项目的成功,以保持前进动力,同时开始参与到业务的其他部分中;
2.通过确认和验证预期的投资回报和收益而最终确定业务案例,包括既定的成功标准和指标;
3.确定由于能够获得更好、更及时的信息(例如营销、销售、客户服务和社交媒体网站)而需要修改和改进的业务流程;
4.制定能力计划,以确认是否有实现短期和长期目标所需的足够技术和定量技能;
5.记录从试验到投产的详细项目计划。该计划应包括预计业务价值、成本、资源和项目时间表的确认。
(四)执行阶段:拥抱大数据的创新
1.记录早期成功的和量化的结果,以支持未来的举措;
2.在企业中发起正式的大数据沟通,持续地提供支持和前进动力;
3.注重增加技术和技能,以应对各业务部门、职能领域和地区的新的大数据挑战;
4.注意信息治理(包括信息生命周期管理)、隐私和安全;
5.持续评估快速发展的大数据工具和技术。平衡现有基础架构与能够提高扩展性、优化度和弹性的新技术。
开始您的大数据演进
要在全球整合的经济环境中竞争,当前的企业需要全面地了解市场、客户、产品、法规、竞争对手、供应商、员工等,这一点日益明确。这种了解需要有效地使用信息和分析技术。事实上,除了其员工之外,许多企业还将信息视为最有价值的差异化资产。
现在,随着大数据的出现和广泛采用,全球各地的企业都在寻找新的方式开展竞争并且获胜。它们不断地转型,以充分利用大量的信息改进整个企业内的决策和绩效。少量领先的企业已经通过为员工——从高管到营销和车间工人——提供信息、技能和工具而使他们更好、更及时地在“影响点”做出决策,从而实现这一目标。
并非每个企业都需要管理全部大数据的能力。但是,利用新数据、技术和分析技能的机会在每个行业中都不同程度地存在。企业需要通过分析新的和现有数据的数量、速度和多样性,并利用正确的技能和工具更好地了解其业务、客户和市场而实现价值。
无论从何处开始,全球的企业在当前全球整合经济环境中都将继续在更大范围内使用大数据获得业务价值和竞争优势。
数据不确定性 篇4
传感器网络、数据集成、隐私保护等各种现实应用中会产生大量不确定性数据,不确定性数据广泛存在于军事、金融和电信等领域中。不确定性数据的排名要综合考虑分值大小和概率值大小,其Top-k查询在语义上具有歧义,不同的分值和概率值的结合方式会产生不同的查询结果,所以关系型数据库中传统的针对确定性数据的Top-k查询不能直接应用在不确定性数据上。
近年来,研究者们提出了多种针对不确定性数据的Top-k查询算法[1,2,3,4,5]以及查询优化[6],每种算法都定义了不同的查询语义,但是这些算法在计算排名第i位时,并没有考虑排在第i-1位的元组,这就导致了查询出来的结果不能很好地综合分值和概率值。
本文针对关系型数据库中的不确定性数据,在数据存储时加上一个概率维即概率字段表示该元组存在的概率值大小,当计算一个元组排在第i位时,会和排在第i-1的元组进行比较,选择两者中更好的作为第i位的查询结果,这样就更好地权衡了概率值和分值。
1 不确定性数据模型
1.1 数据不确定性
数据不确定性分为存在级不确定性和属性级不确定性[7]。存在级不确定性是指元组有一个概率值,表示该元组存在的可能性大小;属性级不确定性是指元组的属性具有一个概率值,以概率密度函数或者统计参数来描述特定属性的不确定性。
关系型数据库中存储存在级不确定性数据时,给每个元组加上一个概率维,表示该元组的可信度大小,在进行Top-k查询时,该概率维和数据的分值共同影响查询结果。
1.2 可能世界模型
研究者们针对不确定性数据提出了不同的数据模型,但是可能世界模型是最广泛的应用模型之一[8],也是所有不确定性数据模型的核心思想,即把不确定性关系转化为一系列的世界实例,每个世界实例根据其组成成员计算出相应的概率,所有世界实例的概率和为1。
下面通过例子来具体说明可能世界模型。假设在L1、L2、L3、L4、L5这5个不同的位置上分别安装了雷达来测试经过的车辆速度并记录下来形成表1。由于天气等原因导致记录的数据具有一定的偏差,故在表的最后一列增加Prob属性来表示元组存在的概率大小。由于这5个位置的距离相差足够远,不可能在30分钟内不同的雷达能够测试到同一辆车经过,所以,t1是独立的,t2和t3是互斥的,t4和t5也是互斥的,记为t2⊕t3,t4⊕t5,互斥和独立是关系Car的生成规则。
根据关系Car的生成规则,可以生成一系列的可能世界空间,由于t2⊕t3,t4⊕t5,故在同一个世界空间中有且只能出现一个,而t1是独立的,它可以出现或不出现在任意一个可能世界空间中,通过排列组合,可以得到如表2所示的所有可能世界空间,Prob表示其概率,例如:PW5发生的概率为(1-0.4)×0.7×0.6=0.252,所有的可能世界空间发生的概率之和为1。
2 P-kRanks查询处理
P-kRanks(Probability k Ranks Query)是针对关系型数据库中的不确定性数据的Top-k查询算法,它返回满足条件的前k个元组,该算法只考虑元组的存在级不确定性,数据模型采用可能世界模型。
2.1 P-kRanks查询语义
定义 设D为一个具有不确定性数据的关系型数据库,PW={PW1,PW2,…,PWn}是D的可能世界空间,PW中的元组按照分值排序函数F对其排序,xij表示在PWj中排在第i位的元组,则元组x排在第i位的概率P(xi)=∑w∈PW(xij)P(w),即在所有可能世界中排在第i位的概率之和,argmax'P(xi-1)表示元组x排在第i-1位概率第二大的元组,P-kRanks查询算法返回前K个元组{xi;i=1…k},其中,当argmax'P(xi-1)的分值大于argmaxP(xi),时,xi=max(argmaxP(xi),argmax'P(xi-1)),否则xi=argmaxP(xi)。
文献[3]中已经证明了按照分值排序大小进行读取对Top-k查询是充分并且必要的。
2.2 P-kRanks查询结果分析
对于表1的关系Car,从P-kRanks的语义上可以看出,当计算一个元组排在第i位时,会和排在i-1位的元组进行比较,选择其中更好的作为第i位的查询结果,这样从语义上就更好地权衡了概率值和分值,分值大的不一定就排在前面。也可以在P-kRanks中加入用户想要的概率阈值,比如,想要返回结果的概率值Prob大于0.41,那么P-2Ranks只返回一个结果t1。
例:对于表1的关系Car,P-2Ranks返回{t2,t1},t2在PW5和PW6中排在第一位,其概率为P(PW5)+P(PW6)=0.42,返回t2;t1在PW1、PW2、PW3和PW4排在第一位的概率为0.4,其概率值仅仅次于t2,t5在PW3和PW5排在第二位的概率值为0.324,t5的速度也小于t1,故返回t1。
2.3 P-kRanks算法实现
下面的算法描述了当k>1时,共有两层循环,第一层循环min(k,source.length)次,第二层循环source.length次,每次循环找出一个最有可能成为Top-k的元组。3、4步表示如果某个元组已经是返回结果中的值,那么结束本次循环;7-9步控制扫描的深度,如果当前元组排在第n位的概率值小于前一个元组排在第n位的概率值,就不再继续往下扫描元组,结束本次循环;11-15步计算出排在第i位概率最大的元组,Q[i][]存放了排在第i位概率从大到小的元组;18步比较当前找出的最可能排在第i位的元组answer[i],如果该元组的概率值和分值均小于Q[i-1][1],则返回Q[i-1][1],使其排在第i位,代替answer[i]。当k=1时,不需要保存上一个步骤的结果,也不需要和上一个步骤的结果进行比较,只需要找出在所有可能世界模型中排在第1位概率最大的元组即可,则不执行第10和15-18步,其他步骤一样。
P-kRanks算法
输入:元组根据分值降序排列source[],k,用户自定义的概率阈值prob
变量:answer[]:长度为k的向量,存放查询结果,初始化为空;Q[][]:二维数组,存放中间结果,初始化为空;Pt,n:元组t排在第n位的概率;N:返回的结果个数,初始化为0。
1. while(i<min(k,source.length)) do
2. for n=1 to source.length do
3. if answer[]中有source[n] then
4. continue
5. t=source[n]
6. 计算Pt,n
7. if Pt,n小于Pt-1,n
8. continue
9. end if
10. if Pt,,n大于prob then
11. if Pt,i大于answer[i].prob then
12. answer[i].prob=Pt,i
13. 根据概率值从大到小依次将t放入Q[i][]中
14. answer[i]=t
15. end if
16. end if
17. end for
18. if answer[i].prob<Q[i-1][1].prob AND
answer[i].sorce<Q[i-1][1].sorce then
19. answer[i]=Q[i-1][1]
20. end if
21. i++
end while
复杂度分析:假设有m个元组,返回k个元组,算法一共有两层循环,在实际应用中k值远远小于m值,k相对于m来说可以看作为一个常数,故时间复杂度为kO(m)。算法需要对元组的概率值就行排序存入到Q[i][]这个二维数组中,这个依据选择的排序算法所需的空间复杂度。从算法的复杂度分析可以看出,该算法是可行的。
3 实验结果与分析
实验环境是Visual Studio 2010,运行在Pentium Dual-Core CPU 2.3GHZ、2GB内存、Window XP操作系统的PC之上。算法由扫描深度和查询时间这两个标准来评价其性能。
实验使用应用最为广泛的R-statistical(www.r-project.org)来产生不同的数据集,每个数据集包含80 000个元组,数据集中的元组分值都服从均匀分布,根据概率值的不同分布分为三类:(1) uu:概率值服从均匀分布;(2) un:概率值服从正太分布,均值分别取0.5和0.9,标准差均取0.2;(3) uexp:概率值服从指数分布,均值分别取0.2和0.5。
图1显示了算法的扫描深度随k变化的情况,可以看出,扫描深度随着k的增大而增大,当数据集中的元组概率越大,则扫描深度越小,数据集un(0.9)上的扫描深度最小,数据集uexp(0.2)的扫描深度最大。图2反映了算法的查询时间随k的变化情况,从中可以看出,查询时间也是随k的增大而增大,概率越大查询时间越长,当k小于100时,运行时间在10s以下。
综上所述,P-kRanks算法的扫描深度和运行时间随k增大而增大,元组的概率密度越大,则扫描深度越小,实验的运行结果显示,P-kRanks算法是有效的。
4 结 语
关系型数据库中不确定性数据的出现,使得传统的Top-k查询不能直接应用在不确定性数据上,必须定义出适合不确定性数据的Top-k查询语义。用户不仅仅关心查询前k个元祖的分值大小,也关心查询结果存在的概率大小,然而现有的针对不确定性数据的Top-k查询没有很好地权衡元组的分值和概率值,故提出了一种新的查询算法P-kRanks。在新语义下,计算排在第i位的元组时会考虑i-1位的元组概率值和分值,从中选取概率值和分值大的元组作为返回结果,这样就更好的满足了用户的查询需求。实验的结果表明了算法的有效性,但是该算法在如何利用剪枝等启发式技术来减少计算量有待提高,这也是以后努力的方向。
摘要:Top-k查询在传统的存储确定性数据的关系型数据库中得到了广泛的应用,但是对于存储不确定性数据的数据库,Top-k查询必须结合元组的分值和不确定性来处理。已有的Top-k查询没有很好地结合元组的分值和不确定性,因此,定义一种新的针对不确定性数据的Top-k查询语义,并且实现了查询算法,在新语义下,计算第i位排名时考虑了第i-1位元组,能够更好地权衡分值和不确定性。不同数据集上的实验显示,该算法是有效的。
关键词:不确定性,关系型数据库,Top-k
参考文献
[1]Cormode G,Li F,Yi K.Semantics of ranking queries for probabilisticdata and expected ranks[C]//ICED,2009.
[2]Mohamed A Soliman,Ihab F ILYyAS,Kevin Chen-Chuan Chang.Top-kQuery Processing in Uncertain Databases[C]//Proceeding of the 23rdIEEE International Conference on Data Engineering.Istanbul,2007:896-905.
[3]Ming Hua,Jian Pei,Wenjie Zhang,et al.Efficiently Answering Probabi-listic Threshold Top-k Queries on Uncertain Data[C]//Proceeding ofthe 24th IEEE International Conference on Data Engineering.2008:1403-1405.
[4]Cheqing Jin,Ke Yi,Lei Chen,et al.Sliding-Window Top-k Queries onUncertain Streams[J].Proceedings of the VLDB Endowment,2008,1(1):301-312.
[5]Ge T,Zdonik S,Madden S.Top-k queries on uncertain data:on scoredistribution and typical answers[C]//Proceeding of the 35th SIGMODinternational conference on Management of data.Providence,Rhode Is-land,USA,2009.
[6]刘德喜,万常选,刘喜平,等.不确定数据库中基于x-tuple的高效Top-k查询处理算法[J].计算机研究与发展,2010,47(8):1415-1423.
[7]周傲英,金澈清,王国仁,等.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16.
[8]Green T J,Tannen V.Models for incomplete and probabilistic informa-tion[J].IEEE Data Engineering Bulletin,2006,29(1):17-24.
数据不确定性 篇5
长期治疗数据证实达比加群酯治疗的安全稳定性
美国心脏协会的2013年科学大会上公布基于关键性的III期临床试验RE-LY研究及其延展期临床试验RELY-ABLE研究的最新汇总分析结果显示,泰毕全(达比加群酯)治疗的优势维持时间达6年以上,房颤卒中预防的持久疗效和安全性获长期临床数据证实。来自 RELY-ABLE研究的关键性数据进一步证实了泰毕全(达比加群酯)应用于非瓣膜性房颤(AF)患者卒中预防的长期疗效和安全性,在长期治疗过程中,两种剂量方案的泰毕全(达比加群酯150mg bid和110mg bid)所显示出的疗效和安全性特征与纳入超过18,000名患者的RE-LY注册临床试验的结果保持一致。在RELY中口服泰毕全显着降低颅内出血风险59%,危及生命的出血风险20%,降低卒中和全身性栓塞风险35%。,此项汇总分析纳入了来自RE-LY 研究和RELY-ABLE研究的所有接受泰毕全 150 mg bid或110 mg bid治疗方案的患者的数据。上述数百名患者的中位随访时间为4.6年,而最长的随访期则达到6.7年,这也是迄今为止针对新型口服抗凝药物应用于AF卒中预防的疗效与安全性开展的最为完整的评估。研究结果证实与控制良好的华法林相比,泰毕全是目前唯一显着降低缺血性卒中的新型口服抗凝药物;且是唯一一种具有超过六年长期治疗数据的新型口服抗凝药物。
最新获得的泰毕全研究结果包括:
·达比加群 150mg bid和110mg bid治疗组的卒中或全身性栓塞的年发生率分别为
1.25%和 1.54%
o达比加群 150mg bid和110mg bid治疗组的缺血性卒中的年发生率分别为1.03%和
1.29%
o达比加群 150mg bid和110mg bid治疗组的出血性卒中的年发生率分别为0.11%和0.13%
·达比加群 150mg bid和110mg bid治疗组的大出血的年发生率分别为 3.34%和 2.76%·安全性结果随时间变化保持一致,与之前的RE-LY研究结果相比,未观察到新的安全性问题
这些独一无二的长期治疗结果数据展现了两种剂量方案的泰毕全在超过六年的临床随访过程中所具有的稳定的安全性和疗效特征。在各种新型口服抗凝治疗药物中,唯一具有这样的长期数据的药物就是泰毕全。对于像房颤相关性卒中预防这样的需要终生治疗的慢性病症而言,诸如上述分析数据这样的研究结果尤为重要,因为这些数据能为医生和患者提供对于疾病管理的具有关键性和洞见性的信息。
数据不确定性 篇6
便携式维修辅助系统 (Portable Maintenance Aid, PMA) [1,2]是一种基层级维修的重要辅助手段, 主要用于大型复杂装备的原位检测[3]和故障诊断, 能及时、快速、准确地检测大型复杂装备存在的故障隐患, 提高维修检测效率, 是装备全寿命维修保障的重要组成部分[4]。空地导弹便携式维修辅助系统是对空地导弹测试、维护、保障等一系列活动的支持, 极大地减轻工作人员的业务工作负担、增强现场维修的能力。故障查询部分是空地导弹PMA数据库系统的核心, 用户根据现象故障输入的方式对PMA系统进行查询, 定位出系统的具体故障并进行相应的维修。由于故障现象的复杂性, 根据数据的特点对导弹的故障数据表进行不确定性划分, 建立相应的可能世界后存储于系统数据库中, 采用这种方式建立的数据库表能够有效的提高系统查询效率、降低功耗、缩短工作时间。
1 不确定性关系概述
不确定关系是指许多确定的可能实例组成的集合, 也称为可能世界, 具有属性级不确定性和元组级不确定性两种存在方式。属性级不确定性关系是指不同属性间取值不存在相关性, 元组级不确定性关系则表示各元组之间的相互独立。通过水平函数依赖与垂直函数依赖将原有的关系进行划分, 缩减可能世界数量, 精简数据库表的规模, 增强查询效率。在传统的数据库中, 用户查询某一信息时返回的是各种精确、可靠的数据, 但由于数据本身存在的不确定性或现实空间的各种不确定性因素使数据维度更加广阔。在数据库中采用不确定性数据模型能在丰富的信息存量的基础上缩减定位时间、提高查询效率, 所以不确定性数据查询技术在近年来发展较快。首先给出如下定义:
水平函数依赖:对于R中的任意两条水平元组r和s, 设T为r和s各自可能元组的并集, 如果T中的可能元组满足函数依赖X→Y, 则称Y水平函数依赖于X, 记作X→HY。
垂直函数依赖:对于关系中任意两条水平元组p、q, X、Y、K都是其中的属性集合, 且∀K∈ (Y-X) , x是元组p在X属性上的取值, T1是其在K属性上的取值集合, 若x也是元组q在X上属性上的取值, T2是其在K属性上的取值集合, 且总有T1=T2, 则称为Y垂直函数依赖于X, 记为X→νY。
2 导弹故障数据不确定性关系分析
导弹的各种故障间存在相互交叉的部分, 某一部分的故障并不是单一影响的, 如导弹部件A故障, 相应的联动性会使部件B和部件C也无法正常工作。内部存在很多的可能性的结果, 所以建立不确定性关系数据模型进行故障查询是可行的方法。以某型导弹的部分弹体故障数据为例, 建立属性级不确定性关系模型, 即Attributeor模型, 见表1。
表1中, Num表示故障编号, MISSION STOPPAGE (MS) 属性表示故障名称, COMPONENT属性表示发生故障的部件, DAMAGE表示故障的类型, D-LEVEL表示故障等级状况, 不同的故障对应相应的类型等级。{翼面, 舵面}是一个Attribute-or的元素, 它的可能取值是翼面或舵面二者取一, 其他可能元素以此类推。
存在的可能世界数为各元组的每一次赋值的集合。根据定义1判断关系R中存在如下水平函数依赖:Num→HMS;在上述关系中只存在一个水平函数依赖, 将关系模式通过水平分解为R1和R2, 关系R1和R2见表2、表3。
在上述两个子关系中, 若查询字为故障名称时只需要对一个可能世界进行搜索, 若以故障类型、部件或登记状况为查询对象时则需要查询的子空间与原关系相同, 无法达到增强查询效率的功能。采用HP Algorithm的算法如下:对于关系R中任意两条元组a、b在属性X上没有交集, 则将两元组归为同一关系, 否则设两元组a、b在X有交集M, 设a、b两元组X属性上值为M1和M2, 所以就有M=M1∩M2, 将原关系分解为M1与M为一组关系, M1与M2-M为另一组关系。并进行逐层划分。通过关系R2、R3和R4再进行水平与垂直函数分解后合并, 得到关系R5和R6, 见表4和表5。
在原不确定关系R中可能世界数W为1728, 分解后的可能世界数W1、W5、W6分别为1、144、13, 极大地缩减了可能世界查询的数量, 有效提高查询效率。
对故障名称查询的时间冗余度:
对故障类型查询的时间冗余度为:
对故障等级查询的时间冗余度为:
3 结语
空地导弹作为一种先进的武器装备成为现代各国争相发展的武器类型, 而便携式维修辅助系统则是保证空地导弹使用效能的重要手段。本文研究空地导弹便携式维修辅助系统中故障查询数据的不确定性关系, 将故障数据的数据关系进行水平函数分解、垂直函数分解和HP Algorithm分解, 极大地简化了原有数据关系, 大大提高了系统对某一属性类的查询效率, 缩短查询时间。
摘要:针对空地导弹便携式维修辅助系统的故障数据库不确定性关系建立基于属性级不确定性关系的分析方法, 采用Attribute-or模型对所设计的空地导弹PMA系统中弹体故障数据进行分解, 极大地缩短了故障查询的时间复杂度, 提高系统的查询效率。
关键词:不确定性关系,Attribute-or,空地导弹,便携式维修辅助系统
参考文献
[1]张波, 姜震, 孟上.某型导航雷达便携式维修辅助装置 (PMA) 设计[J].计算机测量与控制, 2013, 21 (7) :1855-1857.
[2]苏建军, 朱仁, 刘继伟, 等.便携式维修检测组合 (PMA-PIP) 系统的设计[J].计算机测量与控制, 2009, 17 (12) :2394-2396.
[3]许占显.原位检测技术及其应用[J].建设机械技术与管理, 2002, 15 (1) :19-21.
数据不确定性 篇7
2012年,上海学生参加了由经济合作与发展组织(OECD)组织实施的国际学生评估项目PISA(Programme for International Student Assessment)测试,取得了举世瞩目的好成绩.PISA 2012的主测试领域是数学,这是自PISA开测以来第2次将数学作为主测试领域(第1次是2003年),其目标是评估学生的数学素养(Mathematics Literacy).本次测试在内容维度依旧包含“变换与关系”、“空间与图形”、“数量”、“不确定性和数据”4个主题.本文基于PISA 2012测试中的“不确定性和数据”的样题及我国中考一试题展开分析,以求透过PISA 2012测试来反思我们的数学中考.
2 PISA 2012测试中“不确定性和数据”内容的分析
2.1 PISA 2012测试中数学素养的基本含义
PISA 2012测试以数学为主测,目的是评估学生运用数学知识和技能解决实际问题的能力,关注高层次的数学思维技能,其实质是对学生数学素养的检测.PISA 2012测试中数学素养的含义是个体在各种不同的背景下表述、运用和阐释数学的能力,包括数学推理以及运用数学概念、步骤、事实和工具来描述、解释和预测数学现象的能力.它帮助个体认识数学在现实世界中所起的作用,作出有根据的判断和决策,以促使学生成为具有建设性、参与意识和反思能力的公民.[1]
2.2 PISA 2012测试中数学素养的测评框架
PISA 2012测试的主要领域为数学,与第1次(PISA 2003)测评框架相比,PISA2012数学测评框架最大的不同是过程维度中放弃了“能力群”的提法,改为3种数学过程.其测评框架如表1所示.
上述3种数学过程的整合构成了问题解决的数学模型(如图1所示),实际上就是数学建模的过程,也是PISA 2012数学测试框架的基石.
2.3 PISA 2012测试中“不确定性和数据”的测评要求
在科学技术领域乃至日常生活中,不确定性现象随处可见.不确定性因此成为一个对诸多问题情境进行数学分析的重要视角.“不确定性和数据”包括识别序列中变化发生的位置,树立量化意识;认识测量中存在误差和不确定性,了解概率;在不确定性情境中能呈现、解释、评价所得结论;能科学地预测、解释投票结果、天气预报、经济模型、制造加工、考试成绩和调查发现中存在的不确定性现象.解密的PISA 2012试题中涉及“不确定性和数据”这一内容的试题中有一道要求学生检测表格中呈现的数据并解释为什么这些数据不适合用柱状图来表示,关注数据的解释和呈现.计算机辅助测试提供的强大的运算能力和数据处理能力得以让学生处理更大的数集.学生有机会选择合适的操作工具,分析和呈现数据,还可以从数据库中抽样.也可以使用不同的方法检测和描述数据,生成相互关联的数据图示,对包括数字内的随机结果进行一般化处理后,还可以使用类比的方法,探索其它概率现象的情境规律.例如事件发生的确切可能性和样本的性质.[1]
3 PISA 2012测试中的样题分析
本文选择了上海学生在正式测试中“不确定性和数据”部分的一道样题进行分析:
样题(记为T1)为了完成一项有关环境的家庭作业,学生们搜集了一些关于几种常见垃圾分解时间的信息如表2所示.
有一个学生想要以柱状图的形式来展示结果.请说出一个理由表明为什么柱状图不适合用来展示这些数据.
分析本题被置于科学性情境下,涉及一个科学性(分解时间)数据.数学主题是“不确定性和数据”,涉及数据的类别、解释和呈现,要求学生意识到时间跨度的相对长短会影响表征工具的选择.数学过程类别是“解释、应用和评估数学结果”,因为焦点在于评估数学结果(在本题中是指柱状图)在描述现实情境元素的数据方面的有效性.题目涉及对展示出的数据进行推理,以数学的方式思考数据和呈现之间的关系,并评估结果.问题解决者必须意识到,用柱状图来呈现这些数据的难点有以下两点之一:或者是因为一些类型的垃圾的分解时间范围太广(无法简单地在一个标准的柱状图上呈现);或者是因为不同种类的垃圾的时间变量差距太大(因此,如果要在一条时间轴上呈现出最长时间的跨度,那么最短的时间跨度在这条轴上就几乎看不见了).
给出如下回答的学生可以得分:“因为1—3,0.5,100这样的数据很难准确地在柱状图上表现”、“因为最高的量和最低的量之间相差很大,因此,很难准确地同时呈现100年和几天”.
问题的解答过程要求运用以下基本数学能力:阅读文本和理解表格需要“沟通”能力,给出简洁的书面推理需要更高水平的“沟通”能力.对问题“数学化”的要求比较低,只需要识别和提取出一个柱状图的关键数学特征.问题解决者必须理解对数据的一种简单、表格式的“表征”,同时想象一个图形的表示法,而将这两种表示法联系起来则是本题的一个关键考察点.“推理”和“设计策略”的要求相对较低.对“使用符号化的、正式的、专业的语言和运算”能力的考察体现在学生需要调动程序的和事实的知识来在头脑中构建柱状图,或者快速地画一个草图,特别是要想象出柱状图的纵轴,就必须理解刻度的含义.“使用数学工具”这一能力没有涉及.[1]
4 PISA 2012测试与我国中考试题的差异分析
PISA测试和我国的中考在测评理念、题目设置、评价标准等方面存在众多的不同之处.我国的中考主要考察学生知道了什么,而PISA测试则考察学生能否应用所知来做什么,更加侧重考察学生解决实际问题的能力.如我国以《课标》为基础编制的河南中考试卷(2014年)中一道试题就有代表性.[5]
试题(记为T2)下列说法中,正确的是().
(A)“打开电视,正在播放河南新闻节目”是必然事件
(B)某种彩票中奖概率为10%是指买10张一定有1张中奖
(C)神舟飞船发射前需要对零部件进行抽样检查
(D)了解某种节能灯的使用寿命适合抽样调查
答案为D,答对得3分,答错不给分.
此题的出题方式是我国考生所熟悉的,典型的应试题目.考生只要理解“必然事件”、“概率的意义”以及“抽样调查的适用范围”,就能够顺利地解答出此题.
两相比较,PISA测试与我国中考在命题方面有如下几个方面的差异.
4.1 出题风格
T1反映了PISA的出题风格,从表面上看不出来是对哪一具体数学概念或知识的考察,但实际上却要求学生综合运用所学知识来解答问题.T2是典型的中国应试风格,侧重考查学生对数学学科基础知识、基本技能、基本思想方法的掌握程度,属于知识和技能范畴,反映了《课标》对考试的要求.之所以出现这样的不同,主要是因为二者出题的依据不同,T1依据的是PISA 2012数学素养测评框架,T2依据的是《课标》.对比PISA 2012对“不确定性和数据”的测试要求和《课标》对初中数学“统计与概率”内容的要求,不难发现,《课标》更注重的是结果性目标的实现,而PISA测试则更加注重对学生能力的考察.
4.2 内容理念
T1体现了PISA 2012的内容理念,体现在依据测评目标而建构的测评内容框架中,PISA将数学问题按照内容进行分类,按照解决数学任务的流程进行分类,界定所需要数学的基本能力,建构评价成绩和题目难度的量表体系.[6]T2是为了考察学生对“必然事件”、“概率的意义”以及“抽样调查的适用范围”的理解,是为了甄别学生是否掌握基础知识而设计的.
4.3 测评背景
T1测试的问题是现实生活中学生熟悉的、经历的、或将要遇到的问题,具有现实意义.PISA 2012将问题背景分为“个人性的”、“社会性的”、“职业性的”、“科学性的”4类.我国T2试题属于科学性的背景,与学生的现实生活有点距离,具有程式化的背景特点.
4.4 评卷理念
T1属于开放性题目.评卷时由培训合格的编码评分员依据评分标准给出相应编码的方式来评分.编码的评分方式有利于把握学生解题思维的性质和学生对更高层次思维方法的掌握情况.其双位编码首位给出了学生应得的分数,末位则按照学生在解决给定问题的过程中所使用的策略、或是按照阻碍学生得出正确解决方案的错误概念给出特定代码.[7]这样的评价方式可以使教师了解每个学生的思维方式,即便得相同分数的学生他们的思维方式也可能是不一样的,可以让老师明白每个学生做对或做错的原因在哪里,然后有针对性的进行教学.T2属封闭性题目.答案唯一,评价采用一刀切的方式,很难根据学生的答案来了解学生的思维方式.一部分学生确实是真正掌握了所要考查的知识点而做对了该题,而有一部分也可能是蒙对了.这样的评价方式不能够发现学生思维中的合理成分,不利于发挥评价的诊断和调节功能,无法使老师知晓学生数学思维的真实情况,不利于有效教学.
5 PISA 2012测试对我国中考的启示
5.1 试题的情境要与学生生活的真实情境相吻合
情境是联系试题和学生认知之间的桥梁.情境设计作为命题设计的重要环节将直接影响测试的有效性.在我国的中考试题中,情境创设比较单薄,存在着程式化特点,情境没有明确的分类.情境的采用,主要是依据命题专家的经验.PISA 2012将问题背景分为“个人性的”、“社会性的”、“职业性的”、“科学性的”4类,这实际上是在一定程度上框定了试题情境的来源,这就使得试题的情境与学生生活的真实情境更加吻合,可以有效地激发学生的求知欲望,增强学生学好数学的信心.同时也可以让学生经历“数学化”的过程,这对于培养学生的建模思想和问题解决能力是尤为重要的.因此,我们中考试题命制过程中试题情境的选择要借鉴PISA 2012测试题的情境,选择一些与学生生活的真实情境相吻合的情境.
5.2 试题建构中要注重过程性目标的实现
通过对比PISA测试样题和《课标》下的中考试题,不难发现我国的考试更加注重结果性目标,注重对显性知识的考查,而不注重对学习与思考过程的考查,长此以往,学生的创造力被扼杀,很多题目学生只要掌握了一定的做题模式,再加上反复练习,便可在考试中取得高分,这样,学生就沦为了考试的奴隶,为了考试而学习.众所周知,创新是一个民族的灵魂,是一个国家兴旺发达的不竭动力,如果学生只是死记硬背知识,而不注重知识习得与应用的过程,创新是很难的.因此,我们要在数学教育中对过程性目标和结果性目标都要考量,认真研究中考测试框架,能够能力分级,不断导向数学素养的测试.
5.3 命题要发挥考试的诊断和调节功能
考试除了有选拔功能之外,更重要的是诊断和调节功能.PISA的测评方式可以很好地让老师了解学生的思维方式,发现学生存在的问题,进行有针对性的教学.这种测评方式也可以让学生发现自己的不足,为以后的终身学习奠定基础.目前我国实行的一刀切的评价方式容易以偏概全,不能够准确地认识到学生的优势和薄弱环节,不能够让教师因材施教.为了更好地发挥考试的诊断和调节功能,应当借鉴PISA的测试经验,开展集体攻关,研究测试的理念、目标、内容,建立更加科学合理的测试体系,有效地发挥考试的诊断与调节功能.
5.4 命题要实现由经验性命题向科学性命题的转变
我国的中考作为高利害性的考试,对保密工作要求极高,试题的命制更多基于命题专家的经验,主观性较强,这使得测试的有效性和可靠性遭到质疑.在这样一个相对程式化的考试中,学生得高分就一定意味着能力强吗?这个问题值得我们深思.那么究竟该命制一些怎样的试题来考察学生的能力呢?借鉴PISA的测试框架可能有助于命题的科学性,对于保密性要求极高的中考,细化、完善框架的过程需要在保密和小规模测试间取得平衡.[8]虽然我国的毕业考试题目开始尝试从“知识立意”向“问题立意”和“能力立意”的转移,但推行得比较缓慢.[9]这其中主要的原因在于我国考试试题的背景往往是命题专家根据自己的经验建构出来的,而并非像PISA测试试题那样是具有现实意义的.我们的试题虽然也体现了“能力立意”,但是对能力的要求很低,仍属于应试题目的范畴.
参考文献
[1,2,3,4]OECD(2013),PISA 2012 Assessment and Analytical Framework:Mathematics,Reading,Science,Problem Solving and Financial Literacy,OECD Publishing:25,28-38,35,51-52.
[5]天利全国中考命题研究中心,北京天利考试信息网.2014新课标全国中考试题精选(数学)[M].拉萨:西藏人民出版社,2014.
[6]The Organization for Economic Co-operation and Development(OECD).What Students Know and Can Do:Student Performance in Mathematics,Reading and Science?(Volume I)[EB/OL].http://www.oecd.org/pisa/keyfindings/pisa-2012-results-volume-i.htm.
[7]OECD(2003).The PISA 2003 assessment framework-mathematics,read,science and problem solving knowledge and skills.[EB/OL].https://www.pisa.oecd.org/document/.2003.
[8]王鼎,毕晓楠,杨玉东.PISA数学测试框架制订过程的启示[J].上海教育,2010(03A):55-56.
数据不确定性 篇8
地理系统本身的复杂性从本质上决定了地理数据的不确定性[1]。地理信息系统空间模型的表示方法存在着不确定性问题, 并通过GIS的分析操作而传播。喀斯特石漠化综合防治决策系统是结合地理信息系统和决策支持系统, 利用Visual Basic开发软件与Map Object控件开发的建立村一级管理分析系统和土地图斑类别、面积查询分析系统, 并根据目前已颁布的国家标准 (GB) 相应编码数字化, 有较强的多媒体数据和矢量数据库管理功能。它是以贵州省毕节鸭池示范区的基础信息及石漠化决策信息为数据源、以有助于实现喀斯特石漠化综合防治为目的、以GIS分析方法、决策支持和软件开发技术为手段开发的GIS应用系统。本文以此决策系统空间数据为研究对象, 对GPS野外调查数据及遥感解译数据进行分析, 从而得出系统数据的不确定性问题。
一、系统空间数据的获取
GIS所涉及的空间数据主要是指以地球表面空间位置为参照的自然人文社会经济和景观等信息, 这种信息可以是数字、图像、图形、表格和文字等[2]。
喀斯特石漠化综合防治决策系统的空间数据主要来自于人工收集的现有地图数据 (研究区1∶1万地形图、石漠化现状图、石漠化防治工程布置图等) 、文本资料、遥感解译数据、GPS野外调查数据等。系统数据管理采用混合数据模型, 空间数据采用空间数据文件的方式存储和管理, 属性数据使用Access数据库管理系统。
二、喀斯特石漠化综合防治决策系统空间数据误差分析
(一) 系统定位显示的误差分析
系统定位显示是地理信息系统软件必备的功能, 当鼠标滑动到某一点可以在状态栏内显示出此点经纬度坐标。在此以GPS测量数据为验证标准分析喀斯特石漠化综合防治决策系统定位显示的误差。系统建设前期在野外调查中, 使用手持GPS仪在示范区内共测定了80个样点, 现选择20个样点进行系统定位显示误差的分析 (见下页表1) 。由于GPS仪
样点GPS坐标 (X1) GPS坐标 (Y1)
系统坐标 (X2)
本身的精度以及操作过程中的误差, 测量数据具有位置不确定性, 与真值存在一定偏差, 此处忽略测量数据与真值之间的偏差。
分析步骤如下:
1.首先计算坐标误差的平均值:
2.计算坐标误差的加权平均值:
因为坐标在描述一个点的空间位置时, 是以横纵坐标表示的, 它们具有同样的作用, 因此ΔX、ΔY的权值分别为0.5、0.5, 即
M值近似看为系统数据坐标显示误差, 即喀斯特石漠化综合防治决策系统定位显示的误差约为0.0158。
(二) 遥感数据土地利用解译误差分析
遥感影像解译是依据不同地物的反射光谱不同来区分地物的, 这样就会导致同物异谱和同谱异物的现象发生, 使以遥感解译为基础的土地利用数据具有不确定性。本研究将spot510m多光谱数据与5mpan波段数据进行融合, 多光谱数据
系统坐标 (Y2) 坐标误差 (△X) 坐标误差 (△Y)
选用3 (0.78-0.89μm) 、2 (0.61-0.68μm) 、1 (0.50-0.59μm) 。融合后数据按标准假彩色图像显示。采用人机交互的方式解译生成研究区土地利用数据, 通过实际采样验证, 最后利用实际采样数据和实验室解译数据进行误差分析。通过下页表2可知, 1、2、3、4、6号地类解译正确率较高, 5、7、8、9号地物由于云层、大气透明度、地物组合产生的混合光谱以及其他干扰因素影响, 而表现出彼此或与其他地物反射光谱相近, 解译精度较低。
结论与讨论
喀斯特石漠化综合防治决策系统空间数据主要来自于现有地图数据、文本资料、遥感数据、野外调查数据等。通过对纸质地图的扫描校正以及数字化得到基础矢量数据, 数字化过程中产生的人为误差不可避免;不考虑遥感数据本身, 在其解译过程中不可避免同物异谱和同谱异物的现象发生;利用手持GPS仪进行野外调查得到的数据是对遥感解译数据的验证, 但在定点定位的过程中仪器本身以及人为操作带来的误差也不可避免。因此, 系统空间数据不确定性来源包含GPS实测、数字化地图、遥感数据、GIS空间分析等方面。通过对比样点GPS测量坐标与系统显示坐标, 运用加权平均法得出喀斯特石漠化综合防治决策系统定位显示的误差约为0.0158。
空间数据的不确定性决定空间数据质量。目前空间数据不确定性的研究还处于初步阶段, 综合利用各种研究空间数据不确定性的理论和GIS空间分析方法是本文今后研究的切入点。
摘要:研究喀斯特石漠化综合防治决策系统空间数据的不确定性来源, 通过对比样点GPS测量坐标与系统显示坐标得出系统定位显示误差, 并对遥感解译数据进行误差分析, 综合系统空间数据来源得出以下结论:喀斯特石漠化综合防治决策系统空间数据不确定性主要来源于GPS测量数据、地图数据、遥感数据的不确定性、数据转换及GIS分析处理过程中引起的误差。系统定位显示误差为0.0158。
关键词:喀斯特石漠化,空间数据,不确定性
参考文献
[1]徐建华.现代地理学中的数学方法:第2版[M].北京:高等教育出版社, 2002.
[2]戴洪磊.矢量GIS中的不确定性理论及应用[M].北京:地震出版社, 2004.
[3]张海荣.GIS中数据不确定性研究综述[J].徐州师范大学学报:自然科学版, 2001, (4) :66-68.
[4]宋军林.地图对GIS空间数据误差的影响初探[J].宝鸡文理学院学报:自然科学版, 2004, (1) :70-72.
[5]承继成, 郭华东, 史文中, 等.遥感数据的不确定性问题[M].北京:科学出版社, 2004.
[6]胡圣武, 潘正风, 王新洲, 等.地理信息系统不确定性的研究[J].测绘通报, 2004, (9) :13-16.
[7]张燕燕, 张家庆.GIS分析中的空间数据不确定性问题[J].测绘与空间地理信息, 2005, (1) :16-19.
[8]颜加斌, 李义, 张勤辉.GIS空间数据的不确定性研究[J].露天采矿技术, 2008, (1) :33-35.
[9]程涛, 邓敏, 李志林.空问目标不确定性的表达方法及其在GIS中的应用分析[J].武汉大学学报:信息科学版, 2007, (5) :389-393.
数据不确定性 篇9
关键词:不确定性需求,服务水平,安全库存
1 数学模型的构建
一般情况下,需求的变动幅度会大于供给的变动幅度。为了成本最小化我们寻求科学的库存管理方法,而概率统计科学的发展为我们提供了一个良好的理论平台。
1.1 统计数据的基本处理
为了便于说明问题,我们以某个销售公司在某地区4个交货周期里为期60天的需求数据进行分析,其需求量单位为万件,得出如下表的统计数据。
由以上数据可得出日平均需求量约为4个单位(除去3天的缺货时间),可认为缺货出现在很短的时间内,且带来的直接损失为3×4=12个单位的产品与57天内的总销售量相比仅占很小的比例。
通过观察天数与需求量的分布柱状图,可以看出其分布情况关于均值(中数与众数)近似对称,表明该地区的客户需求量呈正态分布。根据正太分布的数字特征,由公式:
undefined(其中,undefined
得σ≈2个单位的产品,由正太分布概率表可知:
undefined。
1.2 安全库存模型
如果设:安全库存为S,一年的售货期为T,一年内的订货次数为N,一年的总需求量为Q,订货周期为t,每天的平均需求量为undefined,一次订货量为q,单位库存成本为C1,一次订货成本为C2,总成本为C。
则有,undefined2
又有undefined和T=tN
得到,undefined
根据数学知识我们知道当undefined取最小值时,总成本C才能取得最小值。
由于undefined
当且仅当undefined时,undefined(经济订货批量) 时,undefined,此时,undefined,(其中,undefined表示特定的客户服务水平所对应的平均值的标准偏差的数值。)
设:undefined,那么,C=an+b
由此看来,n的取值越小,总成本就越少,同样地,客户的服务水平就会越低。因此,组织的管理者应该在客户服务水平与库存成本之间做出合理的选择。如,50%的客户服务水平,总成本为b,84.13%的客户服务水平,总成本为a+b,97.72%的客户服务水平,总成本为2a+b,等以此类推。
根据数学的知识,我们知道正太分布函数的密度分布函数为:
undefined
那么,针对本模型中的需求量:
undefined
因为,正太分布函数的概率分布函数即为:
F(x)=∫undefinedf(x)d(x)
需求量q是一个大于等于零的值,因此:Q(q)=∫undefinedq(q)d(q),Q(q)∈[0,1],在此,服务水平α= Q(q),其图像如下图所示:
由图2可知,Q(q)的概率分布图像是S型曲线。也就是说,当Q(q)= 1/2=50%左右时,q的很小的变动就会带来Q(q)的大幅度的变动,Q(q)在这段区间的对q的变动很敏感。但是随着q的继续增加Q(q)的增加幅度会慢慢变小,Q(q)会越来越接近与1,但永远不会与y=1这条直线相交。根据经济学的知识我们不难得出当Q′(q)=a时的q的值,在经济上是最优的,
即Q′(q)=[∫undefinedq(q)d(q)]′=q(q)=a
得出:undefined
通过观察q(q)的图像可以看出,在Q(q)的所有切线中与直线C=an+b平行的切线有两条,分别位于Q(q)的50%处的两侧,通过前面的分析可知当Q(q)=50%时,n=0,
所以:undefined(其中,undefined即为所求的订货量,undefined为一个订货周期的平均需求量。
解方程组:
undefined
得到:undefined,
最小库存成本为:C=an+b,(其中,undefined为安全库存量,根据q的取值,通过查正太分布的概率表,可以得到此点处的概率,也就是客户服务水平α= Q(q)=∫undefinedq(q)d(q),确定最佳安全库存的同时,也实现了总库存成本的最小化与客户服务水平的最大化。此时,q的取值到达经济学最优。
2 总结
数据不确定性 篇10
由于XML数据的灵活性,自描述性好及可扩展性高,成为当前主流的数据形式,并成为Internet中进行数据交换和表示的标准。 由于客观世界的复杂性,不确定性是数据常见的内在属性,因此不确定的信息是普遍存在的。通常不确定信息以概率值的形式在XML文件中表示。如何在连续不确定XML中建立索引实现快速高效的查询成为了当务之急。
索引是提高查询效率的有效途径,DataGuides[1]、1-index[2]、A(k)-index[3]、D(k)-index[4],都是其中典型的代表。但是这些索引结构有个共同的特点就是仅支持简单路径查询,不支持分支路径查询。文献[5]提出一种扁平结构索引F-index,能够快速过滤所有与查询无关的索引结点,进而过滤掉与查询无关的元素序列。在处理深度嵌套的复杂结构XML文档时具有很大的优势,但是这种索引结构仅适用于普通XML文档中的查询。文献[6]提到一种处理连续不确定数据的索引方法,这种方法通过对节点提前计算一些附加信息,在查询时通过这些信息过滤与查询无关的节点,最小化概率阈值查询中概率计算的次数。但是这种索引只适用连续不确定数据的查询处理,对于连续不确定XML文档没有实际应用。
在连续不确定XML中进行的查询,多数只需要知道取得某个值的概率是否超过了一个给定的阈值,即概率阈值查询。提出CPTI索引技术。首先扩展了结构索引F-index,建立了概率XML数据的扁平结构链表,此链表在原有的普通XML数据扁平结构链表的基础上又添加了结点状态(普通结点和分布式结点)和相应的概率信息,查询可直接在链表里进行,这种结构可快速的返回twig小枝的查询结果,并且可以确定节点的路径概率值(即从根节点到本节点的路径概率);其次建立了值索引,此索引在服从连续分布的叶子结点,记录了结点概率信息,查询时先根据此概率信息过滤掉一些与查询无关的叶子节点,减少叶子节点概率的计算。
1 CPTI索引
1.1 建立模型
一个PXML文档可表示成一棵树,记作T=(Vp,rp,Ep,tag)。其中:(1) Vp是结点的集合。(2) rp⊆Vp是树的根结点。(3) Ep是边的集合。(4) tag:VA→<name,value,valuetype>,给每个结点赋予一个三元字符串组,分别表示该结点的节点名、值和值的类型,如图1所示是包含mux和cont类节点的P-文档[7]。
1.2 CPTI结构索引
CPTI结构索引是一个链表,记录一个节点A和它的所有tag为B的后代节点的情况,链表结构如图2所示。图2(a)是链表表头,其中PC表示父子关系,AD表示祖先子孙关系,图2(b)为链表元素,此链表是在结构索引F-index链表元素的基础上增加了三个元素,Flag表示后代结点的类型,包含F、Fi、和Fm,F表示普通节点,Fi表示独立节点,Fm表示互斥节点;P表示后代节点的路径概率值,即从根节点到该节点的路径概率;CurrentNode表示对应的后代结点。
记录图1中所有非叶节点和它后代的可达性信息,建立了如图3所示的CPTI结构索引。其中Mo表示monitoring、Si表示sensori、Ms表示measures、Ti表示tempi。
1.3 CPTI值索引
1.3.1 正态分布的概念及特征
若连续型随机变量X的概率密度为
1.3.2 值索引
值索引是一个二维表结构,记录cont类节点概率值和对应区间关系的信息表,值索引结构如图5所示,P表示用户给定的概率值,0<P<1;|x2-x1|表示图4中关于X=μ对称的、概率为P的最短区间长度;xL、xR含义与图4中xL和xR含义相同。查询时,可根据此表信息过滤与查询无关的元素以减少处理元素的数目。
图1中叶子结点T服从正态分布N(μ,δ2),根据T的实际分布情况,计算得到一些信息,构成一个信息表,例如T2结点,设初值0.1,步长0.1,确定P值,并计算得到图6所示值索引。
图6 CPTI值索引实例
2 基于CPTI索引的查询处理过程
例如查询图1中温度在(28,31)范围内的概率P大于0.6的传感器s,如图7所示。使用CPTI结构索引查询图7中的Twig,利用CPTI值索引过滤不满足Temp在(28,31)的概率大于0.6这一条件的Twig。
2.1 CPTI结构索引查询Twig
CPTI结构索引查询步骤:
(1) 通过CPTI结构索引找到S-id的PC指针和S-T的AD指针,两指针同时推进,比较两个指针所指链表中AncestorNode是否相同,如果相同,则找到符合条件的小枝。如果不同,则继续推进,直到PC或AD为空。
(2) 根据链表元素P确定T的节点类型和路径概率。如果T的路径概率低于查询概率阈值将被过滤掉,否则保留。
根据以上策略,最终找到如图8所示三个小枝。
2.2 CPTI值索引过滤Twig
CPTI值索引过滤步骤:
(1) (a,b)是概率阈值查询的查询区间,P,x1,x2,xL,xR含义和图4中表示的含义相同,查询的概率为Pi=阈值概率/路径概率。本例中a=28,b=31,Pt=0.6/(T的路径概率)。
(2) 当
(3) 当
(4) 其余情况均利用pdf进行计算。
根据以上过滤策略,只有T4符合条件。所以符合图7查询的只有S3[/id3]//T4。
3 实验分析
3.1 实验环境和数据集
本实验是在Dell Optiplex 380(2.93GHz),RAM 2GB,300G硬盘上运行,OS是Windows XP Professional SP-3。实验测试采用人工合成数据集。
3.2 测试及结果分析
本实验进行了两组测试。第一组测试中,数据集如表1所示,P文档逐渐增大,分别测试了没有索引存在、只有结构索引存在、结构索引和值索引都存在时的运行时间。结果如图9所示,从图中可以看出通过索引进行查询,查询时间大幅度地减少,并且发现,通过CPTI结构索引处理查询时,P文档越大,时间变化幅度越小,效率越高。
第二组测试中,P文档不变,44MB,只改变查询的概率值(P1~P9分别是0.1~0.9,步长0.1),测试了运行时间,如图10所示,从图中可以看出,概率值越大,运行时间越短,即概率值越大,通过CPTI索引查询的效率越高。
4 结 语
本文在已有XML索引方法的基础上提出了CPTI索引结构,可以实现连续不确定XML的概率阈值查询,使用CPTI结构索引加速了Twig查询,通过CPTI值索引过滤Twig,进一步减少了查询时间。实验表明,效率较高。进一步的工作是对叶子节点服从任意分布的情况进行研究。
参考文献
[1]Goldman R,Widom J.DataGuides:Enabling query formulation andop-timization in semistructured databases[C]//Proc.of the 23rdInt'1Conf.on Very Large Data Bases(VLDB),Athens:Morgan Kaufman-nPublishers,1997:436-445.
[2]Milo T,Suciu D.Index structures for path expressions[C]//Proc.ofthe 7th Int'1 Conf.on Database Theory(ICDT),LNCS 1540,Jerusa-lem:Springer-Verlag,1999:277-295.
[3]Kaushik R,Sheony P,Bohannon P,et al.Exploiting localsimilarity forefficient indexing of paths in graph structured data[C]//Proc.of the18th Int'1Conf.on Data Engineering(ICDE),San Jose:IEEE Comput-er Society,2002:129-140.
[4]Chen Q,Lim A,Ong K W.D(k)-index:An adaptive structuralsummaryfor graph-structured data[C]//Proc.of the 2003 ACMSIGMOD Int'1Confon Management of Data(SIGMOD),San Diego:ACM Press,2003:134-144.
[5]He H,Yang J.Multiresolution indexing of XML for frequentqueries[C]//Proc.of the 20th Int'1 Conf.on Data engineering(ICDE),Bos-ton,IEEE Computer Society,2004:683-694.
[6]周军锋,孟小峰,蒋瑜,等.F-index:一种加速Twig查询处理的扁平结构索引[J].软件学报,2007,18(6):1429-1442.
【数据不确定性】推荐阅读:
定性数据09-07
估值类数据同化方法中背景场的确定-三维可分离的情况06-08
陕西省2017年初级统计师统计法和统计学基础知识:用图表展示定性数据考试题10-07
四川省2017年上半年初级统计师统计法和统计学基础知识:用图表展示定性数据考试题08-21
数据挖掘数据存储07-01
大数据推荐数据模型08-27
财务数据和业务数据09-01
大数据与数据挖掘10-15
大数据时代的数据观05-14
数据存储与数据管理07-05