数据质量评估模型

2024-06-06

数据质量评估模型(共10篇)

数据质量评估模型 篇1

0 引言

近年来, 随着电网行业的快速发展及日趋严峻的能源危机, 电网统计数据的需求越来越大, 要求也越来越高, 同时, 为了加快实现电网公司全面建设“一强三优”的战略目标, 提升统计数据在公司决策与经营管理中的监督作用, 协调推进公司与社会的可持续发展, 迫切需要依据电网公司发展的新形势、新理念建立一个科学有效的统计数据质量评估模型[1]。

虽然现有的统计指标体系已较为完善, 但面临公司新的形势和未来发展的需求, 仍有一些问题值得研究。目前, 电网统计数据的研究大多集中在电网安全、可靠性、电能质量等方面, 很少有涉及针对电网统计数据质量评估的研究报道。其中, 文献[2, 3]提出了一种利用电压崩溃概率与风险值的乘积来衡量风险严重程度的方法;文献[4]将故障概率与气象的不确定性相结合, 以确定输电系统的可靠程度;文献[5, 6]首先将评语按优、良、中等标准进行划分并给定对应的数值区间, 若评估结果的量化值介于某评价等级的数值区间内, 则认为评估结果即为该等级。

以上文献在定性评价的过程中均存在不同程度的缺陷:文献[2-4]将评估结果精确化, 从而造成评估结果模糊性与随机性的丢失;文献[5, 6]采用传统的硬划分, 当评估结果介于两个评价等级的边界时, 表现出较强的主观随意性缺陷。为此, 本文提出了一种基于云模型的电网统计数据质量评估模型, 通过引进云模型对评语进行软划分, 借助逆向云发生器将评估结果转化为云模型, 并利用基于云模型的相似度算法计算评价综合云与各评价等级云之间的相似度, 借以确定统计数据所隶属的评价等级, 从而帮助用户及时了解统计数据的质量水平, 发现其中所存在的质量问题, 并指导用户采取相应措施进行修复。在此过程中, 摒弃了评语的硬划分, 弥补了传统方法的主观随意性缺陷, 实现了模糊性与随机性的联合, 最大程度上保证了评估结果的公平、公正、客观。

1 云理论

1.1 云的概念及其数字特征

云模型[7,8,9,10]是李德毅院士于1995年所提出的, 旨在实现定性概念与定量数值之间的不确定性转换模型。通过云模型, 可以将某一语言值映射到特定数值范围内, 在此过程中实现了随机性与模糊性的联合, 并深刻揭示了其内在联动关系。

假设U={x}是一个用定量数值所表示的论域, T是用语言所描述的U空间上的定性概念, 若对于U中的任意x都存在一个具有稳定倾向的随机数u (x) ∈[0, 1]代表x对定性概念T的隶属度, 即则x在论域U上的分布称为云, 而每一个 (x, u (x) ) 就称为一个云滴。换一句话来说, 云就是论域U到[0, 1]的映射。

云模型的数字特征用Ex、En和He三个数值来描述, 其中期望Ex代表论域U中最能够代表该定性概念的点;熵En体现了期望的不确定性, 它代表论域U中可被该概念所接受的数值范围, 体现了定性概念亦此亦彼性的程度;超熵He, 即熵的熵, 体现了熵的不确定性, He越大, 云的离散程度和厚度也就越大。

1.2 云发生器

云发生器分为正向云发生器和逆向云发生器两类, 分别如图1和图2所示。

(1) 所谓正向云发生器, 就是从云的数字特征值 (Ex, En, He) 出发, 产生若干个云滴 (x, u (x) ) 的模型。其算法可描述为:

输入:云的三个数字特征值 (Ex, En, He) 及需生成的云滴数N。

输出:N个云滴 (x, u (x) ) 。

(1) 以En为期望, He为标准差, 产生一个正态随机数En';

(2) 以Ex为期望, En'为标准差, 产生一个正态随机数x;

(3) 计算则 (x, u (x) ) 就是一个云滴;

(4) 重复 (1) - (3) , 直至产生N个云滴。

(2) 所谓逆向云发生器, 就是从若干个云滴出发, 获得云的三个数字特征值的模型。其算法可描述为:

输入:N个云滴x[N]={x1, x2, …, xN}。

输出:云的三个数字特征值 (Ex, En, He) 。

2 评估指标体系

2.1 评估指标体系的建立

对于统计数据的质量评估问题, 由于不同数据的质量评估需求互不相同, 因此选取的评估指标也不尽相同, 但通常来说都应该包括以下7个方面:

(1) 正确性:描述数据是否符合客观事实, 数据采集、传输、转储等过程中是否发生错误;

(2) 完整性:描述数据集中是否存在缺失记录;

(3) 唯一性:描述数据集中是否存在相似重复记录;

(4) 一致性:描述相同统计指标的数据的表达格式是否一致;

(5) 准确性:描述数据的精度是否符合要求;

(6) 有效性:描述数据的表达格式、数值大小是否有效;

(7) 时效性:描述历史数据于当前条件下是否仍然有效。

2.2 指标评估方法

2.2.1 正确性评估

正确性评估, 即异常点挖掘, 对于电力系统, 一方面, 由于电网统计数据具有纵向相似性, 即同一个统计指标相近时刻的数据一般不会有太大变化 (电网故障等特殊情况除外) , 而异常点的存在则会明显破坏这种特性;另一方面, 指标之间存在某种直接或间接的勾稽关系, 如线损率=线损电量/供电量。有鉴于此, 本文同时从一维和多维角度进行异常点挖掘, 并构造出如图3所示的异常点挖掘模型。

具体方法为:

1) 在一维统计指标异常点挖掘中, 将个案按从小到大顺序排列后, 若某个案与中位数的间距大于预定阈值, 则认为该个案为异常点。

2) 在多维统计指标异常点挖掘中:

(1) 利用指标之间直接、明确的等式关系, 如线损率=线损电量/供电量, 进行异常点挖掘, 若个案与经等式所求的值不一致, 则认为该个案为异常点;

(2) 进行回归分析, 建立统计指标之间的回归方程, 利用回归方程对统计指标数据进行预测, 并根据预测值与实际值的偏离度来定位异常点。

2.2.2 完整性评估

在实际生活中, 常常会出现由于信息遗漏、丢失或无法获取等原因而造成数据缺失。数据缺失不仅会造成有用信息的丢失、增加数据集的不稳定性, 甚至可能会影响决策分析结果。目前, 缺失数据的检测有多种方法, 如SPSS缺失值分析模块、Excel数值分析功能等, 均具有较高的准确性。

2.2.3 唯一性评估

由于电网统计数据均为数值类型且变化规律通常具有一定的周期性, 因此唯一性检测可从以下四个方面进行:

1) 数据集中是否存在相同的时间变量值;

2) 数据集中是否存在同名统计指标;

3) 不同行对应列的个案是否完全一致或相同个数是否超过预定阈值N1;

4) 不同列对应行的个案是否完全一致或相同个数是否超过预定阈值N2。

数据集一旦满足上述任一点, 则认为其有重复嫌疑。对于初步检测出的重复数据, 还需利用专业知识进行分析判断, 以确定其是否为“真重复”。例如, 数据集中存在两个同名统计指标:供电量, 根据上述原理进行检测分析后会初步判定其中一个为重复项, 但实际上两者可能代表不同的口径。

2.2.4 一致性评估

一致性评估描述的是同一个统计指标的数据的表达格式是否一致。由于电网统计数据均为数值类型, 故一致性分析可缩减为针对比率类数据, 如线损率 (包含小数、“%”和“/”3种有效格式) 。

2.2.5 准确性评估

准确性评估针对的是数值的精度问题, 评估时需预先设置一参考精度值, 然后检测个案的精度是否满足这一要求。利用visual C++, 不仅可以统计出所有不满足参考精度的个案, 同时还可对其进行相应的转换:若个案精度大于参考精度, 则需按“四舍五入”原则进行精度缩减;若个案精度小于参考精度, 则需在个案末尾添加若干个“0”, 以使个案符合要求。

2.2.6 有效性评估

有效性包括格式有效性和数值有效性两个方面。在进行格式有效性分析之前, 需预先确定统计数据所有的有效格式, 然后再将个案与有效格式逐一进行对比, 若个案的表达格式与某一有效格式相吻合, 则认为该个案格式有效, 否则认为该个案无法识别。数值有效性通常分析的是个案的大小是否介于某一值域范围内, 但对于整型数据而言, 如用户个数, 除此之外, 还必须满足整型要求。

2.2.7 时效性评估

所谓时效性, 是指由于时间的推移和行业日新月异的发展, 历史数据能否体现最新数据全部的本质特征, 并能对最新数据进行描述或替代, 而不被时间所淘汰。配对t检验是一种进行时效性评估的有效方法, 利用配对t检验可将历史数据与最新数据进行显著性分析, 借以判断两者之间是否存在显著性差别。由于同月份数据之间通常存在相同的变化规律, 因此只需将历史数据与最新的同月份数据进行显著性检验即可。

3 基于云模型的统计数据质量评估模型

3.1 确定评价等级云

假设将评语划分为p个等级, 则评价集可表示为:S={s1, s2, …, sp}。若评价等级sj的数值范围为 (Minj, Maxj) , 则对应的云模型可表示为Tj (Exj, Enj, Hej) , 其中:

其中, k为常数, 通常由区间值确定。区间值越大, Hej就越大, 对应评价等级的不确定性与随机性也越大。

3.2 确定评价综合云

利用逆向云发生器将各指标的评估结果转化为云模型, 设评估指标Ai对应的评价云为Ai (Exi, Eni, Hei) , 指标权值为wi, i=1, 2, …, 7。若由7个评价云所生成的评价综合云为A (Ex, En, He) , 则:

其中

3.3 相似度计算

在进行定性评价时, 传统方法是以评价综合云的期望值Ex为基准, 若Ex介于等级k的数值范围内, 则认为评估结果即隶属于等级k。该方法较为简易, 但当Ex介于两个等级的边界时, 表现出较强的主观随意性缺陷。故此处改用基于云模型的相似度算法, 通过计算若干个评价综合云的云滴对各评价等级的平均隶属度, 确定评价综合云与各等级云的相似度, 借以保证了评估结果的公正、客观。

基于云模型的相似度算法可描述为:

输入:评价综合云的数字特征值A (Ex, En, He) , 各评价等级云的数字特征值Tj (Exj, Enj, Hej) 及需生成的云滴数N。

输出:评价综合云与各评价等级云的相似度:ξj。

(1) 以En为期望, He为标准差产生一个正态随机数En';

(2) 以Ex为期望, En'为标准差产生一个正态随机数xi;

(3) 以Enj为期望, Hej为标准差产生一个正态随机数En'j;

(5) 重复步骤 (1) — (4) , 直至生成N个云滴;

(6) 计算相似度:

4 实例分析

本文选取国家电网公司2007年—2011年20个统计指标为研究对象, 这20个统计指标分别为:发电量、供电量、期末发电设备容量、本网最高发电负荷、线损电量、累计最大负荷利用小时数、设备平均利用小时数、全社会用电量、本网最高用电负荷、统一核算电厂上网电量、全社会用户用电装接容量、线损率、全社会用户个数、本网最大峰谷差、日最大峰谷差率、最大日用电量、平均用电负荷率、日均用电量、净用电量、售电量, 分别用D1, D2, …, D20表示。实例数据D如表1所示。

本文根据专家意见, 将评语划分为{好, 极好, 中, 极差, 差}, 共5个等级。以百分制为基准, 各评价等级对应的数值区间如表2所示。

根据3.1节, 得到如表3所示的各评价等级云的数字特征值 (这里经多次试验确定Hej=0.01) , 各评价等级的云图如图4所示。

假设评估指标Ai对应统计指标Dj的评估结果为Sij, 则Sij= (Dj中满足Ai的样本个数×100) / (Dj的样本总数) , 其中i= (1, 2, …, 7) , j= (1, 2, …, 20) 。根据2.2节进行评估后, 得到如表4所示的评估结果。

根据表4的评估结果, 利用逆向云发生器得到如表5所示的各评估指标的云模型数字特征值。

由于不同的评估指标在整个指标体系中的相对重要性互不相同, 对评估结果的决定程度也不一致, 因此有必要依据指标之间的相对重要程度确定各指标的权值。目前, 权值的确定方法有很多种, 如问卷统计法、专家法、层次分析法等。本文征求专家意见, 利用层次分析法所确定的指标权值为:正确性 (0.3773) , 完整性 (0.1735) , 唯一性 (0.1086) , 一致性 (0.0321) , 准确性 (0.0675) , 有效性 (0.1735) , 时效性 (0.0675) 。

由各评价云所生成的评价综合云:A (93.9203, 0.0147, 0.0082) , 对应的云图如图5所示。由图可知, 当评估分值取93.9203时, 隶属度为1, 表明:93.9203最能够代表实例数据的质量状况, 同时, 评价综合云的云滴大多介于93.84~94之间, 该范围正好隶属于评价等级:好。

经相似度算法所确定的评价综合云与各评价等级云的相似度:好 (0.8112) >极好 (2.9497e-005) >极差 (1.6619e-021) >中 (6.2153e-025) >差 (8.9968e-055) 。综上所述, 评价综合云与评价等级云 (好) 最为相似, 故实例数据的质量水平为等级:好。

5 结语

本文针对电网统计数据的质量问题, 提出了一种基于云模型的数据质量评估方法, 文章首先采用云模型将评语按好、极好、中、极差、差5个等级进行软划分, 并根据电网统计数据的基本特征, 从正确性、完整性、唯一性等7个方面进行质量评估, 在此基础上构造出一个评价综合云, 最后根据综合云来确定统计数据所隶属的评价等级。通过实例分析, 可以看出该方法具有良好的有效性与可行性, 同时能够较好地避免传统方法的主观随意性缺陷, 最大程度上保证了评估结果的公正和客观。但是, 由于本文所采取的部分评估指标并不具有较强的针对性, 故笔者认为今后的工作:如何从电网统计数据的基本特征出发, 进一步建立具有高针对性和高效性的评估指标体系, 借以实现评估结果的高可靠性。

参考文献

[1]胡倩.坚定不移推进“两个转变”加快建设“一强三优”现代公司[R].国家电网, 2010-02.

[2]周启航, 张东霞, 郭强, 等.电压崩溃的风险评估方法及应用[J].电网技术, 2011, 35 (4) :35-39.

[3]王磊, 赵书强, 张明文.考虑天气变化的输电系统可靠性评估[J].电网技术, 2011, 35 (7) :66-70.

[4]孟绍良, 吴军基, 王虎.电网脆弱性评价的灵敏度分析法[J].电力系统及其自动化学报, 2011, 23 (5) :89-93.

[5]王博, 游大海, 尹项根, 等.基于多因素分析的复杂电力系统安全风险评估体系[J].电网技术, 2011, 35 (1) :40-45.

[6]乔鹏程, 吴正国, 李辉.基于改进雷达图法的电能质量综合评估方法[J].电力自动化设备, 2011, 31 (6) :88-92.

[7]李贞双, 李争艳.基于云模型的量子免疫优化算法[J].计算机工程与应用, 2011, 47 (21) :123-125.

[8]徐德智, 李小慧.基于云模型的项目评分预测推荐算法[J].计算机工程, 2010, 36 (17) :48-50.

[9]陈昊, 李兵.云推理方法及其在预测中的应用[J].计算机科学, 2011, 38 (7) :209-224.

[10]郭戎潇, 夏靖波, 董淑福, 等.一种基于多维云模型的多属性综合评价方法[J].计算机科学, 2010, 37 (11) :75-77.

数据质量评估模型 篇2

眼下,基层开展人口普查数据质量评估,必须有科学的工作思路。

一是制订方案。明确地方人口普查数据质量评估的组织机构、领导责任、工作重点、部门协调、宣传引导、后勤保障等内容;明确地方人口普查开展数据质量评估的时间、对象、范围、责任、目标以及成果保密与报告的方式。

二是建立机构。为确保地方人口普查数据质量评估工作顺利进行,需要以地方政府人口普查领导小组名义建立组织机构,并将调研、协调、宣传等主要任务科学分解,应当由政府有关领导任组长,统计局主要领导为办公室主任并开展日常工作,成员由宣传、统计、发改、公安、计生、教育等单位负责人组成。

三是公开透明。要在加强地方主流新闻媒体协调的基础上,及时把地方人口普查数据质量评估方案、机构、任务、监督以及评估方式,在地方网络、报刊、电视上公开,主动接受社会监督。

四是明确责任。当前,要在明确地方人口普查数据质量评估思路和方式的基础上,切实明确参与地方人口普查数据质量评估的部门人员和责任,要求公安、计生、教育等部门分别提供有关调研数和部门资料,并指导基层完成人口普查数据质量评估任务,使地方人口普查数据质量评估工作,公开透明、部门参与、党政重视、程序规范、社会认可,成为推动统计“四大工程”建设与改革发展的重要环节。明确数据评估方式

基层开展人口普查数据质量评估,需要有符合实际的科学思路及方式并强化落实。一是自评完善。应当以乡镇为基层单位,在开展调研的基础上,进行人口普查数据质量自己评估,科学界定本乡镇人口普查登记的成果与误差,并推算出乡镇总户数、总人口以及人口流动、老龄化、性别比等主要指标区间。二是联评核实。应当在地方政府的统一部署下,协调宣传、公安、计生、教育等部门,适时召开地方人口普查数据质量评估联席会,对基层和本级人口普查登记得到的主要指标进行核实、界定并备案。三是验收公开。要在切实开展了地方人口普查数据质量自己评估、联评核实备案的基础上,以规范的方式书面请示,上级人口普查数据质量评估办公室验收核实,并公开接受社会监督,增强地方人口普查数据质量评估工作的公众性。四是由下而上。为使地方人口普查数据质量评估工作更加科学、规范、务实,应当推行由下而上的数据质量评估运行机制,以县、乡两级为基础,省、地两级为重点,国家最终审定的方式开展人口普查数据质量评估工作。县、乡两级评估工作应在公报发布前4个月内完成,省、地两级评估工作应在公报发布前3个月内完成,这样有利于改变普查数据质量评估中人为误差、上下有怨言、公众质疑的现象,切实提高地方人口普查数据的公众性、客观性和真实性。明确数据评估参数 多年来,基层对各项普查数据质量的评估积累了一定经验,也存在一些争议和问题,为提高地方人口普查数据质量评估的科学性与现实性,基层必须确定人口数据质量评估的参数。

一要有调研数。基层统计要把宣传贯彻党的方针政策、扶贫脱贫帮困、统计基础建设与地方人口普查数据质量评估有机结合,有计划地对1/3的县区、1/6的乡镇、1/20的普查区、1/30的普查小区的人口普查登记情况进行调研,以此推算乡镇和县(区、市)户数和人口登记结果与误差,为地方人口普查数据质量评估提供科学依据。

二要有历史数。应当从地方统计年鉴中,整理得出区域性总人口、总户数、老龄化、性别比等人口的变化参数,为地方人口普查数据质量评估提供参考。

三要有部门数。要在地方政府的统筹安排与协调下,由公安、人口计生、教育、卫生等部门提供户籍人口、流动人口、入学儿童、出生与死亡等人口信息作为评估参数之一。

四要有抽查数。各地在人口普查事后质量抽查中,得到了一些户记录、人记录信息,在进行区域性人口普查数据质量最终评估的过程中,要把事后质量抽查资料作为地方数据质量评估依据使用。

五要有快速汇总与光电录入数。科学技术是提高人口普查数据质量的保障,地方户数、人口等主要指标,快速汇总与光电录入已经基本成形,在开展地方数据质量评估中,要在做好保密工作的同时,科学运用于地方人口普查数据质量评估工作。当前,要切实从“调研数、历史数、部门数、抽查数、快速汇总与光电录入数”等方面,建立地方科学的人口普查数据质量评估机制,以加权或单间平均方法,推算出区域性总户数、人口总以及人口迁徙等有关系数,作为地方评估人口普查数据质量的科学参数,切实提高基层在人口普查数据质量评估中的科学性。明确数据评估重点

在实现统计“三个提高”的过程中,基层开展人口普查数据质量评估应当把握以下五个重点:

一是人口总量。要通过自下而上的逐级自评、联评、请示验收完善后,以地方人口普查数据质量评估小组办公室名义,科学界定地方人口普查总户数、常住人口、流动人口等主要指标区间及有关系数,为发布地方人口普查主要数据公报作技术和舆论导向的准备。

二是人口结构。当前,要在地方人口普查数据质量评估中,切实通过“调研数、历史数、部门数、抽查数、快速汇总与光电录入数”的综合分析运用,科学界定地方人口普查数据中的男性人口、女性人口、文盲人口、劳动力人口以及老龄人口区间与系数。

三是人口分布。为加快地方工业化、城镇化和现代农业发展速度,基层人口普查数据质量评估与资料开发利用,应当在创新思路和观念的基础上,科学界定地方人口迁徙方位、主要集居地、农民工住房等变化趋势,为地方村庄城镇化建设、发展现代工业、现代农业提供决策依据。

四是人口素质。基层人口普查数据质量评估与资料开发工作,要为地方党政提供本地区:初中文化程度、中技高中文化程度、大专以上文化程度的人口数及比重,为加快转变地方经济发展方式、推进改革与科学发展提供人才资源保障。

五是人口流动。要着力研究本地区人口跨乡镇和县(区、市)行政区域流动的数量、成本、就业、创收、交通、住房等情况,分析研究他们在推动地方城镇化、工业化、农业产业化建设中的作用与发展潜力。公开数据评估结论

在贯彻落实科学发展观、建设统计“四大工程”中,基层统计要在切实转变观念的基础上,把地方人口普查数据质量评估的过程作为宣传统计,争取地方党政更加重视和支持的重要渠道。

第一,要把地方人口普查数据质量评估结论及时报告地方政府。以对历史和人民负责的态度,把地方人口普查数据质量评估方式、参数、程序以及主要指标区间,由人口普查办公室主任签名作出科学的界定,以规范的机密文件及时书面报告地方政府有关领导,要求结合地方实际及时作出审核批示,为地方人口普查数据质量评估的客观性、公正性提供保障。

第二,要把地方人口普查数据质量评估结论及时报告上级主管部门。要充分认识开展地方人口普查数据质量评估,目的在于使地方人口普查得到的主要信息更加真实、科学,能成为重大决策的依据并经受历史的检验。因此,必须把地方人口普查数据质量评估的方案、原则、流程、方式、重点、结论以及面临的困难、问题和工作建议,以规范的机密文件及时报告上级人口普查办公室,并对本地区人口普查主要指标,由人口普查办公室主任签名作出科学的界定后书面上报。

基于统计数据质量评估方法的研究 篇3

[关键词]统计数据质量;评估方法;逻辑检验;优缺点分析

统计数据作为信息的重要载体,随着社会信息需求的不断加大,相关领域对于统计数据的质量要求也逐渐提高。统计数据质量的高低不仅关系着经济的顺利发展,更关系到相关行业的重要决策。就目前我国统计数据质量评估还存在的问题来看,有必要对现有的统计数据质量评估方式做一个系统的整理和提高。下文就我国现阶段统计数据质量的评估现状展开分析,就几种评估方法进行改善研究。

一、现阶段我国统计数据质量评估现状

统计数据质量反映的是一个国家或者一个地区社会经济活动的成果和相关记录,是社会经济问题研究的基本依据。因此,统计数据质量的高低不仅关系到经济发展的顺利与否,更影响着各项决策的实施。所以,确保统计数据质量的准确性和可靠性对于统计数据质量工作有着重要的作用。就我国目前的情况来讲,对于统計数据质量评估还较为滞后,就其原因主要就是因评估方式和方法落后、不合理、应用不恰当。统计数据质量的准确性不仅要求统计人员要坚持客观性,保证统计过程的准确性,杜绝造价、瞒报和谎报等情况;更要确保数据统计方法的有效性,在对统计的数据进行抽样设计、过程控制以及统计评估的过程中,应保证其科学合理性,并在可信的数据收集基础上,加量保证统计数据与经济现象无限接近。

近年来,伴随着统计数据分析行业的快速发展,统计信息所涉及到的领域和行业信息逐渐复杂起来。例如一些金融业、医疗行业和工商管理行业的运用都对统计数据质量有较多的关注。从宏观的角度来看,统计数据是国家宏观调控和管理的手段;从微观上,也是企业管理与决策的重要依据。然而实际发布的数据与公众心中的需求还是存在一定的差距,这不仅给市场经济传递了错误的信息,更可能妨碍社会发展。

二、基于统计数据质量评估方法的几种方法分析

1.逻辑关系检验法

所谓逻辑关系检验法就是以政府的统计指标体系为主,包含各个统计指标体系之间的包含、恒等相关内在逻辑关系的判断标准,以实现对统计数据可信度的检验。逻辑关系检验法主要包括比较逻辑检验法、相关逻辑检验法两种,下面我们以相关逻辑检验法为主进行探讨。相关逻辑检验法是按照逻辑关系与其紧密联系的客观社会经济现象来决定的,一方面,总量指标之间存在着较为稳定的比例和比率关系。 也就是说,以此来计算出来的相对指标应在特定的范围里面规定其取值。另一方面,总量指标的变动趋势之间相同程度同向或者反向的一致性,就是说各自增长率之间应该在大致的方向和幅度之间保持一致性。将其作为一种传统的检验方法来进行操作,较为简单易懂,因此逻辑检验方法对数据可信度上的初步检验有着广泛的使用率。

2.计量模型分析法

计量模型分析法主要以建立经济模型基础,对指标的数据质量进行评估的一种评估方法,主要分为模型构建、评估、分析等几个步骤。首先,模型的构建就是计量模型的分析法中的关键不走,而要构建一个合理的统计数据质量评估模型,这对于建模者也有一定的要求。传统的回归模型主要是依照理论分析来确定数据之间的经济现象复杂关系,而如果利用经典时序模型来对历史指标数据进行深入、仔细的考查就能有效的指出其变化规律;另外,运用面板数据模型能有效的刻画出宏观经济现象之间的复杂关系,更能描述出不同个体之间在不同时期的差异。此外,科学合理的模型估计和分析是建立模型后得到准确可信数据的关键环节,因此,我们要找到可用性、适用性以及有用性较高的模型构建,以保证拥挤数据的可信度和准确度。

3.核算数据重估法

所谓核算数据重估法就是从统计核算的角度上对特定的统计指标数据进行重新估计,以提高相关指标的数据质量评估方法的效率。评估的基本思路主要分三步,包括以待评估统计为依据,通过分析找出待评估统计指标在实践中存在的问题等几个步骤;挖掘现有资料,采取针对性的替代数据和运用规范来评估统计;重新估计统计指标参数,对官方统计指标数据的准确性进行评估。

三、 结语

总之,统计数据质量管理是一个涉及梁宇多、研究复杂的技术,作为统计数据质量管理的重要环节,数据质量评估方法的确定应从多个方面进行分析,就其实用性、准确性、评估过程、优缺点进行详细剖析,以确保数据质量的评估实际价值。

参考文献:

[1]郭红丽,王华. 宏观统计数据质量评估的研究范畴与基本范式[J]. 统计研究,2011,06:72-78.

[2]许涤龙,叶少波. 统计数据质量评估方法研究述评[J]. 统计与信息论坛,2011,07:3-14.

[3]胡光. 林业统计数据质量评估体系的研究[D].东北林业大学,2012.

数据质量评估模型 篇4

随着企业的不断发展和业务量的不断增加,管理者对企业的经营决策越来越需要相应信息甚至是实时信息的支撑。掌握大量的数据并不是企业的主要目的,而是要将这些数据收集加以分析利用。企业所积累的原始数据是运营业务在数据世界的映射,通过数据分析活动,可以深度挖掘数据背后的潜在价值,可以从整体上认识企业目前的状况以及存在的问题并做出针对性的响应,从而对企业的经营、决策、管理、投资方向和策略提供更加科学,更加有依据的信息。因此,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值开展的各种活动成为了企业的焦点。其中,最重要的就是数据分析的能力,其重点在于抓住关键内容,实时分析、提高效率,更优质的数据分析意味着更全面的信息掌控。具备数据的分析和解读能力是企业管理中的关键要素,对这种能力的获取、评价和提升将成为企业核心竞争力的关键。

数据分析是有目的地收集数据、分析数据,使之成为信息的过程。在产品的整个寿命周期中,包括从市场调研到售后服务和最终处置的各个过程中都需要适当运用数据分析,这一过程支持着质量管理体系。目前,一些企业在数据分析领域缺乏清晰的系统框架,对该过程缺乏有效的跟踪执行和优化评估。同时,数据获取过程较长,数据质量较差,降低了数据的时效性和数据分析的效率,究其根本原因,是企业缺乏相应的管理模型对企业数据分析过程实施有效的监控。本文通过构建数据分析能力成熟度模型,为数据分析型企业提供相应能力的工具并进行评价,丰富和完善能力成熟度模型理论知识体系。

2. 数据分析能力成熟度模型构建

2.1 CMM模型

1989年,美国卡内基-梅隆大学软件工程研究所(Software Engineering Institute,SEI)开发出软件能力成熟度模型(Capability Maturity Model,CMM)。CMM是一种开发模型,它的目标是改善现有软件开发过程,也可用于其它过程。它是对于软件组织在定义、实施、度量、控制和改善其软件过程的实践中各个发展阶段的描述。CMM的核心是把软件开发视为一个过程,并根据这一原则对软件开发和维护过程进行监控和研究。CMM是一种用于评价软件承包能力以改善软件质量的方法,侧重于软件开发过程的管理及工程能力的提高与评估。分为五个等级:初始级、可重复级、已定义级、已管理级、优化级。

首先初始级的软件过程是未加定义的随意过程,项目的执行是随意甚至是混乱的。有些企业制定了一些软件工程规范,但若这些规范未能覆盖基本的关键过程要求,且执行没有政策、资源等方面的保证时,那么它仍然被视为初始级。

其次可重复级中,根据多年的经验和教训,人们总结出软件开发的首要问题不是技术问题而是管理问题。因此,第二级的焦点集中在软件管理过程上。通过实施第二级的管理过程,从管理角度可以看到一个按计划执行的且阶段可控的软件开发过程。

然后在已定义级中,人们逐渐定义了执行的步骤标准,因为相对来说,第二级仅定义了管理的基本过程,而无论是管理还是工程开发都需要一套文档化的标准,并将这些标准集成到企业软件开发标准过程中去。所有开发的项目需根据这个标准过程,剪裁出与项目适宜的过程,并执行这些过程。

另外,已管理级中的管理过程是量化的管理。所有过程需建立相应的度量方式,所有产品的质量需有明确的度量指标。这些度量应是详尽的,且可用于理解和控制软件过程和产品。量化控制将使软件开发真正变成为一种工业生产活动。

最后的优化级的目标是达到一个持续改善的境界。所谓持续改善是指可根据过程执行的反馈信息来改善下一步的执行过程,即优化执行步骤。如果一个企业达到了这一级,那么表明该企业能够根据实际的项目性质、技术等因素,不断调整软件生产过程以求达到最佳。

软件能力成熟度模型为软件的评估提供了呈上升状的框架。实施CMM对软件企业的发展起着至关重要的作用,CMM过程本身就是对软件企业发展历程的一个完整而准确的描述,企业通过实施CMM,可以更好地规范软件生产和管理流程,使企业组织规范化。

2.2 DA-CMM构建

自能力成熟度模型(CMM)面世以来,其理论被人们广泛用于各个行业,如项目管理、知识管理、技术管理等领域。本文将CMM模型与数据分析概念相结合,构建了数据分析能力成熟度模型(Data Analyze Capability Maturity Model,简称DA-CMM),如图1。数据分析能力成熟度模型主要用来对企业数据分析能力进行合理准确地评估,从而帮助企业不断提高数据分析的能力。

2.2.1 DA-CMM各阶段内涵

⑴DA-CMM的初始级

初始级就是未加定义的随意过程,项目的执行是随意或混乱的,即只要在数据分析的过程域中对数据进行了初步的收集,就达到了初始级;例如在企业的销售过程中,企业总会把交易记录等数据收集起来,然后企业会对这些收集的信息进行初步的分析,不管企业是怎样进行的数据分析以及数据分析的效率和准确度,企业只要对这些数据进行了分析,就是达到了初始级,在这一过程中,企业对于所需的数据进行了初步的分析,但如果企业在这一过程中发现对收集的数据进行分析是一件十分困难或者耗时很长的事情,企业也许会做出另外的决定,所以在这一阶段,项目的执行是随意且混乱的,没有一个可得到保证的确切的规范,项目的成功率也很低。只要企业对于数据进行初步的分析就是达到了初始级。

⑵DA-CMM的可重复级

处于这一级的企业,经过长时间进行数据分析得到的经验和教训,其对于数据分析的方法和步骤已经有了一个较为有效的规范和标准,企业通过这些总结出来的数据分析的方法可以显著提高其进行数据分析的效率和准确性。这一级相对于初始级来说,不再是随意的以任何形式对数据进行分析,而是根据总结出来的方法更有效的得到企业想要的结果。

⑶DA-CMM的已定义级

在这一等级上,相对于可重复级,企业开始有意识地对数据分析制定出一套公认的执行标准,使得企业内部的数据分析更加的规范和成熟。这套标准可以让企业员工很好地理解数据分析的方法和步骤,提高企业数据分析员进行数据分析的能力。所以说在已定义级,企业可以按照一个完善的执行标准来进行数据分析。

⑷DA-CMM的已管理级

在已管理级中,此时的企业在按照执行标准进行数据分析的同时,已经可以对数据分析进行一个具体的量化的管理。数据分析是一门十分严谨的学科,所以数据的准确性是重中之重,因此,企业能需要够对数据分析进行一个合理的量化,例如企业能够对数据分析过程的时间、占用人力资源、得到数据的准确性以及结论的偏差等进行具体的量化,从而对企业内数据分析完善的执行标准得到更好的贯彻执行以及通过得到的量化数据来确定企业发展的策略。

⑸DA-CMM的优化级

处于优化级的企业进行数据分析是可以不断进行改善和提高的,企业可以通过在已管理级对数据分析过程进行量化得到的数据来发现企业在现阶段数据分析能力的缺陷,从而不断地改善;而且在这一等级中,企业会有意识地对数据分析的方法和步骤进行创新,进而提高数据分析的能力。所以在这一等级,企业是可以对数据分析的各个方面进行不断地改善和优化。

2.2.2 过程域的确定

在对一个企业的数据分析能力进行评估时,因为数据分析能力成熟度模型的5个等级中每个等级都包含了1个或多个过程域,只要从初始级开始判断企业是否执行了过程域便可以对企业数据分析的能力进行一个准确的评估。过程域对象代表应用中的业务逻辑或流程,在数据分析能力成熟度模型中,除了初始级,每个等级都可以分为若干个过程域,这些过程域可以反映出企业数据分析能力的等级,代表了数据分析能力要达到某一等级应达到的要求。

(1)可重复级具有的过程域

数据需求分析

企业在进行数据分析前,首先需要企业识别数据的需求,识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标,只有确定了数据需求,才可以有方向的去搜集数据。

人力资源配置

在企业当中,数据分析对一个人的要求很高,所以企业需要专业的数据分析师来对数据进行分析,避免对数据分析的不重视,同时要对企业的管理人员和普通员工进行数据分析培训,使他们认识到数据分析对于企业的重要性,所以要做好人力资源的配置。

数据分析经验积累

数据分析的过程并不是一成不变的,而且也没有绝对有效的方法,所以企业在进行数据分析过程中要注意不断吸取经验和教训,形成一个初步的规范,提高企业的数据分析效率。

(2)已定义级具有的过程域

数据收集、分析方法管理

企业进行数据分析时,数据收集的效率以及数据分析的有效性都影响着企业的数据分析的能力,所以要对数据收集和分析的方法进行不断地测试和创新,以此来提高这两个步骤的效率和准确性。

数据分析规范管理

混乱无序的活动是不可能产生预想当中的结果的,同样,混乱无序的数据分析过程也是不可能产生精确地结果的,所以需要对数据分析过程进行有规范的管理,形成一套公认的数据分析执行标准。

(3)已管理级具有的过程域

数据分析定量管理

企业进行数据分析目的是为了从大量、纷乱的数据中统计出自身想要的结果,从而确定企业的发展方向,而如此大量的数据必然会对数据分析的过程造成步骤的繁杂以及时间的浪费,为了解决而这种情况,就需要对数据分析过程进行量化管理,通过对数据分析过程的数据、时间、步骤等进行量化一次提高数据分析的效率。

数据分析准确性管理

数据分析结果的准确性是进行数据分析的必要条件,只有得到准确结果的数据分析过程才是一个完整的过程,所以进行数据分析一定要保证所得的结果是正确的,而通过对数据分析的过程进行定量则可以对最后的结果进行一个精确地判断。

(4)优化级具有的过程域

数据分析缺陷预防

企业的数据分析的过程以及方法不可能是完美的,总会存在着大大小小的缺陷,企业要能够找出这些缺陷,并不断改正,逐步去完善数据分析的过程和方法。

数据分析方法更改管理

企业在对数据分析过程缺陷的发现和修改中所形成的新的数据分析方法不可能直接运用到企业管理中,也许新的方法相较于原来修改了缺陷,但在运用前还需要进行系统的测定,确保新的数据分析方法不会带来错误的结果,最后才可正式运用。

3. 结语

数据分析能力成熟度模型是一种有效的对企业数据分析能力评估和监管的工具,若想对模型进行有效的实施,应对企业的数据分析能力做初步的评估,若每一过程域的基础实施都已执行,则企业的数据分析能力已达到初始级别,对每一个基础实施,对照能力级别DA-CMM的可重复级别中的共同特征计划执行下的一般实施,看基础实施的执行是否按照一般实施进行。若全部一般实施都已执行,则查看能力级别DA-CMM的可重复级的共同特征规范实施,以此类推对每个关键过程里的基础实施按照共同特征从低到高的顺序依次检查是否按照一般实施的要求进行执行,若完成某一级别的所有一般实施则达到这一级别,若基础实施只是完成了某一级别的部分共同特征,则数据分析能力的级别只是达到该级别的下一个等级。对企业的数据分析能力评估后,针对企业的数据分析能力与业务流程做出具体的改进,再具体的改进过程中,要积极与企业的数据分析业务相关负责人进行沟通和会谈,通过与他们的交谈和反馈得出企业的数据分析能力建设水平。在对公司的基础实施进行调研时,可以先对执行基础实施的人员进行访谈,看是否已执行了基础实施,然后再通过加深访谈的内同以及对该项目主管的谈话来确定定基础实施都完成了能力维的哪些共同特征。

摘要:数据分析能力的评价和提升是大数据环境下企业决策科学化的关键。本文参考成熟度模型的理念、通过对数据分析的梳理,依据CMM的理念,构建数据分析能力成熟度模型。

关键词:CMM,数据分析能力,模型

参考文献

[1]W.S.Humphrey,W.L Sweet.A method for assessing the software engineering capability of contractors[R].USA,SEI Technical Report(SEI-87-TR-23),1989

[2]邓景毅,叶世绮,郑欣.软件成熟度模型(CMM)发展综述[J].计算机应用研究,2002(7):6-9

数据质量评估模型 篇5

(一)审核评估范围

月报、季度、统计报表的主要指标数据均应进行评估。

(二)审核评估内容

1.统计范围中,全面统计的调查单位是否全面,非全面调查的样本单位、重点单位是否具有代表性。

2.统计数据同国民经济核算体系中相应或相关的数据是否一致或衔接;同业务部门相应或相关的数据是否有出入,有出入的原因是否清楚合理。

3.反映的增长速度、结构比重的变化是否清楚合理;同社会经济发展的客观情况是否吻合。

(三)审核评估步骤

1.统计人员按上述要求提供数据质量审核评估报告,当期报表,以及主要指标数据与上年的对比表。

2.召集相关部门和领导对数据质量进行审核评估。

3.经审核评估发现有重要差错或疑问的数字,由统计人员负责查对核实或调整,再由主管领导审定。

4、报表经过审核评估无误后由主管领导和统计人员签字,并加盖单位公章。

(四)审核评估时间

1.月报数据如出现陡增陡降或趋势性问题等,随时召开审核评估会。

2.每季对有明显趋势变化的统计数据,写出审核评估报告或书面说明,交分管领导审定,如有问题可随时召开评估会。

数据质量评估模型 篇6

虽然2011年的二手车销量为433万辆, 是2000年25万的16.3倍。但是还不到新车销量的1/4, 这说明我国二手车市场还存在很大的发展空间。而鉴定评估缺乏科学统一的标准对二手车市场的发展都有较大影响。与传统主观简单的评估方法相比, 评估模型优势明显。在数据挖掘技术中主要的预测模型有决策树、Logistic回归和神经网络三种。决策树模型是一个逐层分隔的形式, 而Logistic回归属于广义线性模型, 神经网络模型提供了一个灵活的拟合形式。

二、二手车性能评估模型的构建

1. 数据预处理、数据探索与数据清理

数据挖掘技术对数据有一定要求, 所以要先进行不完整数据、噪音数据、不一致数据的预处理。主要有数据清洗、数据集成与转换、数据约减等三个过程。本文所用205个实验数据、包含11个变量, 数据量较少。

下面对表中各变量进行分析处理:

(1) 数据特征探索:利用insight节点, 对各变量及目标变量进行可视化分析, 探索各变量的关系、含义和特点, 为建模做准备。发现各变量缺失比例在2%以下, 因此缺失变量可以忽视; (2) 设定目标变量。建立target, 当Performance Cost等于1时表示这是一个性能高的二手车;Performance Cost等于时表示该二手车的性能比较低。建模的目标就是要从数据中挖掘出性能高与低的二手车的不同特征, 在模型审批过程中能自动将二者区分开来; (3) 变量price与Performance Cost高度线性相关, 因此rejected。highway mpg与city mpg高度相关, 重复了, 因此拒绝其中一个, 本模型是拒绝的highway mpg; (4) 观察目标变量的分布, 可以看到性能高的二手车与性能低的二手车的比例分别为62%与38%。因此在数据分区的时候选择用分层抽样; (5) 分层抽样。训练集与验证集的比例分别为60%, 40%; (6) 数据的转换。通过观察数据的分布可以看到engine size, Compression ratio, horsepower, price变量不是类似于正态分布的, 因此对其进行正态化处理; (7) 虽然缺失数据比例很小, 但是为了建模的严谨, 还是添加了replacement节点, 用决策树方法对缺失的数据进行处理。

2. 模型的建立

(1) 决策树

因为决策树本身具有处理缺失值的能力, 可直接将未经过缺失数据替换的原始数据作为输入数据。本文采用熵不纯性的降低作为节点划分标准, 采用二叉树进行建模, 设置树:j最大深度为6, 最小叶子观测数为5。从模型输出结果得, SAS自动设置的模型中当生成有6个叶子节点的决策树时, 训练样本集细分误分率为9.09%, 检验样本集细分误分率为7.14%。

决策树模型的综合评价:输出结果得出在“性能高的二手车”历史记录中有87.5%的预测值为“性能高的二手车”。在“性能高的二手车”纪录中有12.5%的预测值为“性能低的二手车”。模型将3.846%的“性能低的二手车”预测为“性能高的二手车”;将历史纪录中96.154%的“性能低的二手车”预测为“性能低的二手车”。由评价结果可知, 该决策树对性能低的二手车的正确判断率达了96.154%的较高水平, 而对性能高的二手车的正确判断率也达到了87.5%, 该决策树对性能低的二手车的预测准确率更理想。

(2) logistic回归建模

借助回归节点建立模型, 采用logistic回归方法, 回归方式设置为backward, input coding选择GLM。从模型输出结果图得出, 误分率标准表明, 训练样本集误分率为9.92%, 检验样本集误分率为11.9%。

Logistic模型的预测准确率:模型将84.375%的“性能好的二手车”预测为“性能好的二手车”, 将15.625%的“性能好的二手车”预测为“性能差的二手车”。有90.385%的“性能差的二手车”被预测为“性能差的二手车”, 剩下9.615%的“性能差的二手车”被预测为“性能好的二手车”。可见回归模型对性能好的二手车预测的准确率没有决策树模型高。

(3) 神经网络建模

神经网络建模:借助神经网络节点建立模型, 网络采用输入、隐层、输出三层结构, 其中隐层节点设置3个变量, 其他设置采用软件默认设置。从模型输出结果图可以看出各种模型评价标准, 其中误分率标准表明, 训练样本集细分误分率为7.43%, 检验样本集细分误分率为8.33%。从训练过程得知训练误差随训练次数单调减少。选择最佳的训练次数为7, 此时的验证误差最小。

神经网络模型的预侧准确率:模型将87.5%的“性能好的二手车”预测为“性能好的二手车”, 将12.5%的“性能好的二手车”预测为“性能差的二手车”。有94.23%的“性能差的二手车”被预测为“性能差的二手车”, 剩下5.77%的“性能差的二手车”被预测为“性能好的二手车”。回归模型一样, 对性能差的二手车的预测的准确率比对性能好的二手车的预测的准确率高。

3. 模型的比较评估

由于数据挖掘模型有时会造成过度拟合, 所以要对模型的正确性进行判断, 保证预测可靠。在选择解释变量的时候, 注重的是它们解释目标变量的能力。但是当有很多的解释变量时, 并不能断定出总体的性质。因此有必要对于模型的有效性进行评估, 以保证模型的可靠稳健。本文所用数据只有205条, 在分拆后建模难度增大, 训练, 验证两部分结果有一定差距。尽管如此, 我们仍可以从实验的结果中获得一些有意义的结论。

决策树, logistic回归, 神经网络模型的比较:不同模型在不同数据集上的误差率比较和lift图

综合训练数据集和验证数据集的结果, 对三个模型进行比较评价。从误差率基于数据挖掘技术的二手车性能评估研究的比较表中可以看出, 决策树模型和神经网络模型的准确率最高。神经网络在训练集上误分率低, 但在验证集上误分率增大比较多, 有“过拟合”的现象。从lift图上来看, 几个模型的效果都比较好。综合来看, 选择决策树模型。

最后得到的规则是:

性能好的二手车:

然而以上都不是最好的评价标准, 原因是没有考虑到类型I错误和类型II错误的代价不同。如果两者代价相同, 则考虑误分率是最佳的标准, 但现实中往往不是如此。

三、总结

二手车模型评估应建立在大量数据的统计结果之上, 才具有准确性和可靠性。它通过卖家填写的有关二手车的资料, 可以快速、有效地辨别和划分二手策划的优劣, 实现二手车较为公平的交易。另外, 通过数据挖掘发现的一些新模式, 可以进一步调整客户二手车模型评估体系, 从而为将来完善二手车模型评估体系起着重要作用。随着我国二手车各项制度的建立、相应法律环境的完善、信息化建设的发展、信息资源共享的实现, 数据挖掘技术将成为二手车交易管理的重要工具。

摘要:近来年我国二手车市场发展迅速, 但市场不够规范, 主要依靠人为判断, 评估不客观, 甚至在鉴定评估过程中, 有故意隐瞒车辆质量问题、以次充好等欺骗消费者现象, 给二手车市场造成不良影响。本文利用数据挖掘技术中的决策树、logistic回归和神经网络对205个二手车数据进行分析, 利用相关数据资料分别建立不同的二手车性能评估模型, 实现了对二手车性能的多种复杂混合因素一定程度上的定量分析。

关键词:二手车性能评估,数据挖掘,决策树,logisticl回归,神经网络

参考文献

[1]张辉, 郑安文.中国二手车市场现状分析及发展对策[J].汽车工业研究, 2012 (7) :10-13.

数据质量评估模型 篇7

高职院校的评估采取“实时的状态数据监控+5年一轮的现场考察”模式。“实时的状态监控数据”通过高职院校数据监控平台来收集,该平台是基于EXCEL经过二次开发的软件,采集的数据包括高职院校的校内外实习基地、校内外专兼职教师、专业设置、课程设置、顶岗实习、就业等等。采集的方式是由各校人工收集,手工录入。

高职院校数据监控平台中的数据,反映了学校各类综合建设状况,其不仅是考察高职示范校建设能力与建设现状的重要数字证明,而且能帮助学校全面、准确认识自己,找准办学定位,增强学校管理决策的科学性和有效性,为制订和实施战略规划提供数据支撑。但由于这些数据是人工采集、手工整理并录入,难免出现数据采集失真或录入错误的情况,如果直接使用这些数据对该校示范校建设进行评估,难免会导致评估失准的情况发生。

以学生“就业情况表”为例,该表以各系为单位人工统计毕业生的详细数据及毕业流向,再由学校就业中心人工汇总后,手工填报“就业表”(就业表用来反映各系毕业生的就业率)。虽然平台的基本建设框架整体比较完整,但填写上报的源数据能不能准确、一致、有效地反映出学校的真实情况,却有待对数据进行质量评估。虚假、不完整、不一致的数据对国家及社会公众评价一个学校的误导显然危害更大。

1 就业数据质量评估模型概述

由于不同的数据对于数据质量要求有所差别,因此不同的文献给出的数据质量与维度集定义也有所区别。本文以学生“就业情况表”为例,定义数据质量对于使用就业数据的使用者来说是指数据“使用的适合性”,而主要的评估维度包含可信与可用两个基本评估指标。

可信度和可用度是数据质量评估的基本指标,其中可信度包括准确性、完整性、一致性、有效性、唯一性等指标。可用度包括时间性、稳定性等指标。综合起来,即评估该表中的数据是否与客观实体的特征相一致、是否存在缺失记录或缺失字段、同一实体的同一属性的值在不同的系统或数据集中是否一致、是否满足用户定义的条件或在一定的域值范围内、是否存在重复记录、是当前数据还是历史数据以及该数据是否是稳定的,是否在其有效期内。

表1是某高职院校计算机应用技术专业应届毕业生就业信息表,全表共91行数据(当年该专业应届毕业生总人数为91)。为说明方便,此处省略了大部分数据,摘取部分数据作说明。

备注:该表省略了大部分数据,仅给出部分相关数据作说明。

表1中的就业数据质量评估模型可以描述为5元组,M={D,I,R,W,E,S},其中D为采集到的毕业生就业信息数据集;I为就业数据质量评估指标体系,具体指标集的划分如图1所示;R为与各评估指标相对应的评估规则,就业数据质量评估规则如图1所示;W为各评估规则的权重;E为各评估规则对应的期望值;S为对应各规则的就业数据的最终评估结果。

2 就业数据评估模型

根据数据特点和用户对数据的质量要求,参照国内外研究成果,确定就业数据质量评估模型如图1所示。模型最高层是评估总目标层,中间层是可信度和可用度两个评估指标,最低层是评估指标对应的评估规则集。

各评估规则释义如下:

R1:准确性,学生总人数准确,应届毕业生信息表中某专业学生人数与实际人数一致。

R2:完整性,数据填写是否完整,是否有缺失的数据列值或者未定义的列;例如,若某学生就业类型是“正在求职”,则“就业单位”可以为空,否则不允许为空。

R3:一致性,就业表中的学生基本信息是否与入学学籍表的基本信息一致。

R4:有效性,各列取值是否有效,是否符合用户的要求,如就业类型取三者之一,就业、正在求职以及专升本。

R5:唯一性,是否存在有重复的学生记录。

R6:时间性,表中数据的采集时间是否符合用户的要求,例如应届毕业生应该采集本年度9月1日前的就业数据,上届毕业生应该采集上年度12月31日前的就业数据。

R7:稳定性,例如毕业生信息表中学生就职数据的稳定程度,可以由专家根据历史数据、社会需求变化等评审打分决定。

R8:修改性,数据集中引用其他数据进行计算的列的数量,例如“就业表”中的就业率(%)是使用“就业信息表”中应届毕业生信息表的数据计算得到。

3 计算模型权重

利用层次分析法(Analytic Hierarchy Process,AHP)确定指标与规则的权重,包括最低层规则相对于同一上级指标的相对重要权值的计算和指标相对于就业数据集评估目标的相对重要权值的计算。成对比较矩阵的各元素采用1-9标度法由专家打分给出,对各专家打分的结果进行均值计算,得到最终的成对比较矩阵元素值,检验其一致性后,计算权值。

3.1 计算指标权重

图1中,经专家打分,计算可信度I1与可用度I2的权重如表2所示。

3.2 计算规则权重

表3-4为各规则相对于上层评估指标的权重计算矩阵。

结合表2-4,计算规则总排序权重系数表,如表5所示。

4 就业数据集质量计算与评价

根据评估指标的每一条规则R,检查学生就业表中的每条数据记录,计算满足规则R的数据记录占D中记录总数的百分比,得到该规则对应的结果S,如表6所示。在计算过程中,大部分可以采用程序的方式自动获得计算结果,但是“就业表中是否有未定义的列”、“学生就业数据的稳定程度”却需要依靠更多历史数据和专家经验判断得出结果。

根据绝对量化值SA=l=1n(ω1×S1)l=1nω1公式,计算就业表的SA=95.0810。根据相对量化值SR=SA-l=1n(ω1×E1)l=1nω1公式,计算就业表的SR=95.2115-96.8239= -2.0277。根据DR=l=1nω1(S1-E1)2l=1nω1公式计算就业表数据质量偏离期望值的程度,得DR=33.5723。

使用向量DR综合表达就业数据集偏离期望质量的程度,DR=(95.0810,-2.0277,33.5723)。

5 结束语

合理的就业统计数据有利于评估该校就业质量的高低、就业率的高低等,但前提是采集到的就业数据是可信与可用的,以各高职院校为单位的基层数据采集主要由各高职院校自行完成,这必然为了某些利益出现虚假数据。为了更准确地分析各高职院校的就业情况,必须要求采集到的就业数据真实、准确、完整、一致。本文以保证数据适用性为标准构建了就业数据集质量评估模型,对就业数据集进行了质量评估,计算结果表明该数据集的数据质量较一般,应该对该数据集中的数据重新采集后再评估,符合要求后再用该数据确定该校的就业率。

由于不同的数据集其质量评估模型有所不同,文中提出的就业数据质量评估模型对数据平台中的其他数据集的质量评估具有借鉴意义。对各高职院校采集的基本数据进行质量评估,对不合理的数据重新采集,保证数据平台中采集数据的质量,是应用数据平台进行高职院校评估的重要保障。

摘要:高职院校人才培养工作状态通过数据采集平台进行人工采集,其数据的真实性、有效性、一致性对国家及社会民众公平地评价该校起着非常重要的作用。文中提出一种对该数据平台中的监控数据进行质量评估的方法,并以就业数据质量评估为例,建立层次数据评估模型,分配模型权重,计算就业数据质量,从而确保数据的完整、及时和高质量,增强高职院校评估的科学性、高效性。

关键词:数据质量评估,层次分析法,数据采集,高校评估

参考文献

[1]杨青云,赵培英,杨冬青,等.数据质量评估方法研究[J].计算机工程与应用,2004(9):3-4,15.

[2]宋敏,覃正.国外数据质量管理研究综述[J].情报杂志,2007(2):7-9.

[3]高起蛟,严凤斌,池斌.层次分析法(AHP)在数据质量评估中的应用[J].信息技术,2011(3):168-169,173.

[4]俞伟.基于模糊层次分析法的商业银行信用数据质量评估实证分析[J].上海金融,2011(3):102-105.

[5]刘慧,刘敏,韩兵.基于维度的信息系统数据质量评估指标体系研究[J].信息系统工程,2010(6):99,102-105.

[6]Wang R Y,Strong D.M Beyond Accuracy:What Data Quality Meansto Data Consumers[J].Journal of Management Information System,1996,12(4):6-34.

数据质量评估模型 篇8

装备质量管理风险,是对由于装备质量管理因素引起损失产生不确定性的描述,从目前公开的文献资料来看,从管理这一角度,系统、全面地研究装备质量风险理论与依法的成果尚属少见。为此,从“质量管理”这一视角出发,开展对装备质量管理风险评估的研究,对掌握装备质量管理风险水平、规避、控制装备质量管理风险的机制研究、科学指导我军武器装备质量管理体制调整改革,具有重要的意义。

指标和指标体系是评估的前提,没有科学可靠的指标和系统完整的指标体系,评估就无法进行。开展装备质量管理风险评估研究,需要建立一套反映装备质量管理过程风险的评估指标体系,为风险评估的后续工作奠定基础。考虑到装备质量管理风险因素具有依赖性和反馈性,应用网络层次分析法给出了指标权重的计算模型,考虑到装备质量管理风险客观数据少、历史资料缺乏、人对评估结果的影响性,建立了基于盲数理论的装备质量管理风险评估模型。

1 装备质量管理风险评估指标体系的组成

装备质量管理风险评估指标体系,要能够充分、客观地反映装备质量管理的风险状况,以对装备质量管理风险进行科学、合理的评估。因此,构建指标体系时,应遵循以下几个原则:(1)系统性、科学性原则,指标体系应全面完整地反映装备质量管理过程中风险的情况且设置合理;(2)简明可行性原则[1,2],指标体系应尽可能简化,尽可能以较少的指标构成一个合理的指标体系;(3)量化性原则,装备质量管理风险评估指标体系,应考虑影响质量管理的定性和定量的因素,定性指标和定量指标都必须有明确的概念和确切的计算方法;(4)导向性原则[3],评估指标体系的设置,应以评估目的为导向,促使评估目的的实现;(5)灵活性原则,风险评估指标体系的结构应具有可修改性和可扩展性,具有广泛的适应性,要根据风险评估的要求,对指标因素进行修改调整,依据不同的情况将评估指标进一步具体化,以适应各种具体的指标要求。

根据上述原则,由质量管理风险因素组成评估指标体系。通过调查研究,征求专家意见,综合应用专家调查法、故障树分析法、SWOT分析法等,对装备管理过程风险因素进行分析,得到装备质量管理的八大类风险:体制机制风险、法律法规风险、制度措施风险、技术手段风险、组织机构风险、沟通协调风险、人力资源风险、决策风险。

体制机制风险。健全的管理体制,是开展装备质量管理工作的基础,顺畅的运行机制,是各项工作有效有序进行的保证。体制机制风险,是由于体制机制因素,引起损失产生不确定性的描述。

法律法规风险。要做好质量管理工作,确保装备质量,必须要有健全的法律、法规作保证,以规范质量管理的全过程。因法律法规因素或法律主体的违法、违规等导致的不利后果发生的可能性将导致法律法规风险。

制度措施风险。制度措施,是管理的一种手段,是管理工作的准则规范。制度措施的不完善或制度措施的变动等都有可能给装备质量带来直接或间接的损失,产生制度措施风险。

技术手段风险。有效的管理离不开技术[4],质量管理技术是查找质量问题、促进质量管理决策质量提高的有效方法[5]。因管理技术手段的建设不到位,运用不科学,将带来管理上的无效性,导致技术手段风险。

组织机构风险。组织机构,是保证装备质量管理有效进行前提,是主导质量管理的主体,制约着装备质量管理目标的实现。如果质量管理相关机构的组合、数量、形式、设置等不合理,都必将影响的制约装备的质量,产生组织机构风险。

沟通协调风险。装备质量管理过程中,涉及到军方、承包商,涉及到系统和分系统之间的沟通与协调,任何环节的沟通不力,协调不畅,信息交流不充分,都可能影响装备的质量管理,影响装备的总体质量,带来沟通协调风险。

人力资源风险。从某种意义上来说,任何与人有关的风险都可以归结为人力资源风险。本文中所指人力资源风险是由于人的责任心、素质能力等造成的风险。现代装备的技术复杂化,对人员的素质提出了更高的要求,同时也要求人员要有极强的质量意识强烈的责任心。人员责任心不强,能力素质达不到要求等情况,都会影响到装备的质量。此外,人员变动频繁、人才流失、人员配置不合理等都将对质量管理带来风险,人力资源风险是装备质量管理风险中不可忽视的风险因素。

决策风险。决策就是为了解决问题而采取的措施。在装备质量管理过程中,在各个阶段、众多环节,都需要做决策。决策的目的在于做出正确的选择,而实际过程中,由于决策机制的不完善、考虑不全面、决策者的主观性、所掌握信息、决策方法等的因素,做出的决策可能失误而产生决策风险。

根据以上分析,得到装备质量管理风险评估指标体系如表1所示。

2 装备质量管理风险的评估模型

2.1 基于ANP的指标权重的确定方法

指标权重的确定具有很强的导向作用,是建立评估指标体系的关键因素。装备质量管理风险因素之间存在着一定的相互影响,建立单一的递阶的层次分析模型,割裂各因素之间的影响关系,难以反映出各因素之间的依赖性和反馈性,评估结果的准确性得不到保证。因此,本文采用ANP(the Analytic Network Process,网络层次分析法)[8]来分析各风险因素之间的相互影响关系,进而计算出各风险指标的权重值。ANP的关键在于建立网络结构模型,通过比较分析,建立装备质量管理风险因素之间内部依存关系的网络结构模型,如图1所示。

控制层为装备质量管理的总风险,网络层由表1的八类风险Ci(i=1,2,…,8)及其子风险因素Ci1,Ci2,…Cini(i=1,2,…,N)组成。以控制层为准则,以Cj中元素Cjl(l=1,2,…,nj)为次准则,元素组Ci中元素按其对Cjl的影响力大小进行优势度比较,构造判断矩阵,如表2所示。

将Ci中所有元素对Cj中所有元素相对影响比较矩阵计算出的归一化特征向量组成矩阵Wij,得到

Wij中的列向量就是Ci中的元素Ci1,Ci2,…Cini对Cj中的元素Cj1,Cj2,…Cjni影响排序。将所有这样的矩阵组成块矩阵,最终将得到Ci下的超矩阵W:

以控制层为准则,对网络层元素下的各元素对Cj的重要性进行比较得到加权矩阵如表3所示。

与Cj无关的元素组排序向量为0。对超矩阵W中的元素加权,得到最后的指标权重=(ij),=(aijWij)。

通过对ANP结构计算过程的分析可以看出,风险因素间的相互影响、指标的权重值的大小问题可以得到较好的解决,使得结果更为科学、合理。

2.2 基于盲数理论的风险评估方法

风险是人们因对未来行为的决策及客观条件下的不确定性而可能引起的后果与预定目标发生多种负偏离的综合。其数学公式如下:

式中,P表示不利事件(风险事件)发生的概率,C表示该事件发生的后果。传统的风险评估方法,考虑和处理了随机性、模糊性和灰性等不确定性引起的风险或不确定性问题,而对人的主观性对评估结果的影响,考虑甚少。其实这种影响,是另一种不确定性,称为未确定性。由于从“质量管理”角度进行风险评估,目前公开的文献资料很少,可借鉴的历史数据不足,给评估带来了极大的困难,不适合采用客观的统计的风险评估方法,只能请相关领域专家或决策者依靠自身知和经验并结合装备质量管理实际做出主观判断。由于缺乏客观的历史资料,主观的不确定性较显著,造成装备质量管理风险因素的可能性和损失数据信息具有灰性、模糊性、随机性和未确知性中两种或两种以上不确定性。王光元、刘开第、吴和琴等教授90年代建立的盲数理论,是解决此类问题的有效方法。

具体思路是,应用盲数理论计算风险事件发生概率P,用模糊评判法完成风险事件发生后果C的计算。步骤如下:

(1)选取专家组E1,E2,…,Em,设定各专家的可信度为为专家Ei关于专家组E1,E2,…,Em的综合可信度。称为专家组E1,E2,…,Em的综合可信度。

(2)以区间[0,1]为P的论域,专家组对每一风险因素Ci进行评价,得到评价表4。其中,[aij,bij]∈G(i=1,2,…,n;j=1,2,…m)。G∈{[a,b]│0燮a燮b燮1;a,b∈R},为区间灰数集的一个子集,i和j分别表示风险因素和专家的个数。[aij,bij]表示第j位专家对第i个风险因素做出的风险发生概率大小的估计。

(3)对于风险因素Ci,m位专家给出的估计分别为[ai1,bi1],…,[aim,bim],每个区间的可信度分别为每个专家的综合可信度,针对区间可能出现交叉重叠的现象,本文作以下处理。

将专家估计区间的端点值aij,bij按大小排序:ai1,ai2,bi1,bi2,…,aik,bik,ai1=min{aij,bij},bik=max{aij,bij}。组成的新区间序列为[ai1,ai2],…,[aik,bik],此时,新区间的可信度分别为β1,…,βk。以β1为例,求解各区间的可信度β1,…,βk:

得到用盲数表示的各专家对风险因素发生概率的估计结果:

其中,i=1,2,…,n;β1,…,βk分别是因素Ci基于专家主观估计的风险发生概率落在区间[ai1,ai2],…,[aik,bik]上的可信度大小。如果风险因素还有l个子风险因素,权重为w=(w1,w2,…,wl),可得。对P′求期望得到E(P′)。E(P′)是一个一阶的未确知有理数,并且该一阶未确知有理数的自变量x仅在一点取值的可信度不为0,而取其它值的可信度皆为0,该点为x0,因此,可得风险发生概率的综合估计值P=x0。

应用模糊评判法(具体的应用本文不再赘述,可参考相关资料),计算出风险后果C,由公式R=f(P,C)=1-PC=P+C-PC可计算出风险值R的大小。

基于盲数理论的风险评估模型,很好地解决了不确定信息下的装备质量管理风险取值的问题,使评估结果更为可靠、可信和接近实际,能够为风险管理提供更加科学可靠的数据依据。

限于篇幅,具体的实例分析过程将在其他文章中给出。

3 结束语

风险管理作为项目管理的一种手段,一种科学的事先行为,已成为强化武器装备建设的重要内容和方法手段,成为现代化武器装备的客观需要[9]。风险评估,是风险管理的重要环节,指标体系的构建,对评估目标的实现,具有重要的意义。对具体型号进行风险评估时,应根据评估的要求,对指标体系具体化和进行调整,以满足达到评估的目标,保证评估的科学性,为风险防范提供可靠的依据。基于网络层次分析法(ANP)和盲数理论的指标权重计算模型及风险评估模型,解决了装备质量管理风险指标间具有依赖性和反馈性、质量管理风险信息缺乏、人对风险评估的影响等问题,使评估结果更加科学合理、更加可信。

参考文献

[1]李忠民,汤淑春.武器装备采办风险管理评价指标体系研究[J].军事运筹与系统工程,2005.19(2)63-66.

[2]Chung-Jen Chen and Chin-Chen Huang,A multiple criteria evaluationof high-tech industries for the science-based industrial park in Taiwan[J],Information&Management,Volume 41,Issue 7,2004.9,P839-851.

[3]张嘉.武器装备采办风险预警研究[D].国防科学技术大学,2006.

[4]周三多,陈传明,鲁明泓.管理学—原理与方法[M].上海:复旦大学出版社,2003:170.

[5]白海威.装备质量工程[M].北京:装备指挥技术学院,2006:35.

[7]刘汉荣,王保顺.国防科研试验项目管理[M].北京:国防工业出版社,2009:188.

[8]孙宏才,田平,王莲芬.网络层次分析法与决策科学[M].北京:国防工业出版社,2011:148.

[9]沈建明.项目风险管理[M].北京:机械工业出版社,2003.

数据质量评估模型 篇9

数据仓库技术被越来越多的烟草行业企业所采用, 在企业构建数据仓库时面临的一个突出问题就是数据来源的广泛性以及保证数据质量的重要性, 数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。由于烟草行业信息化建设起步比较早, 各企业在多年来信息化建设中积累了大量的业务数据, 这些数据由于历史原因, 数据质量的状况差异很大, 因此在使用这些数据建立数据仓库时, 低质量的数据不仅会带来数据仓库自身维护的高昂费用, 而且更重要的是会导致制定糟糕的决策。即使在设计和建设数据仓库时做到非常好的数据仓库基础设施, 但如果仓库中的数据不符合支持决策的质量特征的要求, 那么建设数据仓库所付出的努力就会付诸东流。

从数据质量管理的发展历程来看, 对于数据质量的控制从单纯的对仓库中已有数据的监控发展到对仓库数据形成过程的全面质量管理。因此, 以数据仓库的长期建设来看, 好的数据质量管理的方法不是临时解决问题, 而是建立适宜的数据质量评价体系, 来管理数据的正确性、有效性、安全性、完备性。

2 数据质量的定义

关于数据质量的定义简单的说, 针对某一特定的用途能够满足需求的数据就是好的数据, 而不必要求一定是完美的数据。本文中我们使用最常出现的一些属性来描述数据质量。数据质量是对数据正确性、完整性、一致性、及时性、唯一性和有效性的度量, 如果数据具备上述性质, 那么可以认为数据具有好的数据质量。

3 数据错误的分析

数据仓库中数据的错误与数据的收集来源、处理和使用都有关系。数据仓库所装载数据的典型流程如图1所示。

在数据仓库建设中数据错误发生的主要位置有三个:

●数据源:由于数据仓库集成多个数据源的数据, 有来自关系数据库的, 有来自ERP数据库的, 有来自文件的, 如Word文档、Excel文档、XML文档和文本文档等, 即使是关系数据库, 其数据库厂家和版本号可能也是多种多样的, 这种数据源本身的正确性和质量会影响数据仓库数据的质量。

●ETL过程:将这些不同时期、不同地点和不同格式的数据提取出来, 经过清洗和转换, 最后放置到数据仓库中是非常繁琐和复杂的。在一般的数据仓库应用中, 所涉及的ETL过程即数据的抽取、转换和装载过程中涉及的转换非常多, 如何保证ETL过程的正确性是ETL过程中最富有挑战性的工作。

●仓库数据的使用和管理:由于数据仓库持久的使用和操作、系统管理员对数据仓库的维护可能会出现矛盾的情形。如由于ETL工具功能的局限性, 对于不同的数据源可能需要采用不同厂家的ETL工具或自己设计和专门定制的工具。在使用这些工具的过程中, 不能保证所处理数据的一致性。

可见, 在如此多的数据源、数据清洗和转换步骤以及对仓库数据管理上可能导致问题的前提下, 要保证数据的质量显得非常艰巨, 也非常必要。从以上数据错误的分析来看, 从源头上控制数据的质量是解决数据质量问题的最根本的方法。基于数据源本身的正确性和质量对数据仓库数据质量的重要性, 数据源分析成为数据仓库规划与分析阶段的一项重要内容, 具有十分重要的意义。数据源分析的主要任务是完成各源系统的数据现状描述、评估, 评价数据质量以及存在的问题和不足, 为数据仓库的实施做准备。

4 数据质量的度量

一般来说, 数据质量是由数据质量元素来描述的。数据质量元素分为两类:数据质量的定量元素和数据质量的非定量元素。数据质量定量元素用于描述数据集满足预先设定的质量标准要求及指标的程度, 并提供定量的质量信息。数据质量非定量元素提供综述性的、非定量的质量信息。本文重点探讨数据质量的定量元素分析。

对一个信息系统而言, 数据质量定量元素主要考虑以下指标:

●正确性 (Correctness)

●完整性 (Completeness)

●一致性 (Consistency)

●及时性 (Timeliness)

●相关性 (Relatability)

●唯一性 (Uniqueness)

●有效性 (Validity)

●可理解性 (Understandable)

根据上述指标, 可以针对不同的信息系统进行定量的数据质量评估, 在评估过程中, 用户可以根据应用的需求选择其中一部分来执行。

5 数据质量评估指标及检测方法

根据以上论述的数据质量的度量, 在进行具体系统数据质量评估时主要考虑以下指标:

●完整性检测 (Completeness) :完整性即实体的每个属性都有明确的值, 不存在“空”或“未知”的属性。完整性检测就是计算表中不存在缺失字段的数据的百分比。

检测方法: (1) 用户选择需要进行完整性检测的字段, 即该字段不能为空。缺省情况下是该表的所有主码。 (2) 对设定的的每个字段, 建立规则, 给出其非空值的比例。

●唯一性检测 (Uniqueness) :唯一性即一个表中的一组属性的值是唯一的。唯一性检测是计算满足唯一性约束数据的百分比。

检测方法: (1) 用户设定需要进行唯一性检测的字段, 缺省情况下是主码。 (2) 对选择的每个字段, 给出其唯一性的符合比例。

●有效性检测 (Validity) :有效性即实体属性的值要在用户定义的有效范围之内。有效性检测是计算满足域和数据有效范围定义的数据的百分比。

检测方法: (1) 用户选择需要进行有效性检测的字段。 (2) 针对每个字段, 用户设定有效性规则, 有效性规则分为数值有效性和自定义有效性两类。数值有效性将数据分为连续型和离散型。对于连续型数据, 用户可设定该字段的最大值和最小值, 以限制该字段的有效范围。对于离散型数据, 用户可设置该字段的所有有效取值。例如, 在性别一栏中, 只能填F、M或U, 其他均为无效。在自定义有效性中, 用户可以自由设定有效性规则。 (3) 针对该字段, 检测给出的有效性规则, 给出满足程度。

●相关性检测 (Relatability) :参照完整性是指一个子表 (从表) 中的一个字段必须在另一个父表 (主表) 中存在。相关性就是计算满足参照完整性数据的百分比。对于数据库中的某些实体, 它们的存在可能要依赖于其他的实体, 但在数据库中并没有定义这些实体的参照完整性, 而靠应用程序或其它手段来检查, 但这并不能完全保证实体的参照完整性, 所以要在数据质量评估时进行检查。

检测方法: (1) 用户设定需要检测参照完整性的主表字段。 (2) 用户设定相应的从表和从表字段, 而且只能在具有匹配值的相似字段间建立参照完整性检验。 (3) 逐一考察每个字段的参照完整性, 给出其参照完整性的符合程度。

(4) 一致性检测 (Consistency) :同一个实体的一些属性可能在多个表 (可能在不同的系统) 中出现, 那么这些表所描述的同一实体的同一属性的值必须是一致的。

一致性检测是检测多个表之间具有同样含义的数据一致的符合程度, 计算出检测表中与其他源系统一致的数据的百分比。

检测方法: (1) 待检测的表是主表, 首先用户设置进行一致性检测的主表字段。 (2) 选择需要相应的检测的从表和从表字段。 (3) 设置好主表和从表之间的连接项, 连接项可以是多个字段。但是连接项必须是具有匹配值的相似字段。 (4) 对每个字段数据, 给出与系统其他表中有同样含义的表之间的一致性的符合程度。

根据上述指标, 可以针对不同的信息系统进行定性或定量的数据质量评估。同时, 可根据实际情况, 在评估过程中有所取舍。另外, 由于时间、条件不具备等客观因素, 正确性的检查很难进行, 所以一般视实际情况单独处理。

6 数据质量评估规则的确立

在评估指标以及各指标的检测方法的指导下, 建立系统的评估规则。数据的问题通常是多种多样的, 通过归类可以把数据的错误归属到一个有限的集合上。规则定义了希望数据满足的要求。

下面举例说明常见的数据错误及相应的规则。

●不完整数据:输入到数据源系统中的错误信息;丢失记录、字段域;由于设计导致记录或字段域没有被记录;

●缺少参照完整性:参照完整性是指子表中的关键字段必须在父表中存在。例如, 在销售记录这个表中, 产品的ID应该在产品表中被定义。对于数据库中的某些实体, 它们的存在可能要依赖于其它的实体, 但在数据库中并没有定义这些实体的参照完整性, 而靠应用程序或其它手段来检查, 但这并不能完全保证实体的参照完整性, 所以要在数据质量评估时进行检查。

●缺少唯一性:一个表中, 某些属性 (例如产品ID) 是用来唯一标识产品的, 那么它们的值应该是唯一的。如果一个产品ID用来标识多个产品, 那么是违反唯一性的。

●数据的值是否在有效的范围内:这一点在分析数字型数据时格外重要。因为对于某些字段而言, 它的类型定义允许的数据范围可能是很大的, 但实际上只有一部分取值才是有意义的。例如月份不允许出现大于12的取值, 对于性别属性, 我们希望的数据只能是‘M’ (男性) , ‘F’ (女性) 或‘U’ (未知) , 而不能出现其他属性值。

●有些属性的值是由表中其他属性的决定的, 也就是说, 只有当其他属性的值是特定值时该属性的值才有意义。例如, 在客户表中, 有些客户是组织, 有些客户是个人。而只有组织才具有组织规模, 公司代码等信息。

●一致性的检测:不同代码的不一致使用;一个代码的不一致意义;不同代码具有相同的意义;不一致的名称和地址。

7 数据质量评估规则的执行

在明确了数据质量评估的规则后, 我们根据相关的质量评估规则, 编写相应的SQL脚本, 评估数据, 计算满足各个规则的数据的百分比得分。规则的得分表示了数据满足这条规则的程度。最后根据每条规则的得分, 计算出源数据系统的得分。

(1) 用户设置执行数据质量评估的评估规则;

(2) 获得规则后, 根据评估规则为每条规则编写相应的SQL语句;

(3) 运行SQL脚本, 获得它们所对应的规则得分;

(4) 分析数据质量评估结果。

整个系统的数据质量得分是综合了每条规则的基础上得出的。

表1举例说明规则的制定与评价。

在根据各规则的评价得分形成最后整个系统得分时, 最简单的方法是直接把每条规则的得分取平均。而更好也是更合理的方法是将每条规则的得分按照一定的权重进行综合, 形成一个高级的数据质量评价等级。由用户设定每条检测规则的权重, 缺省有一个权重方案。然后按照每条检测规则的权重进行综合计算, 得到一个综合的数据质量得分, 并将其归类到高级的数据质量判断上, 标准如下:

1级99-100:极好的数据质量, 可以满足任何需求。

2级96-98:好的数据质量, 但仍需部分改进。

3级90-95:平均水平的数据质量, 需要改进。

4级81-89:低于平均水平的数据质量, 数据质量会对数据仓库建设产生消极影响。

5级65-80:差的数据质量, 数据仓库会产生不良结果。

6级0-64:非常差的数据质量, 需要立即提高。

8 数据质量评估流程

系统由数据库连接模块设定与数据库的连接, 然后由用户浏览所要分析的数据列表, 选择待分析的表, 设定采用的数据质量检测模块, 形成评估规则。然后运行数据质量检测过程, 得到每条评估规则的得分。再根据各个规则的得分, 计算出源数据集的数据质量等级。最后将数据质量的分析结果形成各种各样的文档输出。

9 结语

提供具有影响力的综合数据, 日益成为企业提升竞争力的必然要求。在数据仓库建设过程中, 建立合适的数据质量度量, 评估体系和保障体系, 对于数据仓库是非常重要的, 也是数据仓库发挥作用的关键。

今后继续完善数据质量评估的检测体系, 包括增加正确性、及时性的检测, 扩展有效性的检测, 使之对数据进行更为全面的检测。

摘要:随着烟草行业数据仓库的深入应用, 数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题, 通过建立数据质量评估指标体系, 对数据源系统的数据进行定量分析, 从而具体了解数据源系统的数据质量, 为进入数据仓库的数据的正确性提供保证。?

统计数据质量评估方法的研究 篇10

随着国民经济的快速发展,政府统计部门不断改革发展,统计数据工作逐渐系统化、制度化、精细化,包括政府、企业、个人都对统计数据质量的发展给予更多的关注。统计数据的质量既为政府主管部门科学地制定社会发展规划和宏观政策调控提供依据,也为企业单位和个人等在竞争激烈的社会中获得优势地位。随着对数据统计信息的需求日益加深,统计数据质量的好坏直接决定和影响该数据的准确性、有效性和价值性。倘若统计数据失真,就会造成决策失误,甚至是影响企业或是国家战略成败。

1 统计数据质量评估遵循的三原则

一、规范性原则。在科学规范上逐渐提高数据质量评估工作,并逐渐找到适合自己的评估方式。统计数据的规范性也体现在加强数据审核,一般采取人工审核和计算机审核相结合的方法,保障统计单位填报的数据质量。对发现的有误数据要及时指出并要求对数据进行进一步核实,严把科技统计数据质量关。

二、整体向原则。Dalenius提出了关于统计数据质量的“测量向量”,其中包含了数据的相关性、准确性、经济性、保密性、时效性、详略程度等诸多方面。这些方面的一起组成数据的整体,而这些方向又分别从宏观政策、数学研究等方向进行研究。提高统计的质量则必须充分根据现阶段的经济和社会现象,并设置不同的机制和方法,从而可发现其中的规律,以此可有效的从宏观的角度对数据的质量进行把握。

三、有根有据的原则。对数据的出处、来源和统计等都必须要有统一的出处。同时统一调差口径的范围,以此确保数据调查的准确性。

2 统计数据质量评估方法研究

所谓的统计质量,其主要从统计的可操作性和实务层面对其进行理解,其主要包括统计的数据的客观性、主体性、相对性、目的性、趋势性以及层次性。同时还必须考虑到数据的全面性和综合性,如统计的目的、统计的客体等,以及统计数据的时效性。而统计质量评估方法则是对整个统计过程所采用的科学的统计检验方法,并对存在的问题进行矫正的过程。

2.1统计数据质量的逻辑关系检验法

逻辑关系检验法是以政府统计指标体系中各个统计指标之间存在的包含、恒等以及高度相关等内在逻辑关系为判断标准、实现对统计指标数据的可信度的粗略检验。统计指标数据之间都是存在特定逻辑关系的,如果违背了这种关系这说明这些数据之间的准确度存在问题,或许是一个数据有误,也可能一部分数据有误,至少是有一个数据是不准确的,需要重新或是进一步核实统计数据。逻辑关系检验方法分为比较逻辑检验法和相关逻辑检验法两种。比较逻辑检验法是传统常用的,其统计指标受多方面因素比如统计指标的概念、口径及范围等差异影响形成的单向包含或是恒等关系。相关逻辑检验法是依据由紧密联系的客观社会经济现象所决定的统计指标之间的高度相关关系。社会经济现象都是存在相对比较稳定的相互依存关系,其中一种经济现象改变带动出现另外一种社会经济现象改变。通过分析可知,作为传统的检验方法的逻辑检验法在操作上简单,并且通俗易懂,主要广泛应用在对数据可信度的初步检验中。但是,从检验的方法技术角度来看,逻辑检验法要么过于粗糙,要么根基不稳。

2.2统计数据质量的计量模型分析法

计量模型分析法是指建立计量经济模型为基础来对相关指标的数量进行评估的一类统计数据质量评估方法。计量模型分析法通常分为三个步骤:第一,构建模型,也是计量模型分析能否有效评估统计数据质量的;第二,模型估计,优良的模型估计决定该模型具有实际有意义和整个统计数据质量的准确性;第三,模型分析,是整个统计数据质量评估的落脚点。计量模型分析法缺点在与评估基准的指标数据可信度是否充足可信。解决对策:首先是加强在模型建立中的监督;其次是采用更加稳健的估计方法;再者是构建好具体的评估模型后做一个初步的计量经济学检验。

2.3统计数据质量的核算数据重估法

核算数据重估法是指以从统计合算的角度重新估计特定的统计指标数据为基础,以实现对相关统计指标的数据质量进行评估的一类数据质量评估方法。主要分为偏差修正重估法、价格指数重估法、物量指数重估法。核算数据重估法的关键是如何重新估计待评估的统计指标数据。三种方式各自存在不足之处,替代数据或者是计算替代数据的方法容易受到影响。在研究中应该尽可能的采取相关的措施弥补该方法的不足。例如,研究者要尽可能选取多的具有代表性的产品。

2.4统计数据质量的统计分布检验法

统计分布检验法是通过对各个个体的标志值进行特定的统计分布检验,初步检验各个个体的标志值是否正常、可信。统计分布检验法一般分为常规统计分布检测和其它统计分布检验法。存在的不足是难以获得具体的先验分布,也存在无法估计一致性偏差以及对非一致性偏差的探测能力有限。经过长期的研究分析,人们的解决策略就是通过证明这些统计数据近似服从对数正态分布,并提出通过对数正态分布的检验和异常点进行检验和识别。

2.5 统计数据质量的调查误差评估法

调查误差评估法是对调查数据中的包含的误差评估。通常表现在统计调查误差。主要有两类抽样误差和非抽样误差。其中最具代表性的三小类评估方法是事后重复调查的偏差估计、误差效应的识别估计和调查误差的间接评估。调查设计的不合理和调查实施过程的不规范是事后质量调查偏差估计的不足;样本单元中包含的调查误差不一定是服从某种概率分布的是误差效应的识别估计方法的不足;调查误差的间接评估不足是不能对主要调查统计量中所包含的调查误差方向及大小做出综合判断。

通过对以上五个基本类别的评估方法的分析对比,中天和少年宫可以分成三个级别层次,有低层次到高层次依次是:统计分布检验法和调查误差评估法共同构成可行性较差的级别,核算数据重估方法构成可行性一般级别,逻辑关系检验法和计量模型分析法共同构成可行性较好的级别(见图1)。

五个基本类别准确性评估方法的可行性分类也只是简单粗略的划分。不同评估方法的有效性和可行性都是存在一定的差异的,实际应用时,评估者要根据实际情况去确定评估的方法范围,综合考虑各自的评估方法的评估依据的准确性、评估假设的合理性、评估深度等要素选取具体的评估方法。

3 结束语

上一篇:搅拌桩质量控制下一篇:绘画中的空白艺术