缺失数据填补论文

2024-10-05

缺失数据填补论文(通用3篇)

缺失数据填补论文 篇1

1 缺失数据及其产生原因

不完备数据又称缺失数据, 在各种科学研究中, 数据的缺失现象很普遍, 不完备数据给数据的使用和分析带来了很大的困难, 也是造成信息系统不确定的主要原因之一。我们经过整理相关文献, 总结了一些不完备数据的定义:数据传输或采集中的错误、空值、超出范围或者不符合要求的值。造成数据缺失的原因是多方面的, 主要可能有以下几种:

1.1 有些信息暂时无法获取。

例如在医疗数据库中, 并非所有病人的所有临床检验结果都能在给定的时间内得到, 就致使一部分属性值空缺出来。又如在申请表数据中, 对某些问题的反映依赖于对其他问题的回答。

1.2 有些信息是被遗漏的。

可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏, 也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。

1.3 有些对象的某个或某些属性是不可用的。

也就是说, 对于这个对象来说, 该属性值是不存在的, 如一个未婚者的配偶姓名、一个儿童的固定收入状况等。

1.4 有些信息 (被认为) 是不重要的。

如一个属性的取值与给定语境是无关的, 或训练数据库的设计者并不在乎某个属性的取值 (称为dont-care value) 。

1.5 获取这些信息的代价太大。

1.6 系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。

2001年荷兰统计与运筹协会下属的统计软件分会组织了一个关于缺失数据的讨论会, 讨论会提醒人们, 即使表面上看缺失数据对研究结果不可能构成威胁时, 也不要简单地将其删除, 因为虽然缺失数据可能只占到4%-5%的比例, 但那些重要信息中往往有30%-95%的数据来自这些数据, 如果恰好重要信息完全不在这些“盲区” (缺失数据) 中, 那么也就没有什么问题, 但很显然这样的风险太大了, 所以绝对不能存在侥幸心理.而要妥善处理好不完备数据。下文如无特别说明, “缺失”、“不完备”、“不完全”不再区分, 都是同一说法。

2 数据预处理中填补不完备数据的方法

填补空缺值的方法技术很多, 下面我们描述了在实际中采用的几种方法, 对于不同类型的空缺值, 其填补方式是不一样的, 应根据实际情况选取适当的技术。

2.1 从相关信息中提取填补空缺值所需数据:

某些数据中的空缺值, 其内容在其他有些相关信息中存在, 关键是利用这些相关信息, 在其中查找, 用查找到的内容来填补空缺值, 这种方法的关键是在相关信息中的查询、搜索技术。

为了很好的应用这些相关信息, 必须对其进行规范、整理, 要进行的工作有: (1) 统一数据格式; (2) 数据的一致性处理; (3) 制定查询、搜索策略; (4) 分析空缺项填补值的正确性; (5) 改进查询、搜索策略。

2.2 利用同类别均值填补空缺值。对于某些空缺数据项, 以其同类别的所有非空缺值的平均值来填补该空缺数据项。

2.3 利用决策树技术填补空缺值。

该方法是将数据巾其他不存在空缺项的数据生成一个决策树, 然后应用此决策树填补空缺的数据项。

生成决策树的算法很多, 有著名的ID3、C4.5算法, 还有其他及改进的算法等, 对于诸多的、生成决策树的算法, 将其应用于同一问题, 取得的效果各不一样, 为取得最佳的效果, 需要试验。

在填补空缺值时, 可以应用ID3算法生成决策树。ID3算法的一般过程在各类数据挖掘资料中都有阐述, 在此, 仅介绍算法在填补空缺数据项时的过程。

算法如下:

(1) 根据空缺数据项选定分类属性, 根据分类属性生成测试属性集合; (2) 根据选定的测试属性集合, 生成当前数据库表 (根据此表中的数据生成决策树) , 将其置为当前决策树节点; (3) 计算当前节点各测试属性的信息增益; (4) 选定当前节点信息增益值最大的测试属性; (5) 如果当前节点满足条件a之一, 则将堆栈中的节点弹出一个, 并将弹出节点置为当前节点, 转第3步。不满足条件, 转下一步。如果堆栈空, 转第7步;条件a:分类属性值单一;选定的测试属性值单一;选定的测试属性最大信息增益是0。 (6) 生成当前节点的子决策树, 将子决策树中除最右边节点外的其他节点压入堆栈, 将子决策树最右边节点置为当前节点, 转第3步: (7) 结束。结束后, 则得到一棵以测试属性为节点的决策树, 树的分支为相应节点测试属性的各种取值。算法分析:该算法是树的遍历算法, 属先根遍历, 其时间复杂度为O (n) 。

2.4 手工填补。

当上述几种方法都无法使用时, 需要应用有关领域的专业知识, 根据数据的实际情况人工填补。人工填补的效率非常低, 这种方法只对个别空缺值使用。

3 从相关信息中提取填补空缺值所需数据的实例分析

某公司在全国某些地区有其子公司, 每年底, 各子公司要向总公司上报库存产品的情况, 而总公司为检查储存产品的情况, 每年都要在全国有关子公司内抽取若干库存产品来检测其质量。做检测时, 由于当时的历史条件所限, 很多产品的元件信息没有填写.公司为了分析产品的质量状况, 将历年检测情况综合起来进行分析, 由于检测产品的很多元件信息都是空缺值, 为了填补这些空缺数据项, 需要从公司历年产品的库存信息内查询搜索有关产品的信息。为此, 对历年库存产品信息进行了统一数据格式、数据一致性处理等工作, 为了进行有效的查询搜索, 制定了如下的查询搜索策略:

(1) 元件三的有关信息, 由于当时认为其没有必要, 因此, 在历年的检测中没有记录其信息。

(2) 对所有空缺项的记录依次填补, 首先填补元件一的有关信息, 其次填补元件二的信息, 最后填补元件三的信息。

(3) 以产品名称、序、生产年、生产厂为主线索进行查找搜索, 同时, 为各查询搜索条件赋予了查询级别。

a.以查询级别为01、02的产品名称、序、生产年、生产厂搜索;b.以查询级别为01的产品名称、生产年、生产厂搜索;C.以查询级别为02的产品名称、生产年、生产厂搜索;d.以查询级别为小于03的产品名称、序、生产年、生产厂搜索;e.以查询级别为小于03的产品名称、生产年、生产厂搜索。

(4) 同一年的库存产品信息内如果包含多个空缺数据项的记录, 则依次搜索。

(5) 查找检测年份 (含) 前所有年份的库存产品信息。

(6) 查找检测年份后的所有年份的库存产品信息。

经过填补, 在对填补数据项正确性进行分析后, 认为第4步可以改进, 在多个记录内可以采用最有可能的记录进行填补, 而不是依次搜索, 最后得出的结果, 令人比较满意。

4 结束语

通过本文的阐述, 我们可以看出, 对数据填补应慎重对待, 一味增加填补次数以求较好的填补效果是不合理的, 需要结合资料本身的信息选择恰当的填补次数, 才能得到最大的收益。正如最早系统地提出填补方法的Rubin所说:“填补, 这个概念是十分诱人的也是非常危险的。之所以诱人, 是它会使人们进入一种高兴的状态, 以至于最后完全迷信填补后的数据集而容易忽略偏差的存在, 这即是其危险所在。”所以针对各种实际问题, 要注意分清问题的实质, 合理并且适当地运用处理方法才是解决好实际问题的关键所在。

参考文献

[1]曹阳, 张罗漫.运用SAS时不完整数据集进行多重填补一SAS 9中的多重填补及其统计分析过程 (一) .中国卫生统计, 2004, 21 (1) :56-63.[1]曹阳, 张罗漫.运用SAS时不完整数据集进行多重填补一SAS 9中的多重填补及其统计分析过程 (一) .中国卫生统计, 2004, 21 (1) :56-63.

[2]曹阳, 贺佳.运用SAS时不完整数据集进行多重填补一SAS9中的多重填补及其统计分析过程 (二) .中国卫生统计, 2004, 21 (2) :1l4-116.[2]曹阳, 贺佳.运用SAS时不完整数据集进行多重填补一SAS9中的多重填补及其统计分析过程 (二) .中国卫生统计, 2004, 21 (2) :1l4-116.

缺失数据填补论文 篇2

船舶监控系统通过对船舶监控数据的采集和处理实现对现代船舶运行状态的监控, 保障船舶的航行安全。然而船舶监控数据易受数据采集设备以及内外部环境影响, 使采集到的数据流出现部分属性值缺失的情况, 令船舶监控数据的可靠性降低, 影响船舶监控系统处理与分析数据的功能。为满足船舶监控系统中对船舶监控数据可靠性、完整性的要求, 提供高质量的船舶监控数据, 补全船舶监控原始数据流中数据的缺失属性值是非常重要的。

为解决上述问题, 本文将改进的灰色关联度[1]分析方法引入KNN缺失值填补过程, 设计了基于改进KNN的船舶监控数据缺失值填补算法。算法将CRITIC (Criteria Importance Though Intercrieria Correlation) 法[2]与熵权法[3]结合的综合赋权法应用到船舶监控数据对象间灰色关联度值的计算中, 并用改进的灰色关联度代替传统的欧氏距离表征不同数据对象间的相似程度, 选取与待填补数据对象最相似的K个数据对象相应属性的均值对缺失属性值进行填补估计。该算法解决了传统KNN算法采用欧氏距离易受量纲影响而使数据对象间相似性表达不准确的问题, 在一定程度上保障了船舶监控数据的质量, 提高了数据填补的准确性和可靠性。

2 基于改进KNN的缺失值填补

2.1 基于改进KNN船舶监控数据缺失值填补算法

基于改进KNN的缺失值填补算法主要运用CRITIC法与熵权法结合的综合赋权法计算完整数据中各属性的权重值;利用求得的属性权重值计算待填补数据对象与其他所有完整数据对象的灰色关联度并由大到小排序;选取其中前K个数据对象作为与待填补数据对象最相似的K个最近邻;根据这K个最近邻数据对象相关属性值估计缺失的属性值。图1为基于改进KNN的缺失值填补算法流程图。

基于改进KNN的缺失值填补算法 (IGKNN) 流程具体如下。

步骤1:获取待填补数据集合以及完整数据集合;

步骤2:运用CRITIC方法与熵权法结合的综合赋权法使用公式 (1) 计算完整数据集合中的数据各属性的权重值;

步骤3:判断是否还有需要填补的数据, 若所有数据处理完毕, 则结束, 否则转至步骤4;

步骤5:对步骤4中计算得到的灰色关联度值的大小进行排序, 选取前K个灰色关联度最大的完整数据对象作为待填补对象X0的K个最近邻;

步骤6:根据公式 (5) , 运用步骤5中得到的X0的K个最近邻的相关属性的均值对X0的缺失属性值进行填补估计, 计算完成后转至步骤3。

2.2 基于改进KNN的船舶监控数据缺失值填补算法

根据基于改进KNN的缺失值填补的算法描述, 算法的实现主要依赖于数据属性权重计算、改进灰色关联度计算、K近邻数据选取和缺失属性值填补几个关键步骤。

2.2.1 CRITIC法与熵权法结合的综合赋权法

CRITIC法主要通过数据对象属性的对比强度以及冲突性确定属性权重。对比强度指数据对象某一属性值在所有数据对象中取值差异性的大小, 用该属性的标准差度量。冲突性基于数据对象属性间的相关性, 若两个属性具有较强的正相关性, 则冲突性较低;反之, 冲突性较高。

2.2.2 改进的灰色关联度

2.2.3 改进KNN缺失值填补

在填补船舶监控数据时, 根据K个近邻对象对应的属性求平均值, 就可以得到缺失属性的估计值:

3 结语

本文针对传统KNN填补算法的不足, 根据船舶监控数据的特点, 提出了基于改进KNN的缺失值填补算法 (IGKNN) 。引入了CRITIC方法与熵权法结合的综合赋权法确定数据内各属性的客观权重, 用于计算不同数据间的灰色关联度值, 并使用改进的灰色关联度代替传统欧氏距离来表示数据间相似性的大小关系。选取与待填补数据最相似的K条数据, 用相应属性的均值填补缺失值。本文提出的算法主要解决船舶监控数据中缺失值的填补问题, 下一步的工作将致力于精简数据属性、有效选取K值以缩短算法运行时间。

参考文献

[1]罗毅, 李昱龙.基于熵权法和灰色关联分析法的输电网规划方案综合决策[J].电网技术, 2013, 37 (1) :77-81.

[2]Diakoulaki D, Mavrotas G, Papayannakis L.Determining objective weights in multiple criteria problems:The critic method[J].Computers&Operations Research, 1995, 22 (7) :763-770.

[3]宋冬梅, 刘春晓, 沈晨, 等.基于主客观赋权法的多目标多属性决策方法[J].山东大学学报:工学版, 2015, 45 (4) :1-9.

[4]谭学瑞, 邓聚龙.灰色关联分析:多因素统计分析新方法[J].统计研究, 1995, 12 (3) :46-48.

[5]崔立志, 刘思峰, 李致平, 等.一种新的灰色相似关联度模型及其应用[J].统计与决策, 2010 (7) :7-9.

缺失数据填补论文 篇3

近年来, 随着浙江经济社会发展与法制建设的加快推进、社会信用体系的不断拓展, 特别是随着信息技术在机关、企事业单位职能活动中的广泛应用, 不少地区和单位的数字化档案所占比重已逐渐超过传统纸质档案文件。伴随各地档案数字化工作的开展, 档案数据的安全和质量问题日益成为档案部门关注的重点。

档案数字化成果质检系统属于浙江省档案局2009年在国家档案局立项的研究课题“档案数字化成果质检体系及系统研究”的成果之一, 也是国内第一个专门针对档案数字化加工成果进行全面检测并投入使用的实用工具。它能对存储在光介质或磁介质上的海量数据从存储规范、材质、软件环境、著录字段、数据格式、逻辑关系等多方面进行计算机辅助检测, 自动形成各类统计报表、检测报告和移交清单, 从而大大提高数字化加工和入馆数据的准确性与可靠性。

上一篇:道家美学思想下一篇:科研专项资金