模糊数据挖掘

2024-09-19

模糊数据挖掘(精选9篇)

模糊数据挖掘 篇1

1 评测方法现状

通常对一个问题经常会做出这样的评价优、良、差,或者将某一事物的等级被评为A、B、C,诸如这样不精确的、模糊评价,在工作中及生活中已经是司空见惯了,然而在教育、教学测量与评价则是用来测量教师的教和学生的学,也就是对教师完成教学任务和实现教学目标的程度,给予科学定量的或程度上的评测及判断。它是直接检验、衡量教学质量,评测教学优劣的一种有效手段,为今后的教学改革提供了科学的依据。然而教学过程的测量又是非常困难和复杂的,涉及到目标定量或定性的判断和评测,如若目标清晰,能够定量分析,可以根据问题所满足的规律及公式或者是通过统计规律来分析和计算。但许多问题又总是模糊的,无清晰的分界线,比如说在评定一节物理课的教学质量时候,有的评委说这节课好的很,无论是师生的互动还是讲练的时间的安排,都是无可挑剔的,给95分。另外几个评委也都给了91、93、90等。然而,好到什么程度?给一个A吧,较好做到,因为较为集中,也较为清晰,可有的评委则说尚可,给一个B+或还是给一个A-?还有些目标没有能完成,只能的“B”等等,最后可能是加上一个去掉一个最高分和去掉一个最低分,然后再去求剩下数据的算术平均值的方法。这些还都是较为模糊的评价标准及方法,如何准确地对教学测量进行科学的评价,有必要借助于模糊数学,使其得到一个较令人满意、较为标准的、较为公正的数据采集及计算方法。美国系统科学家L.A.Zadeh在1965年首先提出了模糊集的概念,为模糊数学奠定了基础。近年来模糊数学得到了极为迅速的发展,它渗透到各个领域,在理论上、实践上取得了令人瞩目的进展。模糊数学思想应用于教学评测或一些数据采集评测上并且用计算机加以处理还是一种比较信服的应用,对于教学评测上的模糊(Fuzzy)集的建立,也就是说隶属函数的建立又如何呢?

2 模糊数据挖掘的方法确定

常用的隶属函数确定方法有模糊统计法、二元对比排序法和待定系数法3种[2]。在模糊可信性分析领域中,这3种方法侧重于不同的实际背景。首先,由于模糊应用主要集中在定性信息的定量化和小样本情况下合理表达统计结果两个要点上,而大多数情况下这两个要点所涉及的实际背景又不可能提供充足的主观信息,因此模糊统计法的应用范围十分有限。相比之下,二元对比排序法的应用场合相对多一些,特别是在可靠性分配、可靠性预计等需要进行单元、系统之间相对权衡的场合下能够较好地发挥其作用。但是,该方法本身的局限性又限制了它在其他场合的应用。三者之中,应该说待定系数法在模糊分析中可以使用的场合最多。这是因为,在可以使用模糊方法的测控领域中,所涉及的大部分模糊集合的隶属函数确定都通过待定系数法合理地解决。因此,讨论就以待定系数法为基础,进一步分析其在数据挖掘领域的应用。

2.1 论域的确定和边界的划分

分析隶属函数时,首先需确定模糊集合的论域。选择适当的论域,将降低后续工作的复杂程度和算法工作量。确定论域时,一方面,要求所确定的论域要紧密结合可靠性问题的实际背景并要完全映射所研究的变量范围;另一方面,又要求在有限论域内利用尽可能少的论域元素来表征客体的模糊特性,以降低算法的复杂程度。论域确定后,必须重视隶属度为1的论域元素集合、隶属度为0的论域元素集合以及隶属度为0.5的论域元素的确定。

(1)隶属度为1的论域元素:在模糊数学中,对于正规模糊集,隶属度为1的论域元素集合被称为“主值区间”[3],或称为模糊集的“核”[4]。通过分析论证,如果可知论域中某部分元素将肯定属于所讨论的模糊集合,也即这部分元素是对应模糊概念的确定内涵,那么这部分元素的隶属度即可被赋予1,所有这样的点的集合即构成主值区间。在函数形式上,主值区间的大小将直接影响隶属函数曲线的顶部形状。

(2)隶属度为0的论域元素:通过分析论证,如果论域中某部分元素肯定不属于所讨论的模糊集合,那么这部分元素的隶属度即可被赋予0。在函数形式上,临界的隶属度为0的论域元素和隶属度为1的元素一起决定了过渡带的范围。

(3)隶属度为0.5的点:在模糊数学中,由于隶属度为0.5的论域元素的归属最难确定,因此被称为“最模糊点”[4],有时也称之为“跨越点”[5]。通过分析论证,如果论域中某部分元素最无法肯定是否属于模糊集合,即它们的不确定性最大,那么这部分元素的隶属度即可被赋予0.5,这些论域元素就是模糊集合中的最模糊点。与此相反,上面所述的隶属度为0和1的元素是论域中的“最清晰点”,或习惯称之为“显著状态”,“确定态”。实际应用中,最模糊点可以通过两种方式确定:一种是分析应用背景,确定一个最大的不确定性点作为最模糊点;另一种方法是在存在多相模糊集时使用,即如果有相邻的两相,则以这两相的中间值来作为最模糊点[1]。其物理意义是:对两个相接近的模糊概念进行区分时,如果两方的不确定性相当,那么两个概念外延的中间部分应该是最难确定归属的,所以说中间部分的隶属程度最模糊。在过渡带中,起点和终点是论域上隶属度为0(或1)的元素和隶属度为1(或0)的元素,隶属度为0.5的元素正位于其中。所以,有了隶属度为0和1的元素对应的两点,就可以试探地确定过渡带。如果想进一步更确切地确定过渡带形式,就要使用隶属度为0.5的最模糊点了。例如,如果这3点大致呈线性关系,则隶属函数形式就可选择三角型或梯型分布等具有线性过渡带的隶属函数分布;如果这3点呈非线性关系,则隶属函数形式可选择正态型、岭型、Γ型及柯西型分布等具有非线性过渡带的隶属函数。

2.2 分布的确定

(1)分布形式与实际背景的关系

常见的隶属函数,在形状、主值区间、对称性等方面存在差异。这些差异就是分布的基本特性。在遇到实际问题时,必须把确定隶属函数所涉及的实际背景与这些分布特性联系起来考虑。下面将分布特性与实际背景的关系总结如下,它同时也就是隶属函数确定的一般原则。

(2)分布的确定

1)如果实际背景满足使用模糊统计法的前提条件,则可以先对模糊集的相关数据进行模糊统计,然后根据统计直方图确定分布形式,最后调整分布参数使拟合达到最好。

2)一般情况下,多数可靠性测量的实际情况无法满足模糊统计的前提条件,因此虽然上述方法的准确性较高,但是在实际问题中却很少使用。在实际中,一般结合隶属度分布与实际物理意义的关系,利用待定系数法来选取分布。

3 关键思想

模糊集是个体模糊概念外延的集合,如高(低)或好(差),或老(少)或大约或非常等等,这些概念的外延和内涵都是模糊的,这些概念外延的模糊集与其非概念的模糊集是不能用画圈简单的方法截然分开的,是与非概念存在一个弹性的模糊的边界。

对于F集的建立由定义可知:

设在论域U上给定了一个映射

则称A为U上的一个模糊(Fuzzy)子集,A(u)称为A的隶属函数(或称为u为A的隶属度)。

一般地,可表示为:

此处的U是有限集或可数集,则A可表示为:

对于F集来说,最关键的就是隶属函数的确定,怎样确定隶属函数,可由下面来确定建立模糊性的试验模型,比如,就教学效果评价来说,教学效果这一量是一模糊的量,对这一量的量化处理,则需要建立一定的数学模型。设U是“教学效果”因素的集合,即

(1)U={激发动机效果,丰富知识效果,发展能力与技能效果,思想教育效果}设A为评价集合,即A={好,一般,较差}

各级所对应的数学论域(以百分制为准)为:好---(90—100);一般--(60—89);较差--(59以下)。建立教学效果等级“好”为A1,等级“一般”为A2,等级“较差”为A3。

(2)单因素评测,是从U到A的一个模糊关系:

它被称为评测矩阵,其元素rij

出自于因素集U,应满足或获得评语A j的程度rij∈[0,1]。

4 研究结果对教学的影响调查

4.1 统计研究的方法

譬如:参评小组得出以下的评价表。

由表1得出“教学效果”多因素评价矩阵考虑到主要侧重于知识与能力,所以

模糊权重a=(a1,a2,….an),它是对于各因素考虑的着眼点,ai∈[0,1]。

若取

4.2 综合评价

由模糊运算可得“教学效果”的评价结果,其中*是评判所取得算子考虑到主要侧重于知识与能力,所以

这样一来,就得出课堂教学在“教学效果”质量评定的各方面的隶属度,即结果。隶属于“好”、“一般”、“较差”的程度分别为0.318,0.448,0.139。如若要得出最后的综合评价结果可以利用各等级的中值作用于模糊集b的评价结果,即

最后的结果为67.98分。

根据实际情况,确定待定系数法作为在实际评测中确定隶属函数的主要方法,其具体思路为:根据实际背景所蕴涵的知识,从一系列隶属函数分布中选择一种最能表现模糊集特性的隶属函数作为最终分布,并根据背景知识确定分布参数以待定系数,对各子域处理进行挖掘数据信息,对所有常用隶属函数进行了总结和分析,并对比其差异,将该差异与实际物理意义相联系,形成确定隶属函数的具体规范,明确了隶属函数确定时的方法和步骤。确定适宜算法进行程序设计。

评测系统实现框图及各子评测系统之间的通信框图,如图1所示,整个系统是以B to B的形式完成的

客户端评测子系统中的每个测试域都充分地使用待定系数法,当然各个使用领域可以自己待定自己的边界条件,如图2所示。

5 结语

主要是说明隶属函数的确定方法,然而经研究和一般的使用还是待定系数法较实用。隶属函数的确定是比较不容易的,也做过用待定系数法完全可以通过逆向推导后,可以得出较满意的隶属函数,当然这是在完全对待定系数法以充分相信的基础上完成的。

参考文献

[1]郭桂蓉.模糊模式识别[M].长沙:国防科大出版社,1993:76-82.

[2]汪培庄,李洪兴.模糊系统理论与模糊计算机[M].北京:科学出版社,1996:103-105.

[3]汪培庄.应用模糊数学[M.]北京:北师大出版社,1991:43-55.

[4]吴望名.模糊数学导论[M.]西安:陕西师范大学出版社,1995:87-90.

[5]郭桂蓉,庄钊文.信息处理中的模糊技术[M].长沙:国防科大出版社,1997.

[6]GJB 572-1992,可靠性(I)[S].

[7]Chai Kaiyuan.Introduction To Fuzzy Reliability[M].London:World Scientific Press,1994.

[8]杜长进,等.物理教育通论.北京师范大学出版社.

[9]刘有才,等.模糊专家系统原理与设计.北京航空航天大学出版社.

[10]黄崇福,王家鼎.模糊信息优化处理技术及其应用.北京航空航天大学出版社.

模糊数据挖掘 篇2

摘 要:针对复杂网络交叠团的聚类与模糊分析方法设计问题,给出一种新的模糊度量及相应的模糊聚类方法,并以新度量为基础,设计出两种挖掘网络模糊拓扑特征的新指标:团间连接紧密程度和模糊点对交叠团的连接贡献度,并将其用于网络交叠模块拓扑结构宏观分析和团间关键点提取。实验结果表明,使用该聚类与分析方法不仅可以获得模糊团结构,而且能够揭示出新的网络特征。该方法为复杂网络聚类后分析提供了新的视角。

针对复杂网络交叠团的聚类与模糊剖析办法设计Issue(问题),给出一种新的模糊度量及对应的模糊聚类办法,并以新度量为根底,设计出两种发掘网络模糊拓扑特征的新目标:团间衔接严密水平和模糊点对交叠团的衔接奉献度,并将其用于网络交叠模块拓扑构造微观剖析和团间关键点提取。实验后果标明,运用该聚类与剖析办法不只能够取得模糊勾结构,并且可以提醒出新的网络特征。该办法为复杂网络聚类后剖析提供了新的视角。

关键词:网络模糊聚类;团—点相似度;团间连接紧密度;团间连接贡献度;对称非负矩阵分解;网络宏观拓扑

团结构是复杂网络普遍而又重要的拓扑属性之一,具有团内连接紧密、团间连接稀疏的特点。网络团结构提取是复杂网络分析中的一个基本步骤。揭示网络团结构的复杂网络聚类方法[1~5]对分析复杂网络拓扑结构、理解其功能、发现其隐含模式以及预测网络行为都具有十分重要的理论意义和广泛的应用前景。目前,大多数提取方法不考虑重叠网络团结构,但在多数网络应用中,重叠团结构更为普遍,也更具有实际意义。

现有的网络重叠团结构提取方法[6~10]多数只对团间模糊点进行初步分析,如Nepusz等人[9,10]的模糊点提取。针对网络交叠团结构的深入拓扑分析,本文介绍一种新的团—点相似度模糊度量。由于含有确定的物理含意和更为丰富的拓扑信息,用这种模糊度量可进一步导出团与团的连接紧密程度,以及模糊节点对两团联系的贡献程度,并设计出新指标和定量关系来深度分析网络宏观拓扑连接模式和提取关键连接节点。本文在三个实际网络上作了实验分析,其结果表明,本方法所挖掘出的网络拓扑特征信息为网络的模糊聚类后分析提供了新的.视角。

1 新模糊度量和最优化逼近方法

设A=[Aij]n×n(Aij≥0)为n点权重无向网络G(V,E)的邻接矩阵,Y是由A产生的特征矩阵,表征点—点距离,Yij>0。假设图G的n个节点划分到r个交叠团中,用非负r×n维矩阵W=[Wki]r×n来表示团—点关系,Wki为节点i与第k个团的关系紧密程度或相似度。W称为团—点相似度矩阵。令

Mij=?rk=1WkiWkj(1)

若Wki能精确反映点i与团k的紧密度,则Mij可视为对点i、j间相似度Yij的一个近似。所以可用矩阵W来重构Y,视为用团—点相似度W对点—点相似度Y的估计:

W ?TW→Y(2)

用欧式距离构造如下目标函数:

minW≥0 F?G(Y,W)=‖Y-W ?TW‖?F=?12?ij[(Y-W ?TW)。(Y-W ?TW)]ij(3)

其中:‖•‖?F为欧氏距离;A。B表示矩阵A、B的Hadamard 矩阵乘法。由此,模糊度量W的实现问题转换为一个最优化问题,即寻找合适的W使式(3)定义的目标函数达到最小值。

式(3)本质上是一种矩阵分解,被称为对称非负矩阵分解,或s-NMF (symmetrical non-negative matrix factorization)。?s-NMF的求解与非负矩阵分解NMF[11,12]的求解方法非常类似。非负矩阵分解将数据分解为两个非负矩阵的乘积,得到对原数据的简化描述,被广泛应用于各种数据分析领域。类似NMF的求解,s-NMF可视为加入限制条件(H=W)下的NMF。给出s-NMF的迭代式如下:

Wk+1=W?k。[W?kY]/[W?kW ?T?kW?k](4)

其中:[A]/[B]为矩阵A和B的Hadamard矩阵除法。

由于在NMF中引入了限制条件,s-NMF的解集是NMF的子集,即式(4)的迭代结果必落入NMF的稳定点集合中符合附加条件(H=W)的部分,由此决定s-NMF的收敛性。

在求解W之前还需要确定特征矩阵。本文选扩散核[13]为被逼近的特征矩阵。扩散核有明确的物理含义,它通过计算节点间的路径数给出任意两节点间的相似度,能描述网络节点间的大尺度范围关系,当两点间路径数增加时,其相似度也增大。扩散核矩阵被定义为

K=exp(-βL)(5)

其中:参数β用于控制相似度的扩散程度,本文取β=0.1;L是网络G的拉普拉斯矩阵:

Lij=-Aiji≠j

?kAiki=j(6)

作为相似度的特征矩阵应该是扩散核矩阵K的归一化?形式:

Yij=Kij/(KiiKjj)??1/2(7)

基于扩散核的物理含义,团—点相似度W也具有了物理含义:团到点的路径数。实际上,W就是聚类结果,对其列归一化即可得模糊隶属度,需要硬聚类结果时,则选取某点所对应列中相似度值最大的团为最终所属团。

2 团—团关系度量

团—点相似度W使得定量刻画网络中的其他拓扑关系成为可能。正如W ?TW可被用来作为点与点的相似度的一个估计,同样可用W来估计团—团关系:

Z=WW ?T(8)

其物理含义是团与团间的路径条数。很明显,Z的非对角元ZJK刻画团J与团K之间的紧密程度,或团间重叠度,对角元ZJJ则刻画团J的团内密度。?

以图1中的对称网络为例,二分团时算得

Z=WW ?T=1.337 60.035 3

0.035 31.337 6

由于图1中的网络是对称网络,两团具有同样的拓扑连接模式,它们有相同的团内密度1.337 6,而团间重叠度为?0.035 3。

模糊数据挖掘 篇3

综合评价是决策的前提,正确的决策源于科学的综合评价,因而对其理论和方法的研究在工程领域和管理科学中占据重要地位。在面对大量数据的复杂情况时,传统的评价方法较难满足评价客观性的要求,评价理论和方法有待于进一步拓展和创新。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程,是克服数据丰富,而知识 (或信息) 贫乏、获取信息的重要手段。各个领域都从不同的角度利用相应的理论和分析方法进行数据挖掘的研究和开发工作。而单纯的数据挖掘可能会导致“尖锐边界”问题。因此,考虑将模糊综合评价法和数据挖掘结合引入学生综合素质系统中。以高校学生管理信息库为对象,采用模糊评判方法对管理数据库中的成绩进行挖掘,找出有价值的信息,为管理决策提供参考。

二、模糊评价的数学模型

模糊综合评判就是指对多种因素影响的事物或现象进行的总的评价,这种评价若涉及模糊因素,便称作模糊综合评判。

设着眼因素集为U={u1, u2, u3…, um},评语等级集为V={v1, v2, v3…, vn}。R是U与V之间的一个模糊关系,

R (ui, vj) =rij表示因素ui (i=1, 2, …, m) 对评语等级vj (j=1, 2, …, n) 的隶属度,R= (rij) m×n是m×n阶模糊关系矩阵,然后给出着眼因素的模糊权向量A,再模糊权向量A与模糊关系矩阵R进行合成运算来进行模糊综合评判,即B=A·Rㄢ

模糊综合评判的数学模型一般由3个要素和以下5个步骤组成:

(1) 建立因素集:U={u1, u2, u3…, um}各元素ui (i=1, 2, …,m),即代表各影响因素。

(2) 建立权重集:对各因素应赋予一相应的权数ai (i=1, 2, …,m),由各权数所组成的集合A={a1, a2, a3…,am}为权重集。

(3) 建立评价集:评价集是对评价对象可能作出各种评判集合的总体。即V={v1, v2, v3, …vn},各元素vj (j=1, 2, …,n) ,代表各种可能的总评判结果。

(4) 单因素评判:单独从一个因素出发进行评判,从而确定评判对象对评价集元素隶属程度Rㄢ

(5) 模糊综合评判:将建立的权重集和A单因素评判R合成到综合评判结果B,具体可表示为:

这里B=A·R=(b1, b2, …,bn),称为模糊综合评价向量,其中bj (j=1, 2, …,n) 表示被评对象对第j个评语等级的隶属度。“。”为模糊合成算子M(*,茚),M(*,茚)“*”和“茚”是模糊变换的两种运算,具体为bj= (a1*r1j) 茚 (a2*r2j) 茚… (ap*rpj) (j=1, 2, …,n) 。它根据实际情况不同有不同的模型类型。常用的模型有:主因素决定型M (∧, ∨) ,主因素突出型M (∧, ∨) ,M (∧, 茚) ,加权平均型M (∧, 茚) ,M (∧, +) 。

三、模糊综合评价方法对学生综合素质的挖掘

学生信息管理系统是对学生的各种情况进行统计和分析的系统。通过对系统中学生的各种属性进行关联分析,有助于学校针对不同学生提供不同教育,发挥学生特长,培养学生个性。这里我们使用模糊评价方法对学生成绩进行挖掘,得出学生综合素质分类的相关知识。

选择学校学生管理数据库中工商企业管理专业06级学生第二学期的成绩数据进行个人综合素质的知识挖掘。首先选取06级工商企业管理3班的45位学生在2006~2007年第二学期开设的10门课程,依次为大学英语、大学语文、电子商务概论、高等数学、会计学基础、计算机基础、企业战略管理、思想概论、体育和艺术欣赏,作为评价学生的10个评价指标。即U={u1, u2, u3, …u10};其次确定评语等级论域V={v1, v2, v3, v4, v5}为等级集合,v1, v2, v3, v4, v5依次为优、良、中、及格和不及格。

先利用建立隶属函数的方法建立模糊关系矩阵R,然后根据各科权重的不同进行知识挖掘。建立隶属函数如下:

将每一位学生的成绩代入隶属函数得到一个10×5的矩阵,如1号学生原始成绩为:

先把体育成绩中的优、良、中、及格、不及格处理为对应分数成绩95、85、75、60、50,则1号学生成绩为:S'1={85, 79, 78, 96, 88, 72, 82, 85, 75, 79}。然后把大学英语成绩85分别代入优、良、中、及格、不及格的隶属函数中可得到一个一维向量 (0.83, 1, 0.25, 0, 0) ,其余9科分别计算可得到余下的向量,于是1号学生的评价矩阵为:

考虑到各科的重要程度不同,现根据每门课的学分不同确定权重,按上述课程顺序权重得模糊权向量为:

根据学生综合素质测评的特点,我们根据对模糊合成算子“。”进行比较,这里选择加权平均型的评判模型M (∧, 茚) 加以计算。再利用最大隶属度原则进行知识挖掘。如1号学生的模糊综合评价结果向量为B1=A·R1={0.72, 0.86, 0.55, 0, 0},最大隶属度为0.86,因此该学生学习成绩知识挖掘结果为“良”。

再取25号学生与43号学生的成绩进行知识挖掘,他们的成绩分别为:

通过计算得他们的评判矩阵分别为:

所以S25=A·R25={0.81, 0.69, 0.33, 0, 0}

按最大隶属度法挖掘知识,得到25号学生综合评价为“优”,43号学生综合评价为“及格”。如此可得全班学生的挖掘结果 (略) 。

对评价结果的知识挖掘方法很多,这里再介绍一种模糊向量单值化方法,其方法是将等级看作一种相对位置使其连续化。依次赋以不同等级评语vi规定值βi, 且以隶属度bi为权数,用加权求和法获得挖掘对象的相对位置:

一般可取K=1, 2。选取不同K值的目的是控制较大bj所起的作用,可以证明当K→∞时,加权平均原则就是最大隶属度原则。如上例我们赋以“优、良、中、及格、不及格”各等级评语以“1, 2, 3, 4, 5”的值,取K=2,对1号学生最后评价向量B1代入 (2) 式进行模糊向量单值化得他的相对位置为:

1号学生挖掘结果为良稍偏优。同理把B25与B43分别代入 (2) 得ξ25=1.55,ξ43=3.3。因此25号学生挖掘结果为优偏良,43号学生挖掘结果为中偏及格。两种挖掘方法结果对照如下表所示。

以上两种方法可依据挖掘的目的来选用,如果对相应的测评精度不高,且仅需给出一个学生总体评价结论,则可用第一种方法,如果需要序化,可选用第二种方法。为了计算简便,可采用编制计算程序,分别算出每位学生的评价向量,然后用第二种方法算出全班学生的相对位置ξi (i=1, 2,…,45),再根据ξi的大小把全班学生按挖掘结果进行排序。

现利用频率法建立模糊关系矩阵,再根据各科权重的不同进行知识挖掘。先划分各指标集在不同等级的变化区间,以指标集的原始数据在各等级变化区间出现的频率作为各等级模糊子集的隶属度。具体做法是把工商企业管理3班的45位学生,规定各个等级的区间为:优[90, 100],良[80, 90) ,中[70, 80) ,及格[60, 70) ,不及格[0, 60) 。于是对于该班学生成绩:如大学英语,我们统计出优的人数为0人,然后用总人数45去除即0/45,得出该课对于优的隶属度为0。同理可分别算出属于良、中、及格、不及格的隶属度分别为0.22, 0.49, 0.29, 0。对其余各科分别算出属于各等级的隶属度,由此得出模糊模糊关系矩阵:

各门课的权重设置按上面的方法即得模糊权向量A, A={0.143, 0.107, 0.071, 0.071, 0.143, 0.107, 0.107, 0.037, 0.071},把学生成绩乘以权重,如1号同学成绩,S1'={85, 79, 78, 96, 88, 72, 82, 85, 75, 79}乘以各自权重再进行归一化处理后为:S1'→A1=(0.148, 0.103, 0.067, 0.083, 0.153, 0.125, 0.107, 0.111, 0.034, 0.068), B1=A1·R=(0.059, 0.253, 0.497, 0.185, 0.006),于是按最大隶属度原则可以知道1号学生成绩的挖掘结果为“中”。也可对模糊综合评价结果向量B1进行模糊向量单值化方法处理其结果,代入 (2) 得ξ1'=2.89,知识挖掘结果为中稍偏良。

从上可知,建立模糊关系矩阵的方法不同,挖掘的结果也可能不同。即使是模糊关系矩阵一样,挖掘的方法不同,其挖掘结果也可能不同。模糊向量单值化方法能把影响学生素质的多种因素进行综合考虑,它不是简单的加权平均,而是充分利用了所得的全部信息,挖掘结果比较精确,较好地保证了测评工作的公正性和操作实用性。相比之下,最大隶属度法则损失了很多有用信息,因而挖掘结果较粗糙。

四、结束语

通过应用实例分析,对学生管理数据库中学习成绩,采用模糊数学中的综合评判方法进行挖掘,得到学生个人综合素质的分类知识,取得了比较满意的结果,为管理决策提供参考,为学生综合评价提供了崭新的思路和具有参考指导意义的方法。数据挖掘技术在教育中的应用在我国尚属起步阶段;到目前止,虽已出现多种综合评价方法进行知识挖掘,但对于综合评价的方法和理论仍需不断完善。比如,综合评价方法很多,我们在实际中如何选用?针对同一问题,不同方法会得到不同的挖掘结果,如何解释?如何辨别不同方法对不同问题的优劣?如何衡量挖掘结果的准确性?等等,许多问题还有待我们进一步去探索和研究。我们相信,在有大量信息的教育领域,将模糊综合评价法和数据挖掘技术相结合,在高校学生管理中加以推广应用,将发挥更大的作用。

参考文献

[1]黄晓霞, 程论.综合评价与数据挖掘的比较[J].上海海市大学学报, 2007, (12) :54-58.

[2]洪月华.基于模糊综合评价的课堂教学质量数据挖掘[J].计算机科学, 2008.

[3]罗晓芳.管理干部综合素质模糊评价体系的神经网络模型[J].科技通报, 2004, (3) :225-228.

模糊数据挖掘 篇4

遗传模糊聚类算法在数据关联中的应用

针对传统数据关联算法存在计算量偏大或关联精度不高的问题,提出了一种利用遗传模糊聚类策略来求解数据关联问题的.算法.该算法将多传感器多目标的数据关联问题看作是一类约束条件下的组合优化问题,先通过对同一时刻不同传感器提供的量测按照其相似性用遗传算法进行模糊聚类,再用聚类后的等效量测对各目标的状态进行估计.聚类方式的改进不仅增加了算法的局部寻优能力,有效地减少了计算的复杂度,而且还具备一定的野值剔除能力.仿真结果表明该算法关联精度较高,计算量适中,具有一定的工程应用价值.

作 者:胡傲 冯新喜 王冬旭 郭威武 HU Ao FENG Xinxi WANG Dongxu GUO Weiwu 作者单位:空军工程大学电讯工程学院,西安,710077刊 名:电光与控制 ISTIC PKU英文刊名:ELECTRONICS OPTICS & CONTROL年,卷(期):17(3)分类号:V271.4 TN953关键词:数据关联 多目标跟踪 模糊聚类 遗传算法

模糊数据挖掘 篇5

目前, 数据挖掘技术以广泛地应用于水科学领域, 如, 周晓阳等[1,2]针对以三峡为中心的长江防洪系统, 研究了长江中下游成灾洪水的分类规律, 利用模糊概率聚类方法, 采用相似系统作聚类指标, 对洪水数据进行了分类。将流量过程分成若干类型以进行洪水的分类预报。Luchetta[3]用c中心点法对四年的降雨数据进行聚类, 形成多个降雨与水位所组成的聚类中心。最后通过以高斯函数为基础的加权平均重心法解出输入降雨值对应某一时段后的水位值。Liong[4]利用Kohonen神经网络对一流域上游的五个控制站的水位数据根据不同的水位变化趋势进行聚类, 不同类别在模糊系统中运用不同的隶属函数进行洪水预报。Zhang[5]利用MNNs神经网络将数据集按流量分成低、中、高不同类别, 然后用ANN分别训练成针对不同流量过程的水文预报模型。Chang[6]将聚类算法结合到RBFNN神经网络预报模型中, 聚类后进行水文预报。Linda see利用SOM神经网络将历史水位分类为低、中、上升、洪峰和下落五种类型, 然后对于不同的类型运用不同的MLP神经网络结合模糊及遗传算法进行训练, 最终得到针对不同水文特征的预报模型。Furundzic同样使用SOM神经网络对水文数据进行分类预处理。

本文提出面向动态库容演算系统海量数据的基于模糊聚类的水文数据挖掘算法, 通过基于模糊K聚类 (FCM) 的元数据挖掘技术, 有效的完成海量水文数据的规范化后的语义学的归并和整合问题。

2、基于模糊聚类的水文数据挖掘算法

2.1 数据挖掘与模糊聚类

元数据聚类分析在数据挖掘研究中占有重要的位置, 它和数据分类是相辅相成的。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性, 而不同类中的对象具有尽可能大的差异性。元数据挖掘是指从大量非结构化、异构的元数据的集合C中发现有效的、新颖的、潜在可用的及最终可理解的模式P的非平凡过程。如果将C看作输入, 将P看作输出的话, 那么元数据挖掘的过程就是从输入到输出的一个映射ξ:c→p。元数据挖掘基本思想:首先利用分词技术, 抽取元数据特征, 将文本数据转化为能描述元数据内容的结构化数据, 然后利用聚类、分类技术等数据挖掘技术, 形成结构化元数据树, 并根据该结构发现新的概念和获取相应的关系。元数据挖掘的过程一般包括:元数据预处理, 元数据特征提取, 元数据分类、聚类等。元数据挖掘的一般过程如图1所示。

2.2 元数据挖掘关键技术

1. 元数据特征表示

元数据特征指的是代表水文资源的元数据, 分为描述性和语义性特征。描述性特征是指元数据的名称、日期、大小、类型;语义性特征主要指水文数据的地区、机构、标题、内容等;在这两种特征中, 对于名字、日期、大小、类型、地区、机构等具有明显标志的专有特征项, 我们可以利用其特点将其提取出来, 比如名字有名字识别算法, 日期有日期识别算法等。对元数据的内容特征的表示主要有布尔模型、概率模型以及近年来常用的向量空间模型 (VSM, Vector Space Model) 。在VSM模型中, 元数据被看作由一组正交词条所生成的向量空间, 如果将ti看作词条项, wi (d) 看作ti在元数据d中的权值, 每个元数据d可以看成一个规范化特征向量V (d) =t1, (wi (d) , …ti, wi (d) , …tn, wn (d) ) 。通常, 将d中出现的所有数据作为ti。wi (d) 一般定义为ti在d中出现频率tfi (d) 的函数, 即wi (d) =δ (tfi (d) ) 。常用的δ函数有:

平方根函数;

对数函数;

TFIDF函数, 其中, tfi (d) 表示数据ti在元数据d中的出现频数, N表示全部样本元数据总数, ni表示词条ti的元数据频数。

2. 特征提取

动态库容演算系统元数据的数据量非常大, 用来表示元数据的特征向量的维数很大, 可能会达到几万维, 因此我们需要从中提取权值较高的词条作为元数据的特征项, 来达到对特征向量降维的目的。特征提取的方式主要有:

(1) 从原始特征中挑选出一些最具代表性的特征;

(2) 根据专家的知识挑选最有影响的特征;

(3) 用映射或变换的方法把原始特征变换为较少的新特征;

(4) 评估函数法, 对特征集中的每个特征进行独立的评估并给定一个评估分值, 选取预定数目的最佳特征作为特征子集。

2.3%基于模糊聚类的水文数据挖掘

1.模糊聚类 (FCM) 数学描述

设存在待分类样本集X={X1, X2…Xn}, 并且n为样本中的元素个数, c为目标聚类的个数。则存在以下关于n个元素对应c类的隶属度矩阵:

其中μij (1≤i≤c, 1≤j≤n) 代表第j个元素Xj对第i类的隶属度。并且它满足以下几个条件:

则FCM算法的数学描述就是:

式中dij (1≤i≤c, 1≤j≤n) 表示的含义是简单的第j个元素Xj到第i类聚类中心的欧式距离 (Euclideam distance) 。聚类这个多元的问题就转换为单纯的求取目标函数的最小值。

当然FCM算法存在着许多的变种情况, 最主要的变化就是使用不同的目标函数, 目标函数不仅限于上式中那种情况, 另外dij也可以有多种计量方法, 著名的如玛氏距离 (Mahalanobis distance) 等等。

2.基于FCM的水文数据聚类算法描述

设待分类的元数据集合为X={X1, X2…Xn}, 在使用混合特征选取方法以降低文档向量维数后, 元数据的特征向量为m维, 即xi= (xi1, …, xim) , 要把X分为c类 (2≤c≤n) 。设有c个元数据聚类中心V={v1, v2, …, vc}, 其中

本文中元数据特征向量空间距离采用欧式距离, 即

为水文数据xk与聚类中心vi的欧式距离[6]。

为了灵活地变动元素的相对隶属程度, 把目标函数更一般化为:

其中r≥1, 是待定的参数, ||·||是Rm空间中任一种范数。

算法实现步骤如下:

(1) 取定聚类数目c, (2≤c≤n) ;取定终止条件ε;取定初始化聚类中心V0;逐步迭代 (l=0, 1, 2, …) ;

(2) 对于V (l) , 修正U (l)

(3) 计算聚类中心

(4) 用一个矩阵范围比较V (l) 与V (l+1) , 对取定的ε>0 (ε一般取0.001和0.01之间) , 若||V (l+1) -V (l) ||≤ε, 则停止迭代, 否则l=l+1, 转向 (2) 。

3. 聚类结果的清晰化

本算法迭代所得到的矩阵U是一个模糊划分矩阵, 对应着元数据集合的模糊划分, 可用下述两种方法使划分清晰化, 得到元数据集合的普通分类:

方法1坌xk∈X, 若, 则将元数据xk归入第i0类。其中vi0是第i0类的聚类中心。也就是说, 元数据xk与哪一个聚类中心最接近, 就将它归到哪一类。

方法2在U的第k列中, 若, 则将元数据xk归入第i0类, 也就是说, 元数据xk对哪一类的隶属度最大, 就将它归入到哪一类。这一方法实际上就是最大原则方法。

3、实验结果及分析

3.1. 聚类结果评价方法

从广义上讲, 动态库容演算系统元数据挖掘是传统数据挖掘的一种, 传统数据挖掘的评价方法同样适用元数据挖掘。目前, 文本领域的一些常用的评价标准主要有准确率 (precision) 、召回率 (Recall) 、平衡点 (break-even point) 、F1测度 (F-measure) 、平均准确率等等。

3.2. 试验与结果分析

利用开源数据库提取引擎从数据库上选取400条元数据作为测试集。试验主要是在地区、流量、机构、精度、水位5个类别之间进行的。类别的标题参考了网站的分类标题, 具体类别和数量如表1, 实验结果数据如表2。

从表2实验结果数据可以看出, 元数据聚类的三个衡量指标均取得较好的效果。

4、结论

本文是作者在“河道型水库动态库容演算系统”项目开发和研究中所负责工作的一部分。主要是面向动态库容演算系统海量数据, 通过基于模糊聚类的水文数据挖掘算法, 实现了元数据的归并整理, 完全实现了系统的预期功能, 为元数据的进一步利用奠定了基础。

参考文献

[1]马寅午, 周晓阳等.防洪系统洪水分类预测优化调度方法.水利学报, 1997, 4:1-25.

[2]周晓阳, 张勇传.洪水分类预侧及优化调度.水科学进展.1997, 8 (2) :123-129.

[3]A.Luchetta."A real time hydrological forecasting system using afuzzy clustering approach".Computers&Geosciences, 2003, 29:1111-1117.

[4]Shie-Yui, Wee-l-Ian Lim."Advance Mood farecastlng forflood stricken Bangladesh with a fuzzy reasoning method".Hydro-logical Processes, 2000, 14:431-448.

[5]Zhang B, Govindaraju S."PredicFion of watershed runoff usingBayesian concepts and modular neural networks".Water ResourcesResearch, 2000, 36 (3) :753-762.

数据仓库模糊粒度模型的研究 篇6

模糊粒度模型在决策支持及信息管理系统的局势分析中发挥着重要作用。人们在解决问题时, 能从几个不同的粒度世界去分析和观察同一个问题, 并且很容易从一个粒度世界转到另一个粒度世界。为了描述这个现象, 建立了一种商结构的形式化体系, 给出了一套解决信息综合、启发式搜索、路径规划和推理等领域问题的理论和算法, 并已有一些研究和应用。目前, 关于模糊粒度模型的研究有Pawlak的“粗糙集理论”、Zadeh的“模糊集理论”和张铃等提出的基于上空间粒度计算, 有许多学者在模糊粒度计算领域进行了研究、以不同粒度求解问题的商空间模型已在模糊粒度领域引起了同行的关注, 其着重点是研究不同粒度世界之间相互转换、相互依存的关系, 及研究不同粒度问题之间的转换以及确定粒度模型与模糊粒度模型之间的关系。

本文提出利用学籍管理系统中的有关数据基本表, 进行分析、综合, 先建立确定粒度模型;再将确定粒度模型转换成模糊粒度模型, 利用模糊粒度模型对信息管理系统中的信息进行分析、研究, 实现数据仓库联机分析处理。

2. 定义和符号

Zadeh于1979年在文献中提出了模糊粒度的概念, 文中定义信息粒度为一个命题:X的值程度A隶属于模糊子集G包含于U, 其中X是U上的变量, X的值是U上的一个实体, 写成:g=X is G is A, 形式上被记成:g={∈U:X的值 (V (x) , V是U上的赋值符号) 是以程度A隶属于模糊子集G包含于U}, 很显然A∈【0, 1】。以模糊集的观点, 此处的A是模糊隶属度函数U|G;而以辑学观点, 此处的A是所建立的命题的模糊针织或概率。

通过二元关系定义子粒。设S= (U, A, V, f) 是信息系统, B:V→U二元关系, 其中U是所讨论对象的全集, A是属性集, V是属性值集, f是信息函数。用B定义粒是如下形式:g={u∈U:uBp, p∈V}显然g是清晰还是模糊完全取决于B的特性。设有两个关系B和D, 如果B包含于D, 则按B将全域划分的粒比按D将全域划分的粒更细, 在这种情况下, 也可以将不同大小的粒度分成不同粒度层, 并在不同层上进行各自分别处理。

在实际应用中, 如果粒度太细, 搜索空间庞大, 容易陷入组合

爆炸的情况;如果粒度太粗, 又会失去一些有用的信息, 因此需要从已知知识合成不同粒度知识。

设 (X1, P1, f1) 、 (X2, P2, f2) 是 (X, P, f) 的商空间, X1, X2对应的等价关系分别为R1, R2。

定义1:X1, X2的合成空间X3, 其对应的等价关系为R3。X3是X1、X2的细粒度合成空间, 满足R (x, y) ≡ (R1∩R2) (x●y) .

用划分来表示合成;设划分X1={a1}、X2={b1}, 则X1和X2的合成X3={a1∩b1|a1∈X1, b1∈X2}.X1和X2的积X3=X1●X2对应于等价关系R1∩R2的划分, 可以证明R1∩R2是一个等价关系。

定义2:X1, X2的合成空间X1, 对应的等价关系为R1, X1是X1、X2的粗粒度合成空间, 满足R1 (x, y) ≡ (R1∩R2) ● (x, y) 。其中 (R1∪R2) ●是 (R1∪R2) 的传递闭包, 用划分便是合成设x1和x2的和对应于传递闭包 (R1∪R2) ●的划分, 记x1=x1+x2可以证明 (R1∪R2) 是一个等价关系。

粒度和等价关系有着密切的关系。本节主要是对粒度合成技术在实际应用中的推广和补充, 即如何从已知知识合成粒度知识, 并能方便地从几个不同粒度世界去分析和观察同一个问题, 从而降低问题求解的复杂性。

3. 模糊粒度模型的建立方法

以高校学籍管理系统为例, 在学籍管理系统基础上建立数据库, 并利用高校学籍管理系统中的信息数据导出数据库中低粒度表;再导出数据仓库中的高粒度表;最后根据隶属度函数分析, 得出模糊粒度表;将高校学籍管理系统中的关系表中大量的数据进行分析、综合, 并且对导出的模糊粒度表进行分析、综合, 从而建立一个科学的数据仓库模糊粒度模型。

模型建立过程如下图所示:

注:该成绩表中有30条记录, 分别是该班级30名学生数据仓库这门课程的成绩。下面由数据库中的学生成绩表 (低粒度表) 导出对应的确定粒度表 (高粒度表) 。

注:按照上面学生成绩表中的学生成绩将其成绩划分成优、良、中、及、不及五个等级, 五个等级对应的成绩分布如上表中成绩分布所示, 其对应的人数如上表所示, 总人数30人。

下面由确定粒度表 (高粒度表) 导出模糊粒度表, 如下表所示:

注:上面模糊粒度表的人数比例是从我自己观点出发, 根据隶属度函数计算所得, 该人数分布成正态分布。考虑到管理层不同的管理人员或决策者出发点不同, 可能会出现不同的人数比例计算结果, 但是有一点肯定不会改变, 即就是他们计算得出的人数比例分布一定成正态分布, 并且他们大多数人计算出得人数比例基本相同, 出入不大。这就突出了模糊粒度模型在信息管理系统应用中有很大的弹性, 比较灵活, 有利于数据仓库联机分析处理更好地进行, 从而大大地减轻了管理人员的负担。尤其在Oracle数据库中, 由于数据信息量大, 记录条数比较多, 通常会出现数据繁杂, 信息爆炸现象。但是将模糊粒度模型应用到大型信息系统中去, 会有效地避免信息爆炸现象。

模糊粒度模型的建立过程:

Ⅰ用适当的数学方法对问题进行描述

在数据仓库模糊粒度模型的建立过程中, 引用概率论和统计学对信息管理系统中的信息数据进行计算、分析, 由于该模型是模糊的、不确定的, 因而使用隶属度函数对模糊粒度表中数据进行计算, 得出结果后检验其是否符合正态分布规律 (一般分布规律) 。

Ⅱ采用各种数学方法和计算机工具求解模型

本文在信息管理数据模糊粒度模型的基础上, 设立了辅助决策数学模型和相关指标临界值, 使系统自动报警, 充分发挥了决策作用, 同时也对模型进行了求解。

Ⅲ模型建立步骤和方法

本文在学籍管理系统的基础上, 由系统中的基本表导出确定粒度表, 进而得出模糊粒度表;利用隶属度函数对模糊粒度表中的信息数据进行计算、分析, 检验检验其是否符合正态分布规律, 再将各模糊粒度表进行分析、综合, 从而建立一个科学的数据仓库模糊粒度模型。

4. 应用和分析

在信息管理系统和智能辅助决策IDSS中, 根据粒度化历史数据变动情况和查询统计要求, 可使业务流程数据与决策信息形成有效流转, 在信息管理数据模糊粒度模型基础上, 设立辅助决策数学模型和相关指标临界值, 使系统自动报警, 充分发挥辅助决策作用。假设某粒度级因素项的数据量为X, 关联因素项数据量为Y, 数据挖掘分析结果项为Z, 那么建立辅助决策数学模型, 假若, X与Y的增长量分别为dx、dy, 就对应一个分析结果项变化量dz, 其关系为积分方程:

在上式中, 把指标临界值分别设为x=x0, y=y0, z=z0, 各粒度级因素项的数据量分别设为x1, x2, ……xn;各关联因素项数据量分别为y1, y2, ……yn;各数据挖掘所获得的分析结果项分别为z1, z2, ……zn。这些值, 有的情况是离散值, 但大多数情况是连续值或分段连续值, Z为积分曲线。

上面辅助决策数学模型是建立在模糊粒度模型的基础上, 它可以有效地自动对信息管理系统中的数据信息进行处理、衡量, 从而大大地减轻了管理人员和决策者的负担。

数据仓库模糊粒度模型应用到信息管理系统中, 它可以对现实中一些模糊的问题或者决策者难以驾驭的问题进行处理。由于实际应用中信息往往是不完全、不精确或不确定的, 有时很难对粒度粗细进行划分。在现实生活中, 比如天气情况“晴”、“多云”、“阴”等都很难有个“界限分明”的不相交的分类, 有时甚至连相交与否都说不清, 只能模糊地进行分类。从上述分析可知, 现在的数据仓库联机分析处理大多是基于静态、确定、有限、历史的数据仓库集进行研究的, 而对当今信息系统中数据信息的流动性、快读变化性、无限性和不确定性的特点, 目前的联机分析处理技术需要重新考虑、选择, 甚至再研发。而数据仓库模糊粒度模型完善了这一方面的缺陷, 使得数据仓库联机分析处理能够很好地对信息管理系统中的信息数据进行处理, 给决策者大大地提供了方便。

5. 结束语

本文提出数据仓库模糊粒度模型, 并将其应用于学籍管理系统。针对实际问题, 将数据仓库模糊粒度模型进行了推广和应用。首先提出了粒度的概念, 并介绍了粒度的等级划分, 阐述了粒度和等价关系之间的紧密联系, 将粒度合成技术在实际应用中进行了推广和补充, 引入确定粒度模型的概念, 在此基础上, 建立了数据仓库模糊粒度模型。将确定粒度模型与模糊粒度模型进行了比较, 充分体现了模糊粒度模型的实用性和优越性。

通过本文的讨论, 基于模糊粒度模型理论方法是采用概率统计方法研究粒度的计算方法, 那么它就可以有效地应用于信息管理系统中进行统计和分析, 既可以使得数据仓库联机分析处理更好的进行处理, 又可以大大地降低问题的复杂性, 从而减轻决策者和管理人员的负担。

参考文献

[1]W.H.Inmon, building The Data Warehouse Third Edition[M]John Wiley﹠sons, Inc.2002

[2]Zhang L.Zhang B.The Quotient Space Theory Of Problem Solving Fundemental Information.2003.59 (2-3) .287-298

[3]W.H.Inmon, building The Data Warehouse.Practice Hall, 1992

[4]W.H.Inmon, R.D.Hackathorn《Using The Data Warehouse》[M].John Wiley﹠sons.Inc, 1994

统计数据质量的模糊综合评价 篇7

随着科学技术的进步,统计在各领域中的地位越来越重要,统计数据质量的高低对于决策和我们的社会实践活动有着直接的影响。高质量的统计数据可以帮助我们做出更加科学的决策,有利于生产的发展和社会的进步,否则的话结果也是可想而知的。近来统计数据质量的评价已经成为人们关注的热点问题,也有了一些研究成果[1,2,3]。

客观世界中的许多问题都表现出一种界线不清晰的不确定性,这主要是人类的思维具有概括性、语言表达具有模糊性、逻辑具有一定的定性特点的缘故,人们在评价这类事物时,往往难以准确的描述它们,因而也就很难确定其特征。这种界线不清晰的不确定性就是所谓的模糊性,模糊不确定性现象不满足排中律,表现为模糊的亦此亦彼性,它们不能使用传统集合论和二值逻辑来描述,必须运用模糊集合理论加以研究才能奏效。另外,模糊技术模仿了人的思维和处理问题的方式,可以以较低的代价获得令人满意的结果,因而得到了越来越广泛的应用。不管是客观信息还是人为因素造成的模糊性,当它在评价问题中占有重要地位时,便构成了模糊综合评价问题。在统计数据质量的评价问题中,因为许多评价指标具有模糊性的特点,因此,运用模糊综合评价方法进行评价效果更为理想。目前。运用模糊综合评价方法评价统计数据质量的文献并不多见。

1 统计数据质量模糊综合评价模型

模糊综合评价可以用来对模糊信息进行全面和定量的评价,能够有效地提高判断的准确性和决策的科学性。要正确评价一个具体对象,首先要对其若干因素给出评语,然后再进行综合。为了表达上的简洁,我们仅介绍单因素模糊综合评价模型。模糊综合评价一般可归纳为以下几个步骤:

1.1 确定评价对象的因素集

因素就是评价对象的属性或指标,有些场合也成为参数指标或质量指标,它们综合反映出评价对象的质量,人们根据对象的因素对其进行评价。因素集可表示为

对于统计数据质量模糊综合评价问题,我们取X={及时性,统计数据的客观性,统计方法的科学性}。

1.2 确立权重集

由于对X中各因素有不同的测度,需要对每一个因素按其重要程度给出不同的权重,它可表示为X上的一个模糊子集,A={a1,a2,…,an},

其中ai={1,2,…,n}是因素xi对A的隶属度,通常规定

权重的确定在模糊综合评价中是至关重要的,因为权重集确定的恰当与否会直接影响到综合评价的最终结果。权重集的确定方法有很多种,诸如客观赋权法、主观赋权法、组合赋权法和交互式赋权法。下面介绍几种具体的常用方法。

(1)专家调查法

首先,请有关专家或具有丰富经验的相关人员若干个,请他们对因素集中各元素独立地给出自己认为最合适的权重向量

然后,对每个因素进行单因素统计,具体步骤是:

(1)对于因素xi(i=1,2,…,n),在其权重中找出最大值Mi和最小值mi,即

(2)选取适当的正整数k,有下述公式

计算出把权重分成k组的组距,并将权重由小到大分成k组。

(3)计算落在每组中权数的频数和频率。

(4)根据频数和频率的分布情况,确定第i个因素的权数ai,从而得到权重集。

(2)继承方法

对某种评价对象的个因素的权重,根据历史数据有某种方案,设为A1,对于目前的情况时间和空间上的改变可能会有新的权重分配方案A2,而A1是大量经验的积累,A2具有较现实的合理性,因此可以采用加权方式给出新的权重分配方案

其中,α可根据情况选取一个适当的数值。

(3)二元对比倒数法

对因素集中的各元素两两比较,根据它们对实现目标的贡献的大小从1到7赋值,如aij=7意味着因素xi比xj极端重要。令aji=1/aij,这样可得到对比矩阵A=(aij),对比矩阵的主对角元都是1。再用优势积累法,即求同一行元素之和,得到权向量,

再归一化即可得到所需要的权重集。

1.3 建立评价集

评价集是由对评价对象可能作出的评价结果所组成的集合,可表示为

对于统计数据质量模糊综合评价问题,我们取Y={质量高,良好,一般,差}。

模糊综合评价的目的就是通过对评价对象综合考虑所有影响因素,从评价集中获得一个最佳的评价结果。首先从单因素出发进行评价,确定评价对象对评价集中各元素的隶属度。

建立一个从X到Y的模糊映射,

由此可得到单因素评价矩阵

1.4 综合评价

因素集和权重集确定以后,按照模糊矩阵的乘法运算,可得到模糊综合评价集B,即B=A莓R.记B=(b1,b2,…,bm),它是Y上的一个模糊子集,其中

最后利用最大隶属度原则或加权平均等原则就可得到综合评价的结果。以上我们介绍的处理问题的一般原则,具体问题可结合具体情况与模糊数学理论采用不同的具体方法来处理,不可能说一种方法适用于所有的情况。譬如合成算子模型我们采用了取大取小模型,这种模型运算简单,但因丢失了不少信息,致使评价结果比较粗糙,该模型不适于因素太多或太少的情形。比较常用的合成算子如:M(•,∨),也就是,也就是,等等,这些合成算子各自都有各自的优势和劣势。具体应用那个模型可根据具体情况来定,也可以应用多个模型,作出多个结果在进行加权平均得到期望的结果。总之,具体应用时要根据具体情况选用适当的模糊技术,这样才能取得另人满意的效果。

2 算例分析

对于某统计数据质量的评价,我们给出权重集A=(0.2,0.5,0.3),评价矩阵采用专家评分方式给出:

那么

求出评价指标bj(j=1,2,…,m)后,一般根据最大隶属度原则,把与最大的评价指标相对应的评价集元素作为评价结果。当然,也可以根据具体情况应用加权平均法或模糊分布法来进行评价。我们本例的评价结果为该统计数据质量良好。

3 结论

本文利用模糊综合评价方法,给出了统计数据质量的评价体系和评价原则,各种评价指标可以根据具体情况的不同采用不同的模糊技术处理。较之确定性方法,运用模糊综合评价方法评价统计数据的质量,准确度更高,并且具有更为理想的可靠性。

参考文献

[1]谭洪章.统计数据质量问题研究[J].重庆工业管理学院学报,1998(3):49-52.

[2]陈健,王军.对提高统计数据质量的几点思考[J].淮阴工学院学报,2001(5):63-64.

[3]刘延年.如何评价统计数据的质量与可靠性[J].统计研究,2002(8):61-63.

[4]朱训生.工程管理的模糊分析[M].上海交通大学出版社,2004.

[5]王新利.模糊综合评价法在项目投资决策中的运用[J].财会月刊,2009(6):57-58.

模糊数据挖掘 篇8

在使用Power Builder (以下简称PB) 开发的MIS系统中, 一般都会使用数据窗口控件来提高开发效率。而模糊查询是现在MIS系统不可缺少的查询方式。

2 设计思路及原理

在PB中数据窗口显示的数据可通过修改其SQLSELECT语句来选择, 本文的查询方法即通过修改数据窗口的SELECT语句来实现。

实现原理如下:首先获取数据窗口的所有列名;然后在一个新窗口中设置查询的条件;最后修改数据窗口的SQLSELECT语句实现查询。

3 实现

条件:数据库及数据源已建立好 (本文采用ODBC数据源, 数据源名称为“test”, 数据库用SQLserver2000建立。数据库中建立三个表:test, 存放我们需查询的信息;columnname, 存放从数据窗口中获取的列名, 仅有一列, 列名为“列名”;selecttable, 形成设置查询条件的数据窗口, 有四列, 列名分别为“列名”, “操作符”, “值”, “逻辑运算符”, 本表不存放任何信息。

1) 新建一Application, 取名为:te s t。

2) 新建数据窗口d_te s t, 显示风格为Grid, 采用Quick Se le ct数据源, 选择表test的所有列建立数据窗口。

3) 新建数据窗口d_colnam e, 显示风格为Grid, 采用Quick Se le ct数据源, 选择表colum nnam e的所有列建立数据窗口。

4) 新建数据窗口d_s qls e le ct, 显示风格为Grid, 采用Quick Se le ct数据源, 选择表s e le cttable的所有列建立数据窗口。设置列的Edit Style Type如下:列“列名”为“DropDow nDW”, DataWindow为“d_colnam e”, Dis play Colum n和Data Colum n) 均为“列名”;列“操作符”为“DropDownListBox”, Code Table如图1所示;列“值”为“Edit”;列“逻辑运算符”为“DropDownListBox”, Code Table如图2所示

5) 新建一窗口, 取名为:w_m ain。

6) 在窗口w_m ain中创建一dataw indow control, 取名为:dw_te s t, DataObje ct属性设置为d_te s t;创建命令按钮控件cb_find和cb_e xit, 属性cb_find.te xt为“查找”, cb_e xit.te xt为“退出”。

7) 新建一窗口, 取名为:w_cxtj, 在窗口w_cxtj中创建一dataw indow control, 取名为:dw_s e le ct, DataObje ct属性设置为d_s qls e le ct;创建命令按钮控件cb_ok和cb_cance l, 属性cb_ok.te xt为“确定”, cb_cance l.te xt为“取消”。

8) 为窗口w_m ain的ope n事件编写代码如下:

dw_te s t.Se tTrans Obje ct (SQLCA)

dw_te s t.Re trie ve ()

9) 为cb_find的clicke d事件编写代码如下:

11) 为数据窗口控件dw_s e le ct的ite m change d事件编写代码如下:

12) 为cb_ok的clicke d事件编写代码如下:

4 结束语

本文的程序在PB8.0下调试通过, 在实现过程中表selectable可以不建, 而采用外部数据源建立数据窗口d_sqlselect。数据窗口d_te s t各列的Tab Orde r不能设置为“0”, 否则不能获取各列的列名。

参考文献

数据库模糊查询技术应用 篇9

1 模糊集合理论

1.1 模糊集合

所谓在论域U上的一个模糊子集A是指:∀u∈U,都有μA(u)∈[0,1]与之相对应,并且称为u属于模糊子集A的隶属度。即由映射:

确定论域U的一个模糊子集A。

μA(u)=1,表示u完全属于A;μA(u)=0,表示u完全不属于A;0<μA(u)<1,表示u隶属于A的程度。

设A为论域U上的模糊集合,∀α∈[0,1],Aα={u∈U|fA(u)≥α}⊆U,称模糊集合A的α截集,称α为置信度,即对于普通集合Aα有∀u∈U当A(u)≥α时,说明在α水平下u属于模糊集合A,记为u∈Aα,反之u∉Aα。

1.2 隶属函数

隶属函数是对模糊概念的定量描述,正确地确定隶属函数,是运用模糊集合理论解决实际问题的基础。隶属函数的确定过程允许存在一定的主观意识,可以根据实际统计数据特征从几种典型模糊分布曲线中选择最为贴近的一种作为隶属函数,经过实践效果的检验进行了调整,即通过“学习”进行修改和完善,以得到更为确实的隶属函数形式。典型的模糊分布有阶梯型、指数型、正态型、线型、幂函数型、正弦型等。

1.3 语言变量

1971年Zadeh提出模糊语义定量理论并定义了“语言变量”的概念,其算子的一般数学描述为:

L=(U,T,E,N)

其中:U是论域,即语言主体的全体;T是语言值的模糊集合;E是构成语言的所有字母和符号序列的集合;N是E对U的模糊关系。对于T中值x的语义是U上的模糊子集M(x),则U中的元素y对M(x)的隶属度可表示为:μM(x)(y)=μN(x,y)。例如:设论域U=[1,100]是学生成绩集合,T为成绩的模糊集合,E={优秀,良好,中等,一般,较差}。

1.4 语气算子

在模糊理论中将自然语言中的如“比较”、“非常”、“稍微”等词看作是一种算子,称为语气算子Hλ,从程度上来限制模糊语义,在不同等级上改变模糊语义的隶属度,如模糊语义“高”可表示为“非常高”、“比较高”,“有点高”等。语气算子是一个变换,即:HλA(x)=A(x)λ,当λ>1时称Hλ为集中化算子,λ<1时称Hλ为散漫化算子,一般将H4代表“极”,H2代表“很”,H1.25表示“相当”,H0.75代表“比较”,H0.5代表“有点”,H0.25代表“稍微有点”。

1.5 模糊化算子

自然语言中常将“大约”、“近乎”、“差不多”等具有模糊意义的词放在一个精确词或语言变量之前,表示一个模糊的范围,如“某学生计算机成绩大约80分左右”,称为F化算子。可实现对精确语义的模糊化和模糊语义的模糊化。其中对于模糊语义的模糊化算子的一般形式可表示为:

对∀x∈U,

其中A是模糊集合,μA(y)是y对A的隶属度,E是U上的相似模糊关系,相似函数μE(x,y)表示为:

式中δ>0为参数。

2 模糊SQL

SQL(Structured Query Language)作为现在大多数系统都支持的语言,已经成为标准的数据库语言。而关系数据库也是使用最为广泛数据库形式,那么针对关系数据库使用SQL并对其进行模糊扩展也就具有重要意义。对数据库查询进行模糊扩展,模糊SQL一般形式可以表示为:

其中T是一个精确或模糊关系;Ci表示T上的属性;fc是一个模糊条件,可以包含模糊关系运算符(如“约等于≈”、“远远大于>>”等)、模糊谓词(is)及连接词(AND、OR);α∈[0,1]称为阈值,由于查询条件是模糊的,因此查询结果也是一个模糊集合,集合中每个结果对于查询条件fc的满足程度即匹配度不同,设置阈值α的作用是使查询结果中匹配度大于α的记录作为结果输出。

2.1 简单模糊查询

例1:存在一个学生关系(student)如表1。

在表1中查找“计算机成绩较好的学生”,模糊SQL可表示为:

SELECT姓名,计算机

FROM student

WHERE计算机is good

WITH 0.5

对于关系上的元组,计算属性“计算机”关于“”的匹配度,隶属函数可表示为:

计算关系student中每个元组的“计算机”属性值关于模糊条件对应隶属函数的匹配度见表2。

最后根据阈值α得到结果集合中匹配度大于等于0.5的有第2、3、7、8四个元组。

2.2 复合条件模糊查询

查询条件中可以使用AND、OR等连接词交多个查询条件组合形成复合查询条件,如在学生关系中“查找英语成绩较差但总分较高的学生”,模糊SQL表示为:

SELECT姓名,英语,总分

FROM student

WHERE英语is fail and总分is good

复合查询条件中涉及关系中的多个属性,这时就需要分别计算每个元组的相应属性值针对模糊条件的匹配度,进而计算综合匹配度,当连接词分别为AND和OR时综合匹配度的计算方法为:

其中mi表示元组R的第i个属性值对于模糊项隶属函数的匹配度。

2.3 模糊查询转换为精确查询

上述简单模糊查询和复合模糊查询在对关系数据库进行操作时需要对表中所有记录进行计算,表中记录多时会影响查询效率,为减少计算量可以在查询前将模糊条件转换为精确条件,将大大提高查询效率。将模糊条件转换为精确条件可以使用隶属函数及α截集求得模糊条件中属性值的区间,那么精确查询条件也就得到。如例1“计算机成绩较好的学生”中的“较好”可根据隶属函数和α求得其对应值区间为,则模糊查询可转化为:

SELECT姓名,计算机

FROM student

WHERE计算机BETWEEN 75 AND 95

在关系student中查询结果为2、3、7、8四个元组,同例1结果相同,接下来对四个元组计算匹配度,得到最终结果,结果仍与例1相同,但效率却比例1要高。

3 结束语

在数据库模糊查询中,将自然语言中模糊概念与数据库中的精确概念建立了联系,从而使查询语言得到了扩展,本文针对这一理论介绍了简单模糊查询及复合模糊查询的处理方法并做了验证,同时介绍了模糊查询转换为精确查询的方法。以上查询方法还可以扩展到多表查询、子查询等,而关系中的属性值的隶属函数和模糊中的阈值也可根据实际需要进行调整。

摘要:该文介绍了模糊集合理论相关知识及其在关系数据库查询中的应用,针对SQL语言的SELECT语句进行了模糊扩展。分析了简单模糊查询、复合模糊查询、将模糊查询转换为精确查询的方法并通过实例进行了验证。

关键词:关系数据库,模糊查询,隶属函数,阈值,匹配度

参考文献

[1]陈逸菲.基于模糊理论的关系数据库查询技术研究[D].南京:南京信息工程大学,2005.

[2]杨纶标,高英仪.模糊数学原理及应用[M].广州:华南理工大学出版社,2004.

[3]申玉静,周爱华.基于模糊数据库的数据查询设计[J].北京:计算机教育,2007(12):126-128.

上一篇:图书馆与素质教育下一篇:完全离断伤