粗糙集评价

2025-01-02

粗糙集评价(通用12篇)

粗糙集评价 篇1

1 前言

粗糙集(Rough sets)理论是一种处理模糊、不精确的分类问题的新型数学工具。粗糙集理论已成为当前数据挖掘的主要方法之一,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

CRM(客户关系管理[1])是对企业与客户关系的管理,其核心是最大化客户价值[2,3,4,5],即进行客户价值评价,找到最有价值的客户,使企业以最小投入获得最大回报。

本文基于粗糙集[6]理论,得出了一个实用全面的客户价值评价模型并给出了实例应用,为企业决策提供支持。

2 粗糙集理论概述[7,8]

定义1一个四元组S=<U,A,V,f>。称为一个信息系统;其中U为论域,A为属性集,V=UVα,且Vα是属性α的值域,f为信息函数,且有f:U×A→V使得对于Vx∈U,α∈A有f(x,α)∈Vα.

定义2称关系IND(R)是U上关于属性集R⊂A的等价关系,如果

一般把IND(R)仍记作R。信息系统S中所有关于等价关系R的等价类族表示为U/R,其中的一个等价类为Y∈U/R。

定义3称

是X的R下近似集。称

是X的R上近似集。称

是关于R的粗糙集。

其中X⊆U,R为U上的等价关系。

定义4信息系统S=(U,A,V,f),P,Q⊂A为U中的等价关系,称posQ(P)是P相对于分类Q的正域,简称相对正域,而且

P的Q正域是U中根据分类U/Q的信息可以准确地划分到关系P的等价类中去的对象的集合。

定义5设S=(U,A,V,f)是一个信息系统,并置A={α1,α2,…,αm},用M(S)表示n×n阶矩阵(cij),称M(S)是S的分明矩阵,而且

定义6设R是一等价关系族,r∈R,如果IND(R)=IND(R-{r}),则称r在R中是可被约去的知识;如果P=R-{r}是独立的,则P是R的一个约简。

定义7 R中所有不可约去的关系称为核,由它构成的集合称为R的核集,记作core(R)。

粗糙集理论以上述概念为基础,给出了对知识(或数据)的约简和求核的方法,提供了从决策表中抽取规则的能力。

3 应用实例

在整个客户生命周期上管理客户价值是CRM的基本思想,因此,企业在评价客户有价值与否时不仅要参照该客户当前的价值表现更重要的是依据其对该客户未来潜在价值的预测判断。[9]企业必须从这两个方面全面地评价客户,才能客观公正地评判客户对于企业的价值。因此,提出企业客户价值评价体系如图1所示。

根据客户价值评价问题的特点和粗糙集理论处理问题的思路,得出基于粗糙集的客户价值评价模型如下:

(1)将得到的专家关于客户价值的评价数据(学习用数据)进行离散化处理(注意:这里只考虑完备的决策表);

(2)在决策表(信息表)中将信息相同(即具有相同描述)的对象及其信息删除只留其中一个得到压缩后的信息表,即删除多余事例;

(3)删除多余的属性;

(4)对每一个对象及其信息中将多余的属性值删除;

(5)求出最小约简;

(6)根据最小约简,求出逻辑规则;

(7)将求出的逻辑规则作为评价规则,应用于新的客户价值的评价。

其中核心算法为约简的求取和决策规则的最小化,下面给出利用分明矩阵求取约简的过程和规则最小化的过程。

算法1最小规则集合的求法

Step1计算系统S的分明矩阵M(S);

Step2计算与分明矩阵相关的分明函数fM(s);

Step3计算分明函数fM(s)的最小析取范式,利用它给出所有的约简。

Step4考查属性值。当一个属性值被约去后,如果决策规则仍旧保持一致,则该属性值就是非核值,依次去掉非核值;

Step5从得到的规则集中消去过剩的决策规则。

基于上述算法,我们给出一个实例来说明应用上述步骤进行客户价值评价的过程。为了说明的方便,我们对实际数据进行了简化处理,具体做法如下:

(1)图1给出的评价指标体系是在实际问题基础上的简化,只选取实际中对于客户价值影响相对较大的若干指标进行考查。这不影响对于上述模型的说明。

(2)每个指标(条件属性)的取值,为了简便,我们进行离散化时只取0和1,分别代表该指标的两个等级:“低”和“高”。评价结果(决策属性)的取值也只取0和1,分别代表两个评价等级:“低”和“高”。

(3)选取指标:单位利润,生命周期,购买总量,总服务成本,客户忠诚度,客户信用,创新推动力,口碑传播能力,赢利能力,维持价值,交叉销售可能性,社会价值。通过专家评价,得到关于这12个评价指标的10组数据,进行离散化处理后得到如下决策表1。

将表1中的数据,利用上面给出的评价模型以及算法1,经过属性约简和规则的最小化,可以得到最小规则集,其中CD表示规则的可信度,SD表示规则的支持度。如表2所示:

对表2中的规则解释如下:

(1)如果客户的单位产品利润低,则该客户为低价值客户。

(2)如果客户的单位产品利润高,总服务成本低,则该客户为高价值客户。

(3)如果客户的单位产品利润高,总服务成本高,购买总量低,则该客户为低价值客户。

(4)如果客户的单位产品利润高,总服务成本高,购买总量高,客户信用度低,则该客户为低价值客户。

(5)如果客户的单位产品利润高,总服务成本高,购买总量高,客户信用度高,则该客户为低价值客户。

上述规则可以存入知识库,作为评价规则。进行评价时,可以将新客户各个指标情况与上述规则进行匹配,判断客户是高价值客户还是低价值客户。上述决策规则同时还指明了,影响客户价值最重要的指标主要是利润,总服务成本,购买总量以及客户的信用,这对于我们日常的决策判断也是一个有益的启示。

4 结束语

粗糙集理论作为数据挖掘的一种方法,不仅具有良好的数学基础和性质,而且恰好反映了人们用不完全信息或知识去处理一些不分明现象的能力。本文提出了一种基于粗糙集理论的客户价值综合评价方法,实证研究表明,该模型的有效性和实用性。

参考文献

[1]杰姆·G.巴诺斯著,刘祥亚等译,客户关系管理成功奥秘[M].机械工业出版社.2002.

[2]张大亮,马英俊,客户价值构成及其影响因素的实证研究[J].管理工程学报.2006,20(4):42-45.

[3]熊本峰,关于顾客价值理论的述评与思考[J].重庆工商大学学报(社科版).2003,20 (3):57-59.

[4]董大海,权小妍,曲晓飞,顾客价值及其构成[J].大连理工大学学报(社科版).1999,20(4):18-20.

[5]马辉民,尹汉斌,肖威,客户潜在价值预测模型与细分研究[J].工业工程与管理.2003.(2).25-29.

[6]Z.Pawlak.Rough Sets[J].International Journal of Computer and Information Science. 1982,11(5):341-356.

[7]王国胤,Rough集理论与知识获取[M].西安交通大学出版社.2001.

[8]曾黄麟,粗集理论及其应用—关于数据推理的新方法[M].重庆大学出版社.1996.

[9]邵春燕,基于AHP的客户价值评价[J].价值工程,2008,(2):53-56.

粗糙集评价 篇2

属性约简是Rough Set理论研究中的核心内容之一,现已经证明寻找决策表的最小约简是NP-hard问题.为了快速有效地得到最小约简,本文利用决策表的`一些特点提出了一种完备算法,并给出了该算法的复杂度,最后通过实例分析表明,在多数情况下该算法能够得到决策表的最小约简.

作 者:梁福才 林成龙 LIANG Fu-cai LIN Cheng-long  作者单位:国防科学技术大学电子科学与工程学院,长沙,410073 刊 名:电光与控制  ISTIC PKU英文刊名:ELECTRONICS OPTICS & CONTROL 年,卷(期):2007 14(2) 分类号:V271.4 TP18 关键词:粗糙集   属性约简   可辨识矩阵   算法复杂性  

粗糙集评价 篇3

【摘要】 应用粗糙集与决策树相结合的数据挖掘方法评价吉林省某地的土壤地力等级。研究数据共有161条记录,16个属性,使用粗糙集对土壤属性进行约简,去除了5个土壤冗余属性,得到属性约简集;使用决策树方法对土壤数据建立决策树模型,得到了土壤评价的决策树模型,并提取了分类规则。实验表明:将粗糙理论与决策树相结合的数据挖掘方法能去除冗余属性,同时保留了原始数据的内部特点,相对于单一使用决策树方法,决策树规模减小,规则集较精简,提高了分类的效率。

【关键词】 粗糙集 决策树 数据挖掘 土壤评价 地力等级

【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved.

【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade

引言

土壤评价的影响因素较为复杂,传统的土壤评价方法需要领域专家的参与,有一定的主观性,而且较少考虑土壤各属性间的依赖关系,较难表达土壤性质和环境变量间的非线性关系。从数据挖掘的角度来看,土壤评价实质上属于分类预测问题。决策树方法是一种较好的分类方法,适宜处理非线性数据和描述数据,建立的树型结构直观,具有生成速度快,能得到简单易懂的分类规则等优点。决策树在土壤等级评定方面也有了一些应用,但决策树方法不考虑土壤属性之间的潜在关系,当数据集中的属性过多时,用决策树分类易出现结构性差,难以发现一些本来可以找到的、有用的规则信息等情况。粗糙集理论在处理大数据量,消除冗余信息等方面具有一定的优势,因此广泛应用于数据预处理、属性约简等方面。鉴于粗糙集和决策树具有很强的优势互补性,本文采用粗糙集与决策树相结合的方法评价土壤地力等级,即采用粗糙集方法对土地属性进行约减,得到低维训练数据,使用决策树方法构建决策树,产生分类规则集,形成评价地力等级的新方法。

1.数据挖掘方法设计

1.1粗糙集理论

粗糙集(Rough Set,RS)理论是新的处理模糊和不确定性知识的数学工具,其特点是不需要预先给定某些特征和属性的数量描述,而是直接从给定问题的描述出发,找出该问题的内在规律,其基本思想更接近现实情况。

粗糙集的基本思想是:称S=(U,A,{Va},a)为知识表示系统,其中,U为非空有限集,称为论域;A为非空有限集,称属性集合;Va为属性a∈A的值域;a:U→Va为一单映射。如果A由条件属性集合C和结论属性集合D组成,C,D满足C∪D=A,C∩D=Φ,则称S为决策系统。在一个决策系统中,各个条件属性之间往往存在着某些程度上的依赖或关联,约简可以理解为在不丢失信息的前提下,以最简单地描述表示决策系统的结论属性对条件属性的集合的依赖和关联。

可以利用C相对于D的任一约简来代替C,而不会对决策有任何影响,这就是粗糙集属性约简的原理。

1.2 决策树方法

决策树主要应用于对事物进行分类、预测以及数据的预处理等。构造决策树通常包括两个步骤:利用训练集生成决策树,再对决策树进行剪枝。决策树的生成是从一个根节点开始,从上到下的递归过程,通过不断的将样本分割成子集来构造决策树。

得到了完全生长的初始决策树后,为了除去噪声数据和孤立点引起的分枝异常,需要对决策树进行剪枝。决策树的剪枝通常是用叶结点代替一个或多个子树,然后选择出现概率最高的类作为该结点的类别。

1.3基于粗糙集的决策树模型

基于粗糙集和决策树结合的数据挖掘算法过程描述如下:不断地从条件属性C中取出相对于决策属性D较为重要的属性,使得决策属性D对其依赖度等于D对C的依赖度,得到属性约简集。然后,利用信息增益作为启发信息,选择能够最好地将样本分类的属性,创建一个分枝,并据此划分训练集,直到不存在可以再分割的属性,之后使用测试集对构建的决策树模型进行验证修正。

2.实验及结果分析

本文引用粗糙集理论和决策树方法,研究新的土壤评价方法,目的是对吉林省某地土壤等级进行分类预测,确定土壤的地力等级。该地地力等级划分为1,2,3,4,5,6共6个等级。研究数据包含15个条件属性和一个决策属性,共161条记录。粗糙集属性约简算法要求数据为离散数据,根据土壤数据特点,采用Equal Frequency Binning算法对数据进行离散化处理。将土壤数据的图上面积(m2) 、平差面积(mu)、 有机质、全氮、速效磷、速效钾、缓效钾、有效锌、有效硼、有效铜、有效铁、有效锰、有效钼、PH值、代换量15个属性作为条件属性输入粗糙集算法,形成条件属性集C,将地力等级作为决策属性D。使用粗糙集约简算法约简属性集C,得到约简属性集。得到的约简属性为有机质、全氮、速效磷、缓效钾、有效硼、有效铜、有效铁、有效锰、PH、代换量,共10个条件属性,共去除5个冗余属性。

利用粗糙集方法对条件属性进行约简之后,调入决策树程序,进行决策分类。在161条记录中,能正确分类的数据为137条,24条数据未正确分类,其中地力等级为1的数据共25条,全部正确分类,地力等级为2的数据18条,16条数据正确分类,地力等级为3的数据13条,10条数据正确分类,地力等级为4的数据63条,53条数据正确分类,地力等级为5的数据34条,29条数据正确分类,地力等级为6的数据8条,4条数据正确分类。

根据生成的决策树,可以提取出决策规则。提取出的部分决策规则如下:

if有机质 <= 2.964 and PH <= 6.5 and有效锰 <= 26.314 then 地力等级=3;

if有机质 <= 2.964 and PH <= 6.5 and有效锰> 26.314 then 地力等级=4;

if有机质 <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等级=3;

if有机质 <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等级=2;

if有机质 >2.964 and缓效钾 <= 713.31 then 地力等级=2;

if有机质 >2.964 and缓效钾 > 713.31 then 地力等级=1;

使用44条记录数据对得到的决策模型验证,正确率为85.3 %,模型预测结果较好。地力等级较低时,预测准确率较高,对于高地力等级的预测,还需进一步修正数据集和模型。

3.结语

数据挖掘中决策树方法适用于分类预测,在地力等级评价中已有应用。但是这种方法还有冗余属性存在,构造的树的规模较大,提取的规则较多。

本文提出了一种基于粗糙集和决策树结合的评价土壤等级的方法。先使用粗糙集进行属性约简,之后使用决策树进行土壤分类,得到评价规则进行地力等级评定,最后使用土壤数据进行算法验证。结果表明相对于单一使用决策树方法,使用粗糙集进行属性约简之后进行决策评价的方法,可以去除冗余属性,生产的决策树规模较小,提取的规则较少,分类精度较高,速度更快,提高了挖掘的效率。

从实验效果来看,模型评价的结果与实际情况基本符合,并且该模型可解释性较好,易于从中提取评价规则。运用决策树模型能够揭示该地区耕地质量状况,有利于提高对该区耕地的利用效益。该方法是土壤评价的有效方法。

【参考文献】

[1]黄健, 李会民, 张惠琳, 马兵, 孙宇新, 张国恩, 朱健菲. 基于GIS的吉林省县级耕地地力评价与评价指标体系的研究——以九台市为例[J]. 土壤通报, 2007,(03):422—426.

[2]薛正平,邓 华,杨星卫,等.基于决策树和图层叠置的精准农业产量图分析方法[J].农业工程学报,2006,22(8):140—144.

[3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95)

[4]王玉珍.基于数据挖掘的决策树方法分析[J].电脑开发与应用,2007(05):64—66.

[5]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004 (06):48—51.

[6]范洁,杨岳湘,温璞.C4.5算法在在线学习行为评估系统中的应用[J].计算机工程与设计,2006,27(6):946—948.

[7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320.

马丽(1980—),女,吉林长春人,助教。研究方向:计算机农业应用。

粗糙集评价 篇4

农村信用社开展小额农贷业务实践以来, 经过不断地完善和探索, 这项金融产品在有效解决农民贷款难, 支持“三农”经济发展, 提高农村信用社经营效益中发挥了不可替代的作用。然而, 近年来, 随着小额农贷在国内的推广, 其风险管理问题也一直是国内金融界关注的焦点。农村信用社作为国民经济的重要组成部分, 发挥着融通资金和调节社会供需平衡等诸多不可替代的作用。然而, 农村信用社在营运过程中无时无刻不面临着各种金融风险, 其中信贷风险占有特殊的重要地位。世界银行对全球银行业危机的研究表明, 导致银行破产的最常见原因就是信贷风险。

信贷风险是指信贷资金安全系数的不确定性, 表现为借款人由于种种原因, 不愿或无力偿还银行贷款本息, 使贷款无法收回, 形成呆帐损失的可能性。信用风险是金融机构信贷风险管理中一项基础性的工作, 其目的在于分析金融机构在贷款业务中可能面临的信用风险——借款人如期履行特定债务的能力与意愿, 从而为贷款决策提供依据。因此, 近年来国际国内金融界对信用风险的关注日益加强。农村信用社信贷风险管理中一项的重要内容就是对信贷风险进行量化和评估, 是在确认农村信用社信用风险来源的基础上对其可能给其经营造成影响程度及结果进行评估和测定。

本文运用粗糙集理论, 直接从农村信用社小额农贷的信贷历史数据进行分析, 从中获取一些信贷风险评估的规则性知识, 力图为金融风险管理部门建立合理的评估体系提供理论指导, 为农村信用社的信贷决策提供依据。

2 粗糙集理论

Z.Pawlak于1982年提出的模型, 它是基于不可分辨性的思想和知识简化的方法, 在保持分类能力不变的情况下, 通过知识约简, 从数据中推理逻辑规则作为知识系统的模型。RS能有效地分析和处理不精确、不完整等各种定性、定量或者混合性的不完备信息, 从中发现隐含的知识, 揭示潜在的规律。

2.1 信息系统

信息系统被定义为如下的四元组:

S= (U, A, V, f) , 其中, U是对象的非空有限集合, U={x1, x2, …, xn};A是属性的非空有下限集合, A={a1, a2, …, an};undefined是属性的值域集, Va是属性a∈A的值域。

f是信息函数, f:U×A→V, f (x1, a) , f (x1, a) ∈Aa。

如果A=C∪D, C∩D=ϕ, C表示条件属性集, D表示决策属性集, 则该类信息系统称为决策系统, 决策系统是一类最为常见的信息系统。

2.2 数据离散化

基于粗糙集的算法对数据的要求之一就是属性必须是离散值。然而, 在实际的应用领域, 相当多的数据是连续的, 因此要对数据进行离散化预处理。

设S= (U, A∪{d}) 是一个决策表, 论域U={x1, x2, …, xn}是有限的对象集合, A={a1, a2, …, an}为条件属性的集合, d为决策表的决策属性, Va是属性的值域, Vd={1, …, r (d) }, r (d) 为决策类属性的个数。任意的 (a, c) , 其中, a∈A, c∈R (R为实数集) , c被叫做a上的一个断点。对于a∈A, 在Va=[la, ra]⊂R上的任意一个断点集合 (a, cundefined) , (a, cundefined) , …, (a, cundefined) 定义了Va上的一个分类Pa:

pa={[cundefined, cundefined], [cundefined, cundefined], …, [cundefined, cundefined]}

la=cundefined

va=[cundefined, cundefined]∪[cundefined, cundefined]∪…∪[cundefined, cundefined]

因此, 任意的p=∪pa定义了一个新的决策表:

Sp= (U, Ap∪{d}) , Ap={dp:dp (x) =i⇔a (x) ≈∈[cundefined, cundefined]} (3-3)

对于x∈U, i∈{0, …, kn}。即经过离散化之后, 原来的决策系统被一个新的决策系统所代替。

离散化本质上可归结为利用选取的断点来对条件属性构成的空间进行划分的问题, 把这个n (n为条件属性个数) 维空间划分成有限个区域, 使得每个区域中的对象的决策值相同。

2.3 属性约简

在一个决策系统中, 各个条件属性之间往往存在着某些程度上的依赖或关联, 约简可以理解为在不影响分类的前提下, 最简单地表示决策系统决策属性的条件属性集合。利用粗糙集理论从信息表中抽取规则的过程就是对决策表求取约简的过程。一个决策表可以有多个约简, 它们实际上包含了原系统所有有效信息。对于信息系统S= (U, A) , 任何最小集B∈A且IND (A) =IND (B) 定义为信息系统的一个约简。通过约简, 可以使条件属性和决策规则都得到简化, 可以更加高效的利用数据。

3 评价分析

3.1 信贷数据的获取和指标体系的构建

本文的数据来源于某地级市的一个信用联社。在采集数据时, 注重样本自身的行业特征, 不同行业的企业经营环境和业务范围不同, 企业的各项财务指标和非财务指标也不具有可比性。因此, 实例分析中选用同一行业、短期贷款的样本数据。由于取得的样本数据容量较大, 因此, 先进行异常数据剔除, 最终获得10个样本数据。

在综合考虑信贷风险的各影响要素和兼顾我国信贷风险的特殊性和相关数据的可获取性条件下, 最终确定了初选15个的评价指标体系评估农村信用社信贷风险, 指标体系为:流动比率、速动比率、超速动比率、营运资金/总资产、资产负债率、净资产收益率、资产收益率、销售净利率、销售收入/总资产、成本费用利润率、存货周转率、应收账款周转率、总资产周转率、流动资产周转率、固定资产周转率。信贷评估指标体系如图1所示。

3.2 数据预处理

根据以往的经验, 在进行评价之前, 须先对样本数据进行归一化处理, 将其转换为区间[0, 1]之间的数据。数据归一化的具体方法是: (1) 对于正指标, 选用公式1直接进行归一化处理; (2) 对于适度指标, 首先根据所选产品相应指标的平均值作为适度标准α, 然后利用公式2将适度指标转换为正指标, 最后利用公式1对其进行归一化处理; (3) 对于逆指标, 利用公式3进行归一化。处理后的结果见表1。

undefined公式1

undefined公式2

undefined公式3

3.3 数据离散化

使用粗糙集进行指标约简必须将连续性的财务数据离散化处理, 本文利用spss统计软件样品聚类分析 (Cluster) 对15个指标进行聚类, 并根据每个指标的不同特性进行适当的定性调整。在聚类过程中对一些极端异常的数据按就近归类的原则进行处理。根据已通过聚类完成并离散化的指标数据建立决策表。然后利用由挪威科技大学和波兰华沙大学合作开发的Rosetta软件进行属性约简。先对原始数据进行多个约简求取, 再将多个约减表中相应规则合成一个包含多个约减信息的混合策略规则作为诊断规则。本文将每个条件属性取3个离散值0, 1, 2, 其含义分别为0-小;1-适中;2-大。离散化结果见表2。

3.4 决策表约简结果

利用粗糙集方法进行约简分析, 结果见表3。

从简化决策表3, 可以得出几个结论: (1) 从表3可以看出, 最终有8个指标剩余, 这8个指标体现了小额农贷风险评估的主要因素; (2) 偿债能力和盈利能力基本上成了决定贷款风险大小的重要指标; (3) 在最终的规则中, 营运能力因子作用较小, 因此经常被忽略掉。

4 结束语

笔者将粗糙集理论应用于农村信用社信贷风险评估中, 得出了一些结论, 对金融风险管理部门的信用风险管理和贷款决策是有所帮助的;另外, 运用粗糙集的知识约简功能能够找到可以有效的信息, 当然对于运用粗糙集时, 还需要注意规则的冲突消解问题。

摘要:随着小额农贷在国内的推广, 其信贷风险的管理受到广泛关注, 信贷风险的评估更是成为研究的焦点。本文运用粗糙集理论, 从信贷的数据出发, 对信贷风险进行评价研究。研究的目的是找出蕴涵在历史数据背后的规律, 力图为金融风险管理部门建立合理的评估体系提供理论指导, 为小额农贷的信贷决策提供依据。

粗糙集评价 篇5

粗糙集理论在信息融合技术中的应用研究

宋洪军

二炮工程大学士官学院,山东 青州 262500

摘 要 通过分析粗糙集理论与信息融合技术之间的关系,得出了粗糙集理论和信息融合作为两种推理过程,在建立对象模型(模式)和利用模型(模式)来甄别对象方面可以起到互补的作用。

关键词 粗糙集理论 信息融合 故障诊断

中图分类号:TP202 文献标识码:A 文章编号:1002-766114-0005-01

一、信息融合技术在故障诊断中存在的问题

融合算法是数据融合实现的基础工具。目前数据融合算法的研究都针对性很强,普遍的做法是针对问题本身进行相应的算法研究,或者单纯的从其它相关领域的研究结果进行移植或者变换,融合算法的分类也很不清晰,而且相互交织。随着多传感器应用领域的不断扩展,信息融合技术也遇到了一些新问题、新特点。这些特点在故障诊断应用中尤为突出。

(1)很多现存的信息融合诊断方法需要了解对象的一些先验知识。比如目标出现的先验概率,目标模型、对象的统计信息等等,但在现实情况中,我们对对象的先验知识并不了解太多,这就给我们的研究造成了一定的困难。

(2)信息融合的范围扩大了。融合信息包括不同领域的数据,如可能有逻辑值、数值等等,甚至是专家的知识。这些也给我们的进一步研究带来挑战。

(3)待融合数据往往是不准确或者不完整的。例如由于干扰、传感器精度等客观原因,收集到的信息可能包括不相容甚至矛盾的数据。

二、粗糙集理论与信息融合技术的关系分析

在处理不确定信息时,粗糙集理论通过上、下近似集的定义,通过等价关系可以给出确定的数学描述。粗糙集理论对不确定数据分析、推理,发现数据间的关系、提取有用特征,简化信息处理,研究不精确、不确定知识的表达、学习、归纳方法提供了一个有力的工具。它能通过已有的信息本身构造决策规则,不需要提供先验的知识加以选择和提取。因此,已有学者将该理论应用到数据挖掘、信道噪声抑制、态势评估、信息融合等领域中,取得了较好的效果。下面我们从几个方面谈谈它们之间的关系。

(1)知识的输入:粗糙集理论的输入是任何关于对象的.真实数据,信息融合的输入是来自多个传感器或者数据源的数据。

(2)粗糙集理论和信息融合是两种产生知识的过程,即从原始数据中发现和总结知识,是归纳的过程;信息融合是利用已有的知识、经验来处理未知世界得到的不同领域的数据,是个演绎的过程。

(3)知识获取的目的:粗糙集知识获取的目的是发现模式以及发现代表未知模式的新对象和实例;信息融合知识获取的目的是对符合某一模式的单独对象或实例做出甄别,或者从大量数据中对已知的对象或实例的类别、状态做出判别。

(4)知识的输出:粗糙集输出的是描述对象或实例关系或行为的模型;信息融合的输出是利用模型对实例做出的分类和判断。

由以上论述可以看出,粗糙集理论和信息融合作为两种推理过程,在建立对象模型(模式)和利用模型(模式)来甄别对象方面可以起到互补的作用,粗集理论可以利用信息融合收集到的数据进行分析,不需专门的实验过程,可以和信息融合很自然的结合在一起。

三、基于粗糙集理论的故障融合诊断框架

从粗糙集理论与信息融合的关系可以看出,将粗糙集理论应用到故障融合诊断中,不仅可以克服信息融合中存在的一些问题,而且可以较好地弥补当前技术在信息融合应用中的缺陷。如图描述了故障诊断中基于粗糙集的融合诊断过程。

参考文献:

[1]张文修,吴伟志,梁吉业,李德玉。粗糙集理论与方法[M].北京:科学出版社,.

粗糙集评价 篇6

关键词 相似矩阵;模糊集;最优方案

中图分类号 O159 文献标识码 A

The Optimal Algorithm of Library to Selection Books

Based on Rough Set and Fuzzy Set

ZHAO Liping1,LIU Wenjun2

(1.Changsha University of Science and Technology Library, Changsha,Hunan 410076,China;2.Department of Mathematics

and Computing Science, Changsha University of Science and Technology, Changsha,Hunan 410076,China)

Abstract Combining rough set and fuzzy set theory, an optimal decision algorithm of library to select books was put forward. During this algorithm, firstly, we constructed the similarity matrix from the original information system; secondly, we classified all the programs according to fuzzy clustering; thirdly, an algorithm to choose the optimal program was put forward according to the minimum distance of weighted relative deviation.

Key words Rough set; fuzzy set; optimal program.

1 引 言

图书馆是社会公众文化领域的主阵地,是社会知识信息的存储、咨询中心,也是弘扬社会主义精神文明主旋律的重要载体.随着科技的发展,图书馆不仅在数量上需要增加,而且图书种类也须向多样化发展,图书馆的价值不再仅仅以其所拥有的馆藏图书的数量来衡量,而是以它为用户提供各种形式的信息的能力和质量来衡量.在这种新形式下,图书馆在选书决策时,如何利用目前有限的人力、经费资源,而又使所做决策符合读者阅读或参考,从而为广大读者提供高质量的服务,是目前图书工作者需要认真研究和解决的一个重要课题.

在实际过程中,由于影响购书决策的因素很多,且大多数具有模糊性与不确定性,所以在处理这类问题时,可以结合不确定性理论.本文就是基于这种想法,结合粗糙集与模糊集这两种不确定性理论,给出一种图书馆最优选书算法.

2 粗糙集相关知识简介

粗糙集理论[1]是由波兰学者Z.Pawlak在1982年提出的一种处理含糊和不确性问题的新型数学工具.经过20多年的发展,该理论已渗透到人工智能的各个分支,在机器学习、决策分析、过程控制、模式识别与数据挖掘等领域取得了成功的应用[2-6].该理论的一个最大优点是它无须提供问题所需处理的数据集合之外的任何先验信息, 能客观有效地分析和处理不精确、不确定与不完全数据,并从中发现隐含的知识,揭示潜在的规律.

为了处理智能数据,粗糙集理论将知识进行符号化,将所要研究的数据用一个信息系统的形式给出,信息系统的基本成分是研究对象的集合,关于这些对象的知识是通过指定对象的基本特征(属性)和它们的特征值(属性值)来描述.信息系统的数据以关系表的形式表示,关系表的行对应要研究的对象,列对应对象的属性,对象的信息是通过指定对象的各属性值来表达.

3 聚类分析

对数据进行模糊聚类分析,一般有数据规格化、建立模糊相似矩阵、聚类三大步.

第一步:数据规格化

在实际应用中,不同的数据可能有不同的量纲和数量级,故在运算过程中可能突出某数量级特别大的特性指标对分类的作用,而降低甚至排除了某些数量级很小的我一指标的作用,致使对各特性指标的分类 缺乏一个统一的尺度,为了清除特性指标单位的差别和特性指标数量级不同的影响,必须对各指标值施行数据规格化的处理,从而使每一个指标值统一于某种共同的数值特性范围.

设U={u1,u2,…,un}为被分类的对象,每个对象有m个指标描述,即对第i个对象有ui={xi1,xi2,…,xim} (i=1,2, …,n), 则对应的数据信息见表1:

6 小 结

随着科学技术的发展,社会对人才的要求最来越高,而图书馆的建设与发展是提高人们素质的一个重要基础.在新形势下,各图书馆如何针对自身的特色,选择适合读者研究需要和阅读参考的图书,是图书馆面临的一项重要任务.本文结合模糊集与粗糙集理论,对拟选图书根据给定的条件进行计算分析,为馆员提供最佳选择方案,从而让馆员在有限精力的条件下选择确定合适图书.节省了馆员的时间,同时也可以使做出的购书决策更全面地符合实际需要.

参考文献

[1] Z PAWLAK. Rough set:theoretical aspects of reasoning about data[M]. Dordrecht:Kluwer Academic Publishers,1991.

[2] Y Y YAO, Y ZHAO. Attribute reduction in decision-theoretic rough set models[J]. Information Sciences, 2008,178(17): 3356-3373.

[3] 胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):91-100.

[4] 王国胤,张清化.不同知识粒度下粗糙集的不确定性研究[J].计算机学报,2008,31(9):1588-1598.

[5] 史忠植. 知识发现[M].2版.北京:清华大学出版社, 2011.

[6] 王国胤,姚一豫,于洪.粗糙集理论与应用研究综述[J]. 计算机学报,2009,32(7): 1229-1243.

[7] 张振良. 模糊集理论与方法[M].武汉: 武汉大学出版社, 2010.

[8] 梁保松, 曹殿立. 模糊数学及其应用[M]. 北京: 科学出版社, 2007.

粗糙集评价 篇7

随着国家对知识和人才的不断重视,科技奖励评价结果的科学性、公平性、客观性越来越受到人们的关注。科技成果作为衡量科技进步的重要标志之一,既是科技工作者劳动和智慧的结晶,也是国家创新进程和社会发展的重要体现。如何合理、科学、有效地评价科技成果,为指导科技奖励评价提供理论和方法依据,显得尤为重要。因此,构建全面合理的科技奖励评价指标体系并将科学评价理论、方法和技术运用到科技奖励评审工作中成为未来科技奖励研究的重点内容。

美国社会学家、结构功能主义的代表人物之一默顿首次提出科技奖励这一概念。之后,科技奖励在各国家得到了不同程度的完善和发展。我国有不少专家和学者在这方面做了诸多有价值的研究。在科技奖励评价指标体系的相关问题研究上,主要集中在科技奖励指标体系的构建、设计原则、结构划分及与国外科技奖励体系的异同,如钟书华等、尚宇红等、郭远峰等、徐安等[1,2,3,4]。在科技奖励评价的方法上,传统的科技奖励评价方法有德尔菲法、同行评议法、层次分析法、模糊综合评价法。由于传统的评价方法主观性强,容易受到专家个人的情感、知识等因素的影响,不能很好的保证评价结果的科学性和公平性。为此,一些学者提出了一些新的评价模型,如胡宗义等、王瑛等、张立军等[5,6,7,8,9]。这些模型能够较好的提高评价的准确性和精确度。但由于不同模型的评价机理不同,对原始信息提取的角度不同,所以评价结果并不完全相同。采用单一模型对科技奖励进行评价显然具有一定的片面性。为了解决单一模型评价的片面性,马溪骏等提出了基于兼容一致性方法集成组合评价模型[10]。陈国宏等分别运用大量的随机模拟数据和实例数据对不同评价方法的组合和再组合进行计算机模拟,经过若干次组合后,得到了一致性的评价结果[11]。毛定祥提出了一种最小二乘意义下主客观评价一致性的组合评价方法[12]。唐俊等从概率的角度对3种组合评价方法的有效性进行了比较分析[13]。

综上所述,组合评价模型的基本思想是博采众多模型的优点,将多个不同模型的信息进行组合以便有效地改善模型的评价能力,提高模型的精度。组合评价模型的关键在权重系数的确定上,这也是组合模型的难点所在。而现有文献在确定每种模型的权重系数时主观性强,很难准确反映每种模型在组合模型中的权重,这会严重降低评价结果的可信度。针对这种问题,本文提出综合运用多种模型对科技奖励进行评价的组合模型,利用粗糙集理论确定每种模型的权重系数,以减少主观赋权的随意性,这样能够充分提取原始评价信息,最大限度的减少由单一科技奖励评价模型产生的片面性,提高评价结果的客观性、可靠性。

2 基于粗糙集的组合评价模型

2.1 粗糙集理论的预备知识[14]

粗糙集理论是由波兰学者Pawlak Z在1982年提出的。粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识简约,导出问题的决策或分类规则。目前,粗糙集理论已被成功地运用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。

(1)知识、知识库

假设U≠∅是我们研究对象组成的有限集合,称为论域。任何子集XU,称为U中的一个概念。U中的任何概念族称为关于U的抽象知识,简称知识。我们将在U上能形成划分的那些知识作为研究对象。一个划分U上的一族划分称为关于U上的一个知识库(knowledge base)。RU上的一个等价关系,U/R表示R的所有等价类(或者U上的分类)构成的集合,[x]R表示包含元素xUR等价类。一个知识库就是一个关系系统K=(U,R),其中RU上的一族等价关系。

(2)上近似、下近似

QR,且P≠∅,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分(indiscernibility)关系,记为ind(P),且有,给定知识库K=(U,R),对于每个子集XU和一个等价关系Rind(K),定义两个子集:

分别称他们为XR下近似集合R上近似集.

集合称为XR边界域;称为XR正域;称X为的R负域。显然:是由那些根据知识R判断肯定属于XU中元素组成的集合;是那些根据知识R判断可能属于XU中元素组成的集合;bnR(X)是那些根据知识R既不能肯定判断肯定属于X又不能判断肯定属于~X(即U-X)的U中元素组成的集合;negR(X)是那些根据知识R判断肯定不属于XU中元素组成的集合。

(3)精度

集合的不精确性是由于边界域的存在而引起的。集合的边界域越大,其精确性则越低,为了更准确地表达这一点,引入精度的概念。由等价关系R定义的集合X的近似精度为

其中X≠∅,|X|表示集合X的基数。

精度αR(X)用来反映对于了解集合X的知识的完全程度。显然,对于每一个RXU有0≤αR(X)≤1。当αR(X)=1时,XR边界域为空集,集合XR可定义的;当αR(X)<1时,集合X有非空边R界域,集合XR不可定义的。

(4)知识的依赖性

K=(U,R)为一知识库,且P,QR

k=rp(Q)=|posp(Q)|/|U| (2)

称知识Qk(0≤k≤1)度依赖于知识P的,记作PkQ。当k=1时,称Q完全依赖于P;当0<k<1时,称Q粗糙依赖于P;当k=0时,称Q完全独立于P

(5)属性的重要性

s=(U,A,V,f)为一知识表达系统,A=CD,CD=∅,C称为条件属性集,D称为决策属性集。具有条件属性和决策属性的知识表达系统称为决策表。

在决策表中,不同的属性可能具有不同的重要性。为了找出某些属性的重要性,可从表中去掉一些属性,再来考察没有该属性后分类会怎样变化。若去掉该属性相应分类变化较大,则说明该属性的强度大,即重要性高;反正,说明该属性的强度小,即重要性低。

CD分别为条件属性和决策属性,属性子集C' ⊆C关于D的重要性定义为:

σCD(C' )=γC(D)-γC-C'(D) (3)

2.2 组合评价模型的构建

利用粗糙集理论和信息熵,初步筛选出符合条件的评价模型,分别运用各种模型对科技奖励进行评价,并对模型结果进行一致性检验,进一步筛选出符合条件的模型,形成模型集,计算每种模型的重要程度,运用归一化法得到每种模型的权重系数,最后得到组合评价的最终结果。

(1)评价模型的筛选

假设有n个项目的评价数据,由于粗糙集只能对离散型的数据进行处理,因此有必要对数据进行离散化。单一模型之间是存在漂移度的,因此每种模型重要性不同。在对同一个项目进行评价时,适用的模型在组合过程中的权重是不一样的,而有些模型是多余的,因此有必要进行模型的筛选。

第一次筛选:首先计算模型子集MA的信息熵[15]

其中等价关系ind(M),MA构成U的一个划分,U/ind(M)={X1,X2……Xn};表示集合Xi的基数,i=1,2,……n

对于知识表达系统S=(U,A,V,f),单一的模型在可行模型集合A的重要性定义为:

S(b)=abs(M(A)-M(A-{a})) (5)

abs(y)表示y的绝对值,当S(b)大于0时称该模型是必要的,保留该模型;等于0时该模型是冗余的,删除该模型。将保留下来的模型记为D={d1,d2,……ds};

第二次筛选:利用新的信息表再次计算模型集D中各模型的重要程度S(dj),同时计算模型集合D各模型的相关性,若两种模型的相关程度大于某一个给定的阈值,依据重要性程度把相对重要性小的单一模型删除。

经过两次筛选,最终得到了较科学的模型集E={e1,e2,……ep}。

(2)模型结果的一致性检验

分别运用可行模型集对科技奖励进行评价,得到各种模型下各项目的排序结果;然后采用Kendall's W 协和系数对评价结果的排序进行一致性检验。

Kendall's W协和系数的计算公式如下[16]。

式中S为项目jK种评价模型下的秩和Rj与其平均值之差的平方和。即

;

Rij为项目ji模型中的秩,K为所用评价模型的种数,N为待评价项目的个数。

W的检验:

H0:K种评价模型所得的秩评不具有一致性。

H1:K种评价模型所得的秩评具有一致性。

N>7,检验统计量X2=k(N-1)W近似服从自由度为N-1的χ2分布。当(α为置信水平)时拒绝原假设,认为K中评价模型所得的秩评之间具有一致性。否则需要针对不一致性采取相应的处理措施。

(3)确定各模型的权重系数

应用信息熵计算可行模型集E中各单一模型的重要程度S(ei),对所得的数值进行归一化处理即可得到单一模型的权重系数。归一化的处理公式为

所形成的权重向量为

W=(w1,w2,w3…wm)1×mT

(4)项目得分的标准化处理

将每一种评价模型所得的项目评分值进行标准化处理。为了使标准化以后的数据范围落在[0,1]上,采用极值法对数据进行标准化,计算公式如下:

标准化后,所形成的标准得分矩阵为

其中:yij代表第i个项目第j模型的标准分,xij代表第i个项目第j种评价模型的得分值,max{xij}、min{xij}分别为第j种模型项目得分的最大值与最小值。

(5)计算每个项目的组合评价值

Y'=(y'i)n×1=Y×W (7)

其中y'i为第i个项目的最终评价值。

2.3 基于粗糙集的科技奖励组合评价模型的流程图

3 实证分析及结果

3.1 原始数据来源

本文结合国家科技五大奖之一的国家科学技术进步奖(社会公益项目),选用25位专家对24个项目的5个指标(技术创新程度、技术经济指标的先进程度、技术创新对提高市场竞争力的作用、已获经济效益、推动科技进步的作用)打分的数据进行实证研究(资料来源:科技部国家科技奖励办公室,原始数据略)。

3.2 多种模型的应用与筛选

运用Matlab7.0软件进行编程,分别采用未确知测度评分模型、模糊灰色关联分析模型、E-BP神经网络模型、基于路径系数权重模型、模糊多属性投影模型(以下分别简称:模型1、模型2、模型3、模型4、模型5)对24个项目评价。整理结果如表1所示(括号内数字为项目得分,括号外数字为项目排名,Ii表示第i个项目):

然后应用公式(4)、(5),通过二次筛选后,删除模型3,保留模型1、模型2、模型4、模型5。

3.3 模型的一致性检验

由表1可以看出,不同模型对项目的评价结果不尽相同。运用SPSS18.0中的非参检验对评价结果进行一致性检验。检验结果如表2:

如表2所示:Kendall's W协和系数检验W=0.943,P值为.000远远小于0.05,说明4种模型对项目的评价具有一致性,可进一步做系统综合评价。

3.4 模型权重系数的确定

利用公式(6),可以计算得到四种单一模型组合方法的权重系数分别为

3.5 项目得分标准化处理

将项目得分值标准化处理后,所形成的标准得分矩阵为:

3.6 计算最终评价结果

由公式(7),可计算每个项目的组合得分及排名,结果见表3:

4 结论

针对科技奖励评价中单一评价模型的不全面性问题,提出了基于粗糙集理论的组合评价模型,并结合国家科技五大奖之一的国家科技进步奖(社会公益项目)进行了实证研究。结果表明该模型能够弥补单一评价模型的不足,使评价结果更加准确。模型优点主要体现在:该组合模型在选取模型集时,综合运用了粗糙集、信息熵及非参数统计的相关理论,使组合模型集更加科学,利用了各种模型的评价信息对科技奖励进行评价,结果更符合客观事实;运用粗糙集的信息熵理论确定模型的权重系数,该方法可行性强,能够保证在对各模型评价信息不损失的情况下从各模型中所含信息量的大小来确定权重系数,避免了主观因素对权重分配的影响,具有相对客观性,为下一步的综合评价准备了条件;该模型亦可推广到对其他领域的综合评价问题。科技奖励综合评价是一个系统工程,从指标体系的构建、指标权重的确定到模型的选取,这些环节是环环相扣的,只有保证每一环节达到最优,才能最大限度的提高评价结果的真实性。

粗糙集评价 篇8

分析现有的各种钻井风险评价方法,风险因素的权重往往是凭借人们的经验和相关的知识水平进行确定的,结果具有一定的主观性和模糊性。本文将应用粗糙集理论处理钻井风险因素权重确定中所存在的模糊性与不确定性,再结合模糊综合评价法对各风险因素进行评价,对钻井项目整体风险进行度量,使评价结果更客观、科学、实用。

1 钻井风险评价指标体系的建立

钻井风险评价就是指依据专业人员现有的专业经验、评价标准和准则,对钻井作业中存在的安全隐患和事故的影响因素进行科学的评价分析,量化有关风险因素,计算出钻井项目的风险率和风险值,判断项目的风险是否可接受。基于本文采用的评价方法,首先要建立钻井风险因素的评价指标体系。

根据评价指标体系建立的原则,结合钻井工程项目的特点,综合考虑影响钻井工程工艺过程安全性的风险因素,经仔细研究分析,钻井风险主要来源于自然风险,设计风险,工程风险与管理风险4个方面,将这4类风险因素进一步细化分析,建立钻井风险评价指标体系,如表1所示。

2 基于粗糙集理论的权重确定

粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

形式上,四元组S=(U,A,V,f)是一个知识表达系统,其中:U是对象的非空有限集合,称为论域;A是属性的非空有限集合,A=C∪D,C∩D=∮,C为条件属性集,D为决策属性集;Va是属性a的值域;f是UA→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即∀a∈A,x∈U,f(x,a)∈Va。知识表达系统也称为信息系统,通常将S=(U,A,V,f)简记为S=(U,A)。知识表达系统的数据以关系表的形式表示,关系表的行对应要研究的对象,列对应对象的属性,对象的信息是通过指定对象的各属性值来表达的,同时具有条件属性和决策属性的知识表达系统称为决策表[2]。

设n个钻井风险评价项目组成的集合为论域U,条件属性集C={设计因素、自然因素、工程因素、管理因素},决策属性集D={1,2},其中的决策属性值分别表示钻井项目风险可承担和不可承担,V={1,2,3,4,5},分别表示低风险、较低风险、中等风险、较高风险、高风险。构造钻井风险因素一级指标的决策,如表2所示。

在决策表中,不同的属性可能具有不同的重要性,为判断某些属性的重要性,采用从表中去掉一些属性,再考察没有该属性后分类会如何变化的方法。若去掉该属性相应分类变化较大,则说明该属性的强度大,即重要度高;反之,说明该属性的强度小,即重要度低。

U按决策属性D的分类由U/D表示,分类方法:当di=dj,i=1,2,…,n,j=1,2,…,n,i≠j时,将Ui与Uj归为一类。则U按决策属性D的分类U/D={(Ui,…,Uj),…,(Uk,…,Ul)},i,j,k,l=1,2,…,n,且i≠j≠k≠l。

U按条件属性C的分类由U/(C-Ci)表示,分类方法:当Vi中元素值与Vj中元素值对应相等,即Vi1=Vj1,Vi2=Vj2,Vi3=Vj3,Vi4=Vj4,i=1,2,…,n,j=1,2,…,n,i≠j时,将Ui与Vj归为一类。则U按条件属性C的分类U/C={(Ui,…,Uj),…,(Uk,…,Ul)},i,j,k,l=1,2,…,n,且i≠j≠k≠l。

去掉属性Ci以后U按条件属性C的分类由U/(C-Ci)表示,分类方法同于U按条件属性C的分类方法,只是相应去掉Vk中的Vki与Vl中的Vli再进行分类,i=1,2,3,4,k,l=1,2,…,n,且k≠l。

计算各个条件属性Ci关于D的重要度。属性的重要度可用以下公式来判断,即

去掉某属性Ci以后,属性的重要度为

其中,式(1)中的card(posc(D))表示分类集合posc(D)的个数,若分类集合U/C中的一些分类是分类集合U/D中的某一分类的子集,则这些U/C中的分类构成的集合由posc(D)表示。式(2)中的card(posc-|ci|(D))同理。条件属性Ci关于D的重要性可表示为

对各条件属性Ci关于D的重要性ki进行归一化处理计算权重,即

3 模糊综合评价

3.1 模糊综合评价理论

模糊综合评价就是应用模糊数学中模糊关系合成理论,对多个因素隶属于被评价事物的等级状况进行综合性评价的一种方法。模糊综合评价作为模糊数学的一种具体应用方法,最早是我国学者汪培庄提出的。其基本原理是:首先,确定被评价对象的因素(指标)集和评语(等级)集;然后,分别确定各个因素的权重及它们的权向量,获得模糊评价矩阵;最后,把模糊评价矩阵与因素的权向量进行模糊运算并进行归一化,得到模糊评价综合结果[3]。

3.2 模糊综合评判模型

设影响事物的因素集合为C={C1,C2,…,Cm},m为影响因素的个数。

评语集是评价者对评价对象做出的各种总的评价结果组成的集合,用V={ν1,ν2,…,νn}表示,其中νi为第i个评价结果;n为评价结果总数。

建立模糊关系矩阵

R是从因素集C到评语集V的一个模糊关系矩阵,其中,rij=μR(ci,νj)(0≤rij≤1)表示就评价因素Ci而言,被评价事物被评为νj的程度,即Ci隶属于νj的程度[4]。

应用粗糙集理论确定评价因素权重向量W=(w1,w2,…,wm),其中wi≥0(i=1,2,…,m)表示单因素Ci的权重,

应用模糊矩阵的复合运算,用模型M(●,+)计算得B=W·R,即

4 算例分析

为说明粗糙集与模糊综合评价结合的方法在钻井风险评价中的具体应用,现采用某钻井公司的相关数据进行分析说明。

选取某钻井公司8组钻井项目风险评价的历史数据构建钻井风险评价决策,如表3所示。运用粗糙集理论计算权重,再以第8组风险评价的实际数据作为计划数据运用模糊综合评价法进行评价,结果与实际结果做比较。

由钻井风险评价决策表,按式(1)、式(2)、式(3)分别计算各个功能指标的重要度,计算的过程如下:U按决策属性D的分类为:U/D={(1,5,6,7),(2,3,4,8)},U按条件属性C的分类为:U/C={1,2,3,4,5,6,7,8},去掉条件属性C1后,U的分类为:U/(C-C1)={1,(2,4,6),3,5,7,8},算出posc(D)={1,2,3,4,5,6,7,8},posc-c1={1,3,5,7,8},则

其他指标的重要度分别为

k2=0.125,k3=0.25,k4=0.25。

功能属性的重要度已满足归一化,则确定每个功能属性的权重,即

w1=0.375,w2=0.125,w3=0.25,w4=0.25。

在确定二级指标相对于一级指标权重时,仍将决策属性值定为{1、2、3、4、5},分别表示低风险、较低风险、中等风险、较高风险、高风险。经过计算,最后得到钻井风险各评价指标的相对权重,如表4所示。

运用模糊综合评价法进行分析。

(1)引起钻井安全事故的各种风险因素构成因素集,用C表示,本文应用二级模糊评价模型,即风险评价指标体系由二级指标构成,则因素集C由一些单因素集组成,见表1,即C={C1,C2,C3,C4},C1={C11,C12,…,C17},C2={C21,C22},C3={C31,C32,C33,C34},C4={C41,C42}。

(2)为使钻井风险评价更科学有效,建立评语集:V={低风险,较低风险,中等风险,较高风险,高风险}

(3)各风险因素的权重通过粗糙集理论得到,如表4所示。

(4)模糊评价由钻井风险评价的实际数据构成,如表5所示。

(5)分层作综合评价

B1=W1·R1=(0.63,0.77,0.90,0.91,0.92),

B2=W2·R2=(0.94,0.76,0.89,0.84,0.74),

B3=W3·R3=(0.61,0.84,0.92,0.94,0.94),

B4=W4·R4=(0.63,0.90,0.88,0.92,0.93),

归一化处理,得

B1=(0.15,0.18,0.22,0.22,0.23),

B2=(0.23,0.18,0.21,0.20,0.18),

B3=(0.14,0.20,0.21,0.22,0.22),

B4=(0.14,0.21,0.20,0.22,0.23)。

(6)高层次综合评价

根据最大隶属原则可知该钻井项目的风险水平属于高风险,而第8组实际评价结果是风险不可承担,结果非常相近。

5 结论

将粗糙集理论与模糊综合评价方法结合起来使用对钻井风险进行综合评价,通过算例分析说明模型的具体应用,并且算例结果与实际分析结果接近,效果比较满意,说明了粗糙集和模糊综合评价相结合的方法在钻井风险评价中的可行性,为科学合理地进行钻井风险评价提供了一种新的方法。

摘要:钻井风险评价是钻井工程风险管理的重要一环。在分析现有的钻井风险评价方法的基础上,构建了钻井风险评价指标体系,提出了一种基于粗糙集和模糊综合评价的综合评价模型,使得评价结果更加客观、科学、准确,并通过一个算例说明该方法在钻井风险评价中的具体应用。

关键词:钻井项目,风险评价,指标体系,粗糙集,模糊综合评价

参考文献

[1]董国永.钻井作业HSE风险管理[M].北京:石油工业出版社,2001:4-20.

[2]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2005:7-23.

[3]杜栋,庞庆华,吴炎.现代综合评价方法与案例精选[M].北京:清华大学出版社,2005:215-236.

粗糙集评价 篇9

“十二五”期间, 在国家政策的带动下, 风电开发炙手可热, 风电场的规模和数量急剧膨胀。很多投资企业为了抢占市场与资源, 不做充分的风电场投资风险评价模型和项目可行性研究论证, 盲目开发, 最终风电场收益受损。要实现风电行业的可持续发展, 必须正视风电投资中存在的风险, 理智决策投资项目。

目前对于风电投资领域的风险分析评价尚未形成完整的体系, 研究比较零散, 适用的工程风险评价模型方法有层次分析法、模糊数学、灰色关联、神经网络法和蒙特卡洛模拟法等。使用定性方法对风电投资风险进行评价, 指标权重的确定存在较强的主观性;而使用定量方法, 虽然能够满足客观性, 但需要大量的历史数据样本, 这在工程项目风险评价模型中比较难以实现。基于此, 本文将粗糙集理论引入风电投资风险评价模型。

2风电投资风险识别与评价指标体系构建

风力发电具有间歇性与不确定性, 风电投资项目的建设周期较短, 建设期一次性投资额较大, 运营周期长, 投资者在项目决策时面临诸多不确定性, 对风电投资风险进行识别是进行风险评价模型的基础。考虑评价指标的全面性、科学性、独立性、可操作性, 从风电投资者的角度出发, 依据全寿命周期理论, 对风电投资风险进行识别, 并用具体的替代指标表示风险程度, 得到风电风险投资评价指标体系如图1所示。

3风电投资风险评价模型构建

3.1建立信息系统和决策表

本文拟采取中国四类风资源区域中若干风电工程为研究对象。将风电投资风险评价模型体系中的指标数据看作信息系统

3.2指标数据离散化

在初步建立的风电风险评价模型决策表中, 有的指标的原始数据是连续的, 而粗糙集只能基于离散化的数据进行处理, 因此首先采用极差标准化方法对正负指标进行处理, 对数据进行标准化处理以消除量纲。然后再采用模糊C均值聚类算法将数据离散化。根据最大隶属度原则, 得到聚类结果, 最后形成风电投资评价的风险聚类矩阵。

3.3指标约简

基于风险识别的全面性构建的风电投资风险评价模型指标体系, 指标不够简练, 存在冗余, 会降低风险评价模型的可靠性, 因此利用粗糙集的属性约简功能对风险指标体系进行约简。当有大量指标时, 基于粗糙集的属性约简的是一个NP-hard问题, 利用遗传算法对复杂优化问题能够并行处理的优势, 历遍指标体系的所有可能约简, 能够极大的提高指标约简结果的正确性与高效性。本文风电投资风险评价模型设计的指标和评价对象较多, 因此拟采用基于遗传算法的粗糙集属性约简。

3.4指标权重确定

从约简的指标集中去掉某个指标, 通过风电工程的分类情况变化确定该指标的权重。如果工程的分类变化比较大, 则说明该指标重要度高, 反之, 则低。

指标k的属性重要度Sk, 则指标k的权重为:

式 (1) 中, I (P) 为约简指标集P中所包含的信息量;为不考虑指标属性后的约简指标集所包含的信息量。

其中U为评价对象的个数, 为U的子集。

利用粗糙集的属性重要度原理确定指标权重, 是在原始数据的基础上进行的, 没有加入专家的主观评价, 能够得出一个比较客观的评价结果。

3.5风险评价模型

根据上述步骤求得的约简指标及其权重, 采用线行加权法对各指标进行加权计算, 从而得到各个风电工程的风险评价模型结果。

4实证研究

4.1原始数据

依据上文构建的基于粗糙集的风电投资风险评价模型模型, 对风电投资风险进行评价。本文选取16个风电工程的原始数据作为评价的基础, 其中定性指标分为优、中、差三个等级, 分别用1、0.5和0三个数值表示, 各项目指标数据见表1。

4.2指标数据预处理与离散化

采用极差标准化法对数据进行量纲消除, 然后运用MATLAB中的FCM函数对归一法处理过的数据进行模糊C均值聚类分析。将工程划分为三类, 设置最大迭代次数为100, 隶属度最小变化量为0.00001, 针对每个指标得到的三个聚类中心及各个工程对各个聚类中心的隶属度, 1、2、3代表3个聚类, 再根据最大隶属度原则, 对工程进行分类, 得到最终的风电投资风险聚类矩阵。

以“指标3:区域风电装机比例 (%) ”为例, FCM聚类得到聚类中心分别为0.6961、0.3103、0.9023。各项目隶属度矩阵见表2。

依据最大隶属度原则得到关于指标3的各个项目聚类结果:属于“1”类的项目包括C、D、P, 属于“2”类的项目包括G、H、I、M、N、O, 属于“3”类的项目包括A、B、E、F、J、K、L。以此类推, 可以得到其他指标的FCM聚类结果。

4.3指标属性约简

运用粗糙集软件Rosetta对风电投资风险指标进行约简。在初步构建的评价指标体系中, 年等效利用小时数和区域标杆上网电价对风电投资收益有着直接而重大的影响, 因此将这两个指标作为决策属性。通过遗传约简算法得到的粗糙集约简的结果并不唯一, 综合考虑各指标在各个约简结果中出现的频率和互补性, 得到最终的指标约简结果如表3所示。

4.4指标权重确定

根据约简后指标聚类矩阵, 将约简的风险指标体系中的指标划分为:

根据式 (3) , 约简后的指标集的信息量为:

移走指标3以后, 16个工程的等价关系可以划分:

移走指标3以后的指标集的信息量为:

计算出指标3的重要度为:

以此类推, 得到各个指标相应的重要度为:

根据式 (2) , 可以计算得到各个指标的权重见表4。

4.5风险评价模型

通过计算, 得出16个工程的风险评价模型值如表5所示。

从风险评价模型的结果来看, III类和IV资源区的风电投资风险评价模型结果最优, 然后才是II类, I类资源区的投资风险最大。

我国“三北”地区火电占比达到70%, 而抽蓄、燃气等灵活调节电源比重不足, 供热机组占比高, 电源结构不合理, 系统调峰能力严重不足, 保供热和新能源消纳的矛盾非常突出。同时, 我国风能资源丰富的地区在I类和II类资源区, 而我国主要的电力负荷集中在东南沿海地区, 风能资源与电力负荷的分布不匹配, 而电网规划与建设相对落后, 大量风电无法通过电网送出。对单个项目而言, 不论其风能资源禀赋如何出众, 一旦出现限电弃风, 其现金流收入必然低于预期水平, Ⅰ类和Ⅱ 类资源区的风电弃风率居高不下, 使得投资风险增大, 在国家政策的引导下, 现在正在经历深度调整期。而随着技术进步和低风速风机发展, 风电单位容量投资成本下降, 市场开始向东中部转移, 国家也鼓励加快内陆资源丰富地区风电开发, Ⅲ类和Ⅳ类资源区越来越具竞争潜力。

5结束语

本文在对风电投资风险识别的基础上, 提出一种基于粗糙集的风电投资评价模型, 最后通过工程实例验证评该方法的准确性与适用性, 能够为风电投资决策提供科学依据。

参考文献

[1]Amy H.I.Lee, Hsing Hung Chen, and HeYau Kang.Multi-criteria decision making on strategic selection of wind farms[J].Renewable Energy, 2009 (34) :120-126.

[2]施丽, 曾鸣.基于生命周期的风电投资风险管理研究[J].科技管理研究, 2014 (3) , 210-214.

[3]丁文俊.风力发电项目投资风险分析及评价[D].北京:华北电力大学, 2014.

[4]李峰, 刘正超, 贾晓希, 曾鸣, 李娜.基于全寿命周期理论的风电项目投资风险评价模型模型[J].华东电力, 2012, 40 (4) :0531-0535.

[5]李文富, 郭树霞.基于神经网络的风电项目市场投资风险评价模型[J].华北电力大学学报 (社会科学版) , 2011 (12) :95-97.

[6]乌云娜, 胡新亮, 许凌爽, 基于蒙特卡洛模拟法的风电投资项目优选研究[J].项目管理技术, 2011, 9 (11) :111-114.

粗糙集评价 篇10

随着“科教兴国”战略的继续深化, 国家投入科研的资金越来越多, 合理分配科研资金是保证国家科研实力持续发展的重要措施。而合理分配科研资金又依赖于对科研能力综合科学的评价, 然而随着科研成果的日催多样化, 使得本来就具有较强模糊性的科研能力评价变得更加复杂。针对上述有关科研能力评价问题, 研究人员做出许多有益的探索和研究, 提出各种方法来解决, 其中有曹志刚等使用的模糊综合评价法, 浦金辉采用的综合指数法, 段永瑞采用的数据包络分析法, 还有林森采用的复杂网络[1,2,3,4]。

粗糙集理论是一种刻画不完整性和不确定性的数学工具, 能有效地分析不精确、不一致、不完整等各种不完备的信息, 还可以对数据进行分析和推理, 从中发现隐含的知识, 揭示潜在的规律[5]。它由波兰学者Z Paw lak于1982年提出, 现在该理论已被广泛应用于如近似推理、决策控制、机器学习等领域。而正由于该理论能有效分析不精确、不一致和不完整的数据, 并且可以不需先验信息, 使得它的科研评价结果更客观, 更科学, 也为科研能力综合评价提供一个新思路。

2 粗糙集理论

2.1 粗糙集理论的定义

粗糙集理论延拓了经典的集合论, 把用于分类的知识嵌入集合内, 作为集合组成的一部分[5]。它有如下一些关键定义:

定义1:任一信息系统都可以简略表示为一个二元组S=, 其中U表示对象的非空集合;A表示属性的集合。

定义2:设ind (B) (B⊆A) 是U上的一个等价关系, 由它产生的等价类记为[x]ind (B) ={y|[x]ind (B) |x∈U}, 这些等价类的集合记为U|ind (B) ={[x]ind (B) |x∈U}, 称为U上面的一个知识系统。

定义3:设a∈A, 若属性a不影响对论域U的分类, 即U|ind (A) ={ind (A-{a}) , 则称a在该知识系统中是多余的, 否则, 称a是必要的[7]。

定义4: 设p, s为U 中的两个等价关系, U|S={X1, X2, …, Xn}, s 的p正域记为posp (s) , 即undefined。若存在r∈p有posp (s) =posp- (r) (S) , 则称r为p中S可省的。p-{r}为p的S相对简化[6]。

2.2 属性的重要性计算公式

对于任何一个对象都有若干属性, 属性的重要程度决定了该属性在评价中所应赋予的权值, 对于属性权值的确定可分为两大类方法:一种是主观赋权法, 它需要人为地控制赋权, 如层次分析法;另一种是客观赋权法, 它基本不需要先验知识和人为的干预, 它从已知数据的内部联系出发, 确定对象各属性对对象的重要程度, 如粗糙集理论评价法。

根据粗糙集理论中关于不可分辨关系和属性的重要性表述, 属性的重要程度可用以下公式表示:

undefined

undefined

其中U为评价对象的集合;P、Q为指标的子集合, ωr表示指标r对评价结果的贡献率, λr表示指标r的权重系数[7]。

3 实例分析

3.1 科研评价体系的建立

参考文献[1][8], 提取科研能力评价的关键指标, 建立核心科研能力评价指标体系如下:

科研能力综合评价undefined

某院2001年至2005年上述指标的统计结果如下表:

3.2 利用粗糙集对实例进行评价

令A1、A2、A3、A4、A5分别表示获奖结果、基金项目、获得专利、科技著作和科技论文各项指标, 则指标集A={A1, A2, A3, A4, A5}。

由于各指标的量纲不同, 为了能对数据进行比较, 采用差值法对表1的数据进行处理得到以下结果:

为了能用粗糙集理论对表2的数据进行计算, 必须先把表2的数据进行离散化处理, 在这里采用等距离法对表2数据进行离散化, 结果如下:

由表3数据和粗糙集理论定义2, 计算得到:

U|ind (A-{A1}) ={ (2001) , (2005) , (2002, 2003, 2004) }

U|ind (A-{A2}) ={ (2001) , (2002) , (2005) , (2003, 2004) }

U|ind (A-{A3}) ={ (2001) , (2002) , (2005) , (2003, 2004) }

U|ind (A-{A4}) ={ (2001) , (2002) , (2005) , (2003, 2004) }

U|ind (A-{A5}) ={ (2001) , (2002) , (2005) , (2003, 2004) }

再由公式 (1) (2) 计算得到各指标的权重:

undefined

再由以下公式对表2的数据计算:

undefined

其中Ei表示i年的科研综合能力评价值, Sij表示i年指标j的评价值, λj表示指标j的权重。

为了便于比较, 将用粗糙集理论评价的结果与文献[2]用综合指数法评价出来的结果同列于下表:

利用Excel统计制图功能得到该院2001年至2005年的质控图如下:

由上图可以看出粗糙集方法评价的结果与用综合指数法得到的结果非常接近, 但粗糙集方法较综合指数法仍有较大的优势, 因为用综合指数法评价, 在决定各指标权重时需要专家打分, 而粗糙集则不需要人为的专家打分, 排除了专家打分的主观性, 并且在这种情况下得到的评价结果与用综合指数法得到的结果仍非常接近。

粗糙集理论能充分挖掘既得数据的内在联系, 在评价应用方面能在缺乏先验知识和不需人为干预的情况下对对象作出评价, 从而排除了人为干预的主观性, 使得评价更为客观, 更为简单。

参考文献

[1]曹志刚, 柴春红.模糊综合评价方法在科研项目评价中的应用[J].航空计算技术, 2007 (1) :51-52.

[2]浦金辉, 王蜀燕, 周民伟.综合指数法评价医院科研绩效[J].解放军医院管理杂志, 2007 (4) :261-262.

[3]段永瑞, 霍佳震.基于数据包络分析的高校科研绩效评价[J].上海交通大学学报, 2007 (7) :1075-1077.

[4]林森.复杂网络在高校科研系统评价中的应用研究[J].高校理科研究, 2007 (31) :108-109.

[5]韩祯祥, 张琦, 文福拴.粗糙集理论及其应用[J].信息与控制, 1998 (2) :37-44.

[6]肖健华, 吴今培.基于粗糙集理论的科研立项总结评价方法[J].科研管理, 2001 (9) :8-12.

[7]王传峰, 徐永.粗糙集理论在公路网综合评价中的应用[J].交通标准化, 2007 (12) :15-17.

粗糙集评价 篇11

关键词:农产品价格;粗糙集;生产函数;政策

中图分类号: F323.7文献标志码: A文章编号:1002-1302(2014)06-0406-03

收稿日期:2013-09-15

基金项目:河南省教育厅自然科学研究计划(编号:2010A630045、12A630037)。

作者简介:曹武军(1971—),男,河南郑州人,博士,副教授,硕士生导师,研究方向为农产品动态定价问题。E-mail:caowujun@zzu.edu.cn。当今我国的社会经济正处于一个大发展时期,农产品市场是中国市场经济中最基本的组成部分,农产品价格则是农产品市场的核心要素。由于各种原因,我国农产品价格的波动很大,因此做好农产品价格的相关工作具有特殊意义。按照研究方法分类,目前对于农产品价格波动的研究主要可以分为定性分析和定量分析,其中定性分析占大部分,定量分析较少[1-4]。在因素分析中,主要是非经典因素的分析[5-7]。在研究工具的应用方面,主要是时间序列模型结合动态分析,但是这种方法得出的结论随着时间的变化有着不确定性[8-12]。本研究试图依照定性定量结合的分析方法探究影响农产品价格波动的深层次原因,找出典型因素对农产品价格的影响,从而对农产品价格波动进行研究并得出结论。

1方法理论

1.1粗糙集

粗糙集理論(rough set theory)是由Pawlak等提出的一种数据分析理论[13-14],是一种新的处理模糊和不确定知识的数学工具,能有效地分析和处理不精确、不一致、不完整的各种不完备信息,并从中发现隐含的知识,从而揭示潜在的规律[15]。粗糙集方法以对观察和测量所得数据进行分类的能力为基础,以集合论为数学工具,完成对不确定性知识的处理,在保留数据信息的前提下对数据进行化简并求出知识的最小表达,从而产生合理的决策方案[16]。主要的定义有以下几个。

定义1[17]:S=(U,A,V,f)为一个信息表,其中U论域,是一非空有限对象集,即U={x1,x2,…,xn},A={a1,a2,…,am}是非空有限的属性集合;Va是属性a的值域,即V=Ua∈AVa,f:U×A→V称为信息函数,使得每一a∈A,x∈U,有f(x,a)∈Va。

定义2:设S=(U,A)为信息表,BA,定义B在U上的不可分辨关系IB为IB={(x,y)∈U×U:f(x,a)=f(y,a),a∈B}。

显然,不可分辨关系是一等价关系。IB的所有等价类族,即由B决定划分,用U/IB表示,或简记为U/B,包含元素x的等价类用IB(x)表示。

定义3:设S=(U,A)为信息表,BA且A∈B。

(1)如果IB=IB-{a},则称属性a在B中是冗余的;否则,a在B中是必要的。

(2)如果B的所有属性是必要的,则集合B是独立的。

(3)设B′B,如果B′是独立的,且I′B=IB,则B′是B的一个约简。

1.2生产函数

为了准确反映其他因素对农产品价格的影响,同时考虑其他因素与农产品价格之间的数量关系,建立经济计量模型。

y=b0xb11xb22xb33…xbnn,n∈N+。

式中:y为农产品价格;x1、x2、x3、x4分别代表影响因素;b0为常数项,b1、b2、b3、b4分别表示影响因素对农产品价格的弹性值,也即影响因子每增加1个百分点而引起农产品价格增长速度增加的百分点,可以反映农产品价格的增长对影响因子变化的敏感程度。

2变量与数据

根据其他文献研究的结论以及本研究的侧重点,总结得出影响农产品价格的因素主要包括以下几个方面。

2.1供需因素

农产品生产中的种植面积、劳动力、化肥及农药等生产资料的投入数量与市场价格均会影响农产品的产量,从而导致农产品价格的波动;同时,天气变化、水利灌溉等农业生产技术设施的完善也会影响农产品的产量,进而影响农产品价格,导致消费者需求结构的升级和需求偏好的改变,并导致农产品需求规模与需求结构的波动,进而影响农产品价格。

2.2货币因素

货币是商品交易的媒介,国家内的商品价格受货币发行量与流通速度的影响,不同国家间商品的相对价格则受汇率的影响。货币因素主要包括货币发行量、人民币汇率。

2.3政策因素

在农产品中,粮食是一种特殊而又重要的商品,为了保障粮食供给,稳定粮食价格,我国政府采取了众多扶持政策,主要包括粮食最低收购价政策、农产品临时收储政策、粮食直补政策。

2.4国际因素

随着国内外市场一体化程度不断提高,国内外农产品价格的联动性不断增强,进而影响了我国农产品价格。国际因素主要包括我国农产品进口量、国内生产者和消费者因国际农产品价格变动对我国农产品未来价格的预期。

2.5市场因素

市场交易形成市场价格,价格信息从流通环节向生活环节的传递,可以促使农户按市场需求调整结构,实现供需对接,稳定农产品价格。此外,农产品从生产到销售需经过一系列流通环节,而增加流通环节就会增加流通费用,从而影响农产品价格。市场因素主要包括市场交易方式(期货交易和现货交易)、市场信息传播、市场流通成本。

在分析我国的农产品价格时,引用《中国统计年鉴》的数据来分析农产品价格和农产品价格的影响因素,数据采集于1994—2010年。先将我国农产品市场的影响因素作为条件属性,将全国农产品价格作为决策属性,构建决策表;然后采用等频离散的方法对决策表中的属性值域进行离散化,并分析决策表,计算所有约简和核心属性指标;最后按属性的重要度排序,确定我国农产品价格的主要影响因素为生产成本、货币发行量、农产品产量、农产品种植面积。

根据以上分析,本研究提出了影响农产品价格的因素:农产品产量、种植面积、成本、货币发行量。价格指数的数据来源于《中国统计年鉴》中的商品零售价格指数,成本指数来源于农业生产资料价格指数。为了保持单位的统一,参考零售价格指数的计算方法,公式为:

IP=∑p1iqi∑p0iqii=1,2,…,n

式中:p1i为报告期所有抽选的n种商品(i=1,2,…,n)的價格;p0i为基期商品的价格;qi为第i种商品权重。

根据这个公式提出产量指数、成本指数、狭义货币发行量指数的概念,即以上一年的数量为基期,今年的量除以去年的量得到的数值。将农产品产量、农产品种植面积、狭义货币发行量转化为指数的形式,既保证了单位的统一,又能反映因素之间的影响。

由于产量、种植面积、货币发行量只有一个因素,权重为1,因此他们的指数计算公式如下:

I=uituit-1i=1,2,3。

式中:Ii为第i种因素(产量、种植面积、货币发行量)的指数;uit分别代表本期的产量、种植面积、货币发行量;uit-1分别代表上一期(基期)的产量、种植面积、货币发行量;本研究选取农产品中价格弹性较大的瓜果类的数据作为分析对象。根据以上定义,算得各类指数见表1。

表1影响因素的指数

年份价格指数

(y)产量指数

(x1)成本指数

(x2)面积指数

(x3)狭义货币

指数(x4)1994119.4116.2121.6112.9126.21995120.4115.4127.4111.5116.81996102.8119.4108.4105.6118.9199795.1116.499.5108.1112.1199895.7107.194.598.9111.9199999.4105.495.8101.5117.7200095.7109.899.1104.1115.92001100.1107.099.1101.2112.72002104.3104.4100.5100.6118.42003102.2108.8101.4103.7118.72004104.1105.7110.6101.5114.12005101.7107.1108.3102.7111.82006114.0100.1101.597.0117.52007102.5106.0107.7103.5121.02008111.3103.0120.3102.1108.92009106.7106.197.5108.3132.42010114.3104.9102.9103.6121.2

3模型与结果分析

根据表1的数据,采用Minitab软件对经济剂量模型公式进行求解计算,可得结果:

y=0.54-0.432x1+0.753x2-0.199x3+0.747x4。

从回归分析结果(表2)可以看出,每个变量在其他变量存在的情况下都是显著的,共线性较小,回归方程有效。因此回归方程为:

y=0.54x-0.4321x0.7532x-0.1993x0.7474。

表2回归分析结果

自变量系数系数标准误t值P值常量0.535 01.349 00.400.198产量指数(x1)-0.432 00.375 2-1.150.072成本指数(x2)0.752 70.154 84.860.000面积指数(x3)-0.198 60.604 9-0.330.048货币指数(x4)0.747 00.294 82.530.026注:S=0.040 064 3,R2=78.1%,R2(调整)=70.8%。

回归方程结果表明,水果的价格变化和水果的产量、成本、果园面积和狭义货币发行量有着密切的关系;价格与产量、面积是呈负相关的,与成本、狭义货币发行量呈正相关;产量和面积每增加1百分点,价格就相应减少0.432、0.199百分点;成本、货币发行量每增加1百分点,相应的价格就增加0.753、0.747百分点。其中货币发行量对水果的价格影响最大,超过了水果产量、成本和面积对价格的影响。因此,解决农产品价格异常波动问题的关键在于保障农产品的产量和种植面积,使供求关系协调,此外还要注重货币政策。根据本研究结果,可以提出稳定农产品终端价格的机制。

3.1供需方面

本研究主要讨论了农产品供应方面的问题,即农产品产量和种植面积。产量对农产品价格的影响因子是0.432,若产量波动很大,价格不可避免地会发生剧烈波动。因此稳定农产品产量对于稳定价格有很大影响。但是我国对农产品产量与价格的市场化调节机制、风险规避机制不健全,生产者与经营者要承担巨大的风险,主要有:(1)期货市场不发达,风险难以规避;(2)农业产业化、专业化程度低,“一高三低”问题突出。为了解决以上问题,应该完善农产品市场化配套机制建设,要点有:(1)发展和完善农产品期货市场,分散农产品市场风险,要逐步将上市农产品期货品种的机制由审批制过渡到核准制,改变目前多部门参与的品种上市审批制度,建议由期货监管部门成立审批权限集中而明确的上市决策机构,建立高效的市场化品种创新机制;(2)改善和加强政策性农业保险服务,由建议中央和省级财政共同出资建立覆盖全国主要农产品产区的政策性保险机构,实行强制性保险,保费由当地财政与生产经营者分担,同时在家庭联产承包责任制的基础上,逐步引导农民走上新的合作和联合,建立起能够真正代表农民利益的农村市场中介组织。

3.2成本方面

应对农产品价格的快速上涨压力,首先要严格控制农业生产资料价格的上涨态势,不仅在生产领域要大力推进农资产品市场化和规模化生产,努力提高农资产品的供给能力,同时还要在消费领域扩大对农民进行农资综合补贴的范围和额度,缓解农资价格攀升带来的成本压力。

3.3货币发行量方面

根据上述研究结果,货币对农产品价格具有较大的影响,建议国家在提高货币供应量刺激经济增长的同时,需要充分考虑其对物价的长期拉动作用。虽然提高货币供应量在短期内对农产品价格拉动效果不显著,但是对农产品价格的长期调整会充分表现出来。因此为了实现农产品物价水平的稳定,国家必须适度控制货币发行量。

參考文献:

[1]程瑞芳. 我国农产品价格形成机制及波动效应分析[J].中国流通经济,2007,21(3):22-24.

[2]薛淑珍,王保忠. 当前我国农产品价格上涨原因及对策分析[J].价格理论与实践,2008(8):30-31.

[3]张筱红. 当前农产品价格波动的成因分析及金融支持政策[J]. 审计与理财,2010(6):44-45.

[4]胡翮. 浅析小宗农产品价格暴涨因素[J].科学与管理,2010,30(4):42-43.

[5]孔婷婷,许北鸥. 农产品价格变动的因素及影响分析[J].农机化研究,2009,31(1):26-28.

[6]马晓河. 当前农产品价格上涨成因分析与走势判断[J].唯实,2008(7):85-88.

[7]孔祥智,李圣军. 人民币升值对农业发展的影响[J].山西财经大学学报,2005,27(6):58-62.

[8]孔祥智,李圣军. 人民币升值对农产品进出口影响的实证分析[J].经济理论与经济管理,2008(4):65-71.

[9]方湖柳. 人民币升值对农产品价格的影响[J].农业经济问题,2009(7):84-90,112.

[10]Orden D,Fackler P L. Identifying monetary impacts on agricultural prices in VAR models[J]. American Journal of Agricultural Economics,1989,71(2):495-502.

[11]Saghaian S H,Reed M R,Marchant M A. Monetary impacts and overshooting of agricultural prices in an open economy[J]. American Journal of Agricultural Economics,2002,84(1):90-103.

[12]Asfaha T A,Jooste A. The effect of monetary changes on relative agricultural prices[J]. Agrekon,2007,46(4):460-474.

[13]Pawlak Z. Rough sets[J]. International Journal of Computer and Information Sciences,1982,11(5):341-356.

[14]Pawlark Z. Rough sets:theoretical aspects of reasoning about data[M]//Dubois D,Prade H. Dordrecht. The Netherlands:Kluwer Academic Publishers,1991.

[15]Tay F E H,Shen L. Economic and financial prediction using rough sets model[J]. European Journal of Operational Research,2002,141(3):641-659.

[16]Wu W Z,Zhang W X,Li H Z. Knowledge acquisition in incomplete fuzzy information systems via the rough set approach[J]. Expert Systems,2003,20(5):280-286.

粗糙集评价 篇12

边坡稳定性分析与评价是当前边坡工程稳定性研究的重要内容之一。边坡系统是一个开放的复杂系统, 其稳定性问题是由地质因素和工程因素等综合决定的, 且多半具有随机性、模糊性、可变性等特点。岩体边坡的稳定状况将直接影响生产和安全。岩体边坡稳定性的破坏机理比较复杂, 且影响因素众多, 对其稳定性的评价方法也比较多。粗糙集理论在知识表达系统的基础上定义了知识约简的概念, 进而提供了分析多余属性的方法, 对样本中不必要或不重要的评价指标进行约简, 从而使评价指标得到简化, 此为岩体边坡稳定性的评价提供了新的途径。本文基于粗糙集和模糊集理论相结合的评价法[6], 对岩体边坡稳定性进行综合评价, 运用两种方法相互补充, 可简化评价过程和计算, 以便于工程界技术人员的实际运用和掌握。

1粗糙集理论简介

粗糙集 (Rough set) 理论是波兰人Z.Pawlak于1982年提出的, 它在处理不完整数据和不精确数据方面具有独特优势[7]。粗糙集理论的主要思想是利用已知的知识库, 将不精确的或不确定的知识用知识库中的知识来刻画, 删除其中不相关或不重要的知识, 从而使得评判指标得到了简化。

2基于粗糙集理论的岩体边坡稳定性评价模型

2.1 基本原理及评价流程

基于粗糙集理论的岩体边坡稳定性模糊综合评价基本原理:首先确定岩体边坡稳定性各个评价指标的标准, 以其中的某一个评价指标为标准, 对边坡稳定性的评价指标进行约简, 将评价指标的冗余项约去;计算约简后各评价指标的权重, 得到权重矩阵w0;构建隶属度函数, 并计算样本的隶属度矩阵R;最后通过模糊综合法基本的计算公式求出预测结果。

2.2 边坡稳定性评价指标知识约简

粗糙集理论在知识表达系统的基础上定义了约简的概念, 进而提供了分析多余属性的方法。一般是先删除每个实例中评价指标属性值相同的多余的评价指标, 然后对剩余指标的冗余 (或重要) 程度进行约简。

对于不同的属性指标a1, a2∈P, a1, a2若对于U上各对象的属性值都相同, 则称a1或a2是可约简的, 保留其中一个指标即可。假设aP, 若ind (P) =ind (P-{a}) , 则aP中是冗余的或不重要的 (即可以约简的) 。否则, 称a是必要的不可约简的指标。

2.3 权重确定

PA, U/ind (P) ={X1, X2, …, Xn}, 则P的信息量可定义为:

Ι (Ρ) =i=1ncard (Xi) card (U) (1-card (Xi) card (U) ) =1-1[card (U) ]2i=1n[card (Xi) ]2 (1)

其中, card (Y) 为集合Y所包含的元素个数。

对于属性指标a (aA) 的重要性可定义为:SA=|I (A) -I (A-{a}) |, 即在属性集A中用去掉属性指标a之后所引起的信息量变化的大小来衡量其在A中的重要性。设A={a1, a2, …, am}, 则ai (i=1, 2, …, m) 的权重定义为:

wi=SA (ai) j=1mSA (aj) =|Ι (A) -Ι (A-{ai}) mΙ (A) -j=1mΙ (A-{aj}) | (2)

2.4 隶属函数

运用模糊数学中的隶属度来描述事物间的模糊界限, 通过建立代表隶属度和指标之间关系的隶属函数, 将代测因子值代入计算得到隶属度。本文采用“降半梯形”分布来确定隶属函数[8], 即:

R1 (x) ={1xS1S2-xS2-S1S1xS20xS2R2 (x) ={0xS1xS3-S1-xS2-S1S1xS2S3-xS3-S2S2xS3R3 (x) ={0xS2xS4-S2-xS3-S2S2xS3S4-xS4-S3S3xS4R4 (x) ={0xS3xS5-S3-xS4-S3S3xS4S5-xS5-S4S4xS5R5 (x) ={0xS4-S4-xS5-S4S4xS51xS5

其中, x为待测岩体相关的因子实际值;S1, S2, S3, S4, S5分别为代测因子在五种稳定状态下对岩体影响的边界值。将样本指标实测值代入隶属函数, 即可求出各个样本的隶属度函数值, 以建立模糊评判隶属度矩阵R

2.5 评判模型

对于岩体边坡稳定性的模糊综合评价的结果计算, 就是对各个评价指标的权重与各个样本的隶属度矩阵值进行综合运算, 建立评判模型。岩体边坡稳定性模糊综合评判模型构建如下:

B=wR (4)

其中, B为模糊算子, B= (b1, b2, …, bn) , 根据b1, b2, …, bn的大小, 确定边坡稳定性的评价结果。

3应用

本文采用文献[4]中的数据来验证构建模型的正确性, 将边坡的稳定性分为稳定Ⅰ、较稳定Ⅱ、基本稳定Ⅲ、不稳定Ⅳ、极不稳定Ⅴ五个等级, 实例岩体边坡的实测数据见表1。为便于简化过程, 可以将边坡稳定性中等稳定 (Ⅲ) 的指标值作为各最初评价指标的阀值, 则可得出最初评价指标信息。

从样本最初评价信息表中可以看出S, RQD, Kr三项指标对U上各对象的属性值完全相同, 故只要保留其中一个指标即可, 假设留S, 这样就使得原来的五个评价指标约简到三个指标, 大大简化了后续计算量, 便可得到代测岩体评价因子的初步约简信息表。由表可知, 设A={S, a, β}, U={1, 2, 3, 4, 5, 6}, 对表中的各个评价指标进行冗余 (或重要性) 程度的知识约简:U/ind (A) ={{1, 2}, {3}, {4, 6}, {5}}, U/ind (A-{S}) ={{1, 2, 3}, {4, 6}, {5}}≠U/ind (A) , U/ind (A-{a}) ={{1, 2, 4, 6}, {3}, {5}}≠U/ind (A) , U/ind (A-{β}) ={{1, 2, 5}, {3}, {4, 6}}≠U/ind (A) , 由计算得知S, a, β三项评价指标是不可约简的, 即最终将五项评价指标约简为三项, 这样就使得评价指标减少, 计算量减少了2/5, 从而可以看出粗糙集约简为后续计算工作带来的方便, 充分体现了粗糙集独特的优越性。

设知识A={S, a, β}, 评价集U={1, 2, 3, 4, 5, 6}, 根据式 (1) , 式 (2) 容易计算出S, a, β的权重:wS=0.25, wa=0.5, wβ=0.25, 由此得到权矩阵w0=[0.25, 0.5, 0.25]。将表1中的实测数据带入式 (3) 以各类稳定状况值为标准计算出隶属度函数Ri (i=1, 2, 3, 4, 5, 6) 的值, 再利用式 (4) 便可预测出各个样本的稳定状况, 预测结果见表2。

从表2结果可知, 样本2~6与可拓聚类方法预测结果吻合, 但样本1的预测结果为两个极端, 出于安全考虑确定为Ⅴ级, 而可拓聚类[4]预测的结果为Ⅲ级, 相差了两个级别, 两种方法预测的结果基本上相同, 说明本文方法对岩体边坡稳定性的评价是可行的, 但是本文运用了粗糙集约简使得计算得到了简化, 在这方面还是优于其他方法的, 实用性很强, 便于工程上的实际运用, 更易于工程技术人员的实际操作和掌握。

4结语

岩体边坡的稳定性受到诸多因素的影响, 这些因素对边坡的稳定状况影响程度各不相同, 其中有些因素对边坡的稳定性状况起决定性作用, 而有些因素则对其只有极小的影响, 只要抓住主要的影响因素便可确定岩体边坡的稳定状况。本文利用粗糙集和模糊集相结合的方法来综合评判了岩体边坡的稳定性问题, 运用粗糙集理论中知识的约简, 将边坡稳定性评价指标中冗余指标进行删除, 从而使评价指标得到了减少, 大大降低了处理信息的维数和计算特征值的工作量, 也降低了系统的复杂程度。该方法对岩体边坡稳定性的评价取得了较好的预测结果, 结果表明该方法理论上比较严谨, 且计算简单, 在工程实际中具有很好的实用性。

摘要:基于粗糙集理论探讨了岩体边坡稳定性的模糊综合评价方法, 即利用粗糙集中的知识约简方法来挖掘评价指标, 应用信息量概念确定评价指标的权重, 实例应用结果表明该法进行岩体边坡稳定性评价是可行的, 且操作简单, 结果可信。

关键词:岩体边坡稳定性,粗糙集,知识约简,预测

参考文献

[1]谭晓慧.边坡稳定分析的模糊概率法[J].合肥工业大学学报 (自然科学版) , 2001, 24 (3) :442-446.

[2]陈昌彦, 王思敬, 沈小克.边坡岩体稳定性的人工神经网络预测模型[J].岩土工程学报, 2001, 23 (2) :157-161.

[3]王亮.岩体边坡稳定性的可拓学分析[J].河北冶金, 1999, 109 (1) :21-23.

[4]谢全敏, 夏元友.岩体边坡稳定性的可拓聚类预测方法研究[J].岩石力学与工程学报, 2003, 22 (3) :438-441.

[5]谢季坚, 刘承平.模糊数学方法及其应用[M].武汉:华中科技大学出版社, 2000.

[6]张继宝, 汪明武, 谢慧敏.基于粗糙集理论的围岩稳定性模糊综合评价[J].安徽建筑工业学院学报, 2008, 16 (2) :85-88.

[7]张文修, 吴伟志.粗糙集理论与方法[M].北京:科学出版社, 2001.

上一篇:跨文化交流经济贸易下一篇:现场实测