粗糙集模型(精选12篇)
粗糙集模型 篇1
摘要:网格计算的资源管理涉及到大量的互联网资源, 为了有效管理与应用系统资源, 需要研究相应的资源管理模型。基于此探讨了粗糙集理论的相关算法, 在此基础上提出了一个粗糙集理论与数据挖掘问题相结合的应用模型。在研究中对该模型进行了模拟数据实验测试, 结果与算法的理论结果一致, 为粗糙集理论在网格计算领域的应用做了一些力所能及的尝试。
关键词:粗糙集,数据挖掘,属性约简,模拟数据
0 引 言
CRM系统在当今社会中已经获得广泛应用, 这是毋庸置疑的。但伴随着应用的广度与深度的不断加大, 在应用过程中生成和积累了海量的应用数据, 这些数据并非负担而是各行各业可以加以深层次应用的宝贵资源, 怎么利用这些资源是大家必须面对和解决的问题。时下热门的数据挖掘技术的研究与应用为解决这一难题提供了一个有效手段, 本文在此背景下提出一个基于粗糙集理论的数据挖掘模型, 针对不完备信息系统领域的数据挖掘应用进行了有益尝试, 经过测试验证具有一定的积极意义。
1 数据挖掘的任务
数据挖掘是KDD过程中一个非常重要的步骤, 它的主要任务涉及6个方面:关联分析、时序模式、聚类、分类、偏差检测、预测。下面分别做以简单描述。
关联分析 关联分析是从整个数据库发现知识的一类重要方法。若两个或多个数据项的取值重复出现且概率很高时, 它就存在某种关联, 可以建立起这些数据项的关联规则。
时序模式 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。在时序模式中, 需要找出在某个最小时间内出现比率一直高于某一最小百分比 (阈值) 的规则, 这些规则会随着形式的变化做适当的调整。
聚类 数据库中的数据可以划分为一系列有意义的子集, 即类。在同一个类别中, 个体之间的距离较小, 而不同类别的个体之间的距离偏大。
分类 分类是数据挖掘中应用得最多的任务。
分类是找出一个类别的概念描述, 它代表了这类数据的整体信息, 即该类的内涵描述, 一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。
偏差检测 偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个域的值或多个域值的汇总。参照是给定模型的预测、外界提供的标准或另一个观察。
预测 预测是利用历史数据找出变化规律, 建立模型, 并用此模型来预测未来数据的种类特征等。
2 粗糙集属性约简算法介绍
粗糙集 (Rough Set) 理论是由波兰学者Z.Pawlak于1982年提出的[1,2,3], 经过这些年的研究与发展, 已经广泛应用在很多领域。
2.1 基本概念
(1) 信息表。
在粗糙集中, 从实际应用中获取的信息均采用信息表表示。信息表实际上一个二维的信息表示形式, 信息表的行称为记录或对象、实例。列称为属性, 各条记录都是通过对各个属性的取值而加以描述的。信息表可以视为是一组由多个属性描述的对象的集合。
(2) 信息系统。
信息系统是信息表的理论化表示形式, 是一个由U, Q, Vq, Fq构成的四元组:
式中:U是论域;Q是属性集合;Vq是属性取值的集合;Fq是一映射:U×Q→Vq。显然, 信息表是信息系统在现实中的直观表示, 表中行对应于论域的对象, 列对应于描述对象的属性, 表格内容为函数Fq的值域。在决策支持中, 属性集合Q通常分为条件属性C和决策属性D。
(3) 属性约简、依赖、核
属性约简是粗糙集理论的一个重要问题。通过属性约简, 可以去除数据中的冗余的成分, 揭示各个属性之间的相互依赖关系。文献[1,2]中约简的定义:设属性集合R, P⊆Q, R⊂ P, £为粗糙集的划分, 如果γR (£) =γP (£) 且不存在属性集合R′⊂R, 使γRˊ (£) =γR (£) , 则称R为P的£约简, 记为:RED£ (P) 。由定义可以看出, 约简前后划分£的逼近精度不发生变化, 也就是说约简前后信息系统所含信息量不变。一个信息系统关于P的约简不止一个, 所有约简的交集称为P的£核, 记为:
显然, 核中包含了信息系统中最重要的属性。
设R, P⊆Q, 如果P所产生的每一个等价类都包含于R所产生的某个等价类中, 那么就称R依赖于P, 记为:P→R。
显然, 如果集合R中个属性的取值是由P中属性的取值惟一决定的, 那么集合R依赖于集合P。
以上是粗糙集理论的一些基本概念。
2.2 常见属性约简算法介绍
属性约简[1,4,5,6,7]问题是粗糙集理论研究的重要问题。本文的应用模型是对粗糙集理论在实际当中的应用进行的一些初步探讨, 因此没有涉及新算法的研究, 在研究中, 主要利用一些经典的算法, 对粗糙集理论的应用进行检验, 然后在此基础上展开相应的研究工作。
下面介绍几个常用的属性约简算法。
(1) 基于系统正区的属性约简方法
输出:约简属性集REDU
① REDU=核;
② 候选属性集AR=C-REDU;
③ 找出AR中具有最大属性重要性SGF (α, R, D) 的属性a;
④ 如果有多个属性ai (i=1, 2, …, m) 具有相同的最大重要性, 则选择与REDU具有最少属性取值组合的属性aj;
⑤ REDU=REDU∪{aj};AR=AR-{aj};
⑥ 如果K (REDU, D) =1则算法终止, 否则转③。
其中:SGF (α, R, D) = K (R∪{a}, D) -K (R, D)
K (R, D) =card (POSR (D) ) /card (POSC (D) )
(2) 基于信息熵的属性约简方法[8]
① 计算条件属性C与决策属性D的互信息I (C, D) ;
② 计算C相对于D的核C0;
③ 令B= C0, 对条件属性C-B重复:
(3) 对每个属性p∈C-B, 计算条件互信息:I (p, D|B) 。
(4) 选择使条件互信息I (p, D|B) 最大的属性, 记为p, 并且B⇐B∪{p}, 若同时有多个属性达到最大值, 则从中选择一个与B的属性值组合数最少的属性。
(5) 若I (B, D) =I (C, D) 则终止, B即为约简, 否则, 转a除了上述算法外, 在实际应用中, 还采用了文[9,10,11,12]提出的方法。
3 粗糙集在CRM中的应用探讨
3.1 应用背景
CRM (Customer Relation Management) 是企业保持和激励客户的一个复杂而强有力的手段, 存在着深厚的应用基础和广阔的应用前景。
呼叫中心 (Call Center) 是近几年来在现代企业中比较流行的一种为企业客户提供全方位优质服务的一个交互式开放窗口。呼叫中心 (亦称为客户服务中心) 强调的是利用各种现代通信媒体, 向客户提供多种与企业进行交互的信息点, 为客户提供全天候的服务。未来的呼叫中心将是各种企业客户资料的数据中心。因此, 如何对这些数据进行有效的管理, 如何充分利用其中蕴涵的价值, 为企业创造更大的利润, 成为现代企业日益关注的焦点。
3.2 CRM在邮政呼叫中心中的集成应用
在呼叫中心系统中集成CRM应用的出发点主要有2点:第一, 寻求在特定行业的应用中有效的数据挖掘手段;第二, 为产品增加新功能, 打造企业品牌形象。
CRM本身是一个非常复杂的系统, 而客户服务中心又比较庞大。为了便于分析问题, 仅以EMS业务为例来说明。
3.3 实现功能说明
目标功能:以下分析预测的实现均建立在粗糙集理论的基础之上。举例分析如下:
3.3.1 客户忠诚度分析
客户忠诚度分析与重要性一起合并分析。
(1) 决策原理:
根据CRM的分析, 把客户分为4类:非客户、潜在客户、一般客户、忠诚客户, 现在需要从历史数据中分析出这四类客户所具有的本质属性, 便于每次接收到客户信息时, 能及时判别出客户的类别, 便于为不同类型的客户提供有针对性的服务方案。
(2) 构造客户数据库:
由于数据源的多样性, 需要对进行客户分析所需的客户数据库重新构造, 把来自多个数据源的数据集成到一个表格中。客户数据库表格是一个非常庞大的表, 如表1所示。
(3) 分析:
应用粗糙集进行数据挖掘都在类似这样的表格上操作。这个表格很大, 其中存在一些冗余属性。利用上文所述属性约简算法, 对此表进行减肥, 去除冗余, 求出属性集的最小约简。处理的结果会得到类似如表2所示的一个很小的表。
该表中的内容既是从数据中挖掘出来的判别客户类别的规则。如上表, 可按如下方式表示此2条规则:
if 业务类别 = 信函 and 建议次数在
[5, 9]/季 and 交易次数在[10,15] then 该客户为一般客户
if 业务类别 = EMS and 建议次数≥10 and 交易次数≥16
then该客户为忠诚客户
在实际的应用可以表示为更直观的形式。
3.3.2 客户行为预测
(1) 决策原理:
客户的行为是易变的。在客户从事交易过程中, 有许多因素会影响他们的决策。如何对客户将来的行为进行比较合理的分析与预测, 对企业留住老客户、发掘新客户是非常重要的。在客户与企业交互的历史记录中, 保留着客户的痕迹, 但同时也蕴涵着客户将来的行为趋势。可以认为人们的行为具有一定的惯性, 客户行为预测的目的是把这种惯性保持下去, 或者加以引导, 使客户的行为朝着有利于自己的方向发展。在本系统中, 从客户对企业的态度着手, 分为2类:对企业的态度保持不便和发生变化。在这里的关键任务是哪些核心数据属性是对保持客户有利的, 哪些因素是促使客户态度发生变化的。然后在此基础上, 做出相应的对策。
(2) 构造数据库:
同样也要对来自不同数据源的数据进行合成, 生成一张独立的预测客户行为的表。该表的属性也相当多, 下面也只做简化示例如表3所示。
(3) 分析:
该表属性同样存在一定冗余。求出该表的最小属性约简, 类似表4。
与该表对应的规则如下:
if客户类别 =一般客户 and投诉业务 = EMS and爱好 =音乐等
then 客户态度保持不变
if 客户类别 = 忠诚客户 and投诉业务 =
报刊 and爱好 = 新闻媒体
then客户态度发生变化
所有这些规则对系统决策库做相应的更新。这些规则以相对比较直观的形式提交给企业决策层, 决策者可根据这些信息, 研究制订相关对策。
4 结 语
由于粗糙集理论自身独特的优势, 成就了其在离散性数据处理及数据挖掘的深度应用。本文中提出了一个基于粗糙集理论的CRM应用框架, 在模拟数据上的测试验证证明本框架具有一定的实际意义。模型的建立只是基础, 将来的工作重点在于应用实际数据进行验证, 为该模型的实际应用提供坚实的基础。
粗糙集模型 篇2
其中,11例WHO I级,25例WHO II级,9例WHO III级,5例WHO IV级。
对上述患者进行MRI检查,平扫TIW1横断面与矢状面得出影像学资料。
由放射科专业医生对上述患者的MRI影像学资料进行分析研究,包括病灶位置、形状、囊变、TIW1、T2W1、水肿、钙化、出血、性变等等,按照影像学特征对不同指标进行分类。
并通过粗糙集方法、Logistic二元回归方法与分类回归树方法对影像学资料进行研究。
具体粗糙集方法:将决策表导入专门的Rosetta软件,通过软件对病例进行规则约简与属性约简。
在条件属性核产生的基础上,得到决策规则库,通过规则库过滤,达到知识的精简。
通过10折交叉验证方式测试胶质瘤数据,通过测试结果的诊断灵敏性、覆盖率、阳性预测值、特异度、阴性预测值等提取诊断性能,绘制ROC曲线。
结果显示,粗糙集方法的诊断准确性为85.2%,特异度为92.7%;决策树方法诊断准确性为83.0%,特异度为91.3%;Logistic二元回归方法诊断准确性为83.2%,特异度为85.6%。
粗糙集模型 篇3
(上海海事大学 交通运输学院,上海 201306)
0 引 言
船舶海事事故的发生会造成人员和财产的重大损失,研究船舶发生海事事故的影响因素,对避免和减少船舶海事事故的发生有重要的理论和现实意义.国外最新研究关注于机舱火灾及爆炸中的组织因素影响和人为因素对海事安全的影响[1-2];采用的方法主要有模糊故障树分析法[3]和分类树模型[4],重点研究受限水域中的海事安全问题.我国学者对海事事故影响因素的研究则主要集中在碰撞事故与人为失误的关联性分析[5-6]、船舶机损事故人为失误分析[7]、海船船员适任性评价[8]、船舶碰撞危险度评价[9]及船员驾驶行为的研究[10]上.
粗糙集理论是PAWLAK[11]于1982年提出的一种能够定量分析不精确、不一致、不完整信息和知识的数据处理工具.它无须先验知识,可从样本数据中提取简明、直接、易于理解的决策规则,进而计算各属性对决策的重要度,是目前数据挖掘和知识发现的有力工具之一,在模式识别、机器学习、决策分析、知识获取及知识发现等领域有广泛应用.
目前全球海上事故频发,事故原因多样.本文尝试通过对近年来国内外船舶海事事故的调查与数据统计,运用粗糙集理论挖掘船舶海事事故中人、船及环境因素的深层次影响及关联程度,为海事监管部门和航运企业避免海事事故的发生提供参考.
1 粗糙集理论及相关知识
1.1 决策表
1.2 属性约简与核
对一个给定的决策系统S=(U,C∪D),条件属性集合C的约简是C的一个非空子集C′,满足(1)I(C′,D)=I(C,D);(2)不存在C″,使I(C″,D)=I(C′,D).称C的所有约简的集合为C的核,记作o(C),即o(C)=∩r(C),其中r(C)是C的所有简化簇.[13]设P⊂A=C∪D,xi,xj∈U,定义I(P)={(xi,xj)∈U×U|∀p∈P,p(xi)=p(xj)}为不可区分(不分明)关系.
1.3 可区分矩阵
设全集U按决策属性D被分成不相交的类族,即D={X1,X2,…,Xm},则U中C的区分矩阵记作M(C)={mi,j}n×n.其中,当xi,xj∈D的同一等价类时,mi,j=φ;xi,xj∈D的不同等价类时,mi,j={c∈C:f(c,xi)≠f(c,xj)},1
1.4 属性重要度与属性值隶属度
在粗糙集中,使用信息表描述论域中的数据集合.信息表的行代表对象,列代表属性,一个属性对应一个等价关系.为了找出某些属性(集)的重要性,从表中去掉一些属性后考察没有该属性后分类会如何变化.如果去掉该属性,相应分类变化较大,则说明该属性的强度大,即重要性高;反之,说明该属性重要性低.因此,对于一个区分矩阵M(C)={mi,j}n×n,相应的属性a的重要性计算公式为
(1)
式中:λij为属性出现在区分矩阵的长度;C(mi,j)为mi,j包含属性的个数.
为提取具有较多共同特性的重要规则,必须对约简后生成的大量规则集进行优化运算.针对提取出的条件规则,进行属性值的计算.条件属性值的隶属度表示决策事件(决策属性值)Dj依赖于条件事件Cij(条件属性值)的程度,属性值的隶属度(可信度)Fij可定义为
(2)
式中:Ci,j∩Dj≠φ,0 基于粗糙集理论的数据挖掘一般需要经过数据预处理、求核属性、属性约简、规则生成及分析解释结果等几个步骤完成. 2.1 海事事故统计数据的来源及筛选 在遵循海事事故统计数据筛选的完整性、可靠性、时效性、足量性原则的前提下共搜集到国内外168份海事事故报告,这些事故的原始资料分别来自:中国(中国交通运输部海事局网站、中国交通运输部海事局编写的《水上交通事故调查报告》、上海海事局编写的《海事案例集》)、英国海事调查委员会(MAIB,Marine Accident Investigation Bureau)、澳大利亚运输安全委员会(ATSB,Australian Transport Safety Bureau)、美国国家运输安全委员会(NTSB,National Transportation Safety Board of United States)、美国海岸警卫队(USCG,US Coast Guard)、加拿大运输安全委员会(TSB, Transportation Safety Board of Canada)和新西兰运输事故调查委员会(TAIC,Transport Accident Investigation Commission of New Zealand). 在168份海事事故报告中,依据数据的完整性、可靠性、实效性原则,最终确定100份作为研究样本.这100份样本来源于世界主要海运国家的海事事故调查机构对2000—2011年共12年间发生在其管辖水域中的海事事故所做的调查报告,详见表1. 表1 事故样本统计 2.2 海事事故统计数据的预处理 影响海事事故的因素主要是人、船、环境和管理等.本文通过分析影响海事事故的因素及所搜集到的国内外100份海事事故报告,从人、船和环境的角度提取影响海事事故的主要因素,选择事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人为因素、事故等级等9个因素建立决策表:论域U={1,2,3,…,100},条件属性集合C={A,T,F,G,S,E,W,H}.具体说明如下: A为事故类型,VA={1,2,3,4,5,6},其中1={碰撞},2={火灾或爆炸},3={设备机器故障},4={搁浅或沉船},5={自然灾害},6={其他}. T为事故发生时间,VT={1,2,3,4,5,6},其中1=[0000,0400],2=[0400,0800],3=[0800,1200],4=[1200,1600],5=[1600,2000],6=[2000,2400]. F为事故船舶的船旗国,VF={1,2,3,4,5},其中,1={亚洲},2={欧洲},3={美洲},4={非洲},5={其他}. G为事故船舶吨位,VG={1,2,3,4,5},其中,1=[0,500],2=(500,3 000],3=(3 000,10 000],4=(10 000,30 000],5=(30 000,+∞). S为事故船型,VS={1,2,3,4,5,6},其中,1={渔船、游艇等小型船舶},2={干散货船,杂货船},3={油船、化学品等液货船},4={集装箱船},5={客船,滚装船,多用途船},6={其他船型}. E为事故船舶船龄,VE={1,2,3,4,5},其中,1=[0,5),2=[5,10),3=[10,20),4=[20,30),5=[30,+∞). W为事故发生时的天气,VW={1,2,3,4},其中,1={良好},2={大风或大浪},3={大雾或能见度低},4={其他恶劣天气}. H为事故发生的人为因素,VH={1,2,3},其中,1={人为处置得当或无明显失误},2={一般性失误},3={严重或重大失误}. 决策属性D为事故等级,是事故造成的影响,依据伤亡人数、经济损失、环境污染等因素确定.划分为一级和二级.一级表示大事故及以上事故,二级表示一般及以下事故.VD={1,2},其中,1={一般及以下事故},2={大事故及以上事故}. 3.1 决策表生成、约简及属性重要度 利用华沙大学的粗糙集数据处理系统RSES[14]导入经过离散化处理的船舶事故等级决策表,共100条记录、9个属性,前面8个为条件属性,最后一个为决策属性.利用粗糙集理论中常见的数据约简和规则生成算法——基因遗传算法,进行属性约简.通过基因遗传算法约简共产生15个约简集,各自包含不同的属性. 条件属性集的核为 o(C)={A,T,G,W}∩{A,T,F,S}∩{A,T,F,E,W}∩{H,G,S,E}∩{A,T,W,H}∩{A,T,S,E}∩{A,F,S,E,H}∩{A,F,S,W,H}∩{H,G,S,W}∩{T,G,S,E,H}∩{T,F,G,S,H}∩{A,S,E,W,H}∩{T,F,G,E,W,H}∩{F,G,S,E,H}∩{T,G,S,W,H}={φ} 根据式(1)分别对8个属性的重要度进行计算,结果见图1. 图1显示:船舶类型的影响程度最大,其次是人为因素,再次是事故发生时间段、天气、事故类型、吨位、船龄和船旗国.船旗国对事故的影响程度最小. 图1 各条件属性与重要度 15个约简后的集合对应产生不相同的916条规则,与没有约简的决策规则集相比扩大近9倍.规则集样本的扩大提高了决策规则的可靠性. 3.2 海事事故主要影响因素数据挖掘结果分析 在已得到的决策规则基础上,运用粗糙集的属性值的隶属度公式(2),计算出决策表中各条件属性相对于不同决策属性值的隶属度.图2为各人为因素与不同等级海事事故的隶属度关系曲线. 图2 不同人为因素相对事故等级的隶属度 3.2.1 人为影响因素数据挖掘结果分析 由图2可知:不管是重大事故还是一般事故,人为因素与事故发生的隶属度成正比,即失误程度越大,发生事故的可能性越大,造成的损失也越大.但人为处理得当或无明显失误对重大事故的影响比对一般性事故的影响更大,反映出人员处理事故的能力对事故损失影响的重要性.因此,提高人员对事故的应变能力对避免重大事故的发生有重要作用.船公司应对船上人员进行安全培训,提高业务处理水平和安全意识,减少重大人为失误的发生. 3.2.2 船舶影响因素数据挖掘结果及分析 (1)事故船舶类型因素.图3显示:干散货船、油船和集装箱船发生重大事故与一般事故的隶属度趋势基本一致.大型集装箱船与油船等专业性船舶发生大事故及以上事故的隶属度相对较低,也就是发生事故后出现严重受损的可能性较低.由此可见提升船舶的专业化有助于提高船舶的安全性.其中集装箱船发生事故的隶属度在这3类船舶中最低,反映出集装箱船的安全性能较好.而渔船、游艇等小型船、客船及滚装船、多用途船舶发生重大事故的隶属度明显高于其他船型,极易发生船舶全损及沉没等大事故及以上事故,因此应加强这类船舶的安全管理. (2)船龄因素的隶属度.图4显示:船龄在5~10年的船舶发生事故的隶属度最低,表明这一船龄段船舶与人员环境等磨合得较好,发生事故的概率较低.新船船龄在0~5年的船舶比5~10年船龄的船舶更易发生事故.随着船龄增大、船体腐蚀、设备老化等,大事故及以上事故的隶属度呈逐渐增大的趋势.船龄在30年及以上船舶发生大事故及以上等级事故的隶属度接近0.6,表明老龄船舶发生严重事故的危险度比较高.船龄在10~20年时船舶发生一般及以下等级事故的隶属度稍高,0~5年船舶发生一般及以下等级事故的隶属度稍低. 图3 不同船舶类型相对事故等级的隶属度 图4 船龄因素相对事故等级的隶属度 (3)船舶吨位的隶属度.图5显示:船舶小于500总吨时,发生事故的危险程度明显高于其他吨位级别的船舶,极易发生船舶全损的危险事故.船舶吨位在30 000总吨以上的船舶发生大事故及以上等级事故的隶属度明显低于中等及以下吨位船舶的隶属度.由此可见船舶的大型化有助于提高船舶的安全性.船舶吨位在500~10 000总吨时发生一般及以下等级事故的隶属度比较高,明显高于其他吨位船舶.大于30 000总吨时发生一般及以下等级事故的隶属度最低. 图5 船舶吨位因素相对事故等级的隶属度 (4)船旗国的隶属度.图6显示:船旗国为美洲国家时船舶发生大事故及以上等级事故的隶属度最高.可能主要源于很多船公司为节省费用挂南美洲国家如巴拿马及其他国家的船旗有关.欧洲船旗国的事故隶属度较低.船旗国属于美洲和亚洲国家的船舶发生一般及以下等级事故的隶属度明显高于其他各洲,且美洲稍高于亚洲. 图6 船旗国因素相对事故等级的隶属度 3.2.3 外部环境影响因素数据挖掘结果及分析 (1)事故发生时间因素的隶属度.图7显示:在[0000,0400],[0400,0800],[2000,2400]时间段发生大事故及以上事故的隶属度较高,尤其在[0000,0400]时间段达到最高,即该时间段最易发生大事故,可能是因为船员疲劳造成的.同时可以看出夜晚发生事故的概率明显大于白天.这可能是因为在夜晚航行中,发生突发事件时,人的视觉、注意力和反应判断能力受到影响所致.在[1600,2000]时间段发生一般及以下等级事故的隶属度高于其他时间段,[0800,1200]发生事故的隶属度最低. 图7 事故发生时间因素相对事故等级的隶属度 (2)事故类型的隶属度.图8显示:船舶碰撞情况下发生大事故或以上事故的隶属度最高;火灾或爆炸、设备机器故障、搁浅或沉没情况下发生大事故或以上事故的隶属度大体相当.而对于一般及以下等级事故碰撞及搁浅或沉没的隶属度较高.搁浅或沉没情况下发生大事故或以上事故与发生一般及以下等级事故的隶属度大体相当. 图8 事故类型相对事故等级的隶属度 (3)气象因素的隶属度.图9显示:大雾、能见度低情况下发生大事故或以上事故的隶属度稍高于大风或大浪,可能是因为大雾或其他恶劣天气的能见度低,导致船舶碰撞、搁浅及触礁的事故更容易发生.而一旦发生此类事故很可能造成船舶人员伤亡及经济损失.大风或大浪条件下发生一般及以下等级事故的隶属度最高,天气良好时发生一般及以下等级事故的隶属度最低. 图9 气象因素相对事故等级的隶属度 以国内外最新的100份海事事故报告为样本,运用粗糙集理论从人、船、环境的角度研究事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人为因素与事故等级之间的重要性隶属度关系,克服主观影响,所得结论具有一定的普遍性. 本文的研究结论在人为因素、事故类型、天气因素及船旗国因素对事故等级的影响方面与以往学者的研究结论基本一致:即人为因素与事故发生的隶属度成正比;碰撞型事故类型在各事故中隶属度最高;天气越恶劣,事故发生隶属度越高;船旗国为美洲国家的船舶发生大事故及以上等级事故的隶属度最高. 在事故发生时间、船龄、船舶类型及船舶吨位与海事事故的关系方面,本文的研究结论与以往学者的研究结论有所不同,结果显示: (1)在[0000,0400]时间段发生大事故及以上等级海事事故的概率较高,与闫化然[6]对碰撞事故的研究结论有所不同,表明不同类型事故的高发时间段存在差异. (2)5~10年船龄的船舶事故隶属度最低.0~5年船龄的船舶比5~10年船龄的船舶事故隶属度高,说明新船比5~10年船龄的船舶更易发生事故.原因可能在于新船需要在人、船舶、环境和管理上更好地磨合,但在磨合中比较容易出现事故.这点在海事事故以往的研究中未有体现. (3)总体上事故碰撞率与船舶吨位大小成反比,但500总吨以下小船的碰撞危险度最高. (4)渔船、游艇、杂货船发生事故的隶属度较高,比较容易引发大事故及以上等级事故.集装箱船等大型专业化船舶发生事故的隶属度较低,不易发生重大事故,但三大主力船型中的散货船发生一般事故的隶属度最高,更易发生事故. 参考文献: [1] SCHRÖDER-HINRICHS J U, BALDAUF M, GHIRXI K T. Accident investigation reporting deficiencies related to organizational factors in machinery space fires and explosions[J]. Accident Anal & Prevention, 2011, 43(3): 1187-1196. [2] LENNÉ M G, SALMON P M, LIU C C,etal. A systems approach to accident causation in mining: an application of the HFACS method[J]. Accident Anal & Prevention, 2012, (48): 111-117. [3] CELIK M, LAVASANI S M, WANG J. A risk-based modeling approach to enhance shipping accident investigation[J]. Safety Sci, 2010, 48(1): 18-27. [4] KOKOTOS D X, LINARDATOS D S. An application of data mining tools for the study of shipping safety in restricted waters[J]. Safety Sci, 2011, 49(2): 192-197. [5] 刘正江, 吴兆麟. 基于船舶碰撞事故调查报告的人的因素数据挖掘[J]. 中国航海, 2004, 59(2): 1-6. [6] 闫化然. 基于粗糙集的船舶碰撞受损的影响因素分析研究[D]. 大连: 大连海事大学, 2011. [7] 邹建军, 胡以怀. 船舶机损事故中人为失误的分析[J]. 上海海运学院学报, 2003, 24(2): 119-123. [8] 徐东华, 吴兆麟. 基于粗糙集数据约简的海事事故致因研究[J]. 大连海事大学学报, 2009, 35(3): 37-39. [9] 刘茹茹,胡勤友.一种主观的船舶碰撞危险度评价模型[J]. 上海海事大学学报, 2012, 33(1): 41-44. [10] 郑滨, 金永兴. 基于属性约简的海事人为失误致因分析[J]. 上海海事大学学报, 2010, 31(1): 91-94. [11] PAWLAK Z. Rough set[J]. Int J Comput & Inform Sci, 1982, 11(5): 341-356 [12] 张文修, 吴伟志, 梁吉业, 等. 粗糙集理论与方法[M]. 北京: 科学出版社, 2001. [13] PAWLAK Z. Rough sets: theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic Publishers, 1991. 随着国家对知识和人才的不断重视,科技奖励评价结果的科学性、公平性、客观性越来越受到人们的关注。科技成果作为衡量科技进步的重要标志之一,既是科技工作者劳动和智慧的结晶,也是国家创新进程和社会发展的重要体现。如何合理、科学、有效地评价科技成果,为指导科技奖励评价提供理论和方法依据,显得尤为重要。因此,构建全面合理的科技奖励评价指标体系并将科学评价理论、方法和技术运用到科技奖励评审工作中成为未来科技奖励研究的重点内容。 美国社会学家、结构功能主义的代表人物之一默顿首次提出科技奖励这一概念。之后,科技奖励在各国家得到了不同程度的完善和发展。我国有不少专家和学者在这方面做了诸多有价值的研究。在科技奖励评价指标体系的相关问题研究上,主要集中在科技奖励指标体系的构建、设计原则、结构划分及与国外科技奖励体系的异同,如钟书华等、尚宇红等、郭远峰等、徐安等[1,2,3,4]。在科技奖励评价的方法上,传统的科技奖励评价方法有德尔菲法、同行评议法、层次分析法、模糊综合评价法。由于传统的评价方法主观性强,容易受到专家个人的情感、知识等因素的影响,不能很好的保证评价结果的科学性和公平性。为此,一些学者提出了一些新的评价模型,如胡宗义等、王瑛等、张立军等[5,6,7,8,9]。这些模型能够较好的提高评价的准确性和精确度。但由于不同模型的评价机理不同,对原始信息提取的角度不同,所以评价结果并不完全相同。采用单一模型对科技奖励进行评价显然具有一定的片面性。为了解决单一模型评价的片面性,马溪骏等提出了基于兼容一致性方法集成组合评价模型[10]。陈国宏等分别运用大量的随机模拟数据和实例数据对不同评价方法的组合和再组合进行计算机模拟,经过若干次组合后,得到了一致性的评价结果[11]。毛定祥提出了一种最小二乘意义下主客观评价一致性的组合评价方法[12]。唐俊等从概率的角度对3种组合评价方法的有效性进行了比较分析[13]。 综上所述,组合评价模型的基本思想是博采众多模型的优点,将多个不同模型的信息进行组合以便有效地改善模型的评价能力,提高模型的精度。组合评价模型的关键在权重系数的确定上,这也是组合模型的难点所在。而现有文献在确定每种模型的权重系数时主观性强,很难准确反映每种模型在组合模型中的权重,这会严重降低评价结果的可信度。针对这种问题,本文提出综合运用多种模型对科技奖励进行评价的组合模型,利用粗糙集理论确定每种模型的权重系数,以减少主观赋权的随意性,这样能够充分提取原始评价信息,最大限度的减少由单一科技奖励评价模型产生的片面性,提高评价结果的客观性、可靠性。 2 基于粗糙集的组合评价模型 2.1 粗糙集理论的预备知识[14] 粗糙集理论是由波兰学者Pawlak Z在1982年提出的。粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识简约,导出问题的决策或分类规则。目前,粗糙集理论已被成功地运用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。 (1)知识、知识库 假设U≠∅是我们研究对象组成的有限集合,称为论域。任何子集X⊆U,称为U中的一个概念。U中的任何概念族称为关于U的抽象知识,简称知识。我们将在U上能形成划分的那些知识作为研究对象。一个划分U上的一族划分称为关于U上的一个知识库(knowledge base)。R是U上的一个等价关系,U/R表示R的所有等价类(或者U上的分类)构成的集合,[x]R表示包含元素x∈U的R等价类。一个知识库就是一个关系系统K=(U,R),其中R是U上的一族等价关系。 (2)上近似、下近似 若Q⊆R,且P≠∅,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分(indiscernibility)关系,记为ind(P),且有,给定知识库K=(U,R),对于每个子集X⊆U和一个等价关系R∈ind(K),定义两个子集: 分别称他们为X的R下近似集合R上近似集. 集合称为X的R边界域;称为X的R正域;称X为的R负域。显然:是由那些根据知识R判断肯定属于X的U中元素组成的集合;是那些根据知识R判断可能属于X的U中元素组成的集合;bnR(X)是那些根据知识R既不能肯定判断肯定属于X又不能判断肯定属于~X(即U-X)的U中元素组成的集合;negR(X)是那些根据知识R判断肯定不属于X的U中元素组成的集合。 (3)精度 集合的不精确性是由于边界域的存在而引起的。集合的边界域越大,其精确性则越低,为了更准确地表达这一点,引入精度的概念。由等价关系R定义的集合X的近似精度为 其中X≠∅,|X|表示集合X的基数。 精度αR(X)用来反映对于了解集合X的知识的完全程度。显然,对于每一个R和X⊆U有0≤αR(X)≤1。当αR(X)=1时,X的R边界域为空集,集合X为R可定义的;当αR(X)<1时,集合X有非空边R界域,集合X为R不可定义的。 (4)知识的依赖性 令K=(U,R)为一知识库,且P,Q⊆R。 k=rp(Q)=|posp(Q)|/|U| (2) 称知识Q是k(0≤k≤1)度依赖于知识P的,记作P⇒kQ。当k=1时,称Q完全依赖于P;当0<k<1时,称Q粗糙依赖于P;当k=0时,称Q完全独立于P。 (5)属性的重要性 设s=(U,A,V,f)为一知识表达系统,A=C∪D,C∩D=∅,C称为条件属性集,D称为决策属性集。具有条件属性和决策属性的知识表达系统称为决策表。 在决策表中,不同的属性可能具有不同的重要性。为了找出某些属性的重要性,可从表中去掉一些属性,再来考察没有该属性后分类会怎样变化。若去掉该属性相应分类变化较大,则说明该属性的强度大,即重要性高;反正,说明该属性的强度小,即重要性低。 令C和D分别为条件属性和决策属性,属性子集C' ⊆C关于D的重要性定义为: σCD(C' )=γC(D)-γC-C'(D) (3) 2.2 组合评价模型的构建 利用粗糙集理论和信息熵,初步筛选出符合条件的评价模型,分别运用各种模型对科技奖励进行评价,并对模型结果进行一致性检验,进一步筛选出符合条件的模型,形成模型集,计算每种模型的重要程度,运用归一化法得到每种模型的权重系数,最后得到组合评价的最终结果。 (1)评价模型的筛选 假设有n个项目的评价数据,由于粗糙集只能对离散型的数据进行处理,因此有必要对数据进行离散化。单一模型之间是存在漂移度的,因此每种模型重要性不同。在对同一个项目进行评价时,适用的模型在组合过程中的权重是不一样的,而有些模型是多余的,因此有必要进行模型的筛选。 第一次筛选:首先计算模型子集M⊆A的信息熵[15] 其中等价关系ind(M),M⊆A构成U的一个划分,U/ind(M)={X1,X2……Xn};表示集合Xi的基数,i=1,2,……n。 对于知识表达系统S=(U,A,V,f),单一的模型在可行模型集合A的重要性定义为: S(b)=abs(M(A)-M(A-{a})) (5) abs(y)表示y的绝对值,当S(b)大于0时称该模型是必要的,保留该模型;等于0时该模型是冗余的,删除该模型。将保留下来的模型记为D={d1,d2,……ds}; 第二次筛选:利用新的信息表再次计算模型集D中各模型的重要程度S(dj),同时计算模型集合D各模型的相关性,若两种模型的相关程度大于某一个给定的阈值,依据重要性程度把相对重要性小的单一模型删除。 经过两次筛选,最终得到了较科学的模型集E={e1,e2,……ep}。 (2)模型结果的一致性检验 分别运用可行模型集对科技奖励进行评价,得到各种模型下各项目的排序结果;然后采用Kendall's W 协和系数对评价结果的排序进行一致性检验。 Kendall's W协和系数的计算公式如下[16]。 式中S为项目j在K种评价模型下的秩和Rj与其平均值之差的平方和。即 ; Rij为项目j在i模型中的秩,K为所用评价模型的种数,N为待评价项目的个数。 W的检验: H0:K种评价模型所得的秩评不具有一致性。 H1:K种评价模型所得的秩评具有一致性。 当N>7,检验统计量X2=k(N-1)W近似服从自由度为N-1的χ2分布。当(α为置信水平)时拒绝原假设,认为K中评价模型所得的秩评之间具有一致性。否则需要针对不一致性采取相应的处理措施。 (3)确定各模型的权重系数 应用信息熵计算可行模型集E中各单一模型的重要程度S(ei),对所得的数值进行归一化处理即可得到单一模型的权重系数。归一化的处理公式为 所形成的权重向量为 W=(w1,w2,w3…wm)1×mT (4)项目得分的标准化处理 将每一种评价模型所得的项目评分值进行标准化处理。为了使标准化以后的数据范围落在[0,1]上,采用极值法对数据进行标准化,计算公式如下: 标准化后,所形成的标准得分矩阵为 其中:yij代表第i个项目第j模型的标准分,xij代表第i个项目第j种评价模型的得分值,max{xij}、min{xij}分别为第j种模型项目得分的最大值与最小值。 (5)计算每个项目的组合评价值 Y'=(y'i)n×1=Y×W (7) 其中y'i为第i个项目的最终评价值。 2.3 基于粗糙集的科技奖励组合评价模型的流程图 3 实证分析及结果 3.1 原始数据来源 本文结合国家科技五大奖之一的国家科学技术进步奖(社会公益项目),选用25位专家对24个项目的5个指标(技术创新程度、技术经济指标的先进程度、技术创新对提高市场竞争力的作用、已获经济效益、推动科技进步的作用)打分的数据进行实证研究(资料来源:科技部国家科技奖励办公室,原始数据略)。 3.2 多种模型的应用与筛选 运用Matlab7.0软件进行编程,分别采用未确知测度评分模型、模糊灰色关联分析模型、E-BP神经网络模型、基于路径系数权重模型、模糊多属性投影模型(以下分别简称:模型1、模型2、模型3、模型4、模型5)对24个项目评价。整理结果如表1所示(括号内数字为项目得分,括号外数字为项目排名,Ii表示第i个项目): 然后应用公式(4)、(5),通过二次筛选后,删除模型3,保留模型1、模型2、模型4、模型5。 3.3 模型的一致性检验 由表1可以看出,不同模型对项目的评价结果不尽相同。运用SPSS18.0中的非参检验对评价结果进行一致性检验。检验结果如表2: 如表2所示:Kendall's W协和系数检验W=0.943,P值为.000远远小于0.05,说明4种模型对项目的评价具有一致性,可进一步做系统综合评价。 3.4 模型权重系数的确定 利用公式(6),可以计算得到四种单一模型组合方法的权重系数分别为 3.5 项目得分标准化处理 将项目得分值标准化处理后,所形成的标准得分矩阵为: 3.6 计算最终评价结果 由公式(7),可计算每个项目的组合得分及排名,结果见表3: 4 结论 针对科技奖励评价中单一评价模型的不全面性问题,提出了基于粗糙集理论的组合评价模型,并结合国家科技五大奖之一的国家科技进步奖(社会公益项目)进行了实证研究。结果表明该模型能够弥补单一评价模型的不足,使评价结果更加准确。模型优点主要体现在:该组合模型在选取模型集时,综合运用了粗糙集、信息熵及非参数统计的相关理论,使组合模型集更加科学,利用了各种模型的评价信息对科技奖励进行评价,结果更符合客观事实;运用粗糙集的信息熵理论确定模型的权重系数,该方法可行性强,能够保证在对各模型评价信息不损失的情况下从各模型中所含信息量的大小来确定权重系数,避免了主观因素对权重分配的影响,具有相对客观性,为下一步的综合评价准备了条件;该模型亦可推广到对其他领域的综合评价问题。科技奖励综合评价是一个系统工程,从指标体系的构建、指标权重的确定到模型的选取,这些环节是环环相扣的,只有保证每一环节达到最优,才能最大限度的提高评价结果的真实性。 通过分析AHP在求解过程中存在的不足,结合粗糙集理论强大的`定性分析能力,提出了AHP和粗糙集相结合二阶段求解的基本思路,并针对物流服务商评价问题的一个具体实例,阐述了如何应用AHP和粗糙集二阶段方法对物流服务商进行评价.评价结果表明,新提出的二阶段评价方法与AHP、AHP-TOPSIS方法、突变理论相比较,它对于最优企业的选取,无疑是一个重要的决策参考. 作 者:王富忠 沈祖志 姜巍 余福茂 WANG Fu-zhong SHEN Zu-zhi JIANG Wei YU Fu-mao 作者单位:王富忠,WANG Fu-zhong(浙江科技学院,经济管理学院,杭州,310023) 沈祖志,姜巍,SHEN Zu-zhi,JIANG Wei(浙江大学,管理学院,杭州,310027) 余福茂,YU Fu-mao(杭州电子科技大学,管理学院,杭州,310018) 摘 要:为了从海量的信息资源库中快速、准确地进行分类并提 取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性 约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征 选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对 该混合算法进行比较,验证该算法的可行性。 关键词:Web文本分类;粗糙集;KNN;属性约简 中图分类号:TP399 文献标识码:A 文章编号:1672-1098(2008)04-0089-04 收稿日期:2008-06-30 作者简介:桂海霞(1978-),女,安徽桐城人,讲师,硕士,研究方向 为系统工程。Research of Web Text Classification Based on Rough Set and KNN GUI Hai-xia,MENG Xiang-rui (School of Economics and Management, Anhui University of Scienc e and Technology, Huainan Anhui 232001,China) Abstract: In order to quickly and precisely classify and search u seful information from huge information database, in the paper a kind of mixed m odel of web text classification based on rough set and KNN was introduced. By us ing the theory of attributes reduction of rough set, number of vector dimensions in text classification process was reduced. A kind of simplified algorithm for attributes reduction based on distinct matrix was used. In the process of featur e selection, method of mutual information was used. Experiments with the mixed m odel were conducted. The results compared with traditional KNN method show that the mixed algorithm is feasible. Key words:web text classification;rough set; K nearest ne ig hbor; attributes reduction 目前,随着Internet 的日益发展和网上各类信息的迅猛增长,用户对散布在网络各处的文档的检索工作变得愈加 困难,这就对Web文档分类系统的研究与实现提出了更高的要求。Web文本自动分类通常指将 一篇文章指定至一个或几个预定义的文本类别中。现有的文本分类方法主要有支持向量机(S VM )、K最近邻(KNN)、决策树、线性最小二乘法估计(LLSF)和贝叶斯分类算法(Bayes)等。 不难发现在这些分类方法中普遍存在一个共同的问题:这些分类方法在训练和分类过程中, 不能很好的处理高维数据,过多和烦杂的计算量大大限制了分类方法的分类效率的提高。而 目前,在信息处理和文本分类领域得到广泛应用的粗糙集理论可以很好的解决这个问题。粗 糙集的约简理论能够大大缩减文本分类过程中的向量维数,从而降低了计算复杂度,提高了 分类效率。本文将介绍一种基于粗糙集和KNN混合的Web文本分类方法,并在实验的基础上验 证了该混合方法的可行性,取得满意的效果。 1 粗糙集与KNN的Web文本分类法1.1 粗糙集概述粗糙集是用来研究不完整数据、不精确知识的表达、学习、归纳等方法。粗糙集[1] 理论的研究对象是一个由多值属性集合描述的对象集合——信息系统。对于每个对象及其 属性都有一个值作为其描述符号,对象、属性和描述符是表达决策问题的三个基本要素:这 种表达形式可以看成是一个二维表格,表格的行与对象相对应,列与对象的属性相对应。各 行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对 象的可得到的信息不一定足以划分其成员类别,这种不精确性导致了对象间的不可分辨性。 在粗糙集理论中用等价类形成的上近似和下近似来描述集合的粗糙性。上近似和下近似的差 是一个边界集合,它包含了所有不能确切地判定是否属于给定类的对象。粗糙集理论的主要 特点在于它恰好反映了人们以不完全的信息或知识去处理一些不分明现象的常规性,依据观 察、度量到的某些不精确的结果而进行分类数据的能力。 粗糙集方法可以解决重要的分类问题,去除冗余属性,进行属性的约简,还可以用决策规则 集合的形式表示最重要属性和特定分类之间的所有重要关系。本文将这一理论应用到文本分 类的训练阶段,用粗糙集的属性约简算法实现规则的提取,然后结合KNN分类方法对文本进 行分类。 1.2 KNN分类算法简介最初的近邻法是由Cover和Hart于1968年提出的,直至现在仍是分类方法中最重要的方法之 一。直观地理解,K近邻,就是考察和待分类文本最相似的K篇文本,根据这K篇文本的类别 来判断待分类文本的类别值。相似值的判断可以使用欧拉距离,或是余弦相似度等。而最相 似的K篇文本按其和待分类文本的相似度高低对类别值予以加权平均,从而预测待分类文本 的类别值。在新文本的K个邻居中,依次计算每类的权重,计算公式如下 p(xi[TX-],Cj)=∑[DD(X]di∈KNN[DD)]sim (x[TX-],di)y(ki,Cj) 式中:x[TX-]为新文本的特征向量,sim (x[TX-],di)为相似度计算公式,而y(d i ,Cj)为类别属性函数,如果特征属于类Cj,那么函数值为l,否则为0。比较类的权重 ,将文本分到权重最大的那个类别中。 在K近邻分类器中,一个重要的参数是K值的选择,K值选择过小,不能充分体现待分类文本 的特点,而如果K值选择过大,则一些和待分类文本实际上并不相似的文本亦被包含进来, 造成噪声增加而导致分类效果的降低。 1.3 基于粗糙集与KNN的Web文本分类模型KNN分类算法具备简单易懂并容易实现的优点,但也存在一些问题,需要将所有样本存入计 算机中,每次决策都要计算识别样本与全部训练样本之间的距离进行比较。尤其是文本训练 集较大时,计算新文档时存储量和计算量都比较大,大大降低了分类算法和分类系统的效率 。 鉴于粗糙集的约简理论能够可以有效的去掉信息系统中的冗余属性,大大缩减文本分类过程 中的向量维数,降低了计算复杂度,同时又不影响分类区分能力,从而提高了分类效率。本 文利用粗糙集的上述优点并结合KNN分类方法,提出了一种混合的Web文本分类模型[2 ],其分类过程和结构如图1所示。[FL)]图1 基于粗糙集和KNN的混合分类模型 图1给出了基于粗糙集和KNN进行文本分类模型。整个建立模型的过程由基于粗糙集的预处理 和KNN分类两部分组成。经过特征选择和权重的离散化,就可以构造决策表,把粗糙集作为 预处理,对决策表进行属性约简,这种约简把冗余的属性从决策表中删去并且不损失任何有 效信息。然后该算法从前端转向后端处理,即从粗糙集转向KNN方法的训练与测试。分类模 型中粗糙集作为KNN方法的一个前端处理器,经过粗糙集的属性约简和冲突约简,进入KNN的 输入量会大大减小,这样相应减小了KNN分类过程中的计算量,节省了训练时间,并在不同 程度上避免了训练模型的过拟合现象,但分类性能并不会降低。 1.4 基于粗糙集与KNN的Web文本分类过程(1) 文本预处理和分词 Internet上的大部分网页是HTML文档或XML文档,文本的预处理首 先要做的是,利用网页信息抽取模块将网页的内容,去掉跟文本挖掘无关的标记,例如HTML 中的Tag,去除禁用词、词根还原等,然后转换成统一格式的TXT文本存放在文件夹中以备后 续处理。 经过上述的除去标记、禁用词等预处理操作后,就要对文本进行分词处理。文本分词主要有 三种方法:基于字符串匹配的方法、基于理解的方法和基于统计的方法。本文中采取了基于 统计的分词方法,这种分词方法利用了一种基于统计学的 N-Gram技术[3],根据相 邻字的共现频率自动提取特征,使文本数据分类实现了分类的领域无关性和时间无关性。它 无需任何词典支持,对输入文本所需的先验知识少。 (2) 特征提取和权值离散化 训练文本和待分类文本经过分词并去除停用词和高频词后,表 示文本的向量空间和类别向量的维数也是相当大的,因此需要进行特征项的抽取。 特征提取[4]是文本分类系统中十分关键的问题,它可降低向量空间的维数,提高 系统的速度和精度,还可以防止过拟合。由于本文中采用了向量空间模型作为文本的表示方 式,因此特征提取方法就相应的采用了统计的方法,首先利用不同的方法对特征项进行评分 。对于待分类文本来说就是计算权重,通过一定的方法计算出权重然后选出分值较高的作为 特征构成文本的向量空间。常用的特征提取方法有:互信息、信息增益、期望交叉熵和文本 证据权等等,本文中采用了是互信息特征提取方法。互信息是统计学和信息论中一个重要的 概念,它表现了两个统计量间相互关联的程度,关联程度越高,互信息越大,反之亦然。特 征项与类别的互信息量可以用如下公式计算 Txt(w)=∑[DD(X]i[DD)]p(ci)log[SX(]p(w|ci)[]p(ci)[SX)] 式中:p(w|ci)为训练语料中特征项w出现在类别ci中的频率,p(ci)为ci类文 本在语料中出现的频率。为了避免特征项过多造成系统的过拟合现象,计算出所 有特征项的互信息量后,我们要将互信息量从大到小排序,然后选出分值较高的前K个作为 特征构成特征向量空间。 特征提取具体步骤如下: Stepl:对于特征项集合中的每个词,计算词和类别的互信息量使用上述公式。 Step2:对于该类中所有的词,依据计算出来的互信息量排序。 Step3:抽取一定数量(K个)的词作为特征项,K值的具体值一般先采用初始值,然后可以根据 实验和统计结果确定最佳值。 Step4:将每类中的所有的训练文本,根据抽取的特征项,表示成向量形式。 计算了各个特征项的权重并提取了相应的特征向量以后,由于本文中要应用粗糙集理论,对 于连续的数据必须先进行离散化,也就是将各属性的取值区间划分为若干段,各段以不同的 离散值代表。在保持分类能力的情况下,划分区间越少越好。目前相关文献提出了很多种离 散化方法,有等距离划分法、等频率划分法和自适应离散化法等等,本文中采用了等距离划 分方法。(3) 构造决策表 粗糙集理论中用决策表来描述论域中的对象。它是一类特殊而重要的信息知识表达系统。在 此用决策表来表示分类知识:每类中的所有文本的集合作为论域,文本作为论域中的对象, 特征词的集合作为属性集,即把特征词作为属性,离散化之后的词语的权值作为属性的取值 ,若文档中没有某词,则该词在文档中属性值为0(见表1)。 表1 决策表 文本特 征T1[]T2[]T3[]…[]Ti[]所属类别D1[]5[]4[]1[]…[]5[]C1[BHDWG2]D2[]0[]3[]7[]…[]2[]C2[BH]…[]…[]…[]…[]…[]…[]…[BH]Di[]…[]…[]…[]…[]…[]Ci其中Ti表示特征项,Ci是文本Di的类别表示,表中数字是离散 化后的特征权值。 (4) 属性约简算法 属性约简是粗糙集理论研究的一个核心内容,它通过从属性集合中发现 部分必要的属性,使得这部分属性相对于所有属性有相同的分类能力。由Skowron A提出的 分明矩阵[5]可将求属性约简的问题转变为由合取范式到析取范式转化的问题,其 主要思想是利用逻辑运算使得约简后的属性集与每个非空的分明矩阵元素相交都不为空,从 而所有对象两两之间都有可以相互区分的属性。如果一个矩阵元素只包含单个属性,则称该 属性为核属性,它唯一能区分这个矩阵元素所对应的两个对象。核属性是不可约去的,可作 为最佳属性约简的起点,其它有用属性需从不含核属性的矩阵元素中得出。本文中的属性约 简算法就是基于分明矩阵进行属性约简的,同时结合具体研究问题,具体算法步骤描述如下 : Step1:对于训练文本集和测试文本集合中的每一个文本,计算其相应的分明矩阵M ; Step2:对于所有Cij=1的矩阵元素,将其所包含的属性组成核属性集合C0 ; Step3:将所有不含核属性的非空矩阵元素Cij (矩阵元素Cij是属性的析取 式)建立合取表达式,即L=∧[DD(X]Cij≠φ,c0∩cij=φ[DD)]cij; Step4:将此合取式L转化为析取式:L′=∨[DD(X]i[DD)]Li其中每个Li所包含的属 性与C0一起组成一个属性约简结果。 可以看出,这种约简方法是根据论域中对象的属性取值来得到的,不依赖于人们的任何先验 知识,因此它更具有客观性。 2 实验测试与分析 实验数据来源于从新浪网站上选取的300篇文档,手工分为数码、手机、房产、政治、财经5 个类别。我们将其中的240篇文档构成训练文档集合,另外的60篇作为测试文本集合。采用 通用的召回率和准确率对系统性能进行测试,其中召回率是被判定为相关的相关文本占全部 相关文本的比率;准确率是被判定为相关的文本中真正相关的文本所占的比率。准确率和召 回率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,所以还使用两者综合 考虑的评估指标:F1测试值,其数学公式为 F1指数=准确率×召回率×2准确率+召回率 同时为了跟其他分类方法之间进行比较,本文还选用了KNN文本分类法一同进行分类实验, 通过实验得到了如下数据(见表2)。 表2 实验数据表 分类方法分类质量数码手机房产政治财经KNN法准确率(P)0.9150.9260.9180.7460.917召回率(R)0.8700.8420.9630.7560.885F1测试值0.8920.8820.9400.7510.901粗糙集与 KNN 混合法准确率(P)[]0.923[]0.936[]0.925[]0.755[]0.931[BH]召回率(R)[]0.895[]0.851[]0.970[]0.778[]0.912F1测试值0.9080.8910.9470.7660.921 从表2可以看出,与传统的KNN分类法的结果比较可得,基于粗糙集和KNN的混合分类方法的 准确率和召回率明显得到提高。 3 结束语 本文提出了一种基于粗糙集和KNN的混合文本分类模型,对每个关键步骤进行了详细的介绍 ,其中,分词部分使用了基于统计的分词方法;特征提取部分采用了互信息量计算方法,给 出了具体的算法步骤;在决策表的属性约简步骤中,提出了一种基于分明矩阵的属性约简算 法;最后我们对该混合算法进行了实验,并结合传统的KNN方法对混合算法进行了比较。实 验证明,基于粗糙集和KNN 的混合分类方法是一种性能比较优秀的分类方法,能够明显提高 分类的准确率和召回率,很好地满足了大量的专业网站的 Web知识发现的需求,具有应用可 行性。 参考文献: [1] 李波,李新军.一种基于粗糙集和支持向量机的混合分类算法[J].计算机应 用,2004,24(3):42-46. [2] 孙丽华,张积东,李静梅.一种改进的KNN方法及其在文本分类中的应 用[J].应用科技,2005,32(2):25-27. [3] 胡运发.基于N-Gram 信息的中文文档分类研究[J].中文信息学报,2007,1 5(1):124-128. [4] SUN LI HUA,ZHANG JI DONG,LI JING MEI.An improved k-nearest neighbo r system and its application to Text classification[J].Applied Science and Te chnology.2002,29(2):25-27. [5] 徐风亚,罗振声.文本自动分类中特 征权重算法的改进研究[J].计算机工程与应用,2005,41(1):75-77. 粗糙集理论于1982年由波兰科学家Pawlak提出, 它是一种研究不确定、不完整知识和数据的表达、学习、归纳的理论方法。粗糙集理论引入上近似、下近似等概念开刻画知识的不确定性和模糊性;引入约减和求核进行知识的化简等计算。其中, 上下近似是粗糙集中的基础算子。经典的Pawlak粗糙集利用等价关系将论域分为正域、边界域和负域三个部分。但是, 它要求完全正确的决策才能进入正域, 这种严格的划分导致正域的对象非常少。针对上述Pawlak粗糙集模型没有考虑到容错的问题, 于是Wong和Ziarko将概率近似空间引入到粗糙集的研究中, 并提出0.5概率粗集模型。Ziarko提出了可变精度粗糙集模型。在1990年, Yao, Wong和Lingras提出了更一般性的概率粗糙集模型, 即决策粗糙集模型。随后, Yao进一步提出了三枝决策粗糙集, 它更能代表概率粗糙集的思想, 精确地反映了粗糙集的近似原理, 并可以用来解释实际生活中的很多决策现象。 属性约简是在保持系统分类能力不变的情况下, 为了提高数据处理的效率, 删除其中不重要的和无关属性, 也就是可以用较少的知识获得与原知识库相同的决策能力。属性约简是粗糙集理论的重要研究内容之一, 也是三枝决策粗糙集模型的主要研究内容。Yao和Zhao研究了决策粗糙集的属性约简, 指出决策粗糙集模型的约简理论不同于Pawlak粗糙集模型的约简理论, 它的约简考虑到不同的分类性能。 基于此, 本文主要在分析了决策粗糙集模型下的三枝决策思想的基础上, 介绍了三枝决策问题的粗糙集属性约简模型的属性约简方法, 并与Pawlak粗糙集属性约简、概率粗糙集模型的约简进行了比较, 最后简单说明了三枝决策在实际生活中的应用。 1 三枝决策粗糙集 1.1 决策粗糙集模型 由于在Pawlak粗集中, 只有完全包含于某个概念的等价类才属于集合X, 并没有考虑到规则的容错性, 这就需要引进条件概率、概率粗集等相关概念。Yao在文献[2,7]中论述决策粗糙集可转换为各种概率粗糙集。下面介绍相关决策粗集的基本概念和定义。 定义1 令Pr (X[x]) 表示任何一个实体属于[x]的条件属性X的条件概率。Prundefined表示集合中元素的基数。 定义2 用一对概率阈值来定义概率正、负和边界域。设0≤β<α≤1, 则 (β, α) 概率正、负和边界域为: undefined 当β=0和α=1时, 上述模型将转化为Pawlak粗集模型。β=α=0.5时, 上述模型转换为0.5概率粗集模型。设S= (U, A, V, F) 是一个信息系统, Ω={w1, w2……wn}为n个状态集, A={a1, a2……am}为m个行动集。Pr (Wi|[x]) 表示x在状态wi下地条件概率。λ (aj|wi) 表示在状态wi下做出决策aj的损失。如果对象x采取了行动aj, 则其期望损失为: undefined 贝叶斯决策论很广泛的应用于多个领域。决策粗糙集可以认为是贝叶斯决策理论的一个简单应用, 其描述如下:一个子集C⊆U, 可以构造一个含两个状态的集合Ω={C, Cc}, 对应于粗糙集的三个域, 我们可以构造一个决策动作集A={aP, aB, aN}, 其中, aP, aB和aN分别代表一个对象分类的动作, 即, 选择x∈POS (C) , x∈BND (C) 或x∈NEG (C) 。不同的决策会引导不同的分类错误, 也将产生不同的后果。这可以由一个3×2的矩阵表示, 如表1所示: 其中, λPP, λundefined和λNP分别表示当一个对象属于集合C时, 采用动作aP, aB和aN的损失。λPN, λundefined和λNN分别表示当一个对象不属于集合C时, 采用这些动作的损失。因此, 采取aP, aB和aN3种行动下的期望损失可分别表示为: undefined 根据贝叶斯决策准则, 需要选择期望损失最小的行动集作为最佳行动方案, 于是可得到如下3条决策规则: (P) : Ifundefinedandundefined, decidex∈POS (C) ; (B) : Ifundefinedandundefined, decidex∈BND (C) ; (N) : Ifundefinedandundefined, decidex∈NEG (C) (5) 由Pr (C|[x]) +Pr (Cc|[x]) =1, 上述规则只与概率Pr (C|[x]) 和相关的损失函数λ有关。对于决策代价函数值的大小, 有如下关系λPP≤λBP≤λNP, λNN≤λBN≤λPN。根据上述条件, 决策规则可重新定义为: (P) : If Pr (C|[x]) ≥αand Pr (C|[x]) ≥γ, decidex∈POS (C) ; (B) : If Pr (C|[x]) ≤αand Pr (C|[x]) ≥β, decidex∈BND (C) ; (N) : If Pr (C|[x]) ≤βand Pr (C|[x]) ≤γ, decidex∈NEG (C) ; 其中, α, β和γ记为: undefined undefined undefined (6) 在损失函数中如果增加一个条件:λ (P-B) Nλ (N-B) P>λ (B-N) Nλ (B-P) P, 可以得到α>β。由undefined, 即有α>γ>β≥0。决策规则仅用α和β来定义: (P) : If Pr (C|[x]) ≥α, decidex∈POS (C) ; (B) : If β (N) : If Pr (C|[x]) ≤β, decidex∈NEG (C) ; (7) 决策粗糙集模型不仅基于概率模型, 而且阈值都是可计算得到的。正因如此, 决策粗糙集更能代表一般的概率粗糙集思想。 1.2 三枝决策的决策粗糙集理论 在决策粗糙集理论中, 论域α和β被划分为3个区域, 这3个区域对应了3个规则, 我们把这3个规则称为 (α, β) 三枝决策规则。如图1所示, 具体的说: X发生的概率大于阈值α, 即从正域里获取的规则 (正规则) , 用来接受某事物 (acceptance) ; X发生概率小于阈值β, 即从负域里获取规则 (负规则) , 用来表示拒绝某事物 (rejection) ; X发生的概率介于阈值α和β之间, 即落在边界域上的规则 (边界规则) , 表示需要进一步观察, 即延迟决策 (deferment) 。 2 决策粗糙集理论的约简 属性约简是粗糙集理论的核心。约简是用来解决冗余或者可忽视的知识的问题, 直观地说, 属性约简就是从条件属性中发现部分必要的条件属性, 使这部分条件属性和所有条件属性相对于决策属性有相同的分类能力。 2.1 Pawlak约简 Pawlak约简R⊆C和决策属性D是密切相关的, 它被定义为正域不变的独立条件属性子集。π为条件属性集, πD={D1, D2, ..., Dm}为决策属性划分, πC为条件属性划分。假设一个信息表S= (U, At=C∪{D}, {Va|a∈At}, {Ia|a∈At}) , 一个属性集R⊆C是C关于D的一个pawlak约简, 则它满足如下2个条件: (s) 正域不变性: POSπR (πD) =POSπC (πD) (n) 独立性:∀a∈R, POSπR-{a} (πD) ≠POSπC (πD) (8) 在Pawlak粗糙集模型的约简中, 我们看到了2个极端置信度。根据Pawlk粗糙集中正域的定义, 正规则的置信度 (confidence) 为1。对于边界规则, 它的置信度大于等于0, 它是最小的置信度值。R⊆C是C关于D的一个pawlak约简, 则POSπR (πD) ∩BNDπR (πD) =ϕ;POSπR (πD) ∪BNDπR (πD) =U。POSπR (πD) =POSπC (πD) 等价于BNDπR (πD) =BNDπC (πD) 。因此, 在Pawlak约简中存在隐含的相同的边界域。 2.2 概率粗糙集模型约简 通过对Pawlak粗糙集模型约简的学习和分析, 发现该属性约简方法不适合概率粗糙集模型, 我们定义概率粗糙集模型的属性约简, 假设决定一个信息表, S= (U, At=C∪{D}, {Va|a∈At}, {Ia|a∈At}) 一个属性集R⊆C是C关于D的一个约简, 则它满足如下2个条件: (s) 正域不变性:POSπR (α, β) (πD) =POSπC (α, β) (πD) (n) 独立性: ∀a∈R, POSπR-{a} (α, β) (πD) ≠POSπC (α, β) (πD) (9) 概率粗糙集模型域的定义等价类[x]和决策类的交集不为空, 即[x]∩Dmax ([x]) ≠ϕ。负规则[x]→PDmax ([x]) 由阈值α决定, 边界规则[x]→BDmax ([x]) 由阈值β决定。阈值α可以不是最大值1, β可以不是最小值0。在概率粗糙集模型中, R⊆C是C关于D的一个约简, 则POSπR (πD) ∪BNDπR (πD) ≠U, 因此, 在约简时, 我们可以需要考虑正区域的概率和边界域的概率。 2.3 决策粗糙集约简 在Pawlak粗糙集模型中, 由于正域具有相对于条件属性的单调性, 约简只需保证条件属性相对决策属性的依赖度不变。然而, 在决策粗糙集模型中, 正域不再具有相对于条件属性的单调性, 仅保持依赖度γ不变不能作为决策粗糙集约简的判定依据, 还需要依靠其他的属性集度量标准 , 比如属性的置信度、覆盖度、代价等多个特性。在此对这些度量标准进行简单的介绍。 给定一个规则[x]→Di, 它的置信度被定义为: undefined =undefined (10) 规则的覆盖度可以表示为: undefined =undefined (11) 对于一个规则集而言, 它的共性度量如下: undefined =undefined (12) 对于某些属性而言, 它的表示方法不唯一。通常有三种表示形式:① eP, B, 主要是区分正域和边界域。它允许我们侧重强调正规则的有效性同时保持边界规则的有效性。②将边界规则和正规则相结合, 我们记为eP∪B, 但是这个方法降低了正规则的可信度③eP, P∪B, 分开计算正域和非负域。 考虑到这些度量标准和多个表示方法, Yao和Zhao等人在文献[9]中提出了一种适合决策粗糙集的新的约简方法。 给定一个信息表S= (U, At=C∪{D}, {Va|a∈At}, {Ia|a∈At}) 。假设通过E={e1, e2, ...}我们能够计算S的属性。R⊆C是C关于D的一个约简, 即满足如下2个条件: (s) 性质保留性:e (πD|πR) ≥e (πD|πC) (n) 属性独立性:∀R'⊂R, e (πD|πR') ≥e (πD|πC) (13) 3 结束语 决策粗糙集模型将粗糙集理论、贝叶斯分析以及概率进行结合。该模型是基于Pawlak粗集的容错性较差的基础上提出来的。三枝决策是基于粗糙集的正域、边界域和负域以及假设验证提出的, 它可以用来解释生活中得很多决策现象。比如:医生看病, 肯定的规则[x]→PWc就意味着对病人立即实施治疗;否定的规则[x]→PWH表示不治疗;边界规则[x]→PWc或者[x]→PWH意味着医生要对病人进行进一步的观察。这样的例子还很多。决策粗糙集理论在医疗、管理、网络支持系统、属性选择等方面应用广泛。例如, J.T.Yao等人给出了基于DTRS的医疗网络支持系统, Zhao等人设计了一种基于决策粗糙集方法的电子邮件过滤系统。可见, 决策粗糙集模型在实际生活中应用很广泛。 摘要:三枝决策粗糙集模型作为Pawlak粗糙集模型的推广, 它是将贝叶斯决策过程引入到概率粗集模型中得到的, 其区域分类以正、负和边界为基础, 可以更精确地体现粗糙集的近似基本原理。描述了三枝决策粗糙集模型的约简, 并与Pawlak粗糙集模型、概率粗糙集模型进行比较;最后讨论了三枝决策概率粗糙集在实际问题中的应用。 关键词:三枝决策,概率粗糙集,Pawlak粗糙集,属性约简 参考文献 [1]邱玉霞.进化计算玉粗糙集研究及应用[M].北京:冶金工业出版社, 2009. [2]YAO Y Y, WONG S K M, LINGRAS P.A decision-theoretic ro-ugh set models[C].RAS Z W, ZEMANKOVAM, EMRICHM ML.Proceedings of the 5nd InternationalSymposium on Methodolo-gies for Intelligeny Systems 1990.North-Holland:[s.n.], 1990. [3]YAO Y Y.Three-way decision with probabilistic rough sets[J].In-formation Sciences, 2010 (180) . [4]刘盾, 姚一豫, 李天瑞.三枝决策粗糙集[J].计算机科学:2011 (6) . [5]YAO Y Y, Xiaofei Deng.Sequential three-way decision with proba-bilistic rough sets[J].Information Sciences, 2010 (180) . [6]YAO Y Y.Decision-theoretic rough set models[J].Lecture Notesin Artificial Intelligence, 2007 (4481) . [7]YAO Y Y.Decision-theoretic rough set models[C].Yao J, LingrasP, Wu W Z, et al.Proceedings of the 2nd International conferenceon Rough sets and Knowledge technology 2007, Lecture Notes inComputer Science 4481.Heidelberg:Spring-er, 2007. [8]李华雄, 刘盾, 周献中.决策粗糙集模型研究综述[J].重庆邮电大学学报, 2010 (6) . 本文利用粗糙集决策理论及模糊概念, 针对不同兴趣之间的具有相似性的特点, 设计兴趣向量模型, 并利用权威文档建立兴趣向量数据库的方法, 化计算文档兴趣向量值为计算文档与基本文档之间的兴趣向量值, 在兴趣分类的基础上, 提出了兴趣向量模型, 并且利用文档-词汇矩阵、奇异值分解、粗糙集决策等知识, 设计了一个生成兴趣向量基本数据库的方法, 通过实验表明, 可有效提高信息搜索的效率和质量。 一、个性兴趣库的生成过程 用户个性化兴趣向量的生成过程主要经过选择基本文档库、生成文档词汇矩阵、生成文档符号矩阵和生成兴趣矩阵等4个步骤。其中第一步骤主要任务是选择针对不同兴趣爱好最权威、最有代表性的文档出来, 投入基本文档库备选;第二步是选取特定的词汇, 对各文档进行向量化, 找出文档的基本特性;第三步是寻找并且矩阵化不同文档之间的关系;最后利用模糊理论, 找到文档和兴趣之间的相关性矩阵, 从而完成用户特征兴趣模型的建模过程。 (一) 利用网页链接完成文档集的准备 首先我们收集一定数量的文档数据集, 作为建立兴趣向量库的基础素材。假设对于Ci类兴趣, 有m个文档, 选取n个关键词语, 建立词语-文档矩阵M, 矩阵的每一行代表一个文档, 每一列代表词语在文档中的出现的频率, 即M= (mij) , mij表示第j个词语在第i个文档中出现的频率。 根据链接信息定义权威文档和信息中心 (hub) 文档, 权威文档是指里面包含某专门主题的最值得信赖的内容, 信息中心 (hub) 文档包含权威文档的许多链接。纯文本搜索引擎是用来创建用户查询后得到的根部网页集。根部网页集包含从抓取集中扩展的200个地址集。根部网页集扩展包含这200个地址本身为出链和入链的扩展。通过不断进行权重更新, 就可以确定出权威页面和资源中心页面。图1展示了从文档最基本集向文档基本扩展集的扩展过程。 纯文本搜索引擎的根集并不包含所有与查询相关的权威页面和信息中心页面资源, 通过扩展根集, 基本集可能包含根集中没有的权威和信息中心页面资源。基本集中包含足够多的与查询相关的权威和信息核心页面资源, 为了找到权威和信息中心资源, 反复更新权重是必需的, 其过程如下: 1. 如果I是基本集中的文档, I的权威权重为αI, I的信息中心权重为hi, 且αI和hi都初始化为1。 2. αI和hi用下面的公式更新 αI=∑hj (j是i的入链接) Hi=∑αj (j是i的出链接) 3. 正交化处理, 使得αI和hi的平方和为1 4. 重复2, 3, 直到权威权重和信息中心权重重合。 从相重合的权威权重和信息中心权重中, 找到最佳权威和信心中心资源。 事实上不同兴趣的文档相关性不大, 之间的共性也不多, 本文认为对于不同类型的兴趣Ci, 应该分别选择不同最基本集和收集不同的基本扩展集文档。 (二) 建立基本兴趣向量数据库 1. 准备原始数据 首先收集完兴趣集合C, 并且根据兴趣之间相关度划分集合ICi (0≤i≤n) , 然后可以根据统计结果选定每一类兴趣ICi (0≤i≤n) 的特征词汇向量VOi (0≤i≤n) , 最后还要收集表达一类兴趣的文档, 作为BH文档库。 由于g函数对XH文档库的判断很大程度上依赖于BH文档库, 基本文档对于表达的兴趣必须具有权威性和代表性, 参考文献[6]提出了一个选取基本文档的方法, 最终针对每类兴趣集合ICi (0≤i≤n) 选取一定量的文档BHi (0≤i≤n) 与之对应, 而且BH=BH1∪BH2...∪BHn。 2. 建立文档-词汇矩阵 (Term-Document) 设当前正处理第i类兴趣类集合ICi (0≤i≤n) , 那么对于文档集合BHi, 建立一个文档-词汇矩阵DMi, 矩阵的行列分别代表BHi中的每一个文档和词汇向量VEi中每个词汇在文档中出现的频率。 同理, 对于任何xh∈XHi, 可以统计VOi词汇向量的各关键词在文档xh中出现的频率, 得到文档-词汇向量XP (XP向量中的每一元素代表VOi中一词汇在文档xh中的出现频率) 。 3. 奇异值分解矩阵DM 对n个矩阵DMi (0≤i≤n) 进行奇异值分解, 分解DMi得到DMi=Pi×Di×QiH, 再选择k≤r (r是S的秩) 构造秩为k的近似矩阵DMik=Pik×Dik×QikH, 从而降低了文档-词汇的空间维数[8], 使得原来比较稀松的词语-文档矩阵变得稠密, 而且不同的词语在不同文档中的相对比重发生改变, 词语能更典型的描述文档的特性。以下称此矩阵为扩展文档-词汇矩阵。 同理, 同样对于任何xh∈XHi, 在得到文档-词汇向量XP后, 可以通过公式变换Dxp=XP×Vik×Sik-1, 将XP转化成奇异值分解后的文档-词汇向量的形式。以下称之为扩展文档-词汇向量。 如此以来, 本文就得到了n个不同兴趣类的扩展文档-词汇矩阵。 4. 利用粗糙集理论, 构造决策表 给n个扩展文档-词汇矩阵分别建立一个决策表, 以DMi (0≤i≤n) 为例说明。 DTi= 5. 文档相关度 对于任意xh∈XHi, 判断其是否具有CHA (Xij) 的特性, 是通过文档相关度值来确定。首先集合Xij (0≤j≤k) 中的文档在扩展文档-词汇矩阵DMi中所对于的行是一个向量, 记为DXij。 同时依据第2、3步, 求出文档xh的扩展文档-词汇向量DXP。 再计算Dxij和Dxp的相关度值; 相关度值越大, 表示两文档相似度越大, 一般来讲, 可以选择一个常数β (0≤β≤1) , 当R≥β时, 可以近似认为文档xh与Dxij相关, 从而文档xh具有兴趣ICij。 (三) 新文档P值处理 如图2所示, 任意xh∈XHi, 分别计算它与集合Xij (0≤j≤k) 中每一个文档元素Xijl的相关度Rl=Sim (xh, Xijl) l=1, 2, 3, 4, ……, 取定义MAXR=MAX (R1, R2, R3, ...) , 当MAXR≥β时, 可以认为文档xh有兴趣ICij, 定义P向量的第j分量值为1, 否则认为xh不具备兴趣ICij, 定义P向量的第j分量值为0即可。 同理计算xh与集合Xi*中其他元素的关系, 填充P向量的全部k个分量值。此时P即为文档xh在兴趣集合Xi上的兴趣值。可以再计算xh于其他兴趣集合Xj的P向量, 为了区别表达, 本文记文档xh与兴趣集合Xi计算的P向量为Pi, 则集合P*={P1, P2, P3, ..., Pn}记为文档xh的全兴趣向量矩阵值。 二、实验过程及结果 (一) 选取文章 选取个性化搜索引擎论文90篇, 计算机论文10, 其他论文10篇。 (二) 选取关键词 统计部分个性化搜索引擎论文, 统计出单词8764个, 去掉虚词、高频词和低频词, 从中选取特征词366个。 (三) 建立文档-词汇矩阵 选取80篇个性化搜索引擎论文, 分别计算关键词在其中出现的频率, 构建文档-词语矩阵M= (Mijj) , Mij表示第j个词语在第i篇文章中出现的频率。 (四) 奇异值分解 对上面生成的文档-词语矩阵进行奇异值分解, 并且选取k=24, 从而得到扩展的文档-词汇矩阵Mk。 (五) 实验数据比较 分别选取个性化搜索引擎论文、计算机论文、其他论文各10篇, 对第四步得到的结果分别进行相似性计算, 结果如下表1所示: 三、结论 当然本兴趣向量模型还可以进行更新和改进: (一) 如图3所示, 其中fi (u, d) 其值为0或1, 而实际上, 文档与兴趣之间也存在一个相关度, 可以使用介于0~1之间的数值表示。 (二) 可以使用模型概念网络理论对图3结构建模, 如此即可计算出每一篇文档相对于兴趣的模糊值, 从而更好的提供给个性化搜索引擎排序或者计算文档与用户兴趣相关度。 摘要:本文设计出一个兴趣模型, 该兴趣模型由兴趣概念、词汇、文档、兴趣向量和向量计算函数等五元组来模型化兴趣, 同时收集了一定量的权威文档, 分别计算出它们针对某兴趣的兴趣向量, 并以此兴趣向量为基础, 组建基本兴趣数据库, 以后对任何新文档的兴趣判断都转化为新文档兴趣向量与基本数据库中兴趣向量的相似值判断, 从而解决了文档兴趣类型和兴趣值的问题。实验表明, 该模型提高了用户的检索效率和质量。 关键词:模糊理论,模糊概念网络,粗糙集,兴趣模型 参考文献 【1】L.A.ZADEHFuzzy setsasa basisfor a theory of possibility[J]Fuzzy Sets and Systems19781 (1) :3~28 【2】D.LUCARELLA R.MORARA Fuzzy information retrieval system[J]Journal of Information Science199117 (2) :81~91 【3】PAWLAK Z.Rough sets[J]International Journal of Computer Sciences198211:341~356 【4】AZAR.Y FIAT.A.ETAL Spectral Analysisfor Data Mining[A]Proceed-ings of the Thirty-Third Annual ACM Symposium on Theory of Computing[C]2001:619~626 【5】http://www.cs.berkeley.edu/~nikraves/bisc/sig/internet/msglaz2.htm[EB/OL] 【6】陈敏曹阳一种www搜索引擎的设计与实现[J]计算机工程与应用200207:148~149 【7】CHRISTOS H PAPADIMITRIOU Latent Semantic Indexing:A Probabilistic Analysis[A]In Proceedings of ACM Symposium on Principles of Database Systems[C]1997 粗糙集理论是波兰数学家Pawlak Z W在1982年提出的一种分析数据的数学理论,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[1,2]。 粗糙集理论的特点是不需要预先给定任何先验知识,而是直接从给定问题的描述集合出发,从中发现规则。经过二十多年的发展,粗糙集理论和应用取得了很快的发展,它被认为是一种具有极大潜力和有效的知识获取工具,已成功应用于机器学习、决策分析、图像处理、医疗诊断、模式识别和数据挖掘等领域[3]。数据挖掘就是从大量的数据中,提取人们感兴趣的知识,这些知识是隐含的、事先未知的信息。提取的知识表示为概念、规则、规律和模式等形式。 近年来,以XML[4]为基础的新一代Web环境的出现,很好地兼容了原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML在信息管理、电子商务、个性化出版、移动通信、网络教育、电子文档交换等诸多领域得到了广泛应用,而且其应用范围还在不断扩展。对于这些越来越多的采用XML文档格式进行存储、交换和表现的数据,除了已有的信息抽取、Web搜索等信息处理方法之外,人们越来越需要获取更进一步的、深层次的知识,这就需要对其进行数据挖掘。由于XML是一类半结构化数据,而传统的数据挖掘技术主要面对的是以结构化数据为主的关系数据库、事务数据库和数据仓库,不能直接将传统的基于关系数据库的挖掘方法用于XML数据的挖掘。因此,研究出面向XML数据的挖掘方法成为数据挖掘领域的一项重要课题,XML数据挖掘也成为一个研究热点问题[5,6]。 1 XML数据 XML(Extensible Markup Language)意为可扩展的标记语言,用户可以定义自己的标记,用来描述文档的结构。XML是W3C在1998年制定的一项标准,是标准通用标记语言的SGML的一个子集。XML语言的规范性、灵活性和强大的语言描述能力,能够满足对异构数据进行整合。XML语言已经成为互联网上进行数据表示和数据交换的标准。XML数据模型是一种类似于树结构的层次嵌套模型。构造XML文档的基本成分是元素(Element),元素由标签(Tag)定义,由起始标签、元素内容和结束标签组成。XML文档的样式如下所示。 2粗糙集理论相关基本概念 2.1知识表达系统的定义 知识表达系统的基本成分是研究对象的集合,关于这些对象的知识是通过制定对象的基本特征(属性)和它们的特征值(属性值)来描述的,所以知识表达系统可以形式化表示为:S=(U,A,V,f),其中: U:是一个非空有限对象(元组)集合,称为论域; A:为属性的非空有限集合; V=∪a∈Va,Va是属性a的值域; f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即:Va∈A,x∈U,f(x,a)∈Va。 知识表达系统也称为信息系统。通常也用S=(U,A)代替S=(U,A,V,f)。 当A中的属性集可进一步分解为C和D,且满足A=C∩D,C∩D=φ时,C称为条件属性集,D称为决策属性集。具有条件属性和决策属性的知识表达系统称为决策表。 2.2不可分辨关系 设U为一个有限的非空论域,R为U上的一簇等价关系,若P∈R,且P≠φ,则∩P(所有的P中等价关系的交集)也是一个等价关系,称为P上的不可区分关系,记为ind(P),且有 这样,U/ind(P)表示与等价关系簇P相关的知识,称为知识库K=(U,R)中关于U的P基本知识(P基本集)。 定义2上、下近似集若XU,则称R(X)={x∈U:[x]RX}为X的下近似集,R(X)={x∈U:[x]∩X≠φ}为X的上近似集。R(X)={x∈U:[x]∩X≠φ}。 posR(X)=R(X)称为X的R正域,negR(X)=U-R(X)称为X的R负域。 2.3知识约简与核 知识约简是粗糙集理论的核心内容之一.知识约简就是在保持知识库分类能力不变的条件下,通过消除不必要的知识,最终得到信息系统的分类或决策规则的方法.知识约简分为属性约简和属性值的约简. 定义3设R是一个等价关系族,rR,如果IND(R)=IND(R-{r}),则称r在R中是不必要的;否则称r在R中是必要的。 定义4如果任一rR是R中必要的,则等价关系族R是独立的;否则R是依赖的。 定义5设QP,若Q是独立的,并且IND(Q)=IND(P),则称Q是关系族集P的一个约简。在P中所有不可省的关系集合称为P的核,记为CORE(P)。也就是说P的核等于P中所有约简的交集,即:CORE(P)=∩RED(P),其中RED(P)是P的所有约简的族集。 3基于粗糙集理论的XML数据挖掘模型 基于粗糙集理论的知识获取,主要是通过将XML数据转换成决策表,然后对决策表进行约简,在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对决策表进行约简。决策表中的数据约简分为两部分,一是对属性进行约简,一是对属性值进行约简。 3.1 数据挖掘过程 3.1.1 数据准备 数据准备又可分为3个步骤:数据选取、数据预处理和数据变换。数据选取的目的是确定发现任务的操作对象,即目标XML数据是根据用户的需要从原始XML数据中抽取的一组数据。数据预处理主要是对目标XML数据进行再加工,检查数据的完整性以及数据的一致性,对其中的噪声数据进行处理。一般包括对数据缺省值的处理、数据的离散化等。数据变换的主要目的是削减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。从经过上面处理过的XML数据中挑选出条件特征作为决策表的条件属性,把结果数据的特征作为决策属性。 3.1.2 属性约简 利用区分矩阵从决策表中消去一些不必要的属性,使决策表得到简化。 3.1.3 规则提取 规则提取的过程就是对决策表进行值约简的过程。属性值约简就是在属性约简的基础上,针对每一个决策规则,去除表达该规则的冗余属性值,以便进一步简化决策规则。经过属性值约简之后得到新的信息表,所有属性值均为该表的值核,所有记录均为该信息表的规则。 3.1.4 评价与解释 根据最终用户的决策目的对提取的模式和规则进行分析,删除冗余或无关的规则,把最有价值的规则区分出来。如果模式不满足用户要求,就需要退回到前面的阶段。最后把提取的决策规则表示成XML数据形式。 3.2 约简算法 区分矩阵是由波兰华沙大学的著名数学家Skowron提出来的,是近年来在粗糙集约简上出现的一个有力工具。利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。 定义6 区分矩阵由华沙大学数学家Skowron提出,有系统S=(U,A),其中A=C∪D, a(x)是x在属性a上的值,区分矩阵M为: 定义7 区分函数是从区分矩阵中构造的。约简算法是先求Cij的每个属性的析取,然后再求所有Cij的合取。 基于区分矩阵的属性约简主要思想是通过构造区分矩阵,并且化简由区分矩阵导出的区分函数,在使用吸收律化简区分函数成标准式后,所有的蕴含式包含的属性就是信息系统的所有约简集合,最后选取包含核属性的最小约简集作为最终约简集。用区分矩阵不但可以求得属性约简,同样也可以求属性值约简,这就大大简化了决策表规则提取的算法实现[7]。 属性约简算法描述: 设M是决策表T的可辨识矩阵,A={a1,a2,…,an},是T中所有条件属性的集合。S是M中所有属性组合的集合,且S中不包含重复项。令S中包含有s个属性组合,每个属性组合表示为Bi,其公式化描述为Bi∈S,Bj∈S,Bi≠Bj(i,j=1,2,…,s)。设Card(Bi)=m,则Bi中每个条件属性表示为bi,k∈Bi(k=1,2,…,m)。Redu是决策表T属性约简后得到的属性集合。 算法具体步骤如下。 第1步将核属性列入属性约简后得到的属性集合,即Redu=C0; 第2步在区分矩阵中找出所有不包含核属性的属性组合S,即 Q={Bi,Bi∩Redu≠Ø,i=1,2,…,s},S=S-Q; 第3步将属性组合S表示为合取范式的形式,即 P=∧{∨bi,k:(i=1,2,…,s;k=1,2,…,m)}; 第4步将P转化为析取范式形式; 第5步根据需要选择满意的属性组合。如需属性数最少,可直接选择合取式中属性数最少的组合。 4 实验结果与分析 本文使用Java实现了基于粗糙集理论的XML数据挖掘算法,使用JDOM[8]访问XML数据,实验的XML数据由某电器超市的交易数据库转换成XML文档的格式,共有1000个会员客户的数据。数据中包含性别、年龄、职业、收入和是否购买笔记本电脑,具体属性及值域如下所示。 条件属性a,b, c和d及值域: a:性别 值域:1:男 2:女; b:年龄 值域:1:青年 2:中年 3:老年; c:职业 值域:1:白领 2:蓝领 3:没工作; d:收入 值域:1:(≥5 000元) 2:(2 000~4 999元) 3:(<2 000元)。 决策属性e,值域: 1:购买笔记本电脑 2:未购买笔记本电脑。 通过对1 000条顾客数据进行挖掘,得到的规则也表示成XML文档格式,部分规则表示如下: 通过与一个面向关系数据库的粗糙集挖掘算法结果对比,挖掘结果完全一致,证明基于粗糙集理论的XML数据挖掘算法是正确的. 本文算法只是针对一个XML文档,且XML数据的结构是符合特定的结构,算法还不能对任意的XML文档进行挖掘。在处理大的XML文档时,JDOM可能会受到内存问题的困扰。 5 结束语 由于XML文档是一种半结构化数据,使用传统的数据挖掘方法对XML数据进行挖掘是不适用的。本文提出了一种基于粗糙集理论的XML挖掘模型,经实验结果表明利用粗糙集理论对XML数据挖掘是可行的。XML是正在发展的技术,对XML数据挖掘本身还有许多技术有待进一步完善,本算法为深入研究针对XML数据挖掘提供了借鉴。 参考文献 [1] Pawlak Z.Rough set,International Journal of Computer and Informa-tion Sciences,1982;11(5):341—356 [2] Pawlak Z.Rough set theory and it s applications to data analysis.In-ternational Journal of Cybernetics and Systems,1998;29(7):661—688 [3]王国胤,姚一豫,于洪.粗糙集理论与应用研究综述.计算机学报,2009;32(7):1229—1240 [4] W3C.Extensible Markup Language(XML)1.0(Fifth Edition),ht-tp://www.w3.org/TR/2008/REC-xml-20081126/ [5]屈志毅,周海波,马晓军,等.决策树在XML数据库挖掘中的研究.计算机工程与设计,2008;29(14):3363—3368 [6]杨科,赖朝安,赵阳.基于XML数据的FP-growth算法挖掘研究.计算机工程与应用,2008;44(19):150—159 [7]常犁云,王国胤,吴渝.一种基于Rough Set理论的属性约简及规则提取方法.软件学报,1999;10(11):1206—1211 贷款用途、客户信用和担保效力是信贷业务风险的三个基点。贷款用途决定着一笔信贷业务所面临的环境风险, 客户信用决定着具体客户运营贷款资金和承受宏观风险的能力, 担保效力影响着客户的主观违约成本和客观违约损失的补偿能力。在这三个基点中, 客户信用等级越高, 贷款用途风险越小;客户信用等级越低, 贷款用途风险越大。对于多数信贷业务而言, 商业银行总是优先考量客户信用风险。 由此可见, 客户信用是信贷风险结构体系中最重要的基点, 也就是说准确度量客户信用风险才是信贷风险管理的关键。现有的信用风险评估模型大多只使用了一些微观财务指标, 本文所构建的模型引入了一些宏观的结构指标——行业、企业的组织形式、所处区域, 并结合粗糙集和BP神经网络进行了客户信用风险评估。该模型的优点是:利用粗糙集对决策表进行属性约简, 克服了人工选择指标的主观性, 同时减少了BP神经网络输入指标的个数, 减少了BP神经网络的训练时间, 并提高了评估能力。 一、信用风险预警指标体系的构建 1. 信用风险预警指标体系所涉及的微观财务指标。 银行在向企业发放贷款前首先考察的就是企业的微观财务指标。这些指标中, 有反映企业偿债能力的资产负债率和利息支付倍数, 有反映资金周转状况的应收账款周转率和总资产周转率, 有反映流动性的流动比率、速动比率和现金比率, 也有反映盈利性的息税前利润率、总资产利润率和净资产收益率。 2. 宏观一般指标对信贷风险的影响。 (1) 客户组织形式对信贷风险的影响。商业银行按照客户的组织形式的不同, 通常将企业划分成小企业、中小企业、单一法人、企业集团、跨国大集团。不同的客户组织形式导致信贷风险呈现出显著的差异, 这种差异给商业银行的信贷风险管理带来很大困难。如果商业银行的信贷风险管理架构是基于简单客户组织模式构建的, 那么它将无法实现对复杂模式客户的有序管理, 从而也无法消除或减弱信息不对称带来的显著影响, 管理风险将无从谈起。 (2) 客户所处行业对信贷风险的影响。行业是与企业衔接最为紧密的宏观范畴。当我们将企业置于行业这一范畴时, 企业信用风险所呈现出来的特点与孤立环境下的特点就有所区别了。这种区别源于行业环境变化给企业带来的影响, 以及企业参与行业竞争所带来的相对优势的变化。企业的价值取决于企业当期的和未来的收益, 而行业的现状和发展趋势在很大程度上决定了行业内企业当期的和未来的收益。行业经营的基本规律, 是行业内所有企业经营所必须遵循的, 因而行业经营特征的差异也将造成各企业信用风险具有不同的内在结构。 (3) 客户所处区域对信贷风险的影响。区域因素通常不会独立影响银行信贷风险, 它一般与产业、政策构成合作群体而发挥作用。区域经济特征下的信贷风险在我国具有显著的特点, 这既与产业集聚因素相关, 也与地方经济发展状况相关。产业集聚理论认为, 不是每个地区的经济增长速度都是相同的, 经济增长往往集中于某些主导部门和某些有创新能力的行业, 而这些主导部门和有创新能力的行业一般集聚在某些地区, 且往往是大城市, 这些地区会将这种效应向广大地区扩散。近年来, 所有商业银行都把长三角、珠三角和环渤海区域作为信贷投放的重点区域, 这与这些区域产业集聚带来的企业竞争优势有着密切关系。 3. 信用风险预警指标体系的建立。 由以上分析, 我们建立了信用风险预警指标体系, 具体如表1所示 (见下页) 。 二、应用粗糙集和BP神经网络研究信用风险的可行性分析 1. 粗糙集用于属性约简。 粗糙集作为一种处理不确定、不完备数据和不精确问题的新的数学理论, 最初是由波兰数学家Z.Pawlak于1982年提出的。粗糙集是一个功能强大的数据分析工具, 它能描述和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达;能识别并评估数据之间的依赖关系;能从经验数据中获取易于证实的规则知识, 特别适于智能控制。 在评价信用风险的指标中, 原始的决策表信息系统中的条件属性并不是同等重要的, 甚至其中某些条件属性是冗余的。冗余属性的存在, 一方面是对资源的浪费 (需要占用存储空间和花费处理时间) ;另一方面, 也会干扰人们做出正确的决策。因此, 对决策表信息系统中的条件属性进行属性约简就显得非常必要。 所谓决策表的属性约简, 就是要在保持条件属性相对于决策属性的分类能力不变的条件下, 删除其中不必要的或不重要的属性。粗糙集的一个重要功能就是能对决策表进行属性约简。 2. BP神经网络用于分类预警模型的构建。 BP神经网络是应用最广泛的神经网络之一, 精度高、对噪声数据不敏感、网络结构简单。BP神经网络采用最小方差学习方式, 只要有足够的隐层和隐结点, 它就可以逼近任意的非线性映射关系, 使BP神经网络擅长处理那种规律隐含在一堆数据中的映射逼近问题。 BP神经网络克服了传统分析过程的复杂性及选择适当模型函数形式的困难。它的建立是一种自然的非线性建模过程, 无须分清存在何种非线性关系, 给建模与分析带来了极大的方便。 3. 信用风险预警模型的构建。 综上所述, 我们可以建立基于粗糙集和BP神经网络的信用风险预警模型, 如下图所示: 信用风险预警模型图 三、信用风险预警模型的具体应用 1. 数据获取。 本文选取了某商业银行在某一时点的108个法人的贷款资产损益表作为研究数据, 通过对这些数据进行处理得到了这些企业的微观财务指标, 宏观一般指标通过调查获取。受单一区域的限制, 本文不再分析区域因素对客户信用风险的影响, 得到由12个条件属性和1个决策属性组成的企业信用实数型决策表, 其中部分数据如表2所示。 2. 离散化。 本文采用专家评价法对条件属性值进行离散化处理。根据经验, 专家参考离散化标准 (见表3) , 并依据主观判断对条件属性值进行离散化处理, 在离散化处理过程中可能会根据所处行业以及产业周期不同等对评分结果进行修正, 最后根据条件属性值给出评分。评分分为5个档次:1分表示很差;3分表示稍差;5分表示及格;7分表示较好;9分表示很好。离散化结果如表4所示。 3. 属性约简。 在粗糙集理论中, 决策表L可用一个四元组[U, C∪D, V, f]表示。其中, U是对象集合, C是条件属性集合, D是决策属性集合, V是属性值的集合, f是一个信息函数, f用于指定U中每一个对象的属性值。对于一个条件属性ci∈C, 可以用决策属性集合D的ci正阈来判断条件属性ci相对于决策属性集合D的分类能力。其中ci_ (x) 表示集合x关于条件属性ci的下近似。依据以上公式得到各个条件属性的分类能力大小, 如表5所示: 为了进行属性约简, 本文采取依据属性分类质量逐步添加属性的方法, 得到一个条件属性子集P, 使得POSp (D) =POSC (D) 或, 说明条件属性子集P和所有条件属性集合C相对于决策属性集合D具有相同的分类能力, P即为条件属性集合C相对于决策属性集合D的属性约简。属性约简的过程如表6所示: 4. BP神经网络的训练与应用。 BP神经网络是单向多层前向网络的一种。本文采用三层BP神经网络, 即1个输入层、1个隐含层和1个输出层。输入层结点数是7个, 输出层结点数为1个。根据隐层结点个数的计算公式:中间结点数≤, 计算出隐层结点数最大为6个。 把属性约简后的指标作为BP神经网络的输入样本, 选取其中60个样本用于网络训练, 用MATLAB软件进行编程。第一层、第二层的激励函数分别采用logsig函数和purelin函数建立;使用initff函数初始化BP神经网络的各层权重因子;Trainbp作为BP神经网络的训练函数。最大循环次数为5 000次, 目标误差为0.01, 学习速率为0.01。 在BP神经网络训练好后, 利用后48个样本作为测试样本, 得到隐层结点数为2~6个时的评估情况, 如表7所示: 由表7可知, 运用该模型进行信用风险评估所得出结果的正确率在90%以上。 四、结论 本文通过对单笔信贷业务风险结构进行论述, 综合微观层面和宏观层面建立了完善的信用风险预警指标体系, 并基于粗糙集和BP神经网络建立了信用风险预警模型。然后利用该模型, 结合某商业银行某一时点的数据, 对客户信用进行了实证研究。结果表明, 本文所建立的基于粗糙集和BP神经网络的信用风险预警模型, 可有效运用于商业银行的客户信用风险预警。 摘要:本文首先建立了评价企业信用的指标体系, 然后在此基础上构造了基于粗糙集和BP神经网络的企业信用风险预警模型。粗糙集用于约简指标体系中的冗余指标, BP神经网络用来构建预测企业信用的分类预警模型。最后, 笔者通过实例验证了此模型的可行性和有效性。 关键词:风险预警,粗糙集,BP神经网络 参考文献 [1].李虹, 郑丕谔.基于BP神经网络的个人消费信贷风险识别.哈尔滨商业大学学报 (社会科学版) , 2007;5 [2].梁琪, 黄鹂皎.我国商业银行信贷风险管理体系构建探索.南开经济研究, 2002;6 [3].梁琪.企业信用风险的主成分判别模型及其实证研究.财经研究, 2003;5 【摘要】 应用粗糙集与决策树相结合的数据挖掘方法评价吉林省某地的土壤地力等级。研究数据共有161条记录,16个属性,使用粗糙集对土壤属性进行约简,去除了5个土壤冗余属性,得到属性约简集;使用决策树方法对土壤数据建立决策树模型,得到了土壤评价的决策树模型,并提取了分类规则。实验表明:将粗糙理论与决策树相结合的数据挖掘方法能去除冗余属性,同时保留了原始数据的内部特点,相对于单一使用决策树方法,决策树规模减小,规则集较精简,提高了分类的效率。 【关键词】 粗糙集 决策树 数据挖掘 土壤评价 地力等级 【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved. 【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade 引言 土壤评价的影响因素较为复杂,传统的土壤评价方法需要领域专家的参与,有一定的主观性,而且较少考虑土壤各属性间的依赖关系,较难表达土壤性质和环境变量间的非线性关系。从数据挖掘的角度来看,土壤评价实质上属于分类预测问题。决策树方法是一种较好的分类方法,适宜处理非线性数据和描述数据,建立的树型结构直观,具有生成速度快,能得到简单易懂的分类规则等优点。决策树在土壤等级评定方面也有了一些应用,但决策树方法不考虑土壤属性之间的潜在关系,当数据集中的属性过多时,用决策树分类易出现结构性差,难以发现一些本来可以找到的、有用的规则信息等情况。粗糙集理论在处理大数据量,消除冗余信息等方面具有一定的优势,因此广泛应用于数据预处理、属性约简等方面。鉴于粗糙集和决策树具有很强的优势互补性,本文采用粗糙集与决策树相结合的方法评价土壤地力等级,即采用粗糙集方法对土地属性进行约减,得到低维训练数据,使用决策树方法构建决策树,产生分类规则集,形成评价地力等级的新方法。 1.数据挖掘方法设计 1.1粗糙集理论 粗糙集(Rough Set,RS)理论是新的处理模糊和不确定性知识的数学工具,其特点是不需要预先给定某些特征和属性的数量描述,而是直接从给定问题的描述出发,找出该问题的内在规律,其基本思想更接近现实情况。 粗糙集的基本思想是:称S=(U,A,{Va},a)为知识表示系统,其中,U为非空有限集,称为论域;A为非空有限集,称属性集合;Va为属性a∈A的值域;a:U→Va为一单映射。如果A由条件属性集合C和结论属性集合D组成,C,D满足C∪D=A,C∩D=Φ,则称S为决策系统。在一个决策系统中,各个条件属性之间往往存在着某些程度上的依赖或关联,约简可以理解为在不丢失信息的前提下,以最简单地描述表示决策系统的结论属性对条件属性的集合的依赖和关联。 可以利用C相对于D的任一约简来代替C,而不会对决策有任何影响,这就是粗糙集属性约简的原理。 1.2 决策树方法 决策树主要应用于对事物进行分类、预测以及数据的预处理等。构造决策树通常包括两个步骤:利用训练集生成决策树,再对决策树进行剪枝。决策树的生成是从一个根节点开始,从上到下的递归过程,通过不断的将样本分割成子集来构造决策树。 得到了完全生长的初始决策树后,为了除去噪声数据和孤立点引起的分枝异常,需要对决策树进行剪枝。决策树的剪枝通常是用叶结点代替一个或多个子树,然后选择出现概率最高的类作为该结点的类别。 1.3基于粗糙集的决策树模型 基于粗糙集和决策树结合的数据挖掘算法过程描述如下:不断地从条件属性C中取出相对于决策属性D较为重要的属性,使得决策属性D对其依赖度等于D对C的依赖度,得到属性约简集。然后,利用信息增益作为启发信息,选择能够最好地将样本分类的属性,创建一个分枝,并据此划分训练集,直到不存在可以再分割的属性,之后使用测试集对构建的决策树模型进行验证修正。 2.实验及结果分析 本文引用粗糙集理论和决策树方法,研究新的土壤评价方法,目的是对吉林省某地土壤等级进行分类预测,确定土壤的地力等级。该地地力等级划分为1,2,3,4,5,6共6个等级。研究数据包含15个条件属性和一个决策属性,共161条记录。粗糙集属性约简算法要求数据为离散数据,根据土壤数据特点,采用Equal Frequency Binning算法对数据进行离散化处理。将土壤数据的图上面积(m2) 、平差面积(mu)、 有机质、全氮、速效磷、速效钾、缓效钾、有效锌、有效硼、有效铜、有效铁、有效锰、有效钼、PH值、代换量15个属性作为条件属性输入粗糙集算法,形成条件属性集C,将地力等级作为决策属性D。使用粗糙集约简算法约简属性集C,得到约简属性集。得到的约简属性为有机质、全氮、速效磷、缓效钾、有效硼、有效铜、有效铁、有效锰、PH、代换量,共10个条件属性,共去除5个冗余属性。 利用粗糙集方法对条件属性进行约简之后,调入决策树程序,进行决策分类。在161条记录中,能正确分类的数据为137条,24条数据未正确分类,其中地力等级为1的数据共25条,全部正确分类,地力等级为2的数据18条,16条数据正确分类,地力等级为3的数据13条,10条数据正确分类,地力等级为4的数据63条,53条数据正确分类,地力等级为5的数据34条,29条数据正确分类,地力等级为6的数据8条,4条数据正确分类。 根据生成的决策树,可以提取出决策规则。提取出的部分决策规则如下: if有机质 <= 2.964 and PH <= 6.5 and有效锰 <= 26.314 then 地力等级=3; if有机质 <= 2.964 and PH <= 6.5 and有效锰> 26.314 then 地力等级=4; if有机质 <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等级=3; if有机质 <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等级=2; if有机质 >2.964 and缓效钾 <= 713.31 then 地力等级=2; if有机质 >2.964 and缓效钾 > 713.31 then 地力等级=1; 使用44条记录数据对得到的决策模型验证,正确率为85.3 %,模型预测结果较好。地力等级较低时,预测准确率较高,对于高地力等级的预测,还需进一步修正数据集和模型。 3.结语 数据挖掘中决策树方法适用于分类预测,在地力等级评价中已有应用。但是这种方法还有冗余属性存在,构造的树的规模较大,提取的规则较多。 本文提出了一种基于粗糙集和决策树结合的评价土壤等级的方法。先使用粗糙集进行属性约简,之后使用决策树进行土壤分类,得到评价规则进行地力等级评定,最后使用土壤数据进行算法验证。结果表明相对于单一使用决策树方法,使用粗糙集进行属性约简之后进行决策评价的方法,可以去除冗余属性,生产的决策树规模较小,提取的规则较少,分类精度较高,速度更快,提高了挖掘的效率。 从实验效果来看,模型评价的结果与实际情况基本符合,并且该模型可解释性较好,易于从中提取评价规则。运用决策树模型能够揭示该地区耕地质量状况,有利于提高对该区耕地的利用效益。该方法是土壤评价的有效方法。 【参考文献】 [1]黄健, 李会民, 张惠琳, 马兵, 孙宇新, 张国恩, 朱健菲. 基于GIS的吉林省县级耕地地力评价与评价指标体系的研究——以九台市为例[J]. 土壤通报, 2007,(03):422—426. [2]薛正平,邓 华,杨星卫,等.基于决策树和图层叠置的精准农业产量图分析方法[J].农业工程学报,2006,22(8):140—144. [3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95) [4]王玉珍.基于数据挖掘的决策树方法分析[J].电脑开发与应用,2007(05):64—66. [5]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004 (06):48—51. [6]范洁,杨岳湘,温璞.C4.5算法在在线学习行为评估系统中的应用[J].计算机工程与设计,2006,27(6):946—948. [7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320. 马丽(1980—),女,吉林长春人,助教。研究方向:计算机农业应用。 产品方案设计是设计过程的重要环节,实现该阶段的敏捷设计是产品敏捷定制设计的重要要求。这一阶段的敏捷定制设计即是如何根据客户需求快速确定出有效的设计方案。采用专家系统、实例库这些方法在产品结构较简单、设计任务少的情况下比较有效,但对设计任务多、产品结构相对复杂的定制设计,搜索效率会降低,影响产品设计速度,因而寻求适应于这些情况的有效的设计方法是一个值得深入研究的课题。 产品有效方案的确定过程,实质上是利用有效客户要求形成多种产品组合形式并从中选择最佳组合的过程。人工神经网络(ANN)在解决这种大量数据组合、复杂非线性问题数据映射以及有效模拟人的形象思维决策中具有明显优势,在机械设计中得到了较多的应用[1,2,3,4];而客户需求对确定产品结构型式的重要性不尽相同,依据客户需求确定产品设计方案时,首先应对其进行过滤,提取有效的客户需求。粗糙集理论在处理这种不完备信息时具有独特的优势,已较多应用于设计过程中对设计要求的约简、提取[5]。但目前对粗糙集理论和神经网络技术在产品设计过程中的研究大多孤立进行,将二者有机集成应用于产品定制设计的研究还不多见。因此,本文着眼于产品定制设计中的方案设计阶段,通过分析客户需求的特点,将粗糙集理论和人工神经网络技术有机集成,提出基于粗糙集和多ANN模型的产品敏捷定制设计方法,从而为快速响应客户需求、实现产品敏捷定制开发提供了一种有效的解决方法和技术手段。 1 融合粗糙集和多ANN模型的产品敏捷定制设计方法 1.1 客户需求分类及相应采取的产品设计策略 对于大多数的定制产品而言,完全创新的设计只占很少数,大多数定制产品的客户需求都是由普通需求和定制需求两部分组成的,其中,普通需求可确定出产品的主要结构型式,而定制需求是客户在普通需求的基础上新添加、修改或细化的一些需求条件,只对产品的部分结构起作用。因此,对于客户的这两部分需求可以分别对待,在设计过程中可以采用不同的设计手段来分别处理。 普通需求大多是描述产品功能、性能方面的需求,这些需求属于在产品定制中会被多数客户多次提出的要求,由这些需求基本可确定出产品的主要组成部分。但对于大多数机械产品,特别是结构较复杂的机械产品,在方案设计阶段,产品各组成部分可供选择的结构型式可能有多种,会产生多种方案组合,从而形成多种设计方案。产品敏捷定制设计要求能够根据客户要求从这些方案组合中快速确定出一种合适的方案,有效缩短产品的设计时间。ANN在处理这种具有大量数据组合特点的设计方案决策问题中具有独特的优势。因此,可通过构建ANN模型,建立起普通需求与产品结构之间的匹配关系,快速确定出产品的结构型式。客户需求在决定产品结构型式中所表现的重要性不尽相同,可利用粗糙集理论首先对普通需求进行筛选,提取出真正有效的客户需求并将其作为决策条件输入ANN模型,这样可有效提高设计效率并简化ANN结构。 对定制需求而言,通常需要设计人员采用其他的一些设计手段,如变型设计、创新设计等,对由普通需求确定出的产品结构中的某些结构型式进行变型或重新设计来满足用户的定制要求。 1.2 运用粗糙集理论获取有效的客户需求 产品方案设计过程中,为实现产品敏捷定制设计必须对普通需求进行过滤,实现对普通需求的“压缩”和再提炼,完成这一过程的关键是建立约简的普通需求决策表。 在建立过程中,设多个已有的设计实例(记为x1、x2、…、xn)组成的集合为论域(记为U),U={x1,x2,…,xn},各普通需求是不同的条件属性,由这些普通需求组成的集合即为条件属性集(记为C),C={ai|i=1,2,…,m},对应的各组成部分的结构型式是决策属性,由这些组成部分的结构型式构成的集合即为决策属性集(记为D),D={dj|j=1,2,…,s},C并D为决策表的属性集合(记为R),R=C∪D。在普通需求决策表的属性约简中,重要的是构建分辨矩阵,分辨矩阵是一个依主对角线(主对角线上的元素为空集对称的n阶方阵(记为M),M=[mij]n×n,mij为分辨矩阵的第i行j列处元素(i,j=1,2,…,n),其值为 mij是设计实例xi区别于设计实例xj的所有不同条件属性的集合,根据分辨矩阵可计算出唯一对应的分辨函数(记为fM),fM是一个具有m元变量a1、a2、…、am(ai∈C)的布尔函数,它是(∨mij)的合取,而(∨mij)是分辨矩阵项mij中各元素的析取,即 其中,“∧”表示合取运算,“∨”表示析取运算,分辨函数的析取范式中的每一个合取式对应一个约简,记为red(R),red(R)即为一个普通需求的约简[6]。由约简后的条件属性和决策属性构成的决策表即为约简的普通需求决策表。约简后的普通需求决策表较约简前的普通需求决策表而言,在确定产品结构型式上二者可获得相同的结果,但约简后的普通需求决策表中具有更少的客户需求,实现了有效客户需求的提取和冗余知识的消除。 1.3 建立多ANN模型实现客户需求与产品结构的关联 由上述分析可知,普通需求可通过构建ANN模型建立起需求与产品结构间的关系。模型输入层的神经元是粗糙集约简后的普通需求,输出层的神经元是该设计阶段对应的产品结构,隐含层神经元个数可根据网络输入输出神经元数量和经验公式来选取。具体神经网络结构可根据实际需求,选取不同的网络模型,如BP网络、Hopfield神经网络、自组织神经网络等。但需要指出的是,由普通需求建立起来的ANN模型也不是一成不变的,随着企业产品结构的不断更新,普通需求的内容也在不断变化,从而使由普通需求建立起来的ANN模型也在不断更新。 定制需求最初可能只是由个别用户提出的,设计人员在产品设计中需对它们单独考虑,随着这些定制需求被更多的用户多次提出后,它们将不再被视为是特殊的要求,已经由最初的定制需求转化为设计中的普通需求,这时,这些转化后的定制需求与已经存在的普通需求都成为新的普通需求。当再有新的定制需求出现时,这些新组成的普通需求仍可采用粗糙集和神经网络技术来处理,处理方法与上述的普通需求的处理方法相同,而新的定制需求同样可通过对新的产品结构中的某些结构型式进行变型或重新设计,来确定出满足客户新的定制要求的最终产品结构。这样,当这些新的定制需求再被多次重复表达之后,它们又将转化为普通需求,又可通过运用粗糙集和ANN技术建立新的神经网络模型来快速确定出合适的方案组合。所谓新的ANN网络模型可能不单纯是增加新的输入输出项,也可能是改变由原先普通需求内容建立起来的ANN模型的输入输出项,这依赖于具体的定制要求。 1.4 融合粗糙集和多ANN模型的产品敏捷定制设计方法的形成 多个不同的、可不断更新的ANN模型是基于粗糙集和多ANN模型的产品敏捷定制设计方法的核心,该设计方法的基本求解过程就是根据不同的客户需求,从这些ANN模型中选取合适的网络进行计算,从而快速确定出符合客户定制需求的产品结构形式。基于粗糙集和多ANN模型的产品敏捷定制设计方法的整个形成过程如图1所示。图1中,现有神经网络模型是指在企业现有资源情况下,根据客户需求中的普通需求(经粗糙集约简后的)与其对应的产品结构型式间匹配关系建立起的ANN模型;新的神经网络模型是指当原先的定制需求被多个用户多次提出并已经转化为新的普通需求后,所建立起的新的普通需求与其对应产品结构型式间的ANN模型;由现有神经网络模型和新的神经网络模型组成的多个ANN模型即是基于粗糙集和多ANN模型的产品敏捷定制设计方法中的最终产品模型,这一模型是不断更新变化的;动态产品结构是指产品结构在不断更新并具有多样化形式,随着客户需求的不同,所定制出的产品结构也不尽相同。 由于任何一种设计方法都有它的局限性,同样,基于粗糙集和多ANN模型的产品敏捷定制设计方法,更适合于客户需求多、产品结构相对复杂、结构型式较多的产品方案设计阶段。在产品定制设计时,根据不同的客户需求,选择不同的ANN模型,从而快速确定出合适的设计方案。 2 应用实例 本文以某卷板机产品定制设计为例,说明基于粗糙集和多ANN模型的敏捷定制设计方法在产品总体方案设计阶段的建立过程。 2.1 用粗糙集理论建立约简的普通需求决策表 在卷板机的定制设计中,通过分析客户需求可知,板速可调性、体积、板厚、板宽、材料、板材线速度、造价是大量客户关心的问题,属于客户需求中的普通需求。在总体方案设计阶段,设计人员需根据客户需求确定出该阶段所对应的产品结构形式,包括传动方式、轴承类型、下压装置、动力类型、取板方式。在产品总体方案设计阶段,用粗糙集对属性约简建立决策表时,首先要对属性值进行离散化处理,本文采用等宽法对连续属性值进行离散[7]。 普通需求和产品结构形式的取值如表1所示,其中,为方便表达和计算,材料属性采用弹性模量来表示。根据表1结果,选取10个设计实例,分别记为x1、x2、…、x10;表1中的各条件属性分别记为a1、a2、…、a7,决策属性分别记为d1、d2、…、d5,建立这10个设计实例经离散化处理后的决策表(表2)。由表2可求出这10个设计实例的分辨矩阵M,M是一个主对角线上为空集的对称10阶方阵,为计算方便,只考虑其下三角部分并以表格形式示于表3。根据表3结果计算对应的分辨函数fM,并求其最小析取范式,求得约简的普通需求red(R)。 分辨函数fM为 由分辨函数fM的值,可得出普通需求的约简red(R),即,red(R)={a1,a2,a3,a4,a5}。 这样,经属性约简后,普通需求由7个约简为5个,即板速可调性、体积、板厚、板宽、材料,为后续应用神经网络方法建立ANN模型,减少了输入神经元数目,简化了网络结构。 2.2 基本ANN模型的建立 在多ANN模型中,单个网络模型的构建是多ANN模型建立的基础。为讨论方便,本文仅说明多ANN模型中单个网络模型的建立过程,但这一过程是具有一般性的。 将2.1节约简后得到的普通需求作为神经网络的输入,以表1中的决策属性为网络的输出,选取包含一个隐含层的5-10-5的BP网络结构。对已有的设计结果进行分析,选取了60组客户需求及所对应的设计结果为训练样本,用MAT-LAB对该网络进行训练,网络训练函数采用BFGS拟牛顿法,传递函数为logsig函数,学习函数为learngdm函数,训练的目标误差为10-5,可确定对应于训练样本的网络模型。部分样本数据、期望输出以及网络输出结果如表4所示,表中输入样本值和期望输出值是经[0,1]归一化处理后的数据。图2所示为训练时所获得的网络训练次数与误差曲线。通过比较表4中网络输出值与期望输出值可以看出,应用神经网络方法建立ANN模型能快速、准确地确定出总体方案设计阶段所对应的产品结构形式,建立起普通需求与对应产品结构之间的关联。 2.3 客户需求分析与基本ANN输出 当基本ANN模型建立后,设某用户定制卷板机时提出的需求条件为板速可调性、体积、板厚、板宽、材料、板材线速度、造价、可卷圆管等8项,对这些需求进行分析,可知前7项属于普通需求,最后1项属于用户的定制需求。而且,由2.1节可知,这前7项普通需求中的“板材线速度”和“造价”可经粗糙集约简掉,只有前5项是有效的需求条件,将这前5项普通需求的值输入到经2.2节训练好的BP网络模型进行计算,可确定出所对应的产品主要结构型式。对该用户的需求分析及经基本ANN模型计算后的网络输出如表5所示。 2.4 输出结果变型设计 通过对网络模型进行训练,可由客户需求中的普通需求得出基本设计结果,但是,此设计结果不能完全满足客户需求,针对客户需求中的定制需求,需要对设计结果进行变型设计,以满足客户需求。 在本例中,客户定制需求为在传统卷板机基础上增加卷圆管功能,卷圆管和卷板的区别在于:卷圆管时,圆管容易压扁,需要在传统卷板机上增加专用胎具,根据卷板机结构,实现这一功能需要对卷辊结构进行变型,通过增加卷辊支撑端长度,使得专用胎具可以安装于卷辊。 根据上述分析,最终设计结果如下:传动方式为大扭矩斜齿、摆线传动,轴承为滚动轴承,下压方式为螺旋压紧,动力装置为交流电机,取板方式为倾覆式,卷辊结构为加长型。 2.5 新ANN模型的建立 在本例中,为主要说明新ANN模型的建立过程,新的客户需求经粗糙集约简的过程不再详述。设经粗糙集约简后的新的普通需求为原先约简后的普通需求(板速可调性、体积、板厚、板宽、材料)和新增加的需求(可卷圆管),在构建新的网络模型时,需在原有模型的基础上,增加新的输入输出项,新增加的输入项描述为是否可卷圆管,取值为0表示可卷,1表示不可卷;在输出结果中增加卷辊类型,取值0表示普通型,1表示加长型。这样,新的网络具有6个输入、6个输出,同样选用表4中给出的已有60组数据,并增加相应的新的输入输出为样本数据,选用6-12-6的BP网络结构进行训练,确定新的ANN模型。当再有类似的客户定制需求时,就可直接采用该网络模型进行计算。例如针对本例,某用户提出的客户需求如表5所示,将约简后的普通需求以及新的定制需求“可卷圆管”,均作为新的普通需求输入已训练好的新的ANN模型中进行计算,可获得如表6所示的输出结果。 由1.3节可知,依据客户需求构建新网络时,可能不单纯是增加输入输出项,有时会改变输入输出项,这依赖于具体的定制要求,在本文例中,只给出了增加输入输出项一种情况。 这样,随着客户需求的不断扩充,ANN模型也在不断增加或改变,根据不同的客户需求,选取合适的网络模型来快速确定产品的结构,提高产品的设计效率。 3 结语 基于粗糙集和多ANN模型的产品敏捷定制设计方法将粗糙集理论与人工神经网络技术的优势有机集成应用于产品定制设计中,通过建立多个不同的、可不断更新的ANN模型实现客户需求的快速响应。该方法中,将客户需求分为普通需求和定制需求,对普通需求,首先运用粗糙集进行约简以提取有效的决策条件,再采用人工神经网络方法,建立ANN模型,快速确定产品的主要结构;对定制需求,在上述基础上,通过变型或重新设计,对产品结构中的某些结构进行变型,最终确定出产品的结构型式。当这些定制需求被多次重复使用转化为普通需求后,又可通过建立新的神经网络模型来确定出新的定制产品的结构。基于粗糙集和多ANN模型的产品敏捷定制设计方法,可有效模拟设计人员在设计过程中的抽象逻辑思维和形象直觉思维,应用该方法进行产品定制开发,可有效提高设计效率并快速响应客户需求,为实现产品敏捷定制开发提供了一种有效的解决方法和技术手段。 参考文献 [1]Su D,Wakelam M,Jambunathan K.Integration of aKnowledge-based System,Artificial Neural Networksand Multimedia for Gear Design[J].Journal of Materi-als Processing Technology,2000,107:53-59. [2]Hamdi Taplak,Ibrahim Uzmay,Sahin Yildirim.An Artificial Neural Network Application to Fault De-tection of a Rotor Bearing System[J].IndustrialLubrication and Tribology,2006,58(1):32-44. [3]Lin T Y,Tseng C H.Optimum Design for Artificial Neural Networks:an Example in a Bicycle De-railleur System[J].Engineering Applications ofArtificial Intelligence,2000,13(1):3-14. [4]谢庆生,尹健,罗延科.机械工程中的神经网络方法[M].北京:机械工业出版社,2003. [5]Alisantoso D,Khoo L P.Early Analysis of DesignConcepts Using Rough Set Theory[J].International Journal of Systems Science,2009,40(2):121-130. [6]吴今培,孙德山.现代数据分析[M].北京:机械工业出版社,2006. 【粗糙集模型】推荐阅读: 粗糙集数据分析06-02 粗糙表面05-21 粗糙度参数08-25 粗糙度检测09-20 曲面表面粗糙度07-25 表面粗糙度符号08-26 粗糙的双脚作文600字05-13 粗糙的反义词是什么10-22 组合模型集07-24 肘关节皮肤粗糙要怎么办05-112 基于粗糙集的海事事故影响因素分析的数据预处理
3 基于粗糙集的海事事故影响因素数据挖掘与分析
4 结 论
粗糙集模型 篇4
粗糙集模型 篇5
粗糙集模型 篇6
三枝决策粗糙集模型属性约简研究 篇7
粗糙集模型 篇8
粗糙集模型 篇9
粗糙集模型 篇10
粗糙集模型 篇11
粗糙集模型 篇12