监测阶段分类

2024-08-14

监测阶段分类(共3篇)

监测阶段分类 篇1

1 概述

文本分类(Text Categorization)是指在给定的分类体系下,根据文本内容自动确定文本类别的过程[1,2,3,4]。它是文本挖掘的一个重要组成部分,在提高情报检索的速度和准确率方面有重要意义。在文本分类中,广泛使用向量空间模型(vector Space Model)来标引文本。即文本的特征直接采用文本中的词条.T(Token)作为特征项,文本可以表示为特征的向量(t1,t2,…tn),分量t2是词条对应的权值,利用训练好的分类器将文本自动分到类别集合(c1,c2,…,cn),n为类别数[5]。而这些高维的特征集对分类学习未必全是重要和有效的,同时高维特征集会加剧机器学习的负担。是否进行特征降维对文本分类的训练时间、分类准确性都有显著的影响,而且分类器的算法和实现的复杂度都随特征空间维数的增加而增加。所以,特征集的降维操作是文本分类准确率和效率的关键。特征选择和特征抽取是特征降维中的主要法。以下分别对特征选择和特征抽取中涉及的不同方法进行介绍。

2 特征选择

特征选择就是从特征集(t1,t2…,tn)中选择一个真子集T'=(t1,t2…,tm),满足m

2.1 文档频数(Document Frequency,DF)

文档频数的主要思想是:在训练文本集中对每个特征计算它的文档频数,若该项的DF值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2种极端的情况。DF特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

2.2 信息增益(Information Gain,IG)

信息增益是一种基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征项为整个分类所能提供的信息量,不考虑任何特征的熵与考虑该特征后的熵的差值。他根据训练数据,计算出各个特征项的信息增益,删除信息增益很小的项,其余的按照信息增益从大到小排序。信息增益计算机公式(1)如下:

式中,t表示特征项;p(t)表示t发生的概率;p(ci)表示第i类发生的概率值;p (tlci)表示文本中出现t时,文本属于ci的概率。

2.3 期望交叉熵(Expected Cross Entropy)

期望交叉熵反映了文本类别的概率分布和在出现了某个特定词条的条件下文本类别的概率分布之间的距离,词条t的交叉熵越大,对文本类别分布的影响也就越大。期望交叉熵用公式(2)计算

它与信息增益惟一的不同之处在于没有考虑单词未发生的情况。如果特征项和类别强相关,p(tlci)就大,若p(ci)又很小的话,则说明该特征对分类的影响大。

2.4 互信息(MI)

互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。互信息用公式(3)计算:

式(3)中,p(tlci)不仅包含特征而t且属于类别ci的概率。

3 特征抽取

特征抽取也叫特征重参数化.由于自然语言中存在大量的多义词、同义词现象,特征集无法生成一个最优的特征空间对文本内容进行描述。特征抽取是将原始特征空间进行变换,重新生成一个维数更小、各维之间更独立的特征空间。常用的特征抽取方法可以分为3类:主成分分析、潜在语义标引、非负矩阵分解.

3.1 潜在语义索引

文本中存在的同义词和多义词现象,导致特征向量构造的空间存在“斜交”的特点。也就是说,特征向量的各个分量存在一定的相关性。潜在语义索引通过挖掘文本与特征之间潜在的高阶语义结构,将文本特征矩阵分解为一个低维的正交矩阵,实现特征空间的降维。文本和特征被转换到低阶语义空间上进行描述,它们之间的操作转化为语义操作。B(t×n)是一个词文档矩阵,B(t×n)可以被分解成三个矩阵,。通过奇异值分解,矩阵被分解为三个矩阵的积:

式(4)中U和V分别是与矩阵B的奇异值对应的左、右奇异向量矩阵,矩阵B的奇异值按递减排列构成对角阵∑。取U和V最前面的k个列构建B的k秩近似矩阵Bk:

U:词语矩阵,Uk:压缩至k维空间的词语矩阵;V:文档矩阵,Vk:压缩至k维空间的文档矩阵;∑、∑k:奇异值矩阵;k:因子数。经过奇异值分解即可得到降至维的文档矩阵。其中因子k的大小显然对结果有很大的影响,其过小会使一些有用的信息丢失,其过大则会使运算量增加。

通过控制语义空间的维数,LSI可以得到较大的降维度。LSI将原信息进行重新组合,很少丢失原特征空间中的信息。但是,LSI计算复杂度高,在大规模数据集上进行奇异值分解非常困难,而且降维后,分类效果下降。

3.2 主成分分析(PCA)

它不是通过特征选取的方式降维的,而是通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。PCA由于其处理方式的不同又分为数据方法和矩阵方法。矩阵方法中,所有的数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。在主成分方法中,由于矩阵方法的复杂度在n很大的情况以二次方增长,因此人们又开发使用了主要使用Hebbian学习规则的PCA神经网络方法。

4 特征降维方法性能比较

基于统计的特征提取方法,具有算法简单、易于实现、过滤速度快、不依赖具体领域和语言等优点。传统评估函数的特征提取方法独立地对每个特征评估打分,虽然可以选出各个类中的重要特征,但是却不能判断噪音特征和删除无效特征。向量空间模型最基本的假设是各个分量间正交,但作为分量的词汇间存在很大的相关性,无法满足模型的假设。作为上述方法处理的特征项字、词更多体现的是文档的词汇信息,而不是它的语义信息,因而无法准确表达文档的内容;大多数关于文本特征提取的研究方法只偏重考虑特征发生的概率和所处的位置,而缺乏语义方面的分析,不能深层次地理解文本所表达的主题思想,因而很难取得较好的选择效果和系统性能。

基于语义特征提取方法都处在理论研究和试验阶段,未能真正实现对文档语法语义和主题思想和分析,没有从根本上提高分类的精度和效率。如何选择基于文本语义的特征项研究还没有深入的开展,另外,在特征项抽取算法方面也缺少系统而深入的研究成果。目前尝试借鉴语言学技术进行的研究,有从手工输入的特征中学习特征信息及基于WordNet的特征提取等方法,但方法所产生的效果都不理想。未来的研究应更多地运用自然语言理解、人工智能,以及语言学等方面的知识和技术,更深入地分析文档语法语义和主题思想,充分考虑语言中大量存在的同义和多义现象,以及褒贬倾向等在特征提取中起关键作用的因素,提高特征提取和文本过滤的精度。

5 两阶段特征降维

考虑到特征选择的不足,只考虑到文本和词的关系,用词来代替文本,计算一定的阈值来判断文本的类别,具有不准确性。没有考虑词之间的关系,次之间存在语义关系,所以有特征提取算法。但是特征提取算法计算规模较大,对数据敏感。结合二者的不足,提出两阶段的特征降维方法。第一阶段,用特征选择方法选出重要的特征,对文分类比较重要的特征。第二阶段,使用特征选取算法,发现词之间的关系,发现文本之间的关系,进一步进行文本分类。

两阶段特征降维方法比传统的特征降维方法要好,分类的性能得到提高。文本分类过程中的计算量降低,文本分类的精度提高。

6 结语

文本数据挖掘是信息处理的一项重要而基本的研究方向。文本聚类作为文本数据挖掘的一种方式有着非常重要的作用。本文给出了常见的特征降维方法,并基于向量空间模型,构造教育文本的特征向量,然后利用潜在语义索引技术实现特征空间变换,去除了特征之间的相关性,在有效的进行了特征降维的同时,提高了聚类准确率。

文本分类将来的研究主要集中在对语义特征的表示和选择上,需要深入分析文档语义和主题思想,探索文本语义的表示模型,研究基于语义的特征选择算法,使分类充分反映样本相似性的本质,提高文本分类的准确性。到目前为止,文本分类技术的发展还有赖于基于语义文本表示和特征选择技术更进一步的发展。

摘要:文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围,提出了两阶段的特征降维方法框架。

关键词:文本分类,特征选择,特征提取

参考文献

[1]Y.Yng,and Pedersen,J1Q.A comparative Study on Feature Selection in Text Categ orization[C].In Proceeding of the 14th International Con ference on Machine Learning(ICML),1997:412-420.

[2]孙春明.高性能特征选择及文本分类算法研究[D].华北电力大学,2007.

[3]Forman.G."An extensive empirical study of feature selection metrics for text classification,"Journal of Machine Learning Research,vol.3,pp.1289-1305,2003.

[4]Jiana Meng and Hongfei Lin,"A Two-stage Feature Selection Method for Text Categorization",Seventh International Conference on Fuzzy Systems and Knowledge Discovery,IEEE press,pp.1492-1496,2010.

[5]陈涛,谢向阳.文本分类中的特征降维方法综述[J].情报学报,2005,12(24),690-695.

[6]李荣陆.文本分类及其相关技术研究[D].上海:复旦大学.2005.

[7]S.C.Deerwester,S.T.Dumais,T.K.Landauer,G.W.Furnas and R.A Harshman,"Indexing by latent semantic analysis",Journal of the American Society Information Science,vol.41,pp.391-407,1990.

[8]K.Shima*,M.Todoriki and A.Suzuki,"SVM-based feature selection of latent semantic features",Pattern Recognition Letters,vol.25,pp.1051-1057,2004.

[9]周茜,赵明生等:中文文本分类中的特征选择研究:中文信息学报,2004,18(3):17-23.

[10]肖婷,唐雁.改进的x~2计文本特征选择方法[J].计算机工程与应用,200914),136-140.

尿特种蛋白分类与监测的临床意义 篇2

1 资料与方法

1.1 一般资料

选择2009年3月~2010年2月在我院住院的90例高血压患者分为观察组 (肾损害组) 和对照组 (无肾损害组) , 每组45例, 均符合高血压的诊断标准[1]。入选患者经血压测试检查确诊为继发性高血压。排除标准为无其他原因的泌尿系统疾病及近期服用有肾毒性药物史。观察组中男23例, 女22例;年龄47~68岁, 平均年龄 (53.5±0.2) 岁, 平均体重 (60.2±0.7) kg, 平均身高 (164.4±0.1) cm;对照组中男25例, 女20例;年龄42~73岁, 平均年龄 (57.3±0.2) 岁, 平均体重 (62.7±0.1) kg, 平均身高 (165.2±0.3) cm。两组从性别、年龄、体重、身高等各方面比较差异无统计学意义 (P>0.05) , 具有可比性。

1.2 监测方法

所有受试者晨尿取15ml离心之后, 收集上清液测m ALB、αl-MG、β2-MG、TRF、RBP、尿Cr, 测试时均严格按照操作规程进行相关操作。

1.3 统计学方法

本实验的数据结果采用t检验进行统计对比。得出结果之后, 数据经过卡方检验, 以P<0.05为有统计学意义。

2 结果

观察两组患者尿特种蛋白监测结果, 见表1。

由表1可看出两组患者尿特种蛋白比较, 肾损害组患者的尿特种蛋白监测结果明显高于无肾损害组, 差异显著 (P<0.01) , 具有统计学意义。

3 讨论

高血压的发病机制复杂, 是全球范围内的重大公共卫生问题。高血压的发病目前尚无确切的诱因, 临床上认为高血压与环境、家族遗传史、饮食习惯等有关。随着病程的进展, 高血压患者的血压持续升高, 脏器受累。高血压对人体的危害极大, 而其繁多的并发症也严重降低了患者的生活质量。肾脏损害正是高血压诸多并发症中最为严重的一种。长期的高血压容易使得肾小动脉硬化, 患者肾功能减退时, 可引起多尿等临床症状, 严重者可能会出现氮质血症以及尿毒症。也正是因为如此, 所以国际上一直都在积极寻找一种可以随时监测高血压患者肾脏功能的方法。

一般的临床常规检查很难发现高血压患者的肾脏损害, 并且目前临床上采用的肾活检属于有创检查, 导致患者难以接受。现在可以通过监测患者尿液中系列特种蛋白, 来监测高血压患者的肾损害进程, 为患者争取了治疗的时间和康复的机会。因为尿中的特种蛋白, 如尿白蛋白、尿视黄醇结合蛋白、尿αl-微球蛋白、尿β2-微球蛋白、转铁蛋白等, 在尿中的绝对含量很低, 而且绝大部分 (除了尿清蛋白之外) 即使到了疾病晚期, 也不能使得尿总蛋白显著增高, 可是其自身却都有增高幅度大、变异程度高、特异性高的特点, 所以测定上述几种尿特种蛋白, 对于高血压患者的肾损害诊断有着很大的帮助[2]。

故随时监测尿特种蛋白, 则可以为临床医生提供高血压患者肾损害的进程。当然, 监测尿特种蛋白的临床意义不只在于高血压患者, 患有糖尿病等有可能导致肾脏损害疾病的患者也可以随时监测尿特种蛋白, 既方便快速, 又不会使患者漏诊[3]。

摘要:目的 探讨尿特种蛋白微量白蛋白 (mALB) 、αl-微球蛋白 (αl-MG) 、β2-微球蛋白 (β2-MG) 、转铁蛋白 (TRF) 、视黄醇结合蛋白 (RBP) 与监测对高血压患者的临床意义。方法 选择2009年3月~2010年2月在我院住院的90例继发性高血压患者作为本次临床观察的研究对象, 根据有无肾损害分为观察组 (肾损害组) 和对照组 (无肾损害组) , 进行尿特种蛋白测定。结果 肾损害组与无肾损害组检测结果进行t检验, 肾损害组患者的尿特种蛋白监测结果明显高于无肾损害组其结果具有统计学意义 (P<0.01) 。结论 尿特种蛋白与继发性高血压患者的肾损害存在相关性, 尿特种蛋白可作为发现继发性高血压患者早期肾损害的常规筛查项目, 值得临床广泛使用。

关键词:尿特种蛋白,继发性高血压,肾损害

参考文献

[1]刘坤申, 刘超.高血压的诊断标准及心血管危险性分层[J].中国实用内科杂志, 2001, 21 (8) :506-507.

[2]杨秀, 王庆文, 王金泉, 等.多发性骨髓瘤肾损害尿蛋白性质的分析及临床意义[J].医学研究生学报, 2007, 20 (3) :290-294, 309.

监测阶段分类 篇3

分类(又称有监督学习)[1]是在给定一组带标签的训练样本集合(通常以固定长度的特征向量表示)的情况下通过学习获得一个分类模型,并以此模型来预测未知样本的类标签。

1999年Dong等人提出了一种被称作显露模式[2](Emerging Patterns,EPs)的新的知识模式,并受到了数据挖掘界的广泛重视[3,4]。基于EPs的分类算法通过聚合多个EP的分类能力来分类,综合考虑了不同数据集在多组属性上的差异,能够弥补传统分类方法(如决策树方法)只考虑一组属性而形成的缺陷,取得了很好的分类结果。

但对大型数据库,特别是高维数据来说,EPs的数量巨大(可达109),导致在构造分类器时算法有很高的时间和空间复杂度,并且挖掘到的EPs中存在有大量的冗余。2000年Fan和Ramamohanarao提出了eEPs(Essential Emerging Patterns,基本显露模式)的概念,有效地解决了一般形式的EPs在分类时的冗余问题,同时又不会丢失太多对分类有用的信息。

在解决数据挖掘领域中的分类问题时,传统的分类算法多数采用顺序覆盖技术来训练分类规则,这种方法有着自身无法很好解决的问题,即反例碎片问题(problem of splintered false positive)和有错误倾向的小覆盖问题(error-prone small disjunction)[5],在稀有类分类中这种问题更加突出。2000年Ramesh Agarwal和Mahesh V.Joshi提出的基于规则的两阶段方法很好地解决了上述问题,在稀有类分类和图像分类[6]中取得了良好效果。

结合两阶段思想和eEPs在分类方面的优势,提出了一种改进的分类算法EPTPC(the essential Emerging Patterns based Two-Phase Classification)。该算法使用两个阶段挖掘eEP并用于分类,分类时考虑第二阶段对第一阶段的修正作用,特别是优化了评分策略和两个阶段的权重设置。实验结果表明,EPTPC在UCI机器学习库中的11个数据集上可以取得与常见经典优秀分类算法可比的整体分类效果,并在部分数据集上优于其他算法。

文章下面首先讨论相关领域的工作;然后给出EPTPC算法详细描述;最后给出实验结果并与其他相关分类方法进行比较。

2 相关概念描述

2.1 eEP及相关定义

假定项x是属性名和属性值的对偶,若干个不同的项组成的集合被称为项集,它是数据库元组的子集,记为X。给定一个项集X1,和元组T包含的项的集合X2,如果∀x∈X1满足x∈X2,就可以说项集X1覆盖元组T,也可以说元组T包含项集X1。

定义1.支持度(support),给定数据集D和项集X,假设被X覆盖的元组的集合为D′,则称X在D中的支持度为suppD(X)=|D′|/|D|,记为,其中|D′|和|D|分别指数据集D′和D中的元组个数。

定义2.增长率(growth rate),给定项集X,数据集D1和D2,X在D1和D2中的支持度分别记为suppD1(X)和suppD2(X),则X从D2到D1的增长率记为growth-rateD2→D1(X),如下定义:

undefined

定义3.显露模式(Emerging Patterns, EPs)[7],按照定义2,如果growth-rateD2→D1(X)不小于给定的增长率阈值ρ,就可以称X为从D2到D1的ρ—EP,简称为数据集D1的EP。D1称为EP的宿数据集,而D2称为EP的对立数据集。

定义4.基本显露模式(essential Emerging Patterns,eEPs)[8],如果一个项集X满足下面的三个条件:

1)是满足一定增长率阈值的EP;

2)在类C中满足一定的支持度阈值;

3)其任何真子集都不满足上面两个条件;则称X为eEP,即基本的EP。

2.2 两阶段方法简介

两阶段思想也称为PN规则(PN-Rule),是在试图解决传统的基于顺序覆盖的策略在稀有类分类中产生的问题时提出的。因为它既发现能够预测目标类存在的规则(P规则),又发现能够预测非目标类不存在的规则(N规则)。与其它现有的方法一样,该方法的第一个阶段(P阶段)没有严格的准确度限制,如果准确度和支持度产生矛盾,放宽准确度限制优先考虑支持度高的规则。在第二个阶段(N阶段),训练数据集从所有P规则所覆盖的实例集开始,学习规则以去除尽可能多的反例。

研究结果表明[5],两阶段方法能够解决绝大多数顺序覆盖技术所不能很好解决的小覆盖问题和反例碎片问题,并且能够在两个阶段中分别获得高覆盖和高精确度。

3 EPTPC算法描述

3.1 基本思想

本算法基于两阶段思想和分类模式eEPs来构造分类器。在两个阶段中,首先把挖掘到的eEPs按{增长率,支持度}降序排列,优先考虑增长率和支持度都比较高的eEPs,并且当eEPs的增长率不能满足要求时,放宽对其增长率的要求,而按支持度大小来选择。其次,以eEPs的增长率作为单个eEP分类能力的评分标准,即在分类未知实例时,它包含的某个类的eEPs的平均增长率越高,它属于那个类的可能性就越大。最后,在用N阶段eEPs来修正P阶段的判断结果时,加上了一个修正强度因子,以便更合理地发挥N阶段的辅助作用。

3.2 基本概念

定义5. 给定类C和一个eEP e,如果e是C的一个eEP,就称e跟C是关联的(relative)。而二者的关联度(relativity)是e的增长率的一个衡量尺度,记作Rel(e,C),简记为Rel(e),定义如下:

undefined

定义6. 给定实例s和类C,在第一阶段挖掘得到的C的eEPs(即C的P-eEPs)对s归属于C的支持程度,称为s对C的趋向度(tendency),记作TenC(s),简记为Ten(s),定义如下:

undefined

其中PE(s)表示s覆盖的与C关联的eEPs的集合

定义7. 给定实例s和目标类C,非目标类C′在第二阶段挖掘得到的C′的eEPs(即C的N-eEPs)对s不归属于C的支持程度,称为s对C的背离度(deviation),记作DevC(s),简记为Dev(s),定义如下:

undefined

其中NE(s)表示s覆盖的与C′关联的eEPs的集合

定义8. 给定类C,第一阶段中C的P-eEPs覆盖的训练实例个数与第一阶段中的训练实例总数的比值,被称为修正强度因子(strength factor),记作SF(C)。

定义9. 给定未知实例s,它属于类C的可能性被称为s对C的隶属度(belongingness),记作BelC(s),简记为Bel(s),定义如下:

Bel(s)=Tec(s)-Dev(s)*SF(C) (4)

3.3 eEP的挖掘

基于边界的算法[7]能够有效地表示和挖掘所有的EPs,但是缺点是:

(1)需要大量的边界来表示所有的EP;

(2)边界表示法中并不包含EP的支持度和增长率,需要在后续处理中提取,对于稠密数据集或大数据集来说,这个过程非常耗时。

本算法采用的挖掘eEP的方法不使用边界表示法,其思想借鉴了FP-growth[8],但在构造和遍历树方面都不完全与FP-growth相同,甚至优于FP-growth。通过引入后缀子树(用几个很小的数组表示),使算法在挖掘模式时并不生成条件子树,克服了FP-growth在挖掘模式时需要递归地生成大量的条件子树的缺点,从而大大提高了模式挖掘的时空效率。

3.4 EPTPC算法综合描述

EPTPC算法描述如下:

4 实验及结果分析

算法采用10-折交叉验证的性能评估方法,在UCI机器学习库的11个数据集上进行测试,并与一些经典分类算法(Naundefinedve Byaes(NB),CBA,C5.0,CMAR以及两个基于EP的分类算法CAEP[2]和BCEP[8])的分类结果进行比较(见表1)。

从表1看出,在11个数据集上,EPTPC都比基于EP的经典分类算法CAEP要强一些,特别是在Vechile和Lymph两个数据集上;与BCEP相比,分类准确率也不相上下。整体来看,EPTPC在Austrilian,Cleve,Heart,Vechile上优于其他算法,在Mushroom数据集上也基本上接近100%,在其他的数据集上EPTPC的分类准确率也与最好结果接近。

5 总结

在对两阶段分类思想和基于EP的分类算法作了深入研究的基础上,提出了一种新的分类算法,与传统的分类方法不同的是,不仅采用两阶段思想构建分类算法框架,更加注重在稠密数据库和高维数据库中的模式灾难问题,采用eEP作为分类模式。采用10折交叉验证方法训练分类器,最大程度地减少了分类误差。EPTPC在11个UCI机器学习数据集上取得了与其他优秀算法相媲美的分类效果。

参考文献

[1]JIAWEI HAN,MICHELINE KAMBER.范明,孟小峰等译.数据挖掘:概念与技术(第2版)[M].北京:机械工业出版社,2007.

[2]GUOZHU DONG,XIUZHEN ZHANG,LIM-SOON WONG,JINYAN LI.CAEP:Classifica-tion by Aggregating Emerging Patterns[J].Dis-covery Science 1999:30-42.

[3]GUOZHU DONG,JINYAN LI.Emerging Pat-tern Based Classification[M].//Encyclopediaof Database Systems,Edited by LING LIU andTAMER M.OZSU.2009.

[4]GUOZHU DONG,JINYAN LI.Applications ofEmerging Patterns for Microarray Gene Expres-sion Data Analysis[M].//Encyclopedia of Da-tabase Systems,Edited by LING LIU and TAM-ER M.OZSU.2009.

[5]RAMESH AGARWAL,MAHESH V.JOSHI.IBM Research Report.PNrule:A new Frame-work for Learning Classifier Models in Data Min-ing(A Case-Study in Network Intrusion De-tection)[C].In Proceedings of First SIAMConference on Data Mining,Chicago,April2001.Expanded version available as IBM Re-search Division Report,RC 21719,April 2000.

[6]CHUAN-YU CHANG,RU-HAO JIANHUNG-JEN WANG.Two-phase Fuzzy-ART with Independent Component Analysis forSemantic Image Classification[J],2009.

[7]GUOZHU DONG,JINYAN LI.Efficient Miningof Emerging Patterns:Discovering Trends andDifferences[J].KDD 1999:43-52.

上一篇:大学生抑郁心理现状下一篇:低碳进行时