特征选择和变换(共6篇)
特征选择和变换 篇1
0引言
人脸检测是一个开放性的、比较活跃的研究课题。在人脸检测算法中,迄今为止主要有模板匹配模型、肤色模型、ANN模型、SVM模型和Adaboost模型等。核机器学习方法是核函数方法在机器学习领域的应用。该思想在机器学习中的成功应用最早源于支持向量机(SVM)[1]。支持向量机是近十几年来发展起来的模式分类方法,在模式识别领域有广泛的应用。最初的SVM 主要用于解决两类问题的分类。后来,许多学者改进了SVM 的核心设计,或者与其他理论结合,提出各类改进的支持向量机。与模糊理论相结合,提出模糊支持向量机[2](FSVM)。模糊支持向量机的核心问题是隶属度函数的设计问题。紧密度模糊支持向量机在确定样本的隶属度时,不仅考虑了在特征空间中,样本与最小包围球中心之间的关系,样本到最小包围球中心之间的距离越大,则该样本属于该类的隶属度就越小;同时,考虑了在特征空间中样本分布范围对于隶属度的影响。但通过大量的实验表明,将0.4作为球内样本隶属度的极小值,球外样本隶属度的极大值,往往不能得到最好的分类效果[3]。基于此,本文提出了一种改进的紧密度模糊支持向量机。该算法将球内样本隶属度的极小值,球外样本隶属度的极大值不再单纯地设为常量0.4,而是变量 ,并采用交叉确认的方式来得到较好的隶属度函数的参数。实验结果表明,该算法具有更好的分类性能。通过人脸检测实验来对改进算法进行测试取得了较好的实验效果。
1算法的基本思想
在人脸的特征提取和分类实验中,首先使用变分的测地活动轮廓模型对人脸分割定位,然后通过尺度不变特征变换SIFT(Scale-Invariant Feature Transform)算法提取人脸图像的特征,根据训练样本集构造基于支持向量分量核函数的分类器,最后用改进模糊支持向量机进行人脸的检测。
2算法的基本原理
2.1测地活动轮廓模型
测地活动轮廓模型算法是一种基于边缘的图像分割方法。如果图像中的对象与背景的分界处存在灰度值的较大差异,那么对象的轮廓就将形成明显的边缘,也就是说图像的梯度模值在对象的边缘处将达到局部极大值。在此思想的基础上,Caselles V,Kimmel R和Sapiao G于1997年提出了不含自由参数测地活动轮廓GAC(Geodesic Active Contour)模型[4]。GAC模型的泛函表示为:
引入正则化函数H(z)可得变分水平集方法,表示为:
GAC模型的梯度下降流表示为:
式中,c为一可选常数,引入δε、c和 g可以加快曲线在图像平坦区演化的速度,g是边缘停止函数,表示为:
式中,z 为图像的梯度模值,r 为正常数,其取值根据具体实验而定,H(z)是Heaviside函数,δε是所选Heaviside函数的导数。
GAC模型的提出使PDE方法在图像分割中的应用产生重大突破,近几年,国内外的研究人员对其进行了不同程度的改进,并取得了一定的成果[5]。
2.2尺度不变特征变换算法
尺度不变特征变换(SIFT)算法由Lowe D G 1999年提出,2004年完善总结,后来Ke Y将其描述子部分用PCA代替直方图的方式,对其进行改进[6,7]。SIFT算法是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置、尺度和旋转不变量。高斯卷积核是实现尺度变换的唯一线性核,因此,二维图像的尺度空间定义为:
式中,G(x,y,σ)是尺度可变高斯函数,表示为:
式中,(x, y)是空间坐标,σ是尺度坐标。为了有效地在尺度空间检测到稳定的关键点,提出了高斯差分尺度空间(DOG scale-space)。利用不同尺度的高斯差分核与图像卷积生成,进一步表示为:
式中,σ是尺度因子,k是在同一阶中相邻两层的尺度因子比例系数。
在上面建立的DOG尺度空间金字塔中,为了检测到DOG空间的最大值和最小值,DOG尺度空间的中间层(最底层和最顶层除外)的每个像素点需要跟同一层的相邻8个像素点以及它上一层和下一层的9个相邻像素点总共26个相邻像素点进行比较,以确保在尺度空间和二维图像空间都检测到局部极值。如图1所示,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。
实际计算时,要在以关键点为中心的邻域窗口内采样,并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0度~360度,其中每10度一个柱,总共36个柱。直方图的峰值则代表了该关键点处邻域梯度的主方向,即作为该关键点的方向。图2是采用7个柱时使用梯度直方图为关键点确定主方向的示例。
在梯度方向直方图中,当存在另一个相当于主峰值80%能量的峰值时,则将这个方向认为是该关键点的辅方向。一个关键点可能会被指定具有多个方向(一个主方向和一个以上辅方向),这可以增强匹配的鲁棒性。每个关键点有三个信息:位置、所处尺度、方向。由此可以确定一个SIFT特征区域。首先将坐标轴旋转为关键点的方向,以确保旋转不变性。
接下来以关键点为中心取8×8的窗口。图3(a)的中央黑点为当前关键点的位置,每个小格代表关键点邻域所在尺度空间的一个像素,矢量方向代表该像素的梯度方向,矢量长度代表梯度模值,图中圆圈代表高斯加权的范围(越靠近关键点的像素梯度方向信息贡献越大)。然后在每4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图3(b)所示。此图中一个关键点由2×2共4个种子点组成,每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力,同时对于含有定位误差的特征匹配也提供了较好的容错性。
实际计算过程中,为了增强匹配的稳健性,Lowe建议对每个关键点使用4×4共16个种子点来描述[7],这样对于一个关键点就可以产生128个数据,即最终形成128维的SIFT特征向量。此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响,再继续将特征向量的长度归一化,则可以进一步去除光照变化的影响。
2.3模糊支持向量机和超球支持向量机
给定模糊样本集{xi,yi,μi}
模糊支持向量机的数学模型如下[8]:
式中,w为超平面的法向量,b为超平面的偏置,ξi是松弛变量,C为惩罚因子。
则原始问题式(8)的对偶问题为:
超球支持向量机的数学模型如下[9,10]:
其中,a为球心,R为球半径,ξi为松弛变量,v∈(0,1]为惩罚因子,用来控制包围球的半径与球外样本的个数之间的折衷。
则原始问题式(10)的对偶问题为:
训练超球支持向量机得到k个超球(am,Rm),其中,am是包围m类样本超球的球心,Rm为超球的半径。
紧密度模糊支持向量机的隶属度函数定义如下:
其中,d(xi)=‖g(xi)-ayi‖。
由式(12)可以看出:样本到最小包围球中心之间的距离越大,则该样本属于该样本集的隶属度就越小;同时考虑位于球半径内、外样本的隶属度变化规律不同,采用不同的隶属度函数,且位于超球内的样本,其隶属度都大于0.4;而位于超球外的样本,其隶属度最大值为0.4。但通过大量的实验表明,将0.4作为球内样本点隶属度的极小值、球外样本点隶属度的极大值,往往不能得到最好的分类效果。
扩展的紧密度模糊支持向量机的隶属度函数定义如下:
其中,σ∈(0,1)。
式(13)是式(12)的一般形式,它将位于超球内的样本的隶属度的极小值及位于超球外的样本的隶属度极大值设为σ,即位于球半径内的样本,其隶属度都大于σ;而位于球半径外的样本,其隶属度都小于σ。关于取得σ的较优值,本文采用交叉确认的方式来获得。
3实验结果及分析
本文算法对十幅110×140的正面人脸灰度图像进行实验。其中缩放尺度等于1,旋转因子为0,平移量T=(0,0)。图5是采用GAC模型的分割结果,可以看出基本正确地分割出了人的面部轮廓。
实验中共采集样本400个,每个人10幅不同的图片,共40个人。对每幅人脸取特征,随机选取其中的70%作为训练样本,30%作为测试样本。在检测前,对人脸图像进行几何归一化和灰度归一化,归一化成60×100 的标准人脸图像。实验中使用的核函数为径向基函数(RBF)K(x, y)=e-γ‖x-y‖2和线性核K(x,y)=x·y。
图5给出了不同核函数下改进的紧密度模糊支持向量机对于不同σ准确率的变化情况。从图5可以看出,随着σ的增加,准确率呈阶梯上升,一直到达某个极大值后,呈阶梯下降。即该极值点为σ的最优值。实验结果表明,一般情况下,紧密度模糊支持向量机(即σ=0.4)不能得到最优的分类结果,有时甚至与最优值相差较大,如果尝试通过交叉确认的方式可以取得较好σ,一般来说交叉确认的范围越大,步长越小,σ的值越精确,但巡优时间要相应的提高。本文实验中σ范围从0.1到0.9,步长为0.1。
表1给出了支持向量机、紧密度模糊支持向量机及其改进算法在不同核函数下,进行人脸检测的比较结果。系统参数和核函数参数均通过交叉确认得出,其中折取3。从表1可以看出与传统的支持向量机和紧密度模糊支持向量机相比,改进的紧密度模糊支持向量机具有更优的分类性能,更适合用于人脸检测。改进算法与传统模板匹配模型、肤色模型、ANN模型和Adaboost模型相比,因为检测算法具有尺度不变的特点,所以不需要对多个不同尺度的图像进行检测,提高了算法的检测速度和算法的鲁棒性。
4结语
本文首先使用变分的测地活动轮廓模型对人脸分割定位,然后使用尺度特征变换和支持向量机算法对人脸进行检测,其中尺度特征变换算法得到图像的局部特征,且对旋转、尺度缩放和亮度变化保持不变性,对视角变化、仿射变换和噪声也保持一定程度的稳定性。同时,实验证明改进的支持向量机算法具有较好的分类性能,本文算法是一种较为实用的人脸分类检测算法。
参考文献
[1]Vapnik V.The Nature of Statistical Learning Theory[M].New York:Springer,1995.
[2]Huang Hanpang,Liu Yihung.Fuzzy Support Vector Machines for Pat-tern Recognition and Data Mining[J].International Journal of Fuzzy Systems,2002,4(3):826-835.
[3]艾青,秦玉平,方辉,等.一种扩展的紧密度模糊支持向量机及其在文本分类中应用[J].2010,27(4):45-47.
[4]Caselles V,Kimmel R,Sapiro G.Geodesic Active Contours[J].In-ternational Journal of Computer Vision,1997,22(1):61-79.
[5]Li Chunming,Xu Chenyang,Gui Changfeng,et al.Level set evolu-tion without re-initialization:A new variational formulation[C]//IEEE Conference on Computer Vision and Pattern Recognition,Wash-ington,D.C.,USA:IEEE Computer Society,2005,1(1):430-436.
[6]Lowe D G.Object recognition from local scale-invariant features[C]//International Conference on Computer Vision,1999.9:1150-1157.
[7]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,6(2):91-110.
[8]张翔,肖小玲,徐光祐.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958.
[9]Maneivitz L M,Yousef M.One-Class SVMs For Document Classifica-tion[J].Journal of Machine Leaning Research,2002,(2):139-154.
[10]朱美琳,杨佩.基于支持向量机的多分类增量学习算法[J].计算机工程,2006,32(17):77-79.
特征选择和变换 篇2
纹理是人们描述和区分不同物体的重要特征之一,它作为物体表面的一种基本属性广泛存在于自然界中,是人们视觉系统对自然界物体表面现象的一种感知,是图像中普遍存在而又难以描述的特征,虽然人们对纹理的研究已有几十年的历史,但至今难以对纹理给出统一、准确的定义[1,2,3,4,5]。
20世纪70年代以前出现了自相关函数法,功率谱方法和一些与各种灰度频率相关的方法等[6,7,8]。这些方法取得了一定成功,但是没有具体的定义、描述或纹理模型,仅仅是某种数学变换。另外还有一些提取纹理特征的方法[9,10],也仅限于提取特定的图像属性,如纹理粗糙度、纹理直线性等。自20世纪80年代以来,MRF理论在纹理分析中掀起一阵热潮[11],为纹理特征提取找到了一个新的方向,90年代以后,人们发现传统的纹理分析方法的一个瓶颈在于不能从多尺度有效描述纹理特征。小波理论[12,13]的出现为时频多尺度分析提供了一个更为精确而统一的框架。近年来,较引人瞩目的是Ojala[14]等于2002年提出的局部二进制模式(LBP)[15,16,17],该方法分析纹理的吸引人的地方在于其计算复杂度小,具有多尺度特性和旋转不变特性,在纹理检索领域得到应用。在前人总结的基础上,再结合顶帽变换[18]能有效消除不均匀背景这一特点,本文提出了顶帽变换和LBP算子相结合的多特征组合纹理特征提取方法。
1 顶帽变换
帽变换技术作为灰度形态学的重要应用之一,是一种非均匀背景问题的解决方案。
图像f的顶帽变换h定义为图像f与图像f的灰度开运算之差,可表示为:
2 局部二值模式(LBP)
局部二值模式(Local Binary Pattern,LBP)算子是一个描述图像局部空间结构的非参数模型算子,LBP算法思想简单容易理解、计算复杂度小、对单调的灰度变换不敏感并且能够很好地描述图像的局部纹理特征[19]。最早出现的是基本的LBP,在原始的LBP算子提出后,研究人员不断提出了各种改进和优化,又相继出现了圆形领域的LBP(LBPP,R)、均匀LBP(LBPPu2,R)、完整LBP等。
3 纹理特征提取
首先给出一些符号定义:符号TR表示以半径为R的结构元素对原图像进行顶帽变换处理,如T10表示以半径为10像素的结构元素对原图像进行顶帽变换处理,T5则表示以半径为5像素的结构元素对原图像进行顶帽变换处理;符号TR-LBPp,R1表示对以半径为R的结构元素进行顶帽变换处理的结果图像进行LBPP,R1纹理特征描述;符号TR2表示对TR进行二值化处理,即原图像经TR处理后再进行二值化处理的结果图像;符号T2R-LBPP,R1表示对TR2处理后的结果图像进行LBPP,R1纹理特征描述。
图1中(a)图像为原图像,(b)图像为原图像的LBP8,2纹理特征描述;图2中采用半径为10的圆形结构元素对原图像进行顶帽变换处理,如(a)所示,(b)为(a)的LBP8,2纹理特征描述,(c)为图像(a)的二值化处理结果,(d)为(c)的LBP8,2纹理特征描述,即原图像的T210-LBP8,2纹理特征描述;图3中所包含图像与图2保持一致,只是采用了半径为5的圆形结构元素对原图像进行顶帽变换处理。对比图2与图3中(d)图像,可以看出T210-LBP8,2通过调节结构元素的半径,对原图像进行顶帽变换处理后能够得到不同粒度的原图像细节信息。
在前人研究的基础上,本文提出如下多特征组合的纹理特征提取方法:采用对原图像的LBPP,R1纹理特征描述和原图像的LR-LBPP,R1纹理特征描述进行组合作为最终的纹理特征提取,用符号LBPP,R1-LR-LBPP,R1表示。这种多特征组合的纹理特征提取方法的更一般符号表示为:LBP-TR2LBP。
上述内容中给出了LBP-TR2LBP纹理特征提取方法,但并未解释该纹理特征提取方法为什么选择上述两种特征进行组合而不选择其它特征的组合(如LBP-TR-LBP或TR-LBP-T2R-LBP),下文将给出详细分析。为了方便对比分析,先给出原图像的纹理统计特征图和原图像的纹理统计特征图,如图4和图5所示。
对比图4中的(a)和(b)或图5中的(a)和(b),可以看出:除几个细小的变化不同外,(a)图和(b)图的统计变化曲线大致保持一致。这说明(a)图和(b)图所描述的特征非常相似,如果对这两个特征向量进行归一化处理,它们之间的距离会非常小。因此(a)图和(b)图所描述的特征组合作为特征提取会存在特征信息冗余。在实验过程中采用(a)图和(b)图所描述的特征组合作为特征提取与仅采用(a)图所描述的特征作为特征提取所取得的分类准确率几乎没有差异,这也证明了上述分析的正确性。(a)图和(b)图的相似也正好说明了LBP算子能有效地消除光照影响,因为(b)图是原图像经过顶帽变换后得到的统一化LBP统计特征,顶帽变换有效地消除了不均匀背景,而不均匀背景往往是由光照引起的。至于为什么不选择组合图4中的(b)和(c)或图5中的(b)和(c),而选择(a)和(c)的组合,先要对(c)图进行分析。
根据顶帽变换消除不均匀背景的效果———原图像经过顶帽变换后得到的图像分量能够更加合理地描述原图像中实物的细节信息。采用相同的方法分别对原图像和原图像经过顶帽变换后得到的图像进行二值化,原图像经过顶帽变换后得到的图像在经过二值化后具有更多的细节信息,这表明经过顶帽变换后得到的图像分量的灰度分布能更合理地描述出原图像中实物的细节部分,因此顶帽变换能够有效地帮助获得图像中的细节信息,这些细节信息往往就是具有较强区分力的信息,获得这些细节信息也就是形态学图像处理的本质———抓住目标对象最为本质(最具区分能力—Most Discriminative)的形状特征。(c)图对这些细节形状特征进行了统计描述。
再对图2或图3中的(c)图进行观察,可以看出,其(c)中几乎没有包含背景信息,这也是为什么选择组合图4中的(a)和(c)或图5中的(a)和(c),因为通过其(c)可以抑制(a)中所包含的背景信息产生的对特征区分能力的干扰(背景往往是不太被关注的信息)。那么为什么不选择组合图4中的(b)和(c)或图5中的(b)和(c),原因在于顶帽变换的本质实际上相当于滤波处理,它过滤掉了原图像中实物的一些轮廓信息,而轮廓信息往往具有较强的区分能力。因此提出了LBP-TR2LBP纹理特征提取方法。对于顶帽变换会增强噪声以及LBP对噪声较为敏感的缺点,可以采用MB-LBP算子来处理。
4 实验结果分析及性能评价
为了评价上述纹理特征提取方法的性能,在Outex数据库中的Outex_TC_00011和Outex_TC_00012数据集上做了一系列实验。其中,Outex_TC_00011数据集包含960个数据样本,Outex_TC_00012数据集包含了9 120个数据样本,通过对比不同特征提取方法的分类准确率来评价特征提取方法性能。其中实验中用到的特征提取方法有:LBP、T2R-LBP、LBP-T2R-LBP、CLBP及CLBP-T2R-LBP。分类方法选择最近邻原则,将测试图像归为差异度最小的那一类。分类准确率结果如图6所示。
根据图6不同尺度结构元素下特征提取方法的分类准确率看出,可以通过调节顶帽变换中的结构元素的半径尺度,可以得到能够取得较高分类准确率的特征;从表1中不同特征提取方法的平均分类准确率看出,单一的LBP和T2R-LBP的特征提取方法的平均分类准确率分别为70.5%和55.5%,准确率均不是很高,而LBP-T2R-LBP取得了83.4%的平均分类准确率,分类准确率有了大幅度提高。但相比于CLBP方法所取得的92.2%平均分类准确率,其分类准确率仍然逊色不少,然而CLBP-T2R-LBP却取得了93.7%的平均分类准确率,较CLBP的平均分类准确率有了小幅度提高。
5 结语
特征选择和变换 篇3
关键词:峰电位分类,离散小波变换,波形特征分析,小波消噪
0引言
大脑中的神经元通过峰电位进行信号的传递、交流和处理[1], 目前大部分的电生理实验采用单细胞刺激的细胞内或细胞外记录技术, 将每个神经元作为一个独立单元。然而, 信息处理过程依赖于多个相关神经元的相互作用与整合。多电极记录技术可以同时记录到多个神经元的活动, 为研究神经元之间的群体活动提供了实验基础。但是, 多电极上记录到的信号往往是几个相邻神经元动作电位与大量噪声的叠加, 而同一神经元的放电也可能为相邻的多个电极所记录。为了从多电极记录的信号中获得有用的信息, 对神经元放电序列进行甄别就尤为重要, 有必要将每个神经元发出的峰电位信号从得到的信号中区分开来。
国外有不少学者致力于神经元峰电位信号的检测和分类研究[2,3,4,5]。一般来说, 采用多电极细胞外记录技术得到的信号信噪比通常比较低, 而且背景噪声的来源很多[6], 所以在进行信号分类前必须进行信号消噪处理, 以提高信号的信噪比, 便于信号检测和分类。小波变换方法不仅可以提高信噪比而且还能很好地维持峰电位信号的波形[7]。本文提出了基于离散小波变换和波形特征分析的新的分类方法 (DWT-SFA法) , 并将该方法成功地应用于大壁虎嗅觉神经信号峰电位的分类。
1离散小波变换
小波变换是一个时间和频率的局部变换, 具有对信号进行时频分析和时变滤波的特点, 具有变焦距、聚焦信号局部特征的性质, 在高频部分具有较高的时间分辨率和较低的频率分辨率, 在低频部分具有较低的时间分辨率和较高的频率分辨率。基于这样的特点, 它能够有效地从信号中提取信息, 通过伸缩和平移的功能对信号进行多尺度细化分析。
利用小波变换对信号进行消噪处理时, 小波基函数的选择很重要。不同的小波基具有不同的时频特征, 用不同的小波基分析同一个问题会产生不同的结果。一般选择波形与峰电位信号的波形比较相似的小波基[8]。
使用小波变换对大壁虎嗅觉神经元信号进行消噪处理。已知信号的采样频率为20 kHz, 峰电位信号的频率区间为300 Hz~2 000 Hz。选择db4小波作为小波基函数, 对峰电位信号进行8尺度小波分解。图1为离散小波变换前、后的神经元信号。
2波形特征分析
波形特征分析方法是一种通过对尽量少的特征量的考察, 在最大程度上描述出波形之间特征差异的分类方法。比较简单的特征如峰电位的宽度和幅度等, 并不能准确地描述出波形形状。本文中, 定义了3个不同的波形特征[9]:slope、aspect ratio和p_p1。它们的定义如下:
slope= (yp-yv) / (xp-xv) 。
aspect ratio=yv/ (x1-x2) 。
p_p1=yp1-yv 。
相比于其他的波形特征, 这3个波形特征的组合可以准确地描述出波形形状。波形特征示意图如图2所示。
一般情况下, 神经元信号中包含着大量的噪声, 以大壁虎嗅觉神经元信号为例进行分析。采用本文提出的新分类方法, 首先对神经元信号进行小波消噪, 然后通过设定阈值的方法提取峰电位信号, 最后选择上述3个特征使用k-means聚类方法进行聚类分析。图3为DWT-SFA法分析结果。
使用主成分分析法对同一大壁虎嗅觉神经元信号进行分类, 如图4所示。经过小波消噪后, 神经元信号的标准偏差由5.0降到了3.4。从图3中分类结果来看, 它们可能是由两个神经元产生的峰电位信号。与图3相比, 虽然在图4中峰电位信号被明显地分成了两类, 但从波形形状上来看, 图4 (d) 更像是噪声。与主成分分析法相比, 基于离散小波变换和波形特征分析的分类方法不仅可以有效地去除高低频噪声的影响, 而且还保证了分类的正确性与精确性。
3验证
美国Plexon公司提供的 Offline Sorter软件是目前广泛应用的峰电位离线聚类软件。由于不能将实验数据导入, 该软件只能分析其附带的示例数据。数据的格式为.plx格式, MATLAB软件不可以直接读取.plx格式的数据, 需要使用昆明动物研究所提供的SpikeSorting软件将.plx格式的峰电位波形数据转换为.txt格式的数据。
实验数据共有6 414个峰电位, 采样频率为40 kHz, 每个峰电位包含40个采样点。DWT-SFA方法对实验数据的分析结果如图5所示。Offline Sorter软件对实验数据的分析结果如图6所示, 图6 (a) 中的1、2、3为单元序号。它们之间的分类正确数目的结果对比如表1所示 (其中的相对误差为DWT-SFA的结果相对于Offline Sorter的误差) , 图6中的Unit a、Unit b和Unit c分别对应图5 (d) 、图5 (c) 和图5 (b) 。可以看出这两种方法得到的分类结果间的相对误差是很小的, 这说明本文选择的这3个波形特征的组合可以准确地将不同的神经元信号分开。从而也证明了DWT-SFA方法分类的正确性和精确性。
4结论
本文提出了一个基于离散小波变换和波形特征分析的新的峰电位分类方法 (DWT-SFA) , 并定义了3个不同的波形特征:slope、aspect ratio和p_p1。将该方法应用于大壁虎嗅觉神经信号分析, 结果表明该方法优于主成分分析法。和Offline Sorter软件的对比结果也说明了DWT-SFA方法分类的正确性和精确性。
参考文献
[1] Rieke F, Warland D, Stevenck D R V, et al.Spike:exploring the neural code[M].Cambridge:The MIT Press, 1996.
[2] Lewicki M.A review of methods for spike sorting:the detection and classification of neural action potentials[J].Net Com Neu Sys, 1998, 9:53-78.
[3] Mati J, Shlomo E, Odeya L, et al.Quantifying the isolation quality of extracellulary recorded action potentials[J].Journal of Neuroscience Methods, 2007, 163:267-282.
[4] Hae Kyung J, Joon Hwan C, Taejeong K.Solving alignment problems in neural spike sorting using frequency domain PCA[J].Neurocomputing, 2006, 69 (7-9) :975-978.
[5] Letelier J C, Weber P P.Spike sorting based on discrete wavelet transform coefficients[J].Journal of Neuroscience Methods, 2000, 101 (2) :93-106.
[6] Musial P G, Baker S N, Gerstein G L.Signal-to-noise ratio improvement in multiple electrode recording[J].Journal of Neuroscience Methods, 2002, 115 (1) :29-43.
[7] Alexander B Wiltschko, Gregory J Gage, Jlshua D Berke.Wavelet filtering before spike detection preserves waveform shape and enhances single-unit discrimination[J].Journal of Neuroscience Methods, 2008, 173 (1) :34-40.
[8] Daubechies I.Ten lectures on wavelets[M].Phila:SIAM, 1992.
特征选择和变换 篇4
关键词:耐硫变换,催化剂,硫化,工艺
钴钼系耐硫变换催化剂的硫化技术是耐硫变换催化剂应用的关键步骤之一。随着催化剂制备技术的发展,促进了硫化技术的基础研究和应用研究,合适的硫化技术不仅能够发挥变换催化剂良好的变换活性和活性稳定性,能够延长催化剂的使用寿命;而且还将直接影响变换工段的生产负荷、原料气质量和蒸汽消耗等指标。本文通过对耐硫变换催化剂两种不同硫化工艺进行分析对比,并结合实际工业应用情况,提出了实用高效的耐硫变换催化剂的硫化技术,对工业应用中的耐硫变换催化剂的硫化应用具有实际意义。
1 硫化剂
在催化剂的硫化过程中,无论采用何种硫化方法,最基本的硫化剂就是H2S。因此,只要在硫化条件下容易提供H2S的物质都可用作硫化剂。工业上通常采用低分子量的有机硫化合物和无机的固体硫化剂。常见的几种硫化剂为:EM(乙硫醇)、NBM(正丁硫醇)、DMDS(二甲基二硫化物)、DMS(二甲基硫化物)、CS2(二硫化碳)、COS(硫氧碳)、TNPS(二叔壬基多硫化物)。考虑价格、使用效果、安全程度和容易取得程度等因素,一般选用CS2(二硫化碳)[1] 为硫化剂。
2 硫化工艺
催化剂的硫化一般在常压下进行,具体的硫化过程可根据工厂的实际条件选择一次通过法或气体循环法[2]。
一次通过法:半水煤气经电炉加热后进人低变炉,由炉后放空。半水煤气充分置换后即可开电炉升温。床层温度升至200 ℃左右时, 可加入少量CS2,然后不断提高温度,CS2的加入量也逐渐加大,按气流方向逐层硫化,直至硫化结束。具体流程见图1。
气体循环法:半水煤气从低变炉出来后,经水冷却器,将气体温度降至接近常温,然后进入鼓风机入口,维持鼓风机入口处正压, 由鼓风机将气体送至电炉加热后进入低变炉。由于在硫化过程中要 消耗氢,在鼓风机入口处应接一半水煤气补充管,连续加入少量半水煤气。为防止惰性气体在循环气中积累,变换炉出口处设一放空管,连续或间歇放空少量循环气,使循环气中H2在气体中含量在25%以上[3]。具体流程见图2。
3 硫化应用
我厂现有变换系统3套,全部采用中低低变换工艺,耐硫变换催化剂全部采用LYB-99型催化剂。2005年分别对2套系统更换催化剂,其中一套变换系统装填耐硫变换催化剂60 m3(以下简称A系统),硫化时采用一次通过法;另一套变换系统装填耐硫变换催化剂70 m3(以下简称B系统),硫化时改用气体循环法。针对两种不同的硫化方法,通过硫化过程对比,物耗对比,硫化效果对比,可以明显的看出,气体循环法有很大的优势。
耐硫变换催化剂的硫化过程都是在催化剂的生产厂家指导下,采用同一标准:半水煤气空速300 h-1,通过电炉对催化剂升温到200 ℃,开始加入CS2,通过控制电炉出口温度和CS2的加入量,使催化剂床层温度在300 ℃左右,同时出口H2S含量>1 g/m3;然后,逐步提高电炉出口温度和CS2的加入量,使催化剂床层温度达到400 ℃以上,且不超450 ℃,出口H2S含量≥10 g/m3。这时,硫化基本完成,进入降温排硫阶段,催化剂床层在300 ℃以下,出口H2S含量<1 g/m3,排硫结束,就可以并入系统,正常生产了[4]。
3.1 硫化过程对比
两种不同的硫化工艺,在相同的硫化标准下,具体硫化过程的差异主要表现在时间上,由于B系统催化剂的数量大于A系统催化剂的数量,所以B系统的硫化时间要多于A系统的硫化时间。具体硫化时间见表1。
3.2 硫化物耗对比
采用一次通过法硫化的A系统,耐硫变换催化剂装填量60 m3,而采用气体循环法硫化的B系统,耐硫变换催化剂装填量为70 m3。一次通过法硫化,大量的气体被白白排放到大气中,既是浪费,又污染了化境。就是在B系统需要硫化的催化剂数量多的情况下,CS2的用量和半水煤气的消耗都比A系统低很多,虽然在动力电的消耗高于A系统,主要是因为,催化剂的数量多的原因。具体消耗主要从CS2、半水煤气、动力电三方面对比,见表2。
3.3 硫化效果对比
A、B系统的耐硫变换催化剂通过不同方法硫化后,在正常的生产工艺指标下,催化剂的使用效果都很理想,热点温度和蒸汽消耗都在理想范围,催化剂使用寿命A系统为65个月,B系统为72个月。A、B系统的运行指标见表3。
4 结 论
耐硫变换催化剂的硫化采用一次通过法和气体循环法都可以达到很好的硫化效果,考虑到节能和环保的优势,气体循环法硫化更适合厂家的需要,尤其在现在环保严厉和煤炭价格高起的形势下,气体循环硫化法更具有无可比拟的优势。
参考文献
[1]高建国,谭永放.耐硫变换催化剂硫化技术探讨[J].大氮肥,2002,25(4):226-229.
[2]春国成,侯琳.Co—Mo系耐硫变换催化剂硫化的探讨[J].气体净化,2007,7(4):5-9.
[3]申勇,朱天存.Co-Mo-K/Al2O3系耐硫变换催化剂硫化过程的研究[J].工业催化,1995(1):56-58.
特征选择和变换 篇5
随着互联网的深入发展,互联网金融的发展非常迅速,甚至是已经发展到了校园中。随着互联网金融的发展,征信迫在眉睫。但是我国的信用评估体系并不完善。在过去的信用体系建设中,主要着重在企业和个人的信用评估方面,很少涉及到大学生这个特殊的群体。因此,建立一套适用于大学生的信用评估体系,选择合适的信用指标,对繁荣的互联网市场确定信用良好的学生等方面具有重要的意义。
在美国,每个人都有非常完善的个人资信档案。信用卡的每笔消费、透支、偿还等都非常详细的记录在了个人资信档案中。1943 年,Edward F Gee提出了现今大家所熟悉的5C原则,即品格、能力、资本、抵押品和周期形势。二十世纪七十年代,Paul H.Hunnm根据5C原则提出了5P原则,分别是借贷人、资金用途、还款来源、债权保障、授信展望等5 方面[1]。借鉴国外个人信用评估的指标,我国也在逐步建立适用于我国国情的信用指标体系。黄大玉等将每个人的资信评定分成品质体系和资本实力体系两个体系,并且采用“单独量化、分别评定、互相制约”的方法评分,以避免混淆品质和资本实力的目的[2]。王军等人根据年龄、学历、职业等设立了十五个指标用于全面评价个人资信,测算贷款人的还款能力、信用额度等。在以上的评估体系中,婚姻状况、职业与职务、住房情况、工作稳定性、月收入等都是影响个人信用的指标[3]。然而这些指标并不适用于大学生。研究高校学生的信用评估模型,选择适用于学生的信用指标是非常重要的。
本文利用在校学生的图书馆记录、消费记录、学习成绩等数据,使用特征分组和遗传算法相结合的方式作特征选择,选择出适用于学生信用模型的学生信用指标。
1 特征选择算法
在特征选择算法中,按照搜索特征子集的策略,可以分为完全搜索、启发式搜索、随机搜索三种方式。其中随机搜索是完全搜索和启发式搜索的折中,能够在相对较短的时间内找出接近全局最优的特征子集,是一种比较有效的特征选择方法。遗传算法是随机搜索算法中的一个典型算法,目前已经在机器学习、信号处理、经济预测等领域都取得了非常显著的成果。因此,在本文中也将选用遗传算法作为特征选择的方法。但是遗传算法对于特征多的大规模数据库的效率也比较低,本文提出了特征分组与遗传算法结合的方法。在本文中,特征选择的过程如图1 所示。
2 特征选择过程及结果
2.1 数据处理
随着学校信息化和数字化的发展,学校数据库里包含了大量与学生的生活、学习相关的数据。在国外,很多国家都已经把图书是否超期作为信用的一部分。学校的数据库中也详细记录了每个学生在图书馆借阅的情况,因此,本文中将利用图书馆的逾期记录进行建模。
从某高校的数据库中随机选择了4000 个学生数据,其中2000 个作为训练样本,另外2000 个作为测试样本。这些数据包括学生在学校中的图书馆借阅记录、图书馆门禁记录、消费记录及学习成绩等,如表1 所示。
根据表1 所得的数据,可以衍生出很多衍生变量。整合原始变量和衍生变量的到一张变量表,通过观察表中的数据内容,剔除对建模没有意义的变量,得到与原始变量相关的七十五个特征变量。本文将从得到的七十五个特征变量中选择出评价大学生信用的特征变量。
2.2 特征分组方法
本文使用变量聚类的方法进行特征分组。变量聚类是通过分析变量间的关系来对变量作出分类,以达到对变量进行归纳和整理的目的。变量聚类一般根据相关阵或协方差阵对变量进行分类聚类,类的选择则是根据主成分分析的思想,使每一类的第一主成分所解释的方差达到最大[4]。
在SAS软件中,可以使用proc varclus过程直接进行变量聚类过程,将变量分成指定的组数。本文中,利用proc vaclus将特征分为四组,每组有十几到二十几个变量。
2.3 遗传算法
2.3.1 编码及初始种群设计
遗传算法只能处理表示成由基因组成的个体的数据。在本次特征选择中,是否违约是一个二值问题,因此采用二进制编码的方法,每个染色体对应一个特征子集。设在特征组中有n个特征,则染色体十一个长度为n的{0,1} 字串,如果基因为1,表示该基因对应的特征被选中,如果为0 则表示该基因对应的特征没有被选中。随机产生k个长度为n的{0,1} 字符串作为初始种群。
2.3.2 适应度函数的设计
适应度函数是评价群体中每个个体适应度的函数。如果个体的适应度函数值比较大,说明它具有的优良基因比较多,那么它遗传到下一代的可能性就比较大;如果个体的适应度函数值比较小,说明它具有的优良基因比较少,那么它遗传到下一代的可能性就比较小。因此,适应度函数的设计非常重要。
本次特征选择的目的是找出与学生信用相关的特征变量,成功将学生根据信用好坏分类。因此,在本次适应度函数的设计中,根据分类准确率进行设计适应度函数。分类准确率高的特征子集遗传到下一代的可能性大。
逻辑回归在二值分类的预测中具有非常广泛的作用,而且稳定性非常好,在本次适应度函数的设计中,以分类的准确率作为适应度函数值。
在本文中,样本只有违约和没有违约两类,对于染色体个体,所选取的特征个数为n个。首先采用辑回归算法对个体选取的特征进行逻辑回归分析,得到参数估计中各个特征的系数,然后将得到的系数代入到线性回归函数中,根据线性函数值计算出大学生违约的概率,并且根据违约概率预测是否违约,最后根据实际情况与预测结果计算该模型的准确率。
2.3.3 遗传算子
(1)选择算子
在本次遗传算法进行的过程中,选用最佳个体保存方法。与其它选择方法相比,最佳个体保存方法可以保证进化中某一代的最优解不被交叉和变异。在本文中,选择算子的步骤是:在交叉或者变异生成的新个体与上一代个体放在一起,对分类准确率进行排序,根据种群中的个体数保留分类准确率高的个体。
(2)交叉算子
在本次遗传算法中,采用的是一点交叉的算法。一点交叉的步骤是,从上一代中随机选择两个个体,随机指定交叉点,生成两个新的个体。
由于采用特征分组的方法,所以在每组个体的特征大约为十几到二十左右,相对比较少。
而且一点交叉比较成熟,使用简单,更容易的生成新的个体。
(3)变异算子
在本次遗传算法的变异过程中,首先按照变异概率选择需要变异的个体,然后在选出的个体中随机选择变异的基因,从0 变成1 或者从1 变成0,实现基因的变异。
2.3.4 终止条件的设计
在随机搜索算法中,终止条件一般设为一定的循环次数。在本次遗传算法的试验过程中,为遗传过程设置一定的代数,当遗传进行到该代之后停止。
2.4 实验及结论
在特征分组及遗传算法选择之后,得到各组变量的优化子集。将各组子集整合到一个变量集中,然后所得到的特征变量集利用遗传算法进行最后的优化,得出最优子集,该子集中的特征可以用于高校学生中的信用评估体系建设,如表2 所示。
在训练样本中,根据特征子集进行信用评估后得到的结果的准确率为94.5%,将得出的特征子集应用到测试样本中进行测试,结果的准确率为93.5%。从这些数据可以看出,选择出的特征子集应用于训练样本和测试样本时的分类准确率相差不大,说明该特征子集的选择比较好。
3 总结
本文为顺应互联网金融在高校校园中的发展,通过分析高校学生的学习成绩、消费记录及图书馆相关记录,为判断高校学生的信用状况选择合适的特征子集。首先,进行数据预处理,形成原始特征空间。然后,使用变量聚类的方法给变量分组,通过遗传算法找出各组中的最优子集。最后,整合各组最优子集,再次使用遗传算法找出最优子集。
根据该特征子集,采用逻辑回归算法,对学生的信用状况进行分析,可以看出该特征子集具有一定的准确性,可以作为高校学生信用评估模型中的特征变量,为高校学生信用评估模型的建立提供了一定的参考价值。但是,选择出的特征变量也有一定的不足。学生的生活、学习中不止有本文中用到的数据,还有其他可能与信用强相关的数据。另外,本次分析只选用了一部分学生数据,学生数据是在不断更新的,所以特征子集也可能需要不断的调整。
摘要:随着互联网金融的发展,消费信贷已经走入高校学生的生活中。本文在高校学生消费信用数据缺失的情况下,根据学生在学校中的图书馆借阅记录、图书馆门禁记录、一卡通消费记录以及学习成绩等数据进行分析,为高校学生信用模型的建立筛选相关特征变量。本文中采用特征分组与遗传算法相结合的方法,筛选出了与学生信用相关性最大的特征变量,为高校学生征信提供了重要的参考价值。
关键词:相关分析,遗传算法,信用
参考文献
[1]李大伟,个人信用评分与信用卡风险控制研究[D].长春,吉林大学,2006
[2]黄大玉,王玉东.论建立中国的个人信用制度[J].金融论坛.2000,(3):27-31.
[3]康世瀛.个人信用评估及贷款决策研究[J].经济问题探索.2002,(9):108-112.
特征选择和变换 篇6
文本自动分类的任务是对未知类别的文档进行自动处理,判别它们所属预定义类别集中的一个或多个类别[1]。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。在中文文本分类中,通常采用词条作为最小的独立语义载体,原始的特征空间可能由出现在文章中的全部词条构成。而中文的词条总数有二十多万条,这样高维的特征空间对于几乎所有的分类算法来说都偏大。因此,寻求一种有效的特征抽取方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要首先面对的重要问题[2]。
本文提出了一个综合的特征选择方法。该方法既合理地考虑了特征出现的次数,还考虑了特征之间的潜在关系,从而使得选择的特征子集具有较低的冗余性、较好的代表性。
1 几种经典特征选择方法
目前常用的文本特征选择方法有WF、DF、IG、CHI、CE等[3,4,5,6]。
(1)互信息MI(Mutual Information)在统计学中,互信息用于表征两个变量的相关性,常被用来作为文本特征相关的统计模型及其相关应用的标准。
互信息的缺点是受临界特征的概率影响较大,而且它没有考虑单词发生的频度,因此互信息方法倾向于选择稀有单词。在一些特征词选择算法的研究中发现,如果用互信息进行特征选择,它的精度极低(只有约30.06%),其原因是它删掉了很多高频的有用单词。
(2)词频WF(Word Frequency)某个特征的词频是指该特征在一篇文档出现的次数。基于词频的方法往往选取在某类别中比其它类别更频繁出现的词作为特征词,而忽视了词在不同文档中的出现情况。
(3)文档频DF(Document Frequency)某个特征的文档频是指出现该特征的文档数。文档频方法仅考虑特征词在文档中出现与否,忽视了在文档中出现的次数。由此带来的问题是:如果两个特征词的文档频相同,那么其在文档中出现多次和仅出现一次的相关度相同。而文档中仅出现一次的词经常是噪声词。文档频评估函数的理论假设是稀有单词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。显然它在计算量上比其它评估函数小得多,但在实际运用中它的效果却出奇地好。在实际运用中一般并不直接使用文档频,而常把它作为评判其它评估函数的标准。
2 特征辨别能力
如果一个特征对某个类的贡献较大,那么该特征对这个类的辨别能力应该较强。为此,本文定义了特征对类别的辨别能力,简称特征辨别能力。
定义1特征辨别能力表示特征fi对类别cj的辨别能力,用Feature-Distinguishability(fi,cj)表示。由于一个类别的特征词有多个,因此可用以下公式来表示特征辨别能力:
其中m为类别的个数,MinDFn(fi,cj)是指在类别cj的文本训练集中出现特征fi的次数不小于n的文本数。经分析可知,Feature-Distinguishability(fi,cj)不但考虑了特征出现的文档数,而且还考虑了特征在文档中出现的次数,把文档频和词频进行了有机的结合。Feature-DDistinguishability(fi.cj)越大则表明特征fi对类别cj的辨别能力也就越大,那么该特征的分类能力也就越强,即该特征也就越重要。
3 基于二进制可辨矩阵的属性约简算法
3.1 粗糙集基本知识
粗糙集RS(Rough sets)理论是由Z.Pawlak在八十年代初提出来的一种新的处理不精确、不相容、不完全和不确定知识的软计算工具。其本质就是在保持分类能力不变的前提下,通过知识约简,导出问题的分类规则[7]。目前它己被广泛应用于机器学习、决策分析、数据挖掘、过程控制、智能信息处理等领域[8]。
定义2信息系统[10]信息系统S可以表示为S=,其中U为对象集合,R=C∪D是属性集合,C为条件属性集,D为决策属性集,是属性值的集合,Vr表示属性r的值域,f:U×R→V是一个映射函数,它指定U中每一个对象X的属性值。信息系统也可用二维表来表示,称之为决策表,其中行代表对象xi,列代表属性r,r(xi)表示第i个对象在属性r上的取值。
属性约简是粗糙集的核心内容之一,现已出现了大量的属性约简算法,例如以信息论为基础的属性约简算法[9]、以属性重要度为基础的属性约简算法[10]等等,但是这些属性约简算法作用于海量的文本集时效率较低,而二进制可辨矩阵采用二进制的表示形式,作用于其上的各种操作运算速度快,占空间小,可应用于海量数据的表示[15]。文献[11]提出了一个基于二进制可辨矩阵的属性约简算法,该算法操作简便,可以减少存储空间,可用于海量数据集的约简。其后,许多学者在这个算法的基础上又提出了许多相应的改进算法[12,13,14,15]。但是这些算法所定义的变换和运算都需要对空间复杂度高达O(|C‖U|2)的二进制可辨矩阵进行操作,并没有进行根本性的改进[16]。
本文使用一些简化规则对二进制可辨矩阵进行简化,然后通过对简化的二进制可辨矩阵进行操作来实现信息系统的属性约简。简化二进制可辨矩阵的规模是与数据集规模几乎无关的常数,基于简化二进制可辨矩阵的变换和操作,能大大降低算法的复杂度。此外,利用文献[17]提出的方法来构造简化的信息系统,并据此构造简化的二进制可辨矩阵。
3.2 二进制可辨矩阵及其属性约简定义
文献[17]指出信息系统中经常含有一些相同对象,如果直接建立二进制可辨矩阵,则该矩阵中会存在大量不必要的重复元素。为了解决这个问题,提出了简化的信息系统的概念。
定义3[17]信息系统S=(U,C∪D,V,f),设U/C={[x'1],[x'2],…,[x'p]},则令U*=:{x'1,x'2,…,x'p},则称S*=(U*,C∪D,V,f)为简化的信息系统。
简化的信息系统和原信息系统都包含相同的决策信息,但问题规模则由原来的|U|降为|U/C|。
定义4[17]信息系统S=(U,C∪D,Vf),其简化的信息系统为S*=(U*,C∪D,Vf),二进制可辨矩阵定义为:M=(m(i,j),k),其元素定义如下:
称M为S*的二进制可辨矩阵。
二进制可辨矩阵M直接描述了每个属性对论域中对象的分辨情况,所以可以直接反映信息系统中所蕴涵的知识。在二进制可辨矩阵M中,某个元素为1或0表示所在行的属于不同决策类的对象xi、xj在条件属性ck下可分辨与不可分辨,因此,若二进制可辨矩阵中有全为0的行,则说明相应的信息系统是不协调的,否则,是协调的。在信息系统中,由于列出的行是在不可分辨关系IND(C)下可分辨的对象对(xi,xj),故在信息系统相应的二进制可辨矩阵M中不存在全为0的行。在M中,若某一行只有一个元素为1,其余元素均为0,则这个元素1对应的列属性一定属于核或相对核[11]。因此,有下述命题[11]:
命题1若二进制可辨矩阵中某一行只有一个元素为1,其余元素均为0,则元素1所在列对应某个属性,所有这样的属性构成信息系统的核或决策表的相对核。若没有这样的行,则核或相对核为空。
由于约简是保持分类能力的最小属性子集,有如下命题:
命题2在信息系统S*=(U*,C∪D,V,f)中B⊆C,若B是C的一个约简,其充要条件为:1)在由B中所有属性对应的各列所构成的M的子阵中,不全为0的行数等于M中不全为0的行数;(2)∀P⊂B,P不满足条件(1)。
3.3 二进制可辨矩阵的约简规则
虽然同原信息系统的二进制可辨矩阵相比,M所需的存储空间有了一定的减少,但是其最大规模(矩阵包含的行数)为|U*|(|U*丨-1)/2,二进制位数达到|C‖U*|(|U*|-1)/2。如果算法在运行过程中生成这种二进制可辨矩阵,并基于此矩阵进行计算,则其性能显然是不理想的。为了进一步降低算法的时间复杂度、减少所需的存储空间,需要对二进制可辨矩阵进一步变换约简。
基于不影响属性约简结果的原则,二进制可辨矩阵M有如下变换约简规则[12]:
(1)二进制可辨矩阵M中若有全为0的行,应首先去掉这样的行。
(2)在约简过程中,可以随时将二进制可辨矩阵中出现的全为1的行去掉。
(3)可将二进制可辨矩阵中的行、列重新排序。
(4)相同的行或列只出现一次。
(5)对于某两列。如ci列与列cj,若ci+cj=cj (“+”表示逻辑加),则ci列可以去掉。
(6)对于某两行,如(ui,uj)行与(up,uq)行。若(ui,uj)+(up,uq)=(Up,uq),则(up,uq)行可以去掉。
例1考虑下面的一个信息系统,如表1所示。
首先根据该表生成其对应的二进制可辨矩阵M1,如表2所示。
利用上述二进制可辨矩阵的变换约简原则,则可得到其最终的简化矩阵M2,如表3所示。
对比表2和表3不难发现,经过上述规则的约简,二进制可辨矩阵的规模将会大大减小,并且列对应的属性将更接近于甚至等于属性(相对)约简。
假设经过约简后的二进制可辨矩阵为M*,则有如下命题[13]:
命题3在信息系统S*=(U*,C∪D,V,f)中B⊆C,若B是C的一个约简,其充要条件为:1)在M*阵中,由B中各个属性所在列的逻辑和为(1,1,…,1)T;(2)∀P⊂B,P不满足条件(1)。
命题4基于正区域的属性约简定义与基于简化的二进制差别矩阵的属性约简定义是等价的。
3.4 基于二进制可分辨矩阵的约简算法
输入:信息系统S=(U,C∪D,V,f);
输出:属性约简
Step1 Red=∅(;
Step2根据定义3得到信息系统S的简化S*;
Step3根据定义4计算S*的二进制可辨M;
Step4对M中每行仅有一个1的行中1所在的列的属性加入到Red中,并消去这些列及这些列中元素1所对应的行;
Step5计算M中每行和每列1的个数,分别放入数组Row和Col中;
Step6如果M≠∅,那么M中若有全为0的行,则去掉这样的行,否则转Step13;
Step7如果M≠∅,那么M中若有全为1的行,则去掉这样的行,否则转Step13;
Step8如果M≠∅,那么∀行(ui,uj)+(up,uq)=(up,uq)(i≠p,j≠q),则去掉(up,uq)所对应的行,否则转Step13;
Step9如果M≠∅,那么∀列ci+cj=cj(i≠j),则去掉ci所对应的列,否则转Step13;
Step10对M中每行仅有一个1的行中1所在的列的属性加入到Red中,并消去这些列及这些列中元素1所对应的行;
Step11对M中含1个数最少的行对应的列的属性加入到Red中,并消去这些列及这些列中元素1所对应的行(若有两行或多行中的1的个数最少,则选择1对应列中1的总数最多的行);
Step12如果M≠∅那么转Step6;
Step13输出Red,算法结束。
假设信息系统s中有m个属性,有n个对象,约简后有k个对象(k<=n)。文献[11]算法的最坏情况下时间复杂度为O(n4+m2)。本文算法中,建立二进制可辨矩阵的时间复杂度为O(mk2),消除列时的时间复杂度为O(m2),消除行时的时间复杂度为O(k2),总的复杂度为O((m+1)k2+m2),这个复杂度远远低于文献[11]的复杂度。
4 本文特征选择方法描述
设T为原始特征集,C为类别集,对于∀cj,设cj的训练文档集为DSj,其原始特征集Tj=T,cj的特征词选择算法如下:
对于每个fi∈Tj,给定最小词频数n以及特征辨别能力阈值ω;
Step1计算fi的Feature-Distinguishability(fi,cj);
Step2若Feature-DDistinguishability(fi,cj)<ω则把fi从Tj中删除,否则fi保留;
Step3若Tj中还存在没考察的元素则转到Step1;
Step4若c中还存在没考察的类别则转到Step1;
Step5将上述各类别所选的特征合并为一个特征集;
Step6将Step5得到的特征集以及标有类的训练集组织成为一个决策表:S=,使用本文提出的属性约简算法进行属性约简;
Step7对得到的特征子集进行微调,以突出那些对分类贡献比较大的特征词,然后输出特征集。
5 实验例证
本实验使用的数据集由从人民网(http://www.people.com.cn/)上下载的一些新闻材料组成,这些新闻材料发表日期范围为2007-2009年。共下载10类新闻组,其文档分布情况如表4所示。文本表征词典根据训练文档的正文(忽略所有的报头)生成。进行中文分词处理时,采用的是中科院计算所开源项目“汉语词法分析系统ICTCLAS”系统,原始特征维数高达21092。本实验选用线性支持向量机作为基准分类器。
实验使用的软件工具是Weka,这是纽西兰的Waikato大学开发的数据挖掘相关的一系列机器学习算法。实现语言是Java。可以直接调用,也可以在代码中调用。Weka包括数据预处理、分类、回归分析、聚类、关联规则、可视化等工具,对机器学习和数据挖掘的研究工作很有帮助,它是开源项目,网址为:http://www.cs.waikato.ac.nz/ml/weka/。实验使用的计算工具为MATLAB 7.0。
本文算法中各参数需要反复试验才能得到,经试验算法中各参数最后设置如下:n=3,ω=0.09。
为便于比较,在实验中测试了四种特征选择方法:使用本文的方法、互信息(MI)、x2统计量(CHI)、信息增益(IG)。为评价实验效果,实验中选择分类正确率和召回率作为评价标准:召回率(Recal1)=分类的正确文本数/应有文本数,它是人工分类结果应有的文本与分类系统吻合的文本所占的比率。准确率(Precision)=分类的正确文本数/实际分类的文本数,它是所判断的文本与人工分类文本吻合的文本所占的比率。
图1表示四种方法在准确率方面的仿真对比结果,其中纵轴表示准确率,单位为%,横轴各个整数点表示类别序号;图2表示四种方法在召回率方面的仿真对比结果,其中纵轴表示召回率,单位为%,横轴各个整数点表示类别序号。
图1和图2表明了四种方法在所选数据集上的分类准确率和召回率,从总体上看,本文方法>IG>CHI>MI。由于本文方法首先利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集,所以效果最佳;由于IG方法受样本分布影响,在样本分布不均匀的情况下,它的效果就会大大降低,但从整体上看本文所选样本分布相对均匀,只有极个别相差较大,所以总体效果次之;由于MI方法仅考虑了特征发生的概率,而CHI方法同时考虑了特征存在与不存在时的情况,所以CHI方法比MI方法效果要好。总的来说,本文所提的方法是有效的,在文本分类中有一定的实用价值。
6 结束语