特征选择

2024-08-14

特征选择(通用12篇)

特征选择 篇1

引言

随着互联网的深入发展,互联网金融的发展非常迅速,甚至是已经发展到了校园中。随着互联网金融的发展,征信迫在眉睫。但是我国的信用评估体系并不完善。在过去的信用体系建设中,主要着重在企业和个人的信用评估方面,很少涉及到大学生这个特殊的群体。因此,建立一套适用于大学生的信用评估体系,选择合适的信用指标,对繁荣的互联网市场确定信用良好的学生等方面具有重要的意义。

在美国,每个人都有非常完善的个人资信档案。信用卡的每笔消费、透支、偿还等都非常详细的记录在了个人资信档案中。1943 年,Edward F Gee提出了现今大家所熟悉的5C原则,即品格、能力、资本、抵押品和周期形势。二十世纪七十年代,Paul H.Hunnm根据5C原则提出了5P原则,分别是借贷人、资金用途、还款来源、债权保障、授信展望等5 方面[1]。借鉴国外个人信用评估的指标,我国也在逐步建立适用于我国国情的信用指标体系。黄大玉等将每个人的资信评定分成品质体系和资本实力体系两个体系,并且采用“单独量化、分别评定、互相制约”的方法评分,以避免混淆品质和资本实力的目的[2]。王军等人根据年龄、学历、职业等设立了十五个指标用于全面评价个人资信,测算贷款人的还款能力、信用额度等。在以上的评估体系中,婚姻状况、职业与职务、住房情况、工作稳定性、月收入等都是影响个人信用的指标[3]。然而这些指标并不适用于大学生。研究高校学生的信用评估模型,选择适用于学生的信用指标是非常重要的。

本文利用在校学生的图书馆记录、消费记录、学习成绩等数据,使用特征分组和遗传算法相结合的方式作特征选择,选择出适用于学生信用模型的学生信用指标。

1 特征选择算法

在特征选择算法中,按照搜索特征子集的策略,可以分为完全搜索、启发式搜索、随机搜索三种方式。其中随机搜索是完全搜索和启发式搜索的折中,能够在相对较短的时间内找出接近全局最优的特征子集,是一种比较有效的特征选择方法。遗传算法是随机搜索算法中的一个典型算法,目前已经在机器学习、信号处理、经济预测等领域都取得了非常显著的成果。因此,在本文中也将选用遗传算法作为特征选择的方法。但是遗传算法对于特征多的大规模数据库的效率也比较低,本文提出了特征分组与遗传算法结合的方法。在本文中,特征选择的过程如图1 所示。

2 特征选择过程及结果

2.1 数据处理

随着学校信息化和数字化的发展,学校数据库里包含了大量与学生的生活、学习相关的数据。在国外,很多国家都已经把图书是否超期作为信用的一部分。学校的数据库中也详细记录了每个学生在图书馆借阅的情况,因此,本文中将利用图书馆的逾期记录进行建模。

从某高校的数据库中随机选择了4000 个学生数据,其中2000 个作为训练样本,另外2000 个作为测试样本。这些数据包括学生在学校中的图书馆借阅记录、图书馆门禁记录、消费记录及学习成绩等,如表1 所示。

根据表1 所得的数据,可以衍生出很多衍生变量。整合原始变量和衍生变量的到一张变量表,通过观察表中的数据内容,剔除对建模没有意义的变量,得到与原始变量相关的七十五个特征变量。本文将从得到的七十五个特征变量中选择出评价大学生信用的特征变量。

2.2 特征分组方法

本文使用变量聚类的方法进行特征分组。变量聚类是通过分析变量间的关系来对变量作出分类,以达到对变量进行归纳和整理的目的。变量聚类一般根据相关阵或协方差阵对变量进行分类聚类,类的选择则是根据主成分分析的思想,使每一类的第一主成分所解释的方差达到最大[4]。

在SAS软件中,可以使用proc varclus过程直接进行变量聚类过程,将变量分成指定的组数。本文中,利用proc vaclus将特征分为四组,每组有十几到二十几个变量。

2.3 遗传算法

2.3.1 编码及初始种群设计

遗传算法只能处理表示成由基因组成的个体的数据。在本次特征选择中,是否违约是一个二值问题,因此采用二进制编码的方法,每个染色体对应一个特征子集。设在特征组中有n个特征,则染色体十一个长度为n的{0,1} 字串,如果基因为1,表示该基因对应的特征被选中,如果为0 则表示该基因对应的特征没有被选中。随机产生k个长度为n的{0,1} 字符串作为初始种群。

2.3.2 适应度函数的设计

适应度函数是评价群体中每个个体适应度的函数。如果个体的适应度函数值比较大,说明它具有的优良基因比较多,那么它遗传到下一代的可能性就比较大;如果个体的适应度函数值比较小,说明它具有的优良基因比较少,那么它遗传到下一代的可能性就比较小。因此,适应度函数的设计非常重要。

本次特征选择的目的是找出与学生信用相关的特征变量,成功将学生根据信用好坏分类。因此,在本次适应度函数的设计中,根据分类准确率进行设计适应度函数。分类准确率高的特征子集遗传到下一代的可能性大。

逻辑回归在二值分类的预测中具有非常广泛的作用,而且稳定性非常好,在本次适应度函数的设计中,以分类的准确率作为适应度函数值。

在本文中,样本只有违约和没有违约两类,对于染色体个体,所选取的特征个数为n个。首先采用辑回归算法对个体选取的特征进行逻辑回归分析,得到参数估计中各个特征的系数,然后将得到的系数代入到线性回归函数中,根据线性函数值计算出大学生违约的概率,并且根据违约概率预测是否违约,最后根据实际情况与预测结果计算该模型的准确率。

2.3.3 遗传算子

(1)选择算子

在本次遗传算法进行的过程中,选用最佳个体保存方法。与其它选择方法相比,最佳个体保存方法可以保证进化中某一代的最优解不被交叉和变异。在本文中,选择算子的步骤是:在交叉或者变异生成的新个体与上一代个体放在一起,对分类准确率进行排序,根据种群中的个体数保留分类准确率高的个体。

(2)交叉算子

在本次遗传算法中,采用的是一点交叉的算法。一点交叉的步骤是,从上一代中随机选择两个个体,随机指定交叉点,生成两个新的个体。

由于采用特征分组的方法,所以在每组个体的特征大约为十几到二十左右,相对比较少。

而且一点交叉比较成熟,使用简单,更容易的生成新的个体。

(3)变异算子

在本次遗传算法的变异过程中,首先按照变异概率选择需要变异的个体,然后在选出的个体中随机选择变异的基因,从0 变成1 或者从1 变成0,实现基因的变异。

2.3.4 终止条件的设计

在随机搜索算法中,终止条件一般设为一定的循环次数。在本次遗传算法的试验过程中,为遗传过程设置一定的代数,当遗传进行到该代之后停止。

2.4 实验及结论

在特征分组及遗传算法选择之后,得到各组变量的优化子集。将各组子集整合到一个变量集中,然后所得到的特征变量集利用遗传算法进行最后的优化,得出最优子集,该子集中的特征可以用于高校学生中的信用评估体系建设,如表2 所示。

在训练样本中,根据特征子集进行信用评估后得到的结果的准确率为94.5%,将得出的特征子集应用到测试样本中进行测试,结果的准确率为93.5%。从这些数据可以看出,选择出的特征子集应用于训练样本和测试样本时的分类准确率相差不大,说明该特征子集的选择比较好。

3 总结

本文为顺应互联网金融在高校校园中的发展,通过分析高校学生的学习成绩、消费记录及图书馆相关记录,为判断高校学生的信用状况选择合适的特征子集。首先,进行数据预处理,形成原始特征空间。然后,使用变量聚类的方法给变量分组,通过遗传算法找出各组中的最优子集。最后,整合各组最优子集,再次使用遗传算法找出最优子集。

根据该特征子集,采用逻辑回归算法,对学生的信用状况进行分析,可以看出该特征子集具有一定的准确性,可以作为高校学生信用评估模型中的特征变量,为高校学生信用评估模型的建立提供了一定的参考价值。但是,选择出的特征变量也有一定的不足。学生的生活、学习中不止有本文中用到的数据,还有其他可能与信用强相关的数据。另外,本次分析只选用了一部分学生数据,学生数据是在不断更新的,所以特征子集也可能需要不断的调整。

摘要:随着互联网金融的发展,消费信贷已经走入高校学生的生活中。本文在高校学生消费信用数据缺失的情况下,根据学生在学校中的图书馆借阅记录、图书馆门禁记录、一卡通消费记录以及学习成绩等数据进行分析,为高校学生信用模型的建立筛选相关特征变量。本文中采用特征分组与遗传算法相结合的方法,筛选出了与学生信用相关性最大的特征变量,为高校学生征信提供了重要的参考价值。

关键词:相关分析,遗传算法,信用

参考文献

[1]李大伟,个人信用评分与信用卡风险控制研究[D].长春,吉林大学,2006

[2]黄大玉,王玉东.论建立中国的个人信用制度[J].金融论坛.2000,(3):27-31.

[3]康世瀛.个人信用评估及贷款决策研究[J].经济问题探索.2002,(9):108-112.

[4]杨池然.SAS开发经典案例解析[M].北京:机械工业出版社,2010.

特征选择 篇2

选择适合你风险承受能力的技术

一旦你了解了你需要的机器学习的算法类型,最后一步就是评估和选择符合你特定需求的技术。你可能会倾向于使用最富有特色的方法,但这可能会导致组织风险承受能力的不匹配。我看到一些大的、成熟的组织从一些灵活的小公司中选择软件,类似于小公司和IBM这样的大公司。每一次,都在合同的墨水还没干涸之前就出现了问题。

所以,你最好和一个与你的整体策略、理念和风险承受能力在一个等级的供应商合作。领域的变化非常快,一个纯技术的决定是相当短见的。你要有一个能以类似的速度成长和适应的伙伴,这样就不存在任何期望的不匹配。除了技术,还需根据以下几个方面进行评估:

特征选择 篇3

摘要:针对支持向量机在分类过程中的特征选择问题,提出了一种改进的遗传算法。在演化进程中运用Meteopolis准则通过合理选群来防止进化陷入局部极值区域。最后针对ucI数据库中的数据,通过将该算法与其他几种方法进行了比较,证明了本文算法具有较优的特征选择效果,并已成功应用在基于支持向量机的数字电路板故障诊断中。

关键词:支持向量机;互敏感度信息量;独立敏感度信息量;自适应变异率;Meteopolis准则

引言

支持向量机是一种在统计学习理论的基础上发展而来的机器学习方法,通过学习类别之间分界面附近的精确信息,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以使类与类之间的间隔最大化,因而有较好的泛化性能和较高的分类准确率。由于支持向量机具有小样本、非线性、高维数、避免局部最小点以及过学习现象等优点,所以被广泛运用于故障诊断、图像识别、回归预测等领域。但是如果缺少了对样本进行有效地特征选择,支持向量机在分类时往往会出现训练时间过长以及较低的分类准确率,这恰恰是由于支持向量机无法利用混乱的样本分类信息而引起的,因此特征选择是分类问题中的一个重要环节。特征选择的任务是从原始的特征集合中去除对分类无用的冗余特征以及那些具有相似分类信息的重复特征,因而可以有效降低特征维数,缩短训练时间,提高分类准确率。

目前特征选择的方法主要有主成分分析法、最大熵原理、粗糙集理论等。然而由于这些方法主要依据繁复的数学理论,在计算过程中可能存在求导和函数连续性等客观限定条件,在必要时还需要设定用来指导寻优搜索方向的搜索规则。遗传算法作为一种鲁棒性极强的智能识别方法,直接对寻优对象进行操作,不存在特定数学条件的限定,具有极好的全局寻优能力和并行性;而由于遗传算法采用概率化的寻优方法,所以在自动搜索的过程中可以自主获取与寻优有关的线索,并在加以学习之后可以自适应地调整搜索方向,不需要确定搜索的规则。因此遗传算法被广泛应用在知识发现、组合优化、机器学习、信号处理、自适应控制和人工生命等领域。

基于改进遗传算法的特征选择

遗传算法是一种新近发展起来的搜索最优化算法。遗传算法从任意一个的初始生物种群开始,通过随机的选择、交叉和变异操作,产生一群拥有更适应自然界的新个体的新一代种群,使得种群的进化趋势向着最,优的方向发展。图1中所示的是标准的遗传算法的流程框图。

传统的遗传算法存在早熟收敛、非全局收敛以及后期收敛速度慢的缺点,为此本文提出了一种能够在进化过程中自适应调节变异率,以及利用模拟退火防止早熟的改进遗传算法,同时该算法利用敏感度信息可以有效地控制遗传操作。图2是改进遗传算法的流程框图。

染色体编码和适应度函数

所谓编码是指将问题的解空间转换成遗传算法所能处理的搜索空间。在特征选择问题中,常常使用二进制的编码形式,使得每个二进制就是一个染色体,其位数长度等于特征的个数。每一位代表一个特征,每位上的1表示选中该特征,0则表示不选中。每一代种群都由若干个染色体组成。

适应度函数是整个遗传算法中极为重要的部分,好的适应度函数能使染色体进化到最优个体,它决定了在整个寻优过程中是否能够合理地协调好过早收敛和过慢结束这对矛盾。由于本文针对的是支持向量机的特征选择问题,所以考虑以分类正确率和未选择的特征个数这两个参数作为函数的自变量。将分类正确率作为主要衡量标准,未选择的特征个数为次要标准。由此建立以下的适应度函数:式中c为分类正确率。为未选择的特征个数,a是调节系数,用来平衡分类正确率和未选择的特征个数对适应度函数的影响程度,同时该系数也体现了用最少的特征得到较大分类正确率的原则,在本文中a取0.00077。由上式可知,分类正确率越高,未选的特征个数越多,染色体的适应度就越大。

选择操作

选择操作需要按照一定的规则从原有的种群中选择部分优秀个体用来交叉和变异。选择原则建立在对个体适应度进行评价的基础上,目的是避免基因损失,提高全局收敛性和计算效率。本文首先将整个种群中最优的前40%的个体保留下来,以确保有足够的优良个体进入下一代,对剩下的60%的个体采用轮盘算法进行选择,这样做可以弥补保留前40%个体而带来的局部最优解不易被淘汰的不利影响,有利于保持种群的多样性。

基于敏感度信息量的交叉、变异操作

独立敏感度信息量Q(i)指的是对在所有特征都被选中时计算所得到的适应度值Allfitness以及只有特征i未被选中时计算得到的适应度值Wfitness(i)按式(2)进行计算得到的数值。独立敏感度信息量刻画了适应度对特征是否被选择的敏感程度。

互敏感度信息量R(i,j)由(3)式可得,互敏感度信息量体现了特征与特征之间对适应度的近似影响程度。

交叉操作的作用是通过交换两个染色体之间的若干位从而生成含有部分原始优良基因的新个体。由式(3)可知互敏感度信息量可作为不同特征之间含有相似分类信息的一种度量,所以可以将互敏感度信息量代入式(4)计算出染色体在第一位发生交叉的几率β(j),在式(4)中i和j分别代表特征和特征j,是染色体的长度。β(i)是特征,相对于其他所有特征在互敏感度信息量上的归一量,反映了特征与其余特征在相似信息量上的总和。由此对应到染色体上,β(i)就可以认为是染色体的第i位与整个染色体在基因信息上的相关性,β(i)越小则说明相关性越大,第i位与整个染色体所含的基因信息越接近,此位为分裂点的几率越小。由于β(i)是归一化量,故可采用轮盘算法来选择一个交叉点。

变异操作是引入新物种的重要手段,可以有效地增加种群个体的多样性。本文中的变异率Pm采用相邻两代之间的最优适应度增幅比作为自变量进行自适应调节,如式(5)所示。当适应度增幅比正向增大时,较小的增幅比可以使变异率维持在中等水平,并且变异率随着增幅比的增大而缓慢降低,这样既能够拥有一定数量的新个体也可以抑制过多不良染色体的产生,保证优秀染色体的进化足够稳定;而当适应度增幅比反向增大时,由较小增幅比则可以获得较高的变异率。并且变异率也伴随增幅比同比缓慢升高,确保有足够的染色体发生变异,稳定地加快进化速度。式中dis指新生种群的最优适应度相对于原种群的最优适应度的增幅比,尚k均是区间(0,1)上的调节系数。文中的j与k分别取0.65和0.055。

独立敏感度信息量在一定程度上体现了单个特征所含有的分类信息量,如果独立敏感度信息量小,则说

明该特征所含信息大部分对分类没有帮助,即该基因位发生突变后对整个染色体的优异性影响不大,突变的概率也就相应减小。因此将独立敏感度信息量归一化后所得到的q(i)作为特征i被选为变异点的概率。变异点的具体选择方法为:针对一个染色体按照染色体的位数进行循环遍历,在该循环中由变异率Pm判定是否产生变异位。若需要产生变异位,则依据q(i)按照轮盘算法进行选择。

模拟退火选群

在每一轮进化完成后都需要决定进入下一轮进化的种群。如果过多地将较优种群作为父代,就会使算法过早收敛或搜索缓慢。文献中指出模拟退火算法能够以一定的概率接受劣解从而跳出局部极值区域并最终趋于全局最优解。因此可以将上文提到的最优适应度增幅比作为能量函数,运用模拟退火的Meteopolis准则来选择待进化的种群。为了使每个种群得到充分地进化,预防最优解的丢失,这里采用设置退火步长的策略来实现模拟退火选群。该策略具体为:使退火步长对同一种群作为父代的次数进行计数,一旦产生更优种群则退火步长就置零并重新计数。若退火步长累计超过一定的阈值时,就进入模拟退火选群阶段。退火步长累计到一定数量意味着原有种群的进化已经停滞,需要用模拟退火算法摆脱这种停滞状态。如果增幅比大于零,则说明新生种群优于原有种群。这时完全接受新种群进入下一轮进化:否则新生种群劣于原有种群,并以一定的概率p接受较劣的新生种群进入下一轮进化。接受概率lp由式(6)和式(7)共同决定,其中dis为增幅比,T(s)指温度参数,To和s分别是初始温度和迭代次数。

以上两式的参数要满足进化对接受概率的要求。即增幅比负增长越大,接受概率降低越迅速,但接受概率随迭代次数的增加应缓慢下降。这样做能够保证在有限的迭代次数内有一个适应度较优的新生种群进入下一轮进化,以达到减少计算量和优选待进化种群的目的。在本文中To=0.2,A=0.9,m=0.5。

实例的验证与分析

UCI数据库常用来比较各种方法的分类效果,因此可以用其验证本算法对支持向量机作用后的分类效果。文献㈨采用了UCI数据库中的German、Ionosphere和Sonar三种数据作为实验对象,为了便于与文献中所用的几种方法进行对比,本文也采用这三种数据进行实验,并按照文献中所述的比例将各类数据分成相应的训练样本和测试样本。

在种群规模为30,交叉率为0.8、起始变异率为0.1的条件下使用支持向量机作为分类器(惩罚参数为13.7,径向基核函数参数为10.6)对所选数据进行分类,表1中显示了本文算法与文献中几种算法在分类效果上的对比,表2给出了三种数据的最终选择结果。表1中共出现了四种方法:方法1:使用本文算法:方法2:使用NGA/PCA方法;方法3:使用PCA方法;方法4:使用简单遗传算法。

由于本文算法旨在用最少的特征个数最大化分类正确率,因此从表1中可以看出本文算法在特征选择个数和分类正确率上均比其他三种方法更具优势。由于NGA/PCA算法是针对简单遗传算法和主成分分析法的不足而做的改进,其性能优于简单遗传算法和主成分分析法,所以本文算法的分类效果优于NGA/PcA算法这一事实更能说明该算法可以较好地解决支持向基机的特征选择问题。

结语

通过与其他方法的比较,本文算法的分类效果得到了充分的验证,也说明了该算法具有极好的泛化能力以及在敏感度信息量地指导下遗传操作的有效性。

适应度函数的设计至关重要,它直接影响到最终结果的优劣以及算法的收敛性,所以在适应度函数的设计应考虑所解决问题的侧重点。

分类正确率的高低不仅取决于合理的特征选择,而且与支持向量机的参数优化有关。只有在合理的特征选择和参数优化的前提下,支持向量机分类器才能发挥出最佳的分类效果。

特征选择 篇4

文本自动分类的任务是对未知类别的文档进行自动处理,判别它们所属预定义类别集中的一个或多个类别[1]。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。在中文文本分类中,通常采用词条作为最小的独立语义载体,原始的特征空间可能由出现在文章中的全部词条构成。而中文的词条总数有二十多万条,这样高维的特征空间对于几乎所有的分类算法来说都偏大。因此,寻求一种有效的特征抽取方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要首先面对的重要问题[2]。

本文提出了一个综合的特征选择方法。该方法既合理地考虑了特征出现的次数,还考虑了特征之间的潜在关系,从而使得选择的特征子集具有较低的冗余性、较好的代表性。

1 几种经典特征选择方法

目前常用的文本特征选择方法有WF、DF、IG、CHI、CE等[3,4,5,6]。

(1)互信息MI(Mutual Information)在统计学中,互信息用于表征两个变量的相关性,常被用来作为文本特征相关的统计模型及其相关应用的标准。

互信息的缺点是受临界特征的概率影响较大,而且它没有考虑单词发生的频度,因此互信息方法倾向于选择稀有单词。在一些特征词选择算法的研究中发现,如果用互信息进行特征选择,它的精度极低(只有约30.06%),其原因是它删掉了很多高频的有用单词。

(2)词频WF(Word Frequency)某个特征的词频是指该特征在一篇文档出现的次数。基于词频的方法往往选取在某类别中比其它类别更频繁出现的词作为特征词,而忽视了词在不同文档中的出现情况。

(3)文档频DF(Document Frequency)某个特征的文档频是指出现该特征的文档数。文档频方法仅考虑特征词在文档中出现与否,忽视了在文档中出现的次数。由此带来的问题是:如果两个特征词的文档频相同,那么其在文档中出现多次和仅出现一次的相关度相同。而文档中仅出现一次的词经常是噪声词。文档频评估函数的理论假设是稀有单词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。显然它在计算量上比其它评估函数小得多,但在实际运用中它的效果却出奇地好。在实际运用中一般并不直接使用文档频,而常把它作为评判其它评估函数的标准。

2 特征辨别能力

如果一个特征对某个类的贡献较大,那么该特征对这个类的辨别能力应该较强。为此,本文定义了特征对类别的辨别能力,简称特征辨别能力。

定义1特征辨别能力表示特征fi对类别cj的辨别能力,用Feature-Distinguishability(fi,cj)表示。由于一个类别的特征词有多个,因此可用以下公式来表示特征辨别能力:

其中m为类别的个数,MinDFn(fi,cj)是指在类别cj的文本训练集中出现特征fi的次数不小于n的文本数。经分析可知,Feature-Distinguishability(fi,cj)不但考虑了特征出现的文档数,而且还考虑了特征在文档中出现的次数,把文档频和词频进行了有机的结合。Feature-DDistinguishability(fi.cj)越大则表明特征fi对类别cj的辨别能力也就越大,那么该特征的分类能力也就越强,即该特征也就越重要。

3 基于二进制可辨矩阵的属性约简算法

3.1 粗糙集基本知识

粗糙集RS(Rough sets)理论是由Z.Pawlak在八十年代初提出来的一种新的处理不精确、不相容、不完全和不确定知识的软计算工具。其本质就是在保持分类能力不变的前提下,通过知识约简,导出问题的分类规则[7]。目前它己被广泛应用于机器学习、决策分析、数据挖掘、过程控制、智能信息处理等领域[8]。

定义2信息系统[10]信息系统S可以表示为S=,其中U为对象集合,R=C∪D是属性集合,C为条件属性集,D为决策属性集,是属性值的集合,Vr表示属性r的值域,f:U×R→V是一个映射函数,它指定U中每一个对象X的属性值。信息系统也可用二维表来表示,称之为决策表,其中行代表对象xi,列代表属性r,r(xi)表示第i个对象在属性r上的取值。

属性约简是粗糙集的核心内容之一,现已出现了大量的属性约简算法,例如以信息论为基础的属性约简算法[9]、以属性重要度为基础的属性约简算法[10]等等,但是这些属性约简算法作用于海量的文本集时效率较低,而二进制可辨矩阵采用二进制的表示形式,作用于其上的各种操作运算速度快,占空间小,可应用于海量数据的表示[15]。文献[11]提出了一个基于二进制可辨矩阵的属性约简算法,该算法操作简便,可以减少存储空间,可用于海量数据集的约简。其后,许多学者在这个算法的基础上又提出了许多相应的改进算法[12,13,14,15]。但是这些算法所定义的变换和运算都需要对空间复杂度高达O(|C‖U|2)的二进制可辨矩阵进行操作,并没有进行根本性的改进[16]。

本文使用一些简化规则对二进制可辨矩阵进行简化,然后通过对简化的二进制可辨矩阵进行操作来实现信息系统的属性约简。简化二进制可辨矩阵的规模是与数据集规模几乎无关的常数,基于简化二进制可辨矩阵的变换和操作,能大大降低算法的复杂度。此外,利用文献[17]提出的方法来构造简化的信息系统,并据此构造简化的二进制可辨矩阵。

3.2 二进制可辨矩阵及其属性约简定义

文献[17]指出信息系统中经常含有一些相同对象,如果直接建立二进制可辨矩阵,则该矩阵中会存在大量不必要的重复元素。为了解决这个问题,提出了简化的信息系统的概念。

定义3[17]信息系统S=(U,C∪D,V,f),设U/C={[x'1],[x'2],…,[x'p]},则令U*=:{x'1,x'2,…,x'p},则称S*=(U*,C∪D,V,f)为简化的信息系统。

简化的信息系统和原信息系统都包含相同的决策信息,但问题规模则由原来的|U|降为|U/C|。

定义4[17]信息系统S=(U,C∪D,Vf),其简化的信息系统为S*=(U*,C∪D,Vf),二进制可辨矩阵定义为:M=(m(i,j),k),其元素定义如下:

称M为S*的二进制可辨矩阵。

二进制可辨矩阵M直接描述了每个属性对论域中对象的分辨情况,所以可以直接反映信息系统中所蕴涵的知识。在二进制可辨矩阵M中,某个元素为1或0表示所在行的属于不同决策类的对象xi、xj在条件属性ck下可分辨与不可分辨,因此,若二进制可辨矩阵中有全为0的行,则说明相应的信息系统是不协调的,否则,是协调的。在信息系统中,由于列出的行是在不可分辨关系IND(C)下可分辨的对象对(xi,xj),故在信息系统相应的二进制可辨矩阵M中不存在全为0的行。在M中,若某一行只有一个元素为1,其余元素均为0,则这个元素1对应的列属性一定属于核或相对核[11]。因此,有下述命题[11]:

命题1若二进制可辨矩阵中某一行只有一个元素为1,其余元素均为0,则元素1所在列对应某个属性,所有这样的属性构成信息系统的核或决策表的相对核。若没有这样的行,则核或相对核为空。

由于约简是保持分类能力的最小属性子集,有如下命题:

命题2在信息系统S*=(U*,C∪D,V,f)中B⊆C,若B是C的一个约简,其充要条件为:1)在由B中所有属性对应的各列所构成的M的子阵中,不全为0的行数等于M中不全为0的行数;(2)∀P⊂B,P不满足条件(1)。

3.3 二进制可辨矩阵的约简规则

虽然同原信息系统的二进制可辨矩阵相比,M所需的存储空间有了一定的减少,但是其最大规模(矩阵包含的行数)为|U*|(|U*丨-1)/2,二进制位数达到|C‖U*|(|U*|-1)/2。如果算法在运行过程中生成这种二进制可辨矩阵,并基于此矩阵进行计算,则其性能显然是不理想的。为了进一步降低算法的时间复杂度、减少所需的存储空间,需要对二进制可辨矩阵进一步变换约简。

基于不影响属性约简结果的原则,二进制可辨矩阵M有如下变换约简规则[12]:

(1)二进制可辨矩阵M中若有全为0的行,应首先去掉这样的行。

(2)在约简过程中,可以随时将二进制可辨矩阵中出现的全为1的行去掉。

(3)可将二进制可辨矩阵中的行、列重新排序。

(4)相同的行或列只出现一次。

(5)对于某两列。如ci列与列cj,若ci+cj=cj (“+”表示逻辑加),则ci列可以去掉。

(6)对于某两行,如(ui,uj)行与(up,uq)行。若(ui,uj)+(up,uq)=(Up,uq),则(up,uq)行可以去掉。

例1考虑下面的一个信息系统,如表1所示。

首先根据该表生成其对应的二进制可辨矩阵M1,如表2所示。

利用上述二进制可辨矩阵的变换约简原则,则可得到其最终的简化矩阵M2,如表3所示。

对比表2和表3不难发现,经过上述规则的约简,二进制可辨矩阵的规模将会大大减小,并且列对应的属性将更接近于甚至等于属性(相对)约简。

假设经过约简后的二进制可辨矩阵为M*,则有如下命题[13]:

命题3在信息系统S*=(U*,C∪D,V,f)中B⊆C,若B是C的一个约简,其充要条件为:1)在M*阵中,由B中各个属性所在列的逻辑和为(1,1,…,1)T;(2)∀P⊂B,P不满足条件(1)。

命题4基于正区域的属性约简定义与基于简化的二进制差别矩阵的属性约简定义是等价的。

3.4 基于二进制可分辨矩阵的约简算法

输入:信息系统S=(U,C∪D,V,f);

输出:属性约简

Step1 Red=∅(;

Step2根据定义3得到信息系统S的简化S*;

Step3根据定义4计算S*的二进制可辨M;

Step4对M中每行仅有一个1的行中1所在的列的属性加入到Red中,并消去这些列及这些列中元素1所对应的行;

Step5计算M中每行和每列1的个数,分别放入数组Row和Col中;

Step6如果M≠∅,那么M中若有全为0的行,则去掉这样的行,否则转Step13;

Step7如果M≠∅,那么M中若有全为1的行,则去掉这样的行,否则转Step13;

Step8如果M≠∅,那么∀行(ui,uj)+(up,uq)=(up,uq)(i≠p,j≠q),则去掉(up,uq)所对应的行,否则转Step13;

Step9如果M≠∅,那么∀列ci+cj=cj(i≠j),则去掉ci所对应的列,否则转Step13;

Step10对M中每行仅有一个1的行中1所在的列的属性加入到Red中,并消去这些列及这些列中元素1所对应的行;

Step11对M中含1个数最少的行对应的列的属性加入到Red中,并消去这些列及这些列中元素1所对应的行(若有两行或多行中的1的个数最少,则选择1对应列中1的总数最多的行);

Step12如果M≠∅那么转Step6;

Step13输出Red,算法结束。

假设信息系统s中有m个属性,有n个对象,约简后有k个对象(k<=n)。文献[11]算法的最坏情况下时间复杂度为O(n4+m2)。本文算法中,建立二进制可辨矩阵的时间复杂度为O(mk2),消除列时的时间复杂度为O(m2),消除行时的时间复杂度为O(k2),总的复杂度为O((m+1)k2+m2),这个复杂度远远低于文献[11]的复杂度。

4 本文特征选择方法描述

设T为原始特征集,C为类别集,对于∀cj,设cj的训练文档集为DSj,其原始特征集Tj=T,cj的特征词选择算法如下:

对于每个fi∈Tj,给定最小词频数n以及特征辨别能力阈值ω;

Step1计算fi的Feature-Distinguishability(fi,cj);

Step2若Feature-DDistinguishability(fi,cj)<ω则把fi从Tj中删除,否则fi保留;

Step3若Tj中还存在没考察的元素则转到Step1;

Step4若c中还存在没考察的类别则转到Step1;

Step5将上述各类别所选的特征合并为一个特征集;

Step6将Step5得到的特征集以及标有类的训练集组织成为一个决策表:S=,使用本文提出的属性约简算法进行属性约简;

Step7对得到的特征子集进行微调,以突出那些对分类贡献比较大的特征词,然后输出特征集。

5 实验例证

本实验使用的数据集由从人民网(http://www.people.com.cn/)上下载的一些新闻材料组成,这些新闻材料发表日期范围为2007-2009年。共下载10类新闻组,其文档分布情况如表4所示。文本表征词典根据训练文档的正文(忽略所有的报头)生成。进行中文分词处理时,采用的是中科院计算所开源项目“汉语词法分析系统ICTCLAS”系统,原始特征维数高达21092。本实验选用线性支持向量机作为基准分类器。

实验使用的软件工具是Weka,这是纽西兰的Waikato大学开发的数据挖掘相关的一系列机器学习算法。实现语言是Java。可以直接调用,也可以在代码中调用。Weka包括数据预处理、分类、回归分析、聚类、关联规则、可视化等工具,对机器学习和数据挖掘的研究工作很有帮助,它是开源项目,网址为:http://www.cs.waikato.ac.nz/ml/weka/。实验使用的计算工具为MATLAB 7.0。

本文算法中各参数需要反复试验才能得到,经试验算法中各参数最后设置如下:n=3,ω=0.09。

为便于比较,在实验中测试了四种特征选择方法:使用本文的方法、互信息(MI)、x2统计量(CHI)、信息增益(IG)。为评价实验效果,实验中选择分类正确率和召回率作为评价标准:召回率(Recal1)=分类的正确文本数/应有文本数,它是人工分类结果应有的文本与分类系统吻合的文本所占的比率。准确率(Precision)=分类的正确文本数/实际分类的文本数,它是所判断的文本与人工分类文本吻合的文本所占的比率。

图1表示四种方法在准确率方面的仿真对比结果,其中纵轴表示准确率,单位为%,横轴各个整数点表示类别序号;图2表示四种方法在召回率方面的仿真对比结果,其中纵轴表示召回率,单位为%,横轴各个整数点表示类别序号。

图1和图2表明了四种方法在所选数据集上的分类准确率和召回率,从总体上看,本文方法>IG>CHI>MI。由于本文方法首先利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集,所以效果最佳;由于IG方法受样本分布影响,在样本分布不均匀的情况下,它的效果就会大大降低,但从整体上看本文所选样本分布相对均匀,只有极个别相差较大,所以总体效果次之;由于MI方法仅考虑了特征发生的概率,而CHI方法同时考虑了特征存在与不存在时的情况,所以CHI方法比MI方法效果要好。总的来说,本文所提的方法是有效的,在文本分类中有一定的实用价值。

6 结束语

特征选择 篇5

液体火箭发动机故障诊断中的特征选择

对表征发动机故障的原始特征,以提高故障类可分性为目的,利用信息论中互信息的.理论,采用贪婪算法,去除原始特征中不利于所设计分类器的特征,得到最有利于分类的子特征集.采用子特征集对故障进行分类,得到了较理想的结果.

作 者:刘冰 张育林 Liu Bing Zhang Yulin 作者单位:国防科技大学航天技术系,长沙,410073刊 名:推进技术 ISTIC EI PKU英文刊名:JOURNAL OF PROPULSION TECHNOLOGY年,卷(期):“”(2)分类号:V430关键词:液体推进剂火箭发动机 发动机故障 故障诊断 特征选择

特征选择 篇6

摘 要 会计计量属性是会计计量的组成部分之一,它是被量化描述的客体的特征或外在表现形式。随着经济的迅速发展,会计信息需求的多元化,选择何种计量属性,从而形成能够达到会计目标的计量模式,是会计改革过程中需要研究和探讨的重要问题。因此,本文从会计信息质量特征方面对计量属性的选择进行了探讨,认为在准则制定层次,首先要考虑相关性,其次要考虑可靠性;而在报告编制层次,着重考虑可靠性。在具体选择时,必须考虑计量对象的特点,及两个主要信息质量特征的配合。

关键词 会计信息质量 会计计量属性 可靠性 相关性

会计信息的相关性和可靠性是两条最主要的质量特征。会计信息的可靠性是面向过去的质量要求,而相关性是服务于投资者经济决策、面向未来的质量要求。两者共同为会计信息的有用性服务,必须兼顾。但很多情况下,它们又存在着此消彼长的矛盾。所以我们必须在信息的可靠性和相关性之间进行权衡,但这又对会计计量属性的选择有着很大的影响。

一、可靠性与相关性的涵义及相互关系

(一)会计信息的可靠性

本质上,会计是一个信息系统,葛家澍教授指出,会计的基本职能“是反映企业的经济真实,是可靠记录并报告企业经济活动(主要是财务活动)的历史”。直观地说,可靠性就是客观真实。但随着经济活动的日益多样化和复杂化,尽管会计只能确认“过去的交易”,同时也就不可避免地存在着估计和判断因素。因此,在客观真实既定的条件下,可靠性更取决于“确定性”的程度。会计上的“确定性”是指交易的经济性质的确定性和交易金额的确定性,即确认和计量的确定性。可以说,会计信息的可靠性要求会计的确认和计量需用具备确定性的特征,尽管会计所面临的环境和经济事项是不确定的,但财务报表确认和计量的结果应当是确定的。当面临不确定性时,会计确认和计量只能选择更为确定的结果,以通过增强确定性来提高可靠性。

(二)会计信息的相关性

按照美国财务会计概念框架,相关性的具体要求包括预测价值、反馈价值和及时性。由于资本市场强调预期,投资者总是期望企业更早更快地确认并披露与其投资相关的信息,包括会计信息和非会计信息。但财务会计只能在一个公认的原则范围内提供力所能及的信息,于是“表外披露”成为相关会计信息的一个重要内容,如分部报告、盈利预测报告以及管理层的分析与讨论等。换言之,当前会计在提高其信息的相关性方面,主要体现在表外信息上。那么表内信息出现什么问题了?美国会计学会的会计和审计质量委员会曾发表研究报告,指出了现行财务报表存在的不完整性,其中直接指出表内信息的计量问题,提倡采用公允价值。所以,要想使增强相关性的会计信息更多地纳入财务报表表内进行确认,会计的确认和计量必须取得长足的突破,而确认问题的解决则有赖于计量问题的解决。

(三)可靠性与相关性的关系

会计信息的可靠性和相关性是两个最主要的质量特征,相关性越大,可靠性越高,越符合使用者的需要。它们都是从信息使用者的角度提出的。相关性回答信息使用者需要什么信息,而可靠性使信息使用者能对会计信息充分信任而放心使用。如果其中之一完会缺失,则该信息毫无用处。然而,会计信息的相关性和可靠性常常又是矛盾的。为了加强相关性,需要扩大会计反映的范围,如在财务报告中披露自创商誉、衍生金融工具、人力资源等会计信息,而这必然要改变传统的历史成本计量方法,从而使可靠性有所削弱;反之,为了提高可靠性,则削弱了相关性。

总之,在实际经济环境中,在很多情况下,会计信息的可靠性与相关性存在着此消彼长的矛盾,如何取舍一直是会计信息面临的两难问题。

二、不同层次计量属性的选择

西方会计概念框架凡提到相关性和可靠性,总认为它们是两个并重的信息质量特征。实际上,处于不同层次的计量属性对相关性和可靠性的侧重点是不同的。

(一)准则制定层次

为了在另一个层次产生对决策有用的信息,报表中要素及其所属项目,在报表中应按概念框架设置的要素侧重按相关性选择所属报表项目。在这一层次,由于尚未对要素及其所属项目计量,一般不涉及可靠与否的问题,即只是信息的定性选择。但这也必须考虑可靠性。预计认定它是相关的项目,应能可靠。计量预计无法计量与不能可靠计量的项目,即使具有相关性,应在这一层次排除,如人力资产、自创商誉等。这就是说,在准则制定层次,主要选择应予计量的属性。这首先考虑的是相关性,其次才是可靠性。而可靠性的考虑是为选择相关性项目服务的。

(二)财务报告编制层次

由于表内要素及其所属项目,表外附注及法定披露以及应予应用的计量属性,已由准则制定层次通过会计选择做出了规定,财务报告的编报者着重考虑的应是可靠性,即按中立性的要求,如实反映意欲反映上述内容。凡属过去引起的差错,应在发现后立即更正,而故意弄虚作假的,则必须在审计发现后予以披露,依法进行必要的惩处。如果在第一次已选择了相关的项目和计量属性,则在第二层次正确应用计量属性如实反映了意欲反映的表内项目、表外附注和法定披露,那么,信息就既保证相关性,又保证可靠性,从而对决策产生有用性。或者说,一个有用的信息应当是如实反映的相关信息。

三、结束语

在我国目前的会计实务中, 货币资金、债权债务等往来款项、负债、净资产等主要是历史成本属性计量;存货、固定资产、无形资产以可变现净值作为参考计量;而交易性金融资产、具有商业实质的非货币性资产置换、债务重组等具体业务中以公允价值属性计量。可见,资产计量属性的选择受会计信息质量特征等因素的约束,不论从经济学还是会计学的角度看,资产计量难以全部采用价值计量,成本计量有其存在的必要性。随着社会经济的发展、计量技术手段的不断提高,多种会计计量属性将更合理地并存,必将更好地满足会计“决策有用”与“受托责任”的双重目标。

参考文献:

[1]李玉海.会计计量属性问题的探讨.辽东学院学报.2005(6).

[2]葛家澍.会计信息质量特征与会计计量属性的选择.2007(6).

文本分类中特征选择方法研究 篇7

近年来,文本分类方法在机器学习的推动下迅猛发展。研究过程中我们发现特征空间的高维性以及文本表示向量的稀疏性始终是文本分类问题中的最大难点之一。在空间向量模型中,通常采用词语作为特征向量,这样,出现在文档中的所有词语就组成了原始的特征空间,然而,一个中等规模的语料库就可能包含有上百万条不同词语。对于分类算法来说,这样的高维空间计算量是十分巨大的。因此,希望在不降低分类精度的前提下寻求一种特征降维方式来降低空间维数,提高分类器效率。特征选择与特征抽取是特征降维中的主要方法,本文将就特征选择的不同方法进行研究。

1 特征选择方法

1.1 互信息(Mutual Information,MI)[1,2]

追溯起来,互信息这个概念来源于信息论,用于度量一个消息中两个信号之间的相互依赖程度。现在,互信息已经被广泛应用于相关词统计语言模型中,在文本分类中它主要用于衡量词条t与类别Cj之间的统计关联程度。计算公式如下:

其中,P(tCj)表示为词t在类别Cj出现的概率,P(t)表示词条t在整个训练文档中出现的概率,MI(Cj,t)表示词条t在类别Cj的互信息。在实际计算中,这些概率可以用语料库中相应出现的概率来表示。互信息的近似计算公式为:

undefined

其中,N为语料库中所包含的总文档数,A表示词条t且属于类别Cj的文档频率,B表示为包含词条t但是不属于类别Cj的文档频率,C表示属于类别Cj但是不含词条t的文档频率。

值得一提的是,互信息计算虽然比较简单,但是它互略了特征词的词频信息,偏向于低频词,这就造成了它在一些实验中的低效。

1.2 信息增益(Information Gain,IG)[1,2]

信息增益亦是来源于信息论的一个重要概念。在文本分类中,它表示了某个特征项的存在与否对类别预测的影响。信息增益的计算公式如下:

其中,Cj为第j类文档集合,j=1,2,3,…,m,m为类别数。undefined表示特征词t不出现。P(Cj)表示Cj类文档在语料库中出现的概率,P(t)表示语料库中包含特征词t的文档频率,P(Cjt)表示文档包含特征词t时属于Cj类的条件概率,P(undefined)表示语料库中不包含特征词t的文档频率,P(Cjundefined)表示文档不包含特征词t时属于Cj类的条件概率。

特征项的信息增益值越大,对分类越重要,因此在进行特征选择时,通常选取信息增益值大的若干个特征词构造文本的特征向量。信息增益的不足之处在于它考虑了特征词不出现的情况,虽然某个特征词不出现也可能对判断文档类别有一定的贡献,但实验说明,这种贡献往往小于考虑特征不出现情况带来的干扰。另外,由于考虑因素比较多,信息增益的计算量也相应较大。

1.3 x2统计(CHI)[1,2]

x2统计(CHI)度量词条与文档类别之间的相关程度,并假设词条与类别之间符合具有一阶自由度的x2分布。在实际中,经常采用它的近似公式,令A表示属于Cj类且包含词条t的文档频率,B表示不属于Cj类但包含词条t的文档频率,C表示属于Cj类但不包含词条t的文档频率,D表示既不属于Cj类也不包含t的文档频率,则有:

undefined

由公式可以看出,x2统计值越大的特征项与类别之间的独立性就越小,对分类的贡献就越大。

1.4 期望交叉熵(Expected Cross Entropy)[3]

期望交叉熵与信息增益很相似,不同之处在于,期望交叉熵只考虑特征在文本中发生的情况,而信息增益同时考虑了特征在文本中发生与不发生两种情况。对于特征t,其期望交叉熵记为CE(t),计算公式如下:

在只考虑单个类的时候,则有:

2 实验测试及分析

本文选用的中文文本分类语料库来自于中文自然语言处理平台,该语料库共分为十大类,包括环境、交通、计算机、经济、军事、艺术、政治、医药、体育、教育,从中随机选取了1882篇文档作为训练集,934篇文档作为测试集。训练文本和测试文本文档分布如表1所示。

目前,KNN是VSM(向量空间模型)下最好的分类算法之一[4],该算法的基本思路为:给定待分类文本后,寻找训练样本集中与待分类文本最相似(或距离最小)的k篇文本,然后根据这k篇文本所属的类别判定待分类文本所属的类别。KNN分类的一个重要参数就是k值大小的选定,一般凭借经验来取值。

综合以上,在本实验中,选用了KNN分类器进行分类,且k值取35,对上述四种不同的特征选择方法进行了文本分类测试,对应的分类精度比较如表2所示。

显而易见,实验数据表明互信息的分类效果最差,x2统计、信息增益、交叉熵的分类效果较好。在实验中,当特征空间维数为1000时,互信息抽取的特征词基本上都是文档频率为1的词条,且许多词条互信息量完全相同,同一分值的词条可能有上百条,而训练集中文档频率为1的词条远超过1000个。因此,在进行特征选择的时候,只能随机的删除那些打分与前面相同但是靠后的词条。由于有些类别中的大多数文本的向量中含有几个属性,在分类过程中,会导致有些文档无法识别。例如,选取互信息作为特征选择方法的时候,发现934个测试文档中有2个文档无法进行分类。

3 互信息修正方法讨论

由实验可知,特征选择方法选用互信息的时候,分类效率极低,若不对互信息作任何的修正,在中文文本分类中使用的价值并不是很高。对互信息的修正有以下两种方法:

第一,增加特征空间的维数,以提取足够多的特征信息,但是这样就会带来了时间和空间上的额外开销,不是一种很实用的修正方法。

第二,从互信息函数的定义可以看出,互信息认为低频词携带着较为强烈的类别信息,从而对它们有不同程度的倚重。当训练语料库的规模比较小的时候,特征空间中必然会存在大量的出现文档频率很低的词条,他们较低的文档频率导致了他们必然只属于少数类别,但是从抽取出来的特征词观察发现,大多数为生僻词,很少一部分确实带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词。因此通过减小互信息对低频词的倚重来修正互信息是种有效的方法。

4 结束语

互信息的不足导致了互信息在中文文本分类中的低效率,而对于互信息的进一步修正仍需要更深入地研究,仍需要继续在修正互信息方面努力,寻求一种效率比较高的修正方案。

参考文献

[1]秦进,陈笑蓉,汪家维,等.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-47.

[2]刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30:14-15.

[3]Mlademnic D,Grobelnik M.Feature Selectionfor unbalanced class dis-tribution and Nave Bayees[C].Proceedings of the SixteenthInternation-al Conference on Machine Learning.Bled:Morgan Kaufmann,1999:258-267.

地方院校办学特征及发展策略选择 篇8

一、地方院校的内涵及基本特征

地方院校是从行政管理出发形成的集合概念。我国的普通高校, 根据其行政隶属关系通常被划分为两类:一是中央部属院校;二是地方院校。本文所指的“地方院校”是指中央部属院校以外的, 由省 (自治区、直辖市) 级人民政府负责管理的各类普通高校的总称。具体来说, 地方院校具有以下基本特征。

(一) 地方性

地方性是地方院校首要的基本特征。地方院校办学的出发点和落脚点要紧扣这一点。地方院校不同于部属院校的基本点, 除管理权属于地方以外, 生源主要来自本地, 地方院校教育经费的支撑主要来自地方, 其地方高等教育的发展主要来自于地方上各种力量的支持。因此, 地方院校的地方性主要体现在行政管辖的地方性、服务面向的区域性上。

(二) 特色性

特色性是由地方性派生出来的, 是地方性的体现;同时又是地方院校实现跨越式发展的必然选择。地方院校利用其地缘优势, 立足地方, 依托地方, 根据本地区的区位优势、产业优势、资源优势与社会需求, 结合本校的办学条件和办学现状, 确定可利用和可发展的重点领域, 可以办出自己的区位特色。在全面建设小康社会的过程中, 地方院校创新发展的潜力和空间很大, 形成办学特色的机会也很多, 地方院校在发展定位中要审时度势, 把握机遇, 敢于标新立异, 突出个性。

(三) 实用性

地方院校办在地方, 根据其地缘特征, 为当地经济建设服务, 必须突出实用性。经济和社会发展对人才类型的要求是多样化的, 地方院校处于某一特定的区域中, 这一区域的经济、文化发展状况对人才的数量、质量、类型的要求都将影响学校的发展。地方院校在定位时, 须充分考虑自己所在区域的状况, 培养适应本地经济发展需要的各种类型和层次的人才, 这样培养的实用性人才才能为地方的经济发展服务。

(四) 灵活性

这一特征也是由地方性引申出来的, 灵活性主要表现在办学风格、办学形式上。所谓办学风格的灵活性, 是指地方院校坚持从地方的经济、政治、文化、教育等实际出发, 采取灵活多变的措施, 因地制宜, 因时制宜, 尽快地适应变化着的形势要求, 充分满足地方各方面对各种类型、各种规格、各种层次人才的需求, 体现出“快、灵、便”的办学风格;所谓办学形式的灵活性, 是指地方院校根据其发展的不同历史阶段、所处的环境、经费的来源、生源的去向以及承担的具体任务的不同, 采取不同办学形式满足广大群众对高等教育的现实需求。

(五) 大众性

面向大众是地方大学办学理想的最高境界。在我国高等教育快速发展的过程中, 地方院校在推进我国高等教育大众化的进程中负有重要的责任。地方院校面向大众办学, 主要包括两层意思:其一, 地方院校是实现高等教育大众化的主力军。发达国家的经验表明, 在高等教育大众化过程中, 虽然各类大学的规模都在增加, 但是少数研究型大学还是以精英教育为主, 主要培养学术型、研究型人才, 更注重研究生比例的提高, 在第二学历层次以上扩招。实际上, 以教学为主的广大地方院校在高等教育大众化过程中起着不可替代的作用。我国的高等教育扩招情况也印证了这一点。在首届全国地方大学发展论坛上, 中国高教学会地方大学教育研究分会会长、中国工程院院士左铁镛发言指出, 未来实现高等教育人数增加, 主要依靠发展地方高等教育来实现[2]。其二, 高等教育地方化和区域化是目前高等教育的发展趋势, 地方院校在推进地方高等教育和经济社会发展中起着举足轻重的作用。高等教育地方化要求高等教育重心下移, 地方院校要坚定不移地面向基层, 把办学的触角伸向广大农村和需要接受教育的人群。

二、地方院校发展策略选择

(一) 本土化策略

地方经济社会发展的特殊性是地方院校得以生存和发展的前提, 随着改革开放的深入推进, 我国各地区社会经济总体上呈现快速稳定的发展态势。地方社会经济的快速发展, 不仅在科技、人才等方面迫切要求有更大规模的高等教育来支撑, 同时也要求增强高等教育与地方经济社会发展的适应性。在此背景下, 地方院校在服务面向的定位上, 要树立积极为地方服务的思想, 通过在学科专业设置、人才培养、科研方向选择上直接与地方经济社会发展的具体特点相结合, 提高为地方经济社会发展服务的针对性和实效性, 以满足地方经济社会发展的需要来推动自身的发展。具体而言, 在人才培养上, 根据地方社会经济进行结构调整和产业升级的需要, 在人才培养目标和人才培养的数量、层次、类型及综合素质等方面要满足地方社会经济发展的需求, 为地方培养大量下得去、留得住、用得上的应用型、技术型人才。在科学研究上, 地方院校应把眼光放在本地, 认真研究本地的经济文化特征、经济优势和产业结构等情况, 科研选题要积极寻求与地方的结合点, 开展应用研究、开发研究, 推动技术创新。在社会服务上, 地方院校要借鉴美国州立大学“为本州服务”的成功经验, 通过开展专家咨询、技术支持等手段, 为地方经济社会发展提供高质量的服务。

(二) 特色化策略

办学特色是一所学校在办学过程中积累并形成的既符合社会发展要求, 又符合教育发展规律的相对稳定的特征。从某种意义上说, 当今时代各个高校的竞争就是办学特色的竞争。对于地方院校来说, 办学特色的意义更为重要。它是地方院校突破传统思维和办学模式、走出个性的一条道路。然而, 当前地方院校办学特色不够鲜明, 主要表现在:一是淡化学科特色;二是回避地方特色;三是忽视人才培养模式特色;四是轻视办学理念特色。

面对这种情况, 地方院校是继续跟在部属院校后面亦步亦趋, 简单地模仿和复制, 还是另辟蹊径, 走出一条与众不同的发展道路。19世纪英国高等教育发展史上的“新大学运动”已经给了我们明确的答案。模仿性趋同不是长远之计, 地方院校获得长远发展的关键在于准确定位, 找准自己的优势和特色, 采取特色化策略, 走上一条差异化的发展道路, 寻找到合适自己的发展空间, 以避免同质化。

(三) 非均衡化发展策略

美国高等教育学家伯顿·克拉克认为, 学科是高等教育最重要的组织基础, 大学具有人才培养、科学研究和社会服务三大功能, 而学科是教学、科研和社会服务的基础, 因此, 学科对大学的发展具有基础性和全局性的影响。建设大学, 首要的工作是抓学科建设[3]。非均衡化发展策略是对客观条件和需要的冷静审视及后续发展的价值判断。学校在战略规划的制定和发展目标定位的问题上, 应从学校的实际出发, 遵循有所为、有所不为的指导思想和原则, 采取非均衡化发展策略, 在资源有限的条件下, 以学科建设为突破口来培育学校比较优势和核心竞争力。著名美籍华人科学家田长霖教授在关于如何办好大学的问题上亦强调, 办大学“一定要有重点, 哪几个学科要重点发展, 不行的要慢慢淘汰掉”, 要“把主要的精力、资金集中在几个最重点上”[4]。

对一所大学而言, 在一定时期教育资源总需求与教育资源总供给是一对永恒的矛盾。在社会教育资源有限的情况下, 采取非均衡的发展战略永远是高等教育资源配置方式的策略。并不是所有学科都能成为一流学科, 关键是能否使若干甚至是其中一两门学科成为一流, 要把精力主要放在重点学科的建设上。从目前我国地方院校的实际情况来看, 这类学校得到国家重点资助或者大量财政拨款的机会较部属院校要小的多, 那么在办学资源极有限的条件下, 把更多的资源投入到最有实力、最具发展潜力、最能体现学术优势的重点、优势和特色学科方面, 延聘杰出的师资, 改善教学和科研条件, 而非平均用力, 其最后取得的成效要好得多。如世界一流大学———美国加州理工学院, 该校不设人文、社会科学学科, 而是把其所有的力量都集中在理、工两个学科领域。其经验证明并非学校规模大、学科齐全才能成为一所出色的一流大学, 把握重点, 集中用力, 小而精的学校也可以取得卓越的成绩。

参考文献

[1]左铁镛.地方大学仍存在较大发展潜力和空间[N].中国教育报, 2008-10-20.

[2]李雪林.数据显示:地方大学数量占全国高校总数94.2%[N].文汇报, 2008-04-30.

[3][美]伯顿.克拉克;王承绪译.高等教育系统——学术组织的跨国研究[M].杭州:杭州大学出版社, 1994.

特征选择 篇9

关键词:ReliefF算法,mRMR-ReliefF算法,特征选择,差异函数,词间相关性,文本分类

0 引 言

随着现代信息化程度的提高,文本信息快速增长,为了获取有利的信息,文本分类成为信息处理的重要研究方向,而在文本分类技术中特征选择是最关键的预处理。特征选择也叫特征子集选择(FSS),是从一系列有关或无关的特征中选择出同类内强相关性、异类间弱相关性的特征,使得系统的特定指标达到最优。特征选择能够降低向量维数,减小分类计算规模,降低分类时耗,进而提高分类性能和精度。特征选择方法根据是否以分类精度作为评价函数主要分为两大类:过滤方法和封装方法[1]。其中过滤式模型中的ReliefF被公认为是性能较好的多类别数据评估算法[2]。本文对传统的ReliefF算法进行了改进,提出一种mRMR-ReliefF特征选择算法。该算法首先使用概率差值对离散特征差异进行度量,有效地衡量特征之间的差异大小,其次结合词间相关性增加了特征冗余的处理。

1 相关工作

1.1 ReliefF研究现状

ReliefF [3]是过滤式特征选择的代表算法,是1994 年由Kononenko改进Relief[4]算法解决多类以及回归问题而提出的。

由于ReliefF算法对多类别数据评估的优良性能,一直是大家研究的对象。文献[5]根据概率改进了ReliefF算法减少数据集不平衡给特征权重计算带来的影响。文献[6]根据属性共存概率的差异性度量方式改进ReliefF算法。文献[7]引入线性相关系数ρ和互信息方法解决混合属性的冗余问题。但是文献[5]只是对ReliefF算法处理之前的文本选取进行了改进,对二值法没有改进;文献[6]对二值法进行了改进,对提取的特征没有进一步的处理;文献[7]考虑了冗余的处理,对二值法没有进行改进。本文根据文献[5,6,7]的不足,提出了更适合文本分类的ReliefF改进算法。不仅依据概率求取特征值差异大小,而且在去除冗余过程中考虑了特征与特征,特征与类别的相关性,充分去除冗余特征。

1.2 ReliefF算法简介

ReliefF系列算法的重点是根据特征对近距离样本的区分能力来评估特征,其思想是好的特征使同类样本接近,而使不同类的样本相互远离。ReliefF算法评估效率高,对数据类型没有限制,可以较好地去除无关特征[8,9]。ReliefF算法[3]如式(1)所示:

W[X]=W[X]-j=1k[diff(X,Rs,Ηj)mk]+Cclass(Rs)p(C)1-p(class(Rs))j=1kdiff(X,Rs,Μj(C))mk(1)

式中:W[X]表示特征X的特征权值,m表示任意选择的样本实例个数,p(C)表示C(Cclass(Rs))类样本出现的概率,Rs(sm)表示从训练数据集中任意选择的样本实例,Hj表示在训练数据集中与R同类的k个最近邻中的第j(jk)个样本实例,Mj表示在训练数据集中与R不同类的k个最近邻中的第j(jk)个样本实例。

对于离散特征差异函数公式如式(2)所示:

diff(x,Ι1,Ι2)={0value(x,Ι1)=value(x,Ι2)1otherwise(2)

对于连续特征差异函数公式如式(3)所示:

diff(x,Ι1,Ι2)=|value(x,Ι1)-value(x,Ι2)|Μax(x)-min(x)(3)

其中x代表特征;I1,I2代表数据集中不同的样本实例;value(x,I1)指样本I1中特征x的值。

1.3 ReliefF的不足

传统的ReliefF算法虽然评估效率高,但还存在着一定的不足,分析如下。

针对离散型特征而言,ReliefF算法采用二值法来度量[6]。用0来表示两种特征取值无差异,用1来表示两种特征取值不同。如表1所示。

表中a,b,c,d,e,f,g,p代表特征不同的取值;C1,C2代表不同的类别。对于特征X1,由二值法可得,I1与I2的差异性同I1与I3的差异性取值相同都为1。但是样本I1与I2是同类,在现实中值a与值d的差值明显小于值a与值f的差值。特征取值本应该体现出同类样本的差异性小于异类样本的差异性,而传统的ReliefF算法既不能表现上述差异性,又不能去除冗余特征[8]。针对这种情况,本文提出了改进特征权重与结合词间相关度的mRMR-ReliefF算法。

2 特征选择算法——mRMR-ReliefF

2.1 基于概率差值改进ReliefF算法

传统ReliefF算法单纯地认为离散特征完全没有大小的概念即纯粹是离散分布是不正确的,本文针对离散型特征差异度量上的不足,采用概率差值来代替0-1差值。通过特征概率在类内样本和类间样本中的差值大小来衡量特征有效区分类别的能力。

PR(xi)表示任选样本集R中的第s个样本的第i个特征出现的概率,使用xi在第s个样本中出现的次数除以第s个样本中特征总次数;P(C′/xi)表示第i个特征出现时,样本R所在类出现的概率,使用出现xi并且属于C′的文档数除以出现xi的文档数:

定义1 同类差异函数diff(Px,Rs,Hj)。计算特征概率Px在任选样本Rs与同类样本k个最近邻Hj的差值,差值的大小表示特征x区分两个样本能力的大小。计算公式如式(4)所示:

diff(Ρx,Rs,Ηj)=|ΡR(xi)×Ρ(C/xi)-ΡΗ(xi)×Ρ(C/xi)|(4)

其中PH(xi)表示同类样本H中第j样本的第i个特征出现的概率。

定义2 异类差异函数diff(Px,Rs,Mj(c))。计算特征概率Px在任选样本Rs与异类样本k个最近邻Mj(c)的差值,差值的大小表示特征x区分两个样本能力的大小, (Cclass(Rs)),计算公式如式(5)所示:

diff(Ρx,Rs,Μj(C))=|ΡR(xi)×Ρ(C/xi)-ΡΜ(xi)×Ρ(C/xi)|(5)

其中PM(xi)表示任选异类样本集M中的第j个样本的第i个特征出现的概率;P(C/xi)表示第i个特征出现时,样本M所在类出现的概率。

同类差异函数和异类差异函数所有比值都在[0,1],可得diff(Px,Rs,Hj)∈[0,1],diff(Px,Rs,Mj(c)) ∈[0,1]。

定义3 基于概率差值的ReliefF算法。依据传统ReliefF权重公式结合定义1与定义2可得到基于概率差值的ReliefF算法。公式如式(6)所示:

W[X]=W[X]-j=1k[diff(Ρx,Rs,Ηj)mk]+cclass(Rs)p(c)1-p(class(Rs))j=1kdiff(Ρx,Rs,Μj(C))mk(6)

基于概率改进的ReliefF算法在训练样本中根据各类样本数量占总体训练样本数量的比率,选择m个样本集R,对于其中任意一个样本RS,首先找出k个与RS同类的最近邻的样本Hj,然后在每一个与RS不同类的子集中找出k个最近邻的样本Mj(C),计算样本在各个特征上的间隔,并累加起来作为特征的权值。

当一个特征较容易区分类别时,意味着(diff(Px,Rs,Hj)<diff(Px,Rs,Mj(c)))同类样本间的距离较近,而不同类样本间距离较远。因此,如果特征与分类无关,那么其权值将趋于零或者很小的数。相反,如果特征与类别存在很强的相关性,那么其权值会较高。权值为负数表示同类近邻样本距离比非同类近邻样本距离还大。ReliefF改进算法通过概率差值大小来精确地计算样本间距离,进而求取特征权重,选取对分类更有效的特征。

以表1为例。对于特征X1,由概率差值法可得,I1与I2的差异值为|a-d|,I1与I3的差异值为|a-f|。通过特征差异值|a-d|<|a-f|体现同类样本差异性小于不同类样本差异性。不仅说明样本之间有差异,更能区分同类样本与不同类样本之间的差异性大小,这是传统ReliefF算法所做不到的。改进后的算法更能体现ReliefF算法的思想,将同类样本归纳到一起,使不同类样本相互远离。

2.2 基于词间相关性的冗余处理

ReliefF算法只考虑特征与类别的相关性,而对特征之间的冗余没有给予足够的重视,为去除冗余特征,提高文本分类的精确度,本文还结合词间相关性的方法,使选择出的特征子集更大程度地代表原始特征空间。词间相关性是基于mRMR (Minimum Redundancy - Maximum Relevance)模型的特征选择方法,其主要思想是将特征词与类别间最大相关性和最小特征冗余的选择标准结合起来[11]。

定义4 最大相关性。特征Xi与类别C的相关程度由信息增益来计算,相关度体现特征对区分类别的有效性。计算公式如式(7)所示:

maxQ,Q=1|Sgoal|XiSgoalΙ(Xi;C) (7)

其中Xi表示初始特征集中第i个特征,C表示类别,Sgoal表示寻找的特征子集。I(Xi;C)计算公式如式(8)所示:

Ι(Xi;C)=Ρ(Xi)Ρ(C/Xi)logΡ(C/Xi)Ρ(C)+Ρ(X¯i)Ρ(C/X¯i)logΡ(C/X¯i)Ρ(C)(8)

定义5 最小冗余标准。通过计算特征Xi, Xj的信息相关性来决定特征之间的冗余度,此相关性越大则特征冗余度越大。计算公式如式(9)所示:

minΡ,Ρ=1|Sgoal|2xi,xjSgoalΙ(Xi,Xj) (9)

其中Xi, Xj 表示属于 Sgoal的第i个、第j个特征。I(Xi; Xj)计算公式如式(10)所示:

Ι(Xi;Xj)=Ρ(Xi,Xj)logΡ(Xi/Xj)Ρ(Xi)+Ρ(X¯i,Xj)logΡ(X¯i/Xj)Ρ(X¯i)+Ρ(Xi,X¯j)logΡ(Xi/X¯j)Ρ(Xi)+Ρ(X¯i,X¯j)logΡ(X¯i/X¯j)Ρ(X¯i)(10)

定义6 mRMR模型。通过最大相关性与最小冗余标准的差值来确定特征的权重。计算公式如式(11)所示:

ΜaxxjS-Sgoal[Ι(Xj;C)-1|Sgoal|ΙxiSgoal(Xj;Xi)] (11)

其中S表示ReliefF去除无关特征后的特征集,Sgoal表示寻找的特征子集。

由于信息增益是文本分类中广泛使用的效果较好的一种评估函数,所以mRMR利用信息增益来计算特征与特征、特征与类别之间的相关性,特征按最大相关与最小冗余的差值排序,选取差值大于阈值的特征作为特征子集,按式(11)逐一地选择特征词。mRMR模型的特征选择方法一方面考虑到一般评估函数的特征词与类别的最大相关性问题,另一方面又减少特征词间的冗余,充分地提高文本分类的性能。

2.3 mRMR-ReliefF算法描述

首先利用改进的ReliefF算法对原始特征集S进行处理去除无关特征得到特征集Smid,再利用mRMR模型对特征集Smid去除冗余特征,得到独立性强的Sgoal特征集,mRMR-ReliefF算法如下所述。

改进的ReliefF算法运算过程:

1) 初始化每个特征的权重即W[x]=0。

2) 计算出各个类别样本的数量,并统计特征出现的样本。根据各个样本数量占总体训练样本数量的比重为各个类别分配一个抽样比率。

3) 按抽样比率,在各类别中抽取样本形成含有m个样本的样本组。

4) S从1到m循环:

① 从样本组随机选择一个样本Rs;

② 选择RS同类的最近邻样本Hj和异类的最近邻样本Mj(C),其中Cclass(Rs);

③ 对所有特征Xi(i=1,2,…,x)分别计算并更新权重:

W[X]=W[X]-j=1k[diff(Ρx,Rs,Ηj)k]+cclass(Rs)p(c)1-p(class(Rs))j=1kdiff(Ρx,Rs,Μj(C))k

循环结束。

5) 根据权值大小对特征进行排序,每类中选择权值最大的前200个特征,存入特征子集Smid

对选取特征进行词间相关度的冗余处理过程如下:

1) 分别对每类处理,从特征子集Smid中选取权重值最大的特征存入Sgoal特征子集。

2) 根据ReliefF算法第2步的统计来计算I(Xi;C),I(Xi; Xj)。

3) i从2到200

① 对特征计算冗余度:

ΜaxxjS-Sgoal[Ι(Xj;C)-1|Sgoal|ΙxiSgoal(Xj;Xi)]

② 当冗余计算值<0.3时将特征放入Sgoal特征子集。

4) 输出特征子集Sgoal

ReliefF运算过程中,样本的选取对计算特征权重有一定影响,当选取的样本越全面根据权重提取的特征包含样本的信息越多。本文为了减少样本选取的影响,对训练样本进行三次抽样,对特征权重取平均值。词间相关度的运算中,冗余的阈值设置为0.3。阈值越小选取特征越少,文本信息不能完全表示;阈值过大又不能很好地去除冗余特征。不同的实验数据,计算出的相关度的数值不同,本文阈值是根据实验数据选取。

3 实验结果及分析

3.1 实验数据

实验数据选取了复旦大学中文语料库中的3006篇文本,其中2/3样本作为训练集,1/3样本作为测试集。包括文学、艺术、历史、政治、哲学、教育等6个类别。首先使用ictclas50分词包对所选文本进行分词处理,其次提取分词处理后文本中的名词、动词、形容词和量词,并去除其中的停用词和无用词,最后使用mRMR-ReliefF算法去除无关与冗余特征。使用KNN分类器对测试样本进行分类,对比传统ReliefF、改进ReliefF和mRMR-ReliefF三种特征提取算法的平均准确率、平均召回率和F1值,来验证本文算法提取有效的特征子集。

3.2 性能评测

本文采用KNN分类器进行分类,本文分类的评测指标采用文本分类评测标准中的平均准确率、平均召回率和F1值。各评价参数定义如下:

(1) 平均准确率

分类的准确率=分类正确文本/分类的实际文本数:

ΜacroΡ=1nj=1nΡj (12)

其中n为总的分类数,Pj为第j类的准确率。

(2) 平均召回率

分类的召回率=分类正确文本/分类应有的文本数:

ΜacroR=1nj=1nRj (13)

其中n为总的分类数,Rj为第j类的召回率。

(3) 平均F1值

ΜacroF1=ΜacroΡ×ΜacroR×2ΜacroΡ+ΜacroR (14)

其中MacroP是平均准确率,MacroR是平均召回率。

3.3 实验结果与分析

实验中的参数设置:KNN分类过程中K取25,特征间距离采用欧氏距离进行测量,取值的确定都是根据少量测试样本对比实验后得到的。实验对比如图1、图2所示。

由图1可知,改进的RelifF算法相对于传统RelifF算法在MacroP,MacroR,MacroF1都有很大的提高。这是由于改进RelifF算法较精确计算样本中特征的权重,通过权重差值大小,来确定样本的类别。而不像RelifF只是单纯地来识别特征取值是否相同,而对差值大小没有衡量。

由图2可知,mRMR-ReliefF算法相对于改进的RelifF算法MacroP有很大提高,MacroR,MacroF1也有一定提高。这是因为mRMR-ReliefF算法不仅考虑特征与类别的相关性,还考虑特征之间相关性,在提取有效特征的同时,减少特征间的冗余,降低特征向量的维数。

4 结 语

本文应用概率改进传统ReliefF算法中差异函数的不足,合理计算每个特征的权值,从而有效地筛选出重要特征。并结合词间相关性来解决传统ReliefF算法不能处理冗余特征的问题,降低了特征向量的维数,为后续文本分类提供更有效的特征子集。实验结果表明这种方法是可行的。

参考文献

[1]Liu Y,Zheng Y F.A novel feature selection method for support vectormachines[J].Pattern Recognition,2006,39:1333-1345.

[2]Sikonja R M,Kononenko I.Theoretical and empirical analys is of Re-liefF and RReliefF[J].Machine Learning,2003,53(1-2):23-69.

[3]Kononenko I.Estimation:Analysis and extensions of relief[C]//Pro-ceedings of the 1994 European Conference on Machine Learning[S.l.].ACM Press,1997:273-324.

[4]Kenji K,Rendell L A,Rendell A.A practical approach to feature selec-tion machine learning[C]//Proceedings of ICML’92.Aberdeen,Scot-land,UK[s.n.],1992:249-256.

[5]朱远枫,章晶,史娜.基于改进的ReliefF算法的神经网络集成分类模型[J].电脑知识与技术,2009(3):1699-1700.

[6]万京,王建东.一种基于新的差异性度量的ReliefF方法[C]//’09年研究生学术交流会——通信与信息技术,2009.

[7]童忆莹.基于增量聚类和RelifF的特征选择方法[D].重庆:西南大学计算机学院,2011.

[8]张丽新,王家,赵雁南,等.基于Relief的组合式特征选择[J].复旦学报,2004(10):893-897.

[9]Jin X,Li R G,Shen X.Automatic web page categorization with ReliefFand hidden nave Bayes[C]//Proceedings of the 2007 ACM Symposi-um on Applied Computing,USA,2007.

[10]陈素萍,谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009(2):112-115.

特征选择 篇10

表情所蕴含的丰富信息对人机交互智能化具有重要意义,这就促使表情识别成为研究的热点。在计算机表情识别研究中,尽管提出了一些特征提取和识别方法,但主要还处在算法研究阶段。由于人脸不是刚体,很难建模,再加之受硬件约束、环境条件对图像质量的影响等,基于面部图像的表情识别实现难度大,距离实用还远[1]。

表情特征是表情识别过程中的重要步骤,是分类识别的基础,表情特征提取及选择的质量高低对识别系统的性能影响重大。表情特征提取的方法众多,总整体上可分为几何特征、代数特征、频域特征、运动特征等。人脸图像的代数特征蕴含了极大的信息量,它虽然不如几何特征直观,但反应了图像的本质,因此很多研究人员都试图应用代数方法来解决表情识别问题。代数特征中,应用广泛的就是主元分析法(PCA)。主元分析就是要找到一个正交的维数空间来说明数据变化的主要方向,而坐标轴就成了近似人脸的模板图像轴。

2 基础知识

2.1 主成分分析法(PCA)

主成分分析(Principal Components Analysis,PCA)算法[2]是一种经典的统计方法。它是用来描述和表征细微差异的有力工具。在信号处理时,经常会遇到高维向量空间的数据处理问题,而这些高维数据网玩存在较大程度的相关冗余,所以希望从高维空间的数据中找到具有代表性的低维空间,从而对数据更容易地进行分析和处理。在最大程度上保证信息量的前提下,从高维空间中提取出位数降低的特征分量。在信号处理和模式识别中,PCA相当于采用奇异值分解和K-L变换。

K-L变换是一种正交变换。假设X为n维随机向量,X可以用n个正交基向量的加权和来表示:

式(1)中,αi为加权系数,φi为正交基向量,满足φiTφ=1当i=j;φiTφ=0当i≠j.

令α=(α1,α2,…,αn)T,φ=(φ1,φ2,…,φn)为正交矩阵,满足φTφ=I。

若要α的各个分量不相关,就需选择正交向量集φ。设随机向量X的自相关矩阵为

将X=φα代入上式,得

要求向量的各个分量间互不相关,即满足E(αjαkT)=λj,当j=k;E(αjαkT)=0,当j≠k。那么E(ααT)=∧,R=φ∧φT。将后者两边右乘以φ,得

可见,λj是X的自相关矩阵的特征值,φj是相应的特征向量,因为R是实对称矩阵,其不同特征值对应的特征向量应正交。

从n个特征向量中取m个组成变换矩阵T,即

这时A是一个n×m维矩阵,X为n维向量,经过AT变换,得到降维为m的新向量X'。要使新向量在最小均方误差准则下接近原向量X。设变换误差△X=X-XT,变换的均方误差

式中,λj是X的自相关矩阵的特征值,φj是相应特征向量。显然,所选的值越小,均方误差也越小。

综上所述,PCA特征提取的步骤:

Step1.构造训练样本的向量集合X

Step2.求样本均值E(X)

Step3.求X的协方差矩阵C

Step4.求C的特征值λ及特征向量U

Step5.构造变换阵T;

Step6.将X投影变换到子空间。

2.3 基于粗糙集的属性约简

1)粗糙集(Rough sets)理论是1982年由波兰数学家Z.Pawlak提出的,它是一种研究不完整、不确定知识和数据的表达、学习归纳的数学工具[2]。其主要思想:在保持分类能力不变的前提下通过知识约简,导出问题的决策或者规则。它不需要先验知识,也没有更多前提条件的约束,从而得到广泛应用。粗糙集理论的重要特点———属性的独立约简使之可用于特征选择。

2)相关概念

定义1.[1,3]信息系统是基于信息表的知识表达系统,其基本成分是研究对象的集合。这些对象的知识用其属性(特征)和属性值(特征值)来描述。信息系统S可表示为有序四元组

式中,U={x1,x2,…,xn}全体样本集;A是有限个属性集,且A=C∪D,C∩D=覫,C为条件属性,D为决策属性;V为属性值的集合;f=U×A→V为信息函数。

定义2.[2,3]设T=(U,C∩D)是一个决策表,D的C正域记作POSc(D),即

定义3.[2,3]设R∈C称R为C的D约简,当且仅当R是C的独立子集且POSR(D)=POSc(D).

定义4.[2,3]C的所有必要属性组成的集合称为C的核,记为CORE(C),它是所有简约的交,即CORE(C)=∩RED(C)(其中RED(C)表示C的约简)。

3)基于Fisher判别的属性约简:

根据Fisher的思想,对于分类作用大的条件属性应满足:在该条件属性上各类样本尽可能分得开些,即类间距要大;同时各类样本内部尽量密集,即类内离散度要小。

讨论的对象可分为N类,共包含L个样本。每个样本可用M维向量来描述,即:

对各样本xi∈RM,yi∈{1,2,…,N},i=1,2,…,N。用Yi(1,2,…,N)表示第i类样本的集合,样本个数为Li,L=∑Ni=1Li,用mij表示第i类样本第j个分量的均值,有

用Sij表示第i类样本第j个分量的类内离散度,有:

为了使各类别能有效的分开,应使类间距大,类内分布散度小。据此可设启发式函数为:

2.4 RgPCA算法

PCA获取的是表情图像的代数统计特征。所有的人脸大体形状和结构相似,真正用来区分不同表情的信息是用次分量表达的高频成分;主分量更适合用于表达图像的低频成分,具体细节还需要用与小特征对应的特征向量来加以描述。然而,选择哪些分量作为面部特征才能高效准确?目前,大多数研究者依赖个体经验,还无高效而且科学的方法。

通过深入研究分析后发现,在原始图像进行PCA处理的基础上,对所获得的表情代数特征用FAI约简法,可以实现有效的特征选择。此即粗糙主成分分析(RgPCA,Rough of PCA)。

3 RgPCA算法在表情特征提取与选择中的应用

由于人脸固有的相似性,在“原始图像空间”中,表情向量仅分布在一个较小的范围内。将高维的“原始图像空间”经过正交变化,得道一组正交基,保留能够代表面部表情的那部分正交基,以构造低维面部表情空间。

3.1 表情特征提取算法

假设训练的每幅面部图像的像素数为d,共有k幅训练样本,则所有训练样本的向量集合计为X={xi∈Rd|i=1,2,…,k},列向量是面部表情数据按照行首尾连接得道的。这样X对应一个d×k维的人脸空间。K-L变换试图找到一个低维的子空间来表示原来的面部表情空间。记作

为集合中训练面部表情数据的平均向量。将X中每个人脸数据向量减去平均向量,可以得到新的向量集合:X={Xi|i=1,2,…,k}其中xi=xi-E(X)

集合X的协方差矩阵可表示为:

式中,C是一个d×d的矩阵。C的特征向量构成了一组空间的正交基。这组基叫做K-L基,记作u1,u2,…,ud,其对应的全部特征值分别为λ1,λ2,…,λd,特征向量按列形成的矩阵为U,那么在特征空间,面部表情向量X的投影为

若通过选用m(m

综上所述,PCA特征提取的步骤:

Step1.构造训练样本的向量集合X;

Step2.求样本均值E(X);

Step3.求X的协方差矩阵C;

Step4.求C的特征值λ及特征向量U

Step5.构造变换阵A;

Step6.将X投影到子空间:Y=A T X。

3.2 正交基的选择

正交基的选择有不同考虑,与较大特征只对应的正交基(也称主分量)可用来表示人脸的大体形状,采用主分量作正交基的方法称作主元分析法(PCA)。对于集合X中的一个面部表情向量x,PCA将向量x投影到与协方差矩阵C的、按降序排列的前m个特征值对应的特征向量所构成的子空间上。投影产生了一个包含m个系数a1,a2,…,am的向量。这样,面部表情向量X就表达成特征向量的线性组合,其权值就是a1,a2,…,am。可以证明,主元分析法的重构误差等于被忽略的特征向量所对应的特征值(λm+1,λm+2,…,λd)的和。

另一种选择是采用m个次分量作为正交基。原因是所有的人脸大体形状和结构相似,真正用来区分不同表情的信息是用次分量表达的高频成分;主分量更适合用于表达图像的低频成分,具体细节还需要用与小特征对应的特征向量来加以描述[4]。

表情特征选择的指导思想是:对信息系统中可能被约简的条件属性(也即核外属性),依式(10)建立启发式函数,作为评估函数,用于衡量各条件属性相对于分类的重要性,以此作为启发性知识,决定条件属性的约简次序,实现对条件属性的快速、有效约简。

整个算法可描述如下:

Step1.对数据进行预处理,使其符合以下各步的处理要求;

Step2.计算信息系统的核,即不可约简条件属性的集合;

Step3.计算核以外条件属性的FAI,将各条件属性依FAI值由大到小排序;

Step4.按FAI值由小到大对核以外各条件属性进行约简。每次只约简FAI值最小的属性,返回;

Step3;

Step5.结束。

4 实验及分析

本实验所用设备是AMD Sempron 1.61GHz的CPU,512M的内存,软环境XP操作系统、Matlab7.0。试验中采用的是日本的标准表情库JAFFE。该图像库包含10个女性的7种表情(生气、厌恶、高兴、恐惧、惊讶、中性、悲伤)每种表情每个人有3张,均为256×256大小的bmp图像。随机选取每种表情图片每人2张作为训练样本,剩余的每人每种表情1张作为测试样本。

分别用PCA和RgPCA进行特征提取和选择,用K近邻法进行表情分类的对比实验。用PCA获取50个次分量作为表情特征,可获得89.7%的平均识别率;用RgPCA选取50个分量作为表情特征,可获得96.7%的平均识别率。

实验结果表明,在特征选择和提取过程中,RgPCA比PCA更有效,其原因在于:PCA获取的主分量或者次分量反映的是与原图像的近似程度,而RgPCA选择的特征时还考虑了特征的分类能力。然而,RgPCA仍有很大的局限性:时间复杂度较高,泛化能力有限,不适合实时视频表情识别等等,还有待遇进一步改进。

参考文献

[1]Pawlak.Z Rough Set Theretical Aspects Reasoning About Data[M].Dredrecht the Neterland.Kluwer Academic Publicers,1991.

[2]王松,夏绍玮.一种鲁棒主成分分析(PCA)算法[J].系统工程与实践,1998,18(1):9-13.

[3]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001.

[4]王志良,孟秀艳.人脸工程学[M].北京:机械工业出版社,2008.

特征选择 篇11

关键词:森林资源;遥感;分类;特征变量

1 引言

目前,各国研究机构广泛发展了基于遥感与抽样技术相结合的森林资源面积监测体系。抽样方法可大范围、快速监测森林资源动态变化,但无法在实际监管中存在有效利用,也就是存在监管不到位的现象。因此,结合实际,深入研究森林资源遥感分类区划方法中的一些关键技术,对促进森林资源调查遥感监测技术的发展具有重要意义。

2 森林资源分类中遥感数据的波谱特征

2.1 光谱特征 多光谱遥感影像能够对不同的森林进行区分,也是森林资源遥感分类应用最广泛和最基本的识别特征。目前基于多光谱特征的森林资源定量分析则是通过计算各个类别的均值、方差、标准偏差和离散度等统计量,作为比较不同类别相似度的量化依据,并在这些统计量的基础上建立判别函数实现森林资源遥感分类。但由于遥感数据空间分辨率、光谱特征值、光谱波段设置等限制,以及遥感影像像元都是地物光谱综合信息的特点,致使单纯依靠多光谱特征的森林资源遥感分类存在诸多分类混淆,“同物异谱、异物同谱”现象广泛存在。

2.2 高光谱数据特征 高光谱数据的光谱分辨率很高,能精确识别不同的树种。但高光谱数据各波段之间存在着高度的相关性,对分类精度有很大的影响。因此,高光谱数据的降维处理是目前高光谱数据处理的必经过程。目前,降维方法可分为两大类:①基于变换的方法,如主成分变换、正交子空间投影、正则分析、离散小波变换等。基于变换的降维方法优点是可以经若干变换直接将高维数据降低到几维甚至一维,信息量高度集中,降维速度快;其缺点是改变数据原始特性;②基于非变换的,主要是波段选择。基于非变换的降维方法保持数据原有特性,但波段选择算法目前均不成熟,难度大。

3 森林资源分类中遥感数据的纹理特征

纹理特征作为遥感影像数据重要的空间特征之一,是对影像像元之间空间分布的一种描述,其空间分辨率决定了纹理结构信息的丰富度。高分辨率遥感影像可大幅度减少了混合像元的比例,能非常直观的展示地面目标地物的空间位置、结构、形状、色彩等信息,有利于辨识目标地物。但高分辨率影像数据量巨大,所含信息量十分丰富,在抑制异物同谱现象的同时增加了同物异谱现象,此外还存在着阴影问题等,这些均有可能引起分類精度的降低。为充分利用高分辨率影像,基于纹理、面向对象或光谱与空间信息结合等分类方法可有效提高分类精度得到迅速发展和应用。然而在图像分类中,特征并不是越丰富越好,对分类结果不利的特征可对分类结果起到干扰作用,导致识别或分类精度的降低。因此,选择合适的纹理特征,制定一个特征选择准则,配合一个好的搜索算法就显得十分必要。

4 森林资源分类中遥感数据的时间特征

单一时相的遥感数据只能反映拍摄时间森林资源的波谱特征,但不同时期植物的生长发育规律可在遥感影像表现出不同的波谱信息。因此,可利用植物的时间效应特征来提高森林资源遥感分类识别能力。

5 研究展望

5.1 森林资源遥感分类特征变量选择存在的问题

5.1.1 森林资源遥感分类特征变量的选择的理论研究还不完善 在现有特征变量选择过程中高度依赖遥感数据的光谱特征,没有充分研究森林资源本身的特征在遥感数据上的机理体现,也就是没有从遥感机理上去分析、构建和选择特征变量。

5.1.2 森林资源遥感分类特征变量的综合应用问题 目前森林资源遥感分类特征变量较多的使用单一类型的特征变量,在利用单一类型的分类特征变量只能体现森林资源的一个方面,不论应用何种算法,对提高遥感分类精度的力度有限。因此,多类型分类特征变量综合应用是提高分类精度的有效途径。5.2 森林资源遥感分类特征变量选择发展方向

5.2.1 新的特征变量的不断挖掘 影响不同植物差异,可从植物本身的主要物理性状,这些因素主要受植物本身基因控制,这些特征变量参数可通过过SAR数据来解决。一些植物生化组分含量特征方面,可利用高光谱数据反演植物内部生化组成含量,探索基于生化组分含量与光谱的相互作用显著的敏感波段,并利用这些波段的影像对森林资源进行分类,使遥感分类更具机理性。

5.2.2 特征变量的综合应用 由于不同区域范围内具有特定的植物种群结构,不同时相植物存在着不同的生长规律,可根据植物生长状态,及其生长周期内生理、外形、结构等变化或季节变化特点,研究出某类植物最佳辨别时相,以及组合分类的特征变量组合。基于不同传感器数据提取不同森林资源遥感分类信息,联合使用多种分类特征的互补信息可有效提高遥感分类精度。开展森林资源遥感分类特征变量和敏感性与不确定性分析,在分类特征变量深入挖掘的基础上,结合主要分类器,建立不同分类特征的精度敏感性分析,进一步建立评估模型,为模型通用性检验及区域推广提供技术基础。

因此,不同区域的森林资源分类可按区域特性,建立区域特征数据库,综合应用适合该区域遥感分类特征变量,提高分类精度,使其更好的服务于森林资源调查分类及遥感监测需求。

参考文献:

特征选择 篇12

互联网的问世给人类带来了新型的交流方式———电子邮件, 伴随着电子邮件的广泛普及和应用, 垃圾邮件已不可避免地成为人们现实生活中一个亟待解决的问题。垃圾邮件, 即为没有经过收件人同意而发送的电子邮件, 往往发送一些对用户没有作用的内容或重复发送列表服务器中内容相同的信件[1]。垃圾邮件作为商业广告、恶意程序、不健康信息甚至是计算机病毒的载体, 对计算机系统安全、网络用户生活、社会治安稳定及青少年健康成长都造成了恶劣的影响。据中国互联网协会反垃圾邮件中心2010 年发布的第二十次《中国反垃圾邮件状况调查报告》[2]指出, 2010 年第一季度, 中国网民每周平均收到垃圾邮件12. 5 封, 垃圾邮件数量占邮件总体数量的比例为38. 3% 。因此, 如何自动地进行垃圾邮件的过滤已经成为网络安全领域的一个热点研究问题[3 - 5]。

垃圾邮件过滤问题实质上是一个文本的二分类问题。一般地, 垃圾邮件的过滤过程包括: 训练集和测试集构造、分词、词典纯化、特征选择、构建分类器等[6]。在垃圾邮件过滤过程中, 特征选择是最为关键的一步, 特征选择结果的好坏直接影响着垃圾邮件过滤方法的性能[7]。若特征选择结果较好, 则特征选择后的特征词典能够包含大多数对于分类重要的特征词, 删除了冗余的对分类不重要的特征词, 垃圾邮件过滤器就有可能得到较好的结果。

目前, 最常用的文本特征选择方法包括信息增益、CHI统计、互信息、期望交叉熵等。信息增益方法[7,8]通过评价特征词对类别的区分能力, 来计算特征词所含的信息量, 信息量越大的特征词在特征提取后越可能保留下来。CHI统计方法[8,9]通过衡量特征词与邮件类别之间的相关程度, 将与类别相关程度高的特征词保留在特征词典中以提高垃圾邮件过滤的能力。互信息方法[10]与CHI统计方法类似, 也通过计算特征词与类别的相关程度来判断特征词的重要性, 但相关性的计算方法与前者不同。而期望交叉熵[11]方法与信息增益方法类似, 区别在于如果特征词没有出现在数据中时, 期望交叉熵不对其进行考虑, 因此其精度要高于信息增益方法。此外, 还有基于概率的特征词选择方法[12]、基于层次结构的特征选择方法[13]近年来也成为研究热点。

尽管这些特征提取方法已经有较为成熟的研究, 并且在文本分类问题中得到了应用, 但单一的特征选择方法往往只关注特征词整体特性的某一方面, 存在不确定因素, 因此单一的特征选择方法得到的模型时好时坏。针对传统垃圾邮件过滤问题中采用单一特征选择方法不能有效提取训练集中全部重要特征或提取结果存在特征冗余的问题, 本文提出一种基于多种特征选择融合的垃圾邮件过滤模型 ( SF_FSF方法) 。SF_FSF方法结合信息融合的概念, 将特征选择看成一个决策问题, 采用平均投票法进行特征选择结果的融合, 选择四种特征选择方法具有相同判断结果的特征词保留下来, 从而删除对于四种特征选择方法有争议或者选择结果不稳定的特征词, 以获得更为优秀的垃圾邮件过滤能力。

1 传统文本特征选择方法

特征选择是垃圾邮件过滤过程中重要而关键的一步, 特征选择结果的好坏直接决定了垃圾邮件过滤器的过滤性能。目前, 常用的文本特征选择方法包括信息增益、CHI统计、互信息、期望交叉熵等。

信息增益方法[7,8]通过评价特征词对类别的区分能力, 来计算特征词所含的信息量, 信息量越大的特征词对区分类别的贡献度越大, 特征提取后越可能保留下来。具体讲, 假设存在特征词ti∈ T, T为特征词集合且特征词个数为n, 存在类别cj∈C, C为样本类别集合且类别个数为m。首先计算不包含该特征词时文档的熵, 即不包含该特征时包含的信息量, 再计算该特征加入后的信息量, 二者之差就是特征词ti所含有的信息量。具体如下:

其中, H ( C) 为包含特征词ti时的信息熵, 其计算如下:

H ( C | ti) 为删除特征词ti后的信息熵, 其计算如下:

CHI统计方法[8,9]通过衡量一个特征词ti与一个类别cj之间的相关程度。特征词ti的CHI统计量定义如下:

其中, 各符号的含义如表1 所示。

互信息方法[10]的思想是计算特征词ti与类别cj的相互关联程度以判断特征词和类别之间的相关性。如果特征词与类别信息之间没有联系, 即特征词不出现在当前类别中时, 特征词的互信息为0; 若特征词在当前类别中出现的次数较少时, 特征词的互信息是负数。互信息方法认为出现频率较低的特征词所含有的信息量较大, 若特征词只在某一类别文本数据中出现时, 其互信息值很大。互信息计算方法如下:

各参数意义同表1 所示。

期望交叉熵[11]方法与信息增益方法类似, 区别在于如果特征词没有出现在数据中时, 期望交叉熵不对其进行考虑, 因此其精度要高于信息增益方法。期望交叉熵计算方法如下:

尽管传统的特征选择方法已经在文本的特征提取中得到了较为成熟的应用, 但由于单一的特征选择方法只关注特征词与样本类别关系, 选择的特征词往往存在冗余或重要信息的丢失, 得到的结果时好时坏。因此, 本文结合四种特征选择方法的结果进行融合, 以得到更好的特征词选择结果, 从而构建更为优秀的垃圾邮件过滤器。

2 基于特征选择融合的垃圾邮件过滤方法

目前, 尽管基于信息增益、CHI统计、互信息及期望交叉熵的文本特征提取方法在垃圾邮件过滤问题中得到了成功应用, 但单一的特征选择方法往往只关注整体特性的一部分, 且特征选择方法往往存在不确定因素, 模型时好时坏。针对这个问题, 本文将不同的特征选择方法进行融合, 构造了基于特征选择融合的垃圾邮件过滤方法。该方法通过信息融合的方式融合多种不同的特征选择方法所得到的结果, 从而进一步提高垃圾邮件过滤过程中特征选择结果的性能, 以最终构建效果优秀的垃圾邮件过滤器。

在介绍基于特征选择融合的垃圾邮件过滤方法之前, 首先介绍基于平均投票法的特征选择方法, 平均投票法的信息融合模型[14]进行特征选择结果的融合, 平均投票法是通过衡量所有分类器输出的平均值的大小来决定样本的归属, 即:

其中, yij ( x) 表示第i个分类器将样本x归为第类的信任度, K为分类器个数, N为样本类别个数。这里, 每个分类器就是一种特征选择方法, 第i种特征选择方法对于特征词x对于正常邮件或者垃圾邮件类的词频信息即为yij ( x) 。

由于SF_FSF方法在每个样本都选取了各种特征选择方法所得到的平均词频信息的最大值, 相当于采用四种特征选择方法来衡量每个特征词是否都具有相同的判别, 如果四种特征选择方法对同一个特征词具有相同类别的判断, 那么该特征词含有的特征量就较大, 应该在特征选择过程中保留下来, 否则去除该特征词, 有效避免了采用单一特征选择方法本身局限而导致的特征词的错误抽取, 从而最终得到比在所有样本上用同一种单一特征选择方法更为优秀的过滤结果。

基于特征选择融合的垃圾邮件过滤模型首先在构建的垃圾邮件数据集上进行分词, 并将经过分词处理的文本去掉诸如“的”、“了”、“么”等频率很高但对于垃圾邮件过滤没有重要作用的副词、助词等干扰词汇; 然后采用互信息、信息增益、CHI统计、期望交叉熵四种特征选择模型选择特征词, 并采用特定的融合方法融合四种特征选择方法所得到的结果, 以构建更为优秀的特征词典, 从而训练得到分类精度更高的垃圾邮件过滤器。基于特征选择融合的垃圾邮件过滤方法的核心就是特征选择的融合, 特征选择融合的过程就是将各种不同的特征选择方法所得到的特征提取结果通过词频统计、数据关联、融合决策等融合模型, 从而构造最终的特征词典。

具体地, 基于特征选择融合的垃圾邮件过滤方法的主要过程如图1 所示, 具体算法见算法1。

算法1 基于特征选择融合的垃圾邮件过滤算法

Step1 构造实验数据集。读取正常邮件和垃圾邮件, 在读取邮件时去除邮件首部的相关信息而保留邮件的主体部分, 即对于汉语邮件只保留邮件的汉字部分。

Step2 中文分词。采用中国科学院研发的ICTCLAS分词系统进行邮件的分词处理, 得到每封邮件的分词结果。

Step3特征词提纯。由于中文垃圾邮件文本中存在大量的副词、助词及部分错误分割的字词, 它们数量较大但不包含重要的分类信息, 因此在特征词提纯阶段先将它们去掉。

Step4特征选择。由于经过特征词提纯的垃圾邮件训练集维度依然很大, 如1400 封邮件所构造处的特征词典维度大概在5000 左右。因此, 分别采用互信息、信息增益、CHI统计和期望交叉熵四种方法进行特征选择, 并记录四种方法的将为结果。

Step5 特征选择融合。通过对Step4 中所采用的四种特征选择方法所得到的结果统计其词频信息, 进行分析及数据融合, 构造出一个最终的词频信息统计表, 将其按大小排列后通过设定某个阈值来选择出一部分重要的特征以达到降维的效果。

Step6构建向量空间模型。将降维后的特征词典带入到训练集和测试集当中, 采用TF-IDF方法分别构造出训练集与测试集的向量空间模型。

Step7构建过滤器。将训练集的向量空间模型代入到分类器中进行学习。

Step8 在测试集上测试模型, 算法结束, 输出各项指标值。

3 实验结果及分析

为验证本文提出的基于特征选择融合的垃圾邮件过滤方的性能, 实验与传统的基于单一特征选择方法 ( 如信息增益、互信息、CHI统计、期望交叉熵) 的垃圾邮件过滤器进行了对比。实验中的分类器采用支持向量机, 其核函数采用高斯核, 参数为1. 0, 惩罚参数取1 000。实验采用中国教育和科研计算机网紧急响应组 ( CCERT) 的垃圾邮件研究小组在2006 年5 月公开的垃圾邮件过滤数据集, 共分为四组, 每组选取500 封正常邮件和500 封垃圾邮件作为训练集, 200 封正常邮件和200 封垃圾邮件作为测试集, 邮件选择方法为按照编号顺序在邮件数据集中依次选取。实验在1 台PC机 ( 2GHz CPU, 1G内存) 上进行测试, 其中分词采用中国科学院研发的ICTCLAS分词系统, 邮件特征词提纯、基于单一方法特征选择的过程的子步骤均在VC6. 0 上进行, 而最后特征选择结果的融合、构建向量空间、利用支持向量机分类器进行垃圾邮件过滤的子过程是在Matlab2008a版本的实验环境下进行, 分类器采用Matlab2008a自带的toolbox中的支持向量机分类器进行分类。

由于垃圾邮件过滤本身是个非平衡的分类问题, 实验采用如下五个重要的指标进行测试:

( 1) 正常邮件通过率 ( NMR) , 反应将测试集中正常邮件划分为正常邮件的概率, 定义如下:

( 2) 虚警率 ( FAR) , 反应将测试集中正常邮件划分为垃圾邮件的概率, 定义如下:

( 3) 正确过滤率 ( CRR) , 反应将测试集中垃圾邮件划分为垃圾邮件的概率, 定义如下:

( 4) 漏检率 ( MR) , 反应将测试集中垃圾邮件划分为正常邮件的概率, 定义如下:

( 5) 测试精度 ( ACC) , 反应测试集中判断正确的邮件的整体概率, 定义如下:

其中, NH→H表示将正常邮件判断为正常邮件的数目, NH→S表示将正常邮件判断为垃圾邮件的数目, NS→S表示将垃圾邮件判断为垃圾邮件的数目, NS→H表示将垃圾邮件判断为正常邮件的数目。

由于为垃圾邮件的特征词典的维度直接影响着最终的垃圾邮件过滤器的过滤效果, 这里首先对特征词典的维度进行了研究。在四组垃圾邮件数据集上, 分别设定维度为100、200、400、600、800、1 000, 通过对比互信息、信息增益、CHI统计和期望交叉熵, 四组实验得到结果的平均测试精度如图2 所示。

图 2 不同维度下的平均测试精度结果

由图2 可以看出, 当维度较低时 ( 特别地, 如特征词典维度低于400 时) 随着特征词典维度的增加, 测试精度明显提高, 但当特征词典维度达到600 后, 测试精度不再随着样本维度增加而增加, 而是保持在了一个较为稳定的水平。若维度过高, 个别方法还有一定微小的下降趋势。为此, 下面对比实验中的特征词典维度取700。表1 为基于传统单一的特征选择方法与本文提出的基于特征选择融合的垃圾邮件过滤方法所得各指标的比较。

从表1 可观察得到, 在每组实验数据集上, 本文提出的SF_FSF方法在测试精度、正常邮件通过率、正确过滤率三个指标上都要明显高于基于单一特征选择的垃圾邮件过滤方法。而在虚警率和漏检率两个指标上, SF_FSF方法要明显低于基于单一特征选择的垃圾邮件过滤方法。

其次, 从四组实验的平均值看, 与CHI统计方法相比, 在ACC、NMR和CRR三个指标上SF_FSF方法分别高出0. 54% 、0. 4% 和0. 26% , 而在FAR和MR两个指标上分别降低了27. 08% 、15. 12% ; 同理, 与互信息方法相比, 在前三个指标上SF_FSF方法分别高出0. 4% 、0. 51% 和0. 62% , 而在后两个指标上分别降低了20. 45% 、27% ; 与信息增益方法相比, 在前三个指标上SF_FSF分别高出0. 28% 、0. 18% 和0. 41% , 而在后两个指标上分别降低了16. 67% 、20. 65% ; 与期望交叉熵方法相比, SF_FSF方法在ACC、NMR和CRR三个指标上分别高出1. 02% 、0. 86% 和1. 21% , 而在FAR和MR两个指标上分别降低了49. 28% 、38. 14% 。

综上可看出, 本文提出的SF_FSF方法选取了各种特征选择方法输出词频信息的平均值的最大值作为其信息量, 即如果存在一个特征词, 各种特征选择方法都认为其包含的样本归类一致, 则说明该特征词具有普遍意义的重要信息, 因此在特征选择结果中保留下来, 反之, 则在特征选择结果中删除。通过将信息融合应用于特征词选择过程, 采用平均投票法的信息融合模型进行特征选择结果的融合, 从而选择出更加合适的特征词以达到降维目的, 在正常邮件通过率、虚警率、正确邮件过滤率、漏检率、测试精度五个评价指标上都获得了较为优秀的结果, 提高了垃圾邮件的过滤效率并增加了过滤结果的稳定性。

4 结语

垃圾邮件过滤问题是目前网络安全领域经典且重要的一个问题, 目前的研究大多集中于基于单一特征选择方法的垃圾邮件过滤模型, 但单一的特征选择方法往往不能有效提取训练集中全部重要特征或提取结果存在特征冗余。针对这一问题, 本文结合信息融合模型, 提出一种基于多种特征选择融合的垃圾邮件过滤方法。该方法将特征选择看成一个决策问题, 各种特征选择方法看作一个信息资源, 充分考虑可获得的所有信息资源, 采用平均投票法进行特征选择结果融合, 以实现更准确、更可靠、更协调与更稳定的决策, 从而提取得到垃圾邮件过滤训练集中的重要特征, 删除大量冗余特征, 从而获得更为优秀的过滤能力。

在实际问题中, 用户遇到的垃圾邮件的数量可能要远大于正常邮件的规模, 因此如何处理非平衡的大规模垃圾邮件问题也是一个难点问题。在未来的工作中, 将考虑如何将多特征选择融合的垃圾邮件过滤方法进行改进以应用于更贴近实际的非平衡垃圾邮件过滤问题。

摘要:针对传统垃圾邮件过滤问题中采用单一特征选择方法不能够有效提取训练集中全部重要特征或提取结果存在特征冗余的问题, 提出一种基于多种特征选择方法融合的垃圾邮件过滤模型SFFSF (Spam filtering based on feature selection fusion) 。SFFSF方法通过引入信息融合的概念, 将特征选择看成一个决策问题, 采用基于平均投票法的信息融合模型进行特征选择结果的融合, 以提取垃圾邮件数据集中的重要特征, 获得优秀的过滤能力。实验结果表明, SFFSF方法比基于单一特征选择的垃圾邮件过滤方法 得到了更好的过滤结果。

上一篇:会计术语下一篇:幼儿养成教育方略