选择性特征(通用12篇)
选择性特征 篇1
引言
随着互联网的深入发展,互联网金融的发展非常迅速,甚至是已经发展到了校园中。随着互联网金融的发展,征信迫在眉睫。但是我国的信用评估体系并不完善。在过去的信用体系建设中,主要着重在企业和个人的信用评估方面,很少涉及到大学生这个特殊的群体。因此,建立一套适用于大学生的信用评估体系,选择合适的信用指标,对繁荣的互联网市场确定信用良好的学生等方面具有重要的意义。
在美国,每个人都有非常完善的个人资信档案。信用卡的每笔消费、透支、偿还等都非常详细的记录在了个人资信档案中。1943 年,Edward F Gee提出了现今大家所熟悉的5C原则,即品格、能力、资本、抵押品和周期形势。二十世纪七十年代,Paul H.Hunnm根据5C原则提出了5P原则,分别是借贷人、资金用途、还款来源、债权保障、授信展望等5 方面[1]。借鉴国外个人信用评估的指标,我国也在逐步建立适用于我国国情的信用指标体系。黄大玉等将每个人的资信评定分成品质体系和资本实力体系两个体系,并且采用“单独量化、分别评定、互相制约”的方法评分,以避免混淆品质和资本实力的目的[2]。王军等人根据年龄、学历、职业等设立了十五个指标用于全面评价个人资信,测算贷款人的还款能力、信用额度等。在以上的评估体系中,婚姻状况、职业与职务、住房情况、工作稳定性、月收入等都是影响个人信用的指标[3]。然而这些指标并不适用于大学生。研究高校学生的信用评估模型,选择适用于学生的信用指标是非常重要的。
本文利用在校学生的图书馆记录、消费记录、学习成绩等数据,使用特征分组和遗传算法相结合的方式作特征选择,选择出适用于学生信用模型的学生信用指标。
1 特征选择算法
在特征选择算法中,按照搜索特征子集的策略,可以分为完全搜索、启发式搜索、随机搜索三种方式。其中随机搜索是完全搜索和启发式搜索的折中,能够在相对较短的时间内找出接近全局最优的特征子集,是一种比较有效的特征选择方法。遗传算法是随机搜索算法中的一个典型算法,目前已经在机器学习、信号处理、经济预测等领域都取得了非常显著的成果。因此,在本文中也将选用遗传算法作为特征选择的方法。但是遗传算法对于特征多的大规模数据库的效率也比较低,本文提出了特征分组与遗传算法结合的方法。在本文中,特征选择的过程如图1 所示。
2 特征选择过程及结果
2.1 数据处理
随着学校信息化和数字化的发展,学校数据库里包含了大量与学生的生活、学习相关的数据。在国外,很多国家都已经把图书是否超期作为信用的一部分。学校的数据库中也详细记录了每个学生在图书馆借阅的情况,因此,本文中将利用图书馆的逾期记录进行建模。
从某高校的数据库中随机选择了4000 个学生数据,其中2000 个作为训练样本,另外2000 个作为测试样本。这些数据包括学生在学校中的图书馆借阅记录、图书馆门禁记录、消费记录及学习成绩等,如表1 所示。
根据表1 所得的数据,可以衍生出很多衍生变量。整合原始变量和衍生变量的到一张变量表,通过观察表中的数据内容,剔除对建模没有意义的变量,得到与原始变量相关的七十五个特征变量。本文将从得到的七十五个特征变量中选择出评价大学生信用的特征变量。
2.2 特征分组方法
本文使用变量聚类的方法进行特征分组。变量聚类是通过分析变量间的关系来对变量作出分类,以达到对变量进行归纳和整理的目的。变量聚类一般根据相关阵或协方差阵对变量进行分类聚类,类的选择则是根据主成分分析的思想,使每一类的第一主成分所解释的方差达到最大[4]。
在SAS软件中,可以使用proc varclus过程直接进行变量聚类过程,将变量分成指定的组数。本文中,利用proc vaclus将特征分为四组,每组有十几到二十几个变量。
2.3 遗传算法
2.3.1 编码及初始种群设计
遗传算法只能处理表示成由基因组成的个体的数据。在本次特征选择中,是否违约是一个二值问题,因此采用二进制编码的方法,每个染色体对应一个特征子集。设在特征组中有n个特征,则染色体十一个长度为n的{0,1} 字串,如果基因为1,表示该基因对应的特征被选中,如果为0 则表示该基因对应的特征没有被选中。随机产生k个长度为n的{0,1} 字符串作为初始种群。
2.3.2 适应度函数的设计
适应度函数是评价群体中每个个体适应度的函数。如果个体的适应度函数值比较大,说明它具有的优良基因比较多,那么它遗传到下一代的可能性就比较大;如果个体的适应度函数值比较小,说明它具有的优良基因比较少,那么它遗传到下一代的可能性就比较小。因此,适应度函数的设计非常重要。
本次特征选择的目的是找出与学生信用相关的特征变量,成功将学生根据信用好坏分类。因此,在本次适应度函数的设计中,根据分类准确率进行设计适应度函数。分类准确率高的特征子集遗传到下一代的可能性大。
逻辑回归在二值分类的预测中具有非常广泛的作用,而且稳定性非常好,在本次适应度函数的设计中,以分类的准确率作为适应度函数值。
在本文中,样本只有违约和没有违约两类,对于染色体个体,所选取的特征个数为n个。首先采用辑回归算法对个体选取的特征进行逻辑回归分析,得到参数估计中各个特征的系数,然后将得到的系数代入到线性回归函数中,根据线性函数值计算出大学生违约的概率,并且根据违约概率预测是否违约,最后根据实际情况与预测结果计算该模型的准确率。
2.3.3 遗传算子
(1)选择算子
在本次遗传算法进行的过程中,选用最佳个体保存方法。与其它选择方法相比,最佳个体保存方法可以保证进化中某一代的最优解不被交叉和变异。在本文中,选择算子的步骤是:在交叉或者变异生成的新个体与上一代个体放在一起,对分类准确率进行排序,根据种群中的个体数保留分类准确率高的个体。
(2)交叉算子
在本次遗传算法中,采用的是一点交叉的算法。一点交叉的步骤是,从上一代中随机选择两个个体,随机指定交叉点,生成两个新的个体。
由于采用特征分组的方法,所以在每组个体的特征大约为十几到二十左右,相对比较少。
而且一点交叉比较成熟,使用简单,更容易的生成新的个体。
(3)变异算子
在本次遗传算法的变异过程中,首先按照变异概率选择需要变异的个体,然后在选出的个体中随机选择变异的基因,从0 变成1 或者从1 变成0,实现基因的变异。
2.3.4 终止条件的设计
在随机搜索算法中,终止条件一般设为一定的循环次数。在本次遗传算法的试验过程中,为遗传过程设置一定的代数,当遗传进行到该代之后停止。
2.4 实验及结论
在特征分组及遗传算法选择之后,得到各组变量的优化子集。将各组子集整合到一个变量集中,然后所得到的特征变量集利用遗传算法进行最后的优化,得出最优子集,该子集中的特征可以用于高校学生中的信用评估体系建设,如表2 所示。
在训练样本中,根据特征子集进行信用评估后得到的结果的准确率为94.5%,将得出的特征子集应用到测试样本中进行测试,结果的准确率为93.5%。从这些数据可以看出,选择出的特征子集应用于训练样本和测试样本时的分类准确率相差不大,说明该特征子集的选择比较好。
3 总结
本文为顺应互联网金融在高校校园中的发展,通过分析高校学生的学习成绩、消费记录及图书馆相关记录,为判断高校学生的信用状况选择合适的特征子集。首先,进行数据预处理,形成原始特征空间。然后,使用变量聚类的方法给变量分组,通过遗传算法找出各组中的最优子集。最后,整合各组最优子集,再次使用遗传算法找出最优子集。
根据该特征子集,采用逻辑回归算法,对学生的信用状况进行分析,可以看出该特征子集具有一定的准确性,可以作为高校学生信用评估模型中的特征变量,为高校学生信用评估模型的建立提供了一定的参考价值。但是,选择出的特征变量也有一定的不足。学生的生活、学习中不止有本文中用到的数据,还有其他可能与信用强相关的数据。另外,本次分析只选用了一部分学生数据,学生数据是在不断更新的,所以特征子集也可能需要不断的调整。
摘要:随着互联网金融的发展,消费信贷已经走入高校学生的生活中。本文在高校学生消费信用数据缺失的情况下,根据学生在学校中的图书馆借阅记录、图书馆门禁记录、一卡通消费记录以及学习成绩等数据进行分析,为高校学生信用模型的建立筛选相关特征变量。本文中采用特征分组与遗传算法相结合的方法,筛选出了与学生信用相关性最大的特征变量,为高校学生征信提供了重要的参考价值。
关键词:相关分析,遗传算法,信用
参考文献
[1]李大伟,个人信用评分与信用卡风险控制研究[D].长春,吉林大学,2006
[2]黄大玉,王玉东.论建立中国的个人信用制度[J].金融论坛.2000,(3):27-31.
[3]康世瀛.个人信用评估及贷款决策研究[J].经济问题探索.2002,(9):108-112.
[4]杨池然.SAS开发经典案例解析[M].北京:机械工业出版社,2010.
选择性特征 篇2
选择适合你风险承受能力的技术
一旦你了解了你需要的机器学习的算法类型,最后一步就是评估和选择符合你特定需求的技术。你可能会倾向于使用最富有特色的方法,但这可能会导致组织风险承受能力的不匹配。我看到一些大的、成熟的组织从一些灵活的小公司中选择软件,类似于小公司和IBM这样的大公司。每一次,都在合同的墨水还没干涸之前就出现了问题。
所以,你最好和一个与你的整体策略、理念和风险承受能力在一个等级的供应商合作。领域的变化非常快,一个纯技术的决定是相当短见的。你要有一个能以类似的速度成长和适应的伙伴,这样就不存在任何期望的不匹配。除了技术,还需根据以下几个方面进行评估:
选择性特征 篇3
摘要:针对支持向量机在分类过程中的特征选择问题,提出了一种改进的遗传算法。在演化进程中运用Meteopolis准则通过合理选群来防止进化陷入局部极值区域。最后针对ucI数据库中的数据,通过将该算法与其他几种方法进行了比较,证明了本文算法具有较优的特征选择效果,并已成功应用在基于支持向量机的数字电路板故障诊断中。
关键词:支持向量机;互敏感度信息量;独立敏感度信息量;自适应变异率;Meteopolis准则
引言
支持向量机是一种在统计学习理论的基础上发展而来的机器学习方法,通过学习类别之间分界面附近的精确信息,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以使类与类之间的间隔最大化,因而有较好的泛化性能和较高的分类准确率。由于支持向量机具有小样本、非线性、高维数、避免局部最小点以及过学习现象等优点,所以被广泛运用于故障诊断、图像识别、回归预测等领域。但是如果缺少了对样本进行有效地特征选择,支持向量机在分类时往往会出现训练时间过长以及较低的分类准确率,这恰恰是由于支持向量机无法利用混乱的样本分类信息而引起的,因此特征选择是分类问题中的一个重要环节。特征选择的任务是从原始的特征集合中去除对分类无用的冗余特征以及那些具有相似分类信息的重复特征,因而可以有效降低特征维数,缩短训练时间,提高分类准确率。
目前特征选择的方法主要有主成分分析法、最大熵原理、粗糙集理论等。然而由于这些方法主要依据繁复的数学理论,在计算过程中可能存在求导和函数连续性等客观限定条件,在必要时还需要设定用来指导寻优搜索方向的搜索规则。遗传算法作为一种鲁棒性极强的智能识别方法,直接对寻优对象进行操作,不存在特定数学条件的限定,具有极好的全局寻优能力和并行性;而由于遗传算法采用概率化的寻优方法,所以在自动搜索的过程中可以自主获取与寻优有关的线索,并在加以学习之后可以自适应地调整搜索方向,不需要确定搜索的规则。因此遗传算法被广泛应用在知识发现、组合优化、机器学习、信号处理、自适应控制和人工生命等领域。
基于改进遗传算法的特征选择
遗传算法是一种新近发展起来的搜索最优化算法。遗传算法从任意一个的初始生物种群开始,通过随机的选择、交叉和变异操作,产生一群拥有更适应自然界的新个体的新一代种群,使得种群的进化趋势向着最,优的方向发展。图1中所示的是标准的遗传算法的流程框图。
传统的遗传算法存在早熟收敛、非全局收敛以及后期收敛速度慢的缺点,为此本文提出了一种能够在进化过程中自适应调节变异率,以及利用模拟退火防止早熟的改进遗传算法,同时该算法利用敏感度信息可以有效地控制遗传操作。图2是改进遗传算法的流程框图。
染色体编码和适应度函数
所谓编码是指将问题的解空间转换成遗传算法所能处理的搜索空间。在特征选择问题中,常常使用二进制的编码形式,使得每个二进制就是一个染色体,其位数长度等于特征的个数。每一位代表一个特征,每位上的1表示选中该特征,0则表示不选中。每一代种群都由若干个染色体组成。
适应度函数是整个遗传算法中极为重要的部分,好的适应度函数能使染色体进化到最优个体,它决定了在整个寻优过程中是否能够合理地协调好过早收敛和过慢结束这对矛盾。由于本文针对的是支持向量机的特征选择问题,所以考虑以分类正确率和未选择的特征个数这两个参数作为函数的自变量。将分类正确率作为主要衡量标准,未选择的特征个数为次要标准。由此建立以下的适应度函数:式中c为分类正确率。为未选择的特征个数,a是调节系数,用来平衡分类正确率和未选择的特征个数对适应度函数的影响程度,同时该系数也体现了用最少的特征得到较大分类正确率的原则,在本文中a取0.00077。由上式可知,分类正确率越高,未选的特征个数越多,染色体的适应度就越大。
选择操作
选择操作需要按照一定的规则从原有的种群中选择部分优秀个体用来交叉和变异。选择原则建立在对个体适应度进行评价的基础上,目的是避免基因损失,提高全局收敛性和计算效率。本文首先将整个种群中最优的前40%的个体保留下来,以确保有足够的优良个体进入下一代,对剩下的60%的个体采用轮盘算法进行选择,这样做可以弥补保留前40%个体而带来的局部最优解不易被淘汰的不利影响,有利于保持种群的多样性。
基于敏感度信息量的交叉、变异操作
独立敏感度信息量Q(i)指的是对在所有特征都被选中时计算所得到的适应度值Allfitness以及只有特征i未被选中时计算得到的适应度值Wfitness(i)按式(2)进行计算得到的数值。独立敏感度信息量刻画了适应度对特征是否被选择的敏感程度。
互敏感度信息量R(i,j)由(3)式可得,互敏感度信息量体现了特征与特征之间对适应度的近似影响程度。
交叉操作的作用是通过交换两个染色体之间的若干位从而生成含有部分原始优良基因的新个体。由式(3)可知互敏感度信息量可作为不同特征之间含有相似分类信息的一种度量,所以可以将互敏感度信息量代入式(4)计算出染色体在第一位发生交叉的几率β(j),在式(4)中i和j分别代表特征和特征j,是染色体的长度。β(i)是特征,相对于其他所有特征在互敏感度信息量上的归一量,反映了特征与其余特征在相似信息量上的总和。由此对应到染色体上,β(i)就可以认为是染色体的第i位与整个染色体在基因信息上的相关性,β(i)越小则说明相关性越大,第i位与整个染色体所含的基因信息越接近,此位为分裂点的几率越小。由于β(i)是归一化量,故可采用轮盘算法来选择一个交叉点。
变异操作是引入新物种的重要手段,可以有效地增加种群个体的多样性。本文中的变异率Pm采用相邻两代之间的最优适应度增幅比作为自变量进行自适应调节,如式(5)所示。当适应度增幅比正向增大时,较小的增幅比可以使变异率维持在中等水平,并且变异率随着增幅比的增大而缓慢降低,这样既能够拥有一定数量的新个体也可以抑制过多不良染色体的产生,保证优秀染色体的进化足够稳定;而当适应度增幅比反向增大时,由较小增幅比则可以获得较高的变异率。并且变异率也伴随增幅比同比缓慢升高,确保有足够的染色体发生变异,稳定地加快进化速度。式中dis指新生种群的最优适应度相对于原种群的最优适应度的增幅比,尚k均是区间(0,1)上的调节系数。文中的j与k分别取0.65和0.055。
独立敏感度信息量在一定程度上体现了单个特征所含有的分类信息量,如果独立敏感度信息量小,则说
明该特征所含信息大部分对分类没有帮助,即该基因位发生突变后对整个染色体的优异性影响不大,突变的概率也就相应减小。因此将独立敏感度信息量归一化后所得到的q(i)作为特征i被选为变异点的概率。变异点的具体选择方法为:针对一个染色体按照染色体的位数进行循环遍历,在该循环中由变异率Pm判定是否产生变异位。若需要产生变异位,则依据q(i)按照轮盘算法进行选择。
模拟退火选群
在每一轮进化完成后都需要决定进入下一轮进化的种群。如果过多地将较优种群作为父代,就会使算法过早收敛或搜索缓慢。文献中指出模拟退火算法能够以一定的概率接受劣解从而跳出局部极值区域并最终趋于全局最优解。因此可以将上文提到的最优适应度增幅比作为能量函数,运用模拟退火的Meteopolis准则来选择待进化的种群。为了使每个种群得到充分地进化,预防最优解的丢失,这里采用设置退火步长的策略来实现模拟退火选群。该策略具体为:使退火步长对同一种群作为父代的次数进行计数,一旦产生更优种群则退火步长就置零并重新计数。若退火步长累计超过一定的阈值时,就进入模拟退火选群阶段。退火步长累计到一定数量意味着原有种群的进化已经停滞,需要用模拟退火算法摆脱这种停滞状态。如果增幅比大于零,则说明新生种群优于原有种群。这时完全接受新种群进入下一轮进化:否则新生种群劣于原有种群,并以一定的概率p接受较劣的新生种群进入下一轮进化。接受概率lp由式(6)和式(7)共同决定,其中dis为增幅比,T(s)指温度参数,To和s分别是初始温度和迭代次数。
以上两式的参数要满足进化对接受概率的要求。即增幅比负增长越大,接受概率降低越迅速,但接受概率随迭代次数的增加应缓慢下降。这样做能够保证在有限的迭代次数内有一个适应度较优的新生种群进入下一轮进化,以达到减少计算量和优选待进化种群的目的。在本文中To=0.2,A=0.9,m=0.5。
实例的验证与分析
UCI数据库常用来比较各种方法的分类效果,因此可以用其验证本算法对支持向量机作用后的分类效果。文献㈨采用了UCI数据库中的German、Ionosphere和Sonar三种数据作为实验对象,为了便于与文献中所用的几种方法进行对比,本文也采用这三种数据进行实验,并按照文献中所述的比例将各类数据分成相应的训练样本和测试样本。
在种群规模为30,交叉率为0.8、起始变异率为0.1的条件下使用支持向量机作为分类器(惩罚参数为13.7,径向基核函数参数为10.6)对所选数据进行分类,表1中显示了本文算法与文献中几种算法在分类效果上的对比,表2给出了三种数据的最终选择结果。表1中共出现了四种方法:方法1:使用本文算法:方法2:使用NGA/PCA方法;方法3:使用PCA方法;方法4:使用简单遗传算法。
由于本文算法旨在用最少的特征个数最大化分类正确率,因此从表1中可以看出本文算法在特征选择个数和分类正确率上均比其他三种方法更具优势。由于NGA/PCA算法是针对简单遗传算法和主成分分析法的不足而做的改进,其性能优于简单遗传算法和主成分分析法,所以本文算法的分类效果优于NGA/PcA算法这一事实更能说明该算法可以较好地解决支持向基机的特征选择问题。
结语
通过与其他方法的比较,本文算法的分类效果得到了充分的验证,也说明了该算法具有极好的泛化能力以及在敏感度信息量地指导下遗传操作的有效性。
适应度函数的设计至关重要,它直接影响到最终结果的优劣以及算法的收敛性,所以在适应度函数的设计应考虑所解决问题的侧重点。
分类正确率的高低不仅取决于合理的特征选择,而且与支持向量机的参数优化有关。只有在合理的特征选择和参数优化的前提下,支持向量机分类器才能发挥出最佳的分类效果。
选择性特征 篇4
关键词:煤矿电力系统,漏电保护,故障选线,零序电流,特征量
0 引言
选择性漏电保护是供电系统的重要保护之一。目前,选择性漏电保护装置在供电系统中的应用效果并不理想,各种基于稳态及暂态参数的选线方法并不完全可靠,漏电保护装置拒动、误动时有发生。特别是低压供电系统,由于系统的寄生参数很小,低压选择性漏电保护装置的灵敏度很低,导致保护装置的可靠性差。所以,研究高可靠性和高灵敏度的选择性漏电保护方法,对确保供电安全和减小漏电故障的危害具有重要意义。国内外已有的漏电保护选线方法主要有基于零序功率及电流幅值、电流方向等特征的故障诊断方法[2,3,4],基于附加信号的方法[5],基于形态学或能量的方法[6],基于暂态量特征、利用小波分析等算法选线的方法[7,8,9,10,11,12]等。以上选线方法的局限性主要表现在:
(1) 由于井下供电线路故障情况多变,可能是稳定性故障或断续性故障,一些选线方法判据不具有通用性,易发生误判;
(2) 故障电流小,保护器整定困难且容易发生误动。当故障电流小于电流互感器量程下限时,信号采集困难,一些选线方法无法判断故障情况;
(3) 由于电磁干扰作用及零序回路对暂态量的放大作用,故障信号信噪比低,造成一些依赖暂态量的选线方法选线准确性低。
这些局限性严重影响了选择性漏电保护装置的性能。因此,本文提出一种基于零序电流特征量的选择性漏电保护选线方法。
1 供电系统漏电故障分析
我国供电系统大多采用变压器中性点非直接接地方式,其发生漏电故障时的等效电路如图1所示。
发生漏电故障时,由于中性点发生位移而在线路中产生零序电流,设故障点位于支路L1,则故障点流过的零序电流undefined为各支路零序电流之和,即
undefined
支路L1始端零序电流方向为由支路流向母线,大小为非故障支路零序电流之和,即
undefined
非故障支路L2和 L3始端零序电流方向为由母线流向支路,大小分别为
undefined
供电系统发生漏电故障时,各支路零序电流的方向特性是选择性漏电保护选线的重要依据。但仅基于该依据的选线方法并不可靠,如当系统较小、故障信号微弱的情况下或系统采取容性电流补偿措施时,这种方法容易发生误判。但研究故障线路不同支路间独特的零序电流逻辑关系能够为漏电选线判据的后续研究提供重要参考。
2 基于零序电流特征量的选线方法及实现
2.1 选线原理
在供电系统各支路中架设零序电流互感器Hij(i为线路序号,j为位置序号),如图1所示。则零序电流互感器二次感应电流undefined的值如表1所示。
设零序电流特征量undefined为
undefined
则各支路零序电流特征量大小如表2所示。
从表2可看出,故障线路零序电流特征量的值为正,非故障线路零序电流特征量的值为负。这是由于故障线路始端零序电流小于故障点前端零序电流,而非故障线路始端零序电流大于后段零序电流。因此,该特征量可作为漏电线路的特征表述,通过提取各线路特征量并在控制器端判断特征量的正负即可实现故障选线。
2.2 选线方法的实现
2.2.1 智能保护装置硬件结构
根据基于零序电流特征量的选线方法设计的智能保护装置结构如图2所示。
智能保护装置以AVR高速单片机ATMega128为控制核心。零序电流互感器检测电网信号,该信号经信号调理电路后进入单片机,单片机对该信号进行AD转换、数据处理后完成相应的判断,并输出控制信号。装置与远程终端的通信采用CAN总线方式。为确保供电可靠性,装置采用复式电源设计。
2.2.2 智能保护装置软件流程
智能保护装置软件采用C语言编写,程序流程如图3所示。
系统复位启动后首先进行初始化,包括内部硬件功能设定、键入参数值扫描及寄存器初值设定。主循环进行零序电流的AD转换,数据转换完毕即以数组形式存储。由于互感器和滤波电路的移相作用,需要对数组存储值进行移相修正。将修正后的零序电流值代入式(5)计算特征量,并将结果存入特征量数组。程序依据特征量判断线路是否发生故障,若未发生故障则返回,重新采集数据;若发生故障则将该线路选为故障线路,同时控制动作执行机构切断故障线路,并将故障显示在显示屏上。
3 仿真验证
采用Matlab/Simulink软件进行仿真,仿真模型如图4所示。供电系统参数:L1长14 km, L2长8 km,L3长10 km;线路采用PI模型结构;电源电压为10 kV,频率为50 Hz;线路的正序电阻为0.012 73 Ω/km,零序电阻为0.386 4 Ω/km,正序感抗为0.933 7e-5 H/km,零序感抗为4.126 47e-5 H/km,正序容抗为12.74e-9 F/km,零序容抗为7.751e-9 F/km。
故障点位于线路L1距母线7 km处,接地电阻为5 kΩ,故障起始时间为0.02 s,仿真结果如图5所示,其中虚线为线路后端零序电流波形,实线为线路首端零序电流波形。
由仿真结果可知,非故障线路后端零序电流明显小于线路首端零序电流,故障线路则相反,即非故障线路零序电流特征量的值为负,故障线路零序电流特征量的值为正,与本文分析结果一致。
4 结语
选择性特征 篇5
液体火箭发动机故障诊断中的特征选择
对表征发动机故障的原始特征,以提高故障类可分性为目的,利用信息论中互信息的.理论,采用贪婪算法,去除原始特征中不利于所设计分类器的特征,得到最有利于分类的子特征集.采用子特征集对故障进行分类,得到了较理想的结果.
作 者:刘冰 张育林 Liu Bing Zhang Yulin 作者单位:国防科技大学航天技术系,长沙,410073刊 名:推进技术 ISTIC EI PKU英文刊名:JOURNAL OF PROPULSION TECHNOLOGY年,卷(期):“”(2)分类号:V430关键词:液体推进剂火箭发动机 发动机故障 故障诊断 特征选择
选择性特征 篇6
摘 要 会计计量属性是会计计量的组成部分之一,它是被量化描述的客体的特征或外在表现形式。随着经济的迅速发展,会计信息需求的多元化,选择何种计量属性,从而形成能够达到会计目标的计量模式,是会计改革过程中需要研究和探讨的重要问题。因此,本文从会计信息质量特征方面对计量属性的选择进行了探讨,认为在准则制定层次,首先要考虑相关性,其次要考虑可靠性;而在报告编制层次,着重考虑可靠性。在具体选择时,必须考虑计量对象的特点,及两个主要信息质量特征的配合。
关键词 会计信息质量 会计计量属性 可靠性 相关性
会计信息的相关性和可靠性是两条最主要的质量特征。会计信息的可靠性是面向过去的质量要求,而相关性是服务于投资者经济决策、面向未来的质量要求。两者共同为会计信息的有用性服务,必须兼顾。但很多情况下,它们又存在着此消彼长的矛盾。所以我们必须在信息的可靠性和相关性之间进行权衡,但这又对会计计量属性的选择有着很大的影响。
一、可靠性与相关性的涵义及相互关系
(一)会计信息的可靠性
本质上,会计是一个信息系统,葛家澍教授指出,会计的基本职能“是反映企业的经济真实,是可靠记录并报告企业经济活动(主要是财务活动)的历史”。直观地说,可靠性就是客观真实。但随着经济活动的日益多样化和复杂化,尽管会计只能确认“过去的交易”,同时也就不可避免地存在着估计和判断因素。因此,在客观真实既定的条件下,可靠性更取决于“确定性”的程度。会计上的“确定性”是指交易的经济性质的确定性和交易金额的确定性,即确认和计量的确定性。可以说,会计信息的可靠性要求会计的确认和计量需用具备确定性的特征,尽管会计所面临的环境和经济事项是不确定的,但财务报表确认和计量的结果应当是确定的。当面临不确定性时,会计确认和计量只能选择更为确定的结果,以通过增强确定性来提高可靠性。
(二)会计信息的相关性
按照美国财务会计概念框架,相关性的具体要求包括预测价值、反馈价值和及时性。由于资本市场强调预期,投资者总是期望企业更早更快地确认并披露与其投资相关的信息,包括会计信息和非会计信息。但财务会计只能在一个公认的原则范围内提供力所能及的信息,于是“表外披露”成为相关会计信息的一个重要内容,如分部报告、盈利预测报告以及管理层的分析与讨论等。换言之,当前会计在提高其信息的相关性方面,主要体现在表外信息上。那么表内信息出现什么问题了?美国会计学会的会计和审计质量委员会曾发表研究报告,指出了现行财务报表存在的不完整性,其中直接指出表内信息的计量问题,提倡采用公允价值。所以,要想使增强相关性的会计信息更多地纳入财务报表表内进行确认,会计的确认和计量必须取得长足的突破,而确认问题的解决则有赖于计量问题的解决。
(三)可靠性与相关性的关系
会计信息的可靠性和相关性是两个最主要的质量特征,相关性越大,可靠性越高,越符合使用者的需要。它们都是从信息使用者的角度提出的。相关性回答信息使用者需要什么信息,而可靠性使信息使用者能对会计信息充分信任而放心使用。如果其中之一完会缺失,则该信息毫无用处。然而,会计信息的相关性和可靠性常常又是矛盾的。为了加强相关性,需要扩大会计反映的范围,如在财务报告中披露自创商誉、衍生金融工具、人力资源等会计信息,而这必然要改变传统的历史成本计量方法,从而使可靠性有所削弱;反之,为了提高可靠性,则削弱了相关性。
总之,在实际经济环境中,在很多情况下,会计信息的可靠性与相关性存在着此消彼长的矛盾,如何取舍一直是会计信息面临的两难问题。
二、不同层次计量属性的选择
西方会计概念框架凡提到相关性和可靠性,总认为它们是两个并重的信息质量特征。实际上,处于不同层次的计量属性对相关性和可靠性的侧重点是不同的。
(一)准则制定层次
为了在另一个层次产生对决策有用的信息,报表中要素及其所属项目,在报表中应按概念框架设置的要素侧重按相关性选择所属报表项目。在这一层次,由于尚未对要素及其所属项目计量,一般不涉及可靠与否的问题,即只是信息的定性选择。但这也必须考虑可靠性。预计认定它是相关的项目,应能可靠。计量预计无法计量与不能可靠计量的项目,即使具有相关性,应在这一层次排除,如人力资产、自创商誉等。这就是说,在准则制定层次,主要选择应予计量的属性。这首先考虑的是相关性,其次才是可靠性。而可靠性的考虑是为选择相关性项目服务的。
(二)财务报告编制层次
由于表内要素及其所属项目,表外附注及法定披露以及应予应用的计量属性,已由准则制定层次通过会计选择做出了规定,财务报告的编报者着重考虑的应是可靠性,即按中立性的要求,如实反映意欲反映上述内容。凡属过去引起的差错,应在发现后立即更正,而故意弄虚作假的,则必须在审计发现后予以披露,依法进行必要的惩处。如果在第一次已选择了相关的项目和计量属性,则在第二层次正确应用计量属性如实反映了意欲反映的表内项目、表外附注和法定披露,那么,信息就既保证相关性,又保证可靠性,从而对决策产生有用性。或者说,一个有用的信息应当是如实反映的相关信息。
三、结束语
在我国目前的会计实务中, 货币资金、债权债务等往来款项、负债、净资产等主要是历史成本属性计量;存货、固定资产、无形资产以可变现净值作为参考计量;而交易性金融资产、具有商业实质的非货币性资产置换、债务重组等具体业务中以公允价值属性计量。可见,资产计量属性的选择受会计信息质量特征等因素的约束,不论从经济学还是会计学的角度看,资产计量难以全部采用价值计量,成本计量有其存在的必要性。随着社会经济的发展、计量技术手段的不断提高,多种会计计量属性将更合理地并存,必将更好地满足会计“决策有用”与“受托责任”的双重目标。
参考文献:
[1]李玉海.会计计量属性问题的探讨.辽东学院学报.2005(6).
[2]葛家澍.会计信息质量特征与会计计量属性的选择.2007(6).
油气行业特征与会计方法选择 篇7
我国油气生产企业会计与我国整体会计核算制度发展的轨迹大体吻合, 大体可以分为以下四个阶段:
(一) 石油工业发展初期的油气会计 (1949-1959年)
从新中国成立初至1959年9月26日发现大庆油田的整整十年, 我国形成了较为完善的计划经济体制。
(二) 石油工业大规模发展与油气会计发展 (1960-1979年)
这一时期的油气会计, 也称为石油大会战时期的油气会计, 特色有:1.增加油田维护费项目, 在油气开采成本中单独列支。2.在资产折旧会计政策采用加速折旧, 提高了石油企业内部资金的筹措能力。3.会计管理体制采用集中管理办法。
(三) 石油工业体制改革与油气会计的完善 (1980-1993年)
进入20世纪80年代后, 我国原油产量处于徘徊状态, 该时期, 国家进行了承包制改革。
(四) 油气会计的国际趋同 (1993年至今)
2000年中国石油与中国石化在美国和香港国际资本市场上市, 中国海洋石油公司于2001年在美国与香港资本市场上市, 标志着我国三大石油公司已按照国际要求的资本运作模式及财务模式进行整改。
二、油气行业特点与会计方法选择
(一) 油气行业特点
油气资源属于不可再生自然资源, 在开采生产过程中会遵循自然规律—高产、稳产、产量递减和资源枯竭。1.油气会计政策的制定及选择范围较一般企业具有宽泛性;油气井及矿区的废弃后的处置, 使油气会计政策内容更为丰富。2.油气生产经营具有高风险性。而油气跨国经营中所在国的政治局势的不确定性和油气产品价格的波动性也加剧了该行业的风险。3.石油天然气是技术、资金密集型行业, 油气会计政策的选择对财务报表的影响不可小觑。4.油气生产经营的上、下游活动都涉及会计问题。但油气生产经营阶段经常重叠, 使会计政策的选择和运用更具复杂性。
(二) 成果法与完全成本法
油气会计资产计量方法分为两种—成果法 (Successful Efforts Method) 和完全成本法 (Full Cost Method) 。
成果法也叫成功努力法, 强调收入与费用的配比。与探明储量相关的成本费用才可以资本化, 再予以折旧、摊销, 计入采出的油气成本中;完全成本法也叫全部成本法, 油气生产过程中所有成本费用发生时都予以资本化, 再予以折旧、摊销计入已采出的油气生产成本中。
成果法与完全成本法存在着明显的差异:
1. 处理结果的差异。采用完全成本法的公司, 油气资产账面价值较高;采用成果法, 资产账面价值较低。
2. 成果法与完全成本法的优缺点, 见表1。
两种会计政策各有利弊, 在很多国家都同时实行而没有被相互取代。
三、我国油气会计政策问题改进与建议
会计政策本质上是一项技术性经济政策而不是实体性经济政策。因此, 会计准则的制定过程是一个政治过程, 必须服从和服务于国家经济发展政策。我国油气企业会计政策的国内外可比性还存在着一定的差距。
(一) 对油气会计资产计价方法选择缺少必要的弹性
完全成本法与成果法并不是非此即彼的关系。完全成本法更能体现企业的拓展精神, 减少企业境外上市的财务报表转换成本。
(二) 对油气资产的废弃及环境恢复未按国际惯例进行
按照国际惯例, 需要计提准备金, 否则在发生时会造成利润的巨大波动。而我国三大石油公司中, 只有中海石油有这方面的会计政策, 其他两大公司尚未提取清理准备金, 并且在会计处理上比照固定资产进行。
由于油气企业雄厚的资本实力和巨大的组织规模, 使其借助政治势力干预会计准则的制定、影响国家政策导向的能力非常大。因此, 在我国会计准则的进一步国际趋同和等效上, 三大石油公司应该走在其他公司的前面, 做我国会计准则国际等效的先锋, 为我国全面实现会计的趋同和等效提供经验。
参考文献
[1]龚光明.石油和天然气资产会计论.石油工业出版社, 2002年版.
[2]石油大学经济管理系泽.采掘业会计问题文本, 国际会计准则委员会采掘业筹划委员会2000年11月发布.
[3]赵选民.石油上市公司会计政策研究.北京, 中国社会科学出版社, 2009年3月版.
[4]刘永泽.石油和天然气会计问题研究.中国财政经济出版社, 2002年版.
[5]企业会计准则第27号—石油和天然气开采.2006年2月颁布.财政部网站http://www.mof.gov.cn/index.htm.
[6]吴杰, 孙秀娟.美国石油和天然气会计准则的发展历史及启示.会计研究, 2001年8月.
文本分类中特征选择方法研究 篇8
近年来,文本分类方法在机器学习的推动下迅猛发展。研究过程中我们发现特征空间的高维性以及文本表示向量的稀疏性始终是文本分类问题中的最大难点之一。在空间向量模型中,通常采用词语作为特征向量,这样,出现在文档中的所有词语就组成了原始的特征空间,然而,一个中等规模的语料库就可能包含有上百万条不同词语。对于分类算法来说,这样的高维空间计算量是十分巨大的。因此,希望在不降低分类精度的前提下寻求一种特征降维方式来降低空间维数,提高分类器效率。特征选择与特征抽取是特征降维中的主要方法,本文将就特征选择的不同方法进行研究。
1 特征选择方法
1.1 互信息(Mutual Information,MI)[1,2]
追溯起来,互信息这个概念来源于信息论,用于度量一个消息中两个信号之间的相互依赖程度。现在,互信息已经被广泛应用于相关词统计语言模型中,在文本分类中它主要用于衡量词条t与类别Cj之间的统计关联程度。计算公式如下:
其中,P(tCj)表示为词t在类别Cj出现的概率,P(t)表示词条t在整个训练文档中出现的概率,MI(Cj,t)表示词条t在类别Cj的互信息。在实际计算中,这些概率可以用语料库中相应出现的概率来表示。互信息的近似计算公式为:
undefined
其中,N为语料库中所包含的总文档数,A表示词条t且属于类别Cj的文档频率,B表示为包含词条t但是不属于类别Cj的文档频率,C表示属于类别Cj但是不含词条t的文档频率。
值得一提的是,互信息计算虽然比较简单,但是它互略了特征词的词频信息,偏向于低频词,这就造成了它在一些实验中的低效。
1.2 信息增益(Information Gain,IG)[1,2]
信息增益亦是来源于信息论的一个重要概念。在文本分类中,它表示了某个特征项的存在与否对类别预测的影响。信息增益的计算公式如下:
其中,Cj为第j类文档集合,j=1,2,3,…,m,m为类别数。undefined表示特征词t不出现。P(Cj)表示Cj类文档在语料库中出现的概率,P(t)表示语料库中包含特征词t的文档频率,P(Cjt)表示文档包含特征词t时属于Cj类的条件概率,P(undefined)表示语料库中不包含特征词t的文档频率,P(Cjundefined)表示文档不包含特征词t时属于Cj类的条件概率。
特征项的信息增益值越大,对分类越重要,因此在进行特征选择时,通常选取信息增益值大的若干个特征词构造文本的特征向量。信息增益的不足之处在于它考虑了特征词不出现的情况,虽然某个特征词不出现也可能对判断文档类别有一定的贡献,但实验说明,这种贡献往往小于考虑特征不出现情况带来的干扰。另外,由于考虑因素比较多,信息增益的计算量也相应较大。
1.3 x2统计(CHI)[1,2]
x2统计(CHI)度量词条与文档类别之间的相关程度,并假设词条与类别之间符合具有一阶自由度的x2分布。在实际中,经常采用它的近似公式,令A表示属于Cj类且包含词条t的文档频率,B表示不属于Cj类但包含词条t的文档频率,C表示属于Cj类但不包含词条t的文档频率,D表示既不属于Cj类也不包含t的文档频率,则有:
undefined
由公式可以看出,x2统计值越大的特征项与类别之间的独立性就越小,对分类的贡献就越大。
1.4 期望交叉熵(Expected Cross Entropy)[3]
期望交叉熵与信息增益很相似,不同之处在于,期望交叉熵只考虑特征在文本中发生的情况,而信息增益同时考虑了特征在文本中发生与不发生两种情况。对于特征t,其期望交叉熵记为CE(t),计算公式如下:
在只考虑单个类的时候,则有:
2 实验测试及分析
本文选用的中文文本分类语料库来自于中文自然语言处理平台,该语料库共分为十大类,包括环境、交通、计算机、经济、军事、艺术、政治、医药、体育、教育,从中随机选取了1882篇文档作为训练集,934篇文档作为测试集。训练文本和测试文本文档分布如表1所示。
目前,KNN是VSM(向量空间模型)下最好的分类算法之一[4],该算法的基本思路为:给定待分类文本后,寻找训练样本集中与待分类文本最相似(或距离最小)的k篇文本,然后根据这k篇文本所属的类别判定待分类文本所属的类别。KNN分类的一个重要参数就是k值大小的选定,一般凭借经验来取值。
综合以上,在本实验中,选用了KNN分类器进行分类,且k值取35,对上述四种不同的特征选择方法进行了文本分类测试,对应的分类精度比较如表2所示。
显而易见,实验数据表明互信息的分类效果最差,x2统计、信息增益、交叉熵的分类效果较好。在实验中,当特征空间维数为1000时,互信息抽取的特征词基本上都是文档频率为1的词条,且许多词条互信息量完全相同,同一分值的词条可能有上百条,而训练集中文档频率为1的词条远超过1000个。因此,在进行特征选择的时候,只能随机的删除那些打分与前面相同但是靠后的词条。由于有些类别中的大多数文本的向量中含有几个属性,在分类过程中,会导致有些文档无法识别。例如,选取互信息作为特征选择方法的时候,发现934个测试文档中有2个文档无法进行分类。
3 互信息修正方法讨论
由实验可知,特征选择方法选用互信息的时候,分类效率极低,若不对互信息作任何的修正,在中文文本分类中使用的价值并不是很高。对互信息的修正有以下两种方法:
第一,增加特征空间的维数,以提取足够多的特征信息,但是这样就会带来了时间和空间上的额外开销,不是一种很实用的修正方法。
第二,从互信息函数的定义可以看出,互信息认为低频词携带着较为强烈的类别信息,从而对它们有不同程度的倚重。当训练语料库的规模比较小的时候,特征空间中必然会存在大量的出现文档频率很低的词条,他们较低的文档频率导致了他们必然只属于少数类别,但是从抽取出来的特征词观察发现,大多数为生僻词,很少一部分确实带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词。因此通过减小互信息对低频词的倚重来修正互信息是种有效的方法。
4 结束语
互信息的不足导致了互信息在中文文本分类中的低效率,而对于互信息的进一步修正仍需要更深入地研究,仍需要继续在修正互信息方面努力,寻求一种效率比较高的修正方案。
参考文献
[1]秦进,陈笑蓉,汪家维,等.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-47.
[2]刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30:14-15.
[3]Mlademnic D,Grobelnik M.Feature Selectionfor unbalanced class dis-tribution and Nave Bayees[C].Proceedings of the SixteenthInternation-al Conference on Machine Learning.Bled:Morgan Kaufmann,1999:258-267.
稀疏表示保持的鉴别特征选择算法 篇9
特征选择[1]用于从高维特征空间中选择特征子集,并保持特征子集的原始物理特性,根据使用类别标签与否,特征选择算法可分为非监督和监督两种,本文主要研究监督特征选择算法。经典的监督特征选择算法包括Relief F[2],Fisher Score[3]以及多簇 特征选择(Multi-Cluster Feature Selection,MCFS)[4]等,它们通过特征和类别标签之间的相关性来度量特征的重要性,但是大多数传统特征选择算法对每个特征的度量是独立进行的[3,5],并且将特征逐个添加至所选特征子空间,这种选择方式的局限性在于特征之间的相关性被忽略[4]。最近,l2,1范数正则化优化已经应用到特征选择算法,此类算法通过对特征选择矩阵进行l2,1范数最小化约束来选择特征[6,7]。
与此同时,稀疏表示作为一种基于部分数据的表示,已经吸引了越来越多的关注,并已广泛应用于模式识别和机器学习领域[8]。稀疏表示方法假设一个超完备字典中样本的稀疏线性组合可以重构一个给定的样本,例如Wright等提出的 基于稀疏 表示的分 类方法[9](Sparse Representation-based Classification,SRC),该方法的优化问题惩罚线性组合系数的l1范数,SRC尝试使用所有训练样本的稀疏线性组合来表示一个给定的测试样本,并且认为稀疏非零表示系数集中在测试样本的同类训练样本上。受到SRC的启发,很多基于稀疏表示的特征抽取算法出现,例如文献[10-11]提出的稀疏表示分类器引导的监督特征抽取算法,该算法旨在减少类内重构残差,并与此同时增加类间重构残差,但二者在目标函数的形式上有所不同,文献[10]采用比值方式文献[11]采用差值方式。与特征选择算法不同,特征抽取将原始特征进行转换从而实现数据降维,特征的原始物理特性发生变化。回顾经典的监督特征选择算法,却不存在与SRC直接关联的,本文提出了一种稀疏表示保持的鉴别特征选择(SRPFS)算法,旨在寻找一种线性映射使得在所选特征子空间中,样本的稀疏类内重构残差足够小并且稀疏类间重构残差足够大,并用于优化提出的l2,1范数最小化的目标函数。
1 基于稀疏表示的分类方法
假设样本集为X = [x1,x2,⋯,xn]∈ Rm × n,类别数为c ,类别标签向量z = [l1,l2,⋯,ln]T,其中ln表示X中第n个样本即xn的所属类,给定一个测试样本y ∈ Rm,然后使
用以训练样本为基础向量的超完备字典表示y ,如下:
假设式(1)的系统是欠定的( m< n ),通过求解如下的优化问题可以得到最稀疏解:
然而,公式(2)中的L0优化问题是NP难题而且非常耗时,最近的研究理论[12,13]表明式(2)也可以通过寻找以下优化问题的解决办法进行求解:
该优化问题可以在多项式时间内通过标准线性规
划算法来解决[14],或者使用一种更高效的算法[15],然后利用式(3)中求解的稀疏表示系数向量 δ 对y进行分类,令 φk:RM→ RM(k = 1,2,⋯,c) 表示一种能够从 δ 中选择出与第k类有关的稀疏表示系数的函数[9],即 φk(δ) ,然
后计算y及其第k类原型之间的残差:
如果rl′(y) = minkrk(y) ,SRC将y分到第l′ 类。
2 稀疏表示保持的鉴别特征选择
2.1问题描述
X中除第i个样本xi后,xi所属类为li剩余n - 1个样
本记为Xi= [x1,⋯,xi - 1,xi + 1,⋯,xn]∈ Rm × {n - 1},通过解决L1
优化问题 得到xi的关于Xi的稀疏表 示系数向 量
δiw定义为xi的稀疏类内表示系数向量,该向量的非零元素与li类训练样本相关;δib定义为xi的稀疏平均类间表示系数向量,该向量的非零元素与c类中除li类的剩余c - 1类训练样本相关,即c - 1类的稀疏平均类间表示系数向量;因此,xi的稀疏类内和类间重构分别表示为:
这里的目标是寻找一种特征选择矩阵U ∈ Rm × m进而选择出m′( m′ < m )个特征,U满足的条件为:元素只有‘0’或‘1’;每行或每列中‘1’的数目不超过1;只有m′ 行或列的元素为‘1’。
通过使用U可以使用特征选择后的类内以及类间训练样本对xi进行重构,即稀疏类内重构UTXiδiw以及稀疏类间重构UTXiδib,稀疏类内类间重构残差采用F-范数进行度量,表示如下:
基于SRC决策规则,希望在所选特征子空间中样本xi尽可能接近其稀疏类内重构并同时尽可能远离其稀疏类间重构,考虑所有样本,SRPFS的目标函数定义如下:
式中:β 是一个权衡参数;1m∈ Rm是一个元素为1的向量,然而式(10)是NP难题,因此将关于U的二元约束放松到l2,1范数最小化约束[6,7],此时目标函数可以重写为:
式中:α 是一个权衡参数;.2,1表示l2,1范数,l2,1正则化
项控制U的大小并同时保证U的行稀疏性(行元素接近于0),使SRPFS为数据表示选择出最具鉴别性的特征。
2.2优化
式(11)的向量形式表示如下:
式中 : Sw= [δ1w′,δ2w′,⋯,δnw′]∈ Rn × n, Sb= [δ1b′,δb2′,⋯,δbn′]∈Rn*n,δiw′以及 δib′分别定义为:
令:
对L(U) 关于U求导,可以得到下式:
t = t + 1 ;
∂L(U)
直到收敛准则满足;输出:U 。
= 2αPU - 2XSw(XT- STwXTU) + 2βXSb(XT- SbTXTU)
∂U
(16)
2.3 L(U) 的凹性研究
式中P是一个对角矩阵,第r (r = 1,2,⋯,m) 个轴元素为Prr= 1 (2U(r,:)2)。为了求解式(12)中的U ,对L(U)关于U求导,然而很难用理论证明L(U) 是凹函数,将∂L(U) ∂U置为0,得到关于U的更新规则:
∂L(U)
对式(16)中的
关于U求导,得到下式:
∂U
∂2L(U)
= 2αP + 2XSwSTwXT- 2βXSbSbTXT
(18)
∂U2
根据凹函数的性质,式(15)中的L(U) 是凹的,当且
U ← (αP + XSwSTwXT- βXSbSbTXT)-1(XSwXT- βXSbXT)
∂2L(U)
仅当式(18)中的
是正定的,令:
∂U2
(17)
G = 2XSwSTwXT- 2βXSbSbTXT
为了得到最优U ,重复上述过程直到收敛标准满足,即|L(Ut)- L(Ut + 1)|< ε ,算法1给出了优化的详细过程描述。
(19)
因此式(18)可以重写为:
∂2L(U)
= 2αP + G
(20)
∂U2
算法1:SRPFS算法
2αP是正定的因为它是一个轴元素为正数的对角矩阵,根据正定矩阵的定义,如果G是正定的很容易证明2αP + G是正定的,然而很难直接证明G的正定性,事实上通过在实验中对参数 β 进行控制来保证G的正定性,β 的取值在实验部分给出。在假设2αP + G是正定的前提下,通过下面的定理证明目标函数在算法1中的迭代过程中的收敛性:
输入:训练数据集X = [x1,x2,⋯,xn]∈ Rm × n,类别标
签向量z = [l1,l2,⋯,ln]T
,权衡参数 α ,β ;
将特征选 择矩阵U初始化为 单位矩阵 即
U0∈{0,1}m*m,迭代次数:t = 1 ;
|
n
通过式(5)计算稀疏表示系数向量 δi|
;
|
i = 1
通过式(13)和式(14)计算Sw以及Sb;重复:更新对角矩阵Pt,即:
定理1:式(12)中的目标函数值在算法1中的迭代过程中单调减小。
1
é
ùúúúú
ê2Ut - 1(1,:)2
证明:很容易证明式(12)就是解决以下的问题:
êêêêë
Pt=
⋯
+ αTr[UTPU]
mUin X - UTXSw2
- β X - UTXSb2
1
F
F
2Ut - 1(m,:)2ûú
(21)
通过式(17)更新Ut;
相应地,在第t次迭代中有:
2
2
- βX
- (Ut + 1)TXSb
+ αTr[UTPU] ⇒X
- (Ut + 1)TXSw
Ut + 1= mUin X - UTXSw2F
- β X - UTXSb2
+
F
F
F2
2
αTréë(Ut + 1)TPtUt + 1ùûX
- (Ut)TXSw
- βX- (Ut)TXSb
+ αTré(Ut)TPtUtù
F
F
ë
û
即:
utr+ 122
utr222utr2
2
2
2
2
X
- (Ut + 1)TXSw
- βX
- (Ut + 1)TXSb
- βX- (Ut)TXSb
X- (Ut)TXSw
+ α∑
+ α∑
⇒
F
F
F
æ
F
2utr2
r
r
utr+ 122
ö÷÷ø
2
2
+ α∑utr+ 12- αçç∑utr+ 12-∑r r r
X
- (Ut + 1)TXSw
- (Ut + 1)TXSb
- βX
F
F
2utr2
è
utr222utr2
æ
ö÷÷ø
2
2
- βX- (Ut)TXSb
+ α∑utr2- αçç∑utr2-∑r r r
X
- (Ut)TXSw
F
F
è
根据[7]中的引理,对于任意非零向量u ,ut∈ Rm,下面的不等式成立:
因此,有以下不等式成立:
即:
utr22
+ α∑utr+ 12X
+ αUt + 12,1X- (Ut)TXSw
它表明式(12)中的目标函数值在算法1中的迭代过程中单调减小。
3 实验
在本节中,通过实验验证算法SRPFS的性能,首先将SRPFS与经典的监督特征选择算法进行比较,然后分析SRPFS的收敛性。
3.1实验设置
4个公共数据集:Wine[16],Breast Cancer Wisconsin(Diagnostic)[16],Connectionist Bench (Sonar,Mines vs.Rocks)[16]以及COIL20[17],Wine,Breast Cancer Wisconsin和Connectionist Bench来自标准UCI库;来自哥伦比亚图像数据库的COIL20包含20个对象,数据集的描述在表1中给出。
将SRPFS与All Features,Fisher Score,MCFS,以及Relief F进行比较,实验中为保证式(20)中G的正定性,β 在4个数据集上分别设置为10-3,10-5,10-3,10-2,使用快速 迭代收缩 阈值算法(Fast Iterative Shrinkage and Thresholding Algorithm ,FISTA)[16]求解式(5),FISTA中的规范 化参数设 置为1,α 的调整范 围为{1,10-1,10-2},对于MCFS以及Relief F邻居样本数设置为5,由于Connectionist Bench和COIL20的特征数大于50,相应的所 选特征数 分别设为 {1,2,⋯,30} ,{1,2,⋯,512} ,即最大值取数据集维度的50%。
3.2分类识别率比较
对于每个数据集,随机选择每类样本集的5种方法在4个数据集上的平均最高识别率(±std)的比较,如表2所示。选择的样本中80%做训练集,剩余样本做测试集,为了证明不同算法的可靠性,将训练集以及测试集的选择过 程重复10次 ,All Features,Fisher Score,MCFS,Relief F以及SRPFS在4个数据集上的平均最高识别率及标准差在表2中给出,可以看出所有的特征选择算法优于All Features,因此,特征选择算法有助于提高识别率,由于SRPFS中保持了样本之间的稀疏相关性,SRPFS从识别率和稳定性两方面的性能明显优于其他方法。
3.3收敛性
在本节中,通过实验证明所提出的迭代算法单调减小目标函数值,直到收敛,图1展示了式(12)中的目标函数值在4个数据集上的收敛曲线图,可以看出目标函数在数次迭代后收敛。
4 结语
在本文中,提出了一种新的监督特征选择算法,称为稀疏表示保持的鉴别特征选择(SRPFS),其目的是选择鉴别性特征子集,使得在所选特征空间中,样本的稀疏类内重构残差和稀疏类间重构残差的差值最小化。通过实验验证SRPFS的性能并与其他4种方法即All Features,Fisher Score,MCFS,以及Relief F在4个公共数据集上进行比较,实验表明SRPFS在识别率以及稳定性方面明显优于其他方法。在未来,考虑将SRPFS的思想应用到非监督特征选择算法研究中,由于不使用样本的类别标签这将是一个更大的挑战。
摘要:稀疏表示作为一种基于部分数据的表示,已经吸引了越来越多的关注,并广泛应用于模式识别和机器学习领域。提出一种新的算法,称为稀疏表示保持的鉴别特征选择(SRPFS),其目的是选择鉴别性特征子集,使得在所选特征子空间中,样本的稀疏类内重构残差和稀疏类间重构残差的差值最小化。与传统算法选择特征的独立性方式不同,该算法以批处理方式选择最具鉴别性的特征,并用于优化提出的l2,1范数最小化的目标函数。在标准UCI数据集和哥伦比亚图像数据库的实验结果表明,该算法在识别性能和稳定性方面优于其他经典特征选择算法。
选择性特征 篇10
关键词:ReliefF算法,mRMR-ReliefF算法,特征选择,差异函数,词间相关性,文本分类
0 引 言
随着现代信息化程度的提高,文本信息快速增长,为了获取有利的信息,文本分类成为信息处理的重要研究方向,而在文本分类技术中特征选择是最关键的预处理。特征选择也叫特征子集选择(FSS),是从一系列有关或无关的特征中选择出同类内强相关性、异类间弱相关性的特征,使得系统的特定指标达到最优。特征选择能够降低向量维数,减小分类计算规模,降低分类时耗,进而提高分类性能和精度。特征选择方法根据是否以分类精度作为评价函数主要分为两大类:过滤方法和封装方法[1]。其中过滤式模型中的ReliefF被公认为是性能较好的多类别数据评估算法[2]。本文对传统的ReliefF算法进行了改进,提出一种mRMR-ReliefF特征选择算法。该算法首先使用概率差值对离散特征差异进行度量,有效地衡量特征之间的差异大小,其次结合词间相关性增加了特征冗余的处理。
1 相关工作
1.1 ReliefF研究现状
ReliefF [3]是过滤式特征选择的代表算法,是1994 年由Kononenko改进Relief[4]算法解决多类以及回归问题而提出的。
由于ReliefF算法对多类别数据评估的优良性能,一直是大家研究的对象。文献[5]根据概率改进了ReliefF算法减少数据集不平衡给特征权重计算带来的影响。文献[6]根据属性共存概率的差异性度量方式改进ReliefF算法。文献[7]引入线性相关系数ρ和互信息方法解决混合属性的冗余问题。但是文献[5]只是对ReliefF算法处理之前的文本选取进行了改进,对二值法没有改进;文献[6]对二值法进行了改进,对提取的特征没有进一步的处理;文献[7]考虑了冗余的处理,对二值法没有进行改进。本文根据文献[5,6,7]的不足,提出了更适合文本分类的ReliefF改进算法。不仅依据概率求取特征值差异大小,而且在去除冗余过程中考虑了特征与特征,特征与类别的相关性,充分去除冗余特征。
1.2 ReliefF算法简介
ReliefF系列算法的重点是根据特征对近距离样本的区分能力来评估特征,其思想是好的特征使同类样本接近,而使不同类的样本相互远离。ReliefF算法评估效率高,对数据类型没有限制,可以较好地去除无关特征[8,9]。ReliefF算法[3]如式(1)所示:
式中:W[X]表示特征X的特征权值,m表示任意选择的样本实例个数,p(C)表示C(C≠class(Rs))类样本出现的概率,Rs(s≤m)表示从训练数据集中任意选择的样本实例,Hj表示在训练数据集中与R同类的k个最近邻中的第j(j≤k)个样本实例,Mj表示在训练数据集中与R不同类的k个最近邻中的第j(j≤k)个样本实例。
对于离散特征差异函数公式如式(2)所示:
对于连续特征差异函数公式如式(3)所示:
其中x代表特征;I1,I2代表数据集中不同的样本实例;value(x,I1)指样本I1中特征x的值。
1.3 ReliefF的不足
传统的ReliefF算法虽然评估效率高,但还存在着一定的不足,分析如下。
针对离散型特征而言,ReliefF算法采用二值法来度量[6]。用0来表示两种特征取值无差异,用1来表示两种特征取值不同。如表1所示。
表中a,b,c,d,e,f,g,p代表特征不同的取值;C1,C2代表不同的类别。对于特征X1,由二值法可得,I1与I2的差异性同I1与I3的差异性取值相同都为1。但是样本I1与I2是同类,在现实中值a与值d的差值明显小于值a与值f的差值。特征取值本应该体现出同类样本的差异性小于异类样本的差异性,而传统的ReliefF算法既不能表现上述差异性,又不能去除冗余特征[8]。针对这种情况,本文提出了改进特征权重与结合词间相关度的mRMR-ReliefF算法。
2 特征选择算法——mRMR-ReliefF
2.1 基于概率差值改进ReliefF算法
传统ReliefF算法单纯地认为离散特征完全没有大小的概念即纯粹是离散分布是不正确的,本文针对离散型特征差异度量上的不足,采用概率差值来代替0-1差值。通过特征概率在类内样本和类间样本中的差值大小来衡量特征有效区分类别的能力。
设PR(xi)表示任选样本集R中的第s个样本的第i个特征出现的概率,使用xi在第s个样本中出现的次数除以第s个样本中特征总次数;P(C′/xi)表示第i个特征出现时,样本R所在类出现的概率,使用出现xi并且属于C′的文档数除以出现xi的文档数:
定义1 同类差异函数diff(Px,Rs,Hj)。计算特征概率Px在任选样本Rs与同类样本k个最近邻Hj的差值,差值的大小表示特征x区分两个样本能力的大小。计算公式如式(4)所示:
其中PH(xi)表示同类样本H中第j样本的第i个特征出现的概率。
定义2 异类差异函数diff(Px,Rs,Mj(c))。计算特征概率Px在任选样本Rs与异类样本k个最近邻Mj(c)的差值,差值的大小表示特征x区分两个样本能力的大小, (C≠class(Rs)),计算公式如式(5)所示:
其中PM(xi)表示任选异类样本集M中的第j个样本的第i个特征出现的概率;P(C/xi)表示第i个特征出现时,样本M所在类出现的概率。
同类差异函数和异类差异函数所有比值都在[0,1],可得diff(Px,Rs,Hj)∈[0,1],diff(Px,Rs,Mj(c)) ∈[0,1]。
定义3 基于概率差值的ReliefF算法。依据传统ReliefF权重公式结合定义1与定义2可得到基于概率差值的ReliefF算法。公式如式(6)所示:
基于概率改进的ReliefF算法在训练样本中根据各类样本数量占总体训练样本数量的比率,选择m个样本集R,对于其中任意一个样本RS,首先找出k个与RS同类的最近邻的样本Hj,然后在每一个与RS不同类的子集中找出k个最近邻的样本Mj(C),计算样本在各个特征上的间隔,并累加起来作为特征的权值。
当一个特征较容易区分类别时,意味着(diff(Px,Rs,Hj)<diff(Px,Rs,Mj(c)))同类样本间的距离较近,而不同类样本间距离较远。因此,如果特征与分类无关,那么其权值将趋于零或者很小的数。相反,如果特征与类别存在很强的相关性,那么其权值会较高。权值为负数表示同类近邻样本距离比非同类近邻样本距离还大。ReliefF改进算法通过概率差值大小来精确地计算样本间距离,进而求取特征权重,选取对分类更有效的特征。
以表1为例。对于特征X1,由概率差值法可得,I1与I2的差异值为|a-d|,I1与I3的差异值为|a-f|。通过特征差异值|a-d|<|a-f|体现同类样本差异性小于不同类样本差异性。不仅说明样本之间有差异,更能区分同类样本与不同类样本之间的差异性大小,这是传统ReliefF算法所做不到的。改进后的算法更能体现ReliefF算法的思想,将同类样本归纳到一起,使不同类样本相互远离。
2.2 基于词间相关性的冗余处理
ReliefF算法只考虑特征与类别的相关性,而对特征之间的冗余没有给予足够的重视,为去除冗余特征,提高文本分类的精确度,本文还结合词间相关性的方法,使选择出的特征子集更大程度地代表原始特征空间。词间相关性是基于mRMR (Minimum Redundancy - Maximum Relevance)模型的特征选择方法,其主要思想是将特征词与类别间最大相关性和最小特征冗余的选择标准结合起来[11]。
定义4 最大相关性。特征Xi与类别C的相关程度由信息增益来计算,相关度体现特征对区分类别的有效性。计算公式如式(7)所示:
其中Xi表示初始特征集中第i个特征,C表示类别,Sgoal表示寻找的特征子集。I(Xi;C)计算公式如式(8)所示:
定义5 最小冗余标准。通过计算特征Xi, Xj的信息相关性来决定特征之间的冗余度,此相关性越大则特征冗余度越大。计算公式如式(9)所示:
其中Xi, Xj 表示属于 Sgoal的第i个、第j个特征。I(Xi; Xj)计算公式如式(10)所示:
定义6 mRMR模型。通过最大相关性与最小冗余标准的差值来确定特征的权重。计算公式如式(11)所示:
其中S表示ReliefF去除无关特征后的特征集,Sgoal表示寻找的特征子集。
由于信息增益是文本分类中广泛使用的效果较好的一种评估函数,所以mRMR利用信息增益来计算特征与特征、特征与类别之间的相关性,特征按最大相关与最小冗余的差值排序,选取差值大于阈值的特征作为特征子集,按式(11)逐一地选择特征词。mRMR模型的特征选择方法一方面考虑到一般评估函数的特征词与类别的最大相关性问题,另一方面又减少特征词间的冗余,充分地提高文本分类的性能。
2.3 mRMR-ReliefF算法描述
首先利用改进的ReliefF算法对原始特征集S进行处理去除无关特征得到特征集Smid,再利用mRMR模型对特征集Smid去除冗余特征,得到独立性强的Sgoal特征集,mRMR-ReliefF算法如下所述。
改进的ReliefF算法运算过程:
1) 初始化每个特征的权重即W[x]=0。
2) 计算出各个类别样本的数量,并统计特征出现的样本。根据各个样本数量占总体训练样本数量的比重为各个类别分配一个抽样比率。
3) 按抽样比率,在各类别中抽取样本形成含有m个样本的样本组。
4) S从1到m循环:
① 从样本组随机选择一个样本Rs;
② 选择RS同类的最近邻样本Hj和异类的最近邻样本Mj(C),其中C≠class(Rs);
③ 对所有特征Xi(i=1,2,…,x)分别计算并更新权重:
循环结束。
5) 根据权值大小对特征进行排序,每类中选择权值最大的前200个特征,存入特征子集Smid。
对选取特征进行词间相关度的冗余处理过程如下:
1) 分别对每类处理,从特征子集Smid中选取权重值最大的特征存入Sgoal特征子集。
2) 根据ReliefF算法第2步的统计来计算I(Xi;C),I(Xi; Xj)。
3) i从2到200
① 对特征计算冗余度:
② 当冗余计算值<0.3时将特征放入Sgoal特征子集。
4) 输出特征子集Sgoal。
ReliefF运算过程中,样本的选取对计算特征权重有一定影响,当选取的样本越全面根据权重提取的特征包含样本的信息越多。本文为了减少样本选取的影响,对训练样本进行三次抽样,对特征权重取平均值。词间相关度的运算中,冗余的阈值设置为0.3。阈值越小选取特征越少,文本信息不能完全表示;阈值过大又不能很好地去除冗余特征。不同的实验数据,计算出的相关度的数值不同,本文阈值是根据实验数据选取。
3 实验结果及分析
3.1 实验数据
实验数据选取了复旦大学中文语料库中的3006篇文本,其中2/3样本作为训练集,1/3样本作为测试集。包括文学、艺术、历史、政治、哲学、教育等6个类别。首先使用ictclas50分词包对所选文本进行分词处理,其次提取分词处理后文本中的名词、动词、形容词和量词,并去除其中的停用词和无用词,最后使用mRMR-ReliefF算法去除无关与冗余特征。使用KNN分类器对测试样本进行分类,对比传统ReliefF、改进ReliefF和mRMR-ReliefF三种特征提取算法的平均准确率、平均召回率和F1值,来验证本文算法提取有效的特征子集。
3.2 性能评测
本文采用KNN分类器进行分类,本文分类的评测指标采用文本分类评测标准中的平均准确率、平均召回率和F1值。各评价参数定义如下:
(1) 平均准确率
分类的准确率=分类正确文本/分类的实际文本数:
其中n为总的分类数,Pj为第j类的准确率。
(2) 平均召回率
分类的召回率=分类正确文本/分类应有的文本数:
其中n为总的分类数,Rj为第j类的召回率。
(3) 平均F1值
其中MacroP是平均准确率,MacroR是平均召回率。
3.3 实验结果与分析
实验中的参数设置:KNN分类过程中K取25,特征间距离采用欧氏距离进行测量,取值的确定都是根据少量测试样本对比实验后得到的。实验对比如图1、图2所示。
由图1可知,改进的RelifF算法相对于传统RelifF算法在MacroP,MacroR,MacroF1都有很大的提高。这是由于改进RelifF算法较精确计算样本中特征的权重,通过权重差值大小,来确定样本的类别。而不像RelifF只是单纯地来识别特征取值是否相同,而对差值大小没有衡量。
由图2可知,mRMR-ReliefF算法相对于改进的RelifF算法MacroP有很大提高,MacroR,MacroF1也有一定提高。这是因为mRMR-ReliefF算法不仅考虑特征与类别的相关性,还考虑特征之间相关性,在提取有效特征的同时,减少特征间的冗余,降低特征向量的维数。
4 结 语
本文应用概率改进传统ReliefF算法中差异函数的不足,合理计算每个特征的权值,从而有效地筛选出重要特征。并结合词间相关性来解决传统ReliefF算法不能处理冗余特征的问题,降低了特征向量的维数,为后续文本分类提供更有效的特征子集。实验结果表明这种方法是可行的。
参考文献
[1]Liu Y,Zheng Y F.A novel feature selection method for support vectormachines[J].Pattern Recognition,2006,39:1333-1345.
[2]Sikonja R M,Kononenko I.Theoretical and empirical analys is of Re-liefF and RReliefF[J].Machine Learning,2003,53(1-2):23-69.
[3]Kononenko I.Estimation:Analysis and extensions of relief[C]//Pro-ceedings of the 1994 European Conference on Machine Learning[S.l.].ACM Press,1997:273-324.
[4]Kenji K,Rendell L A,Rendell A.A practical approach to feature selec-tion machine learning[C]//Proceedings of ICML’92.Aberdeen,Scot-land,UK[s.n.],1992:249-256.
[5]朱远枫,章晶,史娜.基于改进的ReliefF算法的神经网络集成分类模型[J].电脑知识与技术,2009(3):1699-1700.
[6]万京,王建东.一种基于新的差异性度量的ReliefF方法[C]//’09年研究生学术交流会——通信与信息技术,2009.
[7]童忆莹.基于增量聚类和RelifF的特征选择方法[D].重庆:西南大学计算机学院,2011.
[8]张丽新,王家,赵雁南,等.基于Relief的组合式特征选择[J].复旦学报,2004(10):893-897.
[9]Jin X,Li R G,Shen X.Automatic web page categorization with ReliefFand hidden nave Bayes[C]//Proceedings of the 2007 ACM Symposi-um on Applied Computing,USA,2007.
[10]陈素萍,谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009(2):112-115.
选择性特征 篇11
关键词:森林资源;遥感;分类;特征变量
1 引言
目前,各国研究机构广泛发展了基于遥感与抽样技术相结合的森林资源面积监测体系。抽样方法可大范围、快速监测森林资源动态变化,但无法在实际监管中存在有效利用,也就是存在监管不到位的现象。因此,结合实际,深入研究森林资源遥感分类区划方法中的一些关键技术,对促进森林资源调查遥感监测技术的发展具有重要意义。
2 森林资源分类中遥感数据的波谱特征
2.1 光谱特征 多光谱遥感影像能够对不同的森林进行区分,也是森林资源遥感分类应用最广泛和最基本的识别特征。目前基于多光谱特征的森林资源定量分析则是通过计算各个类别的均值、方差、标准偏差和离散度等统计量,作为比较不同类别相似度的量化依据,并在这些统计量的基础上建立判别函数实现森林资源遥感分类。但由于遥感数据空间分辨率、光谱特征值、光谱波段设置等限制,以及遥感影像像元都是地物光谱综合信息的特点,致使单纯依靠多光谱特征的森林资源遥感分类存在诸多分类混淆,“同物异谱、异物同谱”现象广泛存在。
2.2 高光谱数据特征 高光谱数据的光谱分辨率很高,能精确识别不同的树种。但高光谱数据各波段之间存在着高度的相关性,对分类精度有很大的影响。因此,高光谱数据的降维处理是目前高光谱数据处理的必经过程。目前,降维方法可分为两大类:①基于变换的方法,如主成分变换、正交子空间投影、正则分析、离散小波变换等。基于变换的降维方法优点是可以经若干变换直接将高维数据降低到几维甚至一维,信息量高度集中,降维速度快;其缺点是改变数据原始特性;②基于非变换的,主要是波段选择。基于非变换的降维方法保持数据原有特性,但波段选择算法目前均不成熟,难度大。
3 森林资源分类中遥感数据的纹理特征
纹理特征作为遥感影像数据重要的空间特征之一,是对影像像元之间空间分布的一种描述,其空间分辨率决定了纹理结构信息的丰富度。高分辨率遥感影像可大幅度减少了混合像元的比例,能非常直观的展示地面目标地物的空间位置、结构、形状、色彩等信息,有利于辨识目标地物。但高分辨率影像数据量巨大,所含信息量十分丰富,在抑制异物同谱现象的同时增加了同物异谱现象,此外还存在着阴影问题等,这些均有可能引起分類精度的降低。为充分利用高分辨率影像,基于纹理、面向对象或光谱与空间信息结合等分类方法可有效提高分类精度得到迅速发展和应用。然而在图像分类中,特征并不是越丰富越好,对分类结果不利的特征可对分类结果起到干扰作用,导致识别或分类精度的降低。因此,选择合适的纹理特征,制定一个特征选择准则,配合一个好的搜索算法就显得十分必要。
4 森林资源分类中遥感数据的时间特征
单一时相的遥感数据只能反映拍摄时间森林资源的波谱特征,但不同时期植物的生长发育规律可在遥感影像表现出不同的波谱信息。因此,可利用植物的时间效应特征来提高森林资源遥感分类识别能力。
5 研究展望
5.1 森林资源遥感分类特征变量选择存在的问题
5.1.1 森林资源遥感分类特征变量的选择的理论研究还不完善 在现有特征变量选择过程中高度依赖遥感数据的光谱特征,没有充分研究森林资源本身的特征在遥感数据上的机理体现,也就是没有从遥感机理上去分析、构建和选择特征变量。
5.1.2 森林资源遥感分类特征变量的综合应用问题 目前森林资源遥感分类特征变量较多的使用单一类型的特征变量,在利用单一类型的分类特征变量只能体现森林资源的一个方面,不论应用何种算法,对提高遥感分类精度的力度有限。因此,多类型分类特征变量综合应用是提高分类精度的有效途径。5.2 森林资源遥感分类特征变量选择发展方向
5.2.1 新的特征变量的不断挖掘 影响不同植物差异,可从植物本身的主要物理性状,这些因素主要受植物本身基因控制,这些特征变量参数可通过过SAR数据来解决。一些植物生化组分含量特征方面,可利用高光谱数据反演植物内部生化组成含量,探索基于生化组分含量与光谱的相互作用显著的敏感波段,并利用这些波段的影像对森林资源进行分类,使遥感分类更具机理性。
5.2.2 特征变量的综合应用 由于不同区域范围内具有特定的植物种群结构,不同时相植物存在着不同的生长规律,可根据植物生长状态,及其生长周期内生理、外形、结构等变化或季节变化特点,研究出某类植物最佳辨别时相,以及组合分类的特征变量组合。基于不同传感器数据提取不同森林资源遥感分类信息,联合使用多种分类特征的互补信息可有效提高遥感分类精度。开展森林资源遥感分类特征变量和敏感性与不确定性分析,在分类特征变量深入挖掘的基础上,结合主要分类器,建立不同分类特征的精度敏感性分析,进一步建立评估模型,为模型通用性检验及区域推广提供技术基础。
因此,不同区域的森林资源分类可按区域特性,建立区域特征数据库,综合应用适合该区域遥感分类特征变量,提高分类精度,使其更好的服务于森林资源调查分类及遥感监测需求。
参考文献:
一种改进的互信息特征选择方法 篇12
本文针对互信息(MI)特征选择方法分类效果较差的现状,提出了一种改进的互信息特征选择方法CMI。该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词。在文本自动分类器KNN上的实验表明该方法极大地提高了分类精度。
1 互信息特征选择方法
文本集中的单词、短语往往多达数万甚至数十万个,如果直接用来构成文本特征向量,必将带来所谓的“维数灾难”和计算复杂性太高,不能满足实际的性能需求等问题。因此,很有必要对特征向量进行降维处理。特征选择的依据是特征对分类作用的大小,通常用一个统计量或者评价函数来度量,把度量值小于阈值T的那些特征过滤掉,剩下的即认为是有效特征。选择没有改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间[3]。
互信息(Mutual Information:MI)在统计语言学领域被广泛使用[4],它体现了特征与类型之间的相关程度。特征项t和类别之间的互信息定义[5]:
其中:P(t,c)为C中出现特征t的文本数除以训练集的大小;P(t)为训练集中出现t的文本数除以训练集的大小;P(c)为训练集中属于类型C的文本所占的比例。
如果有m个类型,于是对每个特征项t都有m个值,通常取它们的平均,即平均互信息。平均值大的特征被选择的可能性大。平均互信息如公式(2)所示:
2 改进的互信息方法
互信息体现着特征与类型之间的相关程度,当特征的出现只依赖于某一类型时,特征与该类型的互信息很大,当特征与类型相互独立时,互信息为0;在进行特征选择时,分别计算出各个特征项的MI值,从原始特征空间中删除低于既定阈值的特征项,将高于该阈值的特征项构成文本向量的特征子集。互信息评估函数没有考虑特征项在当前文本中出现的频率,在公式(2)中,不同特征项在训练集中出现的概率和在类ci中出现的概率相同时,低频词比高频词的MI值更高,即此种情况下低频词易被选入特征子集中,从而影响了分类的效果。在计算MI值时加上特征项频率的条件限制,能有效地过滤低频词。
从公式(2)可以得出,P(t,ci)/P(ci)描述的是特征出现在类ci中的概率,P(t)描述的是特征在训练集中出现的概率。P(t)值越小,且P(t,ci/P(ci)值越大,则计算出的互信息值就越大,该特征项就越有可能被选取;反之,P(t)值越大,且P(t,ci)/P(ci)值越小,则计算出的互信息值就越小,甚至为负数,该特征项被选取的可能性也就越小。但是互信息值是负数说明该特征项很少或不出现在当前类别中,而是出现在其他类别中,即负相关。进行特征选择时,通常会把负值大的特征项过滤掉,而实际上,这些特征项对正确分类也具有重要的意义。
综合以上两个因素,我们对公式(2)进行如下变换来改进互信息方法,即带限制条件的互信息方法(Constrained Mutual Information:CMI):
其中f(t)为特征项在当前文本中出现的频率,其它同公式(2)。对于低频词,按公式(3)计算的CMI值将小于其MI值,从而有利于过滤掉低频词;对于负相关的特征词,按公式(3)计算的CMI值为正数值,从而很可能选为特征子集。
3 实验及其分析
3.1 语料集
实验采用的训练集和测试集来源于中科院计算所谭博士整理的中文文本分类语料库-Tan Corp V1.0(下载地址为:http//www searchforum.org.cn/tansongbo/corpus.htm),我们把其中的数据平均分成两半分别组成训练集Tan Corp Train和测试集Tan Corp Test。
3.2 评价标准
文本分类中普遍使用的性能评估指标有查全率R(Recall)、查准率P(Precision)、F1测试指标、宏平均F1和微平均F1等。查全率=被正确分类的文本数/被测试文本总数;查准率=正确分类的文本数/被分类器识别为该类的文本数;对于一次测试,准确率和查全率一般是成反比的。提高准确率,查全率会下降;提高查全率,准确率会下降。F1指标综合了P和R两个指标,可以对分类器进行整体评价,如公式(4)所示:
宏平均F1和微平均F1是以两种不同的平均方式求得的全局F1指标。
3.3 分类器及实验
K最近邻居算法(KNN)是文本分类中比较著名的经典分类算法,我们应用KNN分类器进行了实验,其中概率估算方法采用基于词频统计,特征选择方式采用全局选取;
实验比较结果如表1以及图1、图2所示。
从表1以及图1、图2的实验数据可以看出,在相同的训练集和测试集条件下,改进的互信息方法所取得的分类效果远高于未经改进的互信息方法。这说明了在计算MI值时加上特征项频率的条件限制,能有效地过滤低频词,并且计算所得的那些互信息负值大的特征项,对文本分类同样具有重要意义。
4 结束语
互信息是常用的一种特征评估函数,但在实际的中文文本分类中其分类精度一直较低。该文分析了其影响分类精确度的两个因素,提出了一种改进的特征选择方法,该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词,在文本自动分类器KNN上的实验表明该方法极大地提高了分类精度。
摘要:特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾。针对互信息(MI)特征选择方法分类效果较差的现状,提出了一种改进的互信息特征选择方法IMI。该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词。通过在自动分类器KNN上的实验表明,改进后的方法极大地提高了分类精度。
关键词:中文文本自动分类,特征选择,互信息
参考文献
[1]Lewis D D.An evaluation of phrasal and clustered representations on a text categorization task[C].Proceedings of15th ACM International Conference on Research and Development in Information Retrieval(SIGIR-92),1992:37-50.
[2]Kohavi R,John G H.Wrappers for feature subset selection[J].Artifi-cial Intelligence Journal,1997,97(1-2):273-324.
[3]Aha D W,Bankert R L.A comparative evaluation of sequential fea-ture selection algorithms[C].Proceedings of the5th International Workshop on Artificial Intelligence and Statistics,1995:1-7.
[4]Church L W.Hanks P K.Word association norms,mutual information and lexicography[C].Vancouver,Canada:Proceedings of A-CL27,1989:76-83.