网络特征提取(共12篇)
网络特征提取 篇1
一、一种简化的混沌神经元网络模型
为了构造混沌神经元网络模型, 对于神经网络中的每个神经元xi (t) 需要考虑如下一些情况。
(1) 来自神经网络内部各神经元的反馈项h (xi (t) ) , h为作用函数, 它通过权值wij作用于xi (t) 。典型的Hopfield网络就包含这些项。
(2) 来自神经网络外部的输入项Aj (t) , 它通过权系数vij作用于xi (t) 。典型的BP网络主要考虑这些项。
(3) 来自神经元本身的影响g (xi (t) ) 。
(4) 神经元xi (t) 的阈值θi。
式 (1) 和式 (2) 就是简化的混沌神经元网络模型。这个网络由N个神经元组成, N个神经元的输入输出交织在一起。可以用少数几个神经元来观察网络所表现的混沌动力学行为。
二、图像作为混沌神经网络的权值矩阵
图像本质上就是一个矩阵或者三个矩阵, 当图像是灰度图像, 矩阵为一个矩阵;当图像是彩色图像时, 矩阵为三个矩阵.使用Matlab语言就能把存储在D盘根目录下的图像读出来。
2.1权值矩阵
所谓权值矩阵, 是指人工神经网络中一般决定着一个神经元到其他神经元传输信号量的多少。
在本文中, 把图像作为【式 (1) 与 (2) 表示的混沌神经网络的】权值矩阵, 分析其输出结果。
2.2绘制混沌神经网络的输出曲线
以前研究人员对图像进行处理时, 把注意力都放在对图像特征进行提取, 然后把这些特征输入到神经网络中, 这样的神经网络包括典型的BP网络和Hopfield网络.在本文中构造出一种新的混沌神经网络图像操作算法, 此算法直接把灰度图像作为网络的权值矩阵, 使用具有n个神经元的混沌神经网络网络表达式进行迭代, 得到网络系统的输出, 可以发现图像作为权值矩阵时输出曲线的稳定性。如果把连续图像作为权值矩阵的图像, 当图像间发生小的变化时, 迭代输出曲线的影响也不大。
(1) 为了说明这种方法的有效性, 下面列出了四幅连续实验图像, 从输出曲线结果可以看出这种方法是有效的。
绘制出图1的四幅图像的灰度图像作为权值时的混沌神经网络输出曲线轨迹, 如图2所示。
(2) 下面讨论噪声对输出曲线的影响, 所谓噪声就是对图像产生的一些随机的污染, 图3 (a) 是原图像, (b) 是加入噪声后的图像。
绘制出图3的两幅图像的灰度图像作为权值时的混沌神经网络输出曲线轨迹, 如图4所示。
三、仿真结果分析
通过观察4幅连续图像作为权值矩阵时, 当图像发生小的变化对迭代输出曲线的影响不大;当加入高斯噪声后输出曲线的框架与原先基本是相同的, 只是一些细节不相同。
四、结论
利用混沌神经网络进行图像特征提取时, 可有效地达到输出曲线稳定性问题, 而且稳定性效果良好, 具有一定的应用价值。
网络特征提取 篇2
介绍了利用改进时序模型提取空间飞行器推进系统特征参数的方法.利用此方法,结合某飞行器推进系统试验的.实测数据,提取出了相应的特征参数,并以此为基础得出了故障判据的阈值.数据回访表明此阈值较领域专家提供的阈值对“泄漏”故障更为敏感,结合多参数辅佐检测,可以很好地完成推进系统的故障检测功能,具有工程实用可行性.
作 者:张纯良 张振鹏 祝刚 作者单位:张纯良,张振鹏(北京航空航天大学,宇航学院,北京,100083)
祝刚(空军第一航空学院,河南,信阳,464000)
图形形状特征提取前的重要工作 篇3
关键词:图形;二值化;前景;分类
中图分类号:TP393 文献标识码:A文章编号:1009-3044(2007)16-31115-02
The Important Works Before Abstracting Graphics’ Characteristic of Shape
LIU Qing,MENG Xiang-zeng,JI Cui-ping
(Shandong normal university,Jinnan 250014,China)
Abstract: Based on expounding the graphics concept, this thesis studies and develops the important works before abstracting graphics’ feature of shape, including proposing the method of changing specific image into graphics by binaryzation, achieving the method of determining the foreground color of graphics automatically, proposing the simple classification system of graphics and achieving automatic classification.
Key words:graphics;binaryzation;foreground;classification
1 图形的概念
图象的特征提取是图象处理领域的一个重要内容,目前的研究主要是低层视觉特征的提取。形状作为图象低层视觉特征之一,较颜色和纹理等更接近人的知觉和语义,但描述也更为复杂。在提取形状特征的实验中所使用的图象具有以下特点:黑白二值图象以便于背景和前景分离,前景由一条或多条封闭的边界曲线及其内部区域组成,形状特征明显且为最主要低层视觉特征。这一点体现在文献中的例图以及各形状测试图库中,我们称这类图象为图形,如图1。也就是说,这里所定义的图形属于位图,研究领域属于图象处理而非计算机图形学。
图1 图形示例
目前,在形状特征研究领域,广大的研究者大都把目光集中在形状特征提取及基于形状特征的图形识别、匹配、检索等方面,这些也无疑是该领域最重要的研究内容。在进行这些研究之前的工作往往被忽视,但这些工作也很重要,它们包括:图象二值化为图形、自动判定图形前景颜色和图形分类。在接下来的部分,将一一阐述我们在这三方面所做的研究。
2 图象二值化为图形的方法
图形的一个重要特点就是黑白二值图象,已存在的形状测试图库虽然都是二值图象,较著名的有MPEG-7 contour shape database Set B 、MPEG-7 region shape database、Foliage、F. Mokhtarian fish database等,但它们为数不多且难以找到。当研究者找不到合适的、足够的图库时,就不得不面对图象二值化的问题。
图象二值化的关键是阈值的选取,经典的方法主要有灰度直方图法、微分直方图法[1]、最大熵法[2]、最小模糊度法[3],近些年很多学者提出了一些改进的方法,但没有哪种通用的方法可以让所有图象的二值化结果都理想,针对一类的图象往往采用特定的方法。我们针对用来获得图形的图象的特点,提出了一种简单有效的方法,取得了良好的实验结果。首先,我们人为的选择背景单一或背景颜色相差很小的那些图象来二值化,然后将彩色图象变为灰度图象后执行二值化。二值化算法思想如下:图象的边框处多为背景,据此取第m行m列点的颜色值及其上下n个值的区域为背景颜色的范围,将背景颜色范围内的点置1即白色,否则为0即黑色,最后将二值化后的图象中极小的连通区域视为噪声置1。第m行m列点容易受噪声影响,可在边框2*m个像素宽度内求灰度均值及此均值上下n个值的区域为背景颜色的范围。我们取m=5,n=12,对1000幅图象进行二值化,采用第m行m列点的方式,正确率达90.2%;采用边框2*m宽度内均值的方式,正确率达94.6%。我们将此方法命名为边框二值化法,此方法简单有效,但只适用于背景颜色较单一和前背景颜色相差较大的情况。
3 自动判定图形前景颜色
图形有的以黑色为前景,有的则以白色为前景,还有一些图形难以确定谁为前景合适,如图2。为了对图形进行后续处理,需要判定其前景颜色。目前研究者一般在选择图库时就人为的统一采用黑色或白色为前景的图形,从而忽略掉判定图形前景颜色的环节。我们提出了让程序自动判断图形前景颜色的方法。
(a)前景为黑色;(b)前景为黑色;(c)前景不好确定
图2 不同前景示例
方法一:图形中黑色和白色,较少的颜色为前景。方法二:图形边框k(k=10)个像素宽度内黑色和白色,较少的颜色为前景。图库中的图形多以黑色为前景,根据我们的边框二值化方法得到的图形也是黑色为前景,所以当黑白相当时,选择黑色为图形前景。对于前景色为白色的,进行反色,以保证前景色为黑色,方便以后的图形描述。我们对MPEG-7 contour shape database Set B中的1400幅图形,其中黑白前景各占一半,利用以上两种方法分别进行实验,实验结果用查全率和查准率表示。其定义用公式表示如下[4]:
准确率(Precision)=正确识别的图像数/应正确识别的图像数
正确率(Accuracy)=正确识别的图像数/所有识别出的图像数
实验结果为查全率分别是81.42%、98.57%,查准率分别是81.46、98.59%。
那些前景判断错误的图形,是由于其主体所占面积比例过大。这里我们选择方法二来求整幅图形前景,因为它既简单正确率又高。
对于主体既有黑色又有白色的图形,也可能主体中背景颜色所表达的形状才是真正的中心,所以要对主体进一步分析。我们认为,如果主体中背景颜色面积占主体面积的四分之一以上,则表示主体中背景颜色所代表的图形有分析的必要。将图形主体中背景的颜色置黑,其它全部置白,得到新的图形。这样对这幅图形的描述,就要添加上新图形的描述部分。图2(a)就是图2(c)的新图形,对图2(c)的描述除了要描述其白色部分的形状特征外,还要加上图2(a)黑色部分的形状特征。
4 图形分类
我们认为,图形根据对象数可分为多对象图形和单对象图形,单对象图形再根据欧拉数可分为实体单对象图形和空心单对象图形(见图3)。图形分类的意义主要体现的两个方面。一是在图形形状描述时,多对象图形主要研究其拓扑结构及将图形分离为多个单对象图形后的分别描述,而实体单对象图形适合基于轮廓的形状描述,空心单对象图形更适合基于区域的形状描述。二是在图形检索时,用户可以直接选择需要检索哪类图形,以提高检索效果。
图3 图形分类
我们实现了程序自动进行图形分类,无需再人为的分类。算法:首先,计算图形对象数,一个对象被定义为一个较大的连通区域,若对象数为1则为单对象图形,对象数大于1则为多对象图形。然后计算图形的欧拉数,欧拉数定义为连通区域数减孔洞数,欧拉数为1为实心单对象图形,欧拉数小于等于0为空心单对象图形。
我们随机选择了120幅图形进行分类实验,其中多对象图形、实心单对象图形、空心单对象图形各40幅。对象数=连通区域数-小连通区域数。小连通区域的面积小于最大连通面积0.1倍。多对象图形、实体单对象图形和空心单对象图形的查全率分别为95%、97.5%和92.5%,查准率分别为92.68%、97.5%、94.87%。
我们在知觉上定义一个对象是根据语义上的一个物体,而不是一个较大的连通区域,所以在分类时会出现错误。
5 结论
实验表明,特定图像二值化为图形、自动判断图形前景颜色和自动对图形分类均取得到了良好的效果。这些前期处理工作,为下一步的图形形状描述、匹配和检索,做好了必要的准备。
参考文献:
[1]Weszka J S. Survey of threshold selection techniques[J]. Vision Graphic Image Process, 1978:259-265.
[2]吴谨,李娟,刘成云等.基于最大熵的灰度阈值选取方法[J].武汉科技大学学报(自然学科版),2004,(1):58-60.
[3]Deluca A, Termini S. A definition of a non-probabilistic entropy in the set-ting of fuzzy set theory[J]. Int Control, 1972:301-312.
[4]何强,何英.MATLAB扩展编程[M].清华大学出版社.2002.6: 293-300.
网络特征提取 篇4
声发射(Acoustic Emission,AE)是材料受外力或内力作用产生变形或断裂时,以弹性波的形式释放出应变能的现象[1]。目前声发射技术作为一种成熟的无损检测方法,已被广泛应用于石油化工工业、电力工业、材料试验等多个领域,但对胶合板的损伤监测,AE技术鲜有报道。
胶合板(也称夹板)是按相邻层木纹方向互相垂直的单板,经组坯胶合而成的板材,在我国已广泛应用于家具工业和建筑工业。胶合板的损伤模式主要包括基体开裂、纤维断裂、脱胶、分层等,每一种损伤都对应特定的声发射信号。然而,不同的损伤模式通常以组合形式出现,类别特征相互重叠[2],同时由于传播介质的各向异性和多源性噪声的污染,加大了AE信号鉴别的难度。因此,提取各声源信号特征与识别其损伤模式是声发射应用的首要任务和核心技术。
由于小波分析同时具有时域和频域表征信号局部特征的能力,所以特别适合分析瞬态特性的声发射信号。文献[3]用小波变换的方法分析了薄板中的弹性波,指出在波的传播过程中,多模式和频散的特性、模式的分离有助于准确提取信号中的信息。文献[4]用Daubechies离散小波进行了多尺度分解,利用频率能量分析玻璃纤维增强复合材料的不同损伤模式。通过区分能量的大小和不同能量所处的频率范围揭示了材料的破损模式。同时,近年来的研究发现,人工神经网络可对数据量多、特征复杂的信号提供准确度较高的自动分类能力。因此,本文结合小波分析和人工神经网络技术对胶合板不同损失声发射信号进行特征提取和模式识别。
1 小波包能量特征提取算法
1.1 小波包定义[5]
给定正交尺度函数ϕ(t)和小波函数ϕ(t),其中:
式中:hk,gk是多分辨分析中滤波器系数,且gk=(-1)kh1-k。定义下列的递推关系:
当n=0时,u0(t)=ϕ(t),u1(t)=φ(t)。以上定义的序列{un(t)}n∈Z为由基函数u0(t)=ϕ(t)所确定的正交小波包。
1.2 基于小波包分解的能量特征提取算法
小波包分解是在多分辨率基础上构成的一种更精细的正交分解方法。它根据被分析信号本身的特点,自适应地选择频带,确定信号在不同频段的分辨率。分解得到的各个频段分量既包含了信号的局部特征,也包含了不同的时间尺度信息,从而精确地给出信号能量随频率和时间的联合分布情况,即各频带能量的变化表征了各种信源的特征。因此,本文提取各尺度下各频段分量的能量占比作为各信号特征向量来识别声源类型。基于小波包分解的能量特征提取步骤如下:
(1) 对原始信号进行k层小波包分解,分别选择第k层从低频到高频包含主要信息的前n(n≤2k)个频段分量的信号特征;
(2) 对小波包分解系数重构(重构信号设为Ski),提取各频段范围的信号;
(3) 求各频带信号的总能量Eki:
式中:sij(i=0,1,2,…,n-1;j=1,2,…,m)表示重构信号Ski中离散点的幅值;
(4) 以能量占比为元素构造一个特征向量:
该向量表征了信号的特征。其中:
2 人工神经网络模式识别方法
2.1 神经网络的选择
人工神经网络是一个高度非线性的自适应并行分布处理信息系统,其信息处理由神经元之间的相互作用来实现。信息的存贮表现为神经元之间的物理联系。网络的学习取决于神经元连接权系的动态演化过程。神经网络的类型多种多样,但与模式识别的结合最成功的是多层前馈网络,也就是通常简称的BP(Back-propagation Network)网络[6],本文即选其进行模式识别。
2.2 BP网络结构的设计
由BP定理可知, 一个带S型激活函数的三层BP网络,只要隐节点数足够多,能以任意精度逼近有界区域上的任意连续函数,即一个三层的BP网络就能完成任意的n维到m维的映射。BP神经网络最重要的是隐含层的确定。虽然隐层神经元数目的选择不存在一个理想的解析式,但隐单元数目与问题的要求、输入/输出单元的数目都有着直接关系。综合现有文献,隐含层元个数的计算公式为:
式中:n1为隐单元数;m为输出神经元数;n为输入单元数;a是[0,10]之间的常数。
输入层节点数一般由一组特征值样本的数据量决定。在分类网络中输出层节点数可取类别数x或log x。本文隐含层采用双曲正切S型激活函数,输出层采用对数S型激活函数。
2.3 训练函数的选择
采用不同的训练函数对网络的性能可能会有影响,比如收敛速度等。本文应用各种典型训练函数对网络进行训练,观察各种训练算法的收敛速度和误差,最后确定Levenberg-Marquardt算法为本识别的最优训练函数。
3 实验和分析
3.1 实验方法[7]
试验对普通胶合板的胶合强度进行测试研究。样品选用德华装饰有限公司的“兔宝宝”牌5层胶合板,其内部为杂木夹芯,外覆桃花芯面板,由环保脲醛胶粘合而成。试样(如图1所示)按GB9846.9定义的普通胶合板力学性能测试试件方法锯制,尺寸为250 mm×25 mm×5 mm。试验测试温度为25 ℃,样品为气干状态。加载系统为深圳新三思有限公司SANS-CMT6104台式万能试验机;采集系统选用美国PAC公司PCI-2声发射采集系统,用两个宽带传感器S9208组成线定位阵列方式,同时采集各个波击的波形。
试验中为保证传感器与材料表面良好耦合,选用真空润滑脂作为耦合剂,传感器采用透明胶带固定在试样的表面。试样两端夹紧于试验机的一对活动夹具中,使其成一直线,试样中心通过活动夹具的轴线,拉伸沿试样长度方向进行,等速加荷,速度为3 mm/min,最大破坏荷重的读数精确到5 N,拉伸过程在准静态条件下进行,直到试样断裂为止。拉伸模型如图2所示。
3.2 胶合板加载声发射信号特征分析
对于厚度方向尺寸远小于其他两个方向的板而言,相应于一定的激励条件,在其中主要形成的是板波(Lamb波)。由文献[8,9]可知,受激励后,板中存在多种模式的板波,但当板厚远小于波长时,主要以两种模式的波为主,即最低阶的对称波S0和最低阶的反对称波A0。前者即是膨胀波,其传播速度是一个定值,没有频散效应;后者亦称弯曲波,它的传播速度与角频率的平方根成正比,有频散效应。一般情况下,板中的波是这两种波的组合,这两种波位移的相对幅度同激励方式有关。研究发现[8],当激励力源作用方向与板平面垂直时,在板中主要产生的是弯曲波。相反,当力源作用方向沿板方向时,产生的主要是膨胀波。一般而言,膨胀波的高频成分要比弯曲波丰富。胶合板受载形变作为强声发射源,其声源有基体开裂、纤维断裂、脱胶、分层等。理想上,纤维断裂总在平面内完成,其类似于一个沿板平面方向的力源,因此,激发的声发射信号应以膨胀波为主,无频散效应;而分层损伤则明显沿板厚方向发生,类似于一个沿板平面垂直方向的力源,因此,所激发的声信号波形当以弯曲波为主,存在频散效应;基体开裂、脱胶产生的声发射信号,其特征介于两者之间,一般应同时表现为膨胀波和弯曲波两种组合形式。
3.3 实验结果分析
本文选用db3小波[10,11,12]对采集的声发射信号做5层小波包分解,并进行第五层系数重构,计算各叶子能量占比,绘制时频、小波包谱和频谱图,比较各典型信号的特征差异。由实验结果得知,声发射源主要集中在主损伤区或断裂部位。考虑到声源的位置、材料物理特性及波的传播对类别特征的复杂影响[2],将所有样本取自主损伤区宽20 mm范围内的事件。对比四种典型的声发射源波形、频谱和小波包谱图,筛选出四类样本数据集,并应用小波阈值法消噪,得到各类别信号的典型波形如图3~图6所示。观察图3~图6中信号的傅立叶频谱发现,胶合板破坏损伤多以低于300 kHz以下的频率信号为主,且难以区分其特征差别。为获取各损伤信号的特征,必须结合小波包时频和小波包谱图分析。
基体开裂如图3所示,波形以低幅度较宽脉冲为主,频段较宽,膨胀波和弯曲波模式并举。FFT主峰频率位于40~180 kHz,小波时频图特征峰约集中在100 kHz以下和200 kHz处,发生的时间约在0.5~1.2 ms之间。小波包谱峰位于第一至第四和第七频段内,其中第一、第二频段的能量接近,总和约占总能量的60%,剩余40%几乎集中于第三、四、七段。
图4为五层胶合板纤维断裂图,由图中得出的信号主要以高幅度较宽脉冲形式出现,频率较低且单一,无频散现象。纤维断裂的FFT峰值主要集中在22~40 kHz,时频图特征峰位于40 kHz处,持续时间约为1 ms,小波谱峰值主要位于第二频段,能量占到总能量的70%以上,第一、四频段能量约占20%。结合样品断口纹理分析,断裂主要沿垂直于纤维方向扩展,呈剪切断裂方式,波形以膨胀波为主导,基本与第3.2节的信号分析一致。
五层胶合板脱胶信号如图5所示,信号以中低幅窄脉冲为主,波形为弯曲波模式和膨胀波模式的混合型,且弯曲波模式占主导。受膨胀波成分的影响,在200 kHz频率处也出现峰值,能量在大于100 kHz频域上有所分布,但主要集中在小于50 kHz的频域。从失效样品查看,明显存在分层和互相滑移现象,与上述分析基本一致。
观察图6发现,五层胶合板分层信号中傅里叶频谱的峰值主要位于11~55 kHz,小波时频图的特征峰主要集中在40 kHz处,持续时间约为1.2 ms,小波包谱能量主要集中在第一、二、三、四段,且第一、二段能量所占比重接近,总和占到了总能量的85%。信号多以中幅度宽脉冲形式为主,信号持续时间较长。分层是典型的垂直板平面方向的力源作用,信号明显存在频散现象,波形以弯曲波模式为主,能量主要集中在40 kHz以下。
图3~图6表明,信号的波形、频谱和小波包谱等类别特征均有不同程度的重叠,但对5种类别的信号均显示出一定的鉴别能力,尤其以小波包分析提取的特征更为明显,以该特征作为样本可为后续使用神经网络进行识别提供依据。
3.4 模式识别
按照第1.2所述方法对声发射信号进行5层小波包分解,将整个频段分成32个频带,考虑反应声源信号特征的能量主要集中在前10个频段,因此提取前10个叶子的能量分布为声发射信号特征,以此作为BP网络的训练样本。样本包含胶合板脱胶10组、纤维断裂10组、分层12组和基体开裂8组共计40组。网络在经过81次训练后达到设定的最小期望误差0.001(见图7)。采用网络对训练数据进行识别,识别正确率达到 100%。证明该网络具有较强的学习能力,能够按照给定的输入/输出正确建模。
为检验网络的推广应用性能,采用该网络对118组测试样本(脱胶30组、纤维断裂30组、分层28组和基体开裂30组)进行检验,识别正确率达到 92.6%。这表明该人工神经网络的范化能力较高,设计结构合理,达到自动识别声发射信号类别的目标,具有良好的推广价值。
4 结 论
(1) 针对声发射这种瞬间的突变信号,小波分析确实能很好地同时表现出时域和频域的局部特征;
(2) 综合各类模式信号的波形、频谱、小波包时频图和小波包能谱图分布等特征,可确定不同损伤机制所对应的声发射信号特征,为神经网络模式识别提供质量较高的模式样本;
(3) 设计的BP人工神经网络能准确度较高地识别出4种不同损伤机制造成的声发射信号。
由于木质胶合板的声发射研究国内开展的不多,对该类材料的声发射特征的分析及识别还待进一步研究,尤其对多层胶合板声发射特征的定量研究还有待于大量实验数据的积累和归纳。
摘要:为识别胶合板的不同损伤类型,将小波包时频分析与能量谱相结合,提出基于时频和频段能量占比的胶合板损伤声发射信号特征提取方法。研究得出胶合板基体开裂信号以膨胀波和弯曲波模式并举,频谱较宽,能量主要集中在小波能量谱的第一、二、三、四和七频段;分层信号频率单一,幅值较高,并以膨胀波为主;纤维断裂主要以弯曲波模式为主,频率较低;脱胶信号波形为膨胀波和弯曲波的混合型,以弯曲波为主,能量多集中于第一、二、三、四频段。用小波包提取的能量占比作为由BP神经网络构成的智能化模式分类器的输入样本,对4种声发射信号进行识别,正确率达到92.6%。
关键词:胶合板,声发射,小波包变换,神经网络
参考文献
[1]袁振明,马羽宽,何泽云.声发射技术及其应用[M].北京:机械工业出版社,1985.
[2]殷冬萌,王军,刘云飞.木塑复合材料缺陷及损伤的声发射信号特征分析及神经网络模式识别[J].应用声学,2007,26(6):352-356.
[3]JIAO Jing-pin,HE Cun-fu,WU Bin,et al.Application ofwavelet transform on modal acoustic emission source loca-tion in thin plates with one sensor[J].International Journalof Pressure Vessels and Piping,2004,81:427-431.
[4]QI Gang.Wavelet-based AE characterization of compositematerials[J].NDT&E International,2000,3(3):133-144.
[5]胡昌华,张军波,夏军,等.基于Matlab的系统分析与设计:小波分析[M].西安:西安电子科技大学出版社,1999.
[6]毛汉颖,成建国,黄振峰.基于BP神经网络的金属裂纹声发射信号特征参数的提取[J].机械设计,2010,27(2):84-86.
[7]陆仁书.胶合板制造学[M].2版.北京:中国林业出版社,1993.
[8]耿荣生,沈功田,刘时风.基于波形分析的声发射信号处理技术[J].无损检测,2002,24(6):257-261.
[9]LOWE M J S,DILIGENT O.Low-frequency reflectioncharacteristics of the s0Lamb wave from a rectangularnotch in a plate[J].Acoustical Society of America,2002,111(1):64-74.
[10]徐长发,李国宽.实用小波方法[M].2版.武汉:华中科技大学出版社,2004.
[11]杨晓楠,唐和生,陈荣,等.钢结构损伤识别中db族小波函数选择[J].同济大学学报,2006,34(12):1568-1572.
网络特征提取 篇5
土壤中酸可提取态重金属释放特征研究
采用模拟酸雨土柱淋洗实验,研究了不同土壤中酸可提取态重金属释放特征.结果表明,随着模拟酸雨pH值下降,土壤中酸可提取态重金属释放强度明显增大,各元素的释放量与酸雨pH值呈显著负相关.Zn释放主要集中在pH4.5~3.5之间;Cu释放主要集中在pH6.5~3.5之间;Cd的`释放没有较集中的范围;而Cr和Pb,不同土壤集中释放的pH值范围不同.不同处理水平对酸可提取态种金属的释放有显著影响.
作 者:邹海明 邹长明 林平官楠 李粉茹 Zou Haiming Zou Changming Lin Ping Guan Nan Li Fenru 作者单位:邹海明,邹长明,林平,李粉茹,Zou Haiming,Zou Changming,Lin Ping,Li Fenru(安徽科技学院植物科学学院,凤阳,233100)官楠,Guan Nan(河南理工大学,焦作,454000)
刊 名:中国农学通报 ISTIC PKU英文刊名:CHINESE AGRICULTURAL SCIENCE BULLETIN 年,卷(期): 22(6) 分类号:S1 关键词:模拟酸雨 酸可提取态 重金属释放网络特征提取 篇6
【关键词】Gabor小波;紋理;滤波器;数字图像
紋理特征是所有物体表面所共有的内在特性,包含了关于物体表面的组织结构排列的重要信息以及它们与周围环境的联系。在自然界中,如树木、织物等,均具有各自的紋理特征。在计算机视觉研究中,人们还发现,紋理特征具有一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,可以从微观上区分图像中不同的物体。因此,紋理特征是经常要提取的特征。最常用的提取紋理特征的方法是灰度共生矩阵法。但这种方法占用内存多,运行速度较慢。而Gabor变换不但具有最小的时频窗,而且Gabor函数与哺乳动物的视觉感受野相当吻合。这一点对研究图像特征检测或空间频率滤波非常有用。恰当的选择Gabor变换的参数,可以出色地进行图像分割、识别与理解。现简单介绍如下:
1.Gabor滤波器的设计
Gabor函数的定义为:
(1-1)
它的傅里叶变换G(u,v)为:
(1-2)
其中, W为高斯函数的复调制频率。以g(x,y)为母小波,则通过对g(x,y)进行适当尺度变换和旋转变换,就可以得到自相似的一组滤波器,称为Gabor小波。
(1-3)
式中,这里表示总的方向数目(n∈[0,K]),为尺度因子,在上式中用来确保其总的能量与m无关。由傅里叶变换的线性特性可知,通过改变m和n的值,便可以得到一组方向和尺度都不同的滤波器。
Gabor小波集的非正交性意味着经滤波后的图像中有冗余信息。可以用下面的方法来减少这些冗余信息。设和分别代表高频和低频的中心频率,设K是方向的数目,S代表多分辨率分解时尺度变化的次数。这样,滤波器设计的策略为:确保Gabor滤波器组的响应在频率上半峰幅值能相互接触,且互不重叠。这样,就可以得到如下计算滤波器参数的公式:
(1-4)
(1-5)
式中:.,图1是经过Gabor小波滤波后的图像,滤波器的从尺度和较度一次增大:
2.紋理特征描述与提取
给定一幅图像I(x,y),它的Gabor小波变换可定义为:
(2-1)
这里,*代表取其共轭复数。假设局部紋理区域具有空间一致性,则变换系数的均值和标准差可代表该区域,用于分类和检索。均值和标准差表示如下:
(2-2)
(2-3)
用和作为分量,可以构成检索用的特征向量,即:
(2-4)
3.总结
Gabor小波变换虽然不是正交变换,但是它是对图像紋理特征的较好选择。经过证明,它比用Harr等正交小波提取的图像紋理特征要好。它的运算速度非常快,以根据需要对不同方向和尺度进行紋理的提取,是提取图像紋理特征的常用方法。
参考文献
[1]周德龙.基于二维Gabor小波变换的角点匹配算法[J].计算机工程与科学,2011,12.
[2]刘晓杰.Gabor小波和LPP相结合的人脸识别方法研究[J].电视技术,2011,23.
作者简介:蓝永(1975—),馆员,现供职于青岛科技大学图书馆,研究方向:数字图像处理,模式识别,数据挖掘。
直扩信号特征提取技术 篇7
直接序列扩频(DSSS)信号被认为是一种低截获概率信号(LPI),由于具有低功率谱密度发射的隐蔽性、伪随机编码的保密性以及信号相关处理的抗干扰性等良好的性能,被广泛应用于航天测控、导航等多个领域。因此对直扩信号检测和截获技术的研究已成为一个刻不容缓的研究方向,而对于未知扩频码的情况下直扩信号的检测和截获技术一直是一个难题。
从直扩系统的基本原理和信号特征入手,详细分析了信号的相关性、循环平稳特性、频域正交性和准周期性等。根据特征提取的原理分析归纳出其可检测性和可识别性特征,选择出那些能够集中表征DSSS信号波形和频域显著个体特征的参数,研究了噪声对信号特征参数的影响。在此基础上应用时域相关、循环谱、倒谱和高阶累积量等现代数字信号处理技术实现了对DSSS信号特征参数的提取。分析总结了在低信噪比下直扩信号的特征提取方法,并比较了各种方法的优缺点。
1 直扩信号特征提取方法
1.1 时域相关检测法
由于信号和噪声在时域相关域有明显的特征差异,所以可以在相关域完成信号特征的提取。自相关检测是将信号与自身延迟一个时延后的信号做相关处理,或用双通道接收机的输出进行相关,得到扩频信号的自相关函数。一般来说,相关域检测能在一定程度上降低对背景噪声变化的敏感程度,甚至在多频单音干扰下也有良好的稳健性。
接收信号r(t)=s(t)+n(t)的自相关函数为:
Rr(τ)=E{r(t)r(t+τ)}=
E{[s(t)+n(t)]·[s(t+τ)+n(t+τ)]}=
Rss(τ)+Rsn(τ)+Rns(τ)+Rnn(τ)。 (1)
当τ≠nNTpn时,由直接序列扩频信号的自相关特性可知,Rss(τ)值很小,即不会出现明显的相关峰;当τ=nNTpn时,Rss(τ)出现明显的相关峰;而噪声在τ≠0时,Rnn(τ)≈0。因而,通过检测输出自相关函数的峰值可检测到扩频信号的存在,检测相邻相关峰之间的时间间隔可以实现对直接序列扩频信号码周期的估计。
1.2 循环谱检测法
循环谱在信号特征提取方面的突出优点是谱分辨能力强,即使在频率轴上的功率谱是连续的,信号特征也以循环谱的形式离散的分布在周期频率轴上,而且,不同调制方式的信号其周期谱分布也不
同。这样,即使信号在时域或频谱域中混叠在一起的特征可能会在循环谱中显现出来,从而更充分的提取信号特征。直扩信号循环谱如图1所示。
由图1可见,直扩信号的循环谱在循环频率α为零和不为零时均有峰值出现,其在循环频率α不为零时出现的非零值,是直扩信号检测和参数估计的依据。要得到信号的循环谱需要大量的运算量,计算结果的数据量也很大。为了尽可能集中地反映信号的特征,缩小选取的数据量,选取DSSS信号循环谱f=0循环频率切面观察发现:其切面集中反应了信号的载频和伪码速率信息。所以,利用谱相关函数可提取调制信号的特征参数;另外,循环谱为谱分析提供了更加丰富的信号分析域,将通常的功率谱定义域从频率轴推广到频率—周期频率双频平面,更明显地表现出了信号的特征。
1.3 倒谱检测法
由于DSSS信号中伪随机序列的周期重复,使信号的频谱具有了准周期性,而噪声则没有准周期性,因此通过提取信号频域的准周期性可以检测到信号的存在,并估计其参数。
倒谱是一种同态信号处理技术,利用信号中某些分量在频率域上的准周期性,对信号的对数功率谱再求功率谱,在伪时域或倒频率域上将这种周期性显现出来,用来分离和提取密集泛频信号中的周期成分。倒谱是从时域到频域、频域到频域、频域到伪时域的3次映射。即
倒谱的对数变换可将乘性噪声变为加性噪声,有助于消除乘性干扰。该技术充分利用信号频域上的准周期特性,检测淹没在噪声之中的信号分量,实现信号的检测和参数估计。直扩信号倒谱如图2所示。
将DSSS信号的表达式代入上式,即对直扩信号频谱求对数功率谱得到DSSS信号的倒谱为:
式(3)第1项为信号的直流分量,以后各项为信号的自相关函数及多个自相关函数的卷积,由于在第2次傅里叶变换之后取模的平方所以丢失了相位信息,相关结果在其伪码周期的整数倍处出现峰值,而在其他位置相关值较小,因此,倒谱的处理结果中峰值也是出现在伪码周期的整数倍处,通过检测峰值有无判断信号的存在,通过计算峰值间隔可以估计出伪码周期大小。
1.4 高阶累计量检测法
直扩信号的4阶统计量包含扩频码周期和载频信息,而且理论上可以完全抑制任何形式的高斯噪声,因此可以解决二阶统计量不能解决的问题。加噪信号的4阶累积量为:
由式(4)可以看出利用接收信号的4阶累积量可以检测到直扩信号的周期信息;理论上可以完全抑制高斯噪声(包括有色和白色),所以有更好的检测性能。由于4阶累积量的计算量很大,为了实现工程应用,取其切片。
由式(5)和式(6)可以看出,接收信号的4阶累积量切片均包含扩频码周期自相关信息,并且在理论上都可以完全抑制高斯噪声,因此检测和参数估计性能较好。直扩信号4阶累积量切片如图3所示。
2 仿真验证
仿真假设条件如下:① 待检测信号为DSSS/BPSK扩频信号;② 扩频码采用小m序列,扩频码长为1 023。
各种检测方法的性能如表1所示。由以上分析表明,运用时域相关检测法算法简单、检测时间最短,但是其检测性能较差,在带内信噪比为-8 dB时检测概率大于90%;循环谱检测法性能比时域相关检测略好;倒谱检测法在带内信噪比-14 dB时检测概率91%,计算复杂度居中;高阶累积量检测法在带内信噪比-15 dB时检测概率接近90%,但是由于高阶累积量计算的复杂性使得其检测时间较长。
3 结束语
从理论分析还可得出直扩信号的检测不仅和信噪比有关,而且有赖于伪码长度和检测数据长度等因素,在伪码长度不可控的情况下,增加检测的数据长度,能够改善各种方法的检测性能。由于直扩信号的隐蔽性,导致难以检测到长码扩频信号,如何在扩频码很长,接收信号不足一个伪码周期情况下侦察信号是未来直扩信号检测和特征分析的难点和重点。
参考文献
[1]张天骐,周正中,邝育军,等.低信噪比长伪码直扩信号伪码周期的估计方法[J].系统工程与电子技术,2007,29(1):12-16.
[2]钟志,赵雅琴,杨刚,等.一种简单的长码周期估计方法[J].湖南科技大学学报,2006,21(4):75-78.
[3]资晓军,谢丹,易克初.基于四阶累积量的二次谱法检测DSSS伪码周期[J].电子信息对抗技术,2006,21(1):18-21.
人脸识别特征提取算法研究 篇8
特征提取是人脸识别中一个非常重要的环节, 目的是为了降低人脸图像的维数。目前, 常用的基于统计的特征提取方法有主成分分析 (PCA) [1]和线性判别分析 (LDA) [2]等。独立元分析 (ICA) [3]是近年来发展起来的一种新的多维数字信号处理技术, 其基本思想是在最大程度保持信息量的前提下, 从高维数据空间中提取出低维数据的特征分量, 是一种基于人脸全局特征的识别方法。但ICA算法在获取独立分量的过程中需要获取人脸图像的先验知识, 这影响了识别的准确率。有效减少了后续工作的计算量, 取得了较高的识别率。
基于上述讨论, 本文将一个人脸图象矩阵视为一矢量, 通过引入模糊数学中的隶属度概念, 定义矢量隶属函数, 提出一种新的基于隶属度函数的独立成分分析特征抽取和识别方法。有效减少了后续工作的计算量, 取得了较高的识别率。本文称该方法为模糊ICA (Fuzzy ICA) 。
1、独立成分分析的基本理论
ICA最初是对盲信号的分离。利用独立成分分析 (ICA) 方法可以在不知道信号源和传输参数的情况下, 根据输入信号源的统计特性, 仅由观测信号恢复或提取源信号。独立成分分析已经成为盲信号处理中最主要的方法之一, 并在模式识别、数据压缩、图像分析等方面得到广泛的应用。
对于一组盲源信号S= (s1, s2, …sm) T, 有N路观测信号X= (x1, x2, …, xN) T, 每一路都是一维行向量的形式。存在系数 (混合) 矩阵A, 使得独立源信号S与观测信号X可以用线性关系来表示:
式中A∈RN×M, 称为混合矩阵。
存在分离矩阵W∈RM×N, 使其满足下式:
式中WA=I, I为单位阵, Y为统计独立的未知源信号S的最佳估计。
在独立成分分析中求解分离矩阵是关键。目前已提出很多求解分离矩阵的算法。本文采用FastICA方法来实现独立分量的提取【8】, 该方法是基于负熵的固定点算法, 是目前效率较高, 应用较广泛的一种ICA算法。该算法的具体描述为:
(1) 对数据进行中心化处理, 使其均值为零。
(2) 白化数据, 令白化后的数据为z。
(3) 初始化W (0) , 令其模为1, 置k=1;
(4) W (k) =E{zg (W (k-1) Tz) }-E{g′ (
W (k-1) Tz}W (k-1) ;
(5) W (k) =W (k) /||W (k) ||;
(6) 如果不收敛, 令k=k+1, 返回 (4) 继续, 否者输出W (k) 。
其中g (u) =uexp (-u2/2)
该算法最后得到的向量W, 其线性组合WTz给其中的一个独立分量。要计算n个独立分量就要重复上述算法n次, 但每提出一个分量后要从混合信号中减去这一分量。
2、基于Fuzzy ICA的特征提取和识别
2.1 算法设计的基本思想
自1965年Zadeh提出模糊概念以来, 模糊数学已被用于很多领域, 将其应用于模式识别, 形成了模糊模式识别。模糊模式识别方法是利用模糊数学中的概念、原理与方法解决分类识别问题。模糊模式识别将待识别类别、对象作为模糊集和其元素, 因此应根据实际问题需要进行特征提取或特征变换, 建立模糊集的隶属函数, 然后运用有关模糊数学的原理和方法进行分类识别。
2.2 特征提取和识别算法
ICA是PCA从二阶统计分析向高阶统计分析的拓展, 基于数据的高阶统计信息提取数据的独立特征, 能够更好的表示人脸的局部特征。具体算法为:
(1) 特征提取和变换
假设人脸图像训练集样本图像有n类人脸图像, α={α1, α2, …, αn}, 且第i类有Ni个人脸图像。
对人脸图像训练集样本图像α, 首先通过PCA算法对图像进行去二阶相关和降维处理, 然后通过ICA算法对图像进行处理, 获得由独立影像基构成的一个低维子空间:S={S1, S2, …, Sm} (m<n)
计算出此低维子空间的特征向量为:
假设Xj (j=1, 2, …, Ni) 为已知αi类人脸图像矩阵Aj (i) (j=1, 2, …, Ni) 的特征向量, Y为未知人脸图象矩阵C的特征向量, 计算Xj和Y在低维子空间中的投影向量, 即Zj=ST﹒Xj, φ=ST﹒Y。
(2) 建立矢量隶属函数。
模糊集合隶属函数的建立, 无论在理论上还是在应用上都是非常重要的。由于造成模糊不确定性的原因多种多样, 因而模糊集的种类是复杂的。实际应用中, 确定隶属函数的方法有不少, 如专家确定法、统计法、对比排序法等。
在本文中, 我们将模糊数学中建立隶属函数、隶属度的方法引入矢量空间中, 从而定义未知人脸图像矢量归属于αi类的模糊隶属度函数为:
其中, λj为任意实数, ‖﹒‖为向量范数, Zj和φ为 (1) 中得到的特征向量。
(3) 模糊结果处理及人脸分类识别。
使用模糊技术进行分类的结果不再是一个模式明确地属于某一类或不属于某一类, 而是以一定的隶属度属于各个类别。如果分类识别系统是多级的, 这样的结果有益于下一级的决策。如果这是最后一级决策, 而且要求一个明确的类别判决, 可以根据模式相对各类的隶属度或其他一些指标, 如贴近度等, 进行硬性分类。在本文中, 我们利用最大隶属度原则进行人脸分类识别, 即首先计算每个输入人脸图像 (测试样本) 对各类人脸图像的图像隶属度μai, 若, 则判别测试样本为αi类人脸图像。
3、试验结果及分析
试验中采用ORL标准人脸数据库验证该算法, 该数据库包括从1992年4月到1994年4月剑桥大学实验室拍摄的一系列人脸图像, 具体为40个人, 每个人有不同表情或不同视点的10幅图像, 共400幅图像所构成, 倾斜角度不超过20度, 这些人脸图像的分辨率为92×112, 人脸数据库中每个人的图像都是不同角度、不同时间且受一定光线和一些饰物 (如眼镜等) 影响。图1是ORL人脸数据库中部分图像:
本实验使用Matlab7.1在windows XP系统下, 为了更好地证明算法的有效性, 我们随机选取其中10个人, 每人前3幅 (共30幅) 图像作为训练样本, 其余的30幅图像作为测试样本的做法。如此重复10次试验, 最后结果取其平均值。分别采用传统的ICA方法、PCA方法和本文的Fuzzy ICA方法, 进行了人脸识别仿真实验
由图2可知, 识别率随着特征维数的增加而成上升的趋势, 本文的方法识别率高于传统PCA方法和ICA方法, 该方法识别率最高可达95.1%, 但当特征数接近100时, 识别率略有下降的趋势, 说明并不是所有的特征向量都是有效的投影空间, 有些刚好是与人脸本身无关的噪声因素干扰。
4、结束语
本文在研究采用ICA提取的具有局域特点的独立分量表示人脸基础上, 将基于模糊ICA的人脸图像特征提取和识别算法与传统的PCA和ICA人脸识别算法进行了比较, 对ORL标准人脸数据库的测试表明, 该算法的性能优越, 而且识别率较特征脸法更高。但是, 算法的计算量很大, 当样本数很多的时候, 训练时间是个问题。因此, 算法仍需进一步的改进和提高。
参考文献
[1]余晓梅, 徐丹。基于外观的子空间人脸识别方法研究[J], 计算机应用研究。2007, 24 (5) :10-12
[2]Belhumeur P N, Hespanha J P, Kriengman D J.FishedacesIRecognition using class specific linear projection[J].IEEETransaction on Pattern Analysis and MachineIntelligence.1997.19 (7) :771-720
[3]张贤达, 保铮。盲信号分离[J], 电子学报, 2001。29 (12) :1767-1771
[4]王展青, 刘小双等.基于PCA与ICA的人脸识别算法研究[J].华中师范大学学报, 2007, 41 (3) :373-376
[5]邢国。人脸识别中两种特征提取算法的性能比较[J].信息与电脑, 2011, 1 (6) :115-117
[6]龙际珍, 陈沅涛, 邓冬梅.基于模糊隶属度的人脸识别应用[J].计算机应用研究, 2011, 28 (7) :2789-2792
[7]Yuen PC, Lai JH.Face representation using independentcomponent analysis[J].Pattern Recognition, 2002, 35 (6) :1247-1257.
管制指令特征参数提取研究 篇9
管制模拟机训练对空中交通管制学员的培养十分重要。但是,目前管制模拟机存在一个很大的不足,即需要学员或者老师轮流担任飞行员席位人员,配合完成训练。因此,研究将计算机语音识别技术[2]应用于空中交通管制学员的培训中,采用自动飞行员席位代替专人飞行员席位具有重要意义。
目前,美国、澳大利亚等研究将计算机语音识别技术应用于管制模拟训练机中,已有具体的研发产品。国内2000年后陆续有过相关研究,但都没有实质性的进展,原因主要有:
(1)现有的成熟语音识别引擎,其孤立词汇的识别率能达到97.1%[3],特定人的连续语音识别率也能达到90%以上;但是陆空通话中的语句几乎都是格式固定的句子,且非特定人,因此研究具有高识别率的语音识别引擎是一难点。
(2)管制指令词汇量相对较少,但较为特殊,发音与标准的英语或普通话有明显区别,即便利用成熟的语音识别引擎系统进行二次开发,语音模板库的建立和训练也异常复杂。
(3)从事陆空通话语音识别研究的科研机构或团队相对较少,目前主要是川大智胜、南京航空航天大学、民航大学等进行了初步探索[1,4,5,6,7,8]。
计算机语音识别的主要流程如图1所示。特征参数提取是识别结果的重要影响因素之一。好的特征参数必须能很好地反映语音的特征,并且各参数之间应有良好的独立性,易于提取,计算方便。
目前,最常用的特征参数提取方法主要有提取线性预测倒谱参数(linear prediction cepstrum coefficien,LPCC)和梅尔频率倒谱参数(Mel frequency cepstmm coefficient,MFCC)[9]。现有的管制指令语音识别相关文献中,特征参数提取方法对识别率的影响研究较少,本文研究上述两种方法分别对特定人和非特定人管制指令语音识别系统识别率影响。
1 管制指令的特征分析
管制指令专业特征强,发音和拼读极具特色,是一种严格程序化、标准化的语言。从语音到语法都包含二次人造痕迹,要求发音高度清晰、指令公式化、简练性、词语的单一意旨性及结构祈使性等。同时,管制指令词汇样本空间小、指令较少、重复率高且工作环境噪声低。
2 LPCC线性预测倒谱参数
LPCC参数方法是语音识别研究者采用最多的特征参数提取方法[10]。线性预测(LPC)分析的基本思想是用加权的过去若干个语音信号的采样值进行线性组合来近似出当前的语音信号的值[11]。LPCC由LPC推算得到,反应声道的响应,一般只需十几个倒谱系数就能较好的描述语音的共振峰特性[12]。
LPC分析的声道模型系统函数为:
式(1)中,p是LPC分析的阶数;ak为线性预测系数(k=1,2,…,p)。采用Durbin法来完成LPC系数的计算,求得p阶线性预测系数ak。
设H(z)的冲激响应为h(m),由式(1)变换得:
令式(2)中左右两边常数项和z的各次幂的系数分别相等,推出ak和之间的递推关系,如式(3)所示。
由式(3)可从预测系数{ak}求出倒谱便得到倒谱特征的统一表达式。
3 Mel倒谱参数
Mel频率倒谱参数的分析是基于人的听觉机理[13],即依据人的听觉实验结果分析语音的频谱,获得语音特性。MFCC分析依据的听觉机理包括:
(1)人主观感知域的划定并非线性,根据Stevens和Volkman的工作[14],有式(4):
式(4)中,Fmel是感知频率,mel;f是实际频率,Hz。Fmel和f的关系曲线如图2所示。将语音信号的频谱变换到感知域中,便能更好的模拟听觉过程。
(2)临界带。频率群相当于将人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群那些频率的声音,在大脑中是叠加在一起进行评价的[15]。按临界带的划分,将语音在频域上划分成一系列的频率群组成了Mel滤波器组。
在语音的频谱范围内设置若干带通滤波器,为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内这些滤波器是等带宽的。每个滤波器的传递函数如式(5)所示。其频率响应波形如图3所示,其中,
f(m)可以定义为:
式(6)中,f1和fh分别为滤波器频率范围的最低和最高频率;N为DFT(或者FFT)时的长度;fs为采样频率;F-1mel为Fmel的逆函数:F-1mel(b)=700(eb/1 125-1)。
每个滤波器组输出的能量为:
经离散余弦变换得到MFCC参数:
4 算例分析
4.1 隐马尔科夫(HMM)声学模型[16]实现
以管制指令中0~9十个数字的录音识别为例进行仿真分析,每个数字的发音见表1。用于模版训练的语音均是在实验室环境下录制的标准陆空通话男生和女生发音,8 kHz采样,16 bit编码,单声道输出,存储格式为*.wav。用“录音软件V3.91”共采集了0~9十个数字的录音250个,每个数字均为25个录音(其中男生三人15个录音,女生二人10个录音)。用于识别率检测的语音由2人录制完成,共100个,每个数字10个录音。
具体实现步骤为:
4.1.1 语音信号预处理
包括了语音信号的预加重、分帧和加窗、端点检测三部分。
(1)预加重。
预加重的目的是补偿高频分量的损失,提升高频分量。预加重的滤波器为:
式(9)中,a为预加重系数,本文取0.937 5。
(2)分帧加窗。
语音信号为准稳态信号,将其分为较短的帧(10~30 ms),每帧可以看做为稳态信号,便可用稳态的方法进行处理。同时,相邻两帧之间有(1/2~1/3帧长)的重叠部分,以便于帧与帧之间能平稳的过渡。
采用汉明窗,窗函数为:
式(10)中,N为窗长,本文取N=256;n为采样点。
(3)端点检测。
采用语音信号的短时平均能量和过零率进行端点检测[12],具有算法简单,易于实现,且能够较好的区分噪音和语音等优点。
4.1.2 语音的训练与识别
对语音信号进行预处理后,管制指令语音训练和识别过程中分别采用公式(3)和公式(8)的方法进行特征参数提取。采用HMM为管制指令语音建立声学模型。在识别时,采用后验概率的方法[17]对数字进行筛选及确认,以便更好地实现训练语音与待识别语音之间的匹配。
4.1.3 程序实现
采用Matlab软件进行实验仿真分析,为了避免繁琐的程序代码和大量的数值运算操作,利用Matlab GUI(图形用户界面)设计操作界面,如图4所示。该操作界面嵌入预先编辑成功的仿真程序,在后续的操作中无需知道代码的具体内容,只要了解操作步骤即可操作界面。
GUI界面的主要功能有实现语音特征参数提取方法的选择,利用HMM模型对语音进行训练,并显示训练的时间、识别时间及识别率。也可用于实现语音实时识别,语音的波形、识别时间及识别结果的显示。训练的进度由图5所示的进度界面显示。
4.2 实验结果及分析
试验中语音训练要求的精度均为5×10-6[18],语音模版的训练和语音识别分为特定人和非特定人,经十次训练和识别的实验结果平均值如下。
4.2.1 特定人
如表2和图6~图7所示,特定人的管制指令语音模板训练和语音识别中,特征参数提取环节采用LPCC参数的训练和识别速度分别约为运用MF-CC参数的2倍和1.7倍;训练和识别稳定性均为运用MFCC参数的1.5倍。运用二者的语音识别率均为100%。
4.2.2 非特定人
如表3和图8~图10所示,非特定人的管制指令语音模板训练和语音识别中,特征参数提取环节采用MFCC参数的训练和识别速度比运用LPCC参数的分别快150 s和5 s;训练和识别的稳定性都略高于运用LPCC参数的。运用MFCC参数的识别率比LPCC参数的高13%。
由实验结果可知,特定人的语音识别中识别率都为100%,但是模板训练和识别的时间却相差较大,若研究记录特定管制员发送指令的次数和时间、管制员疲劳的评估等,可采用速度快、效率高的LPCC特征参数提取方法。若研究对象为非特定管制员,则可采用语音模板训练和识别速度快、识别率高的MFCC特征参数提取方法。
5 结束语
安全攻击特征自动提取技术研究 篇10
关键词:入侵检测,安全攻击,特征,自动提取
1 引言
随着网络通信技术在飞速发展, 安全攻击日益增多, 新的安全攻击技术和工具层出不穷, 造成了极其严重的威胁和破坏。入侵检测系统 (IDS:Intrusion Detection System) 是一种主动的安全防御设施, 实时地监视和分析用户及系统行为和网络中的流量数据, 从而有效地发现入侵企图或异常现象;记录、报警并作出及时的响应[1]。
基于特征的入侵检测技术是当前应用最为广泛的一种行之有效的攻击检测技术, 它基于攻击特征库中所抽取存放的各种安全攻击特征来实时地发现系统中的攻击行为。因此, 安全攻击特征的抽取是基于特征的入侵检测系统的基础和关键。
在早期的基于特征的攻击检测系统中, 通常采用基于网络安全专家的事后分析的方式来提取攻击特征。这种人工提取安全攻击特征的方法过程长、速度慢, 已经无法适应攻击手段和形式层出不穷的变化形势了。安全攻击特征自动提取技术不需要人工干预, 能够有效地发现新攻击, 并进行自动提取。对攻击特征自动提取技术进行了分析分类和总结。
2 攻击检测技术研究现状
准确及时地检测并阻止各种安全攻击能够有效地保障网络系统安全可靠地运行。攻击行为的检测是防御安全攻击的前提和基础。大量的专家和学者针对网络安全攻击的检测和阻止进行了研究, 其技术和成果主要体现在两个方面:
(1) 基于异常行为的攻击检测机制
基于异常行为的攻击检测机制是从正常的网络行为建模角度出发而提出的攻击检测和防御技术。该领域主要有基于统计的异常检测、基于数据挖掘的异常检测[2]和基于神经网络的异常检测[3]等方法。
基于异常行为的攻击检测的最大问题是, 实际的网络系统复杂且差异很大, 很难准确真实地为众多实际的系统构建合适的模型, 难以在实际的网络环境中应用。
(2) 基于特征的攻击检测机制
大量的网络攻击行为和攻击事件的分析表明[4], 安全攻击行为具有很强的特征性, 基于攻击行为的特征能够有效地发现并阻止网络攻击。因此, 基于特征的攻击检测和防御机制是一种行之有效的攻击检测途径。基于攻击特征的入侵检测技术已经广泛地应用于入侵检测系统和入侵防御系统以及防火墙中。
3 攻击特征的自动提取
3.1 特征自动提取技术
特征是对已知的攻击行为的描述。通常用特征码来表示各种攻击代码的特征。所谓特征码, 是指能够表征和描述某一种攻击行为或攻击代码的一组二进制序列。一旦抽取出某种攻击的特征码, 各种攻击行为的特征码通常都存放在一个统一管理的库中以备攻击检测时进行内容匹配, 这个库称为特征库或模式库, 相应的特征也被成为模式串。基于特征的攻击入侵检测通过模式匹配技术来实时地发现网络中所存在的攻击行为。入侵检测系统就能够借助模式匹配识别出所收集的当前系统的数据中是否包含有待检测的攻击特征, 也就是是否包含有一个或多个模式库中的模式串, 从而准确地识别出攻击。
提取攻击特征分为人工提取和自动提取两种。所谓攻击特征自动提取是指在不需要人工干预的情况下, 自动地发现新攻击并提取出特征码的过程, 其目的是尽可能快速准确地提取出攻击特征码, 解决传统的手工提取在周期长、速度慢、无法有效地防御新攻击等局限性[5]。
3.2 攻击特征描述
攻击特征自动提取的前提是对攻击特征的抽象和描述。当前的攻击特征描述主要有基于网络协议特征的攻击特征描述、基于负载内容的攻击特征描述、基于网络流量的攻击特征描述等方法。
存在大量网安全攻击的根本原因之一是网络协议本身所存在的一些安全问题。大量的网络安全攻击都是利用TCP、IP、UDP、ICMP等协议的安全漏洞来实施的, 因此, 使用网络协议包头的特殊字段的值是可以准确地表征相应的攻击特征的。例如, 著名的针对域名服务器的查询洪泛 (DNS Query Flood) 攻击使用UDP协议的53号端口对域名服务器发起攻击, 因此能够用UDP包头部的目的端口号的值=53来描述这种攻击。
很多安全攻击不是基于协议数据包头部数据的设置来实现攻击, 而是基于内容来实现的。这种情况下, 基于协议头部分析就无法描述其攻击特征了。通常需要考虑数据包的有效载荷, 根据领域专家的经验值来分析数据包的负载数据来描述攻击特征。
很多攻击, 特别是 (分布式) 拒绝服务攻击 (Do S/DDo S:Denial of Service/Distributed Denial of Service) 是通过发送大量的数据包以耗尽系统资源的方式来实现攻击的, 这种情况下就需要分析一段时间内网络流量来描述其攻击特征。
此外, 有的攻击还需要借助关联记录才能准确地描述其攻击特征。
3.3 自动攻击特征提取
自动攻击特征提取能够快速准确地提取新攻击的特征。根据所发现攻击的位置的不同, 安全攻击特征自动提取通常分为基于网络的攻击特征自动提取 (NSG:Network-based Signature Generation) 和基于主机 (HSG:Host-based Signature Generation) 的安全攻击特征自动提取。基于网络的攻击特征自动提取将提取系统部署在网络上, 通过分析网络上的可疑数据来提取攻击的特征码。
3.3.1 NSG方法
基于网络的自动攻击特征提取通常借助蜜罐 (Honeypot) 技术来发现可疑的攻击行为和网络数据。早期的基于网络的自动攻击特征的提取, 如文献[6]和[7], 大多采用提取“最长公共子串” (LCS:Largest Common String) 的方法来实现的。基于LCS的攻击特征自动提取方法的优点是能够在线性时间内完成特征提取, 但是, LCS方法只能实现对单个最长的特征片段的提取, 这使得该方法不能准确地描述攻击。
Atograph和Earlybird按照不同的方法将网络中的可疑数据流划分成固定长度的分片, 然后基于Rabin fingerprints算法来计算分片在所有可疑数据流中出现的频繁度, 再将频繁度高的分片输出为攻击特征[8]。这种方法称为基于固定长度负载出现频率的攻击特征自动提取方法, 其缺点是时间复杂度和空间复杂度都很高, 并且, 该方法难以选取固定长度的大小, 因此无法适应攻击变形的情况。后来Tangy等人将可以数据流中含有多个特征分段的固定长度部分作为关键区域利用两种迭代计算算法来查找这些关键区域[9]。该方法虽然解决了长度大小可选的问题, 但由于算法不能确保收敛, 因此其有效性受到了很大的限制。
2005年, 基于可变长负载出现频率 (Token) 的方法被提出来[10], 该方法一般采用遍历前缀树的算法, 通过提取数据流中频繁度大于一定阀值的所有的Token都被提取出来, 从而实现特征的提取。Vinod等人[11]则提出了基于有限状态自动机 (Finite State Automata:FSA) 的方法, 首先对可疑数据进行聚类, 然后对每一类中的数据流生成一个FSA, 最后将这个自动机转化为攻击特征。
3.3.2 HSG方法
基于主机的自动攻击特征提取系统则是部署在主机上, 通过检测主机的异常行为并利用在主机上所收集的数据来实现攻击特征的自动提取。根据提取时所指导的源程序代码的获知程度, 基于主机的自动攻击特征提取又可进一步地分为白盒HSG方法、灰盒HSG方法和黑盒HSG方法3种。
基于白盒的HSG方法需要攻击程序的源代码, 因此, 适用性比较差。这种方法在实际的系统中很少采用。
基于灰盒的HSG方法通过紧密地跟踪程序的执行过程来发现攻击的存在并且提取其攻击特征。灰盒HSG的实现方式包括基于动态数据流跟踪[12,13]、基于地址空间随机化 (ASR:) 技术[14,15]。基于灰盒的HSG方法不需要程序源代码, 其分析结果也比较准确, 目前大多数商用的HSG系统都是采用这种方法。
文献[16]最早提出了黑盒HSG方法, 称为HACQIT方法。该方法在受保护的程序发生意外崩溃后, 通过将可以的网络请求重新发送给该程序并且判断程序是否会在此因此请求而崩溃来检测出攻击的存在, HACQIT方法将检测到的这种能再次引起程序崩溃的请求称为“坏请求 (bad-request) ”。HACQIT方法的缺点是, 它只定义和发现坏请求, 却没有进一步地判断所有的坏请求中到底哪些才是真正的攻击行为———并不是所有导致程序崩溃的请求都是因为攻击而产生的。
4 结语
网络特征提取 篇11
关键词:水平集方法;支持向量机;特征提取
中图分类号:TP391.41文献标识码:A文章编号:1007-9599 (2012) 01-0000-02
Image Feature Extraction Study Based on Support Vector Machine Classification Level Set Methods
Wang Nan,Li Zheng
(School of Computer and Information Engineering Henan University,Kaifeng475001,China)
Abstract:This article proposes a level set method based on support vector machine classifier for image feature extraction method,in level set method for extracting image features in the application,by improving the energy level sets functions,the introduction of regional information,can extract the image inside and outside the boundaries of the target,and convergence speed.Feature extraction from image by nonlinear support vector machine classifier after treatment image classification.
Keywords:Level set method;Support vector machine;Feature extraction
一、引言
随着数字化技术的发展,特别是计算机和互联网的普及,各行各业时时刻刻都产生大量的图像数据。基于图像的各种计算机视觉系统、图像检索系统等逐渐受到广泛的关注,在这些系统中,图像的特征提取是这些系统的核心任务。
水平集方法(Level Set method)由Osher和Sethian于1988年提出的,用来解决界面的运动问题,因其具有拓扑结构自动识别和易于实现等优点而迅速应用于各个领域。水平集方法自提出以来,已在界面演化、流体力学、燃烧、材料力学、图像处理、计算机视觉等领域得到了广泛的应用。尤其是在图像分割与目标轮廓提取中,与主动轮廓模型相结合来做数值计算,较好地克服了传统参数主动轮廓模型(Snake)的缺点,自适应曲线拓扑结构变化,并具有稳定唯一的数值解。水平集方法的这些良好特性已经引起了人们越来越多的关注,已有很多成功的应用。
本文利用水平集方法对图像进行轮廓特征提取,利用支持向量机分类方法进行图像的分类处理。如下图所示:
二、图像特征提取框架
图像的内容特征包括图像的外观特征(颜色、纹理、形状)和语义。其中,图像的颜色、纹理、形状等外观特征被认为是较低层次上的特征,具有相对直观的特点;而语义是较高层次上的特征,具有相对主观抽象的特点。
本文主要采用基于形状特征来提取图像特征。形状特征一般有两类表示方法,一类是轮廓特征,另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。本文所采用的水平集方法就是通过对边界特征的描述来获取图像的形状参数。
三、水平集方法基本思想及其对图像有效特征的提取
(一)水平集方法的基本思想
在水平集方法中,平面闭合曲线 ,它被隐含地表达成三维的连续的函数曲面 中的一个具有相同函数值的同值曲线,在这里当 ,称为零水平集, 称为水平集函数。由于在高维中不仅易于拓扑变换,而且无需重新参数化,计算更加精确,所以水平集方法可以非常容易的向更高位推广。
(二)水平集方法对图像的特征提取
Chan和Vese结合水平集和Mumford-Shah模型提出的C-V水平集模型,提取目标边界时不依赖图像的梯度,而是利用特定目标灰度的一致性,对图像梯度不突出或边缘不连续的图像能实现很好的分割。
Mumford和Shah提出了结合图像边界和区域的分割模型,即Mumford-Shah模型,该模型完全基于图像数据的驱动来完成分割,不需要待分割图像区域的任何先验知识。
其能量泛函构造如下:
(3-1)
为原始图像,其定义域为 ,C为图像的边缘曲线,通过同时优化 的近似u及其图像的边界C使以上参量泛函最小化。式中第一项为曲线长度项,控制图像边缘粗糙程度;第二项为图像数据项,控制处理后的图像相似性;第三项为正则项,控制分割图像的光滑性。此模型将边缘检测、区域分割和图像恢复综合在一起,是当前比较好的图像分割模型。
结合水平集方法,设图像M(x,y)的定义域为 ,闭合曲线C将其分为两个区域:目标 和背景 ,分别在C的内外部,且这两个区域的平均灰度为 和 ,构造能量函数:
(3-2)
式子中, 为图像任意演化曲线, 为C的长度, 为C包含的区域面积, 为曲线内部, 为曲线外部。只有当演化曲线 位于图像中同质区域的边界处时,上式中 的值取最小值,就能得到全局最优分割。在水平集方法的特征提取中,构造合适的水平集函数是至为重要的.能量函数(3-2)中的内部能量采用符号距离函数(Signed Distance Function,SDF),为了确保平集函数始终为符号距离函数,避免演化过程中对水平集函数的不断重新初始化.在外部能量中,引入区域信息.
利用水平集方法提取有效表征的特征算法过程为:(1)给定初始的轮廓曲线;(2)计算闭合曲线能量函数的梯度;(3)沿梯度下降的方向更新曲线;(4)如能量函数最小,则停止迭代过程,否则转入(3).
四、支持向量机分类器
(一)支持向量机的分类机理
支持向量机算法具有良好计算的有效性、健壮性和稳定性等优点,已广泛的应用到模式识别和分类领域,构造的所有分类器均收敛。支持向量机分类器具有良好的非线性分类及泛化能力,可用于图像的分类。其核函数是处理非线性问题的基础,选择及设置将直接影响系统的运行速度和泛化能力。本文将采用非线性支持向量机分类算法。
(二)核函数
选择不同的核函数 ,可构造不同的支持向量机,常用的核函数如下:
(1)生成多项式的核: 为阶数。
(2)生成径向基函数的核: ;
(3)生成Sigmoid的核: ,S是Sigmoid函数。
首先采用水平集方法对图像进行分割,提取目标与背景的形状特征参数;选取最有效的特征数据组合,将其输入支持向量机进行分类学习训练,实现对目标特征的有效提取。实验结果表明,使用该方法获得的图像特征提取效率较高,在同等条件下,速度优于人工神经网络。
五、结论
由于图像特征提取方法具有较高的提取效率,所以得到了广泛的应用。目前图像特征提取技术得到了越来越多学者的关注,但是仍存在不足和有待解决的问题。本文通过改进水平集能量函数,在无初始化水平集模型中引入区域信息,融合区域信息的水平集分割方法,使得同时可以提取图像目标的内外边界,并且收敛速度快。提取有效的图像特征之后用支持向量机非线性分类器对目标图像进行分类。在支持向量机分类过程中选择不同的核函数就构造出不同的支持向量机,因此我们需要针对不同的处理对象选择合适的支持向量机分类器。
参考文献:
[1]S.Osher and J.A.Sethian.Fronts propagating with curvature dependent speed:Algorithms based on Hami-lton-Jacobi formulations.Journal of Comp.Phy,1988,79(1):12-49
[2]王文惠,周良柱.基于内容的图像检索技术的研究和发展[J].计算机工程与应用,2001,5:54-56
[3]T.F.Cha,L.A.Vese,AetiveContourswithoutEdges.IEEETrans.onI.geprocessing,2002,10,2
[4]张清勇.支持向量机在肝脏B超图像识别中的应用研究[D].湖北:武汉理工大学,2009
推荐系统中在线特征提取研究 篇12
推荐系统具有非常广阔的用户群体, 人们已经逐渐从传统的全文搜索方式转变到智能结果排序的方式, 推荐系统能够根据用户的喜好对查询内容进行智能筛选和排序。 推荐系统最重要的内容是对用户的兴趣的提取, 并能够将这种实时兴趣的变化反馈到结果的筛选和排序上, 推荐引擎作为一种在线推荐的形态, 需要对用户的特征进行在线提取和分析, 这是推荐引擎的要义, 主要针对推荐引擎中在线特征的提取进行研究。
1在线处理工具
数据实时性的重要性已经在各类系统中凸显出来, 为了保证用户的相关数据能够在用户接口层进行实时提取和分析, 各类型的在线存储和处理工具产生。
(1) HBase在线数据库。 HBase是一种分布式环境下的在线数据存储平台, 它是伴随着分布式系统的发展而共同发展。 HBase作为一种分布式环境下的数据存储环境, 能够支持大数据量的数据写入和查询并能够保持较高的系统性能。 HBase的表结构如图1所示。
HBase通过API的方式能够为应用程序提供接口对HBase底层的数据存储进行操作而无须了解底层存储的内部细节, 能够将应用开发和数据存储分离, 这种API的访问模式在用户数据的在线提取分析并存储的过程中优势尤为明显, 能够快速地将用户的数据保存下来而不会对整体的系统性能造成影响, 推荐系统可以针对保存下来的数据进行离线分析, 能够很大程度上将在线数据存储和数据分析分离。
HBase在线数据库不仅在在线数据存储方面有很大优势, 本身作为数据库工具在数据的离线处理方面也同样适用。 HBase的数据存储基于分布式文件系统, 能够集成Hadoop工作环境, 能够对HBase内部数据进行Map Reduce计算。 大量的特征数据分析都需要离线做大量的数据处理和分析, 包括对清洗数据的模型训练等。
(2) Storm实时流处理工具。 Storm实时流处理工具最早由Twitter提出, 因Twitter业务上需要对用户高频发情况下的用户推文信息做在线处理, Storm消息流处理工具正是在这种环境下被研发并投入使用。
Storm同样是一种分布式环境下消息流处理工具。 国内的微博同样在应用上大量采用了Storm, Storm能够聚合多种数据源, 并能够将多种数据源进行聚合做在线处理, Storm在数据的处理性能上具有非常明显优势, 它不像Hadoop作为一种离线的数据处理方式, Storm更主要地作为在线的消息队列处理工具。 更重要的Storm是分布式实时数据处理工具, 它能够和很多分布式处理框架相结合, Storm能够实时将数据写入到HDFS上, 也能够作为一些实时流处理工具的输入数据源, 比如spark streaming的在线处理能够以Storm作为数据处理源。
(3) Message Queue消息队列工具。 Message Queue是一种消息队列的存储和处理工具, 它作为信息的载体能够承载信息流的传递和处理。 HBase作为一种数据在线写入形态, 可能会对底层存储产生过高的负载, 因为数据存储单元可能同时面临数据查询的任务, 这会导致数据块整体的存储和查询效率降低。 此处Message Queue可以作为一种很好的中间层来平衡这之间的性能差异。 HBase可以直接将数据写入Message- Queue进行缓存, Message Queue通过控制消费速率的方式来保证对底层数据存储块的压力。 此处的Message Queue是作为缓冲池的作用存在, 能够缓解数据写入速率和数据存储块访问不均衡性带来的系统性能问题。
(4) Redis和Memecache在线存储工具。 Redis和Meme- cache作为数据的存储单元具有非常高的性能, 其数据写入速率比HBase更快。 Memecache是一种纯内存的数据存储工具, 因为是内存型数据库, 因此具有非常高效的数据存储和访问效率。 这两种工具不仅在特征的在线提取时具有非常重要的意义, 在实际的数据推荐时也同样有很大的应用场景, 基于协同过滤的方式对用户进行推荐时, 需要保存用户和项目大量的KV信息, 这对于Redis和Memecache是很好的应用场景。 Redis和Memecache和区别主要在数据的保存上, Redis并非一种纯内存型的数据库, 它是通过有选择性地将内存中数据刷写到磁盘上, 因此当机器断电等状态时, 数据能够通过磁盘进行恢复, 相反, Memecache这种纯内存型数据库断电后数据会全部丢失。
2特征提取方法
推荐系统作为一种在线推荐形态, 对各种数据的实时性要求非常高。 用户特征的实时提取作为整个推荐系统的第一步具有非常重要的意义。 特征包括用户维度的特征和内容本身维度的特征两个方面。
用户维度的特征包括用户历史特征信息以及用户当前推荐环境下的实时特征信息。 用户历史特征可以通过对用户历史行为进行分析提取获得, 用户实时特征数据通过需要一些在线分析, 比如用户当前浏览了某一件商品, 需要将当前商品映射到用户的某个兴趣维度上, 评论信息和购买信息等都是用户实时特征的反映, 这些实时信息在用户使用推荐系统时尤为重要, 需要将用户每次的实时行为都提取并反馈到用户特征维度上, 通常用户行为的提取等可以通过Storm实时流接入, 在Storm实时流内部对接入的用户行为进行分析并快速映射到用户特征维度上。 商品信息维度的特征相对则较为固定, 每次可根据推荐的预筛选内容对内容维度的特征进行实时提取, 内容维度的特征同样需要在线实时分析, 同样可以采用Storm的方式分析处理。 因为需要保存用户的全量的原始特征数据, 可将用户维度的原始特征数据以Redis方式存储来保存特征访问时的时间效率。
推荐系统中存在多种维度的特征, 用户维度和项目维度的一些简单特征可以很简单地完成, 某些深层次的特征则并非通过简单的Storm数据流就可以完成。 以用户维度为例, 在对用户推荐时, 可能需要依赖历史其他用户对该用户的评价信息, 这其实是需要实时地处理历史到当前大量数据量, 通常对于此种情况, 可以保留用户历史当前某个时间点的全量数据, 当该用户在新的时间被新用户新增评价时, 可将新增加的评价信息去更新全量数据来保证用户特征数据的鲜活性。 对内容维度存在同样的问题, 在推荐系统中对用户推荐的依据实际上可以理解为用户对商品的CTR预估, 商品维度上历史CTR信息是一个非常重要的特征, 它反映了该商品历史的点击情况, 历史CTR信息作为深层的特征信息, 需要对该商品历史的数据做全量分析。
3结语
分析了当前推荐系统的主要应用场景, 作为时下各大平台检索通道中主要业务支撑对象, 提高推荐系统的推荐准确率能够给平台带了极大的经济效益。 推荐系统是用户和平台之间的接口, 用户通过推荐系统能够直接感知平台的体验, 在推荐系统的整体架构分析中, 在线特征的分析提取是整个推荐系统的核心, 分析时下各个主流的在线信息处理工具, 并分析了在推荐系统的特征提取环节如何将各个工具应用到具体的特征提取中。
摘要:推荐系统作为目前主流的推荐形态已经在各大平台上获得了广泛应用。推荐系统最核心的要求是实时性,推荐系统的存在形态是一种实时在线的推荐方式,能够根据用户的动态兴趣变化实时调整推荐结果和推荐顺序,因此用户实时的兴趣变化捕捉和分析尤为重要。
关键词:推荐系统,在线推荐,特征提取
参考文献
[1]朱小琴.基于Apriori算法的个性化电影推荐系统设计与实现[J].九江学院学报(自然科学版),2016,01:84-86+119.
[2]海本斋,解瑞云.基于贝叶斯网络的上下文推荐算法[J].计算机科学,2014,07:275-278.
[3]杜静,段会川.基于上下文的智能应用推荐系统架构设计[J].信息技术与信息化,2008,05:38-40+43.
[4]焦亚琴,刘晓云,张银叶.基于Mahout的个性化电子商务推荐系统研究[J].电脑知识与技术,2015,11:261-264.