特征提取与分析

2024-07-24

特征提取与分析(精选12篇)

特征提取与分析 篇1

摘要:Flash电影是活跃在互联网、移动终端通信、电视网络等平台上的一种非常流行的媒体格式。一部Flash电影的媒体元素包含:图形、图像、声音、脚本、文本、蒙版、逻辑场景、视觉场景、影片剪辑等多媒体元素, 为了进一步分析Flash电影的内部特征属性, 需要把这些媒体元素从中提取出来进行分析研究。本文基于对Flash电影声音特征属性的分析与研究, 通过对Flash电影中声音的定义存储结构和压缩算法分析, 完成对声音特征属性的提取与标注。

关键词:Flash电影,声音特征,声音提取

1 引言

在我们观看一部Flash电影时, 吸引我们的不仅仅是绚丽的视觉场景, 而且还包括复杂的听觉特征。声音可以增强影片视觉画面的存在感、扩展视觉空间, 在Flash电影中声音主要表现在两个方面:背景音乐和声音效果。本文首先定义了Flash电影中的声音特征属性, 然后分析了声音的存储结构和压缩算法, 最后介绍了如何在Flash电影中提取声音特征。

2 Flash电影中声音的定义和存储结构

在Flash电影中, 音频分为两种:事件音频、流式音频。

2.1 事件音频的定义和存储结构

在Flash电影播放过程中, 事件音频的播放一般都会有特定的事件相伴随, 比如点击鼠标、键盘, 或播放过程到达某一个特殊点, 都会伴随着特定的音频播放。在使用事件音频之前, 必须对其进行定义, 定义以后就可以多次使用。在Flash电影中, 事件音频的定义和存储结构需要用得到三种标签:Define-Sound、Start-Sound1和Start-Sound2标签。构成事件音频取样的标签为Define-Sound标签, 事件音频的类型由Sound-Info记录定义, 类型包括音量控制、循环标志、同步、淡入、淡出。调节Flash电影初始放映声音的标签为StartSound1标签, 调节Flash电影初始放映非事件音频类的标签为Start-Sound2标签。

在Define-Sound标签定义事件音频时, 特征参数包括分辨率、采样率、声道标记。如表1为Define-Sound标签的结构特征及其说明。

声音的唯一标识代码是Sound-ID, 播放声音时StarSound1控制标签首先调用Sound-ID。在Flash电影中, 声音格式可以分为:MP3压缩格式 (用2表示) 、ADPCM压缩格式 (用1表示) 、位压缩小字节格式 (用3表示) 、Nelly-moser格式 (用6表示) 和未压缩格式 (用0表示) , 格式不同说明声音内容不同。Sound-Rate (声音采样率) 是把声音在A/D转换的过程中, 在每一秒钟时间内的采样次数, 理论上要想让声音质量较好地呈现, 采样率越高越好。Sound-Size (分辨率) 是单个采样点表示音频的位数, Flash音频文件中的位数为8位或16位。分辨率是用一个指数来描述的, 用8位分辨率来描述采样点指的是用2的8次方级深度表示采样点, 同样用16位分辨率描述采样点指的是用2的16次方表示采样点。声音越细致, 内容信息越多, 表明声音的分辨率越大, 占用空间越大。声道类型分为两种:单声道、双声道, 单声道包含的内容信息是双声道包含的内容信息的一半, 因此双声道音频文件占用空间是单声道音频文件的一倍。

Define-Sound标签用来定义声音, Start-Sound控制标签控制播放器播放声音的开始或者暂停。Sound-ID表示声音的唯一标识ID, Sound-Info定义声音播放方式, 调整SoundInfo记录中的Sync-Stop就可以实现暂停播放。Start-Sound2标签和Start-Sound1控制标签的内容差不多, 唯一的区别就是Start-Sound2标签控制播放的声音, 不再是单个声音而是其他Flash电影文件中定义的声音。

Sound-Info记录是用来标注怎样播放一个Define-Sound标签定义的事件音频。记录中可以调整的声音属性有:是否循环及循环数、重放时的开始和结束位置、音量控制的声音封装。

2.2 流式音频的定义和存储结构

Flash电影文件也支持流式音频格式, 流式声音内容信息的下载与播放与电影文件的时间轴密不可分, 音频的前几帧载入后即可进行播放, 声音数据块随着Flash电影的帧进行存储。在Flash电影中, 音频流与播放画面是同步的, 声音内容根据帧的排列被分成很多块, 若电影播放速度快, 有些声音块就会跳过不进行播放, 保持声音块的播放与画面播放同步。在Flash电影文件中, 主要时间轴上特定时刻只有一个对应流式音频进行播放, 但对每个Flash影片剪辑有自己的时间轴, 可以有自己特定的流式音频。

在Flash电影声音文件中有流式音频时, 必须由SoundStream-Head1或者Sound-Stream-Head2标签定义音频信息格式、播放格式和声音数据块中样本平均数之后, 第一个音频数据包才能进行播放。Sound-Stream-Head1标签中定义的采样率有四种:5.5 k Hz、11 k Hz、22 k Hz和44 k Hz, 分辨率为16位, 播放类型为单声道或者双声道。此外, 在Flash电影中流式声音的压缩格式只支持MP3压缩、ADPCM算法压缩这两种格式。Flash电影中的采样率、分辨率和声音类型, 在播放的过程中, 可以忽略它们。Sound-Stream-Head2标签在Sound-Stream-Head1标签功能的基础上, 加载了音频压缩类型和音频分辨率类型。除了MP3压缩和ADPCM压缩这两种压缩类型之外, 还有Nelly-moser压缩、小字节无压缩和无压缩等类型。如表2所示为Sound-Stream-Head2标签的结构特征及其说明。

Sound-Stream-Block标签是用来定义与帧数据混合存储的音频信息。在定义Sound-Stream-Block标签的时候, Sound-Stream-Head1或Sound-Stream-Head2两个标签必须是已经定义好了。一个Flash电影帧中只包含一个SoundStream-Block标签。Sound-Stream-Head1标签中定义的压缩类型决定了流式声音数据块中的内容信息。压缩类型为无压缩或者小字节无压缩时, 流式声音数据块中有初始未压缩采样;压缩类型为ADPCM压缩时, 流式声音数据块中有AD-PCM音频数据记录;压缩类型为MP3压缩时, 流式声音数据块中有MP3音频数据记录;压缩类型为Nelly-moser压缩时, 流式声音数据块中有NELLY-MOSER-DATA记录。

3 Flash电影中声音的压缩算法的分析

在Flash电影中, 音频文件的压缩方法主要有MP3压缩和ADPCM压缩等压缩算法。

3.1 MP3压缩

MP3全称是Moving Picture Experts Group Audio Layer III, 是当今比较流行的一种数字编码和有损压缩格式, 主要是用来降低音频数据量。MP3压缩对音频文件进行压缩时, 压缩掉的只是人耳听不到的波形信息, 因此压缩后的音频对大多数用户来说, 在听觉感受上音质没有很大区别。另外, MP3压缩格式的压缩率比较高, 最高压缩率可以达到1:12。

Flash电影中MP3的压缩过程, 首先把音频波形文件加载到Flash文件中进行编辑, 然后把音频波形文件以MP3格式随着Flash文件输出, 在随着Flash文件输出的过程中自动会对音频波形文件进行格式转换和压缩。MP3压缩格式的压缩率比较高, 既保证了声音无失真传输, 又缩小了带有音频文件的Flash电影占用空间。持续时间较长的音频文件和流式音频声音文件, 进行压缩时比较适合采用MP3压缩格式。在制作Flash电影过程中, 载入音频文件进行压缩时, MP3压缩格式是第一选择, Flash电影制作软件中既可加载MP3格式文件, 也可将导入其它格式文件在输出时压缩成MP3格式。

在Flash电影中, MP3音频参数表现在两个方面, 分别是采样率和MP3帧的存储数组。采样率用于在帧上细分流式音频, MP3帧的存储数组是用来存储音频文件中声音的数据。MPEG音频帧在MP3音乐文件和MP3帧记录中是一样的, 都是由前32位帧存储头信息, 后面一个字节数组来存储声音编码的样本。如表3所示为MP3-FRAME标签的结构特征及其说明。

3.2 ADPCM压缩

ADPCM指的是自适应差分脉冲编码调制, 英文全称是Adaptive Differential Pulse Code Modulation, ADPCM调制方式是一种针对16位 (或8位或者更高) 声音波形属性的一种有损压缩方式。ADPCM调制对声音采样时的频率是固定不变的, 采样时对采样点的实际信号幅值和预测信号幅值的变化量, 对此变化量进行量化编码, 量化编码采用不均匀的方式进行。当幅值变化量很小时, 就会大大减少不均匀量化编码的编码位数。ADPCM算法压缩方式既有自适应脉冲编码调制系统的自适应性, 又有差分脉冲编码调制系统的差分性, 使得这两种特性较好地结合在一起。自适应特性可以用来改变量化阶, 也就是较小的幅值变化量用小量化阶来编码, 较大的幅值变化量用大的量化阶来编码;利用差分特性可以利用过去样本值估计后面样本预测值, 使得预测值和实际值间的幅值变化量最小。在Flash电影文件中, ADPCM调制方式只是针对16位或8位的声音波形属性进行压缩。对16位声音波形压缩时, 压缩比为4:1, 即存储采样数据时是4位, 这种压缩方式是一种有损压缩, 用于时间很短的时间声音输出。

ADPCM-SOUNDATA记录的定义中包括编码大小和存储ADPCM信息的ADPCM-PACKETS。在Flash电影中, ADPCM编码样本格式有四种:4位、5位、6位和7位。依据声音声道数量的不同, ADPCM-PACKETS可分为两种存储结构:ADPCM-MONOPACKET和ADPCM-STEREOPACK-ET。

4 Flash电影中声音特征属性的提取

上述提到, 事件音频的内容结构是由Define-Sound、Start-Sound1和Start-Sound2三种标签来定义的, 流式音频的内容结构是由Sound-Stream-Head1和Sound-Stream-Head2两种标签来定义的, 在对Flash电影中的声音特征属性进行分析提取时, 可以对这些定义音频文件的标签进行分析提取, 进而分析其声音的内部结构和特征属性。如表4所示为Flash电影中声音特征属性描述。

对事件音频来说, 特征参数中的声音长度的取值是短、中、长, 这三种取值是用音频中的样本数量来界定的, 当样本数量<20000时, 取值为短;当20000<样本数量<60000时, 取值为中;当样本数量>60000时, 取值为长。对流式音频来说, 声音长度是用音频中的样本数量和每个样本中的子样本数量的乘积来表示的, 取值定义和事件音频是一样的, 当样本数量<20000时, 取值为短;当20000<样本数量<60000时, 取值为中;当样本数量>60000时, 取值为长。

在Flash电影中, 对声音特征属性进行提取标注的方法有两种。第一种:根据Flash电影中对事件音频和流式音频的定义, 构建Flash电影中声音特征属性提取的程序平台, 在程序平台上可以对声音的特征属性进行提取, 并在程序平台的显示界面上呈现出来, 另外也可以直接保存到电脑的指定位置;第二种:根据Flash电影中声音特征参数字段定义, 组建声音特征索引库, 使用声音结构属性标注程序, 把提取出的声音特征属性放置到特征索引库中, 完成对Flash电影中声音特征属性的标注。

Flash声音特征属性的提取平台包括两部分:提取声音特征属性和保存声音特征属性。通过分析Flash电影中定义播放事件音频的Define-Sound标签、Start-Sound1标签、StartSound2标签分析提取事件音频的特征属性;通过分析SoundStream-Head1标签、Sound-Stream-Head2标签等分析流式音频的特征属性。提取的声音的特征属性有Flash电影中声音的数量、ID、声音的类型以及事件声音的采样率、位分辨率、声道, 流式声音还添加了播放采样率、播放位分辨率、播放声道信息。提取的声音特征属性可以以txt文档的形式保存到电脑上。如图1所示为Flash电影声音的特征提取界面。

5 实验结果及分析

硕思闪客精灵是一款用于浏览和解析Flash电影 (.swf文件和.exe文件) 的工具。它能够将flash电影中的图片、矢量图、声音、字体、文字、按钮、影片片段、帧等基本元素完全分解, 还可以对flash影片动作 (Action) 进行解析, 清楚地显示其动作的代码, 让您对Flash动画的构造一目了然。

我们以硕思闪客精灵反编译的声音元素个数作为标准, 评价我们所开发的Flash声音特征属性的提取平台的查准率和查全率, 公式1、2所示为查准率、查全率的计算公式。通过对Flash电影样本库中每一类的100个Flash电影文件进行分析, 得到每一类中100个电影所含的元素个数, 求得每一类Flash电影中这个元素的平均个数。所以表中的平台提取元素个数和硕思提取的元素个数都是指每一类Flash电影所包含的平均元素个数。

查准率=平台提取元素个数/平台提取的元素总数 (1)

查全率=平台提取元素个数/硕思软件提取元素总数 (2)

表5所示为Flash电影声音元素分析统计表。如表所示, Flash电影中MTV、动画、广告类声音元素的查准率达到100%, 查全率都在85%以上, 课件、游戏两类Flash电影的查准率分别为99.86%、89.03%, 查全率都是100%, 提取效果较好, 达到了实验目标。Flash电影声音内容特征提取平台对声音的提取分为对事件声音的提取和对流式声音的提取。事件声音的提取是按照Define-Sound定义标签, 流式声音的提取是按照Sound-Stream-Head1标签、Sound-Stream-Head2标签。MTV、动画、广告类Flash动画中以流式声音为主, 包含少量的事件声音。在提取过程中是按照Sound-StreamHead1标签或Sound-Stream-Head2标签来计算流式声音的数量, 在实际Flash电影文件中有些流式声音块被事件声音隔开, 提取平台依旧算作一个声音, 而在硕思闪客精灵软件中则算作两个声音, 所以MTV、动画、广告类平台提取的声音个数会偏少。课件、游戏类Flash电影中主要包含事件声音, 文件中可能包含流式声音Sound Stream Head1标签或SoundStream Head2标签, 而后面并没有流式声音块, 没有流式声音, 提取平台却当成了一个声音, 所以平台提取的课件、游戏类声音会偏多, 出现查准率偏差。

参考文献

[1]Kim Y.A Temporal Locality-Aware Page-Mapped Flash Translation Layer[J].Journal of Computer Science&Technology, 2013:1026-1043.

[2]任晓芳.基于Flash动画的自适应多媒体流在跨设备视频会议中的应用[J].科学技术与工程, 2014, 11 (31) :262-268.

[3]王岳平.Flash电影中图形特征的提取与研究[J].枣庄学院学报, 2015, 32 (2) :135-139.

[4]邵长侠.Flash组成元素的内容特征提取与标注研究[D].山东师范大学, 2012.

[5]石朝晖.Flash技术在动画电影中的应用研究[J].电影文学, 2012, (15) :52-53.

[6]蔡鹏.Flash动画在网页制作中的应用及相关探讨[J].电子技术与软件工程, 2013, (19) :90.

[7]钱翔.动感视觉——试论电影蒙太奇艺术表现手法在Flash动画中的运用[J].科技资讯, 2010, (5) :240.

特征提取与分析 篇2

运用小波分析理论及其时频分析方法,阐述了提取高频信息与低频信息的方法,并用该方法提取了以来云南地区强震(Ms≥6)前数字化形变异常.结果表明,在Ms≥6地震前,震中附近(<250km)的倾斜、应变和重力等形变信号出现周期为3~11天的.异常信息;重力和倾斜异常出现较早,可作为中短期指标,应变异常出现较晚,可用作短临指标;震源区最先出现应变异常,应变异常可作为未来强震震中的判定指标.这些强震前数字化形变异常特征对该地区未来强震三要素的中短临判定具有较好的参考作用.

作 者:刘强 宋治平Liu Qiang Song Zhiping 作者单位:刘强,Liu Qiang(中国科学技术大学地球和空间科学学院,合肥市金寨路96号,230026;云南省地震局,昆明市北市区北辰大道,650224)

宋治平,Song Zhiping(上海市地震局,上海,62)

特征提取与分析 篇3

关键词:图像识别;特征提取;图像识别

中图分类号: TP391 文献标识码: A 文章编号: 1673-1069(2016)14-158-2

0 引言

主成分分析的基本思路是找出最优的单位正交矢量集,在线性组合下重建原始样本,重建后样本和原样本间会出现比较小的误差。一般情况下会采用训练样本协方差矩阵方法作为开展基,选择适合的若干最大非零特征的特征向量最终成为主成分或是主分量,模式样本在主成分中的投影系数被称为主成分特征。

1 非线性投影分析

1.1 在流形基础上的特征提取

复杂高维模式样本可能会通过一组维数中出现严重低于样本特征维数实现确定。就几何学而言,上述属性数据简称为流形。将流形假设当成基础,利用流形中的基本性质,研究高维空间数据并简化数据,降低维数,对复杂式的内在规律学习方法进行探寻叫作流形学习。更加严格的表述是:假设数据是均匀采样在一个高维空间中的低维流形,求得对应的嵌入映射,目的是实现维数约减或者是对其可视化需求进行满足。Seung等人在2000年站在的认知角度上对流形角度开展了讨论,确定感知是在流形的方式下存在,并在实验中证明了人脑的确存在稳态流形,这就是在模式识别以及人类的感知中构架其连同桥梁,使得流形学习存在了较为坚实的理论基础。主流行、谱分析以及变分法在本世纪初流形的学习研究中是三个热点,具有代表性的方法是同构映射、局部线性嵌入和拉普拉斯本征映射等。通过以上方法会获取较好的低维可视效果,针对映射非线性,如何得到测试样本低维将会存在一定的困难,对此不适合对特征降维实现直接性的应用。

此时需要注意,若将流形的学习映射转为限制线性投影,流形学习方法线性化方式,取得测试样本低维表示形式会更加容易。在如此的初衷基础上,He等人提出了局部的保持投影以及邻域保持嵌入等,分别通过LE和LLE的线性化方法的基础上,成功应用在人脸识别当中。

1.2 稀疏学习上特征中的提取

针对以上线性投影方法,学习投影向量在所有原始特征变量基础上实现线性组和,做出特征和变量层方面的解释含义较为困难,这是其不能说明什么变量在数据中的表示和分类中的十分关键作用的原因。实践性利用线性投影抽取特征,不但会获取最有效低维特征,还能更清楚了解什么样的维数在压缩中的作用更加关键,进而对未来的数据特征的采集当作指导和参考,同时也可以进一步加深人们对数据的更深层次的理解。一方面可以对关键特征进行少量的收集,降低工作难度及强度;此外还能对算法的时间以及空间效应进行提升。也就是在这一应用背景下,提取样本稀疏特征,正确方式是模式的识别舞台。[1]对系数特征进行提取,在一定基础上引入L0和L1范数同时对其实现优化,其中的一部分表征变量权重系数将0作为目的。0元素对应的变量在特征提取中未做到贡献,因此,稀疏特征就提取本质上可看作特征选择。

2 相关投影分析

2.1 典型相关分析的基本理论和研究

典型相关分析属于经典的多元统计方法,该方法的首次提出者是Hotelling,CCA在很多的领域中都被进行了应用,除了应用价值,在理论上也存在着较为深刻的意义,因而被研究学者所重视,多元回归分析在某种意义上,可以判别分析等数据,被看作归结典型分析的特例。

典型相关分析主要是研究两组的随机矢量数据相关性问题,具体来讲,已经存在的两个已被去掉的均值随机矢量样本X=[x1,x2,…,xn]∈Rp×N和Y=[y1,y2,…,yn]∈Rp×N,CCA的目的是要找出一对投影的方向w和u,对投影后的样本特征进行满足后,z1=wTX和z2=uT之间是存在最大相关性的。通常情况下,投影方可以在最大化准则下将得到函数:

2.2 偏最小二乘基本理论

偏最小二乘的回归分析是在应用领域中对新型多元数据分析法来提取,该理论是Word等人在1983年提出的。近20年后,PLS通过方法、理论、应用取得了十分快速的发展。PLS模型的鲁棒性使得其出现了回归性的分析以及维数压缩分类中的有力工具,在最近几年被广泛应用在了程序控制、图像处理等领域内。

偏最小二乘的基本思想是对两个去掉均值的随机样本X=[x1,x2,x3,…,xN]∈Rp×N和Y=[y1,y2,y3,…,yN]∈Rq×N,找出一对投影方向上w和u,对于投影后样本特征z1=wTX与Z2=uTY相互的最大协方差系数。在投影的方向选择中,可以在最优化情况获得最优的目标函数:

JPLS(w,u)=Cov(z1,z2)=wTSxyu

上式中的约束条件为:wTw=uTu=1,Sxy表示的为两组特征相互间的协方差矩阵。对函数极值准则进行优化,转为两组特征矩阵下SxyTSxy和SxySxyT最大本征值同本征向量的求解相关问题。[3]

3 图像识别中的应用

3.1 人脸识别

人脸识别是在计算机作为辅助手段下,对静态人脸图像以及动态序列图像实现各种人脸图像的匹配和分类。人脸识别技术可以被看做是模式识别研究中的重点研究内容,这是图像处理、模式识别和计算机视觉较差影响的最为积极的研究方向。人脸识别中的关键性问题是如何在人脸图像中抽取稳定有效的个体特征,并且使其可以和其他个体之间进行区别。这一方式存在多种运用优势。

无侵犯性是人脸识别技术中最大的优点,该技术可在不被识别察觉中实行,基本上不需要被识别者进行合作,更不会造成反感情绪,进而被广泛的运用在安全监控和嫌疑人认定等场景内。

较为自然,人脸识别方式和人类识别特征相互之间有着较高相似度。日常生活中人们相互间的身份识别最直接且对常用的手段就是人脸识别。因此对于其他的生物特征,该方式更易被人接受。

性价比高,在人脸识别中运用的硬件设备十分简单,基本上只需要对普通摄像头进行使用就可以,并且可以利用人脸识别的数据库资源,这种情况下引起的系统成本往往比较低。

交互性强,就人脸识别来看,授权用户交互和配合可有效提升系统可靠性与可用性,就虹膜和指纹等识别系统而言,一般的用户识别并不会发挥正常的作用。

3.2 手写字体识别

在获得字符的特征表示之后,我们可以对投影分析实行二次特征抽取和分类,通过这一方式可以消除原始特征变量的相关性,随后降低特征空间的维数,并且在识别的过程中可以在低维特征空间内实施,进而提升识别的速度。

3.3 图像集的匹配和分类

汇总识别图像的过程,就单复图像的目标可能会遭遇各种问题引起的结果不稳定情况,并且图像会受到光照、视觉以及姿态和距离等多种因素的影响,进而出现鉴别信息不稳定的情况,或是在出现突发事件后造成目标特征不显著的问题。在现实的生活中总是会出现大量的图像资源,并且多数场合是在视频序列下通过多模态的形式而出现的,常见的有多方位以及全天候的视频监控,就相同的监控以及考察对象而言,其中是会存在各种不同的视角以及多个成像方式的问题的。[4]传统的识别方法是在多个图像资源中选取比较高的成像质量,且目标十分明确的一张或者是多个图片,实现分别判断。

4 小结

文章在投影特征的分析基础上开展深入的研究与分析,同时对图像识别在一般情况下的运用进行了详细的介绍,希望可以为相关工作者和研究者提供一定的参考。

参 考 文 献

[1] 施展.图像特征提取与识别的迹空间投影方法研究[D].华南理工大学,2012:10-24.

[2] 侯书东.基于相关投影分析的特征提取研究及在图像识别中的应用[D].南京理工大学,2012:15-29.

[3] 胡俐蕊.非负矩阵分解方法及其在选票图像识别中的应用[D].安徽大学,2013:21-39.

特征提取与分析 篇4

当今说话人识别领域使用的特征参数有多种, 它们各具特点, 能够用于各种不一样的场合, 其中应用较为广泛的具有代表性的特征参数是:基音频率、线性预测系数 (LPC) 、线性预测倒谱系数 (LPCC) 、梅尔倒谱系数 (MFCC) 。

2 MFCC的提取与分析

梅尔倒谱系数 (MFCC) , MFCC是利用人耳听觉模型建立的倒谱系数, 人类的听觉系统可以看成一个非线性系统, 它对于不同的频率信号的灵敏度是不一样的, 一般是对数型关系。正是由于Mel倒谱系数基于人耳感知这种特殊的特性, Mel倒谱系数在抗噪声能力以及鲁棒性这些方面都比其它特征参数要优秀了很多。

对于不一样频率的语音, 人耳有不一样的感知能力, 声音的物理频率表示单位是梅尔 (Mel) 。频率和MFCC系数的关系如下式:

其中, f的单位为Hz。参照Zvick的研究所说, 临界带宽按照频率不同而改变, 在1000Hz以下时, 维持线性分布, 带宽在100Hz附近;在1000Hz以上时, 表现为对数增长形式, 如图1所示。

Mel参数的提取过程:

(1) 把之前预处理过的语音信号, 即时域信号做傅里叶变化 (DFT) 。计算得到线性频谱x (k) , 其转换公式为:

(2) 把上面的频谱x (k) 通过Mel滤波器组生成Mel频谱。

(3) 接着对Mel频谱做对数能量处理, 得到对数频谱S (m) 。图2所列即为得到的线性能量谱, Mel能量谱和对数能量谱。

最后, 将S (m) 通过离散余弦变换 (DCT) 获得倒谱频域, 即Mel频谱倒谱系数 (MFCC参数) :

摘要:提取特征参数在说话人识别系统内是非常重要的步骤, 说话人语音的很多特有个性信息包含于特征参数内, 例如发声特征或者语义特征, 利用特征提取的方法一方面可以去掉声音里没用的冗余信息, 剩下有用的体现说话人个性不同的特征信息, 特别是可以有效减少计算量、模板数目以及存储空间。选用的特征参数的会直接关系到整个系统的工作性能, 良好的特征参数需要拥有好的稳定性和好的独立性, 一方面可以不受到外界情况的干扰, 不容易为其他的声音所替代, 另一方面, 能够较好的辨别不同说话人, 说明说话人之间的差异。

关键词:特征参数,倒谱系数,LPCC,MFCC

参考文献

[1]M.Chetouani, M.Faundez-Zanuy, B.Gas, and JL.Zarader.Investigation on LP-residual representation for speaker identification, Pattern Recognition.2009, 3 (42) :487-494.

[2]林琳, 王树勋, 郭刚.短语音说话人识别新方法的研究.系统仿真学报, 2007, 19 (10) :2272-2275.

特征提取与分析 篇5

冬小麦导数光谱特征提取与缺磷胁迫神经网络诊断

摘要:分别于返青期、拔节期、抽穗期和灌浆期采集不同磷素处理的冬小麦叶片原始高光谱数据;之后求取其一阶导数(一阶导数光谱)并进行小波去噪处理;通过分析原始光谱和一阶导数光谱对小同磷素处理水平的响应特征,确定敏感波长范围并提取四种吸收面积;将每个叶片磷素含量值对应的四种吸收而积的归一化值,作为样本空间样本点的位置坐标(4维样本输入矢量),对应叶片磷素含量的归一化值作为该样本点的目标输出,二者同时提交给径向基函数神经网络.结果表明:(1)冬小麦叶片原始光谱对叶片磷素含量变化反应敏感的.波长范围为426~435 nm和669~680 nm.(2)一阶导数光谱的敏感波长范围为481~493 nm和685~696nm.(3)训练后的径向幕函数神经网络模型能够学习和掌握样本点与目标输出之间的线性/非线性映射关系,并且具有一定的推广能力. 作者: 刘炜[1]常庆瑞[1]郭曼[1]邢东兴[2]员永生[1] Author: LIU Wei[1]CHANG Qing-rui[1]GUO Man[1]XING Dong-xing[2]YUAN Yong-sheng[1] 作者单位: 西北农林科技大学资源环境学院,陕西杨凌,712100西北农林科技大学资源环境学院,陕西杨凌,712100;咸阳师范学院资源环境系,陕西咸阳,71 期 刊: 光谱学与光谱分析 ISTICEISCIPKU Journal: SPECTROSCOPY AND SPECTRAL ANALYSIS 年,卷(期): ,31(4) 分类号: S127 关键词: 可见/近红外光谱 冬小麦 磷素营养 小波去噪 数值积分 径向基函数神经网络 机标分类号: TH7 O65 机标关键词: 冬小麦一阶导数光谱特征提取缺磷胁迫神经网络诊断Neural NetworkRadial Basis FunctionDerivative SpectraBased磷素含量波长范围小麦叶片样本点径向基函数神经网络磷素处理归一化值非线性映射关系神经网络模型敏感高光谱数据 基金项目: 国家科技支撑计划重大项目,国家自然科学基金项目,国家(973计划)项目 冬小麦导数光谱特征提取与缺磷胁迫神经网络诊断[期刊论文]光谱学与光谱分析 --2011,31(4)刘炜常庆瑞郭曼邢东兴员永生分别于返青期、拔节期、抽穗期和灌浆期采集不同磷素处理的冬小麦叶片原始高光谱数据;之后求取其一阶导数(一阶导数光谱)并进行小波去噪处理;通过分析原始光谱和一阶导数光谱对小同磷素处理水平的响应特征,确定敏感波长范...

特征提取与分析 篇6

(上海交通大学机械系统与振动国家重点实验室, 上海 200240)

引 言

由于各种干扰源和噪声的影响,来自现场传感器的轴承故障信号非常复杂,直接对这些信号进行故障特征提取是非常困难的。盲源提取(Blind source extraction,BSE)技术的出现为这个问题的解决提供了新的技术和手段。BSE技术是近10年来新兴并引起广泛重视的一类信号处理方法,有时也叫盲信号抽取,它源于盲源分离(Blind source separation, BSS)技术。BSS技术在语音、通讯和医学工程等领域都有着成功的应用[1~3],但其在旋转机械故障诊断中的应用有着较大的局限性,其原因可归结为如下[4]:瞬时混合模型的幅值不确定性和顺序不确定性;适用于振动信号的多通道卷积混合盲分离算法迄今仍没有令人满意的解决方案;源物理相关性的不确定性;源数的估计存在偶然性;盲源分离要求系统具有可逆性,但实际工程中很多机械系统是不可逆的。BSE相对于BSS有以下优点[5]:充分利用被提取对象的先验信息;仅仅提取感兴趣的信号;无需估计源的数目;计算量小;特别适用于源数较多而感兴趣信号较少的情况(如机械系统)。综上所述,BSE在某种程度上弥补了BSS的缺点。在既有的BSE技术中,约束独立成分分析最具代表性,其最先由Wei Lu等人于2000年提出[5]。随后Wei Lu分别将CICA用于图像盲分离与医学信号盲分离[6,7],相对于传统独立成分分析(Independent component analysis, ICA)方法取得了不错的效果。Zhang Z L将CICA方法加以改进,提出了基于形态的CICA方法并将其用于微弱脑电信号的盲源提取[8],通过仿真合成信号和实际脑电信号验证了所提出方法的正确性及实际应用价值。在旋转机械故障诊断方面,CICA也取得了一定的应用[9],在文献[9]中Wang Z Y等将CICA用于滚动轴承的故障诊断中,并通过仿真信号和滚动轴承全寿命加速疲劳实验信号验证了CICA在旋转机械盲信号提取中的有效性。然而,上述CICA在盲源提取中的成功应用都需要以下两个前提条件:用于构建参考信号的目标源信号基本周期的精确估计;正确参考信号的构建。如文献[9]所验证,不正确参考信号的选取会造成误判或漏判的结果。此外,用于构建参考信号的目标源信号基本周期的估计值也会对提取结果造成很大的影响。然而在滚动轴承的实际工程应用中由于安装精度、制造误差及滚子相对于滚道的随机滑动等影响,都会造成目标源故障信号的实际基本周期与理论计算基本周期的偏差。这样就限制了CICA方法在旋转机械故障诊断中的应用。在文献[10]中,Barros等提出了一种基于最佳估计延时的能快速提取周期信号的盲提取方法。但所述方法本质上还是以目标信号的基本周期或基本周期的整数倍作为最佳延时。本文首先用基于二阶统计量的自相关函数算法估计目标源信号基本周期[10],再与基于高阶统计量的固定点算法相结合的盲提取方法成功用于复杂运行环境下滚动轴承故障信号的盲提取[11,12],此种方法在某种意义上来讲是对文献[10]所述方法的改进。此外,此种方法相对于CICA方法具有较强的鲁棒性:只需要大致估计目标信号的基本周期并将其作为所述方法相关步骤的基本周期即可。同文献[9],将所述方法用于滚动轴承全寿命加速疲劳实验故障信号的盲提取,并与文献[9]CICA在滚动轴承全寿命加速疲劳故障信号盲提取中的应用作以比较,得出前者相对于后者具有更强的目标源信号基本周期估计误差的容错性。

1 问题的提出

假设有一多维观测信号矢量x(t)可表示为

x(t)=As(t)+n(t)

(1)

式中s(t)=[s1(t),s2(t),…,sn(t)]T是n×1满足统计独立性的源信号矢量,x(t)=[x1(t),x2(t),…,xm(t)]T是m×1的混合信号矢量,矩阵A={aij}是由混合参数aij构成的m×n阶的混合矩阵。n(t)=[n1(t),n2(t),…nm(t)]T是与源信号矢量统计独立的加性噪声矢量。

(2)

式中 矩阵C=(ci,j)n×n被称为混合-分离复合矩阵,该矩阵的每一行与每一列有且仅有一个非零元素。瞬时混合模型的混合和分离过程如图1所示。

图1 瞬时混合和分离模型示意图

根据传感器数m和源数n的关系,瞬时ICA模型可划分为3种:

当m=n时,此时混合矩阵A是方阵,称为平方ICA模型;

当m

当m>n时,称为超定ICA模型。

本文是基于平方ICA模型展开讨论的。

此外,为提高计算速度及简化本文算法,首先对观测信号x(t)进行白化处理,即

(3)

式中V称为白化矩阵。以下所述所有观测信号x(t)均为白化信号。

对于要提取的目标源信号si,假设对一特定整数τ*有以下关系式成立

(4)

式中sj为其他非目标源信号,k代表时间,τ*即为最佳时间延时[10]。

J(W)=E{y(k)y(k-τ*)}=WTE{x(k)x(k-τ*)T}W

(5)

在约束条件‖W‖=1下,最大化公式(5)所示的目标函数就可以提取出目标函数si。因为对于目标函数si,其关于延时为τ*的延时自相关函数是一个大于0的正值,而其他非目标源函数sj关于τ*的延时自相关函数都将为0。

忽略Rx(τ*)与Rx(τ*)T的微小差距,利用标准梯度算法,可得出文献[10]的算法

(6)

式中Rx(τ*)=E{x(k)x(k-τ*)T}。尽管文献[11]所述方法具有算法简洁、计算速度快等优点,但是其具有以下缺点:

(1)即使目标源信号si关于τ*的时延自相关函数E{si(k)si(k-τ*)}>0,但不能保证其他所有非目标源信号sj关于τ*的时延自相关E{sj(k)sj(k-τ*)}=0(j≠i);

(2)即使所有源信号严格独立不相关,但是在实际计算中由于用源信号有限点数的算术平均来代替源信号的数学期望,就会造成源信号的自相关计算值不为0[15,16],即:即使有下式成立

(7)

但也极有可能下式成立

(8)

综上所述,文献[10]所述基于二阶统计量的盲提取方法受上述两点限制,其盲提取性能的稳定性及精确性就受到了很大的影响,甚至会提取出非目标源信号。由于本文的研究是基于瞬时线性ICA基础上的,也就是假设源信号在物理意义上是相互独立的,所以可以用高于二阶统计量的更高阶的统计量去改善文献[10]所述的方法。以下是所述方法的介绍。

2 方法的提出

所用的方法大概分为3个步骤,如图2所示。

图2 所述方法流程图

各个步骤的具体计算过程如下:

(1)目标源信号基本周期的估计:当滚动轴承发生故障时,其故障基本周期可以由理论计算频率的倒数得出;

(2)初始目标源信号及分离矩阵计算:

式(5)所示的目标函数

(9)

(10)

(11)

由式(10)可得出式(11)的相应算法如下

(12)

(3)初始分离矩阵W的进一步优化:

(13)

为提高算法对野点和冲击噪声的鲁棒性,可以采用文献[11]的改进固定点算法

(14)

式(13)或(14)收敛时,即可得到最佳分离矩阵W。以下的仿真及实验结果均取式(13),(14)二者之间效果最好的。

图3 原始信号

图4 观测信号

图5 不同盲提取方法得到的结果

3 仿 真

图3为4个信号,其中图3中的s1为准周期信号,s2为正弦信号,s3为余弦信号,s4为随机高斯白噪声。在Matlab中任意产生一随机4×4阶的矩阵A对4个信号进行混合。图4为混合后的观测信号。提取目标信号是s1。图5为用不同方法得到盲抽取结果。其中图5中的y1为文献[10]所述方法的盲抽取结果,得到了错误的抽取结果;图5中y2为文献[15]所述方法的提取结果;图5中的y3为本文所述方法的提取结果。虽然直观上看y2与y3要都为正确的目标源信号s1。可以用下式来对提取结果y2和y3的盲抽取精度进行比较

(15)

将s1和y2,s1和y3分别代入式(15)得到的PI值分别为22.4和47.6 dB,由此,所述方法相对于文献[15]所提出的方法具有更高的提取精度。

图6 基于不同参考信号的CICA抽取结果

图6是CICA方法用不同参考信号对观测信号的盲抽取结果。其中参考信号r1为正确的参考信号,将其与观测信号一起输入到CICA算法中,y11为抽取的结果。从y11可以看出CICA在正确输入参考信号的情况下可以很好地抽取出目标信号s1;不改变参考信号r1的方波周期,而改变方波的宽度即得到参考信号r2,将r2与观测信号一起输入到CICA算法中,y22为抽取的结果,可见抽取不出目标信号。同样不改变r1方波的宽度,而改变方波的周期得到参考信号r3,将r3与观测信号一起输入到CICA算法中,y33为抽取的结果,可见仍抽取不出目标信号。由此,CICA算法的能否成功应用在某种程度上取决于参考信号的能否正确设计,其使用受到了很大的限制。而分别将r1,r3的周期作为所述方法的基本估计周期(或基本周期的整数倍),均能提取出目标源信号s1。限于篇幅限制在此不再给出抽取结果。

4 实 验

同样采用文献[9]中的滚动轴承全寿命加速疲劳实验数据。实验具体实施步骤及数据采集参数均可见参考文献[9]。选用和文献[9]同一个故障轴承进行分析,文献[9]给出了故障轴承的全寿命周期的均方根值(Root mean square, RMS)值曲线图。本文给出故障轴承全寿命周期的峭度指标曲线图,如图7所示,因为峭度指标对滚动轴承发生故障时的冲击特征更为敏感。

图7 实验轴承全寿命周期的峭度值

对第2 304组数据进行分析。将3个加速度传感器采集到的信号作为观测信号,其时域图如图8所示(注:文献[9]的时域图纵坐标单位为加速度,而本文的纵坐标单位为电压)。

图9为图8所示信号相对应的包络解调谱,从图9中均无法很好地提取出滚动轴承内圈故障通过频率fi=246 Hz及其谐频:图9(a)虽然能大致提取出内圈故障通过频率,但其谐频及调制频率即转频提取效果并不好;图9(b),(c)的提取结果会造成误判或漏判。

将本文所述方法用于上述观测信号,提取出的信号的时域图及其包络解调谱图如图10所示,由包络解调谱可以看出其很好的提取出内圈故障通过频率fi=246 Hz及其谐频。在用所述方法对观测信号进行处理时,估计目标信号的基本周期设置为T=(1/fi)×fs=104(用点数表示,可参考文献[9])。

图11是基于不同参考信号的CICA盲提取结果,其中图11(a)的r1是正确参考信号:周期为T=104(采用点数表示,可参考文献[9]);方波宽度为20(点数),图11(b)为盲抽取的信号,图11(c)为11(b)的包络解调谱,由此看见,CICA很好地提取了内圈故障通过频率;改变图11(a)的周期,即T′=106,方波宽度不变,得到参考信号r2如图11(d);图11(e)为盲提取结果的时域图,图11(f)为图11(e)的包络解调谱,提取不出内圈故障频率;同样,不改变图11(a)的周期,而改变方波宽度(方波宽度由20设置为30)即得到参考信号r3如图11(g);图11(h),(i)分别为盲提取结果的时域图及包络解调谱,同样提取不出内圈故障特征频率。可见,CICA能否正确地提取故障特征频率,对精确参考信号的设计有着苛刻的要求(参考信号的周期及方波形状的微小改变都会对CICA提取结果造成很大的影响)。在工程实际应用中,由于设计精度、安装误差及滚动体的随机滑动都会造成滚动轴承理论计算故障频率与实际故障频率的误差。而本文所述的方法只需要大致估计目标源信号的基本周期即可。图12为将T=106作为目标源信号的估计周期,用本文所述方法得到盲提取信号的时域图及其相应的包络解调谱,仍可以提取出内圈故障特征频率。说明了本文所述方法相对于CICA方法有较强的目标源信号周期误差的容错性。

图8 实验观测信号

图9 实验观测信号的包络解调谱

图10 所述方法的盲提取结果

图13为文献[15]所述方法的提取效果,从其包络解调谱中无法提取中滚动轴承内圈故障通过频率。

图11 用不同参考信号CICA的提取结果

图12 用所述方法以T=106作为估计基本周期的提取结果

图13 用文献[15]所述方法的盲提取结果

5 结 论

本文将一种盲提取方法用于复杂运行环境下滚动轴承故障信号的盲提取中,取得了不错的结果。并通过仿真验证了所述方法相对于其他盲提取方法有较高的精度;通过仿真和实验验证了所述方法相对于CICA方法具有目标源信号基本周期误差容错性的优点;此外,所述方法只需要估计目标源信号的基本周期即可,而CICA方法不但需要目标源信号基本周期的精确估计,而且还需要构建准确的参考信号,其使用相对于所述方法具有较大的局限性。

参考文献:

[1] Hyvarinen A, Oja E. Independent component analysis:algorithms and applications[J]. Neural Networks, 2000, 12:411—430.

[2] Choi S J, Cichocki A, Park H M, et al. Blind source separation and independent component analysis:A review[J]. Neural Information Processing-letters and Reviews, 2005, 6(1):1—57.

[3] James C J, Gibson O J. Temporally constrained ICA:An application to artifact rejection in electromagnetic brain signal analysis[J]. IEEE Transaction on Biomedical Engineering, 2003, 50(1):1 108—1 116.

[4] Antoni J. Blind separation of vibration components:rinciples and demonstrations[J]. Mechanical Systems and Signal Processing 2005, 19:1 166—1 180.

[5] Lu W, Rajapakse J C. Constrained independent component analysis, in:Advance in Neural Information Processing Systems, vol.13(NIPS 2000)[M]. MIT Press, Cambridge, MA, 2000:570—576.

[6] Lu W, Rajapakse J C. Approach and applications of constrained ICA[J]. IEEE Transaction on Neural Networks, 2005, 16(1):203—212.

[7] Lu W, Rajapakse J C. ICA with reference[J]. Neurocomputing, 2006, 69:2 244—2 257.

[8] Zhang Z L. Morphologically constrained ICA for extracting weak temporally correlated signals[J]. Neurocomputing, 2008, 71:1 669—1 679.

[9] Wang Z Y, Chen J, Dong G M, et al. Constrained independent component analysis and its application to machine fault diagnosis[J]. Mechanical Systems and Signal Processing, 2011, 25:2 501—2 512.

[10] Barros A K, Cichocki A. Extraction of specific signals with temporal structure[J]. Neural Computation, 2001, 13(9):1 995—2 003.

[11] Cichocki A, Amari S I. Adaptive Blind Signal and Image Processing. Learning Algorithms and Applications[M]. New York:John Wiley & Sons,2002.

[12] Hyvarinen A, Oja E. A fast fixed-point algorithm for independent component analysis[J]. Neural Computation, 1997, 9(7):1 483—1 492.

[13] Sabri K, Badaoui M E, Guillet F, et al. A frequency domain-based approach for blind MIMO system identification using second-order cyclic statistics[J]. Signal Processing, 2009, 89:77—86.

[14] Belouchrani A, Meraim K A, Cardoso J F, et al. A blind source separation technique using second-order statistics[J]. IEEE Transactions on Signal Processing, 1997, 45(2):434—444.

[15] Zhang Z L, Zhang Y. Robust extraction of specific signals with temporal structure[J]. Neurocomputing, 2006, 69:888—893.

特征提取与分析 篇7

发动机冷试概念是指点燃式内燃机在不点火的状态, 通过驱动马达倒拖发动机旋转, 利用冷试台架内分布的专用传感器采集相关测试信号, 由冷试软件处理形成曲线图并与专业人员设定的窗口进行匹配, 判断发动机是否合格的测试工艺。

采集的信号中, 发动机缸盖振动信号本质上属于非平稳信号, 分析这类信号常用方法有短时傅里叶变换 (STFT) 、Wigner-Ville分布、小波变换及小波能量商[1]。振动信号频带能量分布可作为发动机状态故障诊断的相关参数和特征向量。

实验对象为479QE型号四缸发动机, 数据由TIG公司发动机冷试平台提供。数据分别为发动机缸盖、进气口和排气口振动信号。信号采样频率204.8k Hz, 转速为150r/min与1500r/min。

1振动信号时频分析

STFT基本思想是把非平稳信号看成短时平稳信号的叠加, 通过时域加窗来实现其短时性, 即短时傅里叶变换 (STFT) 。给定非平稳信号s (t) ∈L2 (R) 与窗函数h () , 定义[2]

如图1 (a) 发动机转速150r/min, 依次为缸盖、进气口和排气口振动信号;图1 (b) 转速1500r/min, 依次为缸盖、进气口和排气口振动信号, 信号均为发动机冷试旋转2圈数据。对2圈数据分割为一圈数据并得到其STFT, 平滑函数为N/4的Hamming窗, 图2 (a) 、图2 (b) 为转速150r/min、1500r/min下缸盖信号的时间-频率-幅值三维图。

图2 (a) 表明150r/min转速下, 整个时间分布有0至0.2相对频率 (0至4000Hz) 信号, 在时间序列2300左右有较不真实的全频段信号, 幅值约为0.3;图2 (b) 表明1500r/min转速下, 整个时间序列分布有0至0.1相对频率 (0至2000Hz) 信号, 且幅值较大约为4至8, 但高频成分的概貌观察已经丧失。说明STFT在频率分辨率有较大不足。

2 Wigner-Ville分布 (WVD)

Wigner-Ville是一种能量型时频联合分布[3], 对信号s (t) 的Wigner-Ville分布 (WVD) 定义为 (2) 式。 (3) 式说明两信号存在交叉项, 交叉项幅值可达自项的两倍。

图3为150r/min缸盖振动信号WVD, 表明信号能量在整个频带均有分布, 在频率和时间边缘分布较好, 时间序列2500附近有较大的幅值变化, 观察结果与STFT相一致, 但WVD分布有严重的交叉项, 在时频域内有较多不真实信号能量, 使得无法提取信号的特征。

3小波变换

将任意L2 (R) 空间函数z (t) 在小波基下展开, 称作函数z (t) 的连续小波变换 (CWT)

由定义 (4) 式知, 小波变换具有尺度a和平移参数b两个参数[4]。

图4 (a) 为150r/min转速下缸盖信号基于WT变换的时间-频率-幅值三维图 (上) 和二维图 (下) 。图4 (a) 表明在时间序列2300左右有较宽频带信号, 观察与STFT分析结果相同, 但相对STFT在5000Hz处有清晰的幅值起伏;小波分解细节图4 (b) , 细节d1, d2也表明信号在时间序列2300和时间序列4000有较大幅值, d4和d5细节对应高频信号幅值的起伏。这证明小波变换相对STFT和WVD有较好的分辨率, 且可以由粗到细观察信号特征。

4小波能量商

一维离散小波, 只对低通滤波器输出进行分解, 小波包分解则对高频部分进行二次分解, 使低、高频都有良好的分辨率[5]。小波能量商是在小波包分解结构上构造的无量纲指标。首先对信号进行小波包分解, 分解层数为N, 分解重构后小波包系数为XNt, 设各自频带信号SNi对应的能量ENi为:

图5表明150r/min下缸盖信号能量分布较均匀, 与STFT和CWT得出的结论相同, 即在时间序列2300全频段存在信号。1500r/min下缸盖信号、进气口和排气口信号的能量均集中在低频段, 高频段能量较少, 与我们的感性判断吻合。由此可以得出结论, 小波包分解构成的小波能量可以作为发动机状态的特征向量, 在进行故障诊断时, 可直接作为神经网络输入或特征值使用。

5结语

本文对TIG公司发动机冷试数据进行了分析研究, 使用分析方法如STFT, Wigner-Ville分布、小波变换和小波包能量商。结果表明STFT、WV、及WT均能够一定程度上给出信号的时频分布, 但STFT频率分辨率有限, WV分布存在交叉干扰项, 小波变换能够在各个尺度对信号进行观察, 小波包能量商能够清楚的观察其能量分布, 能够作为发动机状态的特征向量。

参考文献

[1]程道来, 仪垂杰, 郭健翔, 等.基于Wigner-Ville分布和Wavelet时间尺度的飞机非平稳抖杆背景声分析[J].机械工程学报, 2007, 43 (5) :150-154

[2]向玲, 唐贵基, 胡爱军.旋转机械非平稳振动信号的时频分析比较[J].振动与冲击, 2010, 29 (2) :42-45

[3]葛哲学, 陈仲生.Matlab时频分析技术及其应用[M].北京:人名邮电出版社, 2006:15-17

[4]臧玉萍, 张德江, 王维正.基于小波变换技术的发动机异响故障诊断[J].机械工程学报, 2009, 45 (6) :239-245

[5]任庆霜, 司景萍, 梁洪波, 等.基于振动信号的发动机故障诊断方法分析[J].公路与汽运, 2010, (3) :22-25

特征提取与分析 篇8

音乐是人们休闲娱乐生活中不可缺少的组成部分。随着各种各样音乐类型的不断增加, 如何正确有效地通过Internet网络或手机等进行音乐检索成了一个重要的课题。

针对音乐的查找有很多的途径, 最常见的是检索乐曲名称, 或根据指定作曲家或演唱者检索, 或按照乐曲的存储格式等传统检索方式检索。然而根据音乐传递出的情感来检索也是一条重要且有效的途径, 这一途径在某些特定场景下有很好的应用价值。例如年轻人聚会需要寻找一些欢快热闹的背景音乐;卡车司机在漫长的旅途中需要刺激大脑阿尔法波的情感音乐来保持清醒;健身馆在不同的健身课程中需要不同情感的音乐:瑜伽、柔体操等轻松的课程需要平和舒缓的音乐;动感单车、街舞等大运动量的课程需要欢快的音乐等。随着手机网络应用的普及, 在商业上也存在对基于音乐情感的乐曲搜索的应用需求。另外, 在电影、Flash、PPT等作品配乐中, 根据作品要传达的感情配上合适情感的音乐, 才能具有更好的艺术感染力。在这些场景下, 如果按照传统的方式, 人们只能在记忆中搜寻合适的音乐, 对于一些不熟悉音乐的人来说并不容易。但如果能够依据情感直接搜索相应的音乐, 那么不管这首曲子的形式如何, 只要所选的曲子符合检索者的情感需求就可以了。此时, 音乐的情感信息就发挥了重要的作用。

当前数字娱乐产品的存储容量在不断增加, 因而也对媒体内容的管理和检索提出了新的要求。情感化音乐检索就是适应这一要求的技术。情感化检索更自然、更智能、更具有个性特色, 也更值得进行研究。而以往基于内容的音乐往往忽视了用户对音乐的感性上的需求, 专业化的时域、频域声学检索特征等很难让人们来接受。音乐作为可以展示丰富情感世界的要素组合, 它是情感的载体, 也就是说除了关注音乐的内容以外, 在检索方法中不能够忽视情感这一重要的内容。本课题研究的目的, 就是通过实验尝试将一首歌曲的情感与音频数据提取的特征联系起来, 并为音频检索提供一种思路, 即基于音乐情感特征提取的音乐检索。

1 音频内容分层描述模型

不同的音频类型虽然有不同的内在特征, 但是它们也有固有的特点, 如图1所示, 可以将这些特征分为三个层次:物理样本在最底层, 中间层是声学特征, 而顶层则是语义层。从底层到顶层, 内容也越来越抽象。音频内容呈现的流媒体形式在底层的物理样本级。中间层的音调、音高等声学特征可用于语音识别与检测, 还支持更高级别的内容。顶层是音频内容、音频对象语义层面的描述。如图1所示, 描述了三层模型, 我们可以看到每一层所提供的内容具有不同的形式, 因此就有不同的应用技术。其中, 基于内容的音乐检索主要是在声学特征和语义层进行分析和研究。在这两个层面, 用户可以提交查询或按照与听觉感知的概念来实现检索。音频作为信息载体是声音信号的形式, 根据类型我们一般将其分为波形声音、语音声音和音乐。不同检索的方法来检索不同类型的音频和音频特性。一般情况下, 我们可以利用音乐的节奏、音符、器乐特点等进行检索。基于内容的检索是一个近似的检索, 可以指定检索内容相似性的大小, 也可以强调或忽略某些特征成分。依据听觉特性进行相关信息检索与传统的方式来检索有所不同。通过探索情感语义层, 建立一个具有音乐情感特征的检索系统模型, 找到一种新的音乐检索方法。

2 音乐情感的分类

目前, 大部分的音乐检索是使用频率和其他物理特性或旋律节奏等其他的声学特性, 通过归类的方式得出不同类型的模板, 然后判断匹配的情况, 从而找出相关的内容。但是, 这种分类方法所得到的模板的特点, 仅仅是大量的音乐所表现出的性能相似的物理特性, 它忽略了最重要的音乐还具有丰富的情感内涵。如何利用图1的声学特征和物理特征层的信息进行检索, 关键在于要找到情感特征的分类方法及具有特征的物理意义表示。

2.1 构建音乐情感空间

我们通过确定情感的分类方法和描述方式, 来实现这种通过音乐情感的分类进行的音乐搜索。Thayer提出可以根据压力和能量两个情感影响因素为维度, 将情感空间建立为一个二维的数学模型, 通过四个象限将情感二维模型分成了四类。这种情感的分类过于简单和抽象, 音乐情感的特征需要跟准确的表达。也有研究从三个方面对音乐的情感色彩分析说明, 在三个方面使用了18组形容词, 但是在分类方法上存在着交叉, 这也不利于情感分类的检索。经过研究, 根据能量与人类的情绪状态的音乐结合, 设计出12种情绪状态描述。通过这12种情绪状态, 从而建立不同的情绪状态的情感分类, 我们将这12种情感状态划分到图2的四个象限的分类中。后面的音乐情感特征实验也根据这种情感空间描述进行分类。

根据人类对音乐产生的情感状态和影响情感的能量因素进行分析, 根据这12种情绪状态描述, 进行实验研究, 研究选定了40首歌曲作为找寻情感特征的样本, 包含了多种风格的音乐作品, 根据测试者的评价结果进行对这些选定的音乐进行情感类别, 将这些测试音乐分为12个情感类别。在音乐测试者的情绪感知的基础上直接获得了初步的分类结果。由于人们对音乐的个性化特征的情感体验受个体及环境的影响, 因此这种分类方法虽然不够精确。但是通过大量测试者的测试, 每首测试音乐的情感共性还是相对比较统一。

2.2 音乐情感特征提取

对情感进行分类后, 下面要做的就是这些音乐所具有的音频特征, 特别是要通过实验找出同一情感分类中音乐的音频特征共性。通过找出原始信号的表达形式, 提取出具有代表性的数据形式就是特征提取。音频信号的特征提取可以通过音乐的基音、节奏快慢、音高及响度等感性或非感性的属性进行分析。

3 音乐分类实验

整个实验过程分为如下几步:

(1) 首先需要建立音乐库, 用于检索对比;

(2) 通过音频信号的特征提取提取片段音乐的特征;

(3) 训练音乐情感分类模型;

(4) 为了得出分类结果, 对音乐进行分类。

音乐库的建立过程:

(1) 首先音乐库选材, 因为电影配乐具有丰富但容易理解的情感内容, 所以使用部分电影配乐建立音乐库;

(2) 将所有音乐片段转换成mp3格式, 使用的工具是Adobe audition3.0音频处理软件。以10秒为单位, 裁剪每个音乐片段。

(3) 选取重复度最高的40个片段;

(4) 每10个片段为一组, 分为4个测试组。

情感片段的比较分析:

以下列举出了40首中的34首歌曲的分类。

(1) 振奋的音乐

根据选取的这几首较有代表性的振奋的音乐可以看出, 它们有一个较明显的共性即振幅都比较高, 整个频谱比较尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次, 说明音乐情感的起伏还是比较大的, 也符合振奋音乐的情感, 通过把这些共有的一个时段的特征放在一起就能发现情感上的共同点, 作为情感的共鸣来进行搜索。

(2) 消沉的音乐

通过选取的这几首消沉的音乐来看, 振幅都是比较尖锐的, 而且音调比较高, 整体给人的感觉幅度比较大, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次, 说明整首歌情感比较突出。

(3) 悲伤的音乐

经过比较, 悲伤的音乐整个音调都比较高, 起伏比较大, 而且音调重复的比较多, 选取每一首歌高潮的十毫秒, 发现由上而下过零率只有一两次, 整体就是趋于平稳的。

(4) 高兴的音乐

高兴的歌曲整体音调比较高, 相对在高音调部分中是比较平稳的, 整个情感还是相对比较平稳的, 没有太过于起伏和尖锐的部分, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都只有一次。

(5) 欢快的音乐

欢快的歌曲整体上音频比较密集, 振幅比较大, 整体音调度高, 而且振幅高, 选取每一首歌高潮的十毫秒, 发现由上而下过零率几乎只有一次。

(6) 沉重的音乐

沉重的歌曲有一个共性即整个频谱的趋势是由平稳狭窄的音调逐步过渡到尖锐的音调, 而且频谱宽度也越来越宽。选取每一首歌高潮的十毫秒, 发现由上而下过零率两次左右, 幅度也是由低到高。

(7) 活泼的音乐

活泼的歌曲整个音频比较尖锐, 整个频谱的重复度比较高, 说明节奏节拍变换比较小, 整个频谱相对比较稀疏, 但是比较尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率次数比较多。

(8) 严肃的音乐

严肃的歌曲整个频谱比较窄, 而且宽度比较小, 振幅也不是太高, 选取每一首歌高潮的十毫秒, 发现由上而下过零率在一次上下。

(9) 平静的音乐

平静的音乐正如其名字一样, 整个频谱相对比较平稳, 稳中有变化。过零率在两次左右。

(10) 烦躁的音乐

整个频谱比较稀疏和尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次。

(11) 放松的音乐

整个频谱的宽度是两边宽中间窄, 相对比较尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次。

(12) 紧张的音乐

紧张的频谱, 音调很高, 但是很平稳, 总体来说, 选取每一首歌高潮的十毫秒, 发现由上而下过零率几乎只有一次。

4 实验结论

最后通过图表来更直观的说明不同情感音乐的特征, 如表1所示。

通过图表观察到振奋的音乐、欢快的音乐、烦躁的音乐、紧张的音乐的频谱特征还是比较相似的, 都是音调比较高, 变化比较大。高兴的音乐、欢快的音乐、活泼的音乐也比较相似, 比较平稳, 但是整体的振幅比较大。消沉的音乐、悲伤的音乐、沉重的音乐也有相似的地方就是振幅的变化比较大。

5 结语

通过实验分析, 采用自下而上地用音频特征抽取以及机器学习的方法来衔接底层音频特征和上层的音乐语意理解的断层, 另外一方面, 自上而下地结合上层的音乐知识到音乐结构分析中, 用音乐知识来指导对音乐的模型地分析。我们相信这种从上而下和从下而上结合的方法, 能够较好地进行音乐的内容分析。这些方法也为音乐结构分析与音乐信息检索的研究提供了一条新的思路。

参考文献

[1]王华, 赵曙光, 李艳红.Adobe Audition3.0网络音乐编辑入门与提高 (第2版) [M].北京:清华大学出版社, 2009.

[2]马希荣, 梁景莲, 基于情感音乐模板的音乐检索系统研究.天津:天津师范大学计算机与信息工程学院, 北京:北京科技大学信息工程学院, 2009, 1 (36) , 第1期.

[3]Emotion Recognition of Western Tonal Music Using Support Vector Machine[J].Chinese Journal of Electronics, 2006, 15 (1) :74-78.

[4]许丽雯 (台湾) .你不可不知道的古典音乐世界.海口:南海出版社, 2005.

[5]Tao Li, Mitsunori Ogihara.Content—Based Music Similarity Search and Emotion Detection[J].ICASSP, 2004:705-708.

[6]范宝元, 韩秀苓.音频工程基础[M].北京工业大学出版社, 2002.

[7]Wang Muyuan, Huang Naiyao and Zhu Hangcheng.2000, 2 (6) :200-204.

[8]边肇祺, 张学工.模式识别[M].北京:清华大学出版社, 2000.

指节折痕线特征提取与识别算法 篇9

关键词:生物特征识别,指节折痕,灰度形态学,二维小波分析

随着计算机网络与通信技术的高速发展,生物特征识别技术在信息安全领域发挥着重要的作用,是替代传统身份识别方法的最佳选择[1,2]。当前,用于生物特征识别领域的生物特征有指纹、掌纹、人脸、声音、虹膜等。近年来,手指的指节折痕特征也引起了许多学者的关注[3,4,5,6,7,8,9]。应用手指指节折痕特征作为一种生物特征,并提出了一种基于灰度数学形态学和二维的小波变换的指节折痕识别方法。使用灰度数学形态学运算来增强指节折痕线的算法,大大地改善了折痕线的对比度,使指节折痕线能较清晰地显示出来。然后对经过形态学运算处理后的灰度图像利用二维小波变换对其进行J层的小波分解,得到3J+1幅小波变换子图像,这些子图像构成了分解后的塔式数据结构,计算每个小波子图的7个不变矩,对每幅子图像的不变矩进行组合,构成指节折痕特征向量,最后计算不同样本间的Euclidean距离并利用最近邻法完成匹配识别。

1基于灰度数学形态学的指节折痕线特征的增强

灰度数学形态学的基本运算,即膨胀、腐蚀、开启和闭合,通过组合可以推导出各种数学形态学组合运算,利用闭合变换可以定义以下的bot-hat运算。

式中f(x,y)是输入图像;b(x,y)是结构元素,它本身也是一幅子图像;f·b为用b(灰度)闭合f,其定义为:f·b=(f b)b。

该运算可以用来检测图像中的脊谷线[10],而分布在手指内侧指节上的折痕线是一些低灰度值线状区域,因此可以用其来检测折痕线。在形态学中,结构元素是最重要最基本的概念。结构元素在形态变换中的作用相当于信号处理中的“滤波窗口”。结构元素对形态运算的结果有决定性作用,要结合实际应用背景和期望来合理选择结构元素的大小和形状。根据指节折痕线的特征,选择图1所示的三个方向的线结构元素来对ROI图进行形态学的bot-hat运算处理。

图2显示了处理结果(关于指节折痕图像的预处理过程可参见文献[7])。其中图2(b)为选用°方向的结构元素时bothat运算分别与原图像图2(a)卷积的结果f0(x,y),图2(c)为选用135°方向的结构元素时bothat运算分别与原图像图2(a)卷积的结果f135(x,y),图2(d)为选用45°方向的结构元素时bothat运算分别与原图像图2(a)卷积的结果f45(x,y),最终的处理结果由下式给出(见图2(e))。

式中O(x,y)是ROI图经过形态学处理后的输出图像。从图2的最后处理效果可以看出,ROI图像上的指节折痕线得到了明显的增强。

2基于二维小波分析的图像分解和不变矩特征矢量的提取

手指指节折痕图像经过上述的灰度形态学处理后,极大地增强了图像中的折痕信息,利于后续对其进行进一步的分析和处理。下面应用二维小波分析理论对增强了折痕信息的图像进行分解,然后利用图像不变矩来表达图像特征。

2.1二维小波分析和图像分解

为了将小波变换应用于图像,可采用分离变量方法由一维小波函数和尺度函数构造二维小波函数和二维尺度函数。设ψ(x)、ϕ(x)分别为一维小波函数和尺度函数,则二维小波函数和二维尺度函数由式(3)构造。

{Φ(x,y)=ϕ(x)ϕ(y)Ψ(1)(x,y)=ϕ(x)ψ(y)Ψ(2)(x,y)=ψ(x)ϕ(y)Ψ(3)(x,y)=ψ(x)ψ(y)(3)

二维小波变换可以将图像在不同分辨率(尺度)不同方向上进行分解,因而很适合用来刻画指节折痕图像。根据式(3)的分离变量的性质,二维分解可以通过行处理和列处理两步完成。即二维小波变换可以看成两个一维小波变换:其中一个一维小波对行进行变换,然后再对按行变换后的数据按列进行一维小波变换来完成。图3给出了二维图像进行小波分解的过程,图中L, H分别代表一个低通滤波器和一个高通滤波器,↓2是二抽取操作(即隔一列取一列)。二维小波分解包括两个步骤,图像先分别由一个一维的低通滤波器L和高通滤波器H在行方向上进行滤波,接着对这两个被滤波处理的图像沿行方向进行二抽取操作。在第二阶段,将第一阶段处理后的两幅图像分别用L和H在列方向上进行低通和高通滤波并进行二抽取操作。通过一级二维小波变换原始图像被分解成四个分量,分别对应于LL(代表图像在水平方向和垂直方向的低频信息,是原始图像的近似图像), LH(代表图像在水平低频和垂直高频的信息), HL(代表图像在水平高频和垂直低频的信息),HH(代表图像在水平高频和垂直高频的信息)。从原始的ROI图像开始,经过J级的分解,得到3J+1幅小波子图:

{cAJ,[cΗk,cVk,cDk]k=1,,J} (4)

(4)式中,cAJ是ROI图像的近似图像,cHkcVkcDk分别是ROI图像在水平方向、垂直方向和对角线方向的细节图像。

图4给出了两个原始图像二维小波分解和增强后图像的二维小波分解对比的例子。从这些图像可以看出,增强后的图像经过二维小波变换后,图像在各级的细节图像更加清晰,特别是垂直方向的细节子图。这说明经过形态学变换处理后的图像小波分解效果更加良好。

2.2不变矩特征矢量的构成

不变矩是非正交矩的一种,属于统计特征的范畴,主要应用于图像的检索、识别和配准。手指指节折痕图像在获取和处理的过程中容易发生平移旋转或尺度变换等情况,影响识别率,M. K. Hu[11]在1962 年就证明了不变矩具有在平移、旋转和比例变化的情况下不发生改变的特性,用不变矩做为特征进行提取恰好可以解决生物特征图像中容易存在的问题。在对图像进行J层分解后得到3J+1幅小波子图后,分别计算各级垂直方向、水平方向和最后一级的近似子图像的不变矩,为了计算方便,最后的不变矩值按式(5)进行调整。然后将它们头尾相接组成一个一维的特征矢量,即构成了代表指节折痕图的不变矩特征矢量。

ψi=|log(ϕi)| i=1,2,…,7 (5)

3实验结果与分析

算法是在自建的手指图像数据库中进行测试。该库拥有来自103个人的103只中指图像(每人采集8幅)共824个手指图像样本。实验时,将该库分为两个子库,其中一个用来训练,包括412个手指图像样本(每只手指四个样本);另一个同样也包括412个手指图像样本用来测试,每个子库样本的选择是随机的。首先分别计算训练库中每个手指的4个样本的指节折痕特征矢量,然后用它们的均值作为最终代表该手指指节折痕的特征来注册,产生注册集存入特征模板数据库;然后计算测试库中的每个ROI图像的指节折痕特征矢量。采用欧氏距离计算待识别指节折痕特征矢量与各模板特征矢量的距离。最后由最近邻法完成分类判别任务,即待识别样本分别与注册库中的各类进行特征匹配。距离最小的类就是该待识图像的类别,即:如果dj=min(di)ii=1,2, …,L(L为测试库中个体的数量,这里为103类),则待识别的人属于第j类。

在不同的小波函数和不同的分解级条件下进行了算法测试实验,实验结果列于表1。

从表1可以看出,采用Coiflet1和Bior1.3小波函数,分解级数为5级时识别效果较好,正确识别率分别为98.49%和98.57%。在同样的条件下,采用Bior1.3小波函数直接在原始图像施行二维小波分解进行特征提取时,识别率为93.76%。说明经过形态学处理后提高了算法的识别率。

4结论

在介绍数学形态学的bot-hat运算和二维小波变换的基础上,提出了一种基于灰度数学形态学和二维小波变换的指节折痕特征提取方法。利用灰度数学形态学,通过选择合适的结构元素对指节折痕子图施以形态学运算处理,大大地改善了指节折痕线特征。然后应用二维小波变换理论对增强后的指节折痕子图进行小波分解得到不同分辨率和不同方向的小波子图;最后,通过计算特定的小波子图的不变矩来构造表征指节折痕特征的特征矢量。实验结果验证了算法的有效性。

参考文献

[1] Jain A K, Ross A, Prabhakar S. Biometrics: a tool for information security. IEEE Transaction on Information Forensics and Security, 2006; 1(2): 125—143

[2]Jain A K,Ross A,Prabhakar S.An introduction to biometric recog-nition.IEEE Trans on Circuits and Systems for Video Technology,2004;14(1):4—19

[3]Doi J,Yamanaka M.Discrete finger and palmar feature extraction for personal authentication.IEEE Trans on instrumentation and measure-ment,2005;54(6):2213—2219

[4] Ribaric S, Fratric I. A biometric identification system based on eigenpalm and eigenfinger features. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2005; 27(11): 1698—1709

[5]Joshi D G,Rao Y V,Kar S,et al.Computer-vision-based approach to personal identification using finger crease pattern.Pattern Recogni-tion,1998;31(1):15—22

[6]Li Q,Qiu Z D,Sun D M,et al.Personal identification using knuckleprint.Advances in Biometric Person Authentication,5th Chi-nese Conference on Biometric Recognition,Sinobiometrics2004.Springer2004:680—689

[7] Luo R F, Lin T S, Finger crease pattern recognition using legendre moments and principal component analysis. Chinese Optics Letters, 2007, 5(3): 160—163

[8]Doi J,Yamanaka M.Biometric personal authentication using discrete points on finger and palmar creases.In:Proc2004IEEE Int Conf Virtual Environments,Human-Computer Interfaces,and Measure-ment Systems(VECIMS2004):72—76

[9]Doi J,Yamanaka M,Kajita H.Discrete finger and palmar feature ex-traction for personal authentication.In:Proc2003IEEE Int Symp In-telligent Signal Processing(WISP03),2003:37—42

[10]Wu X Q,Wang K Q,Zhang D.A novel approach of palm-line ex-traction.Proceedings of the Third International Conference on Imageand Graphics,Hongkong,2004:230—233

车辆进气格栅定位与特征提取研究 篇10

随着我国经济发展,人均汽车拥有量不断上升,车型识别的需求与要求也在不断提升。目前,针对车型识别的研究分为两类,一是对车辆规格的分类研究,将车型分为大型车、中型车、小型车等,通常应用于公路收费、车流量分析等[1]。二是对车辆系列的判断研究,如将车辆按照大众、别克、丰田等车系分类,通常用于公安稽查、市场统计、交通管理等领域[1]。

关于车型识别,目前学者们提出了许多方法。张宇提出了基于车标信息与车尾信息的车型识别方法[2],王玫提出了基于车灯信息的车型识别方法[3]。由于车辆进气格栅具有显著的纹理特征,可用来进行车型识别。本文在车牌定位的基础上,利用水平梯度水平投影和垂直投影、垂直梯度垂直投影实现了车辆进气格栅区域的定位,基于灰度梯度共生矩阵和Gabor小波变换提取格栅区域特征用于车型识别。

2进气格栅区域定位方法

本文提出的进气格栅区域定位方法实现流程包括车牌定位、车灯带定位、进气格栅区域定位环节。由于样本格栅大小规格不同,同一格栅拍摄时车辆与摄像头的距离与角度不同,定位获得的格栅大小规格也不相同,因此在定位格栅区域之前,需要将样本大小归一化。本文统一将样本归一化为480*640的图像。

2.1车牌定位

车牌定位技术已经非常成熟,本文实现的进气格栅区域定位是在车牌定位的基础上完成的。本文采用了基于边缘检测和形态学处理的方法实现车牌定位[4],定位的车牌如图1 所示。保存车牌上边缘坐标为pla_u ,左边缘坐标为pla_l ,右边缘坐标为pla_r ,保存的坐标用于格栅区域定位。

2.2 车灯带定位

把车辆进气格栅上下边界范围内的车辆水平带状区域称为车灯带。车辆进气格栅区域可近似看作矩形,因此,实现车辆进气格栅区域定位需要获得进气格栅区域的上下边界与左右边界。

由于获取样本的光照条件和拍摄角度不同,样本图像的灰度没有明显的规律。因此车灯带需要利用车辆的轮廓纹理信息进行定位,该纹理信息可以从图像的梯度中提取。对样本图像的各个像素取水平梯度G(x,y) ,G(x,y) 定义为像素(x,y) 与其右侧像素(x + 1,y) 的灰度差绝对值,表达式为:

获得水平梯度图像I(g) ,然后计算梯度图像每一行的水平投影值,即每一行水平梯度值G(x,y) 的叠加和sum(y) ,表达式为:

计算水平投影平均值mean ,表达式为:

梯度图像I(g) 水平投影得到480个数据,将水平梯度水平投影用连续曲线表示,水平投影平均值用直线表示,见图2。由于车灯带灰度变化明显,因此车灯带所在行对应的水平投影值将大于水平投影平均值,我们把水平投影值大于水平投影平均值的连续区域选择为候选车灯带。反映在图2上,直线mean与连续曲线必定相交,候选车灯带即为相邻交点之间的连续曲线对应的带状区域。因为进气格栅区域位于车牌上方,且车灯带对应的连续曲线宽度最大,因此我们选择车牌上方最宽的候选车灯带作为最终的车灯带,如图3所示。

2.3 进气格栅区域定位

由于格栅左右边界处具有明显灰度差,并且格栅内部纹理丰富,所以本文采用垂直投影的方法确定格栅的左右边界。常见的格栅可以分为水平格栅,垂直格栅和网状格栅,如图4 所示。

首先对车灯带进行垂直梯度垂直投影,得到1*640一维向量vgvp[] ,将向量vgvp用连续曲线表示,见图5(a)。然后对车灯带进行水平梯度垂直投影,得到1*640一维向量hgvp[] ,将向量hgvp用连续曲线表示,见图5(b)。

水平格栅在垂直方向梯度较大,采用垂直梯度垂直投影方法能够更好的区分格栅左右边界;垂直格栅在水平方向梯度较大,采用水平梯度垂直投影方法能够更好的区分格栅左右边界;对于网状和其他类型格栅,经过实验,本文统一选择垂直梯度垂直投影方法,此时的定位效果较好。

选择水平梯度垂直投影方法还是垂直梯度垂直投影方法对车灯带处理,首先需要自动判断格栅的纹理方向。设计方法如下。

计算向量vgvp ,hgvp的平均值,分别记作mean_vp ,mean_hp 。计算部分车灯带垂直投影叠加和S ,表达式为:

垂直梯度垂直投影和为S1 ,水平梯度垂直投影和为S2 。当S2 > S1 时,格栅水平梯度值大于垂直梯度值,此时格栅为垂直格栅,因此选择水平梯度垂直投影方法。同理,当S2 ≤ S1时,表明此时格栅为水平格栅或其他方向格栅,因此选择垂直梯度垂直投影方法。

如图5(a)所示,平均值直线与垂直投影曲线的交点通过格栅的左右边界。最终定位的格栅区域如图6所示。

3 进气格栅特征提取方法

提取格栅特征之前,首先对格栅区域进行归一化和直方图均衡化。然后采用基于灰度梯度共生矩阵和基于Gabor小波变换的两种方法对格栅进行特征提取。

3.1 基于灰度梯度共生矩阵的格栅特征提取

灰度梯度共生矩阵将灰度级直方图和边缘梯度直方图结合起来,它考虑的是像素级灰度和边缘梯度大小的联合统计分布[5]。灰度直方图反映了图像中灰度出现的频率,梯度直方图体现了图像像素灰度值的跳变,将图像梯度信息与灰度信息融合在共生矩阵,使得共生矩阵能够更好地反映图像的纹理信息。因此本文选择基于灰度梯度共生矩阵方法提取格栅特征。

灰度梯度共生矩阵的元素e(i,j) 定义为在归一的灰度图像和归一的梯度图像中共同具有灰度值i和梯度值j的总像素数,此值即为共生矩阵C的第(i,j) 个元素的值cij[6]。

对格栅灰度图像进行灰度归一变换:

其中INT表示取整运算,v(m,n) 表示灰度图像灰度值,fm表示格栅图像中最大灰度值,NH表示归一后的最大灰度级,取NH= 32 ;

对格栅梯度图像进行梯度归一变换:

其中,g(m,n) 表示梯度图像的梯度值,gm表示格栅图像中最大梯度值,NG表示归一后的最大梯度值,取NG= 32 ;

统计同时使F(M,N)= i和G(M,N)= j的像素对数,此值即共生矩阵C的第(i,j) 个元素的值。

计算出灰度梯度共生矩阵并不等于得到了图像的纹理特征,还需要对灰度梯度图像进行二次特征提取,本文选择混合熵,能量,灰度平均,梯度平均四个纹理参数统计特征量。

3.2 基于Gabor小波变换的格栅特征提取

Gabor小波变换是一种重要的基于频域的纹理特征提取方法。二维Gabor小波变换能够将相邻区域的像素联系起来,从不同的频率尺度和方向反映局部范围内图像像素灰度值的变化[7]。Gabor小波能够很好地提取图像内在的和外在的纹理信息,因此本文选择基于Gabor小波变换方法对格栅进行特征提取。

二维Gabor滤波器的函数形式可以表示为:

其中,σ表示滤波器核的尺寸,kv表示滤波器在频域不同的频率特性,ϕμ表示滤波器在空域不同方向的纹理特性。本文选择8个方向,5个尺度共40个滤波器对格栅区域进行卷积。 kv和 ϕμ的取值如下:

其中v=0,...,4,μ=0,...,7。

二维Gabor滤波器函数的实部和虚部可以表示为:

格栅的特征可以通过格栅图像与Gabor滤波器卷积后获得。 部分卷积结果如图7所示:

本文对卷积结果进行了二次特征统计,选择能量、均值和方差三个参数统计特征量。

4实验仿真与结果分析

4.1仿真实验设计

仿真实验基于VS2012 平台,通过Open CV2.4.8 视觉库、C++语言进行编程实现。实验样本采集于高清卡口摄像头,手动剪切得到实验样本,样本要求能够清晰地看到车辆正脸。本文共选取15种车型,每种车型15张不同样本,共225幅车辆图像。首先对样本图像进行格栅定位,然后对格栅区域进行特征提取,为了验证基于灰度梯度共生矩阵和Gabor小波变换提取的特征在车型识别研究中的有效性,本文采用基于欧式距离的“最小距离分类器”对格栅进行了分类识别。仿真实验实现流程图如图8所示:

第一步:采用基于边缘检测和形态学方法对输入样本进行车牌定位;

第二步:结合车牌坐标,采用水平梯度水平投影方法定位车灯带;

第三步:采用垂直梯度垂直投影或者水平梯度水平投影方法在车灯带内定位格栅区域;

第四步:基于灰度梯度共生矩阵提取格栅特征,基于Gabor小波变换提取格栅特征;

第五步:基于欧式距离对车型分类识别。

4.2 仿真实验结果与分析

本文十五种车型样本都能够准确定位车辆进气格栅的位置。其中,比亚迪速锐车型由于进气格栅与车灯之间距离小,并且两者分界处没有明显灰度差,最终定位格栅区域包含部分车灯,见图9。但是因为所有该车型定位的格栅区域都包含部分车灯,对下一步车型分类识别没有影响。

车型识别结果如表3所示。

表3 表明,基于频域变换的Gabor小波特征能够较好的对车型进行分类识别,基于灰度梯度共生矩阵的纹理特征能够与基于频域变换的特征较好地“互补”,从而提高车型识别率。

对错误分类的车型观察发现,部分不同品牌的车型有着极其相似的进气格栅纹理特征。如图10所示的大众迈腾和雷诺纬度。

在下一步研究中,针对相似车型,可提取车标区域,对车标进行分析和识别,或者提取车灯信息,这些新的特征将有助于区分相似车型,提高车型识别系统的识别率。

5结论

随着智能交通技术的深入研究,车辆信息应用正在向技术化、多样化、成熟化发展。本文提出的水平梯度水平投影、水平梯度和垂直梯度的垂直投影能够精确地定位进气格栅区域,基于Gabor小波变换和基于灰度梯度共生矩阵提取的格栅特征在车型识别上达到81.55%的识别率,具有实用性。在未来研究中,可以进一步提取利用其他格栅特征,挖掘车标、车灯信息数据,从而提升车型识别系统的识别率,使之具有更广阔的应用前景。

摘要:车辆进气格栅区域具有显著纹理特征,因此格栅区域特征可用于车型自动识别。本文提出一种车辆进气格栅区域的定位方法,并对格栅区域进行特征提取,为解决车型自动识别问题提供思路。首先,使用水平梯度的水平投影确定进气格栅区域的上下边界,然后,利用水平梯度和垂直梯度的垂直投影确定进气格栅区域的左右边界;最后,利用灰度梯度共生矩阵和Gabor小波变换方法提取进气格栅特征。仿真实验结果表明,本文提出的方法能够准确地定位进气格栅区域,基于灰度梯度共生矩阵和Gabor小波变换方法提取的格栅纹理特征能够有效地应用于车型识别。

关键词:车型识别,灰度梯度共生矩阵,Gabor小波变换,格栅定位,纹理特征

参考文献

[1]童建军.车型识别研究[D].中国科学院自动化研究所,2005.

[2]张颖.车型识别技术研究与应用[D].昆明理工大学,2013.

[3]王枚,王国宏,于元港,谢洪森.新车型识别方法及其在套牌车辆鉴别中的应用[J].计算机工程与应用,2009(17):211-214.

[4]董然,师卫.基于边缘检测和形态学处理的车牌定位[J].机械工程与自动化,2010(6):45-47.

[5]白雪冰,邹丽晖.基于灰度-梯度共生矩阵的木材表面缺陷分割方法[J].森林工程,2007(2):16-18.

[6]洪继光.灰度-梯度共生矩阵纹理分析方法[J].自动化学报,1984(1):22-25.

特征提取与分析 篇11

关键词:特征提取;时序数据;波形形态;结构算子;感知器

引言

模式识别大致可以划分为统计和结构化模式识别两种方法。结构化方法特别适用于面向波形形态并具有领域专家对数据进行分类的已知领域,例如:语音识别、医用信号分析、雷达信号侦测和过程处理。要对一个不了解的专业领域实行结构模式识别,必须首先获取该领域的专业知识,而这往往要耗费很多的时间和精力。为了将结构模式识别应用到未知的领域,我们需要一种独立于领域知识的结构模式识别方法。

特征提取与分析 篇12

实地施工和建筑之前需要进行必要的测量, 进而根据测量的结果进行结构和建设设计, 传统的测量技术存在大的误差, 测量结果不精确, 在实际的运用中存在缺陷, 经过专家的多年研究, 人们研发了数字摄影测量技术。这种技术的特点是生成的更有利用价值的电子图像而不是简单地光学图像。数字影像中主要的对象是存在的不同形状的目标点。目标点可以分为点状特征和线状特征两个主要的方向。提取点特征的算子称为兴趣算子或有利算子。点特征提取是影像分析和影像匹配的基础, 也是单幅图像处理的最重要的任务。也是人们研究的重点, 下面首先对其原理进行简单的阐释, 然后根据仿真模拟进行具体的说明。

2 Moravec算子特征点提取算法

Moravec算子的计算原理是对于灰度方差的运用。它的实际操作程序可以是:

2.1 首先根据已知的计算公式确定兴趣

值。然后以45度的距离从零开始计算, 经过四次运算, 最终把最小的定为该像元的兴趣值。

2.2 给定经验阈值, 注意把握阈值的适当范围。

2.3 选取候选点中的极值点作为特征点

以上的计算要按照既定饿步骤逐一的进行, 而且计算的数值要求准确无误。

3 基于灰度的匹配方法

这种是目前为止引用比较广泛的配配方法, 它的利用范围比较广, 基本适应现代的测量技术要求。基于灰度相似度检测和最小二乘影像匹配的方法是其主要的两个方面, 它们都是以同名影像灰度相似为基础的, 相关的精度可以达到像元级及子像元等级。其工作的实际理论依据为:

相关系数是标准化的斜方差函数, 协方差函数除以两信号的方差即得相关系数。

4 实验方案设计与实验结果分析

4.1 特征点提取方案设计

该技术的特征点选取的范围基本上确定为两个图像的重合部分。具体的设计过程中应该注意到经验阈值的范围不能过大也不能过小, 因为两者都会造成负面影响。首先如果该值的计算数据超出其最大值, 那么就使得大部分的特征点被忽略了, 排除了提取的实际范围之外, 计算的结果不能使对每一个特征点的分析, 计算的结果没有可靠性;但是如果最终取得的该值超出了应有范围的最低值就表明提取的特征点数量, 超出合理的数量。如果进行抑制局部非最大的窗口过大, 也会产生类似的部分特征点被排除在考察的范围之外, 但窗口过小又会导致亮度值变化较大的图象局部提取了超出应有范围的比较大量的特征点。依据以上的理论分析, 所以在实际操作过程中, 必须综合两种实际的科学设计方案, 来保证经验阈值及进行抑制局部非最大的窗口大小都在合理的范围之内。操作如下:

4.1.1 计算人员根据规定的标准计算出像素的兴趣值, 计算之前要熟悉具体的计算公式和方法。

4.1.2 对于两个不同的点进行详细的效

果对比分析, 实际的点的选取有固定的要求, 为了保证计算的科学和准确不能随便选取。

4.1.3 选取候选点中的极值点作为特征点, 进行筛选。

4.2 特征点匹配方案设计

完成对左片的特征点提取完毕后, 开始进行所提取特征点的匹配工作, 根据该实验的特定目标制定了如下步骤:

4.2.1 由于受到局限, 所以只对两张影像进行一次几何畸变:

4.2.2 在经过系统处理过的图像上任意

选取6对匹配像元, 根据最小二乘的原理计算出一次几何畸变的6个系数的近似值。

4.2.3 依据以上的计算数据粗略的确定各特征点在右像片中匹配位置

4.2.4 最后通过一系列的实际校验程序来确定本次试验的匹配正确。

4.3 实验过程与实验结果分析

4.3.1 软件平台与开发工具

美国的微软公司自从问世以来, 就成为软件系统的鳌头。经过专业技术人员的不断开发和完善, 微软公司旗下的软件已经可以适应各个领域的需求。本次的测验就是利用的微软公司开发的软件。在应用的同时, 人们逐渐领略到了美国微软公司开发的软件的利用的便捷, 和操作的简单化。目前, 已经成为了人们普遍认可的计算专业软件。该软件是windows系统下的, 在新开发的windows7系统中更是得到了进一步的完善, 便于相关人员的利用。

4.3.2 实验结果分析

(1) 以兴趣值15000为经验阈值, 用11×11窗口抑制局部非最大, 经过实际的对比结果, 我们得由于提取了过多的特征点, 像素隐性去值的最后结果也是不准确的, 没有实际的利用价值, 这个结果警示我们在操作过程中一定选择符合数量标准的特征点。

(2) 对于以上的结果检验的失败, 我们经过计算方法的改良对其进行了必要的改进, 以兴趣值14000为经验阈值, 用19×19窗口抑制局部非最大。

只有利用这样的计算标准才能最终确定相近的特征点数量, 特征点数量是最终试验结果正确的保障。选取过多的特征点或是选取过少的特征点都使得最后的试验结果出现严重的误差, 没有数据的利用价值。

结束语

Moravec算子是一种经典的点特征提取算子, 对于该技术的研究具有一定的使用价值。本文对于摄影测量特征点提取和匹配技术的研究, 经过了系统的仿真模拟。通过对于仿真模拟的每一步的操作分析, 我们得出了正确的技术应用过程, 也找出了影响实验数据值误差的原因, 并及时的纠正, 从而完善了该技术, 为相关的工作人员提供一定的经验参考。

摘要:随着建筑事业的发展和城市规划的不断提升, 对于工程的设计要求质量也相对的提高。工程设计的制定必须参考必要的测量数据和勘探结果, 然后经过分析综合最终合理的确定下来。因此就要有高质量的摄影测量技术来支撑, 旧有的测量数据准确度不能达到现行的需求, 测量的范围不够广, 测量的结果不够精确, 同时分辨率比较低, 严重的影响了设计的准确性和合理性。为了克服这点, 经过科研人员的多年的研究, 人们提出了新的理论即摄影测量特征点提取与匹配技术。本文对于此项技术进行了详细的介绍和说明, 便于相关人员可以结合实际工作的需要利用此项技术。

关键词:数字摄影测量,特征点提取,特征点匹配

参考文献

[1]Zuxun Zhang, Jianqing Zhang.Outlook On The Development of Digital Photogrammetry-from digital photogrammetric workstation (DPW) to digital photogrammetry system (DPS) .

[2]张剑清, 潘励, 王树根.摄影测量学[M].武汉:武汉大学出版社, 2004.7.

[3]山海涛, 郭建星, 耿则勋.影像匹配中几种相似性测度的分析[J].测绘信息与工程, 2003, 28 (2) .

上一篇:距离模型下一篇:低年段英语教学