情感特征词提取

2024-10-01

情感特征词提取(精选7篇)

情感特征词提取 篇1

0 引言

音乐是人们休闲娱乐生活中不可缺少的组成部分。随着各种各样音乐类型的不断增加, 如何正确有效地通过Internet网络或手机等进行音乐检索成了一个重要的课题。

针对音乐的查找有很多的途径, 最常见的是检索乐曲名称, 或根据指定作曲家或演唱者检索, 或按照乐曲的存储格式等传统检索方式检索。然而根据音乐传递出的情感来检索也是一条重要且有效的途径, 这一途径在某些特定场景下有很好的应用价值。例如年轻人聚会需要寻找一些欢快热闹的背景音乐;卡车司机在漫长的旅途中需要刺激大脑阿尔法波的情感音乐来保持清醒;健身馆在不同的健身课程中需要不同情感的音乐:瑜伽、柔体操等轻松的课程需要平和舒缓的音乐;动感单车、街舞等大运动量的课程需要欢快的音乐等。随着手机网络应用的普及, 在商业上也存在对基于音乐情感的乐曲搜索的应用需求。另外, 在电影、Flash、PPT等作品配乐中, 根据作品要传达的感情配上合适情感的音乐, 才能具有更好的艺术感染力。在这些场景下, 如果按照传统的方式, 人们只能在记忆中搜寻合适的音乐, 对于一些不熟悉音乐的人来说并不容易。但如果能够依据情感直接搜索相应的音乐, 那么不管这首曲子的形式如何, 只要所选的曲子符合检索者的情感需求就可以了。此时, 音乐的情感信息就发挥了重要的作用。

当前数字娱乐产品的存储容量在不断增加, 因而也对媒体内容的管理和检索提出了新的要求。情感化音乐检索就是适应这一要求的技术。情感化检索更自然、更智能、更具有个性特色, 也更值得进行研究。而以往基于内容的音乐往往忽视了用户对音乐的感性上的需求, 专业化的时域、频域声学检索特征等很难让人们来接受。音乐作为可以展示丰富情感世界的要素组合, 它是情感的载体, 也就是说除了关注音乐的内容以外, 在检索方法中不能够忽视情感这一重要的内容。本课题研究的目的, 就是通过实验尝试将一首歌曲的情感与音频数据提取的特征联系起来, 并为音频检索提供一种思路, 即基于音乐情感特征提取的音乐检索。

1 音频内容分层描述模型

不同的音频类型虽然有不同的内在特征, 但是它们也有固有的特点, 如图1所示, 可以将这些特征分为三个层次:物理样本在最底层, 中间层是声学特征, 而顶层则是语义层。从底层到顶层, 内容也越来越抽象。音频内容呈现的流媒体形式在底层的物理样本级。中间层的音调、音高等声学特征可用于语音识别与检测, 还支持更高级别的内容。顶层是音频内容、音频对象语义层面的描述。如图1所示, 描述了三层模型, 我们可以看到每一层所提供的内容具有不同的形式, 因此就有不同的应用技术。其中, 基于内容的音乐检索主要是在声学特征和语义层进行分析和研究。在这两个层面, 用户可以提交查询或按照与听觉感知的概念来实现检索。音频作为信息载体是声音信号的形式, 根据类型我们一般将其分为波形声音、语音声音和音乐。不同检索的方法来检索不同类型的音频和音频特性。一般情况下, 我们可以利用音乐的节奏、音符、器乐特点等进行检索。基于内容的检索是一个近似的检索, 可以指定检索内容相似性的大小, 也可以强调或忽略某些特征成分。依据听觉特性进行相关信息检索与传统的方式来检索有所不同。通过探索情感语义层, 建立一个具有音乐情感特征的检索系统模型, 找到一种新的音乐检索方法。

2 音乐情感的分类

目前, 大部分的音乐检索是使用频率和其他物理特性或旋律节奏等其他的声学特性, 通过归类的方式得出不同类型的模板, 然后判断匹配的情况, 从而找出相关的内容。但是, 这种分类方法所得到的模板的特点, 仅仅是大量的音乐所表现出的性能相似的物理特性, 它忽略了最重要的音乐还具有丰富的情感内涵。如何利用图1的声学特征和物理特征层的信息进行检索, 关键在于要找到情感特征的分类方法及具有特征的物理意义表示。

2.1 构建音乐情感空间

我们通过确定情感的分类方法和描述方式, 来实现这种通过音乐情感的分类进行的音乐搜索。Thayer提出可以根据压力和能量两个情感影响因素为维度, 将情感空间建立为一个二维的数学模型, 通过四个象限将情感二维模型分成了四类。这种情感的分类过于简单和抽象, 音乐情感的特征需要跟准确的表达。也有研究从三个方面对音乐的情感色彩分析说明, 在三个方面使用了18组形容词, 但是在分类方法上存在着交叉, 这也不利于情感分类的检索。经过研究, 根据能量与人类的情绪状态的音乐结合, 设计出12种情绪状态描述。通过这12种情绪状态, 从而建立不同的情绪状态的情感分类, 我们将这12种情感状态划分到图2的四个象限的分类中。后面的音乐情感特征实验也根据这种情感空间描述进行分类。

根据人类对音乐产生的情感状态和影响情感的能量因素进行分析, 根据这12种情绪状态描述, 进行实验研究, 研究选定了40首歌曲作为找寻情感特征的样本, 包含了多种风格的音乐作品, 根据测试者的评价结果进行对这些选定的音乐进行情感类别, 将这些测试音乐分为12个情感类别。在音乐测试者的情绪感知的基础上直接获得了初步的分类结果。由于人们对音乐的个性化特征的情感体验受个体及环境的影响, 因此这种分类方法虽然不够精确。但是通过大量测试者的测试, 每首测试音乐的情感共性还是相对比较统一。

2.2 音乐情感特征提取

对情感进行分类后, 下面要做的就是这些音乐所具有的音频特征, 特别是要通过实验找出同一情感分类中音乐的音频特征共性。通过找出原始信号的表达形式, 提取出具有代表性的数据形式就是特征提取。音频信号的特征提取可以通过音乐的基音、节奏快慢、音高及响度等感性或非感性的属性进行分析。

3 音乐分类实验

整个实验过程分为如下几步:

(1) 首先需要建立音乐库, 用于检索对比;

(2) 通过音频信号的特征提取提取片段音乐的特征;

(3) 训练音乐情感分类模型;

(4) 为了得出分类结果, 对音乐进行分类。

音乐库的建立过程:

(1) 首先音乐库选材, 因为电影配乐具有丰富但容易理解的情感内容, 所以使用部分电影配乐建立音乐库;

(2) 将所有音乐片段转换成mp3格式, 使用的工具是Adobe audition3.0音频处理软件。以10秒为单位, 裁剪每个音乐片段。

(3) 选取重复度最高的40个片段;

(4) 每10个片段为一组, 分为4个测试组。

情感片段的比较分析:

以下列举出了40首中的34首歌曲的分类。

(1) 振奋的音乐

根据选取的这几首较有代表性的振奋的音乐可以看出, 它们有一个较明显的共性即振幅都比较高, 整个频谱比较尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次, 说明音乐情感的起伏还是比较大的, 也符合振奋音乐的情感, 通过把这些共有的一个时段的特征放在一起就能发现情感上的共同点, 作为情感的共鸣来进行搜索。

(2) 消沉的音乐

通过选取的这几首消沉的音乐来看, 振幅都是比较尖锐的, 而且音调比较高, 整体给人的感觉幅度比较大, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次, 说明整首歌情感比较突出。

(3) 悲伤的音乐

经过比较, 悲伤的音乐整个音调都比较高, 起伏比较大, 而且音调重复的比较多, 选取每一首歌高潮的十毫秒, 发现由上而下过零率只有一两次, 整体就是趋于平稳的。

(4) 高兴的音乐

高兴的歌曲整体音调比较高, 相对在高音调部分中是比较平稳的, 整个情感还是相对比较平稳的, 没有太过于起伏和尖锐的部分, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都只有一次。

(5) 欢快的音乐

欢快的歌曲整体上音频比较密集, 振幅比较大, 整体音调度高, 而且振幅高, 选取每一首歌高潮的十毫秒, 发现由上而下过零率几乎只有一次。

(6) 沉重的音乐

沉重的歌曲有一个共性即整个频谱的趋势是由平稳狭窄的音调逐步过渡到尖锐的音调, 而且频谱宽度也越来越宽。选取每一首歌高潮的十毫秒, 发现由上而下过零率两次左右, 幅度也是由低到高。

(7) 活泼的音乐

活泼的歌曲整个音频比较尖锐, 整个频谱的重复度比较高, 说明节奏节拍变换比较小, 整个频谱相对比较稀疏, 但是比较尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率次数比较多。

(8) 严肃的音乐

严肃的歌曲整个频谱比较窄, 而且宽度比较小, 振幅也不是太高, 选取每一首歌高潮的十毫秒, 发现由上而下过零率在一次上下。

(9) 平静的音乐

平静的音乐正如其名字一样, 整个频谱相对比较平稳, 稳中有变化。过零率在两次左右。

(10) 烦躁的音乐

整个频谱比较稀疏和尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次。

(11) 放松的音乐

整个频谱的宽度是两边宽中间窄, 相对比较尖锐, 选取每一首歌高潮的十毫秒, 发现由上而下过零率都不止一次。

(12) 紧张的音乐

紧张的频谱, 音调很高, 但是很平稳, 总体来说, 选取每一首歌高潮的十毫秒, 发现由上而下过零率几乎只有一次。

4 实验结论

最后通过图表来更直观的说明不同情感音乐的特征, 如表1所示。

通过图表观察到振奋的音乐、欢快的音乐、烦躁的音乐、紧张的音乐的频谱特征还是比较相似的, 都是音调比较高, 变化比较大。高兴的音乐、欢快的音乐、活泼的音乐也比较相似, 比较平稳, 但是整体的振幅比较大。消沉的音乐、悲伤的音乐、沉重的音乐也有相似的地方就是振幅的变化比较大。

5 结语

通过实验分析, 采用自下而上地用音频特征抽取以及机器学习的方法来衔接底层音频特征和上层的音乐语意理解的断层, 另外一方面, 自上而下地结合上层的音乐知识到音乐结构分析中, 用音乐知识来指导对音乐的模型地分析。我们相信这种从上而下和从下而上结合的方法, 能够较好地进行音乐的内容分析。这些方法也为音乐结构分析与音乐信息检索的研究提供了一条新的思路。

参考文献

[1]王华, 赵曙光, 李艳红.Adobe Audition3.0网络音乐编辑入门与提高 (第2版) [M].北京:清华大学出版社, 2009.

[2]马希荣, 梁景莲, 基于情感音乐模板的音乐检索系统研究.天津:天津师范大学计算机与信息工程学院, 北京:北京科技大学信息工程学院, 2009, 1 (36) , 第1期.

[3]Emotion Recognition of Western Tonal Music Using Support Vector Machine[J].Chinese Journal of Electronics, 2006, 15 (1) :74-78.

[4]许丽雯 (台湾) .你不可不知道的古典音乐世界.海口:南海出版社, 2005.

[5]Tao Li, Mitsunori Ogihara.Content—Based Music Similarity Search and Emotion Detection[J].ICASSP, 2004:705-708.

[6]范宝元, 韩秀苓.音频工程基础[M].北京工业大学出版社, 2002.

[7]Wang Muyuan, Huang Naiyao and Zhu Hangcheng.2000, 2 (6) :200-204.

[8]边肇祺, 张学工.模式识别[M].北京:清华大学出版社, 2000.

[9]Retrieval[J].Proceeding of First International Symposium on Music Information Retrieval, 2000, 10 (5) :70-82.

一种短文本特征词提取的方法 篇2

4结语

本文分析了传统的特征提取方法在短文本上的不足, 结合短文本字符数量少的特点, 提出了一种短文本特征词提取的方法。采用文献[6]中的方法来计算短文本中所有名词和动词之间的语义相似度, 利用词语之间的相似度来构造词语之间的邻接矩阵, 通过邻接矩阵构造无向图。经过推理论证提出了一种计算候选特征词的特征度的方法, 选择特征度较高的词语作为特征词。实验结果表明, 采用本文中的短文本特征提取方法, 可以提高短文本分类的准确率和召回率。由于网络文本信息表达的多样性, 很多网络语言并不符合汉语的语言规范, 比如在网络上经常出项的谐音用词, 比如, “稀饭” (喜欢) 、“杯具” (悲剧) 、“葱白” (崇拜) , 拼音缩写词, 比如, “FB” (腐败) 、“JS” (奸商) 等。这些不规范性网络用语的存在, 给短文本特征词的提取带来了很多困难。本文中的测试方法选用的是KNN分类的方法, 除此之外, 常见的文本分类方法还有文档频次 (TFIDI) 、贝叶斯、支持向量机 (SVM) 、决策树方法等。本文的下一步工作主要有两个方向:一个是对网络短文本信息按照汉语词典的规则进行规范化;另外一个就是利用本文中特征词的提取方法, 按照各种分类方法都一一进行测试和比较。

参考文献

[1]代六玲.中文文本分类中特征抽取方法的比较研究[J].中文信息学报, 2004, 24 (1) :26-32.

[2]申红, 吕宝粮, 内山将夫, 等.文本分类的特征提取方法比较与改进[J].计算机仿真, 2006, 23 (3) :222-224.

[3]董振东, 董强.知网[DB/OL].http://www.keenage.com.

[4]熊忠阳, 张鹏招, 张玉芳.基于统计的文本分类特征选择方法的研究[J].计算机应用, 2008, 28 (2) :513-518.

[5]帅正化, 周学广.新的CDF文本分类特征提取方法[J].计算机应用, 2009, 29 (7) :1755-1757.

[6]裴英博, 刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用, 2011, 47 (4) :128-130.

[7]赵军阳, 张志利.基于最大互信息最大相关熵的特征选择方法[J].计算机应用研究, 2009, 26 (1) :232-235.

[8]刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程, 2007, 33 (15) :217-219.

[9]刘群, 李素建.基于《知网》的词汇语义相似度的计算[C].第三届汉语词汇语义学研讨会, 中国台北, 2002.

点特征提取算法探讨 篇3

1 Moravec兴趣算子

Moravec于1977年提出利用灰度方差提取点特征的算子。Moravec算子是在四个主要方向上, 选择具有最大-最小灰度方差的点作为特征点。

第一步, 计算各像元的兴趣值IV (in terestv alue) 。

第二步, 给定一经验阈值, 将兴趣值大于该阈值的点 (即兴趣值计算窗口的中心点) 作为候选点。阈值的选择应以候选点中包括所需要的特征点, 又不含过多的非特征点为原则。

第三步, 选取候选点中的极值点作为特征点。

除了以上方法, 还可以尝试首先利用边缘提取方法提取整个图象的边缘轮廓, 然后在此轮廓内利用以上特征点提取方法提取特征点。

2 Forstner兴趣算子

Forstner算子是从影像中提取点 (角点、圆点等) 特征的一种较为有效的算子。Forstner算子通过计算各像素的Robert梯度和以像素 (c, r) 为中心的一个窗口的灰度协方差矩阵, 在影像中寻找具有尽可能小而且接近圆的点作为特征点, 它通过计算各影像点的兴趣值并采用抑制局部极小点的方法提取特征点。

第一步:计算各像素的Robert梯度。

第二步:计算l×l窗口中灰度的协方差矩阵。

第三步:计算兴趣值q与w。

第四步:确定待选点。

第五步:选取极值点。

3 Moravec程序框图 (如图1)

4 基于Moravec算子的点特征提取效果图

灰度图像效果图如下:

可以看出特征算子对一些反差加大的地物边缘提取的效果较好, 而反差较小的边缘提取效果较差, 这是由阈值窗口大小的选取和算法本身所决定的。

5 结语

Moravec算子是点特征提取算子中的经典算子之一, 后来的很多点特征提取算子都是在它的基础上改进得来的, 掌握Moravec算子的原理和实现方法对理解其他的点特征算子的理解和应用有很大好处。

参考文献

[1]张祖勋, 张剑清.数字摄影测量学[M].武汉:武汉大学出版社, 2002.

直扩信号特征提取技术 篇4

直接序列扩频(DSSS)信号被认为是一种低截获概率信号(LPI),由于具有低功率谱密度发射的隐蔽性、伪随机编码的保密性以及信号相关处理的抗干扰性等良好的性能,被广泛应用于航天测控、导航等多个领域。因此对直扩信号检测和截获技术的研究已成为一个刻不容缓的研究方向,而对于未知扩频码的情况下直扩信号的检测和截获技术一直是一个难题。

从直扩系统的基本原理和信号特征入手,详细分析了信号的相关性、循环平稳特性、频域正交性和准周期性等。根据特征提取的原理分析归纳出其可检测性和可识别性特征,选择出那些能够集中表征DSSS信号波形和频域显著个体特征的参数,研究了噪声对信号特征参数的影响。在此基础上应用时域相关、循环谱、倒谱和高阶累积量等现代数字信号处理技术实现了对DSSS信号特征参数的提取。分析总结了在低信噪比下直扩信号的特征提取方法,并比较了各种方法的优缺点。

1 直扩信号特征提取方法

1.1 时域相关检测法

由于信号和噪声在时域相关域有明显的特征差异,所以可以在相关域完成信号特征的提取。自相关检测是将信号与自身延迟一个时延后的信号做相关处理,或用双通道接收机的输出进行相关,得到扩频信号的自相关函数。一般来说,相关域检测能在一定程度上降低对背景噪声变化的敏感程度,甚至在多频单音干扰下也有良好的稳健性。

接收信号r(t)=s(t)+n(t)的自相关函数为:

Rr(τ)=E{r(t)r(t+τ)}=

E{[s(t)+n(t)]·[s(t+τ)+n(t+τ)]}=

Rss(τ)+Rsn(τ)+Rns(τ)+Rnn(τ)。 (1)

τnNTpn时,由直接序列扩频信号的自相关特性可知,Rss(τ)值很小,即不会出现明显的相关峰;当τ=nNTpn时,Rss(τ)出现明显的相关峰;而噪声在τ≠0时,Rnn(τ)≈0。因而,通过检测输出自相关函数的峰值可检测到扩频信号的存在,检测相邻相关峰之间的时间间隔可以实现对直接序列扩频信号码周期的估计。

1.2 循环谱检测法

循环谱在信号特征提取方面的突出优点是谱分辨能力强,即使在频率轴上的功率谱是连续的,信号特征也以循环谱的形式离散的分布在周期频率轴上,而且,不同调制方式的信号其周期谱分布也不

同。这样,即使信号在时域或频谱域中混叠在一起的特征可能会在循环谱中显现出来,从而更充分的提取信号特征。直扩信号循环谱如图1所示。

由图1可见,直扩信号的循环谱在循环频率α为零和不为零时均有峰值出现,其在循环频率α不为零时出现的非零值,是直扩信号检测和参数估计的依据。要得到信号的循环谱需要大量的运算量,计算结果的数据量也很大。为了尽可能集中地反映信号的特征,缩小选取的数据量,选取DSSS信号循环谱f=0循环频率切面观察发现:其切面集中反应了信号的载频和伪码速率信息。所以,利用谱相关函数可提取调制信号的特征参数;另外,循环谱为谱分析提供了更加丰富的信号分析域,将通常的功率谱定义域从频率轴推广到频率—周期频率双频平面,更明显地表现出了信号的特征。

1.3 倒谱检测法

由于DSSS信号中伪随机序列的周期重复,使信号的频谱具有了准周期性,而噪声则没有准周期性,因此通过提取信号频域的准周期性可以检测到信号的存在,并估计其参数。

倒谱是一种同态信号处理技术,利用信号中某些分量在频率域上的准周期性,对信号的对数功率谱再求功率谱,在伪时域或倒频率域上将这种周期性显现出来,用来分离和提取密集泛频信号中的周期成分。倒谱是从时域到频域、频域到频域、频域到伪时域的3次映射。即

C(τ)=|FFΤ(ln|FFΤ{s(t)}|2)|2。 (2)

倒谱的对数变换可将乘性噪声变为加性噪声,有助于消除乘性干扰。该技术充分利用信号频域上的准周期特性,检测淹没在噪声之中的信号分量,实现信号的检测和参数估计。直扩信号倒谱如图2所示。

DSSS信号的表达式代入上式,即对直扩信号频谱求对数功率谱得到DSSS信号的倒谱为:

C(τ)=|FΤ(ln|FΤ{s(t)}|2)|2=|FΤ(a+bGs(w)+cGs2(w)+dGs3(w)+)|2=|a2πδ(τ)+b2πRs(-τ)+c2πRs(-τ)+|2(3)

式(3)第1项为信号的直流分量,以后各项为信号的自相关函数及多个自相关函数的卷积,由于在第2次傅里叶变换之后取模的平方所以丢失了相位信息,相关结果在其伪码周期的整数倍处出现峰值,而在其他位置相关值较小,因此,倒谱的处理结果中峰值也是出现在伪码周期的整数倍处,通过检测峰值有无判断信号的存在,通过计算峰值间隔可以估计出伪码周期大小。

1.4 高阶累计量检测法

直扩信号的4阶统计量包含扩频码周期和载频信息,而且理论上可以完全抑制任何形式的高斯噪声,因此可以解决二阶统计量不能解决的问题。加噪信号的4阶累积量为:

c4x(τ1,τ2,τ3)=12Ρ2E[c(t)c(t+τ1)c(t+τ2)c(t+τ3)][cos2πf0(τ2+τ3-τ1)+cos2πf0(τ1+τ2-τ3)+cos2πf0(τ1+τ3-τ2)]-Ρ2Rc(τ1)cos(2πf0τ1)Rc(τ2-τ3)cos(2πf0(τ2-τ3))-Ρ2Rc(τ2)cos(2πf0τ2)Rc(τ3-τ1)cos(2πf0(τ3-τ1))-Ρ2Rc(τ3)cos(2πf0τ3)Rc(τ1-τ2)cos(2πf0(τ1-τ2))(4)

由式(4)可以看出利用接收信号的4阶累积量可以检测到直扩信号的周期信息;理论上可以完全抑制高斯噪声(包括有色和白色),所以有更好的检测性能。由于4阶累积量的计算量很大,为了实现工程应用,取其切片。

c4x(0,τ,τ)=12Ρ2[cos4πf0τ]-Ρ2Rc2(τ)(1+cos4πf0τ)(5)

c4x(0,0,τ)=c4x(τ,τ,τ)=-32Ρ2Rc(τ)cos(2πf0τ)(6)

由式(5)和式(6)可以看出,接收信号的4阶累积量切片均包含扩频码周期自相关信息,并且在理论上都可以完全抑制高斯噪声,因此检测和参数估计性能较好。直扩信号4阶累积量切片如图3所示。

2 仿真验证

仿真假设条件如下:① 待检测信号为DSSS/BPSK扩频信号;② 扩频码采用小m序列,扩频码长为1 023。

各种检测方法的性能如表1所示。由以上分析表明,运用时域相关检测法算法简单、检测时间最短,但是其检测性能较差,在带内信噪比为-8 dB时检测概率大于90%;循环谱检测法性能比时域相关检测略好;倒谱检测法在带内信噪比-14 dB时检测概率91%,计算复杂度居中;高阶累积量检测法在带内信噪比-15 dB时检测概率接近90%,但是由于高阶累积量计算的复杂性使得其检测时间较长。

3 结束语

从理论分析还可得出直扩信号的检测不仅和信噪比有关,而且有赖于伪码长度和检测数据长度等因素,在伪码长度不可控的情况下,增加检测的数据长度,能够改善各种方法的检测性能。由于直扩信号的隐蔽性,导致难以检测到长码扩频信号,如何在扩频码很长,接收信号不足一个伪码周期情况下侦察信号是未来直扩信号检测和特征分析的难点和重点。

参考文献

[1]张天骐,周正中,邝育军,等.低信噪比长伪码直扩信号伪码周期的估计方法[J].系统工程与电子技术,2007,29(1):12-16.

[2]钟志,赵雅琴,杨刚,等.一种简单的长码周期估计方法[J].湖南科技大学学报,2006,21(4):75-78.

[3]资晓军,谢丹,易克初.基于四阶累积量的二次谱法检测DSSS伪码周期[J].电子信息对抗技术,2006,21(1):18-21.

语音信号特征参数的提取 篇5

1.1 汉语的音素、音节和音调

我们发现依据人类声音产生的机制, 由于激励方式的不同会形成清音和浊音两种不同的语音。由这两种语音又可以组合成两种不一样音素:元音及辅音。构成语音的最小单位是音素。元音由不相同的口腔形状发声而形成, 辅音的形成由发声的部位以及发声的方法决定。

音节是构成汉语的最小单位。我们所说的音节指的是一个元音加上一或两个辅音所构成的音素的组合。汉语当中包括以下4种音节, 即:元音、元音+辅音、辅音+元音, 辅音+元音+鼻音。一般汉语可以简单划分为声母+韵母两个部分。音节前部分的辅音称之为声母, 元音和元音后面有时候出现的鼻音称之为韵母。汉语可认为是一种声调语言, 根据声调的不同所表达的意思很可能完全不一样, 汉语共有阴平、阳平、上声及去声四种声调。而声调的变化可以看成浊音周期的变化。声调曲线从韵母起始点至韵母的终止点。

1.2 语音信号的数学模型

语音的产生是因为声道激励发生共振, 因为发声过程中声道是振动的, 所以能够用一个时变线性系统来描述。可以用如图1所示描述语音生成模型。

由图1可知一个完整的语音信号模型由激励模型、声道模型、及辐射模型三个子模型串联而成。激励模型由浊音激励与清音激励组成。对清音部分来说, 激励信号等同于白噪声, 而对于浊音部分来说, 因为声带在不断地张开与闭合, 所以会有间隙性的脉冲波产生。共振峰模型是当前广泛使用的一种声道模型。声道的终端是人类口与唇, 速度波通过声道输出, 然而语音信号是一种声压波。

2 语音信号的前端处理

为了得到我们所需要的信号, 须先对模拟语音信号进行数字化, 接着进行预处理与加窗。

2.1 语音信号的数字化

为将模拟语音信号转变为数字信号, 先对信号进行采样与量化。在采样与量化之前, 须进行语音信号的预滤波, 其目的在于:第一, 滤除高频噪声;第二, 防止50Hz的工频干扰。

2.2 语音信号的预处理与加窗

因为语音信号的平均功率受到鼻辐射以及声门激励的很大影响, 因此在语音信号频谱的求取时, 随着频率的增高相应的响应成分越小, 也就是说高频部分频谱比起低频部分来不够精确, 为此我们需要对信号进行预加重。为了平滑频域信号, 使得信号处理的后面阶段对有限长响应不那么敏感, 通常情况下让数字语音信号通过一个低阶的系统。目前广泛使用的是固定的一阶数字滤波器, 即

式中a为预加重系数, 通常取值0.95左右。

因为语音信号的特性是随时间变化的, 而非平稳过程, 但由于人的发音器官的肌肉运动速度比较慢, 因此可以认为语音信号是个局部的短时平稳的信号。因此, 我们对对语音信号进行分帧加窗的处理。通常情况下语音信号帧长取为10ms~30ms, 每秒帧数约为33~100, 分帧可以是连续的, 有可以是交叠分段的, 在语音信号的分析当中常用“短时分析”来表述。我们一般采用窗函数来乘语音信号, 常用的窗函数是Hamming窗。

Hamming窗函数是:

2.3 语音信号的端点检测

端点检测指的是找出语音信号中的各段落的起始点以及终止点的位置。语音信号的时域处理方法包括:短时平均幅度、短时能量、短时过零率以及短时自相关。端点检测一般要用到语音信号的短时能量以及短时平均过零率两中参数。

用En来表示第m帧的短时能量, 其计算式如下:

短时平均幅度Mn的计算式如下:1N-

短时能量En的最主要作用是:区分清音与浊音、区分声母与韵母的分界、无声与有声的分界、连字的分界以及能够用于进行语音识别。

“过零率”指的是在单位时间内信号通过零的次数。短时过零率z (m) 是用来描述频谱的简单有效的方法之一, 计算公式如下:

在短时处理技术中, 描述一个随机信号的其中一个重要特征是自相关函数Rn, 可以用自相关函数区分清音与浊音, 计算公式如下:

短时频域处理作为语音信号处理的基本方法之一。短时频域处理适合缓慢变化的语音信号。第m帧的短时傅立叶变换计算式如下:

3 语音特征参数提取

在完成语音信号的预加重、分帧、及端点检测之后, 下一步关键的是提取特征参数。我们不可能直接识别原始波形, 语音信号需要经过变换, 提取出其特征参数后再进行识别, 特征参数需要满足:反映语音的本质、参数个分量之间耦合尽量小、参数的提取方便等几方面的要求。目前语音识别中线性预测倒普参数LPCC、美尔倒普参数MFCC使两种较为常用的参数。LPCC利用线性预测编码技术求取倒普参数。MFCC则构造人的听觉模型, 以语音信号经过该模型的输出值作为声学特征, 直接利用离散傅里叶变换得到。

3.1 线性预测倒普参数LPCC的提取

线性预测分析是语音特征分析方法之一, 能够有效的解决短时语音信号的模型化问题。LPCC的基本原理:语音信号的每个样值可以通过过去的若干个值的线性组合逼近求得, 也能够用实际语音信号的抽样与线性预测的均方差值最小的方式, 求出一组预测值。

其中a为加权系数, p为线性预测倒普参数的预测阶数。

LPCC系数表示的是语音信号频谱极值点的变化, 用该系数来表征语音信号, 能够获得比较平滑的语音频谱图。

3.2 美尔倒普参数MFCC的提取

MFCC参数与LPCC参数不同, 它考虑了人耳的听觉特性, 先将频谱转变为美尔频标的非线性频谱, 接着再转换到倒普域上。因为MFCC比较地充分考觉特性, 所以MFCC参数有很好的识别性能与抗噪能力。由测试可得, MFCC参数性能在汉语语音识别中要明显优于LPCC参数, 由于人类在对1 000Hz频率以上的声音的感知能力并不遵循通常的线性关系, 它遵循的是对数频率坐标上的线性关系。

首先, 语音信号在经过预处理、分帧加窗后转变为短时信号, 经过FFT变换将x (n) 转化为X (m) , 并计算出其短时能量谱P (f) 。在将P (f) 在频率轴上的频谱转化为在美尔坐标上的P (M) 。接着在美尔频域内将在美尔坐标上加入三角带通滤波器得到滤波器组Hm (K) , 再计算美尔坐标上的能量谱P (M) 通过该滤波器组的输出值。最后在美尔刻度谱上能够采取修改的离散余弦反变换来求取美尔倒普参数:

式中, p为MFCC阶数。

4 结论

本文主要介绍了语音学的基础知识、语音信号的数字化及其特征提取, 为语音模型的训练做了很好的铺垫。在计算机普及的今天能够让计算机识别出人的自然语言是人们一直努力的一个方向, 对计算机直接用语言信息发号施令, 我们的双手才能真正得到解放。

参考文献

[1]胡航.语音信号处理.2版.哈尔滨:哈尔滨工业大学出版社, 2002:256.

[2]刘幺和, 宋庭新.语音识别与控制应用技术.北京:科学出版社, 2008:201.

[3]易克初.语音信号处理.北京:国防工业出版社, 2000, 14:363.

[4]李波, 王成友, 杨聪, 等.基于语音频谱包络抽取的MFCC算法.长沙:国防科技大学学报, 2004.

管制指令特征参数提取研究 篇6

管制模拟机训练对空中交通管制学员的培养十分重要。但是,目前管制模拟机存在一个很大的不足,即需要学员或者老师轮流担任飞行员席位人员,配合完成训练。因此,研究将计算机语音识别技术[2]应用于空中交通管制学员的培训中,采用自动飞行员席位代替专人飞行员席位具有重要意义。

目前,美国、澳大利亚等研究将计算机语音识别技术应用于管制模拟训练机中,已有具体的研发产品。国内2000年后陆续有过相关研究,但都没有实质性的进展,原因主要有:

(1)现有的成熟语音识别引擎,其孤立词汇的识别率能达到97.1%[3],特定人的连续语音识别率也能达到90%以上;但是陆空通话中的语句几乎都是格式固定的句子,且非特定人,因此研究具有高识别率的语音识别引擎是一难点。

(2)管制指令词汇量相对较少,但较为特殊,发音与标准的英语或普通话有明显区别,即便利用成熟的语音识别引擎系统进行二次开发,语音模板库的建立和训练也异常复杂。

(3)从事陆空通话语音识别研究的科研机构或团队相对较少,目前主要是川大智胜、南京航空航天大学、民航大学等进行了初步探索[1,4,5,6,7,8]。

计算机语音识别的主要流程如图1所示。特征参数提取是识别结果的重要影响因素之一。好的特征参数必须能很好地反映语音的特征,并且各参数之间应有良好的独立性,易于提取,计算方便。

目前,最常用的特征参数提取方法主要有提取线性预测倒谱参数(linear prediction cepstrum coefficien,LPCC)和梅尔频率倒谱参数(Mel frequency cepstmm coefficient,MFCC)[9]。现有的管制指令语音识别相关文献中,特征参数提取方法对识别率的影响研究较少,本文研究上述两种方法分别对特定人和非特定人管制指令语音识别系统识别率影响。

1 管制指令的特征分析

管制指令专业特征强,发音和拼读极具特色,是一种严格程序化、标准化的语言。从语音到语法都包含二次人造痕迹,要求发音高度清晰、指令公式化、简练性、词语的单一意旨性及结构祈使性等。同时,管制指令词汇样本空间小、指令较少、重复率高且工作环境噪声低。

2 LPCC线性预测倒谱参数

LPCC参数方法是语音识别研究者采用最多的特征参数提取方法[10]。线性预测(LPC)分析的基本思想是用加权的过去若干个语音信号的采样值进行线性组合来近似出当前的语音信号的值[11]。LPCC由LPC推算得到,反应声道的响应,一般只需十几个倒谱系数就能较好的描述语音的共振峰特性[12]。

LPC分析的声道模型系统函数为:

式(1)中,p是LPC分析的阶数;ak为线性预测系数(k=1,2,…,p)。采用Durbin法来完成LPC系数的计算,求得p阶线性预测系数ak。

设H(z)的冲激响应为h(m),由式(1)变换得:

令式(2)中左右两边常数项和z的各次幂的系数分别相等,推出ak和之间的递推关系,如式(3)所示。

由式(3)可从预测系数{ak}求出倒谱便得到倒谱特征的统一表达式。

3 Mel倒谱参数

Mel频率倒谱参数的分析是基于人的听觉机理[13],即依据人的听觉实验结果分析语音的频谱,获得语音特性。MFCC分析依据的听觉机理包括:

(1)人主观感知域的划定并非线性,根据Stevens和Volkman的工作[14],有式(4):

式(4)中,Fmel是感知频率,mel;f是实际频率,Hz。Fmel和f的关系曲线如图2所示。将语音信号的频谱变换到感知域中,便能更好的模拟听觉过程。

(2)临界带。频率群相当于将人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群那些频率的声音,在大脑中是叠加在一起进行评价的[15]。按临界带的划分,将语音在频域上划分成一系列的频率群组成了Mel滤波器组。

在语音的频谱范围内设置若干带通滤波器,为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内这些滤波器是等带宽的。每个滤波器的传递函数如式(5)所示。其频率响应波形如图3所示,其中,

f(m)可以定义为:

式(6)中,f1和fh分别为滤波器频率范围的最低和最高频率;N为DFT(或者FFT)时的长度;fs为采样频率;F-1mel为Fmel的逆函数:F-1mel(b)=700(eb/1 125-1)。

每个滤波器组输出的能量为:

经离散余弦变换得到MFCC参数:

4 算例分析

4.1 隐马尔科夫(HMM)声学模型[16]实现

以管制指令中0~9十个数字的录音识别为例进行仿真分析,每个数字的发音见表1。用于模版训练的语音均是在实验室环境下录制的标准陆空通话男生和女生发音,8 kHz采样,16 bit编码,单声道输出,存储格式为*.wav。用“录音软件V3.91”共采集了0~9十个数字的录音250个,每个数字均为25个录音(其中男生三人15个录音,女生二人10个录音)。用于识别率检测的语音由2人录制完成,共100个,每个数字10个录音。

具体实现步骤为:

4.1.1 语音信号预处理

包括了语音信号的预加重、分帧和加窗、端点检测三部分。

(1)预加重。

预加重的目的是补偿高频分量的损失,提升高频分量。预加重的滤波器为:

式(9)中,a为预加重系数,本文取0.937 5。

(2)分帧加窗。

语音信号为准稳态信号,将其分为较短的帧(10~30 ms),每帧可以看做为稳态信号,便可用稳态的方法进行处理。同时,相邻两帧之间有(1/2~1/3帧长)的重叠部分,以便于帧与帧之间能平稳的过渡。

采用汉明窗,窗函数为:

式(10)中,N为窗长,本文取N=256;n为采样点。

(3)端点检测。

采用语音信号的短时平均能量和过零率进行端点检测[12],具有算法简单,易于实现,且能够较好的区分噪音和语音等优点。

4.1.2 语音的训练与识别

对语音信号进行预处理后,管制指令语音训练和识别过程中分别采用公式(3)和公式(8)的方法进行特征参数提取。采用HMM为管制指令语音建立声学模型。在识别时,采用后验概率的方法[17]对数字进行筛选及确认,以便更好地实现训练语音与待识别语音之间的匹配。

4.1.3 程序实现

采用Matlab软件进行实验仿真分析,为了避免繁琐的程序代码和大量的数值运算操作,利用Matlab GUI(图形用户界面)设计操作界面,如图4所示。该操作界面嵌入预先编辑成功的仿真程序,在后续的操作中无需知道代码的具体内容,只要了解操作步骤即可操作界面。

GUI界面的主要功能有实现语音特征参数提取方法的选择,利用HMM模型对语音进行训练,并显示训练的时间、识别时间及识别率。也可用于实现语音实时识别,语音的波形、识别时间及识别结果的显示。训练的进度由图5所示的进度界面显示。

4.2 实验结果及分析

试验中语音训练要求的精度均为5×10-6[18],语音模版的训练和语音识别分为特定人和非特定人,经十次训练和识别的实验结果平均值如下。

4.2.1 特定人

如表2和图6~图7所示,特定人的管制指令语音模板训练和语音识别中,特征参数提取环节采用LPCC参数的训练和识别速度分别约为运用MF-CC参数的2倍和1.7倍;训练和识别稳定性均为运用MFCC参数的1.5倍。运用二者的语音识别率均为100%。

4.2.2 非特定人

如表3和图8~图10所示,非特定人的管制指令语音模板训练和语音识别中,特征参数提取环节采用MFCC参数的训练和识别速度比运用LPCC参数的分别快150 s和5 s;训练和识别的稳定性都略高于运用LPCC参数的。运用MFCC参数的识别率比LPCC参数的高13%。

由实验结果可知,特定人的语音识别中识别率都为100%,但是模板训练和识别的时间却相差较大,若研究记录特定管制员发送指令的次数和时间、管制员疲劳的评估等,可采用速度快、效率高的LPCC特征参数提取方法。若研究对象为非特定管制员,则可采用语音模板训练和识别速度快、识别率高的MFCC特征参数提取方法。

5 结束语

基于NMFSC的特征基因提取 篇7

植物体内存在着一些特殊的相互作用的基因,而这些基因能反映每一个非生物压迫。如何能有效地提取出基因,仍然是一个挑战。人们常见的方法有RT-PCR法[1]或Northern印迹法[2],主成分分析(PCA)法,独立成分分析(ICA)法和奇异值分解(SVD)法等。虽然这些方法已经被广泛地应用在基因表达数据领域中,但他们都有一些共同的缺陷,即在处理原始数据的时候,都必须对原始数据进行标准化处理,且允许负成分的存在。而这些负分量在实践中往往毫无意义。为了能更好地提取特征基因,Le和Seung等人首次引入非负矩阵分解(NMF)方法来分解图像矩阵[3]。到目前为止,NMF的许多算法已经被提出来,如SNMF、Fisher NMF和NMFSC[4]。SNMF和Fisher NMF有一个共同的缺点:他们的稀疏性不能被精确控制。而Patrik O. Hoyer提出了可以精确控制的稀疏非负矩阵分解(NMFSC)。NMFSC已广泛地应用到图像处理等领域。为了提高对基因表达数据的处理能力,我们利用NMFSC在植物基因数据集上进行特征基因提取。

1 方法

1.1 NMFSC的数学定义

在文献[4]中,Patrik O. Hoyer详细地介绍了NMFSC算法。对于任意的一个非负矩阵X,能找到两个非负矩阵W和H使得X-WH。其中,W被称为基矩阵,H被定义为基于基矩W的系数矩阵。我们利用欧氏距离作为目标函数,其公式如下:

分别对W和H进行施加约束控制,对目标函数进行优化控制:

其中,wi是矩阵W的第列,hi表示矩阵H的第行。Sw和Sn分别表示矩阵W和H的稀疏程度,这两个参数由用户自己设置。

1.2 NMFSC算法

有关NMFSC的详细的算法[4]如下所示:

(1)对矩阵W和H进行初始化,即随机产生非负矩阵W和H。

(2)如果对H施加约束,矩阵H的每一行元素都为非负值,保持L2范数不变,通过设置H范数来获得稀疏度。

(3)迭代。

a)对H进行施加稀疏约束

b)对矩阵W利用乘法步骤来获得

1.3通过NMFSC提取特征基因

我们对基因表达数据矩阵X进行转置,记为A,则有A=XT。A是一个m×n矩阵,它的每一行表示m个样本中的个基因表达水平,每一列表示一个基因在所有样本中的表达水平。所以,矩阵A可以表示为A~WH,其中,W是一个m×k的矩阵, H是k×n的矩阵,k表示矩阵的秩,k

这里的sj是{hi}的线性组合,sj是矩阵A的行向量,wij是矩阵W的元素。由于矩阵H包含所有的基因且它是矩阵A的样本特征的一部分,所以,我们从基矩阵H中提取特征基因。所以, sj能用hi来代替。通过NMFSC对矩阵A进行分解,得到稀疏矩阵H,从矩阵H中提取出非零的元素,即其对应的基因记为特征基因。

2 实验结果与分析

在本节中,我们将呈现通过NMFSC的方法进行处理数据矩阵得到的实验结果。在这一部分中,我们给出了基因表达数据集,且将实验结果与SPCA方法的结果进行了比较。

2.1 数据来源

基因表达 数据可以 从NASCArrays[http://affy. arabidopsis.info/]中免费下载,其中参考数据有:nascarrays-141,干旱胁迫;nascarrays1 4 0 , 盐压 ; n a s c a r r a y s - 1 4 4 , U V- B光胁迫 ;nascarrays-138,冷压; nascarrays-146,热压;nascarrays-139,渗透压;nascarrays-137,参照组[5]。在这个数据集中,每个样本包含22810个基因,每一个样本对应的数目在表1中列出。吴等人提出了利用GC-RMA软件能够自动调节背景的光噪声。GC-RMA软件得到的结果有待于利用矩阵进行进一步的处理。

2.2 参数的选择

利用NMFSC方法对矩阵进行处理时,稀疏控制约束的参数Sw设为0.5。Sh参数的选择在区间(0,1)之间。我们从22810个基因中粗略地选择500个基因作为特征基因,并将其结果与SPCA的方法进行比较。

2.3 基因本体论(GO)分析

GO术语是一个含有丰富的资源工具,对于一个GO术语,能形成一个相联系的基因产物组,可以搜索共表达性基因。GO Term Finder能在公开的网站中获得。其阈值参数设置如下:基因产物的最小数目为2个,p值最大值为0.01。

表1列出了在根和茎的样本中对刺激的反应( G O : 0 0 5 0 8 9 6 ) 和应对压 力的反应 ( G O :0 0 0 6 9 5 0 ) 。在TA I R集中的背 景频率分 别是6 6 1 9 / 3 0 3 2 4 ( 2 1 . 8 % )和4 0 2 8 / 3 0 3 2 4 ( 1 3 . 3 % )。其中,318表示在选择的500个基因中,有318个基因是对刺激有反应。从表中我们很明显地看出在根的样本中,反应对刺激的应力下,我们的方法优于SPCA。在茎的样本中应对刺激的反应中,除了热压,SPCA方法优于我们的方法,在剩余的5个样本里,我们的方法要优于SPCA。同样,在根和茎的样本中应对压力下,除了反应热压,SPCA的方法优于我们的方法,剩余的11个样本里,NMFSC方法要比SPCA能提取更多的基因。

总之,通过实验和分析可以看出,NMFSC比SPCA能提取更多的特征基因。因此,我们的方法在提取特征基因方面比其他方法更有优势。

(下接19页)

(上接21页)

3 总结

上一篇:产业融资下一篇:师范生实践能力