行驶环境的识别

2024-07-31

行驶环境的识别(通用8篇)

行驶环境的识别 篇1

摘要:为了解决动态环境下的说话人识别的辨认率问题, 在识别阶段, 把小生境粒子群算法应用于GMM之中。从实验得出, 采用基于小生境粒子群的高斯混合模型提高了识别性能。

关键词:动态环境,GMM,说话人识别

说话人识别很久以来就是一个即有巨大吸引力而又有相当困难的课题[1,2]。传统的GMM采用最大似然 (ML) 估计对模型参数进行优化。然而ML估计是一种局部搜索算法, 本质上采用爬山技术来寻找最优解。为了克服上述缺点, 人们提出了各种算法对目标函数进行优化, 主要有模糊聚类[3], 遗传算法[4,5], PSO算法[6]等。

PSO算法着眼于如何更有效地用一个粒子群在解空间中搜索最优解。但是分析不难发现, 粒子们在搜索时, 总是追逐当前全局最优点, 和自己迄今搜索到的最优点, 因此粒子们向全局最优点飞行时, 越接近全局最优点, 速度越小, 粒子们的速度很快降到接近于0, 并快速收敛于全局最优点。当环境发生变化时, 即将PSO算法应用到动态环境中去时, 粒子在原来的搜索区域内停滞不前, 容易陷入局部最优解。所以, 需要控制好群体粒子间的飞行距离, 使其能以较大的分布度在整个解空间中进行快速搜索。而采用小生境的方法形成和维持了稳定的多样化子种群, 可在搜索空间的不同区域中并行地进化搜索, 故将小生境应用于PSO能解决当PSO处于动态环境的问题。

而在说话人识别中, 由于语音数据库是在不同时间建立的。就是说, 说话人识别处于动态的环境之中, 因此可以将小生境粒子群算法应用于动态环境的说话人识别之中。

本文把小波分析和TEO结合起来, 形成DWT-TEO参数。通过不同尺度的小波基把输入含噪信号分解于不同频段中, 然后在各个频段分别通过TEO去噪。针对说话人识别的特点, 在小波重构时对各小波系数进行了加权处理。最后再把各个频段的输出通过小波重构恢复信号。最后通过Mel滤波器组把小波系数转换成MFCC。为了解决动态环境下的说话人识别的辨认率问题, 在识别阶段, 把小生境粒子群算法应用于GMM之中。从实验得出, 采用我们提出的DWT-TEO参数对于说话人识别的效果较好。采用基于小生境粒子群的高斯混合模型进一步提高了识别性能。

1 特征参数提取

本文把小波分析和TEO结合起来, 形成DWT-TEO参数。通过不同尺度的小波基把输入含噪信号分解于不同频段中, 然后在各个频段分别通过TEO去噪。针对说话人识别的特点, 在小波重构时对各小波系数进行了加权处理。最后再把各个频段的输出通过小波重构恢复信号。最后通过Mel滤波器组把小波系数转换成MFCC。

2 基于小生境粒子群的高斯混合模型

基于小生境粒子群的说话人算法步骤如下。

2.1 初始化设置算法各参数

包括粒子的初始速度、最大位置、最小位置、最大速度、最小速度。

2.2 初始粒子群

每个粒子的位置为λ= (λ1λ2λΜ) , 其中M为GMM中单高斯函数λi的个数。λi可以表示为λi= (piμiΣi) , pi为单高斯函数λi的混合权值, μi= (μi1μi2μiD) 为均值向量, Σi= (Σi1Σi2ΣiD) 为协方差阵的对角元素组成的向量。

随机选取M特征矢量作为初始聚类中心, 然后有K-均值法来初始化GMM模型参数, 再用ML算法重估3次, 从而得到粒子群各微粒的初始位置。

2.3 更新速度和位置

Vi+1=χ[ωiVi+c1r1 (Ρi-Xi) +c2r2 (Ρg-Xi) ] (1)

式 (1) 中ωi为权重, 在算法运行初期, ωi通常较大以保证对整个解空间有较强的搜索能力, 而在运行后期, 其值较小, 保证算法的收敛。χ=2k/|2-φ-φ2-4φ|为收敛因子, φ=c1+c2>4。一种典型的设置为c1=c2=2.05, k=0.729。

Xi+1=Xi+Vi+1 (2)

PSO算法着眼于如何更有效地用一个粒子群在解空间中搜索最优解。但是分析式 (1) 和式 (2) 不难发现, 粒子们在搜索时, 总是追逐当前全局最优点, 和自己迄今搜索到的最优点, 因此粒子们向全局最优点飞行时, 越接近全局最优点, 速度越小, 粒子们的速度很快降到接近于0, 并快速收敛于全局最优点。当环境发生变化时, 即将PSO算法应用到动态环境中去时, 粒子在原来的搜索区域内停滞不前, 容易陷入局部最优解。

2.4 改进的小生境粒子群算法

首先将种群按照适应值降序排序, 然后应用聚类分析将种群分割为q个小生境。如果一组个体之间的距离小于小生境半径, 这些个体则属于同一小生境。其中个体之间的距离公式用欧几里德距离测度。然后在每一个小生境内部, 找出最好的粒子作为感应粒子, 采用分布式评价策略对环境进行响应。判断环境是否发生变化, 如果发生变化, 重新初始化感应粒子所在的子群。每个微粒执行飞行操作, 到达新的位置, 并计算新的适应度。对粒子群中每个粒子更新其速度;根据求得的每个粒子的更新速度, 重新计算其新的位置变量值。对粒子执行局部极值排挤操作, 调整分布度;计算每个粒子的目标函数值, 更新个体极值。这样整个群体的搜索趋势也随之改变, 粒子群将追随新的群体最优在新的空间进行搜索, 使群体避免在原来的搜索区域内停滞不前。

2.5 对粒子群进行参数重估计算

2.6 如果已经满足迭代次数, 则停止迭代, 否则转2.3

3 实验及结果

与文本无关的说话人辨识是通过鉴定一个说话人发出任何测试文本来鉴别或确认说话人的身份。实验由30个说话人组成, 每个说话人说出6个句子, 其中每个说话人随机选取3个句子组成训练集, 剩下的3个句子组成测试集。采用的语音是在三个月内分三次进行录制的。采样率为11 025 Hz, 帧长为30 ms, 帧移为15 ms, 进行 (1-0.95) z-1预加重。采用纯净语音进行训练, 辨认采用纯净语音附加各种信噪比的高斯白噪声, 用汉明窗加窗。训练语音时长为10 s, 用时长为2 s的语音进行辨认。

首先对训练集进行分帧、预加重和加窗, 提取12阶MFCC, 然后对于每一个人, 建立一个GMM, GMM中的混合数为64, 把所得的数据存储下来;同样对测试集进行分帧、预加重和加窗, 然后提取12阶MFCC, 求出该MFCC与训练集中的每个说话人的GMM的似然得分, 其中获得似然得分最大的说话人作为正确的辨认人。

根据语音数据库的建立时间, 进行了三次实验。第一次的语音数据库是第一次采集的;第二次的语音数据库采用第二次采集的数据库补充到第一次中去;第三次的语音数据库采用三次采集的语音数据。实验结果分别见表1、表2和表3。

从实验得出, 采用我们提出的DWT-TEO参数对于说话人识别的效果较好。采用基于小生境粒子群的高斯混合模型进一步提高了识别性能和鲁棒性。

4 结论

由于语音数据库是在不同时间建立的, 就是说, 说话人识别处于动态环境之中, 因此可以将小生境粒子群算法应用于动态环境的说话人识别之中。实验证明, 本文提出的系统在动态环境中表现出较高的辨认率和较好的鲁棒性。

参考文献

[1]邱政权, 范小春, 王俊年。基于维纳滤波和混合模型的说话人识别.仪器仪表学报, 2009;7 (7) :1436—1440

[2]Sakka Z, Kachouri A, Mezghani A, et al.A new method for speech de-noising and speaker verification using sub-band architecture.Control, Communications and Signal Processing, 2004.First Interna-tional Symposium on, 2004:37—40

[3]Hong W Y, Kwong S.A genetic classification method for speaker recognition.Engineering Applications of Artificial Intelligence, 2005;18 (1) :13—19

[4]林琳, 王树勋.基于自适应小生境混合遗传算法的说话人识别.电子学报, 2007;35 (1) :8—12

[5]刘健辰, 沈洪远, 姚屏, 等.一种基于聚类分析的小生境微粒群优化算法.湖南科技大学学报 (自然科学版) , 2006;3 (1) :73—76

[6]王俊年, 申群太, 周少武, 等.基于种群小生境微粒群算法的前向神经网络设计.控制与决策, 2005;9 (9) :981—985

行驶环境的识别 篇2

【关键词】机载环境 语音识别 DSP FPGA 语音端点检测

1、引言

随着信息科学的不断发展,语音识别技术广泛的应用于车载、机载、舰载综合电子设备当中。机载环境下语音识别技术的研究,对于简化飞行员驾驶战斗机的操作复杂性,提高飞机的战斗力,乃至提高整个作战系统的反应速度,有着重要的意义。本文主要研究在机载环境下的语音命令识别技术,在硬件上采用ADI公司的DSP芯片ADSP21161N和Xilinx公司的FPGA芯片XC2V2000来实现一个实时语音命令识别系统。

2、语音识别算法原理

语音识别的过程本质上是一个模式识别、匹配的过程。语音识别系统包括有语音预处理、语音端点检测、特征参数提取、模式匹配等基本单元,它的基本结构如图(1)所示。

2.1、端点检测

端点检测是语音识别中非常关键的一步。它是根据语音的特点及其参数的统计规律,将语音信号从背景噪声中分离出来,正确的确定一段语音信号的开始点和结束点。本文采用基于语音功率谱系数的端点检测判别方法。由于从无音段到有音段,语音频谱变化很大,因此可以测定信号的频谱变化大小来判断有无语音。设语音信号S(n)的离散时域傅立叶变换为S(w),称其为S(n)的短时频谱,C(n)为其倒谱,其计算公式如下:

计算出当前的谱矢量C(n)和背景噪声的平均短时谱,就可以得到差分谱:

具体处理含噪语音时,将信号分成若干帧,得到每一帧的差分谱△C[n],其均值为△,方差为dv(△C[n]),则差分谱算法可描述为:

其中Za/2由误判概率来确定,参数为短时语音信号的指数均衡系数,OUT=1表示有语音,OUT=0表示无语音。

由于在语音信号处理过程中要计算到信号的短时功率谱,为了减少计算量,在实际操作中可以直接计算功率谱的变化大小来代替倒谱的变化大小。

3、系统设计

整个语音命令控制系统由A/D+DSP+FPGA+外围电路组成。DSP芯片选用ADI公司的ADSP21161N。它是一款高性能的32位浮点DSP处理器,具有高主频(100MHz、600MFLOPs)和SIMD的内部结构,具有两套独立的运算核和两套独立的地址产生器,每套运算核拥有独立的乘法器、累加器、移位寄存器以及寄存器组。ADSP21161内部集成1MBit的片内双口SRAM,SRAM存储器支持PM总线、DM总线、I/O总线的访问,在同一周期内,处理器核对SRAM的访问与I/O处理器对SRAM的访问是独立透明的。此外,ADSP21161提供14条DMA通道,数据传输由DMA控制器控制,并自动完成不同字宽数据格式之间数据的打包和展开。

Xilinx公司Virtex-II系列中的XC2V2000芯片拥有2M的System Gates系统设计资源,主要由CLB、IOB、BlockRAM、DCM和乘法器组成。其中,内部的CLB模块含有4个Slice,用于实现FPGA的大部分逻辑功能。内嵌大容量的BlockRAM用于实现FPGA内部的随机存取,可以适应设计对大容量片内存储的要求。DCM可以提供灵活的时钟管理。IOB模块用于提供封装引出端与内部逻辑之间的接口。由于Virtex-II系列采用数控阻抗匹配技术,减少了因阻抗匹配问题而造成的系统不稳定性。在本文中,FPGA主要被用于地址译码以及控制逻辑、A/D芯片的控制逻辑、中断管理、语音信号预处理等。

4、结束语

在实现小词汇量、孤立词语音识别系统时,DTW算法能取得与HMM、神经网络等新兴的语音识别算法相近的识别率。而且使用改进后的DTW算法,计算量少、计算复杂度低、存储器需求少。采用高速的ADSP21161N为核心芯片,整个识别过程消耗时间短,完全可以达到实时识别的要求。

参考文献:

[1]. 易克初.语音信号处理.国防工业出版社,2000.

[2]. 拉宾纳L.R.语音识别的基本原理,清华大学出版社,2002

[3]. B.A.Dautrich, L.R.Rabiner and T.B.Martin, "On the Effects of Varying Filter Bank Parameters on Isolated Word Recognition," IEE Trans,Acoustics,Speech,Signal Proc., vo1.31(4), pp793一807, August 1983.

行驶环境的识别 篇3

1 入侵检测系统的概述

入侵检测系统的理论定义主要是指在入侵检测过程中所需要具备的各种基本软件与硬件的配置组合, 其通过对计算机网络信息系统的实际工作状态进行实时性的有效监测, 发现各种类型的攻击意图、攻击行为或者攻击后果同时作出相应的响应, 从而可以确保计算机系统资源的安全性、运行性与可靠性。其主要功能分别表现在:监控行为、分析系统用户与执行活动;检测计算机系统的技术配置与操作漏洞;评估系统取决于计算机资源与数据信息的完整性;模式识别已具备的攻击行为、统计分析异常行为;对于操作系统进行日志的操作管理;模式识别违反安全策略的系统用户活动;系统响应入侵行为的事件等。

2 智能入侵检测技术

现阶段大部分入侵检测系统可以符合大部分系统用户的实际需求, 然而在重点技术领域 (金融、商务以及军事等) 的实际应用仍然存在各方面问题, 通常表现在:误报率比较高、报警信息比较多;缺少检测未知入侵行为的有效技术;自适应与自学习能力比较低;互操作性比较差, 无法形成协同防御的完善体系等。人工智能技术的实际应用, 为能够解决上述各种问题积累坚实的基础。模式识别技术的基本原理是:把一个输入模式和储存在计算机系统中的多个参考模式相互对比, 寻找出最接近的参考模式, 把这种参考模式所代表的类名作为输入模式的类名输出。模式识别技术能够分成学习与识别这两个具体过程。学习是为了构造识别系统而进行的一种行为, 参考模式是通过学习之后确定的。在应用识别系统的过程中, 必须实时更新参考模式以增强系统的自适应性, 这需要对识别结果集进行学习。本质上, 模式识别是对未知样本进行类归属判定的过程;而入侵检测也是将一个新的实例与原有的规则集进行比较归类的过程。两者工作机理非常相似。模式识别的应用对于改善入侵检测系统的识别精度、识别能力以及智能特性有着重要的影响。

3 智能入侵检测系统

智能入侵检测系统主要采取模块化思想进行设计, 其中包含数据采集模块, 特征提取模块, 规则处理模块, 分析检测模块和异常响应模块等。

系统各个模块的功能如下:

数据采集模块:实时采集计算机网络系统的原始数据信息, 同时根据各自不同的网络协议进行解码操作, 然后对解码处理之后的数据信息进行分片重组、流重组以及代码转换等种技术处理, 还原数据包的原始数据含义与数据包相关之间的实际关系。

特征提取模块:对于数据采集模块直接采集得到的数据信息进行特征化选取, 然后对信息数据进行向量化处理, 最后生成待检测的数据样本。

规则处理模块:进行规则集的向量化与聚类处理工作。首先根据条读入的处理规则, 对于各条规则进行向量化处理, 获得一个规则向量集, 然后对规则向量集进行聚类分析处理, 在向量集规模较小的情况不需要进行聚类入生成精简的参考规则集。

分析检测模块:这是计算机系统的核心控制模块。把待检测的数据样本和参考规则集进行比较分析处理, 从而确定是否出现入侵状况。具体的处理过程为:

(1) 采取近邻法分析待检测的数据样本和参考规则集。

(2) 当欧氏距离d=0的时候, 即待检测的数据样本和参考规则集中某部分规则进行匹配处理, 从而得到分析结果。

(3) 当d≠0的时候则采取k-近邻法进行二次检测处理, 从而得到相应的分析结果。

(4) 根据具体的分析结果从而判断分析待检测数据样是否出现异常行为。

(5) 假如是异常行为, 则会马上启动异常响应的处理措施, 同时对原规则数据库进行更新操作;假如是正常行为, 则直接退出。

异常响应模块:对于入侵行为作出响应 (报警、日志记录等) 。

4 结语

入侵检测理论是防火墙技术、数据加密技术以及访问控制等各种传统安全技术的重要基础, 作为网络信息安全防护体系的关键构成环节。入侵检测系统能够对计算机网络入侵行为作出相应的识别与响应, 其不但能够检测来自计算机网络的实际攻击行为, 也能够监督系统内部用户未经授权的访问活动。模式识别是处于不断提升发展的新型学科技术, 其理论基础与应用范围也处于不断发展的阶段。本文提出将模式识别方法具体运用在入侵检测的技术领域中, 把入侵检测的相关问题转变成模式识别问题来进行处理, 这实际上是一种富有价值的技术解决方案。基于模式识别的入侵检测系统自适应/学习能力强、成本低和健壮性好, 能有效提高系统的安全性。但是, 本系统仍存在缺陷:为保证参考规则集的有效性和实时性, 需要提取海量的对象行为特征;在高带宽的网络环境下, 为缩短检测响应时间, 对检测算法的时空效率提出更高的要求。这两点对入侵检测系统的效能来说具有决定性意义, 如何快速构建入侵参考模式知识库、进一步提高检测算法的智能性和效率, 将是进一步研究的方向。

参考文献

[1]沟口理一郎, 石田亨.人工智能[Ml.北京:科学出版社, 2005.

[2]蔡自兴, 徐光祐.人工智能及其应用[M].北京:清华大学出版社, 2004.

[3]简清明, 曾黄麟, 叶晓彤.粗糙集特征选择和支持向量机在入侵检测系统中的应用[J].四川理工学院学报:自然科学版, 2009, 22 (5) .

[4]赵丽萍.基于模式识别的入侵检测模型[J].电脑开发与应用, 2008, 21 (6) .

基于形态学走廊环境门牌号的识别 篇4

移动机器人在未知室内环境下进行视觉导航时, 如何寻找特征标识物是近年来机器人视觉导航研究的热点问题。室内环境作为一个结构化环境, 具有地面平整、墙壁垂直、规范的门厅和走廊、合理安排的格局以及可自由设定障碍物等优势成为移动机器人视觉导航的典型环境[1]。移动机器人处于未知的环境下进行导航时, 需先对环境进行理解识别, 确定机器人自身位置, 为路径规划做准备;实时的对障碍物和特定的目标进行识别, 避免障碍物的碰撞, 提高控制系统的鲁棒性。因此, 机器人处于未知的环境时如何识别环境中的特定标识是个关键的问题。

移动机器人视觉导航是通过视觉传感器主动采集周围环境的信息, 寻找未知环境中的标识。国内外也都在机器视觉导航方面展开研究, P.Kahn等通过提取灰度图像中物体的线类型特征提出一种快速线提取方法用于道路的检测[2]。Wenxia Shi等通过检测走廊的边界线确定通道方向, 再识别门框结构, 根据门框的位置给机器人定位[3]。李磊等提出通过颜色差异识别门, 再用图像处理技术识别门牌号码进行视觉导航[4]。

本文以机器人如何确定在走廊环境下位置为出发点, 详细研究识别门牌号, 确定机器人在走廊内位置, 为移动机器人在走廊环境下的导航提供重要信息。当移动机器人在未知的走廊环境下进行视觉导航时, 机器人为了识别周围环境, 需要寻找特定的标识, 门牌号码作为走廊环境中特殊的标识之一, 具有惟一性、可识别性和可判断性3个特点, 可以作为判断机器人在走廊内的位置依据。

1导航系统工作原理

本文以门牌号码作为标识, 移动机器人识别门的图像中的门牌号, 确定移动机器人的再走廊内的位置为移动机器人导航提供信息。自主移动机器人处于未知的走廊环境中时, 人为地给机器人指定一个目标房间, 机器人通过门牌号寻找目标门, 移动机器人找到一未知门时, 停止移动, 用CCD单目摄像机拍摄门的图像, 识别门牌号码, 判断是否找到目标门;如果没有找到目标门, 则机器人继续搜索其他的门;如果找到目标门时, 机器人则停止搜索, 完成导航过程。识别门牌号的系统原理框图如图1所示, 首先利用Robert边缘检测算子检测门牌号的边缘, 用形态学运算中的腐蚀和膨胀进一步确定门牌号的位置[5], 通过平滑处理过滤门牌号图像, 这样就可以准确得定位门牌号图像, 分割门牌号图像;然后对门牌号图像进行二值化处理和倾斜校正, 用垂直投影法分割门牌号码字符, 最后通过模式识别识别出门牌号字符[6]。本文通过Matlab软件对算法进行实验, 实验结果证明本文的算法可以正确的识别出门牌号码。

2走廊环境下门牌号的识别

2.1 门牌号码图像的提取

2.1.1 灰度转化

由于灰度图像比彩色图像计算速度快且处理方法较多, 故将门牌号图像利用式 (1) 转化为灰度图像, 如图2为得到的门图像。转化后的门图像如图3 (a) 所示。

Y=0.299R+0.587G+0.114B (1)

式中:Y是灰度图像的灰度值;R, G, B分别对应于彩色图像中红色、绿色和蓝色分量值。

2.1.2 门牌号的定位

通常门牌号的亮度跟门的反差较大, 很容易被人眼所识别, 这是因为门牌号码的亮度比门的亮度高很多, 从图3 (a) 可以看出, 门牌号的边缘较明显, 可以用边缘检测法先定位门牌号区域。Robert边缘检测算子是根据任意相互垂直方向上差分来估计梯度, 从而寻找边缘的一阶算子, 具有边缘定位准确, 尤其在定位水平和垂直方向边缘有优势, 故这里采用Robert边缘检测算子提取门牌号的边缘。经Robert边缘检测处理后的图像能准确显示出门牌号区域的边缘轮廓, 如图3 (b) 所示。

但是从图中可以看出, 由于图像偏暗和噪声的影响, 边缘提取的效果并不好, 需要对门牌号区域进行进一步的图像增强处理。这里采用形态学运算对图像进行处理, 增强门牌号区域的亮度和区域, 以便分割门牌号图像。形态学运算包括膨胀和腐蚀, 腐蚀和膨胀的原理表达式分别为:

δg (f) (x, y) =max (k, l) gf (k, l) (2) εg (f) (x, y) =max (k, l) gf (k, l) (3)

首先对门图像进行腐蚀操作, 去除并削弱门图像以及门牌号周围小的亮点, 再对图像进行膨胀操作, 增强门牌号区域的范围, 从图3 (d) 可以看出, 门图像中只有门牌号区域亮度较高, 膨胀后的图像正是门牌号图像区域。为了凸显门牌号便于门牌号图像的分割, 再对门图像进行平滑处理增强门牌号区域的亮度, 去除图像中的小的亮点以后得到图3 (f) , 可以看出门牌号背景图像是黑的, 跟门牌号区域的亮度差异很大, 便于提取门牌号区域图像。

2.1.3 门牌号图像的提取

从图3 (f) 可以看出除了门牌号区域是以不规则的长方形状的白色区域, 背景颜色都是黑的, 运用垂直和水平投影方法确定门牌号区域。

先对图像进行水平方向投影[7], 设图像的宽度为x, 高度为y, 矩阵数组B_y (i, 1) 用来存放水平方向的投影值。从i=1到i=y依次对每行进行扫描, 当像素值等于1时, 即代表该像素属于白色区域, 数组对应加1, 直到扫描结束, 如式 (4) 所示。

B_y (i, 1) =j=1xf (i, j) , 1iy (4)

得到各行的投影值后, 找到一阈值r, 对图像继续扫描, 用B_y (i, 1) ≥r判断各行投影值, 得到i的最大值iH和最小值iL即为门牌号的上下边界。同理设B_x (j, 1) 为垂直方向的投影值, 对各列进行投影求出门牌号的左右边界jL和jR。则门牌号图像就对应于门图像的I (iH, iL, jL, jR) , 分割得到门牌号图像, 如图4所示。可以看出提取的门牌号码图像正确, 并没有丢失信息或者提取错误的门牌号图像。

2.2 门牌号图像的二值化

定位剪切后的门牌号图像相对比较简单, 只有字符和简单的背景, 采用图像二值化方法将字符和背景区分来开。如图5的直方图可知, 字符跟背景处于不同的灰度级集合, 只要找到字符和背景灰度级的一个中间阈值t, 就可以将字符跟背景分离开来。如式 (5) 所示, 设定门牌号图像为f (x, y) , 像素高于阈值t的将值设为1, 象素低于阈值t的将值设为0。

图像二值化方法有基于全局阈值法和局部阈值法, 因为门牌号背景相对单一, 这里采用全局阈值方法中的Otsu方法[8], 即最大类间方差阈值法, 二值化处理后的门牌号图像如图6 (a) 所示。二值化后的门牌号码图像有白底黑字和黑底白字2种情况, 为了便于后边的字符识别, 将门牌号图像统一为黑底白字的图像。这里先将图像中像素值为1的个数和0的个数进行比较, 如果像素值为1的总数小于0的总数, 继续使用原图;当像素值为1的总数大于0的总数时, 将图像进行反变换, 得到图6 (b) 。

2.3 门牌号码图像的倾斜校正

因为门判断策略的失误及摄像机的误差, 有时候提取的门牌号图像是倾斜的, 如图6 (a) 所示, 对此需对二值化后的门牌号图像进行倾斜校正。图像校正主要是检测倾斜角并校正, 目前倾斜角的检测方法主要有:基于Hough变换的方法, 基于交叉相关性的方法[9]、基于投影的方法和基于Fourier变换的方法[10]。因为门牌号码图像没有边框, 字符较少, 所以这里采用投影法对门牌号码图像进行倾斜校正。投影法是先将得到的二值图像沿若干方向投影得到各个方向的投影直方图, 再根据投影图的均方差、第一矢量特征和梯度等统计特性求字符的倾斜角, 然后判断字符是左倾斜还是右倾斜, 并计算出倾斜角度, 最后将门牌号图像向倾斜的反方向倾斜一定的角度, 就得到倾斜校正的图像, 对图像进一步分割, 如图7 (b) 所示。

2.4 门牌号码图像的分割

校正了门牌号还需对门牌号进行分割处理, 经过预处理后的门牌号图像, 字符与字符之间都有一定的间隙, 对门牌号图像进行垂直投影得到垂直方向的直方图如图8所示。字符之间的灰度值接近于零, 字符之间的空隙投影累计值接近于零, 根据垂直投影的灰度值和坐标, 采用垂直投影法对门牌号图像进行分割, 得到各字符图像, 如图9所示。

2.5 门牌号码字符的识别

目前字符识别的主要方法是模板匹配算法和人工神经网络算法。由于对门图像进行图像处理操作得到的门牌号字符图像相对简单, 只有数字, 没有汉字或英文等字符, 计算量相对较少, 故采用模板匹配法识别门牌号。将得到的各个字符分别进行归一化, 即将四个字符统一缩放到跟模板库数字中大小一样的尺寸, 即40×20。各个字符归一化后, 利用式 (6) 分别计算待识别字符Xi与字符模板库中各个字符Zi的最小欧氏距离。当Di小于某一阈值或或为0时, 说明该字符跟模板库中对应的字符欧氏距离最小, 即判定该字符即模板库中字符, 识别出该字符。

Di= (Xi-Ζi) 2 (6)

识别结果如图10所示。

3结语

本文详细研究了移动机器人在走廊环境下识别门牌号。实验用MobileRobots公司研制的先锋系列机器人Pioneer3-DX平台的CCD单目摄像机在不同的光照条件下拍摄并截取640×480大小的门牌号图像。通过Matlab仿真平台实验证明, 利用本文的门牌号识别算法, 可准确地定位门牌号图像并识别出门牌号码。不足的是很多门牌号结构不规则, 有的带有圆形或者方形的边框, 有的带汉字, 且字体差别也比较大, 这对门牌号的正确识别带来一定的困难, 也是下一步需要考虑的问题。

参考文献

[1]路新华, 张桂林.室内服务机器人导航方法研究[J].机器人, 2003, 25 (1) :80-87.

[2]KAHN P, KITCHEN L, RISCMAN E M.A fast line find-er for vision-guided robot navigation[J].IEEE Trans.onPattern Anal and Machine Intell., 1990, 12 (11) :1098-1102.

[3]SHI Wenxia, SAMARABANDU Jagath.Investigating theperformance of corridor and door detection algorithms in di-fferent environments[C].Orlando Florida:IEEE Interna-tional Conference on Robotics and Automation, 2006.

[4]李磊, 朱铭琳, 杨国胜, 等.基于门牌号识别的移动机器人全局自定位方法研究[J].高技术通讯, 2003 (8) :73-78.

[5]赵建蕾, 王汇源, 方颖.偏暗活泛白背景的车牌图像二值化方法[J].计算机工程, 2008, 34 (6) :210-213.

[6]沈庭芝, 方子文.数字图像处理及模式识别[M].北京:北京理工大学出版社, 1998.

[7]RAFAEL Mu~noz-Salinas, EUGENIO Aguirre, MIGUELGarcía-Silvente, et al.Door detection using computer visionand fuzzy logic[J].WSEAS Transactions on Systems, 2004, 10 (3) :3047-3052.

[8]OTSU N.A threshold selection method from gray-level his-togram[J].IEEE Trans.Systems, Man and Cybernetics, 1979, 9 (1) :62-66.

[9]GATOS B, PAPERMARKOS N, CHAMZAS C.Skew de-tection and text line position determination in digitized docu-ments[J].Pattern Recognition, 1997, 30 (9) :1505-1519.

环境视觉识别系统设计分析 篇5

在环境视觉识别系统设计中, 主要包括三个部分的内容, 即视觉识别、环境行为识别以及环境理念识别等。它主要是通过组织化、系统化的视觉识别方案, 传达一些区域行为内容, 如精神、价值以及相关思想等, 从而达到掌握区域信息的目的, 这种环境视觉识别系统的认同感相对较强。在对环境视觉识别系统进行设计的过程中, 主要渠道则是打开视觉信息, 同时结合人们的实际心理需求以及精神需求等, 全面提升环境形象的影响效果, 从而达到增强区域内环境竞争力的目的。

二、环境视觉识别系统设计的原则

(一) 构思深刻

在环境视觉识别系统设计中, 首先应遵循的原则就是构思必须深刻。要全面突出区域的本底性, 并且要将区域的实际内在需求以及识别的功能特点全面抓住, 同时充分揣摩区域环境的题材内容, 这样就能通过精炼的手法以及巧妙的构思, 全面突出区域环境主题性的相关内容。

(二) 生动形象

在设计环境视觉识别系统时, 还需确保其具有生动的形象。为了全面突出区域的特色效果, 在构造视觉语言的过程中, 还需要提升其传播的效果, 这样才能将区域环境识别的独特性充分、全面地展示出来。

(三) 创新性

在进行环境视觉识别系统设计的过程中, 还必须具备一定的创新性。在对区域环境发展活力进行展示的过程中, 最关键的就是将区域环境中标志性的景观展示出来。同时在设计环境视觉识别系统的过程中, 树立“以人为本”的设计理念, 并严格按照美学的基本原则, 充分体现出区域环境的感召力, 这样才能将环境识别的效果具体地传达出去。

三、环境视觉识别系统设计的内容流程

(一) 识别符号的设计

在设计环境视觉识别符号的过程中, 首先需要明确环境区域的名称以及标志等重要内容, 并且确保其具有一定的精神内涵和意念, 同时确保整个环境区域象征具有一定的整体性, 这样就能按照人们心理的实际需求, 对图文进行合理的组合。在设计应用要素的过程中, 首先需要对总体进行合理的规划, 而在建筑系统布局的过程中, 需要合理地设计和划分应用要素。同时在设计结构模式的过程中, 要通过相对集中和统一的设计, 对一元化的结构模式进行合理设计, 而这种模式主要应用在较小的环境区域中, 且在知名度较低以及经济实力较弱的环境区域中, 具有非常好的适应性。而对于多元化的结构模式而言, 其视觉方面的设计具有很大的不同, 且不同的环境区域, 其设计以及标志等也具有较大的差异。另外, 对于混合结构模式而言, 其不仅具有多元化结构模式的基本特征, 同时也具有一元化结构模式的基本特征, 它主要采用的是分区名称与统一标识相结合的方式, 从而设计出一种环境视觉识别系统。

(二) 视觉形象的设计

在设计环境视觉识别系统的过程中, 对于设计视觉形象区位以及空间结构来说, 主要是通过人们视觉的基本理论, 对环境区域中一些关键的视觉区位进行相应的设计, 例如地标区以及出口通道等, 从而确保区域形象的鲜明性。通过地域要素来构成区域形象, 就能确保设计的环境区域具有一定的连续性和统一性。在设计标志性区域景观的过程中, 需要按照区域形象的参照感知体系, 合理地整合和布局环境区域景观, 并按照民族精神的主要理念以及时代发展的基本主体, 全面地反映出环境地域的人文特性以及鲜明性。

(三) 作业的规范设计

在对作业规范进行设计的过程中, 要根据环境视觉识别系统中的符号面, 合理地设计和布局平面, 并在环境视觉形象设计的景观中, 将设计的三维空间特点充分体现出来, 这样才能确保区域设计意境的具体化。而在开发视觉意境美的过程中, 还要进一步提炼形象设计中的关键点, 并使其转变成具体的设计理念。而在设计当前城市规划以及发展的过程中, 还要通过充分的论证, 将形象风貌的具体特征充分体现出来, 这样才能确保环境视觉识别系统的设计具有良好的意境美。

综上所述, 环境视觉识别系统的设计, 不仅能够提高环境区域的综合效益, 同时还能促进社会经济获得良好的发展。因此在进行环境视觉识别系统设计的过程中, 必须按照时代发展的趋势, 采取有效的措施增强视觉语言的传播效果。

摘要:随着社会经济的飞速发展, 人们对于精神上的需求以及视觉上的感受也有了更高的要求, 因而人们对环境构造的要求也越来越高。而在环境视觉识别系统设计的过程中, 树立“以人为本”的设计理念, 就必须高度重视人们的心理感受以及心理需求。因此对环境视觉识别系统设计进行深入的研究, 分析了环境视觉识别系统设计的内涵及原则, 从而对环境视觉识别系统设计的内容和流程做了详细的阐述。

关键词:环境视觉识别系统,内涵,原则,设计流程

参考文献

[1]袁筱.视觉导向系统在环境设计中的应用[D].景德镇陶瓷学院, 2013.

[2]王璇.高速铁路车站视觉识别系统设计研究[D].南京师范大学, 2012.

[3]陈楠.2014年索契冬季奥运会多面性视觉识别系统设计分析[J].艺术设计研究, 2014 (1) :86-90.

行驶环境的识别 篇6

关键词:不确定性环境,机会识别,机会认知

在今天的市场环境下,信息和知识快速变化,环境中的不确定性日益加剧,如何在不确定的环境中迅速识别创业机会并作出正确的创业决策,是创业者、企业家面临的重要课题。创业机会识别是创业行为的开端,是缺乏系统周密调查条件下的机会追求过程,是蕴涵大量不确定因素的行为过程,是动态、复杂创业过程中最难识别的部分,有很多中外学者对此进行了大量研究。Kirzner(1973)从认知学的角度提出创业者应当具有捕捉市场获利机会的“敏锐”,创业者能够利用自己特有的知识来认知这种机会,并通过对机会的开拓获取回报。Timmons(1999)指出,当环境改变时机会将大量产生,知识和信息缺口将随行业或市场的变化而改变。Shane(2003)等人提出了机会发现观点,认为机会是客观存在的,信息是完备的,但并非随机分布,信息不对称是发现机会的关键。Venkatraman(2003)提出了机会创造的观点,认为机会并不是客观存在的,是由主动型创业者创造出来的,机会的创造内生于想象和创造一个更美好未来的交互活动中。唐靖等(2007)对不同创业环境下的机会认知进行了研究,提出要根据不同的环境进行机会识别、机会发现和机会创造。买忆媛、甘智龙(2008)对中国典型地区创业环境对创业机会与创业能力实现的影响进行了实证研究,发现创业环境因素越优良,创业机会越多,创业者创业能力实现程度越高。颜士梅、王重鸣(2008)从存在、结构和构造三种思路分析了创业机会观点下几类经典问题,并将不同思路下的机会观点进行了对比。苗青(2006)对创业机会特征维度的划分进行了实证研究,提出了机会的盈利性和可行性两个维度,并验证了适合中国创业者进行快速评估创业机会的六个度量方面内容。

一、不确定性环境

(一)不确定性环境的划分

关于不确定性环境的划分,不同的角度有不同的划分,其主要有以下两种角度。

从感知的角度出发,Milliken(1987)将环境不确定性进一步区分为状态不确定(state uncertainty)、影响不确定(effect uncertainty)、反应不确定(response uncertainty)。状态不确定是指组织所面临的客观环境本身的不确定;影响不确定是指无法预测未来的环境状态和变化将对组织产生什么影响;反映不确定是指无法预测组织可以采取什么办法来应对环境的不确定以及每种应对措施的实际效果。在这种区分中,每种不确定虽有客观的因素,但更重要的则是管理者自身的判断。

从信息的角度讲环境不确定性突出表现在市场信息的失衡和不完整上。经济学家把不确定性分成两类:一类是由于一般环境变化造成的不确定性;另一类是由于任务环境的变化造成的不确定性。一般环境的不确定性是指由被观察的经济系统以外的变量所引起的交易双方的信息不对称,它来自于外在的环境。而任务环境不确定性是指在交易关系内部卖方和买方由于对有关交易条件并不完全知晓而导致的信息失衡。一般环境的不确定性主要来自于外部经济环境的变化,这种变化可能来自于政治、经济、文化、法律环境的变化,也可能来自于国际环境发生的变化。一旦经济环境发生变化就会产生不均衡,只要这种不均衡存在机会就会出现。对于任务环境不确定性,主要由创业者拥有的信息量不同而引起。消费者拥有的信息由两部分构成,其中一部分是双方都了解的信息,可称为公共信息;另一部分是只有一方自己知道,另一方不了解的信息,可称之为私人信息。持有私人信息较多的一方拥有信息优势,在竞争中处于有利地位,他们可以识别和掌握他人没有看到的机会。

(二)环境不确定性的维度

环境不确定性的考察可以从多个方面来进行,现有的研究一般将其归纳为三个方面:动态性、复杂性和敌对性。

动态性是指法律规章制度、科技及环境的变化幅度和速度。如果环境要素发生剧烈的大幅度变化,则可称之为动态环境;如果变化很小,渐进式或缓慢进行,则可称之为静态环境。首先,企业总是处于某种变动的社会经济环境中,企业所处的环境发生了变化,这种变化必然会打破原有市场的平衡。其次,企业对环境特点的认识产生了变化或企业自身的经营条件与能力发生了变化。第三,上述两者的结合,外界环境在不断变化,企业自身也在不断变化。

复杂性即企业所处环境利害关系的复杂程度,如参与要素的数量规模、差别产品、技术差异及技术应用规模和速度、新产品的出现频率、新竞争对手的进入频率、供应链、客户关系以及政府干预经济的程度等。决策者认为经营环境中必须处理的要素越多,要素的差别越大,经营环境的复杂性就越高。作为开放系统的企业,它所要分析的外部环境因素会有越来越多样化的发展趋势。这不仅使企业外部环境的各种因素的相互作用具有复杂性,而且竞争者之间基于对外部环境的不同感受而发生的互相作用也具有复杂性。这些因素无论哪一个方面发生变化,都会直接或间接地引起其他因素的变化。

敌对性即对企业战略制定有影响的可控制资源的重要性和可获得性。如果企业容易获得所需的资源,即对资源的依赖性不高,那么企业对环境的敌对性就弱;反之,企业对环境的敌对性就强。也就是说,由于企业无限的欲望与环境有限的资源之间的关系产生了经济学所说的稀缺性。

根据环境的动态性和复杂性,可以把环境的不确定性按照程度的高低划分成四个层次,即低程度的不确定性、中等程度的不确定性、较高程度的不确定性和高程度的不确定性(见图1)。低程度的不确定性环境处于一种简单与稳定的状况,其因素较少且变化不大,便于企业分析判断、识别机会并迅速作出决策。中等程度的不确定性环境处于一种复杂与稳定的状况,其因素较多,但变化不大,企业分析判断起来考虑的因素较多,识别机会相对难一些。较高程度的不确定性环境处于一种简单与不稳定的状况,其因素虽然较少,但变化大,不利于企业分析判断,识别机会较难。高程度的不确定性环境处于一种复杂与不稳定的状况,其因素多且变化大,使得企业分析判断难,识别机会也很难。

二、创业机会

(一)创业机会的界定

关于创业机会的界定,比较有代表性的有奥地利学派和行为学派。

奥地利学派代表人物熊彼特(Schumpeter)认为,创业机会是与新信息的产生联系在一起的,原因在于市场始终发生着变化,技术、政策、规则和其他因素的变化会产生新的信息,新信息会改变资源的均衡价格,随之出现大量的创业机会。熊彼特还认为,创业机会的发现还取决于企业家所独有的创业精神。企业家与只想赚钱的普通商人或投机者不同,个人致富只是他们的部分目的,最重要的创业动机则是其“体现个人价值”的心理,即“创业精神”。奥地利学派另一位有代表性的学者科兹纳(Kirzner)认为,创业机会是由追逐利润的企业家在非均衡状态下凭借警觉性发现的,企业家对创业机会的识别和利用,能促使市场过程由非均衡趋向于均衡。不确定的非均衡市场环境中存在机会,具有胆识、想象力和异质性知识的企业家拥有独特的警觉性,容易发现市场中存在的机会。

行为学派认为创业机会:(1)通常是企业家在复杂、不确定和快速变化的环境中发现的;(2)不能直接且客观地进行描述,它们有别于企业家对它们的感知或者构造;(3)由进行经验推断和有认知偏见的有限理性企业家发现;(4)寓于企业家有意识的、非优化的、循序渐进的认知过程中,这个过程涉及个体对机会信号不同的感知以及相应地追求不同层次机会的心理构造。

(二)创业机会识别能力维度划分

本文将创业机会识别能力划分为创业警觉性和以往知识两个维度。

1.创业警觉性。

最早使用警觉(Alertness)这一术语来解释企业家机会识别的是奥地利经济学家Kirzner(1979),他认为任何一个被企业家所甄别的机会都来源于其对环境中有关客体、事件和行为方式等信息的高度敏感性和关注倾向,而这一警觉是企业家洞见了其他竞争者不能发现的资源价值和潜在机会时所触及的机会空间,这不仅是被感知和发现到的,也是被创造的。企业家警觉不仅是一种先天禀赋,也是企业家多年实践中学习积累和沉淀出的认知特质,是一种复合的有机能力。敏锐的洞察力和机会意识是形成企业家警觉的认知前提。洞察力通过选择性编码、选择性联合、选择性比较,充分调动认知资源和知识储备,比较以往决策情境和新的决策情境,形成机会意识。

创业警觉性应该有三个维度的内涵:(1)探求挖掘;(2)重构框架;(3)敏锐预见。所谓探求挖掘,意指创业者掌握着较多的商业信息来源和渠道,并对这些信息进行探索、求证以及挖掘。所谓重构框架,意指创业者在对机会评价时,善于打破既定范式,重构新的“目的—方式”框架,酝酿全新组合。所谓敏锐预见,意指敏感于机会的存在,根据心理模拟和图式推理在较短时间内作出判断,从而对商业前景作出前瞻性的预测。Kaish和Gilad(1991)将51个企业家同36位CEO作了对比,发现创业者所拥有的警觉性具备三个特点:第一,在工作之余搜索大量的信息;第二,对于信息的来源都给予高度的关注,具有较大的广度;第三,高度关注新机会的风险线索。

2.以往知识。

Shane(1998)假定以往知识触发了企业家对新信息有价值的认知,他认为企业家的先验知识使企业家更容易知道在哪里获取概念性、抽象的信息以及如何挖掘机会资源。Sigrist(1999)的概念模型,从特殊兴趣和产业知识两个维度界定创业以往知识。所谓特殊兴趣,其特点是:(1)对关注的领域充满好奇和兴趣感;(2)投入大量精力和时间来学习前沿动态;(3)不断培育自身能力获取兴趣领域的综合知识。所谓产业知识,其特点是:(1)通过一定时期积累,对该行业的市场环境具备了足够的知识和经验;(2)通过一定时期积累,对该行业的顾客需求具备了足够的知识和经验;(3)通过一定时期积累,对如何为顾客提供服务具备了足够的知识和经验。

以往知识对于机会识别的作用有两个:一是以往知识是一种知识走廊。它的存量决定了机会识别的基础,决定了如何寻找顾客、如何寻找市场、如何寻找资源、如何寻找供应商、如何寻找资金等一系列创业行动。因此,以往知识决定了创业机会的可行性知觉。二是不同的以往知识决定了“信息不对称”式的创业机会,因此以往知识和特异性信息有很多的共同点,甚至是等价的。以往知识决定了创业机会的独特性和价值所在,即盈利性知觉。

3.警觉性与以往知识的匹配。

以往知识是影响机会发现过程的中性变量,发现机会的关键在于企业家基于警觉性的信息价值判断与评价。根据警觉性和以往知识两因素的相互匹配,可将机会识别者分为四类(见图2)。警觉性——以往知识的匹配与机会发现者;高知识——高警觉性个体,更容易发现原始创业机会,是机会发现者;高警觉性——低知识个体,难以识别复杂信息之间的相互联系与价值,往往是企业家的信息提供者;低警觉性——高知识个体,虽然由于缺乏足够的信息难以立刻识别原始创业机会,但作为潜在机会发现者,一旦掌握足够信息就可能发现机会;低知识——低警觉性个体,往往与机会无缘,是远离机会者。

三、不确定环境下的机会识别

(一)不确定环境下的机会识别总体分析框架

根据前面有关环境不确定性和创业机会的分析,不确定性环境下的创业机会认知总体分析思路模型如见图3所示。

一般说来,不确定环境下的创业机会的识别分为三个阶段:

阶段1:机会的搜索(opportunity searching)。这一阶段创业者利用自己的以往知识和警觉性对环境系统中的一般环境和任务环境展开搜索,如果由于环境的不确定性很高,创业者尚未能意识到潜在的商业机会,则会继续在环境中搜索,等待环境的不确定性稍微降低,如果能够通过信息的搜索捕捉到可能的潜在的商业机会,具有潜在的发展价值,就将形成初始创意,进入机会识别的下一阶段。

阶段2:机会的识别(opportunity recognition)。相对整体意义上的机会识别过程,这里的机会识别应当是狭义上的识别,即从创意中筛选合适的机会。这一过程包括两个步骤:一是通过对整体的市场环境以及一般的行业分析来判断该机会是否在广泛意义上属于有利的商业机会,称之为机会的标准化识别阶段。二是对于特定的创业者和投资者来说,这一机会是否有价值,也就是个性化的机会识别阶段。

阶段3:机会的评价(opportunity evaluation)。这里的机会评价主要是配合第二阶段的机会识别进行机会的盈利性和可行性的识别及评价。机会盈利性识别是指创业者对于机会所带来的盈利能力和潜在规模的认知与估计,包括三个方面。首先是新颖性识别:尚未真正出现或者普及的商业内容、服务和产品,体现为产品或服务的新奇和前卫,能够引领市场;其次是潜在值识别:产品或服务可以带来较大的市场收入、利润和回报,体现为大量潜在的顾客以及丰厚的投资回报;第三是持续性识别:产品或服务产生的利润具有一定时期的延续性,体现为产品或服务的生命周期和维持市场的可持续性。机会可行性识别,是指创业者对于机会实现盈利的可行性和把握程度的认知与估计,包括三个方面:(1)实践性识别:对创业机会是否具有足够的操作性辨别,表现在企业是否可以获取融资、维持较低的成本、可靠的产品研发和市场渠道的通达性等;(2)独立性识别:对机会的独占,以至于竞争对手不能轻易模仿或无力抗衡,表现在拥有专利、高超的技术积累、高效的管理团队;(3)可取性识别:企业家的价值观、信念上对新产品或服务的接受度,表现在创业者本身同机会的匹配程度,比如可否承受压力、风险和失败等。

综合上述我们可以看出,机会识别过程中贯穿着信息的重要性。在不确定环境中,创业者对于机会的识别受到主观方面因素的影响如创业者的特质、警觉性、知识背景等等。客观方面的影响如识别机会所需的资源、机会本身的特质和周围的环境等。创业者在外界接受各种新的信息并将这些信息进行处理,一部分信息立即被识别为潜在的商业机会,也有一些暂时无法判断出是否蕴含商机的信息被积累,等待进一步与其它信息联系并有可能从中识别出新的商业机会,最后还有一部分信息被判断为无用的信息,与创业活动没有关联。

(二)不确定环境下的机会识别类型模型

根据环境不确定性程度和机会识别能力的高低,可以把不确定环境下的机会识别分成四种类型(见图4)。

当环境不确定性和创业者的机会识别能力都低的时候,称之为机会发现类型。这时环境相对较简单、稳定,便于发现一些机会,只是由于创业者机会识别能力有限而不能及时发现。创业者可以回顾过去,收集相关的历史数据,寻找可能的因果关系,得出经验公式,建立数学模型,用模型展望未来,找出类比,进行预测。当然,所运用的模型应该保持动态,即能够根据新信息的出现,不断进行补充、修正和更新,以确保其有效性。当环境不确定性低而创业者的机会识别能力高的时候,称之为机会识别。这时创业者处于比较有利的处境,能比较容易地识别一些机会,并能迅速地评价潜在的可能性机会是否具有可行性和盈利性,进而采取下一步的行动。当环境不确定性高而创业者的机会识别能力低的时候,称之为机会模糊。这对于创业者非常不利,很难发现潜在的创业机会,这时可以采取积极观望的策略。这里所指的“观望”,并不是指消极等待,而是积极地进一步收集相关市场信息,这在高度不确定性的环境中是一种稳妥的策略,能够保持灵活性,但会失去先动优势。当环境不确定性和创业者的机会识别能力都高的时候,称之为机会创造。创业者可以依靠自身较强的创业识别能力,采用实践法,不断摸索、尝试新办法,规避实践当中可能出现的失败,在不确定性环境中创造出新的创业机会。

四、结束语

行驶环境的识别 篇7

阀门行业是通用机械的重要分支,其产品作为流体控制的关键设备广泛用于石油、化工、冶金、电力、城建、环保等行业,是一种必不可缺的机械产品。然而随着阀门产品数量和种类的增多,生产和使用阀门所产生的污染物也日益增加,除了阀门本身对资源的消耗及报废产生的污染外,其制造过程中对资源的消耗及废弃物的产生、处理也是不容忽视的。

目前广泛用于识别环境因素的方法有产品生命周期分析法、过程分析法和专家评议法。产品生命周期分析法可以通过对生命周期矩阵的分析,发现许多潜在的问题,但对生产现场(过程)的分析不够详细,也不能充分识别生产过程中的辅助设施;过程分析法只是在定性分析的基础上较为直观、快捷地识别环境因素;专家评议法主要依据专家丰富的实践经验和理论知识,主观性较强[1]。而物料衡算法就是客观地对生产过程中使用的物料情况进行定量分析,把制造业污染源的排污量、生产工艺和管理、资源(原材料、水源、能源)的综合利用及环境治理结合起来,系统地,全面地研究生产过程中的污染物,尤其是一些资源消耗大和对环境有影响的废弃物[2]的产生和排放,对生产中的物料消耗进行分类、计算、管理,以便找出环境影响因素,采取措施进行消除。

2 基于物料衡算的生产过程环境因素识别

物料衡算的计算依据主要有:产品的生产工艺过程;产品形成的化学、物理方式和条件;要计算的污染物在原材料、中间产品、产品、副产品、回收品种的当量关系;产品产量、纯度、原材料消耗量及杂质含量、回收品数量及纯度、产品的转化率、污染物的去除率、去除量等;污染物的监测数据。因此,用物料衡算法对阀门的制造过程进行环境因素识别必须做以下几项基础工作。

2.1 工艺流程分析

工艺流程分析是生产技术准备的第一步,也是连接产品设计与制造之间的桥梁。制造工程师在接到产品图纸后按技术要求进行工艺流程分析,并根据实施项目的复杂程度逐层分解,直至分解到加工工序,并绘制工艺流程图。阀门的种类繁多,比较常见的主要有截止阀、调节阀、三通阀、空气阀、减压阀、安全阀等。以截止阀为例进行分析,其工艺流程如图1所示。

2.2 确定加工方法及工艺设备

工序是组成工艺流程的基本单元,不论是总装配的自动流水线还是单个零件的成套设备生产线,或者是手工线,都是由许多不同的工序组成。一个零件的制造工艺过程是由一系列的工序环节组成,每个工序也是一个工艺过程,包括毛坯生产、零件制造、材料处理、装配调试等工艺环节[3]。截止阀主要零部件的加工工艺过程如表1所示。

一般生产设备的确定以产品加工过程的技术特性为主,根据产量规模、工作环境、能源供应及污染物处理等要素相互接口,合理地选定工业化设备,其要素接口分析如图2所示。

2.3 确定物料衡算的要素

物料衡算的基本原理是不管某一生产过程中物料发生的是物理变化还是化学变化,生产过程中某一基准物的投入和产出的质量是守恒的。因此要对阀门生产过程进行物料衡算,首先就要确定好基准物,即物料衡算要素。一般要素包括以下4个方面。

(1)材料消耗。指直接用于产品生产、构成产品实体的原料及主要材料、外购半成品、有助于产品形成的辅助材料的消耗,具体指零件材料、工艺材料、包装材料的消耗。要进行各类文件编制和生产计划组织。

(2)能源消耗。电能、煤炭、石油的消耗,分别建立分类档案,组织能源供应、建立消耗计量。

(3)作业工时。

(4)废弃物。包括固体、液体、气体,进行分类统计后回收处理。

确定物料衡算要素时要注意几个方面:(1)材料的消耗种类;(2)能源的消耗范围;(3)废弃物的分类及数量,尤其是有毒有害的废弃物,可否用于回收、销毁或深埋;(4)对所用材料和废弃物中的有毒品、化学品建立安全数据表及作业指导书。

2.4 识别环境因素

通过建立每个工艺过程的IPO模型图,制定各个工艺过程的物料清单分析表,来确定整个阀门生产过程中的环境污染因素,找到确切的污染源,对其加以控制以达到减少资源消耗、降低环境污染的目的。

在每个工序的清单分析表中都要体现物料平衡和能量平衡的基本原则,即各过程单元的输入、输出基本一致,这样可以从根本上杜绝由于物料不平衡造成的一部分原材料的流失[4,5]。物料平衡方程式如下:

其中,min,i———过程单元第i个输入的质量;

mout,j———过程单元第j个输出的质量。

在具体加工工艺中可采用如下公式:

式(2)中:w———具体加工工艺过程的输入物料的质量;

ω1———具体工艺过程的输出产品的质量;

ω2———具体工艺过程中产生的可计量废弃物的质量;

ω3———具体工艺过程中产生的不可计量废弃物的质量。

若清单数据不能满足公式(1)或公式(2),则说明数据不完全,或有些数据被重复引用。一般来说如果输入(w)与输出(ω1+ω2)之间的差值ω3(即溢出)在20%之内,即可认为所获得的数据是可行的。

3 应用分析

以截止阀生产过程的阀体切削加工为例,用物料衡算法识别单个工艺过程的环境因素。该工艺过程的IPO模型图如图3所示[3,6]。图3中输入包括原材料、能源、加工设备、工艺参数等;输出包括零件、废品、固体废弃物、液体废弃物、水污染物、空气污染物和其他形式的污染排放。

生产过程可以看作是由一系列的工艺IPO过程组成的工艺过程链,即更大的一个输入-处理-输出的过程。

根据图3阀体切削的IPO模型图及数据收集结果可以编制出阀体切削过程中的物料清单分析表,如表2所示。输入物料主要是5.4kg的ZG20CrMoV原材料。

输出物料主要是3.3kg的产品、2.05kg的切屑和4g的其他污染物。

生产过程中的辅助物料切削液一部分以废液的形式输出,另外一部分被回收利用,还有少量以切削液油雾的形式存在。

输入能量主要是7.5kW的车床电能,6kW的铣床电能,6.5kW的镗床电能,最终转化成热能、振动、噪声(如表2所示)、部分废气。将表2中的数据带入公式(2)得:

5.4kg(ZG20CrMoV原材料)=3.3kg(产品)+2.05kg(切屑)+4g(其他污染物)+ω3,由此算出:ω3=46g

由上述数据可算出:ω3/w=46/5400=0.85%,由此可得出结论:

(1)输入与输出之间的差值为0.85%,在20%之内,表明收集到的阀体切削加工数据是可行的;

(2)切屑是切削加工中最严重的环境因素;切削液的消耗也是不容忽视的,车削为10L/min,铣削15L/min,镗削12L/min,除少量被回收利用外,大部分以废液的形式排出。企业应根据自己的具体情况,通过改变传统的切削加工,实现绿色切削加工来减少切屑和切削废液对环境的污染。

4 结论

识别阀门生产过程环境因素不仅可以帮助阀门企业找出资源消耗大和对环境有影响的废弃物,有针对性地采取措施,从根本上减少环境污染,而且有利于提高资源利用率。本文明确了用物料衡算法识别阀门生产过程中环境因素的基本步骤,并以阀体切削为例对其工艺过程和生产过程中的物料消耗进行分析,识别出了其生产过程中最严重的环境因素是切屑,找到了确切的污染源,阀门企业就可有针对性地对其加以控制以达到减少资源消耗、降低环境污染的目的。

参考文献

[1]岳欣.谈谈环境因素的识别[J].中国认证认可,2008(3):44-45.

[2]陈建民,王雪峰,杨杰伟.论物料衡算在污染物排放量核定中的应用[J].现代商贸工业,2008(3):126-127.

[3]刘飞,曹华军,张华,等.绿色制造的理论与技术[M].北京:科学出版社,2005.

[4]周祥超,张华,江志刚,等.切削加工的环境影响及其清单分析方法研究[J].工具技术,2005(3):12-15.

[5]张华,刘飞.制造系统产品物料资源消耗状况的一种分析方法[J].机械工程学报,2000,36(3):27-31.

语音识别中环境失配补偿综述 篇8

随着信息技术的迅猛发展,信息的获取、交互与处理已成为推动当今社会发展的强大动力。以计算机为中心的信息技术不断地改变着人们的生活方式,这一过程被誉为信息革命,而信息革命的提出也已成为继工业时代之后的知识时代里的里程碑式的重大事件[1]。语音是人类最自然、最常用的信息交流方式。无论是在生活中还是在快速普及的互联网上,语音作为主要媒体之一,承载着大量的有用信息。因此,对语音中的信息进行分析、处理与识别无疑具有广阔的应用前景。作为语音处理的支撑技术之一,语音识别以识别语音信号并将其转换成文字为目标,在智能人机接口、机器人语音理解、语音内容分析、军事侦查、工业控制、听写机、语言辅助学习和呼叫中心等领域有着广泛应用。

语音识别的历史可以追溯到上世纪30年代初,当时的研究者们尝试识别特定的声音,并开始从声学角度识别音素或数字等,但其任务只是局限于小词表孤立词识别。上世纪60年代到80年代,语音识别技术得到了较快发展,典型的进展是基于线性预测的频谱分析[2,3]、基于线性规划的语音时间对齐方法[4]以及矢量量化的成功应用[5],识别任务也发展到了中等规模的孤立词识别和连接词识别[6]。上世纪最后20年里,语音识别技术取得了长足进步,最重要的标志是隐马尔可夫模型(Hidden Markov Model,HMM)在语音识别领域的创新性应用[7,8],同时还辅以前向后向算法、K均值训练算法、维特比解码算法、基于神经网络的条件概率估计方法[9]以及提出的各种模型自适应方法,使语音识别迈向了非特定大词表连续语音识别(Large-Vocabulary Continuous Speech Recognition,LVCSR)的新阶段。近十年来,语音识别获得了进一步的飞速发展,出现了区分性训练、不确定性解码、噪声鲁棒性以及机器学习等一系列新技术,语音识别已经逐渐走出实验室,不断进入实际应用。

经过数十年的发展,语音识别技术取得了巨大进展,在理想环境下,目前的小词表以及中等词表语音识别系统的识别率能达到99%以上,LVCSR系统识别率也能超过95%[10],但在训练和测试条件不匹配时,识别率就会急剧下降。有众多因素会造成这种不匹配,较为典型的主要有:声学环境失配、说话方式差异、说话人差异以及词汇量和领域差异。

其中,声学环境差异是导致系统性能下降的主要原因,也是语音识别系统走向应用所面临的最大挑战。声学环境可以用如下公式建模:

式中,x(τ)和y(τ)分别为干净语音和畸变语音,h(τ)和v(τ)分别为信道畸变和加性噪声。从式(1)可以看出,造成环境失配的主要原因在于噪声的存在,这种噪声可能是加性的,卷积性的,也可能是两者的混合。诸如训练环境没有噪声而测试环境存在噪声,或者训练环境和测试环境存在不同的噪声,这都会引起环境失配。文献表明,当存在信噪比为10dB加性噪声时,未做任何补偿的孤立词识别系统的识别率将从99%降到49%[11];随着信噪比继续降低,语音识别系统将无法使用。相比较而言,人的听觉在噪声情况下则具有很强的鲁棒性。研究发现,在噪声环境下人的误识率虽然也会增加,但其降低的速度与当前的语音识别系统相比,则要慢上许多[12]。本文正是针对语音识别中环境失配问题,研究并提出增强系统环境鲁棒性的有效方法,从而推动语音识别技术走向现实应用。

1 国内外研究现状与分析

式(1)是声学环境的数学描述,全面刻画了信道畸变和加性噪声。在现实应用中,环境失配存在三种可能的情况,即信道畸变、加性噪声和二者同时并存。相应地,目前的环境失配补偿方法也可以大致分为信道畸变补偿、加性噪声补偿和联合补偿三类。下面将按照这一分类方式阐述环境失配补偿的研究现状。

1.1 加性噪声补偿方法

加性噪声在时域和频域都呈加性,但在对数频域和倒谱域则因对数运算表现出了高度非线性。加性噪声的补偿大致可以分为特征规正、特征增强和模型补偿三种方式。特征规正首先假定语音特征服从某一概率分布,而噪声的存在却改变了这种分布,可通过规正特征使其实现指定的概率分布,因此减小了噪声的影响。比如,倒谱均值规正(Cepstral Mean Normalization,CMN)[13,14]中通过在一个时间段内统计倒谱均值,然后从各帧中减去这一均值,达到了减小噪声影响的目的。倒谱均值方差规正(Cepstral Mean Variance Normalization,CMVN)[15]实现了同时规正倒谱特征的均值和方差,使得规正后的特征均值为零,而方差为一。倒谱直方图规正(Cepstral Histogram Normalization,C-HN)[16]则是用倒谱直方图代替其概率分布,通过将直方图规正到已知的形状以达到规正倒谱概率分布的目的。

加性噪声的补偿中的另一种,特征增强则是可以通过增强信号后提取特征、或者直接补偿特征来达到增强识别系统鲁棒性的目的。

在信号增强方面,谱减[17]和非线性谱减[18]是出现得较早且研究得较多的语音增强方法。谱减法首先利用噪声段估计噪声谱,然后从各帧语音谱中减去噪声谱以实现信噪比的提高。而针对谱减法会形成残留噪声(音乐噪声)的不足,非线性谱减法则通过比较噪声谱和混噪语音谱后采取分段处理策略,即能有效减少残留噪声,但以上这两种均不适用于快速时变的噪声环境。维纳滤波也已广泛用于语音增强,该方法在基于干净语音和输出语音的均方误差最小的条件下来设计线性滤波器处理混噪语音。欧洲分布式语音识别编码和传输标准[19]就采用了两阶段的梅尔弯折维纳滤波器。而且自适应滤波和卡尔曼滤波[20]对时变噪声的表现出了一定的跟踪能力。子空间降噪方法[21]是将混噪语音投影到一个子空间,并认为清晰语音和噪声分布在不同的分量上,通过压制噪声所代表的分量实现降噪。经过文献分析可知,语音信号或频谱被增强后,噪声的成分将有所减少,理论上由其提取的特征所受到的噪声影响也会相应地变小。

在特征增强方面,基于数据驱动的方法因其运用效果显著而受到广泛关注。这类方法在建立清晰语音和混噪语音之间的关系方面,需要清晰环境和噪声环境下同时录制并要求得到对齐的立体声数据。微软的学者们在这方面作了深入研究,提出了一系列方法。Acero等提出了基于码字的倒谱规正(NR-Dependent Cepstral Normalization,SDCN),其中假定清晰语音的特征服从高斯混合(Gaussian Mixture Model,GMM)分布,通过迭代的方式在混噪语音上估计噪声参数,进而补偿混噪特征。邓力等提出的SPLICE[22]是通过学习混噪语音和清晰语音特征的联合分布,然后运用混噪特征得到清晰特征的最小均方误差(Minimum MeanSquared Error,MMSE)估计。另一种使用立体声数据的补偿方法是RATZ[23],该方法仍然使用高斯混合函数实现清晰语音建模,其后运用MMSE估计获得清晰语音的估计值。尽管基于立体声数据的补偿方法能取得较好效果,但却需要预先知道噪声环境以及相应的立体声数据,应用条件苛刻,因而对于未知声学环境并不适用。

目前,多数方法均建基于对噪声的建模与估计,但是,噪声的时变特性以及其与语音之间的复杂作用方式却使得对噪声的建模与估计非常困难且不可靠。丢失数据技术[24]不对噪声作任何假设,也无需为噪声建模与估计,而只需要知道噪声对语音频谱污染的量级程度即可实现噪声畸变的补偿。该方法在前端用一个标记向量将语音特征分为可信的和不可信的两部分,在后端或者丢弃不可信部分,直接利用可信部分进行识别,或者利用统计的方法重估丢失部分特征,然后利用可信部分和重构部分进行识别[24,25]。标记向量根据语音谱的局部信噪比确定,最初只含有元素0和1,分别表示对应特征完全丢失和完全可信,而后扩展到可以取0~1之间的任何数,即所谓的软决策[26,27]。丢失数据方法最初运行在对数频谱域,后来又拓展到倒谱域[28,29]。在丢失频谱的重构方面,可以采用基于最大后验概率或基于聚类的估计方法[25]。在估计过程中,各种先验知识也可以参与其中,最为常用的则是时频相关性。比如文献[30]在频谱上组合传统的基于频率相关性和基于时间相关性的方法重构丢失特征,并对二者进行了一个合理的权衡,取得了一定的效果。基于丢失数据技术的方法虽然不需对噪声进行建模和估计,在信号处理上也类似于人耳对声音的处理方式,但在计算标记向量时却需要判断混噪频谱是否可信,这就同样存在着一个难以解决的问题。与丢失数据方法类似的另一种方法是不确定解码方法[31]。该方法根据信噪比对不同的特征赋予不同的置信度,并在后端充分考虑这些置信度以达到提高系统鲁棒性的目的。

近年来,随着稀疏分解与重构理论的成熟,稀疏编码(Sparse Coding)[32,33]在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示,获得信号的稀疏表示(Sparse Representation)。其中,每个基元信号称为一个原子(Atom),所有原子组成的集合称为字典(Dictionary)。稀疏性是指信号被分解到某个字典上时,仅有少量原子的系数不为零。现实中的大量信号,如语音、图像等都满足或近似满足稀疏性[34];另有研究表明,人类的感知神经系统在对外部刺激进行编码时也总是从海量神经元中仅仅激活其中极少的一部分[35,36]。这就意味着人类的感知系统在处理信号时,也利用了稀疏性原则。稀疏性似乎是信号本身具有的特点,是一种先验知识;而稀疏编码的有效性却正是利用了这种先验知识。作为一种新兴的技术,稀疏编码可广泛用于信号压缩、分析、去噪和分离等[37]。尤其是近年来,该技术在图像处理及模式识别领域的有效应用[38]使其得到了更加深入和广泛的探索与研究。

用稀疏编码增强语音频谱需要解决三个问题,即字典构建、稀疏分解和频谱重构。字典构建是稀疏编码的首要问题,目的在于选取有代表性的基元信号(原子)构成字典。目前的方法大致可分为基于选择的和基于学习的两类。基于选择的方法从预先定义的基函数中直接选取需要的原子组成字典[39,40,41]。基于学习的方法则在满足重构误差要求的情况下,从大量数据中选取一组能稀疏表示信号的原子组成字典[42,43]。稀疏分解的目的在于将信号表示为各原子的线性组合,其求解过程是非线性的;典型的方法有正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)[44]、匹配追踪算法(Matching Pursuit,MP)[32]和基追踪去噪算法(Basis Pursuit Denoising,BPDN)[45,46]等。频谱重构则利用稀疏表示和字典重构干净频谱,其过程是线性的。近年来,在语音及特征增强方面,稀疏编码开始应用于语音增强[47,48]和鲁棒语音识别[49,50]。但在用法上大多是将稀疏编码作为工具简单使用,缺乏针对语音信号特殊性的有效分析和应用。如果硬件和应用场合允许,基于麦克风阵列的语音增强也可用于信号去噪以及特征提取。麦克风阵列可以首先确定声源位置,然后采用空域滤波的方式,通过自适应滤波器增强某一位置的声音,同时抑制其他位置的声音,典型的方法有基于波束形成的方法[51]、多通道维纳滤波[52]、多通道子空间方法[53]和空间-时间预测法[54]等。但基于麦克风阵列的增强方法对硬件有较高要求,也不适合处理已经存在的单通道语音信号。

1.2 信道畸变补偿方法

当加性噪声可被忽略时,信道畸变在时域表现出卷积性,而在频域则表现出乘积性。因此,目前的方法普遍认为,信道畸变在对数频谱域或在梅尔倒谱域是一个加性的常量。补偿方法也可分为特征规正、特征补偿和模型补偿。特征规正类方法中,最为典型的则是CMN和相关谱滤波(RelAtive SpecTrA,RASTA)[55]。CMN认为信道影响存在于特征的直流分量中,在各帧中减去均值即可消除直流分量,从而去除信道影响。RASTA则提出信道产生的畸变存在于信号的慢变分量中,通过设计一个低通滤波器抑制信号的慢变分量,以达到抑制信道畸变的目的。CMN和RASTA是两种标准的规正处理方法,被广泛用于语音识别系统中,但文献中大量实验表明RASTA在没有畸变时反而会降低系统识别率。此外,文献[56]又提出可通过一个梅尔频域的带通滤波器逐帧处理畸变语音。该方法首先通过区分性函数进行重要性分析求得滤波参数,然后利用传统的特征轨迹滤波方法去除信道影响。实验表明,该方法与CMN和RASTA组合后则能够能进一步提高识别率。在特征补偿方面,基于贝叶斯框架的信道参数估计方法[57]是假定信道畸变为一个加性常量,并分别在假定语音服从高斯、高斯混合模型和隐马尔可夫模型的情况下,利用最大似然、最大后验概率在畸变语音中估计得到信道偏移量。补偿时,通过在特征中减去信道偏移量,达到补偿信道畸变的目的。在模型域,信号偏移量去除法(Signal Bias Removal,SBR)[58]在声学模型上使用期望最大化算法(Expectation Maximization,EM)迭代地估计信道偏移量,然后在模型域修改高斯均值,最后利用修改后的模型识别畸变语音。文献[59]用丢失数据技术,将倒谱特征的静态和动态参数表示成对数频谱的线性组合。该方法基于丢数据框架,利用噪声谱的可信部分,在对数频谱域或倒谱域使用最大似然准则估计一个直流偏移量以实现信道畸变的补偿。

近年来,研究者们开始关注语音识别中另一类由信道引起的畸变,即窄带语音畸变问题[60,61,62,63,64]。当待识别语音的带宽比训练语音的带宽窄时,与训练语音相比,待识别语音即丢失了部分频段,这种情况也将导致环境失配[60]。这一问题在复杂信道环境(比如互联网、分布式语音识别等)中广泛存在。在增强语音质量方面,解决这一问题的方法是人工频带扩展(Artificial Bandwidth Extension,ABE),即将窄带语音的频带加以扩展,使其成为宽带语音。典型的任务是将带宽为0~3.4kHz的窄带语音扩展为0~8.0kHz的宽带语音。ABE用以解决的问题就是利用现有窄带数据,重构得到3.4kHz~8.0kH频段的频谱。目前大多数方法都基于语音的源-滤波器产生模型。这些方法首先产生一个激励信号,然后用一个滤波器模拟声道处理激励信号以生成高频段频谱,再组合窄带信号和重建的高频信号,而最终获得宽带信号。在激励信号方面,目前常用的方法有频谱折叠、频谱变换和非线性处理等[65],也可使用正弦合成[66]或调节噪声模拟激励源[67]。声道通常用一个全极点滤波器进行模拟,而滤波器参数可以是线性频谱或倒谱系数[66]。因窄带信号是已知的,可以利用窄带特征估计高频段滤波参数。常用的方法有基于码本[66,68,69]、高斯混合模型[70,71]、隐马尔可夫模型[72,73]以及人工神经网络[66,74]等的方法。

尽管从信号增强的角度已经开展了大量工作用于扩展频带,但也有研究表明,直接运用上述方法扩展频带后所提取的特征在提高系统识别率上将非常有限[75]。原因在于用ABE方法重构的高频段虽然能提高测试个体的主观听觉,但这和提高识别准确率的目标并不一致,由此提取的特征在识别时仍然存在失配问题。研究者们尝试直接以语音识别为目的补偿带宽失配。在这些方法中,环境自适应类方法对此类畸变有一定效果,文献[60]将基于GMM的频段扩展方法和基于HMM的声学模型结合在一起,实现宽带声学模型对窄带语音的识别。文献[61]采用特征域的限定最大似然线性回归(Constraint Maximum Likelihood Linear Regression,CMLLR)将宽带特征直接转变为窄带特征,而后用于窄带声学模型的训练。文献[62]和[63]通过训练数据学习得到一组矫正函数以实现畸变语音特征向干净语音的转变;而文献[64]则在丢失数据技术框架下利用语音频谱的时频相关性,实现丢失频段的重构。尽管以上这些方法都是以提高语音识别或语音检索系统的性能为目的,而且取得了一定的效果,但其本质上仍是特征域补偿方法,而且又严重依赖于训练数据。而且这些方法要获得良好实现,一方面需要大量训练数据,另一方面要求语音带宽稳定。此外,这些方法只是单纯地补偿窄带引起的畸变,而对常规信道畸变却未能同时加以考虑,因而将导致这些方法仅适用于单一的带宽失配场合,而不适合各种畸变并存的复杂环境。

1.3 联合补偿方法

当信道畸变和加性噪声同时存在时,就需要对这二者同时进行补偿。在特征域可以选用能有效表示信号的特征,在模型域可以选用数据驱动的方式实现各种自适应,也可以利用畸变模型估计噪声参数然后补偿声学模型。鲁棒特征提取旨在有效表示信号并提取受噪声影响较小的特征以提高系统鲁棒性。常用的特征有基于人耳听觉特性的梅尔频率倒谱系数(Me-Frequency Cepstrum Coeficient,MFCC)[76]、基于自回归模型的线性预测系数(Linear Prediction Coeficient,LPC)[77]和基于听觉感知的相对谱感知线性预测系数(RelAtive SpecTrA Perceptual Linear Prediction,RASTA-PLP)[78]。此外,目前较新的Teager能量倒谱系数(Teager Energy Cepstral Coeficient,TECCs)通过采用一种稠密平滑的滤波器组以及可变的能量计算策略,取得了比MFCC更好的噪声鲁棒性。而瓶颈特征(Bottleneck Feature,BF)[79,80]则借助含有少量显层和大量隐层节点的瓶状神经网络生成新特征用以提取,获得了一定成果。虽然研究者们在特征提取方面做了大量尝试,提出了一系列特征,也取得了一定的成果。但对当前还有哪些参数携带着最有用、最具鲁棒性的信息,却仍处于不明朗之中。因为特征参数能表示语音,在一定程度上也能表示噪声,换言之,特征参数中不可避免地混有噪声,这将引起识别率的下降。

由于噪声影响在倒谱域呈现高度非线性,Moreno[81]等提出用泰勒级数(Vector Taylor Series,VTS)将非线性关系近似展开成线性,同时假定清晰语音服从高斯混合分布,并运用每一句语音在线估计信道参数和噪声参数,然后再进行特征补偿。该方法无需额外训练数据,能在短时间内动态补偿噪声,具有一定的优势。

特征域补偿方法试图补偿语音特征,使其与模型相匹配,而模型域方法则修改声学模型使其适应输入的特征。匹配训练的思路较为直观,即直接采集某一噪声环境下的语音进行标注,然后重新训练模型,用来识别这一噪声环境下的语音。这也意味着每遇到一个新的环境,匹配训练都需要重新采集、标注数据以及训练模型,其结果虽能保证识别率,但耗时耗力,无法推广。多重风格训练[82]可以采集所有可能的噪声环境下的数据,用以训练声学模型。但该方法也带有明显弊端:一方面,对未知噪声环境中的噪声类型无法穷尽,另一方面,过多的数据会导致声学模型的区分能力降低。总之,匹配训练和多重风格训练虽然能得到较高的识别率,但运算量不小而且需要又大量未知噪声环境下的标注数据,不适合LVCSR,因而只能用于在实验中作为对比方法以考察其他方法的性能。

模型域方法更多采用的策略,则是训练干净环境下的声学模型,然后利用目标环境下的少量数据,通过模型适应的方式增强系统对环境的适应能力。模型分解方法[83]可修改声学模型的基本结构,既补偿了均值和方差,又能补偿高斯混合数和混合系数,因此能使因噪声污染而呈现非高斯分布的语音得到综合补偿。该方法训练一个干净语音HMM和一个噪声HMM,然后在这两个HMM组成的状态空间进行联合解码。混噪语音与清晰语音以及噪声之间的关系经常通过一个最大值算子加以近似,因此该方法对低能量语音帧建模存在误差。另外,该方法使用的是对数谱特征而不是倒谱特征,计算复杂度相当高。

并行混合模型(Parallel Model Combination,PMC)[84]将清晰语音的HMM和噪声HMM从倒谱域变换到线性频域,然后根据失配函数合成后,再变换至倒谱域,获得混噪语音的声学模型。数据驱动并行混合模型(Data-driven PMC,DPMC)则采用蒙特卡罗方法获得清晰语音和噪声的概率分布,然后进行混合,运算复杂度也很高。尽管文献报道PMC取得了好的效果,但该方法在实际应用中存在一定的缺陷,表现为,一方面需要为每种噪声训练模型,另一方面,当噪声时变时,还必须随时更新模型。

另外,各种自适应方法,诸如最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)[85]、CML-LR和最大后验概率(Maximum A-Posteriori,MAP)[86]等用畸变环境下的标注语音进一步训练模型也能增强系统鲁棒性。这几种方法最初用于说话人自适应,而实验表明,这些方法也同样适用于环境自适应。MLLR假定清晰语音和混噪语音的模型均值和方差可以通过一个线性变换矩阵相互转换,然后在期望最大化(Expectation-Maximum,E-M)算法框架下通过最大化自适应数据的似然比得分,最终求得该变换矩阵。CMLLR与MLLR的不同之处则在于前者的均值变换矩阵与方差变换矩阵同一,而后者却无此限制。MAP自适应在最大化混噪数据后验概率的准则下重估模型参数。由于MAP估计的参数多于MLLR,因此需要更多的自适应数据。当自适应数据不足时,其性能明显低于MLLR,而随着自适应数据的增加,其性能将趋近于匹配训练方法。

2 结束语

上一篇:付费方式下一篇:企业投资评价