语音控制系统

2024-08-07

语音控制系统(精选12篇)

语音控制系统 篇1

1. 引言

语音教学对语言学习起着重要作用,发音错误就导致读不好、听不准,从而直接影响到词汇的记忆、积累以及听说能力。目前英语语音教学一般采用教师朗读,学生跟读;教师演示发音口形,学生模仿;教师播放录音,学生跟读等常规教学方式。这些方式单调、枯燥、抽象,受授课地点、时间的限制,调动不起学生的学习积极性。

为了解决英语语音学习中所出现的问题,提高语音教学质量,笔者设计了一个基于语音合成技术的可视英语语音教学辅助系统。系统可把学习者任意输入的单词、短语、句子用高质量的合成语音播放出来,同时将对应口形以动画形式生动形象地同步表现出来,学习者可参照系统模仿跟读,改进发音。

2. 英语语音教学系统软件设计与实现

除了听到的声音外,人说话时口形的变化有助于学习者对语言的理解,是人获取信息的重要渠道,学习者可根据口形变化模仿、对比、调整发音,语音中称之为视位。音位和视位是语音的两个基本特性,因此本系统在合成语音同时显示出口形变化,来改善传统语音软件只能听声的弊端。

2.1 设计思路

系统主要通过Microsoft Speech SDK提供的关于语音处理的应用程序编程接口SAPI进行可视语音合成开发。通过调用相关接口,系统允许学习者自己设定男女发音音调、音量和朗读速度,可以根据通知消息实时获得当前音素或视位信息并转换为口形动态显示出来。

2.2 总体设计

基于语音合成技术的可视语音教学系统的主体部分实现过程如下:

(l) 初始化引擎,注册回调函数,载入所有口形图片;

(2) 用户设定语速语调,输人文本;

(3) 调用SAPI函数朗读;

(4) 接收音素通知消息,根据音素值,变换为口形并同步显示。

2.3 详细设计

国际标准MPEG-4对视位的定义为与某一音位相对应的嘴唇、舌头、下愕等可视发音器官所处的物理状态,在此我们将其简化为口形。通过对英语发音口形的大量研究,将英语的音素发音按照口形进行分类。有些音素单从口形上看基本相同,比如[p][b[m],虽然三个音素气流、舌位变化不同,但其口形都是先闭合后张开。最终确定了常用单音素和22个基本静态口形的映射规则,如图1所示,系统初始化时须将此22个口形载入。

系统初始化完成后,学习者根据实际学习情况调整语速、语调、音量、语气,自行输入单词或句子,系统根据设定值调用以下函数朗读文本:

SpVoice1->Speak (WideString (UserText) , SVSFDefault) ;

朗读开始,声音将被合成并播放,遇到音素或视位变化时,系统会接收到SAPI发送的反馈消息,此时可根据当前音素或视位信息显示对应口形图像,关键代码如下:

为了得到自然的语音口形动画,可以通过图像变形方法在两个口形之间插入若干补间帧来平滑过度。

3. 结束语

利用此种可视语音合成技术进行英语语音教学, 可以提高学习效率,因人施教。但要想达到好的教学效果,语音库的选择很重要。微软、IBM、Nextup.com等多家公司都在研发自己的语音库,对比发现,好的语音引擎发音标准,相应嘴形配合到位,学习者可以更好的掌握发音。

摘要:语音合成技术是人机智能交互的关键技术, 本文描述了一种利用语音合成技术产生实时语音及其口形变化的英语语音辅助教学软件。该软件系统可以使语音教学更加生动形象, 增强学习交互性, 灵活性, 提高学生参与学习的主动性和积极性, 使学生更加容易和牢固地掌握语音知识。

关键词:英语语音教学,语音合成,可视语音

参考文献

[1]MPEG-4, 国际标准ISO/IEC14496[S].

[2]Microsoft.Speech API[EB/OL]http://www.microsoft.com/speech/developers.aspx, 2010

[3]胡壮麟.语言学教程 (修订版) [M].北京:北京大学出版社, 2001

[4]张鸽.创新性英语音素教学模式--多媒体人机互动式自主学习模式的理论与设计[J].外语电化教学, 2008.

[5]鲁杰, 王永斌.利用SmartRead SDK实现文本的语音合成[J].计算机与数字工程, 2009.

语音控制系统 篇2

点击主面板右上角菜单中的基本设置

启动和登录

勾选开机时自动启动之后会在每次启动电脑的时候,会自动启动软件

勾选启动时自动登录之后会在每次电脑启动软件的时候,软件会自动登录

主面板

选择最小化时当点击主面板关闭按钮时,会直接把主面板最小化到任务栏通知区域

选择退出程序当点击主面板关闭按钮时,会直接关闭,

 

QT语音系统基本设置

热键设置

热键设置,为了方便您有习惯键盘操作软件的习惯

显示主窗口,主窗口指QT语音主界面

增加音量,是指增加扬声器音量

减少音量,是指减少扬声器音量

极速模式,是指极速模式主界面

语音控制系统 篇3

关键词:GSM显示语音播报

0引言

早在2007年,中国气象局公布了《气象灾害预警信号发布与传播办法》,要求学校、机场、旅游景点等人口密集公共场所的管理单位设置或利用电子显示装置及时传播气象预警信号。气象预警类信息显示与播报系统主要是集气象信息与用户信息发布于一体的系统,数据传输方式可以选择GSM或者GPRS。充分利用现有的无线网络,接收来自气象信息发布中心的气象预警信息并实时地对外发布。根据传输数据量及产品成本等诸多因素的考虑,设计人员可灵活选择。毫无疑问不管是GSM还是GPRS,优点都是能够快速、便捷地随时将信息通过平台或手机短信方式传递到远端电子显示屏,没有区域距离等空间的限制。从而能够在第一时间直接将气象信息发布给公众,以增强预警能力,最大程度地减轻气象灾害造成的生命及财产损失,而目前的气象信息发布主要通过电视、报纸、广播、短信、互联网等途径,不仅会有一定的时间延迟,其到达率也会有一定程度的损失,从而影响了气象信息发布的有效性。本文以GSM为例,浅谈GSM信息显示与语音播报控制系统的设计过程中需要研究的几个问题。

1LED信息显示屏屏体设计方案

1.1屏体部分显示部分使用点阵与数码相结合,点阵部分用来显示气象预警信息,如:天气预报、气象等级预警信息等,还可以用来作为用户形象宣传或者发布通知以及发布广告的媒体。数码部分是用来显示万年历,还可以根据用户需求加设温度传感器,甚至湿度传感器等等。点阵部分使用C5单红室内单元板,总点阵为:128*32,扫描方式:动态1/16扫描。根据点阵部分的尺寸确定数码部分使用1.5英寸大小的数码管,静态扫描方式。因为点阵大小为128×32,故支持2行16点阵大小字体文字。同时可以设计多种文字显示方式,这里绐出几种供读者参考:百页窗,翻屏,整屏移进移出,马赛克进出屏,条状游动等等。

1.2GSM-一种越来越普及的数据传输方式GSM的英文全称是GIobal System for Mobile Communications,其中文含义是“全球移动通信系统”。GSM数字移动通信系统是由欧洲主要电信运营者和制造厂家组成的标准化委员会设计,并在蜂窝系统的基础上发展而成。我国1994年开始建设GSM网,目前全国GSM用户接近5亿,而且数量迅速增长。而作为GSM服务中一项重要的远程业务,SMS(short Message Severs)能够在移动用户及外部系统(比如电子邮件、页面调度以及声音邮件系统)之间传送包括文字与数字的短信息。其独特的快捷性,方便性,易用性,已经使其在诸如E-Mail、娱乐,GPS定位等领域得到了越来越广泛的应用。目前已经有许多厂商开发了具有单独短信息收发功能的功能模块,GSM短信息收发功能模块的广泛应用,为GSM短信息在自动控制领域的应用注入了新的活力。

2短信发送端及短信发送者权限的问题

2.1短信发送端常用的两种类型

2.1.1发送端采用MODEM(一般俗称:短信猫)来发送信息,把猫跟电脑的串口相连,并在电脑里安装配套的驱动软件,软件里可以选择发送目标的手机卡号码以及需要发送的文字信息,每条信息70个字符上限(一个中文或英文或是符号都称一个字符)。用此方法操作好处是电脑无需互联网即可发送,缺点是短信猫里必须安装一张SIM卡(根据使用要求确定是需要办理GSM或是GPRS业务)。现市面上此类型猫种类繁多,用户可以选购稳定且价格相对低廉的产品。

2.1.2还有一种方法是通过短信平台。此方法原理是直接通过intemet将短信内容提交到移动或是联通的短信平台,平台直接下发到目标手机号码。用此方法快捷方便,但需要跟电信运营商沟通,估计如果每天没有一定的短信发送量肯定是没有必要用此方法的。

2.2显示屏短信接受源的控制即发送者权限问题:发送端选择好了,接下来要考虑的是如何设定通讯协议,首先不是什么信息都接受,而且不是谁的信息都接受,如今各种垃圾短信满天飞,我们如何解决显示屏正确选择有用信息而丢弃非法信息的问题呢?这是通讯协议中必须考虑的首要问题。

我们很容易想到一个很简单实用的丢弃垃圾短信的方法一设定短信接收头,也就是说牺牲有限的短信字符数来告知显示屏此条信息的功能,比如:设定显示方式,显示速度,发送内容等等。这种思路通常可以满足一般要求的LED显示屏发布系统。

一般显示屏支持的短信条数在4条以上,假设这4条短信发送的是不同类型的短信,如第一条是天气预报,第二条是近期天气趋势,后面两条是宣传标语或者是收费广告,那么这就可以确定发送源不止1个,甚至就是4个,发送源和短信通道之间有可能是一一对应的。如果这样那么就需要设定一个最高权限用户,由最高权限用户通过短信去设定其他用户,每个用户只能发送对应其权限范围之内的短信通道。而且最高权限用户可以解除其他权限用户并重新设定。通过这种方法就可以解决这一系列的问题。

3语音模块(XF-S4240)的相关介绍

XF-S4240是科大讯飞推出最新的语音合成模块,为业内效果最好的模块级语音合成产品。该模块可通过UART、SPl和J2C三种接口接收待朗读的文本,将文本转换为语音输出,具有非常好的文本朗读效果。模块采用COB(Chip On Board)封装,可方便的集成到需要中文语音合成功能的嵌入式设备之中。此模块面向无法利用软件实现语音合成的嵌入式应用环境提供一套效果卓越的语音技术解决方案。应用领域:车载监控调度终端、排队机、考勤机、公交报站器、税控机、导游机、智能仪器仪表、自动售货机、气象系统提示终端、智能玩具、行业手持通讯终端、信息电话。

语音控制系统 篇4

一、车载蓝牙语音控制系统的硬件设计

1.1芯片的选择

在进行车载蓝牙语音控制系统设计中, 我们将该系统的功能设计目标设定为, 可以通过驾驶员发出语音指令之后, 系统可以对语音信号进行处理, 最终转化为车辆的控制信号, 对车辆中的相关设备进行控制与调试。要想实现以上功能的设计, 主要是依靠于蓝牙芯片与语音处理芯片来发挥作用的, 因此要进行相应的芯片的选择[1]。蓝牙语音控制系统由于主要是对声音进行处理, 所需的数据信息较大, 计算比较复杂且对于计算的准确性要求是极高的, 因此要选用DSP芯片进行语音信息的处理。我们在系统设计中所采用的芯片为Blue Core5。

1.2蓝牙语音控制开发方案

1.2.1单芯片方案

Blue Core5的单芯片开发方案主要就是将该芯片作为主芯片来实现整个语音控制系统的功能。将Blue Core5芯片作为媒介以实现系统中相关软件功能和蓝牙的协议栈, 从而可以实现通过驾驶员的外部通讯, 来完成相关操作。通过该芯片进行系统开发可以实现不用外部MCU进行数据处理, 进而使产品的生产成本减少, 同时所开发的产品体积也会较小应用起来更加的方便。但是进行单芯片的系统开发, 整个系统就会相对变得复杂, 进而使生产周期变得较长。

1.2.2模块化方案

模块化方案开发就是指将Blue Core5芯片设定为蓝牙的基带传输设备, 至于其他的系统软件功能以及蓝牙的协议栈都交给外部处理器进行执行。该方案的系统复杂性相对减弱且开发周期也得到缩短, 但是相较于单芯片的开发方案来讲硬件的生产成本较高, 因此较适用于软件功能相较复杂的系统功能开发。

1.3硬件电路的总体设计

车载蓝牙语音控制系统的设计中, 我们所设计的系统功能的实现所需要的软件功能相对简单, 因此选用单芯片的设计方案进行实际开发。将Blue Core5芯片作为整个系统的主控芯片, 与其他的外围器件如天线模块、电源电路以及充电电路和键盘等部分共同构成整个硬件系统[2]。该蓝牙模块主要是用来与蓝牙网关进行无线通信的, 它可以将驾驶员输入的语音信息中产生的回声和噪音进行消除或抑制。进而使语音信号可以清晰的传输给控制系统进行控制信号的转换, 最终在以蓝牙数据的形式传送给蓝牙网关。

二、车载蓝牙语音控制系统的软件设计

2.1应用程序开发

进行车载蓝牙语音控制系统软件开发中, 我们采用Blue Lab4.1开发软件。该软件是专门被用来进行蓝牙单芯片应用软件开发的工具, 主要是由集成开发环境、底层协议栈以及开发工具软件和软件中间层库四部分构成。此开发软件为设计用户提供了一款可进行下载、在线调试以及编辑和编译操作的集成开发环境即x IDE。通过x IDE集成开发环境中的C语言和DSP编译器进行蓝牙语音控制系统中的应用层程序开发。在编辑好相关操作程序后, 点击编译指令, 会自动生成与函数库连接形成的目标代码[3]。对目标代码进行检测无误后, x IDE开发环境可以将程序下载到芯片中, 继续点击调试指令。x IDE为车载蓝牙语音控制系统提供较为完善的调试功能, 通过SPI接口不仅可以实现在线调试的功能, 还能够对系统程序的运行过程、变量内容以及存储器内容和函数调用等程序信息进行跟踪。

2.2软件详细设计

2.2.1主程序设计

我们将车载蓝牙语音控制系统的软件主程序工作流程设计为, 在用户操作系统时进入初始化模式, 处在等待用户操作模式。如果用户在5分钟之后不对系统进行任何操作, 则就会自动进入休眠状态。如果在此期间用户通过按键进行操作, 则系统执行相关功能。如果程序进入休眠状态之后, 用户想要再次启动装置, 则要对程序进行复位触发, 触发成功之后, 系统程序自动进入初始化阶段。如触发没有成功, 系统就会继续等待直到复位触发成功才会进入初始化阶段。

三、结语

随着科学技术的不断发展, 车载的语音控制系统会越发的便于人们的使用, 为人们行车的安全性带来保障。与此同时, 将各项功能进行语音的集中控制, 减少了驾驶员按键操作的麻烦, 带来了更多的舒适与便捷。

参考文献

[1]夏峰, 陆珂伟, 陈启军.语音控制的多功能车载终端系统的设计与实现[J].机电一体化, 2008, 08:48-51.

基于激光天线语音通信系统的研制 篇5

摘要:通过对电磁波无线、光纤及现有的激光无线通信的优缺点分析,介绍了一种结构简单的激光无线语音通信系统的结构及主要硬件的设计。经实际应用表明:该系统能够灵活地适应各种场合。

关键词:激光 无线通信 语音

电磁波作为无线通信的信号载体由来已久,至今仍广泛应用于短波、微波、毫米波无线通信。但它们存在致命的缺陷:保密性差、通信容量低、波段资源受限制等。光纤通信以光作为载体,以光纤作为传输介质。由于光的频带资源十分丰富,故通信容量巨大,已成为现代通信的主体。但光纤通信网络包括光端机、光缆等通信基础设施的建设是事先规划的、固定的,将会出现光缆没有到达或光缆不便到达的地址,无法进行光纤通信。早在二十世纪70年代,人们就开始了激光大气通信技术的研究,但由于当时光纤通信较为成功,激光自由空间的通信未能得到充分重视。近几年来,由于移动通信的需要和微波通信的带宽限制,光自由空间的通信取得了很大的进展。美国朗讯公司采用1.55μm波段的半导体激光器加光纤放大器(EDFA)作为发射光源,并采用波分复用结构,实现10Gbps容量的空间光通信。日本、欧洲等国家也报道了几种空间激光通信装置。我国电子科技大学采用二氧化碳激光器(10.6μm波长,内腔式),实现定点双工四线制三路电话的大气通信(技术成果编号88210414);中山大学激光与光谱学研究所采用音频或数字信号的调幅激光制式工作实现大气通信传输(技术成果编号89209283)。但它们都因通信容量低,在通信系统的结构上,没有与其他通信设备(包括光纤通信、微波通信)的接口,故实用价值小。为解决上述问题,中国科学院上海光学精密机械研究所报导了一种无线激光通信端机实现了与其它通信设施的接口(技术成果编号00217069.8),但由于该端机设备昂贵,未能得到广泛应用。本文提出了基本激光无线语音通信系统的研制,目的在于提供一种价格便宜、携带方便、同机具有激光信号发射和接收装置,且激光接收装置具自动跟踪激光发射装置的双工通信功能的设备。该设备发射装置发出调制激光信号不仅可在自由空间传输,也能直接利用光纤作为载体传输,克服了在天气恶劣情况下无法通信的缺陷;该设备信号传输容量大,可直接与光纤通信、微波通信网络并网,并能灵活地适应各种场合的使用。

图1 空间激光无线通讯系统原理框图

1 总体方案设计

激光天线通信系统主要由激光发射装置、激光接收装置和光学望远镜三部份组成(如图1所示)。其工作原理是:发射端的轴电缆通过高频电缆与发射机码型变换器相接;光纤适配器通过光纤与发射机光电转换器相连;码型变换器与光电转换器均与制式选择开关相连,然后经信号处理模块进行整形、放大、时钟提取等处理,输入激光驱动器使激光器组件产生调制的激光光束,通过激光发射天线定向向空间发射。经光接收天线收集的调制激光信号接进探测器,转换成信号输入信号处理模块,再接进制式选择开关后分两路:一路连接激光驱动器,经光纤适配器连接光纤通信线路;另一路则与码型变换器相接,再接入同轴电缆至电传输线路上。对于本系统所设计的语音激光无线通信系统主要由图2所示的各部分组成。

(本网网收集整理)

2 主要硬件的设计

2.1 激光器件的选择

空间激光通信波长选择主要考虑:尽量避免太阳辐射的影响、减小光束发射角、减小收发天线的尺寸、光波在大气中的透过率以及器件的现实性或预期的可行性,包括器件性能价格比的预计。从激光天线通信的角度分析,大气的透射率是个重要影响因素。在小于300nm的紫外波段,大气的透过率急剧下降。显然,紫外线光不利于大气通信。可见波段的激光,例如二次倍频YAG激光器,也不利于避免太阳光引起的背景辐射噪声。常用的`激光波段有830~860nm、980~1060nm和1550~1600nm,都是良好的大气窗口。

2.2 光发射与接收天线

由于光学天线的功能是将需传输的光信号有效地发向对方并将对传来的信号光高效接收,因此,光天线的设计是在满足总体设计的前提下,保证系统在设定的通信距离及大气衰减时能正常工作,合理选取发射远镜的远场发散角、接收望远镜的接收视场角及光学系统的其他参数。下面分别予以介绍。

(1)设计考虑

主要光学性能要求:高的光学质量(λ/20RMS);低的遮挡率;高的光透射率(T≥0.92);低的散射光。此外,要求材料热膨胀系数小、机械强度纺高、重量轻、使用寿命长。

图3 (a)光发射天线系统原理图(b)光发射天线系统原理图

光学设计考虑:为了满足空间通信对天线的要求,笔者选择卡塞格伦天线。主要包括:抛物面初级反射镜;双曲线次级反射镜;聚焦镜,使成像在天线结构的外部。

(2)性能分析

假设光源电场强度满足高斯幅度分布,即

其中,ω为光腰大小,R表示曲率半径。

利用非涅尔近似场区的辐射定律以及天线增益定义,得到观测点(r,θ)处的天线增益值:

其中,

定义:

α=a/ω,γ=b/a,X=kasinθ,β=(ka2/2)[(1/r)+(1/R)]

次级反射镜的遮挡率,天线的误指向效应以及光学天线的桁架对天线增益都有较大影响。此外,对接收无线的增益,检测方式也有较大影响。

在光学设计时,为了满足空间通信对天线的要求,光发射天线系统如图3(a)所示,它由半导体激光器和设置于其光路上的发射镜构成。光接收天线系统如3(b)所示,主要由校正镜、校正镜2次镜胶合镜、主镜、滤光片、聚光镜胶合镜和滤光片聚光镜、探测器等组成。其中,探测器采用SI-PIN GT101型复合光电二极管完成光信号转换为相应的电信号。该器件在反向偏置条件下工作,当光照时,半导体吸收光,在耗尽层或离耗尽层一个扩散长度内产生电子空穴时,最后被电场分开。当载流子漂移通过耗尽层时,在外部电路中形成电流,从而实现光电转换。

图4 激光无线通信(发送器)原理图

2.3 主要电路设计

・电源电路选用了集成稳压器。

・前置处理电路主要包括前置放大器和功率放大器两部分。经内调制转换的电信号通常比较微弱,需经前置放大电路将前级电路的输出电压放大。故前置处理器质量的优劣,在很大程序上标志着系统整体的音质水平。即前置处理器与功率放大器的选择对于本系统非常重要。本系统采用集成芯片NE5532作为前置放大器,LA4101作为功率放大器。同时,为获得较好的效果,减小干扰,在信号输入前置放大器之前,设计了高通滤波器。

・调制电路对光源进行调制的方法有若干扰,但从光源与调制器之间的关系可分:光源的内调制、光源的外调制。本系统采用了光源的内调制方式。

・功率放大电路因光电探测器的电信号较弱,需经功率放大器放大电压信号,产生足够的不失真的输出功率,以推动扬声器发音。放大器的种类较多,本系统采用集成电路功率放大器LA4101。

上述设计的发射电路如图4所示,接收电路如图5所示。

图5 激光无线通信(接受器)原理图

3 试验样机及结论

在上述设计思想指导下,完成了一个5km的激光无线大气通信机试制。通信光源采用波长为0.885μm的半导体单模量子阱激光器 ,用芯径为200μm的光纤耦合,出纤光功率为200mW。光天线发射/接收望远镜的通光孔径为φ110mm,激光远场发射角为1.5mrad,接收视场角为3mrad。

本系统兼容128/256/512/1024/2048kbps速率,并具有AMI及HDB3,码两种接口功能。该系统已进行了户外开通试验。将其设备分别设在相距约5km的两栋高楼之间(要求视距无遮挡),进行了长达360h的开通试验,其中经历了大雾、大雨、小雨、晴天等天气变化。试验结果表明,除能见度极你的大雾天气外,通信系统都能正常工作,通话质量良好。该个有以下优点:

(1)具有双工位功能;

(2)可实现单对多的多通道通信;

(3)通过光学望远镜检测发射部分与接收部分之间的对正情况;

(4)结构简单,携带方便;

(5)具有与光纤通信接口,适用范围广,特别适用于两河对岸、高山之间、高层建筑之间的无线通信;

单片机倒车防撞语音播报系统 篇6

【摘 要】单片机倒车防撞话音播报本系统由超声波测距仪、温度补偿装置、液晶显示器、单片机微处理器、语音播报器和电源组成。本系统克服了现有倒车雷达系统的不健全用问题,降低了倒车碰撞事故的发生概率。

【关键词】单片机倒车防撞语音播报系统 ISD4004语音模块 超声波测距 倒车防撞

随着社会的发展,汽车的数量也在大幅攀升。汽车在倒车时屡屡发生碰撞事件,造成了人身伤亡和经济损失。针对这种情况,本文设计了单片机倒车防撞语音播报系统以单片机STC89C52为核心,通过超声波测距模块,在整个倒车过程中自动测量出车尾到最近障碍物的距离,然后通过语音模块播报并在液晶显示屏显示距离,提醒驾驶员注意刹车。

单片机倒车防撞语音播报系统框图如图1所示:

图1 单片机倒车防撞语音播报系统框图

一、硬件设计

(一)主控制器

采用STC89C52单片机。它有8kb的FPEROM和256字节RAM,可满足系统编程需要,并且价格低廉,性价比高,可以支持TTL电平直接下载程序,不需要专门编程器烧写程序。

(二)显示部分

采用LCD16O2液晶显示屏。它是一种专门用于显示字母、数字、符号等点阵式LCD,其拥有友好的人机界面及强大的显示功能,特别适用于智能控制的可编程人性化显示。与中文液晶显示相比,英文液晶显示其编程更简单,具有功耗低,体积小,重量轻,寿命长,不产生电磁辐射污染等优点。

(三)语音提示模块

使用ISD4004语音模块。ISD4004系列单片语音录放电路是美国ISD公司的新一代产品,同早期美国ISD公司产品一样,它采用了ISD公司的Chip-Corder专利技术,多级存储技术,既声音无须A/D转换和D/A转换,采用直接模拟量存贮技术,因此能够真实、自然地再现语音、音乐效果声音,避免了一般固体录音电路量化和压缩造成的量化噪声和金属声。

(四)超声波测距电路

采用HC-SR04 超声波测距模块。它可提供 2cm-400cm 的非接触式距离感测功能, 测距精度可达高到 3mm。模块包括超声波发射器、接收器与控制电路。 工作时,采用IO口TRIG触发测距,给至少10us的高电平信号,模块自动发送8个40KHZ的方波,自动检测是否有信号返回,有信号返回,通过IO口ECHO输出一个高电平,高电平持续的时间就是超声波从发射到返回的时间。测试距离=(高电平时间*声速(331.5+0.607*当前温度M/S))/2。

二、软件设计

软件系统采用模块化程序设计方法,分为主程序、显示程序、温度传感器程序、语音模块程序等。

(一)主程序主要完成1602LCD液晶屏的初始化,测量当前温度,发信号给超声波模块开始测距,计算距离(采用温度补偿),查询静音按键是否按下,按下关闭语音,没按下进入录音模式,然后进行语音播报距离等工作。

(二)1602LCD液晶显示程序主要完成显示模式初始化,模式设置,关闭显示,屏幕清屏,显示开启及设置光标起始位置,写地址,写数据,直到数据全部写完等工作。

(三)温度传感器程序主要完成对温度的读取,以便超声波模块计算距离时进行温度补偿,提高测距的精度。

(四)语音模块程序主要完成读取距离信息进行录音,调用语音片段进行播放测量出的距离等工作。

三、结束语

本文采用超声波测距,以声音和直观的LCD显示屏告知驾驶员汽车尾部障碍物的情况,解除了驾驶员在倒车时前后左右探视所引起的烦扰。由于采用了语音芯片,能够及时播报出当前的距离,克服了现有倒车雷达系统不健全的问题,降低了倒车碰撞事故的发生概率。

【参考文献】

[1]元红妍.电子综合设计实验教程[M].济南:山东大学出版社, 2005.

[2]雷思孝,李伯成,雷向莉.单片机原理及实用技术[M].西安:西安电子科技大学出版社, 2004.

X光机语音控制系统的设计与应用 篇7

关键词:语音控制,X光机,辐射,辐射衍生危害

在医院的治疗过程中, 很多情况 (如:介入、骨科、穿刺等手术) 需要医生和患者同时暴露在X光机的射线辐射下才能完成, 此时因为医生双手无暇顾及X光机的操作, 一般会由助手在隔间协助, 但经过统计, 约35%的医生指令未能精准的执行, 这会导致多种危害:一是多余辐射会对医患双方身体带来不必要的伤害, 这对操作大夫来说因为经常要工作在X光辐射下, 可能会产生很严重的身体损害;二是增加医生对自身健康的心理负担, 影响水平发挥;三是手术时间延长可能导致的患者生命危险和药品、物资的浪费等。此设计目的旨在让医生根据需要自己用语音精确、迅速的控制X光机的工作状态, 比如光野的精确控制可有效减少辐射伤害、减少散射线、增加图象清晰度, 恰当的曝光参数可以提高手术过程中的观察效果、提高数据采集的质量。特别是造影情况下, 手动给显影药时能有预见性的配合图像采集。因此, 尽量减少治疗工作的代价、提高工作效率是此设计的主要目的。

1 预期目的

(1) 安全性:首先加装本电路时不影响X光机原有功能和参数, 任何改变原机参数的设计都要避免;在本电路出现问题时能迅速的切换回X光机原有的功能, 不至于影响治疗工作的进行;考虑到可能的干扰因素, 其关键指令的执行应具有再次确认功能, 或者放弃关键指令的语音控制;不会对相关人员产生附加伤害。

(2) 通用性:理论上可以加装在现有的任何C臂、遥控胃肠机等设备上, 连接方式力求简单明了。同时也能更好的降低故障率。

(3) 准确性:语音指令响应率>98%, 误动作率0%, 响应时间<1S, 避免使用可能降低抗干扰能力的电路形式。

(4) 经济性:用尽可能简单的电路完成, 制作成本控制在一千元以内。

(5) 语音识别部分:目前国内外的语音识别技术发展迅速, 按算法常见有 (HMM) 隐马尔可夫大模型、人工神经网络、 (DTW) 动态时间弯曲等, 其最为引人注目的当属 (HMM) 隐马尔可夫大模型算法, 其在80年代应用于语音识别技术以来, 取得了长足的发展, 目前处于市场主流位置。现有市售语音控制模块成品, 种类繁杂, 难以尽述, 但根据需要可在以下几方面考虑选用:a.输入特定/非特定语音;b.抗干扰能力;c.存储量大小及可扩充性;d.输出/接口方式、功能;e.识别速度等。比如较为成熟的SENSORY的系列语音模块 (芯片) , 常见类型有SD (Speaker Dependent) 与SI (Speaker Independent) 。SD芯片需要使用者用自己的声音训练后使用, 识别率能达到98%, 不易受方言及环境干扰影响, 环境噪声在30分贝下, 基本上能够完全识别, 在30到45分贝的较吵的环境中, 也能保持在90%以上的识别率, 缺点是, 不同操作人员需要配置专属的芯片。SI芯片不需专门训练, 可以多人共同使用, 缺点是识别率较低, 实际测试市售的几种SI芯片, 准确率很难达到90%。所以SD芯片应为设计首选。对于多人使用的情况下, 可以让医生自己分别保存自己的专属芯片, 使用时插到主机专门设计的易插拔插槽上即可。另外, 如果需要也可按需定制专有功能的语音芯片, 提供商一般会有详细的资料提供。因为指令数量有限, 为了降低成本、简化电路结构, 实验使用的是定制的SD专用模块, 即每条语音对应一个单纯的电平输出端, 这样省略了后级接口电路的译码电路, 应用时首先训练语句如:“放线”“停线” (X光开、停的控制) ;“Y缩”“Y放”“X缩”“X放”“束放““束缩”“束停” (束光器的动作) ;“采集开始” (开始记录图象序列) 等语句, 并预先将其地址定义为相应的输出信号, 如“放线”对应于信号Xray-ON, “停线”对应信号Xray-OFF等。与此类推即可给接口电路提供相应的控制信号 (具体资料可参考相关芯片技术文档) 。

(6) X光机接口:实验时被控制机为东软NAX-800RF数字胃肠机。首先将语音芯片输出的信号根据用途做相应处理后, 用光藕器件 (如4N系列) 隔离, 然后控制模拟开关电路 (如CD4060, 4066等) 的输出脚并联到原X光机的控制电路中。例如:“放线”语音被响应后, 语音芯片输出信号一个电平信号定义为Xray-ON, 由这个电平控制RS触发器转变为置位状态, 其输出端接光藕隔离后送给模拟开关, 模拟开关输出引脚接到X光机的控制开关端, “停线”信号对应RS的复位。所有开关状态的信号均可这样处理。对于需要模拟量的信号如束光器的控制稍为复杂, 可采用脉冲或电动电位器等方法来控制。我们采用的方法之一是用继电器的常闭触点连接X光机束光器电机原电路, 当语音电路工作时, 原常闭的手动电位器连接断开, 切换到电动电位器。用语音信号控制电动电位器的运转, 如:当发出“Y缩”语音指令时, 语音模块给出相应的高电平信号, 此信号使一个RS触发器置位, 输出电平经缓冲期带动继电器来控制束光器进行光野的Y向缩小, 当视野达到需要的要求时, “束停”指令可使RS触发器复位, 束光器Y向电机停转。

(7) 安全部分:与原机连接设计为易插拔的插头形式, 如果不考虑成本可用“急停”开关加继电器阵列的方式实现物理断开, 因为电路均为控制信号, 一般不会有继电器触电粘合的情况发生;也可在Xray的输出开关电路中串联一个脚闸作为二次确认;电源使用高质量的笔记本电脑开关电源配合机内三端稳压实现, 确保与市电隔离;外壳用金属材料制作, 并可靠接地, 一定程度上帮助散热及屏蔽干扰。

2 实验结果

连接NAX-800RF数字胃肠机和OEC9800C臂机, 共计200次的实验统计出正确响应率95.5%。环境噪声的容忍度应在20分以下。误动作率1.5%处于可忍受范围之内, 远小于人工助手的失误率。响应速度<1S。使用过程中人为将本电路与X光机突然断开时, 原机未受任何影响, 实现了“热插拔”目的。

3 结语

经过实验和多方征求医生意见, 认为此设计能够很好的减少辐射伤害及其衍生危害, 尤其对在射线照射下的医生提供了随心所欲控制设备的手段, 直接减少了辐射剂量和心理压力, >80%的使用医生认为具有实用和推广价值。当然, 此电路也可应用到任何需要语音控制的场合之中。

参考文献

[1]李萍.放射介入工作人员的辐射防护[J].中华放射医学与防护杂志, 2000, 20:436.

[2]樊树明, 邱玉会, 等.介入放射学工作者受照剂量与健康状况分析[J].中国辐射卫生, 2002, 11:110.

[3]张萍, 张琼.基于HMM和BP神经网络的语音识别的研究[J].跨世纪, 2008, 16 (12) :15~18.

语音控制系统 篇8

本文以嵌入式微处理器为核心, 采用ICRoute公司的高性能LD3320语音识别芯片和相关控制电路, 设计实现了声控小车的语音控制系统。由于LD3320芯片集成了语音识别处理器和外部电路, 包括AD和DA转换器、麦克风、声音输出等接口, 且不需要外接任何的辅助芯片如Flash、RAM等[7,8]。在现有的产品中直接集成即可实现语音识别/声控/人机对话功能, 识别的关键词语列表是可以任意动态编辑的, 因而满足了小体积、低功耗和可通用的要求, 因而本声控系统有着广泛的应用前景。

1 语音识别基本原理概述

语音识别过程主要包括两个阶段:训练阶段和识别阶段[2]。不管是训练还是识别, 都必须对输入语音进行预处理和特征提取。训练阶段所做的具体工作是通过用户输入若干次训练语音, 经过预处理和特征提取后得到特征参数, 最后通过特征参数建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较, 然后把相似性最高的输入特征矢量作为识别结果输出, 从而达到了语音识别的目的。其工作原理图如图1所示:

目前, 语音识别技术按照识别对象的类型可以分为特定人和非特定人语音识别。特定人是指识别对象为专门的人, 非特定人是指识别对象是针对大多数用户, 一般需要采集多个人的语音进行录音和训练, 经过学习, 从而达到较高的识别率。

语音识别技术在国内外的发展十分迅速。在嵌入式应用领域, 具有代表性的有凌阳的SPCE061A、I-CRoute的LD332X。本文的语音识别方案是以嵌入式微处理器为核心, 外围加非特定人语音识别芯片LD3320及相关电路构成。

2 硬件电路设计

2.1 总体结构设计

整个系统的硬件电路主要包括核心主控制和语音识别两个部分。主控制部分为STC公司的STC10L08XE单片机, 语音识别部分为LD3320语音识别芯片。系统的具体实现方框图如图2所示:

在用户的语音进入语音识别部分后, LD3320将把处理过的数据并行传输到主控制器, 主控制器处理后, 发送命令数据到可扩展外围串行设备实现控制操作。

2.2 主控制模块

主控制器STC10L08XE单片机的工作电压为3.3V-5.5V, 拥有8K的FLASH, 512字节的SRAM, 含有异步串行接口, 40个I/O接口, 因此足以满足主控制系统对资源的需要[9]。主控芯片电路原理图如图3所示。

主控制器主要控制四个部分, 即接口模块、电气控制模块、保留的传感器接口和电源模块。电机控制模块是小车的方向和速度控制的核心电路。方向控制单元负责的是电机的三态控制, 即向右旋转, 反向旋转和停止。电机控制模块电路如图4所示, 除了连接到两个电机, 还有两个控制单元端口。

电机方向控制电路如图5所示, 方向控制通过一个H桥电路来完成, 电路由晶体管Q3、Q4、Q5和Q6组成, Q3、Q5是一组, Q4、Q6是另一组。除此之外, Q1和Q2是辅助晶体管, Q1被用来控制Q3、Q5的开关。Q3、Q5的传导通过模拟Q1的传导来完成, 当Q1关闭时, Q3、Q5也关闭。Q4负责控制Q2、Q6的关闭, 过程与Q3、Q5类似。

2.3 语音识别模块

LD3320语音识别芯片的结构如图6所示[7,8]。LD3320内部集成了快速稳定的优化算法, 因此不需外接Flash和RAM等存储设备, 同时LD3320也不需要用户事先训练和录音来完成非特定人的语音识别, 因此LD3320的语音识别率比较稳定, 准确率也比较高。

本文的LD3320芯片采用并行方式直接与STC10L08XE单片机相接, 并均采用1 k电阻上拉, A0用于判断是数据段还是地址段。控制信号RDB、WRB、CSB、RSTB (复位信号) 以及中断返回信号INTB与STC10L08XE直接相连, 为了辅助系统稳定工作, 均采用10k电阻上拉。LD3320芯片和STC10L08XE采用同一个外部22.1184MHz时钟;MBS作为麦克风偏置, 且接一RC电路, 以保证能输出一个浮动电压给麦克风。

LD3320芯片内部的语音识别原理框图如图7中的虚线框所示[7,8]:

首先把通过MIC输入的声音进行频谱分析;其次提取语音特征, 通过以上两步后将得到语音 (即关键词) 的特征信息;第三将关键词语列表 (即训练模板) 中的数据与特征信息进行对比匹配;最后找出得分最高的关键词语作为识别结果输出。

3 语音识别程序设计

本文语音识别流程采用中断方式工作, 其工作流程分为通用初始化、语音识别用初始化、写入识别列表、开始识别和响应中断等。

(1) 通用初始化和语音识别用初始化。在初始化程序里, 主要完成软复位、模式设定、时钟频率设定和FIFO设定。芯片复位是对芯片的第47脚 (RSTB) 发送低电平, 然后需要对片选CS做一次拉低至拉高的操作, 以激活内部数据处理模块;

(2) 写入识别列表。每个识别条目对应一个特定的编号 (1个字节) , 编号可以相同, 可以不连续, 但是数值要小于256 (00H-FFH) 。本芯片最多支持50个识别条目, 每个识别条目是标准普通话的汉语拼音 (小写) , 每2个字 (汉语拼音) 之间用一个空格间隔。本文中采取了连续不同编号的识别条目;

(3) 开始识别。设置若干个相关的寄存器, 即可开始语音识别, 其识别流程如图8所示。ADC通道即为麦克风输入通道, ADC增益亦即麦克风音量, 可设定值00H-7FH, 建议设置值为40H-6FH, 值越大代表MIC音量越大, 识别启动越敏感, 但可能带来更多误识别;值越小代表MIC音量越小, 需要近距离说话才能启动识别功能, 其好处是对远处的干扰语音没有反应;

(4) 响应中断。如果麦克风采集到声音, 不管是否识别出正常结果, 都会产生一个中断信号。而中断程序要根据寄存器的值分析结果。读取BA寄存器的值, 可以知道有几个候选答案, 而C5寄存器里的答案是得分最高、最可能正确的答案。

4 性能测试与应用

4.1 语音识别静态测试

LD3320语音识别芯片能在以下两种情况给出识别结果:

(1) 外部送入预定时间的语音数据后 (如5秒钟的语音数据) , 芯片对这些语音数据运算分析后, 给出识别结果;

(2) 外部送入语音数据流, 语音识别芯片通过端点检测技术检测出用户停止说话, 把用户开始说话到停止说话之间的语音数据进行运算分析后, 给出识别结果。

本文设计的系统主要用于语音控制小车, 在实际应用中主要关注其识别率和实时性, 因此本文的语音控制系统主要工作在第二种情况下。

为了更好的检测语音识别效果, 实验中选择多个不同音色的人在实验室环境下分别进行测试, 每个词语测试50遍。部分非特定人的语音命令测试的正确识别数据比例见表1:

由上表可知, 在实验室环境下, 对于语音命令的平均识别率可达到90%。

4.2 系统的动态测试

首先将LD3320语音识别控制版安装在小车上, 构成的语音控制小车实物图如图9所示:

声控小车的动态测试路线图如图10所示。发出“前进”命令时, 汽车会立即按相应的程序向前移动。图中的直线轨迹为汽车向前移动时的实际移动路线。由于跟地面的摩擦阻力和汽车身体结构的不平衡, 汽车并不是像程序设计的那样走很精确的直线, 而是前进200cm时会向右偏离10.7cm, 此类问题有待以后进一步改进。类似地, 对于小车的其它动作 (如左转、右转和倒退等) 的控制如图中所示。

5 结束语

自然语音的识别、人机交互与控制是当前语音信号处理领域的研究热点和难点。本设计运用STC10L08XE单片机, 结合ICRoute公司的非特定人语音识别芯片LD3320, 完成了语音控制系统的总体结构、主控制模块和语音识别模块的软硬件设计。实验结果表明, 非特定人语音识别的静态测试对于语音命令的平均识别率可达90%, 完成了声控小车的行车动作测试, 达到了较好的实验效果。本声控系统具有小体积、低功耗和可通用的特点, 因而有着广泛的应用前景。

摘要:语音识别是实现语音控制的关键技术, 自然语音的人机交互也是当前的研究热点和难点。该设计运用STC10L08XE单片机, 结合ICRoute公司的高性能LD3320语音识别芯片, 进行了语音控制系统的总体结构、主控制模块和语音识别模块的软硬件设计。完成了基于非特定人的语音识别系统的静态测试, 其对于语音命令的平均识别率可达90%, 并应用该系统构成了声控小车, 完成了该小车的行车动作测试, 达到了较好的实验效果。

关键词:语音识别,语音控制,LD3320,单片机,声控小车

参考文献

[1]刘幺和, 宋庭新.语音识别与控制应用技术[M].北京:科学出版社, 2008.

[2]赵力.语音信号处理 (第2版) [M].北京:机械工业出版社, 2009.

[3]Yoo Oh, Jae Yoon, Ji Park, Mina Kim, Hong Kim.A name recognitionbased call-and-come service for home robots[J].IEEE Transactions onConsumer Electronics, vol.54, no.2, pp.247-251, 2008.

[4]张晨燕, 孙成立.非特定人孤立词语音识别系统的片上实现[J].计算机工程与应用, 2007 (13) :194-196.

[5]关胜平, 何培宇, 刘珂含, 等.基于TMS320VC5509A的语音识别与控制系统[J].电子技术应用, 2007 (7) :36-39.

[6]孙兵.基于单片机的机械手声控系统设计[J].机械工程与自动化, 2007 (6) :113-117.

[7]LD332X语音识别芯片ICRoute[DB/OL].[2010-07-01]http://www.i-croute.com/web_cn/LD332X_DebugProcess.html.

[8]LD3320芯片简明调试步骤DB/[OL].[2010-07-01]http://www.i-croute.com/web_cn/LD332X_DebugProcess.html.

语音控制系统 篇9

传统的家庭照明设备控制,通过开关或旋钮来实现,为了方便人们操作需要在屋内多个位置布置开关,因此需要在屋内各处铺设走线,既增加了施工量,又增加了施工成本,同时在进行电灯的控制时也不是十分方便。本文利用LD3320芯片作为语音识别模块,利用STC10L08XE作为控制模块,设计了一套语音识别控制系统,只要通过语音指令就可以控制不同位置不同房间的电灯的开关。极大的方便了日常对各个房间的电灯的控制,同时也降低了布线难度,节约了施工成本。

1 语音识别原理

语音识别系统根据不同的分类方法,可以进行不同的划分。如可以分为特定人和非特定人语音识别系统;也可以根据词汇量进行分类,根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量语音识别系统。

本设计采用的是非特定人语音识别系统,该系统的语音识别过程包括两个步骤:训练和识别。训练是指用户先输入训练语音,系统经过预处理和特征提取得到特征参数,再通过特征参数建模得到语音库参考模型。识别是指将输入的语音的特征矢量参数和参考模型库中的模型进行对比,把相似程度最高的输入特征矢量作为识别结果,从而达到语音识别的目的。

2 语音识别模块

LD3320是ICRoute生产的基于非特定人语音识别技术的语音识别芯片。该芯片的特点是集成了高精度A/D和D/A接口的语音识别芯片,在使用时不需要外接其它辅助芯片如Flash、RAM、加密芯片等,也不需要连接计算机上的有关语音识别训练的任何软件,直接集成在现有的产品中即可以实现语音识别功能,并且识别的关键词语列表可以动态编辑。LD3320芯片,可以直接和51单片机进行连接,从而实现语音识别、语音控制、人机对话功能。

LD3320芯片的引脚分部如图1所示。

语音识别芯片能在两种情况下给出识别结果:

(1)外部送入预定时间的语音数据后,芯片对这些语音数据运算分析,给出识别结果。

(2)外部送入语音数据流,语音识别芯片通过端点检测,检测出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结果。

这对应着语音识别芯片的两种工作模式,“触发识别模式”和“循环识别模式”。

触发识别模式指在系统主控芯片接收到外界一个触发信号后,启动芯片的定时识别过程,要求用户在规定时间内说出要识别的语音关键词语,每次识别都需要用户触发启动识别过程。

循环识别模式指系统的主控芯片反复启动识别过程,如果没有人说话就没有识别结果,系统每次识别过程的定时结束后,自动再启动一个识别过程;如果有识别结果,则根据识别作相应的动作,完成后再启动一个识别过程。

触发模式可用于对识别精度要求比较高的场合,用户通过操作按钮开启识别模式,系统播放提示语音,提示用户在规定时间内说出要识别的内容,用户在系统引导下说出语音识别内容,从而保证比较高的识别率。

而本设计采用循环模式,系统反复启动循环程序,无需用户进行按键操作。在这种状态,识别准确度会有一定程度的下降,在语音识别过程中,用户说话的声音,或者外界其他声音,有可能被识别引起识别为指令语音,这需要在产品控制程序中做出相应的抗干扰处理。

3 单片机主控系统

LD3320芯片与单片机的连接方式有两种,串行模式和并行模式。LD3320芯片的MD为串并控制端,该引脚为高电平时LD3320工作在串行模式,该引脚为低电平时LD3320工作在并行模式。

串行SPI工作模式时,LD3320的SPIS引脚为写有效控制端,低电平有效,接单片机的P3.6脚;SDI端为串行输入端,接单片机的P0.0口,SDO端为串行输出端,接单片机的P0.1脚;SDCK为时钟输入端,接单片机的P2.0脚。

在并行工作模式时,LD3320的P0~P7引脚为并行数据端,与单片机的P0.0~P0.7脚相连;A0为地址选数据择端,高电平时P0~P7为地址端,低电平时P0~P7为数据端,接单片机的P2.0脚;CSB为并行方式片选端,接单片机的P2.6脚;WRB为写允许端,低电平有效,接单片机的P3.6脚;RDB为读允许端,低电平有效,接单片机的P3.7脚。在本设计中,为提高系统运行速度,采用的是并行模式。

对照明设备的控制采用带光耦隔离的继电器模块,该继电器可工作在交流250V/10A;可以高电平触发也可以低电平触发;采用光耦隔离,工作安全可靠;每路附带续流二极管,释放继电器感应电压,保护前级电路。该继电器模块可以工作在低电平触发或者高电平触发,本文设计采用低电平触发,当单片机输出低电平时,开关闭合,电灯点亮。如需要控制过个房间不同位置的照明设备则需要连接多个继电器模块。语音识别芯片对语音进行识别,通过单片机进行处理,产生控制信号,从而控制继电器的开关,进而控制各个房间照明设备的开关。

本设计的主控电路部分如图所示。限于篇幅本文只给出系统主体部分的电路原理图。语音识别部分原理图与图2所示。

4 软件部分设计

本设计中,LD3320的连接方式为并行方式,工作模式为循环识别模式,系统反复启动语音识别过程,如果未检测到指令语音,不进行任何操作,再次启动语音识别过程;一旦检测到指令语音,就执行相应的操作,完成后再进行下一次语音识别,整个软件的流程图如图3所示。

5 结论

本设计采用ICRoute公司的非特定人语音识别芯片LD3320进行语音识别,采用STC公司的STC10L08XE单片机进行控制,通过程序进行逻辑处理,实现了通过语音指令对房间内照明设备的控制。该设计简化了房间内开关的布线,节约了施工成本,同时极大的方便了用户的使用和操作。实验表明,语音识别的成功率平均为90%,达到了较好的效果。该套系统,也可用于其它电器设备的控制。本设计具有体积小,成本低,使用方便,扩展性好的特点,具有一定的实用价值和较为广阔应用前景。

参考文献

[1]乔琳,邓彦松,田晓亮,基于AVR和51单片机的机器鱼语音控制系统设计与实现[J].专用元器件,2011

[2]金鑫,田犇,蓝牙模块串口通信的设计与实现[J].实验室研究与探索,2011

[3]苏宝林,基于AVR单片机的语音识别系统设计[J].现代电子技术,2012

智能语音驱鸟系统设计与实现 篇10

鸟类对农业生产的危害日趋严重,导致农产品产量和质量下降,造成巨大经济损失。农业生产中的传统驱鸟手段是利用巨大声响或视觉效果使鸟类受到惊吓来驱鸟,如敲锣、放炮、装稻草人等,这些方法由于具有单一性,驱鸟效果不佳。近年来,国外专家研究基于鸟类生活习性的防护技术,主要针对鸟类的听觉、视觉、嗅觉,并开发出一系列驱鸟产品,如超声波驱鸟器、激光驱鸟器、无公害化学驱鸟剂等。这些产品在国外应用初期都取得比较好的效果,但都面临鸟类适应性的问题,引进国内使用效果不佳,尤其以天敌鸣声为声音资料的驱鸟设备,由于种间差异性和地域差异性,国外鸟种的天敌鸣叫不一定适用于国内鸟种。此外,国外设备价格昂贵,难被国内用户接受[1]。

针对以上难题,需要研究低成本、抗适应性、适用于我国鸟种的驱鸟器。智能语音驱鸟系统以低功耗单片机为控制核心,利用音频加密技术,以语音芯片作为语音资料存储器,设计高保真、多模式语音播放实现良好的驱鸟效果。该系统低成本、易操作、驱鸟效果好等优点有利于在农业生产中推广,从而提高我国农业生产的科技水平。

1 系统方案设计

本系统主要从以下3个方面解决成本、适应性、鸟种差异性的问题:

1)采用低功耗、低成本51单片机作为控制核心,采用地址锁存器将16位地址总线扩展至20位地址总线,实现1MB的外部数据存储空间,可以存储8段语音数据,在语音输出过程中,并没有将其读入单片机内部,而是直接进行解密输出,降低了对单片机的要求,同时也保障了语音数据的安全,大大降低了系统成本;电源的设计也充分考虑到农田、果园等户外场所供电便捷性和安全性等因素,本系统为用户提供电源适配器和蓄电池两种供电方式,并增加了蓄电池保护电路,有效避免了蓄电池过度放电带来不必要的损失。

2)采用多模式播放方式抵抗鸟类对单一重复播放方式的适应性,可根据不同鸟类的生活习性设置“白天”“夜晚”“持续”3种工作方式;可以设置语音播放时间间隔,系统预设4种不同时间间隔,可根据实际情况来设置;可以设置语音片段的播放顺序,既可以针对一种鸟持续播放一种语音,也可以循环顺序播放多种语音,还可以随机无序播放;可以设置音量变化方式,既可以通过定位器来调节音量,也可以选择随机和渐变两种变化模式。由单片机自动调节音量的变化,以便有效克服鸟类对长时间固定音量播放的适应性。

3)采用语音芯片作为语音资料存储器,语音资料来源于对我国不同地区、不同季节的鸟害进行大量调研后采集的各种鸟类及其天敌的声音并经过处理和试验得到的有效驱鸟声音资料,针对不同地区和不同季节的不同鸟种,选择相应的语音芯片并及时更换。

2 系统硬件设计

2.1 系统硬件结构框图

系统硬件电路共有10个单元组成:电源、单片机微控制器、模式设定、实时时钟、光敏感应、音量调节、模式指示、语音存储、语音功放、语音播放。系统硬件结构框图如图1所示。

2.2 单片机微控制器[2]

本系统选用STC89C51RC系列单片机作为微控制器,该微控制器为增强型8051单片机,采用PQFP小型封装;内部集成4K的Flash程序存储器和512字节RAM以及2K的EEPROM;4个8位可编程并行I/O口(附加P4.0-P4.34个I/O端口); 8个中断源包括4个外部中断、3个定时器/计数器溢出中断和1个串行口的发送/接收中断,4个中断优先级;内置看门狗。该单片机成本低、性能好、防解密、功耗低(掉电模式:0.5μA,空闲模式:2mA)。单片机时钟引脚接12M晶振。

2.3 光敏感应

光敏感应[6]单元是根据检测光线的强弱来判断当前时间是白天还是夜晚,从而实现“白天/夜晚”两种工作模式,当设置为“白天”工作模式时,系统只在白天工作,夜间自动进入休眠待机状态;同理,当设置为“夜晚”工作模式时,系统只在夜间工作。电路主要由光敏电池、集成运放、与非门等器件组成。其电路图如图2所示。

当白天太阳光照射光电池,与光电池连接的运放输入端便产生一个电压信号,经放大后成为高电平信号,再经过与非门U1a转为低电平接到单片机外部中断0引脚,单片机作出相应的中断响应。

夜晚由于光线很暗,光电池产生电压极其微弱,此时U1b输出低电平到单片机外部中断1引脚,单片机作出相应的中断响应。

运放选用LM324;与非门选用74HC00,要求输入高电平最低2V,低电平最高0.8V。光电池在晴天阳光照射下产生电压在0.3~0.5V,需要通过定位器来调节放大倍数,使输出电压高于2V,达到与非门的输入要求;定位器起到调节光强检测灵敏度的作用,在阴天光线不足的情况下可以通过调节定位器提高光线感应灵敏度,或者将工作模式设置为“持续”,使系统在白天和晚上持续工作,不受光线影响。

2.4 语音存储

语音存储单元由存储芯片、锁存器和D/A转换芯片组成,原理图如图3所示。

语音存储芯片选用M27C801,该芯片存储容量为1M×8bit,需要20位地址线,8位数据线。为了节省单片机I/O端口资源,单片机的P0口分时提供所有20位地址总线,用两个8位地址锁存器74HC573管理地址信号,锁存使能端分别接到单片机不同的I/O端口,单片机通过控制片选实现分时发送20位地址线数据;存储芯片的片选接单片机的RD,低电平有效,数据输出使能端接单片机的P2.7端口,当P2.7端口电平负跳变时,存储器的数据输出端Q0~Q7读出语音信号;读出的数字语音信号经过D/A转换芯片AD557转换成模拟语音信号,以上便实现语音信号读出控制和数/模转换功能[7]。

经过D/A转换输出的模拟语音信号需要进行放大才能驱动扬声器,本系统功放芯片选用TDA1517,其固定功率放大增益为20db,并且具有静音/待机切换功能,可以由单片机的I/O端口配合开关器件控制语音功放输出。

2.5 音量调节

本系统在音量调节方面增加自动音量调节功能,利用带I2C总线功能的可编程数字定位器CAT5221,通过单片机程序控制电阻变化来控制功放输入信号电流的大小,实现音量自动调节,因此可以在程序中设置多种电阻变化的方式及幅度和快慢,从而实现相应的音量调节。

单片机可以利用两个I/O端口模拟I2C接口,I2C总线协议允许总线接入多个外围器件;数字定位器可以与实时时钟芯片共用数据线SDA和时钟线SCL,I2C总线的数据传输采用主从方式,即主器件(单片机控制器)寻址从器件(数字定位器和时钟芯片),启动数据传输,因此在数据传输过程中只需指定对应的器件地址即可[8]。

3 系统软件设计

系统软件主要分两部分:一是单片机控制程序;二是PC机环境下的声音加密程序。

3.1 单片机控制程序

单片机控制程序流程图如图4所示。

单片机控制程序的功能模块主要包括:定时模块、语音信号读取模块和播放控制模块。定时模块的功能是设定多个精确的播放时间间隔;语音信号读取模块的功能是按照播放要求准确地读取存储在语音芯片中的语音信号并进行解密;播放控制模块的功能是根据检测按键来设定不同的播放模式。

3.2 音频加密[3]

语音资料来源于对我国不同地区、不同季节的鸟害进行大量调研后采集的各种鸟类及其天敌的声音,为防止非法拷贝,不能直接存放在语音芯片中,需对其加密处理。

语音资料是以.wav为扩展名的波形音频文件,格式是资源交换文件格式(RIFF)。WAV文件格式是Windows中基本的声音格式,由于其文件格式固定,因此可以直接对其数据区进行加密和解密处理。WAV文件由两个子块构成:一个是“fmt”子块,用于存储波形格式信息;另一个是“data”子块,用于存储波形数据信息[4]。语音资料中的WAV文件采用PCM(脉冲编码调制)编码方式,其文件头为44字节,存放一些基本标志信息,从第45个字节开始就是“data”子块中的数据,存放的是声音数据[5]。单声道8位量化的PCM格式的WAV文件的声音数据存放形式如图5所示。

对WAV文件的声音数据采用具有良好随机性、难于破译的离散混沌系统序列加密方法进行加密,首先利用混沌系统产生混沌序列,再对混沌序列进行适当处理,然后利用处理后得到的序列与明文(声音数据序列)进行运算,得到密文,然后将加密后的WAV文件存放在语音芯片。用wav波形查看软件观察某声音片段加密前后的WAV文件声音波形如图6和图7所示。

从以上加密前后波形对比可以看出,经过加密后的声音波形与原语音信号的波形相差甚远,反映出良好的加密性。解密则是加密的逆过程,在单片机控制程序的播放子程序中,利用密钥产生混沌序列,与密文运算后回复出原始WAV文件的声音数据,将解密后的语音信号输出到语音功放单元,如此便实现了对语音资料的加密存储和解密播放。因为整个加密过程在本地PC机上完成,并且实现解密功能的单片机控制程序存储在具有良好防解密性能的MCU中,所以本系统充分保证了语音资料的安全。

4 结语与展望

本文提出了一种针对农田、果园鸟害的解决方案,从硬件和软件两个方面详细介绍了智能语音驱鸟系统的设计。该系统具有低功耗、抗干扰、抗适应性、声音加密、方便升级语音资料等特色,经多次农田、果园试验,驱鸟作用明显、持续,平均帮助用户挽回30%~70%的损失,有效作用面积为1~3hm2,适用于农田、果园、机场、工厂仓库、鱼虾池塘、办公楼宇等,可以驱赶喜鹊、乌鸦、八哥、鸽子、山雀等中国常见鸟类。

驱鸟技术的应用在农业生产、电力、机场等受鸟类危害的环境必不可少,本系统虽然达到了预期的驱鸟效果 ,但为了实现更高效、更智能化的驱鸟技术,需要进一步完善。下一步需要解决地问题主要有以下两个方面:

1)模拟鸟类飞行,研究鸟类飞行及捕食过程中的声音变化特点,通过同时控制多个扬声器,模拟鸟类飞行的动态声音变化效果,更好地抵抗鸟类对目前静态声音的适应性。

2)远程控制,通过客户端PC机、手机等常用通信设备或手持控制器与应用场合的驱鸟器之间的通信,实现远程控制驱鸟器的工作和升级语音资料等。

参考文献

[1]佚名.智能驱鸟器[EB/OL].2009-12-01.中国驱鸟网:http://www.packer.net.cn.

[2]宝利民,马宝山,王曰承,等.16位单片机在机场驱鸟器系统中的应用[J].大连海事大学学报,2006,32(3):79-80.

[3]王卫锋.混沌序列在多媒体信息加密中的应用研究[D].南京:东南大学,2002.

[4]张敬怀,马道钧.WAV语音文件格式的分析与处理[J].北京电子科技学院学报,2004,12(2):47-49.

[5]李敏.音频文件格式WAVE的转换[D].南京:东南大学无线电工程系,2005.

[6]张庆双,姜立华.农业电子技术应用电路集萃[M].北京:机械工业出版社,2005.

[7]姜志海,黄玉清,刘连鑫,等.单片机原理及应用[M].北京:电子工业出版社,2005.

语音控制系统 篇11

规格方面,今天正式发布的那刻魔镜大小为180x180mm,厚度为9.2mm,适合悬挂或者桌面放置等。据那刻CEO称,那刻未来还将推出其他三种不同尺寸的镜子门厅镜、浴室镜和穿衣镜,这些镜子的工程版在发布会现场进行了展示。

功能上,那刻魔镜可以实现以往需要多次操作才能实现的场景,比如,连接其它智能家居设备,成为信息呈现和控制中心。说“魔镜魔镜”唤醒那刻魔镜后,你可以对已经连接上的其他智能硬件进行控制,比如插座、空调等等,但不要打开手机或者其他设备,而只需要语音告诉魔镜你的需要。那刻魔镜已经与QQ物联合作。

又比如,你不需要进行任何的操控,体验自然的交互方式,可视电话、消息接收、家庭相册……还有制作MV、定时闹钟等有趣功能。另外,对于不会使用智能产品的父母或者孩子,智能镜还能由其他家人进行遥控,降低了操作门槛。

据悉,穿衣镜将在4月推出,而其他两款会随后推出。而穿衣镜还藏着创始人连接电商做大平台的野心。

更正,因工作失误,2014年百佳产品奖丽讯D966HD配图错误,特此更正。

低端商务投影机由于亮度、对比度等性能参数较低,因此只适用于小型办公室、会议室等场所,而Vivitek(丽讯)D966HD高亮度、高对比度的特点打破了小型场所的使用限制。它具备4200流明的高亮度、10000:1的高对比度,分辨率最大可达到wuXGA(1920x1200)级别,这种亮度和对比度的“双高”规格可以满足画面的高要求,轻松实现投射出最大300寸大画面,令商务活动的投影效果更加清晰震撼,是大型会议室、阶梯教室、中小型工程的不二之选。此外,Vivitek(丽讯)D966HD商务投影机应用了“极致色彩”技术和智能7色调节功能,用户可单独对红,绿,蓝,青绿,洋红,黄,白7种色彩的色调、颜色饱和度和增益进行单独调节,寻求最佳色彩状态,因此即使在明亮环境下的投影画面也十分出众,色彩饱满对比鲜明。

除了高亮度高对比度的出众性能,Vivitek(丽讯)D966HD商务投影机在功能方面也拥有出色表现。D966HD将3D技术应用于商务领域,支持全方位3D功能,使用户在商务活动和会议中也能体验3D立体效果带来的更具真实感的画面。此外,Vivitek(丽讯)D966HD配备了全密封光机、全密封色轮的密封环境,可杜绝粉尘、烟雾等侵入机器核心区域,确保投影机可以在任何使用环境下都能投射出高品质影像,完美应对多尘、烟雾等复杂特殊的使用环境。

嵌入式语音识别系统研究 篇12

1 系统硬件平台

系统硬件以S3C2410为核心,配以外围语音模块、通信模块、存储模块、电源模块等,如图1所示。

1.1 微处理器的选择

嵌入式语音识别系统通常以高性能的微处理器和DSP为双核来构成,也可以高性能的微处理器为单核来构成,应根据实际需要来选择,对于孤立词、小词汇量识别系统用单核就能胜任了。微处理器一般采用ARM9或ARM11,ARM11的性能要比ARM9强很多,当然价格也贵很多,应根据系统的性能要求来选择微处理器,一般的识别系统采用ARM9就能够完成 了。ARM9处理器的 类型很多 包括AR M926EJ-S、ARM946E-S、ARM966E-S、ARM968E-S、ARM996HS、ARM920T和ARM922T。Samsung公司S3C2410A处理器是一款低功耗,高性能的小型处理器,有助于嵌入式系统的成本控制。S3C2410A采用了ARM920T内核,0.18umCMOS工艺,内部集成了内存管理单元(MMU), 支持WinCE,EPOC 32和Linux等嵌入式操作系统,支持多种总线接口。1通道IIC总线可进行8位串行双向数据传输,标准模式下数据传输速度可达100kbit/s,最高可达到400kbit/s;1通道音频IIS总线接口,可基于DMA方式工作;兼容2通道SPI协议2.11版。时钟频率为200MHz,最高可达266MHz[2]。

1.2 外围电路

1.2.1 语音芯片

UDA1341TS是Philips公司生产的专用语音处理芯片,能对语音信号进行程控放大、内插滤波、DAC滤波、支持IIS音频接口,具有DSP处理能力, 因此,UDA1341TS是嵌入式语音识别系统的首选语音芯片。此外,Infineon公司生产的SDA80D51语音芯片也是不错的选择。

1.2.2 存储芯片

S3C2410微处理器内置的内存容量较小,要运行Linux或WinCE需要扩展内存,通常采用SDRAM芯片。SDRAM (Synchronous Dynamic Random Access Memory),即同步动态随机存储器。它是一种动态存储器,即信息是存放在MOS管的寄生电容上的,需要定时刷新。它的主要特点是成本低、容量大、速度快(存取时间小于10ns) 被广泛应用于嵌入式系统中。SDRAM芯片大多数是8位 /16位数据宽度,而ARM9是32位的,因此需要通过位扩展的方式将SDRAM芯片扩展成32位的。例如可将两片16位64MBytes的SDRAM芯片(HY57V561620)扩展为32位64MBytes的。系统运行时首先将启动代码从闪存复制到SDRAM中,此外系统运行时产生的临时数据、变量、堆栈也都存放在SDRAM中。

FLASH存储器(闪存)是嵌入式系统的另一种重要的内存芯片。Flash Memory和SDRAM不同, SDRAM是挥发性的存储器,即断电后上面的信息全部丢失,所以SDRAM存储器需要刷新电路不断刷新,以保持上面的数据,而flash memory是非挥发性存储器,即断电后信息仍然能保存(能保存10年以上)。目前闪存主要有两种类型,Nor Flash和Nand Flash,Nor Flash采用并行数据传输方式,因此存取数据速度快,Nand Flash采用串行数据传输方式,因此存取数据速度慢,但Nand Flash占用系统的端口少,为了节省系统资源,通常都采用Nand Flash来构成。嵌入式操作系统和识别算法代码都存放在FLASH存储系统中。

1.2.3 通信接口电路

S3C2410A支持RS-232串行接口,RS-232采用负逻辑,即高电平(+5V~+15V) 为逻辑0,低电平 (-5V~-15V)为逻辑1,而系统板是采用正逻辑,因此需要电平转换芯片,常用的电平转换芯片有MC1489、MAX232、MC1488等 ,MAXIM公司生产 的MAX232应用最广泛。

2 系统软件平台

常见的嵌入式操作系统主要有Windows CE、Vxworks、NetBSD、pSOS、Rtems、QNX、Linux等[3]。其中Linux最受嵌入式工程师的青睐,Linux的优点: (1)完全免费,开放源代码,这样设计人员可以通过网络免费获得,并可以通过简单的改造就能获得自己需要的操作系统;(2)支持多用户、多任务,各个用户可同时开发,互不影响,多个应用程序能同时并独立地运行;(3) 支持多种硬件平台,支持x86、ARM. ALPHA. SPARC,MIPS等硬件平台。

2.1 系统软件设计思路

在目标板上建立Linux系统,通常可分四步进行[4]:(1)确定系统的组件配置。(2)创建系统内核。 (3)创建根文件。(4)设置引导软件。嵌入式系统是资源受限的一个微型系统,存储空间通常都不大,因此一般都采用交叉编译的方式进行开发,即将Linux开发工具、引导程序、系统内核都安装在宿主机 (HOST)上,然后在目标板(TARGET)上运行。

2.2 系统引导文件 BootLoader

BootLoader的作用类似于PC机的BIOS,在Lin- ux内核运行之前先由BootLoader将系统的硬件设备初始化,建立内存空间映射表,将系统环境设置在一个合适的状态。BootLoader的启动过程分两个阶段, 第一阶段:进行宏定义,初始化一些常量、变量,设置中断向量表,初始化硬件、寄存器、堆栈;第二阶段: 调用初始化函数,加载系统内核,设置启动参数。常用的BootLoader引导文件有:U-boot、armboot、blob、vivi等[5]。

2.3 linux 向 ARM 处理器的移植

一个完整的嵌入式Linux系统主要由Linux内核和根文件系统组成。由于嵌入式系统的存储空间有限,因此需要将标准的Linux内核进行瘦身并重新配置,然后编译生成内核映文件。Linux的根文件系统可直接复制拷贝到NANDFLASH中。

3 识别算法

语音识别算法有:动态时间规整(DTW)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、人工神经网络(ANN)、支持向量机(SVM)等。嵌入式语音识别系统主要为孤立词或小词汇量的识别系统, 同时它是个资源受限的系统,因此,识别算法的选择在识别精度满足要求的前提下应尽可能简单。动态时间规整 (DTW)和隐马尔可夫模型(HMM)是嵌入式识别系统最常用的两种识别算法。

3.1 动态时间规整(DTW)

动态时间规整(DTW)将时间规整和距离测度结合起来的一种非线性规整技术, 它成功地解决了语音信号发音长短不一的模板匹配问题。它实质上是用线性方式来描述在时间上或空间上是非线性的两个序列之间的相似度的一种算法[6]。对于孤立词系统,DTW识别原理为:首先用部分语音信号进行模式匹配训练得到最佳匹配模板;然后将未知语音帧与全部参考模板进行相似度计算, 距离最小的参考模板即为识别的结果。

3.2 隐马尔可夫模型(HMM)

HMM是一个双内嵌的随机过程,一个描述状态的转移,另一个描述状态和观察值之间的统计关系[7]。而人类的言语过程也刚好是一种双重随机过程,因为语音是听得见的(可观察的),但它的产生是由人类的大脑根据思维状态(不可观察的)、及语言知识、语法规则决定的。因此,HMM模型非常适合对语音信号建模。HMM是基于统计概率的分离器模型,其特点是系统的扩展性好,即可任意增加新样本,只需对新样本进行训练,而不需要对所有的样本进行训练,因此适合小词汇量的嵌入式语音识别系统。HMM识别原理:首先语音信号经过分帧、加窗、端点检测等预处理;然后进行特征参数提取,特征参数有:线性预测倒谱系数 (LPCC) 、美尔频倒谱系数 (MFCC)等;最后用维特比(vietrbi)算法进行识别。

4 结束语

上一篇:建筑工程中的节能环保下一篇:体育美学发展