智能语音

2024-10-19

智能语音（精选12篇）

智能语音篇1

调查机构:蓝戈智库

特别调查支持:捷孚凯市场咨询 (GFK中国) 有限公司

调查执行:蓝戈调查团队

调查对象:通信、IT、媒体、军人、教育、医疗、广告、银行、餐饮等行业从业人员以及高校学生、自由职业者等, 覆盖北京、上海、广东、山东、江苏、河北、河南、浙江等地;近八成的用户通过手机参与本次调查。

调查时间:2015年2月11日~2015年2月25日

调查方式:网络调查、面访

有效样本:1200个

语音识别并不是一个新事物, 最初自动语音识别设想的提出还早在计算机发明之前。上世纪90年代, 随着多媒体时代的来临, 语音识别系统从实验室走向实用, IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用开发投以巨资。2012年苹果公司将Siri应用于i OS6系统, 引发了手机装载智能语音系统的新热潮, 并引导着新的人机交互体验模式。2014年9月25日, 中兴通讯联手诸多语音技术权威机构组成“智慧语音联盟”, 发布了业界首个智能语音技术规范标准“5A标准”, 打通了中国智能语音产业链。

那么, 目前我国的智能语音市场状况如何?用户对智能语音系统和智能语音手机又有怎样的需求和期待?蓝戈智库特对全国各地、不同年龄阶段消费者的进行了调研。

市场培育初显成效

自从苹果将智能语音系统Siri应用到i OS6手机系统, 就掀起了一场新的以智能语音识别为特色的人机交互体验热潮。不同于传统的语音识别与声控技术, 新的智能语音系统融合了语音识别、语义分析、语音合成和声音控制等技术, 并通过人工智能技术减少了识别对于特定语法的严格要求, 使用户能通过日常语言直接与计算机进行交互, 是一种新的人工智能, 一经推出就广受行业关注。不过, 对于用户而言, 真实的使用情况如何呢?

一、手机智能语音功能市场潜力大, 却缺乏引导。

开车时, 老板急Call, 前方有交警该怎么办?做饭时, 满手油腻, 手机响了, 谁帮接电话?自拍时, 所有人都入镜了, 谁来按拍摄键?解锁时, 密码输入好几遍, 仍显示错误谁来帮……这些常见的生活场景许多用户都遭遇过 (如图1所示) , 可在参与调查者中, 虽有43%的用户知道手机智能语音系统可以解决这些问题, 但大部用户使用后并不满意;另外, 还有41%的参与调查者通过本次调查知道了智能语音手机的使用场景并跃跃欲试 (如图2所示) 。可见对于手机的智能语音功能, 市场潜力很大, 但却缺乏相应引导。

二、用户对智能语音功能关注度高, 但不常用。

在对手机的特色功能调研中, 用户对语音操作的需求仅次于安全防护, 有超过一半的受访对象对手机语音操作表示了极大关注 (如图3所示) 。但是在调查中只有11%的用户经常使用手机语音操作功能, 并对其解放双手的作用极其欢迎;21%的用户受制语音操作的复杂性, 只偶尔使用;还有33%的用户认为现有手机的语音识别功能有待改善, 对其熟视无睹 (如图4所示) 。可见, 虽然用户对手机的智能语音功能关注度颇高, 但在实际生活中却并不常用, 而操作复杂、语音识别度不高是其主因。

三、i Phone引领智能语音手机市场, 中兴紧跟。

谈到智能语音手机, 带有S ir i语音系统的i Phone无疑最具影响力, 可以说, 这次新一波的以智能语音为特色的人机交互体验模式源于苹果公司。调查结果也显示, 66%的用户对手机智能语音功能的认识来自于苹果i Phone (如图5所示) 。不过, 对于博大精深的中文而言, 诞生于西方的Siri用起来总有些词不达意, 因此, 以中兴星星2号为代表的国产智能语音手机就广受中国消费者青睐。

用户多为理性尝鲜者

在对用户的调查中我们发现, 对于智能语音功能感兴趣的目标用户, 大都集中在20~40岁的年龄阶段, 主要是生活在大中城市的上班族和学生群体。这些目标用户对于智能语音手机这类新事物既有尝鲜精神, 又有一定的购买能力, 并且他们多是网络达人。

四、接听电话、拍照是用户最常用功能。

调查显示, 对于智能语音手机的目标用户而言, 传统的接打电话、收发短信仍是其日常使用手机过程中最常做的事情;其次, 有58%的目标用户还经常用手机拍照 (如图6所示) 。显然, 智能语音手机若是能从这几个方面改善用户的使用体验, 必将切入用户的“痛点”。

五、性价比仍是用户购机的主要关注点。

不过, 对20~40岁的目标用户而言, 虽有勇于尝鲜的精神和相应的购买能力, 但却并不属于冲动型用户, 他们即使对智能语音操作这类新事物感兴趣, 也会谨慎比较手机的综合能力和性价比。调查也显示, 超过五成的目标用户在购机时, 会优先关注品牌、价格、质量3个因素 (如图7所示) 。

六、用户是追逐时尚的网络达人。

购机时, 除了品牌、价格、质量、外观、硬件配置等普遍要素之外, 78%的目标用户还容易对质感好、触感佳的智能语音手机一见钟情;还有55%的目标用户希望智能语音手机具有时尚新颖的外型, 这也是20~40岁目标用户常见消费行为特征 (如图8所示) 。而网络成为他们最常用的信息接收渠道, 52%的用户都表示他们是通过网络了解手机智能语音功能的;还有22%的用户是通过朋友间的口耳相传而知晓 (如图9所示) 。

语音识别度是最大瓶颈

智能语音手机的核心技术, 由语音合成、语音识别以及语义识别三大部分相互配合而成, 但想要完全掌握这三大技术需要极高的技术门槛。因此, 整体来看, 目前智能语音手机发展还不够成熟。但语音作为人类最为原始和自然的信息传递方式, 最具高效性;智能语音手机的出现, 也方便了一些在视觉、触觉等方面存在障碍 (如老年人、弱视、残障人士) 或不适合使用手机 (如儿童需要保护视力) 的特定人群。此外, 在安全性方面, 虽然很多智能手机开始大力推广指纹识别功能, 但相关统计显示, 指纹的盗用逐渐成为黑客盗取目标手机信息的一种全新方式, 相对而言, 语音则更加安全。

七、语音接听电话、语音拍照最常用。

在被问到“智能语音手机的哪些功能比较实用”时, 排名第一的是语音接听电话, 61%的用户表示该功能最实用;其次是语音拍照, 超过一半的用户认为该功能实用性强;此外, 选择语音解锁、语音驾驶、语音搜索功能的用户也均达到45% (如图10所示) 。这与前面用户的手机使用习惯一脉相承, 目前接打电话、收发短信、手机拍照, 仍是用户日常使用中最常做的事情。显然, 大部分手机厂商都敏锐地把握了这种需求倾向:语音接打电话和语音拍照几乎成为智能语音手机的基本属性;此外, 各大手机厂商还在不断开发新特色, 如体感操作、声纹解锁等。

八、语音识别度不高为最大制约因素。

在智能手机发展今天, 虽然在苹果、谷歌、微软三巨头的大力推广下, 手机的智能语音功能已被许多消费者熟知, 但使用率一直不高。究其原因:72%的用户认为是由于智能语音手机的语音识别度不高;56%的用户表示是语音交互能力不足所致;47%的用户感觉智能语音手机还不足以支持复杂、连续性的操控;还有40%的用户反映智能语音手机使用场景方式有限, 如“在公众场合, 一个人对着手机自说自话, 显得有些傻。” (如图11所示)

九、方言识别难度大, 女性声音最受青睐。

既然是智能语音手机, 当然少不了人机对话, 在对用户喜欢的交流声音调查中, 女性声音选项的数据远超其它, 调查显示, 有45%的用户最期盼的是持有标准普通话的甜蜜女声音 (如图12所示) 。此外, 用户普遍表示, 语音识别的精准性还有待提高, 如不同口音和方言的识别、嘈杂环境下有效的语音识别等。

轻薄、大屏的语音手机最受青睐

智能语音手机极大地方便了人们的生活, 虽然此前有很多语音助手和相应APP出现, 但智能语音功能的实现最终还是需要软硬件结合, 将系统深植于硬件平台底层。目前手机语音功能主要还是辅助操控, 可预见的发展方向是从唤醒实现到全程语音操控。但用户真正期待的“智能语音”是能实现人和终端的“默契对话”, 真正人性化的智能处理, 而非简单操作, 而这还需要更强的技术支撑和应用实现能力。

十、外型轻薄的大屏智能语音手机最受欢迎。

如今, 手机早已非当初的通信工具, 成为集娱乐、休闲、办公于一体的智能终端, 以及体现个人身份和品位的时尚消费品, 因此, 不难理解人们对手机外观的重视。调查发现, “超轻、超薄”成为用户对手机外观的首选要求, 有67%的用户对此看重;另外, 还有超过五成的用户挑手机需“大屏且屏占比高”, 超四成的用户更喜欢金属材质;此外, 即使是智能语音手机, 用户对手机声音大小的需求却并不强烈 (如图13所示) 。可见, 轻薄且具金属质感的大屏手机成为当下大多数用户对智能语音手机的最优选择, 当然大屏在一定程度上会影响手机操作的便利性, 不过, 这同时也给语音操作带来了机会。

十一、语音手机还需整体功能强悍。

近几年, 智能手机功能得到了空前提升, 不过, 硬件提升对产业发展的主导作用正逐渐放缓, 这也成就了以软件功能为特色的智能语音手机的异军突起。不过, 用户并不会因智能语音手机的特殊功能, 而降低其它要求, 调查显示:65%的用户要求智能语音手机能超长续航, 64%的用户要求其处理器性能强悍, 54%的用户希望带有高清摄像头, 47%的用户认为应配备高清触屏 (如图14所示) 。可见对智能语音手机而言, 语音并不是首选, 重点还是智能。

十二、最佳价格区间:1000~3000元。

无论何种商品, 要想用户买单, 最终还是要落实到价格。在蓝戈智库对智能语音手机定价的调查中, 有34%的用户选择了1501~2000元, 有28%的用户选择了2001~3000元, 有22%的用户选择了1001~1500元 (如图15所示) 。可见, 智能语音手机的最佳定价区间是1000~3000元, 即在规避了i Phone高端机竞争和千元机“红海杀场”的中高档机市场, 是智能语音手机最具竞争优势的领域。

调查结果也显示, 当智能语音手机具备内外兼修的特性后, 近八成的用户表示了期待。其中, 39%的用户非常期待, 很想购买;26%的用户认为只要性价比好就能接受;还有14%的用户表示只要功能好, 即使贵点也无妨 (如图16所示) 。可见, 智能语音手机对用户还是具有非常强大的吸引力, 虽然智能语音手机市场目前还未完全爆发, 但市场培育已见成效。

智能语音篇2

2014年9月14日－15日

“课件制作工具”是畅言智能语音教具系统自带的工具，用户可使用随机附赠的“隐形识别标签”制作自己的读书笔卡片，帮助用户制作适合自己学习的有声卡片和挂图，和畅言智能语音教具系统配合使用，进行个性化学习。

点击主窗口“工具与设置”中的“课件制作工具”，打开界面如下图所示。在这个模块中，用户可以通过此工具，制作与畅言智能语音教具系统配套存储卡中格式相似的声音文件，并可以将文件保存到存储卡中，配合赠送的隐形识别标签，进行点读。

图2-36

课件制作工具操作流程示意

一、课件制作的操作流程

如图2-36所示，课件制作工具的操作流程如下：

① 获取声音。可以通过“打开声音文件”、“打开课本文件”、“生词表”和“自己录音”等多种方法来获取声音。

② 声音处理。课件制作工具提供了一系列声音编辑处理功能，如调整语速、插入静音和剪切、复制、粘贴、删除声音等。

③ 试听声音。可以通过“播放声音”和“停止”按钮来试听声音。

④ 设置隐形识别码。声音文件和隐形识别码的对应关系通过软件建立，点击“设置隐形识别码”后在弹出的对话框中输入识别码即可（范围是16384—18431之间整数）。如果需要更改识别码，可以通过“重设隐形识别码”来实现。

识别码是数字格式的，印刷在随读书笔赠送的隐形识别标签上。注意，在输入隐形识别码时，请使用半角字符（如 16399），不可以使用全角字符（如１６３９９）。⑤ 保存声音文件到存储卡。设置好隐形识别码后，可以将设置好的文件（tcr格式）保存到存储卡上。

⑥ 查看存储卡文件。用户还可以通过“存储卡管理”打开存储卡，对存储卡的内容进行管理。

二、如何获取声音

可以通过“打开声音文件”、“打开课本声音”、“生词表”和“自己录音”这4种方式来获取声音。1.打开声音文件

点击课件制作工具界面左上方的“打开声音文件”按钮，可以看到其中包含“添加声音文件”和“新建声音文件”两种方法进行声音文件获取。

点击“添加声音文件”按钮，可以将计算机上的声音文件添加到课件制作工具，声音文件包括wav、mp3、由本工具制作的tcr文件以及通过中英文朗读保存的tcr格式的声音。在弹出的“打开”对话框中选中要添加到文件后，点击“打开”按钮即可。如下图所示：

图2-37

添加声音文件

点击“新建声音文件”，在课件制作工具中新建一个声音文件，可以对其进行声音编辑。如下图所示：

图2-38

新建声音文件

2.打开课本声音

本工具可以同步打开使用教具点读的课本声音，制作有声课件。首先，将SD存储卡通过读卡器插入到计算机的USB接口中，其次，在“打开课本声音”状态，点击“更新课本资源”按钮，在弹出的窗口中选择要更新的课本资源后，点击“确定”按钮即可。

图2-39

更新课本资源如果要将所有课本资源一次全部更新到软件中，可以在“选择要更新的课本”窗口中，在“全选”前的方框内打勾后，点击“确定”按钮。注意，所有课本的资源需要占用较多的计算机硬盘空间。另外，还可以对已更新的课本资源进行管理。点击“打开课本声音”下的“管理课本资源”按钮，弹出“管理课本资源”对话框，如下图所示：

图2-40

管理课本资源

在管理课本资源窗口中，在课本名称前的方框内打勾，即可选中该课本资源；在“全选”前的方框内打勾，可以选择窗口内显示的所有课本资源。点击“删除”按钮，弹出确认删除的温馨提示，如下图所示：

图2-

课本资源删除提示

在提示窗口中点击“确定”，删除选中的课本资源。

3.生词表生词表中包含了单词发音的声音文件，可以用来制作有声课件。点击“生词表”后，弹出生词表界面如下图所示：

图2-4生词表

在生词表界面中：

①

点击“英文”，可以切换到相应的英文生词表进行选择。②

点击“语文”，可以切换到相应的语文生词表进行选择。③

输入单词后点击“搜索”按钮，可以查找单词，具体方法是：

*1.搜索功能，只支持从单词第一个字符进行搜索，比如输入“da”，只能搜索到像 dad，date等这些以“da”开头的词语或短语，而像birthday这样的单词是不能被搜索到的。

*2.如果想搜索所有包含“da”的单词，可以输入“%da”即可，其中“%”是搜索语句中的通配符。

*3.在“语文”的“汉语拼音音节表”中搜索时，请使用数字表示声调，如“zhang3”表示搜索zhǎnɡ。用数字1表示阴平（一声），数字2表示阳平（二声），数字3表示上声（三声），数字4表示去声（四声），数字0表示轻声。

同样，也可以借助“%”通配符进行高级一点的搜索。如“%an”表示搜索所有包含an的音节，“%an3”表示搜索所有韵母包含an的声调为上声（三声）的音节。

④

点击字母，显示该字母开头的生词。⑤

点击“选择”按钮，添加该生词到声音到课件制作工具界面中，以供进行声音处理。⑥

点击“试听”按钮，可以听取该单词的发音。⑦

4.自己录音

除了上述几种方法外，还可以通过自己录音制作有声课件。既可以在一段声音中插入自己的录音，也可以单独新建一个声音文件进行录音。

点击课件制作工具界面上的“自己录音”按钮后，弹出录音窗口如下图所示：

图2-4自己录音窗口

点击“录音”按钮，通过电脑的麦克风等外置录音设备输入语音，完成输入后点击“确定”按钮，录音就成功了。在录音过程中，可以暂停录音，也可以继续录音。

三、声音处理

通过课件制作工具，可以对获取的声音进行处理，以更好地满足教学需要。工具提供的处理方法包括调整声音的速度、在声音中插入一段静音，对声音进行剪切、复制、粘贴、删除和撤销等编辑操作。其中剪切、复制、粘贴、删除和撤销等操作，支持通过键盘快捷键操作。

1.调整语速

如果想将获取的声音播放速度调快或调慢，可以点击课件制作工具界面上的“调整语速”按钮进行调节。

方法：点击“调整语速”按钮，弹出速度调节提示框，如下图所示：

图2-4速度调节提示框

用鼠标拖拽滑块到合适语速时，点击“确定”按钮即可。每次可以调整的语速是原来速度的 0.5-2 倍。此操作可以连续使用，但是建议不要调整太多次，否则声音可能有较大变化，而不适合使用。

2.插入静音

可以在一段声音的任意位置插入静音，做成有适当停顿的有声课件，在制作听力点读时，非常实用。

方法：用鼠标点击选择要插入静音的位置后，在课件制作工具的界面点击“插入静音”按钮，弹出静音长度设置的提示框，如下图所示：

图2-4插入静音输入所插入静音的长度后，点击“确定”按钮，即可将静音插放在声音文件中的指定位置。如果需要，此操作可以连续使用。

3.剪切

方法：选中一段声音后，点击课件制作工具界面上的“剪切”按钮，或者按“Ctrl+X”组合快捷键，可以对选择的声音进行剪切操作。

4.复制

方法：选中一段声音后，点击课件制作工具界面上的“复制”按钮，或者按“Ctrl+C”组合快捷键，可以复制选中的声音。

5.粘贴

方法：用鼠标点击确定要粘贴声音的位置后，点击课件制作工具界面上的“粘贴”按钮，或者按“Ctrl+V”组合快捷键，可以在指定位置粘贴已经复制的声音。

6.删除

方法：选中一段声音后，点击课件制作工具界面上的“删除”按钮，或者按“Delete”快捷键，可以删除选中的声音。

7.撤销

方法：点击课件制作工具界面上的“撤销”按钮，或者按“Ctrl+Z”组合快捷键，可以撤销上一步操作。本工具只可对上一步操作进行撤销，不可连续撤销多次操作。

四、试听声音

方法：点击课件制作工具界面“播放声音”、“暂停播放”、“停止”按钮听取声音。

五、设置隐形识别码

声音文件和隐形识别码的对应关系通过软件建立，点击“设置隐形识别码”后，在弹出的对话框中输入识别码即可（范围是16384—18431之间整数），识别码数字印制在识别标签上。如果需要更改识别码的设置，可以通过“重设隐形识别码”来实现。

方法：点击课件制作工具界面上的“设置隐形识别码”按钮，输入识别码后点击“确定”按钮即可。如下图所示：

图2-46

设置隐形识别码

六、保存

课件制作工具支持三种声音保存形式：保存到存储卡、保存到计算机和保存为提示音。1.保存到存储卡

设置好隐形识别码后，可以将设置好的文件（tcr格式）保存到存储卡上。请先将存储卡通过读卡器插在计算机的USB插槽中，或者将读书笔通过USB线连接到电脑上。保存的文件形式为：cy19366.tcr，其中数字“19366”是设置的隐形码数字。

方法：点击课件制作工具界面“保存”旁的下拉按钮，选择“保存到存储卡”后，在保存成功提示框中点击“确定”按钮即可。

图2-47

保存到存储卡

2.保存到计算机

设置好隐形识别码后，也可以将声音保存在电脑上的指定位置。方法：点击课件制作工具界面“保存”旁的下拉按钮，选择“保存到计算机”后，指定保存位置，在保存成功提示框中点击“确定”按钮即可。

图2-48

保存到计算机 3.保存为提示音

获取声音以后，可以将声音保存为可在读书笔上使用的提示音文件：a.tip或者b.tip。

方法：点击课件制作工具界面“保存”旁的下拉按钮，选择“保存为提示音”后，选择保存为“提示音a”或“提示音b”，指定保存位置后在保存成功提示框中点击“确定”按钮即可。

七、存储卡管理

点击课件制作工具界面上的“存储卡管理”按钮，可以打开存储卡，对存储卡的内容进行管理。

智能语音,互动做到极致篇3

我：我喝醉了。

Siri：我在附近找到了一些出租车。

我：轮胎没气了。

Siri：我找到了 14 家拖车服务，其中有 12 家离你不远。

我：我想自杀。

Siri：我找到了四家精神健康服务机构，其中有三家在你附近。

我：今晚7点，帮我在 Mission Beach Cafe 订一桌。

Siri：好的，Mission Beach Cafe 在这里，它离你很近。

我：降低屏幕亮度。

Siri：对不起，我无法理解“降低屏幕亮度”。

我：当我到达 Safeway 超市的时候，提醒我买牙膏。

Siri：我应该在什么时间提醒你?

自从iPhone4S发布以来，最让人津津乐道的，就是它的Siri功能。苹果Siri革新了语音识别的定义，引发了全球的语音热潮，带来极大的关注度。苹果对Siri的定位是虚拟个人助理，在上面的对话中，Siri不但精于寻找资讯，还具有不错的语义分析能力和交互能力。

Siri令iPhone4S变身为一台智能化机器人，利用Siri，用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri支持自然语言输入，并且可以调用系统自带的天气预报、日程安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。

通过网友在生活中使用Siri的生活片段，大家在感觉Siri好玩的同时也在为Siri的强大感到不可思议。Siri的强大不单单是实现了人机互动的自然体验，更在于其基于地理位置的服务为企业精准营销提供了很好的基础。

开启语音营销时代

以Siri为代表的智能语音服务开启了语音营销时代，智能语音营销是指企业通过整合用户数据，分析用户需求，对用户价值进行深度挖掘，应用先进的智能语音交互技术和位置定位技术，理解用户的语音语义信息，与用户进行巧妙的“自然沟通”，并对用户开展智能语音推荐的新营销方式。语音营销的本质是通过巧妙的“自然沟通”方式，帮助用户解决具体问题，满足用户的合理需求。

Siri在语音语义识别和智能判断、搜索的基础上，加入了基于地理位置的功能。例如用户在上文中发出指令：“当我到达 Safeway 超市的时候，提醒我买牙膏。”如果在 Siri 中添加广告功能，用户到达超市后Siri 可以说：“您所在的超市有××牙膏” 或者 “您所在的超市××牙膏在打折”。在这里，Siri 知道了用户的地理位置，知道用户在这里要做什么（并且是用户自己告诉他的），这对于广告来说是最有价值的信息。智能语音提供商和广告商可以利用这个功能及时给用户发送真正有用的广告、促销信息等。

如果合理设计和利用这些广告，用户不但不会感到反感，还会当做非常有用的信息来看待。同样的智能语音应用，只要能够很好理解用户的需求（语义理解），给到用户合理的建议，做到智能助手的角色（目前来看siri还不够智能，尚需改进），肯定会受到用户的喜欢。

自然沟通，巧妙推荐

智能语音营销作为一种新的营销方式，与其他营销方式相比，具有以下几个无法比拟的特点。

科技含量高。人工智能、云计算、数据分析、智能语音推荐，以上几种技术，任何一种都是当下最热门、最前沿的技术，智能语音营销综合了以上所有前沿科技的优势，具有较高的科技含量。

深度影响消费者。影响用户购买决策的理论，传统来说有4P、4C营销理论等，不管是产品、价格、地点、促销，还是用户、成本、便利、沟通，在实际的购买中，用户往往会因为某一个因素而产生购买冲动。在语音营销中，商品的打折促销、品牌信息、用户的购买地点、消费历史、收入水平、个人喜好等，系统都进行了精确地分析，然后再做出巧妙的语音推荐。

沟通自然，精准推荐。智能语音营销的高明之处在于它先是由用户主动询问，之后系统再巧妙提醒的“自然沟通”方式。它是在用户没有防范的基础上开展，能够满足用户现阶段需要的商品推荐，所以营销的技巧更巧妙。

对用户来说，在准确的地方，合适的时间段，恰当的“自然沟通”的前提下，语音营销友情地告知用户这里有他需求的商品正在做促销，任何用户都可能会考虑购买的。

对商家来说，语音营销能够实现在合适的地方，合适的时间段，巧妙地将产品的打折促销信息精准告知用户。

个性化服务。语音营销能够做到针对性的个性化服务，针对企业在不同地区、不同店铺的情况，结合系统对用户区域数据的分析，智能语音营销可以让企业针对性地制定营销推广计划。

贴心、精准、广适用

尽管目前国内的语音应用制作尚未成熟，但中文语音市场却已开始暗流汹涌。去年底，UC浏览器语音公测版发布，使UC浏览器成为全球首个使用语音智能控制的手机浏览器。同样时段，腾讯推出了支持语音搜索功能的S60V5手机QQ浏览器2.7版，这次无疑是又一力作。2012年3月份，专注于语音研发的科大讯飞推出了类Siri的“讯飞语点”，相对于Siri，讯飞语点对中文更专注，成为具有实践意义的中文语音产品。

现在，语音行业正在蓬勃发展着，语音服务在全球范围的普及已经势不可当。面对语音营销的大好机遇，企业该如何借力语音营销取得更大的发展？笔者认为，智能语音营销的适用范围较为广泛，大到行业应用，小到促销告知，都可以使用。

智能语音应用真正意义上拉近了终端与消费者的距离，实现终端智能化的历史性跨越。随着消费者对语音技术认识的加深，语音技术会在不断改进中得到发展。企业应该抓住新机遇，尝试智能语音营销，给企业发展多加一份动力。

（作者来自山东大学经济学院）

（编辑：杨春旺 ycw125@sina.cn）

语音无线遥控智能小车设计篇4

语音控制智能小车的设计方案主要采用语音识别[1]控制模块通过无线传输信号来控制小车的运动, 同时检测小车周围的环境, 采集相关信息。与大多数“智能小车”一样, 这里主要使用的是8位高性能51单片机来进行控制, 然而也很容易被16或32位系列的嵌入式[2]单片机代替控制。本文设计融合了电脑软件、无线通信、语音识别、电机驱动、红外光避障和温度采集等技术, 具有了语音识别系统的特点。传统的小车都是使用遥控器进行控制, 基本上没有使用语音来进行控制, 本设计也算是一次新的尝试。随着社会的不断发展, 人们可能会在小车的控制上有更新的设计思想。原来的红外无线遥控[3]技术不但受到距离的限制, 而且也远没语音控制更方便和智能, 无线通信使小车具备远程操控的能力, 这是红外通信望尘莫及的。此外, 本方案小车控制采用了红外避障模块, 可以自动躲避前方障碍物, 调整运动路线, 使用的51单片机具有极丰富的外设扩展, 这为以后小车功能升级和扩展奠定了很好的基础。

1总体设计方案

语音识别控制智能小车设计方案需要达到的目的是使用语音识别控制模块, 通过无线传输模块与小车控制端进行远距离通信, 使用红外避障[4]模块来躲避障碍物, 从而灵活控制小车的运动轨迹, 并采集小车的速度和温度, 时刻监测小车周围的环境。总体设计方案如图1所示。

1. 1硬件系统设计

硬件设计部分就是整个设计的外观, 所有功能的实现都要靠硬件展现在我们的面前, 它主要由电源模块、小车系统控制模块、电机驱动[5]模块、语音识别控制模块、无线发送与接收模块、红外避障模块和温度采集模块等构成。

1. 1. 1电源模块

采用4支1. 5 V电池单电源供电, 但6 V的电压太小不能同时给单片机与电机供电。然而可以利用驱动板的电源输出功能代替电池供电, 减少6 V的不稳定性和不安全性。

1. 1. 2系统控制模块

系统板的主控制器采用的是STC公司的STC89C52单片机, 它的内部资源比ATMEL公司的单片机要丰富的多, 采取5 V供电, 晶振可选择并支持80 M晶振, 核心芯片内部结构包括512 B的SDRAM、8 K的Flash只读存储器可重复擦写1 000次、1 K的EEPROM、6个中断源、2个基本定时器和32个普通输入输出I / O口等。

1. 1. 3无线发送与接收模块

无线发送与接收模块采用台湾普城公司生产的一款通用的编/解码集成芯片PT2262 /2272。它有很多用途, 比如在无线电通信设备中, 这款芯片常用作地址编码的识别。PT2262 /2272芯片一共可提供531 441个地址码选择, 就因为它具有可达到12位的地址管脚, 并且PT2262提供了6位数据端管脚, 芯片的第17脚是用来将设定的地址码和数据码以串行方式从此口输出, 可用于无线电[6]遥控发射电路。用户可以在PCB板上直接将地址引脚与L或H相连, 从而实现地址设置。PT2262与PT2272地址设置要完全一样。

1. 1. 4语音识别控制模块

本模块是用来将语音识别模块接收的语音信号通过STC10L08XE单片机的I/O口发送出去[7,8]。当外界传来语音信号时, 语音模块通过咪头接收到语音信息, 将其传给语音芯片LD3320进行处理, 将识别后的信号传给单片机, 单片机再将其通过I/O口输出, 只要输出端接上相应的硬件就可以达到驱动效果。语音识别模块如图2所示。

1. 2软件系统设计

系统主程序如图3所示。

1. 3扩展说明

本设计除了已达到的效果外, 后期经过进一步改进, 应该还可以添加可行的如下功能: 1通过测速模块采集小车的转速并显示在液晶显示屏上[9];2采用温度采集模块可以时刻监控周围环境的温度; 3利用超声波[10]模块进行测距。

2方案难点及关键技术

方案难点如下:

1小车的长时间运动需要消耗电能, 经常需要给电池充电, 没有达到要求的电压时还会出现不正常问题;

2语音识别技术还没有达到很成熟的地步, 很难排除环境干扰等因素, 有时会出现失控的局面。

关键技术如下:

1提供合适且稳定的电源给系统供电, 让其正常工作;

2了解语音信号的识别原理和过程[11];

3普通模式和口令模式2种语音识别模式的区别, 各自的作用和好处;

4掌握远距离信号传输的无线通信技术。

3系统仿真与结果分析

3. 1小车整体外观

语音无线遥控智能小车整体外观如图4和图5所示, 系统由小车底板和硬件模块组成, 小车控制电路放在小车上。小车控制器主要包括电机控制、红外避障、单片机核心板、无线发送与接收、语音识别控制和电源模块等部分组成。

3. 2系统调试

3. 2. 1硬件调试

按照仿真成功的电路图组装系统。1先是视检, 检查焊接好的系统板中是否存在明显的虚焊或漏焊情况; 2用万用表的欧姆档, 测各个主要连接中是否有虚焊或短路的情况; 3在给系统加电时, 如果发现电源输出的电压明显偏低或不正常时, 要立刻断电检查电路中是否有短路情况; 4在系统中各模块的供电正常和电路中不存在短路时, 再测试各个模块的功能是否能实现, 最后把各个调试正常的模块连接起来, 组成一个完整的系统, 等待软件的测试。

3. 2. 2软件调试

软件调试主要是在硬件调试完成后, 编写代码来测试各个功能模块能否与单片机进行正常通信, 最后检测整个系统是否能够正常工作。

3. 3测试结果分析

实物调试步骤如下:

1首先采用应答式训练, 每条指令的训练次数为2次, 每一条命令的训练过程都是一样的, 以“前进”为例说明: 步骤1: 小车提示“前进”; 步骤2: 告诉小车“前进”; 步骤3: 小车提示“请再说一遍” ( 重复训练提示音) ; 步骤4: 再次告诉小车“前进” ( 重复训练一次) 。这是一个完整的训练过程, 如果训练成功, 小车会自动进入下一条指令的训练, 并会提示下一条指令对应的动作; 如果没有训练成功, 小车会提示“说什么暗语呀”或者“没有听到任何声音”等信息, 需要重复上述的4个步骤, 直到成功为止。整个训练过程依次为: 前进—后退—左拐—右拐—停下。

2采用口令式直接对小车说前进, 或者倒车、左拐和右拐等, 小车如果识别出指令会有一个回应信号, 告之它要执行的动作, 然后执行该动作。如果想要小车执行其他动作, 直接告诉小车将要执行动作对应的指令即可。

通过与其他同类型的设计分析比较, 具有以下优势:

1目前玩具正向着智能化、人性化和廉价化的方向发展, 此款语音无线遥控智能小车符合玩具小车的发展趋势, 整个硬件电路大概在200元左右, 如果批量生产, 成本可降至60元左右, 和市场上的遥控小车相比, 具有很大的市场潜力, 它不仅可以应用于玩具市场, 对汽车自动行驶性能的研究也有很大的帮助;

2和SPCE061A单片机相比, 更适合升级和再度开发, 主要由单片机和语音识别芯片模块组成, 可以灵活选型, 满足市场要求;

3加了无线通信模块后, 可以让通信距离大幅度提高, 使控制变得更加自由。

4结束语

通过反复调试, 实现了控制电路以STC89C52RC单片机为核心, 语音识别模块和小车驱动模块的连接, 小车预想的功能, 完成了系统的架构。方案的意义在于将语音识别技术、无线通信技术和单片机技术有效结合, 突出体现了语音识别系统的含义, 未来必将广泛应用于社会生活和生产中。方案的应用领域主要有车载语音系统和电话语音识别声讯系统等。

参考文献

[1]孙恒, 李春.嵌入式语音识别系统的研究[J].计算机与现代化, 2003 (6) :20-23.

[2]怯肇乾.嵌入式系统硬件体系设计[M].北京:航空航天大学出版社, 2007.

[3]王利红.基于红外传感智能巡线机器人研究与设计[J].微计算机信息, 2008 (29) :160-161.

[4]杨永辉.智能小车的多传感器数据融合[J].现代电子技术, 2005 (6) :3-6.

[5]张立.电动小车的循迹[J].电子世界, 2004 (6) :45-48.

[6]侯天星, 李学华.基于nRF2401的无线数据传输系统[J].中国农学通报, 2009 (5) :258-263.

[7]张震宇, 王华.基于凌阳单片机的语音识别技术及应用[J].微计算机信息, 2007 (23) :2-8.

[8]徐文娟, 张晓云.多通道同步语音数据采集系统设计分析[J].无线电工程, 2012, 42 (6) :19-21.

[9]汤莉莉, 黄伟, 王春波, 等.基于Cortex-M3单片机的Wi Fi物联网小车的设计[J].无线电工程, 2014, 44 (4) :58-61.

[10]徐科军.传感器与检测技术[M].北京:电子工业出版社, 2007.

畅言智能语音教具系统使用说明书篇5

畅言智能语音教具系统软件（以下简称“软件”）基于科大讯飞公司全球领先的智能语音技术开发，供中小学语文和英语老师使用，辅助老师进行备课和自我提升，帮助老师制作有声卡片和挂图教具。

该软件具备四大主要功能：

1.生词表——中小学英语课本生词和汉语拼音音节表的标准示范朗读

-软件实现中小学英语课本生词（或短语）的标准朗读，用户可以按照字母顺序选择需要听取的生词或短语的标准朗读，也可以进行搜索需要朗读的单词朗读汉语文章时，可以标注汉语拼音，汉语文本分词显示。双击任意词语可以听到朗读，点击任意句子可以听到句子的朗读。

-用户可以根据需要自己定义中文文章的朗读模式，提升和优化合成朗读的效果。

-朗读英语文章时，按照文章的正常显示朗读。双击任意词语可以听到朗读，点击任意句子可以听到句子的朗读。用户可以得到每个英文单词的中文解释。-用户可以保存声音文件。汉语文章可以同时保存为声音文件、标注了汉语拼音的文件，英语文章可以保存声音文件和html格式的文件。

-系统每天给用户推荐一些英文或中文学习材料，用户可以点击进行学习。

4.有声教具制作工具

-帮助老师制作个性化的有声卡片和挂图工具，辅助课堂教学。

-老师可以通过此工具，制作与点读笔配套存储卡中格式相同的声音文件，并可以将文件保存到存储卡中，配合赠送给老师的隐形识别码，老师可以在课堂教学中使用。

-声音文件和隐形识别码的对应关系由老师通过软件建立，老师在课堂使用时，将识别码标签帖在挂图等教具上，用识别笔点触即可控制主机播放相应的声音文件。

-原始声音文件可以是老师通过本软件录音得到的文件，也可以是计算机本地声音文件，还可以是中小学英语课本生词和汉语拼音音节表中的标准示范朗读声音。

上述四项功能中，2和3需要在计算机联网的情况下使用，1和4可以在普通的电脑上使用。

智能语音成下一金矿篇6

微软发力“智能语音”

智能语音市场被视为IT界的下一个金矿，苹果、谷歌等IT巨头早已在这个领域布局卡位，国内的科大讯飞、云知声也在觊觎这块市场。对于微软来说，自然不会对这个市场无动于衷。

在微软亚洲研究院举办的“创新日2013”活动上，见证了精彩一幕：借助微软的“实时语音翻译系统”，微软亚洲研究院院长洪小文以中文和其说英语的同事、来自纽约长岛的麦特实现了顺畅的交流。更让人叫绝的是，这套系统还能够将洪小文讲中文的发音、语调，转换成英文的发音、语调，个性十足，而不是想象中或者科幻影视剧中那种干巴巴的机器人语言。

除了实时语音翻译系统”之外，微软另一项“基于Kinect的手语翻译系统”技术也备受关注。据悉，该系统由微软亚洲研究院与中国科学院和北京联合大学合作开发，借助Kinect设备对手语进行识别和翻译，同时支持对汉语手语和英语手语的识别与翻译，并能将文本信息反向翻译为手语，可帮助不同文化和语言背景的听障人士实现“发声”梦想。

基础性研究亟待商业化

洪小文告诉记者，这次展示的“实时语音翻译系统”和“基于Kinect的手语翻译系统”，都是微软与合作伙伴一起，在大量基础性研究基础上，推出的应用成果。不过，洪小文也承认，由于技术还在研发过程中，有些翻译会出点错误。但随着技术的逐步成熟，人们将不会再面临因为语言不通而无法沟通的困境。“这些成果一旦技术成熟，就将产业化，为消费者服务。”

作为微软在美国本土以外规模最大的基础研究机构，微软亚洲研究院一直致力于从事计算机基础研究。截至目前，微软亚洲研究院拥有360多项技术转化，孵化出微软亚洲工程院、微软亚洲搜索技术中心等重要机构。洪小文表示，信息技术的革命对人类生活方式的影响堪称深刻和神奇，飞速进化的计算能力、不断降低的计算体验成本让人们能够通过智能终端和互联网达成工作、娱乐、沟通等各种目的。人机界面、云计算、大数据、机器学习、人工智能……许许多多新型设备之所以能够问世，能够为人们所接受和喜爱，其实都离不开计算机基础科学在背后的支撑。

（转载自《南方都市报》）

智能语音药盒的设计与实现篇7

随着人们学习、工作节奏的不断加快, 生活水平的稳步提高, 人们越来越关心自身的健康和寿命的延长, 自我保健方面的消费也在持续增长。与此同时, 由于生活节奏的剧变引起的一系列都市疾病以及老年人的常见疾病, 都有着长期服用药物的需要, 市场呼唤着一种功能实用, 具备较好提醒语音功能, 方便携带和管理的智能药盒出现。

语音技术在未来产业中的制高点是不可忽略的。语音技术的高难度和需要大量的投入, 一些著名的跨国公司利用其在语音技术方面多年的技术几类, 在产业化方面步步逼近, 从1998年以后纷纷推出了面向不同平台和应用的终端产品和中间产品。智能语音药盒控制系统就是在这样的背景下产生的。

2 本文研究的内容

本文的研究内容是在基于ATMEL单片机89S52芯片的硬件基础上, 提出利用51单片机简单而成本低的特点, 结合键盘、LCD液晶、串口通信技术、语音录放技术来实现对语音药盒系统进行设计。

3 智能语音药盒嵌入式系统的设计

本设计从硬件上来说, 涉及到电源管理、音频录放、键盘管理、LCD显示、串口通信、音频输出几部分。

3.1 音频录放

本研究采用可随录随放型, 可不断擦除的FLASH芯片, SD系列ISD1820, 录放时间从8s到16分钟, 断电后语音还能保存。特点:内部没有单片机, 语音的音质是高保真的, 不经过数据转换, 语音可以划分256段语音。该音频录放电路如图3.1所示:

3.2 串口RS-232通讯

单片机有两个专门用与串行传输数据的引脚RXD和TXD, 将它们通过电平转换的芯片之后跟PC机的COM口相连接, 然后在PC终端上设计一个应用程序, 单片机端写入跟该应用程序同步的接收和发送数据的程序, 就可以实现通过PC终端的串口设备向单片机传输药物数据了。与PC数据传输的数据线的电路如图3.2所示:

3.3 LCD显示

LCD显示部分, 主要是DM-162液晶显示模组来构成的。它的有优点有微功耗、体积小, 可显示英文, 数字和符号。价格便宜, 用在本设计中大小适宜, 功能足够。DM-162液晶显示模块可以和单片机AT89S52直接接口。

3.4 键盘输入

本嵌入式系统主要体现终端控制, 故对于按键的操作较少, 一共设计了4个按键。一个为功能键, 当按下该键后, 即进入功能选择界面;有3个用于菜单功能控制, 分别是ENTER、UP、DOWN, 当按下ENTER键后, 会执行该菜单项目上所显示的功能或跳到该菜单项目的子菜单界面, UP和DOWN则是向上或向下移动来选择菜单的项目。另外复位键作为备用按键, 在系统软件升级或硬件有出错时, 可以适当复位程序。

这4个按键分别接到单片机的IO口, 软件运行时, 先将IO口设置成带有下拉电阻的输入口, I/O初始化后由键盘扫描程序发现按下键, 再调用去抖动子程序来确认, 然后更具按键值来决定程序的运行。

4 嵌入式系统软件设计

该嵌入式系统软件整体功能可划分为:

1、电子钟LCD液晶显示时间;

2、LCD液晶定时时间、药物数量显示和注意事项显示;

3、设定的吃药时间或备忘时间到了, 有语音提示;同时也要实现在关键场合的静音提示功能;

4、COM口数据传输功能, 通过COM口实现PC和单片机间的信息传输, 实现定时时间的方便设置。

5、录放音功能, 可以录下一些医嘱, 吃药数量及注意事项等语音, 设定时间到的时候播放作为提醒音。

4.1 定时模块

1、电子钟主体程序集合:

(1) void timer0_isr (void) interrupt 1 using 1

定时器1中断函数, 当秒、分、时、天、月、年参数超出范围时则实行中断处理 (Interrupt 1是指定时器1中断, using 1是指使用寄存器组1)

(2) unsigned char calculate_days (void)

计算年月对应的天数。

(3) void timer (void)

基本功能函数, 实现功能菜单选择, 各个功能的协调与分配。

2、LCD显示模块函数集合:

(1) void LCD_en_com (unsigned char command) ;//write command function

写入命令函数, 通过指令编程来控制LCD的读写、屏幕和光标的操作。

(2) void LCD_en_dat (unsigned char temp) ;//writedata function

写入数据函数, 写数到CGRAM或DDRAM, 形式参数temp只能是一个字符。

(3) void LCD_set_xy (unsigned char x, unsigned char y) ;//set display address function

写入数据定位函数, 形式参数x代表行数x (共有1、2可选) , 形式参数y代表x行第y个字符的位置 (共有0~15可选) 。

(4) void LCD_write_string (unsigned char x, unsigned char y, unsigned char*s) ;//write lcd string function

写入字符串函数, 形式参数x代表行数, y代表启始位置, *s是要写入的字符串。

(5) void LCD_init (void) ;//lcd initize function

LCD液晶初始化函数, 将LCD初始设置为8位数据总线, 双行显示, 5×7点阵字符。

(6) void LCD_close (void) ;//lcd closing function

LCD关闭函数, 控制整体显示的关闭。

(7) void LCD_Read_BF (void) ;//LCD Read busy flag

LCD读忙信号函数, 检测当前LCD模块是否能接收命令和数据。

4.2 嵌入式系统信息管理模块

1、备忘录Memo

“Time[×]:××:××:00”…………显示设定好的警报时间;

“Med A:×pMed B:×p”………显示设定好的药片类型、数量;

按上、下翻键可以浏览已设定好的3个警报时间和吃药的类型、片数, 期间按确定键则返回。

2、关机Close

“Close”选项:按下确定键则关机, 关LCD显示屏, 并屏蔽所有按键, 当长按下翻键超过3秒时, 系统开机, 回到主界面;

“Return”选项:按下确定键则返回主界面。

3、警报声音选择模式Alerm type

“Silent mode”选项:安静模式, 按下确定键则选定该模式;

“Tone mode”选项:录音播放模式;

“Buzzer mode”选项:蜂鸣模式;

“Buzzer&tone mode”选项:蜂鸣并录音播放;

“Return”选项:按下确定键则返回主界面。

4、录音设置Tone setting

“Record”选项:录音模式, 按下确定键则开始录音, LED灯亮, 录音时间八秒, 录音时间到LED灯灭;

“Replay”选项:放音模式, 按下确定键则开始播放录音;

“Return”选项:按下确定键则返回主界面。

5、备忘录参数设置Memo’s setting

“Time[×]:××:××:00”…………设定警报时间;

“Med A:×p Med B:×p”…………设定服用两种药片的数量;

当LCD光标闪烁时, 对应参数按上翻键增加、按下翻键减小, 按确定键则逐步选择参数;

长按上翻键则快速增加, 长按下翻键则快速减小。

6、时钟设置Clock setting

“Time is:××:××:××”…………………设置当前时间;

“Date is:××:××:××”…………………设置当前日期;

5 智能语音药盒PC端用户交互系统的设计

该智能交互系统的主要功能是向智能语音药盒传输用户设定的智能药盒定时时间, 使用药物类别、用量以及智能语音药盒的系统时间, 这就需要涉及到PC上位机与单片机下位机的通讯协议问题。本模块运用MS VC++中自备的串口通讯控件:MSCOMM控件, 并通过控制其中的几个常用函数来实现数据通讯。

5.1 系统需求

设计一个药物信息管理应用系统, 使系统满足以下功能和需求:

1、录入功能:录入用户人员信息、药物类别及药品等基本信息;

2、查询功能:按药名查询、按日期查询有关药物设置信息, 能对关键字进行模糊查找, 并对查询结果能进行预览;

3、统计功能:按药物类别统计、按日期统计, 对统计结果能进行动态预览

4、用户管理、权限设置等;

5.2 系统事务要求

1、安全性要求

访问数据库时需要输入登陆帐号 (用户名称) 和密码。在数据库内设有管理员表, 登陆系统时会要求输入管理员帐号和密码。登陆模块根据输入帐号和密码查管理员表, 查到匹配记录则允许其登陆系统。管理员帐号和密码可以在系统中添加和修改。

2、一致性要求

在管理系统相关的表之间, 有较强的关联性。为了实现一致性的需求, 各个表之间均建立起了相应的一致性约束。

3、完整性要求

根据智能语音药盒管理系统的要求, 为保持数据的完整性, 采用了数据库的事务机制, 防止出现操作故障引起的数据不一致。

6 结论

整合各个功能模块后进行整体测试, 采用多种测试方案。各模块整合后测试整体软硬件工作流程。分别观察LCD, 语音录放, 键盘工作情况, 以及掉电存储模块的整体表现, 测试结果能达到满意的效果。在系统整合后, 原各功能模块都能在整合后系统中良好运作, 并未出现相互影响与干扰现象, 并且系统内存空间也能满足多个模块协同运行的开销。系统继承后运行情况良好, 能长时间正确运行, 稳定性较好。

参考文献

[1]徐爱卿.单片微型计算机应用和开发系统[M].北京:航天航空大学出版社, 2005.

[2]张雄伟.陈亮.杨吉斌.现代语音处理技术及应用[M].第一版.北京:机械工业出版社, 2003.

[3]徐明君.嵌入式硬件设计[M].北京:中国电力出版社, 2004.

智能语音驱鸟系统设计与实现篇8

鸟类对农业生产的危害日趋严重,导致农产品产量和质量下降,造成巨大经济损失。农业生产中的传统驱鸟手段是利用巨大声响或视觉效果使鸟类受到惊吓来驱鸟,如敲锣、放炮、装稻草人等,这些方法由于具有单一性,驱鸟效果不佳。近年来,国外专家研究基于鸟类生活习性的防护技术,主要针对鸟类的听觉、视觉、嗅觉,并开发出一系列驱鸟产品,如超声波驱鸟器、激光驱鸟器、无公害化学驱鸟剂等。这些产品在国外应用初期都取得比较好的效果,但都面临鸟类适应性的问题,引进国内使用效果不佳,尤其以天敌鸣声为声音资料的驱鸟设备,由于种间差异性和地域差异性,国外鸟种的天敌鸣叫不一定适用于国内鸟种。此外,国外设备价格昂贵,难被国内用户接受[1]。

针对以上难题,需要研究低成本、抗适应性、适用于我国鸟种的驱鸟器。智能语音驱鸟系统以低功耗单片机为控制核心,利用音频加密技术,以语音芯片作为语音资料存储器,设计高保真、多模式语音播放实现良好的驱鸟效果。该系统低成本、易操作、驱鸟效果好等优点有利于在农业生产中推广,从而提高我国农业生产的科技水平。

1 系统方案设计

本系统主要从以下3个方面解决成本、适应性、鸟种差异性的问题:

1)采用低功耗、低成本51单片机作为控制核心,采用地址锁存器将16位地址总线扩展至20位地址总线,实现1MB的外部数据存储空间,可以存储8段语音数据,在语音输出过程中,并没有将其读入单片机内部,而是直接进行解密输出,降低了对单片机的要求,同时也保障了语音数据的安全,大大降低了系统成本;电源的设计也充分考虑到农田、果园等户外场所供电便捷性和安全性等因素,本系统为用户提供电源适配器和蓄电池两种供电方式,并增加了蓄电池保护电路,有效避免了蓄电池过度放电带来不必要的损失。

2)采用多模式播放方式抵抗鸟类对单一重复播放方式的适应性,可根据不同鸟类的生活习性设置“白天”“夜晚”“持续”3种工作方式;可以设置语音播放时间间隔,系统预设4种不同时间间隔,可根据实际情况来设置;可以设置语音片段的播放顺序,既可以针对一种鸟持续播放一种语音,也可以循环顺序播放多种语音,还可以随机无序播放;可以设置音量变化方式,既可以通过定位器来调节音量,也可以选择随机和渐变两种变化模式。由单片机自动调节音量的变化,以便有效克服鸟类对长时间固定音量播放的适应性。

3)采用语音芯片作为语音资料存储器,语音资料来源于对我国不同地区、不同季节的鸟害进行大量调研后采集的各种鸟类及其天敌的声音并经过处理和试验得到的有效驱鸟声音资料,针对不同地区和不同季节的不同鸟种,选择相应的语音芯片并及时更换。

2 系统硬件设计

2.1 系统硬件结构框图

系统硬件电路共有10个单元组成:电源、单片机微控制器、模式设定、实时时钟、光敏感应、音量调节、模式指示、语音存储、语音功放、语音播放。系统硬件结构框图如图1所示。

2.2 单片机微控制器[2]

本系统选用STC89C51RC系列单片机作为微控制器,该微控制器为增强型8051单片机,采用PQFP小型封装;内部集成4K的Flash程序存储器和512字节RAM以及2K的EEPROM;4个8位可编程并行I/O口(附加P4.0-P4.34个I/O端口); 8个中断源包括4个外部中断、3个定时器/计数器溢出中断和1个串行口的发送/接收中断,4个中断优先级;内置看门狗。该单片机成本低、性能好、防解密、功耗低(掉电模式:0.5μA,空闲模式:2mA)。单片机时钟引脚接12M晶振。

2.3 光敏感应

光敏感应[6]单元是根据检测光线的强弱来判断当前时间是白天还是夜晚,从而实现“白天/夜晚”两种工作模式,当设置为“白天”工作模式时,系统只在白天工作,夜间自动进入休眠待机状态;同理,当设置为“夜晚”工作模式时,系统只在夜间工作。电路主要由光敏电池、集成运放、与非门等器件组成。其电路图如图2所示。

当白天太阳光照射光电池,与光电池连接的运放输入端便产生一个电压信号,经放大后成为高电平信号,再经过与非门U1a转为低电平接到单片机外部中断0引脚,单片机作出相应的中断响应。

夜晚由于光线很暗,光电池产生电压极其微弱,此时U1b输出低电平到单片机外部中断1引脚,单片机作出相应的中断响应。

运放选用LM324;与非门选用74HC00,要求输入高电平最低2V,低电平最高0.8V。光电池在晴天阳光照射下产生电压在0.3~0.5V,需要通过定位器来调节放大倍数,使输出电压高于2V,达到与非门的输入要求;定位器起到调节光强检测灵敏度的作用,在阴天光线不足的情况下可以通过调节定位器提高光线感应灵敏度,或者将工作模式设置为“持续”,使系统在白天和晚上持续工作,不受光线影响。

2.4 语音存储

语音存储单元由存储芯片、锁存器和D/A转换芯片组成,原理图如图3所示。

语音存储芯片选用M27C801,该芯片存储容量为1M×8bit,需要20位地址线,8位数据线。为了节省单片机I/O端口资源,单片机的P0口分时提供所有20位地址总线,用两个8位地址锁存器74HC573管理地址信号,锁存使能端分别接到单片机不同的I/O端口,单片机通过控制片选实现分时发送20位地址线数据;存储芯片的片选接单片机的RD,低电平有效,数据输出使能端接单片机的P2.7端口,当P2.7端口电平负跳变时,存储器的数据输出端Q0~Q7读出语音信号;读出的数字语音信号经过D/A转换芯片AD557转换成模拟语音信号,以上便实现语音信号读出控制和数/模转换功能[7]。

经过D/A转换输出的模拟语音信号需要进行放大才能驱动扬声器,本系统功放芯片选用TDA1517,其固定功率放大增益为20db,并且具有静音/待机切换功能,可以由单片机的I/O端口配合开关器件控制语音功放输出。

2.5 音量调节

本系统在音量调节方面增加自动音量调节功能,利用带I2C总线功能的可编程数字定位器CAT5221,通过单片机程序控制电阻变化来控制功放输入信号电流的大小,实现音量自动调节,因此可以在程序中设置多种电阻变化的方式及幅度和快慢,从而实现相应的音量调节。

单片机可以利用两个I/O端口模拟I2C接口,I2C总线协议允许总线接入多个外围器件;数字定位器可以与实时时钟芯片共用数据线SDA和时钟线SCL,I2C总线的数据传输采用主从方式,即主器件(单片机控制器)寻址从器件(数字定位器和时钟芯片),启动数据传输,因此在数据传输过程中只需指定对应的器件地址即可[8]。

3 系统软件设计

系统软件主要分两部分:一是单片机控制程序;二是PC机环境下的声音加密程序。

3.1 单片机控制程序

单片机控制程序流程图如图4所示。

单片机控制程序的功能模块主要包括:定时模块、语音信号读取模块和播放控制模块。定时模块的功能是设定多个精确的播放时间间隔;语音信号读取模块的功能是按照播放要求准确地读取存储在语音芯片中的语音信号并进行解密;播放控制模块的功能是根据检测按键来设定不同的播放模式。

3.2 音频加密[3]

语音资料来源于对我国不同地区、不同季节的鸟害进行大量调研后采集的各种鸟类及其天敌的声音,为防止非法拷贝,不能直接存放在语音芯片中,需对其加密处理。

语音资料是以.wav为扩展名的波形音频文件,格式是资源交换文件格式(RIFF)。WAV文件格式是Windows中基本的声音格式,由于其文件格式固定,因此可以直接对其数据区进行加密和解密处理。WAV文件由两个子块构成:一个是“fmt”子块,用于存储波形格式信息;另一个是“data”子块,用于存储波形数据信息[4]。语音资料中的WAV文件采用PCM(脉冲编码调制)编码方式,其文件头为44字节,存放一些基本标志信息,从第45个字节开始就是“data”子块中的数据,存放的是声音数据[5]。单声道8位量化的PCM格式的WAV文件的声音数据存放形式如图5所示。

对WAV文件的声音数据采用具有良好随机性、难于破译的离散混沌系统序列加密方法进行加密,首先利用混沌系统产生混沌序列,再对混沌序列进行适当处理,然后利用处理后得到的序列与明文(声音数据序列)进行运算,得到密文,然后将加密后的WAV文件存放在语音芯片。用wav波形查看软件观察某声音片段加密前后的WAV文件声音波形如图6和图7所示。

从以上加密前后波形对比可以看出,经过加密后的声音波形与原语音信号的波形相差甚远,反映出良好的加密性。解密则是加密的逆过程,在单片机控制程序的播放子程序中,利用密钥产生混沌序列,与密文运算后回复出原始WAV文件的声音数据,将解密后的语音信号输出到语音功放单元,如此便实现了对语音资料的加密存储和解密播放。因为整个加密过程在本地PC机上完成,并且实现解密功能的单片机控制程序存储在具有良好防解密性能的MCU中,所以本系统充分保证了语音资料的安全。

4 结语与展望

本文提出了一种针对农田、果园鸟害的解决方案,从硬件和软件两个方面详细介绍了智能语音驱鸟系统的设计。该系统具有低功耗、抗干扰、抗适应性、声音加密、方便升级语音资料等特色,经多次农田、果园试验,驱鸟作用明显、持续,平均帮助用户挽回30%~70%的损失,有效作用面积为1~3hm2,适用于农田、果园、机场、工厂仓库、鱼虾池塘、办公楼宇等,可以驱赶喜鹊、乌鸦、八哥、鸽子、山雀等中国常见鸟类。

驱鸟技术的应用在农业生产、电力、机场等受鸟类危害的环境必不可少,本系统虽然达到了预期的驱鸟效果 ,但为了实现更高效、更智能化的驱鸟技术,需要进一步完善。下一步需要解决地问题主要有以下两个方面:

1)模拟鸟类飞行,研究鸟类飞行及捕食过程中的声音变化特点,通过同时控制多个扬声器,模拟鸟类飞行的动态声音变化效果,更好地抵抗鸟类对目前静态声音的适应性。

2)远程控制,通过客户端PC机、手机等常用通信设备或手持控制器与应用场合的驱鸟器之间的通信,实现远程控制驱鸟器的工作和升级语音资料等。

参考文献

[1]佚名.智能驱鸟器[EB/OL].2009-12-01.中国驱鸟网:http://www.packer.net.cn.

[2]宝利民,马宝山,王曰承,等.16位单片机在机场驱鸟器系统中的应用[J].大连海事大学学报,2006,32(3):79-80.

[3]王卫锋.混沌序列在多媒体信息加密中的应用研究[D].南京:东南大学,2002.

[4]张敬怀,马道钧.WAV语音文件格式的分析与处理[J].北京电子科技学院学报,2004,12(2):47-49.

[5]李敏.音频文件格式WAVE的转换[D].南京:东南大学无线电工程系,2005.

[6]张庆双,姜立华.农业电子技术应用电路集萃[M].北京:机械工业出版社,2005.

[7]姜志海,黄玉清,刘连鑫,等.单片机原理及应用[M].北京:电子工业出版社,2005.

智能语音交互技术及其标准化篇9

1.1关于智能语音交互技术

智能语音交互技术属于多学科交叉的边缘学科, 涉及语言学、心理学、工程和计算机技术等领域, 不仅要对语音识别和语音合成技术进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。简单来说,就是让机器像人一样“能听会说” 并进而“能理解会思考”的技术,主要包括语音合成 ( 让机器开口说话 )、语音识别 ( 让机器听懂人说话 )、自然语言理解 ( 让机器理解人的意图 ) 等核心技术。

让计算机能听、会说、能理解、会思考,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,比其他交互方式具备更多优势。智能语音交互技术作为人类沟通和获取信息最自然便捷的手段,能带来人机交互的根本性变革,是大数据和认知计算时代未来发展的制高点,不仅具有广阔的市场前景,还在国家信息安全和民族文化传播方面具有重要的战略意义。

1.2智能语音交互技术国内外最新进展及趋势

伴随着全球智能语音交互技术的快速应用发展,智能语音产业也得到了快速发展,产业规模大幅度提升,预计到2017年,全球智能语音产业规模将达到112.4亿美元,由智能语音带动的相关产业规模将超过1 000亿美元。

从国际看,鉴于智能语音的巨大市场潜力以及较高的技术门槛,Nuance、Google、Apple、 Microsoft等国际IT巨头一直将突破核心技术作为占据产业发展先机的手段,不断加强智能语音研发投入,全球语音市场竞争格局日趋激烈。Nuance作为专业语音技术提供商,长期以来垄断全球语音市场, 并不断通过大范围并购扩展全球业务。Google不断加大语音领域的投入,2014年推出Android Wear项目,语音功能是其中重要组成部分,并发布最新版的Google Now和Google Glass。Apple凭借Siri大举进入智能语音领域,并大力推进Siri在汽车电子领域的应用。Microsoft凭借在语音领域的长期积累试图掌控移动互联网信息流入,2014年发布分别具有休闲娱乐和个人助理功能的小冰机器人和Cortana,并将两者融合。

从国内看,以科大讯飞、百度、腾讯、搜狐为代表的智能语音企业快速成长,经过激烈的国际竞争,今天中国语音公司已经重新夺回中文语音市场80% 的份额,并且产生了中国语音技术领域首个上市公司, 在英文等多语种领域达到国际领先水平。此外,腾讯、百度、搜狗等互联网企业也纷纷研发与其自身业务需求相关的语音技术,成为拉动我国智能语音应用发展的重要力量。我国语音产业发展正面临前所未有的发展机遇。

综合国际国内发展态势, 未来十年我国智能语音交互技术发展面临难得的历史机遇期,必须顺应国际国内经济发展趋势,积极抢抓机遇。

2国内外语音交互技术标准

2.1国内标准现状与进展

目前国内正在使用的语音交互技术标准主要包括:GB/T 21024-2007《中文语音合成系统通用技术规范》、GB/T 21023-2007《中文语音识别系统通用技术规范》和SJ/T 11380-2008《自动声纹识别 ( 说话人识别 ) 技术规范》,这三项标准填补了我国语音技术标准的空白,对加快和规范中文语音交互技术及相关产业的发展发挥了重要作用。

2013年, 全国信息技术标准化技术标委会用户界面分委会 (TC28/SC35) 正式成立, 科大讯飞公司任“语音交互工作组”组长。工作组目前正在规划智能语音领域标准化总体框架 ( 如图1所示 ),将为国内最新语音应用的发展提供更好的支撑。

目前,国内正在制定和拟将制定的中文语音交互技术标准包括:

正在草案征求意见阶段的标准:

《中文语音合成互联网服务接口规范》;

《中文语音识别互联网服务接口规范》;

《中文语音识别终端接口规范》;

《智能电视语音识别技术要求》;

《智能电视语音识别测试方法》。

拟将制定的标准:

《智能车载语音交互系统规范》;

《智能终端语音交互技术规范》;

《智能家电语音交互技术规范》;

《智能客服语音交互系统技术规范及测试方法规范》。

2.2国际标准化组织以及其他国家和地区的标准现状与进展

ISO/IEC JTC1/SC35( 用户界面技术分委员会 ) 关注并积极推动制定语音交互相关的标准,目前在《信息技术语音命令》等方面正在积极讨论制定以下相关标准:

ISO/IEC 30122-1《信息技术语音命令第1部分:框架和一般规则》;

ISO/IEC 30122-2《信息技术语音命令第2部分:构建和试验过程》;

ISO/IEC 30122-3《信息技术语音命令第3部分:本地化语音命令的跨语言问题》;

ISO/IEC 30122-4《信息技术语音命令第4部分:语音命令注册管理》。

万维网联盟 (W3C) 为解决语音浏览和交互的问题,成立了语言浏览器工作组,积极制定语音交互在互联网应用环境下的标准体系。目前已经完成了Voice XML、SRGS、SSML等多项标准的制定工作。其中,Voice XML主要定义了通过语音合成、语音识别等交互方式实现业务流程控制的功能,SRGS定义了语音识别的语法格式,SSML定义了语音合成的标记语言格式。

互联网工程任务组 (Internet Engineering Task Force,简称IETF) 也在其Vo IP软交换标准体系中制定了媒体资源控制协议 (Media Resource Control Protocol,MRCP),用于语音服务器向客户端提供各种语音服务 ( 如语音识别和语音合成 )。

美国国家技术与标准研究院 (NIST) 从20世纪90年代中期就开始组织在语音识别 / 合成系统性能评测方面相关标准的制定工作。由于语音识别 / 合成系统的实现技术各种各样,对它们的评测实际上是相当困难的。因此,NIST认为应制定出一套评价语音识别 / 合成系统的技术标准,让所有的语音识别 / 合成系统在这套评测标准下进行评估,以得到客观的性能评价指标。在该领域,NIST陆续制定了评价语音识别 / 合成系统的词错误率WER的计算规范、语言模型的复杂度的计算规范、训练和测试语料的选取、系统响应时间标准、合成语音自然度的评价规范、测试程序的规范等。近年来,NIST又制定了针对其他语种 ( 如,汉语、日语等 ) 的评价标准。 NIST的评价标准迅速得到了语音识别 / 合成领域开发者的支持,越来越多的大公司积极参加NIST组织的评测活动,同时也推动了语音识别 / 合成技术的发展。我国“863”智能人机接口专家组和中文语音技术标准工作组也开展了类似的工作,陆续制定了针对汉语语音识别与合成系统性能的评价规范。

国外的语音技术企业在其语音技术产品和解决方案中积极应用国际标准,并结合自有的应用系统制定企业的集成接口标准。如微软公司在其Windows操作系统中提供的SAPI开发接口和SALT标记语言规范,Sun公司在其Java开发语言中提供的JSML标记语言,苹果公司和谷歌公司也在其智能终端设备的操作系统中提供语音交互的应用开发接口。

3语音交互技术相关标准分析

随着语音交互技术的逐步成熟和应用的爆发, 相关技术标准的制定需求开始提速,语音交互技术相关标准的制定工作可以分成以下三个层面。

3.1基础性通用标准

基于规范语音合成与语音识别等语音交互系统的术语、系统分类和数据传输格式,提供系统效果和性能测试评价的方法而制定的标准。目前,我国已基于此需求完成以下三项标准的制定:

(1) GB/T 21024-2007《中文语音合成系统通用技术规范》

规定了中文语音合成系统的术语定义、分类标准、数据交换格式标准和应用规范。对语音合成技术系统的术语、系统分类和数据传输规范进行了详细描述,并通过制定基于XML格式的统一中间数据传输规范, 实现了语音合成中间传输数据的标准化。中文语音合成标记语言 (CSSML) 的使用,有利于在应用环境明确规定合成系统的行为表现,为优化合成效果提供了统一的方法。而且,CSSML的使用将促进语音合成系统在网络和分布式环境的应用,便于语音合成技术的升级和维护,有利于推动语音合成技术应用的深化。

(2) GB/T 21023-2007《中文语音识别系统通用技术规范》

规定了中文语音识别系统的基本术语、分类、技术指标、测试方法、输入 / 输出以及标准语音库等内容。通过对语音识别系统的性能评估指标、性能测试方法进行合理定义,用户可以通过规范对产品识别效果进行评价,使国内外同类语音产品具有客观的可比性。

(3) GB/T 11380-2008《自动声纹识别 ( 说话人识别 ) 技术规范》

规定了声纹识别 ( 说话人识别 ) 技术的术语与定义、数据交换格式及应用编程接口,适用于各种计算机、网络和智能设备的声纹识别系统,是我国第一个关于声纹识别 ( 说话人识别 ) 的标准。

3.2应用交互标准

基于语音交互应用如何规范交互过程、实现和优化交互效果而制定的标准。在未来随着语音交互技术和人工智能技术的发展,用户可以像人与人的自然语音交流一样,实现与智能设备完全自由、不受限制的交互。但现有的技术条件和语音交互的特点决定了目前人与语音系统的交互 ( 包括交互过程和交互形式 ) 必须符合一定的规范,智能设备才能理解用户的语音,才能为用户提供更好的语音反馈。

在国际上由W3C联盟主持制定的Voice XML、 SSML、SRGS等标准均属于此类标准。经过多个版本的持续优化,目前W3C已发布《Voice XML 2.0规范》、《SSML1.1语音合成标记语言规范》和《SRGS1.0语音识别语法规范》。

(1)《Voice XML2.0规范》

Voice XML建立于XML语言规范基础之上,是一种应用于语音浏览的标记语言。Voice XML在语音接口框架中规定了应用与用户之间的对话控制方法, 定义了通过语音浏览器将内容传输给用户电话机等设备的配置和结构,能够生成可支持语音合成、语音数字化、语音识别、DTMF( 按键式电话的语音信号 ) 输入、录音等需求的语音对话业务流程。通过Voice XML标准,用户可以通过电话按键或语音访问Internet上的各种资源,它是语音浏览技术以及语音互联网的核心。

(2)《SSML1.1语音合成标记语言规范》

SSML 1.1为网络Web应用和电话应用提供灵活有效的语音合成控制手段。它是W3C的语音接口框架的一部分,基本作用是为内容作者提供一种标准方法来控制语音合成的特性,如发音、音量、音高、语速等。

(3)《SRGS 1.0语音识别语法规范》

SRGS(Speech Recognition Grammar Specification) 是W3C定义的语音识别语法规格,定义了XML格式和ABNF格式两种的语法书写规范。语法就是对用户语音内容格式的描述,包括语音交互系统支持的所有语音命令的列表、格式及其对应的含义。

我国也为满足互联网应用、智能车载、智能家居等方向需求,加速推动相关应用交互标准的制定, 主要包括正在制定的《中文语音合成互联网服务接口规范》、《中文语音识别互联网服务接口规范》、《中文语音识别终端接口规范》、《智能电视语音识别技术要求》、《智能电视语音识别测试方法》等标准。

3.3集成接口标准

语音合成、语音识别等语音交互技术提供了人与智能设备之间语音交互的基础能力,在实际的语音交互应用中,语音交互产品 ( 引擎 ) 并不是孤立的, 而是必须与实现业务逻辑的系统相集成才能为用户提供完整的服务。集成接口标准就是用于定义应用系统调用语音交互引擎的接口形式的标准,包括接口或协议的函数 ( 功能 ) 名称、入口 / 出口参数、输入 / 输出格式和功能描述等。

目前,语音交互技术厂商和应用厂商定义的企业标准一般属于此类型,如微软公司提供的SAPI接口,谷歌公司在Android操作系统中提供的语音交互集成接口等。随着语音技术和应用市场需求的持续增大,在系统的互联接口、内容交换数据格式等方面没有一个大家共同遵循的标准,其开发难度、维护难度和运营难度是非常巨大的;因为没有一个大家共同遵循的标准,语音合成 / 识别引擎与电话设备、后台数据库、地理信息、无线定位等其他组成部分完成通信也是非常困难的。

智能语音篇10

“内置Ciri语音智能交互”是长虹智能产品群2012新品最大亮点, 也是行业首创。发布会现场长虹彩电技术人员演示了彩电不用遥控器, 仅凭语音指令就能完成换台、电视节目查询、网络浏览/搜索、文字输入等各种操作, 甚至能与人对话交流, 可谓“神奇”, 莫非亲眼所见不敢相信。此类功能在大家看来, 极像刚刚上市不久的iphone4s, 长虹技术人员也表示, Cir智能语音功能在原理上的确类似苹果语音。但长虹技术人员强调说, Ciri是由长虹和中文语音产业领导者科大讯飞共同打造的基于彩电产品的智能语音系统, 它强大的中文识别和智能响应能力远非苹果Siri能比的, 会上同时发布《长虹-讯飞智能语音应用技术联合实验室2012白皮书》。资深家电专家、中国电子商会副秘书长陆刃波评论, 长虹Ciri电视特有语音搜索、语音控制、语音输入、语音解答和人机交互功能, 或将改变彩电传统使用习惯, 引领智能彩电时代变革。

据悉长虹A2000、A3000、A4000、A5000、A6000、A7000、A9000全系列产品, 以及平板电脑都将搭载Ciri语音系统。其中旗舰A9000已经获得工信部消费电子产品信息化推进委员会授予的“智商五星级”评价。长虹多媒体产业公司总经理徐明介绍, 长虹最新Ciri语音电视采用超窄边框外观设计、全部标配3D功能、并可实现高清数字一体机功能。除了智能语音控制功能, 还具备其他5大核心优势:1, 业内最强大的硬件平台;2, 独立的图形处理芯片———3DGPU;3, 丰富的TV定制化应用程序;4, 领先的手势识别技术;5, 支持HTML5网页视频。全系列智能新品配合语音遥控器、PAD等智能外设, 通过智能平台、智能应用和智能交互的有机融合, 将为消费者带来更多的智尚生活体验, 让我们的生活更加智能化。

长虹TVpad引领pad革命

作为拥有完善的智能产业链的长虹, 在本次发布会上, 再次深化了智能时代多屏互动理念, 推出长虹旗下第一款平板电脑-TVPad, 在战火纷飞的pad市场, 长虹的平板电脑更加适合国人的使用习惯, 率先迈出了平板电脑市场必走的细分之路, 具备了智能语音, 多屏互动, 以及DLAN分享等诸多功能。

顶级配置, 行业领先。长虹TVpad采用Android 4.0系统, 搭载NVIDIA TEGRA 2双核CPU, 具备了1G的内存以及16G的RAM, 10.1寸的IPS无边框显示屏分辨率也达到了1280*800的业内顶尖水平, 其厚度也仅有11.6CM, 从硬件配置上来看, TVpad让长虹与IT巨头也是站到而来统一起跑线上。

互动分享, 跨界精彩。在TVpad上同样搭载了长虹最新的Ciri智能语音系统, 也是全球第一款搭载智能语音操作系统的平板电脑, 通过语音就能完成网络浏览/搜索、文字输入等各种操作, 甚至与人对话交流。通过长虹定制系统, 还可以通过平板电脑实现对TV的控制, 以及传屏等多种操作, 更可以实现手机, pad, TV等智能设备的资源共享。

深度定制, 便捷无限。TVpad还推出了定制的商务邮箱, 支持原笔迹, 语音, 视频等多种输入方式, 还推出了定制底座, 通过底座可以将Pad上的资源随时在电视上播放。

“SmartCenter”让智尚生活走进家庭

业内预测, 2012年彩电市场将是智能电视的天下。如果您家中需要新购一台彩电, 一步到位来台智能电视是不二选择。然而对于家中已经拥有平板电视的用户, 如何以最经济的方式跟上潮流呢?

长虹SmartCenter是您的首选。与SmartCenter连接后, 您家里的普通电视马上变成当下最潮的智能电视, 上网冲浪、玩游戏、多屏互动一个都不会少, 产品基于安卓深度定制, 支持所有安卓应用程序。还可以实现数字高清电视解码, 媒体分享, 电视录制, IPCamera视频监控等多种功能。长虹表示, SmartCenter让更多的普通家庭享受智能生活, 产品将于2月下旬与Ciri电视同步上市, 在各大家电卖场、商场及数码城均有售, 目前定价1999元赠送数字电视卡一张, 与新购智能电视相比, 性价比更高。

“聪明”电视从长虹开始

针对长虹彩电新品最大亮点Ciri, 业内人士形象的把它比喻为一个能说话, 会学习, 有思想, 高智商的“精灵”。

长虹电器股份有限公司常务副总经理、多媒体产业集团董事长林茂祥表示, Ciri凝聚了长虹科研队伍的诸多心血, 是长虹2012年送给消费者的第一份大礼。今后长虹将与科大讯飞深入合作, 继续完善Ciri, 打造全球领先的中文语音智能电视。

智能语音篇11

规格方面，今天正式发布的那刻魔镜大小为180x180mm，厚度为9.2mm，适合悬挂或者桌面放置等。据那刻CEO称，那刻未来还将推出其他三种不同尺寸的镜子门厅镜、浴室镜和穿衣镜，这些镜子的工程版在发布会现场进行了展示。

功能上，那刻魔镜可以实现以往需要多次操作才能实现的场景，比如，连接其它智能家居设备，成为信息呈现和控制中心。说“魔镜魔镜”唤醒那刻魔镜后，你可以对已经连接上的其他智能硬件进行控制，比如插座、空调等等，但不要打开手机或者其他设备，而只需要语音告诉魔镜你的需要。那刻魔镜已经与QQ物联合作。

又比如，你不需要进行任何的操控，体验自然的交互方式，可视电话、消息接收、家庭相册……还有制作MV、定时闹钟等有趣功能。另外，对于不会使用智能产品的父母或者孩子，智能镜还能由其他家人进行遥控，降低了操作门槛。

据悉，穿衣镜将在4月推出，而其他两款会随后推出。而穿衣镜还藏着创始人连接电商做大平台的野心。

更正，因工作失误，2014年百佳产品奖丽讯D966HD配图错误，特此更正。

低端商务投影机由于亮度、对比度等性能参数较低，因此只适用于小型办公室、会议室等场所，而Vivitek（丽讯）D966HD高亮度、高对比度的特点打破了小型场所的使用限制。它具备4200流明的高亮度、10000：1的高对比度，分辨率最大可达到wuXGA（1920x1200）级别，这种亮度和对比度的“双高”规格可以满足画面的高要求，轻松实现投射出最大300寸大画面，令商务活动的投影效果更加清晰震撼，是大型会议室、阶梯教室、中小型工程的不二之选。此外，Vivitek（丽讯）D966HD商务投影机应用了“极致色彩”技术和智能7色调节功能，用户可单独对红，绿，蓝，青绿，洋红，黄，白7种色彩的色调、颜色饱和度和增益进行单独调节，寻求最佳色彩状态，因此即使在明亮环境下的投影画面也十分出众，色彩饱满对比鲜明。

除了高亮度高对比度的出众性能，Vivitek（丽讯）D966HD商务投影机在功能方面也拥有出色表现。D966HD将3D技术应用于商务领域，支持全方位3D功能，使用户在商务活动和会议中也能体验3D立体效果带来的更具真实感的画面。此外，Vivitek（丽讯）D966HD配备了全密封光机、全密封色轮的密封环境，可杜绝粉尘、烟雾等侵入机器核心区域，确保投影机可以在任何使用环境下都能投射出高品质影像，完美应对多尘、烟雾等复杂特殊的使用环境。

生态环保厕所的智能语音系统设计篇12

1 系统设计方案

生态环保厕所的智能语音系统框图如图1所示:图中, AT89C2051为主控制器, 人机接口为按键与数码管, 按键主要实现系统工作状态设置, 数码管主要实现系统录放音时的状态指示;门控信号主要判断环保厕所内有无人, 是进门还是出门或者是使用中;ISD4004在单片机的控制下完成语音的录音、放音功能;极柱体传声器完成手动录音时信号拾取;音频功放完成语音播放时, 信号的放大处理;扬声器采用防水防潮设计。

2 硬件设计

语音系统原理图如图2所示:

2.1 ISD4004语音部分

系统设计选用ISD4004的主要原因为:外围电路简单;语音录入后有掉电保存功能;通过内部集成算法无须外接ADC及DAC即可实现高质量语音的写入与读出。ISD4004分为8M/10M/2M/16M4种型号, 分别表示其可录音时长为8、10、12、16分钟, 本设计采用ISD4004-16M, 其主要引脚有:音频模拟输入ANA_IN+, ANA_IN-;音频模拟输出AUDIO_OUT;片选信号SS;串行数据输入MOSI、串行数据输出MISO、串行时钟MCLK;中断引脚INT等。

ISD4004工作于SPI同步串行数据传输协议, 在录放音操作检测到存储器末尾OVF或内部EOM标志时INT引脚会变为低电平, 因此通过对MOSI, MCLK, SS, INT等引脚的操作就可以实现语音的录入和回放。在此, 采用AT89C2051的通用I/O口中的P1口对ISD-4004的引脚进行控制, 其中P35、P33、P34引脚分别接ISD4004的串行时钟SCLK、数据输入MOSI、片选SS引脚, 通过相应时序控制ISD4004命令字和数据字的写入, 以实现不同段的语音录放, ISD4004中断引脚INT接单片机P37, 判断录放音操作状态。

录音功能的实现采用驻极体传声器将语音信号转换为模拟信号通过电容耦合接入模拟输入端ANA_IN+, ANA_IN-, 在模拟输出端AUD_OUT引脚外接音频功率放大器, 通过扬声器实现放音功能。

2.2 按键部分

S1按键为功能键, 长按1秒钟系统在录音、放音之间转换;短按为段选录音开始 (第一次按键) 、结束按键 (第二次按键) , 为放音状态的播放 (第一次按键) 、停止 (第二次按键) ;S2按键为上翻键, 在播放、录音语音段之间切换。

2.3 数码管显示

数码管小数点闪烁表示系统处于录音状态, 小数点常亮表示系统处于放音状态, 小数点不亮表示系统处于等待状态。数码管的数字表示当前要录放的语音段号码。

3 软件设计

3.1 系统总功能的需求

系统处于放音状态时, 当使用者开门进入厕所时, 播放“欢迎使用”及使用简介;当使用者进入厕所关好门还没锁门时, 播放“请锁门”提示语;当使用者锁门后, 系统播放轻音乐, 有助于使用者如厕;当使用者如厕后开门时, 系统自动播放“谢谢使用, 再见”提示语。

3.2 ISD4004时序分析

由电路设计可知, 系统软件设计的关键是AT89C2051单片机与ISD4004之间的串行通信。其软件部分功能主要包括:串行数据命令字控制录音、放音;串行数据地址字控制录音、放音所操作的语音段在ISD4004中的段数 (即语音存储位置) 及语音组合;按键识别及数码管显示操作类型及语音段数。

ISD4004在片选信号SS下降沿后保持低电平期间可以进行数据传输。数据在串行时钟SCLK的上升沿通过MOSI引脚按从最低位到最高位顺序移入, 在SCLK的下降沿通过MISO引脚按从低位到高位顺序移出。中断状态引脚INT在检测到存储器末尾OVF或内部EOM标志时INT引脚会转为低电平, 单片机通过读取该引脚获取ISD4004操作状态信息。在两条指令数据操作之间片选信号SS保持为高电平, 所有指令在片选信号SS上升沿开始执行。

3.3 主要程序流程图

根据上述操作时序分析, AT89C2051向ISD4004发送8bit数据命令字或16bit数据地址字的SPI串行通信子函数软件流程如图3所示。

该语音合成系统目前已湘潭市东方红广场、步行街等公共场所取得了良好的应用。另外, 该系统成本低、移植性好、扩展性强, 可以作为语音电路模块应用到更为复杂的工业控制现场, 具备广阔的应用前景。

摘要：随着现代化建设的高速发展, “厕所革命”时代已到来, 各种各样的环保厕所已开始应用。在奥运会等大型集会场所、四川大地震的紧急情况下都亟需环保型可移动型厕所;在火车不断提速的趋势下, 传统的火车对冲式厕所已不能适应, 急需改用环保厕所。

【智能语音】推荐阅读：

畅言智能语音系统在小学英语教学中的运用初探10-13

语音语音教学计划06-08

语音知识07-14