人机交互软件

2024-10-31

人机交互软件(共10篇)

人机交互软件 篇1

1引言

随着国民经济的高速发展, 工业过程分析仪表的应用越来越重要及广泛, 对工业分析仪表的性能的要求也越来越高。作为工业分析仪表的重要组成部分的人机交互界面, 对工业分析仪表的性能有着重要的影响, 由于目前CPU的处理能力已不是制约工业分析仪表系统应用和发展的主要障碍, 所以人机交互界面的设计水平已经成为决定整个仪表系统性能的主要制约因素。

工业仪表软件开发的一个重要问题是与硬件的耦合过强。本文针对前工业分析仪表人机界面设计现状和问题, 提出了一种“基于小型化实时操作系统 (μC/OS-II) +状态机的人机界面设计方法”;能够较好地降低工业仪表设计过程中人机交互界面软硬件过度耦合的问题, 提高代码的重用效率, 降低开发周期并提高软件设计的可靠性。

2有限状态机的形式化描述

2.1有限状态机。有限状态机 (Finite State Machine, 简称FSM) 是一种具有离散输入输出系统的数学模型, 它以一种“事件驱动”的方式工作, 可以通过事件驱动下系统状态间的转移, 来表达一个控制系统的控制流程[1]。

2.2层次式有限状态机。对于像工业分析仪表HMI系统这样较为复杂的系统而言, 传统的有限状态机是无法对系统进行清晰的建模, 因此在这里采用一种层次式的FSM表达方法。层次式FSM类似于软件工程中结构化分析方法中的数据流图, 如图1所示, 其组织原则是:建模对象是一个复杂的系统, 将控制系统划分为多个相互协作的超状态机 (S1, S2, 包含有子状态机) , 每个超状态机根据要求又被划分为多个相互协作的子状态机 (S11, S12, S21, S22) , 不能被细分的子状态机被称为基状态机 (S11, S12, S21, S22) 。

在层次式FSM中, 每个基状态机都对应着一个父级的状态机, 多个基状态机的相互协作的状态机子群构成一个低层次的FSM。这样子群内状态机间的层次和逻辑关系构成了相应FSM间的层次和逻辑关系。复杂系统的控制流程就可以由这样一组FSM来表达:{一个顶层FSM, 若干个一层FSM, 若干个二层FSM, …}。

超状态机至少包含了一个子状态机, 父状态机对子状态机的包含关系实质上体现了子状态机对父状态机控制行为的继承。这种继承类似于面向对象程序设计模式的类继承特性, 有了这种继承特性, 在编程的时候可以按差异性进行, 只需要定义子状态机和父状态机行为的不同之处, 而其它的则可以重用在父状态中的定义, 这便极大地优化程序的结构和提高了程序的可维护性。

2.3界面化的FSM。有限状态机FSM (Finite State Machine) 由状态、事件、转换和活动组成。每个状态有1个状态进入动作 (entryaction) 和1个状态退出动作 (exit action) , 每个转换有1个源状态和目标状态并且与1个事件相关联。另外当初始化时, 我们定义了一个初始化信号量;以及界面的刷新, 我们定义了一个复位信号量。当在源状态时, 该事件发生且触发转换的监护条件为真, 则顺序执行下列一些动作: (1) 源状态的退出动作; (2) 转换动作; (3) 目标状态的进入动作。

用软件实现有限状态机有两种方法:表格法和过程驱动法。表格驱动法利用一个二维数组[2], 该数组中的短一行与一个状态相对应, 每一列与一个输入事件相对应, 每一项则与某一状态下对事件的处理相对应。表格驱动法适用于具有结构规则、操作简单的有限状态机。

过程驱动法为每一个状态都定义一个处理过程, 处理过程实现在此状态时对事件的响应, 包括输出处理及对当前状态值的转换。这个过程可以用case语句区分事件, 并采用相应的处理。无论采用何种方法实现FSM, 当FSM收到一条消息时必须知道当前的状态。为此, 对应每一个状态机必须能够保存当前所处的状态。过程法适用于实现一个具有几种转换和复杂操作的有限状态机。

基于消息驱动的程序设计思想, 为了保证系统的实时性, 在中断中只负责发送消息到相应的任务的消息队列, 由应用级的任务来处理, 保证各个处理的时间是可确定的。主程序在消息循环中不断地判断各个任务的状态, 执行进入就绪态的任务。这就允许采用异步方式处理各种中断及任务。

3软件设计

3.1状态机的软件实现。本系统程序中采用了两组有限状态机, 运用消息驱动的方式来驱动状态的变更。一组是通信任务中以串口接收数据驱动为事件对象的有限状态机, 另一组是以用户按键和命令码驱动为事件对象的有限状态机。

3.1.1通讯的有限状态机。为了保证通信的可靠, 系统中采用停止等待协议。在发送数据前要对数据打包, 接收到数据要先解包, 处理器在接收主系统发过来数据包的后需要去掉通信协议字段, 然后对有效数据进行正确的处理。为此, 定义了一个FrameFSM类型的数据结构, 用来对接收到的数据进行处理。

利用主机发送过来的消息驱动有限状态机, 串口接收数据驱动的有限状态机包括以下几种状态; (1) 任意状态。 (2) 任意状态 (除了INIT_STATE之外) 。 (3) INIT_STATE, 初始状态。 (4) AA_SYN_STATE, 收到同步字符状态。 (5) SRC_ADDR_STATE, 收到源地址状态。 (6) DEST_ADDR_STATE, 收到目的地址状态。 (7) DATA_LEN_STATE, 接收数据长度状态。 (8) DATA_STATE, 接收正常数据状态。 (9) CHECKSUM_STATE, 接收校验和状态。

对应的状态转换图 (state transition diagram) 如下图所示。

3.1.2键值和命令码驱动的有限状态机

这组有限状态机主要依靠用户对菜单的操作进行状态转换, 即把键值和命令码作为FSM的激励源, 其中键盘消息是最主要的激励源。应用层的FSM具有多种主状态, 用户未按键或者是没有接收到新的数据帧时, 状态处于IDLE_STATE;接收到消息后, 转入对应的主状态。然后, 根据按键的不同或者是接收命令码的不同, 转入对应的子状态进行处理。任务处理完毕, 再将状态置为IDLE_STATE, 按取消键, 可回到上一级状态。

以用户控制仪表调零, 系统开始处于IDLE_STATE (选中调零菜单选项) 。若用户按确认, 则进入调零参数设置页面, 并显示当前设置的调零参数.选择确认键, 进入确认当前调零状态;选择确认件后仪表进入调零状态, 在该状态执行向上命令操作后, 状态重新转入IDLE_STATE, 并伴随着输出菜单的相应变化, 按取消键可回到上一级选择状态。对于其他按键, 系统全部过滤掉不作响应, 状态也不进行转换。仪表调零设置的状态转换图如下图所示。

3.2基于μC/OS-II的模块化设计

在实时操作系统μC/OS-II下, 整个HMI分为四个模块, 三个任务来实现, 分别是键值处理模块、与主机通信模块和时钟模块以及界面显示模块。 (为了结构的清晰, 我们把键值的处理单独成立一个任务, 实际为了方便和实时性的处理, 把键盘的处理放在TICK中处理也是很好的一种处理方法) 。

3.2.1键值处理模块

先初始化所有的模块, 然后在循环中接收并处理键盘的输入, Key-Process (char Key Value) 根据相应的输入键值和系统所处的状态, 对菜单进行相应的操作。

State_Trans (char Rx Data) 根据键值输入事件负责调度系统的状态, 并在相应的状态下, 根据从主系统收到的信息显示菜单。

3.2.2主机通信模块

通过消息队列OSQPend (OS_EVENT*pevent, INTl6U timeout, INT8U*err) , 接受串口或者CAN中断发来的消息队列, 对其中的数据进行处理。在人机交互的过程中, 需要大量的与主系统的交互, 单独用一个任务负责与主系统的通信, 实现串口和CAN接收数据驱动的有限状态机。

3.2.3时钟模块

时钟任务, 使用处理器的时钟中断, 可以设置各个任务需要的定时器, 通过消息队列发给需要定时的任务。

3.2.4界面显示模块

界面显示任务, 初始化状态机, 以及父状态界面, 通过获取实时状态, 实现界面的切换和事件的处理。

4测试

HMI系统的测试采用μC/OS-II V2.52较以前的版本, 该版本增加了两个系统任务:CPU负荷监测任务与堆栈容量检查任务。这两个任务给程序的调试带来很大的方便[3]。

将系统配置常数OS_TASK_STAT_EN设为l, 统计任务OSTask Stat () 就会建立。它每秒钟运行1次, 计算出当前CPU的利用率, 放在一个有符号的8位整数0SCPUUsage中, 精确度是l%。μC/OS-II内存是固定分配的, 通过0STask Stk Chk () 可确定每个任务实际需要的最大堆栈空间, 根据测得结果合理地分配内存空间。表l是用以上函数测出的系统参数。使用MC9S12XDT512单片机系统相应的调试工具Code Warrior, 可跟踪程序的运行。通过运行在PC机上Code Warrior能够追踪程序中各种参数的变化, 查看处理器内存的使用情况。

在实际测试中, 采用μC/OS-II系统及有限状态机的HMI系统, 比普通前后台系统的实时性提高35.2%, 测试时间缩短14.3天, MTBF≥1440hour, 代码重用率≥75%, 整体性能得到了很大的提高

结论。经测试证明, 使用实时操作系统前。运用前后台的程序设计方式。在需要显示较多数据在屏幕上, 同时又需要接收数据时, 处理器处理不及时, 可以通过调试工具Code Warrior看到接收缓存接收的数据帧不完整, 而不能正确地在屏幕上显示数据。移植μC/OS-II操作系统之后, 工作可靠, 同时系统的反应速度, 即实时性有了很大提高。本章介绍的HMI系统与嵌入式主系统是独立的模块, 可以灵活地在处理器上加载控制模块, 适合应用于各种嵌入式系统中。

参考文献

[1]梁伟晟, 李磊.基于与或逻辑的界面关系模型表示方法.计算机科学, 2008, 35 (4) :203-204.

[2]刘成玉, 李明, 陈洁.浅谈状态机的设计方法及应用[J].集成电路通讯, 2007, 25 (1) :20-24.

[3]赵楠, 王军政, 沈伟.基于uC/OS-Ⅱ的齿轮流量计二次仪表的设计[J].微计算机信息, 2006 (7) :52~54.

人机交互新革命 篇2

“以前我们说鼠标加水泥等于新经济加传统经济,现在鼠标已经不是新经济,手机的输入方式已经是手势、语音甚至图像。”百度CEO李彦宏说,去年一年语音识别的准确率提升比此前15年提升的总和还要多。智能手机的普及也使得这方面的需求大大激发。

2011年10月4日,iPhone4S对外发布,让用户感到新奇的是,智能语音助手Siri被成功植入iPhone4S之中。Siri的横空出世,在全球引发了语音热潮,各类语音助手几乎成为智能手机的必备应用。

相比早期的语音控制系统,Siri将iPhone变成了一个智能机器人,用户对着手机说话,不仅可以让手机读短信和拨号,甚至能够查询天气、餐厅位置、航班等以往不可想象的功能。在Siri身上,人们看到了语音成为手机实用交互方式的可能,而不像以前只能通过键盘或手写输入文字来传递信息。

除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。这些语音助手的功能也越来越强,不仅可以通过语音搜索内容、查询信息,还可以聊天解闷、讲故事、唱歌。

最近中关村在线手机事业部针对手机语音功能现状进行了一项调查,结果显示,67.68%的受访者表示使用过语音助手软件,这足以证明手机语音助手类应用的市场热度。

不单单是手机,语音技术也逐步应用于PC、平板电脑、家电、车载、玩具、手表、眼镜等智能终端,以及教育、电信、金融、保险、客服等领域。在2013年英特尔信息技术峰会(IDF)上,英特尔“感知计算”概念的提出,意在建立起一个新的人机交互框架,掀起“重塑PC”的革命,而语音识别就是感知计算的一部分。

实际上,“听话”的浏览器离我们并不遥远。Google Chrome浏览器已经开始尝试支持声控命令,或许要不了多久,我们就能通过声控浏览器完成浏览网页、发送邮件等。比如,你可以通过“暗一点”“亮一点”“字体大一号”等语音命令来控制浏览器。

结合地图系统和智能语音识别的打车软件一经面世便得到消费者的广泛关注。曾在北上广风靡的打车叫车软件“嘀嘀打车”,前不久正式进入武汉运营。据了解,“嘀嘀打车”软件在武汉市场试运行的14天时间里,召车成功率达88%,远远超过武汉官方叫车平台“电召”的48.5%。

4月10日~12日,第一届中国电子信息博览会在深圳举行。由工业和信息化部指导,19家单位联合发起成立的中国语音产业联盟组团参展,将神奇的智能语音体验带到了现场,全面展示了智能语音技术在移动互联网、教育、智能电视、车载终端、玩具等方面的新产品、新应用。

清华大学吴及副教授表示,通过技术上的不断优化和完善,快则一两年,慢则三五年,语音识别技术会成为人机交互的重要组成部分。未来最可能还是混合的交互方式,语音成为主流交互方式之一,因为不同的场景、用户需要和用户习惯,都会造成选择交互方式的多元化。

智能语音爆发

世界银行去年发布报告称,全球手机数量已经从2000年不到10亿部,增长到现在的60亿部,其中近50亿部都在发展中国家。世界银行估计,到2015年,世界上将有人口75亿,而手机将达到近90亿部。

市场调查机构策略分析公司Strategy Analytics公布的调查结果显示,自智能手机1996年面世以来,截至2012年第三季度,全球智能手机用户数量突破10亿部。也就是说,现在全球七分之一的人拥有某种智能手机。Strategy Analytics预测,全球智能手机用户数量最迟将于2015年突破20亿大关,2013年,仅仅Android用户就将超过10亿人。这是因为智能手机市场还存在着巨大的增长潜力,尤其是在中国、印度和非洲国家市场。

艾媒咨询(iiMedia Research)分析认为,随着智能手机价格平民化以及运营商、渠道商、手机厂商对智能手机市场不遗余力地推广,使得使用智能手机开始成为一种大众潮流,大批非智能手机用户转化为智能手机用户。预计到2013年年底,中国市场智能手机用户规模将突破5亿。

在智能手机市场,以智能语音技术软件应用平均收入为5元/台计算,2013年中国智能语音市场应用规模可达25亿元,2015年全球智能语音市场应用规模可达100亿元。

中国互联网络信息中心CNNIC调查显示,截至 2012 年 12 月底,我国手机网民达到 4.2 亿户,占网民比例由上年的 69.3% 升至 74.5%。目前中国已经成为继美国之后全球第二大移动应用市场,拥有 50 多家应用商店,最大的应用平台中应用数量已经达到 70 多万,下载量超过 90 亿次。

借助开放平台和应用商店模式的助推,移动互联网分布在音乐、电商、游戏、搜索等领域的产业价值趋于明显。2012年,iOS 平台上共有超过73万款应用上线,中国移动MM平台上应用接近15万。

另外,2012年微信用户数突破2亿,对传统的话音、短信业务形成强烈冲击。据估计,到2015年我国移动互联网市场规模将达到4296亿元,活跃用户将超过8亿。

近几年,移动互联网的大规模爆发,作为主要载体的智能手机在键盘输入和手写输入方面非常不方便,这为语音识别技术的应用提供了巨大空间。

一款由云知声研发的微信语音输入插件,只需对着手机说话就可以快速发短信了,每分钟可以输入100字。自今年2月推出后,以精准的识别性能和全新的交互体验,受到广大用户的追捧,发布一周即登顶App Store首位,使用该应用软件的用户接近100万,开启三十次以上的每天有几万人。

云知声创始人兼CEO梁家恩表示,语言是人类交流中最重要、最自然的方式,所以语音技术的普及将引起人机交互方面最深刻的革命。这是一种更高效的人机交互方式,极大地提高了效率,同时降低了用户信息获取的难度和门槛。最直接的例子是,我想跟朋友说今晚约会地点。传统的手机交互方式是,需要点击手机菜单,选择新建信息,输入联系人,手指输入文字内容,发送……而通过语音助手,我们只需按下Home键或者线控上的按键,然后直接说“发短信给xx,今晚我们在xxx见面”即可。

在车载环境下,用户的注意力主要集中在于驾驶,人与车的交互必须在不影响驾驶的前提条件下进行,而语音识别技术提供了安全便捷的交互方式,用户只需动口,就可以满足在行车过程中的相关需求。说出“想回家”,汽车会根据你家的位置设定好最佳路线,并开始导航。说出“加油站”,几公里范围内的加油站将逐一由车载语音系统播报出来。

2013年配备语音交互的汽车出货量将达到300万辆,技术授权30~50元/辆,技术授权年度市场容量将超过1亿,预计到2016年配备语音交互的汽车出货量将达到1500万辆,存量接近3000万辆;车载增值服务渗透率逐步提高到30%~35%,年度市场容量将达到10亿。

无论是Google已推广上市的“Google Glass”,还是百度正在研制的“Baidu Eye”,都将语音操控作为人机沟通的重要手段,拍照、打电话、录像,你只需说出你的需求,它就在你眼前展现出想要的结果。智能眼镜、智能手环、智能手表、智能项链,这些物联网时代的智能化设备,最大限度地利用了语音控制技术,它将让未来的生活变得如梦如幻。

很多小朋友想拥有一个会说话的玩具,就像喜剧电影《泰迪熊》里面的TED一样。如今,市场上已经出现了智能语音玩具,按照预定程序执行人的语音指令,如背诗、唱歌、翻跟头、跳舞等。

发端于上世纪50年代的语音技术,经历了多次潮起潮落,这次是真正的变革,还是又一轮泡沫?吴及告诉记者,“这次的兴起与过去不太一样,超过以往任何一次的高度,商业化应用的规模,普通民众的接受和认可程度,都远远超过了以往。”

对于语音产业爆发的原因,吴及有着自己的思考:一是移动互联网的发展,使手机成为重要的客户端,现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。

二是随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格地限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。

三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。

争抢语音电视

引入语音识别和语音合成技术的智能语音电视不仅能听懂用户说话并作出反应,而且还能说话。用户凭借语音指令可以轻松完成音量调节、换台操作、电视节目查询、网络浏览搜索、文字输入等服务,还可以提供天气、股票、航班、热点新闻等信息,让用户“所说即所得”。

5月7日,乐视超级电视在五棵松万事达中心全球首发,吸引了众多与会者参与。与之前其他的电视类产品不同,乐视超级电视集硬件、软件和内容完美结合,是一款真正意义上的互联网电视,同时具有超高的性价比。

在电视、上网功能完美结合的同时,乐视还集成了目前最先进的智能语音交互技术,用户通过带有麦克风的遥控器,就可以轻松自然地实现操控、输入、搜索等功能。而该项技术由云知声提供。从现场的演示效果来看,语音识别准确度和识别效率方面都具有很高的水准。

在乐视网董事长兼CEO贾跃亭看来,“‘超级电视’是这个星球上有史以来最强大的硬件怪兽。”贾跃亭的底气来自于其合作伙伴,联合全球最顶尖面板供应商夏普、全球最顶尖的智能芯片商美国高通公司、全球最顶尖硬件制造商富士康和播控平台合作方CNTV;而更大的底气则是“超级电视”的高性价比,60英寸X60是超级电视的旗舰型产品,售价仅6999元,要比市场上的价格便宜一半多,同时推出的普及型产品S40售价1999元。

乐视推出的超级电视是否能如其所言“颠覆”传统电视呢?业内都在拭目以待。作为互联网企业敢于杀入目前似乎固若金汤的电视行业,这也说明智能电视已成为互联网企业觊觎的猎物。不只是乐视,阿里巴巴、PPTV、小米等也推出了机顶盒产品,而在此布局更早的谷歌、苹果早已“袭击”了电视。

为了适应智能交互方式的发展潮流,早在去年,国内六大电视厂商长虹、海信、康佳、海尔、TCL、创维等企业纷纷推出可以语音控制的智能电视。为了在智能电视市场先人一步,2012年2月16日,就在大家都还沉寂在新年余味的时候,长虹联合语音技术公司科大讯飞率先发布30多款Ciri语音智能电视新品,最高售价近7000元。随后,其他彩电企业也迅速跟进,推出具有语音识别功能的智能电视或云电视。

需要注意的是,国内彩电企业在半导体、智能语音等方面都缺乏技术储备,只能拉入第三方语音企业作为外援提供技术支持。业内人士认为,进行语音技术和人员储备是彩电企业的当务之急。

而科大讯飞的盈利模式也有许多尴尬。众彩电厂商和科大讯飞均是“一锤子买卖”,即一次性购买语音软件或芯片,前者推出的所有应用皆为免费,只是智能产品本身的售价有一定幅度提高。

据预测,2013年智能电视出货量将达到1500万台,2016年智能电视出货总量将超过4000万台,智能电视存量将超过1亿,年度市场规模将超过13亿。未来,在每个家庭网络上的电器设备,都可以被人们的语音控制。

语音数据金矿

智能语音技术应用非常广泛,不单单是前面提到的手机、电视、玩具、汽车等领域,也包括即将兴起的智能客服、智能订单、智能营销等智能语音服务。

随着互联网的发展,许多企业客服放到互联网上了,比如QQ、微信、旺旺,现在都是键盘交互,以后可以通过语音交互,减少人工客服成本。这些与语音工具进行实时对话的应用,属于在线应用(B2C)。

另一个非常重要的应用领域是离线应用(B2B)。离线应用是通过与大数据技术的结合,对海量语音数据进行处理、挖掘和分析,开发和利用其中的价值。

语音数据也是大数据,比如呼叫中心,每天的电话数据非常惊人,随着中国人口红利的消失,呼叫中心的智能化日益迫切。据 Ascent Group 2010年IVR研究报告,2016年电信、金融、电力等重点行业呼叫中心市场规模预计达到30万线以上。此外,中国移动的一个省级呼叫中心,一天的数据就有上万小时;还有电视、广播、互联网等媒体上大量的语音数据。

“这些数据如果不能被有效处理,就无法被应用,只能被闲置,实际上可以利用语音识别技术将这些数据转化成文字等符号性表示,然后再被挖掘、检索和利用。”吴及说。

他进一步指出,离线应用比在线应用确定性更强,由于面向海量数据,只能选择语音识别技术,使用人工转写,时间和人力成本太高了。

据了解,清华大学电子工程系多媒体信号与智能信息处理实验室已经在与科大讯飞合作,研究、开发、应用离线技术,语音识别准确率达到了80%以上。今年将在中国移动的一些分公司进行推广。

离线应用有两方面价值,一是监控客服质量,提高企业服务水平。二是语音分析,通过语音识别和数据挖掘技术,可以更全面地了解实际情况,从而帮助决策层和管理层进行科学研判和趋势预测。

此外,公共安全和政府等行业客户对信息资源的深入开发利用也有着迫切的需要,并对基于文本及语音分析处理、数据挖掘等技术的海量信息智能分析与处理软件平台的开发有着明确需求。具体应用是,从大量录音数据中自动快速找出指定关键字的语音,从而得到公安或其他政府部门需要的信息,用于做出及时正确判断和决策。据不完全统计,此项应用在政府部门的市场总量将在6亿元以上,但此项业务的门槛和公关成本很高。

谁主沉浮?

几年前,语音行业不景气,从事语音技术研究的多以学术界为主,这使得国内的语音核心技术一直掌握在清华大学、中科院声学所、中科院自动化所、中国科技大学等几家单位,同时也导致语音行业的人才很稀缺。

从2008年开始,伴随移动互联网的大发展,语音识别产业才真正兴起。谷歌于2008年在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。2009年,Google在全球范围正式发布了谷歌中文语音搜索。

2009年苹果收购Siri,并于2012年推出中文版Siri,大受用户欢迎,掀起智能语音热潮。

在中国,最早从事语音识别产业化应用的企业是科大讯飞(1999年成立)、捷通华声(2000年成立),这两家企业刚开始都专注于语音合成技术的研发(把文字转化成声音,比如机场、火车站听到的播报)。2008年科大讯飞成为上市公司后,开始研发语音识别技术。2010年发布了语音云平台,宣告移动互联网语音听写时代到来。

作为语音行业的龙头企业,短短几年时间,科大讯飞的市值从2008年刚上市的34亿,已经增长到超过200亿,让人瞠目结舌。目前,科大讯飞是中国最大的智能语音技术提供商,也是我国惟一以语音技术为产业化方向的“国家863计划成果产业化基地”。

依托于中科院声学所的捷通华声,成立时间基本和科大讯飞相当,在之前相当长一段时间内,也和科大讯飞旗鼓相当,但最终的结果是科大讯飞发展起来并成功上市,而它则相对平淡。

近年来,科大讯飞攻城略地,继牵手中移动、中联通后,5月27日发布公告称,已与中国电信签订三年期的战略协议,共同推进智能语音产业。科大讯飞官网显示,其智能语音技术占有中文语音技术市场70%以上份额。

有观点认为,尽管牵手三大运营商,但科大讯飞仍前景难料。在与中移动合作后,双方至今未推出“杀手级”业务。双方合作的“灵犀”语音助手将被融合到飞信中,但在微信的冲击下,飞信的前景渺茫。电信分析师付亮称,牵手科大讯飞,不会解决微信对运营商的冲击,因为科大讯飞的模式跟微信相似。

Google语音搜索和苹果Siri的成功,也让国内语音市场迅速升温,国内互联网企业纷纷涉足。例如百度、腾讯、搜狗、阿里,还涌现了许多创业公司:云知声、灵声科技、智能360、虫洞、苏州思必驰、普强信息等。

国内语音产业分为两类,一类是独立的语音公司,以科大讯飞、云知声、灵声科技为代表;一类是互联网巨头公司,以百度、腾讯、搜狗为代表。

“智能语音已经进入到产业化层面,最近5年的产业发展速度超过了过去50年,并且跟以往主要靠技术推动有很大差异。”吴及说。

众所周知,智能语音行业的技术门槛非常高,特别是语音识别技术,被成为“皇冠”。衡量一家语音公司的技术水平如何,首先要看它是否能提供高性能的语音识别产品,其次要看是否发布了语音云平台。

国内互联网公司里,百度做得最早也最好,2010年就成立了语音部门,并招兵买马引进国内外人才,专注于互联网模式下的语音识别技术,并号称是国内首个把深度神经网络技术(DNN)运用到语音识别产品的公司。李彦宏今年三月接受采访时说,现在语音识别的准确率能做到92%,两三年内可以做到98%。

腾讯和阿里的语音技术虽然还欠火候,但这两个公司有微信、QQ和淘宝旺旺,拥有相当大的用户群,这些用户群对语音技术需求旺盛,市场潜力很大。

独立的语音公司中,科大讯飞目前是“龙头老大”,但也面临几家新锐公司的围追堵截。特别是云知声,冲击力和竞争力极强,刚成立一年,语音技术已经可以和讯飞相媲美,语音识别准确率达到94%以上,仅用九个月就对外发布了语音云,并且向所有开发者提供完全开放、永久免费的语音识别服务,让业界直呼“黑马”来了,但发展平台与讯飞差距较大,商用上也不及讯飞多年的积累。

吴及表示,从国际上看,智能语音产业表现为一专多大,即一个专业公司Nuance和几个大的IT公司,Google、微软、IBM、苹果等。目前,国内的产业格局也基本相似,一个专业公司科大讯飞,其他几个互联网公司,如百度、腾讯、搜狗等。

占领制高点

随着国内手机和平板销量的爆炸式增长,国外企业开始觊觎这片市场,纷纷进驻国内。海通证券研报指出,尽管目前智能语音产业规模较小,但在未来5年内行业年复合增长率有望超过25%。

背后支撑苹果Siri语音识别技术、占据全球2/3市场份额的国际语音服务巨头Nuance,正在拓展中国语音市场。据媒体报道,日前,Nuance与开心网正在就未来的“战略级产品”进行深入探讨。作为全球语音识别技术的领军企业,Nuance触角由医疗、电信广泛延伸至汽车、手机以及互联网领域。此前,该公司在中国的合作对象为比亚迪和中兴通讯。

另一家语音识别技术公司Audience也看到了中国语音市场的机会,与国内十几家品牌手机厂商展开语音方面的合作,并且和中国移动公司建立相关的语音研究实验室。此外,谷歌、苹果、微软、IBM等巨头也开始积极布局,先后推出了各自的智能语音服务。

为了迎战国外巨头,推动民族智能语音产业发展,2012年8月1日,由科大讯飞、联想、华为、中国移动、中国联通、中国电信、清华大学等19家单位联合发起的中国语音产业联盟正式成立。

工信部副部长杨学山在会议上说,“语音产业再过若干年,一定是千亿元、万亿元的产业链。我们必须加快发展,否则很可能在五年以后,我们再一次被动追随。”

2000年之前,智能语音市场被国外厂商垄断。之后,国内厂商迎头赶上,经过10多年的发展,在技术上已经可以和国外厂商分庭抗礼。但国外厂商在产业链整合、市场推广等方面,均优于国内企业,在竞争中占有一定优势。

科大讯飞董事长刘庆峰表示,“苹果拥有结合紧密的软硬件和成熟的产业链,谷歌拥有开放的安卓系统,微软拥有几乎是垄断的操作系统。这些优势国内厂商都不具备,因此在与这些巨头竞争时,就需要国内企业联合起来,整合产业链上下游资源。”

微软把人机界面从跳动指令转变成图形界面,维持了20年的IT霸主地位。苹果和Google把键盘变成了触摸界面,称雄当今IT世界。如果有声控技术的话,我们还会用触控界面吗?

杨学山指出,再过五年,声控将可能是最主要的人机交互方式。未来产业的发展,从终端到生态环境、商业模式,都将发生重大的变化。从技术、产业和国家竞争力等各个方面来讲,语音产业的发展都是当务之急,只有努力发展,我们在下一代信息技术产业应用发展中才能拥有主导权。语音产业发展基于宽带网络,要和终端、应用和用户相结合。

“只有加快智能语音产业发展,才能避免受制于人。”吴及同样认为,国家要支持企业建立语音生态系统,但要把握好力度和分寸。如果国内企业不能建立起自己有生命力的语音生态系统,国外企业迟早会喧宾夺主抢占地盘。诺基亚的衰落就是典型案例。

吴及进一步指出,如果有越来越多的企业去做语音应用和进行二次开发,用户就会享有更多更好的语音产品和体验,这样平台企业也会做大做强,整个语音生态系统就形成了,国内语音产业抵御风险的能力就提高了。

浅论人机交互背后的人人交互 篇3

关键词:产品设计,行为方式,人机交互,人人交互

人机交互理论在产品设计的发展进程中发挥了重要作用,科技高度发展的今天,产品人机交互过程中可用性和易用性的问题,可以通过技术手段一一解决。对产品的设计、定位已逐渐从使用层面深入到情感层面,探讨人与人之间的交流互动形式,成为设计的新需求。

1 产品所扮演的角色的转变

工业产品是工业革命的产物,它是时代经济、技术和文化的物化成果。同时作为经济社会的物质基石,产品所扮演的角色也随着社会经济形态的变化而变化。一直以来,产品是为了满足人的各种需要而存在的,产品所扮演的角色长期处于人类生活的附属品。而今天,随着工业设计学科的发展,在综合了心理学、社会学、美学等诸多学科对设计的探索与指导后,越来越多的设计师意识到成功的产品设计已不再只是高科技内容的附庸,而是更多关注产品强大功能对于使用者的实际有效性,产品更应体现出它的社会价值与人文关怀。

2 设计的目的的转变

设计要解决的是“人—机—环境—社会”(图1)系统中出现的问题。设计通过采用各种技术手段,发现并解决人们生活中的问题,最大程度地实现该系统的和谐。以往以实用功能为出发点的设计主要解决的是“人—机”系统的问题,即设计的产品能够更好的被人使用。这个更好的被人使用则更多指的是操作的简便性、快捷性,产品的意义也仅停留在“工具”这个层面。而当今,在“以人为本”的设计思想的影响下,在产品设计中融入人文理念,设计如何更好地体现对人的关怀,如何更容易获得人们内心的认可和接受,是设计师应认真思考的深刻问题,也是科技高度发展的今天用户情感和心理需求的体现。正如美国著名经济学家、社会学家托夫勒所说:“人类需要高技术,更需要高情感,人们的购物过程不仅满足的是物质需要,还有文化上的需要。产品一旦被赋予某种美好的情感,就会缩短人与产品在情感上的距离,出现购买行为上的文化认同。”正是人们精神层面的追求和自身价值观念的需求不断造就了产品的崭新面貌,反过来,产品也通过传达某种诉求而影响着人们的生活文化,并导致新的文化形态的形成。这样,设计才能将“人—机—环境—社会”这个大系统中的各个环节都体现出来。

3 人的行为方式的探讨

人的行为不是孤立存在的,人的行为在支配自身的同时也对周围的环境产生着影响。人的行为方式既是人与产品之间交互方式的关键因素,也是研究产品的前提和基础,是设计师进行创新的思维过程。同时,人的行为也是自身思想的外在表现形式。探讨人的行为方式,寻求人与物之间的独特并且合理的相处模式,会给产品与人类之间带来崭新的景象,甚至是可以颠覆传统的新思维、新模式。因此,产品本身所具有的改变和影响人的行为的能力,使得它必然承担起引导人们合理使用产品,并向人们传达正确的思想观念,鼓励人们追求积极的自身价值,寻求和谐的使用环境的职责。强调人、产品、环境、社会之间相互依存、互促共生的关系,已是未来社会发展的必然趋势,也是人们内心的共同诉求。更为重要的是,我们设计产品不单纯是设计了产品本身,同时也设计了人与人之间、人与产品之间的关系,也设计了人的行为方式。

4 人人交互系统概念的提出

通过上述分析,我们可以看到,时代经济、技术和文化的变革使得产品的角色由单纯的“工具”转变成富有多重意义的物质载体。设计越来越注重使用者在使用产品时的心理感受。设计的目的也由单纯的满足用户的使用功能上升到获得良好的情感体验和文化认同。更为重要的是,我们希望产品还能够引导人的行为方式,使人与人之间,人与产品之间能够形成良好的关系。这些转变和期望带给我们一条新的产品设计思路,即设计师制造并控制用户期望,把对产品的设计仅仅作为设计的中间环节,使产品的使用过程变成设计师与用户的交流或用户与用户的交流,实现人与人的互动,即人人交互(图2)。

4.1 人人交互系统的要素

1) 系统终端

从系统模型中,我们可以清楚的看到,位于模型终端的均是“人”。一端是系统的主动端——设计师,另一端是系统的从动端——用户。处于产品后台的设计师可以藉由产品向用户传达某种情感、信息、理念,用产品“说话”,与用户沟通。用户是产品或平台的使用者,是人人交互系统中参与交互的另一方。用户通过使用产品或是平台实现设计师的设计构想,对产品的功能、语义作出反馈,“倾听”、认同设计师的设计意图,从而完成人人交互。

2) 系统状态

该系统最终实现的是设计师与用户之间的对话。处在系统主动端的设计师通过对产品、信息或服务的设计,向处在系统联动端的用户传达某种信息,实现设计师与用户的交流互动。世界著名未来学家约翰?奈斯比特认为:“无论何处都需要有补偿性的高情感。我们的社会里高技术越多,就越希望创造高情感的环境。用技术的软件一面来平衡硬性的一面。”设计师通过设计,对产品进行编码,赋予产品特定的内涵。用户的使用过程既是获得产品功能的过程,也是进行解码,接受设计师所传达的语义的过程。人人交互系统关注的是技术背后使用者的接受状态。

向全世界提供了第一台个人计算机的IBM公司,希望个人计算机的设计远远超出用户和机器的共同“工作”,而是致力于在用户和个人计算机之间建立起深刻的关系,赋予个人计算机更多的生命和乐趣,建立人机之间的友谊。因而IBM的设计师在设计中常常要考虑一件产品或者一个网站所能唤起用户的生理或心理感觉,寻求各种方式进行内心的感受和沟通。这些方式通过硬件技术和软件设计进行“编码”,用户在对个人计算机的使用过程中与机器互动,进行“解码”,实现人人交互系统的状态———相互拥有、相互游戏,不仅仅是工作,而且是生活。

3) 交互媒介

人人交互系统中的媒介可以是实体的产品,也可以是软件平台,甚至可以是服务理念,只要这种媒介可以准确、翔实的向使用者传达设计师的设计意图。设计师通过交互媒介向用户传达出积极的、美好的产品理念,鼓励人们做出积极的行为;规范并引导用户合理的操作,从而保护自身和公共的利益;及时给予用户明确的反馈,肯定用户在使用产品过程中心理产生的譬如成就感、正义感、富有爱心的感觉,从而使得用户获得满足,并反过来促进以后继续实现这样的行为。

在荷兰的史基浦机场,垃圾桶的开口处被设计制作成类似于篮球场上篮筐的形状,下方套着一只塑料袋,人们处理垃圾时只要将垃圾像投掷篮球一样就可“投”进去。事实上,许多人常常都不是将垃圾小心“塞”进去,而是随意地“投”进去的,这种垃圾桶正好迎合了人们“投篮”的欲望。在这里,设计师以一种不经意的、温和的,并且是非常生动的方式,通过“篮筐垃圾桶”这个媒介与使用者交流,引导了人们的行为习惯,实现了人人交互。

4) 交互方式

从人人交互系统模型中,我们可以清楚地看到,人人交互的实现通过设计师与产品、用户与产品两次人机交互,它的交互方式仍然依赖人机交互系统。人机交互系统中,人与产品之间信息的输入和输出形式多种多样,进而形成各种不相同的交互方式。现实生活中人的情感交流过眼神、声音、气味、味道、肢体语言、面部表情、语气语调等各种方式实现。在人人交互系统中,设计师应思考人的情感交流方式,选择更易用户解读的交互方式进行编码,如,数据交互、图像交互、语音交互、行为交互(图3)等。

5 人人交互系统应用举例

以研究购物而闻名的V·帕卡特在《隐藏的说服者》一书中说道:“如果你卖的不是油而是希望,如果卖的不是橘子而是新鲜的活力,那将会怎样?”产品设计发展的新思路也正是如此,设计师所设计的,不仅是一个代替人完成工作的工具,更应该是一种精神、品质、信念、态度的传达。

图4是利用废弃包装做的灯具设计,在这个产品中,设计师通过废物利用的设计手法,使废旧产品循环利用,润物无声的传达给使用者环保、绿色的设计理念,实现了设计师与使用者之间的精神交流。

图5是个有跳字显示的水龙头,它的设计者Reamon Yu表示:“水龙头如显示出开了水龙头的时间,洗手者知道自己一直在用水,会自自然然地早点关水龙头,从而达到节省用水的目标。”这个设计以数据交互的方式从信息的反馈上使得本来无形的用水量变得直观起来,并对使用者产生有效的提示作用。

图6是名为IM的网络附件设计,将IM小人用USB接到电脑中,指定一位好友,好友上线,小人站起,好友下线,小人则倒下。用小人的形象直观的反应好友的状态,利用图像和行为交互使用户自然地将“小人站起”和“好友上线”之间建立起对应关系,通过IM小人,实现用户对网络另一端的好友状态的了解。

6 结束语

人人交互系统的建立使用户对产品的使用体验呈现出一种新的状态和面貌。通过对人的行为方式和使用体验的观察、记录和总结,我们希望设计师通过对人人交互方式的巧妙设计,能够跨越人机交互的技术层面,实现人与人之间更好的沟通。

参考文献

[1]李乐山.工业设计心理学[M].北京:高等教育出版社,2004.

[2]唐纳德.A.诺曼.情感化设计[M].北京:电子工业出版社,2005.

[3]王效杰.工业设计-解析优秀个案[M].北京:中国轻工业出版社,2009.

[4]刘永翔.基于产品可用性的人机界面交互设计研究[J].包装工程,2008(4).

“娱乐”产品的人机交互 篇4

如今,触控、语音识别、体感交互这3个最流行的前沿人机交互技术,让我们重新认识了科技的力量。

娱乐需求刺激技术推进

时间拉回到20世纪90年代初中期,小霸王游戏机是我接触的第一个电子产品,它是我们那个时代的Kinect。不足十几MB的卡带就是今天的App Store,主机显示屏就是当时时髦的低彩色分辨率电视机,连上线后,还得自己动手调频对接到游戏信号后才算告成。这对于出生在今天的小孩,无法想象消遣一款游戏要如此大费周折。而电子娱乐产品最打动用户的不是它能否提供“正能量”,而是它可以让我们沉浸于设计好的虚拟角色,让人瞬间忘掉现实的压力。正是这种像“毒品”一样容易让人上瘾的娱乐产品,相继催生出了一个长盛不衰的庞大的娱乐消费产业链。

在这条产业链中,技术的成熟使得娱乐的方式呈现出多元的发展,也就是以往人跟机器的互动,不再受限于一个固定的场景和操作方式,而这种蓬勃的发展方式,离不开用户对于娱乐的孜孜需求。如:初期的电子游戏领域,从最原始粗糙的家用小霸王机到大型公共场所的电视摇杆机,再到后来具有同等高质量内容画面的CD-ROM光盘机等,用户的娱乐需求刺激着技术的推进,而技术的推进促使人与机器的互动不断被升华改变。

在小霸王游戏机上,由于硬件无法达到大型摇杆机的技术参数,所以你无法在家里的电视机上玩上20世纪90年代日本最风靡的动漫游戏《拳皇》,而只能去公共娱乐场所。当后来有了CD-ROM 游戏机,它浓缩了大型摇杆机和小霸王机两者间的精华,一张4.7 英寸的光盘体积和精致的画面,但由于制造的高成本它在当时多数普通玩家手里普及度远远没有前两者高。

从小霸王到摇杆、CD-ROM机等3个不同形式的娱乐载体,它们的技术本质都没变,都通过外在的一个物理按键来操控虚拟的角色。而且各自存在的弊端始终无法得到用户的青睐,家用低廉的小霸王机硬件的天生缺陷无法提供优质的第三方游戏、大型的摇杆机不够方便携带,而优质的CD-ROM机造价过高,一般用户难以承受。

所有这些初期的电子娱乐产品暴露出来的弊端,进入到20世纪90年代后期逐渐在Windows图形用户界面的崛起而慢慢被取代,虽然那时一台PC的价格一般家庭还是很难用得起,但用户的娱乐欲望正被一种新型的高级 “玩具”所吸引,因为在PC上玩游戏的体验跟之前相比有着天壤之别。因为你无需在不同游戏之间来回切换,游戏界面比以前更加真实和细腻,所有的操作不再是拙劣的几排物理按钮,而是在一个圆滑的椭圆球上的“正负”两极开关按键,这就是后来我们所熟悉的鼠标。今天它依然是我们跟PC互动的工具之一,虽然鼠标的重要性每年都在降低。

一个产品的重要特质往往反应在自身娱乐性的高与低,当Windows在20世纪90年代中后期开始走进人们的视野普及起,一种新型的娱乐玩法首先得到老玩家的探索和青睐。原先在之前三种娱乐载体上体验的游戏,跟在PC上那些更细腻宏大的题材游戏相比,后者的感触可以用震惊来形容:这玩意早出来该多好。你无法在当时的硬件条件下通过小霸王机玩《帝国时代》是什么样的场景,娱乐的升级幕后都伴随着技术的更新换代。

以图形界面直观易操作的Windows开始风靡全球后,老一代的单机“游戏机”逐渐被赶下娱乐的舞台。从此占据人们视线的便是个人台式电脑,这一时期由美国艺电游戏(EA)开发的一系列战略游戏,如:红色警戒,就是我们那时候的“网游”。

这个游戏的背景改编自二战,这种指挥“千军万马”的战争游戏场面,是之前所有玩过的街机游戏所没有的体验,游戏设计本身与用户有了直接的情感联系,也就是整个作战过程由你把控。

进入到21世纪初,便携式笔记本电脑开始流行于市场,虽然20年前它已被各大厂商研发出来,但价格不菲。跟所有起初以颠覆性技术出现在市场的产品一样,高昂的成本让它无法立刻在大众中普及开来,10年后它依然不是工薪阶层的随身必备品,但它已具备所有台式机的性能,也就是一般的大型单机游戏能够顺畅在上面跑动。

这时候由索尼开发的PSP掌上游戏机在2004年底上市,它离iPhone的杀手锏触控+App发布还有3年。娱乐的多元化走向开始在个人电脑、笔记本电脑和PSP中全面爆发,这三架马车分别代表着人与机的互动进入到全新的便携式高性能时代。

高性能的便携式PC开始普及满足于人们的娱乐时,iPhone的发布就是一个转折点,它的多点触摸和App Store这种经典组合,将过去十几年的娱乐模式狠狠地甩在身后,当这两种全新的组合一种掌控硬体、一种掌控软体的技术被全面应用在移动智能设备之后,以PC为主的那套娱乐交互模式,是这种更流畅直观的操作方式所无法企及的。

自然人机交互时代

如果说以PC为主的互动方式代表着高性能,那么以触控为首的自然互动方式则代表着人机交互的新起点,这令所有的移动智能设备终端拉近了与人 “交流” 的感情。与之相随的App Store在线销售模式则兼顾了软硬件的两头,对于娱乐消费的方式带来了意想不到的空前繁华,现在没有谁会为一款游戏或者软件,专门跑到线上线下去买一堆光盘或者安装解压文件在PC上。

多点触控掌握着交互行为,而App Store掌握着娱乐内容,这两种左右脑兼顾内容和用户的行为习惯,在基于前20年人机互动的几个时期上,如:借助周边硬件设施的手柄、鼠标等到后来更“亲近”的手势,人机交互的外在演变被带到了全新的“人体”触控时代。把这种人体触控发挥到极致的,要属另一个交互技术的实现,Kinect的体感识别。

Kinect作为娱乐消费产品一类,虽然不属于PC范畴但其核心在于它的技术价值,它无需任何外围设备的情况下,人体本身就是一个“鼠标”。这种一切基于人体来与机器进行对话的行为首先被应用到娱乐中,也就是后来在网络视频上看到的很多竞技类的App游戏均搬到 Kinect来体验。

伴随着触控、体感这两种最流行普及的交互技术的成熟,语音识别的进化也令人瞠目结舌,这就是众人皆知的Siri。当Apple 3年前第一次发布Siri以来,你会发现很有趣的一个现象就是,用户的第一个举动不是怎么询问它获得帮助而是拿来调戏,看看这个乔布斯留给世界最后的“遗产”到底有多理解自己的意思。从这些年的各种爆笑问答趣闻中,不难看出Siri在慢慢培养人们与机器更自然友好的交流。当一个新型的技术推向市场时,往往首先它的“娱乐”性是否具备趣味有用决定着产品的前途。

关于人机交互设计界面问题探究 篇5

1 人机交互界面设计特点

近年来互联网对社会带来了极大的影响, 不仅为信息沟通提供了便利渠道, 同时对人类生活的方方面面都产生了影响。最初人们只能利用互联网进行数据传输, 现在互联网已经可以为多媒体提供全面的支持, 在多种平台中运行巨大的信息系统。在互联网快速发展的今天, 其应用范围也逐渐扩大。目前互联网已经在业务管理、商业办公等多方面得到了广泛的应用。互联网界面就是以互联网技术为基础的一种人机界面, 人机交互界面设计的方法在互联网用户界面设计中同样适用。以互联网界面为例, 在界面设计过程中需要对以下几方面因素展开分析:第一, 用户定义与使用环境。互利网用户可能是来自世界不同角落的, 因此这些用户的语言和文化背景都各不相同, 他们利用的技术平台也存在明显差别;第二, 市场与竞争者分析。互联网站竞争者可以通过网络查询和发现信息, 因为竞争对手的网站设计都是透明的, 所以在分析市场与竞争者时, 可以快速得到很多可用的信息;第三需求、任务分析与目标定义。网站拥有者可以充分利用科学技术将信息发表在网站上, 只要提供超级链接, 就能将其他网站的连接放在自己的网站上。

2 人机交互界面设计的约束条件

互联网运行的技术平台是用户界面设计的重要约束性条件, 这些条件可以反映到界面设计准则上, 下面主要针对互联网用户界面设计的相关约束条件展开分析。

2.1 屏幕可用空间

不同用户在浏览网站时所用的显示器, 其分辨率、尺寸都是不同的, 网页设计人员应结合不同显示器的情况来设计网页尺寸, 这样才能保证用户的正常使用。如果网页不能在显示器上完全显示出来, 那么用户将利用移动浏览器上方和边缘的滚动条来完成网页内容的观看。这不仅使用户在使用过程中面临很多不便, 同时一旦用户忽略了滚动条, 可能会使用户不能完全看到网页上的重点内容, 因而导致可用性问题的出现。

2.2 浏览器的不一致性

随着互联网的发展浏览器也在不断更新和发展, 因为产品开发周期以及竞争等多方面因素的影响, 不同浏览器在功能支持上存在一定的差别。某个浏览器的版本可能在其他浏览器中不能正常显示, 通常情况下同种浏览器的功能都是向下兼容的, 因此, 在较低版本支持下的网页在较高版本网页中可以正常运行, 但是相反的条件下就不能正常运行。不同流量器之间的差异就显得更大, 特别是在一些复杂功能支持上, 这种情况就更加明显。

2.3 网络速度

网页显示速度过慢, 用户可能会面临可用性的问题, 网页中使用最多的元素是文字和图像, 其中, 文字对网页大小的影响是非常小的, 一个正常大小的图像相当于很多页的文字, 因此, 在网页设计时, 对图像大小进行控制显得非常关键。

3 产品设计下人机交互应用分析

3.1 手机的交互设计

手机键盘在设计上主要利用了人机交互设计的理念, 利用设计界面用户可以随便输入自己想要联系的人, 并与其展开对话交流。还可以利用界面设计编辑短信, 用户与联系人之间实现文字上的交流。近年来设计界面操作系统得到了广泛应用, 与iava系统相比, 现在广泛使用的ios系统和安卓系统的优势非常明显, 例如可以实现触屏操作。随着交互设计越来越完善, 现在用户可以在手机操作界面上轻松的进行软件操作, 人机交互得到了很好的实现。现在以电子书阅读为例来说, 在其设计上充分考虑到了增强用户在阅读上的真实感, 在页面设计中应用了实体书页面的形式, 为读者带来一种真实的感受, 在阅读的同时还能对颜色、亮度等方面进行调节, 只要用户用手指轻触屏幕, 就能将其调整到用户想要的颜色和亮度, 大大增加了电子书阅读的舒适感。

3.2 平板电脑的交互设计

与手机相比平板电脑的交互设计优势更加明显, 从屏幕上来看, 平板电脑要比手机大很多, 不管是听音乐、看电影, 还是工作、学习, 都可以体现出巨大的实用性特点。例如, ipd平板电脑存储空间非常大, 可以存储很多书籍、音乐、电影等, 充分满足了用户在休闲和学习上的需要。从设计方面来看, ipd采用触控式按键转盘, 采用流动形式的菜单, 并具有自定义的功能。交互设计界面的优化性能非常明显, 同时在操作上还具有非常明显的便捷性特点, 用户可以利用日常生活中的习惯性动作电机界面, 这样就可以实现对ipd的操作, 可见人机交互设计完全符合了用户的日常行为与习惯。

4 结语

人机交互设计是系统发展的一个阶段, 在人机交互设计过程中, 还要对很多问题进行分析, 例如人机交互设计怎样能设计出最优化的系统, 来满足用户在舒适性、方便性等方面的需求。总之, 在产品创新及技术革新的前提下, 人机交互设计也会不断创新和发展, 这样才能使其与市场需求相契合。所以人机交互设计的优化不仅可以有效增强用户的满足感, 同时还是科技创新的一种主体, 这还需要设计师进行不断完善。

参考文献

[1]杨叶, 陈琳, 董启标.基于Phone Gap的跨平台移动学习资源设计与开发探究[J].现代教育技术, 2014, (2) :100-107.

[2]周毅, 张衍.以信息构建与信息交互为定位的信息管理专业教育——以美国i School联盟院校为样本的分析[J].中国图书馆学报, 2014, (6) :67-82.

浅析多媒体人机交互技术 篇6

一、人机交互技术

人机交互技术 (Human-Computer Interaction Techniques简称HCI) 是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。它包括机器通过输出或显示设备给人提供大量有关信息及提示请示等,及其人通过输入设备给机器输入有关信息及提示请示,回答问题等。简单地说,“交互”,就是指人与设备、系统、网站等的直接或间接的通信过程。人机交互涉及到计算机科学技术、心理学、社会学、人机工程学、工业设计以及语言学等多门学科。

其前景可通过Dan R.Olsen (CMC) 得到体现:“HCI是未来的计算机科学。我们已经花费了至少50年的时间来学习如何制造计算机以及如何编写计算机程序。下一个新领域自然是让计算机服务并适应于人类的需要,而不是强近人类去适应计算机。”也就是说人机交互技术能真正实现人机融合,体现出以人为本的理念。

二、多媒体人机交互技术

1. 多媒体人机交互技术的涵义

多媒体人机交互技术是多媒体技术和人机交互技术的结合,是基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术。

2. 多媒体人机交互方式

(1) 输入

键盘输入:传统方式

鼠标输入:图形用户界面的重要输入方式

手写输入:手写汉字识别,“平板电脑”

语音输入

触摸屏输入

数字化仪输入:适用于CAD/CAM系统

扫描输入:条形码、扫描仪、光电阅读器

三维输入:数据手套、三维鼠标、力矩球等

视觉输入:摄像设备、机器人的视觉

(2) 输出

显示终端输出:重要工具

声响输出:声波

打印输出:标准输出设备之一

三维输出:产生三维输出的设备有投影显示器、头盔显示器、电视眼境等

3. 多媒体人机交互技术的优势

人机交互技术在教学上的应用,最重要的贡献就在于它能实现交互功能,有了交互,就可以在程序的允许过程中通过鼠标,键盘或触摸屏等来控制程序的流向。教师就能够充分发挥课堂教学中教师的主导作用与学生的主体作用,控制课堂节奏,及时获得学生信息的反馈,调整教学策略,这样,既能面向全体学生,重视学生思考与参与,激发学生学习的主动性和积极性,又能使教师实现个别化的教学,使学生能有选择性、探究性的进行学习,同时也能使师生之间的情感交流得以表达。其次,多媒体与网络的结合充分发挥网络的优势。可以说网络传播为我们构建一个学习化的社会提供了便利的条件,在网络时代,利用多媒体进行信息传递也是最普遍最常见的方法。

三、多媒体人机交互技术对教育教学的挑战

多媒体人机交互技术的运用,不仅对传统的教育模式和学习能力培养提出了挑战,更对教师的教学与教师的角色转变提出了挑战。主要体现在:

1. 学习方式的转变

建构主义者认为,学习不是一个被动地记录外界信息的过程,而是一个主动建构的过程,学习是按自己的需要、自己喜欢的方式来进行。而人机交互学习方式将使学生通过多种媒体进行自己的学习。因为在教学过程中学生才是学习的主体,因此教学必须发挥学生的主动性、积极性、才能获得有效的认知,多媒体人机交互所提供多种的主动参与活动就是为学生的主动性、积极性的发挥创造了良好条件,从而使学生能真正体现出学习主体作用。

2. 学习环境的转变

多媒体人机交互教学不仅充分体现了民主性,也体现了建构主义思想,能够以学习者为中心。而且,人机交互为个别化学习提供了更好的环境。

3. 教学模式的转变

在传统的课堂学习下,教师讲,学生听,很少有交流的机会,而人机交互教学则为合作学习创造了更大的可能性,通过师生之间、学生之间的交互可以使理解更加丰富和全面,协商式、讨论式教学和学习模式是人机交互应用于教学的一大优势。因为不同的人看到的是事物的不同方面,不存在对惟一的标准的理解。

4. 教师和学生角色的转变

在传统的课堂教学中,一切以教师为中心,教师的作用在于传授知识、监督和管理学生的学习活动,学生只是被动的接受者,而人机交互技术的运用,则使教师的角色转变为学生的学习伙伴、研究者、学习者。在这里已经没有了学生和老师的区分。每个学习者都具有多重的身份,他既是知识和信息的求学者,又可以是知识与信息的提供者和分享者。

总之,多媒体人机交互技术的应用,必将使多媒体教学的发展得到最大程度的完善,不仅如此,人机交互技术在教育教学领域的应用,必将导致教学内容、教学手段、教学方法和教学模式的改革,以致会引起教育思想、教学观念、教学理论的重大变革。

摘要:多媒体人机交互技术实现了人机融合, 体现以人为本的教学理念, 使多媒体技术得到最大程度的完善, 但同时也对教育教学提出了挑战, 使学生的学习方式、教学方式、教学模式及师生之间角色的转换等都产生了重大影响。

关键词:多媒体,人机交互,互动

参考文献

[1]郭亚军, 金先级.人机交互[M].湖北:华中科技大学出版社, 2005

[2]孟祥旭, 李学庆.人机交互技术—原理与应用[M].北京:清华大学出版社, 2004

[3]袁振国主编.当代教育学[M].北京:教育科学出版社, 2000

虚拟现实引领人机交互的革新 篇7

虚拟现实技术是一种全新的人机交互方式, 其实质是基于自然的人机交互接口。虚拟现实技术采用虚拟现实方式对特定的环境模拟再现, 再让用户通过相应的硬件设备用自然的方式接受来自模拟环境的多种体感信息刺激。这整个流程都需要用到虚拟现实技术, 其中涉及到的相关技术有计算机图形技术、多媒体技术、并行实时计算技术、人工智能、仿真技术等。更进一步的虚拟现实技术还可以实现虚拟环境对来着用户的信息刺激做出相应更新, 实现更真实的交互体验。

二、虚拟现实的种类

1. 桌面级虚拟现实系统 (Desktop VR)

桌面级虚拟现实系统顾名思义就是在低级工作站中完成的虚拟现实仿真技术。这种技术的交互体验主要来源于计算机的屏幕或者虚拟环境的窗口带来的视觉体验, 其他体感信息很少传达, 一般可通过外部设备 (常见为鼠标, 键盘, 手柄等) 对虚拟场景的对象进行控制来实现交互感的体验。这种系统是最小型的虚拟现实系统, 也是至今应用最广的虚拟现实技术, 有成本低, 功能单一, 易于实现等特点。一些桌面游戏, 计算机辅助设计软件CAD, 建筑设计, 计算机辅助制造CAM等都是典型的应用。

2. 沉浸式虚拟现实系统 (Immers iON VR)

沉浸式的虚拟现实系统就是桌面式虚拟现实系统的全面升级, 在沉浸式的虚拟现实系统中, 硬件要求更加复杂, 它采用头盔显示, 通过数据手套以及头部跟踪器来获取用户做出的信息反馈。这些设备把用户与现实世界隔离开来, 将用户的视觉, 听觉, 触觉等体感封闭到虚拟现实环境中。不同于桌面式虚拟现实系统的对象进行简单控制, 沉浸式的虚拟现实系统让用户更像一个虚拟环境内部的一个参与者, 这种交互体验不仅来自视觉还有其他体感, 通过多种交互设备的共同作用, 让用户对虚拟世界的驾驭感更强, 有身临其境的高级交互体验。由于这种系统的硬件要求更高, 所以有着价格昂贵, 运用的体系结构复杂等特点。典型应用在各种高端仿真游戏, 军事培训, 企业展示等领域。

3. 分布式虚拟现实系统 (Distributed VR)

分布式的虚拟现实系统是前一种沉浸式虚拟现实系统的延伸。当多个沉浸式的虚拟现实系统通过网络相互连接起来, 共同完成同样的任务时就可以称之为分布式虚拟现实系统。这种在网络环境下多个用户在同一虚拟空间共同进行体感交互, 协同合作, 共享资源的方式能充分利用分布于各个用户的资源, 将虚拟现实的实现提升到更高的层次, 同时也让用户间的虚拟交互成为可能。这种分布式的虚拟现实系统目前一般是基于两种平台, 一种是专用网络的内网虚拟现实, 另一种就是基于整个互联网的虚拟现实。

4. 增强现实性虚拟现实系统 (Augment Reality VR)

增强现实性虚拟现实系统其实有一个很好的中文词语来体现——亦真亦幻。该系统也可以称为混合虚拟现实系统。增强现实就是在现实世界的基础上整合虚拟的模拟环境, 部分真实的场景由模拟环境代替。这样的结合不是简单的替换, 而是将现实与模拟合理地融合。一方面能把现实世界危险复杂的对象通过虚拟现实技术模拟, 减少了搭建环境的难度和开销, 另一方面在虚拟世界中加入真实场景, 有助于用户交互体验感的大幅提升。其中最典型的一个例子就是最近很火爆的Google增强现实眼镜, 它具有和智能手机一样的功能, 可以通过声音控制拍照, 视频通话和辨明方向以及上网冲浪、处理文字信息和电子邮件等。但是区别于普通智能手机的是它可以将这些功能与你身处的现实环境紧密结合, 交互体验无与伦比。

三、虚拟现实技术在人机交互中的优势

1. 体验感更逼真

我们一直说眼睛是心灵的窗户, 这是有一定依据的。从认知心理学上来说, 视觉在人类的认证方式中占得比例最重 (约有80%) , 也是人类运用得最多的。传统的人机交互中的视觉体验一直是建立在二维以下的平面显示上的, 然而对于可以感知物体大小、深度和相对距离的人类视觉系统来说, 并没有好好利用人类自身强大的视觉认知。虚拟现实技术最引人注目的就是视觉上的三维化。通过头戴式显示器等一系列的输出设备, 虚拟现实技术能带给人类视觉认知最原始的交互感。

2. 操作方式更人性

鼠标和键盘已经统治人机交互的大片江山很长视觉了, 这种输入命令, 点击图标的模式是一种信息的桥梁, 连接用户和计算机, 同时也是一道沟壑, 阻隔着人与机器的信息交互。虚拟现实技术从思想上开始把人机交互提升到一个新的高度。机器是人类的延伸, 用户对机器的驾驭要能向驾驭自己的身体一样, 这就将用户从使用者提升到体验者的新层次。语言输入设备, 三维鼠标, 数据手套……谁能预料键盘鼠标会不会被它们取代?

3. 交互距离更远程

正如前文提到的分布式虚拟现实技术所体现的那样, 距离再远的人机交互, 通过网络的力量也能轻易实现。人类对空间上的突破追求永不停歇, 从20世纪发明电视遥控器到如今互联网的远程浏览, 远程控制的便捷不断激励人们完善各个领域的远距离操控。虚拟现实技术中的交互距离也越来越远, 通过分布式虚拟现实系统, 可以实现远在万里也能身临其境的交互体验。

四、结语

自从计算机发明以来, 人机交互一直是人们长期研究的领域。而虚拟现实技术也已经不是新鲜的技术名词。很显然, 设备上的高要求, 性能上的高标准让虚拟现实技术直到现在依然是人类科技发展前方一个朦胧的影子。但是这会更加激励人们在探索的路上越走越远, 如今, 虚拟现实已经不再那么“虚拟”。与传统的人机交互相比, 虚拟现实在技术思想上已经有了质的改变, 它让用户从一个使用者转变成一个环境的主宰。相信各种领域的技术发展也会推动虚拟现实技术的发展, 从而为人机交互领域带来一场革新。

参考文献

[1]宫文飞, 丁满, 蒋燕, 虞慧岚:基于虚拟现实技术的人机交互的研究[J].机电工程技术, 2006 (5) .

人机交互地图系统的设计与实现 篇8

关键词:手势识别,手势跟踪,轨迹判定,地图控制,OpenCV

计算机技术水平发展的过程, 也是一个探讨如何更好地与计算机沟通的过程。如果技术构建的生活领先人们目前的生活太多, 就需要设计足够好的用户体验来驱动人们向新技术转变, 这也是人机交互发展的意义所在。更加随意和自然的人机交互方式一直是用户体验研究的主要方向。本文所设计的单摄像头下的单手手势识别地图控制系统, 从肤色检测入手, 并且选择了Camshift算法对人手进行定位跟踪, 选择HSV颜色空间进行自然背景下的肤色提取, 整个系统基于Open CV开发, 包括图像编辑、窗口操作、手势跟踪判定以及图像处理控制等各个模块都采用了Open CV的功能函数, 使用简单, 操作便捷, 具有一定的研究价值和市场前景。

一系统需求分析

本文系统以实现主要的人机交互地图功能为主, 所以一些可供扩展开发的功能没有列入主要的系统需求之内。基于这一前提, 系统需求包括:

显示视频, 在视频中跟踪显示肤色区域;

载入地图图片, 并可以无需更改代码, 更换地图图片;

识别手势指令, 并且根据指令控制图片移动;

在各个程序进程上, 留有扩展开发入口。

根据系统需求, 按照人机交互的顺序, 结合Open CV函数的特点, 设计出系统框架如图1。

二Open CV简介

Open CV的全称是Open Source Computer Vision Library, 开源计算机视觉库。Open CV于1999年由Intel建立, 现在由Willow Garage提供支持。Open CV是一个基于BSD许可证授权 (开源) 发行的跨平台计算机视觉库, 可以运行在Linux、Windows和Mac OS操作系统上。

Open CV量级轻而效率高, 由一系列C函数和少量C++类构成, 同时提供了Python, Ruby, MATLAB等语言的接口, 实现了图像处理和计算机视觉方面的很多通用算法。加上其开源的特性, 处理得当, 不需要添加新的外部支持也可以完整地编译链接生成执行程序, 其代码经过适当改写可以正常地运行在DSP系统和单片机系统中。

Open CV大量应用于人机互动、物体识别、图像分割、人脸识别、动作识别、运动跟踪以及机器人开发等各个领域, 应用非常广泛。通过优化的C代码的编写对其执行速度带来了可观的提升, 并且可以通过购买Intel的IPP高性能多媒体函数库 (Integrated Performance Primitives) 得到更快的处理速度。

三手势识别

手势的表达能力介乎语言与表情、身体姿态之间, 但是在环境的适应性、交互的便捷性方面有突出优势, 所以成为人们研究下一代交互方式的首选媒介。但是手势的复杂性也非常突出, 这一面说明手势识别的难度很大, 另一面说明手势交互能够带来的信息量很大。

本文研究的手势识别是对手势做静态化的大致定位, 对具体细节可以不精确计算, 得到连续稳定变化的目标区域, 具体表现在获得目标区域的稳定性质点 (比如重心) , 在视频流的每一帧连续变化中, 稳定性质点不会发生跳变。本文对手势识别提出的流程方案是:前景提取、肤色提取、手部提取、手势跟踪。

1. 前景提取

在连续变化的视频帧中, 除人体的操作变化之外, 实际上背景通常是静态不变的, 所以将前景提取放在手势识别的第一步进行, 目的在于排除静态背景的干扰。前景提取中的“前景”指在连续图像中变化的图像部分, 前景提取是一个从所有图像数据里面提取动态数据的过程。经过前景提取得出的动态区域, 然后针对动态区域做进一步的肤色识别等流程, 这一步骤提高了识别系统整体的效率。

视频捕捉的视频流之中, 如果假定背景保持不变。通过分析其中移动的前景图像建立模型, 将背景模型和当前帧进行比对可以检测出前景物体, 通过调用Open CV中的absdiff函数即可计算得到。但是对于大多数情况来说, 获取背景图片都不容易。

具体的实现过程主要分为两部分:一部分是调用absdiff函数找出当前图片和背景图片的区别, 使用了threshold函数除去前景。如果当前图片像素与背景图片像素变化超过一定阈值就认定其为前景像素;另一部分工作是更新背景图片, 调用函数Accumulateweighted, 根据权重参数可以调整背景更新的速度, 将当前图片更新到背景中, 将得到的前景提取结果作为mask, 在更新背景图片时避免了前景的干扰。Open CV封装了Background Subtractor MOG类, 为我们做好了相关工作。

此法可以得到的结果是二值化的结果。所以需要采用迭代的过程, 将得出的二值化结果的区域坐标输出, 反馈到肤色提取模块, 再在动态提取后的区域中做分析检测。

2. 皮肤检测

皮肤检测的任务是在视频流中找到皮肤区域, 并且把检测出的目标区域标定。皮肤检测通常作为从视频中提取人体部位过程的预处理步骤。

因为皮肤的特征具有差异性, 根据人们不同的种族、健康或者年龄等不同因素, 都会产生差异, 所以皮肤检测可以是两个维度的工作, 既可以基于肤色检测也可以基于皮肤肌理检测。两种检测方法的原理不同, 目前主要的研究都集中在肤色检测这一方面。因为皮肤的肌理相对肤色来说, 更加细微, 所以检测的难度以及对环境的敏感度都比肤色要高。本文也基于肤色检测进行。

由于皮肤在视频流中的颜色取决于摄像头拍摄时的光照条件, 包括光照的角度以及光照的强度。本文具体讨论在光照不变或者皮肤颜色对光照变化不敏感的条件下进行的情况。

皮肤检测包括如下步骤:颜色空间转换、设定皮肤边界、标定皮肤区域。

颜色空间的值与很多变量有关, 对光照条件等主要的干扰因素的敏感程度不同, 且与肉眼所见颜色并未必有明显的线性关系。因此, 作为皮肤检测的重要环节, 选择颜色空间对皮肤检测模块的性能有很大影响。

因为本系统需要直接定制肤色边界, 所以采用了感性颜色空间中的HSV空间, 包括三个部分:色相 (H) , 饱和度 (S) 以及亮度 (L、V) 。他们从RGB空间非线性转换而来。优势在于允许用户直观制定色调、饱和度的肤色边界。通过设定HSV值, 可以直接看到系统检测的效果, 并可根据效果及时调整。HSV值设定以后的, 满足HSV设定边界的像素点被标记成为皮肤区域。

人体的皮肤是由红色的血液或者褐色以及黄色的黑色素组合而成的, 所以皮肤的颜色是在一个有限的皮肤范围之内。因此, 皮肤检测在将图像转换到颜色空间后, 可以确定一个肤色边界来划定肤色区域。肤色边界是指在颜色空间中, 根据颜色的各个值设定区分条件, 满足条件像素点才能被标定为皮肤像素。

对图片的操作本质上针对一个矩阵进行操作, 每个矩阵上的点具有位置和颜色值。针对图片数据矩阵上所有的点做一个遍历检测, 对每个点按照肤色边界条件作对比检测, 然后把满足边界条件的点保持原有数据, 不满足条件的点设为白色。针对点的对比检测完成之后, 对图像做形态学处理, 将大块的颜色区域划为连续的区域。同时将满足条件的区域中的一些不满足条件的区域标识出来。这样整个皮肤检测流程就完成了。

3. 手部提取

输入手部提取模块的图像, 已经经过前景提取和皮肤检测, 意味着理想情况下, 摄像头采集到的静态元素已经排除, 运动着的目标非皮肤区域也已排除。但是用户被摄像头采集到皮肤区域, 不止是包括手势部位, 也包括了脸和手臂。

脸部和手臂虽然互相干扰, 但是脸部包含了眼睛、鼻子和嘴唇等非肤色区域, 所以在连续的区域之间会有一些小的非肤色区间。可以基于区域的连续性来将脸部排除。

手掌和手臂都是连续的肤色区域, 需要进一步确定手掌的位置。首先取得两个最大的手指指尖坐标, 然后根据两个坐标之间的差值, 确定一个起点, 再根据设定的手掌比例算出手掌的横向面积, 满足横向长度的范围之内, 就属于手掌区域, 剩余的就是手臂区域。

该方法受到摄像头面对手势的方向以及距离的影响。极端情况下, 当整个手臂被判定为手掌时, 整个手势的跟踪轨迹也会有一个稳定的输出值, 但是因为面积变大, 以及遮挡面积等各种影响都变大, 所以输出值相对真实值会变得缓慢。

4. 实现方案

本系统主要负责手势识别以及跟踪的函数:

该函数的主要作用是, 输入视频帧转换成的图像, 识别并输出肤色区域中心坐标。这一模块的主要任务有:将肤色区域跟踪框显示到视频中, 方便及时查看识别跟踪效果, 以修正肤色阈值;输出肤色区域中心坐标数据到轨迹判定模块。

实现的过程如下:

将图像转换到HSV空间, 设定皮肤过滤阈值成对应的HSV值条件, 然后通过设定的HSV值对图像进行检测;

通过Cam Shift算法跟踪肤色区域, 并且将跟踪框显示到视频流图像中, 输出显示;

将肤色区域的跟踪数据存入track_box变量地址中, 以供系统下一进程调用。

四手势跟踪与判定

手势跟踪通过不同帧之间稳定性质点的变化来推断整个运动的轨迹。所以, 手势跟踪和手势运动的速度、对象是否被遮挡等都有关系。

目标从进入摄像头采集范围开始, 移动过程的每帧之间需要一定的时间, 所以相邻视频帧之间必然有一定的相关性, 基于这种相邻帧之间的相关性可以对肤色检测的对象进行跟踪, 持续输出目标坐标以完成手势识别系统的任务。对人机交互地图系统的手势识别模块来说, 手势跟踪的目的是持续输出坐标, 并且设置跟踪框, 此外, 还可以反馈信息给手部提取模块以减少计算量。

目前, 对目标跟踪算法展开很多研究, 这些算法各有优缺点。在不同的系统里, 根据需求的不同, 选择对应的目标跟踪算法, 对整个系统的性能以及识别率都至关重要。本文的手势识别是基于肤色的, 所以选择使用Cam Shift算法。

1. Cam Shift跟踪算法

Cam Shift的一大特点就是其搜索窗口在初始化之后会在每一次搜索完毕之后自适应调整其大小, 使得跟踪窗口能适应目标大小的变化。Camshift是基于肤色的, 由于基于肤色识别的算法对光照比较敏感, 所以需要选择对光照亮度变化不太敏感的颜色空间如HSV, YCg Cr等。在HSV空间中, 只需要计算H通道的颜色直方图;在YCg Cr空间里, 需要计算Cg Cr通道的颜色直方图, 为了减少计算, 选择前者。以下是Camshift跟踪的基本步骤;

第一步, 初始化搜索窗口, 将RGB颜色空间转换为HSV颜色空间。根据用户手动选择的搜索窗口, 获取待跟踪目标的颜色直方图;

第二步, 根据获得的颜色直方图将原始图像映射为对应颜色的概率分布图像;

第三步, 计算当前搜索窗口内概率分布图像的重心, 把搜索窗口的中心移到计算得到的重心处, 更新搜索窗口的中心及大小, 返回第二步, 重复操作直至窗口的中心不再发生变化或与重心的距离在预定阈值之内。

因为Camshift跟踪需要用户手动设置, 并不能实现自动跟踪。但是可以对步骤一进行以下流程优化, 以实现Cam Shift跟踪的自动化。

加载待跟踪目标的颜色图像, 计算待跟踪目标的颜色直方图;

设置搜索窗口为整个视频窗口或略小于整个视频窗口。

Camshift跟踪会根据目标的尺度更新窗口大小, 所以最初的最大化设置会在搜索开始后立即变成适应目标的窗口大小。在本系统中, Cam Shift持续将搜索窗口的中心坐标输出, 即可完成从手势图像到具体目标坐标的转化。

2. 手势轨迹判定

手势跟踪持续输出了手势的位置坐标, 由此, 我们需要设计一个轨迹判定算法来从轨迹之中识别出手势传达的指令。

本文采用一种基于坐标系加判定圆的交互判定方式:构建一个以视频采集中心为原点的坐标系, 再以原点为圆心, R为半径构成一个判定圆。这种轨迹判定方式可以满足平移和缩放两种操作的判定需求。

(1) 平移判定

当轨迹落在判定圆之内时, 系统即处于触发状态, 当手势坐标离开判定圆, 系统立刻脱离触发状态, 同时记录这一时刻点的坐标, 将其与触发点的坐标相对比, 则可得出一个由坐标差形成的向量, 反映了这一手势的方向以及移动量。

这样得出平移向量可以包含各个方向, 如果基于该向量再加上一些判定算法, 则可以得出一些仅包含几个方向 (比如上下左右) 的平移值。

(2) 缩放判定

因为缩放操作比移动操作的频次要低, 所以缩放操作可以比移动操作稍微复杂。

本文的缩放操作定义为:在坐标系中对整段输入轨迹做匹配处理, 当一段坐标轨迹连续顺时针或者逆时针经过了四个坐标象限的时候, 根据顺时针或者逆时针判定为放大或者缩小。至于缩放的倍数, 需要事先确定。

这样做的好处是:当用户知道触发圆的存在时, 会有目的地发出指令手势。同时在无指令意向时, 会注意避开触发圆。通过调节触发圆半径R的大小, 对触发敏感地区进行设置, 使得系统可以灵活适应不同场景, 降低用户误操作的概率。此外, 通过采用相对坐标的差值, 保留了手势的方向, 使得图像具有多维的方向感。

3. 实现方案

手势判定模块的任务是:当用户做出符合规则的手势时, 模块从前流程模块中实时获得肤色区域坐标, 经过判定, 输出对应的指令。因为仅需实现图片移动, 所以本模块的实现函数为:

void Judge (float x, float y, int&dx, int&dy) ;

调用跟踪模块的track_box变量的中心x、y坐标, 经过算法判定以后输出移动的坐标。如果实时输入的坐标没有满足坐标条件, 则输出dx、dy均为零。

实现过程为:

对dx、dy变量清零。因为x、y变量为偏移量, 如果之后的流程中输入的坐标不满足判定条件, 则输出为0的偏移量, 不发生影响;

对输入的坐标x、y做偏移处理, 因为视频采集的区域中心坐标并非是 (0, 0) , 所以需要针对圆心做调整。采集区域的坐标值形成以采集区域中心为圆心的坐标系;

判定触发状态:如果系统已触发, 当前坐标在触发圆内, 则把状态设置为已触发, 保存坐标值;如果系统已触发, 当前坐标不在触发圆内, 则用目前的坐标值减去触发状态保存的坐标值, 设置 (dx, dy) 输出。

五地图交互

人机交互地图系统的难度以及核心模块集中在手势识别方面, 但是用户在使用时真正看见的是地图交互模块。虽然地图的载体是图片, 但是操作地图和操作图片有一定区别。放大缩小所操作的地图, 不简单是一张图片, 而是切换了不同精细度的数张图片。地图模块的几个功能是:管理地图图像数据源、获取手势指令、对数据进行相应操作。

1. 地图数据管理

常用的地图显示方式的最佳实现方案为联网时自动更新数据以及离线时使用可用的离线数据。数据源采用图片作为主要的呈现载体, 系统直接根据需求把对应的地图图片显示出来。

地图数据管理的关键是, 用户不用直接修改代码, 可以通过文件夹操作等方式增加地图数据, 可以在程序中输入数据检索文件夹中的图片, 当用户需要使用当前地图时, 只要把图片放入文件夹即可。

2. 地图操作

当选定地图之后, 地图的操作主要是移动和缩放。至于多维信息的查询, 需要结合地图匹配的数据库和相应信息交互的功能方能实现。仅仅针对地图本身而言, 并不需要如此多的功能设置。我们具体研究地图的移动和缩放功能。

针对地图的缩放功能, 有些地图本身的信息非常密集, 所以需要做到对地图本身的缩放处理。而另外一些地图, 实际上并非“看不清”, 而是给出一些宏观图像, 放大功能则是针对其中一个密集区域调用相应的详细地图图片。

针对地图的移动功能, 如果本地数据源是静态图片, 那么移动是有边界的。同时, 移动的尺寸也非常重要, 针对显示框的不同形状, 要给地图移动设定一定颗粒度的移动距离。如果颗粒度太大, 用户在需要同时看移动后地点和移动前地点之间的路线时容易操作过度;如果颗粒度太小, 用户则需要连续操作, 这样既浪费用户精力, 又可能造成误差。

无论是移动还是缩放, 在边界问题上, 都需要给用户反馈, 以提醒用户是否可以操作, 是否需要更新数据源。对于特定硬件而言, 图像显示的窗口大小要作对应的设置以满足最佳的查看体验。

(1) 图像的平移

图像的平移是将图像中所有的点都按照指定的平移量水平、垂直移动。设 (x0, y0) 为原图像上的一点, 图像水平平移量为tx, 垂直平移量为ty, 则平移后点 (x0, y0) 坐标将变为 (x1, y1) 。

显然 (x0, y0) 和 (x1, y1) 的关系如下:

用矩阵表示如下:

对该矩阵求逆, 可以得到逆变换:

平移后图像上的每一点都可以在原图像中找到对应的点。例如, 对于新图中的 (0, 0) 像素, 代入上面的方程组, 可以求出对应原图中的像素 (-tx, -ty) 。如果tx或ty大于0, 则 (-tx, -ty) 不在原图中。对于不在原图中的点, 可以直接将它的像素值统一设置为0或255 (对于灰度图就是黑色或白色) 。

(2) 图像的缩放

图像移动变换是1:1的变换, 而图像的缩放操作会改变图像的大小, 产生的图像中的像素可能在原图中找不到相应的像素点, 这样就必须进行近似处理。本文的方法是直接赋值为和它最相近的像素值。

假设图像x轴方向缩放比率为fx, y轴方向缩放比率为fy, 那么原图中点 (x0, y0) 对应与新图中的点 (x1, y1) 的转换矩阵为:

其逆运算如下:

例如, 当fx=fy=0.5时, 图像被缩放到一半大小, 此时缩小后图像中的 (0, 0) 像素对应于原图中的 (0, 0) 像素; (0, 1) 像素对应于原图中的 (0, 2) 像素; (1, 0) 像素对应于原图中的 (2, 0) 像素, 以此类推。在原图基础上, 每行隔一个像素取一点, 每隔一行进行操作。其实是将原图每行中的像素重复取值一遍, 然后每行重复一次。

3. 实现方案

地图交互系统分为几个模块设计, 分别为:载入模块、移动模块和显示模块。

(1) 载入模块

地图载入模块需要让系统具备动态的图片接受能力。允许用户直接修改地图存放文件夹中的图片, 只要满足命名规则, 不需要修改代码可以直接更改操作的地图。本文设定在E盘map文件夹下, 存放需要显示的图片, 命名为map.jpg即可。基于Open CV的cv Load Image函数, 使得系统支持大多数图片格式, 不仅限于jpg格式。

实现函数为:

Ipl Image*map=cv Load Image ("E://map/map.jpg") ;

(2) 移动模块

地图移动模块需要实现地图的上下左右移动, 能够调用判定模块输出的图片, 移动坐标对应移动图片。当图片移动超出尺寸时, 显示黑色背景。

实现函数为:

Ipl Image*dst=Move (Ipl Image*map, int dy, int dx) ;

移动模块的流程是:

判断 (dx, dy) 是否为零, 如果为零则跳过移动执行, 直接进入下一循环, 节省计算量:

按照dx、dy值移动图片, 并且返回移动处理后的图片。以供显示模块显示。

(3) 显示模块

地图显示模块需要在屏幕中心显示一个固定尺寸、固定位置的窗口。在窗口中显示各种移动操作后的地图图片。因为基于Open CV的cv Named Window以及cv Show Image函数有较大局限, 创建的窗口只能和图片一样大小或者固定大小, 无法全屏显示部分图片:当窗口尺寸大于图片时, 图片从左上角开始显示, 未铺满的地方为黑色;当窗口尺寸小于图片时, 图片按照窗口的比例默认显示。这不能满足我们既要能够查看图片中的一部分, 同时保持窗口大小不变的需求。

为了满足函数调用条件又满足系统需求, 采取了一下办法:

图像显示确认首先采取固定窗口位置以及固定窗口大小的处理方式;

采用类似图像移动函数的方式对图像进行处理:针对要显示的目标以及显示框架, 制定一个框架空图像, 其尺寸大小和需显示的图像一致, 但内容为空;

按照要显示目标的区域, 把地图图片目标区域的数据复制到frame图片中。然后返回frame, 就完成了部分显示图片的任务。

实现函数为:

dst=Fill (dst) , cv Show Image ("Map", dst)

因为复制目标图片值需要大量的计算, 所以将填充函数和显示函数分离, 按需调用, 可以有效提高系统性能。

六实验结果

整个人机交互地图系统的程序设计循环流程为:

先将摄像头视频流中的帧转换为图片导入;

调用识别跟踪函数, 实时获取采集图片中肤色区域的坐标数据;

显示视频数据;

调用判定函数, 从坐标数据中判定对应的手势指令;

如果发出指令 (移动坐标不为零) , 则移动地图;

显示地图。

代码如下:

编程实现后, 用单手操作, 进行不同方向移动地图的效果如下。

1. 向左移动图片

手坐标在触发圆内, 系统触发, 见图6 (左上) ;

手坐标在触发圆左侧 (图片中右侧) , 触发移动图6 (右上) ;

图片处于原位, 见图6 (左下) ;

图片左移, 显示更多地图右侧区域, 见图6 (左下) 。

2. 向右移动图片

手坐标在触发圆内, 系统触发, 见图7 (左上) ;

手坐标在触发圆右侧 (图片中左侧) , 触发移动图7 (右上) ;

图片处于原位, 见图7 (左下) ;

图片右移, 显示更多地图左侧区域, 见图7 (左下) 。

3. 向上移动图片

手坐标在触发圆内, 系统触发, 见图8 (左上) ;

手坐标在触发圆上方, 触发移动图8 (右上) ;

图片处于原位, 见图8 (左下) ;

图片上移, 显示更多地图下方区域, 见图8 (左下) 。

4. 向下移动图片

手坐标在触发圆内, 系统触发, 见图9 (左上) ;

手坐标在触发圆下方, 触发移动图9 (右上) ;

图片处于原位, 见图9 (左下) ;

图片下移, 显示更多地图上方区域, 见图9 (左下) 。

七小结与展望

本文从系统需求入手, 设计实现了一个基于手势识别技术的人机交互地图系统。并针对系统的各个功能模块, 从理论角度进行分析和思考, 在传统算法的基础上, 设计出肤色识别系统、符合手势交互规则的轨迹判定算法以及基于判决圆的交互判定方法, 使得系统能够分析用户的真实命令意图, 降低用户无意识手势造成的错误判定, 减少误操作。在手势判定之后, 针对输出的指令, 设计适用于地图操作的控制系统, 最后利用Open CV编程实现。

本文的研究虽然取得预期的效果, 但功能还不完善, 可以进一步研究开发:

加入前景提取模块。这是排除静态背景影响的基础, 目前的系统没有此模块, 较容易受到背景颜色的干扰。前景提取模块以输出前景区域为主, 并加入形态学处理, 通过计算, 使得整个前景提取的结果是有原始图像数据的前景区域图像;

人机交互领域的开拓者 篇9

在2010年的TED大会上,埃莫提系统公司的创始人Tan Le做过一次展示,通过大脑思考来操作电脑中的界面,体验者仅仅通过大脑想象就将电脑屏幕上的3D虚拟物体“拉近”了,而更为困难的“消失”,也在尝试几次后就成功了。比起现在如火如荼的人工智能,Tan Le始终坚持研发人脑/电脑界面,打造新一代的人机交互接口技术,她坚信人与人之间的交流更为复杂和有趣。

很少有人知道,如今在科技界占领—席之地的Tan Le,曾经是从越南逃亡到澳大利亚的难民。Tan Le的母亲带着当时尚幼的两个女儿,乘着一条小船在海上漂流了五天五夜,面对未知的危险,历经千辛万苦来到了澳洲。虽然生活十分艰辛,但Tan Le的母亲节约每一分钱,让女儿们坚持学业。Tan Le也不负众望,16岁就考入大学,并以优异的成绩获得法律和商务双学位,成为当年度的澳大利亚的年轻代表。作为一个社会积极分子.Tan Le成立了很多公益组织,并在18岁开始就兼任墨尔本越南协会的主席,关注失业低龄化和边缘社群的教育问题,她的演讲鼓励了彳艮多生活在澳洲的亚裔人,并因此被评为澳大利亚30岁以下最成功的女性之一。

勇于挑战的Tan Le并不满足于此,她希望可以以局外人的視野去突破自己,并成立了埃莫提系统公司。继续冒险的Tan Le,选择从事人机互动这个崭新的科技领域,企图将科幻小说中的梦想变成现实。Tan Le希望公司的产品可以让每一个消费者都负担得起,并让人们过上更好的生活。Tan Le对世界科技进步所做的贡献,也让她获得了世界经济论坛的全球青年领袖的称号。

校园导向指示系统的人机交互设计 篇10

一、人机交互的定义

人机交互 (Human Computer Interaction.HCI) 主要是指人与计算机的交互, 交互的对象是特指计算机。人机交互作为一门学科, 是关于设计、评估和实现供人们使用的计算机系统, 研究的目的是解决系统的可用性和易用性问题。从人机交互的层面上来看, 则侧重于人与计算机交互方式的设计过程与方法。而交互设计涉及的交互对象具有更广泛的范畴, 可以是无形的游戏和软件或游戏产品, 也可以是有形的家用电器、消费类电子产品和交通通信工具等各类实体产品。另外, 还可以是互联网、空间和服务等。而且, 交互设计是指设计应该注重人和产品间的互动, 首要考虑用户的背景、使用经验以及在操作过程中的感受, 从而设计出符合最终用户的产品。显然, 它所关注的不仅仅只是人与机器的交互, 而是人与系统 (由产品和整个环境构成) 之间的交互。

二、大学标识导向系统设计原则

现代大学校园标识导向系统设计要根据总体规划进行功能区划分, 采用分级检索、图文的有机结合和实效美观的立体造型进行标识导向设计, 以求达到指示清晰、直观、连续的使用效果和统一、融合、人性化的艺术效果。真正达到使一个从来没有来过该校园的人, 依靠布点合理、信息完整、指示明确的标识导向系统, 不要询问任何人就能轻松找到目的地。其设计原则主要有以下几方面:

1、与大学形象系统的统一。

2、与校园整体形象设计原则相符。3、延续校园规划设计理念, 与校园景观设计的风格相统一。4、分级检索。标识导向系统应由全局到局部, 由局部到具体的分级指示, 指示清晰、直观、连续。5、标识的内容要遵循以人为本, 为人服务的原则。6、使用的材料要与当地的气候与人文环境相适应。7、交通标识牌布点要合理。8、符合人机工程学原理。标识牌的尺寸、色彩及文字大小要从人机工程学的角度详尽表述, 并给出国家的标准为参照。9、车行导向系统标志形状、规格、颜色符合现行的国家规范。10、符号文字要符合国际通行的标准, 配以英文等外文, 适应国际化教育发展需要。

三、大学标识导向指示系统设计的内容

在进行标识导向系统设计前, 应该深入分析了解大学校园建筑环境条件、分区布局以及车行交通流线;分析行政办公楼、各学院教学楼、公共教学楼、学生公寓楼、公共活动场所、对外交流场所等建筑内部部门结构、人行交通流线。

与一般环境标识导向分级设计方法类似, 要依照从外到内, 从大到小的顺序。通过对校园环境的分析调研, 对标识导向系统先进行分类设计, 再进行分级设计, 便于设计工作有条不紊地开展。按环境来分:室内和户外标识导向系统;按对象来分:车行和人行标识导向系统。

1、车行标识导向系统

校园车行标识导向系统的设计应符合国家交通标识规范, 尽量采用国家或国际通用标识符号和色彩, 主要分三级。

一级:在大学校园外交通道路两旁设置的大学形象标识, 明确指示学校的方向和距离, 一般由市政管理统一制作安装。

二级:主干道以及南北东西主要入口。一级车行导向牌主要指示校园道路, 主要分区及方向。

三级:各分区内道路等;二级车行导向牌指示分区内主要建筑及单位及方向。停车场标牌采用国际通用标志, 并显示车位情况。系统标志形状、规格、颜色符合现行《道路交通标志和标线》 (GB5768) , 并结合VI系统, 展现校园统一、明确、个性化的形象。警告、禁令等标志牌放置于显著无遮挡位置。

2、人行标识导向系统

校园人行和车行要完全分开, 人行系统和车行系统并行并延伸到建筑内部, 并最终到达构成场所的基本单位——房间。人行标识导向系统是学校对外传达信息的主要途径, 其功能不仅仅是标识学校各建筑物的存在, 而且具有公众引导和广告宣传的功能, 主要分为五级。

一级:主入口。一级导向牌信息密集, 上面应有校园地图、分区图、校园建设大事记、导向信息, 放于人流密集区域和校园主入口处。

二级:规划路与分区内道路等。二级双面导向牌有地图和信息导向信息, 指示清晰、明了、连续, 安置于各分区十字路口。并标注消防等特殊设施的方位。

三级:建筑物前指示标牌, 标识建筑内部单位及建筑物介绍。

四级:建筑物内部标识。一般包括建筑物总索引或平面图、各楼层索引或平面图、楼内公共服务设施 (洗手间、开水间、教师休息室等) 标识、出入口标识、公告栏等。

五级:包括建筑物内各个具体功能房间的标识牌和户外的一些具体标识牌, 是最后一级导向, 如门牌、窗口牌、设施牌、树名牌、草地牌。其中窗口牌则主要针对学生食堂、校内银行、公共浴室等空间内部的功能性指示牌, 设施牌主要指的是公共服务设施中的标牌, 如报亭、书店、超市、洗手间等。

四、结语

界面是连接用户与产品之间的纽带, 人机交互界面的设计本身就是要以科学技术和艺术的结合为基础, 以外观表现形式为主要手段, 谋求产品的功能美与形式美的共存, 以优良的设计来力求满足用户的生理和心理需求, 简洁、易用、美观的人机交互界面是设计师和用户的共同目标。

无论大学的标识导向系统的艺术性设计多么高, 但其还是为其功能性设计服务的。大学标识导向系统设计既要具有浓重的科学和文化氛围, 还要体现现代大学信息化、现代化、园林化、生态化的校园特点, 更要适应现代大学教学、科研、生活等方面的功能需要。人机交互技术从产生开始就在许多领域发挥着巨大的作用, 例如:航空航天, 医药工程, 机械工程, 计算机仿真, 导向标识——在越来越复杂的现代校园中, 随着现代科技的发展, 利用人机交互技术对校园进行导向标识是非常必要而且有研究价值的。通过导向指示系统可以比较直观地了解校园的各个区域, 使浏览者对校园环境产生身临其境的感觉, 为校园规划、考生网上了解学校和对外交流提供一个平台, 对校园导向标识系统人机交互的研究具有非常重要的意义。

2012ZD14;论文作者:游世广。指导老师:龙舟君

摘要:随着我国改革的不断深化和科学技术的迅猛发展, 时代强烈地呼唤崭新形象的现代化大学。大学校园导向指示是学校形象的标志, 是学校视觉识别系统的重要内容, 是将大学的办学理念和精神文化通过视觉设计与行为的展现。通过人机交互操作, 来获得相应的信息或者体验。

关键词:校园导向系统,界面设计,人机交互

参考文献

[1]鲁小波.信息社会设计学科发展的新方向——信息设计[J].装饰, 1999.

[2]陈志良, 黄明哲.数字化潮:数字化与人类未来[M].北京:科学普及出版社, 2004.

[3]杜瑞泽.生活型态设计[M].亚太图书出版社, 2004.

[4]方裕民.人与物的对话——互动界面设计与实务[J].2003.

上一篇:白改黑技术下一篇:采样研究