人机交互的发展论文

2024-09-12

人机交互的发展论文（通用8篇）

人机交互的发展论文篇1

前不久网络上流传开一段微软公司发布的视频“Vision of the future”，以人们的普通生活为主线，讲述了微软对于未来电子产品的展望以及人机交互方式革新的理念，许多人大呼“美哉！”但是有位设计师不这么看，他对微软的“未来远景”进行了一番批驳，他说：

我们既然能够驱动全身的动作，为什么“未来”的人机交互竟全都是一根手指的操作呢？

下面是这位前苹果人机交互设计师的博客全文。查看原文请点击这里。

《对未来交互设计的简评》- Bret Victor

我们还是先复习一下这个眼下火热的视频吧。（iOS 用户请点击这里）

它讲述的无非就是下面这些东西：

说起来，设计未来的人机交互方式曾是我的一段工作经历。我曾经用真正能使用的原型机来进行设计，而不是小绿屏或者用 AE 做后期，所以我能看出这段视频里有一些值得怀疑的交互场景。事实上我曾动手设计过这样的交互场景，而这段动画片大致上就只是动画片而已吧。但是这不是我对这段视频的主要看法。

我的主要看法和视频的展示正好相反，真的，这不是什么“未来远景”。这些不过是一个个很小的增量。从设计的眼光来看，它们糟糕透顶。

这很重要，因为远景本身很重要。对远景的展望可以引导和激励人们去行动，当一群被激发灵感的人聚在一起便能形成最强大的力量。如果你是一个刚开始懂得前瞻的年轻人，或者一个已经开始动手打造这个远景的大人物，请务必让你的未来展望更加有价值，创造出真正能够改进我们交互方式的作品。

这篇简评并不会为你展开一张未来的全景图纸。我只是想对值得一看的地方加以探讨。

先不说我们应该如何与未来的工具进行交互，我们先来考虑一下未来的工具是什么。

我很喜欢这条定义：工具通过放大人类的行为能力来解决人类的需求。

这就是说，工具能够将我们能做的事转译为我们想要做的事。而一件伟大的工具则是在设计上同时满足这两者的。

而在这篇简评里我不会讨论人类的需求。这是有史以来从未被间断过的话题，每个人都会有自己的看法。

我也不打算讨论技术。这没什么好讨论的，因为我们掌控技术。我们可以发明技术，克服一些人类本性。

我将要说明的是常常被忽略的第三个因素，人类的行为能力：我们能够做什么。因为，如果设计出来的工具无法被人使用，它就是个糟糕的工具，是吧？

我们再来看一眼这些“将来的人们”与“将来的技术”是如何进行互动的：

你可以看出所有人都在用什么工具吗？这套未来交互体系的核心构件是什么？每张图都说出来了！

完全正确！那就是“手”。

这太赞了！我觉得用手太美妙了！

我们的手可以做两件事。这两件事绝对很神奇，你每天的生活都无时无刻不依赖于它们，而大部分所谓未来交互的概念都完全忽略了它们。

手可以感觉，手可以操纵。

现在，请随便拿起一本书，随便翻到某一页。

请体会：通过左右手重量的比例，以及左右手捏住纸张的不同厚度，你能够大致知道现在书翻开到哪个部分。现在翻一页，请体会：你会知道手里捏的不是黏在一起的两页纸，只需轻轻揉一揉就能感觉出来了。

下面，请拿起一杯水，喝一口。

请体会：通过倾斜杯子时重量的变化，你能够知道还剩多少水。

世界上的几乎所有物体都能够提供类似的一种反馈。这些习以为常的事实往往最容易被我们忽略。你可以再拿起身边的一些物件试一试。像平常那样使用一下，并感觉它们在触觉上引起的变化：它们的纹理、柔韧度、温度，它们的重心位置，它们的边缘、曲线和褶皱，以及你在使用时，它们会产生什么样的反应。

我们的手指为什么拥有如此密集的神经末梢呢，这里面一定有原因。只有这样我们才能和世界近距离接触，我们的工具才能和我们“交流”。触感是人类千百年来不变的“干活”一词的必要条件。

那么，再拿出你最喜欢的、神奇的、革命性的科技产品。使用一会。

你觉得怎样？是否感觉是“玻璃状”的？它是不是与你正在做的事情完全没有任何联系？

我把这种技术称作“玻璃下边的画面”。玻璃下边的画面牺牲了我们双手本来应该能得到的十分丰富的触感，而是提供了一个假惺惺的仿真图画。

真的有这么糟吗，用视觉取代触感？请试一试：闭上眼睛，去系鞋带，

电脑资料

完全没问题吧？那么，如果你的双臂都已失去感觉，你还能系好鞋带吗？甚至连你的手指也麻木了，能系好吗？当我们利用双手时，触感就好比是司机，而视觉则是皮椅。

“玻璃下边的画面”就是一种让触感永久麻木的交互模式。它犹如注入我们手腕的一针。它否定了我们双手最擅长的事情。可惜目前，它几乎成为了所有“未来远景”的一致焦点。

对我而言，如果说“玻璃下边的画面”就是未来的交互方式，那就等于说黑白照片是未来的摄影之道。很显然，“玻璃下边的画面”只是一种过渡性的技术。我们越早渡过去越好。

你可以如何操纵“玻璃下边的画面”呢？当然是滑动。

滑动是这种交互技术的最基本动作，即在平滑表面上滑动手指。

然而我们在自然界中几乎从来不用这种方式来进行操纵。

我能想到的场合只有上图这些。

那么，我们如何操纵物件呢？事实上，我们的手指有着令人乍舌的范围极广的行动能力，而且我们总是不假思索就会驱动它们。下边的每张图里，你都需要留意每根手指的位置，什么在对什么施加压力，以及物件的重量是如何均衡的。

所有的手指动作都可以总结为下图的四个基本动作。（如果你对这方面感兴趣，不妨阅读 John Napier 的经典之作《手》）

假如你要打开一个罐头，通常你会在这两种动作之间轮换：

可以说，你曾打开的每一个罐头至少都是用这两种动作的组合来打开的。不仅这事不用教，甚至你在做的时候都意识不到你在轮换两种手势。对于直觉交互而言又是如何呢？

我们生活在三维世界里。我们的手生来就能在三维空间中移动和旋转物体，并且可以抬起物件并把它们放到另一个物件的上面、下面、旁边和里面。地球上的生物还没有能与我们相比的。

下次你在做热干面的时候，请一定留神你的手。一定留神！留心观察你的手指做出的种种技巧，它们如何将原料、器皿以及其他所有用到的物品操纵起来。然后比较一下你体会到的东西，和“玻璃下边的画面”有何异同。

难道，我们要接受的未来交互方式还不如一碗热干面所能带来的体验？

那么，未来的交互方式究竟是什么？

说起未来，最重要的事其实是选择。人们会选择自己将要追寻的远景，人们会选择能得到投资的课题，人们会选择如何度过自己的职业生涯。

先不考虑广泛的文化差异。技术并不是简简单单就产生的。它不是自主而然，不是奶酪上自然生出的霉斑。每种革命性的科技背后都有很长一段时间的研究，而这些研究都是由那群被激发灵感的人所投资或开展。

这就是我的诉求，能被人类无限的潜能激发出灵感。不要总是把昨天的技术拿出来一次又一次地忽悠人。

这张图很可能就是我们未来世界的雏形。但是想想为什么？我们为什么非选择这种东西不可？这种手持设备完全忽略了我们双手的基本功能。

我们的双手可以去感觉，可以去操纵。为什么不在可视、可感、可操纵的动态媒介之上进行发展呢？

这里有几个交互相关领域正在进行的研究(1, 2, 3, 4, 5)，有的已经进行好几十年了。这些研究往往已被边缘化，可能接下去仍然如此。但是也许你就能做出一些改变。

是的，这些研究目前得到的成果还很粗糙，还很基础，有时甚至值得被怀疑。但是请看：

1968 年，也就是微处理器诞生之前三年，Alan Kay 好不容易把 Don Bitzer 的早期平板显示器创新了一下。它的分辨率达到了 16 x 16 像素，而其前辈的分辨率为 4 x 4 像素。

Alan 看着这 256 个闪耀的橙色方块，之后回到家里，拿起笔，天啊！他在纸上画出了一台 iPad！

随后的事情便一发不可收拾，他沿着这条路继续探寻下去。他所研究的东西，大多数和你阅读这篇文章用到的硬件和软件都是息息相关的。

这就是一种雄心壮志，就是我所说的长远目光。“玻璃下边的画面”不该再被当做新闻。我们应该开始真正使用双手。

如果你读到了这里，或许我可以再度启发你一下。看看自己的双手吧，它们是否和某些东西相连呢？当然是！你有臂膀，有肩，有躯干，有腿还有脚！而且它们都是能够活动的！

任何一个舞蹈家或医生都非常清楚，我们的身体究竟有着怎样令人难以置信的表达力。300 个关节！600 块肌肉！可以在无数角度中自如活动！

下次做早饭时，请留意那套精致、复杂、舞蹈般的动作，你如何打开碗橱，如何倒出牛奶。看看你的四肢在空间中如何来回移动，感受你是如何毫不费力地保持平衡。你的大脑之所以每天早上能够让你做到如此美妙复杂的芭蕾般的动作而不至于忙碌到爆炸，是因为和你一样，世界上的所有人其实都能做的一样好。

我们既然能够驱动全身的动作，为什么“未来”的人机交互竟全都是一根手指的操作呢？

人机交互的发展论文篇2

人机语音交互技术其定义总结如下, 机器识别并分析提取语音信号语义特征信息, 与标准信息库中语义特征相对比, 输出相应文字或转化成我们想要的输出结果。其交互的对象包括人与人之间 (语音远距离通信) 、机器和人、机器和机器之间, 该项技术让不同交互对象可以自由的进行高效信息传递。其需完成身份认证、语义理解、语音应答、语音压缩编码。

现有比较成熟的技术有A S U、A S R系统。其结构包括预处理模块、特征提取模块、训练语音模型、模式匹配、识别测试模式, 通过训练产生的词汇表进行识别判别, 进行句法分析完成语义分析。语音的预处理主要包括:噪声消除noise detection、端点检测endpoint detection、加强high frequency enhancement.

人机语音交互技术是一门综合技术, 是我们信号处理的分支研究方向, 其涉及的领域广泛, 包括生理学、心理学、语言学、计算机科学以及人的体态语言 (人在沟通交流时其表情、手势、形体动作是有其含义包含其中的) 。

各国在人机交换技术方面均投入了大量研究, 1982年日本提出了智能计算机系统, 目标90年代完善人机交换技术, 我国1986年提出863高科技计划, 目标实现自动语音翻译系统, 1997年Microsoft提出语音人机交换计划, 经过多年的研究, 确实攻克很多技术难题, 取得了多项技术成果, 但是仍有大量问题存在。

人机交互技术的现状、困难及其发展趋势:虽然经过数十年的发展人机交换技术有了重大的突破性发展但是仍然有许多亟待解决的技术难题: (1) 人类语音信号极其复杂多变, 虽然经过大量积累研究现阶段我们并未完全掌握和分离提取各类特征。 (2) 人机交换技术其适应性较差, 受各种因素干扰。其具体应用对特定环境依赖性强, 训练和识别的环境差异将会大大影响其结果的准确性。在特定的训练环境训练的系统不能灵活应用于其他场景。语义分析时不同说话人的变化也会造成识别系统的正确率下降。 (3) 受噪声音响大, 人类在沟通交谈时下意识自动排除环境因素的诸多干扰, 但是机器的噪声排除能力很差。高噪声环境时系统稳定性准确性下降。 (4) 语音建模并不完善, 其涉及到多领域包括心理学、生理学、语言学等等。 (5) 其应用并未真正市场化、商品化, 很多研究经验只停留于实验阶段, 没有成熟丰富的商品应用经验, 其稳定性、准确性、安全性有待提高。

人机交互技术的应用及最新进展:随着人机交互技术的应用, 电脑将变成一为亲密的伴侣, 你只要对着麦克风自如的和它说几句话, 即可轻松的实现那些隐藏在Windows层层菜单后面的功能。如今语音输入已经取代传统的键盘和鼠标成为我们与机器交流的又一方式。现有的智能计算机带有的语音识别系统对于语音识别的平均最高识别率达到90%, 经过“训练”, 已经具备简单的“自主学习”能力, 这将明显极大降低电脑应用的障碍, 例如许多残障人士、年纪较大的长者, 可以摒弃传统的操作, 不再依赖传统输入设备鼠标和键盘, 是我们的操作更加灵活、简单、人性化, 语音识别技术使得计算机能够向人一样听懂自然的语音指令, 因此, 将语音识别、语言理解与大量的数据库检索和查询技术相结合, 就能够实现更轻松的信息查询方式。

TTS语音合成系统现在已经比较成熟, 他可以准确无误的把文字合成人的自然语音, 当前存在的问题是虽然准确程度得到了保证, 但是合成的声音并不自然, 缺乏正确自然的情绪变化快慢节奏的调节。因此, 如果想真正走向商业化投入市场, 上有许多不足之处。

在许多技术、经济发达国家, 人机交互的智能产品已经投市场和众多服务领域。很多设备已经包含了语音识别拨号功能、语音记事本功能。可以完成语音识别与语音合成, 为我们生活提供了极大便利。

摘要：随着人机语音交互技术的发展, 会有更多的服务、设备等与此项技术相结合, 我们将不必再按键, 不必使用传统鼠标和键盘, 人机语音交互技术成为一项重要研究课题。

关键词：人机语音交换技术,ASR,信号处理

参考文献

[1]朱民雄, 闻新, 黄健群, 等.计算机语音技术[M].北京:北京航空航天大学出版社, 2002.

[2]肖春秀.人机交互技术研究[D].湖南大学, 2004.

[3]刘晓华.机交互技术及应用技术[D].吉林大学大学, 2009.

[4]张敏贵.机交互技术及语音特征提取技术研究[D].西北大学, 2004.

[5]山士官.语音识别技术及应用技术[D].东北大学, 2011.

[6]何好义.计算机语音识别技术及其应用[J].大众科技, 2005 (6) .

[7]柳春.语音识别技术研究进展[J].甘肃科技, 2008 (9) .

浅析人机交互技术的发展趋势篇3

关键词：人机交互；人机界面；虚拟现实；趋势

一、对人机交互的理解

人机交互是指人与计算机的信息交换，包括计算机通过输出或显示设备给人提供信息，以及人通过输入设备向计算机输入有关信息。人机交互的目的就是讨论如何使设计的计算机能够帮助人们更加安全可靠，更加有效率地完成所要完成的任务。从以上概念可以看出，人机交互是指用户和机器之间相互交换信息。但尽管计算机的功能现在变的十分强大，用途也越来越广，但归根到底它仍是人类的工具，不能在没有人控制的情况下独立完成任务，因此它同样受到人的支配、控制。

二、人机交互技术的发展

2.1语言形式用户界面的低效性

人机交互开始于世界上第一台计算机ENIAC的出现，操作系统是以下命令的方式来完成是，当时带给人们更多的是对计算机的神秘感，语言上的障碍给人很强的专业感。但由于语言的特殊性，人们必须主动去适应这样的情况才能正确的操作计算机。因而在这样的过程中，复杂的计算机以及难以让人理解的语言使得人与机器在交互的过程中显得极为困难，加上在操作过程中的低效和枯燥性使得当时人们开始寻找更好的方式来实现人机交互。

2.2图像形式用户界面的操作性

随着人们的探索发现，人的行为方式需要进行必要的研究，于是认知心理学开始逐步运用到计算机的设计中，人机交互的重要性开始受到人们的关注。图像形式的用户界面是当前用户界面的主流，以美国微软作为代表，它从根本上改变了以前要记大量的语言形式的情形。当前的图形用户界面都有一个的共同特征就是通过窗口来传达和显示信息，另外都是用键盘和鼠标来操作，由于图像形式用户界面在人机交互的过程中很大程度上依赖视觉上的识别以及用手动来控制，因此这种界面的操作性强。

2.3多媒体形式用户界面的立体性

多媒体技术是在自然化交互设计技术出现之前的一种过渡技术。在多媒体用户界面出现之前，用户界面设计已经完成了从语言到图形的转变。但随着多媒体技术的发展，动画、音频、视频等媒体被引入到这种技术中来，特别是音频媒体的引入，从很大程度上丰富了计算机传达信息的表现形式，为人们更好的控制和传达信息创造了很好的条件，极大的提高了人机交互的效率。在人机交互中多媒体用户界面的优势主是它能提高人对信息的识别及其选择，同时还有对信息的控制能力，另外计算机在信息传达方面的表现形式与人识别的交互程度也会有很大的提高，同时多媒体技术也能锻炼人们综合处理信息的能力。

三、人机交互技术未来发展趋势展望

3.1自然化的人机交互技术

当今时代发展的条件下，人的感受已经成了设计需要考虑的重要问题，同样人机交互也不例外。由于人适应了这样一种通过多种方式来共同控制客观对象，并同时希望快速看到控制结果的状况。使得自然化的用户界面成了一个快速发展的趋势，比较明显的就是虚拟现实技术的发展。用户借助必要的设备以自然的方式与虚拟环境中的对象进行交互作用、相互影响，从而产生亲临真实环境的感觉和体验。虚拟现实是多媒体发展的高级阶段，是人与机器无障碍交互的自然境界。

3.2智能化的人机交互技术

智能化使设计主要是使人在任何情况下都能感觉自己处于一个最佳的状态。其中改变的主要是机器，而不是人本身。一方面智能化交互设计将提高人的生活质量和改善人的生活环境。在这样一个交互设计的环境下人与人之间的距离将会变得很近，人在使用过程中将体会到极大的愉悦性，提高了他们对生活的热情度；另一方面智能化人机交互设计将实现尼葛洛庞蒂“界面应该设计得像人一样，而不是像仪表板一样”的愿望，因为“这种设计不仅了解人的需求和感觉，而且表现出超凡的聪明才智，以至于物理界面本身消失不见了。”当然这里的物理界面并没有真正的消失，相反是在随时随地都能出现，这种状况更加体现了人在其中的作用，即让所有的机器都调整好最佳的状态来适应人的需要，那时的界面可以是任何一个平面，这样的面不仅传达一個视觉效果，而且还会有听觉、嗅觉等多通道的方式。

四、结论

未来人机交互设计将会给人们带来更加轻松、舒适的生活，正如尼葛洛庞蒂在《数字化生存》中所预言，“下个十年的挑战将远远不只是为人们提供更庞大的屏幕、更好的音乐和更易使用的图形输入装置；这挑战将是：让电脑认识你，懂得你的需求，了解你的言词，表情和肢体语言。”[ 尼葛洛庞蒂.数字化生存.海南：海南出版社.1997]从预言中可以看到，未来的设计中以人为中心的理念将会得到进一步的体现，人们在工作环境里不仅会在生理上觉得舒适，而且在心理上也会达到愉悦，那时候人们的生活会变得更加便捷、美好。

无人机的发展与应用篇4

（1）国内外现状

21世纪前十年世界各国都在大力发展各种用途的无人飞行器，目前，世界上32个国家已研制出了50多种无人机，有55个国家装备了无人机。无人机成为本世纪武器装备发展中的最大亮点。据报道，1993-2005年间，北约国家无人战斗兵器总数增加了1.7倍，2006年，这一数量达到了11万架具。

美国、北约、以色列、南非等其他国家都非常重视无人侦察机和多用途无人机的研制和生产及应用。美国在发展无人机计划的同时，也考虑民用和商用的可能性，如环境监控、通讯中继、毒品侦察、大气取样、野生动物跟踪、测绘等。

由于国防预算的削减，俄罗斯的导弹公司和生产厂家不得不将一些军用无人机转为民用。如他们用四年时间研制的NART无人机将用于气象和生态观测；Ka37无人驾驶直升机将用于农业和空中拍摄。同时，俄罗斯还研制了用于农作物统计、输气输油管道监控、化学和核物质监护等方面的旋翼无人机。

国内的情况是，高空、高速、中远程、长航时、大载荷等类型的无人机主要应用于军事领域，主要由航空集团、航天集团以及院校研制与生产，国内主要有北航、南航、西工大、航空集团、某些研究所等单位研制。目前北航、南航、西工大这3家主要的无人机研制生产基地，主要是应付军队的需求，任务十分饱满，无瑕顾及民用领域，目前民用无人机的研制生产还没有明确的骨干单位。目前装备部队的有（涉密，仅内部可见）等无人驾驶飞机。由于成本较高，操作复杂，培训维护难，因而主要为军事需求服务，缺乏针对民用需求订制，民用领域尚未真正推广应用。已有企业忙于军品，民用领域基本空白，但民间应用正在逐步渗透。从民用来看，航空遥感、灾情监报、矿藏勘探、数字中国建设等都需要大批量地使用无人机。根据专家预计，今后10年内民用无人机市场的销售额可达10亿美元。无论是军用还是民用，无人机都将朝着模块化、标准化、多样化和系列化的趋势发展，其应用范围广泛，前景喜人。（2）无人机在民用领域发展应用分析

到目前只有天空这个大市场还没有开发，这是由于对航空产品对安全性的严格要求和航空管制的原因，使人们不敢问津。在今后几年，将是通用航空事业和无人机事业发展的时代。据分析未来几年我国至少要有数百架民用无人机的市场需求，而且这个数字将呈几倍的增长，因此天空这个大市场必须争夺，必须占领。

民用领域对无人机的要求飞行速度通常在100公里每小时以下，飞行高度在3000米以下，某些特殊应用在4000~5000米。由于无人机的经济性、安全性、易操作性，在很多民用领域对无人机都有着旺盛的需求，小型无人机可广泛应用于防灾减灾、搜索营救、核辐射探测、交通监管、资源勘探、国土资源监测、边防巡逻、森林防火、气象探测、农作物估产、管道巡检等领域。由于小型无人机的航空特性和大面积巡查的特点，在洪水、旱情、地震、森林大火等自然灾害实时监测和评估方面特别具备优势。同时民用无人机在航测领域的应用还可以作为卫星遥感手段的补充。卫星影像成为中小比例尺遥感监测和制图的主要数据源，甚至成为1：1万地形图和专题图制图与更新的重要数据源。但由于受到卫星临空周期、气候和供给渠道的制约，用户订购高分辨率卫星数据在覆盖度、时效性以及分辨率方面受到较大影响。无人机航空拍摄方面，由于其机动性强、分辨率高等优点，可作为卫星遥感手段的补充，形成高中低平台结合、粗中细分辨率互补的全天候、全天时、全覆盖立体监测体系。目前很多民营企业在小型无人机航测方面都具备了基本应用能力，甚至已经被专业的地图测绘公司并购。

然而至今为止，由于技术不成熟的原因导致无人机在民用领域一直未能大范围推广。最具代表性的一个例子是，90年代中期，农业部曾尝试采用小型无人机作农业评估，因飞机系统对操作员要求太高（通常需要十几年飞行经验），购置的无人机系统陆续摔坏而流产。

无人机扩大民用领域应用所面临的关键问题之一，是要搞“用得起的装备”，“开得动的装备”，用得起，就是低成本，因此机体要降低成本，飞控也要降低成本；开得动，就是操作简便易用，无需太长周期的学习培训，无人机自主性能要高，把人的因素降到最低。

要搞出一个无人飞行器，使之能飞起来进行演示，并不是非常困难，但要真正做到性能优良，满足实用要求则是一件非常困难的事情，不可等闲视之。这一问题不仅与材料、元器件、设备、微制造技术有关，而且与优化设计和综合集成能力等多方面因素有关，是需要长期努力加以解决的。无人飞行器研制涉及多个技术领域，包括：

1、飞行器总体设计；

2、空气动力学；

3、材料与结构；

4、动力推进；

5、导航与控制；

6、机载设备；

7、信息处理与传输；

8、发射与回收；

9、隐身技术；

10、微加工制造；

11、系统集成与运行管理；

12、地面测试与飞行实验等。

目前在民用无人机行业探索的民营公司大多技术不成熟，一般为了满足飞机的复杂保障条件和对操作的较高要求，而建立有以航模操作手为主的飞行团队，专注的是本身企业对无人机的使用，而非用户对无人机的使用。并且由于没有条件看到航空集团的很多现成技术储备和先进技术，导致闭门造车比比皆是。对比的是，航空集团由于体制的原因，对民用的需求只能走调研、立项、审批的程序，对市场反应缓慢，未能在民用领域有较深入的介入。

综上所述，根据无人机市场的出现、培育和发展，对行业发展过程综合分析如下：无人机市场从无到有，经历了三个阶段。

第一阶段的需求为军用所垄断，由于技术属于高尖端，其技术壁垒决定了民用市场无法接触，基本没有任何民用需求；该阶段的技术特点为惯性组件、控制系统等基础技术尚不成熟，成本很高，只有在军用领域才能接触和应用；从事无人机研制与生产的厂家只有以航空一、二集团为总体单位，电子科技集团为配套单位的国有军工企业。

第二阶段从上世纪90年代起到本世纪初，由于电子集成电路、飞行器设计、发动机等基础技术的发展，部分民营企业对无人机行业进行了探索，出现了第一批吃螃蟹的民企，形成了少量低端民用小型无人机，使市场需求由依然是高端的军用领域向民用领域扩展。但这阶段由于技术的仍然不成熟，导致探索和创新的企业多，靠无人机赢利的少。部分民营企业为院校、研究所提供低端小型的无人机产品的设计及演示验证而赢利，其间出现了国家单位对低端无人机的探索性应用，包括了农业部用于农作物估产的无人机系统，后来都因为技术的不成熟而流产。

第三阶段从本世纪初至今，需求上军用领域依然饱满，军工企业订单雪片一般，民用领域也遍地开花，由于技术的原因，民用需求最先在航拍、测绘、气象领域被拉动。这一阶段的技术特点是，由于基础技术的进一步发展，军工企业的技术以高端为主，逐渐向低端扩展，组织形式出现了部分军工企业的股份制改造；民用上组织形式以手工作坊式的企业为主，逐渐发展成长而趋向成熟，但缺乏理论支撑，基本是靠试验和摔机来推动进步，安全性和可靠性低，缺乏规模化发展。这一阶段尝试涉足无人机行业的民企增多，但尚未找到足够的赢利模式。

人机交互的发展论文篇5

无人机战场通信网络的发展及相关技术

无人机作为战术通信中继已在战争中发挥了重要作用, 未来无人机将进一步融入战场通信网络, 发挥更大的`效能.介绍了无人机通信中继平台的发展现状和无人机组网的相关技术, 并展望了无人机战场通信网络的发展前景.

作者：周玉娟程韧郑博作者单位：空军工程大学电讯工程学院刊名：飞航导弹 PKU英文刊名：WINGED MISSILES JOURNAL年，卷(期)：“”(9)分类号：V2关键词：无人机通信中继 ad hoc 网络发展前景

以色列军用小型无人机发展概览篇6

以色列研制的小型无人机型号多、技术先进、性能优越而成为世界军事领域关注的.焦点, 以云雀系列、陨石系列无人机为主要论述对象, 对以色列已实现军用化的几种典型小型无人机作了进一步介绍.

作者：张爱华秦武作者单位：张爱华(92941部队92分队)

秦武(92941部队91分队)

基于人机交互的认知数字流形篇7

关键词：人机交互,认知结构,流形,复杂网络,脑成像

21世纪初美国提出“NBIC”聚合科技(Nanotechnology,Biotechoiogy,Information technology and Cognitive science,纳米技术、生物技术、信息技术和认知科学,Converging Technology)概念,并把认知科学放在优先位置[1]。我们认为对脑认知活动的多元观测,多维分析,了解认知功能、结构、动力过程、演化规律,建立脑多元信息融合模型是本世纪认知科学、信息科学的重要目标。和广袤宇宙,微小的量子比较,人类对脑认知的研究还处在初级阶段,是什么阻碍我们对脑内宇宙的研究呢?我们认为是研究范式、方法、工具,尤其,需创新类似望远镜、显微镜、粒子加速器这样的脑研究工具。

在当前脑研究范式中,通常认为:人脑信息加工心理机制既不能从外部对内隐心理机制进行直接检测,也不能利用解剖方法对人脑组织所发生的心理过程进行微观水平直接观测,因而,只能用计算机模拟方法,或称“黑箱”方法借助于理论思维作用对脑认知的内部活动和机理做出间接性推断。以上是当代认知科学脑研究的隐含假设,我们称为“人机分离的功能模拟”研究范式。由于,功能模拟没有采集脑认知活动的数据,难以获得认知结构模型,而认知结构是人类学习、智慧的基础[2],是脑高级功能研究的基础。

人脑是物质、能量和信息耗散结构,一定角度,脑研究是用仪器去探测、扫描大脑的物质、能量、信息过程,并拍摄、采集数据,基于数据重构大脑。生物、医学、解剖学领域重点研究脑物质结构;神经信息学、脑电(electroencephalogram,EEG)、事件相关电位(event-related-potential,ERP)、脑功能成像[3]等是从能量角度研究大脑,是当前脑研究热门领域,MIT甚至在“点亮”大脑[4]。在物质、能量深入研究同时,我们不能忘记,大脑核心功能是符号、信息处理,是个体数年,生物体系上亿年信息耗散之结果,应开拓信息、内容层研究思路。基于人机耦合态的在线认识数据采集如图1所示,我们希望在人机交互中借助Agent等技术采集认知数据,构建认知动力方程。

脑认知信息、内容是认知心理学研究对象,但是当前认知心理学还未建立比较纯粹的认知数理模型。皮亚杰把很多数理概念引入心理学,做开创性工作,比如,在认知逻辑形式化方面引入数学中范畴、态射、群、格等概念理论[5]。从数理角度,构建脑认知数理模型的基础是背景空间、流形,或认知流形。我们不仅在思想层面建立认知流形,还需创新方法、技术、工具观测它。当前,计算机已广泛应用在认知心理学研究中,但只是

在信息技术广泛渗入时代,人机交互为基础的信息世界成为人类生存基础环境。数字世界和认知世界充分融合意味我们能通过塑造、设计数字世界而影响、改变认知世界。构建符合认知逻辑的数字环境、数字系统和大脑认知同构、态射,产生认知同化、顺应及平衡;采集认知过程信息实现认知逻辑更加精细研究,在数字系统中寻找到范畴、态射之表现,探索认知动力系统的秘密。把传统认知心理学家认知实验转移到虚拟的人机交互空间中,实现认知心理的连续、直接观测是趋势。脑认知流形如图2所示,假如人认知行为发生在流形中,通过信息观测映射到数字流形,实现认知结构成像。

基于人机系统的认知、思维研究也是钱学森教授所推崇的。1991年4月18日与他指导的科研集体中的部分成员有过如下谈话:“智能系统是非常重要的,是国家大事,关系到下一个世纪我们国家的地位。如果在这个问题上有所突破,将有深远的影响。我们要研究的问题不是智能机,而是人与机器相结合的智能系统。不能把人排除在外,应该是一个人—机智能系统”[6]。

当前,人机交互一般关注:(1)情境界面中承载知识、内容本身;(2)比如,让界面更加真实,而我们更加关注;(3)认知内容蕴含的认知逻辑;(4)基于认知流形的动力过程。和物质、能量脑研究范式不同,人机交互观测信息数据,缺少直观的“物质”性,即人机交互的认知观测需解决脑内、外认知对象是统一的,也即人机交互状态观测到的认知对象、规律和脑内认知对象、规律是统一、协变的问题,称人机交互认知观测数据客观性、统一性问题。

1 耦合认知

基于“人机分离的功能模拟”脑研究范式,从哲学互补原理可洞察到还有“人机融合的结构观测”研究模式,即用观测工具对脑认知过程、结构进行在线、直接的数据采集。此模式存在和可能吗?因为我们无法进入脑内,大胆想法是,把脑内认知诱导到脑外观测,但认知会发生在脑外吗?我们去认知哲学前沿审视人机交互,寻找可能。

1.1 脑外认知观

认知哲学是认知科学的重要组成部分,新认知哲学观点会影响到具体认知研究,当前,情景、具身、分布、延展认知观[7]是认知哲学热点。

誗情境认知:认知、知识和智能的发展是根源于智能体-环境的相互作用、相互调节和适应。认知是一个发生于智能体-环境相互作用和相互关系的整体中的事件。环境不是一个认识论上的单纯的认知对象,它同时支撑着智能体的生存;认知是面向生存的,它是活动指向的,是指向环境的活动,是可存在于脑外环境的。

誗具身认知:有机体和环境在基本循环中彼此包进(enfold)又彼此展开(unfold),这循环就是生命本身。认知和知识发生在耦合于环境的生命系统中,被誉为第二代认知科学观,是对之前认知就是计算的发展。

誗分布认知:哈钦斯1995年出版了代表性著作《荒野中的认知》(《Cognition in the wild》)主张:认知活动发生于并分布于他人、技术人工物、外部表征和环境共同构成认知环境,认知是分布现象。

誗延展认知:延展认知及延展心灵是在国际上引发重要震动和争议的认知哲学假说。本假说在1998年由克拉克提出,主张:心智可以向外延展,进入系列认知客体,比如工具、媒介及其他人,认知代理(Agent)可以延伸到脑外工具。

我国有关学者认为思维以语言、场等外化,语言是思维的工具,人类必须通过语言进行思维,但思维又必须通过语言、文字和手语外化,并产生社会作用,如果思维不外化,那么人的大脑将永远是思维的黑夹子,思维将变得毫无意义[8]。分布认知等已成为人机设计[9]重要思想。

综合当代认知前沿哲学观念,我们认为:脑内认知可超越颅骨界限在脑外活动。在技术上,脑内认知以Agent方式,被情境耦合或者诱导到脑外环境中是可行的。脑外认知观为我们在人机交互环境中观测脑内认知提供哲学基础,即在人机交互状态观测到的认知对象和脑内的认知对象是会一致、统一的,基于人机交互而采集的认知数据是有价值的,是可反映认知规律的。

1.2 人机耦合

基于探索脑信息、符号层面运动规律的强烈目的,我们需要在大脑信息处理活动状态研究大脑,选择一种仪器和大脑信息加工态在线关联、耦合,采集大脑信息活动过程、认知结构的信息,而不是物质或者能量,称这样的脑状态为信息脑(i Brain),区别于物质和能量层面的研究范式,这样,记录的数据将反映大脑信息加工、认知结构的秘密,而暂时不去研究脑信息加工时的物质和能量状态,仅专注于脑信息加工本身,无疑计算机是最好的选择。

当个体操作计算机时,计算机软件系统对个体的相关操作做出反应,比如,记录认知操作过程、依据相关逻辑确定下步认知操作,在大脑和电脑之间构成相互的输出、输入,达到信息耦合状态。

定义1人机认知耦合态:在人机交互中,(1)研究者对认知内容、逻辑、规则、流程、轨道的设计;(2)也包含个体大脑对研究者设计的认知情景的理解;(3)以及理解之后大脑对情景的反应;(4)计算机根据大脑反应过程决定下个操作节点,实现认知调制;(5)如果大脑行为按照预定轨道活动,意味着设计者的认知设计和个体认知是匹配的,相关认知规律得到一次验证;(6)否则,要么是认知规律有待修正,要么就是认知调制需要改进,或者,其它原因[10]。

把大脑认知操作的对象、内容、规则、流程、轨道等的总和称为认知信息空间。引入认知信息空间目的是用计算机软件“物化”脑信息活动,用Agent代替被研究对象的大脑行为,信息耦合抽象为认知信息空间中Agent行为,就像电磁场场中粒子。

1.3 BSM耦合认知系统

在脑外认知视角,人机交互是“脑认知体-耦合情境-信息流形”(brain cognitive body-coupling situation-information manifolds,简称“BSM”)组成的数字化认知观测平台。

定义2脑认知体:脑认知体以头颅为生理边界,是脑认知的生理载体,也是当前个体智能存在的物质基础。

定义3耦合情境:耦合情境包括人机情境界面、智能设备互动情境和本地客观环境,以能被大脑感知、认知到的对象为边界,比如,人机可视屏幕及界面的扩展。情境包括交互情境、认知数据采集、控制面板等部分。

定义4信息流形:Agent体外载体,包括认知调制器,调制情境和脑认知到耦合态;认知数据处理系统;认知可视化仪。信息流形主要功能是对学习过程、认知结构进行成像。

1.4 耦合认知数字流形

我们希望构建可视化认知数字动力系统,类似宇宙学研究中的云雾室。它里面充满了干净空气和酒精(或乙醚)的饱和汽,如果闯进去一个肉眼看不见的带电微粒,它就成了“云雾”凝结的核心,形成雾点,这些雾点便显示出微粒运动的“足迹”。

定义5认知耦合数字流形:基于脑外认知观,耦合认知的人机交互环境,Agent技术,把认知投影到信息流形中,认知过程在此信息流形中成像,称此流形为“认知耦合数字流形,认知数字流形”。我们希望“认知数字流形”能成为认知观测的“云雾室”。

和认知数字流形类似,在认知行为层有脑空间概念(Brain Space)[11],物质层有脑流形(Brain Manifold)[12]。

脑认知体是高维认知流形,需要把其投影到低维流形中。脑认知流形降维涉及低维流形结构、情境空间矢量化、认知活动符号化、认知动力结构等问题。BSM是实现认知数字流形的工具平台。

假设有研究者采集认知过程信息,一般有如下方式:(1)拍照:获取认知情境活动视觉信息;(2)录音:录制认知情境活动声音信息;(3)摄像:录制认知情境现场视频信息。这些数据以紧耦合方式存在,难分解、归并、检索、处理,须另辟蹊径,创新认知情境矢量技术。

BSM信息观测面临以下问题:

(1)诱导情境设计:如何设计有效耦合情境,把脑内认知诱导到脑外流形。

(2)部署情境感知器:部署多样情境认知感知器,对BSM进行多维观测。

(3)认知信息采样方法:认知情境空间和过程存在大量信息,需要对高维信息进行科学采集,便于信息处理,防止数据“灾难”。

(4)认知流形表征方法:如何表征复杂BSM认知流形,保证认知信息流形的完备性。

(5)认知情境重构技术:涉及低维流形和认知逻辑架构选择。

(6)认知流形动力系统:认知信息流形的动力学公理、规律、数学描述,实现认知行为的预测和调控。

2 基于范畴的人机交互数学结构

基于BSM脑认知观测平台,还要理清BSM数理模型,为BSM研究提供基本的数理支撑。从一定角度,BSM目标是把B认知映射、镜像、同构到M中,通过S。我们将在范畴论角度分析BSM之间的关系。

态射、范畴与范畴论可视为人类认知工具发生的重要的想象方式,它提供新视角,让人们更清晰地看到认识过程中从具体至形式之间通路的动态变化。著名心理学家皮亚杰在20世纪60年代就开始基于范畴的认知研究[5]。

2.1 BSM认知范畴

定义6认知范畴:在近代数学中,“范畴”(categories)是一个最为基本的概念。一个范畴C,是由以下要素组成:

C1一个类ob(C),其元素称为「对象」;

C2一个类hom(C),其元素称为「态射」(也简称“射”)(morphism)或「箭号」。每个态射f都只有一个「源对象」A及一个「目标对象」B(其中A和B都在ob(C)内),称之为「从A至B的态射」,标记为f:A→B。所有从A至B的态射所组成的类称之为「态射类」,标记为hom(A,B)、hom C(A,B)、mor(A,B)或C(A,B)。

C3一个二元运算,称为「态射复合」,使得对任意三个对象A、B及C,都会有hom(B,C)×hom(A,B)→hom(A,C)。两个态射f:A→B及g:b→c的复合写做g°f或gf,并会符合下列三个公理:

A1不相交性:除非A=A'且B=B',态射集C(A,B)与C(A',B')不能相交;

A2结合律:若f:A→B、g:B→C及h:C→D,则h°(g°f)=(h°g)°f;

A3单位元:对任意对象Y,hom(Y,Y),总存在一个态射1Y,使对任意态射f∈hom(X,Y),g∈hom(Y,Z),都会有:

1Y有唯一性也称为对象Y的恒等射。若f∈hom(X,Y),g∈hom(Y,X),有g°f=1X,那么,射g就称为f的左逆,而f称为g的右逆。既为f的左逆又为f的右逆的射称为f的双边逆。

范畴中的态射有时又称为“箭号”,这种叫法来自于交换图。交互图也可以理解为对象之间的逻辑关系、数理约束。人机交互中的认知态射交换图如图3所示。

认知范畴定义了我们研究认知的视角,在此视角,我们把大脑机体、情境空间、信息系统都是认知范畴。

定义7认知态射:在认知范畴C中,(1)能够被认知到的客体、现象组成认知类及对象ob(C),A,B∈ob(C);(2)认知操作建立A和B之间的联系,不管是基于知识关联、认知逻辑还是经验想象,就是认知态射f:A→B,hom(A,B),无疑,A,B,C∈ob(C)形成hom(B,C)×hom(A,B)→hom(A,C)认知态射链,满足传递性等;(3)恒等认知态射是对认知对象自身的确定操作。态射和认知操作、认知算子等都类似,就是认知对象之间的关联,也可以用箭头表示。

定义8 BSM认知范畴:在人机互动系统中,我们假定脑认知体是B范畴,耦合情景是S范畴,信息流形是M范畴,总称BSM范畴或人机耦合范畴。BSM范畴中,存在如下态射:

(1)认知态射:脑认知体中存在的客观认知对象之间的态射称为认知态射,即脑内认知对象之间存在的关系、态射。认知态射以大脑思维为基础。

(2)符号态射:脑外信息流形对象之间的态射,符号态射以计算符号为基础,在符号、逻辑、操作体系中存在。

(3)耦合态射:耦合情境在认知和符号态射之间建立态射,通过人机交互实现它们之间的双向链路,用η表示。

定义9认知对象等价:态射f∈hom(X,Y)称为等价的(f:X≈Y),如果存在f的双边逆f-1hom(Y,X),即认知范畴之间存在等价认知态射则认知范畴对象是等价的。

在BSM范畴中,通过认知等价态射,保持脑内认知对象、耦合情境和认知数字流形之间的认知对象等价,这个是我们研究脑内认知的客观性基础,也是脑内认知诱导、耦合到人机系统中的数理基础。

2.2 认知函子

定义10认知函子:函子是认知范畴之间保持结构的映射。它们可以被看成以所有(小)范畴为成员的范畴中的态射。

一个从范畴C到范畴D的(协变)函子F被定义为:

对C中任意对象X,都有一个D中相应的对象F(X)与其对应;

对C中任意态射f:X→Y,都有一个D中相应的态射F(f):F(X)→F(Y)与其对应;

并使下列性质成立:

对C中任意的对象X,都有F(idg)=idF(g)。

对C中任意两个态射f:X→Y和g:Y→Z,都有F(g°f)=F(g)°F(f)。

一个从范畴C到范畴D的反变函子F不同于函子的地方仅在于将D中的映射箭头倒过来。比如说f:X→Y是C中任一态射,则有F(f):F(Y)→F(X)。

B是脑内函字,M是信息流形函子,f是脑内认知态射,通过人机耦合态射η建立变换,如图4所示:

在BSM中,认知函子是不同认知范畴之间保持结构统一的操作,也是不同智能体之间保持同构的描述。BSM自然变换的分解如图5所示:

图是定义范畴的基础,函子是范畴之间的图同态,图表和函子是一个概念的不同方面,自然变换是函子间的映射,也是一种结构到另一种结构的变换。

脑认知体、耦合情境、信息流形的之间存在自然变换,保持脑内认知对象、结构、体系和信息流形之间的对象、结构、体系保持统一同构是BSM研究的基础。

定理1脑认知体和认知数字流形之间存在自然变换,简称“自然耦合变换”原理:在BSM范畴中,以耦合情境界面为纽带,信息流形和脑认知体之间存在双向认知态射通道,基于认知等价我们把脑内认知对象映射到脑外信息流形中:

以上说明,脑内认知对象通过耦合方式能被映射到脑外,称为认知对象等价或认知耦合观测可行性定理。

2.3 认知素描

数理逻辑中的形式理论是基于符号串作为形式结构的规范方法,范畴论中,态射用箭号等图表示,图是定义范畴的基础。范畴是图加上满足某种条件的图中箭头的合成规则。范畴中基于图更加直接的概念是素描。素描是数学结构的另一类抽象的形式规范,它基于图而不是形式语言或元组,其语义通常是函子。

定义11认知素描(finite product sketch):一个素描S=(G,D,L,C)是四元组,其中G是一个有向图,D是G中具有相同源和目标的路径对集合(称为可交换图表),L(C)是G中的锥(余锥)的集合。素描可以把认知图式、认知操作等可视化,也是基于人机系统能够成为脑探索新工具的基础。

范畴、态射、图、函子、素描这些为脑内认知可视化提供理论依据,尤其在BSM系统中,信息系统强大的可视化功能可以应用在脑内认知描述中。我们通过以下步骤可以实现认知可视化。

(1)矢量耦合情景:通过认知对象标注等方法,在认知情境中部署认知感觉器。

(2)认知符号序列:认知感觉器感知认知操作,把认知操作转为认知态射。

(3)认知素描:基于认知态射、函子等获得认知素描。

(4)复杂认知网络:在图基础上,把认知逻辑和态射结合,形成可视化复杂认知网络。

定理2脑认知结构和认知数字流形自然同构,简称“认知自然同构”原理:基于BSM之间的态射链路,脑内认知过程投影、成像到认知信息流形中,实现脑内认知脑外流形成像。

“自然耦合变换”和“认知自然同构”为认知耦合观测数据中存在的认知对象、过程、结构等的科学性、有效性提供基础,是我们开展认知耦合观测的保证。

3 可视复杂认知网络

3.1 高维认知流形和复杂网络同态

在数学上流形可以用图来逼近,或者,在一定角度的同构,图G=(V,E)包含有两个集合:V为顶点集合,E为边的集合。对于取样自d维流形上的样本数据集x,首先在数据点和图G的顶点之间建立一一对应,并定义成对数据点的相似度为图中的边,这样就根据数据点建立了一个与之对应的图。图和流形有很多相近的性质,最重要的一点就是都可以嵌入到Euclid空间。对于流形来说,一个与之对应的图就是一个拓扑对象,其拓扑性质通过边的权值表现。我们使用复杂认知网络[13]来描述认知流形,网络节点代表认知对象,边代表认知点之间的逻辑关系。

当前,复杂网络已经是研究热点,不仅成为描述从技术到生物直至社会各类开放复杂系统的骨架,还是研究它们拓扑结构和动力学性质的有力工具。在认知领域,皮亚杰为代表的认知心理学体系中图式,知识工程中的知识图、概念图、思维导航图等都和复杂网络概念关联。

流形的坐标映射,坐标图,或简称图是在流形的子集和简单空间之间的双射,使得该映射及其逆都保持所要的结构。在认知流形中,图册是认知可视化表达之形式,比如,知识可用树、网、线等来表达,认知流形的图形如图6所示。

因此,基于脑内认知耦合观测和脑内认知成像定理,我们可以用复杂网络去同构脑内认知结构,对高维认知流形进行降维,实现脑内认知的可视化。

3.2 认知符号序列

在研究科学研究中精细的测量必定带来大量的数据,而用以刻划事物根本性质的特征量通常为数不多,为了得到这少数特征量,未必要从大量精细的原始数据出发。其实,整个自然科学体系都是在对事物进行“粗粒化”或“约化”的描述。这一纲领在动力学系统的研究中可以较好地实现。符号动力学就是在有限精度下对动力学过程实行严格描述的一套方法[14]。

我们建立认知操作描述符号集合,对BSM情境中的认知过程进行“约化”描述,解决情境数据采集中的“数据爆炸”问题。

BSM是复杂系统,需要多维度观测和采集其活动信息,认知符号序列在符号和逻辑层面描绘认知过程也符合当前复杂系统数理体系的趋势,即数值和符号运算的综合、泛化、自修复,构建并行处理及Agent计算模型,比如,CAS模型中适应性基本机制“刺激—反应”模型就以“IF—THEN”规则表达。

在BSM耦合情境中需要对认知互动过程进行科学“粗粒化、约化”处理,比如,学生听写BOOK单词,先敲击B再敲击U再敲击K,发现不对就移动光标删除“U”后再敲击两个0,可用以下三种序列表达:B-BU-BUK-BOK-BOOK、B-U-K-O-O、1(1代表正确0表示错误),显然第一种最能反映学生认知过程,第三种只是简单结果认知信息最少;用Q表示提问S代表选择题等都是符号化的体现。

定义12认知符号集合:称能表达认知的符号S={a∈S|S为计算机能存储、传输、处理的有认知意义的字符}为认知符号;认知符号能够表达认知时间、空间、流程、逻辑等认知元素。

定义13认知操作:设S是认知符合结合,认知操作φ:S⊗S→S称为S上的一个二元认知操作,简称认知操作⊗等符号表示“认知算符”。认知操作φ和态射、映射、函数都有相似的含义,认知耦合是两个认知系统之间的双射。

认知操作是核心概念,除了用代数中的加、减、矩阵等数理算符表达外,还可用数理逻辑、形式语言描述的认知操作,比如,IF-THEN语句、计算机编程语言代码等。

定义14认知符号序列:有认知操作内涵能反映认知操作过程的数字、符号序列称为认知符号序列,即认知过程P用S中的元素S1,S2,...,Sx-1,Sx进行表达,组成认知符号序列。(Cognitive Symbol Sequence,简称:CSS)。

定义15认知逻辑:基于CSS面向认知过程的逻辑系统。逻辑规律通过包括计算机语言在内的各种语言来表达。从表现形式角度,分形领域的L-系统、IFS系统和认知符号序列有很多相似之处,以及信息流理论架构[15]。

4 认知数字流形体系架构

在BSM中,认知是高维流形,难以构建全局和整体的流形坐标系,只能对流形局部进行观测。和情境信息流理论“一个情境是世界的一个有限部分或片断”[16]一致,我们认为人机情境是认知流形的局部测量。我们(1)利用耦合情境对认知流形的观测;(2)采集数据;(3)把认知流形同构到复杂认知网络中;(4)实现认知流形符号化、数理化。

4.1 认知数字流形数理层次结构

在采集大量认知符号序列,能对脑认知进行持续比较精细的观测后,需要象宇宙学一样,对这些数据进行数理分析,建立脑内认知结构及认知动力模型。基于数理思维模式,我们将从认知对象开始建立BSM的数理层次体系,为其研究提供架构。以上结构大致层次如图7所示。

(1)认知对象:人机交互设备中,部署有传感器能够被感知的对象。

(2)认知集合:在某个情境或者过程中,根据一定目的、流程、功能等组成的认知对象元素的总和。

(3)认知拓扑:在认知集合的基础上,基于拓扑公理构建认知拓扑。

(4)认知流形:基于认知拓扑,加上附加的度量结构,形成认知流形,这些结构包括数理、权重、距离、流、逻辑等。

(5)认知度量:用认知情境耦合脑内认知,对认知进行度量。

(6)认知逻辑:在认知逻辑层面建立情境之间的制约关系,构建认知逻辑体。

(7)认知耦合:情境和大脑认知发生互动,采集脑内认知活动的信息。

以上结构大体上是层层叠进的,当然,也是我们的研究线路图。在数理角度,关键层是拓扑、流形层;在应用角度,关键层是逻辑、耦合层。在此体系结构中,认知拓扑流形层是整个体系的核心;当前,认知心理学重点在逻辑和耦合层。基于BSM将能够基于高精度、大数据的角度建立认知拓扑流形体系。

可视化复杂认知网络涵盖以上所有描述,是以上结构的表达和实现。

4.2 BSM系统功能结构

在认知流形观测视角,BSM分为以下系统层次:

(1)情境物理层:BSM物理层,和认知、信息世界相对,情境物理层包括触屏等物质、视觉层面。

(2)情境矢量层:基于物理层部署感知器,采集认知活动信息。

(3)认知符号层:把采集的情境信息矢量化、符号化。

(4)拓扑聚集层:构建情境承载数字空间,投影认知情境,尤其在拓扑视角,或者,拓扑空间中。

(5)认知动力层:构建认知动力数理体系,实现认知情境模拟、预测与控制。

(6)认知耦合层:通过BSM耦合情境,计算机和大脑进行互动。

BSM系统层次视图如图8所示,BSM系统层次中情境矢量层是一个关键层,因为,首先,构建认知情境矢量目标是采集到科学的认知符号序列数据,数据采集方法、策略将关系到认知数字流形中的认知重构;其次,拓扑聚合是承上启下层。

5 基于认知数字流形的应用

5.1 认知耦合成像

BSM是信息-认知融合系统,认知过程通过认知耦合态、认知符号序列映射到复杂认知网络中,也是对脑内认知拓扑成像的过程。脑认知拓扑成像能够实现脑内认知的观测,形成新的脑认知结构观测范式。

对中国学生英语听力的学习拓扑成像过程[16]。通过2万多条记录我们获得中国学生A-Z字母混淆表,如图9所示,比如A最容易混淆为O、其次为E,再次为H;还发现对偶性,如O最容易混淆为A。和国外研究比较,我们能够获得认知过程更加精细的内容[17]。

采集24点计算游戏的认知符号序列5.3万条记录,比如计算机给出“1-3-4-9”学生进行计算,获得如下的认知符号序列,如图10所示:

把以上四个数字替换为ABCD,运算符号不变将获得类似如下的代数式,类似,生物学的基因,我们也称其为24点的认知基因,我们总共获得205种的认知基因,如图11所示。

我们希望通过BSM系统,采集到认知符号序列,在认知拓扑空间进行抽象,获得更多认知、思维、知识基因。基于认知基因,我们将能开始进行认知结构的建构,理解认知结构的成长、发展、演化规律。

根据这些认知基因,我们对实际的记录进行分类,成像,获得24点认知过程的拓扑规律,比如,不同认知拓扑基因平均时间等参数,列举部分拓扑图如图12所示:

基于学习过程的认知结构成像技术将为教学提供有效支持,比如,教师将根据认知基因进行个性分析,或者,根据认知基因的规律进行有效训练,也能够为传统的认知心理学提供支持。

5.2 认知耦合调制器

类似粒子加速器,探索认知数字流形需工具,我们构建认知耦合调制器平台进行认知流形实验,脑认知耦合调制器的架构如图13所示:

认知耦合调制器是群体协作认知研究平台,多元信息融合环境。基于经验的认知设计和基于数理方程的认知轨道在人机耦合情境采集的数据中获得验证,实现认知可视化、矢量化、数理化、动力学研究。

6 结论

(1)基于前沿认知观,人机系统是脑内认知外延、扩展的数字环境,是思维和物质之融合体。“脑认知体-耦合情境-信息流形”组成的BSM认知观测平台实现高维认知流形耦合观测。

(2)基于范畴论,在BSM中脑认知体和脑外数字流形之间存在自然耦合变换、认知自然同构,保证耦合观测数据的科学性、有效性,认知对象、规律协变性。

(3)BSM平台是脑认知结构观测平台。基于认知耦合态、认知符号序列等概念,脑内认知态射到低维的可视化复杂认知网络中。

人机交互的进化与未来篇8

人机交互概念，源于20世纪50年代。1959年，为减轻人操纵计算机的疲劳，美国学者B.Shackel提出“人机交互”概念。1960年，Liklider JCK提出“人机紧密共栖”，则被视为人机界面的启蒙观点。

从人机交互诞生之日，到当下热门的可穿戴式交互，它就一直在演进之中。这种演进不仅包括交互理念与方式的进化，而且涉及交互关系转换及交互时代的变迁。与此同时，人机交互中的“视”界，也在发生改变。

人机交互的进化路径

1、从“专家界面”到“人本界面”

“专家界面”主要流行于20世纪50年代到上个世纪末，它主要通过作业控制及交互命令语言，实现人与机器之间的交互。这种界面，是一种需要培训之后才能使用的机器界面，操作它的人，必须是计算机方面的专家，普通人不通过专业的学习，很难实现相关操作。

在“专家界面”向“人本界面”的过渡中，出现了“X窗口界面”，即标准图形化用户界面（GUI）。它是由麻省理工学院于80年代开发的。它主要是通过控制鼠标器和键盘，操作具有下拉菜单、在屏按钮、卷动条和为运行不同应用的重叠窗口界面，实现各种功能。从20世纪末到目前，人们就一直在大量使用X窗口界面，如Apple Macintosh、Microsoft Windows等。

研究者之所以开发“人本界面”，初衷是为了克服传统人机界面上的固有缺陷，使交互过程更加友好。他们通过研究认知科学规律，结合人类的心智特点，在指出当前界面设计中弊端的同时，形成新的人机交互思路。

“人本界面”将“以人为本”作为人机关系的理想状态，主要体现在界面及软硬件技术上的具体设计原则和实现方法，代表着交互的未来。

——基于“人本界面”理念的现实设计：可穿戴“虚拟交互”系统

目前，德国研究人员正在开发一种全新的可移动、可穿戴“虚拟交互”系统，这一系统能够通过视觉存贮设备将视觉信号转换为命令，有望取代键盘和显示器。这种设备是一个小型的、穿在身体上的电脑，其摄像头能捕捉到手部运动，通过转换对应的命令执行。人们可以用手在空中画出各种图形，系统便可立即将动作转化成各种指令。

不久的将来，通过眼球运动便可连接网络获知各种信息，通过凭空画几个数字就能拨打电话、联系亲友，通过手指抖动就可以键盘输入，动动嘴皮就能进行声波消费等等。未来，类似的“拟人式”交互将无处不在，而一切也将因此变的美妙无比。

2、从“人机交互”到“人人交互”

人机交互，本质上是人与机器的互动与交流，交互关系主要体现在界面设计及各种操作之中。人与人千差万别，机器的种类也是多如牛毛，如何确保任何人与任何计算机之间的顺畅交流？这就需要一种语言。这种语言需要从机器出发，一步一步靠近自然语言，最终成为人类语言的一部分，为每个人所理解、所使用。

随着人机之间语言障碍的破除，人与各种设备之间的距离缩短，人机交互也将趋于无形，而代替人机交互的，将是逐渐增强的人与人之间更加现实的交互。它的出现，将使人借助机器与外界交流的距离趋于零，也使机器真正演变为人的一种外在“器官”。

在交互关系转换背景下，人们对各种交互技术的探讨，也从对产品的设计、定位已逐渐从使用层面，深入到心理、情感、行为等层面，而探讨人与人之间互动的新形式，则成为交互领域的新课题。

3、从“人适应机器”到“机器满足人”

在“人适应机器”的时代，机器仅仅是人的工具，由于它无法理解人的需求，需要人适应机器的使用方式。在“机器满足人”的时代，机器成为人“身体”的一部分，体现出人类对各种技术工具的运用，已经达到主客关系互换的境界。

未来的交互设备，将极大满足人的各种需求，人将成为机器真正的主人，智能化的机器成为人的一部分，而不只是一种外在于人身体的物品。

人机交互的三种视“界”：

大、小、无

人机交互经历了大、小、无三种视“界”，可穿戴设备所代表的交互形式，是交互逐渐趋于无形的体现，未来的交互将实现“睁眼便是全世界，机器就是我身体”的终极智能梦想。

以PC为代表的大视“界”观，给人们带来“桌面”式的人机互动体验，满足了人“静待”获取信息的需求。大视“界”，具有直观、清晰的特点，能够满足人们在工作、学习等固定时间段使用，但是却无法满足人离开“桌面”后处理信息的需求。

以手机、平板为代表的小视“界”观，带来了“助理”式的人机交互体验，满足了人“行动”获取信息的需求。小视“界”具有便携、智能的特点，它解决了人在移动中的使用需求，但由于仍外在于身体，这些设备还是无法在某些特定情境下使用。

以可穿戴设备为代表的无视“界”观，则带来“肢体”式的人机交互体验，满足了人“随意”获取信息的需求。它不仅具有大小视“界”所具有的特点，而且能让设备随身而动、如同无形。

人机交互的最新进展：

以可穿戴设备为代表

在当下所有的现实交互设备中，可穿戴设备是最符合人机交互前沿理念、最能代表交互方式的进化趋势、最能体现人机交互关系转换需求的设备。各种可穿戴式设备所提供的功能，也体现了人机交互朝向“轻交互”发展的趋势。

随着声波、手势、体感等交互形式的出现，以往只是面向普通人的设备，未来将逐渐惠及老年人、残疾人等行动不便人群，甚至动物。

可穿戴所带来的交互变革，不仅体现在适用群体的增加，而且体现在使用场景的极大扩展，帮助用户充分利用更多碎片化时间。由于手表或眼镜这些设备，一般都是贴身佩戴，使用时间远超其他设备，使用场景也更复杂，其中能够实现的交互方式也更为智能化、人性化、自然化。例如在人们游泳、骑车和爬山时，就可以实现声控“语音”操纵、体感“振动”提醒、手势“行为”控制等现实交互。

随着融合功能更丰富的可穿戴设备出现，未来交互将变得更自然、更频繁、更广泛。

人机交互的进化方向：

以人为本、自然互动、适合身体

PC、手机、可穿戴设备是人机交互在信息时代各个发展阶段的代表性产品，作为继承者，可穿戴设备将是“人本界面”一展身手的好机会。

人机交互三种视“界”观，则不同程度地满足了人与机器互动、通过机器观察外界、实现更深层沟通的三种需求。这三种具有代表性的交互“视”界，未来必将以最贴近人、最简单化、最具人性的无视“界”为发展主流，而可穿戴设备即是这一趋势的代表。

人机交互进化到可穿戴设备这个阶段，是人与机器互动的必然结果。不论哪一种交互方式，都为其今后的进化提供了可资借鉴的资源，它们不存在高下优劣，只有适合不适合，因为人的需求永远是多元化的、多层面的、多视“界”的。

人机交互，不论这人是何人、这机器是哪一类设备，都在朝着一个方向前进——一种以人为本的、自然互动的、适合身体的交互。

【人机交互的发展论文】推荐阅读：

智能人机交互07-15

远程人机交互06-02

人机交互理论07-06

人机交互图形界面06-28