手势能够将物理动作描述成无声的语言交流,它能传递人的想法、情绪及某些指令信息。手势识别可以来自人的身体各部位的运动,但一般是指脸部和手的运动。在交互设计领域,人们可以使用一只手或两只手对相关设备进行操作,根据不同的应用目的,手势可以分为控制手势、对话手势、通信手势和操作手势。

中文名

手势识别

提出人

约书亚·弗拉德

方法

通过数学算法来识别人类手势

隶属

计算机科学

基本概念

手势识别作为人机交互的重要组成部分,其研究发展影响着人机交互的自然性和灵活性。目前大多数研究者均将注意力集中在手势的最终识别方面,通常会将手势背景简化,并在单一背景下利用所研究的算法将手势进行分割,然后采用常用的识别方法将手势表达的含义通过系统分析出来但在现实应用中,手势通常处于复杂的环境下,例如:光线过亮或过暗有较多手势存在手势距采集设备距离不同等各种复杂背景因素。

这些方面的难题目前尚未得到解决,且将来也难以解决因此需要研究人员就目前所预想到的难题在特定环境下加以解决,进而通过多种方法的结合来实现适于不同复杂环境下的手势识别,由此对手势识别研究及未来人性化的人机交互做出贡献。[1]

手势从哪里来

在手势交互界面中,纯粹的手势,姿势和追踪以及他们之间的组合构成了交互的基本术语。对于Kinect来说,目前可以使用的有8个通用的手势:挥手(wave),悬浮按钮(hover button),磁吸按钮(magnet button),推按钮(push button),磁吸幻灯片(magnetic slide),通用暂停(universal pause),垂直滚动条(vertical scrolling)和滑动(swipping)。其中的一些术语是微软自己引入的,有一些是游戏代理商设计的,还有一些是Kinect for PC开发人员为了开发应用而引入的。

很少情况下会为人际交互界面术语进行定制。通常要将这8种手势区分开来,并在一些应用中通用也不常见。相似的情况在web术语和手机手势中设计新的界面时也会遇到,其中只有部分的设计能够变成标准。在网页设计领域,走马灯和光标动画流行一时,并在一片鄙夷声中迅速消失。在手机设计领域由于苹果公司在触摸屏领域的早期地位这种术语得到了很好的规范。苹果引入了一些触摸手势术语,如轻点(tap),点住不放(tap and hold),滑动swipe及pinch。

交互术语形成规范有几个障碍。第一个就是为了获得利益而避免标准化。在90年代后期的浏览器大战中,尽管各大厂商在口头上说标准化协议很重要,但是在浏览器开发上依旧不停的开发自己的HTML版本,以吸引开发者使用他们的技术。设备制造商可以利用市场占有率的优势来锁定消费者,通过在他们的手机上实现自己定义语意的触屏,来推行自己的手势操作。这些都是不自然的行为,因为不同厂商对于同一手势的语意都不同,并且他们看起来不自然,使用不同厂商的产品需要再学习。

另一种形成规范化的障碍是上下文手势的专利。例如,苹果公司不能对“滑动”(swipe)操作申请专利,但是它可以对“滑动解锁手机”这个手势申请专利,这使得其他公司需要使用这一技术或者设计理念时要么给苹果公司支付专利费,要么将苹果告上法庭以避免专利费,或则干脆不使用这一上下文手势。如果不使用这一上下文手势,那么产品就破坏了之前我们学习到使用很自然的方式滑动解锁手机,音乐播放器,平板电脑等这一约定了。

最后一个障碍是,设计一个手势很困难。手势术语会面对一些App Store中手机应用程序和YouTube中视频应用所遇到的一些问题:人们要么会要么不会。手势需要思考如何定义的简单使得人们能够去用,这就是长尾理论留下来的问题。

应用场景

  1. 互动娱乐:结合用户的手势(例如点赞、拜年),实时增加相应的贴纸或特效,应用特效随手而动。
  2. 智能家居:作为智能硬件控制指令,远距离操控智能家电、家用机器人、可穿戴等硬件设备,人机交互方式更加智能。
  3. VR/AR:在虚拟环境中,赋予人们贴近现实生活的手势导航和控制能力,建立最直接的人机交互方式。
  4. 智能车载:在嘈杂环境下,通过车载手势,控制左滑、右滑、音量的加减、菜单等操作,有效补充语音识别短板,车内交互更加方便自然。