Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于 Leap Motion 的手语识别算法优化论文

发布时间:2023-10-16 15:16:49 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

  摘 要:Leap Motion 设备产生的数据在虚拟环境中可以进行手势识别。通过识别和跟踪用户的手来生成虚拟 3D 手部 模型,从而获取手势信息。本文设计了一种基于隐马尔可夫模型 (Hidden Markov Model, HMM) 分类算法来学习从 Leap Motion 中所获取的手势信息的系统,根据手势特征的重要性赋予不同权值,可进一步提高分类准确率,实现手语信息的识别 输入。测试结果表明,识别准确率为 86.1%,手语打字输入识别速度为每分钟 13.09 个字符,可显著提高聋哑人与正常人之间 沟通的便捷性。
  Optimization of Sign Language Recognition Algorithm Based on Leap Motion

  DU Shuying1.2. HE Wang2

  (1. School of Information Management,Xuzhou Vocational College of Bioengineering, Xuzhou Jiangsu 221000;

  2.School of Computer Science and Technology,China University of Mining and Technology, Xuzhou Jiangsu 221116)

  【Abstract】:The data generated by the Leap Motion device can be used for gesture recognition in a virtual environment. Gesture information is obtained by recognizing and tracking the user's hand to generate a virtual 3D hand model. This paper designs a system based on the Hidden Markov Model (HMM) classification algorithm to learn the gesture information obtained from Leap Motion, and assigns different weights according to the importance of gesture features, which can further improve the classification accuracy. rate to realize the recognition input of sign language information. The test results show that the recognition accuracy rate is 86.1%, and the sign language typing input recognition speed is 13.09 characters per minute, which can significantly improve the convenience of communication between the deaf-mute and normal people.

  【Key words】:Leap Motion;gesture recognition;Hidden Markov Model;sign language translation

  0 引言

  近年来,手势识别由于在不同领域的广泛应用而受 到关注,如人机交互、虚拟人技术、电脑游戏、教育、 手语翻译、虚拟手术以及家庭康复等。在工业环境中, 手势识别可用于需要高精度的领域 [1],如控制机器人的 触臂实现工业抓取设备等。
\

  Leap Motion 控制器可以在虚拟现实(VR)环境 中实现手势控制,控制器会跟踪操作员的手以及手指的 移动路线并且在所连接的系统上进行对应的识别操作 [2]。 Leap Motion 的工作原理类似于电脑鼠标或触摸屏,但其操作是基于视频识别, Leap Motion 使用两个红外摄 像头可以识别并模拟人手,并将其数据呈现在三维空间 中 [3]。Leap Motion 由于其手势识别模拟的特性也曾被 广泛应用于阿拉伯语、印度语、土耳其语、希腊语、泰 语、印度尼西亚语以及英语的手语识别 [4],Ameur 等 人使用支持向量机(SVM) 在表示指尖与手掌中心坐 标的空间特征描述符上进行训练 [5],实现了约 81% 准 确率的手语识别。Chuan 等人使用对指尖之间的平均 距离、相邻指尖之间的传播距离和两个相邻指尖之间的 三重传播区域进行 SVM 训练,实现了 79.83% 的识别准确率 [6]。Hisham 和 Hamouda 使用手掌和骨骼特征数 据集进行动态时间规整计算 [7],实现动态手势识别,达到 了 96.4% 的准确率。Lu 等人利用隐条件神经场(HCNF) 分类器识别动态手势识别 [8],在动态手势数据集上实现 了 89.5% 的准确率。

  本文在 Leap Motion 设备的基础上建立了一个手语 识别的系统,该系统使用 Leap Motion 记录用户的手势 动作,并在 VR 环境中识别相应的手势, 再对手势数据使 用隐马尔可夫模型(Hidden Markov Model,HMM)进 行分类 [8],该分类用于以无监督的方式识别手势序列。 该系统最终应用于手语识别以及手语方式打字输入。

  1 Leap Motion 手势特征提取及识别

  1.1 Leap Motion 介绍

  Leap Motion 有两个单色红外摄像头和三个红外发 光二极管 (LED)。这些 LED 会生成一个 3D 点模型,并 且 Leap Motion 可以从单色红外摄像机获得 2D 图像 来生成用户手的空间模型 [9]。与处理完整人体骨骼的微 软 Kinect 不同,Leap Motion 只跟随用户的手, 并且 可以预测手指、手掌或手腕的位置,以防它们被遮挡。 Leap Motion 可以处理 25 ~ 600mm 的距离, 150°宽, 让用户在空间中自由地执行手势。

  使用红外摄像机, 可以设置每个手点的坐标。为了 识别手势,需要通过确定前臂、手腕、手和手指的部位 来处理大量数据 [10]。Leap Motion 软件从 3D 图像中接 收 3D 空间骨架,对其进行分析并聚合成某些包含相应 手部信息的对象。Leap Motion 控制器具有 3 个主要的 手部对象 :完整的手臂、手掌和手指。 全臂物体提供有 关手在空间中的位置、长度和宽度的信息。手对象保存 有关手(左或右)位置和那只手的手指列表的信息。手 势处理所需的 Leap Motion 最重要的部分是指尖对象, 这也会保存每个人的基本骨骼数据。

  虽然 Leap Motion 设备能够识别人手,但它不能 直接识别用户显示的手势,它只能模拟人手的空间模 型,但该设备不具备根据这些数据判断用户何时显示单 指手势的功能 [10]。如图 1 所示,Leap Motion 设备展 示了人手的 3D 空间模型。有了这个模型, 就可以得到 每只手的坐标、转动角度、骨骼或手掌中心等必要信 息。如果此设备始终位于用户面前的相同位置并且用户 将显示相同的手势,则该设备将可以采集与实际情况几 乎相同的数据。
\

  Leap Motion 中前臂和空间中每个手指的位置都 可以看到不带有任何运动的每个手势。如果设备具有 运动手势的指示,并且可以将 Leap Motion 中的数据记录到数据库中,那么可以将其用作识别该手势的模 型数据。识别静态手势只需要 3 个自由度 (Degrees of Freedom, DoF) :偏差、倾斜和俯仰。如果前臂和手 指之间的角度相似,则识别出显示的静态手势,这将导 致某种运动的动态手势的识别是类似的。手势数据库包 含每个手势的典型空间数据。当用户显示动态手势时, 算法会检查每个图像帧的空间数据如何变化,如果变化 与数据库中的数据相似,则识别出动态手势。

  1.2 手势识别系统架构

  连续识别手势所需的数据量会根据手势的数量呈指 数增长。对于连续十个或更多的手势,手势识别系统 的算法需要较长的时间,平均大约半分钟。然而,实 际手语系统中的手势使用量是不确定的,又由于在线 上训练需要大量计算资源,因此该系统是使用基于云 的网络服务实现的。为了实现相对应的识别系统,本 文采用了微服务架构 (A Case of the Service-Oriented Architecture, SOA), SOA 将应用程序定义为一组松 散耦合的服务 [11], 如图 2 所示手势识别系统与网络服 务的连接使得在多台计算机之间轻松分配系统所需的资 源成为可能,所有手势识别数据都存储在远程手势数据 库中。通过启动向同一个数据库发送请求的多个服务, 可以管理算法训练,同时,还可以记录新手势、开展研 究和应用识别新手势的算法。
\

  网络服务提供了从不同环境轻松访问手势识别系统 的途径。Leap Motion 设备可用于使用 Unity 或 Unreal Engine 游戏引擎创建的游戏,并可轻松集成到任何 Windows 应用程序或网页中。作为网络服务推出的手势 识别系统允许多种不同的系统与其进行通信 [12]。目前, 由于安装更简单,使用了简单对象访问协议 (Simple Object Access Protocol,SOAP), 但系统可以轻松扩展 以接受具象状态传输数据请求,此功能将允许从任何环 境访问手势识别系统。Leap Motion 设备记录的数据存 储在 Microsoft 结构化查询语言 (Microsoft Structured Query Language,MS SQL) 数据库中, 允许创建个性 化的手势收集。

  1.3 手势识别

  Leap Motion 可以持续显示用户手部轮廓,当我 们想要在手势开始时过滤掉这些镜头的序列时,会出现 所有数据都发送到手势识别系统上无法很好被识别的问 题,这种情况是由于某些手势可能由几种其他类型的手 势组成 [13]。比如在切换手势过程中, 连续影像中的很 多帧是手势切换的过程影像,并不是需要识别的目标内 容。为了解决这个问题,将系统的状态作如下定义 :

  (1)开始(Start) :系统正在等待用户开始移动。 如果指针开始移动,则不会开始转换到 Waiting 状态。

  (2) 等待状态改变(Waiting Untilthe State Changes) : 如果系统没有看到手,则系统返回到开始状态。如果用 户不移动手,系统进入静止手势锁定状态。

  (3) 固定手势锁定状态(Stationary Gesture Lock State) :用户在两秒钟内没有移动手并且手势是固定的, 记录的手部模型数据被保存并转换为手势识别状态 ;如 果用户在两秒钟内移动手,系统状态将更改为运动检测 状态。

  (4) 运 动 检 测 状 态(Motion Detection State) : 如果设备无法跟随用户的手部,则保存记录的手部模型 数据,并将系统状态更改为手势识别状态。

  (5)手势识别状态(Gesture Recognition State) : 在此状态下捕获的数据被发送到手势识别子系统。当子 系统返回结果时,将结果呈现给用户,系统进入数据清 除状态。

  (6) 数据清除状态(Data Clearing State) :清除不 需要的数据并进入开始状态。

  1.4 特征提取和预处理

  Leap Motion 控制器返回以真实世界坐标为单位的 数据(以 mm 为单位)来代表 Leap Motion 参考系内 的位置 [14]。如图 3 所示,数据表示关键手部特征的 x、y 和 z 坐标(手腕位置、手掌位置、掌骨位置、手指的 近端、中间和远端骨骼和指尖位置)。
\

  本文介绍的特征提取方法如图 4 所示。提取了 4 种 类型的手部特征, 即指尖距手形心的 3D 位置、指尖在 手掌平面上方的高度、两者之间的夹角、指尖到手掌中 心的向量以及指尖角,其中指尖角是表示投射在手掌上 的指尖方向的角度。
\

  Leap Motion 控制器包括 11 个手指关节的 3D 位 置。对于每个手势,我们计算 7 个主要手顶点之间的欧 几里得距离,代表拇指、食指、中指、无名指和小指的 尖端位置、手掌位置和手腕位置。7 个顶点之间总共有 21 个距离。此外,还生成了角度特征,代表 3 个不同 顶点中任意一个之间的角度,代表另外 35 个特征。总 共提取了 56 个特征(21 个距离和 35 个角度)。为了使 所有特征统一,应用了基于 z 分数的归一化,它通过减 去均值并将其除以标准差来归一化数据。
\

  者接受了大约 1h 的事前培训,以了解手语的表达方式 以及熟悉开发的系统和所使用的 VR 设备。实验使用了 一台装有 Microsoft Windows 10 系统的传统台式计 算机和 Leap Motion 设备,在正常的室内照明条件下 放置在桌子上。在研究之前,参与者被要求取下戒指、 手表, 防止此类装饰物会影响结果。使用 Oculus Rift DK2 设备向受试者显示代表受试者手的三维空间模型 的 Leap Motion 控制器的输出。参与者被要求执行由 TC148(全国残疾人康复和专用设备标准化技术委员会) 归口上报及执行的国家标准《中国手语基本手势》中 的 24 个手势(如图 5 所示)。每个手势执行 10 次,总 共产生 2880 个数据样本。我们在 Leap Motion 环境中 记录了参与者手部的手势,并拍摄了手部显示的真实手 势,随后,对本研究的数据进行了分析。为了评估结果 的准确性,实验使用独立于主题的交叉验证策略将收集 的数据集划分为训练集和测试集,并将结果进行平均化 处理以获得结果精度。
\

  2.2 结果

  如图 6 所示显示了手势及其 Leap 运动表示的示例。
\

  这些实验是使用分层 10 倍交叉验证来实施的,并 使用宏观准确性(对类别和折叠进行平均)性能测量进行评估。手势识别的结果如图 7 所示。平均识别准确率 为 86.1±8.2%。
\

  在打字实验中,在前期训练期间,受试者学习了如 何使用由软件应用程序和 Leap Motion 控制器组成的 研究系统,然后他们的任务是每个全拼词打 3 遍。全字 母组合以随机顺序呈现。如果出现错误,受试者被指示 忽略错误并继续输入短语。

  我们使用每分钟字数 (WPM) 作为性能衡量标准,使 用最小字符串距离 (MSD) 作为错误率。获得的结果如图 8 和 图 9 所示, 总结如 下 :3.09±0.53WPM 和 16.58± 5.52MSD。
\
\

  2.3 评估

  本文对手势标志的识别准确率达到了 86.1%,这 些结果处于其他作者所达到的准确度范围内。并且参 与本次研究的受试者并不是有经验的手语使用者,因 此,手语手势的质量可能会对识别的准确性产生不利影 响,且本次研究使用完整的句子(全字母组合),这对于受试者来说是一项更困难的任务。此外,使用头戴式 Oculus Rift DK 显示器将手势视图作为手的 3D 模型呈 现给受试者,因此受试者在实验过程中无法看到他们的 实际手,这可能会使手势任务变得更加困难。

  在分析记录的手势识别数据后,本文发现检测手指 之间的间隙存在问题。小间隙(1cm 或更小)的理解 很少,例如,很难区分 C 和 O 标志的手势。需要精确 拇指位置的手势也更难以确定。拇指经常被其他手指覆 盖, 这降低了 E、M、N、T、H、K、S、V 和 X 标志 识别的准确性。某些手势的识别需要非常精确的手部 3D 图像。这在 P 手势的手势中很明显,此时手指仅部 分折叠(未握在拳头中), 但手掌上的设备已识别出手 指完全弯曲。字母 R 手势也存在这个问题,即手指必须 交叉,但手指呈凹形,这种手势对应于手语中的字母 U。 在某些情况下,部分折叠的手指被视为完全折叠。 我们 的研究揭示了用于手势分析的 Leap Motion 设备算法 中的缺陷。当 Leap Motion 设备看不到某些手指时就 会出现问题,则无法捕获指尖位置,导致手势识别错误。
\

  手势识别是作为互联网上的微服务实现的。通过网 络将数据从 Leap Motion 设备发送到微服务并不会显 著增加手势识别的持续时间。平均而言, Leap Motion 手势数据批量的大小范围为 500 ~ 1500 字节,将此量 传输到网络服务不需要大量资源或速度。通过过滤这些 数据和执行手势识别功能,最大的减慢发生在网络服务 本身,整个过程不超过 200ms。

  3 结论

  本文以 Leap Motion 为硬件设备基础,针对手势 识别进行研究,对手势数据进行采集并设计了一种基于 隐马尔可夫模型的分类算法对手势内容进行分类,将手势识别运用在手语表达内容翻译中,运用区分手指、手掌 及手势动作的方法识别不同表达含义,取得了良好的效 果。在后续研究中,将注重于构建更加丰富的场景和手势, 实现更加复杂的识别内容和场景,提高识别准确率。

  参考文献

  [1] 王天然,王琦,王青山.基于迁移学习的跨对象手语手势识别 方法[J].计算机科学,2023.50(S1):129-133.
  [2] 赵世昊,周建华,伏云发.注意力机制CNN结合肌电特征矩阵 的手势识别研究[J/OL].电子测量与仪器学报:1-10[2023-07-01].
  [3] ABDALLAH K A,CHRISTY D S,KAORI Y.Hand Gesture Recognition by Hand Landmark Classification[J]. International Symposium on Affective Science and Engineering,2022.
  [4] 黄山河,陈鹏飞,杨涛,等.基于Leap Motion的手势识别及在 大型结构件虚拟安装中的应用[J].现代雷达,2023.45(4):91-96. [5] 孔若思,姚寿文,王瑀,等.面向大范围手势捕捉的Leap Motion 数据结构体优化[J].重庆理工大学学报(自然科学),2022.36(1): 143-150.
  [6] 包文运,胡建垠,黄培德,等.VR环境下基于Leap Motion 的三维模型空间位姿自适应调整方法[J].计算机应用与软件, 2021.38(7):67-72+99.
  [7] TIAN Y,ZHUANG C Z,CUI J D,et al.Gesture Recog nition Method Based on Misalignment Mean Absolute Deviation and KL Divergence[J].EURASIP Journal on Wireless Communications and Networking,2022:1-21.
  [8] 吴碧霄.基于视觉的手势识别及其应用研究[D].广州:华南理 工大学,2022.
  [9] 张妍.基于隐马尔可夫模型的分布式算术码研究[D].西安:长 安大学,2022.
  [10] 李鹏,罗爱静,闵慧,等.采用隐马尔可夫模型的蛋白质复合 物识别研究[J].计算机科学与探索,2021.15(10):1980-1989.
  [11] 胡宗承,段晓威,周亚同,等.基于多模态融合的动态手势识 别研究[J].计算机工程与科学,2023.45(4):665-673.
  [12] 马凯凯,段鹏松,孔金生.WiGNet:一种适用于无线感知场景 的手势识别模型[J].西安交通大学学报,2023.57(5):194-203.
  [13] 张继凯,张然,赵君,等.基于改进的Mask R-CNN的手势分 割与识别方法[J].计算机应用与软件,2022.39(10):155-161.
  [14] 贾志淳,李想,于湛麟,等.基于二阶隐马尔可夫模型的云服 务QoS满意度预测[J].计算机科学,2019.46(9):321-324.
  [15] 柳村,冯秀芳.基于无线信号和改进TCN的手势识别方法 [J].计算机工程与设计,2022.43(8):2317-2324.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/64842.html

相关内容

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml