手语识别和翻译

摘要:为了使聋哑人与更多不懂手语的人自然地交流,本作品将手语翻译成文字和语音,利用Microsoft Kinect记录手语手势的三维坐标,通过机器学习和优化算法,在Intel Atom平台上实现了手语翻译。

关键词:手语;识别;手势;英特尔;Kinect

DOI: 10.3969/j.issn.1005-5517.2012.9.019

简介

手语是聋哑人士的主要沟通工具,它是利用手部和身体的动作来传达意义。虽然手语帮助它的使用者之间互相沟通,但聋哑人士与一般人的沟通却十分困难,这个沟通障碍是源于大部分人不懂得手语。

另一方面,聋哑小朋友由于很难表达自己,以及中国的聋哑教师数量有限,导致他们的学习出现困难,得不到和普通小朋友同等的学习机会。

为了解决这个问题,我们设计实现了一个从手语动作翻译成文字和声音的翻译器,令学习手语更有趣、更方便、更容易,以达到这个项目缩少聋哑人士与其他人的沟通障碍的目的。

工作原理和算法

特征提取

深度***像的分辨率是640x480,意味着每秒钟的数据有17.6MB,存储如此大量的数据是不可能的。同时许多没有用处的数据(例如背景)都包含在原始数据中。因此我们必须从原始数据中提取出有用的信息。骨架是一种可以用来表示手语的有用信息。

我们利用Kinect和OpenNI提取用户的骨架节点得到XYZ三点的坐标。我们一共提取了6个骨架节点,左手、左手肘、左肩、右手、右手肘、右肩。对于每一帧,我们从这些节点中计算出14个特征向量来表示这一帧的手语动作。经过标准化计算,我们用121帧来表示一个手语词语,因此每一个词语有1694个特征。

原始数据标准化

我们通过均匀分配和插值使原始数据标准化。通过二次插值法,利用最相近的三个原始数据计算出标准化的数据,使得每一个手语动作都统一用121帧来表示。

支持向量机

SVM(支持向量机)是统计学和计算机科学中的概念,简而言之,给定一组已经分好类别的数据,而且分类依据是未知的,支持向量机训练算法可以通过计算构建一个模型 ,一组新的数据到来时可以预测出新的数据属于哪一个类别。

SVM的模型将所有数据映像到一个高维空间里,并计算出不同类别数据之间的最大化几何边缘区,然后把新的数据映射到同一个空间,根据之前计算出的最大化几何边缘区来预测新的数据属于哪一个类别。

平台限制与解决方法

平台限制

使用Kinect的建议系统需求是CPU有双核2.66 GHz或以上,内存有2GB或以上,但Intel提供的平台只有分别1GHz CPU和1G 内存,明显与系统需求有差异。

即使我们使用Linux操作系统,处理器使用率依旧满载,并且帧率只有大约2到4左右,远少于正常的30帧。在这种条件下,再加上处理器资源已被提取资源的线程占据,所以不可能在处理器里进行资料分析的工作。

瓶颈

为了找出瓶颈,我们首先关闭了***像用户接口。虽然处理器使用率降至85%,但帧率跟之前的一样。我们观察得到其中一个OpenNI控制的线程依然是占领了整个线程。只是由于所提供的平台是双线程的关系,使用率分别被定在50%及35%。

其后我们关掉骨架提取的功能,使用率大幅降低到只有25%。经过进一步性能分析的工作,我们证实了瓶颈的来源就是骨骼提取。不幸地,骨骼提取的算法并不是开源的,而是被PrimeSence所保护。所以我们并不能通过修改原代码或是把算法放到 FPGA里以达致降低处理器使用率的效果。

解决方法

为了解决这个问题,我们尝试选择性地使用原始数据。原来数据传递方式是用户产生器(User Generator)直接从深度***像产生器(Depth Generator)得到原始数据。新的方法就是设立一个仿真深度***像产生器(Mock Depth Generator)。它会仿真成原来的产生器,而用户产生器则从它得到数据。

当Kinect得到新的数据,它会将数据传给深度产生器,然后后者会发给仿真深度***像产生器。而每隔一个帧,仿真深度***像产生器会将得到的数据传给用户产生器。换言之,两帧从Kinect上得到的数据,只有一帧会真正被用作提取骨架,而另一帧将会被忽略。

这个做法虽然令帧率降低到15,但处理器使用率却降至只有50%。而且经过我们的验证,几乎没有出现丢帧的情况,即使出现亦没有影响到提取骨架节点的质素。经过这个特殊处理,我们确定在这平台使用Kinect是可行的,甚至还可提取额外的处理器资源用以其他运算工作。

***1 数据处理流程

设计和实现

概述

系统通过Kinect获取深度影像,并使用应用程序OpenNI从深度影像中提取用户的骨架。在获取的骨架中,我们选取左右手、肘、肩六个关节点。总的来看,用户完成了一个手语,通过Kinect和OpenNI,系统将记录一系列的帧,每一帧由左右手、肘、肩六个关节点的三维空间向量组成。用户每一次完成同一个手语都会有差别,所以我们在特征提取之前需要对记录的帧进行常态化处理。我们使用支持向量机(SVM)对提取的特征向量进行分类。每一类表示一个手语。***2描述了整个手语识别的流程。

手语获取

双手交叉握于腹部前方。这一动作我们称之为“预备动作”,表示手语的开始和结束。为了避免潜在的识别错误,我们要求每相邻的两帧(0.13s),用户至少移动5厘米。如果用户做预备动作超过100帧(6.67s),系统将会停止获取手语数据。

数据处理

正如我们之前提到的常态化处理,我们将获取的一系列帧通过均分和插入的方法统一成121帧,即2178个三维空间向量。我们对常态化处理后的数据进行特征提取,产生1694个特征向量。最后我们将所有的特征向量放在一个矩阵里,用于SVM分类。

手语训练和分类

LIBSVM是一个用于支持向量机的集成软件,支持多类分类。用户使用LIBSVM提供的库,可以更容易地使用SVM。我们使用“svm-train”读取输入文件(Input File),生成模型文件(Model file)。我们的输入文件包含1694个特征向量。我们对每个手语单词训练20到30次。到目前为止,我们总共训练了48个手语。我们可以通过训练更多的手语扩展我们的数据库。

使用“svm-predict”可以预测用户所做的手语属于哪一类。

***2 识别流程

转载请注明出处学文网 » 手语识别和翻译

学习

发展人民币母基金(FOF) 推动私募股权人民币基金健康发展

阅读(60)

本文为您介绍发展人民币母基金(FOF) 推动私募股权人民币基金健康发展,内容包括怎样选择人民币基金,私募股权基金货币基金。[摘要]与私募股权人民币基金管理机构积极募资的热情相比,我国私募股权人民币基金的机构投资者都比较谨慎,市场观望

学习

致青春 7期

阅读(32)

本文为您介绍致青春 7期,内容包括致青春完整篇,致青春精辟句子。伴着一阵阵隐隐的心痛,看完了《致我们终将腐朽的青春》。泪眼朦胧的挥别了郑微,挥别了年少时的那个“玉面小飞龙”。我知道她们终将要离开我,一转身,便是个诀别,今后都不会再见

学习

Control4大管家

阅读(22)

YourBestHousekeeper在智能家居这个领域里,系统整合这两个词对于我们来说那可是司空见惯,但它到底代表什么内涵,为我们的优质生活带来什么样的新元素、新能量呢?我们来到深圳三诺集团打造的位于软件园的control4体验厅,感受Control4这个

学习

走近名家――鲁迅

阅读(19)

本文为您介绍走近名家――鲁迅,内容包括走近鲁迅的手抄报,走近名人鲁迅。【美文一】五猖会文/鲁迅要到东关看五猖会去了。这是我儿时所罕逢的一件盛事,因为那会是全县中最盛的会,东关又是离我家很远的地方,出城还有六十多里水路,在那里有两

学习

汪潮涌:玩帆船的投资家

阅读(37)

本文为您介绍汪潮涌:玩帆船的投资家,内容包括汪潮涌玩帆船,汪潮涌投资帆船。6年前他因投资组建美帆赛“中国之队”而名声鹊起,被媒体称为“最敢玩的中国富豪”。如今,投资带来的品牌效应,正给他带来财富之外的收获北京远洋光华中心的信中利

学习

全球奇闻趣事

阅读(30)

本文为您介绍全球奇闻趣事,内容包括国外奇闻趣事最新版,世界奇闻趣事完整。@修心养生小百科:有人说,如果你很想要一样东西,就放它走。如果它回来找你,那么它永远都是你的。要是它没有回来,那么不用再等了,因为它根本就不是你的!——《海滩》@婚

学习

爱微打开电影魔方

阅读(24)

2010年第五期《数码影像时代》,本刊主编吕尚伟先生向读者介绍了在大学时代就拍摄了电视连续剧的汪忠导演正在武汉江滩公园筹备婚纱电影馆的事情。半年多来,很多读者都给编辑部打过电话或发邮件咨询婚纱电影馆的筹备情况。2010年12月19日,汪

学习

朱民能胜任IMF副总裁

阅读(25)

本文为您介绍朱民能胜任IMF副总裁,内容包括imf前副总裁朱民的理财建议,朱民的imf是什么。有中国股东需要进入IMF管理层“朱(民)先生建议我做IMF(国际货币基金组织)的头,我建议他做。”在2009年大连夏季达沃斯论坛上,韩国延世大学教授MoonC

学习

横沙岛 ―― 上海航运新希望

阅读(24)

去年,有机会参加市里有关部门组织的横沙岛考察活动。上海横沙岛是由长江泥沙冲积,于1858年露出江面而形成的。它是距长江入海口最近的岛屿,因其横亘在长江口而得名。横沙岛三面环江,一面临海,经济以农业为主。市区的老百姓非常愿意去横沙岛吃

学习

“城市绿洲”

阅读(25)

本文为您介绍“城市绿洲”,内容包括城市绿洲文章,魔幻城市绿洲小说。坐落于三里屯的瑜舍,是建筑师隈研吾的一件极有特色的作品。无论是其设计理念、材料的选用、空间处理还是光线的安排,都十分大胆和巧妙,对我们来说也是一种借鉴。关键词:瑜

学习

鲁讯所期望的第三样时代

阅读(20)

在《灯下漫笔》这篇文章中,鲁迅先生总结了中国人几千年的历史。他认为中国人的命运就两种:一种是做稳了的奴隶;另一种是想做奴隶而不得。他认为中国人应该有第三样时代,并把这一希望寄托于中国的青年。实际上中国的青年从孙中山开始一直在寻

学习

中国哪些城市是真正的“鬼城”

阅读(31)

几十年来,中国兴起的住房建设热潮达到了让人难以理解的程度。最近30年来,2.6亿人从农村迁移到城市,大约相当于美国总人口的80%。为了给这么多人提供住所,从1984年到2010年,中国楼房密集的城市区域的面积几乎扩大了四倍。许多新建楼盘惠及了人

学习

浅谈屋顶花园的建筑

阅读(14)

本文为您介绍浅谈屋顶花园的建筑,内容包括浅谈屋顶花园的设计与建造,屋顶花园设计说明摘要。随着城市规模的不断扩大,人们的生活水平不断提高,人们对环境质量的要求也越来越高,而对寸土寸金的市区来说仅有的一些绿化空间远远不够人们对绿化

学习

千野草场完美融合草场之魅与地貌之奇

阅读(56)

地理位置:石柱县方斗山山脉岩口至瓦屋沿线重要档案:前身是南方草山草坡肉牛基地,平均海拔1300米,区域面积600公顷,地势宽广平坦。景区内资源丰富,特色突出,集山、林、草、石、畜于一体,万亩草场、万亩火棘、万亩石牙、万亩森林四大特色旅游资源

学习

从女性主义翻译理论看译者的地位

阅读(28)

本文为您介绍从女性主义翻译理论看译者的地位,内容包括浅谈女性主义翻译观及翻译策略,女性主义翻译理论的翻译策略。【摘要】翻译是一个动态的过程,他和各种文化系统紧密联系,译者始终是处于翻译主体的地位,他们的作用和地位不容忽视。而近

学习

英汉隐喻翻译的认知分析

阅读(29)

本文为您介绍英汉隐喻翻译的认知分析,内容包括英汉隐喻翻译,英汉隐喻文献综述。隐喻的认知性对隐喻和隐喻翻译实践具有指导意义。本文从隐喻的认知功能出发,在分析了中西隐喻研究发展的基础上,结合认知功能观重新审视了隐喻翻译方式的选择

学习

汉英顶针辞格对比及翻译

阅读(23)

摘要:本文通过例子分析了汉语顶针辞格与英语辞格anadiplosis的特点与作用,并提出了移植法、意译法和移位法三种翻译方法,以期达到更好的修辞信息的传递,促进文化交流。关键词:汉语顶针辞格英语辞格anadiplosis对比翻译方法一、汉语辞格

学习

英语定语从句的认知以及翻译

阅读(31)

本文为您介绍英语定语从句的认知以及翻译,内容包括英语定语从句的句子及翻译,英语中的定语从句应如何翻译。本文作者从研究“and”字句的语义功能入手,认为此类定语从句从翻译方面考虑的话,形合中蕴含着意合。这一观点可以帮助学生深入认

学习

文学翻译和美术色调文化对等

阅读(20)

五彩的人生,五彩的世界。色彩(colour)在各种语言中都会与之相遇,却给翻译工作带来一定的难处,同一种颜色在不同的民族(nationalities)、不同的风俗(customs)中透视出不同的含义:WhiteChristmas译为“白色的圣诞节”会使人难以理解,根据欧美风俗应为

学习

目的论视角下的科技翻译者主体性研究

阅读(26)

本文为您介绍目的论视角下的科技翻译者主体性研究,内容包括翻译目的论的外国研究者,翻译目的论的研究现状。科技文献的翻译对于科技的推广具有巨大作用,在全球化的背景下,科技翻译成为科学信息普及的重要因素之一。本文从忠实性原则、连贯

学习

茶文化中通感现象及翻译

阅读(26)

中国是世界上茶文化发源地,拥有着深厚的茶文化底蕴,茶文化也对中国人的精神、价值观产生了深远的影响。在中国流传至今的茶文化典籍中,出现了诸多通感现象,或者说通感效应,为当代人研究茶文化提供了绝佳的素材。运用了通感手法的茶文化典籍,表

学习

《西风颂》的翻译对比

阅读(35)

本文为您介绍《西风颂》的翻译对比,内容包括西风颂原文全文,西风颂各个版本的翻译。《西风颂》的中译本数不胜数,各大家都有自己的译本;本文选取的是王佐良和查良铮的译本。从翻译方法、诗歌蕴意和口语化语言特点的应用三个方面,对查良铮和