富于表情的虚拟人脸合成

人机可视语音交互场景

用计算机生成会说话的虚拟人涉及三个技术环节,即生成虚拟人像,实现与合成语音同步的口型动作和脸部动作,让虚拟人带有表情、更具表现力。

虚拟说话人是指利用计算机生成的会说话的虚拟人像。要开发一个会说话的虚拟人涉及到多项技术,如表情脸像合成、表现力语音合成、交互技术等等。这里我们仅介绍虚拟说话人的脸像合成。

生成虚拟人像目前主要有两种技术,一种是通过计算机***形技术合成三维动画人物,用动画参数驱动人脸的口型动作和面部、头部等表情动作,其特点在于实时性好; 另一种则是利用计算机视频拼接技术,从真人的视频语料库中提取片断,合成所需的口型和表情动作,其特点在于真实感强。上***的虚拟人像采用了参数化的动画人物合成方法: 首先请动画设计师制作了一个三维虚拟动画人像。然后将其数字化,她的面部是最精细的部分,大约有上千个三维点和网格面片构成,精细的结构使得动画人物的口型动作及面部表情更为真实自然。这种虚拟说话人与其他动画人物最大的不同在于,她可以配合计算机合成的语音,模仿人类说话的面部表情和口型动作,生成自然的可视语音效果。

让脸像变化与声音同步

建立了三维人脸动画模型之后,接下来的问题是如何实现与合成语音同步的口型动作和脸部动作,简言之,也就是怎么让三维动画人物动起来。清华大学和中科院心理学所的一些学者联合组成的一个课题小组(以下简称课题组)基于MPEG4视频编码标准中的人脸动画参数框架快速有效地生成了各种人脸动作。这套动画框架主要定义了两套参数,一是人脸结构定义参数FDP(Faicial Definition Parameter),另一个是人脸动画参数FAP(Facial Animation Parameter)。FDP参数根据人脸的特征结构,选取了84个人脸关键特征点作为人脸的结构定义,比如鼻尖、嘴角、眉梢等等。FAP参数基于人脸的肌肉动作,定义了64种人脸特征点的基本动作,比如嘴角上翘、眉心上扬、下巴张开等等。FDP参数基本覆盖了人脸动作的关键特征点,而FAP参数则与FDP参数相对应,描述了人脸基本结构的各种动作类型。

*** 利用PPA情感模型合成的虚拟人脸

实现参数驱动人脸动画的一个前期工作就是对原始的三维人脸模型进行标注,标注上文提到的两套重要动作参数。具体来说,就是在模型的上千个三维点和面片中,选取与FDP一一对应的特征点,同时针对每一个FAP参数,标注出其对应的脸部动作将会影响到的那些人脸三维点,以及当参数变化时这些人脸三维点是如何根据参数的具体数值产生位移,从而表现出各种脸部动作。FAP的参数范围设定在0到1024之间,对应了人脸的动作从中性状态到可能的最大幅度的动作。

人类在说话过程中,不仅可以听到声音,还能看到说话人的口型动作,最典型的应用,例如聋哑人的手语对话中,往往也会以口型作为重要的辅助信息。语音的最小单位是音节,通常把与音素对应的脸部器官状态称为“视位(Viseme)”,即可视音位。为了让虚拟人能够配合中文合成语音生成对应的口型动作,课题组根据汉语发音的特点,归纳了20类典型视位,例如“J”、“Q”、“X”虽然发音不同,但是其发音时的口型动作却是极其相近的,因此归于同一视位类中。课题组通过分析真人的视频片断,从不同的发音视频中提取每个视位类对应的唇部区域的动画参数,称之为“静态视位参数”。虽然这些参数对应了某类音素发音时的静态脸像状态,但在实际的发音过程中,口型、脸像状态发生变化是一个动态过程,而且相邻音节之间会相互影响,称之为“协同发音”,因此有必要建立了“动态视位模型”来模拟协同发音现象,从而实现不同音节对应视位的自然过渡,最终得到自然的、与声音同步的动态发音口形动作。

让虚拟说话人具有丰富的表现力

让虚拟说话人能够开口说话是第一步,但是更加要紧的问题是如何让虚拟说话人带有表情,更具表现力,更接近人类自然的说话状态?众所周知,人类在说话过程中,并不只是有口型动作,同时还包括脸部的器官动作、头部的动作,甚至手势以及身体动作。作为初步的研究工作,课题组实现了具有丰富表现力的说话人头部运动合成。

对于脸部动作,除了口型动作与发音动作匹配之外,还应包括头部的动作,如抬头、点头、摇头、眼睛的眨动、眉毛、眼睛、下颌的动作。研究表明这些器官的动作直接影响到表情合成效果。课题组研究了头部动作与说话节律(韵律)的关系,提出了基于语音节律规律的头部动作模型,同时还研究了脸部器官动作与情感表现的关系,提出了基于局部表情参数化的脸像合成方法。其主要思想是按照表情动作划分面部关键区域,在关键区域内定义局部表情状态参数(Partial Expression Parameter,简称PEP),利用PEP控制合成局部表情,同时考虑局部表情动作的关联,对局部表情进行调整融合,合成最终表情脸像。

可视语音合成

可视语音合成系统的输入是文本,输出是语音和动态脸像。为了使合成语音和脸像带有情感,课题组引入了PAD三维情绪模型。为了将PAD情绪模型应用到虚拟说话人的表现力合成上,首先,课题组对说话人的话语文本进行分析,根据其中的语义和上下文环境,提取出跟情绪相关的信息。根据人类的话语表达方式,利用PAD模型对每个韵律词进行量化标注,不同语义的词汇在语言表达中有不同的表达方式,包括语音和动作,比如,“最美丽的”和“还不错啦”在情绪表达的差异将会通过PAD模型中三个维度的不同数值体现出来。利用PAD模型,研究人员将计算机无法直接理解的文本语义转化为可以刻画量度的情绪三维空间。

课题组还录制了真实说话人对应的视频语料库,不过在这个视频语料库中,重点研究的是说话人的头部运动。利用目前计算机视觉相对成熟的人脸检测技术,研究人员从视频中提取出人在说话过程中头部运动的二维运动轨迹(x-y平面)。在将语音文本和视频的运动轨迹进行比较分析后,研究人员发现,如果以韵律词为基本观测单位,说话过程中头部运动会呈现明显的周期性和规律性的动作模式。此外,一些无意识的头部运动,往往跟语音的抑扬顿挫等节奏韵律紧密相关。基于这样的规律,研究人员将文本情感的PAD量化结果与视频中的运动轨迹进行对比建模,建立了PAD三维情感数据和人脸头部动作参数之间的关联模型。利用这个模型,可以直接用PAD情感数据驱动合成与话语表达配合的头部运动。

目前,课题组的研究人员正在设法将人类情绪应用到说话人头部运动的合成以及面部表情动作中,通过自然生动的头部运动使得说话人更具表现力,从而使得虚拟说话人不仅具有极高的“智商”,同时也赋予它丰富的“情商”。

富于表情的虚拟人脸合成

转载请注明出处学文网 » 富于表情的虚拟人脸合成

学习

漫画 7期

阅读(18)

本文为您介绍漫画 7期,内容包括7岁儿童漫画,斗破苍穹漫画7。开心一刻

学习

网络虚拟财产法律保护

阅读(27)

本文为您介绍网络虚拟财产法律保护,内容包括虚拟财产的法律保护,数据和网络虚拟财产的特征。[摘要]目前,网络游戏特别是网络游戏中的虚拟财产纠纷日益增多,而我国现行法律并没有针对网络虚拟财产问题作出明确的法律规定,加快进行相关的法律制

学习

激光干涉光刻技术的分析

阅读(20)

本文为您介绍激光干涉光刻技术的分析,内容包括激光干涉测长技术及原理,干涉光刻光栅。摘要:在微细加工和集成电路(IC)制造当中,光学光刻技术是毋庸置疑的主流技术。现在的IC集成度越来越高,这就对光刻分辨力有了更好的要求。但光刻物镜数值孔

学习

浅析“御宅族”文化及其相关现象

阅读(33)

本文为您介绍浅析“御宅族”文化及其相关现象,内容包括御宅文化发展的政治原因,御宅族特征。摘要“宅”现象的出现与流行虽然有其积极因素,但总体对社会及个人呈消极影响。纠正“御宅族”们的世界观与人生观,促使青少年身心健康成长,需要社

学习

驾驭欢乐,驰骋人生

阅读(28)

生活离不开‘衣、食、住、行’,随着社会的发展,时代的进步,家用汽车脱去了奢侈的外衣,越来越多地走入了普通大众的视野,汽车也逐渐成为我们每天生活的一部分。众所周知,驾驶需要注意力高度集中,在享受速度快乐的同时正不断考验着大脑的反应和判

学习

经济区域化与经济全球化

阅读(26)

本文为您介绍经济区域化与经济全球化,内容包括当今世界经济区域化与全球化,全球化和区域化的主要表现。经济区域化,是指在世界经济发展过程中,各国经济相互依赖的程度加深,一些国家之间建立起比较稳定的经济联系,组成区域性经济集团。经济区

学习

浅谈自营进口业务会计核算

阅读(18)

本文为您介绍浅谈自营进口业务会计核算,内容包括外贸会计退税核算,自营进口货物的会计处理。简要说明自营进口业务的会计核算流程。

学习

愚昧落后

阅读(26)

本文为您介绍愚昧落后,内容包括何为愚昧落后,愚昧落后典故。自古以来,土地就是中国农民最重要的物质生产资料,占有了一定数量的土地,农民便有了最基本的生活保障。在封建社会,农民没有自己的土地,受尽了地主的剥削,过着穷苦的生活。新中国成立

学习

摆摊卖饼丈夫和他的大学副教授妻子

阅读(27)

在湘潭大学,有一对被人们传为佳话的夫妇:妻子李时华是该校的经济学副教授,而丈夫刘卫东却是一个专卖红豆饼的小摊主。早先,丈夫用9年的坚持,帮助妻子完成了从一名中专生到博士的人生飞跃;如今,他用男人的坚强与担当,呵护着患病妻子的生命,使妻子

学习

马年说马论股

阅读(32)

马年股市开门红,除了创业板、中小板有震荡调整,主板市场曾有过四连阳,一度呈现万马奔腾的景象。市场果真要走牛吗?先说一马当先,最抢眼的当属新近上市的新股,几乎个个上涨,连拉涨停的为数不少。新股之所以如此牛,一则是新股停发一年多,市场上积聚

学习

胶体物质在速冻水饺馅料中的应用

阅读(18)

【摘要】本文从生产速冻水饺的实际角度考虑,在了解分析多种动植物胶体特性后,通过大量实验寻找并模拟明胶的替代物质。希望在符合企业基本要求的同时,又能达到一定的经济效益,同时具有更强的合理性与可行性。

学习

虚拟演播室技术

阅读(23)

本文为您介绍虚拟演播室技术,内容包括虚拟演播室技术,虚拟演播室制作过程。[关键词]虚拟演播室;二维系统;三维系统

学习

浅谈猪八戒的人格结构

阅读(30)

本文为您介绍浅谈猪八戒的人格结构,内容包括猪八戒的人格特质,猪八戒人物分析简短。【摘要】《西游记》中猪八戒的贪欲和滑稽表现了他的人格结构以“本我”为主,但也有“自我”和“超我”的成分。这种人格类型的出现与晚明人欲思潮的兴起

学习

浅析尿素合成工艺及流程的选择

阅读(18)

本文为您介绍浅析尿素合成工艺及流程的选择,内容包括如何选择尿素合成的工艺条件,论述尿素的合成技术。【摘要】尿素作为一种重要的化学肥料和工业原料,在世界范围内广泛使用。自从1922年尿素开始工业化生产以来,许多国家都致力于尿素生产

学习

甲醇合成工艺进展分析

阅读(33)

本文为您介绍甲醇合成工艺进展分析,内容包括甲醇合成工艺进展,甲醇合成工艺试题。摘要:综合分析目前国内外甲醇合成工艺发展的实际情况,总结其研究进展包括液相合成过程、流向变化强制周期反应过程、流化床反应过程、膜反应、超临界合成反

学习

浅析土工合成材料加筋土

阅读(18)

本文为您介绍浅析土工合成材料加筋土,内容包括土工合成材料加筋法,土工合成加筋的方法。摘要:为了提高土的抗剪强度和结构物的稳定性,在材料技术快速发展的前提下,土工合成材料加筋土得到广泛的应用。本文从土工合成材料的性能,土工合成材料

学习

三草酸合铁酸钾的合成及成分分析

阅读(23)

本文为您介绍三草酸合铁酸钾的合成及成分分析,内容包括三草酸合铁酸钾的组分分析,三草酸合铁酸钾的制备及成分分析。摘要:本文对实验教学中合成三草酸合铁酸钾的实验进行了改进,提出了利用草酸铁来制备三草酸合铁酸钾的新思路。将原实验过

学习

舞蹈表演中面部表情特征及作用分析

阅读(19)

本文为您介绍舞蹈表演中面部表情特征及作用分析,内容包括舞蹈表演时面部表情与肢体动作,舞蹈表演中面部表情特征。摘要:舞蹈表演是一种综合实践以及艺术的表演形式,需要舞蹈演员能够结合舞蹈音乐深刻理解舞蹈中蕴含的思想感情,舞蹈演员的面

学习

二力的合成教案

阅读(24)

本文为您介绍二力的合成教案,内容包括二力合成的教学片段设计,人教版初二力的合成教案。知识目标

学习

合成往往谬误

阅读(19)

本文为您介绍合成往往谬误,内容包括合成谬误和分解谬误,合成谬误怎么读。经济学里有一个概念,叫合成谬误,最早由美国著名经济学家萨缪尔森提出来。他说:“由于某一原因对个体来说是正确的,便据此认为对整体来说也是对的,这就是合成推理的谬误