人机可视语音交互场景
用计算机生成会说话的虚拟人涉及三个技术环节,即生成虚拟人像,实现与合成语音同步的口型动作和脸部动作,让虚拟人带有表情、更具表现力。
虚拟说话人是指利用计算机生成的会说话的虚拟人像。要开发一个会说话的虚拟人涉及到多项技术,如表情脸像合成、表现力语音合成、交互技术等等。这里我们仅介绍虚拟说话人的脸像合成。
生成虚拟人像目前主要有两种技术,一种是通过计算机***形技术合成三维动画人物,用动画参数驱动人脸的口型动作和面部、头部等表情动作,其特点在于实时性好; 另一种则是利用计算机视频拼接技术,从真人的视频语料库中提取片断,合成所需的口型和表情动作,其特点在于真实感强。上***的虚拟人像采用了参数化的动画人物合成方法: 首先请动画设计师制作了一个三维虚拟动画人像。然后将其数字化,她的面部是最精细的部分,大约有上千个三维点和网格面片构成,精细的结构使得动画人物的口型动作及面部表情更为真实自然。这种虚拟说话人与其他动画人物最大的不同在于,她可以配合计算机合成的语音,模仿人类说话的面部表情和口型动作,生成自然的可视语音效果。
让脸像变化与声音同步
建立了三维人脸动画模型之后,接下来的问题是如何实现与合成语音同步的口型动作和脸部动作,简言之,也就是怎么让三维动画人物动起来。清华大学和中科院心理学所的一些学者联合组成的一个课题小组(以下简称课题组)基于MPEG4视频编码标准中的人脸动画参数框架快速有效地生成了各种人脸动作。这套动画框架主要定义了两套参数,一是人脸结构定义参数FDP(Faicial Definition Parameter),另一个是人脸动画参数FAP(Facial Animation Parameter)。FDP参数根据人脸的特征结构,选取了84个人脸关键特征点作为人脸的结构定义,比如鼻尖、嘴角、眉梢等等。FAP参数基于人脸的肌肉动作,定义了64种人脸特征点的基本动作,比如嘴角上翘、眉心上扬、下巴张开等等。FDP参数基本覆盖了人脸动作的关键特征点,而FAP参数则与FDP参数相对应,描述了人脸基本结构的各种动作类型。
*** 利用PPA情感模型合成的虚拟人脸
实现参数驱动人脸动画的一个前期工作就是对原始的三维人脸模型进行标注,标注上文提到的两套重要动作参数。具体来说,就是在模型的上千个三维点和面片中,选取与FDP一一对应的特征点,同时针对每一个FAP参数,标注出其对应的脸部动作将会影响到的那些人脸三维点,以及当参数变化时这些人脸三维点是如何根据参数的具体数值产生位移,从而表现出各种脸部动作。FAP的参数范围设定在0到1024之间,对应了人脸的动作从中性状态到可能的最大幅度的动作。
人类在说话过程中,不仅可以听到声音,还能看到说话人的口型动作,最典型的应用,例如聋哑人的手语对话中,往往也会以口型作为重要的辅助信息。语音的最小单位是音节,通常把与音素对应的脸部器官状态称为“视位(Viseme)”,即可视音位。为了让虚拟人能够配合中文合成语音生成对应的口型动作,课题组根据汉语发音的特点,归纳了20类典型视位,例如“J”、“Q”、“X”虽然发音不同,但是其发音时的口型动作却是极其相近的,因此归于同一视位类中。课题组通过分析真人的视频片断,从不同的发音视频中提取每个视位类对应的唇部区域的动画参数,称之为“静态视位参数”。虽然这些参数对应了某类音素发音时的静态脸像状态,但在实际的发音过程中,口型、脸像状态发生变化是一个动态过程,而且相邻音节之间会相互影响,称之为“协同发音”,因此有必要建立了“动态视位模型”来模拟协同发音现象,从而实现不同音节对应视位的自然过渡,最终得到自然的、与声音同步的动态发音口形动作。
让虚拟说话人具有丰富的表现力
让虚拟说话人能够开口说话是第一步,但是更加要紧的问题是如何让虚拟说话人带有表情,更具表现力,更接近人类自然的说话状态?众所周知,人类在说话过程中,并不只是有口型动作,同时还包括脸部的器官动作、头部的动作,甚至手势以及身体动作。作为初步的研究工作,课题组实现了具有丰富表现力的说话人头部运动合成。
对于脸部动作,除了口型动作与发音动作匹配之外,还应包括头部的动作,如抬头、点头、摇头、眼睛的眨动、眉毛、眼睛、下颌的动作。研究表明这些器官的动作直接影响到表情合成效果。课题组研究了头部动作与说话节律(韵律)的关系,提出了基于语音节律规律的头部动作模型,同时还研究了脸部器官动作与情感表现的关系,提出了基于局部表情参数化的脸像合成方法。其主要思想是按照表情动作划分面部关键区域,在关键区域内定义局部表情状态参数(Partial Expression Parameter,简称PEP),利用PEP控制合成局部表情,同时考虑局部表情动作的关联,对局部表情进行调整融合,合成最终表情脸像。
可视语音合成
可视语音合成系统的输入是文本,输出是语音和动态脸像。为了使合成语音和脸像带有情感,课题组引入了PAD三维情绪模型。为了将PAD情绪模型应用到虚拟说话人的表现力合成上,首先,课题组对说话人的话语文本进行分析,根据其中的语义和上下文环境,提取出跟情绪相关的信息。根据人类的话语表达方式,利用PAD模型对每个韵律词进行量化标注,不同语义的词汇在语言表达中有不同的表达方式,包括语音和动作,比如,“最美丽的”和“还不错啦”在情绪表达的差异将会通过PAD模型中三个维度的不同数值体现出来。利用PAD模型,研究人员将计算机无法直接理解的文本语义转化为可以刻画量度的情绪三维空间。
课题组还录制了真实说话人对应的视频语料库,不过在这个视频语料库中,重点研究的是说话人的头部运动。利用目前计算机视觉相对成熟的人脸检测技术,研究人员从视频中提取出人在说话过程中头部运动的二维运动轨迹(x-y平面)。在将语音文本和视频的运动轨迹进行比较分析后,研究人员发现,如果以韵律词为基本观测单位,说话过程中头部运动会呈现明显的周期性和规律性的动作模式。此外,一些无意识的头部运动,往往跟语音的抑扬顿挫等节奏韵律紧密相关。基于这样的规律,研究人员将文本情感的PAD量化结果与视频中的运动轨迹进行对比建模,建立了PAD三维情感数据和人脸头部动作参数之间的关联模型。利用这个模型,可以直接用PAD情感数据驱动合成与话语表达配合的头部运动。
目前,课题组的研究人员正在设法将人类情绪应用到说话人头部运动的合成以及面部表情动作中,通过自然生动的头部运动使得说话人更具表现力,从而使得虚拟说话人不仅具有极高的“智商”,同时也赋予它丰富的“情商”。
转载请注明出处学文网 » 富于表情的虚拟人脸合成