逼真的口唇同步技术对于构建身临其境且富有表现力的3D数字人/3D虚拟人至关重要。口唇同步技术将虚拟人的嘴部动作与声音相匹配,确保语音的视觉和听觉同步。当观众通过视觉和音频观看虚拟人说话时,这种口唇同步技术提高了角色的可信度和真实感。

准确的口型同步很重要,因为它传达了虚拟人真的正在说话的感觉。当嘴部动作与对话相匹配时,虚拟人的展示效果会更加自然和令人信服,让观众专注于对话的内容和情感。

1 虚拟角色的口唇同步概述

逼真的口型同步对于捕捉语音的细微差别(例如嘴部运动的形状和时间)至关重要。这个过程通常使用“视位”(visemes),它是音素的视觉表示(语音中声音的不同单位;例如,“cat”是三个音素:/k/、/æ/和/t/)。

视位是与每一个音素相关的特定嘴型和动作。虽然音素有很多,但是发音嘴型将相似的嘴型可以组合到一起,这样可以降低口唇同步所需动画的复杂性。例如,音素/b/,/p/,/m/基本上具备相同的嘴唇形状。

目前口唇同步技术从简单的基于规则的技术已经迭代到更为复杂的神经网络的技术,复杂的神经网络技术可以利用AI和机器学习来分析输入音频并实时生成对应的嘴型和面部表情。

2 虚拟角色口唇同步技术

目前虚拟角色口唇同步技术可以分为三个级别,从低到高如下:

  1. 基于音素的blendshape方案
  2. OVR lip sync(Oculus Meta)
  3. Audio2Face(NVIDIA)

下面将详细介绍下这三种技术。

2.1 基于音素的blendshape方案

将每一个音素硬编码为预定义的blendshape,该方案技术路线如下:

  1. Text-to-Phoneme Conversion:将输入文本转换为音素;
  2. Phoneme-to-Blend Shape Mapping:将每个音素都映射到对应的blendshape;
  3. Animation Application:将blendshape应用到虚拟角色进行口唇同步;

这种方法优点是实现比较简单,缺点是因为依赖预定义blendshape,那么其灵活性和可扩展性受到限制。

2.2 OVR lip sync(Oculus Meta)

OVR lip sync技术由Oculus Meta开发,目的在于直接根据音频输入为虚拟角色提供逼真的嘴部动画。

该技术将原始音频作为输入,并以每秒100帧的速度输出视位,共包含15个视位:sil、PP、FF、TH、DD、kk、CH、SS、nn、RR、aa、E、ih、oh 和 ou。例如,视位sil对应于无声/中性表达, PP对应于“popcorn”中第一个音节的发音, FF对应于“fish”中第一个音节的发音。

每一个视位与嘴型的对应关系可参考OVR lip sync视位与嘴型对应关系。这15个视位被选择用于提供最大范围的嘴唇运动,与语言无关,详细情况可参考:Viseme MPEG-4 标准

3D数字人、虚拟人口唇同步技术概述、目前常用解决方案介绍和比较-StubbornHuang Blog

OVR lip sync提供了在Windows和Mac OS本机开发的C++ SDK库,用于根据音频提取上述15个视位。

此方法的优点也是易于实现,但也存在局限性:

  • 仅有15个视位,质量和表现能力有限;
  • 仅对嘴唇进行动画处理,缺乏相应的面部表情;

2.3 NVIDIA Audio2Face

NVIDIA Audio2Face是目前最先进的口唇同步技术,它使用神经网络模型输出口唇同步参数。与使用 15 个视位的 OVR Lip Sync 不同,Audio2Face 输出 52 个 Arkit BlendShape的权重,这些BlendShape涵盖了更广泛的面部表情,包括嘴巴、情绪和头部动作。

Audio2Face 在大型音频和相应的面部运动数据集上进行AI模型训练。他们分析音频信号并将其映射到适当的混合形状权重,以生成逼真的唇形同步和面部表情。这种人工智能驱动的方法使 Audio2Face 能够产生优于 OVR Lip Sync 的高质量、富有表现力的结果。

3D数字人、虚拟人口唇同步技术概述、目前常用解决方案介绍和比较-StubbornHuang Blog

Audio2Face的优势包括:

  • 为多语言对话、音乐甚至胡言乱语生成自然的口型同步;
  • 支持口型同步和带情感的面部表情;
  • 提供控件调整动画的风格和强度;

与OVR lip sync的比较:比OVR lip sync处理速度慢但结果质量更高。虽然Audio2Face在生成的面部动画上有很高的质量,但是它比OVR lip sync处理速度更慢,因为分析音频和生成BlendShape权重涉及更为复杂的处理。

  • 质量:由于使用了AI和更多的BlendShape,Audio2Face提供了更加高质量的面部动画以及更细致自然的动作;
  • 性能:Audio2Face的处理时间较长,会在虚拟角色实时交互应用中引入延迟,对于想要在交互式环境中保持低延迟的开发人员,需要考虑是否采用;

2.4 选择适合的口唇同步技术

下面对上述3种技术进行对比,以便可以选择适合的口唇同步技术

技术 优势 适用性
基于音素的blendshape方案 适合需要快速实现的简单应用程序 适合动画要求有限并且复杂度较低的项目
OVR lip sync 平衡了质量和易用性 适合需要中等到高质量口唇同步的实时项目
Audio2Face 高质量,稍高延迟 适合具有复杂动画要求的企业解决方案和项目,适合需要最高质量口型同步的高端应用

参考链接