只用音频，让25年前的奥巴马“穿越”到现在？

2024-11-15 11:13:31 admin

只用音频，穿越让25年前的只用音频奥巴马“穿越”到现在？

真假奥巴马，傻傻分不清。让年

上面两个人，奥巴其实都是穿越奥巴马。左边是只用音频1990年还在剑桥读书时的他，另外一个则是让年20多年之后已经当上总统的“他”。最关键的奥巴是，这两个奥巴马实际上都在讲着一样的穿越东西，因为右边的只用音频“假”奥巴马，而且是让年利用左边20多年前奥巴马音频生成的。

只用音频，奥巴让25年前的穿越奥巴马“穿越”到现在？

这个魔术般的“表演”，实际上是只用音频来自华盛顿大学的3位学者Supasorn、Steven、让年Ira的最新成果。他们在7月中旬发布了相关的演示视频，其中一位成员Ira在上周洛杉矶的SIGGRAPH上对这一成果进行了详细的介绍和解析，雷锋网也在SIGGRAPH现场聆听了这次分享。

如何实现输入语音，输出图像？

只用音频，让25年前的奥巴马“穿越”到现在？

看完这个演示第一个想到的问题必然是：这个“魔术”究竟是如何实现的？究竟如何将语音转化为一个人的面部表情呢？

在现场分享的开始阶段，Ira就直接指出了这一研究的两大难点：

音频只是一个一维信息，但最终我们要的是二维的图像画面；
人类本身对于嘴部运动的感知非常敏感，高清画质下小的瑕疵将更加明显。

举个例子，目前电影和游戏中有很多人物的细节片段，他们说话时整个脸部的细微动作，实际上都是由真人演员，通过在脸上贴满了各种标记之后在摄像机面前一对一模拟的结果。但很明显这种方法并不能应用到所有应用场景当中。

既然不能明着来，那就只能“取巧”了，我们引用正式论文中的一张图，来看一下他们实际的处理过程。

只用音频，让25年前的奥巴马“穿越”到现在？

简单归纳一下：

输入音频，进行利用一个神经网络循环将语音转化一个大致的嘴型；
利用大致的嘴型重新转化为嘴、牙齿、相关脸部的图像；
寻找到适合的视频片段，并且将嘴型的时间点与视频片段对应；
将嘴型覆盖在目标的视频片段上；
得到最终视频片段。

整个过程中最重要的还是对现有数据的使用。除了从现有的图像数据中学会嘴型变化之外，他们实际上真正生成的只有嘴部的变化，剩下的头部变化以及背景实际上也来自于现有的素材。

这种“通过AI技术将真实资料结合到一起，再生成虚拟内容”的思路是他们成功的关键。

让AI模仿奥巴马的嘴

只用音频，让25年前的奥巴马“穿越”到现在？

因为会利用很多现有的素材，所以第一个问题变成了“如何模仿奥巴马的嘴部运动”。因为嘴型其实并不与发音完全一一对应，它同时也会受到前后发音、语气等因素的同时作用。

如果你直接把音频分成无数个片段，对应嘴型之后再拼起来。你就会得到一个说话时候像在抽搐的奥巴马。对此，Ira他们想出了一套“循环神经网络（recurrent neural network）”：神经网络循环对25毫秒的音频进行分析，然后结合前后的发音来确定面部表情。最关键的是：这个25毫秒的窗口期并不是一个一个分隔的，而是随着时间不断推进的。这也让最终生成的奥巴马非常流畅。

确定这种检测方法之后，他们就利用机器学习对所有奥巴马片段进行分析，并且最终将他们转化为包含上下嘴唇的18个标记点的二维模型。

在正式论文中，他们也详细介绍了自己如何使用“循环神经网络”，感兴趣的可以下载下来详细看看。