基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023 时快讯
时间:2023-06-22 12:19:34来源:机器之心


(资料图)

机器之心发布
机器之心专栏

近日,国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会,探讨技术、产业发展趋势,交流最新成果。

云从科技与上海交通大学联合研究团队的《 基于扩散模型的音频驱动说话人生成》成功入选会议论文,并于大会进行现场宣讲,获得多方高度关注。
论文地址:/document/10094937/
ICASSP(International Conference on Acoustics, Speech and Signal Processing)是语音、声学领域的顶级国际会议之一, ICASSP 学术会议上展示的研究成果,被认为代表着声学、语音领域的前沿水平与未来发展方向。
本次入选论文,围绕 “基于音频驱动的说话人视频生成” 这一视觉 - 音频的跨模态任务,将语音与视觉技术结合,提出的方法能够根据输入的语音片段技术,生成自然的头部动作,准确的唇部动作和高质量的面部表情说话视频。该项成果在多个数据集上,都取得了优于过去研究的表现。
此外,在实战场景中,随着现实生活中对于数字人引用的愈来愈广泛,实现用音频驱动的生成与输入音频同步的说话人脸视频的需求也越来越大。本项成果基于扩散模型的跨模态说话人生成技术,可以推广到广泛的应用场景,例如虚拟新闻广播,虚拟演讲和视频会议等等。
简介
基于音频驱动的说话人视频生成任务(Audio-driven Talking face Video Generation):该任务是根据目标人物的一张照片和任意一段语音音频,生成与音频同步的目标人物说话的视频。由于其生成的说话人更自然、准确的唇形运动和保真度更高的头部姿态、面部表情,该任务广泛应用于如数字人、虚拟视频会议和人机交互等领域,作为视觉 - 音频的跨模态任务,基于音频驱动的说话人视频生成也受到了越来越多的关注。
为了构建音频信号到面部形变的映射,现有方法引入了中间人脸表征,包括 2D 关键点或者 3D morphable face model (3DMM),尽管这些方法在音频驱动的面部重演任务上取得了良好的视觉质量,但由于中间人脸表征造成的信息损失,可能会导致原始音频信号和学习到的人脸变形之间的语义不匹配。
此外基于 GAN 的方法训练不稳定,很容易陷入模型崩塌,往往它们只能生成具有固定分辨率的图像。针对以上问题,AD-Nerf 引入了神经辐射场,将音频信号直接输入动态辐射场的隐式函数,最后渲染得到逼真的合成视频。但是基于神经辐射场的方法计算量大导致训练耗时长,算力要求高。并且这些工作大多忽略了个性化的人脸属性,无法准确的将音频和唇部运动进行同步。因此本文的研究者们提出了本方法,通过借助去噪扩散模型来高效地优化人脸各部分个性化属性特征,进而合成高保真度的高清晰视频。
方法
该方法首先基于一个关键的直觉:唇部运动与语音信号高度相关,而个性化信息,如头部姿势和眨眼,与音频的关联较弱且因人而异。受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速进展的启发,因此研究者们基于扩散模型重新构造音频驱动面部重演的新框架,本方法来优化说话人脸视频的生成质量和真实度。
本方法一共包含四大部分:(1)人脸属性解耦;(2)唇 - 音对比同步;(3)动态连续性属性信息建模;(4)基于去噪扩散模型的说话人生成
人脸属性解耦部分中,研究者采用 3DMM 提取源身份图像的头部姿态和表情系数,然后借鉴之前 DFA-nerf 的工作采用全连接的自编码器从表情参数解耦得到唇部运动和眨眼动作信息。
唇 - 音对比同步模块中,研究者通过引入自监督跨模态对比学习策略来部署一个确定性模型来同步音频和唇部运动的特征。
动态连续性属性信息建模模块中,由于头部姿势和眨眼等个性化人脸属性是随机的和具有一定概率性的,因此为了对人脸属性的概率分布进行建模并生成长时间序列,研究者提出采用了基于 transformer 的变分自动编码器(VAE)的概率模型,一是 VAE 可以用于平滑离散的属性信息并映射为高斯分布,二是利用 Transformer 的注意力机制充分学习时间序列的帧间长时依赖性。
基于去噪扩散模型的说话人生成模块中,研究者生成的个性化人脸属性序列与同步的音频嵌入相连接作为扩散模型的输入条件。然后利用条件去噪扩散概率模型(DDPM)将这些驱动条件以及源人脸作为输入,通过扩散生成的方式生成最终的高分辨率说话人视频。这些个性化人脸属性序列与同步的音频嵌入用来丰富扩散模型,以保持生成图像序列的一致性。
实验结果
研究者们通过实验验证了本方法对于基于音频驱动的说话人视频生成任务的优越性能。
定量比较实验
研究者将本方法与现有音频驱动的人脸视频生成方法通过定量化分析实验进行比较,采用了峰值信噪比 (PSNR), 结构相似度(SSIM),人脸关键点运动偏移(LMD),视听同步置信度 (Sync) 等多个客观的评估指标,具体信息如表 1 所示。
本文所提出的扩散生成框架在所有的性能指标上都优于其他方法,其中 PSNR 和 SSIM 验证了人脸属性解耦方案能够更好地捕捉说话人的头部姿态、眨眼等个性化信息。而本方法的 LMD 分数意味着本方法的唇音一致性更强。此外,受益于输入音频和唇部运动的跨模态对比学习,本方法在 Sync 指标上大幅超越其他方法。
定性比较实验
研究者将本方法与现有音频驱动的人脸视频生成方法进行比较。通过个性化属性的学习以及扩散模型的优化,我们的方法生成具有个性化的头部运动,更加逼真眨眼信息,唇 - 音同步性能更好的人脸视频。
模型中每个模块带来的效益
为了突显出模型中每个模块的重要性,研究者们做了消融实验,如表 2 所示,当添加 DDPM 模块之后,在推理速度和视觉质量方面相比于其他模块的提升是最大的,其次,受益于解耦的人脸属性信息以及 VAE 的属性平滑以及动态连续性建模的作用,说话人人脸的自然度得到了提高。此外,唇音对比学习的模块通过自监督的方式显著提高了唇部运动和与输入音频的同步质量。
模型的效率
研究者们还展示了模型的可训练参数量,推理速度以及输出的分辨率大小,并和之前的 SOTA 模型进行了对比,由于使用去噪扩散概率模型,该模型利用变分方法而不是对抗性训练,并且不需要部署多个鉴别器,因此极大缓解了训练时模型容易陷入模型坍塌的问题,并且采用了较短的时间步长,推理速度大大提高,效率得到了提升。
结论
针对基于音频驱动的高保真度说话人视频生成这个任务,云从 - 上交的联合研究团队提出了,基于扩散框架的音频驱动说话人视频生成方法,只需要一帧或几帧身份图像以及输入语音音频,即合成一个高保真度的人脸视频,实现了最先进的合成视频视觉质量。此外利用了跨模态唇音对比学习的方法,从而提升了唇部和音频的一致性,在公开数据集上取得了 SOTA 表现。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@

标签:

生活指南
  • 上海市向明中学浦江校区_向明中学浦江校区怎么样 环球播报

    1、上海市向明中学浦江校区是上海市向明中学的一个校区,属于卢湾区和

  • 每日讯息!宝物网刀剑英雄交易平台_宝物网交易刀剑英雄游戏币安全吗

    1、没用过。2、5173挺不错。本文到此分享完毕,希望对大家有所帮助。

  • 新疆阿克苏地区沙雅县发生3.0级地震 微动态

    据中国地震台网正式测定,6月21日20时25分在新疆阿克苏地区沙雅县发生3

  • 内娱网友喊话辰亦儒开直播,许他荣华富贵,送上顶流流量密码助力 时快讯

    除了张兰以外,张大大的直播顶流密码,也被网友们给征用去献给了辰亦

  • 毕业季租房会涨价吗?北京学区怎么选择? 今亮点

    毕业季租房会涨价吗?毕业季租房会涨价,虽然一线城市普遍都是月薪

  • 环球速递!肯德基全家桶多少钱一桶2023年?adobe全家桶正版个人多少钱一个?

    肯德基全家桶多少钱一桶2023年? 黄金脆皮鸡新春桶 108元 桶(香辣鸡

  • 新动态:炉石传说进阶规则书_关于炉石传说进阶规则书介绍

    1、炉石传说进阶规则书是对炉石传说的结算机制进行了详细的解释,并提

  • 【天天速看料】滞胀的时候做什么投资比较好?滞胀和萧条的区别?

    相信目前很多小伙伴对于理财都比较感兴趣,那么小搜今天在网上也是

  • 当前视讯!电脑删除文件需要管理员权限怎么办?如何跳过管理员权限删除文件?

    电脑删除文件需要管理员权限怎么办?1、首先鼠标右键选中删除不了的

  • 华为手机解锁方式有哪些(华为手机的解锁方式有几种) 今头条

    1、一般华为手机有四种解锁方式,数字、图案、指纹和人脸解锁。2、图案

  • 环球热消息:主板IPO年内第二单“暂缓表决”!两大问题绊住巍华新材

    全面注册制落地后,主板产生年内第二单“暂缓表决”项目。6月14日晚,

  • 半入耳式耳机正确戴法 半入耳式耳机正确戴法不会耳朵疼|全球消息

    1、首先耳机与手机接头。2、半入耳式耳机有听孔与气孔,佩戴时注意左右

  • 世界动态:南微医学:股东Huakang Limited拟减持不超过3%

    2023年6月16日,南微医学(688029)持股5%以上股东减持股份计划公告,

  • 前沿热点:换材料、改技术、调标准,动力电池降本增效的“新药方”

    文 濮振宇今年以来,随着碳酸锂价格大幅跳水,每吨一度跌至20万元一下

  • 快消息!人的身体有没有规律的作息时间?

    人的身体有规律的作息时间。这个规律是由我们身体内部的“生物钟”所控

  • 5分钟,看懂苹果(和以后所有)头显的好坏 动态焦点

    相信这几天大家都被苹果新发布的头显VisionPro给刷屏了,网友基本的看

  • 民生
    • 环球关注:沙海何以披绿装?——榆林探索荒漠化治理路径掠影

    • 小儿氨酚黄那敏颗粒是消炎药吗?要吃几天?_小儿氨酚黄那敏颗粒是消炎药吗 天天快讯

    • 每日关注!考研不需要考数学的专业好考吗(考研不需要考数学的专业)

    • 濮阳市普惠型小微贷款增速居全省第一方阵