首页
计算器
计算器工具
DeekSeep满血版
当贝AI DeekSeep R1 满血版
AI导航网
一站式AI产品导航
刷机
刷机玩机救砖技巧
开启辅助访问
立即注册
登录
用户名
Email
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
本版
文章
帖子
用户
刷机救砖
固件下载
魔百盒论坛
TCL电视论坛
小米电视论坛
海信电视论坛
荣耀智慧屏
索尼电视论坛
Apple TV论坛
HiFi-GAN——基于GAN的高速Neural Vocoder
zhangxi24
回答数
0
浏览数
846
zhangxi24
hifi
在一定程度上
是真是假
本文未经允许禁止转载,谢谢合作。作者:Light Sea@资深
本文我将介绍近期一台比较优秀的有关Neural Vocoder的工作:HiFi-GAN,HiFi-GAN改善了之前的基于GAN的工作中语音质量较差的缺点,因此兼具了高效率和质量。
原文标题:<HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis>
1. Introduction
最近和vocoder相关的工作会使用GAN来加快生成速度,但是这类模型的表现还比不上自回归或者flow-based模型。这篇文章中作者提出了HiFi-GAN,HiFi-GAN兼具了好的效率和表现,实验结果证明HiFi-GAN在GPU上可以以比实时速度快167.9倍的速度生成22.05 kHz的语音,在CPU上可以以比自回归模型快13.4倍的速度生成语音。
在基于深度学习的TTS中,从文字生成语音有两个阶段:(1)从文字生成mel-spec,典型的如Tacotron和FastSpeech,(2)从mel-spec生成语音,比如WaveNet、WaveRNN。
WaveNet的表现和人类语音相差无几,但是生成速度太慢,最近基于GAN的Vocoder,比如MelGAN尝试进一步提升语音的生成速度,然而这类模型提升效率的同时却牺牲了质量,因此研究者希望有一台效率和质量兼备的Vocoder,这就是HiFi-GAN。
HiFi-GAN针对语音中包含不同周期的信号的特点,使用多个小的sub-discriminator来分别处理这些周期的模式,从而获得了很好的表现,又因为模型可以并行处理这些模式,因此可以有较高的计算效率。
2. Model
HiFi-GAN包括一台生成器和两个判别器,下面分别介绍。
2.1 Generator
生成器的架构如下图所示:
就像最左边的子图展示的,生成器由|k_{u}|个类似的模块组成,即反卷积+MRF (multi-receptive field fusion),这里反卷积主要用于上采样。
MRF的具体架构可以参考上图剩下的两个子图,它包含多个CNN,每个CNN都有不同的kernel size和dilation rate,这样设计的目的在于提取不同长度的数据中包含的模式。
在中间的子图中可以看到,不同ResBlock的输出会在最后加和,因此这里CNN的计算是可以并行完成的。
最后一台子图展示了ResBlock的内部结构。
2.2 判别器
语音中的判别器和CV或者NLP中的判别器最大的不同在于数据的长度,语音的长度通常是上万的,因此如何判别这么长的数据是真是假就成了一台问题。虽然之前的工作已经在一定程度上解决了这个问题,比如增加discriminator的receptive field的方法,但作者认为信号中包含不同周期的正弦信号,这个也需要进行识别。
基于上述的两点,作者使用了两个判别器,一台是multi-period discriminator (MPD),用来识别语音中不同周期的信号,另一台是MelGAN中的multi-scale discriminator,用来应对超长数据。
MPD和MSD的架构如下图所示:
MPD中包含了很多子判别器,每个子判别器有不同的period p,上图中的(b)展示了p=3的子判别器,子判别器会先根据p的值把语音转换成2-D数据,然后使用kernel size为k \times 1的CNN来进行处理。通过使用不同的p,就可以获得不同周期信号的模式。
MPD的缺点在于它只能从非连续的信号中学习模式,因此作者使用了MSD作为补充。MSD从连续的信号中学习,其架构如上图中的(a)所示。MSD中也包含子判别器,每个判别器使用不同长度的average pooling来处理语音,然后使用CNN进行判别。
2.3 Loss
模型的loss分成几个部分,首先是GAN的部分,这个部分和一般的GAN没什么区别(不了解GAN的读者参考这篇文章):
除了GAN的loss之外,为了稳定训练并加速收敛,作者也使用了其它两个loss,首先是mel-spec loss:
也就是把生成的audio再次转换成mel-spec然后和GT mel-spec进行计算的L1 loss。
然后是feature matching loss:
这个loss计算了fake语音和与之对应的true语音在判别器中各层feature的L1 loss。
最终模型的loss为:
如果进一步分解为子判别器的话可以表示为:
3. Experiments
作者使用VCTK进行实验,且同时测试了模型在CPU和GPU上的表现。
首先是主观评价的结果:
这里表中有V1、V2、V3三个模型,简单来说V1是最大的模型,V2保持了和V1相同的receptive field但是减少了隐层的大小,V3则是保持相同receptive field的同时减少了模型的层数。
可以看到V1的表现最好,而V3的计算速度最快,且V3的表现基本和WaveNet持平。具体的参数设定可以参考原论文。
然后是ablation experiments的结果:
可以看到本文提出的三个模块:MPD、MSD、MRF以及mel-spec loss都对模型表现有贡献,MelGAN在加上MPD之后也有了表现的提升。
作者也测试了HiFi-GAN生成unseen speaker语音时的表现:
可以看到表现是很不错的。
最后,作者测试了HiFi-GAN在end-to-end TTS中的表现:
可以看到如果不fine-tuning,则HiFi-GAN和WaveGlow的表现都不如何好,但进行fine-tuning之后HiFi-GAN的表现就比较令人满意了。
这里由于篇幅的原因笔者省略了一些附录的细节,感兴趣的读者可以进一步参考原论文。
4. Conclusions
本文介绍了HiFi-GAN,一台基于GAN的neural vocoder。HiFi-GAN兼具了高计算效率和语音质量,是最近比较好的工作。
创作不易,如果大家觉得有收获的话烦请点赞收藏支持一下,你的支持就是我创作的最大动力。
回答
提问
使用道具
举报
|
来自北京
用Deepseek满血版问问看
>>用【当贝酷狗音乐】海量正版、无损音乐!
相关问题
更多>
“闺蜜机”究竟是科技新宠还是智商税?
在这个科技日新月异的时代,各种新奇的产品层出不穷,而“闺蜜机”这一名词悄然在网络和社交媒体 ...
机顶盒也能HiFi?史上最强智能机顶盒零刻GT-King Pro体验测评
很多电视盒子现在都主打智能化,荣耀、小米、乐视、天猫等等都在做这方面的业务,可是使用一圈看 ...
3999的闺蜜机,半年狂卖2.9亿!闺蜜机是怎么收割中产女性的?
在2024年的电子产品市场中,一款名为“闺蜜机”的新型可移动智慧屏设备迅速崛起,成为备受瞩目的 ...
2个月销售额破亿!“冒险上瘾”的小度,为何又爆了?
文/ 金错刀 众所周知,年轻人越来越不爱看电视了。 《2021年中国年轻人居家生活调查报告》显示 ...
AI电视的风口,谁能起飞?
文 | 花儿街财经,作者 | 李洋,编辑 | 吴妍 AI风,终于在2024年初吹到了家电圈。 AI落地家电 ...
小而不俗 酷开50A2 HiFi大内容电视评测
都说 2016 年是 4K 时代,就在这半年中我们已经看到了两款超高清蓝光播放机和一大批 4K 蓝光光盘 ...
“屏幕又破又卡、卖得比电视还贵”,网红狂吹的闺蜜机到底谁在买
轰轰烈烈而漫长的双十一周期里,我观察到口碑最割裂的产品,是已经在网上各个角落疯狂植入了两年 ...
小小的魔百盒,大大的能量
自从家里装了魔百盒之后,每当下班回到家,最惬意的事情莫过于躺在沙发上看电视了。但大家有没有 ...
ZNDS问答首页
›
HiFi-GAN——基于GAN的高速Neural Vocoder
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖后跳转到最后一页
最新回答
小米电视itv插口是哪个
阅读:0
小米透明电视雷军多少钱
阅读:0
电脑怎么连接电视机放ppt
阅读:0
小米4pro电视刷屏率多少
阅读:0
双按键怎么接电视机线视频
阅读:0
小米55寸电视4c4x4a哪个好
阅读:0
索尼电视音响有哪些
阅读:0
索尼电视为什么有沙沙声
阅读:0
电视机80%注册itms失败怎么解决
阅读:0
索尼电视维修换新机要多久
阅读:0
Archiver
-
手机版
-
当贝AI
-
发现AI
-
Sitemap
-
智能鱼缸之家
-
联系我们
-
隐私政策
-
ZNDS问答
(
苏ICP备2023012627号
苏公网安备 32011402011373号
)
增值电信业务经营许可证:苏B2-20221768 Copyright © 2013 - 2025
GMT+8, 2025-4-28 20:29
, Processed in 0.150796 second(s), 19 queries , MemCache On.