IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L18.4

NOISE-ROBUST ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED ON SELF-SUPERVISED SPEECH-REPRESENTATION MODEL WITH ADAPTERS

Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya, Yusuke Ijima, Nippon Telegraph and telephone corporation, Japan

Session:

SLP-L18: Text to Speech Generation -O2 Lecture

Location:

Room 103

Presentation Time:

Thu, 18 Apr, 09:20 - 09:40 (UTC +9)

Session Co-Chairs:

Helen Meng, CUHK and Zhenhua Ling, USTC

View Manuscript

Session SLP-L18

SLP-L18.1: ULTRA-LIGHTWEIGHT NEURAL DIFFERENTIAL DSP VOCODER FOR HIGH QUALITY SPEECH SYNTHESIS

Prabhav Agrawal, Thilo Koehler, Zhiping Xiu, Prashant Serai, Qing He, Meta AI, United States of America

SLP-L18.2: FREGRAD: LIGHTWEIGHT AND FAST FREQUENCY-AWARE DIFFUSION VOCODER

Tan Dat Nguyen, Ji-Hoon Kim, Youngjoon Jang, Jaehun Kim, Joon Son Chung, Korea Advanced Institute of Science and Technology, Viet Nam

SLP-L18.3: BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network

Takashi Shibuya, Yuhta Takida, Sony Research Inc., Japan; Yuki Mitsufuji, Sony Research Inc. / Sony Group Corporation, Japan

SLP-L18.4: NOISE-ROBUST ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED ON SELF-SUPERVISED SPEECH-REPRESENTATION MODEL WITH ADAPTERS

Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya, Yusuke Ijima, Nippon Telegraph and telephone corporation, Japan

SLP-L18.5: SPEAK WHILE YOU THINK: STREAMING SPEECH SYNTHESIS DURING TEXT GENERATION

Avihu Dekel, Slava Shechtman, Raul Fernandez, David Haws, Zvi Kons, Ron Hoory, IBM Research, Israel

SLP-L18.6: STORYTTS: A HIGHLY EXPRESSIVE TEXT-TO-SPEECH DATASET WITH RICH TEXTUAL EXPRESSIVENESS ANNOTATIONS

Sen Liu, YiWei Guo, Xie Chen, Kai Yu, Shanghai Jiao Tong University, China