IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L18: Text to Speech Generation -O2

Thu, 18 Apr, 08:20 - 10:20 (UTC +9)

Location: Room 103

Session Type: Lecture

Session Co-Chairs: Helen Meng, CUHK and Zhenhua Ling, USTC

Track: Speech and Language Processing

Thu, 18 Apr, 08:20 - 08:40 (UTC +9)

SLP-L18.1: ULTRA-LIGHTWEIGHT NEURAL DIFFERENTIAL DSP VOCODER FOR HIGH QUALITY SPEECH SYNTHESIS

Prabhav Agrawal, Thilo Koehler, Zhiping Xiu, Prashant Serai, Qing He, Meta AI, United States of America

Thu, 18 Apr, 08:40 - 09:00 (UTC +9)

SLP-L18.2: FREGRAD: LIGHTWEIGHT AND FAST FREQUENCY-AWARE DIFFUSION VOCODER

Tan Dat Nguyen, Ji-Hoon Kim, Youngjoon Jang, Jaehun Kim, Joon Son Chung, Korea Advanced Institute of Science and Technology, Viet Nam

Thu, 18 Apr, 09:00 - 09:20 (UTC +9)

SLP-L18.3: BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network

Takashi Shibuya, Yuhta Takida, Sony Research Inc., Japan; Yuki Mitsufuji, Sony Research Inc. / Sony Group Corporation, Japan

Thu, 18 Apr, 09:20 - 09:40 (UTC +9)

SLP-L18.4: NOISE-ROBUST ZERO-SHOT TEXT-TO-SPEECH SYNTHESIS CONDITIONED ON SELF-SUPERVISED SPEECH-REPRESENTATION MODEL WITH ADAPTERS

Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya, Yusuke Ijima, Nippon Telegraph and telephone corporation, Japan

Thu, 18 Apr, 09:40 - 10:00 (UTC +9)

SLP-L18.5: SPEAK WHILE YOU THINK: STREAMING SPEECH SYNTHESIS DURING TEXT GENERATION

Avihu Dekel, Slava Shechtman, Raul Fernandez, David Haws, Zvi Kons, Ron Hoory, IBM Research, Israel

Thu, 18 Apr, 10:00 - 10:20 (UTC +9)

SLP-L18.6: STORYTTS: A HIGHLY EXPRESSIVE TEXT-TO-SPEECH DATASET WITH RICH TEXTUAL EXPRESSIVENESS ANNOTATIONS

Sen Liu, YiWei Guo, Xie Chen, Kai Yu, Shanghai Jiao Tong University, China