IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L1: Speech enhancement and separation - Diffusion and other probabilistic models

Tue, 16 Apr, 13:10 - 15:10 (UTC +9)

Location: Room 104

Session Type: Lecture

Session Co-Chairs: Timo Gerkmann, Universität Hamburg and Tomohiro Nakatani, NTT Corporation

Track: Speech and Language Processing

Tue, 16 Apr, 13:10 - 13:30 (UTC +9)

SLP-L1.1: DIFFUSION-BASED SPEECH ENHANCEMENT IN MATCHED AND MISMATCHED CONDITIONS USING A HEUN-BASED SAMPLER

Philippe Gonzalez, Technical University of Denmark, Denmark; Zheng-Hua Tan, Jan Østergaard, Jesper Jensen, Aalborg University, Denmark; Tommy Sonne Alstrøm, Tobias May, Technical University of Denmark, Denmark

Tue, 16 Apr, 13:30 - 13:50 (UTC +9)

SLP-L1.2: Unsupervised Speech Enhancement with Diffusion-based Generative Models

Berné Nortier, Mostafa Sadeghi, Romain Serizel, Inria, France

Tue, 16 Apr, 13:50 - 14:10 (UTC +9)

SLP-L1.3: BOOSTING SPEECH ENHANCEMENT WITH CLEAN SELF-SUPERVISED FEATURES VIA CONDITIONAL VARIATIONAL AUTOENCODERS

Yoonhyung Lee, Kyomin Jung, Seoul National University, Korea, Republic of

Tue, 16 Apr, 14:10 - 14:30 (UTC +9)

SLP-L1.4: Diffusion-based Speech Enhancement with a Weighted Generative-Supervised Learning Loss

Jean-Eudes Ayilo, Mostafa Sadeghi, Romain Serizel, Inria, France

Tue, 16 Apr, 14:30 - 14:50 (UTC +9)

SLP-L1.5: AV2WAV: DIFFUSION-BASED RE-SYNTHESIS FROM CONTINUOUS SELF-SUPERVISED FEATURES FOR AUDIO-VISUAL SPEECH ENHANCEMENT

Ju-Chieh Chou, Chung-Ming Chien, Karen Livescu, Toyota Technological Institute at Chicago, United States of America

Tue, 16 Apr, 14:50 - 15:10 (UTC +9)

SLP-L1.6: SEEING THROUGH THE CONVERSATION: AUDIO-VISUAL SPEECH SEPARATION BASED ON DIFFUSION MODEL

Suyeon Lee, Chaeyoung Jung, Youngjoon Jang, Jaehun Kim, Joon Son Chung, Korea Advanced Institute of Science and Technology, Korea, Republic of