IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L23: Speech separation and extraction

Thu, 18 Apr, 16:30 - 18:30 (UTC +9)

Location: Room 104

Session Type: Lecture

Session Co-Chairs: Gordon Wichern , Mitsubihi Electric Research Labs (MERL) and Katerina Zmolikova, Meta

Track: Speech and Language Processing

Thu, 18 Apr, 16:30 - 16:50 (UTC +9)

SLP-L23.1: NEUROHEED+: IMPROVING NEURO-STEERED SPEAKER EXTRACTION WITH JOINT AUDITORY ATTENTION DETECTION

Zexu Pan, Gordon Wichern, Francois Germain, Sameer Khurana, Jonathan Le Roux, Mitsubishi Electric Research Laboratories, United States of America

Thu, 18 Apr, 16:50 - 17:10 (UTC +9)

SLP-L23.2: TARGET SPEECH EXTRACTION WITH PRE-TRAINED SELF-SUPERVISED LEARNING MODELS

Junyi Peng, Brno University of Technology, Czechia; Marc Delcroix, Tsubasa Ochiai, NTT Corporation, Japan; Oldřich Plchot, Brno University of Technology, Czechia; Shoko Araki, NTT Corporation, Japan; Jan Černocký, Brno University of Technology, Czechia

Thu, 18 Apr, 17:10 - 17:30 (UTC +9)

SLP-L23.3: AUDIO-VISUAL ACTIVE SPEAKER EXTRACTION FOR SPARSELY OVERLAPPED MULTI-TALKER SPEECH

Junjie Li, Shenzhen Research Institute of Big Data, The Chinese University of Hong Kong, Shenzhen (CUHK-Shenzhen), China; Ruijie Tao, Zexu Pan, Meng Ge, Department of Electrical and Computer Engineering, National University of Singapore, Singapore, Singapore; Shuai Wang, Haizhou Li, Shenzhen Research Institute of Big Data, The Chinese University of Hong Kong, Shenzhen (CUHK-Shenzhen), China

Thu, 18 Apr, 17:30 - 17:50 (UTC +9)

SLP-L23.1: NEUROHEED+: IMPROVING NEURO-STEERED SPEAKER EXTRACTION WITH JOINT AUDITORY ATTENTION DETECTION

SLP-L23.2: TARGET SPEECH EXTRACTION WITH PRE-TRAINED SELF-SUPERVISED LEARNING MODELS

SLP-L23.3: AUDIO-VISUAL ACTIVE SPEAKER EXTRACTION FOR SPARSELY OVERLAPPED MULTI-TALKER SPEECH

SLP-L23.4: AUDIOVISUAL SPEAKER SEPARATION WITH FULL- AND SUB-BAND MODELING IN THE TIME-FREQUENCY DOMAIN

SLP-L23.5: Combining Conformer and Dual-Path-Transformer Networks for Single Channel Noisy Reverberant Speech Separation

SLP-L23.6: Generation-based Target Speech Extraction with Speech Discretization and Vocoder