IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L8: Multichannel/Multimodal Speech Recognition

Wed, 17 Apr, 08:20 - 10:20 (UTC +9)

Location: Room 104

Session Type: Lecture

Session Co-Chairs: Marc Delcroix, NTT and Lei Xie, Northwestern Polytechnical University

Track: Speech and Language Processing

Wed, 17 Apr, 08:20 - 08:40 (UTC +9)

SLP-L8.1: VISUAL SPEECH RECOGNITION FOR LANGUAGES WITH LIMITED LABELED DATA USING AUTOMATIC LABELS FROM WHISPER

Jeong Hun Yeo, Minsu Kim, KAIST, Korea, Republic of; Shinji Watanabe, Carnegie Mellon University, United States of America; Yong Man Ro, KAIST, Korea, Republic of

Wed, 17 Apr, 08:40 - 09:00 (UTC +9)

SLP-L8.2: MULTI-MODALITY SPEECH RECOGNITION DRIVEN BY BACKGROUND VISUAL SCENES

Cheng Luo, Zhejiang Lab, China; Yiguang Liu, Zhejiang University, China; Wenhui Sun, Zhoujian Sun, Zhejiang Lab, China

Wed, 17 Apr, 09:00 - 09:20 (UTC +9)

SLP-L8.3: SELF-SUPERVISED ADAPTIVE AV FUSION MODULE FOR PRE-TRAINED ASR MODELS

Christopher Simic, Tobias Bocklet, Technische Hochschule Nuernberg Georg Simon Ohm, Germany

Wed, 17 Apr, 09:20 - 09:40 (UTC +9)

SLP-L8.4: AUTOMATIC CHANNEL SELECTION AND SPATIAL FEATURE INTEGRATION FOR MULTI-CHANNEL SPEECH RECOGNITION ACROSS VARIOUS ARRAY TOPOLOGIES

Bingshen Mu, Pengcheng Guo, Dake Guo, Northwestern Polytechnical University, China; Pan Zhou, Wei Chen, Li Auto, China; Lei Xie, Northwestern Polytechnical University, China

Wed, 17 Apr, 09:40 - 10:00 (UTC +9)

SLP-L8.5: AGADIR: Towards Array-Geometry Agnostic Directional Speech Recognition

Ju Lin, Niko Moritz, Yiteng Huang, Ruiming Xie, Ming Sun, Christian Fuegen, Frank Seide, Meta, United States of America

Wed, 17 Apr, 10:00 - 10:20 (UTC +9)

SLP-L8.6: UNIX-Encoder: A Universal X-Channel Speech Encoder for Ad-Hoc Microphone Array Speech Processing

Zili Huang, Yiwen Shao, Johns Hopkins University, United States of America; Shi-Xiong Zhang, Dong Yu, Tencent AI Lab, United States of America