IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

GC-L7: Multimodal Information Based Speech Processing (MISP) 2023 Challenge

Fri, 19 Apr, 13:10 - 15:10 (UTC +9)

Location: Room E8

Session Type: Lecture

Session Co-Chairs: Shinji Watanabe, Carnegie Mellon University and Jun Du, University of Science and Technology of China

Track: Grand Challenges

Fri, 19 Apr, 13:10 - 13:40 (UTC +9)

GC-L7.1: SUMMARY ON THE MULTIMODAL INFORMATION-BASED SPEECH PROCESSING (MISP) 2023 CHALLENGE

Hang Chen, Shilong Wu, Chenxi Wang, Jun Du, University of Science and Technology of China, China; Chin-hui Lee, Georgia Institute of Technology, United States of America; Sabato Marco Siniscalchi, Kore University of Enna, Italy; Shinji Watanabe, Carnegie Mellon University, United States of America; Jingdong Chen, Northwestern Polytechnical University, China; Odette Scharenborg, Delft University of Technology, Netherlands; Zhong-Qiu Wang, Carnegie Mellon University, United States of America; Baocai Yin, Jianqing Gao, iFlytek Research, China

Fri, 19 Apr, 13:40 - 14:10 (UTC +9)

GC-L7.2: SIR-PROGRESSIVE AUDIO-VISUAL TF-GRIDNET WITH ASR-AWARE SELECTOR FOR TARGET SPEAKER EXTRACTION IN MISP 2023 CHALLENGE

Zhongshu Hou, Tianchi Sun, Nanjing University, China; Yuxiang Hu, Changbao Zhu, Horizon Robotics, China; Kai Chen, Jing Lu, Nanjing University, China

Fri, 19 Apr, 14:10 - 14:40 (UTC +9)

GC-L7.3: AN AUDIO-QUALITY-BASED MULTI-STRATEGY APPROACH FOR TARGET SPEAKER EXTRACTION IN THE MISP 2023 CHALLENGE

Runuduo Han, Xiaopeng Yan, Weiming Xu, Pengcheng Guo, Jiayao Sun, He Wang, Northwestern Polytechnical University, China; Quan Lu, Ning Jiang, Mashang Consumer Finance Co., Ltd., China; Lei Xie, Northwestern Polytechnical University, China

Fri, 19 Apr, 14:40 - 15:10 (UTC +9)

GC-L7.4: The XMUSPEECH SYSTEM FOR AUDIO-VISUAL TARGET SPEAKER EXTRACTION IN MISP 2023 CHALLENGE

Longjie Luo, Tao Li, Lin Li, Qingyang Hong, Xiamen University, China