IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

SLP-L21: Multi-Talker & Conversational ASR

Oral

Fri, 8 May, 14:00 - 16:00

Location: Room 115

Session Type: Oral

Session Co-Chairs: Yifan Gong, Microsoft and Reinhold Haeb-Umbach, Paderborn University

Track: Speech and Language Processing [SL]

Fri, 8 May, 14:00 - 14:20

SLP-L21.1: ADVANCING LLM-BASED MULTI-CHANNEL MULTI-SPEAKER SPEECH RECOGNITION WITH GLOBAL CROSS-CHANNEL ATTENTION AND SENTENCE-ORDERED FIRST-IN FIRST-OUT SERIALIZED OUTPUT TRAINING

Genshun Wan, Lijuan Liu, University of Science and Technology of China, China, China; Changfeng Xi, iFlytek Research, China, China; Hang Chen, University of Science and Technology of China, China, China; Xindi Yu, Jia Pan, iFlytek Research, China, China; Jun Du, Zhongfu Ye, University of Science and Technology of China, China, China

Fri, 8 May, 14:20 - 14:40

SLP-L21.2: SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

Alexander Polok, Dominik Klement, Brno University of Technology, Czechia; Samuele Cornell, Carnegie Mellon University, United States of America; Matthew Wiesner, Johns Hopkins University, United States of America; Jan Černocký, Brno University of Technology, Czechia; Sanjeev Khudanpur, Johns Hopkins University, United States of America; Lukáš Burget, Brno University of Technology, Czechia

Fri, 8 May, 14:40 - 15:00

SLP-L21.1: ADVANCING LLM-BASED MULTI-CHANNEL MULTI-SPEAKER SPEECH RECOGNITION WITH GLOBAL CROSS-CHANNEL ATTENTION AND SENTENCE-ORDERED FIRST-IN FIRST-OUT SERIALIZED OUTPUT TRAINING

SLP-L21.2: SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper

SLP-L21.3: ADAPTING DIARIZATION-CONDITIONED WHISPER FOR END-TO-END MULTI-TALKER SPEECH RECOGNITION

SLP-L21.4: CALM: JOINT CONTEXTUAL ACOUSTIC-LINGUISTIC MODELING FOR PERSONALIZATION OF MULTI-SPEAKER ASR

SLP-L21.5: SCALING MULTI-TALKER ASR WITH SPEAKER-AGNOSTIC ACTIVITY STREAMS

SLP-L21.6: TARGET-SPEAKER LLM-ASR WITH SPEAKER-AWARE SPEECH ENCODER