IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

SLP-L1: Speech LLM: Training & Generation

Oral

Tue, 5 May, 14:00 - 16:00

Location: Room 114

Session Type: Oral

Session Co-Chairs: George Saon, IBM and Yanmin Qian, Shanghai Jiao Tong University

Track: Speech and Language Processing [SL]

Tue, 5 May, 14:00 - 14:20

SLP-L1.1: CROSS-MODAL KNOWLEDGE DISTILLATION FOR SPEECH LARGE LANGUAGE MODELS

Enzhi Wang, QIcheng Li, Nankai University, China; Zhiyuan Tang, Tencent Corporation, China; Yuhang Jia, Nankai University, China

Tue, 5 May, 14:20 - 14:40

SLP-L1.2: WHY DO SPEECH LANGUAGE MODELS FAIL TO GENERATE SEMANTICALLY COHERENT OUTPUTS? A MODALITY EVOLVING PERSPECTIVE

Hankun Wang, Haoran Wang, Yiwei Guo, Zhihan Li, Chenpeng Du, Kai Yu, Shanghai Jiao Tong University, China

Tue, 5 May, 14:40 - 15:00

SLP-L1.3: GELINA: UNIFIED SPEECH AND GESTURE SYNTHESIS VIA INTERLEAVED TOKEN PREDICTION

Téo Guichoux, ISIR, STMS Lab – IRCAM, Sorbonne Université, France; Théodor Lemerle, STMS Lab – IRCAM, Sorbonne Université, France; Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Department of Speech, Music, and Hearing, KTH Royal Institute of Technology,, Sweden; Laure Soulier, ISIR, Sorbonne Université, France; Catherine Pelachaud, ISIR, CNRS, Sorbonne Université, France; Nicolas Obin, STMS Lab – IRCAM, Sorbonne Universié, France

Tue, 5 May, 15:00 - 15:20

SLP-L1.1: CROSS-MODAL KNOWLEDGE DISTILLATION FOR SPEECH LARGE LANGUAGE MODELS

SLP-L1.2: WHY DO SPEECH LANGUAGE MODELS FAIL TO GENERATE SEMANTICALLY COHERENT OUTPUTS? A MODALITY EVOLVING PERSPECTIVE

SLP-L1.3: GELINA: UNIFIED SPEECH AND GESTURE SYNTHESIS VIA INTERLEAVED TOKEN PREDICTION

SLP-L1.4: LEVERAGING PREDICTION ENTROPY FOR AUTOMATIC PROMPT WEIGHTING IN ZERO-SHOT AUDIO-LANGUAGE CLASSIFICATION

SLP-L1.5: GROUP RELATIVE POLICY OPTIMIZATION FOR TEXT-TO-SPEECH WITH LARGE LANGUAGE MODELS

SLP-L1.6: PERSONAPLEX: VOICE AND ROLE CONTROL FOR FULL DUPLEX CONVERSATIONAL SPEECH MODELS