IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

SLP-L11: Speech Emotion Recognition and Language Models

Oral

Thu, 7 May, 09:00 - 11:00

Location: Room 114

Session Type: Oral

Session Co-Chairs: Emily Mower Provost, University of Michigan and Kyu J. Han, Oracle

Track: Speech and Language Processing [SL]

Thu, 7 May, 09:00 - 09:20

SLP-L11.1: EMO-TTA: IMPROVING TEST-TIME ADAPTATION OF AUDIO-LANGUAGE MODELS FOR SPEECH EMOTION RECOGNITION

Jiacheng Shi, Hongfei Du, College of William & Mary, United States of America; Y. Alicia Hong, George Mason University, United States of America; Ye Gao, College of William & Mary, United States of America

Thu, 7 May, 09:20 - 09:40

SLP-L11.2: RECOVERING PERFORMANCE IN SPEECH EMOTION RECOGNITION FROM DISCRETE TOKENS VIA MULTI-LAYER FUSION AND PARALINGUISTIC FEATURE INTEGRATION

Esther Sun, Abinay Reddy Naini, Carlos Busso, Carnegie Mellon University, United States of America

Thu, 7 May, 09:40 - 10:00

SLP-L11.3: B-GRPO: UNSUPERVISED SPEECH EMOTION RECOGNITION BASED ON BATCHED-GROUP RELATIVE POLICY OPTIMIZATION

Yingying Gao, Shilei Zhang, Runyan Yang, Zihao Cui, Junlan Feng, Jiutian Artificial Intelligence Research Institute, China

Thu, 7 May, 10:00 - 10:20

SLP-L11.4: CONTRASTIVE DISTILLATION OF EMOTION KNOWLEDGE FROM LLMS FOR ZERO-SHOT EMOTION RECOGNITION

Minxue Niu, Emily Mower Provost, University of Michigan, United States of America

Thu, 7 May, 10:20 - 10:40

SLP-L11.5: MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large Audio-Language Model

Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee, National Taiwan University, Taiwan

Thu, 7 May, 10:40 - 11:00

SLP-L11.6: LEVERAGING LARGE SPEECH LANGUAGE MODELS AS EVALUATORS FOR EXPRESSIVE SPEECH

Bismarck Odoom, Philipp Koehn, Johns Hopkins University, United States of America