IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

SLP-L1.4

LEVERAGING PREDICTION ENTROPY FOR AUTOMATIC PROMPT WEIGHTING IN ZERO-SHOT AUDIO-LANGUAGE CLASSIFICATION

Karim El Khoury, Maxime Zanella, Tiffanie Godelaine, Christophe De Vleeschouwer, Benoit Macq, UCLouvain, Belgium

Session:

SLP-L1: Speech LLM: Training & Generation Oral

Location:

Room 114

Presentation Time:

Tue, 5 May, 15:00 - 15:20

Session Co-Chairs:

George Saon, IBM and Yanmin Qian, Shanghai Jiao Tong University

View Manuscript

Session SLP-L1

SLP-L1.1: CROSS-MODAL KNOWLEDGE DISTILLATION FOR SPEECH LARGE LANGUAGE MODELS

Enzhi Wang, QIcheng Li, Nankai University, China; Zhiyuan Tang, Tencent Corporation, China; Yuhang Jia, Nankai University, China

SLP-L1.2: WHY DO SPEECH LANGUAGE MODELS FAIL TO GENERATE SEMANTICALLY COHERENT OUTPUTS? A MODALITY EVOLVING PERSPECTIVE

Hankun Wang, Haoran Wang, Yiwei Guo, Zhihan Li, Chenpeng Du, Kai Yu, Shanghai Jiao Tong University, China

SLP-L1.3: GELINA: UNIFIED SPEECH AND GESTURE SYNTHESIS VIA INTERLEAVED TOKEN PREDICTION

Téo Guichoux, ISIR, STMS Lab – IRCAM, Sorbonne Université, France; Théodor Lemerle, STMS Lab – IRCAM, Sorbonne Université, France; Shivam Mehta, Jonas Beskow, Gustav Eje Henter, Department of Speech, Music, and Hearing, KTH Royal Institute of Technology,, Sweden; Laure Soulier, ISIR, Sorbonne Université, France; Catherine Pelachaud, ISIR, CNRS, Sorbonne Université, France; Nicolas Obin, STMS Lab – IRCAM, Sorbonne Universié, France

SLP-L1.4: LEVERAGING PREDICTION ENTROPY FOR AUTOMATIC PROMPT WEIGHTING IN ZERO-SHOT AUDIO-LANGUAGE CLASSIFICATION

Karim El Khoury, Maxime Zanella, Tiffanie Godelaine, Christophe De Vleeschouwer, Benoit Macq, UCLouvain, Belgium

SLP-L1.5: GROUP RELATIVE POLICY OPTIMIZATION FOR TEXT-TO-SPEECH WITH LARGE LANGUAGE MODELS

Chang Liu, University of Science and Technology of China, China; Ya-Jun Hu, iFLYTEK, China; Ying-Ying Gao, Shi-Lei Zhang, China Mobile, China; Zhen-Hua Ling, University of Science and Technology of China, China

SLP-L1.6: PERSONAPLEX: VOICE AND ROLE CONTROL FOR FULL DUPLEX CONVERSATIONAL SPEECH MODELS

Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, Teodor-Dumitru Ene, Robert Kirby, Sungwon Kim, Jaehyeon Kim, Bryan Catanzaro, Nvidia, United States of America

Contact | Accessibility | Nondiscrimination Policy | IEEE Ethics Reporting | IEEE Privacy Policy | Terms | Signal Processing Society

©2026 IEEE – All rights reserved.

Last updated Last updated 22 April 2026.

Use of this website signifies your agreement to the IEEE Terms and Conditions.

Support: webmaster@2026.ieeeicassp.org Host: https://cmsworldwide.com/