IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MLSP-L33: Multimodal Learning and Large Language Models

Oral

Fri, 8 May, 14:00 - 16:00

Location: Room 120+121

Session Type: Oral

Session Co-Chairs: Peidong Wang, Microsoft Research and Guoming Wang, Zhejiang University

Track: Machine Learning for Signal Processing [ML]

Fri, 8 May, 14:00 - 14:20

MLSP-L33.1: DREAM FRAGMENT: INSTANCE-AWARE TEXT-TO-3D GENERATION FOR COMPOSITIONAL MULTI-OBJECT SCENES WITH COMPLEX INTERACTIONS

Zihao Yang, Chaofan Luo, University of Science and Technology of China, China; Conglang Zhang, Wuhan University, China; Xun Yang, University of Science and Technology of China, China; Xuyang Chen, Technical University of Munich, Germany

Fri, 8 May, 14:20 - 14:40

MLSP-L33.2: CONFCLIP: CONFIDENCE-WEIGHTED AND CLIPPED REWARD FOR REINFORCEMENT LEARNING IN LLMS

Bonan Zhang, Shanghai JiaoTong University, China; Zhongqi Chen, Bowen Song, Ant Group, China; Qinya Li, Fan Wu, Guihai Chen, Shanghai JiaoTong University, China

Fri, 8 May, 14:40 - 15:00

MLSP-L33.3: MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization

Binjie Liu, Communication University of China, China; Lina Liu, China Mobile Research Institute, Beijing, China, China; Sanyi Zhang, Communication University of China, China; Songen Gu, Fudan University, China; Yihao Zhi, The Chinese University of Hong Kong(Shenzhen), China; Tianyi Zhu, Lei Yang, China Mobile Research Institute, Beijing, China, China; Long Ye, Communication University of China, China

Fri, 8 May, 15:00 - 15:20

MLSP-L33.1: DREAM FRAGMENT: INSTANCE-AWARE TEXT-TO-3D GENERATION FOR COMPOSITIONAL MULTI-OBJECT SCENES WITH COMPLEX INTERACTIONS

MLSP-L33.2: CONFCLIP: CONFIDENCE-WEIGHTED AND CLIPPED REWARD FOR REINFORCEMENT LEARNING IN LLMS

MLSP-L33.3: MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization

MLSP-L33.4: NATIVETOK: NATIVE VISUAL TOKENIZATION FOR IMPROVED IMAGE GENERATION

MLSP-L33.5: Disentangled Signals, Dynamic Prompts: A Meta-Network Framework for Robust Task-Oriented Dialogue

MLSP-L33.6: DO SPEECH LLMS LEARN CROSSMODAL EMBEDDING SPACES?