IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MLSP-L30: Diffusion Models for Audio and Video Generation

Oral

Fri, 8 May, 09:00 - 11:00

Location: Room 117

Session Type: Oral

Session Co-Chairs: Zhiwei Xiong, University of Science and Technology of China and Emilian Postolache, IRIS Audio Technologies

Track: Machine Learning for Signal Processing [ML]

Fri, 8 May, 09:00 - 09:20

MLSP-L30.1: VIRTUAL CONSISTENCY FOR AUDIO EDITING

Matthieu Cervera, Independent Researcher, Canada; Francesco Paissan, Laval University, Mila-Quebec AI Institute, Canada; Mirco Ravanelli, Concordia University, Mila-Quebec AI Institute, University of Montreal, Canada; Cem Subakan, Laval University, Mila-Quebec AI Institute, Concordia University, Canada

Fri, 8 May, 09:20 - 09:40

MLSP-L30.2: PLANPERCEIVER: A UNIFIED FRAMEWORK FOR MULTI-LEVEL SCENE INFORMATION FUSION IN AUTONOMOUS DRIVING PLANNING

Yuxuan Wu, Harbin Institute of Technology, China; Guo Yang, Chengcheng Tang, CHONGQING CHANGAN AUTOMOBILE Co., Ltd, China; Qiuju Gao, China Software Testing Center, China; Ping Wu, CHONGQING CHANGAN AUTOMOBILE Co., Ltd, China; Jianxun Cui, Harbin Institute of Technology, China

Fri, 8 May, 09:40 - 10:00

MLSP-L30.3: RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

Fangyu Du, Xi'an Jiaotong University, China; Taiqing Li, Dalian University of Technology, China; Qian Qiao, Tan Yu, Dingcheng Zhen, Ziwei Zhang, Soul AI, China; xu jia, Dalian University of Technology, China; yang yang, Xi'an Jiaotong University, China; Shunshun Yin, Siyuan Liu, Soul AI, China

Fri, 8 May, 10:00 - 10:20

MLSP-L30.1: VIRTUAL CONSISTENCY FOR AUDIO EDITING

MLSP-L30.2: PLANPERCEIVER: A UNIFIED FRAMEWORK FOR MULTI-LEVEL SCENE INFORMATION FUSION IN AUTONOMOUS DRIVING PLANNING

MLSP-L30.3: RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

MLSP-L30.4: FC-VFI: FAITHFUL AND CONSISTENT VIDEO FRAME INTERPOLATION FOR HIGH-FPS SLOW MOTION VIDEO GENERATION

MLSP-L30.5: TRAINING-FREE FRAMEWORK FOR DEFENDING UNSAFE IMAGE SYNTHESIS ATTACK

MLSP-L30.6: SIGN-SALD: A SKELETON-AWARE LATENT DIFFUSION MODEL FOR TEXT-DRIVEN SIGN LANGUAGE PRODUCTION