IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MMSP-L6: Audio-Visual Source Separation and Localization

Oral

Thu, 7 May, 09:00 - 11:00

Location: Room 131+132

Session Type: Oral

Session Chair: Wei Zhou, Cardiff University

Track: Multimedia Signal Processing [MM]

Thu, 7 May, 09:00 - 09:20

MMSP-L6.1: VIB2SOUND: SEPARATION OF MULTIMODAL SOUND SOURCES

Mai Akahoshi, Yuhang Wang, Swiss Federal Institute of Technology Zurich (ETH Zurich), Switzerland; Longbiao Cheng, University of Zurich, Switzerland; Anja Zai, Richard Hahnloser, Swiss Federal Institute of Technology Zurich (ETH Zurich), Switzerland

Thu, 7 May, 09:20 - 09:40

MMSP-L6.2: AN AUDIO-VISUAL SPEECH SEPARATION NETWORK WITH JOINT CROSS-ATTENTION AND ITERATIVE MODELING

Fangxu Chen, Ying Hu, Xinjiang University, China; Zhijian Ou, Tsinghua University, China; Hexin Liu, Nanyang Technological University, Singapore

Thu, 7 May, 09:40 - 10:00

MMSP-L6.3: Look, Listen and Segment: Towards Weakly Supervised Audio-visual Semantic Segmentation

Chengzhi Li, Heyan Huang, Ping Jian, Yanghao Zhou, Beijing Institute of Technology, China

Thu, 7 May, 10:00 - 10:20

MMSP-L6.4: Face-Voice Association with Inductive Bias for Maximum Class Separation

Marta Moscati, Oleksandr Kats, Johannes Kepler University, Austria; Mubashir Noman, Muhammad Zaigham Zaheer, Mohamed bin Zayed University of Artificial Intelligence, United Arab Emirates; Yufang Hou, IT:U Interdisciplinary Transformation University, Austria; Markus Schedl, Shah Nawaz, Johannes Kepler University, Austria

Thu, 7 May, 10:20 - 10:40

MMSP-L6.5: Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection

Yongkang Yin, Yukun Zhuang, Zeyu Xie, Peking University, China; Chenxing Li, Le Xu, Tencent AI Lab, China; Yuexian Zou, Peking University, China

Thu, 7 May, 10:40 - 11:00

MMSP-L6.6: NON-LINE-OF-SIGHT VEHICLE DETECTION VIA AUDIO-VISUAL FUSION

Huaxuan Wang, Huilong Yu, Ruizeng Zhang, Beijing Institute of Technology, China; Wei Zhou, Cardiff University, United Kingdom of Great Britain and Northern Ireland; Junqiang Xi, Beijing Institute of Technology, China