IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MMSP-L6.3

Look, Listen and Segment: Towards Weakly Supervised Audio-visual Semantic Segmentation

Chengzhi Li, Heyan Huang, Ping Jian, Yanghao Zhou, Beijing Institute of Technology, China

Session:

MMSP-L6: Audio-Visual Source Separation and Localization Oral

Location:

Room 131+132

Presentation Time:

Thu, 7 May, 09:40 - 10:00

Session Chair:

Wei Zhou, Cardiff University

View Manuscript

Session MMSP-L6

MMSP-L6.1: VIB2SOUND: SEPARATION OF MULTIMODAL SOUND SOURCES

Mai Akahoshi, Yuhang Wang, Swiss Federal Institute of Technology Zurich (ETH Zurich), Switzerland; Longbiao Cheng, University of Zurich, Switzerland; Anja Zai, Richard Hahnloser, Swiss Federal Institute of Technology Zurich (ETH Zurich), Switzerland

MMSP-L6.2: AN AUDIO-VISUAL SPEECH SEPARATION NETWORK WITH JOINT CROSS-ATTENTION AND ITERATIVE MODELING

Fangxu Chen, Ying Hu, Xinjiang University, China; Zhijian Ou, Tsinghua University, China; Hexin Liu, Nanyang Technological University, Singapore

MMSP-L6.3: Look, Listen and Segment: Towards Weakly Supervised Audio-visual Semantic Segmentation

Chengzhi Li, Heyan Huang, Ping Jian, Yanghao Zhou, Beijing Institute of Technology, China

MMSP-L6.4: Face-Voice Association with Inductive Bias for Maximum Class Separation

Marta Moscati, Oleksandr Kats, Johannes Kepler University, Austria; Mubashir Noman, Muhammad Zaigham Zaheer, Mohamed bin Zayed University of Artificial Intelligence, United Arab Emirates; Yufang Hou, IT:U Interdisciplinary Transformation University, Austria; Markus Schedl, Shah Nawaz, Johannes Kepler University, Austria

MMSP-L6.5: Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection

Yongkang Yin, Yukun Zhuang, Zeyu Xie, Peking University, China; Chenxing Li, Le Xu, Tencent AI Lab, China; Yuexian Zou, Peking University, China

MMSP-L6.6: NON-LINE-OF-SIGHT VEHICLE DETECTION VIA AUDIO-VISUAL FUSION

Huaxuan Wang, Huilong Yu, Ruizeng Zhang, Beijing Institute of Technology, China; Wei Zhou, Cardiff University, United Kingdom of Great Britain and Northern Ireland; Junqiang Xi, Beijing Institute of Technology, China

Contact | Accessibility | Nondiscrimination Policy | IEEE Ethics Reporting | IEEE Privacy Policy | Terms | Signal Processing Society

©2026 IEEE – All rights reserved.

Last updated Last updated 22 April 2026.

Use of this website signifies your agreement to the IEEE Terms and Conditions.

Support: webmaster@2026.ieeeicassp.org Host: https://cmsworldwide.com/