IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MMSP-P5.1: SCENERAG: SCENE-LEVEL RETRIEVAL-AUGMENTED GENERATION FOR VIDEO UNDERSTANDING

Nianbo Zeng, Shenzhen University, China; Haowen Hou, Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), China; Fei Yu, Shenzhen University, China; Si Shi, Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), China; Ying He, Shenzhen University, China

MMSP-P5.2: DARC-CLIP: DYNAMIC ADAPTIVE REFINEMENT WITH CROSS-ATTENTION FOR MEME UNDERSTANDING

Qiyuan Jin, The Hong Kong University of Science and Technology, Hong Kong

MMSP-P5.3: RELATE: ENHANCE COMPOSED VIDEO RETRIEVAL VIA MINIMAL-REDUNDANCY HIERARCHICAL COLLABORATION

Shiqi Zhang, Zhiwei Chen, Zixu Li, Zhiheng Fu, Wenbo Wang, Jiajia Nie, Yinwei Wei, Yupeng Hu, Shandong University, China

MMSP-P5.4: EVENT-AIDED SEMANTIC SCENE COMPLETION

Shangwei Guo, Zhejiang University, China; Hao Shi, Zhejiang University, Nanyang Technological University, China; Song Wang, Xiaoting Yin, Zhejiang University, China; Kailun Yang, Hunan University, China; Kaiwei Wang, Zhejiang University, China

MMSP-P5.5: OSG: TRAINING-FREE OBJECTNESS, SEMANTICS, AND GEOMETRY FUSION FOR ZERO-SHOT REFERRING EXPRESSION COMPREHENSION

Lin Zhu, Junbo Wang, Yuke Li, Yining Zhu, Northwestern Polytechnical University, China; Binyi Bai, Beihang University, China; Hongsong Wang, Southeast University, China

MMSP-P5.6: StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

Junming Lin, Beijing University of Posts and Telecommunications, China; Zheng Fang, Chi Chen, Tsinghua University, China; Haoxuan Cheng, Xi'an Jiaotong University, China; Zihao Wan, Fuwen Luo, Ziyue Wang, Peng Li, Yang Liu, Maosong Sun, Tsinghua University, China

MMSP-P5.7: Breaking Codebook Redundancy for Faster Autoregressive Image Generation with Retrieval-Augmented Speculative Decoding

Bingyu Hu, Hangzhou Dianzi University, China; Yi Zhang, Beijing Jiaotong University, China; Haoyang Bi, University of Science and Technology of China, China; Shan Yu, Jinlong Fan, Yuxiang Yang, Hangzhou Dianzi University, China

MMSP-P5.8: THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING

Wenhui Tan, Ruihua Song, Renmin University of China, China; Jiaze Li, Jianzhong Ju, Zhenbo Luo, Xiaomi Inc., China

MMSP-P5.9: COVA: TEXT-GUIDED COMPOSED VIDEO RETRIEVAL FOR AUDIO-VISUAL CONTENT

Gyuwon Han, Chung-Ang University, Korea, Republic of; Young Kyun Jang, Google DeepMind, Korea, Republic of; Chanho Eom, Chung-Ang University, Korea, Republic of

MMSP-P5.10: BIDIRECTIONAL SEMANTIC ENHANCEMENT NETWORK FOR VIDEO MOMENT RETRIEVAL

Ruyi Liu, Wenyi Lu, Qiguang Miao, Xiaojing Li, Xuhang Gao, Ronghan Li, Xidian University, China