IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

IVMSP-P32: Vision-Language Models II

Poster

Thu, 7 May, 14:00 - 16:00

Location: Poster Area 14

Session Type: Poster

Session Chair: Aykut Koc, Bilkent University

Track: Image, Video and Multidimensional Signal Processing [IV]

IVMSP-P32.1: PHONEME-LEVEL VISUAL SPEECH RECOGNITION VIA POINT-VISUAL FUSION AND LANGUAGE MODEL RECONSTRUCTION

Matthew Kit Khinn Teng, Haibo Zhang, Takeshi Saitoh, Kyushu Institute of Technology, Japan

IVMSP-P32.2: Fake-HR1: Rethinking Reasoning of vision language model for Synthetic Image Detection

Changjiang Jiang, Wuhan University, China; Xinkuan Sha, AntGroup, China; Fengchang Yu, Wuhan University, China; Jingjing Liu, Jian Liu, Mingqi Fang, AntGroup, China; Chenfeng Zhang, Zhejiang university, China; Wei Lu, Wuhan University, China

IVMSP-P32.3: AERIAL VIDEO ACTION RECOGNITION WITH PRETRAINED VISION-LANGUAGE MODEL

Yungeng Zhang, Yuan Chang, Zijian Cao, Xiaohou Shi, Yaqi Song, Feng Wang, Mingchuan Yang, China Telecom Research Institute, China

IVMSP-P32.4: END-TO-END STORY VISUALIZATION FRAMEWORK WITH PENALTY-BASED EVALUATION USING VISION-LANGUAGE MODELS

Lizheng Zu, Shenzhen University, China; Yaoqing Jin, University of Stuttgart, Germany; Siyi Cao, University College Cork, Germany; Shiwei Suo, Harbin Institute of Technology, China; Haoxin Lyu, Beijing Institute of Technology, China; Song Fu, Harbin Institute of Technology, China; Hui Sun, Nankai University, China; Hao Zhang, University of Chinese Academy of Sciences, China

IVMSP-P32.5: WHEN LARGE VISION-LANGUAGE MODELS MEET PERSON RE-IDENTIFICATION

Qizao Wang, Bin Li, Xiangyang Xue, Fudan University, China

IVMSP-P32.6: ENHANCE BALANCE BETWEEN GENERALIZATION AND PERSONALIZATION FOR VISION-LANGUAGE MODELS IN FEDERATED LEARNING

Ziyun Cai, Yizhou Lu, Nanjing University of Posts and Telecommunications, China; Yawen Huang, Tencent Jarvis Lab, China; Jie Song, Ye Liu, Nanjing University of Posts and Telecommunications, China; Xiao-Yuan Jing, Nanjing University, China

IVMSP-P32.7: MFA-Align: Aligning by Disagreeing for Efficient and Low-Cost Personalized Alignment of Aesthetic VLLMs

Feifan Min, Dongmei Zhang, Haiyang Zhang, Shuai He, Anlong Ming, Beijing University Of Posts and Telecommunications, China

IVMSP-P32.8: ROBUST GROUNDING WITH MLLMS AGAINST OCCLUSION AND SMALL OBJECTS VIA LANGUAGE-GUIDED SEMANTIC CUES

Beomchan Park, Seongho Kim, Hyunjun Kim, Sungjune Park, Yong Man Ro, KAIST, Korea, Republic of

IVMSP-P32.9: MLLM-EMPOWERED ACTIVE LEARNING WITH GENERATED ATTRIBUTES FOR MICROSCOPIC ALGAE IMAGE CLASSIFICATION

Lufei Gao, Li Liu, Danny Hin Kwok Tsang, Irene M. C. Lo, The Hong Kong University of Science and Technology (Guangzhou), China

IVMSP-P32.10: RO-BENCH: LARGE-SCALE ROBUSTNESS EVALUATION OF MLLMS WITH TEXT-DRIVEN COUNTERFACTUAL VIDEOS

Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang, Beijing University of Posts and Telecommunications, China