IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MMSP-P3.8

Enhancing Action and Ingredient Modeling for Semantically Grounded Recipe Generation

Guoshan Liu, Fudan University, China; Bin Zhu, singapore management university, Singapore; Yian Li, Jingjing Chen, Fudan University, China; Chong-Wah Ngo, singapore management university, Singapore; Yu-Gang Jiang, Fudan University, China

Session:

MMSP-P3: Multimodal Activity Recognition and Sign Language Analysis Poster

Location:

Poster Area 22

Presentation Time:

Tue, 5 May, 14:00 - 16:00

Session Chair:

Lucas Thomaz, Instituto de Telecomunicações/Polytechnic of Leiria

View Manuscript

Session MMSP-P3

MMSP-P3.1: ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance

Ying Li, Peking University, China; Xiaobao Wei, Institute of Software Chinese Academy of Science, China; Xiaowei Chi, Hong Kong University of Science and Technology, China; Yuming Li, Zhongyu Zhao, Hao Wang, Peking University, China; Ningning Ma, NIO Autonomous Driving, China; Ming Lu, Shanghang Zhang, Peking University, China

MMSP-P3.2: FINE-GRAINED GESTURE RECOGNITION VIA NARROW-KERNEL CNN AND ATTENTION-BASED SEMG-ACC FUSION

Honglei Zhang, Sofiane Boudaoud, Imad Rida, Université de Technologie de Compiègne, France

MMSP-P3.3: MEVAR: MOBILITY-ENHANCED VEHICLE TRAJECTORY RECONSTRUCTION FROM CAMERA SENSING NETWORKS

Jingtian Ma, Jingyuan Wang, Beihang University, China

MMSP-P3.4: MRFHAR: WAVELET-BASED CONTRASTIVE LEARNING FOR HUMAN ACTIVITY RECOGNITION BY FUSING RFID AND WIFI SIGNALS

Siyao Zheng, Kun Yang, Lvqing Yang, Siwei Long, Yishu Qiu, Bo Yu, Shihui Guo, Xiamen University, China; Mingyuan Niu, Zijin Mining Construction Co., Ltd., China

MMSP-P3.5: MT-HPDE: MULTIMODAL VISION TRANSFORMER FOR HAND POINT DIRECTION ESTIMATION USING ZERO-SHOT DIFFUSION SEGMENTATION

Elizabeth B Varghese, Dena Al-Thani, Marwa Qaraqe, Hamad Bin Khalifa University, Qatar

MMSP-P3.6: IMPROVING QUANTIZED GLOSS-FREE SIGN LANGUAGE TRANSLATION MODEL VIA DISENTANGLED ARITHMETIC-PROMPTING

Chenyu Liu, Hong Kong Polytechnic University, Hong Kong; Zhengjie Zhu, Wake Forest University, United States of America; Boya Dong, Hong Kong University of Science and Technology (Guangzhou), China

MMSP-P3.7: AUDIENCE-AWARE CO-SPEECH GESTURE GENERATION IN PUBLIC SPEAKING VIA ANTICIPATION TOKENS

Huan-Yu Chen, National Tsing Hua University, Taiwan; Woan-Shiuan Chien, National Yang Ming Chiao Tung University, Taiwan; Chi-Chun Lee, National Tsing Hua University, Taiwan

MMSP-P3.8: Enhancing Action and Ingredient Modeling for Semantically Grounded Recipe Generation

MMSP-P3.9: Improving Sign Language Translation via Gloss Guided Temporal and Representation Alignment

Jichao Feng, Zekang Liu, Tongkai Shi, Peidong Liu, Fanhua Shang, Wei Feng, Tianjin University, China

MMSP-P3.10: CROSS-MODAL KNOWLEDGE DISTILLATION FROM VIDEO TO WIFI CSI FOR MULTI-USER HUMAN ACTIVITY RECOGNITION

Jiyuan zhang, Junhao Lai, Ruiji Xu, Keji Mao, Zhejiang University of Technology, China; Guanglin Dai, Zhejiang Polytechnic University of Mechanical and Electrical Engineering, China; Weiyuan Zhou, Zhejiang Open University, China