IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

MMSP-P6.1: FREETALKER: CONTROLLABLE SPEECH AND TEXT-DRIVEN GESTURE GENERATION BASED ON DIFFUSION MODELS FOR ENHANCED SPEAKER NATURALNESS

Sicheng Yang, Zunnan Xu, Haiwei Xue, Tsinghua University, China; Yongkang Cheng, Northwest A&F University, China; Shaoli Huang, Tencent AI Lab, China; Mingming Gong, University of Melbourne, Australia; Zhiyong Wu, Tsinghua University / The Chinese University of Hong Kong, China

MMSP-P6.2: ENHANCING EXPRESSIVENESS IN DANCE GENERATION VIA INTEGRATING FREQUENCY AND MUSIC STYLE INFORMATION

Qiaochu Huang, Xu He, Boshi Tang, Haolin Zhuang, Liyang Chen, Shuochen Gao, Zhiyong Wu, Tsinghua University, China; Haozhi Huang, XVERESE Technology, China; Helen Meng, The Chinese University of Hong Kong, China

MMSP-P6.3: MODALITY DROP-OUT FOR MULTIMODAL DEVICE DIRECTED SPEECH DETECTION USING VERBAL AND NON-VERBAL FEATURES

Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik, Apple, United States of America

MMSP-P6.4: AUDIO-VISUAL CHILD-ADULT SPEAKER CLASSIFICATION IN DYADIC INTERACTIONS

Anfeng Xu, Kevin Huang, Tiantian Feng, University of Southern California, United States of America; Helen Tager-Flusberg, Boston University, United States of America; Shrikanth Narayanan, University of Southern California, United States of America

MMSP-P6.5: LONG-TERM SOCIAL INTERACTION CONTEXT: THE KEY TO EGOCENTRIC ADDRESSEE DETECTION

Deqian Kong, University of California, Los Angeles, United States of America; Furqan Khan, Xu Zhang, Prateek Singhal, Amazon, United States of America; Ying Nian Wu, University of California, Los Angeles, United States of America

MMSP-P6.6: AUTOSEN: IMPROVING AUTOMATIC WIFI HUMAN SENSING THROUGH CROSS-MODAL AUTOENCODER

Qian Gao, Yanling Hao, Yuanwei Liu, Queen Mary University of London, United Kingdom of Great Britain and Northern Ireland

MMSP-P6.7: FACIAL MICRO-MOTION-AWARE MIXUP FOR MICRO-EXPRESSION RECOGNITION

Zhuoyao Gu, Miao Pang, Zhen Xing, Weimin Tan, Xuhao Jiang, Bo Yan, Fudan University, China

MMSP-P6.8: MMBAT: A MULTI-TASK FRAMEWORK FOR MMWAVE-BASED HUMAN BODY RECONSTRUCTION AND TRANSLATION PREDICTION

Jiarui Yang, Songpengcheng Xia, Yifan Song, Qi Wu, Ling Pei, Shanghai Jiao Tong University, China

MMSP-P6.9: EXPLORING MULTI-MODAL CONTROL IN MUSIC-DRIVEN DANCE GENERATION

Ronghui Li, Tsinghua University, China; Yuqin Dai, Nanjing University of Science and Technology, China; Yachao Zhang, Tsinghua University, China; Jun Li, Jian Yang, Nanjing University of Science and Technology, China; Jie Guo, Peng Cheng Laboratory, China; Xiu Li, Tsinghua University, China

MMSP-P6.10: CONVERSATIONAL CO-SPEECH GESTURE GENERATION VIA MODELING DIALOG INTENTION, EMOTION AND CONTEXT WITH DIFFUSION MODELS

Haiwei Xue, Sicheng Yang, Tsinghua University, China; Zhensong Zhang, Huawei Noah's Ark Lab, China; Zhiyong Wu, Tsinghua University, China; Minglei Li, Zonghong Dai, Huawei Cloud Computing Technologies Co., China; Helen Meng, The Chinese University of Hong Kong, China