IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

GC-P12: X-to-Audio Alignment (XACLE)

Poster

Fri, 8 May, 09:00 - 11:00

Location: Poster Area 43

Session Type: Poster

Session Chair: Yuki Okamoto, University of Tokyo

Track: SP Grand Challenges

GC-P12.9: ENTA-ALIGN: HETEROGENEOUS MODEL ENSEMBLE WITH DUAL-PATH FUSION FOR TEXT-AUDIO ALIGNMENT

Zhangzhu Liu, Shangyuan Liu, Xiaoran Yang, Sixiang Lyu, Wuhan University, China; Andong Li, Institute of Acoustics, Chinese Academy of Sciences/University of Chinese Academy of Sciences, China; Gongping Huang, Wuhan University, China

GC-P12.10: ME-CLAPSCORE: MODELING SEMANTIC ALIGNMENT AND MISMATCH FOR AUDIO-TEXT RELEVANCE ASSESSMENT

Feiyang Xiao, Xiaoyu Feng, Tong Ye, Kejia Zhang, Haiyan Lan, Harbin Engineering University, China; Guangjun He, Pengming Feng, State Key Laboratory of Space Information System and Integrated Application, China; Qiaoxi Zhu, University of Technology Sydney, Australia; Jian Guan, Harbin Engineering University, China

GC-P12.11: MOESCORE: MIXTURE-OF-EXPERTS-BASED TEXT-AUDIO RELEVANCE SCORE PREDICTION FOR TEXT-TO-AUDIO SYSTEM EVALUATION

Bochao Sun, Northwestern Polytechnical University, China; Yang Xiao, The University of Melbourne, Australia; Han Yin, Korea Advanced Institute of Science and Technology, Korea, Republic of

GC-P12.12: XACLE Challenge 2026: The first x-to-audio alignment challenge

Yuki Okamoto, The University of Tokyo, Japan; Riki Takizawa, Kyoto Sangyo University, Japan; Minoru Kishi, Keio University, Japan; Yusuke Kanamori, The University of Tokyo, Japan; Noriyuki Tonami, NEC Corporation, Japan; Ryotaro Nagase, Ritsumeikan University, Japan; Shinnosuke Takamichi, Keio University, Japan; Keisuke Imoto, Kyoto University, Japan

GC-P12.13: CROSS-MODAL SEMANTIC ALIGNMENT VIA ENSEMBLE AUDIO-TEXT FEATURES FOR XACLE CHALLENGE

Snehit B. Chunarkar, National Tsing Hua University, Taiwan; Krishnagiri Hamza, Sri Ramaswamy Memorial University, India; Chi-Chun Lee, National Tsing Hua University, Taiwan

GC-P12.14: THE TMU SYSTEM FOR THE XACLE CHALLENGE: TRAINING LARGE AUDIO LANGUAGE MODELS WITH CLAP PSEUDO-LABELS

Ayuto Tsutsumi, Kohei Tanaka, Sayaka Shiota, Tokyo Metropolitan University, Japan