IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

AASP-L9: Audio-Language Processing and Audio Captioning

Thu, 18 Apr, 13:10 - 15:10 (UTC +9)

Location: Room E1

Session Type: Lecture

Session Co-Chairs: Jonathan Le Roux, Mitsubishi Electric Research Laboratories and Wenwu Wang, University of Surrey

Track: Audio and Acoustic Signal Processing

Thu, 18 Apr, 13:10 - 13:30 (UTC +9)

AASP-L9.1: TRAINING AUDIO CAPTIONING MODELS WITHOUT AUDIO

Soham Deshmukh, Benjamin Elizalde, Dimitra Emmanouilidou, Microsoft, United States of America; Bhiksha Raj, Rita Singh, Huaming Wang, Carnegie Mellon University, United States of America

Thu, 18 Apr, 13:30 - 13:50 (UTC +9)

AASP-L9.2: IMPROVING AUDIO CAPTIONING MODELS WITH FINE-GRAINED AUDIO FEATURES, TEXT EMBEDDING SUPERVISION, AND LLM MIX-UP AUGMENTATION

Shih-Lun Wu, Xuankai Chang, Carnegie Mellon University, United States of America; Gordon Wichern, Mitsubishi Electric Research Laboratories, United States of America; Jee-weon Jung, Carnegie Mellon University, United States of America; François Germain, Jonathan Le Roux, Mitsubishi Electric Research Laboratories, United States of America; Shinji Watanabe, Carnegie Mellon University, United States of America

Thu, 18 Apr, 13:50 - 14:10 (UTC +9)

AASP-L9.1: TRAINING AUDIO CAPTIONING MODELS WITHOUT AUDIO

AASP-L9.2: IMPROVING AUDIO CAPTIONING MODELS WITH FINE-GRAINED AUDIO FEATURES, TEXT EMBEDDING SUPERVISION, AND LLM MIX-UP AUGMENTATION

AASP-L9.3: RECAP: RETRIEVAL-AUGMENTED AUDIO CAPTIONING

AASP-L9.4: AUDIO DIFFERENCE LEARNING FOR AUDIO CAPTIONING

AASP-L9.5: LEARNING AUDIO CONCEPTS FROM COUNTERFACTUAL NATURAL LANGUAGE

AASP-L9.6: Transferable Models for Bioacoustics with Human Language Supervision