IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

AASP-L9.2

IMPROVING AUDIO CAPTIONING MODELS WITH FINE-GRAINED AUDIO FEATURES, TEXT EMBEDDING SUPERVISION, AND LLM MIX-UP AUGMENTATION

Shih-Lun Wu, Xuankai Chang, Carnegie Mellon University, United States of America; Gordon Wichern, Mitsubishi Electric Research Laboratories, United States of America; Jee-weon Jung, Carnegie Mellon University, United States of America; François Germain, Jonathan Le Roux, Mitsubishi Electric Research Laboratories, United States of America; Shinji Watanabe, Carnegie Mellon University, United States of America

Session:

AASP-L9: Audio-Language Processing and Audio Captioning Lecture

Location:

Room E1

Presentation Time:

Thu, 18 Apr, 13:30 - 13:50 (UTC +9)

Session Co-Chairs:

Jonathan Le Roux, Mitsubishi Electric Research Laboratories and Wenwu Wang, University of Surrey

View Manuscript

Session AASP-L9

AASP-L9.1: TRAINING AUDIO CAPTIONING MODELS WITHOUT AUDIO

Soham Deshmukh, Benjamin Elizalde, Dimitra Emmanouilidou, Microsoft, United States of America; Bhiksha Raj, Rita Singh, Huaming Wang, Carnegie Mellon University, United States of America

AASP-L9.2: IMPROVING AUDIO CAPTIONING MODELS WITH FINE-GRAINED AUDIO FEATURES, TEXT EMBEDDING SUPERVISION, AND LLM MIX-UP AUGMENTATION

Shih-Lun Wu, Xuankai Chang, Carnegie Mellon University, United States of America; Gordon Wichern, Mitsubishi Electric Research Laboratories, United States of America; Jee-weon Jung, Carnegie Mellon University, United States of America; François Germain, Jonathan Le Roux, Mitsubishi Electric Research Laboratories, United States of America; Shinji Watanabe, Carnegie Mellon University, United States of America

AASP-L9.3: RECAP: RETRIEVAL-AUGMENTED AUDIO CAPTIONING

Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha, University of Maryland, College Park, United States of America

AASP-L9.4: AUDIO DIFFERENCE LEARNING FOR AUDIO CAPTIONING

Tatsuya Komatsu, Yusuke Fujita, LINE, Japan; Kazuya Takeda, Tomoki Toda, Nagoya University, Japan

AASP-L9.5: LEARNING AUDIO CONCEPTS FROM COUNTERFACTUAL NATURAL LANGUAGE

Ali Vosoughi, University of Rochester, United States of America; Luca Bondi, Ho-Hsiang Wu, Bosch Research & Technology Center, United States of America; Chenliang Xu, University of Rochester, United States of America

AASP-L9.6: Transferable Models for Bioacoustics with Human Language Supervision

David Robinson, Independent, Australia; Adelaide Robinson, University of Santa Barbara, United States of America; Lily Akrapongpisak, University of Queensland, Australia

Contact | Accessibility | Nondiscrimination Policy | IEEE Ethics Reporting | IEEE Privacy Policy | Terms | Signal Processing Society

©2026 IEEE – All rights reserved.

Last updated Last updated 11 April 2024.

Use of this website signifies your agreement to the IEEE Terms and Conditions.

Support: info@2024.ieeeicassp.org Host: https://cmsworldwide.com/