IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

AASP-L3.1

Environmental sound synthesis from vocal imitations and sound event labels

Yuki Okamoto, Ritsumeikan University, Japan; Keisuke Imoto, Doshisha University, Japan; Shinnosuke Takamichi, The University of Tokyo, Japan; Ryotaro Nagase, Takahiro Fukumori, Yoichi Yamashita, Ritsumeikan University, Japan

Session:

AASP-L3: Environmental Sound Synthesis and Generation Lecture

Location:

Room E2

Presentation Time:

Tue, 16 Apr, 16:30 - 16:50 (UTC +9)

Session Co-Chairs:

Francois Germain, Mitsubishi Electric Research Laboratories and Prem Seetharaman, Adobe Research

View Manuscript

Session AASP-L3

AASP-L3.1: Environmental sound synthesis from vocal imitations and sound event labels

AASP-L3.2: RETRIEVAL-AUGMENTED TEXT-TO-AUDIO GENERATION

Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang, University of Surrey, United Kingdom of Great Britain and Northern Ireland

AASP-L3.3: SOUNDLOCD: AN EFFICIENT CONDITIONAL DISCRETE CONTRASTIVE LATENT DIFFUSION MODEL FOR TEXT-TO-SOUND GENERATION

Xinlei Niu, Jing Zhang, Australian National University, Australia; Christian Walder, Google DeepMind, Canada; Charles Patrick Martin, Australian National University, Australia

AASP-L3.4: MTDIFFUSION: MULTI-TASK DIFFUSION MODEL WITH DUAL-UNET FOR FOLEY SOUND GENERATION

Anbin Qi, Xiang Xie, Jing Wang, Beijing Institute of Technology, China

AASP-L3.5: GENERATION OR REPLICATION: AUSCULTATING AUDIO LATENT DIFFUSION MODELS

Dimitrios Bralios, University of Illinois Urbana-Champaign, United States of America; Gordon Wichern, François Germain, Zexu Pan, Sameer Khurana, Chiori Hori, Jonathan Le Roux, Mitsubishi Electric Research Laboratories (MERL), United States of America

AASP-L3.6: ADAPTING FRECHET AUDIO DISTANCE FOR GENERATIVE MUSIC EVALUATION

Azalea (Yijie) Gui, University of Toronto, Canada; Hannes Gamper, Sebastian Braun, Dimitra Emmanouilidou, Microsoft, United States of America