IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

AASP-P3: Music Generation I

Poster

Tue, 5 May, 16:30 - 18:30

Location: Poster Area 26

Session Type: Poster

Session Chair: Jonah Jonah Casebeer, Adobe Research

Track: Audio and Acoustic Signal Processing [AA]

AASP-P3.1: STEMPHONIC: ALL-AT-ONCE FLEXIBLE MULTI-STEM MUSIC GENERATION

Shih-Lun Wu, MIT, United States of America; Ge Zhu, Juan-Pablo Caceres, Adobe, United States of America; Cheng-Zhi Anna Huang, MIT, United States of America; Nicholas J. Bryan, Adobe, United States of America

AASP-P3.2: LOW-RESOURCE GUIDANCE FOR CONTROLLABLE LATENT AUDIO DIFFUSION

Zachary Novack, UC San Diego, United States of America; Zack Zukowski, CJ Carr, Julian Parker, Zach Evans, Josiah Taylor, Stability AI, United States of America; Taylor Berg-Kirkpatrick, Julian McAuley, UC San Diego, United States of America; Jordi Pons, Stability AI, United States of America

AASP-P3.3: DIFFUSION TIMBRE TRANSFER VIA MUTUAL INFORMATION GUIDED INPAINTING

Ching Ho Lee, Queen Mary, University of London, United Kingdom of Great Britain and Northern Ireland; Javier Nistal, Stefan Lattner, Sony CSL, France; Marco Pasini, George Fazekas, Queen Mary, University of London, United Kingdom of Great Britain and Northern Ireland

AASP-P3.4: D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead sheet

Eunjin Choi, Hounsu Kim, Hayeon Bang, Taegyun Kwon, Juhan Nam, Korea Advanced Institute of Science and Technology, Korea, Republic of

AASP-P3.5: MELOS: SENTENCE-TO-SECTION TRAINING WITH MULTI-TASK LEARNING FOR LLM-DRIVEN SONG GENERATION

Dapeng Wu, Shenzhen International Graduate School, Tsinghua University, Shenzhen, China, China; Jinhong Lu, Bin Su, Wonderai, China; Shun Lei, Shenzhen International Graduate School, Tsinghua University, Shenzhen, China, China; Xiong Cai, Wonderai, China; Zhiyong Wu, Shenzhen International Graduate School, Tsinghua University, Shenzhen, China, China

AASP-P3.1: STEMPHONIC: ALL-AT-ONCE FLEXIBLE MULTI-STEM MUSIC GENERATION

AASP-P3.2: LOW-RESOURCE GUIDANCE FOR CONTROLLABLE LATENT AUDIO DIFFUSION

AASP-P3.3: DIFFUSION TIMBRE TRANSFER VIA MUTUAL INFORMATION GUIDED INPAINTING

AASP-P3.4: D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead sheet

AASP-P3.5: MELOS: SENTENCE-TO-SECTION TRAINING WITH MULTI-TASK LEARNING FOR LLM-DRIVEN SONG GENERATION

AASP-P3.6: EVALUATING DISENTANGLED REPRESENTATIONS FOR CONTROLLABLE MUSIC GENERATION

AASP-P3.7: SYNTHCLONER: SYNTHESIZER-STYLE AUDIO TRANSFER VIA FACTORIZED CODEC WITH ADSR ENVELOPE CONTROL

AASP-P3.8: Instrument Generation Through Distributional Flow Matching and Test-Time Search

AASP-P3.9: A GENERATIVE-FIRST NEURAL AUDIO AUTOENCODER

AASP-P3.10: ALIGNING LANGUAGE MODELS FOR LYRIC-TO-MELODY GENERATION WITH RULE-BASED MUSICAL CONSTRAINTS