IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

AASP-P12.1

ENHANCING NOTE-LEVEL SINGING TRANSCRIPTION MODEL WITH UNLABELED AND WEAKLY LABELED DATA

Yao Qiu, Jinchao Zhang, Yong Shan, Jie Zhou, Tencent, China

Session:

AASP-P12: Music information retrieval 3; Quality and intelligibility measures Poster

Location:

Poster Zone 5A
Poster Board PZ-5A.1

Presentation Time:

Thu, 18 Apr, 08:20 - 10:20 (UTC +9)

Session Chair:

Steffan Lattner, Sony Computer Science Laboratories

View Manuscript

Session AASP-P12

AASP-P12.1: ENHANCING NOTE-LEVEL SINGING TRANSCRIPTION MODEL WITH UNLABELED AND WEAKLY LABELED DATA

Yao Qiu, Jinchao Zhang, Yong Shan, Jie Zhou, Tencent, China

AASP-P12.2: MUSIC AUTO-TAGGING WITH ROBUST MUSIC REPRESENTATION LEARNED VIA DOMAIN ADVERSARIAL TRAINING

Haesun Joung, Kyogu Lee, Seoul National University, Korea, Republic of

AASP-P12.3: SIMILAR BUT FASTER: MANIPULATION OF TEMPO IN MUSIC AUDIO EMBEDDINGS FOR TEMPO PREDICTION AND SEARCH

Matthew McCallum, Florian Henkel, Jaehun Kim, Samuel Sandberg, Matthew Davies, SiriusXM-Pandora, United States of America

AASP-P12.4: A TRANSFORMER APPROACH FOR POLYPHONIC AUDIO-TO-SCORE TRANSCRIPTION

María Alfaro-Contreras, Antonio Ríos-Vila, Jose J. Valero-Mas, Jorge Calvo-Zaragoza, University of Alicante, Spain

AASP-P12.5: Multi-Scale Spectral Loss Revisited

Simon Schwär, Meinard Müller, International Audio Laboratories Erlangen, Germany

AASP-P12.6: SELECTING N-LOWEST SCORES FOR TRAINING MOS PREDICTION MODELS

Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, NTT Corporation, Japan

AASP-P12.7: ODAQ: OPEN DATASET OF AUDIO QUALITY

Matteo Torcoli, Fraunhofer Institute for Integrated Circuits IIS, Germany; Chih-Wei Wu, Netflix, Inc., United States of America; Sascha Dick, Fraunhofer Institute for Integrated Circuits IIS, Germany; Phillip Williams, Netflix, Inc., United States of America; Mhd Modar Halimeh, Fraunhofer Institute for Integrated Circuits IIS, Germany; William Wolcott, Netflix, Inc., United States of America; Emanuël Habets, Fraunhofer Institute for Integrated Circuits IIS, Germany

AASP-P12.8: QUANTIFYING SPATIAL AUDIO QUALITY IMPAIRMENT

Karn N. Watcharasupat, Alexander Lerch, Georgia Institute of Technology, United States of America

AASP-P12.9: MULTI-CHANNEL MOSRA: MEAN OPINION SCORE AND ROOM ACOUSTICS ESTIMATION USING SIMULATED DATA AND A TEACHER MODEL

Jozef Coldenhoff, École Polytechnique Fédérale de Lausanne, Switzerland; Andrew Harper, Paul Kendrick, Tijana Stojkovic, Milos Cernak, Logitech Europe S.A., Switzerland

AASP-P12.10: Crowdsourced multilingual speech intelligibility testing

Laura Lechler, Kamil Wojcicki, Cisco Systems, Inc., United Kingdom of Great Britain and Northern Ireland

AASP-P12.11: Multi-dimensional Speech Quality Assessment in Crowdsourcing

Babak Naderi, Ross Cutler, Nicolae Catalin Ristea, Microsoft, Germany

Contact | Accessibility | Nondiscrimination Policy | IEEE Ethics Reporting | IEEE Privacy Policy | Terms | Signal Processing Society

©2026 IEEE – All rights reserved.

Last updated Last updated 11 April 2024.

Use of this website signifies your agreement to the IEEE Terms and Conditions.

Support: info@2024.ieeeicassp.org Host: https://cmsworldwide.com/