IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

AASP-P12: Music information retrieval 3; Quality and intelligibility measures

Thu, 18 Apr, 08:20 - 10:20 (UTC +9)

Location: Poster Zone 5A

Session Type: Poster

Session Chair: Steffan Lattner, Sony Computer Science Laboratories

Track: Audio and Acoustic Signal Processing

AASP-P12.1: ENHANCING NOTE-LEVEL SINGING TRANSCRIPTION MODEL WITH UNLABELED AND WEAKLY LABELED DATA

Yao Qiu, Jinchao Zhang, Yong Shan, Jie Zhou, Tencent, China

AASP-P12.2: MUSIC AUTO-TAGGING WITH ROBUST MUSIC REPRESENTATION LEARNED VIA DOMAIN ADVERSARIAL TRAINING

Haesun Joung, Kyogu Lee, Seoul National University, Korea, Republic of

AASP-P12.3: SIMILAR BUT FASTER: MANIPULATION OF TEMPO IN MUSIC AUDIO EMBEDDINGS FOR TEMPO PREDICTION AND SEARCH

Matthew McCallum, Florian Henkel, Jaehun Kim, Samuel Sandberg, Matthew Davies, SiriusXM-Pandora, United States of America

AASP-P12.4: A TRANSFORMER APPROACH FOR POLYPHONIC AUDIO-TO-SCORE TRANSCRIPTION

María Alfaro-Contreras, Antonio Ríos-Vila, Jose J. Valero-Mas, Jorge Calvo-Zaragoza, University of Alicante, Spain

AASP-P12.5: Multi-Scale Spectral Loss Revisited

Simon Schwär, Meinard Müller, International Audio Laboratories Erlangen, Germany

AASP-P12.6: SELECTING N-LOWEST SCORES FOR TRAINING MOS PREDICTION MODELS

Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, NTT Corporation, Japan

AASP-P12.7: ODAQ: OPEN DATASET OF AUDIO QUALITY

Matteo Torcoli, Fraunhofer Institute for Integrated Circuits IIS, Germany; Chih-Wei Wu, Netflix, Inc., United States of America; Sascha Dick, Fraunhofer Institute for Integrated Circuits IIS, Germany; Phillip Williams, Netflix, Inc., United States of America; Mhd Modar Halimeh, Fraunhofer Institute for Integrated Circuits IIS, Germany; William Wolcott, Netflix, Inc., United States of America; Emanuël Habets, Fraunhofer Institute for Integrated Circuits IIS, Germany

AASP-P12.8: QUANTIFYING SPATIAL AUDIO QUALITY IMPAIRMENT

Karn N. Watcharasupat, Alexander Lerch, Georgia Institute of Technology, United States of America

AASP-P12.9: MULTI-CHANNEL MOSRA: MEAN OPINION SCORE AND ROOM ACOUSTICS ESTIMATION USING SIMULATED DATA AND A TEACHER MODEL

Jozef Coldenhoff, École Polytechnique Fédérale de Lausanne, Switzerland; Andrew Harper, Paul Kendrick, Tijana Stojkovic, Milos Cernak, Logitech Europe S.A., Switzerland

AASP-P12.10: Crowdsourced multilingual speech intelligibility testing

Laura Lechler, Kamil Wojcicki, Cisco Systems, Inc., United Kingdom of Great Britain and Northern Ireland

AASP-P12.11: Multi-dimensional Speech Quality Assessment in Crowdsourcing

Babak Naderi, Ross Cutler, Nicolae Catalin Ristea, Microsoft, Germany