IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-P16.1: IMPLICIT ENHANCEMENT OF TARGET SPEAKER IN SPEAKER-ADAPTIVE ASR THROUGH EFFICIENT JOINT OPTIMIZATION

Minghui Wu, University of Science and Technology of China, China; Haitao Tang, Jiahuan Fan, iFLYTEK, China; Ruoyu Wang, Hang Chen, Yanyong Zhang, Jun Du, University of Science and Technology of China, China; Hengshun Zhou, Lei Sun, Xin Fang, Tian Gao, Genshun Wan, Jia Pan, Jianqing Gao, iFLYTEK, China

SLP-P16.2: UNSUPERVISED ACCENT ADAPTATION THROUGH MASKED LANGUAGE MODEL CORRECTION OF DISCRETE SELF-SUPERVISED SPEECH UNITS

Jakob Poncelet, Hugo Van hamme, KU Leuven, Belgium

SLP-P16.3: SYNTHETIC CONVERSATIONS IMPROVE MULTI-TALKER ASR

Thai-Binh Nguyen, Karlsruhe Institute of Technology, Germany; Alexander Waibel, Carnegie Mellon University, United States of America

SLP-P16.4: STABLE DISTILLATION: REGULARIZING CONTINUED PRE-TRAINING FOR LOW-RESOURCE AUTOMATIC SPEECH RECOGNITION

Ashish Seth, Indian Institute of Technology Madras, India; Sreyan Ghosh, University of Maryland College Park, United States of America; S. Umesh, Indian Institute of Technology Madras, India; Dinesh Manocha, University of Maryland College Park, United States of America

SLP-P16.5: TOWARDS HIGH-PERFORMANCE AND LOW-LATENCY FEATURE-BASED SPEAKER ADAPTATION OF CONFORMER SPEECH RECOGNITION SYSTEMS

Jiajun Deng, The Chinese University of Hong Kong, Hong Kong; Xurong Xie, Institute of Software, Chinese Academy of Sciences, China; Guinan Li, Mingyu Cui, Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Zhaoqing Li, Xunying Liu, The Chinese University of Hong Kong, Hong Kong

SLP-P16.6: PROGRESSIVE UNSUPERVISED DOMAIN ADAPTATION FOR ASR USING ENSEMBLE MODELS AND MULTI-STAGE TRAINING

Rehan Ahmad, Muhammad Umar Farooq, Thomas Hain, The university of Sheffield, United Kingdom of Great Britain and Northern Ireland

SLP-P16.7: SPARSELY SHARED LORA ON WHISPER FOR CHILD SPEECH RECOGNITION

Wei Liu, The Chinese University of Hong Kong, Hong Kong; Ying Qin, Beijing Jiaotong University, China; Zhiyuan Peng, Tan Lee, The Chinese University of Hong Kong, Hong Kong

SLP-P16.8: Cross-speaker encoding network for multi-talker speech recognition

Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng, The Chinese University of Hong Kong, Hong Kong

SLP-P16.9: MAX-MARGIN TRANSDUCER LOSS: IMPROVING SEQUENCE-DISCRIMINATIVE TRAINING USING A LARGE-MARGIN LEARNING STRATEGY

Rupak Vignesh Swaminathan, Grant Strimel, Ariya Rastrow, Harish Mallidi, Kai Zhen, Hieu Nguyen, Nathan Susanj, Athanasios Mouchtaris, Amazon.com Inc, United States of America

SLP-P16.10: Corpus Synthesis for Zero-shot ASR Domain Adaptation using Large Language Models

Hsuan Su, National Taiwan University, Taiwan; Ting-Yao Hu, Hema Swetha Koppula, Raviteja Vemulapalli, Jen-Hao Rick Chang, Karren Yang, Gautam Varma Mantena, Oncel Tuzel, Apple, United States of America

SLP-P16.11: FUSDOM: COMBINING IN-DOMAIN AND OUT-OF-DOMAIN KNOWLEDGE FOR CONTINUOUS SELF-SUPERVISED LEARNING

Ashish Seth, Indian Institute of Technology Madras, India; Sreyan Ghosh, University of Maryland College Park, United States of America; S. Umesh, Indian Institute of Technology Madras, India; Dinesh Manocha, University of Maryland College Park, United States of America

SLP-P16.12: ADAMER-CTC: CONNECTIONIST TEMPORAL CLASSIFICATION WITH ADAPTIVE MAXIMUM ENTROPY REGULARIZATION FOR AUTOMATIC SPEECH RECOGNITION

SooHwan Eom, Eunseop Yoon, Hee Suk Yoon, Korea Advanced Institute of Science and Technology, Korea, Republic of; Chanwoo Kim, Korea University, Korea, Republic of; Mark Hasegawa-Johnson, University of Illinois Urbana-Champaign, United States of America; Chang D. Yoo, Korea Advanced Institute of Science and Technology, Korea, Republic of