APSIPA 2021 || Tokyo, Japan || 14-17 December 2021

OD-SLA-1: Speech Recognition

Wed, 15 Dec, 11:20 - 13:20 Japan Standard Time (UTC +9)
Wed, 15 Dec, 02:20 - 04:20 Coordinated Universal Time
Tue, 14 Dec, 21:20 - 23:20 Eastern Standard Time (UTC -4)
Tue, 14 Dec, 18:20 - 20:20 Pacific Standard Time (UTC -7)

Session Chair: Eng Siong Chng, Nanyang Technological University

Track: Speech, Language, and Audio (SLA)

OD-SLA-1.1: On the Use of Speaker Information for Automatic Speech Recognition in Speaker-imbalanced Corpora

Kak Soky, Masato Mimura, Chenhui Chu, Tatsuya Kawahara, Kyoto University, Japan; Sheng Li, National Institute of Information and Communications Technology, Japan

OD-SLA-1.2: SPECTROGRAMS FUSION-BASED END-TO-END ROBUST AUTOMATIC SPEECH RECOGNITION

Hao Shi, Tatsuya Kawahara, Graduate School of Informatics, Kyoto University, Japan; Longbiao Wang, Tianjin University, China; Sheng Li, National Institute of Information and Communications Technology (NICT), Japan; Cunhang Fan, Anhui Province Key Laboratory of Multimodal Cognitive Computation, School of Computer Science and Technology, Anhui University, China; Jianwu Dang, Japan Advanced Institute of Science and Technology, Ishikawa, Japan

OD-SLA-1.1: On the Use of Speaker Information for Automatic Speech Recognition in Speaker-imbalanced Corpora

OD-SLA-1.2: SPECTROGRAMS FUSION-BASED END-TO-END ROBUST AUTOMATIC SPEECH RECOGNITION

OD-SLA-1.3: Conformer-based End-to-end Speech Recognition With Rotary Position Embedding

OD-SLA-1.4: Efficient conformer-based speech recognition with linear attention

OD-SLA-1.5: One In A Hundred: Selecting the Best Predicted Sequence from Numerous Candidates for Speech Recognition

OD-SLA-1.6: LARGE-CONTEXT AUTOMATIC SPEECH RECOGNITION BASED ON RNN TRANSDUCER

OD-SLA-1.7: AN END-TO-END MODEL FROM SPEECH TO CLEAN TRANSCRIPT FOR PARLIAMENTARY MEETINGS

OD-SLA-1.8: DATA AUGMENTATION BASED ON FREQUENCY WARPING FOR RECOGNITION OF CLEFT PALATE SPEECH

OD-SLA-1.9: AN INVESTIGATION OF ENHANCING CTC MODEL FOR TRIGGERED ATTENTION-BASED STREAMING ASR

OD-SLA-1.10: Significance of Data Augmentation for Improving Cleft Lip and Palate Speech Recognition

OD-SLA-1.11: Teager Energy Subband Filtered Features for Near and Far-Field Automatic Speech Recognition

OD-SLA-1.12: MULTITASK-BASED JOINT LEARNING APPROACH TO ROBUST ASR FOR RADIO COMMUNICATION SPEECH

OD-SLA-1.13: ADVANCED LANGUAGE MODEL FUSION METHOD FOR ENCODER-DECODER MODEL IN JAPANESE SPEECH RECOGNITION

OD-SLA-1.14: CSTD-Telugu Corpus: Crowd-Sourced Approach for Large-Scale Speech data collection

OD-SLA-1.15: AN EMPIRICAL STUDY ON TRANSFORMER-BASED END-TO-END SPEECH RECOGNITION WITH NOVEL DECODER MASKING