APSIPA 2021 || Tokyo, Japan || 14-17 December 2021

OD-SLA-8: Speech Recognition and Spoken Language Processing

Fri, 17 Dec, 15:20 - 17:00 Japan Standard Time (UTC +9)
Fri, 17 Dec, 06:20 - 08:00 Coordinated Universal Time
Fri, 17 Dec, 01:20 - 03:00 Eastern Standard Time (UTC -4)
Thu, 16 Dec, 22:20 - 00:00 Pacific Standard Time (UTC -7)

Session Chair: Hsin-Min Wang, Academia Sinica

Track: Speech, Language, and Audio (SLA)

OD-SLA-8.1: Enriching Under-Represented Named Entities for Improved Speech Recognition

Tingzhi Mao, Hao Huang, Aishan Wumaier, Xinjiang University, China; Yerbolat Khassanov, Nazarbayev University, Kazakhstan; Van Tung Pham, Haihua Xu, Eng Siong Chng, Nanyang Technological University, Singapore, Singapore

OD-SLA-8.2: Ensemble of One Model: Creating Model Variations for Transformer with Layer Permutation

Andrew Liaw, Jia-Hao Hsu, Chung-Hsien Wu, National Cheng Kung University, Taiwan

OD-SLA-8.3: UNCERTAINTY ESTIMATION IN AUTOMATIC PRONUNCIATION ASSESSMENT WITH PSEUDO SAMPLES BASED ON DEEP KERNEL LEARNING

Binghuai Lin, Liyuan Wang, Tencent Technology Co., Ltd, China

OD-SLA-8.4: RETRIEVAL-ORIENTED E2E ASR MODELING FOR IMPROVED QUERY-BY-EXAMPLE SPOKEN TERM DETECTION

Takumi Kurokawa, Atsuhiko Kai, Shizuoka University, Japan

OD-SLA-8.5: Multilingual Approach to Joint Speech and Accent Recognition with DNN-HMM Framework

Yizhou Peng, Jicheng Zhang, Haobo Zhang, Hao Huang, Xinjiang University, China; Haihua Xu, Eng Siong Chng, Nanyang Technological University, Singapore; Sheng Li, National Institute of Information and Communications Technology, Japan

OD-SLA-8.6: Improving End-To-End Modeling for Mispronunciation Detection with Effective Augmentation Mechanisms

Tien-Hong Lo, Yao-Ting Sung, Berlin Chen, National Taiwan Normal University, Taiwan

OD-SLA-8.7: Zero-shot Domain Adaptation with Inference Relation Paths for Spoken Language Understanding

Sixia Li, Jianwu Dang, Japan Advanced Institute of Science and Technology, Japan

OD-SLA-8.8: End to End Spoken Language Understanding Using Partial Disentangled Slot Embedding

Tan Liu, Wu Guo, University of Science and Technology of China, China

OD-SLA-8.9: MULTIPLE DEEP LEARNING MODELS AND ARCHITECTURES WITH DIFFERENT NUMBERS OF STATES USED TO IMPROVE RETRIEVAL ACCURACY OF QUERY-BY-EXAMPLE

Kazuki Hatakeyama, Kazunori Kojima, Yoshiaki Itoh, Iwate Prefectural University, Japan; Masahiro Nishino, TOYOTA SYSTEMS CORPORATION, Japan; Shi-wook Lee, AIST, Japan

OD-SLA-8.10: Separable Temporal Convolution plus Temporally Pooled Attention for Lightweight High-performance Keyword Spotting

Shenghua Hu, Jing Wang, Wenjing Yang, Beijing Institute of Technology, China; Yujun Wang, Xiaomi Inc., China

OD-SLA-8.11: END-TO-END SPONTANEOUS SPEECH RECOGNITION USING HESITATION LABELING

Koharu Horii, Norihide Kitaoka, Toyohashi University of Technology, Japan; Meiko Fukuda, Ryota Nishimura, Tokushima University, Japan; Kengo Ohta, National Institute of Technology, Anan College, Japan; Atsunori Ogawa, Nippon Telegraph and Telephone Corporation, Japan

OD-SLA-8.16: CROSS-UTTERANCE RERANKING MODELS WITH BERT AND GRAPH CONVOLUTIONAL NETWORKS FOR CONVERSATIONAL SPEECH RECOGNITION

Shih-Hsuan Chiu, Tien-Hong Lo, Fu-An Chao, Berlin Chen, National Taiwan Normal University, Taiwan