IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L5.5

SEMI-AUTOREGRESSIVE STREAMING ASR WITH LABEL CONTEXT

Siddhant Arora, Carnegie Mellon University, United States of America; George Saon, IBM Research, United States of America; Shinji Watanabe, Carnegie Mellon University, United States of America; Brian Kingsbury, IBM Research, United States of America

Session:

SLP-L5: Context and LLM speech recognition Lecture

Location:

Room 102

Presentation Time:

Tue, 16 Apr, 17:50 - 18:10 (UTC +9)

Session Co-Chairs:

Niko Moritz, Meta and Chao Zhang, Tsinghua University

View Manuscript

Session SLP-L5

SLP-L5.1: CONNECTING SPEECH ENCODER AND LARGE LANGUAGE MODEL FOR ASR

Wenyi Yu, Changli Tang, Guangzhi Sun, Tsinghua University, China; Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Bytedance, China; Chao Zhang, Tsinghua University, China

SLP-L5.2: ADAPTING LARGE LANGUAGE MODEL WITH SPEECH FOR FULLY FORMATTED END-TO-END SPEECH RECOGNITION

Shaoshi Ling, Yuxuan Hu, Shuangbei Qian, Guoli Ye, Yao Qian, Yifan Gong, Ed Lin, Michael Zeng, Microsoft, United States of America

SLP-L5.3: PROMPTASR FOR CONTEXTUALIZED ASR WITH CONTROLLABLE STYLE

Xiaoyu Yang, Wei Kang, Zengwei Yao, Yifan Yang, Liyong Guo, Fangjun Kuang, Long Lin, Daniel Povey, Xiaomi Corp., China

SLP-L5.4: EXTENDING WHISPER WITH PROMPT TUNING TO TARGET-SPEAKER ASR

Hao Ma, Shandong University, China; Zhiyuan Peng, North Carolina State University, United States of America; Mingjie Shao, Shandong University, China; Jing Li, Shandong Normal University, China; Ju Liu, Shandong University, China

SLP-L5.5: SEMI-AUTOREGRESSIVE STREAMING ASR WITH LABEL CONTEXT

SLP-L5.6: END-TO-END SPEECH RECOGNITION CONTEXTUALIZATION WITH LARGE LANGUAGE MODELS

Egor Lakomkin, Chunyang Wu, Meta, Germany; Yassir Fathullah, University of Cambridge, United Kingdom of Great Britain and Northern Ireland; Ozlem Kalinli, Michael L. Seltzer, Christian Fuegen, Meta, United States of America