IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L24.4

EXTENDING LARGE LANGUAGE MODELS FOR SPEECH AND AUDIO CAPTIONING

Changli Tang, Wenyi Yu, Guangzhi Sun, Tsinghua University, China; Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, ByteDance, China; Chao Zhang, Tsinghua University, China

Session:

SLP-L24: Resource Constrained Acoustic and Langugage Modeling Lecture

Location:

Room E3

Presentation Time:

Thu, 18 Apr, 17:30 - 17:50 (UTC +9)

Session Co-Chairs:

Xiaodong Cui, IBM Research and Zhijian Ou, Tsinghua University

View Manuscript

Session SLP-L24

SLP-L24.1: TOWARDS AUTOMATIC DATA AUGMENTATION FOR DISORDERED SPEECH RECOGNITION

Zengrui Jin, The Chinese University of Hong Kong, Hong Kong; Xurong Xie, Chinese Academy of Sciences, China; Tianzi Wang, Mengzhe Geng, Jiajun Deng, Guinan Li, Shujie Hu, Xunying Liu, The Chinese University of Hong Kong, Hong Kong

SLP-L24.2: SOFT ALIGNMENT OF MODALITY SPACE FOR END-TO-END SPEECH TRANSLATION

Yuhao Zhang, Kaiqi Kou, Bei Li, Northeastern University, China; Chen Xu, Harbin Engineering University, China; Chunliang Zhang, Tong Xiao, Jingbo Zhu, Northeastern University, China

SLP-L24.3: GENERATIVE CONTEXT-AWARE FINE-TUNING OF SELF-SUPERVISED SPEECH MODELS

Suwon Shon, Kwangyoun Kim, Prashant Sridhar, Yi-Te Hsu, ASAPP, United States of America; Shinji Watanabe, Carnegie Mellon University, United States of America; Karen Livescu, Toyota Technological Institute at Chicago, United States of America

SLP-L24.4: EXTENDING LARGE LANGUAGE MODELS FOR SPEECH AND AUDIO CAPTIONING

Changli Tang, Wenyi Yu, Guangzhi Sun, Tsinghua University, China; Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, ByteDance, China; Chao Zhang, Tsinghua University, China

SLP-L24.5: HYSTOC: OBTAINING WORD CONFIDENCES FOR FUSION OF END-TO-END ASR SYSTEMS

Karel Beneš, Martin Kocour, Lukáš Burget, Brno University of Technology, Czechia

SLP-L24.6: EFFECTIVE INTERNAL LANGUAGE MODEL TRAINING AND FUSION FOR FACTORIZED TRANSDUCER MODEL

Jinxi Guo, Niko Moritz, YIngyi Ma, Frank Seide, Chunyang Wu, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer, Meta, United States of America