IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-L14.4

BRAVEN: IMPROVING SELF-SUPERVISED PRE-TRAINING FOR VISUAL AND AUDITORY SPEECH RECOGNITION

Alexandros Haliassos, Andreas Zinonos, Rodrigo Mira, Imperial College London, United Kingdom of Great Britain and Northern Ireland; Stavros Petridis, Maja Pantic, Meta, United Kingdom of Great Britain and Northern Ireland

Session:

SLP-L14: Self-supervised learning for speech processing I Lecture

Location:

Room 205A

Presentation Time:

Wed, 17 Apr, 14:10 - 14:30 (UTC +9)

Session Co-Chairs:

Wei-Ning Hsu, Meta and Suwon Shon, ASAPP

View Manuscript

Session SLP-L14

SLP-L14.1: ARE SOFT PROMPTS GOOD ZERO-SHOT LEARNERS FOR SPEECH RECOGNITION?

Dianwen Ng, Alibaba Group; Nanyang Technological University, Singapore; Chong Zhang, Alibaba Group, Singapore; Ruixi Zhang, NA, Singapore; Yukun Ma, Alibaba Group, Singapore; Fabian Ritter-Gutierrez, Nanyang Technological University; A-Star, Singapore; Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Alibaba Group, Singapore; Eng Siong Chng, Nanyang Technological University, Singapore; Bin Ma, Alibaba Group, Singapore

SLP-L14.2: TOWARDS UNIVERSAL SPEECH DISCRETE TOKENS: A CASE STUDY FOR ASR AND TTS

Yifan Yang, Feiyu Shen, Chenpeng Du, Ziyang Ma, Kai Yu, MoE Key Lab of Artificial Intelligence, AI Institute, X-LANCE Lab, China; Daniel Povey, Xiaomi Corporation, China; Xie Chen, MoE Key Lab of Artificial Intelligence, AI Institute, X-LANCE Lab, China

SLP-L14.3: UNSUPERVISED SPEECH RECOGNITION WITH N-SKIPGRAM AND POSITIONAL UNIGRAM MATCHING

Liming Wang, Mark Hasegawa-Johnson, University of Illinois Urbana-Champaign, United States of America; Chang Yoo, KAIST, Korea, Republic of

SLP-L14.4: BRAVEN: IMPROVING SELF-SUPERVISED PRE-TRAINING FOR VISUAL AND AUDITORY SPEECH RECOGNITION

SLP-L14.5: REVISITING SELF-SUPERVISED LEARNING OF SPEECH REPRESENTATION FROM A MUTUAL INFORMATION PERSPECTIVE

Alexander Liu, MIT, United States of America; Sung-Lin Yeh, University of Edinburgh, United Kingdom of Great Britain and Northern Ireland; James Glass, MIT, United States of America

SLP-L14.6: DYNAMIC-SUPERB: TOWARDS A DYNAMIC, COLLABORATIVE, AND COMPREHENSIVE INSTRUCTION-TUNING BENCHMARK FOR SPEECH

Chien-yu Huang, Ke-Han Lu, Shih-Heng Wang, Chun-Yi Kuan, Chi-Yuan Hsiao, Haibin Wu, National Taiwan University, Taiwan; Siddhant Arora, Carnegie Mellon University, United States of America; Kai-Wei Chang, National Taiwan University, Taiwan; Jiatong Shi, Yifan Peng, Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Carnegie Mellon University, United States of America; Shady Shehata, Mohamed bin Zayed University of Artificial Intelligence, United Arab Emirates; Hung-yi Lee, National Taiwan University, Taiwan