IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-P23.1

LEVERAGING TIMESTAMP INFORMATION FOR SERIALIZED JOINT STREAMING RECOGNITION AND TRANSLATION

Sara Papi, Fondazione Bruno Kessler and University of Trento, Italy; Peidong Wang, Junkun Chen, Jian Xue, Naoyuki Kanda, Jinyu Li, Yashesh Gaur, Microsoft, United States of America

Session:

SLP-P23: Machine translation for spoken and written language II Poster

Location:

Poster Zone 2B
Poster Board PZ-2B.1

Presentation Time:

Thu, 18 Apr, 13:10 - 15:10 (UTC +9)

Session Co-Chairs:

Naoyuki Kanda, Microsoft and Yu-An Chung, Meta AI

View Manuscript

Session SLP-P23

SLP-P23.1: LEVERAGING TIMESTAMP INFORMATION FOR SERIALIZED JOINT STREAMING RECOGNITION AND TRANSLATION

Sara Papi, Fondazione Bruno Kessler and University of Trento, Italy; Peidong Wang, Junkun Chen, Jian Xue, Naoyuki Kanda, Jinyu Li, Yashesh Gaur, Microsoft, United States of America

SLP-P23.2: TRANSLATOTRON 3: SPEECH TO SPEECH TRANSLATION WITH MONOLINGUAL DATA

Eliya Nachmani, Alon Levkovitch, Google Research, Israel; Yifan Ding, Google DeepMind, Israel; Chulayuth Asawaroengchai, Google Research, Israel; Heiga Zen, Google DeepMind, Israel; Michelle Tadmor Ramanovich, Google Research, Israel

SLP-P23.3: PRE-TRAINED ACOUSTIC-AND-TEXTUAL MODELING FOR END-TO-END SPEECH-TO-TEXT TRANSLATION

Weitai Zhang, University of Science and Technology of China, China; Hanyi Zhang, iFLYTEK Research, China; Chenxuan Liu, Zhongyi Ye, University of Science and Technology of China, China; Xinyuan Zhou, Chao Lin, iFLYTEK Research, China; Lirong Dai, University of Science and Technology of China, China

SLP-P23.4: ANIM-400K: A LARGE-SCALE DATASET FOR AUTOMATED END TO END DUBBING OF VIDEO

Kevin Cai, Chonghua Liu, David Chan, UC Berkeley, United States of America

SLP-P23.5: CROSS-MODAL MULTI-TASKING FOR SPEECH-TO-TEXT TRANSLATION VIA HARD PARAMETER SHARING

Brian Yan, Xuankai Chang, Carnegie Mellon University, United States of America; Antonios Anastasopoulos, George Mason University, United States of America; Yuya Fujita, Yahoo Japan Corporation, Japan; Shinji Watanabe, Carnegie Mellon University, United States of America

SLP-P23.6: ENHANCING END-TO-END CONVERSATIONAL SPEECH TRANSLATION THROUGH TARGET LANGUAGE CONTEXT UTILIZATION

Amir Hussein, Johns Hopkins University, United States of America; Brian Yan, Carnegie Mellon University, United States of America; Antonios Anastasopoulos, George Mason University, United States of America; Shinji Watanabe, Carnegie Mellon University, United States of America; Sanjeev Khudanpur, Johns Hopkins University, United States of America

SLP-P23.7: RETHINKING TARGETED ADVERSARIAL ATTACKS FOR NEURAL MACHINE TRANSLATION

Junjie Wu, Hong Kong University of Science and Technology, China; Lemao Liu, Wei Bi, Tencent, China; Dit-Yan Yeung, Hong Kong University of Science and Technology, Hong Kong

SLP-P23.8: TRANSENTENCE: SPEECH-TO-SPEECH TRANSLATION VIA LANGUAGE-AGNOSTIC SENTENCE-LEVEL SPEECH ENCODING WITHOUT LANGUAGE-PARALLEL DATA

Seung-Bin Kim, Sang-Hoon Lee, Seong-Whan Lee, Korea University, Korea, Republic of