IEEE ICASSP 2024 || Seoul, Korea || 14-19 April 2024

SLP-P5.7

TOWARDS OPTIMAL VOICE DISENTANGLEMENT WITH WEAK SUPERVISION

Mohammad Rasool Izadi, Bose Corp., United States of America; Yujia Yan, University of Rochester, United States of America; Shuo Zhang, Bose Corp., United States of America; Robert Stevenson, University of Notre Dame, United States of America

Session:

SLP-P5: Voice Conversion II Poster

Location:

Poster Zone 2B
Poster Board PZ-2B.7

Presentation Time:

Wed, 17 Apr, 08:20 - 10:20 (UTC +9)

Session Chair:

Tomoki Toda, Nagoya University

View Manuscript

Session SLP-P5

SLP-P5.1: INVERTIBLE VOICE CONVERSION WITH PARALLEL DATA

Zexin Cai, Duke University, United States of America; Ming Li, Duke Kunshan University, China

SLP-P5.2: Learning Speech Representation From Contrastive Token-Acoustic Pretraining

Chunyu Qiang, Tianjin University, China; Hao Li, Yixin Tian, Kuaishou Technology, China; Ruibo Fu, Tao Wang, Institute of Automation, Chinese Academy of Sciences, China; Longbiao Wang, Jianwu Dang, Tianjin University, China

SLP-P5.3: WAV2VEC-VC: VOICE CONVERSION VIA HIDDEN REPRESENTATIONS OF WAV2VEC 2.0

Jaemin Lim, Kiyeon Kim, PrairieSchooner Inc., Korea, Republic of

SLP-P5.4: MULTI-SCALE SUB-BAND CONSTANT-Q TRANSFORM DISCRIMINATOR FOR HIGH-FIDELITY VOCODER

Yicheng Gu, Xueyao Zhang, Liumeng Xue, Zhizheng Wu, The Chinese University of Hong Kong, Shenzhen, China

SLP-P5.5: LANGWAVE: REALISTIC VOICE GENERATION BASED ON HIGH-ORDER LANGEVIN DYNAMICS

Ziqiang Shi, Rujie Liu, Fujitsu R & D Center, China

SLP-P5.6: GR0: Self-supervised Global Representation Learning for Zero-shot Voice Conversion

Yunyun Wang, Princeton University, United States of America; Jiaqi Su, Adobe Research, United States of America; Adam Finkelstein, Princeton University, United States of America; Zeyu Jin, Adobe Research, United States of America

SLP-P5.7: TOWARDS OPTIMAL VOICE DISENTANGLEMENT WITH WEAK SUPERVISION

SLP-P5.8: StreamVC: Real-Time Low-Latency Voice Conversion

Yang Yang, Yury Kartynnik, Yunpeng Li, Jiuqiang Tang, Xing Li, George Sung, Matthias Grundmann, Google, United States of America

SLP-P5.9: POSTERIOR VARIANCE-PARAMETERISED GAUSSIAN DROPOUT: IMPROVING DISENTANGLED SEQUENTIAL AUTOENCODERS FOR ZERO-SHOT VOICE CONVERSION

Yin-Jyun Luo, Simon Dixon, Queen Mary University of London, United Kingdom of Great Britain and Northern Ireland

SLP-P5.10: SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention

Junjie Li, Yiwei Guo, Xie Chen, Kai Yu, Shanghai Jiao Tong University, China

SLP-P5.11: ELECTROLARYNGEAL SPEECH INTELLIGIBILITY ENHANCEMENT THROUGH ROBUST LINGUISTIC ENCODERS

Lester Phillip Violeta, Wen-Chin Huang, Ding Ma, Ryuichi Yamamoto, Nagoya University, Japan; Kazuhiro Kobayashi, Nagoya University, TARVO Inc., Japan; Tomoki Toda, Nagoya University, Japan