IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MMSP-P1: Text-Driven 3D Generation and Scene Reconstruction

Poster

Tue, 5 May, 14:00 - 16:00

Location: Poster Area 20

Session Type: Poster

Session Chair: Wei Hu, Peking University

Track: Multimedia Signal Processing [MM]

MMSP-P1.1: SPARSE-UP: LEARNABLE SPARSE UPSAMPLING FOR 3D GENERATION WITH HIGH-FIDELITY TEXTURES

Lu Xiao, Jiale Zhang, Yang Liu, Taicheng Huang, Xin Tian, JD.com, China

MMSP-P1.2: SELF-SUPERVISED MONOCULAR DEPTH ESTIMATION VIA RGB-TO-THERMAL CROSS-MODAL DISTILLATION WITH CONFIDENCE AWARENESS

Zelin Meng, The University of Tokyo, Japan; Lin Meng, Hiroyuki Tomiyama, Ritsumeikan Universiy, Japan; Takanori Fukao, The University of Tokyo, Japan

MMSP-P1.3: PictOBI-20k: Unveiling Large Multimodal Models in Visual Decipherment for Pictographic Oracle Bone Characters

Zijian Chen, Shanghai Jiao Tong University, China; Wenjie Hua, Wuhan University, China; Jinhao Li, East China Normal University, China; Lirong Deng, Macao Polytechnic University, China; Fan Du, Southern University of Science and Technology, China; Tingzhu Chen, Guangtao Zhai, Shanghai Jiao Tong University, China

MMSP-P1.4: SDR-STE: SYNERGISTIC DISENTANGLEMENT AND REFINEMENT FOR PHOTOREALISTIC SCENE TEXT EDITING

Zeguang Jia, Jian ming Wang, Rize Jin, Kehui Song, Zhilan Wang, Tiangong University, China

MMSP-P1.5: TEXT-GUIDED ROI-AWARE PRUNING METHOD FOR LANGUAGE EMBEDDED 3DGS

Diego Fujii, Hiroki Kojima, Keisuke Nonaka, KDDI Research, Inc., Japan

MMSP-P1.6: TEXTLESSRAG: END-TO-END VISUAL DOCUMENT RAG BY SPEECH WITHOUT TEXT

Peijin Xie, Shun Qian, Bingquan Liu, Harbin Institute of Technology, China; Dexin Wang, Lin Sun, Xiangzheng Zhang, Qihoo 360 Technology, China

MMSP-P1.7: MMIndoor3D: Multi-View Multimodal 3D Indoor Scene Generation with Material Information

Zeyu Li, Lei Li, Beijing University of Posts and Telecommunications, China

MMSP-P1.8: Sounds That Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling

Bumsoo Kim, Sanghyun Seo, Chung-Ang University, Korea, Republic of

MMSP-P1.9: ENHANCING SPATIAL RELATIONSHIPS IN TEXT-TO-IMAGE GENERATION WITH STRUCTURED INFORMATION

Sander Schildermans, Chang Tian, Ying Jiao, Marie-Francine Moens, KU Leuven, Belgium

MMSP-P1.10: TEACHER-STUDENT DIFFUSION MODEL FOR TEXT-DRIVEN 3D HAND MOTION GENERATION

Ching Lam Cheng, Bin Zhu, Shengfeng He, Singapore Management University, Singapore