IEEE ICASSP 2026 || Barcelona, Spain || 4-8 May 2026

MLSP-P38.1: A MULTI-FREQUENCY CONTINUOUS-SHARE TRADING ALGORITHM WITH GARCH AND DEEP REINFORCEMENT LEARNING

Zhishun Wang, University of Electronic Science and Technology of China; Western Securities, China; Chen Wang, University of Electronic Science and Technology of China，The University of Hong Kong, China; Chongyang He, University of Electronic Science and Technology of China, Tsinghua University, China; Wei Lu, University of Electronic Science and Technology of China, China

MLSP-P38.2: Reinforced Active Learning for Change Point Detection

Stefano Bertolasi, University of Trento, Italy; Diego Carrera, Diego Stucchi, Pasqualina Fragneto, STMicroelectronics, Italy; Luigi Amedeo Bianchi, University of Trento, Italy

MLSP-P38.3: THREE-STAGE DIFFUSION POLICY OPTIMIZATION FOR OFFLINE REINFORCEMENT LEARNING

JiaHao Liu, Quan Liu, Soochow University, China

MLSP-P38.4: MSTAR: CROSS-MODAL FUSION VIA MULTI-SOURCE REWARD MECHANISM FOR SPATIO-TEMPORAL AWARE REASONING

Binyi Bai, Beihang University, China; Shurong Zhang, Harbin Institute of Technology, China; Jie Zhu, Soochow University, China; Peiyan Zhong, Chongqing University, China; Yongfei Zhang, Beihang University, China; Junbo Wang, Northwestern Polytechnical University, China

MLSP-P38.5: Dynamic Automaton Refinement and Planning for Non-Markovian RL

Mahyar Alinejad, Yue Wang, George Atia, Department of Electrical and Computer Engineering, University of Central Florida, Orlando, FL, USA, United States of America

MLSP-P38.6: META-REINFORCEMENT LEARNING WITH CONTEXTUAL BIAS REDUCTION

Siming Lan, Institute of AI for Industries, China; Jiaming Guo, Rui Zhang, Institute of Computing Technology, China; Shaohui Peng, Institute of Software, China; Yunkai Gao, Institute of AI for Industries, China; Fan Wu, Institute of Software, China; Zihao Zhang, Xing Hu, Institute of Computing Technology, China

MLSP-P38.7: MCPO: DYNAMIC MASKING AND MULTI-COMPARISON POLICY OPTIMIZATION ALGORITHM FOR LLM REINFORCEMENT LEARNING

Fei Ding, Nanchang University, China; Baiqiao Wang, Xiao-Ping Zhang, Wenbo Ding, Tsinghua University, China

MLSP-P38.8: ACM: MULTIPLE ATTRIBUTES CONTRASTIVE MECHANISM FOR VALUE DECOMPOSITION IN MULTI-AGENT REINFORCEMENT LEARNING

Hu Fu, School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, China; Hao Chen, Institute of Automation, Chinese Academy of Sciences, China; Guanyu Qi, Yihua Tan, School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, China

MLSP-P38.9: T-CAMEL: TEAMMATE-CAUSAL-AWARE MULTI-AGENT LEARNING

Yinuo Liu, Zhongxuan Cai, Tianjian Jiang, Quan Zhang, Yuanxi Peng, National University of Defense Technology, China

MLSP-P38.10: ADVANTAGE-WEIGHTED POLICY LEARNING WITH ADAPTIVE REGULARIZATION FOR OFFLINE REINFORCEMENT LEARNING

Yi Wen, Tong Wu, Dayong Zhu, University of Electronic Science and Technology of China, China