Multi-Modal Manipulation via Multi-Modal Policy Consensus

Haonan Chen, Jiaming Xu^*, Hongyu Chen^*, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du⁺, Katherine Driggs-Campbell⁺

University of Illinois Urbana-Champaign, Columbia University, Massachusetts Institute of Technology, Harvard University

2026 IEEE International Conference on Robotics and Automation (ICRA)

Best Paper Award — CVPR 2026 Workshop on Multi-Sensory Modeling for Embodied Intelligence

Media: Featured in Video Friday — IEEE Spectrum

publicWebpage descriptionPaper movieVideo codeCode datasetDataset

First page of the Multi-Modal Manipulation via Multi-Modal Policy Consensus paper

Abstract

Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly incorporate new or missing modalities without retraining. Our method factorizes the policy into a set of diffusion models, each specialized for a single representation (e.g., vision or touch), and employs a router network that learns consensus weights to adaptively combine their contributions, enabling incremental of new representations. We evaluate our approach on simulated manipulation tasks in RLBench, as well as real-world tasks such as occluded object picking, in-hand spoon reorientation, and puzzle insertion, where it significantly outperforms feature-concatenation baselines on scenarios requiring multimodal reasoning. Our policy further demonstrates robustness to physical perturbations and sensor corruption. We further conduct perturbation-based importance analysis, which reveals adaptive shifts between modalities.

Links & Resources

publicWebpageopen_in_new descriptionPaperopen_in_new movieVideoopen_in_new codeCodeopen_in_new datasetDatasetopen_in_new

arrow_backBack to all works