Diffusion Policy

Columbia/MIT의 Diffusion 기반 Visuomotor Policy Learning

Diffusion Policy

Home > Models > Diffusion Policy


핵심 의의

  • 로봇에 Diffusion 적용한 선구적 연구: 이미지 생성에서 성공한 diffusion을 로봇 액션 생성에 최초로 성공적 적용
  • Multimodal Action 자연스럽게 처리: 같은 상황에서 여러 유효한 행동이 있을 때 다중 모드를 학습하고 실행 시 하나에 commit
  • 매우 높은 학습 안정성: 기존 imitation learning 방법들 대비 안정적인 학습 수렴
  • 4개 벤치마크 평균 46.9% 성능 향상: Robomimic, IBC, Behavior Transformer, Relay Policy Learning 등에서 검증
  • 후속 연구에 큰 영향: π0의 flow matching, Octo의 diffusion decoder 등 이후 VLA들의 액션 생성 방식에 직접적 영향
  • LeRobot 기본 지원: HuggingFace LeRobot에서 ACT와 함께 기본 지원 모델
  • 강건성: 가림(occlusion), 외란(perturbation), 시각적 방해에 대해 강건한 성능

Diffusion Policy: 노이즈에서 액션 시퀀스를 점진적으로 생성


Overview

Diffusion Policy는 로봇의 visuomotor 정책을 조건부 denoising diffusion process로 표현하는 새로운 접근법입니다. Multimodal action distribution을 우아하게 처리하고, 고차원 액션 공간에 적합하며, 뛰어난 학습 안정성을 보여줍니다.

항목내용
발표2023년 3월 (RSS 2023)
저자Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Shuran Song
소속Columbia University, MIT, Toyota Research Institute
논문arXiv:2303.04137
저널IJRR 2024 (확장판)
프로젝트diffusion-policy.cs.columbia.edu

Key Ideas

Diffusion for Action Generation

기존 정책이 직접 액션을 예측하는 것과 달리, Diffusion Policy는 노이즈에서 시작하여 점진적으로 액션을 생성합니다.

순수 노이즈 → ... → 중간 노이즈 → ... → 최종 액션 시퀀스
         ← Denoising Steps (Langevin dynamics) ←

핵심 원리:

  • 액션 분포의 score function 기울기를 학습
  • 추론 시 stochastic Langevin dynamics로 반복 최적화

Multimodal Action Handling

같은 상황에서 여러 가지 유효한 행동이 있을 때 (예: 물체를 왼쪽/오른쪽 중 어디로 밀어도 됨), Diffusion Policy는:

  • 다중 모드 행동을 학습
  • 각 rollout에서 하나의 모드에만 commit
  • LSTM-GMM, IBC 등 기존 방법보다 우수한 성능

Receding Horizon Control

단일 액션이 아닌 액션 시퀀스를 예측하여 시간적 일관성 확보.


Architecture

Time-Series Diffusion Transformer

구성 요소설명
Visual Encoder이미지 조건화를 위한 인코더
Diffusion BackboneTransformer 또는 CNN 기반
Noise SchedulerDDPM 기반 스케줄링

입력:

  • 시각 관측 (이미지)
  • 현재 로봇 상태

출력:

  • 미래 액션 시퀀스

Performance

벤치마크 결과

4개 벤치마크, 12개 태스크에서 평균 46.9% 성능 향상

BenchmarkTasks
RobomimicLift, Can, Square, Tool Hang, Transport
IBCPush-T, Block Pushing
Behavior TransformerFranka Kitchen
Relay Policy LearningFranka Kitchen

실제 로봇 검증

TaskDescription
Push-TT자 물체 밀기 조작
Mug Flipping머그컵 뒤집기
Sauce Preparation소스 준비 (6-DoF 제어)

Advantages

특징설명
Multimodal다중 유효 행동 분포 처리
고차원고차원 액션 공간에 적합
안정성학습 수렴 안정적
강건성가림, 외란, 시각적 방해에 강건

Comparison with ACT

항목Diffusion PolicyACT
생성 방식Denoising diffusionCVAE decoder
Multimodality자연스러운 처리Style variable (z)
추론 속도다수 denoising step 필요단일 forward pass
학습 안정성매우 높음높음

Impact

Diffusion Policy는 로봇 학습에 diffusion model을 적용한 선구적 연구로, 이후 많은 후속 연구에 영향을 미쳤습니다:

  • pi0 (Physical Intelligence)의 flow matching 기반 접근
  • LeRobot의 기본 지원 모델
  • 다양한 manipulation 태스크에서 표준 baseline

Resources


See Also

관련 인물