GR00T-Dreams (DreamGen)

핵심 의의

로봇 데이터 문제 해결: World Foundation Model을 활용하여 단일 이미지와 언어 지시만으로 대규모 합성 trajectory 데이터 생성
드라마틱한 효율성: 36시간 만에 GR00T N1.5 학습 (수동 수집 시 3개월 소요)
GR00T-Mimic과 함께: 780K 합성 trajectory을 11시간 만에 생성 (6,500시간 상당의 인간 시연)
행동 일반화: 단일 환경의 pick-and-place 데이터만으로 22개의 새로운 행동을 10개의 새로운 환경에서 수행 가능
Contact-Rich Task 지원: 수건 접기, 망치질, 그릇 쌓기 등 시뮬레이션으로 어려운 작업도 학습 가능
오픈소스: Apache 2.0 라이선스로 공개

Overview

GR00T-Dreams는 NVIDIA GEAR Lab의 로봇 데이터 문제 해결 이니셔티브입니다. 핵심 기술인 DreamGen은 Video World Model(Cosmos-Predict2)을 활용하여 Neural Trajectories(신경 trajectory)라고 불리는 합성 로봇 데이터를 생성합니다. 로봇이 마치 “꿈을 꾸듯이” 새로운 시나리오를 상상하고 학습할 수 있게 해줍니다.

항목	내용
발표	2025년 5월 (arXiv), Computex 2025
연구 기관	NVIDIA, UW, KAIST, UCLA, UCSD, CalTech, NTU, UMD, UT Austin
핵심 기술	Video World Model + Inverse Dynamics Model
기반 모델	Cosmos-Predict2
논문	arXiv:2505.12705
GitHub	NVIDIA/GR00T-Dreams
라이선스	Apache 2.0

DreamGen: 4단계 파이프라인

DreamGen은 간단하지만 매우 효과적인 4단계 파이프라인으로 구성됩니다.

1단계: Video World Model Fine-tuning

기존 Image-to-Video 생성 모델(Cosmos-Predict2)을 로봇 embodiment에 맞게 미세 조정합니다.

항목	내용
기반 모델	Cosmos-Predict2
미세조정 방식	LoRA (Low-Rank Adaptation)
목적	인터넷 비디오 지식 보존하면서 로봇 동역학 학습

LoRA를 사용하는 이유:

기존 인터넷 비디오 지식의 망각(catastrophic forgetting) 방지
효율적인 파라미터 업데이트

2단계: Synthetic Video Generation (Dream Generation)

미세 조정된 모델에 초기 프레임과 언어 지시를 입력하여 합성 로봇 비디오를 생성합니다.

입력: 초기 이미지 + 언어 지시 ("컵을 집어서 선반에 놓아라")
      ↓
[Fine-tuned Cosmos-Predict2]
      ↓
출력: 포토리얼리스틱 로봇 비디오 (새로운 행동/환경 포함)

핵심 특징:

학습 시 보지 못한 새로운 행동(novel behaviors) 생성 가능
다양한 환경에서의 동일 행동 생성 가능
물리적으로 그럴듯한 동작 생성

3단계: Action Extraction (Neural Trajectory 생성)

생성된 비디오에는 액션 어노테이션이 없으므로, pseudo-action(의사 액션)을 추출합니다.

방법	설명	용도
Inverse Dynamics Model (IDM)	두 프레임 사이의 액션 예측	명시적 액션 추출
Latent Action Model	잠재 공간에서 액션 표현	암시적 액션 표현

IDM 아키텍처:

Diffusion Transformer + SigLIP-2 Vision Encoder
Flow Matching objective로 학습
두 이미지 프레임 → 액션 청크 예측
언어나 고유감각(proprioception) 입력 없음 (순수 동역학만 학습)

결과: Neural Trajectories

합성 비디오 + pseudo-action의 조합
실제 텔레오퍼레이션 데이터 없이 학습 가능한 형태

4단계: Policy Training

Neural Trajectories를 사용하여 visuomotor 정책을 학습합니다.

항목	내용
학습 대상	GR00T N1.x Foundation Model
데이터	Neural Trajectories (합성) + Real Trajectories (선택적)
효과	행동 및 환경 일반화 능력 획득

GR00T-Dreams Blueprint: 5단계 워크플로우

NVIDIA의 공식 Blueprint는 5단계로 확장되어 있습니다:

1. Post-training
   └─ Cosmos-Predict2를 제한된 텔레오퍼레이션 trajectory으로 미세 조정

2. Dream Generation
   └─ 이미지 + 텍스트 프롬프트로 다양한 태스크 시나리오 생성

3. Reasoning & Filtering (Cosmos-Reason1)
   └─ 저품질 합성 데이터 평가 및 필터링

4. Neural Trajectory Extraction (IDM)
   └─ 2D 비디오를 3D 액션 시퀀스로 변환

5. Policy Training
   └─ 합성 데이터셋으로 visuomotor 정책 학습

GR00T-Mimic: trajectory 증강

GR00T-Dreams와 상호보완적인 GR00T-Mimic Blueprint입니다.

개요

항목	내용
목적	소수의 인간 시연에서 대규모 물리적으로 정확한 trajectory 생성
방식	시뮬레이션 기반 trajectory 증강 (MimicGen, DexMimicGen)
플랫폼	NVIDIA Isaac Lab + Omniverse

작동 방식

시연 수집: Apple Vision Pro 또는 Space Mouse로 시뮬레이션 로봇 텔레오퍼레이션
키포인트 어노테이션: 시연의 핵심 지점 표시
보간 및 증강: 물리적으로 정확한 새 trajectory 자동 생성
자동 검증: Isaac Sim에서 검증 후 학습 데이터로 변환

GR00T-Dreams vs GR00T-Mimic

구분	GR00T-Dreams	GR00T-Mimic
목적	새로운 행동/환경 일반화	기존 기술 깊이 향상
방식	Video World Model	시뮬레이션 증강
데이터	Neural Trajectories	Synthetic Trajectories
강점	Contact-rich, 새로운 행동	물리적 정확성, 대규모 스케일
핵심 도구	Cosmos-Predict2	Isaac Lab, MimicGen

상호보완성

GR00T-Mimic: 특정 기술의 전문가(Specialist) 양성
GR00T-Dreams: 새로운 행동의 일반화(Generalist) 능력 부여

Cosmos Transfer: 포토리얼리스틱 렌더링

시뮬레이션 데이터의 Sim-to-Real 격차를 해소합니다.

역할

기능	설명
스타일 전이	시뮬레이션 영상 → 실사 수준 변환
조명/환경 변경	다양한 조명, 텍스처, 환경 적용
구조 보존	로봇 동작의 물리적 동역학 유지

지원 입력 모달리티

세그멘테이션 비디오
깊이(Depth) 비디오
엣지(Edge) 비디오
블러(Blur) 비디오

효과

NVIDIA 연구진에 따르면, Cosmos-Transfer1 사용 시:

“더 많은 장면 디테일과 복잡한 셰이딩, 자연스러운 조명 추가”
로봇 동작의 물리적 동역학은 완벽히 보존

데이터 생성 효율성