GR00T N1.6

2배 확대된 DiT와 Cosmos VLM으로 스케일을 키운 휴머노이드 파운데이션 모델

필자의 의견

  • 스케일업의 정석. DiT 2배(16→32층), VLM도 Eagle에서 Cosmos로 교체. 더 큰 모델이 더 부드럽고 정확한 모션을 만든다는 것을 보여줌.
  • Relative Action Space 도입. 절대 좌표 대신 현재 상태 기준 상대적 액션 예측. 위치 변화에 강건하고 떨림이 적은 움직임 생성.
  • Loco-manipulation 본격 지원. Unitree G1으로 걸으면서 조작하는 전신 동작 데이터 추가. 휴머노이드의 핵심 사용 사례를 정면으로 다룸.

핵심 의의

  • DiT 2배 확대: 16층 → 32층으로 Diffusion Transformer 스케일 확대
  • Cosmos VLM 도입: Eagle에서 Cosmos-Reason-2B로 VLM 교체, 향상된 추론 능력
  • Relative Action Space: 상대적 행동 공간으로 일반화 및 적응력 향상
  • Sim-to-Real 성능 향상: 제로샷 시뮬레이션→실제 환경 전이 개선
  • Loco-manipulation 지원: 이동과 조작을 결합한 전신 동작 지원

Overview

항목내용
발표2025년 9월 29일 (CoRL 2025, 서울)
타입Vision-Language-Action (VLA)
파라미터3B
VLMCosmos-Reason-2B
DiT32 layers (N1.5 대비 2배)
Action SpaceRelative Action Space
GitHubNVIDIA/Isaac-GR00T
Hugging Facenvidia/GR00T-N1.6-3B

N1.5 대비 주요 개선점

1. DiT 레이어 확대 (16 → 32)

구분N1.5N1.6
DiT 레이어 수16층32층 (2배)
효과-더 부드럽고 덜 떨리는 움직임, 변화하는 위치에 쉽게 적응

32층의 더 큰 Diffusion Transformer는 상태 상대적 액션 예측과 결합되어 더 유연하고 적응력 있는 모션을 생성합니다.

2. Cosmos VLM (2B) 도입

N1.6은 Eagle 대신 NVIDIA Cosmos-Reason-2B VLM을 기반 VLM으로 사용합니다.

구분N1.5N1.6
VLMEagle 2.5 (1B)Cosmos-Reason-2B
파라미터~1B2B (2배)
VLM 학습완전 동결상위 4층 해제
어댑터4층 트랜스포머제거됨

Cosmos-Reason 주요 특징:

  • 유연한 해상도 지원: 이미지를 패딩 없이 원본 종횡비로 인코딩 가능
  • 심층 사고 기능: 로봇의 “깊이 생각하는 두뇌” 역할 수행
  • 모호한 지시 해석: 사전 지식, 상식, 물리학을 활용하여 모호한 지시를 단계별 계획으로 변환

3. Relative Action Space (상태 상대적 액션 공간)

N1.6은 절대 관절 각도나 EEF 위치 대신 상태 상대적 액션 청크를 예측합니다.

구분N1/N1.5N1.6
Action SpaceAbsoluteRelative
동작 특성고정된 위치 기반현재 상태 기준 상대적

장점:

  • 더 부드럽고 정확한 모션 생성
  • 변화하는 위치에 쉽게 적응
  • 덜 떨리는(jittery) 움직임

주의사항:

  • 작은 데이터셋에서는 오류 누적이 발생할 수 있어 교정 능력에 영향

Architecture

GR00T N1.6 Model Architecture

GR00T N1.6 모델 아키텍처 (출처: NVIDIA Research)

주요 아키텍처 변경 사항 (N1.5 → N1.6)

구성요소N1.5N1.6
기반 VLMEagle 2.5 (동결)Cosmos-Reason-2B (상위 4층 해제)
DiT 크기16층32층
VLM 후처리 어댑터4층 트랜스포머 어댑터제거됨

Benchmarks

평가 환경

N1.6은 다양한 시뮬레이션 및 실제 로봇 환경에서 평가됩니다:

평가 환경설명
LIBEROLIBERO 데이터셋에서 20-40k 스텝 후처리 후 평가
SimplerEnvGoogle Robot fractal 데이터셋으로 파인튜닝 후 평가
BEHAVIOR1k후처리 체크포인트 제공
IsaacLabEvalTasks산업용 조작 작업 (Nut Pouring, Exhaust Pipe Sorting)

실제 로봇 시연

NVIDIA Research 페이지에서 다음 작업들을 시연:

  • 티셔츠 접기 (T-shirt folding)
  • 물체 삽입 (Object insertion)
  • 양팔 핸드오프 (Bimanual handoff)
  • Unitree G1으로 loco-manipulation

성능 특성

NVIDIA Research 페이지에 따르면:

  • N1.6은 N1.5보다 더 빠르게 수렴하여 더 부드러운 액션 생성
  • 과적합 방지를 위해 더 세심한 튜닝 필요
  • 5-6%의 실험 간 분산이 관찰됨

참고: N1.6의 구체적인 벤치마크 수치는 공식 연구 페이지에서 아직 공개되지 않았습니다. N1, N1.5의 성능 비교는 해당 문서를 참조하세요.


Training

사전학습

항목N1.6
사전학습 스텝300K
글로벌 배치 크기16,384
후처리 스텝10K-30K (배치 크기 1K 이하)

사전학습 데이터 분포

GR00T N1.6 Pretraining Data Distribution

GR00T N1.6 사전학습 데이터 분포 (출처: NVIDIA Research)

N1.6은 N1.5 대비 수천 시간의 새로운 텔레오퍼레이션 데이터를 추가하여 학습되었습니다.

주요 데이터 소스

데이터 소스플랫폼 타입설명
양팔 YAM 아암양팔 조작기정밀한 양팔 조작 작업 데이터
AGIBot Genie1세미-휴머노이드다양한 조작 작업 데이터
시뮬레이션 Galaxea R1 Pro휴머노이드BEHAVIOR 스위트 기반 합성 데이터
Unitree G1휴머노이드전신 로코-매니퓰레이션 데이터

파인튜닝 체크포인트

N1.6은 다양한 태스크/환경에 대한 파인튜닝 체크포인트를 제공합니다.

체크포인트로봇태스크
GR00T-N1.6-bridgeWidowXManipulation
GR00T-N1.6-fractalGoogle RobotManipulation
GR00T-N1.6-BEHAVIOR1kGalaxea R1 ProLoco-manipulation
GR00T-N1.6-G1-PnPAppleToPlateUnitree G1Loco-manipulation (Pick & Place)

전체 목록 및 사용법: GitHub - Isaac-GR00T README


후처리 주의사항

  • 동일 설정, 시드, 드롭아웃에서도 5-6% 성능 분산 관찰
  • N1.6은 N1.5보다 더 빠르게 수렴하여 과적합 위험 증가
  • 세심한 하이퍼파라미터 튜닝 필요

Supported Robots

N1.6에서 검증된 로봇 플랫폼:

플랫폼타입문서
양팔 YAM 로봇양팔 조작기-
AGIBot Genie-1세미-휴머노이드AGIBot
Unitree G1휴머노이드Unitree Humanoid
Fourier GR-1휴머노이드-

버전별 비교 요약

특성N1N1.5N1.6
발표2025.03 GTC2025.05 Computex2025.09 CoRL
모델 크기2.2B3B3B
기반 VLMEagle2-1B (학습 가능)Eagle 2.5 (동결)Cosmos-Reason-2B (상위 4층 해제)
DiT 레이어161632
Action SpaceAbsoluteAbsoluteRelative
사전학습 스텝250K250K300K
주요 특징기본 VLA, 합성 데이터FLARE, 언어 이해 개선스케일업, Loco-manipulation

참고: NVIDIA Sim-to-Real Workflow

주의: 이 섹션은 N1.6 모델 자체의 기능이 아닌, N1.6과 함께 사용할 수 있는 NVIDIA의 로보틱스 워크플로우를 설명합니다.

상세 내용: Building Generalist Humanoid Capabilities with GR00T N1.6 (NVIDIA Developer Blog)

NVIDIA 개발자 블로그에서 소개된 sim-to-real 워크플로우는 세 가지 구성요소를 포함합니다:

구성요소설명
Whole-Body RLIsaac Lab/Sim에서 강화학습으로 훈련된 동적 안정 모션 프리미티브
COMPASS Navigation합성 데이터로 훈련된 네비게이션, 제로샷 sim-to-real 전이
Vision-Based LocalizationcuVSLAM, cuVGL, FoundationStereo, nvblox 등 CUDA 가속 라이브러리

References

GR00T N1.6

기술 블로그

뉴스

기반


See Also

GR00T 시리즈

관련 모델

  • Cosmos - N1.6의 VLM (Cosmos-Reason-2B)
  • Eagle - N1, N1.5의 VLM
  • DreamGen - 합성 데이터 생성 파이프라인

관련 인물

  • Jim Fan - NVIDIA GEAR Lab, GR00T 연구 리드