Octo

UC Berkeley의 오픈소스 Generalist Robot Foundation Model

Octo

Home > Models > Octo


핵심 의의

  • 초경량 고성능: 93M 파라미터로 55B RT-2-X와 유사한 성능 - 파라미터 대비 최고 효율
  • Diffusion 기반 액션 생성: Transformer + Diffusion 조합으로 multimodal action distribution 처리
  • 실용적 파인튜닝: ~100개 시연 데이터, consumer GPU에서 수 시간 내 새 로봇/태스크 적응
  • 유연한 입출력: 언어 지시 또는 목표 이미지로 태스크 지정, 다양한 관측/액션 공간 지원
  • 완전 오픈소스: 체크포인트, 학습 코드, 파인튜닝 스크립트 전체 공개
  • Open X-Embodiment 활용: 800K 에피소드, 25개 데이터셋으로 사전학습
  • 빠른 적응의 표준: 새로운 로봇 플랫폼에 빠르게 적응해야 할 때 기준점으로 사용

Octo Architecture

Octo 아키텍처: Transformer 인코더 + Diffusion 디코더 구조


Overview

Octo는 UC Berkeley, Stanford, CMU가 공동 개발한 오픈소스 generalist 로봇 정책입니다. Open X-Embodiment 데이터셋의 800K 에피소드로 사전학습되어, 다양한 로봇 플랫폼에서 빠르게 파인튜닝할 수 있습니다.

항목내용
발표2024년 5월 (RSS 2024)
소속UC Berkeley, Stanford, CMU
논문arXiv:2405.12213
프로젝트octo-models.github.io
GitHubgithub.com/octo-models/octo
라이선스오픈소스

Model Variants

모델파라미터용도
Octo-Small27M경량, 빠른 실험
Octo-Base93M높은 성능

Architecture

Octo는 Transformer 기반 Diffusion Policy입니다.

┌─────────────────────────────────────────────────────────┐
│                      Octo Architecture                  │
├─────────────────────────────────────────────────────────┤
│  Inputs:                                                │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐              │
│  │ Images   │  │ Language │  │ Goal     │              │
│  │ (multi)  │  │ Instruct │  │ Image    │              │
│  └────┬─────┘  └────┬─────┘  └────┬─────┘              │
│       │             │             │                     │
│       └─────────────┴─────────────┘                     │
│                     │                                   │
│              ┌──────▼──────┐                           │
│              │ Transformer │                           │
│              │   Encoder   │                           │
│              └──────┬──────┘                           │
│                     │                                   │
│              ┌──────▼──────┐                           │
│              │  Diffusion  │                           │
│              │   Decoder   │                           │
│              └──────┬──────┘                           │
│                     │                                   │
│              ┌──────▼──────┐                           │
│              │   Action    │                           │
│              │  Sequence   │                           │
│              └─────────────┘                           │
└─────────────────────────────────────────────────────────┘

지원 기능:

  • 자연어 지시 또는 목표 이미지로 태스크 지정
  • 관측 이력 (observation history)
  • Diffusion decoding을 통한 multimodal action distribution

Training Data

항목내용
데이터셋Open X-Embodiment
에피소드800K
데이터셋 수25개
로봇 종류다양 (단일 암, 양팔 등)
센서카메라, proprioception 등

Performance

Zero-Shot (사전학습 환경)

로봇성공률
WidowX50%
UR570%
RT-1 Robot80%

비교:

  • RT-1-X보다 우수
  • RT-2-X (55B)와 유사 (단, Octo는 93M)

Fine-tuning 후 (6개 태스크 평균)

모델성공률
Octo72%
VC-115%

→ 차선 baseline 대비 52% 향상


Fine-tuning Capabilities

Octo의 핵심 강점은 빠른 적응입니다.

적응 가능 요소예시
새로운 관측Force-torque, proprioception
새로운 액션 공간Joint position control
새로운 로봇양팔 시스템 등

요구사항:

  • ~100개 타겟 시연
  • 일반 consumer GPU에서 수 시간 내 학습

Key Advantages

특징설명
오픈소스체크포인트, 학습 코드, 파인튜닝 스크립트 전체 공개
유연성다양한 관측/액션 공간 지원
효율성93M 파라미터로 55B 모델과 유사 성능
실용성Consumer GPU에서 파인튜닝 가능

Comparison with RT-X

항목OctoRT-1-XRT-2-X
파라미터93M~35M55B
오픈소스OOX
성능높음중간높음
파인튜닝쉬움보통어려움

Released Resources

  • 사전학습 체크포인트 (27M, 93M)
  • 파인튜닝 스크립트
  • 전체 사전학습 파이프라인
  • 평가 코드

References


See Also