RT (Robotics Transformer)

Google DeepMind의 RT-1, RT-2, RT-X 시리즈

RT (Robotics Transformer)

Home > Models > RT


핵심 의의

  • VLA의 시초: RT-2에서 “Action as Language” 패러다임을 제시하여 로봇 액션을 텍스트 토큰으로 표현, 이후 거의 모든 VLA 모델이 이 방식 채택
  • VLM + 로봇 제어 최초 결합: RT-2가 PaLM-E/PaLI-X 등 대형 VLM을 로봇 제어에 처음 적용, 웹 지식의 로보틱스 전이 입증
  • 대규모 실세계 데이터: RT-1에서 13대 로봇, 17개월간 130K 에피소드 수집 - 당시 최대 규모의 실제 로봇 데이터셋
  • Open X-Embodiment 프로젝트: RT-X에서 33개 연구실과 협력, 22종 로봇/1M+ 에피소드의 오픈소스 데이터셋 구축
  • 창발적 능력 발견: RT-2에서 훈련 데이터에 없는 새로운 의미 명령 해석, 기초적 추론 등 emergent capabilities 관찰
  • 후속 연구의 기반: OpenVLA, pi0, Octo 등 대부분의 VLA 연구가 RT 시리즈의 아키텍처와 학습 방식을 참고

RT-2: 언어 지시를 이해하고 로봇 액션으로 변환


Overview

RT(Robotics Transformer)는 Google DeepMind가 개발한 로봇 제어를 위한 Transformer 기반 모델 시리즈입니다. RT-1에서 시작하여 RT-2, RT-X로 발전하며, Vision-Language-Action(VLA) 모델의 초석을 닦았습니다.


Versions

RT-1 (2022.12)

Google의 첫 대규모 Robotics Transformer 모델.

항목내용
발표2022년 12월
논문arXiv:2212.06817
데이터13대 로봇, 17개월간 수집, 130K 에피소드, 700+ 태스크
성능700개 훈련 태스크에서 97% 성공률

핵심 기여:

  • 로봇 입력(카메라 이미지, 태스크 지시)과 출력(모터 명령)을 토큰화
  • 대규모 실세계 로보틱스 데이터셋으로 학습
  • 새로운 태스크, 방해물, 배경에 대한 일반화에서 기존 대비 25%, 36%, 18% 향상

RT-2 (2023.07)

VLM(Vision-Language Model)과 로봇 제어를 결합한 최초의 VLA 모델.

항목내용
발표2023년 7월
프로젝트robotics-transformer2.github.io
모델 크기PaLM-E (12B), PaLI-X (55B) 기반
평가6,000+ 시험 수행

핵심 아이디어:

  • Action as Language: 로봇 액션을 텍스트 토큰으로 표현하여 VLM 학습에 통합
  • Co-fine-tuning: 웹 데이터와 로봇 데이터를 함께 학습하여 사전학습 지식 보존

주요 성능:

  • 새로운 시나리오에서 RT-1의 32% → 62%로 향상 (약 2배)
  • Emergent capabilities에서 기존 대비 3배 향상
  • Language-Table 벤치마크: 90% 성공률 (기존 77%)

창발적 능력 (Emergent Capabilities):

  • 훈련 데이터에 없는 새로운 의미 명령 해석 (예: 특정 숫자/아이콘 위에 물체 놓기)
  • 기초적 추론 (가장 작은/큰 물체 선택)
  • 다단계 추론 (예: “피곤한 사람에게 좋은 음료” → 에너지 드링크 선택)

RT-2 데모: 다양한 태스크 수행 장면


RT-X (2023.10)

Open X-Embodiment 프로젝트의 일환으로, 33개 연구실과 협력하여 개발한 범용 로봇 모델.

항목내용
발표2023년 10월
논문arXiv:2310.08864
협력Google DeepMind + 33개 학술 연구실
데이터22종 로봇, 500+ 스킬, 150K 태스크, 1M+ 에피소드
오픈소스RT-1-X 모델 및 데이터셋 공개

두 가지 버전:

  • RT-1-X: RT-1 아키텍처로 Open X-Embodiment 데이터 학습
  • RT-2-X: RT-2 아키텍처로 학습 (비공개)

주요 성과:

  • RT-1-X: 5개 연구실 테스트에서 평균 50% 성공률 향상
  • RT-2-X: emergent skills에서 RT-2 대비 3배 성공률

의의:

  • 최대 규모의 오픈소스 실제 로봇 데이터셋 구축
  • 다양한 로봇 형태(단일 암, 양팔, 사족보행) 간 지식 전이 검증

추가 발전 (2024)

모델설명참고
AutoRTLLM/VLM + RT-1/RT-2를 결합하여 자동 데이터 수집DeepMind Blog
SARA-RTRT 모델의 효율성 개선 (정확도↑, 속도↑)arXiv:2312.00752

Architecture

RT-1

  • 고용량 Transformer 아키텍처
  • 입력: 카메라 이미지 + 자연어 지시
  • 출력: 토큰화된 모터 명령

RT-2

RT-2 Architecture

RT-2 아키텍처: VLM이 이미지와 언어를 받아 액션 토큰을 출력

[이미지 + 언어 지시] → VLM (PaLM-E/PaLI-X) → [액션 토큰] → 디토큰화 → [로봇 제어 명령]

Impact

RT 시리즈는 VLA 모델의 시작점으로, 이후 OpenVLA, pi0 등 후속 연구에 큰 영향을 미쳤습니다. 특히 “Action as Language” 패러다임과 VLM 활용 방식은 현재 대부분의 VLA 모델에서 채택되고 있습니다.


References


See Also

관련 인물