VLA 모델 목록
Vision-Language-Action 모델들의 역사와 현황
VLA 모델 목록
Vision-Language-Action 모델들의 역사와 목록
VLA(Vision-Language-Action) 모델은 시각 정보와 언어 지시를 받아 로봇 동작을 출력하는 AI 모델입니다.
타임라인
2022년 RT-1을 시작으로 VLA 모델은 빠르게 발전해왔습니다.
- 2022: RT-1 (Google)
- 2023: RT-2, ACT, Diffusion Policy
- 2024: Octo, OpenVLA, GR00T, π0
- 2025: SmolVLA, Gemini Robotics, π0.5, GR00T N1.5/N1.6, π*0.6
VLA 파운데이션 모델
Google DeepMind
| 모델 | 설명 |
|---|
| RT (Robotics Transformer) | VLA의 시초. RT-1에서 시작하여 RT-2에서 “Action as Language” 패러다임 정립, RT-X로 Open X-Embodiment 데이터셋 구축 |
| Gemini Robotics | Gemini 2.0 기반 VLA. Cross-Embodiment 지원, System 1/2 구조, On-Device 버전 제공 |
Physical Intelligence (π Series)
| 모델 | 설명 |
|---|
| π Series | Physical Intelligence의 VLA 모델 시리즈 개요 |
| π0 | Flow Matching 기반 첫 Generalist Policy. PaliGemma VLM + 50Hz 고속 제어 |
| π0.5 | Open-World 일반화. 새로운 가정 환경에서도 작동, Web 데이터 Co-training |
| π*0.6 | RL 기반 자가 개선. RECAP 방법론으로 90%+ 성공률 달성 |
| FAST | DCT + BPE 기반 액션 토크나이저. 10배 압축, 5배 빠른 VLA 학습 |
NVIDIA (GR00T Series)
| 모델 | 설명 |
|---|
| GR00T | NVIDIA 휴머노이드 파운데이션 모델 시리즈 개요. Dual-System 아키텍처 |
| GR00T N1 | 세계 최초 오픈소스 휴머노이드 VLA. 합성 데이터로 40% 성능 향상 입증 |
| GR00T N1.5 | Frozen VLM + FLARE Loss. 언어 지시 준수율 2배 향상 (46.6% → 93.3%) |
| GR00T N1.6 | DiT 2배 확대, Cosmos VLM, Relative Action Space. Loco-manipulation 지원 |
오픈소스 VLA
| 모델 | 설명 |
|---|
| OpenVLA | 최초 대규모 오픈소스 VLA (7B). 55B RT-2-X와 대등한 성능, LoRA로 효율적 파인튜닝 |
| Octo | 93M 경량 모델. Transformer + Diffusion 조합, consumer GPU에서 파인튜닝 가능 |
| SmolVLA | 450M으로 π0 수준 성능. MacBook에서 실행 가능, LeRobot 커뮤니티 데이터로 학습 |
기업 VLA
| 모델 | 설명 |
|---|
| Figure Helix | Figure AI의 휴머노이드 VLA. 최초 전신 고속 제어 (200Hz), 듀얼 로봇 동시 제어 |
| LBM (Large Behavior Model) | Boston Dynamics + TRI의 Atlas용 VLA. 450M Diffusion Transformer, 전신 단일 모델 제어 |
| CraftNet | Sharpa의 VTLA 모델. 촉각 통합, System 0/1/2 계층 구조, 100Hz 정밀 조작 |
| Redwood AI | 1X Technologies의 NEO용 VLA. 160M 파라미터, 온보드 실행, World Model 통합 |
| Generalist GEN-0 | 270,000시간 실제 데이터로 로보틱스 스케일링 법칙 발견 주장. Harmonic Reasoning 아키텍처 |
| Sunday ACT-1 | Zero Robot Data 접근. $200 장갑으로 500+ 가정에서 10M+ 에피소드 수집 |
Imitation Learning 정책 모델
| 모델 | 설명 |
|---|
| ACT | Stanford의 Action Chunking 기반 정책. 10분 시연으로 80-90% 성공률, ALOHA 하드웨어와 함께 공개 |
| Diffusion Policy | Diffusion 기반 Visuomotor 정책. Multimodal action 자연스럽게 처리, 46.9% 성능 향상 |
Vision-Language 모델 (로보틱스용)
| 모델 | 설명 |
|---|
| Eagle | NVIDIA의 Mixture of Encoders VLM. GR00T N1/N1.5의 시각적 두뇌 역할 |
| Cosmos | NVIDIA의 World Foundation Model 플랫폼. Tokenizer, Predict, Transfer, Reason 모델 제공 |
합성 데이터 생성
| 모델 | 설명 |
|---|
| DreamGen | NVIDIA의 Neural Trajectory 생성 파이프라인. World Foundation Model로 36시간 만에 GR00T 학습 데이터 생성 |
모델 비교표
파라미터 및 특징
학습 데이터 규모