π Series: Robot Olympics Challenge (Physical Intelligence)
핵심 의의
- VLA의 새로운 패러다임: Flow Matching 기반 연속 액션 생성으로 Diffusion/Autoregressive 방식의 대안 제시
- 실제 가정 환경 일반화: π0.5에서 학습하지 않은 완전히 새로운 가정에서도 작동
- RL을 통한 자가 개선: π*0.6에서 RECAP 방법론으로 실제 경험에서 학습
- 완전 오픈소스: openpi로 모델 가중치, 학습 코드 전체 공개
Overview
π Series는 Physical Intelligence가 2024년 10월부터 발표한 Vision-Language-Action 모델 시리즈입니다.
| 항목 | 내용 |
|---|---|
| 회사 | Physical Intelligence |
| 설립 | 2024년 |
| GitHub | Physical-Intelligence/openpi |
| 블로그 | pi.website/blog |
Evolution Timeline
| 날짜 | 이름 | 설명 | 문서 | 공식 링크 |
|---|---|---|---|---|
| 2024.10.31 | π0 | 첫 Generalist Policy, Flow Matching + PaliGemma 3B | π0 | Blog |
| 2025.01.16 | FAST | 5x 빠른 학습, DCT + BPE 압축 | FAST | Research |
| 2025.02.04 | openpi | 가중치, 코드 공개 (JAX + PyTorch) | - | Blog |
| 2025.02.26 | HIRobot | 인간-로봇 인터랙션 연구 | - | Research |
| 2025.04.22 | π0.5 | Open-World Generalization, Web 데이터 Co-training | π0.5 | Blog |
| 2025.05.28 | Knowledge Insulation | 7.5x 적은 학습 스텝 | - | Research |
| 2025.06.09 | Real-Time Chunking | 고지연 환경에서도 실시간 제어 | - | Research |
| 2025.11.17 | π*0.6 | RL로 자가 개선 (RECAP) | π*0.6 | Blog |
| 2025.12.16 | Human-to-Robot | 인간 동영상에서 로봇 학습 | - | Research |
Model Versions
| 버전 | 발표 | 핵심 혁신 | 상세 문서 |
|---|---|---|---|
| π0 | 2024.10 | Flow Matching VLA, 50Hz 제어 | π0 |
| π0.5 | 2025.04 | Open-World 일반화, Web 데이터 Co-training | π0.5 |
| π*0.6 | 2025.11 | RL 자가 개선, RECAP | π*0.6 |
Core Innovations
Flow Matching Architecture
Diffusion의 대안으로, 복잡한 multimodal action distribution을 효율적으로 모델링. 50Hz action chunk 생성.
FAST Tokenizer
상세 문서: FAST (Fast Action Tokenizer)
DCT + BPE 기반 액션 압축으로 10배 압축, 5배 빠른 학습.
Knowledge Insulation
VLM 백본의 지식을 보존하면서 로봇 학습. Gradient blocking으로 7.5배 적은 학습 스텝.
Real-Time Chunking (RTC)
Inpainting 방식으로 고지연 환경(200ms+)에서도 실시간 제어 유지.
RECAP
상세 문서: π*0.6
RL with Experience & Corrections via Advantage-conditioned Policies. 시연 + 자율 경험 + 코칭으로 자가 개선.
Open Source
openpi Repository
| 모델 | 설명 |
|---|---|
| π0 base | 사전학습 모델, 파인튜닝용 |
| π0-FAST base | FAST 토크나이저 적용 버전 |
| π0 DROID | Franka 단일 암 파인튜닝 |
| π0 ALOHA | 양팔 조작 파인튜닝 |
- JAX: 공식 구현
- PyTorch: HuggingFace LeRobot 통합
- 파인튜닝: 1~20시간 데이터, Consumer GPU 가능
Research Publications
Blog Posts
| 날짜 | 제목 |
|---|---|
| 2024.10.31 | π0: Our First Generalist Policy |
| 2025.02.04 | Open Sourcing π0 |
| 2025.04.22 | π0.5: Open-World Generalization |
| 2025.11.17 | π*0.6: Learning from Experience |
Research
| 날짜 | 제목 |
|---|---|
| 2025.01.16 | FAST: Efficient Robot Action Tokenization |
| 2025.02.26 | HIRobot: Interactive Learning |
| 2025.05.28 | Knowledge Insulation |
| 2025.06.09 | Real-Time Action Chunking |
| 2025.12.16 | Human-to-Robot Transfer |
Papers
| 모델 | 링크 |
|---|---|
| π0 | arXiv:2410.24164 |
| π0.5 | arXiv:2504.16054 |
| π*0.6 | arXiv:2511.14759 |