π Series (Physical Intelligence)

Physical Intelligence의 Vision-Language-Action 모델 시리즈 - π0, π0.5, π*0.6

필자의 의견

  • 명실상부 스타 연구자 팀. Google DeepMind RT 시리즈를 이끌던 Karol Hausman, Chelsea Finn, Sergey Levine, Pete Florence 등이 모여 만든 모델 시리즈.
  • VLA + Teleop 데이터의 정석. 텔레오퍼레이션 기반 데이터 수집과 VLA 아키텍처로 Robot Foundation Model을 구축하는 접근 방식을 잘 보여줌.
  • 오픈소스 친화적. openpi로 가중치와 코드를 공개해 일반 사용자도 파인튜닝 가능. 1-20시간 데이터면 충분.
  • 휴머노이드/합성 데이터에 부정적. 휴머노이드보다 모바일 매니퓰레이터, 합성 데이터보다 실제 데이터 중심 접근.
  • Follow-up 필수. Physical AI 분야에서 지속적으로 주목해야 할 모델 시리즈.

π Series: Robot Olympics Challenge (Physical Intelligence)

핵심 의의

  • VLA의 새로운 패러다임: Flow Matching 기반 연속 액션 생성으로 Diffusion/Autoregressive 방식의 대안 제시
  • 실제 가정 환경 일반화: π0.5에서 학습하지 않은 완전히 새로운 가정에서도 작동
  • RL을 통한 자가 개선: π*0.6에서 RECAP 방법론으로 실제 경험에서 학습
  • 완전 오픈소스: openpi로 모델 가중치, 학습 코드 전체 공개

Overview

π Series는 Physical Intelligence가 2024년 10월부터 발표한 Vision-Language-Action 모델 시리즈입니다.

항목내용
회사Physical Intelligence
설립2024년
GitHubPhysical-Intelligence/openpi
블로그pi.website/blog

Evolution Timeline

날짜이름설명문서공식 링크
2024.10.31π0첫 Generalist Policy, Flow Matching + PaliGemma 3Bπ0Blog
2025.01.16FAST5x 빠른 학습, DCT + BPE 압축FASTResearch
2025.02.04openpi가중치, 코드 공개 (JAX + PyTorch)-Blog
2025.02.26HIRobot인간-로봇 인터랙션 연구-Research
2025.04.22π0.5Open-World Generalization, Web 데이터 Co-trainingπ0.5Blog
2025.05.28Knowledge Insulation7.5x 적은 학습 스텝-Research
2025.06.09Real-Time Chunking고지연 환경에서도 실시간 제어-Research
2025.11.17π*0.6RL로 자가 개선 (RECAP)π*0.6Blog
2025.12.16Human-to-Robot인간 동영상에서 로봇 학습-Research

Model Versions

버전발표핵심 혁신상세 문서
π02024.10Flow Matching VLA, 50Hz 제어π0
π0.52025.04Open-World 일반화, Web 데이터 Co-trainingπ0.5
π*0.62025.11RL 자가 개선, RECAPπ*0.6

Core Innovations

Flow Matching Architecture

Diffusion의 대안으로, 복잡한 multimodal action distribution을 효율적으로 모델링. 50Hz action chunk 생성.

FAST Tokenizer

상세 문서: FAST (Fast Action Tokenizer)

DCT + BPE 기반 액션 압축으로 10배 압축, 5배 빠른 학습.

Knowledge Insulation

상세: pi.website/research/knowledge_insulation

VLM 백본의 지식을 보존하면서 로봇 학습. Gradient blocking으로 7.5배 적은 학습 스텝.

Real-Time Chunking (RTC)

상세: pi.website/research/real_time_chunking

Inpainting 방식으로 고지연 환경(200ms+)에서도 실시간 제어 유지.

RECAP

상세 문서: π*0.6

RL with Experience & Corrections via Advantage-conditioned Policies. 시연 + 자율 경험 + 코칭으로 자가 개선.


Open Source

openpi Repository

모델설명
π0 base사전학습 모델, 파인튜닝용
π0-FAST baseFAST 토크나이저 적용 버전
π0 DROIDFranka 단일 암 파인튜닝
π0 ALOHA양팔 조작 파인튜닝
  • JAX: 공식 구현
  • PyTorch: HuggingFace LeRobot 통합
  • 파인튜닝: 1~20시간 데이터, Consumer GPU 가능

Research Publications

Blog Posts

날짜제목
2024.10.31π0: Our First Generalist Policy
2025.02.04Open Sourcing π0
2025.04.22π0.5: Open-World Generalization
2025.11.17π*0.6: Learning from Experience

Research

날짜제목
2025.01.16FAST: Efficient Robot Action Tokenization
2025.02.26HIRobot: Interactive Learning
2025.05.28Knowledge Insulation
2025.06.09Real-Time Action Chunking
2025.12.16Human-to-Robot Transfer

Papers

모델링크
π0arXiv:2410.24164
π0.5arXiv:2504.16054
π*0.6arXiv:2511.14759

See Also