π*0.6 (pi-star-zero-point-six)

Physical Intelligence의 RL 기반 자가 개선 VLA

필자의 의견

  • VLA + RL의 실용적 증명. 대규모 VLA에 RL을 적용하여 실제 환경에서 자가 개선이 가능하다는 것을 실증. 시뮬레이션이 아닌 실제 로봇에서 RL이 작동함을 보여줌.
  • Coaching의 핵심 역할. 단순 자율 경험 수집만으로는 부족하고, 실패 상황에서의 전문가 개입(코칭)이 성능 향상에 핵심적. 완전 자율 학습까지는 아직 갈 길이 있음.
  • Binarized Advantage의 단순함. 복잡한 advantage 수치 대신 “positive/negative” 텍스트로 조건화하는 단순한 방식이 효과적. VLA의 언어 이해 능력을 활용한 영리한 설계.

핵심 의의

  • VLA의 RL 자가 개선: 배포 후 실제 경험에서 학습하여 지속적 성능 향상
  • RECAP 방법론: 시연 + 자율 경험 + 코칭 데이터를 통합한 RL 학습
  • 90%+ 성공률: T-shirt folding 97%, Box assembly ~90% 등 고성능 달성
  • 2배+ 처리량 향상: 어려운 태스크에서 처리량 2배 이상, 실패율 절반 감소
  • 24시간 연속 운영: 에스프레소 5:30am~11:30pm, 50개 빨래 연속 접기
  • 공장 배포 실증: 59개 초콜릿 포장 박스 조립

π*0.6 Overview

π*0.6: RECAP - 경험과 코칭에서 학습하는 강화학습


Overview

π*0.6는 Physical Intelligence가 2025년 11월 발표한 RL 기반 자가 개선 VLA입니다. Imitation learning의 한계(오류 누적, 시연 품질 종속, 실패 복구 어려움)를 극복하고, 실제 배포 환경에서의 경험을 통해 지속적으로 성능을 향상시킵니다.

항목내용
발표2025년 11월 17일
회사Physical Intelligence
논문arXiv:2511.14759
블로그pi.website/blog/pistar06
기반π0.5

Architecture

Model Specifications

구성 요소사양
VLM BackboneGemma 3 4B
Action Expert860M 파라미터 (Flow Matching)
Value Function670M 파라미터 (별도 Gemma 3 backbone)
제어 주파수50Hz

RECAP: Core Method

RECAP (RL with Experience & Corrections via Advantage-conditioned Policies)

3단계 데이터 수집

단계설명
1. Demonstration텔레오퍼레이션으로 초기 시연 데이터 수집
2. Autonomous자율 실행하며 성공/실패 경험 수집
3. Coaching실패 시 전문가가 개입하여 교정 시연

“초기 시연만으로는 정책이 실제로 마주치는 상황을 커버하지 못함” - 코칭이 핵심

Coaching 예시: 실패 상황에서 전문가가 개입하여 교정

π*0.6 Components

π*0.6 구성 요소: Policy, Value Function, Advantage Conditioning

Value Function

현재 상황의 성공 확률을 예측하는 별도 모델:

특징설명
아키텍처670M Gemma 3 backbone (별도 모델)
출력201 bins 분포적 (distributional) 예측
역할상황별 성공 확률 예측 → Credit assignment 해결

예시 - 에스프레소 제조:

  • 컵 잡기 성공 → Value ↑
  • 기계 앞으로 이동 → Value ↑
  • 컵 놓침 → Value ↓

Advantage Conditioning

Binarized Text Input 방식:

Advantage = V(s') - V(s)

→ 양수면: "Advantage: positive" 텍스트로 조건화
→ 음수면: "Advantage: negative" 텍스트로 조건화
  • 복잡한 수치 대신 이진 텍스트로 단순화
  • VLA의 언어 이해 능력 활용
  • 좋은 행동(positive)만 생성하도록 추론 시 조건화

Training Pipeline

단계내용
Pre-training수만 시간의 시연 데이터로 offline RL (Value + Policy 동시 학습)
Fine-tuningSFT → 자율 수집 + 코칭 → Value 재학습 → Policy 재학습 (반복)

Performance Results

태스크별 성과

태스크성공률처리량
T-shirt Folding97%50% 향상
Box Assembly~90%2배 향상
Espresso90%+2배+ 향상
Diverse Laundry~80%2배+, 실패율 절반

Real-World Deployment

태스크성과
에스프레소 제조5:30am ~ 11:30pm 연속 운영 (18시간)
빨래 접기50개 새 아이템 연속 처리
박스 조립59개 초콜릿 포장 박스 (실제 공장)

Limitations

한계설명
Human-in-the-loop 필요라벨링, 코칭 개입, 씬 리셋에 사람 필요
Greedy Exploration탐색이 주로 정책의 확률성에 의존, 적극적 탐색 부족
Offline Batch 학습완전한 online RL이 아닌 배치 단위 오프라인 학습

References


See Also

관련 인물