π*0.6 (pi-star-zero-point-six)

Physical Intelligence의 RL 기반 자가 개선 VLA

π*0.6 (pi-star-zero-point-six)

Home > Models > π Series > π*0.6


핵심 의의

  • VLA의 RL 자가 개선: 배포 후 실제 경험에서 학습하여 지속적 성능 향상
  • RECAP 방법론: RL with Experience & Corrections via Advantage-conditioned Policies
  • 90%+ 성공률: 다양한 실세계 태스크에서 90% 이상 성공률 달성
  • 2배 처리량: 어려운 태스크에서 처리량 2배 이상 향상
  • 24시간 연속 운영: 에스프레소 제조 5:30am~11:30pm, 50개 빨래 연속 접기
  • 공장 배포: 59개 초콜릿 포장 박스 조립 실증
  • Value Function 기반: 상황별 성공 확률 예측으로 신용 할당 문제 해결

π*0.6 Architecture

π*0.6: RECAP - 경험과 코칭에서 학습하는 강화학습


Overview

π*0.6는 Physical Intelligence가 2025년 11월 발표한 RL 기반 자가 개선 VLA입니다. 기존 imitation learning의 한계를 극복하고, 실제 배포 환경에서의 경험을 통해 지속적으로 성능을 향상시킵니다.

항목내용
발표2025년 11월 17일
회사Physical Intelligence
블로그pi.website/blog/pistar06
논문pi.website/download/pistar06.pdf
기반π0.5

Why RL for VLAs?

Imitation Learning의 한계

문제설명
데이터 한계시연 데이터의 품질에 종속
실패 복구실패 상황 데이터 부족
오류 누적작은 오류가 누적되어 실패
천장 효과시연자의 성능을 넘기 어려움

RL의 장점

장점설명
경험 학습실제 실패/성공에서 학습
자가 개선시연 품질을 초과 가능
실패 복구실패 상황에서 복구 학습

RECAP: Core Method

RECAP (RL with Experience & Corrections via Advantage-conditioned Policies)

3단계 학습 파이프라인

┌─────────────────────────────────────────────────────────────┐
│                    RECAP Learning Pipeline                   │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   Stage 1: Demonstration                                     │
│   ┌──────────────────────────────────────────────────┐      │
│   │  텔레오퍼레이션으로 초기 시연 데이터 수집        │      │
│   └──────────────────────────────────────────────────┘      │
│                           ↓                                  │
│   Stage 2: Autonomous Deployment                             │
│   ┌──────────────────────────────────────────────────┐      │
│   │  자율 실행 → 성공/실패 경험 수집                 │      │
│   └──────────────────────────────────────────────────┘      │
│                           ↓                                  │
│   Stage 3: Coaching (Expert Intervention)                    │
│   ┌──────────────────────────────────────────────────┐      │
│   │  실패 시 전문가가 개입하여 올바른 행동 시연      │      │
│   └──────────────────────────────────────────────────┘      │
│                           ↓                                  │
│   RL Training with Value Function                            │
│   ┌──────────────────────────────────────────────────┐      │
│   │  Advantage conditioning으로 좋은 행동 강화       │      │
│   └──────────────────────────────────────────────────┘      │
│                                                              │
└─────────────────────────────────────────────────────────────┘

Value Function

핵심 역할: 현재 상황이 얼마나 “좋은지” 예측

관측 상태 → Value Function → 성공 확률 예측 (0~1)
상황Value
목표 달성 중높음 (증가)
정체 중낮음 (평탄)
실패 방향매우 낮음 (감소)

예시 - 에스프레소 제조:

  • 컵 잡기 성공 → Value ↑
  • 기계 앞으로 이동 → Value ↑
  • 진행 없음 → Value 평탄
  • 컵 놓침 → Value ↓

Advantage Conditioning

Advantage = V(s') - V(s)  (다음 상태 value - 현재 상태 value)
Advantage의미학습
양수 (+)좋은 행동강화
음수 (-)나쁜 행동억제

핵심: 모델을 advantage에 조건화하여 “좋은 행동만” 생성하도록 학습

Coaching Mechanism

방식설명
개입 시점로봇이 실수할 때
개입 방법전문가가 텔레오퍼레이션으로 교정
장점실제 문제 상황에서의 데이터 수집

“초기 시연만으로는 정책이 실제로 마주치는 상황을 커버하지 못함”


Performance Results

Success Rate

메트릭결과
전체 성공률90%+
실패율 감소2배 이상

Throughput

태스크개선
에스프레소 제조2배+ 처리량
어려운 조작 태스크상당한 향상

Real-World Deployment

태스크성과
에스프레소 제조5:30am ~ 11:30pm 연속 운영
빨래 접기50개 새 아이템 연속 처리
박스 조립59개 초콜릿 포장 박스 (공장)

Architecture

vs π0.5

항목π0.5π*0.6
학습 방식Imitation Learning+ Reinforcement Learning
Backbone3B약간 더 큰 backbone
조건화언어 + 이미지+ Advantage conditioning
개선정적배포 후 지속 개선

Model Components

┌─────────────────────────────────────────────────────────────┐
│                    π*0.6 Architecture                        │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   ┌────────────────────────────────────────────────────┐    │
│   │                  π0.5 Base Model                   │    │
│   │              (VLM + Action Expert)                 │    │
│   └───────────────────────┬────────────────────────────┘    │
│                           │                                  │
│                           ▼                                  │
│   ┌────────────────────────────────────────────────────┐    │
│   │               Value Function V(s)                  │    │
│   │            상황별 성공 확률 예측                   │    │
│   └───────────────────────┬────────────────────────────┘    │
│                           │                                  │
│                           ▼                                  │
│   ┌────────────────────────────────────────────────────┐    │
│   │          Advantage-Conditioned Policy              │    │
│   │         좋은 행동(A>0)에 조건화된 출력             │    │
│   └────────────────────────────────────────────────────┘    │
│                                                              │
└─────────────────────────────────────────────────────────────┘

Training Pipeline

Phase 1: Offline RL Pre-training

시연 데이터 + 경험 데이터 → Offline RL → π* (base policy)
  • 기존 데이터로 초기 정책 학습
  • Value function 동시 학습

Phase 2: Online Deployment + Coaching

π* 배포 → 자율 실행 → 실패 시 코칭 → 데이터 수집
  • 실제 환경에서 경험 축적
  • 전문가 개입으로 교정 데이터 확보

Phase 3: RL Fine-tuning

경험 데이터 + 코칭 데이터 → RL 업데이트 → π*' (개선된 정책)
  • Advantage conditioning으로 좋은 행동 강화
  • 반복적 개선

Credit Assignment Problem

문제

“어떤 행동이 성공/실패를 야기했는가?”

에피소드가 끝난 후에야 결과를 알 수 있음

해결: Value Function

접근방법
Value 학습각 상태의 성공 확률 예측
Advantage 계산상태 전이의 가치 변화 측정
신용 할당개별 행동의 기여도 평가

체스 비유:

  • Value function = 현재 보드 상태의 승률 예측
  • Advantage = 수를 둔 후 승률 변화
  • 좋은 수 = 승률 상승, 나쁜 수 = 승률 하락

Real-World Demonstrations

Espresso Making

단계동작
1컵 집기
2에스프레소 기계로 이동
3컵 배치
4버튼 누르기
5완성된 음료 제공

운영: 5:30am ~ 11:30pm (18시간 연속)

Laundry Folding

  • 50개 처음 보는 의류 아이템
  • 연속 처리 (중단 없음)
  • 다양한 형태: 셔츠, 바지, 수건 등

Factory Box Assembly

  • 59개 초콜릿 포장 박스
  • 실제 공장 환경
  • 생산 라인 통합

Comparison with Other RL Approaches

접근RECAP기존 Robot RL
데이터이질적 (시연+경험+코칭)동질적
환경실제 환경주로 시뮬레이션
리셋불완전 리셋 처리완전 리셋 가정
스케일대규모 VLA작은 정책

Limitations & Future Work

현재 한계

한계설명
코칭 비용전문가 개입 필요
배포 시간충분한 경험 수집 필요
안전성실패 시 물리적 위험

미래 방향

  • 자동 코칭 (AI 기반)
  • 시뮬레이션 → 실제 전이
  • 더 효율적인 exploration

References


See Also

관련 인물