FAST (Fast Action Tokenizer)

Physical Intelligence의 DCT + BPE 기반 로봇 액션 토크나이저 - 10배 압축, 5배 빠른 VLA 학습

필자의 의견

  • Discrete Action Token + 압축의 가능성. Discrete action 토큰을 사용해도, 압축을 잘하면 pretrain 시간을 단축시킬 수 있다는 가능성을 보여줌.
  • LLM 능력 활용 극대화. Autoregressive 구조를 사용할 수 있으니 LLM의 언어 이해 능력을 더 잘 끌어쓸 수 있음.
  • 연구 단계에 유리. Inference가 느린 단점이 있어서 실제 배포보다는 학습을 시도하는 연구 단계에 장점이 있음.

핵심 의의

  • DCT + BPE 조합의 획기적 압축: JPEG/MP3에서 사용되는 DCT와 LLM 토크나이저의 BPE를 결합하여 약 10배 압축 달성
  • 5배 빠른 VLA 학습: Diffusion 기반 모델 대비 학습 시간 대폭 단축
  • 고주파 Dexterous 태스크 지원: 기존 binning 방식으로는 불가능했던 고주파 정밀 조작 학습 가능
  • Diffusion 수준의 Dexterity: Flow matching/diffusion과 유사한 수준의 정밀 조작 성능 달성
  • 언어 지시 이해력 향상: Autoregressive 구조로 인터넷 스케일 사전학습의 언어 이해력 더 잘 전이
  • 범용 토크나이저 FAST+: 100만 개 실제 로봇 궤적으로 학습, 다양한 액션 공간/주파수에 즉시 적용 가능

Overview

FAST(Frequency-space Action Sequence Tokenization)는 Physical Intelligence가 2025년 1월 발표한 로봇 액션 토크나이저입니다. 기존 VLA 모델들이 사용하던 단순한 per-dimension binning 방식의 한계를 극복하여, 고주파 dexterous manipulation 태스크에서도 autoregressive 모델을 효과적으로 학습할 수 있게 합니다.

항목내용
발표2025년 1월 16일
회사Physical Intelligence
논문arXiv:2501.09747
블로그pi.website/research/fast
모델HuggingFace: physical-intelligence/fast

왜 FAST가 필요한가?

기존 토크나이징의 문제점

기존 VLA 모델들(OpenVLA, RT-2 등)은 로봇 액션을 per-dimension, per-timestep binning으로 토큰화했습니다:

문제점설명
토큰 수 폭발고주파(50Hz+) 제어 시 엄청난 토큰 시퀀스 생성
Dexterous 실패정밀한 손가락 조작 등 고주파 태스크 학습 불가
비효율적 학습긴 시퀀스로 인한 학습 시간 증가
언어 연결 약화액션 토큰과 언어 토큰 간 격차

FAST의 해결책

압축 기반 접근: 액션 시퀀스를 먼저 압축한 후 토큰화


기술적 구조

FAST Tokenizer 파이프라인

FAST 토크나이저: DCT → Quantize → Flatten → BPE 압축 과정

5단계 압축 파이프라인

단계이름설명
1Normalized Action Chunk원본 액션 시퀀스 정규화
2DCT (Discrete Cosine Transform)시간 도메인 → 주파수 도메인 변환 (JPEG/MP3와 동일 원리)
3Quantize주파수 성분을 이산값으로 양자화 → Sparse frequency matrix 생성
4Flatten저주파 성분 우선으로 1차원 배열로 펼침
5BPE (Byte Pair Encoding)빈번한 패턴을 새 토큰으로 병합하여 최종 압축

참고: Quantization 단계에서 정보 손실이 발생하는 손실 압축(lossy compression) 방식입니다. JPEG 이미지 압축과 유사한 원리로, 고주파 성분의 일부를 버려 압축률을 높입니다.

압축 결과

메트릭
압축률~10배
청크당 토큰30-60개
구현 복잡도3줄의 코드

FAST+ 범용 토크나이저

학습 데이터

항목내용
학습 데이터100만 개 실제 로봇 궤적
데이터 소스다양한 로봇 플랫폼
액션 공간다양한 DoF, 제어 주파수

특징

  • Zero-shot 적용: 새로운 로봇에 바로 사용 가능
  • 범용성: 다양한 액션 공간과 제어 주파수 지원
  • 사전학습 완료: 별도 토크나이저 학습 불필요

성능 비교

vs Diffusion/Flow Matching 기반 VLA

항목FAST (Autoregressive)Diffusion/Flow Matching
학습 속도5배 빠름기준
Dexterity유사한 수준유사한 수준
추론 속도느림 (autoregressive)빠름
언어 이해더 나음기준

검증된 태스크

FAST로 학습한 정책이 성공적으로 수행한 복잡한 조작 태스크:

태스크설명
빨래 접기Laundry folding
테이블 정리Table bussing
식료품 봉지 담기Grocery bagging

DROID 데이터셋 결과

  • 최초의 제로샷 일반화: DROID 데이터셋에서 학습한 최초의 generalist policy
  • 다중 환경 배포: UC Berkeley, Stanford, University of Washington 등에서 검증

π0-FAST 통합

π0에 FAST를 적용한 변형 모델:

특징π0 (Flow Matching)π0-FAST (Autoregressive)
액션 생성Flow matchingFAST 토큰 autoregressive
학습 속도기준5배 빠름
추론 비용기준4-5배 높음
언어 이해좋음더 나음

한계점

추론 속도

문제설명
Autoregressive 디코딩토큰을 순차적으로 생성해야 함
π0 대비 느림Flow matching의 병렬 디코딩보다 느림
추론 비용 증가실시간 제어에서 고려 필요

적합한 사용 사례

  • 학습 시간이 중요한 연구 환경
  • 언어 지시 이해가 중요한 태스크
  • 오프라인 배치 학습

기술적 세부사항

저자

이름소속
Karl PertschPhysical Intelligence
Kyle StachowiczPhysical Intelligence
Brian IchterPhysical Intelligence
Danny DriessPhysical Intelligence
Suraj NairPhysical Intelligence
Quan VuongPhysical Intelligence
Oier MeesPhysical Intelligence
Chelsea FinnPhysical Intelligence
Sergey LevinePhysical Intelligence

스케일링

항목
학습 데이터10,000+ 시간
로봇 궤적100만+ 개
지원 로봇다양한 플랫폼

References


See Also

관련 인물