로보틱스를 리셋한 순간 — RT-2에서 Pi Zero까지

요약

  1. RT-2 데모(테일러 스위프트/코카콜라 캔)를 통해, 인터넷 규모 사전학습 지식과 로봇 제어를 연결하는 VLA(Vision-Language-Action) 모델의 의미를 설명합니다.
  2. Physical Intelligence의 Pi0(Pi Zero)가 PaliGemma 기반 멀티모달 LLM과 Action Expert를 결합해 빠른 추론·정교한 조작을 달성하는 설계를 단계별로 해부합니다.
  3. 월드 모델(JEPA) 관점의 비판과 함께, VLA 아키텍처의 핵심 원리인 어텐션·플로 매칭을 시각적으로 풀어냅니다.

Chapter 1: Intro (00:00-01:40)

  • [00:00] 이 장면이 현대 로보틱스에서 “가장 중요한 순간”일지도 모른다는 문제의식으로 시작
  • [00:10] 구글의 최신 로봇 두뇌 RT-2에게 “코카콜라 캔을 테일러 스위프트 쪽으로 옮기라”는 요청
  • [00:17] RT-2는 로봇에서 직접 구동하기엔 너무 커서 TPU 클러스터로 이미지를 전송·처리하는 방식으로 동작
  • [00:41] 카롤 하우스먼이 이 장면을 “성공할 것임이 분명해진 순간”으로 묘사
  • [00:51] RT-2 팀 핵심 멤버들이 구글을 떠나 Physical Intelligence 스타트업을 설립
  • [01:04] Physical Intelligence 로봇이 자물쇠 열기, 빨래 개기, 오렌지 껍질 벗기기, 샌드위치 만들기 등 수행

“[00:00] 이는 아마도 현대 로보틱스에서 가장 중요한 순간일지도 모릅니다”

Chapter 2: SayCan (01:40-02:59)

  • [01:47] SayCan — LLM을 ‘계획 수립’ 시스템으로 사용해 복잡한 작업을 하위 작업으로 분해하는 초기 시도
  • [02:22] 실질적으로 당시 로봇 제어 알고리즘의 한계에 의해 병목 발생
  • [02:30] 실제 동작을 실행하는 것은 사람을 모방하도록 훈련된 완전히 별개의 신경망
  • [02:43] SayCan은 사실상 LLM이 고를 수 있는 ‘동작 메뉴’에 제한됨 — 메뉴에 없는 행동은 수행 불가

“[02:43] SayCan이 사실상 LLM이 선택할 수 있는 동작 메뉴에 제한되어 있었다는 뜻입니다.”

Chapter 3: RT-1 (02:59-04:35)

  • [03:04] Robot Transformer 1(RT-1) 도입 — 13만 건 넘는 인간 시연 데이터로 훈련
  • [03:19] 더 큰 트랜스포머 기반 아키텍처로 수행 가능한 동작 범위가 크게 확장
  • [03:49] 구글이 로봇 두뇌를 점진적 개선하는 동안 LLM도 빠르게 발전
  • [04:06] 계획 계층에 사용된 PaLM 540B가 텍스트 전용이라 세상을 “볼 수 없었다”는 한계

“[04:30] 계획 계층이 사실상 눈먼 상태로 존재한다는 점은 이상적이지 않았습니다.”

Chapter 4: Palm-E (04:35-06:42)

  • [04:38] GPT-4 공개 직전, 구글이 멀티모달 모델 Palm-E를 시연
  • [04:52] 텍스트 전용 PaLM 대신 멀티모달 Palm-E를 계획 계층에, RT-1을 제어 계층에 배치
  • [05:07] 시각 정보 접근 가능 → 적응형 계획이 필요한 작업 수행 가능
  • [05:14] 좌절 상황에서도 완전히 자율적으로 복구하는 능력 획득
  • [06:06] RT-1과 Palm-E의 핵심 차이: 트랜스포머가 무엇을 출력하도록 학습되었는가 (제어 신호 vs 텍스트)

Chapter 5: RT-2 — VLA의 탄생 (06:42-09:03)

  • [06:54] 핵심 질문: “정말로 두 개의 별도 모델이 필요한가?” — PaLM을 이미지 입력과 로봇 제어 출력까지 확장하는 아이디어
  • [07:31] 2023년 7월, 구글 로보틱스 팀이 RT-2를 시연
  • [07:47] RT-1 학습에 사용했던 인간 제어 시연 데이터를 그대로 멀티모달 LLM에 학습시켰더니 “정말로 작동”
  • [08:05] 테일러 스위프트 데모가 인상적인 이유: 학습 데이터에 없던 물체/환경에 충격적으로 잘 일반화
  • [08:25] 인터넷의 방대한 이미지/영상/텍스트를 현실 세계의 행동과 연결할 수 있음을 시사
  • [08:55] 이 유형의 모델에 Vision-Language-Action, 즉 VLA라는 이름을 부여

“[08:47] 흔들리지만 분명한 ‘예’입니다.”

Chapter 6: Pi0 Overview (09:52-11:47)

  • [09:57] RT-2 핵심 멤버들이 다시 모여 Physical Intelligence 설립
  • [10:01] 2024년 10월, 첫 번째 로봇 두뇌 Pi Zero 시연
  • [10:48] Pi Zero는 RT-2(50억~550억 파라미터)보다 작은 33억 파라미터
  • [11:00] 소비자용 NVIDIA RTX 4090 GPU에서 73밀리초 추론 가능
  • [11:11] Aloha 양팔 로봇 플랫폼에서 펜 뚜껑 열기 등 정교한 조작 시연
  • [11:27] 매 시간 스텝마다 14개 숫자 출력(양팔 각 7개 액추에이터 위치)

“[10:55] Pi Zero는 놀랍게도 33억 파라미터만 사용합니다.”

Chapter 7: PaliGemma (11:47-12:16)

  • [11:48] Pi Zero는 구글의 오픈 웨이트 멀티모달 LLM인 PaliGemma 기반
  • [11:58] PaliGemma = SigLIP 이미지 인코더 + Gemma LLM을 함께 학습
  • [12:10] RT-2 접근법을 따르면 기저 언어 모델이 제어 값을 직접 출력하도록 학습

Chapter 8: Action Expert (12:16-13:39)

  • [12:17] Physical Intelligence 팀의 “영리한 개선” — 기저 LLM이 제어 값을 직접 출력하지 않음
  • [12:29] 두 번째 신경망 ‘액션 전문가(Action Expert)’ 도입 — Gemma와 동일 아키텍처, 무작위 초기화, 더 적은 파라미터
  • [13:10] SayCan에서는 모델 간 인터페이스가 자연어였지만, Pi Zero는 훨씬 더 풍부한 인터페이스 사용
  • [13:32] 같은 아키텍처 덕분에 두 모델을 거의 “하나처럼” 사용하면서도 모듈성의 이점 유지

“[12:29] Pi Zero는 팀이 ‘액션 전문가’라고 부르는 두 번째 신경망을 도입합니다.”

Chapter 9: PaliGemma Deep Dive — 어텐션 시각화 (13:39-20:44)

  • [13:54] 각 이미지를 패치 격자로 분할 → 이미지당 256개 패치, 총 768개 + 텍스트 토큰 4개 = 772개 임베딩
  • [15:20] Gemma는 18개 트랜스포머 블록, 블록당 8개 어텐션 헤드로 구성
  • [15:37] 어텐션 헤드가 Gemma와 Action Expert를 촘촘히 통합하는 “열쇠”
  • [17:08] 어텐션 헤드가 쿼리/키에서 서로 비슷한 행을 찾아 프롬프트 단어와 일치하는 물체를 이미지에서 탐색
  • [17:49] “pen” 쿼리와 가장 큰 내적 값이 펜이 있는 이미지 패치에서 나타남
  • [18:44] 프레임마다 분석하면 인상적인 펜 추적 결과 — 텍스트 표현과 이미지의 물체 위치를 어텐션으로 연결

“[20:03] 사실상 토큰 위치들 사이로 정보를 이동시키는 효과가 있습니다.”

Chapter 10: Action Expert Deep Dive — 플로 매칭 (20:44-29:19)

  • [21:19] Aloha 로봇: 팔당 7관절 × 양팔 = 총 14개 수치 제어
  • [22:27] Action Expert는 이미지/비디오 생성에서 온 플로 매칭(flow matching) 기법 사용
  • [22:36] 핵심: 행동을 한 번에 출력하지 않고, 무작위 행동을 반복적으로 다듬어 최종 궤적으로 정제
  • [22:49] 최종 행동 차원: 14×50 (관절 14개 × 미래 50 타임스텝)
  • [24:23] 이 과정을 10번 반복해 괜찮은 궤적 도출
  • [26:38] 핵심 설계: Gemma LLM의 키/밸류를 가져와 Action Expert의 키/밸류에 덧붙임 → 51+772=823개 키 접근 가능
  • [27:40] PaliGemma의 KV 캐시를 Action Expert 각 어텐션 헤드에 공급, 플로 매칭 반복마다 재사용

“[24:29] 이미지와 비디오를 생성하는 데 쓰는 것과 완전히 동일한 플로 매칭 과정을 로봇 제어에도 사용할 수 있다는 사실이 매우 흥미롭습니다.”

“[29:09] 대규모 언어 모델이 로봇이 되도록 학습될 수 있다는 점입니다.”

Chapter 11: World Models & Yann LeCun (29:19-30:26)

  • [29:42] 로봇 두뇌 구축에 또 다른 패러다임 등장: LLM을 백본으로 사용하지 않는 월드 모델(world models)
  • [29:54] 얀 르쿤이 Meta 역할을 떠나 월드 모델에 집중하는 새 벤처 시작
  • [30:12] “JEPA 기반 접근법이 VLA를 추월할 것인가?” 질문에 얀이 “물론입니다” 즉답
  • [30:16] 얀의 평가: “VLA는 가망이 없습니다. 기본적으로 그리 잘 작동하지 않습니다”

“[30:16] 아, 물론입니다. 네. VLA는 가망이 없습니다.”