Chapter 1: Intro (00:00-01:40)
- [00:00] 이 장면이 현대 로보틱스에서 “가장 중요한 순간”일지도 모른다는 문제의식으로 시작
- [00:10] 구글의 최신 로봇 두뇌 RT-2에게 “코카콜라 캔을 테일러 스위프트 쪽으로 옮기라”는 요청
- [00:17] RT-2는 로봇에서 직접 구동하기엔 너무 커서 TPU 클러스터로 이미지를 전송·처리하는 방식으로 동작
- [00:41] 카롤 하우스먼이 이 장면을 “성공할 것임이 분명해진 순간”으로 묘사
- [00:51] RT-2 팀 핵심 멤버들이 구글을 떠나 Physical Intelligence 스타트업을 설립
- [01:04] Physical Intelligence 로봇이 자물쇠 열기, 빨래 개기, 오렌지 껍질 벗기기, 샌드위치 만들기 등 수행
“[00:00] 이는 아마도 현대 로보틱스에서 가장 중요한 순간일지도 모릅니다”
Chapter 2: SayCan (01:40-02:59)
- [01:47] SayCan — LLM을 ‘계획 수립’ 시스템으로 사용해 복잡한 작업을 하위 작업으로 분해하는 초기 시도
- [02:22] 실질적으로 당시 로봇 제어 알고리즘의 한계에 의해 병목 발생
- [02:30] 실제 동작을 실행하는 것은 사람을 모방하도록 훈련된 완전히 별개의 신경망
- [02:43] SayCan은 사실상 LLM이 고를 수 있는 ‘동작 메뉴’에 제한됨 — 메뉴에 없는 행동은 수행 불가
“[02:43] SayCan이 사실상 LLM이 선택할 수 있는 동작 메뉴에 제한되어 있었다는 뜻입니다.”
Chapter 3: RT-1 (02:59-04:35)
- [03:04] Robot Transformer 1(RT-1) 도입 — 13만 건 넘는 인간 시연 데이터로 훈련
- [03:19] 더 큰 트랜스포머 기반 아키텍처로 수행 가능한 동작 범위가 크게 확장
- [03:49] 구글이 로봇 두뇌를 점진적 개선하는 동안 LLM도 빠르게 발전
- [04:06] 계획 계층에 사용된 PaLM 540B가 텍스트 전용이라 세상을 “볼 수 없었다”는 한계
“[04:30] 계획 계층이 사실상 눈먼 상태로 존재한다는 점은 이상적이지 않았습니다.”
Chapter 4: Palm-E (04:35-06:42)
- [04:38] GPT-4 공개 직전, 구글이 멀티모달 모델 Palm-E를 시연
- [04:52] 텍스트 전용 PaLM 대신 멀티모달 Palm-E를 계획 계층에, RT-1을 제어 계층에 배치
- [05:07] 시각 정보 접근 가능 → 적응형 계획이 필요한 작업 수행 가능
- [05:14] 좌절 상황에서도 완전히 자율적으로 복구하는 능력 획득
- [06:06] RT-1과 Palm-E의 핵심 차이: 트랜스포머가 무엇을 출력하도록 학습되었는가 (제어 신호 vs 텍스트)
Chapter 5: RT-2 — VLA의 탄생 (06:42-09:03)
- [06:54] 핵심 질문: “정말로 두 개의 별도 모델이 필요한가?” — PaLM을 이미지 입력과 로봇 제어 출력까지 확장하는 아이디어
- [07:31] 2023년 7월, 구글 로보틱스 팀이 RT-2를 시연
- [07:47] RT-1 학습에 사용했던 인간 제어 시연 데이터를 그대로 멀티모달 LLM에 학습시켰더니 “정말로 작동”
- [08:05] 테일러 스위프트 데모가 인상적인 이유: 학습 데이터에 없던 물체/환경에 충격적으로 잘 일반화
- [08:25] 인터넷의 방대한 이미지/영상/텍스트를 현실 세계의 행동과 연결할 수 있음을 시사
- [08:55] 이 유형의 모델에 Vision-Language-Action, 즉 VLA라는 이름을 부여
“[08:47] 흔들리지만 분명한 ‘예’입니다.”
Chapter 6: Pi0 Overview (09:52-11:47)
- [09:57] RT-2 핵심 멤버들이 다시 모여 Physical Intelligence 설립
- [10:01] 2024년 10월, 첫 번째 로봇 두뇌 Pi Zero 시연
- [10:48] Pi Zero는 RT-2(50억~550억 파라미터)보다 작은 33억 파라미터
- [11:00] 소비자용 NVIDIA RTX 4090 GPU에서 73밀리초 추론 가능
- [11:11] Aloha 양팔 로봇 플랫폼에서 펜 뚜껑 열기 등 정교한 조작 시연
- [11:27] 매 시간 스텝마다 14개 숫자 출력(양팔 각 7개 액추에이터 위치)
“[10:55] Pi Zero는 놀랍게도 33억 파라미터만 사용합니다.”
Chapter 7: PaliGemma (11:47-12:16)
- [11:48] Pi Zero는 구글의 오픈 웨이트 멀티모달 LLM인 PaliGemma 기반
- [11:58] PaliGemma = SigLIP 이미지 인코더 + Gemma LLM을 함께 학습
- [12:10] RT-2 접근법을 따르면 기저 언어 모델이 제어 값을 직접 출력하도록 학습
Chapter 8: Action Expert (12:16-13:39)
- [12:17] Physical Intelligence 팀의 “영리한 개선” — 기저 LLM이 제어 값을 직접 출력하지 않음
- [12:29] 두 번째 신경망 ‘액션 전문가(Action Expert)’ 도입 — Gemma와 동일 아키텍처, 무작위 초기화, 더 적은 파라미터
- [13:10] SayCan에서는 모델 간 인터페이스가 자연어였지만, Pi Zero는 훨씬 더 풍부한 인터페이스 사용
- [13:32] 같은 아키텍처 덕분에 두 모델을 거의 “하나처럼” 사용하면서도 모듈성의 이점 유지
“[12:29] Pi Zero는 팀이 ‘액션 전문가’라고 부르는 두 번째 신경망을 도입합니다.”
Chapter 9: PaliGemma Deep Dive — 어텐션 시각화 (13:39-20:44)
- [13:54] 각 이미지를 패치 격자로 분할 → 이미지당 256개 패치, 총 768개 + 텍스트 토큰 4개 = 772개 임베딩
- [15:20] Gemma는 18개 트랜스포머 블록, 블록당 8개 어텐션 헤드로 구성
- [15:37] 어텐션 헤드가 Gemma와 Action Expert를 촘촘히 통합하는 “열쇠”
- [17:08] 어텐션 헤드가 쿼리/키에서 서로 비슷한 행을 찾아 프롬프트 단어와 일치하는 물체를 이미지에서 탐색
- [17:49] “pen” 쿼리와 가장 큰 내적 값이 펜이 있는 이미지 패치에서 나타남
- [18:44] 프레임마다 분석하면 인상적인 펜 추적 결과 — 텍스트 표현과 이미지의 물체 위치를 어텐션으로 연결
“[20:03] 사실상 토큰 위치들 사이로 정보를 이동시키는 효과가 있습니다.”
Chapter 10: Action Expert Deep Dive — 플로 매칭 (20:44-29:19)
- [21:19] Aloha 로봇: 팔당 7관절 × 양팔 = 총 14개 수치 제어
- [22:27] Action Expert는 이미지/비디오 생성에서 온 플로 매칭(flow matching) 기법 사용
- [22:36] 핵심: 행동을 한 번에 출력하지 않고, 무작위 행동을 반복적으로 다듬어 최종 궤적으로 정제
- [22:49] 최종 행동 차원: 14×50 (관절 14개 × 미래 50 타임스텝)
- [24:23] 이 과정을 10번 반복해 괜찮은 궤적 도출
- [26:38] 핵심 설계: Gemma LLM의 키/밸류를 가져와 Action Expert의 키/밸류에 덧붙임 → 51+772=823개 키 접근 가능
- [27:40] PaliGemma의 KV 캐시를 Action Expert 각 어텐션 헤드에 공급, 플로 매칭 반복마다 재사용
“[24:29] 이미지와 비디오를 생성하는 데 쓰는 것과 완전히 동일한 플로 매칭 과정을 로봇 제어에도 사용할 수 있다는 사실이 매우 흥미롭습니다.”
“[29:09] 대규모 언어 모델이 로봇이 되도록 학습될 수 있다는 점입니다.”
Chapter 11: World Models & Yann LeCun (29:19-30:26)
- [29:42] 로봇 두뇌 구축에 또 다른 패러다임 등장: LLM을 백본으로 사용하지 않는 월드 모델(world models)
- [29:54] 얀 르쿤이 Meta 역할을 떠나 월드 모델에 집중하는 새 벤처 시작
- [30:12] “JEPA 기반 접근법이 VLA를 추월할 것인가?” 질문에 얀이 “물론입니다” 즉답
- [30:16] 얀의 평가: “VLA는 가망이 없습니다. 기본적으로 그리 잘 작동하지 않습니다”
“[30:16] 아, 물론입니다. 네. VLA는 가망이 없습니다.”