영상으로 돌아가기

Sequoia Capital 2026-01-17 60:26

어떤 작업이든 수행하는 범용 로봇 훈련: Physical Intelligence

요약

로보틱스의 병목은 하드웨어가 아니라 "지능"이며, 파운데이션 모델/엔드투엔드 학습이 이를 풀 열쇠라는 관점을 제시한다.
핵심 난제는 일반화와 성능(긴 꼬리)이고, 이를 위해 배포를 통한 데이터 루프와 "경험으로부터의 학습(RL)"을 강조한다.
VLM+액션 모델로 시작해 데이터 스케일링·가치 함수·지속적(에 가까운) 학습으로 확장하며, 특정 앱 회사로 수렴하는 함정을 피하려 한다.

Physical AIRoboticsFoundation ModelsReinforcement Learningπ0

원본 영상 보기

Chapter 1: 지능 병목과 파운데이션 모델 미션 (00:00-04:50)

[00:00] 범용 학습 알고리즘에 데이터를 넣으면 “어째서인지” 이해하고 이전 방식보다 더 잘해내는 현상이 놀랍다고 언급
[00:17] 이 현상이 로봇뿐 아니라 비전·언어·소리 등 다양한 모달리티 전반에서 관찰된다고 강조
[00:49] 카롤·토비(Physical Intelligence)와 함께 로보틱스를 위한 파운데이션 모델을 만드는 접근을 다룸
[01:43] 회사 미션: “어떤 로봇이든 어떤 과업이든 수행”할 수 있는 로보틱 파운데이션 모델 개발
[02:09] 다양한 로봇 폼팩터를 제어 가능함을 보였고, 새로운 환경으로 가져가도 일반화가 가능
[03:22] 로봇공학의 병목은 하드웨어가 아니라 “지능”이었다는 관점을 제시
[04:10] 병목(지능)에 집중해 이를 해결해야 로봇이 현실화된다고 주장

“[00:29] 그리고 실제로 작동한다는 것 자체가 정말로 충격적일 정도입니다” — Karol Hausman

Chapter 2: 일반화·배포와 데이터 경제성 (06:59-12:22)

[07:10] 다음 과제는 일반화이며 아직 열린 문제
[07:14] 목표: 로봇이 제로샷으로 새 집 같은 낯선 환경에서도 바로 작동하는 수준
[07:43] 일반화의 핵심 가설로 데이터 다양성을 제시
[08:22] 배포의 중요성: 데이터를 계속 모아야 하며, 배포가 가장 확장 가능한 데이터 수집 방법
[09:21] 상업 환경 배포까지 5년쯤 걸릴 줄 알았는데 “두 달 전쯤 이미 해냈다”
[12:00] π*0.6에서 “경험으로부터 학습”에 진전이 있었음

“[07:43] 머신러닝에서 일반화에 대한 유일한 해답은 결국 데이터의 다양성입니다.” — 발화자 “[08:37] 그 데이터 수집 비용은 사실상 마이너스가 되며,” — 발화자

Chapter 3: 현재 아키텍처와 스케일링 (12:27-16:03)

[13:04] 현재 아키텍처는 VLM 구축 방식과 매우 유사
[13:41] 구성: 비전-언어 모델(VLM) + 옆에 액션 모델/액션 익스퍼트(로봇 구동 부분)
[14:05] 전반적으로 트랜스포머 기반의 큰 모델이며, 수십억 파라미터까지 사용
[14:32] 스케일링 성과는 주로 데이터 규모를 키우는 데서 나옴
[15:50] “픽셀/신호 입력 → 행동 출력” 관점에서 하나의 큰 신경망이 입력(이미지/텍스트)을 받아 출력(텍스트/행동)을 내는 형태

“[14:43] 열린 질문이라고 생각합니다.” — 화자

Chapter 4: 전통적 로봇 스택과 그 한계 (16:05-18:12)

[16:21] 과거에는 엔지니어가 충분히 코드를 쓰면 로봇이 무엇이든 하게 만들 수 있다고 생각
[16:43] 현실 세계는 너무 복잡해 모든 경우를 코드로 열거하는 방식은 작동하지 않았음
[16:57] 그 결과 문제를 인지/제어/계획 같은 더 작은 하위 문제로 쪼개는 접근이 등장
[17:58] 인간은 “인지→계획→제어”를 단계적으로 의식하지 않고 바로 행동한다는 비유

“[16:43] 결국 세상은 너무나 복잡하다는 것이 드러났습니다.” — 화자 “[18:00] 제가 이 잔을 집어 들려고 할 때 저는 그것을 인지하고 그다음 계획하고 그다음 제어한다고 생각하지 않고, 그냥 바로 손을 뻗어서 잔을 집어 듭니다.” — 화자

Chapter 5: 작업 분해와 물리적 계획 감각 (20:59-22:40)

[20:59] 상위 지시(예: “부엌을 청소해”)를 받으면 첫 하위 과제를 고르고 필요한 행동을 순서대로 분해
[21:46] 수학 같은 텍스트 기반 RL과 로보틱스/물리적 지능은 성격이 다를 수 있음
[22:14] 새 스포츠를 배울 때 문장형 계획보다 몸의 움직임/감각 중심으로 사고한다는 예

“[21:01] 예를 들어 ‘부엌을 청소해’라고 시키면” — 화자

Chapter 6: 멀티-스페이스 추론과 RL로의 전환 (22:47-25:59)

[23:10] 로보틱스가 “추론을 어떻게 생각할지”를 다시 고민하게 만들 것
[23:14] 추론은 단일 텍스트 공간이 아니라 여러 추상 공간(텍스트/이미지/궤적 등)을 오가며 이뤄질 수 있음
[24:08] 데이터는 단순 “양”만의 문제가 아니며, 품질·다양성이 중요
[25:04] 같은 방식으로 더 수집해도 성능이 더 이상 개선되지 않는 정체 구간이 있음
[25:31] 이 지점에서 강화학습(RL) 같은 접근이 큰 도움이 됨

Chapter 7: 배포와 ‘Age of Experience’ (34:59-39:34)

[35:26] “정말 원하는 로봇”: 집에서 세탁/설거지/요리, 돌아다니며 운전까지 하는 범용 로봇
[36:11] 앞으로 몇 년은 배포로부터 얻는 데이터가 사전학습 원천으로 매우 가치 있어질 것
[37:07] 이번 결과는 자기 경험 학습으로 가는 중요한 “첫걸음”
[38:13] 지향은 더 “살아 있는” 시스템: 배포 후에도 계속 학습하며 자기 경험에서 배우는 방식

“[36:21] 이 배포를 하게 되고 그 데이터가 실제로 아주 가치 있어질 것이라고 생각합니다.” — 발언자 “[37:23] 어느 시점에는 결국 현장에서 배우셔야 하고, 직접 그 일을 해 보셔야 하며,” — 발언자

Chapter 8: 배포 루프와 가치 함수 (41:58-46:19)

[42:18] 모델을 더 많이 배포할수록 데이터가 되돌아와 일반화가 늘어나는 선순환
[43:29] 라벨된 에피소드로 가치 함수를 학습
[43:32] 가치 함수는 현재 상태에서 성공/실패 가능성을 예측
[45:20] RL을 특정 알고리즘으로만 보지 않고 “문제 정의”에 가깝다고 설명
[46:02] 로봇은 언어처럼 완벽한 시뮬레이터에서 무한 시뮬레이션을 돌릴 수 없어 실제 세계에서 더 효율적인 방법이 필요

“[42:31] 여러분이 이 모델들을 배포하면, 그 데이터가 돌아오고 모델은 더 좋아져서, 여러분은 더 많이 배포할 수 있으며… 이런 식입니다.” — 화자

Chapter 9: 상용화와 ‘앱 회사’ 함정 (48:59-53:44)

[49:45] 진짜 답은 아직 모르며 알아가는 중이고 기술적으로도 초기 단계
[50:12] 전형적 스타트업 경로(범용 비전→특정 앱 선택→특수 목적 최적화→앱 회사)가 되는 것을 경계
[50:53] “물리적 지능” 자체를 해결할 기회가 있고 가치가 단일 애플리케이션보다 훨씬 큼
[53:17] 더 쉬운 점: 100% 신뢰할 수 있을 때만 배포할 필요는 없음 (자율주행과 대비)

“[49:45] 진짜 답은 저희가 아직 모른다는 것입니다.” — 발언자 “[53:21] 우리가 100% 신뢰할 수 있을 때만 배포할 필요는 없다는 점입니다.” — 발언자

Chapter 10: 마무리 — 범용 학습과 경험에서 배우기 (55:59-60:26)

[55:59] 최근 모델 성과가 놀랍고, 여기까지 왔다는 사실 자체가 경이로움
[56:54] 무엇보다 “이 모든 게 실제로 작동한다”는 사실이 충격적
[57:05] 뇌에서 느슨하게 영감 받은 시스템에 범용 학습 알고리즘과 데이터를 주면, 어떤 식으로든 이해해 이전보다 더 잘해냄
[58:05] 큰 문제를 더 작은 문제로 쪼개라는 전통이 있지만, 기계/로봇 훈련의 최선이 아닐 수 있다는 깨달음
[59:00] 다시 쪼개기 중심으로 돌아가진 않을 것 같음
[59:25] 규칙을 억지로 넣으면 새로운 것을 배우는 능력을 제한하기 쉽고, “양쪽 장점”은 없으며 끝까지 학습으로 가야 함

“[56:56] 이 모든 게 실제로 작동한다는 사실 자체가 정말 충격적입니다.” — 화자 “[57:57] 우리는 시뮬레이션 속에 살고 있습니다.” — 화자