로보틱스의 엔드게임 | NVIDIA Jim Fan (AI Ascent 2026)

소개 (00:00-00:30)

[00:02] NVIDIA Embodied Autonomous Research Group(NVIDIA Robotics)을 이끄는 Jim Fan을 소개
[00:15] “로봇은 앞으로 일어날 일들 중 가장 흥미로운 것 중 하나”라는 평가
[00:22] 자동차도 큰 로봇이지만, “삑삑 소리를 내며 물건을 들어 올려 주는 로봇”이 더 기대된다는 도입

DGX-1 탄생 비화 (00:30-01:42)

[00:30] 2016년 여름, 지금 강연이 열리는 OpenAI 사무실에 젠슨 황이 가죽 재킷을 입고 큰 금속 트레이를 들고 등장
[00:47] “Elon과 OpenAI 팀에게, 컴퓨팅과 인류의 미래를 위해, 세계 최초의 DGX-1을 선물합니다”라고 적혀 있었음
[00:55] 이것이 Jim이 젠슨을 처음 만난 순간이었고, 인턴이었던 그도 줄을 서서 사인을 함
[01:13] Ilya가 말한 “딥러닝을 믿는다면 딥러닝도 너를 믿어줄 것”이라는 격언 인용
[01:30] LLM은 6년간 세 번의 계단 함수: GPT-3(사전훈련) → InstructGPT(SFT 정렬) → o1(RL 추론) → 자동 연구
[02:13] 자동 연구는 “전체 루프를 인간의 한계를 넘어 가속”하는 마지막 단계

“[01:30] 당신이 딥러닝을 믿는다면, 딥러닝도 당신을 믿어 줄 것입니다.”

위대한 평행(The Great Parallel) (01:42-03:31)

[02:23] “LLM은 엔드게임 한복판에 있다” — 그러니 로보틱스도 재미를 좀 누려야 한다는 문제 제기
[02:36] LLM 사람들은 mythos라 불리는 “신비한 생물 위에서 AGI를 스피드런” 중
[02:50] “자존심 있는 과학자라면 으레 그렇듯, 숙제를 베끼고 새 이름을 붙입니다” — 이를 “위대한 평행(Great Parallel)“이라 명명
[02:59] LLM의 문자열 시뮬레이션을 “다음 물리적 세계 상태 시뮬레이션”으로 치환
[03:01] 액션 미세 조정(action fine-tuning)으로 시뮬레이션의 얇은 단면을 실제 로봇에 정렬
[03:09] RL이 마지막 1마일을 담당
[03:17] “이길 수 없다면, 합류하라” — LLM 성공 공식의 복제

“[02:55] 저는 이를 위대한 평행이라 부릅니다.”

엔드게임 셋업: 모델·데이터 전략 (03:31-03:39)

[03:32] 엔드게임은 두 축으로 귀결: 모델 전략과 데이터 전략

VLA의 한계 (03:39-04:32)

[03:39] 지난 3년은 VLA(Vision-Language-Action)가 지배 — π, GR00T 등이 이 범주
[03:48] 보통 VLM 사전훈련 위에 단순히 “액션 헤드”를 붙이는 구조
[03:58] 사실은 LVA: 가장 많은 파라미터가 언어에 할당되어 “머리만 무거운” 모델
[04:03] 언어가 1등급 시민, 비전·액션은 그다음
[04:08] 설계상 VLA는 명사·지식엔 강하지만 동사·물리에는 약함
[04:22] 좋아하는 사례: “차가운 캔을 Taylor Swift 사진 위로 옮겨라” — 일반화는 되지만 우리가 원하는 사전훈련 능력은 아님

Video World Models (04:32-06:09)

[04:35] 두 번째 사전훈련 패러다임은 무엇이어야 하는가
[04:43] 알고 보니 답은 “AI 영상 슬롭”(보안 카메라에서 밴조 치는 고양이 같은 것)
[04:53] Veo 3 같은 영상 모델이 내부적으로 다음 세계 상태를 시뮬레이션하는 법을 학습 중임
[05:05] 모델이 중력·부력·조명·반사·굴절을 코드 없이 스스로 학습 — “물리는 픽셀 예측에서 창발”
[05:23] Veo가 미로 문제를 픽셀 공간에서 시뮬레이션을 앞으로 돌리며 푸는 사례
[05:38] “기하학은 선택사항” — 보고 있지 않으면 기하를 무시하는 영리함
[05:50] 이를 “물리 슬롭(physics slop)“이라 명명
[06:03] 액션 미세 조정으로 “가능한 모든 미래 상태의 중첩”을 실제 로봇 단면으로 정렬

DreamZero & World Action Model (06:09-07:46)

[06:09] DreamZero 소개: 미래 몇 초를 꿈꾸고 그에 따라 행동하는 새로운 형태의 정책 모델
[06:19] 모터 액션은 픽셀과 똑같이 고차원 연속 신호 — 영상과 함께 공동 렌더링 가능
[06:33] 다음 세계 상태와 다음 액션을 공동 디코딩 → 훈련 중 본 적 없는 과제·동사를 제로샷으로 해결
[06:43] 로봇이 실행하는 동안 “무엇을 꿈꾸고 있는지” 시각화 가능, 영상 예측과 액션의 상관관계가 매우 밀접
[06:51] 영상이 환각이면 액션도 실패, 영상이 동작하면 액션도 동작
[07:13] 100% 견고하진 않지만 “GPT-2”처럼 모든 경우에서 동작의 형태를 잡으려 함
[07:22] DreamZero는 로보틱스의 **개방 어휘 프롬프팅(open-vocabulary prompting)**을 향한 첫걸음
[07:30] 새 모델 종류: WAM(World Action Model)
[07:34] “VLA를 위해 잠시 묵념” — World Action Model 만세

“[07:36] 수고했어, 편히 잠들기를.”

데이터 수집 확장 (07:46-11:06)

[07:46] NVIDIA 수석과학자 Bill Dally가 직접 원격조작하는 사진 — “연봉을 고려하면 가장 비싼 원격조작 궤적”
[08:01] 지난 3년은 원격조작의 황금기 — VR 헤드셋, 저지연 스트리밍, 중세 고문 기구처럼 보이는 장비
[08:21] 원격조작 상한은 로봇 한 대당 하루 24시간(현실은 3시간) — 근본적 물리 한계
[08:39] 해법: 사람 손에 직접 로봇 액추에이터를 끼우는 UMI(Universal Manipulation Interface)
[09:00] 로봇 본체의 나머지를 데이터 수집 루프 밖에 두는 단순하지만 강력한 아이디어
[09:02] “지금까지 쓰여진 가장 위대한 로봇 데이터 논문 중 하나” — 두 개의 유니콘 스타트업을 탄생시킴(Generalist의 그리퍼, Sunday의 데이터 글러브)
[09:18] 작년 NVIDIA가 다섯 손가락 로봇 손과 1대1 매핑되는 외골격 DexUMI를 공개
[09:30] 사람이 직접 데이터 수집(왼쪽)이 가장 빠름 / 원격조작(오른쪽)은 매우 느리고 성공률 낮음
[09:57] 원격조작 데이터 0으로 훈련된 정책의 완전 자율 실행 시연
[10:23] Tesla/Waymo의 FSD는 운전 중 데이터 업로드가 백그라운드 프로세스라 “느껴지지 않음”
[10:42] UMI/데이터 웨어러블은 여전히 침습적 — “출근만큼 매끄럽지 않음”
[10:52] 데이터 수집은 “길에서 비켜나 배경으로 사라져야” 한다

EgoScale & 스케일링 법칙 (11:06-15:39)

[11:17] EgoScale 소개: 훈련의 99.9%가 인간 1인칭 시점 영상에 기반
[11:27] 카메라 픽셀 → 22 자유도 정교한 로봇 손까지 직접 매핑되는 엔드투엔드 정책
[11:39] 사전훈련: 21,000시간의 야생 1인칭 시점 인간 데이터, 로봇 데이터 0
[11:49] 사전훈련 중 손 관절·손목 자세를 예측, 액션 미세 조정에선 50시간 모캡 + 4시간 원격조작만 사용
[12:01] 4시간 원격조작은 훈련 믹스의 0.1% 미만
[12:08] 카드 분류, 주사기 조작, 액체 옮기기 등 정교한 과제로 일반화
[12:24] 단 한 번의 시연으로 다양한 셔츠 접기 전략 학습(테스트 시점 학습)
[13:33] 이 논문의 핵심 발견: 정교한 손동작에 대한 신경망 스케일링 법칙 — 깔끔한 로그-선형 관계
[12:58] 언어 모델 원조 스케일링 법칙 6년 후 로보틱스에서도 동일한 법칙 발견
[13:00] 데이터 전략 차트(x: 하드웨어 정렬, y: 확장성): 원격조작(낮음) → 데이터 웨어러블(중간) → 1인칭 영상(매우 높음)
[13:31] 1인칭 시점 영상은 FSD 플라이휠을 돌릴 수 있다면 1년 안에 1,000만 시간 달성 가능
[13:31] 1~2년 안에 원격조작은 “거의 무시할 만한 수준”으로 떨어질 것
[13:46] 로보틱스의 주식은 결국 1인칭 시점 영상이 될 것
[13:55] “원격조작을 위해 잠시 묵념” — 센서 부착 인간 데이터 만세

“[13:46] 로보틱스의 주식은 1인칭 시점 영상이 될 것입니다.”

DreamDojo & 로드맵 (15:39-20:03)

[14:00] 데이터 전략의 두 번째 고리: 환경(environment) 확장
[14:06] LLM 프런티어 연구소들은 RL용 수백만 코딩 환경에 막대한 예산 투입 중 — 로보틱스도 마찬가지
[14:25] 실제 로봇에서 직접 RL을 돌려 특정 과제 성공률을 거의 100%까지 올리는 사례(GPU 자기 조립)
[14:45] 그러나 100만 개 환경에 도달하려면 100만 대의 로봇이 필요 — 다른 방법이 필요
[14:54] iPhone 사진 한 장 → 3D 월드 스캔 파이프라인 → 모든 객체를 추출해 물리 시뮬레이터에 자동 합성
[15:15] 시뮬 안에서 무한히 증강한 변형들을 “디지털 사촌(digital cousins)“이라 명명
[15:25] iPhone이 사실상 “주머니 속의 월드 스캐너”, Real-Sim-Real 파이프라인을 가능케 함
[15:34] 그래도 고전 그래픽 엔진에 의존 — 더 나아갈 수 있을까?
[15:41] DreamDojo 소개: 영상 세계 모델을 완전한 신경망 시뮬레이터로
[15:54] 연속 액션 신호 입력 → 다음 RGB 프레임과 센서 상태를 실시간으로 출력
[16:02] “여기 보이는 픽셀 중 어느 하나도 실제가 아니다” — 순수 데이터 기반으로 다양한 로봇 역학 학습
[16:12] 물리 방정식도, 그래픽 엔진도 관여하지 않음
[16:18] 새로운 사후훈련 패러다임: 몇몇 실제 로봇 스테이션 + 월드 스캔용 그래픽 코어 + 세계 모델 추론용 컴퓨트의 대규모 병렬 RL 시스템
[16:32] 핵심 등식: Compute = Environment = Data

“[16:32] 컴퓨팅이 곧 환경, 환경이 곧 데이터입니다.”

[16:51] “위대한 평행”이 지금 일어나고 있고, 우리는 엔드게임의 시작을 보고 있음
[17:02] 연구를 Civilization 게임 기술 트리에서 업적을 잠금 해제하는 것에 비유 — 로보틱스에 3개 업적이 남음
[17:20] 업적 1: 물리적 튜링 테스트 — 폭넓은 활동에서 로봇과 사람을 구별할 수 없게 됨, 단위 에너지 입력 대비 노동 출력
[17:49] 2~3년 정도 남았을 것이라는 예측
[17:52] 업적 2: 물리적 API — 로봇 함대를 다른 소프트웨어처럼 API/명령줄로 구성, 언젠가 Opus 9.0이 지휘
[18:03] 무인 공장 = “원자의 프린터”(마크다운 디자인 입력 → 완제품 출력)
[18:18] 화학·생물학·의학에서 과학적 발견을 자동화하는 습식 실험실
[18:30] 업적 3: 물리적 자동 연구 — 로봇이 스스로 다음 세대를 설계·개선·제작
[18:50] 2012년 AlexNet에서 2026년 자동 연구까지 14년 — 14년을 더 더하면 2040년
[19:11] 기술은 선형이 아니라 지수적으로 발전
[19:22] 95% 확신: 2040년에 엔드게임의 끝, 기술 트리의 끝에 도달

“[19:45] 우리 세대는 지구를 탐험하기엔 너무 늦게, 별을 탐험하기엔 너무 일찍 태어났지만, 로보틱스를 해결하기엔 딱 맞는 시기에 태어났습니다.”

[19:36] “당신이 로보틱스를 믿는다면, 로보틱스도 당신을 믿을 것입니다”로 마무리