로보틱스의 엔드게임 | NVIDIA Jim Fan (AI Ascent 2026)

요약

  1. NVIDIA Embodied Autonomous Research를 이끄는 Jim Fan이 LLM이 걸어온 사전훈련→정렬→추론→자동연구 경로를 로보틱스에 그대로 복제하는 "위대한 평행(Great Parallel)" 프레임을 제시한다.
  2. VLA를 대체하는 World Action Model(DreamZero/WAM), 원격조작을 대체하는 1인칭 영상·외골격 기반 EgoScale 데이터 전략, 그래픽 엔진을 대체하는 신경망 시뮬레이터 DreamDojo를 차례로 소개하며 "Compute = Environment = Data" 등식을 도출한다.
  3. 물리적 튜링 테스트(2~3년), 물리적 API(무인 공장·자동 습식 실험실), 물리적 자동 연구를 엔드게임의 3대 잠금 해제 업적으로 꼽고, 2040년 기술 트리의 끝에 도달할 것이라며 "로보틱스를 해결하기에 딱 맞는 시기에 태어났다"고 마무리한다.

소개 (00:00-00:30)

  • [00:02] NVIDIA Embodied Autonomous Research Group(NVIDIA Robotics)을 이끄는 Jim Fan을 소개
  • [00:15] “로봇은 앞으로 일어날 일들 중 가장 흥미로운 것 중 하나”라는 평가
  • [00:22] 자동차도 큰 로봇이지만, “삑삑 소리를 내며 물건을 들어 올려 주는 로봇”이 더 기대된다는 도입

DGX-1 탄생 비화 (00:30-01:42)

  • [00:30] 2016년 여름, 지금 강연이 열리는 OpenAI 사무실에 젠슨 황이 가죽 재킷을 입고 큰 금속 트레이를 들고 등장
  • [00:47] “Elon과 OpenAI 팀에게, 컴퓨팅과 인류의 미래를 위해, 세계 최초의 DGX-1을 선물합니다”라고 적혀 있었음
  • [00:55] 이것이 Jim이 젠슨을 처음 만난 순간이었고, 인턴이었던 그도 줄을 서서 사인을 함
  • [01:13] Ilya가 말한 “딥러닝을 믿는다면 딥러닝도 너를 믿어줄 것”이라는 격언 인용
  • [01:30] LLM은 6년간 세 번의 계단 함수: GPT-3(사전훈련) → InstructGPT(SFT 정렬) → o1(RL 추론) → 자동 연구
  • [02:13] 자동 연구는 “전체 루프를 인간의 한계를 넘어 가속”하는 마지막 단계

“[01:30] 당신이 딥러닝을 믿는다면, 딥러닝도 당신을 믿어 줄 것입니다.”

위대한 평행(The Great Parallel) (01:42-03:31)

  • [02:23] “LLM은 엔드게임 한복판에 있다” — 그러니 로보틱스도 재미를 좀 누려야 한다는 문제 제기
  • [02:36] LLM 사람들은 mythos라 불리는 “신비한 생물 위에서 AGI를 스피드런” 중
  • [02:50] “자존심 있는 과학자라면 으레 그렇듯, 숙제를 베끼고 새 이름을 붙입니다” — 이를 “위대한 평행(Great Parallel)“이라 명명
  • [02:59] LLM의 문자열 시뮬레이션을 “다음 물리적 세계 상태 시뮬레이션”으로 치환
  • [03:01] 액션 미세 조정(action fine-tuning)으로 시뮬레이션의 얇은 단면을 실제 로봇에 정렬
  • [03:09] RL이 마지막 1마일을 담당
  • [03:17] “이길 수 없다면, 합류하라” — LLM 성공 공식의 복제

“[02:55] 저는 이를 위대한 평행이라 부릅니다.”

엔드게임 셋업: 모델·데이터 전략 (03:31-03:39)

  • [03:32] 엔드게임은 두 축으로 귀결: 모델 전략데이터 전략

VLA의 한계 (03:39-04:32)

  • [03:39] 지난 3년은 VLA(Vision-Language-Action)가 지배 — π, GR00T 등이 이 범주
  • [03:48] 보통 VLM 사전훈련 위에 단순히 “액션 헤드”를 붙이는 구조
  • [03:58] 사실은 LVA: 가장 많은 파라미터가 언어에 할당되어 “머리만 무거운” 모델
  • [04:03] 언어가 1등급 시민, 비전·액션은 그다음
  • [04:08] 설계상 VLA는 명사·지식엔 강하지만 동사·물리에는 약함
  • [04:22] 좋아하는 사례: “차가운 캔을 Taylor Swift 사진 위로 옮겨라” — 일반화는 되지만 우리가 원하는 사전훈련 능력은 아님

Video World Models (04:32-06:09)

  • [04:35] 두 번째 사전훈련 패러다임은 무엇이어야 하는가
  • [04:43] 알고 보니 답은 “AI 영상 슬롭”(보안 카메라에서 밴조 치는 고양이 같은 것)
  • [04:53] Veo 3 같은 영상 모델이 내부적으로 다음 세계 상태를 시뮬레이션하는 법을 학습 중임
  • [05:05] 모델이 중력·부력·조명·반사·굴절을 코드 없이 스스로 학습 — “물리는 픽셀 예측에서 창발”
  • [05:23] Veo가 미로 문제를 픽셀 공간에서 시뮬레이션을 앞으로 돌리며 푸는 사례
  • [05:38] “기하학은 선택사항” — 보고 있지 않으면 기하를 무시하는 영리함
  • [05:50] 이를 “물리 슬롭(physics slop)“이라 명명
  • [06:03] 액션 미세 조정으로 “가능한 모든 미래 상태의 중첩”을 실제 로봇 단면으로 정렬

DreamZero & World Action Model (06:09-07:46)

  • [06:09] DreamZero 소개: 미래 몇 초를 꿈꾸고 그에 따라 행동하는 새로운 형태의 정책 모델
  • [06:19] 모터 액션은 픽셀과 똑같이 고차원 연속 신호 — 영상과 함께 공동 렌더링 가능
  • [06:33] 다음 세계 상태와 다음 액션을 공동 디코딩 → 훈련 중 본 적 없는 과제·동사를 제로샷으로 해결
  • [06:43] 로봇이 실행하는 동안 “무엇을 꿈꾸고 있는지” 시각화 가능, 영상 예측과 액션의 상관관계가 매우 밀접
  • [06:51] 영상이 환각이면 액션도 실패, 영상이 동작하면 액션도 동작
  • [07:13] 100% 견고하진 않지만 “GPT-2”처럼 모든 경우에서 동작의 형태를 잡으려 함
  • [07:22] DreamZero는 로보틱스의 **개방 어휘 프롬프팅(open-vocabulary prompting)**을 향한 첫걸음
  • [07:30] 새 모델 종류: WAM(World Action Model)
  • [07:34] “VLA를 위해 잠시 묵념” — World Action Model 만세

“[07:36] 수고했어, 편히 잠들기를.”

데이터 수집 확장 (07:46-11:06)

  • [07:46] NVIDIA 수석과학자 Bill Dally가 직접 원격조작하는 사진 — “연봉을 고려하면 가장 비싼 원격조작 궤적”
  • [08:01] 지난 3년은 원격조작의 황금기 — VR 헤드셋, 저지연 스트리밍, 중세 고문 기구처럼 보이는 장비
  • [08:21] 원격조작 상한은 로봇 한 대당 하루 24시간(현실은 3시간) — 근본적 물리 한계
  • [08:39] 해법: 사람 손에 직접 로봇 액추에이터를 끼우는 UMI(Universal Manipulation Interface)
  • [09:00] 로봇 본체의 나머지를 데이터 수집 루프 밖에 두는 단순하지만 강력한 아이디어
  • [09:02] “지금까지 쓰여진 가장 위대한 로봇 데이터 논문 중 하나” — 두 개의 유니콘 스타트업을 탄생시킴(Generalist의 그리퍼, Sunday의 데이터 글러브)
  • [09:18] 작년 NVIDIA가 다섯 손가락 로봇 손과 1대1 매핑되는 외골격 DexUMI를 공개
  • [09:30] 사람이 직접 데이터 수집(왼쪽)이 가장 빠름 / 원격조작(오른쪽)은 매우 느리고 성공률 낮음
  • [09:57] 원격조작 데이터 0으로 훈련된 정책의 완전 자율 실행 시연
  • [10:23] Tesla/Waymo의 FSD는 운전 중 데이터 업로드가 백그라운드 프로세스라 “느껴지지 않음”
  • [10:42] UMI/데이터 웨어러블은 여전히 침습적 — “출근만큼 매끄럽지 않음”
  • [10:52] 데이터 수집은 “길에서 비켜나 배경으로 사라져야” 한다

EgoScale & 스케일링 법칙 (11:06-15:39)

  • [11:17] EgoScale 소개: 훈련의 99.9%가 인간 1인칭 시점 영상에 기반
  • [11:27] 카메라 픽셀 → 22 자유도 정교한 로봇 손까지 직접 매핑되는 엔드투엔드 정책
  • [11:39] 사전훈련: 21,000시간의 야생 1인칭 시점 인간 데이터, 로봇 데이터 0
  • [11:49] 사전훈련 중 손 관절·손목 자세를 예측, 액션 미세 조정에선 50시간 모캡 + 4시간 원격조작만 사용
  • [12:01] 4시간 원격조작은 훈련 믹스의 0.1% 미만
  • [12:08] 카드 분류, 주사기 조작, 액체 옮기기 등 정교한 과제로 일반화
  • [12:24] 단 한 번의 시연으로 다양한 셔츠 접기 전략 학습(테스트 시점 학습)
  • [13:33] 이 논문의 핵심 발견: 정교한 손동작에 대한 신경망 스케일링 법칙 — 깔끔한 로그-선형 관계
  • [12:58] 언어 모델 원조 스케일링 법칙 6년 후 로보틱스에서도 동일한 법칙 발견
  • [13:00] 데이터 전략 차트(x: 하드웨어 정렬, y: 확장성): 원격조작(낮음) → 데이터 웨어러블(중간) → 1인칭 영상(매우 높음)
  • [13:31] 1인칭 시점 영상은 FSD 플라이휠을 돌릴 수 있다면 1년 안에 1,000만 시간 달성 가능
  • [13:31] 1~2년 안에 원격조작은 “거의 무시할 만한 수준”으로 떨어질 것
  • [13:46] 로보틱스의 주식은 결국 1인칭 시점 영상이 될 것
  • [13:55] “원격조작을 위해 잠시 묵념” — 센서 부착 인간 데이터 만세

“[13:46] 로보틱스의 주식은 1인칭 시점 영상이 될 것입니다.”

DreamDojo & 로드맵 (15:39-20:03)

  • [14:00] 데이터 전략의 두 번째 고리: 환경(environment) 확장
  • [14:06] LLM 프런티어 연구소들은 RL용 수백만 코딩 환경에 막대한 예산 투입 중 — 로보틱스도 마찬가지
  • [14:25] 실제 로봇에서 직접 RL을 돌려 특정 과제 성공률을 거의 100%까지 올리는 사례(GPU 자기 조립)
  • [14:45] 그러나 100만 개 환경에 도달하려면 100만 대의 로봇이 필요 — 다른 방법이 필요
  • [14:54] iPhone 사진 한 장 → 3D 월드 스캔 파이프라인 → 모든 객체를 추출해 물리 시뮬레이터에 자동 합성
  • [15:15] 시뮬 안에서 무한히 증강한 변형들을 “디지털 사촌(digital cousins)“이라 명명
  • [15:25] iPhone이 사실상 “주머니 속의 월드 스캐너”, Real-Sim-Real 파이프라인을 가능케 함
  • [15:34] 그래도 고전 그래픽 엔진에 의존 — 더 나아갈 수 있을까?
  • [15:41] DreamDojo 소개: 영상 세계 모델을 완전한 신경망 시뮬레이터로
  • [15:54] 연속 액션 신호 입력 → 다음 RGB 프레임과 센서 상태를 실시간으로 출력
  • [16:02] “여기 보이는 픽셀 중 어느 하나도 실제가 아니다” — 순수 데이터 기반으로 다양한 로봇 역학 학습
  • [16:12] 물리 방정식도, 그래픽 엔진도 관여하지 않음
  • [16:18] 새로운 사후훈련 패러다임: 몇몇 실제 로봇 스테이션 + 월드 스캔용 그래픽 코어 + 세계 모델 추론용 컴퓨트의 대규모 병렬 RL 시스템
  • [16:32] 핵심 등식: Compute = Environment = Data

“[16:32] 컴퓨팅이 곧 환경, 환경이 곧 데이터입니다.”

  • [16:51] “위대한 평행”이 지금 일어나고 있고, 우리는 엔드게임의 시작을 보고 있음
  • [17:02] 연구를 Civilization 게임 기술 트리에서 업적을 잠금 해제하는 것에 비유 — 로보틱스에 3개 업적이 남음
  • [17:20] 업적 1: 물리적 튜링 테스트 — 폭넓은 활동에서 로봇과 사람을 구별할 수 없게 됨, 단위 에너지 입력 대비 노동 출력
  • [17:49] 2~3년 정도 남았을 것이라는 예측
  • [17:52] 업적 2: 물리적 API — 로봇 함대를 다른 소프트웨어처럼 API/명령줄로 구성, 언젠가 Opus 9.0이 지휘
  • [18:03] 무인 공장 = “원자의 프린터”(마크다운 디자인 입력 → 완제품 출력)
  • [18:18] 화학·생물학·의학에서 과학적 발견을 자동화하는 습식 실험실
  • [18:30] 업적 3: 물리적 자동 연구 — 로봇이 스스로 다음 세대를 설계·개선·제작
  • [18:50] 2012년 AlexNet에서 2026년 자동 연구까지 14년 — 14년을 더 더하면 2040년
  • [19:11] 기술은 선형이 아니라 지수적으로 발전
  • [19:22] 95% 확신: 2040년에 엔드게임의 끝, 기술 트리의 끝에 도달

“[19:45] 우리 세대는 지구를 탐험하기엔 너무 늦게, 별을 탐험하기엔 너무 일찍 태어났지만, 로보틱스를 해결하기엔 딱 맞는 시기에 태어났습니다.”

  • [19:36] “당신이 로보틱스를 믿는다면, 로보틱스도 당신을 믿을 것입니다”로 마무리