영상으로 돌아가기

张小珺Podcast 2026-03-17 6:44:38

Saining Xie와의 7시간 마라톤 인터뷰: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, 그리고 42

요약

셰사이닝의 성장 배경과 유학·연구 여정("평범한 사람"이라는 자기 인식)을 시간순으로 따라갑니다.
학술적 취향·연구 방법·커뮤니티 문화(CVPR 등), 그리고 동료들과의 관계(카이밍 허, 얀 르쿤, 페이페이 리)를 촘촘히 기록합니다.
월드 모델과 AMI Labs의 기원, 실험·행동(action) 중심의 이해/창조 관점, 그리고 "42"로 이어지는 결말까지 연결합니다.

World ModelsAMI LabsYann LeCunSaining XieRepresentation LearningJEPAComputer Vision

원본 영상 보기

도입 — 평범한 사람 (00:00-35:39)

[00:38] 인터뷰 대상자는 중국계 젊은 과학자 셰사이닝. 튜링상 수상자 얀 르쿤과 함께 AMI Labs를 설립
[00:51] AMI Labs가 첫 번째 초대형 투자를 완료, 현재 팀 규모 25명
[00:56] 셰사이닝은 자신이 “선택받은 사람”이 아니라고 늘 말해왔음

“[00:56] 자신은 선택받은 사람이 아니라고요.”

[05:44] 아버지 집에 벽 몇 면이 전부 책으로 가득한 서재가 있었음. 문학적 가정환경에서 성장
[06:28] 인터넷이 생기며 “처음으로 정보 폭발”을 체감. 표현 욕구가 생김
[08:52] 느긋한 가정환경에서 자란 것이 자신의 ‘세계 모델’을 자랑스럽게 여기게 해줌

“[08:52] 이렇게 아주 느긋한 가정환경에서 자라난 게 제 ‘세계 모델’을… 상당히 자랑스럽게 여기게 해 줬다는 점입니다.”

[14:04] ACM반 면접에서 기술 질문 대신 “어떤 책을 좋아해서 읽는지” 물어봄
[14:23] 그 책이 『What Is Mathematics?』였다고 밝힘
[18:28] 연구의 목적은 “물타기식으로 논문을 찍어내는 게 아니라” 끝없는 미지에 대한 탐구

학술 유랑과 카이밍 허와의 우정 (52:05-1:02:44)

[52:05] 논문 채택/거절은 “엄청나게 큰 랜덤 과정”. 연구자가 신경 써야 할 일이 아니라고 봄
[52:36] 지도교수가 정말 open-minded해서 PhD 동안 인턴을 총 다섯 번 함 (NEC, Adobe, Meta, Google, DeepMind)
[53:17] AI/CV를 하고 싶었지만 동시에 “What if I’m wrong?”을 스스로에게 던짐
[54:50] 다섯 번 인턴 중 절반은 아무 성과도 못 냄. “아무것도 못 만들어내도 괜찮다”는 감각을 얻음
[57:47] 전환점: 허카이밍(ResNet 발명자)이 FAIR에 합류한 시점
[58:51] 카이밍에게는 “현실 왜곡 중력장” 같은 특별한 마력이 있음

“[59:00] 현실 왜곡 중력장이라고 부를 수도 있습니다.”

[01:00:32] 카이밍의 마력은 아주 평범한 것들을 금처럼 가치 있는 아이디어로 바꾸는 데 있음
[01:00:39] 함께 ResNeXt 작업을 하게 됨. ImageNet 챌린지 2등
[01:01:55] ResNeXt의 병렬 그룹 구조가 MoE(Mixture of Experts)와 비슷 — 이미 스케일링 행동을 관찰
[01:02:36] 이름의 유래: 카이밍이 “이건 Xie의 ResNet이다”라고 말함 (X = next + Xie)

일리야를 두 번 거절하다 / 얀 르쿤과 페이페이 리 (1:05:34-1:12:17)

[01:05:42] DeepMind 인턴이 자신에게 큰 영감을 줌
[01:06:06] RL을 직접 해보니 “매우 고통스러웠다”. 자신이 RL/로봇 연구를 좋아하지 않는다는 것을 깨달음
[01:07:06] DeepMind에 대해 “여기는 정말 다르다”고 느낌. 바텀업과 톱다운이 혼합된 조직 운영
[01:08:16] Demis의 답변: “DeepMind는 결국 여러 개의 노벨상을 받을 수 있는 회사가 될 것”

“[01:08:16] DeepMind는 결국 여러 개의 노벨상을 받을 수 있는 회사가 될 것입니다.”

[01:09:51] 박사 논문 제목: Deep Representation Learning with Induced Structural Priors
[01:10:16] 지금 하는 일도 결국 같은 문제의 연장선임을 깨달음
[01:11:13] 표현 학습을 “나무를 심는 것”에 비유. 표현(representation)은 뿌리, 다운스트림 응용은 가지
[01:12:15] 표상 학습은 기본적으로 딥러닝과 동치

“[01:12:15] 이건 기본적으로 딥러닝과 동치라고 볼 수 있습니다.”

숨겨진 단서: 표상의 세계 (1:12:17-2:43:53)

[01:12:34] 표상 학습: 데이터 x를 좋은 성질을 가진 공간으로 매핑하는 문제
[01:14:07] NAS(Neural Architecture Search)가 전체 분야를 2년 정도 지연시켰다는 업계 평가
[01:14:54] 표상(Representation)은 영속적이고 가장 근본적인 주제. NAS와 달리 아직 해결되지 않음

“[01:14:54] 표상(Representation)은 영속적인 주제입니다. 가장 근본적인 주제입니다.”

[01:15:15] ‘Deeply Supervised Nets’ 논문, NeurIPS에서 높은 점수(8,8,6)에도 거절. 사소한 수식 오타 때문
[01:16:37] 같은 논문이 AISTATS에서 Test of Time Award 수상. 연구는 장기적인 과정
[01:19:45] OpenAI 면접관은 존 슐먼. 5~6시간 동안 작은 방에서 A4 한 장짜리 손글씨 문제를 풀음
[01:20:10] OpenAI 오퍼가 있었지만 가지 않음. 2018년 — “양자역학이 뭔가 변하기 시작한 지점”
[01:26:31] LLM vs 비전은 갈등이 아니라 “하나의 유기체”
[01:26:56] LLM 발전이 없었다면 컴퓨터 비전이 이 수준까지 오지 못했을 것
[01:28:12] 세계 모델을 하는 이유 중 하나가 AI의 통제 가능성/안전

연구 취향과 금강경 (2:43:53-4:11:06)

[02:43:59] 카이밍 허가 입사 첫날 준 책은 연구 방법론이 아니라 『금강경』
[02:45:14] “일체의 상은 모두 허망하다” — 논문 뒤에 숨은 실질적인 것을 물어야 한다
[02:46:15] 연구자 미감의 근원은 “허무한 상”을 정말 내려놓을 수 있는지에 달림

“[02:45:14] 일체의 상은 모두 허망하다”

[02:47:13] 카이밍에게 논문 acceptance, 명성 같은 것들은 그의 world model 밖의 일
[02:47:55] 카이밍의 논문은 데드라인 한 달 전에 이미 완성. 나머지 한 달은 글자 하나, 문장부호까지 다듬기
[01:30:19] “리서치의 의미가 논문을 발표하는 데 있지 않다” — 다른 사람이 그걸 보고 할 일이 생기게 하는 것

월드 모델이란 무엇인가? (4:11:06-4:16:18)

[04:11:09] 종착점을 “세계 모델(world model)“이라고 부를 수 있음
[04:11:32] 세계 모델: 환경의 현재 상태 S_t와 행동 a_t를 받아 다음 상태를 예측하는 함수 F를 학습
[04:12:34] 1943년 Kenneth Craik이 처음 제안한 개념 — 인간의 뇌 안에 세계 모델이 존재
[04:13:09] 손을 불에 넣으면 아플 것을 예측하기 때문에 그렇게 하지 않음 — 이것이 세계 모델
[04:13:42] 제어 이론의 Model Predictive Control(MPC)에서도 오랫동안 사용된 개념
[04:15:35] Sutton의 Dyna: 반응형 정책(reactive policy) vs 모델 기반 정책(model-based policy)
[04:15:49] 인간 인지의 시스템 1 / 시스템 2와 연결

인터넷 다운로드에서 인류 다운로드로 (4:36:46-4:58:16)

[04:36:46] 현재 언어 모델은 비디오 생성 모델을 위한 “스캐폴딩(scaffolding)”
[04:37:00] P(y) → P(x|y)로 가면 핵심 대상이 라벨에서 데이터 자체로 이동
[04:38:17] P(x|y)에서 학습해야 하는 정보량(지능의 정보량)이 P(y)보다 훨씬 큼
[04:39:03] 이런 방향이 Bitter Lesson에 더 가까워진 것

“[04:40:10] 진짜 Bitter Lesson은 사람에게 보여줄 필요가 없다는 것입니다.”

[04:40:35] World Model의 핵심은 더 나은 표상을 학습하고 더 나은 예측을 하는 것. 멋진 영상 생성과는 무관
[04:41:05] 월드 모델은 특정 알고리즘이 아니라 “기술적 노선(technical trajectory)”
[04:41:55] “이해와 생성은 하나” — 둘 다 진짜 World Model이 기반으로 필요
[04:46:32] 뇌가 20W 전력으로 초당 10억 비트 입력을 받아 초당 10비트짜리 행동으로 변환 — 이것이 월드 모델이 하는 일
[04:47:36] 인터넷을 다운로드하던 시대에서 “인간을 다운로드하는 시대”로

“[04:48:01] 우리는 인간을 다운로드해야 합니다.”

[04:58:09] 세계 모델은 모두가 결국 도달하게 될 종착점

얀 르쿤과 AMI Labs 설립기 (4:58:16-5:45:20)

[04:58:16] 창업(월드 모델을 하기로 한 것)은 연구 커리어와는 완전히 다른 중대한 결정
[04:59:21] 학교에서의 “중간급 논문 함정” — 자원 제약 때문에 아이디어가 돌파구로 연결되기 어려움
[05:00:42] 얀 르쿤과의 1:1 미팅에서 오히려 얀이 먼저 창업 의지를 밝힘

“[05:01:03] 나는 창업해서 회사를 세우고 싶다.”

[05:01:18] 하려는 일이 “내가 상상하던 것과 완전히 일치” — 세계 모델
[05:01:43] 여전히 연구적 성향이 강하지만 순수 학술도, 폐쇄적 기업도 아닌 새로운 위치
[05:12:44] 좋은 제품을 만들려면 먼저 삶을 사랑해야 함. AI를 사람들에게 억지로 씌우면 안 됨

“[05:12:44] 좋은 제품을 만들고 싶다면, 먼저 삶을 사랑해야 합니다.”

[05:26:28] “역(逆) OpenAI”를 만들고 싶음 — 인터넷 다운로드 지름길이 아닌, 세계와 함께하는 험난한 길
[05:27:25] “월드 모델에는 세계가 필요합니다” — 풀뿌리 동맹으로 모델을 함께 공동 구축
[05:28:51] 첫날부터 사무소 네 곳: 파리(본사), 뉴욕, 몬트리올, 싱가포르
[05:30:53] 월드 모델 서사는 탈중앙적이고 분산적이며, 자연스럽게 독점에 저항
[05:33:25] 얀이 반대하는 것은 LLM 자체가 아니라 “LLM이 인간 수준 지능으로 이어질 수 있다”는 서사
[05:34:44] JEPA의 핵심: 범용 모델은 모든 것을 기억/재구성할 수 없으므로 추상적 표상 공간에서 예측해야 함
[05:37:14] 꼭 읽으라고 권하는 논문: 「A Path Towards Autonomous Machine Intelligence」(Yann LeCun)

실리콘밸리는 최면에 걸렸다 (5:45:52-6:07:16)

[05:46:56] 실리콘밸리가 “거대 언어 모델에 최면이 걸려 있다”. 이 최면은 오래가지 않을 것
[05:47:34] 얀 르쿤에게 끌리는 이유: 정말 다재다능함

“[05:47:44] Yann은 16살 사춘기가 65살까지 이어진 사람이라고 합니다.”

[05:49:24] 새 논문 이름 “Solaris” — 타르코프스키의 영화에서 영감. LLM이 인간의 투사/반사일 수 있다는 질문
[05:53:15] 언더독 정체성을 즐김. “여러분이 저를 더 믿지 않을수록 저는 더 기분이 좋습니다”
[05:54:23] 스키 비유: 경사를 마주하면 두려움 없이 아래로 향할 때 오히려 안정적

“[05:55:13] ‘인류의 찬가는 용기의 찬가’라고 말합니다.” — JoJo의 기묘한 모험

[05:55:45] 창업에도 학교에서도 용기가 필요. “당신이 결코 혼자 걷지는 않을 것”

인류의 오만 / 42 (6:07:16-6:44:23)

[06:07:44] “AGI는 가짜 명제” — Yann LeCun도 자주 하는 말
[06:08:40] 인간 지능은 매우 특수화된(specialized) 지능. 의식의 제약과 신경 대역폭 제약을 받음
[06:08:52] 추천 도서: Are We Smart Enough to Know How Smart Animals Are — 읽고 “인간의 오만”을 내려놓게 됨
[06:09:06] 지능의 진화는 불연속이 아니라 연속적인 과정
[06:10:25] 침팬지도 theory of mind(마음 이론)를 가질 수 있음 — 동물도 자기만의 세계 모델을 가질 수 있음
[06:12:25] World model을 구축해 human-like intelligence로 나아가되, 인간의 오만함은 버리고 싶음

“[06:07:44] AGI는 가짜 명제입니다.”

[06:27:31] 매일 5~10분 뉴욕 거리를 걸으며 깨닫는 것: “세상은 우리가 상상하는 것보다 훨씬 더 큼”
[06:28:00] 연구자에게 전하고 싶은 조언: “사람들과 더 많이 접촉하라”
[06:39:50] “비트겐슈타인을 놓아 주세요” — 명언을 논문에 끌어다 쓰는 방식에 대한 비판
[06:41:18] 후기 비트겐슈타인의 핵심: 언어는 게임이며, 의미는 현실 세계의 실천과 관계를 맺을 때 생김
[06:42:53] 파인먼의 “what I cannot create, I do not understand”를 단순한 unified system 정당화로 쓰는 건 부당
[06:43:58] “이 세계는 당연히 거대한 세계 모델”이지만 운명은 예측 못 함
[06:44:09] 우주 전체를 컴퓨터로 삼아야 답에 도달할 수 있고, 그 답이 결국 “42”일지도 모른다

“[06:44:23] 그 답이 결국 42일지도 모릅니다.”