도입 — 평범한 사람 (00:00-35:39)
- [00:38] 인터뷰 대상자는 중국계 젊은 과학자 셰사이닝. 튜링상 수상자 얀 르쿤과 함께 AMI Labs를 설립
- [00:51] AMI Labs가 첫 번째 초대형 투자를 완료, 현재 팀 규모 25명
- [00:56] 셰사이닝은 자신이 “선택받은 사람”이 아니라고 늘 말해왔음
“[00:56] 자신은 선택받은 사람이 아니라고요.”
- [05:44] 아버지 집에 벽 몇 면이 전부 책으로 가득한 서재가 있었음. 문학적 가정환경에서 성장
- [06:28] 인터넷이 생기며 “처음으로 정보 폭발”을 체감. 표현 욕구가 생김
- [08:52] 느긋한 가정환경에서 자란 것이 자신의 ‘세계 모델’을 자랑스럽게 여기게 해줌
“[08:52] 이렇게 아주 느긋한 가정환경에서 자라난 게 제 ‘세계 모델’을… 상당히 자랑스럽게 여기게 해 줬다는 점입니다.”
- [14:04] ACM반 면접에서 기술 질문 대신 “어떤 책을 좋아해서 읽는지” 물어봄
- [14:23] 그 책이 『What Is Mathematics?』였다고 밝힘
- [18:28] 연구의 목적은 “물타기식으로 논문을 찍어내는 게 아니라” 끝없는 미지에 대한 탐구
학술 유랑과 카이밍 허와의 우정 (52:05-1:02:44)
- [52:05] 논문 채택/거절은 “엄청나게 큰 랜덤 과정”. 연구자가 신경 써야 할 일이 아니라고 봄
- [52:36] 지도교수가 정말 open-minded해서 PhD 동안 인턴을 총 다섯 번 함 (NEC, Adobe, Meta, Google, DeepMind)
- [53:17] AI/CV를 하고 싶었지만 동시에 “What if I’m wrong?”을 스스로에게 던짐
- [54:50] 다섯 번 인턴 중 절반은 아무 성과도 못 냄. “아무것도 못 만들어내도 괜찮다”는 감각을 얻음
- [57:47] 전환점: 허카이밍(ResNet 발명자)이 FAIR에 합류한 시점
- [58:51] 카이밍에게는 “현실 왜곡 중력장” 같은 특별한 마력이 있음
“[59:00] 현실 왜곡 중력장이라고 부를 수도 있습니다.”
- [01:00:32] 카이밍의 마력은 아주 평범한 것들을 금처럼 가치 있는 아이디어로 바꾸는 데 있음
- [01:00:39] 함께 ResNeXt 작업을 하게 됨. ImageNet 챌린지 2등
- [01:01:55] ResNeXt의 병렬 그룹 구조가 MoE(Mixture of Experts)와 비슷 — 이미 스케일링 행동을 관찰
- [01:02:36] 이름의 유래: 카이밍이 “이건 Xie의 ResNet이다”라고 말함 (X = next + Xie)
일리야를 두 번 거절하다 / 얀 르쿤과 페이페이 리 (1:05:34-1:12:17)
- [01:05:42] DeepMind 인턴이 자신에게 큰 영감을 줌
- [01:06:06] RL을 직접 해보니 “매우 고통스러웠다”. 자신이 RL/로봇 연구를 좋아하지 않는다는 것을 깨달음
- [01:07:06] DeepMind에 대해 “여기는 정말 다르다”고 느낌. 바텀업과 톱다운이 혼합된 조직 운영
- [01:08:16] Demis의 답변: “DeepMind는 결국 여러 개의 노벨상을 받을 수 있는 회사가 될 것”
“[01:08:16] DeepMind는 결국 여러 개의 노벨상을 받을 수 있는 회사가 될 것입니다.”
- [01:09:51] 박사 논문 제목: Deep Representation Learning with Induced Structural Priors
- [01:10:16] 지금 하는 일도 결국 같은 문제의 연장선임을 깨달음
- [01:11:13] 표현 학습을 “나무를 심는 것”에 비유. 표현(representation)은 뿌리, 다운스트림 응용은 가지
- [01:12:15] 표상 학습은 기본적으로 딥러닝과 동치
“[01:12:15] 이건 기본적으로 딥러닝과 동치라고 볼 수 있습니다.”
숨겨진 단서: 표상의 세계 (1:12:17-2:43:53)
- [01:12:34] 표상 학습: 데이터 x를 좋은 성질을 가진 공간으로 매핑하는 문제
- [01:14:07] NAS(Neural Architecture Search)가 전체 분야를 2년 정도 지연시켰다는 업계 평가
- [01:14:54] 표상(Representation)은 영속적이고 가장 근본적인 주제. NAS와 달리 아직 해결되지 않음
“[01:14:54] 표상(Representation)은 영속적인 주제입니다. 가장 근본적인 주제입니다.”
- [01:15:15] ‘Deeply Supervised Nets’ 논문, NeurIPS에서 높은 점수(8,8,6)에도 거절. 사소한 수식 오타 때문
- [01:16:37] 같은 논문이 AISTATS에서 Test of Time Award 수상. 연구는 장기적인 과정
- [01:19:45] OpenAI 면접관은 존 슐먼. 5~6시간 동안 작은 방에서 A4 한 장짜리 손글씨 문제를 풀음
- [01:20:10] OpenAI 오퍼가 있었지만 가지 않음. 2018년 — “양자역학이 뭔가 변하기 시작한 지점”
- [01:26:31] LLM vs 비전은 갈등이 아니라 “하나의 유기체”
- [01:26:56] LLM 발전이 없었다면 컴퓨터 비전이 이 수준까지 오지 못했을 것
- [01:28:12] 세계 모델을 하는 이유 중 하나가 AI의 통제 가능성/안전
연구 취향과 금강경 (2:43:53-4:11:06)
- [02:43:59] 카이밍 허가 입사 첫날 준 책은 연구 방법론이 아니라 『금강경』
- [02:45:14] “일체의 상은 모두 허망하다” — 논문 뒤에 숨은 실질적인 것을 물어야 한다
- [02:46:15] 연구자 미감의 근원은 “허무한 상”을 정말 내려놓을 수 있는지에 달림
“[02:45:14] 일체의 상은 모두 허망하다”
- [02:47:13] 카이밍에게 논문 acceptance, 명성 같은 것들은 그의 world model 밖의 일
- [02:47:55] 카이밍의 논문은 데드라인 한 달 전에 이미 완성. 나머지 한 달은 글자 하나, 문장부호까지 다듬기
- [01:30:19] “리서치의 의미가 논문을 발표하는 데 있지 않다” — 다른 사람이 그걸 보고 할 일이 생기게 하는 것
월드 모델이란 무엇인가? (4:11:06-4:16:18)
- [04:11:09] 종착점을 “세계 모델(world model)“이라고 부를 수 있음
- [04:11:32] 세계 모델: 환경의 현재 상태 S_t와 행동 a_t를 받아 다음 상태를 예측하는 함수 F를 학습
- [04:12:34] 1943년 Kenneth Craik이 처음 제안한 개념 — 인간의 뇌 안에 세계 모델이 존재
- [04:13:09] 손을 불에 넣으면 아플 것을 예측하기 때문에 그렇게 하지 않음 — 이것이 세계 모델
- [04:13:42] 제어 이론의 Model Predictive Control(MPC)에서도 오랫동안 사용된 개념
- [04:15:35] Sutton의 Dyna: 반응형 정책(reactive policy) vs 모델 기반 정책(model-based policy)
- [04:15:49] 인간 인지의 시스템 1 / 시스템 2와 연결
인터넷 다운로드에서 인류 다운로드로 (4:36:46-4:58:16)
- [04:36:46] 현재 언어 모델은 비디오 생성 모델을 위한 “스캐폴딩(scaffolding)”
- [04:37:00] P(y) → P(x|y)로 가면 핵심 대상이 라벨에서 데이터 자체로 이동
- [04:38:17] P(x|y)에서 학습해야 하는 정보량(지능의 정보량)이 P(y)보다 훨씬 큼
- [04:39:03] 이런 방향이 Bitter Lesson에 더 가까워진 것
“[04:40:10] 진짜 Bitter Lesson은 사람에게 보여줄 필요가 없다는 것입니다.”
- [04:40:35] World Model의 핵심은 더 나은 표상을 학습하고 더 나은 예측을 하는 것. 멋진 영상 생성과는 무관
- [04:41:05] 월드 모델은 특정 알고리즘이 아니라 “기술적 노선(technical trajectory)”
- [04:41:55] “이해와 생성은 하나” — 둘 다 진짜 World Model이 기반으로 필요
- [04:46:32] 뇌가 20W 전력으로 초당 10억 비트 입력을 받아 초당 10비트짜리 행동으로 변환 — 이것이 월드 모델이 하는 일
- [04:47:36] 인터넷을 다운로드하던 시대에서 “인간을 다운로드하는 시대”로
“[04:48:01] 우리는 인간을 다운로드해야 합니다.”
- [04:58:09] 세계 모델은 모두가 결국 도달하게 될 종착점
얀 르쿤과 AMI Labs 설립기 (4:58:16-5:45:20)
- [04:58:16] 창업(월드 모델을 하기로 한 것)은 연구 커리어와는 완전히 다른 중대한 결정
- [04:59:21] 학교에서의 “중간급 논문 함정” — 자원 제약 때문에 아이디어가 돌파구로 연결되기 어려움
- [05:00:42] 얀 르쿤과의 1:1 미팅에서 오히려 얀이 먼저 창업 의지를 밝힘
“[05:01:03] 나는 창업해서 회사를 세우고 싶다.”
- [05:01:18] 하려는 일이 “내가 상상하던 것과 완전히 일치” — 세계 모델
- [05:01:43] 여전히 연구적 성향이 강하지만 순수 학술도, 폐쇄적 기업도 아닌 새로운 위치
- [05:12:44] 좋은 제품을 만들려면 먼저 삶을 사랑해야 함. AI를 사람들에게 억지로 씌우면 안 됨
“[05:12:44] 좋은 제품을 만들고 싶다면, 먼저 삶을 사랑해야 합니다.”
- [05:26:28] “역(逆) OpenAI”를 만들고 싶음 — 인터넷 다운로드 지름길이 아닌, 세계와 함께하는 험난한 길
- [05:27:25] “월드 모델에는 세계가 필요합니다” — 풀뿌리 동맹으로 모델을 함께 공동 구축
- [05:28:51] 첫날부터 사무소 네 곳: 파리(본사), 뉴욕, 몬트리올, 싱가포르
- [05:30:53] 월드 모델 서사는 탈중앙적이고 분산적이며, 자연스럽게 독점에 저항
- [05:33:25] 얀이 반대하는 것은 LLM 자체가 아니라 “LLM이 인간 수준 지능으로 이어질 수 있다”는 서사
- [05:34:44] JEPA의 핵심: 범용 모델은 모든 것을 기억/재구성할 수 없으므로 추상적 표상 공간에서 예측해야 함
- [05:37:14] 꼭 읽으라고 권하는 논문: 「A Path Towards Autonomous Machine Intelligence」(Yann LeCun)
실리콘밸리는 최면에 걸렸다 (5:45:52-6:07:16)
- [05:46:56] 실리콘밸리가 “거대 언어 모델에 최면이 걸려 있다”. 이 최면은 오래가지 않을 것
- [05:47:34] 얀 르쿤에게 끌리는 이유: 정말 다재다능함
“[05:47:44] Yann은 16살 사춘기가 65살까지 이어진 사람이라고 합니다.”
- [05:49:24] 새 논문 이름 “Solaris” — 타르코프스키의 영화에서 영감. LLM이 인간의 투사/반사일 수 있다는 질문
- [05:53:15] 언더독 정체성을 즐김. “여러분이 저를 더 믿지 않을수록 저는 더 기분이 좋습니다”
- [05:54:23] 스키 비유: 경사를 마주하면 두려움 없이 아래로 향할 때 오히려 안정적
“[05:55:13] ‘인류의 찬가는 용기의 찬가’라고 말합니다.” — JoJo의 기묘한 모험
- [05:55:45] 창업에도 학교에서도 용기가 필요. “당신이 결코 혼자 걷지는 않을 것”
인류의 오만 / 42 (6:07:16-6:44:23)
- [06:07:44] “AGI는 가짜 명제” — Yann LeCun도 자주 하는 말
- [06:08:40] 인간 지능은 매우 특수화된(specialized) 지능. 의식의 제약과 신경 대역폭 제약을 받음
- [06:08:52] 추천 도서: Are We Smart Enough to Know How Smart Animals Are — 읽고 “인간의 오만”을 내려놓게 됨
- [06:09:06] 지능의 진화는 불연속이 아니라 연속적인 과정
- [06:10:25] 침팬지도 theory of mind(마음 이론)를 가질 수 있음 — 동물도 자기만의 세계 모델을 가질 수 있음
- [06:12:25] World model을 구축해 human-like intelligence로 나아가되, 인간의 오만함은 버리고 싶음
“[06:07:44] AGI는 가짜 명제입니다.”
- [06:27:31] 매일 5~10분 뉴욕 거리를 걸으며 깨닫는 것: “세상은 우리가 상상하는 것보다 훨씬 더 큼”
- [06:28:00] 연구자에게 전하고 싶은 조언: “사람들과 더 많이 접촉하라”
- [06:39:50] “비트겐슈타인을 놓아 주세요” — 명언을 논문에 끌어다 쓰는 방식에 대한 비판
- [06:41:18] 후기 비트겐슈타인의 핵심: 언어는 게임이며, 의미는 현실 세계의 실천과 관계를 맺을 때 생김
- [06:42:53] 파인먼의 “what I cannot create, I do not understand”를 단순한 unified system 정당화로 쓰는 건 부당
- [06:43:58] “이 세계는 당연히 거대한 세계 모델”이지만 운명은 예측 못 함
- [06:44:09] 우주 전체를 컴퓨터로 삼아야 답에 도달할 수 있고, 그 답이 결국 “42”일지도 모른다
“[06:44:23] 그 답이 결국 42일지도 모릅니다.”