EP.3 28:56

AMI Labs, World Labs의 월드모델 기술 분석

액션 조건부 월드모델과 다른 길을 택한 AMI Labs의 JEPA 기반 latent world model, World Labs의 3D spatial world model을 비교합니다.

#월드모델#JEPA#World Labs#로보틱스

요약

  • 로보틱스에서 말하는 월드모델은 현재 상태와 에이전트의 액션을 조건으로 다음 상태를 예측해 폴리시나 VLA 모델을 학습시키는 수단으로 설명된다.
  • AMI Labs는 Yann LeCun의 JEPA 철학을 바탕으로 픽셀을 직접 생성하기보다 임베딩 공간에서 미래 상태를 예측하는 latent world model 방향을 택한다.
  • World Labs는 Fei-Fei Li와 Justin Johnson이 이끄는 3D spatial world model 회사로, Marble 같은 제품과 디지털 트윈·VR·게임·로봇 시뮬레이션 응용이 더 명확하게 보인다.

핵심 인사이트

  • 월드모델을 비교할 때는 픽셀 비디오 생성, latent embedding prediction, 3D 공간 재구성이 서로 다른 문제 정의라는 점을 먼저 구분해야 한다.
  • JEPA 기반 접근은 좋은 인코더를 만들겠다는 낭만과 잠재력이 있지만, 목표 이미지 필요성, 액션 샘플링, 큰 자유도에서의 실용성 문제가 남아 있다.
  • World Labs식 공간 월드모델은 시간과 액션 조건부 예측보다는 정적인 공간 생성에 가깝지만, 디지털 트윈과 시뮬레이션 데이터 생성에는 즉각적인 용처가 있다.

왜 이 영상을 봐야 하나

같은 “월드모델”이라는 이름을 쓰더라도 실제로는 서로 다른 목표를 가질 수 있습니다. 이 에피소드는 로보틱스에서 자주 말하는 액션 조건부 월드모델을 기준점으로 삼고, AMI Labs의 JEPA 기반 latent world model과 World Labs의 3D spatial world model이 무엇을 다르게 정의하는지 분해합니다.

주요 메모

  • 로보틱스 맥락의 월드모델은 시뮬레이터를 뉴럴넷으로 대체해, 현재 관측과 액션이 주어졌을 때 다음 상태를 예측하고 에이전트나 폴리시 학습에 쓰려는 접근입니다.
  • 비디오 생성 기반 월드모델은 유체, 머리카락, 옷처럼 시뮬레이션으로 만들기 까다로운 물리 현상과 코너 케이스를 생성할 수 있다는 기대가 있지만, 네비게이션 중심이거나 액션 스페이스가 작고 속도가 느린 한계가 있습니다.
  • AMI Labs는 Yann LeCun의 LLM 비판과 JEPA 철학 위에서, 픽셀을 생성하는 대신 좋은 임베딩 공간을 학습하고 그 공간에서 미래 상태를 예측하는 방향을 제시합니다.
  • JEPA 기반 플래닝은 목표 이미지가 있다고 가정하고 여러 액션을 샘플링한 뒤 목표 임베딩에 가까운 후보를 좁혀 가는 방식으로 설명됩니다. 작은 자유도에서는 가능성을 보일 수 있지만, 복잡한 태스크나 큰 액션 스페이스에서는 실용성 의문이 남습니다.
  • World Labs는 액션 조건부 예측보다는 NeRF나 3D Gaussian Splatting 계열의 공간 생성·재구성에 가까운 회사로 소개됩니다. Marble처럼 사용자가 공간을 돌아다닐 수 있는 제품과 디지털 트윈, VR, 게임, 로봇 시뮬레이션 데이터 생성이 핵심 응용으로 언급됩니다.

검색 키워드

월드모델, JEPA, Latent World Model, World Labs, 3D Spatial World Model, 로보틱스, 디지털 트윈

YouTube captions

전체 Transcription

원문 캡션을 보존한 구조화 transcriptSegments에서 읽기용 문장만 렌더링합니다.

00:00–01:30 ↗

오늘은 우리가 또 월드모델을 얘기할 건데, 기존에 우리가 로보틱스 쪽 어플리케이션에서 많이 말했던 월드모델이 아닌 다른 종류의 두 월드모델이 있는데, 특히 이 두 월드모델은 이제 교수님들이 각각 창업을 했어요. 그래서 World Labs라는 곳과 AMI라는 곳인데, 이 월드모델 각각의 월드모델에 대해서도 우리가 오늘 알아보도록 하겠습니다. 우리가 말하는 월드모델부터 좀 다시 얘기해 보자면은 저희는 이걸 얘기를 많이 해요. 그러니까 Action-Conditioned된 월드모델이에요. 즉 무슨 말이냐면은 지금의 스테이트, 지금의 상황에서 에이전트가 어떤 액션을 했을 때 어떤 미래가 펼쳐지냐를 보여주는 게 월드모델이다. 근데 이 월드모델을 이렇게 정의하는 이유가 애초에 강화학습 같은 거에서 많이 쓰는 건데, 이런 그림을 많이 보셨을 거예요. 에이전트가 이제 이 환경에서 보상을 받아 가지고 더 좋은 폴리시를 이제 익스플로레이션 하는 그런 환경인데, 이 에이전트는 액션을 아웃풋을 하고요. 그 액션을 아웃풋을 받아서 인바이런먼트가 이 어떤 환경이 되는지 이제 보여주죠. 보통 우리가 이건 시뮬레이터겠죠. 그래서 그다음에 옵저베이션을 보여주고, 어 여기서 한 수 더 떠서 이제 우리가 리워드 펑션 같은 거를 정의하면은 어떤 리턴, 어떤 리워드 이런 것들을 이제 정의를 해 줄 수 있고, 그걸 에이전트가 받아서 아 이걸 내가 잘했다 못했다라는 거를 지금 옵저베이션에 컨디션 돼 가지고 이제 그다음 액션을 또 출력하는 거예요. 그게 이게 뺑뺑이 돌아가는 거겠죠. 그래서 이런 맥락에서 우리가 에이전트, 인바이런먼트 이렇게 생각하고 있고, 이 로보틱스 쪽에서는 이 에이전트가 폴리시 아니면 이제 Vision-Language-Action 모델, 뭐 이런 것들, 액션을 출력하는 모델들을 에이전트라고 생각을 하면 되고, 그다음에 이 인바이런먼트 역할에 사실 원래 이제 원래처럼 시뮬레이터라고 생각을 해도 돼요.

01:30–03:00 ↗

실제로 이제 이 시뮬레이터 환경에서 강화학습을 통해서 더 좋은 폴리시를 만들어내는 알고리즘, 예를 들어서 알파고 같은 거, 알파제로 뭐 이런 강화학습, 예를 들어서 로코모션 같은 것도 이제 Isaac Sim 같은 이런 시뮬레이터 환경에서 더 좋은 보행법을 찾아내는 거잖아요. 근데 여기서 이거를 시뮬레이터에서 뉴럴넷으로 이제 바꾸고 싶은 거죠. 그게 즉 월드모델인 거고. 왜 그러냐? 이 시뮬레이터보다 훨씬 더 뭔가 더 사실적이고 더 제너럴한 환경을 제공할 수 있다라는 기대감이에요. 시뮬레이터는 생각보다 노동이 많이 필요해요. 이 리얼에 가까운 시뮬레이션 환경을 만들어야 되니까 이 피직스들을 잘 반영해 줘야 되고, 이 시뮬레이션 에셋도 만들어 줘야 되고, 그런 환경에서 이제 에이전트를 학습하는데 모든 환경에 대해서 또 시뮬레이션으로 만들어 주는 게 좀 까다로우니까, 노가다가 많으니까. 근데 우리가 요새 보고 있는 비디오 모델들을 보시면 비디오 엄청 잘 만들잖아요. 파도치는 바다를 보여주면 그 파도가 막 되게 사실적으로 유체역학을 뭔가 학습한 것 마냥 이제 그걸 보여주는데, 그러니까 이제 이 픽셀을 출력할 수 있는 이 월드모델에 대한 기대감이 좀 많이 높아지는 거죠. 원래 이제 만드는 게 어려운 것도 어려운 건데, 피직스를 기반으로 한 시뮬레이션으로는 절대 안 되는 것들이 좀 있잖아요. 예를 들어서요? 머리카락, 유체, 뭐 이런 것들, 모래, 뭐 이런 거. 특히 Deformable Object 같은 걸 다룰 때. 그래서 많은 로봇 회사들이 이제 티셔츠를 접는 걸 막 보여준단 말이에요. 왜냐면 티셔츠가 Deformable하니까 이 시뮬레이션 환경에서 하는 게 꽤 어려워요. 이 옷에 그 뭔가 접힘 같은 거 시뮬레이션하는 게 어려우니까.

03:00–04:30 ↗

그래서 어 이게 리얼에서 실제로 돌아가는 알고리즘이다라면서 이제 막 티셔츠를 접고 있는데, 이 월드모델에서는 이 뉴럴넷으로 이제 티셔츠가 접히는 걸 좀 잘 출력할 수 있으니까, 픽셀로 이걸 잘 만들어 낼 수 있으니까 뉴럴넷 기반 환경의 월드모델에 대한 기대감이 많이 있는 상황인 거거든요. 저희가 월드모델에 대해서 한번 복습, 우리가 왜 월드모델을 이렇게 중요하게 생각하는가. 그렇죠. 복습 잘 해주신 거 같고요. 그래서 우리가 생각하는 중요한 그 월드모델은 결국은 이 에이전트를 잘 학습시키기 위한 수단으로서예요. 이 월드모델이 목적이 아니고, 이건 수단이고, 이 월드모델을 통해서 이 에이전트, 즉 폴리시라는 폴리시 아니면 Vision-Language-Action 모델들을 잘 학습시키기 위해서 만든 거거든요. 그래서 이제 우리가 많이 말한 Waymo나 Google DeepMind나 NVIDIA 1X 이런 쪽에서의 어플리케이션은 Video (Pixel) Generative Models 기반의 월드모델들을 보여주고 있어요. 근데 이거 저희가 하도 많이 다뤘으니까 그냥 요약만 하자면은 대부분이 비디오 기반의 월드모델들이고요. 이 비디오 디퓨전 모델들이 시뮬레이션 기반보다 이 복잡한 물리 현상 및 일반화 능력을 보여주고 있기 때문에 이 기대감이 높은 거죠. 뭐 예를 들어서 이제 그 코너 케이스 같은 것도 만들어 줄 수 있는 거죠. 뭐 Waymo 같은 경우에는 이 도로 위에 코끼리가 나타난 상황을 막 월드모델로 보여주거든요. 근데 이 도로 위에 코끼리가 나타난 상황을 뭐 시뮬레이터로 만들어도 되긴 하지만 뭐 조금 귀찮다. 귀찮다? 뭐 말도 안 되게 어렵죠. 왜냐하면 도로 위에 코끼리가 나타날 수도 있고 얼룩말이 나타날 수도 있고, 뭐 뭐가 나타날 수도 있는데, 그런 거를 다 우리가 시뮬레이션 만드는 거는 비용이

04:30–06:00 ↗

수지타산은 절대 안 맞는 일이고, 월드모델은 그냥 딸깍하면 만들어지니까, 좋은 월드모델이 있다면 그렇죠. 그래서 아까 말씀드린 것처럼 이런 에이전트들이 이 월드모델 상에 플레이해서 이제 다음 액션 스테이트, 다음 스테이트를 월드모델이 이제 다시 에이전트한테 주는 거고요. 근데 이 월드모델들의 지금의 한계는 대부분이 네비게이션 같은 거예요. 네비게이션을 위한 월드모델. 본질적으로 어떤 물체와 인터랙션이 없는 컨택을 피해야 되는 상황들. 아니면은 이 액션이 Action-Conditioned된 이 월드모델들의 이 액션의 스페이스가 굉장히 작아요. 그냥 방향키라든지, 아니면은 로봇 암이라고 치면 7-DOF 정도, 그냥 이제 한 팔 정도. 그걸로 뭐 오브젝트 인터랙션 하는 정도예요. 이 정도만 하고, 그리고 이제 비디오 기반의 월드모델이다 보니까 상당히 느려요. 여기까지만 하죠. 그러니까 네비게이션이랑 매니퓰레이션 얘기 조금만 더 하고 넘어가자면, 첨언을 하자면, 사실 동물들을 생각해 보면은 저는 좀 비유가 좋은 거 같은데, 네비게이션을 할 수 있는 동물들은 엄청 많거든요. 모든 동물들이 다 잘 돌아다녀요. 근데 이 매니퓰레이션, 우리 사람처럼 이 손으로 뭔가 조작하고 이런 걸 할 수 있는 동물들이 진짜 별로 없거든요. 그런 걸 생각해 보면 아직 우리의 어떤 저 한계가 그 정도 수준에 있다. 이제 인간 수준의 무언가를 하려고 월드모델도 준비를 하고 있다. 뭐 이렇게 볼 수도 있을 것 같아요. 그리고 뭐 Krafton이나 General Intuition도 비슷한데, 이 픽셀 기반의 월드모델을 할 것 같긴 한데, 먼저 게임이랑 시뮬레이션에서 학습을 많이 하겠다는 것 같아요.

06:00–07:30 ↗

본질적으로 게임도 어떻게 보면 시뮬레이션 환경인 거잖아요. Krafton 같은 경우에는 Ludo Robotics라는 이제 미국의 휴머노이드 자회사를 만들었고요. 그리고 여기서도 얘기하는 게 이 general-purpose robotic intelligence를 만들겠다. 뭐 이런 얘기를 해요, Krafton은. 그 게임에서 시뮬레이션 환경에서 월드모델 만들어서 그걸 로봇에다가 어 배포를 하겠다. 그래서 보통 이제 아마 General Intuition도 비슷하지만 언리얼, 뭐 게임 엔진, 뭐 이런 환경에서 만들겠죠. 이 게임이란 환경 자체가 어떻게 보면은 이 플레이어들이 다 그 모바일 학습을 할 수 있는 그 키로거들 데이터들을 이제 줄 수 있는 거잖아요. 그러니까 우리가 보통 로보틱스에서 로봇에 뭐 무언가 가르칠 때 결국 텔레오퍼레이션으로 많이 학습을 시키는데, 곧 모바일 학습을 위한 데이터셋인데, 이 본질적으로 게임 환경은 사람들이 이 콘텐츠를 즐기면서 어 모바일 학습을 할 수 있는 데이터셋을 많이 줘요. 그게 이제 또 하나가 General Intuition라는 회사인데, 여기서도 이 비디오 게임에서 사람들이 많이 플레이하는 그런 것들을 따라서 키로거를 수집하지는 않지만, 이 예를 들어서 엑박 패드에서 이제 어떻게 컨트롤했는지 같은 거를 캡처를 해 가지고 그 액션을 딴 다음에 이걸로 월드모델 그리고 폴리시를 만들어 내거든요. 그리고 이 회사는 이미 Medal이라는 그 게임 클립 공유 사이트를 보유하고 있는 곳에서 이 월드모델 만들겠다고 스핀오프를 만든 데가 이만큼 투자를 받았다. 이것도 저희가 저번에 얘기했으니까 관련 영상 보시면 좋을 것 같고요. 사실 오늘 주제로 다뤄야 되는 거는 이제 이 두 회사예요. Yann LeCun 교수님의 AMI라는 회사와 Fei-Fei Li 교수의 World Labs라는 회사. 이 Yann LeCun 교수님이 하고 있는 AMI에서는

07:30–09:00 ↗

JEPA 기반 Latent World Model을 한다고 해요. 정확히 이렇게 워딩하지 않지만 제가 이렇게 워딩을 했어요. 왜냐면 그냥 월드모델이라고 다들 주장하기 때문에 어떤 월드모델이냐를 이제 알려주고 싶으니까. Latent World Model을 하겠다는 건데, 이 Latent를 JEPA 베이스드로 만들겠다는 거예요. 그래서 Yann LeCun이 이제 메타를 퇴사한 다음에 이제 JEPA 기반의 Embedding Space 월드모델로 AGI를 만들겠다. 그리고 여기에 목적은 AGI를 만들겠다는 거예요. 아시겠지만 Yann LeCun 교수님은 LLM을 엄청 싫어해요. 원래 컴퓨터 비전의 구루인데 뭔가 질투인가? 아니 질투인 거 같아, 나는 사실. 이 생각보다 이제 Natural Language Processing에서 이 LLM 이런 것들이 굉장히 우리가 소위 말하는 AGI라고 지금 생각을 하고 있잖아요. AGI가 아마 달성되면 이 LLM 기반이지 않을까라고 생각을 많이 하잖아요. 근데 여기에서 이제 Yann LeCun 교수님은 좀 긁히신 거 같아요. 그러니까 이 JEPA 기반의 Embedding Space 월드모델로 AGI를 만들겠다라고 이제 뭔가 얘기를 하시는 거 같아요. 근데 이거는 과장을 한 게 아니라 실제로 LLM을 많이 비판하세요. 그 어록부터 먼저 말씀을 드리자면 그래서 24년 4월부터 그때부터 떼야 된다고 하셨어요. Autoregressive한 모델은 이 에러를 누적하니까 안 된다. 뭐 이런 식으로 말씀하셨는데 어.. 잘 되죠? 그러면 이미 어느 정도 좀 GPT-4도 나오고 어느 정도 됐을 때도 이렇게 말씀하신 거예요. 그래서 뭐 past the superintelligence via LLMs is completely bullshit. 이게 또 되게 센 표현도 쓰이세요. 그래서 저는 Yann LeCun 교수님을 어떤 캐릭터가 있다고 생각하시고 이렇게 비판 많이 하시면 비판을 받는 것도 당연하다고 생각을 해요. 그만큼 이제 자신 있으신 거니까 Yann LeCun이 뭘 하는지 한번 얘기를 해보죠.

09:00–10:30 ↗

그래서 이 회사는 만들어진 지 벌써 3개월이 됐네. 그리고 펀딩은 $1.03B seed, $3.5B 밸류에이션이니까 오 조? 6조? 네, 그리고 핫하게 분야는 이런 분야에서 AGI를 만들겠다. 이 구성원을 보시면은 어 저는 사실 Saining Xie가 여기 있다는 게 어 되게 고무적이에요. 저는 이분 되게 좋은 거 같아요, Saining Xie. Saining Xie의 중국에서 7시간짜리 팟캐스트가 올라왔는데, 어떤 생각을 가지고 그걸 만들었는지, 진짜 도저히 못 보겠어서 못 봤거든요. 관심 있으신 분들은 꼭 보시는 거 추천드립니다. 제가 ChatGPT한테 한번 지금 Saining Xie의 업적들을 나열해 보라고 한번 시켜보겠습니다. 이게 되게 유명한 논문들을 많이 하셨어요. 이 컴퓨터 비전계에서. 물론 Yann LeCun은 또 하시긴 했는데, 솔직히 실용적으로, Practical하게는 Saining Xie가 더 좋은 논문들을 많이 남기시긴 했어요. 제 생각에는. 어, 이렇게 생기셨네요. MAE, Masked Autoencoder 이걸 하셨다고 하네요. 이거 되게 유명한 논문이고 이거. 아, Diffusion Transformer도 만들었다. 맞아요. Diffusion Transformer도 했고. 아무튼 이제 굵직굵직한 연구들을 많이 하셨습니다. 그래서 이 회사가 음 투자를 Eric Schmidt, Mark Cuban, 삼성, Temasek, NVIDIA, Bezos Expeditions 이런 유명한 데서 했고. 특이한 건 우리나라의 FuturePlay도 여기에 투자를 했어요. 오, 그래요? 네, 네, 투자했습니다. 어쨌든 여기에는 LLM의 지능이 한계에 부딪쳤다는 Yann LeCun의 철학에 베팅을 하신 거죠. 그리고 많은. 어떻게 생각해요?

10:30–12:00 ↗

뭐 뭘요? 이따 얘기할까요? 오케이. 저는 그 먼저 말하자면은 이 그 취지는 좋은데 사실 LLM이 계속 잘 되고 있는데 잘 되고 있는 거에다가 숏을 치면 안 되잖아요. 그냥 뭐 관망을 하든가. 이거는 조금 섣부르다. 사실 LLM의 지금 한계가 아직 보이지도 않았는데 내 생각에는. 근데 물론 이제 저희가 한 4년 전에 ChatGPT 나오기 전에 LLM이 이렇게 잘될 거라는 걸 생각하지 못했었는데 회의적이었는데. 저희는 이제 LLM 잘된다는 걸 인정을 하고 바로 태세 전환을 했잖아요. 그쵸. 그러니까 저희가 아시다시피 GPT-4 그니까 KoGPT때부터 저희가 돌려봤어요. 막 한국말로 파스타 요리법 만들어 봐, 막 이런 거 하고 막 신기했단 말이에요. 네, 그렇죠. 아, 이거 근데 뭐 글을 조금 재밌게 하긴 하는데 그냥 이게 되겠어? 했는데 어느새 때부터 갑자기 GPT-3. GPT 3.5가 나오고 그때만 해도 어, 끝말잇기 좀 잘하네? 코딩 조금 잘하네? 이 정도였고 GPT-4 나오면서 어, 얘가 이제 퀴즈도 잘 푸네. 그 다음에 GPT-4V 나오면서 비전 달려가지고 이제 비전 정보까지 받아가지고 이제 처리하더니 나중에는 지금 사실 코딩 엄청 잘하고. 근데 코딩을 넘어서 지금 아예 코딩 에이전트가 돼가지고 다 짜잖아요, 코드를. 그렇죠. 그래서 저희는 LLM 신봉자가 된 지 이미 몇 년 되었는데 여기는 아직도 LLM이 안 된다고 생각을 하신다는 게 저는 조금 모든 세상 사람들의 생각과는 좀 반하는 것 같아요. 근데 뭐 사업이라는 거랑, 사업이라는 게 아니면 뭐 투자를 잘 받기 위해서는

12:00–13:30 ↗

또 다른 길을 선택해야 될 수도 있으니까 다른 Narrative를 만드는 것도 중요하니까 그래서 그 Narrative가 뭔지 한번 알아보도록 하겠습니다. 그래서 이 JEPA로 하겠다. 이 JEPA가 뭐냐? 이 Joint Embedding Predictive Architecture라고 하는데 그러니까 Joint Embedding을 배우겠다. 그런 Joint Embedding을 배우는 아키텍처를 만들겠다. 근데 사실 이거가 저는 솔직히 말해서 엄청 갑자기 막 번뜩이는 아이디어라고 하면 아, 그것도 아닌 것 같아요. 그래서 이 아키텍처를 보시면 알겠지만은 이거 어디서 많이 보셨잖아요. DINO라든지 아니면 이미 컴퓨터 비전 분야에서 이미 Self-Supervised Learning, Unsupervised Learning으로 많이 좀 쓰이는 학습 방법이에요. Embedding Space에서. 그러니까 저희가 보통 LLM이 처음에 Unsupervised로 이제 텍스트를 학습하잖아요. 그러니까 Unsupervised라는 게 이 사람이 일일이 그 Ground Truth 값 라벨링을 할 필요 없이 이미 있는 방대한 데이터 속에서 자기만의 패턴을 파악하는 거, 어떻게 보면 Self-Supervised Learning을 할 수 있는데 그 말은 이제 보통은 일부 정보 가지고 나머지 정보를 예측하는 방식으로 한단 말이에요. 그래서 LLM 쪽에서 Next Token Prediction이라는 게 인풋을 넣으면 그다음 아웃풋이 뭐가 나올지를 예측하는 거잖아요. 근데 이미지에서는 어떻게 했냐면은 이미 있던 이미지에서 뭐 구멍을 뚫어. 근데 구멍을 뚫은 다음에 그 부분을 복원하는 그런 방식으로 이제 Self-Supervised Learning을 많이 했단 말이에요. 그러면 이제 구멍을 뚫은 거랑 그리고 원본이랑 그 데이터가 이제 Embedding Space에서 비슷해야 된다는 게 이제 이런 비슷한 방법론들이에요. 그래서 뭐 이 인코더, 인코더 두 개가 있고 그 인코더 같이 태웠을 때 이제 이 차이가 줄어야 되고

13:30–15:00 ↗

근데 이제 이게 학습이 잘 안되다 보니까 이제 여기서부터 막 서커스가 막 벌어지는데 그 뭐 혹시 옆 채널 “임커밋”라고 그 되게 잘 설명해 줘요. 한 번 봐보세요. 그럼 보시면은 학습시킬 때 이 인코더는 이제 그래디언트로 Backpropagation을 하고 이 인코더는 그렇게 안 하고 이 인코더에서 EMA라고 해서 Exponential Moving Average인가 그걸로 이제 웨이트를 이제 여기에 막 업데이트하는 방식으로 하거든요. Gradient Descent 방식으로 업데이트하는 게 아니라 여기 있는 웨이트를 이제 점점 점진적으로 이제 복사 붙여넣기를 하는 거예요. 아마 아무튼 이런 걸 해요. 근데 본질적으로 이제 JEPA도 비슷비슷한 걸 한다. 제 의견. 이렇게 이제 뭔가 점점 뭔가 잘 안되면은 이것저것 기운단 말이에요. 덧붙인단 말이에요. 자잘한 것들을. 이런 거는 제 생각에는 항상 진실과는 거리가 먼 것 같아요. 장기간은 좀 좋을 수도 있어도 뭐 이제 과거 역사를 거슬러 올라가면 우리가 지동설, 천동설 할 때도 이게 천동설을 맞다고 생각을 하니까 자꾸 이상한 것들이 나와서 뭐 주전원이 도입되고 막 이러면서 억지 설명을 막 하잖아요. 이런 것처럼 이 학습도 간단하게 그냥 딱 스케일링만 키우면은 점점 똑똑해져야 되는데 그게 이제 더 맞는 방향인 것 같은데 이렇게 뭐가 좀 안 되니까 막 EMA 붙이고 뭐 뭐 붙이고 이런 거는 제 생각에는 궁극적인 지능으로 가는 길과는 조금 거리가 멀지 않나. 복잡한 것들이 막 들어가는 거는 언제나 항상 버려지더라. 역사를 보면. 어느 정도 일리가 있고 저도 사실 이거보다 더 좋은 픽셀 이미지 스페이스에서 더 좋은 Self-Supervised Learning 방법론이 나오면 좋을 것 같은데

15:00–16:30 ↗

사실 제가 알기로는 이게 조금 지금의 베스트 방법론인 것 같아요. 뭐 DINOv3도 나오고 뭐 이랬던 것 같은데 그렇다. 그래서 이거를 똑같이 JEPA 2도 이 V-JEPA 2 같은 경우에는 사실 비디오에서 했어요. 그리고 V-JEPA 2 AC로 해서 그래서 로봇에서도 한 번 적용했다. 여기서 어쨌든 골자는 인코더를 잘 만들겠다는 거예요. 이 인코더를 잘 만들어서 임베딩을 잘 만들어서 그 임베딩을 잘 만들면 AGI가 될 것이다. 그래서 JEPA로는 제가 느끼기에는 월드모델보다는 사실 좋은 인코더를 만들겠다는 거에 가깝고 그 위에서 이제 저희가 말한 보통 비디오 디퓨전 모델로 이제 픽셀로 이제 월드를 만들겠다는 것과 아예 다르죠. 그러니까 여기서는 이 픽셀로 만들어내는 것 자체가 사실 자원 낭비다. 그럼 굳이 그럴 필요가 없다. 좋은 인코더를 만들면. 그래서 이런 연구를 하겠다. 그래서 이들이 만든 Latent World Model에서 실제로 로봇이나 에이전트 같은 거를 이 돌리는 걸 보여주긴 했거든요. 근데 이거를 제가 간단히 설명을 드리자면은 기본적으로 미래의 상태를 안다고 생각해야 돼요. 왜냐면 이건 인코더밖에 없으니까. 그래서 이 그다음 옵저베이션을 안다고 쳤을 때 지금 옵저베이션에서 만든 임베딩이 Zₜ고 미래 옵저베이션에서 만든 임베딩을 Zₜ₊₁이라고 하면은 내가 어떤 액션을 했을 때 Ẑₜ₊₁이 다시 나와야 되는 거예요. 이거에 가깝게 나와야 되는 거예요. 부연 설명을 하자면, 인코딩. 인코딩이라는 게 결국에 현재 옵저베이션, 어 현재 로봇이 보고 있는 세상의 어떤 이미지 이런 것들을 보고 애초에 저 JEPA라는 게 Self-Supervised Learning에 대해서 제대로 얘기를 하진 않았지만 인코더를 만드는 학습 방법이잖아요.

16:30–18:00 ↗

세상을 이해해서 벡터로 만드는 그거 하나밖에 없단 말이에요. 그 학습 자체가. 이것만 가지고 어떻게 액션을 만드냐. 디코더가 없는데. 지금 벌써 여기서부터 이상합니다. 이상하다기보다는 좀 가시밭길이 예상이 돼요. LLM 할 때도 우리가 BERT랑 GPT가 있었는데 구글이 인코더 온리인 BERT가 있었는데 결국에는 제미나이가 BERT는 아니잖아요. 그쪽은 다르잖아요. 인코더를 결국에는 열심히 한단 말이에요. BERT는 이제 Retrieval이나 이런 데 많이 쓰이죠. 어쨌든 인코더만 잘 만들어서 이런 거를 잘 만든다는 게 이상합니다. 그래서 그걸 하려고 지금 이 짓을 하는 거잖아요. 액션 프리딕터를 하고 미래 옵저베이션을 어떻게 상상을 하고 그럼 쉽지 않다, 벌써. 사실 이 연구가 어떻게 보면은 좋은 액션 모델을 만들어서 하면은 또 취지에 안 맞는 거죠. 사실 좋은 월드모델을 만들었다는 걸 강조하기 위해서 좋은 Latent를 만들었다는 걸 강조하기 위해서 좀 구린 방법으로 액션을 액션을 이제 조금 샘플링을 하는 거죠. 구린 방법이요? 우리가 생각하기에 사실 이런 액션을 만들려면은 어 Zₜ에서 Zₜ₊₁을 이 두 개를 입력으로 받아서 이제 액션을 출력하는 어떤 액션 모델들을 많이 생각을 할 거예요. Inverse Dynamics Model 같은 거를. 근데 그거는 이제 어떻게 보면 학습 기반의 좋은 액션 모델인 것 같고 그걸 쓰기 싫은 것 같아요. 그걸 쓰지 않고도 이 임베딩이 좋은 임베딩이니까 이 간단한 액션을 만드는 방법론으로도 이 JEPA Embedding Space에서 플래닝 컨트롤이 가능하다라는 거를 보여주고 싶어 하는 것 같다. 제가 다시 한 번 정리를 하자면 좋은 인코더만 있으면 그걸 가지고 어떻게 액션을 만들 건데

18:00–19:30 ↗

비유를 하면 지금 상황을 잘 인식을 했는데 이 인식된 상황을 가지고 어떻게 액션을 해야 되는지를 만들 건데 이 디코더가 없는 거죠. 액션을 만들어 내는 모델이 없는 거죠. 그래서 어떻게 하냐? 액션 디코더가 없다. 어떻게 하죠? 그래서 지금 막막합니다. 그래서 이 JEPA 같은 경우에는 아까 말한 것처럼 골 이미지가 있다고 가정을 해요. 지금 옵저베이션에서 인코딩을 한 다음에 액션을 샘플링을 합니다. 근데 액션을 샘플링한다는 게 진짜로 팔이 7DOF잖아요. 그러면 7개의 숫자를 진짜로 가우시안에서 샘플링을 하는 거예요. 랜덤하게. 랜덤하게. 그래서 그 랜덤하게 공간에서 이렇게 저렇게 다 해본다는 거죠. 그래서 800개의 액션을 샘플링을 해보고 여기다 다 넣어봐요. 넣어보고 나서 그다음에 이 Zₜ를 넣었을 때 그다음 임베딩을 예측하는 액션 프리딕터를 학습하고 이거를 예측하게 했을 때 이 골 이미지에 가장 가깝게 해준 액션 50개를 골라요. Top 50을 골라요. 그러면 그 액션 50개의 mean, variance를 또 구해, 구할 수 있잖아요. 그럼 거기서 더 좁은 범위에서 또 샘플링을 하는 거죠. 이 짓을 계속 반복해서 제가 아까 이걸 보고 뭐라고 얘기했냐면 닥터 스트레인지 마냥 가상의 미래들을 마구마구 제너레이션해서 그거를 평가해본 다음에 좋아, 이렇게 가야 해, 어 이런 느낌이란 말이에요. 목적지는 정해졌고 이 목적지가 나올 때까지 좋은 임베딩을 계속 만들고 싶은데 그걸 이 액션을 이제 좋은 게 나올 때까지. 그래서 이걸 뭐 Cross-Entropy Method라고 부르더라고요.

19:30–21:00 ↗

근데 이게 뭐 있나 봐요, 이런 게. 저는 항상 이제 액션을 뉴럴넷으로 출력한다고 생각해왔으니까 이건 저한테는 좀 생소했는데. 어떻게 보면 사람의 방법이라기보다는 컴퓨터에 어울리는 방법이라고 볼 수 있을 것 같아요. 뭐 굳이 따지자면 Monte Carlo 같은 느낌. 네. 어쨌든 그래서 이거는 그냥 딱 봐도 이제 문제가 뭐냐면은 그냥 Practical하게 이 골 이미지가 있어야 된다는 게 문제고 첫 번째로. 그리고 만약에 이 골이 굉장히 멀어요. 멀, 멀다고 쳐요. 만약에 되게 복잡한 태스크예요. 그러면은 이 골 데피니션을 일단 어떻게 할 건데? 그것도 문제고 또 액션도 지금 액션 스페이스가 작으면은 이게 샘플링이 될 것 같은데 만약에 막 자유도가 막 20개가 넘어가면 손으로는 어떻게 할 거예요? 막 자유도가 막 50개야. 그럼 이거 액션 스페이스가 너무 넓으면 또 안 될 것 같단 말이죠. 그래서 이런 좀 복잡한 문제들이 있지만 어쨌든 좀 눈 감아주고 된다. 되긴 된다. 뭐 종이접기라고 치면 골 이미지가 만약에 종이학이다. 완성된 종이학이다. 아, 좋은 비유. 절대 안 될 거고. 그죠. 설명서가 있으면 중간중간 중간에 어떤 골 이미지가 있잖아요. 일단 1번 접고, 2번 접고. 그럼 각각 그 쪼개진 태스크들은 하나하나씩은 해낼 수도 있겠다. 이런 생각이 들긴 합니다. 네. 사실 저는 JEPA 논문을 보기 싫었어요. 그냥 대충 이런 거 같았는데, 아 이거 읽어봤자 나한테 이 실용적인 지식에 도움이 되나라고 하면 아닌 거 같았는데, 비판을 할 거면 좀 알고 비판을 해야 되잖아요. 그래서 봤는데 뭐 이런 거였다. 좀 비실용적이었다. 하지만 뭐 취지는 좋은 거 같아요. 좋은 인코더를 만들겠다는 이 낭만이었던 거 같아요.

21:00–22:30 ↗

또 인코더를 만들면 이렇게 꼭 쓰지 않더라도 어딘가에 잘 쓸 수 있잖아요. 그렇죠. 그래서 대부분의 이런 JEPA류의 논문들은 다 이런 식으로 액션을 샘플링해서 골까지 만들어 낸다. 그래서 아까 말씀드린 것처럼 가장 큰 단점은 골 이미지가 이미 있어야 된다는 거. 태스크를 하기 전에 이 태스크가 완성된 observation state 같은 게 필요하고. 그다음에 여기서는 액션 모델이 거의 이제 고의적으로 없앤 건데, 어쨌든 이 액션 샘플링 방법이 비실용적이다, 사실. 그러니까 어떤 플래너, 컨트롤 플래너 이게 되게 좋은, 우리가 예를 들어서 LLM 같은 것들이 되게 좋은 어떤 High-level 플래닝 가능한 건데, 어 이런 거를 굳이 안 쓸 이유가 있나 싶었던 거죠, 저는. 근데 비실용적이라고 얘기를 했는데 사실 저렇게 만들어진 인코더가 진짜 좋으면 액션도 잘 나올 수도 있잖아요. 그렇죠. 그러니까 실제로 이 인코더를 쓴 VLA들이 연구가 있긴 하더라고요. 그래서 잘 찾아보면 이 JEPA류 인코더를 사용한 뭐 LLM도 있을 거고, Policy도 있을 거고, 근데 제가 느끼기엔 그렇게 유명하진 않은 것 같아요. 그래서 뭐 어쨌든 이런 제가 말한 이런 조금 신기한 방법으로 액션 샘플링해서 이제 goal 이미지까지 가는 방법론이 사실 이미 DINO에서도 보여줬어요. DINO 인코더 가지고 이제 DINO 월드모델이라는 게 이제 비슷한 짓을 했었고요. 이것도 이제 사실 Yann LeCun은 공저자일 거예요. DINOv2가 어쨌든 이때부터 이런 것들을 했었어요. 요런 방법론을 했었고, 예, 요런 식으로 이제 goal 이미지 줬을 때 어떤 액션들을 해야 되냐, 이런 비슷한 짓을 했고, 이 V-JEPA 2가 아까 제가 보여드린 피규어였고, 여기서 처음으로 이제 실제 로봇에 어플리케이션을 해서

22:30–24:00 ↗

이제 Zero-shot으로 뭔가 된다는 걸 보여줬고, 그다음에 최근에 이제 유명했던, 좀 바이럴했던 LeWorldModel이라는 게 있는데, 이것도 비슷해요. 이 인코더랑 이 프로젝터 만들어 가지고 goal state가 되도록 한다. 근데 결국은 다 토이, 약간 토이 샘플에서 이런 거를 Feasibility를 체크하죠. 이건 제가 이제 뭐 미리 말씀드렸다시피 Yann LeCun은 이미 LLM보다는 이런 어떤 좋은 비전 인코더를 만들어가지고 실제 세상을 이해하는 AGI를 만들어야 된다고 하거든요. 그리고 실제로 이제 VLA도 비판을 하세요. 이 영상을 보면 Basically don't work very well. 근데 그런 거 치고는 잘 되지 않나요, 좀? 물론 Yann LeCun 교수님이 이제 굉장히 유명한 석학이고, 이렇게 근데 뭐 의견이 강하시니까 그만큼 우리도 좀 강한 의견을 낼 수 있다고 저는 생각을 해요. 좀 밑밥을 깔아 봅니다. 그래서 어쨌든 이런 식으로 생각을 하고 계시고 그래서 뭐 크게 지금의 이제 월드모델 진영 쪽으로 얘기하자면 Yann LeCun 교수님은 이제 픽셀 제너레이션 기반의 월드모델 필요 없다. 그냥 Embedding Space에서 프레딕션을 잘해야 된다고 이제 해서 JEPA를 밀고 있는 거고 이제 pixel video diffusion model 기반의 월드모델을 만드는 NVIDIA나 구글 같은 경우에는 잘 되는데 이걸로 심지어 이제 로봇도 구동을 하죠. 예를 들어서 뭐 월드 액션 모델 이런 것들, 이런 모델들이 뭐 Cosmos나 Genie 이런 백본 가지고 이제 이런 것들을 보여주고 있고,

24:00–25:30 ↗

근데 심지어 이런 월드모델 없이도 Vision-Language-Action 모델들로 꽤나 실용적인 문제들을 많이 풀고 있는 그룹들도 있고요. 그래서 뭐 이 정도로 요약을 할 수 있을 것 같습니다. 그래서 저는 개인적으로 응원은 해요, 진짜. 제대로 된 뭔가, 사실은 이제 LLM 같은 경우에도 이제 뭔가 된다는 거를 보여주고 보이고, Scaling Law 같은 게 보이고, 막대한 자원을 투입을 해가지고 좋은 프로덕트를 내보낸 거잖아요. JEPA도 이제 엄청난 막대한 자원을 부었을 때 진짜로 좋은 인코더를 만들었을 때는 또 어떻게 될지 모르죠, 사실 판이. 그래서 이 좀 더 다른 길로 AGI를 만들겠다는 거에 대해서는 응원을 하는데 아직은 제가 보기에는 좀 비실용적이긴 해서 좀 더 이제 봐야 될 것 같다. 근데 이제 이거를 보시는 분들 중에 좀 JEPA에 대해서 만약에 더 좋은 의견이 있다고 하면 좀 편하게 댓글로 달아주세요. 제가 좀 모르고 하는 걸 수도 있어요. 이제 Fei-Fei Li의 World Labs를 한번 말씀을 드리도록 할게요. 제가 정의한 그 월드모델은 아니에요, 사실. 그러니까 제가 정의한 게 아니고, 제가 느끼기에는 그 아카데믹한 월드모델은 아니에요. 그러니까 우리가 말한 월드모델은 아까 요것처럼 이 에이전트가 어떤 액션을 했을 때 그 Action-Conditioned된 모델 우리가 월드모델이라고 생각을 했잖아요. 근데 저건 Action-Conditioned가 아닌 거예요. 어떤 에이전트가 액션에 붙은 거를 출력한 거를 틀어줬을 때 그다음 옵저베이션을 주는 월드모델이 아니라 그냥 진짜 그 세상을 만들겠다는 월드모델인데, 아실지는 모르겠지만 NeRF라든지 Gaussian Splatting 같은 약간 공간 같은 거를 만드는 모델들이 있거든요. 이게 뭐냐면 이런 식으로 이 공간을 그냥 만드는 거예요.

25:30–27:00 ↗

이 영상들을 이렇게 몇 개 찍으면은 어느 각도에서든 볼 수 있게 이제 만드는 거예요. 그러니까 지금 이때는 그냥 이렇게만 됐는데 지금 이제 이거 막 360도로 돌려가지고도 만들 수도 있고 그러거든요. 이게 사실 그 오브젝트에 대해서 이런 것들 만들어 놓은 건데 이제 오브젝트가 아니고 그 월드에 대해서 요 짓을 하겠다는 거예요. 사실 저 NeRF 몇 번 읽어 봤는데, 아 전 솔직히 좀 이해가 안 됐어요. 이해가 안 돼 가지고, 왜냐면 우리가 내가 알고 있던 거랑 좀 달라 가지고. 근데 어쨌든 뉴럴넷 기반으로 이 공간을 만들어 내는 방법론이고 그래서 저는 이걸 3D Spatial World Model이라고 그냥 지금 정의를 해 왔어요. 그래서 이거는 지금 이 시간 개념을 반영하지는 않아요. 그냥 그 정지된 어떤 그 월드 자체를 만들어 내는데, 사실 이 사이트를 가면은 Marble이라는 프로덕트를 실제로 해볼 수 있어요. 이 월드를 진짜로 이렇게 돌아다닐 수 있는 거예요. 근데 이게 뭐 어떤 시간이 흐르고 있는 월드는 아닌 거죠. 그래서 우리가 알고 있던 월드모델은 아닌데 월드를 어쨌든 만든다. 뭐 한 4, 5년 전에는 사실 월드를 만든 게 아니고 그냥 그 오브젝트를 만든 것뿐이었고, 이 연구가 좀 확장돼서 이런 식으로 만든다. 근데 이거에 이제 용처는 좀 명확하죠. 뭐 VR이라든지 게임이라든지 이런 거고, 어 창업자는 Fei-Fei Li와 이제 Justin Johnson, 제가 또 좋아하는 분 중에 한 명이죠. 이 CS231N 컴퓨터 비전 수업에 조교. 그러니까 Fei-Fei Li가 Justin Johnson의 지도교수님이세요. 그리고 이분들도 이제 NeRF라든지 아니면 3D Gaussian Splatting 연구를 많이 하셨던 분들. 그래서 아무튼 여기는 사실 실체가 있죠.

27:00–28:56 ↗

이 JEPA라는 이렇게 프로덕트가 있습니다. 쓸만해 보여요. 그리고 대부분이 RGB 중심이고, 어 이 geometry랑 appearance를 잘 보이게 하는 거. 그리고 실제로 여기에 이제 잡 디스크립션 보면은 이제 3D Gaussian Splatting이라고 하니까 이 기반 기술이 아마 이런 걸 것이다. 그리고 이게 Isaac Sim이랑 또 좀 호환이 되나 봐요. 어떤 현장을 우리가 Digital Twin을 만들고 싶어요. 그럼 요걸 쓸 수 있는 거죠. 그러니까 로보틱스 쪽으로도 이제 어플리케이션이 생길 수 있어요. 이것도 이제 이쪽 블로그에서 나온 건데, 이런 식으로 이제 현장을 만들고 거기서 이제 로봇 데이터를 뭐 모은다거나 뭐 그런 걸 하겠다는 거죠. 그리고 이 Lightwheel라는 회사랑도 뭔가를 많이 하고 있다. 이거 보면은 이 실제 이제 호텔 사진인데 이거를 잘 캡처를 이렇게 따가지고 Digital Twin처럼 이 공간을 만들어 낼 수 있고 그 막 이렇게 막 돌아다닐 수 있죠. 그리고 여기에다가 이제 뭐 뭐 티셔츠 같은 거 넣은 다음에 이거 Deformable Object인데 아무튼 이거를 텔레오퍼레이션 할 수 있는 거를 뭐 하는 게 뭐 Lightwheel 붙어 가지고 한 거 같아요. 그래서 이거는 되게 좋은 어플리케이션인 거 같아요. 실제 세상을 이제 제너레이션 한 다음에 여기서 이제 뭐 로봇 시뮬레이션 데이터 뭐 모으고 뭐 아무튼 이런 걸 하고 있다. 너무 명확한. 그래서 Autodesk 단독 투자 받고 AMD랑 NVIDIA랑 같이 투자를 받고 이런 걸 하고 있다. 그래서 이게 끝입니다. 정리를 하자면은 월드모델을 만들겠다는 데가 많고 저희 채널에서 많이 다뤘던 건 Waymo, Google DeepMind, NVIDIA, 1X 이런 쪽인데 최근에 이제 다른 어떤 다른 류의 월드모델들을 만드는 스타트업들이 있고 그 두 개 스타트업이 특히 이제 교수 창업 기반의 회사인데 이 World Labs란 곳이랑 Advanced Machine Intelligence인데 사실 이들이 만들고 있는 월드모델들은 우리가 생각하고 있는 월드모델이랑 조금은 다르다. 첫 번째는 3D 이제 공간을 만드는 월드모델이고 이 두 번째 Yann LeCun의 AMI는 이 JEPA라는 방법론에 기반한 Latent Space를 잘 만들겠다는 거죠. 수고염!