메모리와 지속 학습: Engram의 Dan Biderman과 Jessy Lin

요약

  1. Engram은 세상을 사전/사후 훈련으로 나누지 않고 모델이 "항상 훈련 중"이라는 철학 아래, 팀과 회사의 지식을 컨텍스트 창이 아니라 모델 가중치에 직접 녹여 넣어 수년 차 직원처럼 만드는 것을 목표로 한다.
  2. 핵심 난제는 무엇을 내재화하고 무엇을 외부화할지 가려내는 것이며, 어댑터(LoRA)·RL·온폴리시 증류로 맥락을 학습시키면 거대한 시스템 프롬프트 없이도 토큰 소비를 최대 100배까지 줄일 수 있다고 주장한다.
  3. 프런티어 랩의 "하나의 거대한 모델/AGI" 노선과 달리 모두가 자기만의 모델을 갖는 세상을 상상하며, KV 캐시의 비효율과 RAG의 연상 한계를 짚고 "밤사이 더 똑똑해진 인턴"을 메모리의 진정한 ChatGPT 순간으로 제시한다.

Chapter 1: 소개 (00:00-00:59)

  • [00:00] 사전 훈련이나 사후 훈련의 무엇이 모델로 하여금 마법처럼 창발적인 방식으로 일반화하게 만드는지, 그리고 그 과정을 어떻게 제어할 것인지가 핵심 질문이다.
  • [00:14] 어떤 회사가 가진 비공개 데이터를, 모델이 “프랑스의 수도”나 “파이썬 작성법”을 아는 것만큼 잘 학습하게 만들 수 있을까 하는 것이 흥미로운 문제다.
  • [00:41] Engram의 공동 창업자 Dan Biderman과 Jessy Lin을 초대했으며, Engram은 메모리와 지속 학습에 집중하는 연구소다.
  • [00:49] 메모리와 지속 학습은 오늘날 AI 연구 전체에서 가장 뜨거운 주제다.

Chapter 2: Always Training 설명 (00:59-01:51)

  • [01:05] Engram은 세상을 사전 훈련/사후 훈련으로 나누어 보지 않으며, 자사 모델은 “항상 훈련 중”이라는 철학을 가진다.
  • [01:15] 모델을 더 유용하게 만드는 병목은 더 이상 원초적 지능이 아니라, 새롭고 진화하는 맥락을 이해하는 능력이다.
  • [01:32] 새로운 작업이나 직무 같은 특정 맥락을, 사전/사후 훈련이 그러하듯 모델 가중치에 깊이 녹여 넣는 것이 목표다.
  • [01:41] 메모리와 지속 학습은 동전의 양면이며, 새로운 것을 배워 가중치에 깊이 내재화하는 단일한 근본 문제다.

Chapter 3: 컨텍스트 창을 넘어서 (01:51-03:29)

  • [01:51] 컨텍스트 창에 밀어 넣은 것은 진정한 메모리도, 진정한 지속 학습도 아니라는 전제다.
  • [02:01] 현재 사람들이 이 문제를 다루는 방식은 컨텍스트 엔지니어링으로, 거대한 프롬프트를 계속 재구성하는 것이다.
  • [02:22] 충분히 활용되지 않는 도구는, 프런티어 랩들이 수학/코드를 잘하게 만들 때 쓰는 훈련 파이프라인을 모든 도메인과 회사에 적용하는 것이다.
  • [02:39] 개인의 메모와 포스트잇(외부화된 메모리)도 가치 있지만, 인간 뇌에는 항상 어떤 형태의 기억 흔적과 새로운 직관이 남으므로 두 방식은 함께 가야 한다.
  • [03:03] 곧 하루 수천만 토큰을 생성하게 되면, 그것을 단순히 보관·검색·재독하는 방식은 매우 비싸지고 모델에게도 혼란스러워진다.

Chapter 4: Ngram 제품 개요 (03:29-04:34)

  • [03:36] Notion, Microsoft, Harvey 같은 파트너의 워크스페이스에는 사람들이 오랜 기간 축적한 방대한 맥락(문서, 에이전트 상호작용)이 존재한다.
  • [04:06] 목표는 테스트 시점에 파일을 읽기만 하는 것이 아니라, 수년 근무한 직원처럼 맥락을 진짜로 이해하는 모델을 만드는 것이다.
  • [04:15] 회사 전반의 이니셔티브, 일하는 방식, 채용 파이프라인 운영법 등을 학습해 다른 직원만큼 잘 작동하게 한다.
  • [04:33] 구체적으로는 워크스페이스별로 맥락을 깊이 이해하는 팀별 모델을 훈련해 시간이 지나며 개선되게 한다.

Chapter 5: 어댑터와 훈련 신호 (04:34-05:32)

  • [04:45] 핵심은 이런 맥락을 가중치에 훈련시키는 것이며, 이를 위해 어댑터 파인튜닝(LoRA, 프리픽스, 희소 아키텍처 등)을 많이 활용한다.
  • [05:07] 어려운 과제는 원시 문서나 상호작용을 모델에 유용한 훈련 신호로 어떻게 바꾸느냐, 즉 올바른 데이터를 파악하는 것이다.
  • [05:14] 지도 파인튜닝, RL, 온폴리시 증류 등 이 분야가 발전시켜 온 도구들을 조합해 지속 학습 모델을 만든다.

Chapter 6: 내재화 vs 외재화 (05:32-06:49)

  • [05:32] 도구가 없을 것이라는 베팅이 아니며, 일부 지식은 외부화되고 일부 도구는 항상 존재한다는 가정하에 작동한다.
  • [05:39] 어려운 과제는 무엇을 내재화하고 무엇을 외부화할지 알아내는 것이다.
  • [05:51] 모두가 같은 bash나 CLI 도구를 쓰는 것은 아니므로, 모델이 각자의 맞춤형 설정을 이해하게 만드는 것이 흥미롭다.
  • [06:05] 예를 들어 Notion 에이전트가 LoRA/어댑터 튜닝을 받아 워크스페이스의 새 콘텐츠를 계속 학습하는 것이 전제다.
  • [06:30] 이 접근법에는 가중치에 대한 화이트박스 접근이 필요하며, 오픈소스 모델에서 가장 쉽지만 트랜스포머 모델이면 적용 가능하다.

Chapter 7: 컴퓨트와 토큰 절감 (06:49-08:19)

  • [07:00] 트레이드오프는 초기에 더 많은 컴퓨트를 써서 회사의 방식을 가중치에 학습시키고, 그 후 매 추론마다 더 적은 맥락을 보내는 것이다.
  • [07:20] 거대한 시스템 프롬프트를 매번 작성하지 않아도 되어 토큰 소비를 두 자릿수 배율, 즉 50%가 아니라 100배까지 줄일 수 있다.
  • [07:41] 사람·팀·조직·우선순위 관련 지식은 한 문서에서 찾기 어려운데, 모델은 이를 암묵적으로 학습해 10만 토큰이 들 일을 100토큰 안에서 답할 수 있다.
  • [08:00] 현재 세대 모델에게 쉽지 않은 맞춤형 작업이 있으며, 가볍게 자율 학습할 수 있다면 3~6개월의 역량 간극 동안 가치를 준다.

Chapter 8: 먼저 팀, 그다음 개인 (08:19-08:51)

  • [08:22] 개인과 팀 어느 쪽이든 가능하지만, 팀이 맥락 수집 방식과 축적량 면에서 더 체계적이라 시작하기 쉽다.
  • [08:37] 언젠가는 모든 사람의 컴퓨터와 휴대폰이 이 기술의 유용한 대상이 될 것이다.
  • [08:45] 현재는 큰 정보 저장소가 지식 노동을 협업하는 팀 안에 있다고 보고 거기서 시작한다.

Chapter 9: 암기 vs 이해 (08:51-12:47)

  • [08:51] LLM에 그렇게 많은 사실 암기가 기본 내장된 것이 기능인지 버그인지, 그리고 암기와 학습을 분리할 수 있는지가 질문이다.
  • [09:26] 사실을 어느 정도 기억해야 그것들을 조합해 더 복잡한 개념을 만들 수 있으므로, 빠진 것은 “무엇을 기억하는 것이 중요한지” 알아내는 일이다.
  • [09:57] 인간의 기억은 손실적이며, 지능의 핵심 기능 중 하나는 중요한 것을 압축하고 중요하지 않은 것과 분리하는 것이다.
  • [10:34] 사고의 다음 단계를 밟기 위해 매번 기본 사실을 찾아봐야 한다면 멀리 나아갈 수 없으므로, 무언가를 내재화해야 더 추상적 개념으로 조합할 수 있다.
  • [11:23] 전통적 CS는 데이터베이스(사실)와 알고리즘을 분리했지만, 딥러닝의 마법은 이 둘이 하나로 뭉개진 것이다.
  • [11:53] AI가 경제에 도입되며 기업들이 자기 맥락을 신중히 엔지니어링하면서 이 둘이 다시 분리되고 있으나, 일정한 수렴(사실이 모델로 섞여 들어감)이 일어나야 한다.

Chapter 10: 꿈과 오프라인 소화 (12:47-14:08)

  • [12:54] 영감은 아주 느슨하게 가져오는 것으로, 맥락을 가져와 깊이 내재화하는 단계가 지금은 빠져 있다는 아이디어다.
  • [13:00] 현재는 모든 것이 테스트 시점에 즉석에서 일어나, 멀리 나아가지 못하거나 그 과정에서 실수를 한다.
  • [13:15] 핵심은 그 결과를 어떻게 모델로 다시 소화시켜, 다음번에는 올바른 방식으로 더 많은 진전을 이루게 하느냐다.
  • [13:29] 꿈에서 인간은 사회적 상황의 어포던스를 실험하는데, 마찬가지로 모델에게도 실제 상호작용에서 물러나 자신의 어포던스와 꼬리 극단 상황을 실험할 시간을 준다.

Chapter 11: 훈련이 큐레이션을 이긴다 (14:08-15:19)

  • [14:23] OpenAI가 일주일 안에 수학 올림피아드에서 우승해야 한다면, 사람에게 일일이 챕터를 주석 달게 하지 않고 훈련 데이터를 합성해 훈련 작업을 돌릴 것이다.
  • [14:48] 모델을 훈련해 본 사람이라면 아이디어와 역량을 통합하는 우월한 방법은 수동 큐레이션이 아니라 “훈련의 마법”임을 안다.
  • [14:56] 이 마법은 수학·코딩·사이버 같은 고위험 도메인에서만이 아니라 훨씬 더 많은 사람의 손에 들어갈 수 있다.
  • [15:09] 왜 최종 제품을 소유하는 것이 파운데이션 모델 랩들만이어야 하는가에 의문을 제기한다.

Chapter 12: 모두에게 모델이 필요한 이유 (15:19-21:44)

  • [15:30] 프런티어 랩은 점점 더 크고 지능적인 하나의 모델을 원하지만, Engram은 모두가 자기만의 모델을 갖는 세상을 상상한다.
  • [15:35] 사람들이 배우고 싶어 하는 것의 상당수는 사적이거나, 사후 훈련 데이터셋에 결코 등장하지 않거나, 심지어 서로 상충한다.
  • [15:56] 이런 것들은 깨끗한 지도(supervision)나 그라운드 트루스 보상 신호를 갖기 어렵고, 무엇이 좋은지조차 매우 모호하다.
  • [16:34] 프런티어 랩의 P0는 AGI 도달이며, 코딩·수학에 극도로 유능한 일반 모델을 얻은 뒤 경제를 자동화하는 것이라 지출·인재 대부분이 사전 훈련·확장에 간다.
  • [17:23] Demis도 약 한 달 전 Sequoia 행사에서 메모리·지속 학습에 새로운 돌파구가 필요하다고 밝혔으며, Engram은 여기에만 전적으로 집중한다.
  • [20:32] (Dan) Amos Tversky가 인공지능이 아니라 “자연 어리석음(natural stupidity)“에 관심이 있었다고 했듯, 사람·동물이 세상을 경험하는 방식에서 출발했다.
  • [21:08] 코드베이스 전체는 컴퓨터에 무손실로 저장할 수 있지만, 인간 뇌는 정보 용량 제약 속에서 모호한 표상을 형성해 이후 추상화·연결을 만든다.

Chapter 13: Bitter Lesson과 아키텍처 (21:44-24:44)

  • [21:58] Bitter Lesson 관점에서, 모든 컴퓨트가 LLM이라는 하나의 지배적 보조 프로세서로 수렴할지, 아니면 메모리 같은 별도 아키텍처가 필요할지가 질문이다.
  • [22:47] 메모리가 더 나은 데이터와 컴퓨트 확장만으로 창발하는 속성인지에 대한 논쟁이 있다.
  • [23:14] 상태 공간(state space) 계열 등 긴 맥락을 효율적으로 다루려는 아키텍처는 결국 메모리와 정확도 사이의 트레이드오프로 귀결된다.
  • [23:56] 직접 다뤄 본 결과 서브-2차적 아키텍처는 항상 메모리를 위해 정확도를 희생하며, “공짜 점심은 없다”는 결론이다.
  • [24:09] Bitter Lesson을 진지하게 받아들이면, 이전에 본 적 없는 새로운 맥락에 어떻게 더 많은 컴퓨트를 태울 것인가를 고민하게 된다.

Chapter 14: RAG Killer와 KV Cache (24:44-31:38)

  • [24:49] 사람들이 모델에 학습시키고 싶어 하는 것은 조직 사실 암기부터 글쓰기 방식, 워크플로 실행법까지 다양하며, 사실/기술 구분에 대해 방법론은 사실상 무관(agnostic)하다.
  • [25:48] 앱 레이어는 대개 검색 도구로 루프를 감싼 프런티어 모델이며, 모두가 원하는 것은 자사 지식을 더 빠르고 효율적이며 맥락적인 무언가에 인코딩하는 것이다.
  • [26:33] 가벼운 훈련만으로 이런 것을 모델에게 본능적으로 만들 수 있어, 복잡한 REPL 루프가 필요 없게 되는 일종의 “RAG 킬러”다.
  • [27:54] 인간은 TikTok의 쓰레기 정보에 노출돼도 학습이 궤도를 이탈하지 않으며, 모델도 휴리스틱을 최소화한 채 마찬가지여야 한다.
  • [28:55] 캐싱이 일부 해결하지만, RAG만으로는 묻지 않은 관련 지식을 떠올리는 연상이 불가능하며 그런 연상은 가중치 안에서만 일어난다.
  • [30:18] KV 캐시는 현재 방식의 괴물로, Taylor Swift 위키 글 하나의 KV 캐시는 약 80GB인 반면 70B Llama 가중치 전체는 약 100GB로 인터넷 전체를 기억한다.
  • [31:13] 그 80GB를 오프라인 컴퓨트로 1,000배 압축할 수 있다면 로딩 속도와 표현 충실도에 엄청난 영향을 줄 것이다.

Chapter 15: 메모리와 모델의 미래 (31:38-44:52)

  • [31:53] 메모리의 ChatGPT 순간은 “시간이 지나며 가르칠 수 있고 실제로 더 나아지는 인턴”의 첫 개념 증명이며, 모델이 어제와 다르게 똑똑해졌다고 느끼는 순간일 것이다.
  • [32:33] 지금은 개인이 하루 종일 맥락·스킬을 엔지니어링해도 다음 버전 모델을 기다리는 게 나을 만큼 영향력이 제한적이지만, 노력이 곧 성능 품질로 이어지는 미래를 원한다.
  • [34:54] 토큰/메모리 “지갑” 아이디어에 대해, 개인 맥락과 업무 맥락이 뒤섞이는 것은 원하지 않으며 도구별로 메모리가 분리되고 통제 가능해야 한다고 본다.
  • [35:37] 출근해 가치를 창출하되 IP는 회사에 남고, 정제되어 타사 IP에 무해한 스킬은 개인이 다음 직장으로 가져가는 미래를 그린다.
  • [38:42] (Dan의 괴짜 이론) 생물학에서 비전은 광자→전자 다운스케일링으로 막대한 비트레이트 이점을 갖지만, 컴퓨터에서는 모든 것이 전자적이라 비전을 약화시키고 언어를 승격시켜 LLM이 언어에 더 잘 맞았다.
  • [42:42] 지식 노동은 인간이 진화해 온 일이 아니므로 텍스트 기반으로도 충분하며, LLM이 대신 해 주면 유용하다.
  • [43:40] 비전: 회사는 모두를 위한 데이터 플레인에 대한 신경(neural) 인터페이스가 되어, 파일 시스템 자체가 아니라 그 “뇌 상태”를 더 효율적·연상적으로 표현하는 것이다.