소개: 게스트 소개
Nathan Lambert(AI2 포스트 트레이닝 리드, RLHF 책 저자)와 Sebastian Raschka(Build a Large Language Model (From Scratch) 저자)가 2026년 AI 현황을 논의한다.
- [00:27] AI 커뮤니티에서 가장 좋아하는 두 사람과 함께하는 에피소드
- [00:49] Sebastian은 *Build a Large Language Model (From Scratch)*와 Build a Reasoning Model (From Scratch) 저자
- [01:05] ML을 배우는 최고의 방법은 처음부터 직접 만들어보는 것
- [01:17] Nathan은 Allen Institute for AI(Ai2)의 포스트 트레이닝 리드
중국 vs 미국: AI 경쟁의 현황
DeepSeek R1 출시 이후 AI 경쟁이 급격히 가속화되었다.
- [02:05] 2025년 초 DeepSeek-R1 공개가 AI 경쟁의 전환점
- [02:13] DeepSeek-R1은 훨씬 적은 컴퓨트로 최첨단 수준 성능 달성
- [02:24] 그 이후로 AI 경쟁이 연구와 제품 양쪽에서 “미친 듯이” 심해짐
- [03:16] 2026년에는 어떤 기업도 “다른 기업이 전혀 접근할 수 없는 기술”을 갖기 어려움
- [03:24] 핵심 이유: 연구자들의 잦은 이직과 연구소 간 순환
- [03:39] 차별화 요소는 예산과 하드웨어 제약(자원)
- [07:14] 중국 기업들은 오픈 웨이트를 “영향력 확보”와 “미국 AI 시장 참여 수단”으로 활용
“오늘까지 AI 경쟁은 미친 듯이 심해졌고, 연구 수준에서도 제품 수준에서도 그렇습니다.”
ChatGPT vs Claude vs Gemini vs Grok
각 모델의 강점과 사용자 경험.
- [10:54] OpenAI가 선두 주자였고, 선두에서 얻는 이점이 기술 분야에서 매우 큼
- [11:01] 2024년 모멘텀은 Gemini 쪽에 있었지만, “너무 낮은 지점에서 시작”
- [11:22] OpenAI는 운영이 혼란스러워 보여도 결과물을 실제로 “착지”시키는 데 능함
- [12:57] Google은 스택을 위에서 아래까지 직접 개발해 NVIDIA 마진을 지불하지 않아도 됨
- [13:05] “새로운 패러다임”이 나온다면 OpenAI에서 나올 가능성이 가장 큼
- [17:05] 코딩이나 철학적 대화에는 Claude Opus 3.5를 쓰며, 항상 확장 추론 모드 사용
- [17:31] Grok-3 ‘Super Heavy’가 실제로 아주 좋고 인상적
- [18:09] Gemini의 “건초더미에서 바늘 찾기” 성능이 가장 좋음
코딩에 가장 좋은 AI
Cursor, Claude Code, Codeium 등 코딩 도구 비교.
- [21:46] Cursor와 Claude는 “근본적으로 다른 경험”을 제공
- [22:06] Claude는 더 “에이전틱”하고 프로젝트 전체를 대신해주기도 함
- [22:22] Codeium은 “중간 지점”에 있음 - 도움은 주지만 완전히 대신하진 않음
- [22:29] Claude를 쓰는 이유: “영어로 프로그래밍하는 역량”을 키우고 싶음
- [23:30] 나란히 비교하면 Claude가 “훨씬 더 나음”
- [24:54] 코드는 거짓말을 하지 않음 - “기본적으로 수학”
- [27:23] Claude Code가 AI를 위한 인터페이스로 설계되어 매력적
“코드는 거짓말을 하지 않습니다. 기본적으로 수학입니다.”
트랜스포머: 2019년 이후 아키텍처 변화
GPT-2에서 현재까지 아키텍처가 크게 변하지 않았다는 놀라운 사실.
- [40:17] GPT 계열은 “Attention Is All You Need” 트랜스포머에서 파생
- [40:30] GPT도 본질적으로 신경망이며 어텐션 메커니즘이 핵심
- [41:11] MoE(Mixture of Experts): 각 순전파에서 연산을 늘리지 않으면서 모델을 더 크게
- [42:24] MoE의 핵심: 많은 지식을 담되 항상 전부 사용하지 않는 방식
- [45:28] ChatGPT는 기본적으로 GPT-3 모델 - 아키텍처는 GPT-2와 동일
- [45:32] 새로움은 지도학습 미세조정과 RLHF라는 “알고리즘 측면 변화”
- [48:00] 최첨단 기준으로 여전히 자기회귀 트랜스포머가 중심
AI 학습 방식: 사전학습, 미드 트레이닝, 포스트 트레이닝
데이터 품질과 학습 단계별 최적화가 핵심.
- [01:04:18] 사전학습: 고전적인 “다음 토큰 예측” 방식
- [01:04:48] 이제는 원시 데이터뿐 아니라 “합성 데이터”도 포함
- [01:05:28] 어떤 레딧 데이터는 “매우 귀하며 학습에 훌륭”
- [01:05:42] 더 높은 품질의 데이터는 같은 수준의 모델에 “더 빨리” 도달하게 함
- [01:12:45] 레딧은 정말 유용했고, PDF(특히 arXiv)도 중요한 출처
- [01:13:41] 프런티어 연구소에서 영향력을 내는 최선의 방법: “더 나은 새로운 데이터를 찾는 것”
“레딧은 정말 유용했습니다. 그리고 PDF는 확실히 그런 출처 중 하나입니다.”
포스트 트레이닝과 RLVR
검증 가능한 보상 기반 강화학습(RLVR)이 2025년의 핵심 돌파구.
- [01:37:31] 2025년 큰 흐름: “검증 가능한 보상” 기반 강화학습
- [01:37:55] 이 패러다임이 “추론 시간 스케일링”과 매우 잘 연결됨
- [01:38:55] RLVR이라는 용어를 중심으로 커뮤니티가 모이는 현상이 흥미로움
- [01:39:07] RLVR: 모델이 답을 생성하고, 정확도를 보상으로 삼아 강화학습 스케일업
- [01:42:03] 설명 단계를 사용하는 것이 모델 정확도에 도움
- [01:42:24] R1 논문: 더 오래 훈련할수록 응답이 더 길어짐
- [01:43:06] R1의 “아하 모먼트”: 모델이 실수를 인지하고 “다시 해보겠다”고 자기수정
- [01:46:34] 가장 큰 문제는 연구 오염 - 데이터에 무엇이 들어 있는지 모름
“커뮤니티가 이 RLVR이라는 용어를 중심으로 모일 수 있는데, 아주 재미있습니다.”
AI 개발·연구 입문 조언
초보자를 위한 실질적인 학습 로드맵.
- [01:58:32] 시작점: “내 컴퓨터에서 돌아가는 단순한 모델”을 처음부터 직접 구현
- [01:58:46] 핵심 목적: “LLM에 무엇이 들어가고 무엇이 나오는지” 정확히 확인
- [02:00:12] 한 GPU에서 실험하면 스스로 검증할 수 있음
- [02:05:44] 한 영역에 붙어서 버티기만 하면 배울 만한 흥미로운 것이 정말 많음
- [02:05:48] 모든 걸 따라잡으려 하면 번아웃이 옴
- [02:14:33] 작은 대학에서 시작해도 Claude가 어려워하는 문제를 찾아내면 “커리어 로켓”
- [02:14:57] 미래 모델의 약점을 예측하며 연구를 설계해야 함
“전부 다 하려 하면 너무 압도적이라서 할 수 없고, 모든 걸 따라잡으려 하면 번아웃이 올 겁니다.”
AI 업계 업무 문화
996 문화와 번아웃에 대한 솔직한 대화.
- [02:21:07] 9/9/6: 오전 9시부터 밤 9시까지, 주 6일 근무
- [02:21:57] 교수들은 학생들과 일하며 “사명이 사람 중심”이라 더 충만해 보임
- [02:22:31] 모델들이 서로를 뛰어넘으며 도약하는 경쟁이 “잔혹할 정도로 냉정”
- [02:23:16] 경쟁이 사람들을 열심히 일하게 만들지만, 인적 자본이 소모되고 번아웃 발생
- [02:23:55] 996 같은 과로 환경이 “인간의 희생을 바탕으로 진보를 만들어내기엔 완벽한 환경”
실리콘밸리 버블
버블의 양면성과 현실 왜곡장.
- [02:25:20] 실리콘밸리는 에코 챔버이자 사일로이며 “버블”
- [02:25:31] 버블은 “매우 유용하고 효과적”일 수 있음 - 극도로 생산적
- [02:25:34] 스티브 잡스의 현실 왜곡장처럼, 돌파구가 곧 올 것을 믿게 만듦
- [02:26:15] 996으로 일하면서 현실에서 너무 멀어지면 인간 경험의 근본을 놓칠 수 있음
- [02:27:53] 역사책/문학을 읽고, 세계의 다른 곳도 방문하라
“트위터가 전부가 아니고, 서브스택이 전부도 아닙니다.”
도구 사용과 지속적 학습
LLM의 도구 사용 능력과 지속적 학습의 중요성.
- [02:34:45] 도구 사용은 “엄청난 돌파구”가 될 수 있음
- [02:34:53] LLM이 23+5를 외우게 하기보다 계산기를 쓰게 하면 됨
- [02:36:58] LLM에 이메일 접근 권한을 주는 것은 “엄청난 위험”
- [02:39:25] AI 핵심 이정표: “원격 노동자 대체”에 가까운 상태
- [02:39:36] 언어 모델의 한계: 피드백에서 빠르게 학습하는 능력 부족
- [02:42:29] Apple이 Foundation 모델을 휴대폰에 올리고 경험으로부터 학습시키려는 방향
롱 컨텍스트와 로보틱스
긴 컨텍스트와 로봇 공학의 미래.
- [02:44:54] 입력 컨텍스트 길이를 100만 토큰까지 올림
- [02:45:02] 올해 200만~500만 토큰까지는 갈 수 있어 보이지만 1억 토큰은 아직
- [02:57:17] 로봇을 현실 세계에 대비시키는 것은 LLM보다 훨씬 어려움
- [02:57:42] 거의 이야기되지 않지만 매우 중요한 주제: “안전”
- [02:58:32] 가정 내에서 학습하는 소비자 구매용 로봇에는 “매우 비관적”
- [02:58:36] 자율주행차에는 “매우 낙관적”
“아무리 강조해도 지나치지 않을 정도로 중요하지만 거의 전혀 이야기되지 않는 것이 안전입니다.”
AGI 타임라인
AGI/ASI까지의 전망과 “들쭉날쭉한” AI 능력.
- [02:59:57] OpenAI 정의: “경제적으로 가치 있는 과업을 수행할 수 있는 AI”
- [03:01:28] Situational Awareness 보고서 마일스톤: 초인간적 코더 → 초인간적 AI 연구자 → ASI
- [03:02:11] 초기 예측(2027
2028)이 “34년 뒤로 미뤄져 평균 2031년” - [03:02:53] AI 능력이 “들쭉날쭉(jagged)” - 어떤 것엔 탁월하지만 다른 것엔 형편없음
- [03:03:12] 대규모 분산 학습은 학습 데이터가 너무 적어 모델이 꽤 못함
- [03:06:24] “초인간적 코더” 전제는 루프 안 인간 수가 0이 되는 것
AI가 프로그래머를 대체할까?
코딩 자동화와 개발자의 미래.
- [01:31:30] 많은 사람들이 배포 코드의 50% 이상을 AI 생성 코드로 채움
- [01:31:49] 약 80%가 AI를 업무의 일부로 쓰는 것이 더 즐겁다고 느낌
- [01:32:19] 복잡한 버그를 추적해 찾아냈을 때가 “세상에서 가장 기분 좋은 순간”
- [01:34:09] 디버깅은 “며칠 동안 사막을 헤매고 난 뒤에 마시는 물 한 잔”
- [01:35:34] 시니어 개발자들이 주니어보다 AI 생성 코드를 더 많이 배포
- [01:36:06] 미래의 문제: 스스로 해보려 하지 않으면 “어떻게 전문가가 될 수 있을까?”
- [01:36:56] 요령: “전용 오프라인 시간”을 만들어 하루 2시간은 공부하고 나머지는 LLM 사용
OpenAI, Anthropic, Google, xAI, Meta의 미래
주요 AI 기업들의 경쟁 구도.
- [03:41:16] 승자독식이 어려운 이유: 개발 경로가 “모두 너무 비슷”
- [03:42:07] Anthropic이 코딩 니치를 찾고 “밀어붙이는” 식으로 피벗
- [03:44:04] Llama는 Meta 조직의 “가장 집중된 표현”
- [03:45:08] LLaMA의 목표는 벤치마크에서 ChatGPT를 이기는 것이 아니었음
- [03:49:25] 2025년 큰 이야기: Llama의 공백을 메우는 “중국 오픈 웨이트 모델들의 부상”
- [03:51:12] 오픈 모델을 최첨단보다 반 세대~한 세대 뒤에 만드는 데 “1억 달러”
AI를 위한 맨해튼 프로젝트 (Adam Project)
미국 오픈 모델 이니셔티브.
- [03:49:43] Adam Project: 처음엔 ‘American DeepSeek Project’로 불림
- [03:50:06] Perplexity 설명: “미국 기반 이니셔티브”로 오픈 웨이트 모델과 인프라 구축
- [03:50:25] 오픈 모델이 AI 연구의 “엔진”이 될 것
- [03:51:52] AI2가 NSF로부터 4년간 1억 달러 보조금 - NSF 최대 CS 보조금
- [03:52:33] NVIDIA가 이 일에 매우 기대하고 있음
핵심 시사점
-
RLVR의 부상: 검증 가능한 보상 기반 강화학습이 포스트 트레이닝의 핵심 돌파구로 떠오르며, 추론 시간 스케일링과 결합해 모델 성능을 크게 향상시키고 있다.
-
데이터가 왕: 프런티어 연구소에서 가장 큰 영향력을 내는 방법은 화려한 알고리즘보다 “더 나은 새로운 데이터를 찾는 것”이다.
-
골디락스 구간: AI 도구 사용과 직접 학습 사이의 적절한 균형점을 찾는 것이 개인과 문명 모두에게 중요하다.
-
미국 오픈 모델의 필요성: 중국 오픈 웨이트 모델들이 영향력을 키우는 가운데, Adam Project 같은 미국 기반 이니셔티브가 대응 중이다.
-
AGI 타임라인 재조정: 초기 예측들이 뒤로 밀리면서 평균 2031년으로 조정되었으나, AI 능력의 “들쭉날쭉”한 특성 때문에 특정 영역에서는 초인간적일 수 있다.