2026년 AI 현황: LLMs, 코딩, 스케일링 법칙, 중국, 에이전트, GPUs, AGI

소개: 게스트 소개

Nathan Lambert(AI2 포스트 트레이닝 리드, RLHF 책 저자)와 Sebastian Raschka(Build a Large Language Model (From Scratch) 저자)가 2026년 AI 현황을 논의한다.

[00:27] AI 커뮤니티에서 가장 좋아하는 두 사람과 함께하는 에피소드
[00:49] Sebastian은 *Build a Large Language Model (From Scratch)*와 Build a Reasoning Model (From Scratch) 저자
[01:05] ML을 배우는 최고의 방법은 처음부터 직접 만들어보는 것
[01:17] Nathan은 Allen Institute for AI(Ai2)의 포스트 트레이닝 리드

중국 vs 미국: AI 경쟁의 현황

DeepSeek R1 출시 이후 AI 경쟁이 급격히 가속화되었다.

[02:05] 2025년 초 DeepSeek-R1 공개가 AI 경쟁의 전환점
[02:13] DeepSeek-R1은 훨씬 적은 컴퓨트로 최첨단 수준 성능 달성
[02:24] 그 이후로 AI 경쟁이 연구와 제품 양쪽에서 “미친 듯이” 심해짐
[03:16] 2026년에는 어떤 기업도 “다른 기업이 전혀 접근할 수 없는 기술”을 갖기 어려움
[03:24] 핵심 이유: 연구자들의 잦은 이직과 연구소 간 순환
[03:39] 차별화 요소는 예산과 하드웨어 제약(자원)
[07:14] 중국 기업들은 오픈 웨이트를 “영향력 확보”와 “미국 AI 시장 참여 수단”으로 활용

“오늘까지 AI 경쟁은 미친 듯이 심해졌고, 연구 수준에서도 제품 수준에서도 그렇습니다.”

ChatGPT vs Claude vs Gemini vs Grok

각 모델의 강점과 사용자 경험.

[10:54] OpenAI가 선두 주자였고, 선두에서 얻는 이점이 기술 분야에서 매우 큼
[11:01] 2024년 모멘텀은 Gemini 쪽에 있었지만, “너무 낮은 지점에서 시작”
[11:22] OpenAI는 운영이 혼란스러워 보여도 결과물을 실제로 “착지”시키는 데 능함
[12:57] Google은 스택을 위에서 아래까지 직접 개발해 NVIDIA 마진을 지불하지 않아도 됨
[13:05] “새로운 패러다임”이 나온다면 OpenAI에서 나올 가능성이 가장 큼
[17:05] 코딩이나 철학적 대화에는 Claude Opus 3.5를 쓰며, 항상 확장 추론 모드 사용
[17:31] Grok-3 ‘Super Heavy’가 실제로 아주 좋고 인상적
[18:09] Gemini의 “건초더미에서 바늘 찾기” 성능이 가장 좋음

코딩에 가장 좋은 AI

Cursor, Claude Code, Codeium 등 코딩 도구 비교.

[21:46] Cursor와 Claude는 “근본적으로 다른 경험”을 제공
[22:06] Claude는 더 “에이전틱”하고 프로젝트 전체를 대신해주기도 함
[22:22] Codeium은 “중간 지점”에 있음 - 도움은 주지만 완전히 대신하진 않음
[22:29] Claude를 쓰는 이유: “영어로 프로그래밍하는 역량”을 키우고 싶음
[23:30] 나란히 비교하면 Claude가 “훨씬 더 나음”
[24:54] 코드는 거짓말을 하지 않음 - “기본적으로 수학”
[27:23] Claude Code가 AI를 위한 인터페이스로 설계되어 매력적

“코드는 거짓말을 하지 않습니다. 기본적으로 수학입니다.”

트랜스포머: 2019년 이후 아키텍처 변화

GPT-2에서 현재까지 아키텍처가 크게 변하지 않았다는 놀라운 사실.

[40:17] GPT 계열은 “Attention Is All You Need” 트랜스포머에서 파생
[40:30] GPT도 본질적으로 신경망이며 어텐션 메커니즘이 핵심
[41:11] MoE(Mixture of Experts): 각 순전파에서 연산을 늘리지 않으면서 모델을 더 크게
[42:24] MoE의 핵심: 많은 지식을 담되 항상 전부 사용하지 않는 방식
[45:28] ChatGPT는 기본적으로 GPT-3 모델 - 아키텍처는 GPT-2와 동일
[45:32] 새로움은 지도학습 미세조정과 RLHF라는 “알고리즘 측면 변화”
[48:00] 최첨단 기준으로 여전히 자기회귀 트랜스포머가 중심

AI 학습 방식: 사전학습, 미드 트레이닝, 포스트 트레이닝

데이터 품질과 학습 단계별 최적화가 핵심.

[01:04:18] 사전학습: 고전적인 “다음 토큰 예측” 방식
[01:04:48] 이제는 원시 데이터뿐 아니라 “합성 데이터”도 포함
[01:05:28] 어떤 레딧 데이터는 “매우 귀하며 학습에 훌륭”
[01:05:42] 더 높은 품질의 데이터는 같은 수준의 모델에 “더 빨리” 도달하게 함
[01:12:45] 레딧은 정말 유용했고, PDF(특히 arXiv)도 중요한 출처
[01:13:41] 프런티어 연구소에서 영향력을 내는 최선의 방법: “더 나은 새로운 데이터를 찾는 것”

“레딧은 정말 유용했습니다. 그리고 PDF는 확실히 그런 출처 중 하나입니다.”

포스트 트레이닝과 RLVR

검증 가능한 보상 기반 강화학습(RLVR)이 2025년의 핵심 돌파구.

[01:37:31] 2025년 큰 흐름: “검증 가능한 보상” 기반 강화학습
[01:37:55] 이 패러다임이 “추론 시간 스케일링”과 매우 잘 연결됨
[01:38:55] RLVR이라는 용어를 중심으로 커뮤니티가 모이는 현상이 흥미로움
[01:39:07] RLVR: 모델이 답을 생성하고, 정확도를 보상으로 삼아 강화학습 스케일업
[01:42:03] 설명 단계를 사용하는 것이 모델 정확도에 도움
[01:42:24] R1 논문: 더 오래 훈련할수록 응답이 더 길어짐
[01:43:06] R1의 “아하 모먼트”: 모델이 실수를 인지하고 “다시 해보겠다”고 자기수정
[01:46:34] 가장 큰 문제는 연구 오염 - 데이터에 무엇이 들어 있는지 모름

“커뮤니티가 이 RLVR이라는 용어를 중심으로 모일 수 있는데, 아주 재미있습니다.”

AI 개발·연구 입문 조언

초보자를 위한 실질적인 학습 로드맵.

[01:58:32] 시작점: “내 컴퓨터에서 돌아가는 단순한 모델”을 처음부터 직접 구현
[01:58:46] 핵심 목적: “LLM에 무엇이 들어가고 무엇이 나오는지” 정확히 확인
[02:00:12] 한 GPU에서 실험하면 스스로 검증할 수 있음
[02:05:44] 한 영역에 붙어서 버티기만 하면 배울 만한 흥미로운 것이 정말 많음
[02:05:48] 모든 걸 따라잡으려 하면 번아웃이 옴
[02:14:33] 작은 대학에서 시작해도 Claude가 어려워하는 문제를 찾아내면 “커리어 로켓”
[02:14:57] 미래 모델의 약점을 예측하며 연구를 설계해야 함

“전부 다 하려 하면 너무 압도적이라서 할 수 없고, 모든 걸 따라잡으려 하면 번아웃이 올 겁니다.”

AI 업계 업무 문화

996 문화와 번아웃에 대한 솔직한 대화.

[02:21:07] 9/9/6: 오전 9시부터 밤 9시까지, 주 6일 근무
[02:21:57] 교수들은 학생들과 일하며 “사명이 사람 중심”이라 더 충만해 보임
[02:22:31] 모델들이 서로를 뛰어넘으며 도약하는 경쟁이 “잔혹할 정도로 냉정”
[02:23:16] 경쟁이 사람들을 열심히 일하게 만들지만, 인적 자본이 소모되고 번아웃 발생
[02:23:55] 996 같은 과로 환경이 “인간의 희생을 바탕으로 진보를 만들어내기엔 완벽한 환경”

실리콘밸리 버블

버블의 양면성과 현실 왜곡장.

[02:25:20] 실리콘밸리는 에코 챔버이자 사일로이며 “버블”
[02:25:31] 버블은 “매우 유용하고 효과적”일 수 있음 - 극도로 생산적
[02:25:34] 스티브 잡스의 현실 왜곡장처럼, 돌파구가 곧 올 것을 믿게 만듦
[02:26:15] 996으로 일하면서 현실에서 너무 멀어지면 인간 경험의 근본을 놓칠 수 있음
[02:27:53] 역사책/문학을 읽고, 세계의 다른 곳도 방문하라

“트위터가 전부가 아니고, 서브스택이 전부도 아닙니다.”

도구 사용과 지속적 학습

LLM의 도구 사용 능력과 지속적 학습의 중요성.

[02:34:45] 도구 사용은 “엄청난 돌파구”가 될 수 있음
[02:34:53] LLM이 23+5를 외우게 하기보다 계산기를 쓰게 하면 됨
[02:36:58] LLM에 이메일 접근 권한을 주는 것은 “엄청난 위험”
[02:39:25] AI 핵심 이정표: “원격 노동자 대체”에 가까운 상태
[02:39:36] 언어 모델의 한계: 피드백에서 빠르게 학습하는 능력 부족
[02:42:29] Apple이 Foundation 모델을 휴대폰에 올리고 경험으로부터 학습시키려는 방향

롱 컨텍스트와 로보틱스

긴 컨텍스트와 로봇 공학의 미래.

[02:44:54] 입력 컨텍스트 길이를 100만 토큰까지 올림
[02:45:02] 올해 200만~500만 토큰까지는 갈 수 있어 보이지만 1억 토큰은 아직
[02:57:17] 로봇을 현실 세계에 대비시키는 것은 LLM보다 훨씬 어려움
[02:57:42] 거의 이야기되지 않지만 매우 중요한 주제: “안전”
[02:58:32] 가정 내에서 학습하는 소비자 구매용 로봇에는 “매우 비관적”
[02:58:36] 자율주행차에는 “매우 낙관적”

“아무리 강조해도 지나치지 않을 정도로 중요하지만 거의 전혀 이야기되지 않는 것이 안전입니다.”

AGI 타임라인

AGI/ASI까지의 전망과 “들쭉날쭉한” AI 능력.

[02:59:57] OpenAI 정의: “경제적으로 가치 있는 과업을 수행할 수 있는 AI”
[03:01:28] Situational Awareness 보고서 마일스톤: 초인간적 코더 → 초인간적 AI 연구자 → ASI
[03:02:11] 초기 예측(2027~~2028)이 “3~~4년 뒤로 미뤄져 평균 2031년”
[03:02:53] AI 능력이 “들쭉날쭉(jagged)” - 어떤 것엔 탁월하지만 다른 것엔 형편없음
[03:03:12] 대규모 분산 학습은 학습 데이터가 너무 적어 모델이 꽤 못함
[03:06:24] “초인간적 코더” 전제는 루프 안 인간 수가 0이 되는 것

AI가 프로그래머를 대체할까?

코딩 자동화와 개발자의 미래.

[01:31:30] 많은 사람들이 배포 코드의 50% 이상을 AI 생성 코드로 채움
[01:31:49] 약 80%가 AI를 업무의 일부로 쓰는 것이 더 즐겁다고 느낌
[01:32:19] 복잡한 버그를 추적해 찾아냈을 때가 “세상에서 가장 기분 좋은 순간”
[01:34:09] 디버깅은 “며칠 동안 사막을 헤매고 난 뒤에 마시는 물 한 잔”
[01:35:34] 시니어 개발자들이 주니어보다 AI 생성 코드를 더 많이 배포
[01:36:06] 미래의 문제: 스스로 해보려 하지 않으면 “어떻게 전문가가 될 수 있을까?”
[01:36:56] 요령: “전용 오프라인 시간”을 만들어 하루 2시간은 공부하고 나머지는 LLM 사용

OpenAI, Anthropic, Google, xAI, Meta의 미래

주요 AI 기업들의 경쟁 구도.

[03:41:16] 승자독식이 어려운 이유: 개발 경로가 “모두 너무 비슷”
[03:42:07] Anthropic이 코딩 니치를 찾고 “밀어붙이는” 식으로 피벗
[03:44:04] Llama는 Meta 조직의 “가장 집중된 표현”
[03:45:08] LLaMA의 목표는 벤치마크에서 ChatGPT를 이기는 것이 아니었음
[03:49:25] 2025년 큰 이야기: Llama의 공백을 메우는 “중국 오픈 웨이트 모델들의 부상”
[03:51:12] 오픈 모델을 최첨단보다 반 세대~한 세대 뒤에 만드는 데 “1억 달러”

AI를 위한 맨해튼 프로젝트 (Adam Project)

미국 오픈 모델 이니셔티브.

[03:49:43] Adam Project: 처음엔 ‘American DeepSeek Project’로 불림
[03:50:06] Perplexity 설명: “미국 기반 이니셔티브”로 오픈 웨이트 모델과 인프라 구축
[03:50:25] 오픈 모델이 AI 연구의 “엔진”이 될 것
[03:51:52] AI2가 NSF로부터 4년간 1억 달러 보조금 - NSF 최대 CS 보조금
[03:52:33] NVIDIA가 이 일에 매우 기대하고 있음

핵심 시사점

RLVR의 부상: 검증 가능한 보상 기반 강화학습이 포스트 트레이닝의 핵심 돌파구로 떠오르며, 추론 시간 스케일링과 결합해 모델 성능을 크게 향상시키고 있다.
데이터가 왕: 프런티어 연구소에서 가장 큰 영향력을 내는 방법은 화려한 알고리즘보다 “더 나은 새로운 데이터를 찾는 것”이다.
골디락스 구간: AI 도구 사용과 직접 학습 사이의 적절한 균형점을 찾는 것이 개인과 문명 모두에게 중요하다.
미국 오픈 모델의 필요성: 중국 오픈 웨이트 모델들이 영향력을 키우는 가운데, Adam Project 같은 미국 기반 이니셔티브가 대응 중이다.
AGI 타임라인 재조정: 초기 예측들이 뒤로 밀리면서 평균 2031년으로 조정되었으나, AI 능력의 “들쭉날쭉”한 특성 때문에 특정 영역에서는 초인간적일 수 있다.