2026년 AI 현황: LLMs, 코딩, 스케일링 법칙, 중국, 에이전트, GPUs, AGI

요약

  1. 중국 vs 미국 AI 경쟁에서 DeepSeek 같은 오픈 웨이트 모델이 주목받고 있으며, 미국은 Adam Project로 대응 중이다.
  2. RLVR(검증 가능한 보상 기반 강화학습)이 포스트 트레이닝의 핵심 돌파구로 떠오르며, 추론 시간 스케일링과 결합되고 있다.
  3. AI 코딩 도구(Cursor, Claude Code)가 개발자 생산성을 혁신하고 있지만, 학습과 성장을 위한 "골디락스 구간" 찾기가 중요하다.

소개: 게스트 소개

Nathan Lambert(AI2 포스트 트레이닝 리드, RLHF 책 저자)와 Sebastian Raschka(Build a Large Language Model (From Scratch) 저자)가 2026년 AI 현황을 논의한다.

  • [00:27] AI 커뮤니티에서 가장 좋아하는 두 사람과 함께하는 에피소드
  • [00:49] Sebastian은 *Build a Large Language Model (From Scratch)*와 Build a Reasoning Model (From Scratch) 저자
  • [01:05] ML을 배우는 최고의 방법은 처음부터 직접 만들어보는 것
  • [01:17] Nathan은 Allen Institute for AI(Ai2)의 포스트 트레이닝 리드

중국 vs 미국: AI 경쟁의 현황

DeepSeek R1 출시 이후 AI 경쟁이 급격히 가속화되었다.

  • [02:05] 2025년 초 DeepSeek-R1 공개가 AI 경쟁의 전환점
  • [02:13] DeepSeek-R1은 훨씬 적은 컴퓨트로 최첨단 수준 성능 달성
  • [02:24] 그 이후로 AI 경쟁이 연구와 제품 양쪽에서 “미친 듯이” 심해짐
  • [03:16] 2026년에는 어떤 기업도 “다른 기업이 전혀 접근할 수 없는 기술”을 갖기 어려움
  • [03:24] 핵심 이유: 연구자들의 잦은 이직과 연구소 간 순환
  • [03:39] 차별화 요소는 예산과 하드웨어 제약(자원)
  • [07:14] 중국 기업들은 오픈 웨이트를 “영향력 확보”와 “미국 AI 시장 참여 수단”으로 활용

“오늘까지 AI 경쟁은 미친 듯이 심해졌고, 연구 수준에서도 제품 수준에서도 그렇습니다.”


ChatGPT vs Claude vs Gemini vs Grok

각 모델의 강점과 사용자 경험.

  • [10:54] OpenAI가 선두 주자였고, 선두에서 얻는 이점이 기술 분야에서 매우 큼
  • [11:01] 2024년 모멘텀은 Gemini 쪽에 있었지만, “너무 낮은 지점에서 시작”
  • [11:22] OpenAI는 운영이 혼란스러워 보여도 결과물을 실제로 “착지”시키는 데 능함
  • [12:57] Google은 스택을 위에서 아래까지 직접 개발해 NVIDIA 마진을 지불하지 않아도 됨
  • [13:05] “새로운 패러다임”이 나온다면 OpenAI에서 나올 가능성이 가장 큼
  • [17:05] 코딩이나 철학적 대화에는 Claude Opus 3.5를 쓰며, 항상 확장 추론 모드 사용
  • [17:31] Grok-3 ‘Super Heavy’가 실제로 아주 좋고 인상적
  • [18:09] Gemini의 “건초더미에서 바늘 찾기” 성능이 가장 좋음

코딩에 가장 좋은 AI

Cursor, Claude Code, Codeium 등 코딩 도구 비교.

  • [21:46] Cursor와 Claude는 “근본적으로 다른 경험”을 제공
  • [22:06] Claude는 더 “에이전틱”하고 프로젝트 전체를 대신해주기도 함
  • [22:22] Codeium은 “중간 지점”에 있음 - 도움은 주지만 완전히 대신하진 않음
  • [22:29] Claude를 쓰는 이유: “영어로 프로그래밍하는 역량”을 키우고 싶음
  • [23:30] 나란히 비교하면 Claude가 “훨씬 더 나음”
  • [24:54] 코드는 거짓말을 하지 않음 - “기본적으로 수학”
  • [27:23] Claude Code가 AI를 위한 인터페이스로 설계되어 매력적

“코드는 거짓말을 하지 않습니다. 기본적으로 수학입니다.”


트랜스포머: 2019년 이후 아키텍처 변화

GPT-2에서 현재까지 아키텍처가 크게 변하지 않았다는 놀라운 사실.

  • [40:17] GPT 계열은 “Attention Is All You Need” 트랜스포머에서 파생
  • [40:30] GPT도 본질적으로 신경망이며 어텐션 메커니즘이 핵심
  • [41:11] MoE(Mixture of Experts): 각 순전파에서 연산을 늘리지 않으면서 모델을 더 크게
  • [42:24] MoE의 핵심: 많은 지식을 담되 항상 전부 사용하지 않는 방식
  • [45:28] ChatGPT는 기본적으로 GPT-3 모델 - 아키텍처는 GPT-2와 동일
  • [45:32] 새로움은 지도학습 미세조정과 RLHF라는 “알고리즘 측면 변화”
  • [48:00] 최첨단 기준으로 여전히 자기회귀 트랜스포머가 중심

AI 학습 방식: 사전학습, 미드 트레이닝, 포스트 트레이닝

데이터 품질과 학습 단계별 최적화가 핵심.

  • [01:04:18] 사전학습: 고전적인 “다음 토큰 예측” 방식
  • [01:04:48] 이제는 원시 데이터뿐 아니라 “합성 데이터”도 포함
  • [01:05:28] 어떤 레딧 데이터는 “매우 귀하며 학습에 훌륭”
  • [01:05:42] 더 높은 품질의 데이터는 같은 수준의 모델에 “더 빨리” 도달하게 함
  • [01:12:45] 레딧은 정말 유용했고, PDF(특히 arXiv)도 중요한 출처
  • [01:13:41] 프런티어 연구소에서 영향력을 내는 최선의 방법: “더 나은 새로운 데이터를 찾는 것”

“레딧은 정말 유용했습니다. 그리고 PDF는 확실히 그런 출처 중 하나입니다.”


포스트 트레이닝과 RLVR

검증 가능한 보상 기반 강화학습(RLVR)이 2025년의 핵심 돌파구.

  • [01:37:31] 2025년 큰 흐름: “검증 가능한 보상” 기반 강화학습
  • [01:37:55] 이 패러다임이 “추론 시간 스케일링”과 매우 잘 연결됨
  • [01:38:55] RLVR이라는 용어를 중심으로 커뮤니티가 모이는 현상이 흥미로움
  • [01:39:07] RLVR: 모델이 답을 생성하고, 정확도를 보상으로 삼아 강화학습 스케일업
  • [01:42:03] 설명 단계를 사용하는 것이 모델 정확도에 도움
  • [01:42:24] R1 논문: 더 오래 훈련할수록 응답이 더 길어짐
  • [01:43:06] R1의 “아하 모먼트”: 모델이 실수를 인지하고 “다시 해보겠다”고 자기수정
  • [01:46:34] 가장 큰 문제는 연구 오염 - 데이터에 무엇이 들어 있는지 모름

“커뮤니티가 이 RLVR이라는 용어를 중심으로 모일 수 있는데, 아주 재미있습니다.”


AI 개발·연구 입문 조언

초보자를 위한 실질적인 학습 로드맵.

  • [01:58:32] 시작점: “내 컴퓨터에서 돌아가는 단순한 모델”을 처음부터 직접 구현
  • [01:58:46] 핵심 목적: “LLM에 무엇이 들어가고 무엇이 나오는지” 정확히 확인
  • [02:00:12] 한 GPU에서 실험하면 스스로 검증할 수 있음
  • [02:05:44] 한 영역에 붙어서 버티기만 하면 배울 만한 흥미로운 것이 정말 많음
  • [02:05:48] 모든 걸 따라잡으려 하면 번아웃이 옴
  • [02:14:33] 작은 대학에서 시작해도 Claude가 어려워하는 문제를 찾아내면 “커리어 로켓”
  • [02:14:57] 미래 모델의 약점을 예측하며 연구를 설계해야 함

“전부 다 하려 하면 너무 압도적이라서 할 수 없고, 모든 걸 따라잡으려 하면 번아웃이 올 겁니다.”


AI 업계 업무 문화

996 문화와 번아웃에 대한 솔직한 대화.

  • [02:21:07] 9/9/6: 오전 9시부터 밤 9시까지, 주 6일 근무
  • [02:21:57] 교수들은 학생들과 일하며 “사명이 사람 중심”이라 더 충만해 보임
  • [02:22:31] 모델들이 서로를 뛰어넘으며 도약하는 경쟁이 “잔혹할 정도로 냉정”
  • [02:23:16] 경쟁이 사람들을 열심히 일하게 만들지만, 인적 자본이 소모되고 번아웃 발생
  • [02:23:55] 996 같은 과로 환경이 “인간의 희생을 바탕으로 진보를 만들어내기엔 완벽한 환경”

실리콘밸리 버블

버블의 양면성과 현실 왜곡장.

  • [02:25:20] 실리콘밸리는 에코 챔버이자 사일로이며 “버블”
  • [02:25:31] 버블은 “매우 유용하고 효과적”일 수 있음 - 극도로 생산적
  • [02:25:34] 스티브 잡스의 현실 왜곡장처럼, 돌파구가 곧 올 것을 믿게 만듦
  • [02:26:15] 996으로 일하면서 현실에서 너무 멀어지면 인간 경험의 근본을 놓칠 수 있음
  • [02:27:53] 역사책/문학을 읽고, 세계의 다른 곳도 방문하라

“트위터가 전부가 아니고, 서브스택이 전부도 아닙니다.”


도구 사용과 지속적 학습

LLM의 도구 사용 능력과 지속적 학습의 중요성.

  • [02:34:45] 도구 사용은 “엄청난 돌파구”가 될 수 있음
  • [02:34:53] LLM이 23+5를 외우게 하기보다 계산기를 쓰게 하면 됨
  • [02:36:58] LLM에 이메일 접근 권한을 주는 것은 “엄청난 위험”
  • [02:39:25] AI 핵심 이정표: “원격 노동자 대체”에 가까운 상태
  • [02:39:36] 언어 모델의 한계: 피드백에서 빠르게 학습하는 능력 부족
  • [02:42:29] Apple이 Foundation 모델을 휴대폰에 올리고 경험으로부터 학습시키려는 방향

롱 컨텍스트와 로보틱스

긴 컨텍스트와 로봇 공학의 미래.

  • [02:44:54] 입력 컨텍스트 길이를 100만 토큰까지 올림
  • [02:45:02] 올해 200만~500만 토큰까지는 갈 수 있어 보이지만 1억 토큰은 아직
  • [02:57:17] 로봇을 현실 세계에 대비시키는 것은 LLM보다 훨씬 어려움
  • [02:57:42] 거의 이야기되지 않지만 매우 중요한 주제: “안전”
  • [02:58:32] 가정 내에서 학습하는 소비자 구매용 로봇에는 “매우 비관적”
  • [02:58:36] 자율주행차에는 “매우 낙관적”

“아무리 강조해도 지나치지 않을 정도로 중요하지만 거의 전혀 이야기되지 않는 것이 안전입니다.”


AGI 타임라인

AGI/ASI까지의 전망과 “들쭉날쭉한” AI 능력.

  • [02:59:57] OpenAI 정의: “경제적으로 가치 있는 과업을 수행할 수 있는 AI”
  • [03:01:28] Situational Awareness 보고서 마일스톤: 초인간적 코더 → 초인간적 AI 연구자 → ASI
  • [03:02:11] 초기 예측(20272028)이 “34년 뒤로 미뤄져 평균 2031년”
  • [03:02:53] AI 능력이 “들쭉날쭉(jagged)” - 어떤 것엔 탁월하지만 다른 것엔 형편없음
  • [03:03:12] 대규모 분산 학습은 학습 데이터가 너무 적어 모델이 꽤 못함
  • [03:06:24] “초인간적 코더” 전제는 루프 안 인간 수가 0이 되는 것

AI가 프로그래머를 대체할까?

코딩 자동화와 개발자의 미래.

  • [01:31:30] 많은 사람들이 배포 코드의 50% 이상을 AI 생성 코드로 채움
  • [01:31:49] 약 80%가 AI를 업무의 일부로 쓰는 것이 더 즐겁다고 느낌
  • [01:32:19] 복잡한 버그를 추적해 찾아냈을 때가 “세상에서 가장 기분 좋은 순간”
  • [01:34:09] 디버깅은 “며칠 동안 사막을 헤매고 난 뒤에 마시는 물 한 잔”
  • [01:35:34] 시니어 개발자들이 주니어보다 AI 생성 코드를 더 많이 배포
  • [01:36:06] 미래의 문제: 스스로 해보려 하지 않으면 “어떻게 전문가가 될 수 있을까?”
  • [01:36:56] 요령: “전용 오프라인 시간”을 만들어 하루 2시간은 공부하고 나머지는 LLM 사용

OpenAI, Anthropic, Google, xAI, Meta의 미래

주요 AI 기업들의 경쟁 구도.

  • [03:41:16] 승자독식이 어려운 이유: 개발 경로가 “모두 너무 비슷”
  • [03:42:07] Anthropic이 코딩 니치를 찾고 “밀어붙이는” 식으로 피벗
  • [03:44:04] Llama는 Meta 조직의 “가장 집중된 표현”
  • [03:45:08] LLaMA의 목표는 벤치마크에서 ChatGPT를 이기는 것이 아니었음
  • [03:49:25] 2025년 큰 이야기: Llama의 공백을 메우는 “중국 오픈 웨이트 모델들의 부상”
  • [03:51:12] 오픈 모델을 최첨단보다 반 세대~한 세대 뒤에 만드는 데 “1억 달러”

AI를 위한 맨해튼 프로젝트 (Adam Project)

미국 오픈 모델 이니셔티브.

  • [03:49:43] Adam Project: 처음엔 ‘American DeepSeek Project’로 불림
  • [03:50:06] Perplexity 설명: “미국 기반 이니셔티브”로 오픈 웨이트 모델과 인프라 구축
  • [03:50:25] 오픈 모델이 AI 연구의 “엔진”이 될 것
  • [03:51:52] AI2가 NSF로부터 4년간 1억 달러 보조금 - NSF 최대 CS 보조금
  • [03:52:33] NVIDIA가 이 일에 매우 기대하고 있음

핵심 시사점

  1. RLVR의 부상: 검증 가능한 보상 기반 강화학습이 포스트 트레이닝의 핵심 돌파구로 떠오르며, 추론 시간 스케일링과 결합해 모델 성능을 크게 향상시키고 있다.

  2. 데이터가 왕: 프런티어 연구소에서 가장 큰 영향력을 내는 방법은 화려한 알고리즘보다 “더 나은 새로운 데이터를 찾는 것”이다.

  3. 골디락스 구간: AI 도구 사용과 직접 학습 사이의 적절한 균형점을 찾는 것이 개인과 문명 모두에게 중요하다.

  4. 미국 오픈 모델의 필요성: 중국 오픈 웨이트 모델들이 영향력을 키우는 가운데, Adam Project 같은 미국 기반 이니셔티브가 대응 중이다.

  5. AGI 타임라인 재조정: 초기 예측들이 뒤로 밀리면서 평균 2031년으로 조정되었으나, AI 능력의 “들쭉날쭉”한 특성 때문에 특정 영역에서는 초인간적일 수 있다.