인간은 AI를 더 나아지게 만들 수 있을까?

요약

  1. Richard Sutton의 "The Bitter Lesson"은 인간 지식보다 연산 활용이 AI 발전의 핵심이라는 통찰을 담고 있다.
  2. LLM은 인간 텍스트로 훈련되어 인간 지식에 제한되며, AlphaGo처럼 강화학습으로 스스로 발견하는 시스템과 대비된다.
  3. David Silver와 Sutton은 "경험의 시대"를 예고하며, AI가 인간 지식이 아닌 실제 경험에서 학습하는 미래를 제시한다.

HARPY: 인간 지식 기반 AI의 한계

1971년 ARPA는 음성 인식 시스템 개발을 시작했고, 카네기 멜런 팀이 개발한 HARPY는 1,011개 단어를 95% 정확도로 인식하는 성과를 거뒀다. 하지만 이 시스템은 인간 전문가가 설계한 지식 그래프에 의존했다.

  • [00:00] 1971년 ARPA가 1,000개 단어 90% 정확도 목표로 음성 인식 프로그램 시작
  • [00:27] HARPY 성공 후 10년간, 핵심이던 거대 지식 그래프가 전혀 다른 것으로 대체됨
  • [02:07] HARPY 지식 그래프는 언어 전문가가 문법을 규정하고 언어학자가 접합부 규칙을 설계
  • [03:56] 은닉 마르코프 모델로 대체 - 그래프 간선이 데이터로부터 학습되는 확률로 변환
  • [04:07] 어떤 전문가도 문법이나 접합부 규칙을 규정하지 않게 됨

The Bitter Lesson: 70년 AI 연구의 교훈

2019년 Richard Sutton은 역사상 가장 영향력 있는 AI 에세이 중 하나를 발표했다.

  • [04:41] Sutton은 HARPY 대체가 더 큰 흐름의 일부라고 지적
  • [04:58] “70년간 AI 연구에서 얻은 가장 큰 교훈” - 계산을 활용하는 일반적 방법이 가장 효과적
  • [05:09] 인간 지식을 시스템에 주입하려는 시도는 처음엔 도움이 되지만 이후 역효과
  • [05:23] GPT-2 공개 직후 발표되어 새 패러다임의 부상과 맞물림

Sutton의 반전: LLM은 Bitter Lesson의 부정적 사례

2025년 Sutton이 팟캐스트에 출연해 놀라운 견해를 밝혔다.

  • [06:02] Sutton이 Dwarkesh Patel 인터뷰에서 LLM에 대해 완전히 다른 관점 제시
  • [06:54] LLM이 Bitter Lesson의 사례인지는 “흥미로운 질문”
  • [07:11] LLM은 막대한 연산을 사용하지만, 동시에 많은 인간 지식을 넣는 방식이기도 함
  • [07:59] 경험으로부터 학습하는 시스템이 훨씬 더 뛰어나고 확장 가능할 것으로 예상
  • [08:26] LLM은 HARPY처럼 인간 지식에 너무 많이 의존 - 인간 생성 텍스트로 훈련되기 때문

“인간의 지식을 사용한 것들은 결국 그저 경험으로부터 훈련한 것들에 의해 연산을 통해 대체된다”

지도학습 vs 강화학습

LLM의 핵심 훈련 방식인 지도학습과 그 한계.

  • [09:20] LLM 훈련: 토큰 하나하나마다 모델에게 무엇을 말해야 하는지 가르침
  • [09:57] Sutton의 비판: HARPY처럼 인간을 흉내 내도록 훈련하는 것은 인간 지식에 과도하게 의존
  • [10:13] 강화학습의 아버지 Sutton - AlphaGo가 가장 설득력 있는 현대적 사례

AlphaGo: 인간 지식을 초월한 AI

AlphaGo와 AlphaGo Zero가 어떻게 초인적 성능을 달성했는지.

  • [11:50] AlphaGo는 먼저 지도학습으로 정책 네트워크를 인간 기보로 훈련
  • [13:17] 지도학습만으로는 ELO 1517, 중급 아마추어 수준에 불과
  • [13:26] 강화학습: 환경과 상호작용하며 학습 - 실제 게임을 두면서 배움
  • [13:45] 정책 네트워크가 스스로의 버전들과 대국, 승패를 기반으로 학습
  • [14:36] 가치 네트워크 도입 - 주어진 바둑판 상태에서 승리할 확률 추정
  • [15:19] Sutton: “거의 모든 강화학습 알고리즘의 가장 중요한 구성요소는 가치를 효율적으로 추정하는 방법”
  • [16:35] AlphaGo가 2016년 세계 랭킹 2위 이세돌 격파
  • [16:45] AlphaGo Zero: 인간 기보 없이 오직 강화학습만으로 더 강한 플레이어 달성
  • [17:00] “외계인과 대국하는 것 같다”, “다른 차원에서 온 것 같다”

RLHF와 RLVR: LLM에서의 강화학습

현재 LLM 훈련에서 강화학습이 어떻게 사용되는지.

  • [17:53] 강화학습이 이미 LLM 훈련에서 중요한 역할
  • [18:00] RLHF (인간 피드백 강화학습): 모델을 인간 선호에 맞추는 데 사용
  • [18:15] RLVR (검증 가능한 보상 강화학습): 수학, 코딩 등 정답이 있는 문제에서 스스로 해결 경로 탐색
  • [18:31] 인간 텍스트 사전학습 후 강화학습으로 스스로 발견하게 하는 것은 흥미로운 방향

경험의 시대 (The Era of Experience)

David Silver와 Richard Sutton이 제시하는 AI의 미래.

  • [18:45] David Silver(AlphaGo 수석 연구자)와 Sutton이 “Welcome to the Era of Experience” 공동 집필
  • [19:00] 사고실험: 5,000년 전 지식으로 훈련하면 애니미즘 관점, 1,000년 전이면 유신론, 50년 전이면 양자역학
  • [19:26] 패러다임 전환에는 물리 세계와의 실제 상호작용이 필요
  • [19:39] 경험의 시대: 에이전트가 인간 지식 대신 현실 세계 보상 신호로부터 학습
  • [19:52] AlphaProof: LLM과 강화학습을 결합해 스스로 수학적 추론 방법을 발견

저자의 견해

  • [20:31] Sutton과 Silver의 강화학습 관점은 현 세대 AI 한계를 바라보는 유용한 렌즈
  • [20:45] 강화학습 르네상스가 코앞이라는 주장에는 더 회의적
  • [20:49] 강화학습이 잘하는 영역(게임, 수학, 코딩)은 아직 많은 현실 세계 문제와 거리가 있음

핵심 시사점

  1. Bitter Lesson의 재해석: LLM은 연산 활용 측면에서 성공적이지만, 인간 지식 의존이라는 점에서 HARPY와 같은 한계를 가질 수 있다
  2. AlphaGo의 교훈: 지도학습(인간 모방)에서 강화학습(스스로 발견)으로 전환했을 때 초인적 성능 달성
  3. 경험 기반 학습의 미래: 인간 데이터가 아닌 실제 경험에서 학습하는 AI가 다음 돌파구가 될 가능성