HARPY: 인간 지식 기반 AI의 한계
1971년 ARPA는 음성 인식 시스템 개발을 시작했고, 카네기 멜런 팀이 개발한 HARPY는 1,011개 단어를 95% 정확도로 인식하는 성과를 거뒀다. 하지만 이 시스템은 인간 전문가가 설계한 지식 그래프에 의존했다.
- [00:00] 1971년 ARPA가 1,000개 단어 90% 정확도 목표로 음성 인식 프로그램 시작
- [00:27] HARPY 성공 후 10년간, 핵심이던 거대 지식 그래프가 전혀 다른 것으로 대체됨
- [02:07] HARPY 지식 그래프는 언어 전문가가 문법을 규정하고 언어학자가 접합부 규칙을 설계
- [03:56] 은닉 마르코프 모델로 대체 - 그래프 간선이 데이터로부터 학습되는 확률로 변환
- [04:07] 어떤 전문가도 문법이나 접합부 규칙을 규정하지 않게 됨
The Bitter Lesson: 70년 AI 연구의 교훈
2019년 Richard Sutton은 역사상 가장 영향력 있는 AI 에세이 중 하나를 발표했다.
- [04:41] Sutton은 HARPY 대체가 더 큰 흐름의 일부라고 지적
- [04:58] “70년간 AI 연구에서 얻은 가장 큰 교훈” - 계산을 활용하는 일반적 방법이 가장 효과적
- [05:09] 인간 지식을 시스템에 주입하려는 시도는 처음엔 도움이 되지만 이후 역효과
- [05:23] GPT-2 공개 직후 발표되어 새 패러다임의 부상과 맞물림
Sutton의 반전: LLM은 Bitter Lesson의 부정적 사례
2025년 Sutton이 팟캐스트에 출연해 놀라운 견해를 밝혔다.
- [06:02] Sutton이 Dwarkesh Patel 인터뷰에서 LLM에 대해 완전히 다른 관점 제시
- [06:54] LLM이 Bitter Lesson의 사례인지는 “흥미로운 질문”
- [07:11] LLM은 막대한 연산을 사용하지만, 동시에 많은 인간 지식을 넣는 방식이기도 함
- [07:59] 경험으로부터 학습하는 시스템이 훨씬 더 뛰어나고 확장 가능할 것으로 예상
- [08:26] LLM은 HARPY처럼 인간 지식에 너무 많이 의존 - 인간 생성 텍스트로 훈련되기 때문
“인간의 지식을 사용한 것들은 결국 그저 경험으로부터 훈련한 것들에 의해 연산을 통해 대체된다”
지도학습 vs 강화학습
LLM의 핵심 훈련 방식인 지도학습과 그 한계.
- [09:20] LLM 훈련: 토큰 하나하나마다 모델에게 무엇을 말해야 하는지 가르침
- [09:57] Sutton의 비판: HARPY처럼 인간을 흉내 내도록 훈련하는 것은 인간 지식에 과도하게 의존
- [10:13] 강화학습의 아버지 Sutton - AlphaGo가 가장 설득력 있는 현대적 사례
AlphaGo: 인간 지식을 초월한 AI
AlphaGo와 AlphaGo Zero가 어떻게 초인적 성능을 달성했는지.
- [11:50] AlphaGo는 먼저 지도학습으로 정책 네트워크를 인간 기보로 훈련
- [13:17] 지도학습만으로는 ELO 1517, 중급 아마추어 수준에 불과
- [13:26] 강화학습: 환경과 상호작용하며 학습 - 실제 게임을 두면서 배움
- [13:45] 정책 네트워크가 스스로의 버전들과 대국, 승패를 기반으로 학습
- [14:36] 가치 네트워크 도입 - 주어진 바둑판 상태에서 승리할 확률 추정
- [15:19] Sutton: “거의 모든 강화학습 알고리즘의 가장 중요한 구성요소는 가치를 효율적으로 추정하는 방법”
- [16:35] AlphaGo가 2016년 세계 랭킹 2위 이세돌 격파
- [16:45] AlphaGo Zero: 인간 기보 없이 오직 강화학습만으로 더 강한 플레이어 달성
- [17:00] “외계인과 대국하는 것 같다”, “다른 차원에서 온 것 같다”
RLHF와 RLVR: LLM에서의 강화학습
현재 LLM 훈련에서 강화학습이 어떻게 사용되는지.
- [17:53] 강화학습이 이미 LLM 훈련에서 중요한 역할
- [18:00] RLHF (인간 피드백 강화학습): 모델을 인간 선호에 맞추는 데 사용
- [18:15] RLVR (검증 가능한 보상 강화학습): 수학, 코딩 등 정답이 있는 문제에서 스스로 해결 경로 탐색
- [18:31] 인간 텍스트 사전학습 후 강화학습으로 스스로 발견하게 하는 것은 흥미로운 방향
경험의 시대 (The Era of Experience)
David Silver와 Richard Sutton이 제시하는 AI의 미래.
- [18:45] David Silver(AlphaGo 수석 연구자)와 Sutton이 “Welcome to the Era of Experience” 공동 집필
- [19:00] 사고실험: 5,000년 전 지식으로 훈련하면 애니미즘 관점, 1,000년 전이면 유신론, 50년 전이면 양자역학
- [19:26] 패러다임 전환에는 물리 세계와의 실제 상호작용이 필요
- [19:39] 경험의 시대: 에이전트가 인간 지식 대신 현실 세계 보상 신호로부터 학습
- [19:52] AlphaProof: LLM과 강화학습을 결합해 스스로 수학적 추론 방법을 발견
저자의 견해
- [20:31] Sutton과 Silver의 강화학습 관점은 현 세대 AI 한계를 바라보는 유용한 렌즈
- [20:45] 강화학습 르네상스가 코앞이라는 주장에는 더 회의적
- [20:49] 강화학습이 잘하는 영역(게임, 수학, 코딩)은 아직 많은 현실 세계 문제와 거리가 있음
핵심 시사점
- Bitter Lesson의 재해석: LLM은 연산 활용 측면에서 성공적이지만, 인간 지식 의존이라는 점에서 HARPY와 같은 한계를 가질 수 있다
- AlphaGo의 교훈: 지도학습(인간 모방)에서 강화학습(스스로 발견)으로 전환했을 때 초인적 성능 달성
- 경험 기반 학습의 미래: 인간 데이터가 아닌 실제 경험에서 학습하는 AI가 다음 돌파구가 될 가능성