AlphaGo 10년: AI의 전환점 | Thore Graepel & Pushmeet Kohli

요약

  1. AlphaGo의 이세돌 대국은 바둑을 넘어 현대 AI가 인간 지식을 확장할 수 있음을 보여준 전환점이었다.
  2. AlphaGo와 AlphaZero는 직관, 계산, 강화학습, 탐색을 결합해 거대한 조합적 공간을 다루는 방법을 제시했다.
  3. 그 유산은 AlphaFold, AlphaTensor, AlphaEvolve, AlphaProof처럼 과학, 수학, 코딩, 알고리즘 발견으로 확장되고 있다.

Chapter 1: 서울의 바둑판에서 시작된 전환점 (00:00-09:57)

  • [00:03] 2016년 3월, 대한민국 서울의 한 호텔 스위트룸에서 18회 세계 챔피언 이세돌과 강화학습 기반 AI 시스템 AlphaGo가 바둑을 두고 있었다.
  • [00:47] 어떤 인간 기사도 선택하지 않았을 37수는 “혀를 내두르게 하는 수”로 소개됐다.
  • [01:05] 최종 결과는 AlphaGo의 4대 1 승리였고, 정확히 10년 전의 일이다.
  • [01:31] 현대 AI 혁명은 여러 면에서 한국의 나무 바둑판 위에서 시작되었다고 정리된다.

“[01:02] 그리고 눈 깜짝할 사이에 세상이 바뀌었습니다.”

  • [02:25] 토르는 바둑이 규칙은 단순하지만 전술·전략·복잡한 패턴이 만들어져 AI에 완벽한 도전이었다고 답한다.
  • [02:53] 바둑은 체스보다 여러 자릿수만큼 더 복잡하며, 당시 누구도 가까운 시일 내 해결될 것이라 예상하지 않았다.
  • [03:50] 토르는 DeepMind 첫 출근 날, 아직 AlphaGo라 불리지 않던 초기 버전과 대국했고 근소한 차이로 패했다.

“[05:43] 저는 공식적으로 AlphaGo에게 진 첫 직원이라는 왕관을 차지했습니다.”

  • [06:45] 푸시밋은 AlphaGo의 아름다움이 빠른 사고와 느린 사고를 함께 갖춘 점이라고 설명한다.
  • [07:10] 인간은 판세를 보고 빠르게 직관으로 좋은 수를 알아차리며, 가능한 모든 수가 아니라 유망한 수에 끌린다.
  • [08:28] 2012년 이후 딥러닝의 성장으로 가치 함수(판세 평가)와 정책 네트워크(수 순위화)를 학습할 도구가 생겼다.
  • [09:06] 느린 사고는 게임 트리를 탐색하는 것으로, Deep Blue 시절부터 알려진 고전적 방식과 연결된다.

Chapter 2: 판후이, 이세돌, 그리고 37수 (10:01-20:55)

  • [10:11] 토르는 AlphaGo가 한 판은 질 것이라 보고 데이비드 실버와 내기를 했지만, 결과는 10대 0 완승이었다.
  • [11:08] 이세돌은 당시 최고의 기사로 평가됐고, 판후이와의 기보만 보고 자신이 이길 것이라 확신했다.
  • [12:10] 그러나 이세돌이 알지 못한 점은 AlphaGo가 계속 훈련과 알고리즘 개선으로 발전하고 있었다는 사실이었다.
  • [13:22] 팀은 이전 버전들과 대국시켜 Elo 점수를 계산했지만, 이세돌이 그 척도에서 어디쯤인지는 알 수 없어 긴장했다.
  • [15:25] 첫 대국 초반엔 모두 이세돌의 승리를 확신했으나, 집을 세어 보면서 AlphaGo가 유리하다는 점이 드러났다.

“[16:22] 이것은 제가 경험한 것 중 가장 경이로운 일입니다.”

  • [17:18] 두 번째 대국에서 등장한 37수를, AlphaGo는 인간 기사가 둘 확률이 1만 분의 1이라고 판단했다.
  • [18:04] 해설자 마이클 레드먼은 37수를 재현하려다 “틀림없이 잘못됐다”며 물러섰다가, 실제 수가 맞음을 확인했다.
  • [18:27] 37수는 보통 3·4선에서 이뤄지는 교환을 5선에서 해도 이득이라는, 집과 세력을 새롭게 평가하는 어깨짚기였다.
  • [20:18] 처음엔 환각이나 실수처럼 여겨졌으나, 후반에 두 번째 승리의 결정적 역할을 했음이 드러났다.

“[20:24] 그것은 그 대국에서의 한 순간일 뿐만 아니라, 제 생각에는 AI의 전체 역사에서도 하나의 순간이었습니다.”

Chapter 3: 이세돌의 78수와 AlphaZero의 등장 (20:58-31:00)

  • [20:58] 이세돌이 둔 78수는 AlphaGo를 혼란에 빠뜨려 그 대국에서 기권하게 만들었다.
  • [22:00] 토르는 78수를 이중의 노림을 가진 보기 드문 끼움수라고 설명한다.
  • [22:26] 78수 이후 AlphaGo의 수들은 형세를 제대로 파악하지 못하는 듯, 나쁜 의미에서 말이 되지 않아 보였다.
  • [24:03] 이세돌은 기자회견에서 인류를 대표해 마지막으로 기계를 이겨낼 방법을 찾아 기쁘고 자랑스러웠다고 말했고, 78수는 “신의 한 수”로 불렸다.
  • [26:12] 이 대국은 시스템이 스스로 학습하며 학습 데이터 분포를 넘어설 수 있다는 증거로 받아들여졌다.
  • [27:48] 토르는 과학적 관점에서 AlphaZero가 원래 AlphaGo보다 더 큰 진전이었다고 말한다 — 어떤 인간 기보에도 접근하지 못했다.
  • [28:20] AlphaZero는 완전히 무작위로 시작해 자가 대국만으로 어떤 수가 승패로 이어지는지 학습했다.
  • [28:57] 먼저 인간이 두는 방식(정석·오프닝)을 다시 발견한 뒤, 반박 수를 찾아내며 인간 지식을 넘어섰다.

“[29:54] 알파제로가 바둑을 두던 방식은, 결국 제게는 외계의 바둑처럼 보였습니다.”

  • [30:11] AlphaZero의 수들은 처음엔 말이 안 되는 듯했지만 30수 뒤에는 의미가 드러나는, 예지력 있는 수처럼 보였다.

Chapter 4: AlphaGo가 연 문과 과학 문제로의 확장 (31:08-37:58)

“[31:35] 우리가 이것을 할 수 있다면, 또 무엇을 할 수 있을까 하는 것이었습니다.”

  • [31:38] 바둑은 서로 다른 국면이 10의 170제곱 개에 달하는 극도로 복잡한 조합론적 탐색 공간이다.
  • [31:47] 그런 공간을 원칙 있게 탐색할 수 있다면 다른 거대한 조합론적 공간(예: 단백질 접힘)도 다룰 수 있어 보였다.
  • [34:06] AlphaGo의 큰 성과 중 하나는 거대한 탐색 공간을 더 다루기 쉽게 만든 것이며, 탐색은 실세계 문제의 핵심이다.
  • [35:20] 연구 공동체는 아직 두 행렬을 곱하는 가장 빠른 방법을 모르며, 이는 가능한 알고리즘 공간을 탐색하는 문제로 볼 수 있다.

“[35:42] 문제는 그 문제의 탐색 공간이 바둑의 탐색 공간보다도 더 크다는 것입니다.”

  • [36:00] AlphaTensor는 행렬 곱셈을 “얼마나 빠르고 정확하게 곱했는가”를 기준으로 하는 게임으로 바꾸었다.
  • [36:35] 1969년 스트라센 이후 약 50년 만에, AlphaTensor는 두 행렬을 곱하는 더 나은 방법을 찾아냈다.
  • [37:00] 세계의 모든 대규모 언어 모델은 핵심적으로 거대한 행렬 곱셈 문제이며, 작은 속도 개선도 전 지구적 규모에선 막대한 차이를 만든다.
  • [37:38] AlphaEvolve 같은 에이전트는 가능한 모든 프로그램의 공간을 탐색해 최고의 알고리즘을 찾으려 한다.

Chapter 5: 알고리즘 탐색, 검증기, 환각의 구분 (38:03-44:51)

  • [39:09] 에이전트는 인간이 이해하지 못했던 문제의 대칭성을 발견·활용해, 왜 더 빠른지 인간이 몰라도 더 빠른 알고리즘을 만들 수 있다.
  • [40:14] 종반에 AlphaGo가 점수를 내주는 듯 보인 것은, 점수 차가 아니라 이길 확률을 최적화했기 때문이다(반집 승리로 충분).

“[41:00] 왜 그런 일이 생기는지 알 수 있습니다. 알고리즘과 인간은 궁극적으로 조금씩 다른 것을 최적화하기 때문입니다.”

  • [41:32] 초기 LLM은 환각을 일으켜 잘못된 해법을 내놓곤 했고, 여기서 에이전트 하니스(검증기 결합)의 중요성이 드러난다.
  • [42:20] 에이전트를 만들 때 탐색량을 의도적으로 늘려 분포를 넘어서게 하되, 검증·평가 함수로 틀린 통찰을 걸러낸다.
  • [42:46] 푸시밋은 이를 칼 포퍼의 “추측과 논박”에 연결한다 — 추측은 생성(가설), 논박은 틀린 것을 걸러내는 단계다.
  • [43:23] 이 관점은 현재 AI가 코드처럼 검증 가능한 영역에서 특히 강한 이유를 설명한다(컴파일·테스트가 곧 검증).
  • [43:47] 반면 미해결 과학 문제는 검증기가 없을 수 있고, 궁극적으로 물리적 실험이 필요해 길이 멀다.
  • [44:40] AlphaFold는 단백질 구조 예측을 놀랍게 해결하지만, 그 개념적 작동 메커니즘을 완전히 이해하고 있지는 않다.

Chapter 6: 설명, AlphaProof, 그리고 과학의 37수 (44:55-48:57)

  • [45:11] 그런 결과들을 제한된 합리성을 지닌 인간의 마음이 소화할 수 있는 형태로 바꾸는 작업이 필요하다.

“[45:53] 어떤 설명은 정말로 하나의 다리입니다. 현상과 그것을 이해하는 우리의 능력 사이의 다리입니다.”

  • [46:14] AlphaProof는 열린 수학 문제에 검증 가능한 증명을 내놓으며, 인간이 증명을 이해하지 못해도 그것이 맞다는 것은 알 수 있다.
  • [47:05] 두 가지 핵심 과제가 부상한다 — (1) 문제를 정확히 명시하는 것, (2) 해답을 다시 사람이 읽을 수 있는 형태로 바꾸는 것.
  • [47:48] 푸시밋은 에이전트가 거대한 문제를 풀 수 있어도 “무엇을 풀지” 정하는 일은 인간에게 달려 있어, 수학자가 더 중요해진다고 말한다.
  • [48:42] 오랫동안 연구된 행렬 곱셈에서 새 알고리즘을 찾아낸 것이 알고리즘 발견에서의 “37수 순간”이다.

“[48:57] 그것은 정말로 알고리즘 발견에서의 37수 순간입니다.”

Chapter 7: 인간 지식을 넘어서는 시기로의 회귀 (49:01-53:42)

  • [49:06] 과학·수학·재료과학 등에서 기존에 발견되지 않았던 새로운 구조들이 나오는, AlphaGo 37수와 비슷한 현상이 확산되고 있다.

“[49:40] 반면 대규모 언어 모델은 거의 지능으로 가는 지름길이 되었습니다.”

  • [50:22] LLM의 지름길은 인터넷에 “결정화된 지능”으로 저장된 방대한 데이터를 채굴해 시스템을 훈련시키는 것이다.
  • [50:52] 그러나 기존 데이터 기반 학습은 새로움으로 이어지지 않으며, 핵심 질문은 “이미 아는 것을 어떻게 넘어설 것인가”이다.
  • [51:08] AI 커뮤니티는 DeepMind가 초기에 개척한 방법(환경 속 강화학습)을 다시 탐구하고 있으며, 사후 훈련·코딩 환경에 활용되고 있다.

“[51:37] 그래서 이제 우리는 다시 인간 지식을 넘어서는 시기에 있습니다.”

  • [51:55] AlphaGo 이후 특정 영역에서 인간 수준을 넘어서는 지능이 공상과학이 아니라 현재 일어나는 일로 인식되기 시작했다.
  • [52:13] 바둑에서 가능했다면 단백질 구조 예측, 핵융합, 재료과학에서도 가능하지 않을 이유가 없었다.
  • [52:58] AlphaGo는 기계가 단순 계산을 넘어 직관과 계산을 결합한 진정한 지능을 보여준 첫 순간으로 평가된다.
  • [53:21] 지금 더 중요해진 질문들 — 인간 지식을 넘어서는 AI를 어떻게 만들 것인가, 그리고 진정으로 새로운 통찰과 환각을 어떻게 구분할 것인가.