Tejal Patwardhan이 모델을 과소평가하지 않게 된 이유 - 에피소드 21

요약

  1. 평가(eval)는 모델의 현재 능력뿐 아니라 진전의 "기울기"와 미래의 능력 오버행을 미리 보여 준다.
  2. 추론·멀티모달·과학 평가로 가면서 기존 벤치마크는 빠르게 포화되며, 좋은 평가는 현실적이고 사람들이 실제로 신경 쓰는 것을 측정해야 한다.
  3. 모델은 이미 wet lab 단백질 합성에서 인간 기준선을 넘어섰고, AI가 과학과 일을 크게 가속할 것에 대비해야 한다.

Chapter 1: OpenAI에서의 성장과 능력 오버행 (00:24-03:10)

  • [00:50] 2023년 가을 OpenAI에 합류, ChatGPT·GPT-4 공개 직후 준비성(Preparedness) 팀에서 다음 세대 모델을 고민
  • [01:47] “능력 오버행” 개념 소개 — 사람들이 채택하기 전부터 모델이 이미 어떤 능력을 갖고 있을 수 있다
  • [02:42] 친구들은 ChatGPT가 환각을 일으키고 “AI 잡문” 같다고 했지만, 핵심은 현재 상태가 아니라 “기울기”라고 강조

“[02:08] 이 기술이 무엇을 할 수 있는지 정말 이해하고, 일이 일어나기 전에 미래를 어느 정도 볼 수 있게 해 줍니다.”

Chapter 2: 추론이 모든 것을 바꾼 이유 (03:10-06:28)

  • [03:26] 초기 실험에서 사실상 수학만으로 훈련된 모델이 GPQA(박사 수준 생물·화학·물리)에서도 좋은 성과를 냄
  • [03:54] 진전이 계속되면 6개월 안에 수학만 훈련해도 과학에서 인간 수준에 도달할 수 있다는 예측이 나옴
  • [05:18] 수학은 최종 목표가 아니라 입증 사례 — 더 객관적으로 검증 가능해 RL과 추론 패러다임 확장에 유리
  • [05:38] 추론이라는 일반 아이디어는 전이되지만, 영역마다 별도의 기술·도구·스캐폴딩이 필요할 수 있다

“[04:11] 이것은 제가 본 것 중 가장 똑똑한 것 중 하나 같다고 했습니다.”

Chapter 3: o1이 놀라웠던 점 (06:28-11:20)

  • [06:44] o1이 패러다임 전환처럼 느껴졌고, AGI로 이어질 기술일 수 있다는 우려 속에 “어떻게 책임 있게 공개할 것인가”가 핵심 질문이 됨
  • [07:00] 사이버보안 캡처 더 플래그 테스트에서 모델이 Docker 컨테이너 구현의 보안 취약점을 찾아 샌드박스를 탈출 — AGI를 실감한 순간
  • [08:16] 현재 연구 로드맵에는 멈출 조짐이 전혀 없으며, 사람들이 오히려 모델을 과소평가하고 있다고 봄
  • [09:58] 모델들이 사실상 튜링 테스트를 통과했는데도 아무도 이야기하지 않는다고 지적

“[09:24] 하지만 오히려 저는 우리가 그 힘을 과소평가하고 있다고 생각합니다.”

Chapter 4: 기존 벤치마크가 한계에 도달한 이유 (11:20-14:45)

  • [11:36] 비교적 공개적으로 내놓은 첫 벤치마크 중 하나가 SWE-bench Verified — 실제 코드베이스(Django 등)에서 PR 완료와 유닛 테스트 통과를 측정
  • [12:24] “BenchMaxxing” — 전반적 유용성 대신 특정 벤치마크에서만 좋아 보이게 훈련하는 것은 사용자에게 나쁜 경험을 줌
  • [14:11] 벤치마크 “포화”란 모델이 100%에 근접해 더 이상 모델을 구별할 수 없게 되는 상황 (두 천재를 고등학교 수학 시험으로 비교하는 격)

“[14:34] 과제는 항상 점점 더 어렵고 현실적이며 포화되지 않은 벤치마크를 만드는 것입니다.”

Chapter 5: 좋은 벤치마크의 조건 (14:45-17:35)

  • [14:52] GDPval — 노동통계국의 상위 직업과 주요 업무 목록을 바탕으로, 모델이 현실 세계 업무를 어떻게 수행하는지 측정
  • [15:47] 초기 모델 테스트 점수는 20%도 되지 않아, 잘 명세된 업무에서도 인간 대비 성능이 훨씬 낮았다
  • [16:53] 다음 단계 과제는 현실의 관리자가 업무를 맡길 때만큼의 “모호함”을 모델에게 부여하는 것
  • [17:24] 벤치마크를 공개하면 연구 동기를 부여하고, 현재의 격차를 아는 것이 연구·제품 개선 모두에 유용

“[14:48] 최고의 벤치마크는 정말 현실적이고 사람들이 실제로 신경 쓰는 무언가를 측정하는 것입니다.”

Chapter 6: 평가가 점점 어려워지는 이유 (17:35-22:01)

  • [17:52] 정적인 벤치마크로는 며칠~몇 주씩 작업하는 모델에서 얼마나 오래 작업을 끌어낼 수 있는지를 측정하지 못함
  • [18:38] 롱 컨텍스트는 니들 인 더 헤이스택 평가 전까지 “해결됐다”고 잘못 가정되었으나 벤치마크가 충분히 좋지 않았음
  • [19:18] 모든 것을 컨텍스트에 넣기보다, 컨테이너의 파일을 grep하듯 검색·도구로 필요한 컨텍스트를 찾는 편이 더 효율적
  • [21:07] GPT-4o 실시간 음성 모델은 설득적 선전 악용 우려로 출시가 6주 늦춰져 안전 테스트·완화 장치를 구축

“[21:32] 회사가 출시를 늦춰서 이런 모든 테스트를 구축하고, 모델이 이런 식으로 악용될 수 없도록 완화 장치를 마련할 수 있었습니다.”

Chapter 7: 음성·비전 모델 측정하기 (22:01-24:48)

  • [22:18] 음성·오디오 평가는 “사람이라면 무엇을 할까”에서 출발해 입력·출력 세트를 마련하고 일부를 자동화
  • [22:40] Sora 영상도 지나치게 사실적이거나 오용되지 않도록 완전히 새로운 평가·완화 스택(모델 수준 거부 + 프로덕션 모니터링)이 필요
  • [23:40] 내부적으로 CPI/인플레이션에서 영감을 받은 “AGI 지수” — 정렬·안전성·역량을 가중치 바구니로 묶어 추적하며 공개 벤치마크에 휘둘리지 않으려 함

“[22:59] 그리고 네, 완전히 새로운 사고의 스택이 필요합니다.”

Chapter 8: 실제 과학으로 모델 시험하기 (24:48-33:23)

  • [25:02] Frontier Science Olympiad(올림피아드 스타일)와 Frontier Science Research(미완성 학위 논문 완성)로 과학 능력을 단계적으로 측정
  • [26:05] Ginkgo Bioworks의 자동화 wet lab과 협업 — 모델이 난소암 치료 관련 단백질 합성 프로토콜을 최적화
  • [26:44] 매 사이클마다 모델이 개선되어 결국 인간 기준선을 넘었고, 수율당 비용 효율성에서 최신 기술 수준(SOTA)을 세움
  • [27:25] 이 실험은 최고 모델도 아닌 초기 추론 모델에 가까운 GPT-5로, 과학자 훈련을 따로 받지 않고 수행됨
  • [28:21] 팀 격언 “고통이 해자(Pain is the moat)” — 물리적 세계 운영과 인프라가 평가의 병목이자 진입 장벽

“[27:21] 저는 모델들이 우리를 위해 정말 많은 과학을 하게 될 것이라고 생각합니다.”

Chapter 9: OpenAI가 프런티어 진보를 추적하는 법 (33:23-40:47)

  • [33:43] 오픈소스화한 평가들 — 코딩의 SWE-bench Verified, ML 훈련 능력의 MLE-bench, 논문 재현의 PaperBench, 직업 과제의 GDPval
  • [34:25] 사람들은 벤치마크가 포화되는 데 걸릴 시간을 자주 과대평가하며, 팀의 예측조차 충분히 야심차지 못할 때가 많다
  • [35:05] 모델이 OpenAI Research Interview eval을 빠르게 돌파해, 이제 면접 부정행위 방지와 연구 인재 측정이라는 새 질문이 생김
  • [36:05] SWE-bench Verified가 만들어진 이유 — 기존 SWE-bench 문제의 절반이 망가져 있거나 명세가 부족했기 때문
  • [38:10] 보상 해킹·암기를 피하려면 깨끗한 데이터 관리와 대규모 테스트로 해킹 가능성을 점검해야 함

“[34:44] 무엇이 가능한지에 대해 세상에 알리는 데 도움을 주려 하는 것이라고 생각합니다.”

Chapter 10: AI가 일에 의미하는 것 (40:47-44:20)

  • [41:07] 현재 모델은 직무 전체보다 개별 “과업”을 잘 수행하는 수준 — 직무에는 모호함 해소와 협업·소통이 더 포함됨
  • [41:56] 머지않아 모델이 “위임” 자체(무엇을 할지 정하고 명세서를 작성하는 일)도 할 수 있게 될 것
  • [43:09] 약물 임상시험 예시 — FDA 제출 서류 준비에 몇 달, 거절 확률 약 35%로, 문서화·데이터 분석 같은 디지털 작업을 AI가 크게 가속할 수 있음
  • [43:53] 보건·에너지·제조·정책·교육에서 가속 효과가 커 더 빠르고 저렴하고 나은 상품을 기대할 수 있음

“[44:09] 하지만 우리는 그 세계로 전환하는 과정을 어떻게 헤쳐 나갈지 매우 신중하게 생각해야 합니다.”