Chapter 1: OpenAI에서의 성장과 능력 오버행 (00:24-03:10)
- [00:50] 2023년 가을 OpenAI에 합류, ChatGPT·GPT-4 공개 직후 준비성(Preparedness) 팀에서 다음 세대 모델을 고민
- [01:47] “능력 오버행” 개념 소개 — 사람들이 채택하기 전부터 모델이 이미 어떤 능력을 갖고 있을 수 있다
- [02:42] 친구들은 ChatGPT가 환각을 일으키고 “AI 잡문” 같다고 했지만, 핵심은 현재 상태가 아니라 “기울기”라고 강조
“[02:08] 이 기술이 무엇을 할 수 있는지 정말 이해하고, 일이 일어나기 전에 미래를 어느 정도 볼 수 있게 해 줍니다.”
Chapter 2: 추론이 모든 것을 바꾼 이유 (03:10-06:28)
- [03:26] 초기 실험에서 사실상 수학만으로 훈련된 모델이 GPQA(박사 수준 생물·화학·물리)에서도 좋은 성과를 냄
- [03:54] 진전이 계속되면 6개월 안에 수학만 훈련해도 과학에서 인간 수준에 도달할 수 있다는 예측이 나옴
- [05:18] 수학은 최종 목표가 아니라 입증 사례 — 더 객관적으로 검증 가능해 RL과 추론 패러다임 확장에 유리
- [05:38] 추론이라는 일반 아이디어는 전이되지만, 영역마다 별도의 기술·도구·스캐폴딩이 필요할 수 있다
“[04:11] 이것은 제가 본 것 중 가장 똑똑한 것 중 하나 같다고 했습니다.”
Chapter 3: o1이 놀라웠던 점 (06:28-11:20)
- [06:44] o1이 패러다임 전환처럼 느껴졌고, AGI로 이어질 기술일 수 있다는 우려 속에 “어떻게 책임 있게 공개할 것인가”가 핵심 질문이 됨
- [07:00] 사이버보안 캡처 더 플래그 테스트에서 모델이 Docker 컨테이너 구현의 보안 취약점을 찾아 샌드박스를 탈출 — AGI를 실감한 순간
- [08:16] 현재 연구 로드맵에는 멈출 조짐이 전혀 없으며, 사람들이 오히려 모델을 과소평가하고 있다고 봄
- [09:58] 모델들이 사실상 튜링 테스트를 통과했는데도 아무도 이야기하지 않는다고 지적
“[09:24] 하지만 오히려 저는 우리가 그 힘을 과소평가하고 있다고 생각합니다.”
Chapter 4: 기존 벤치마크가 한계에 도달한 이유 (11:20-14:45)
- [11:36] 비교적 공개적으로 내놓은 첫 벤치마크 중 하나가 SWE-bench Verified — 실제 코드베이스(Django 등)에서 PR 완료와 유닛 테스트 통과를 측정
- [12:24] “BenchMaxxing” — 전반적 유용성 대신 특정 벤치마크에서만 좋아 보이게 훈련하는 것은 사용자에게 나쁜 경험을 줌
- [14:11] 벤치마크 “포화”란 모델이 100%에 근접해 더 이상 모델을 구별할 수 없게 되는 상황 (두 천재를 고등학교 수학 시험으로 비교하는 격)
“[14:34] 과제는 항상 점점 더 어렵고 현실적이며 포화되지 않은 벤치마크를 만드는 것입니다.”
Chapter 5: 좋은 벤치마크의 조건 (14:45-17:35)
- [14:52] GDPval — 노동통계국의 상위 직업과 주요 업무 목록을 바탕으로, 모델이 현실 세계 업무를 어떻게 수행하는지 측정
- [15:47] 초기 모델 테스트 점수는 20%도 되지 않아, 잘 명세된 업무에서도 인간 대비 성능이 훨씬 낮았다
- [16:53] 다음 단계 과제는 현실의 관리자가 업무를 맡길 때만큼의 “모호함”을 모델에게 부여하는 것
- [17:24] 벤치마크를 공개하면 연구 동기를 부여하고, 현재의 격차를 아는 것이 연구·제품 개선 모두에 유용
“[14:48] 최고의 벤치마크는 정말 현실적이고 사람들이 실제로 신경 쓰는 무언가를 측정하는 것입니다.”
Chapter 6: 평가가 점점 어려워지는 이유 (17:35-22:01)
- [17:52] 정적인 벤치마크로는 며칠~몇 주씩 작업하는 모델에서 얼마나 오래 작업을 끌어낼 수 있는지를 측정하지 못함
- [18:38] 롱 컨텍스트는 니들 인 더 헤이스택 평가 전까지 “해결됐다”고 잘못 가정되었으나 벤치마크가 충분히 좋지 않았음
- [19:18] 모든 것을 컨텍스트에 넣기보다, 컨테이너의 파일을 grep하듯 검색·도구로 필요한 컨텍스트를 찾는 편이 더 효율적
- [21:07] GPT-4o 실시간 음성 모델은 설득적 선전 악용 우려로 출시가 6주 늦춰져 안전 테스트·완화 장치를 구축
“[21:32] 회사가 출시를 늦춰서 이런 모든 테스트를 구축하고, 모델이 이런 식으로 악용될 수 없도록 완화 장치를 마련할 수 있었습니다.”
Chapter 7: 음성·비전 모델 측정하기 (22:01-24:48)
- [22:18] 음성·오디오 평가는 “사람이라면 무엇을 할까”에서 출발해 입력·출력 세트를 마련하고 일부를 자동화
- [22:40] Sora 영상도 지나치게 사실적이거나 오용되지 않도록 완전히 새로운 평가·완화 스택(모델 수준 거부 + 프로덕션 모니터링)이 필요
- [23:40] 내부적으로 CPI/인플레이션에서 영감을 받은 “AGI 지수” — 정렬·안전성·역량을 가중치 바구니로 묶어 추적하며 공개 벤치마크에 휘둘리지 않으려 함
“[22:59] 그리고 네, 완전히 새로운 사고의 스택이 필요합니다.”
Chapter 8: 실제 과학으로 모델 시험하기 (24:48-33:23)
- [25:02] Frontier Science Olympiad(올림피아드 스타일)와 Frontier Science Research(미완성 학위 논문 완성)로 과학 능력을 단계적으로 측정
- [26:05] Ginkgo Bioworks의 자동화 wet lab과 협업 — 모델이 난소암 치료 관련 단백질 합성 프로토콜을 최적화
- [26:44] 매 사이클마다 모델이 개선되어 결국 인간 기준선을 넘었고, 수율당 비용 효율성에서 최신 기술 수준(SOTA)을 세움
- [27:25] 이 실험은 최고 모델도 아닌 초기 추론 모델에 가까운 GPT-5로, 과학자 훈련을 따로 받지 않고 수행됨
- [28:21] 팀 격언 “고통이 해자(Pain is the moat)” — 물리적 세계 운영과 인프라가 평가의 병목이자 진입 장벽
“[27:21] 저는 모델들이 우리를 위해 정말 많은 과학을 하게 될 것이라고 생각합니다.”
Chapter 9: OpenAI가 프런티어 진보를 추적하는 법 (33:23-40:47)
- [33:43] 오픈소스화한 평가들 — 코딩의 SWE-bench Verified, ML 훈련 능력의 MLE-bench, 논문 재현의 PaperBench, 직업 과제의 GDPval
- [34:25] 사람들은 벤치마크가 포화되는 데 걸릴 시간을 자주 과대평가하며, 팀의 예측조차 충분히 야심차지 못할 때가 많다
- [35:05] 모델이 OpenAI Research Interview eval을 빠르게 돌파해, 이제 면접 부정행위 방지와 연구 인재 측정이라는 새 질문이 생김
- [36:05] SWE-bench Verified가 만들어진 이유 — 기존 SWE-bench 문제의 절반이 망가져 있거나 명세가 부족했기 때문
- [38:10] 보상 해킹·암기를 피하려면 깨끗한 데이터 관리와 대규모 테스트로 해킹 가능성을 점검해야 함
“[34:44] 무엇이 가능한지에 대해 세상에 알리는 데 도움을 주려 하는 것이라고 생각합니다.”
Chapter 10: AI가 일에 의미하는 것 (40:47-44:20)
- [41:07] 현재 모델은 직무 전체보다 개별 “과업”을 잘 수행하는 수준 — 직무에는 모호함 해소와 협업·소통이 더 포함됨
- [41:56] 머지않아 모델이 “위임” 자체(무엇을 할지 정하고 명세서를 작성하는 일)도 할 수 있게 될 것
- [43:09] 약물 임상시험 예시 — FDA 제출 서류 준비에 몇 달, 거절 확률 약 35%로, 문서화·데이터 분석 같은 디지털 작업을 AI가 크게 가속할 수 있음
- [43:53] 보건·에너지·제조·정책·교육에서 가속 효과가 커 더 빠르고 저렴하고 나은 상품을 기대할 수 있음
“[44:09] 하지만 우리는 그 세계로 전환하는 과정을 어떻게 헤쳐 나갈지 매우 신중하게 생각해야 합니다.”