왜 이 영상을 봐야 하나
이 에피소드는 “AI가 연구를 대신한다”는 말을 과장된 선언이 아니라 실제 개발 루프의 관점에서 뜯어봅니다. 카파시가 공유한 autoresearch 사례를 따라가며, LLM 에이전트가 학습 코드를 고치고, 실험을 돌리고, 결과를 읽고, 다시 수정하는 과정이 왜 연구 자동화의 중요한 단서인지 설명합니다.
특히 흥미로운 부분은 이 흐름이 단순한 하이퍼파라미터 자동 탐색에 그치지 않는다는 점입니다. 패널은 train.py를 직접 바꾸는 에이전트, 고정된 전처리 파일, 리더보드와 validation loss, Time-to-GPT-2 같은 기준을 놓고 사람이 하던 실험 반복이 어떻게 시스템화되는지 이야기합니다.
핵심 흐름
- 카파시가 소개한 autoresearch는 GPT-2/nanochat 계열 태스크를 더 빠르고 잘 학습시키기 위한 자동 실험 루프에서 출발합니다.
- 에이전트는 프롬프트 역할을 하는
program.md와 학습 코드인train.py를 중심으로, 실험을 제안하고 코드를 수정하고 결과를 확인합니다. - 패널은 약 700회 수준의 반복 실험을 통해 학습 시간이 2.2시간대에서 1.8시간대로 줄어드는 장면을 자동 연구의 설득력 있는 예로 봅니다.
- 이 과정은 “랜덤 시드만 바꿔보는 자동화”가 아니라 러닝레이트 웜업, 방법론, 데이터 처리 방식처럼 연구자가 직접 고민하던 선택지를 기계가 탐색하는 흐름에 가깝습니다.
AutoML과 무엇이 다른가
일반적인 AutoML이나 그리드 서치는 정해진 파라미터 공간을 넓게 훑는 방식에 가깝습니다. 반면 여기서 논의하는 autoresearch는 “어떤 파라미터 값을 고를까”뿐 아니라 “문제를 어떤 방식으로 풀게 만들까”까지 건드립니다.
패널은 덧셈 문제를 예로 들며, 모델 구조의 세부값만 바꾸는 대신 문제에 맞는 토크나이저를 새로 만드는 선택이 나올 수 있다고 설명합니다. 언어를 위한 토크나이저가 산술 문제에는 맞지 않는다면, 그 문제에 맞는 표현을 설계하는 것이 더 좋은 답일 수 있다는 관점입니다.
연구자형 에이전트의 품질 기준
- 어떤 파일을 고쳤는지 명확해야 합니다.
- 어떤 가설로 실험했는지 남아 있어야 합니다.
- validation loss, 학습 시간, 벤치마크 같은 평가 기준이 반복적으로 확인되어야 합니다.
- 실패한 실험도 다음 실험의 입력이 되도록 로그와 결과가 보존되어야 합니다.
- 사람이 납득할 수 있는 설명과 재현 가능한 실행 경로가 함께 있어야 합니다.
셀프 임프루브먼트라는 기대와 경계
LLM이 LLM을 더 잘 학습시키는 장면은 자연스럽게 자기개선과 특이점의 이미지를 떠올리게 합니다. 패널도 이 지점이 사람들이 크게 반응하는 이유라고 봅니다. 다만 지금의 실험은 작은 태스크에서 출발한 것이며, 곧바로 frontier-scale 연구 자동화가 완성됐다고 보기는 어렵습니다.
그럼에도 중요한 변화는 분명합니다. AI 에이전트는 사람처럼 설득을 기다리거나 에너지를 아끼려 하지 않고, 주어진 아이디어를 계속 읽고 실행하고 고쳐볼 수 있습니다. 연구 자동화의 첫 번째 효용은 천재 연구자를 대체하는 것이 아니라, 검증 가능한 반복을 싸고 빠르게 만들어 사람의 병목을 줄이는 데 있습니다.
검색 키워드
autoresearch, Karpathy, GPT-2, nanochat, Time-to-GPT-2, AutoML, AI 에이전트, 셀프 임프루브먼트, 연구 자동화