퀴즈로 배우는 AutoResearch: AI가 혼자 ML 실험을 돌린다고?
카파시의 AutoResearch는 AI 에이전트가 GPU 하나로 하룻밤에 100번 ML 실험을 돌리는 오픈소스 도구입니다. 3개 파일로 작동하는 래칫 루프의 원리와 실제 성과를 퀴즈로 알아봅니다.
퀴즈 하나 낼게요 🧐 AI 에이전트에게 GPU 한 장을 주고 혼자 ML 실험을 돌리게 하면 하룻밤에 몇 번이나 실험할 수 있을까요?
A) 10번 B) 30번 C) 80~100번 D) 500번
정답은 C. 80~100번입니다. 카파시(Andrej Karpathy)가 공개한 AutoResearch가 바로 이걸 해냅니다.

AutoResearch가 뭐길래?
AutoResearch는 2026년 3월 공개된 오픈소스 파이썬 도구로, AI 코딩 에이전트가 GPU 한 장으로 ML 실험을 사람 없이 반복 실행합니다. 출시 직후 GitHub 스타 2.1만 개, 뷰 860만을 기록할 만큼 화제가 됐죠.
핵심 원리는 단순합니다. 에이전트가 코드를 바꾸고 → 5분 훈련 → 성능 평가 → 나아지면 커밋 유지, 나빠지면 git reset으로 되돌리기. 이 사이클을 자동으로, 쉬지 않고 반복합니다.
"NEVER STOP. 실험 루프가 시작되면 사람한테 계속할지 물어보지 마라." — program.md 원문
퀴즈 2: AutoResearch의 핵심 파일은 몇 개일까요?
A) 1개 B) 3개 C) 10개 D) 무한
정답은 B. 딱 3개입니다.
| 파일 | 역할 | 수정 주체 |
|---|---|---|
prepare.py | 데이터 준비 + 평가 지표 정의 | 불변 (아무도 못 건드림) |
train.py | GPT 모델 아키텍처 + 학습 루프 | 에이전트 |
program.md | 연구 방향, 제약 조건, 실험 규칙 | 사람 |
prepare.py가 공정한 심판 역할을 하고, train.py는 에이전트의 놀이터, program.md는 사람이 쓰는 연구 지시서입니다. 이 분업이 시스템 전체를 작동시키는 핵심이에요.

퀴즈 3: 실제로 얼마나 효과가 있었을까요?
첫 번째 하룻밤 실험에서 에이전트는 83번 시도해 15번 개선을 찾아냈습니다. val_bpb 기준으로 1.000 → 0.975, 대략 2.5% 성능 향상이죠. Shopify CEO 토비 루트케는 내부 모델에 적용해 19% 검증 점수 향상을 하루 만에 달성하기도 했고요.
물론 한계도 있습니다. 에이전트는 "지금 당장 좋아지는 변화"만 선택하기 때문에, 한 발 물러서야 두 발 앞으로 나아갈 수 있는 창의적인 실험은 잘 못 합니다. 카파시 본인도 "에이전트가 모험을 무서워한다"고 인정했죠.
직접 써보려면?
요구사항은 NVIDIA GPU(VRAM 20GB+), Python 3.10+, Claude Code 같은 코딩 에이전트. 설치는 세 줄입니다.
bash
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
uv sync && uv run prepare.py
처음엔 TinyStories 데이터셋 + 어휘 크기 256 + 깊이 4로 시작해 몇 시간 안에 래칫 효과를 체험해볼 수 있어요.
몇 개 맞히셨나요? AI가 ML 연구의 반복 작업을 통째로 가져가는 시대, 이미 시작됐습니다. 여러분은 에이전트에게 어떤 program.md를 써줄 건가요?
📎 출처: 원문 보기
💬 댓글 0
댓글을 불러오는 중…