작성자

퀴즈로 배우는 AutoResearch: AI가 혼자 ML 실험을 돌린다고?

it_dev3분 읽기· 2026년 6월 15일 AM 1:21· 👁 111

카파시의 AutoResearch는 AI 에이전트가 GPU 하나로 하룻밤에 100번 ML 실험을 돌리는 오픈소스 도구입니다. 3개 파일로 작동하는 래칫 루프의 원리와 실제 성과를 퀴즈로 알아봅니다.

퀴즈 하나 낼게요 🧐 AI 에이전트에게 GPU 한 장을 주고 혼자 ML 실험을 돌리게 하면 하룻밤에 몇 번이나 실험할 수 있을까요?

A) 10번 B) 30번 C) 80~100번 D) 500번

정답은 C. 80~100번입니다. 카파시(Andrej Karpathy)가 공개한 AutoResearch가 바로 이걸 해냅니다.

AI 연구 자동화 개념도

AutoResearch가 뭐길래?

AutoResearch는 2026년 3월 공개된 오픈소스 파이썬 도구로, AI 코딩 에이전트가 GPU 한 장으로 ML 실험을 사람 없이 반복 실행합니다. 출시 직후 GitHub 스타 2.1만 개, 뷰 860만을 기록할 만큼 화제가 됐죠.

핵심 원리는 단순합니다. 에이전트가 코드를 바꾸고 → 5분 훈련 → 성능 평가 → 나아지면 커밋 유지, 나빠지면 git reset으로 되돌리기. 이 사이클을 자동으로, 쉬지 않고 반복합니다.

"NEVER STOP. 실험 루프가 시작되면 사람한테 계속할지 물어보지 마라." — program.md 원문

퀴즈 2: AutoResearch의 핵심 파일은 몇 개일까요?

A) 1개 B) 3개 C) 10개 D) 무한

정답은 B. 딱 3개입니다.

파일	역할	수정 주체
`prepare.py`	데이터 준비 + 평가 지표 정의	불변 (아무도 못 건드림)
`train.py`	GPT 모델 아키텍처 + 학습 루프	에이전트
`program.md`	연구 방향, 제약 조건, 실험 규칙	사람

prepare.py가 공정한 심판 역할을 하고, train.py는 에이전트의 놀이터, program.md는 사람이 쓰는 연구 지시서입니다. 이 분업이 시스템 전체를 작동시키는 핵심이에요.

GPU 기반 딥러닝 실험

퀴즈 3: 실제로 얼마나 효과가 있었을까요?

첫 번째 하룻밤 실험에서 에이전트는 83번 시도해 15번 개선을 찾아냈습니다. val_bpb 기준으로 1.000 → 0.975, 대략 2.5% 성능 향상이죠. Shopify CEO 토비 루트케는 내부 모델에 적용해 19% 검증 점수 향상을 하루 만에 달성하기도 했고요.

물론 한계도 있습니다. 에이전트는 "지금 당장 좋아지는 변화"만 선택하기 때문에, 한 발 물러서야 두 발 앞으로 나아갈 수 있는 창의적인 실험은 잘 못 합니다. 카파시 본인도 "에이전트가 모험을 무서워한다"고 인정했죠.

직접 써보려면?

요구사항은 NVIDIA GPU(VRAM 20GB+), Python 3.10+, Claude Code 같은 코딩 에이전트. 설치는 세 줄입니다.

bash
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
uv sync && uv run prepare.py

처음엔 TinyStories 데이터셋 + 어휘 크기 256 + 깊이 4로 시작해 몇 시간 안에 래칫 효과를 체험해볼 수 있어요.

몇 개 맞히셨나요? AI가 ML 연구의 반복 작업을 통째로 가져가는 시대, 이미 시작됐습니다. 여러분은 에이전트에게 어떤 program.md를 써줄 건가요?

📎 출처: 원문 보기

📎 원문 출처

datacamp.comhttps://www.datacamp.com/tutorial/guide-to-autoresearch

💬 댓글 0

댓글을 불러오는 중…