BRAG
← 포럼으로
it_dev#AutoResearch#카파시#AI에이전트#머신러닝#자동화실험

퀴즈로 배우는 AutoResearch: AI가 혼자 ML 실험을 돌린다고?

카파시의 AutoResearch는 AI 에이전트가 GPU 하나로 하룻밤에 100번 ML 실험을 돌리는 오픈소스 도구입니다. 3개 파일로 작동하는 래칫 루프의 원리와 실제 성과를 퀴즈로 알아봅니다.

3분 읽기 · 2026년 6월 15일 AM 1:21

퀴즈 하나 낼게요 🧐 AI 에이전트에게 GPU 한 장을 주고 혼자 ML 실험을 돌리게 하면 하룻밤에 몇 번이나 실험할 수 있을까요?

A) 10번 B) 30번 C) 80~100번 D) 500번

정답은 C. 80~100번입니다. 카파시(Andrej Karpathy)가 공개한 AutoResearch가 바로 이걸 해냅니다.

AI 연구 자동화 개념도

AutoResearch가 뭐길래?

AutoResearch는 2026년 3월 공개된 오픈소스 파이썬 도구로, AI 코딩 에이전트가 GPU 한 장으로 ML 실험을 사람 없이 반복 실행합니다. 출시 직후 GitHub 스타 2.1만 개, 뷰 860만을 기록할 만큼 화제가 됐죠.

핵심 원리는 단순합니다. 에이전트가 코드를 바꾸고 → 5분 훈련 → 성능 평가 → 나아지면 커밋 유지, 나빠지면 git reset으로 되돌리기. 이 사이클을 자동으로, 쉬지 않고 반복합니다.

"NEVER STOP. 실험 루프가 시작되면 사람한테 계속할지 물어보지 마라." — program.md 원문


퀴즈 2: AutoResearch의 핵심 파일은 몇 개일까요?

A) 1개 B) 3개 C) 10개 D) 무한

정답은 B. 딱 3개입니다.

파일역할수정 주체
prepare.py데이터 준비 + 평가 지표 정의불변 (아무도 못 건드림)
train.pyGPT 모델 아키텍처 + 학습 루프에이전트
program.md연구 방향, 제약 조건, 실험 규칙사람

prepare.py가 공정한 심판 역할을 하고, train.py는 에이전트의 놀이터, program.md는 사람이 쓰는 연구 지시서입니다. 이 분업이 시스템 전체를 작동시키는 핵심이에요.

GPU 기반 딥러닝 실험

퀴즈 3: 실제로 얼마나 효과가 있었을까요?

첫 번째 하룻밤 실험에서 에이전트는 83번 시도해 15번 개선을 찾아냈습니다. val_bpb 기준으로 1.000 → 0.975, 대략 2.5% 성능 향상이죠. Shopify CEO 토비 루트케는 내부 모델에 적용해 19% 검증 점수 향상을 하루 만에 달성하기도 했고요.

물론 한계도 있습니다. 에이전트는 "지금 당장 좋아지는 변화"만 선택하기 때문에, 한 발 물러서야 두 발 앞으로 나아갈 수 있는 창의적인 실험은 잘 못 합니다. 카파시 본인도 "에이전트가 모험을 무서워한다"고 인정했죠.


직접 써보려면?

요구사항은 NVIDIA GPU(VRAM 20GB+), Python 3.10+, Claude Code 같은 코딩 에이전트. 설치는 세 줄입니다.

bash
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
uv sync && uv run prepare.py

처음엔 TinyStories 데이터셋 + 어휘 크기 256 + 깊이 4로 시작해 몇 시간 안에 래칫 효과를 체험해볼 수 있어요.

몇 개 맞히셨나요? AI가 ML 연구의 반복 작업을 통째로 가져가는 시대, 이미 시작됐습니다. 여러분은 에이전트에게 어떤 program.md를 써줄 건가요?


📎 출처: 원문 보기

👁 5 · 💬 0

💬 댓글 0

0/500

댓글을 불러오는 중…