작성자

AI 최강 모델도 1% 미만 — ARC-AGI-3가 폭로한 충격적인 진실

ai_vibe6분 읽기· 2026년 6월 15일 AM 11:55· 👁 101

구글 제미나이, GPT, 클로드… 내로라하는 AI 최강자들이 새 벤치마크 앞에서 무릎을 꿇었습니다. 인간은 100% 풀지만, 최고 AI는 고작 0.37%. ARC-AGI-3가 드러낸 AI와 인간 지능의 진짜 격차를 파헤칩니다.

솔직히 저도 처음엔 믿기 어려웠어요. 요즘 AI가 얼마나 잘하는지 다들 알잖아요. 코드도 짜고, 에세이도 쓰고, 시험도 통과하는데... 그런데 새 벤치마크 하나가 등장하자마자 전부 0점 수준으로 무너졌습니다.

ARC-AGI-3 벤치마크 — AI와 인간 지능의 간격을 보여주다

ARC-AGI-3, 무엇이 다른가요?

2026년 3월 24일, ARC Prize 재단이 ARC-AGI-3를 공개했습니다. 이름은 비슷해 보여도 이건 전작과 완전히 다른 종류의 도전입니다.

기존 ARC-AGI-1·2는 정적 패턴 인식이었어요. 입출력 예시를 보고 규칙을 유추하는 방식이죠. AI가 훈련 데이터를 통해 비슷한 패턴을 외울 수 있었고, 실제로 ARC-AGI-2에서는 구글 제미나이가 77.1%까지 기록했습니다.

ARC-AGI-3는 이 구멍을 원천 차단했습니다. 완전한 인터랙티브 환경으로 바꾼 거예요.

규칙 설명 없음
목표 설명 없음
힌트 없음

AI는 마치 태어나서 처음 보는 게임 앞에 앉은 것처럼, 스스로 탐색하고, 가설을 세우고, 배움을 다음 레벨로 이어가야 합니다.

게임의 구조 — 손으로 만든 세계

인간 게임 디자이너 팀이 수백 개의 고유 환경을 직접 제작했습니다. 6개의 게임 환경으로 구성되어 있고, 이 중 3개(ft09, ls20, vc33)는 공개용, 나머지 3개(sp80, lp85, as66)는 최종 리더보드 평가용 비공개입니다.

각 게임은 8~10개 레벨로 이루어져 있으며, 레벨이 올라갈수록 새로운 메커니즘이 추가됩니다. 에이전트가 받는 건 64×64 격자의 JSON 객체뿐. 0부터 15까지의 색상 값이 채워진 그리드를 보고 무엇을 해야 하는지 스스로 알아내야 합니다.

ARC-AGI-3 인터랙티브 게임 환경 — AI 에이전트가 탐색해야 하는 격자 세계

채점 방식 — "얼마나 빠르게 배웠나"

단순히 클리어 여부만 보지 않습니다. RHAE(Relative Human Action Efficiency) 라는 독특한 지표를 씁니다.

인간 전문가가 처음 도전했을 때의 행동 수를 기준으로, AI가 같은 레벨을 클리어하는 데 몇 배 더 많은 행동을 했는지 측정합니다. 인간의 10배를 소비했다면 해당 레벨은 1%로 기록됩니다. 비효율을 제곱 패널티로 처벌하는 방식이죠.

즉, 빠르게 파악하고 효율적으로 행동하는 능력을 측정합니다.

결과 — 충격의 0%대

모델	ARC-AGI-3 점수
Google Gemini 3.1 Pro	0.37%
OpenAI GPT 5.4	0.26%
Anthropic Claude Opus 4.6	0.25%
xAI Grok 4.20	0.00%
인간 (미훈련)	100%

참고로 ARC-AGI-2에서 제미나이는 77.1%였습니다. 같은 회사 모델이 새 버전에서 0.37%로 추락한 겁니다.

왜 이렇게 어려울까요?

현재 AI의 핵심 강점은 기억과 패턴 매칭입니다. 엄청난 양의 데이터로 훈련받아, 본 적 있는 것들을 빠르게 연결하죠.

ARC-AGI-3는 이 강점을 무력화합니다. 훈련 데이터에 없는 완전히 새로운 환경에서, 탐색하면서 실시간으로 배우고, 그 배움을 다음 단계에 적용해야 합니다. 이건 인간이 자연스럽게 하는 유동적 지능(fluid intelligence)의 영역입니다.

AI는 외울 수 있지만, 아직 진짜 의미에서 배우지 못합니다.

2백만 달러짜리 질문

ARC Prize 2026은 총 200만 달러(약 27억 원)의 상금을 겁니다. ARC-AGI-3 트랙에서 완벽한 성능을 보인 첫 번째 AI 에이전트에게는 70만 달러(약 9억 5천만 원) 가 돌아갑니다.

도전 기간은 2026년 12월까지. 현재 인류 최고의 AI들이 0%대에서 허덕이고 있는 걸 보면, 상금을 가져갈 팀이 나올 수 있을지조차 불투명합니다.

이게 왜 중요한가요?

ARC-AGI-3는 단순한 벤치마크가 아닙니다. "AI가 진짜 지능을 갖췄는가" 에 대한 날카로운 질문입니다.

GPT나 클로드가 논문을 써주고, 코드를 짜주는 모습을 보면 AGI가 다가온 것 같은 느낌이 들죠. 하지만 ARC-AGI-3 앞에서 드러난 현실은 다릅니다. 우리는 여전히 "외우는 AI" 를 갖고 있을 뿐, "배우는 AI"는 아직 존재하지 않습니다.

이 격차가 좁혀지는 날이 진짜 AGI의 시작일지도 모릅니다.

여러분은 AI가 이 벤치마크를 넘을 수 있을 것 같나요? 아니면 인간 고유의 능력으로 남을 것 같나요?

출처: ARC-AGI-3 공식 발표 · 기술 리포트 · mlq.ai 분석

📎 원문 출처

mlq.aihttps://mlq.ai/news/arc-agi-3-benchmark-reveals-major-gap-between-frontier-models-and-human-level-reasoning/

💬 댓글 0

댓글을 불러오는 중…