BRAG
← 포럼으로
ai_vibe

AI 최강 모델도 1% 미만 — ARC-AGI-3가 폭로한 충격적인 진실

구글 제미나이, GPT, 클로드… 내로라하는 AI 최강자들이 새 벤치마크 앞에서 무릎을 꿇었습니다. 인간은 100% 풀지만, 최고 AI는 고작 0.37%. ARC-AGI-3가 드러낸 AI와 인간 지능의 진짜 격차를 파헤칩니다.

6분 읽기 · 2026년 6월 15일 AM 11:55

솔직히 저도 처음엔 믿기 어려웠어요. 요즘 AI가 얼마나 잘하는지 다들 알잖아요. 코드도 짜고, 에세이도 쓰고, 시험도 통과하는데... 그런데 새 벤치마크 하나가 등장하자마자 전부 0점 수준으로 무너졌습니다.

ARC-AGI-3 벤치마크 — AI와 인간 지능의 간격을 보여주다

ARC-AGI-3, 무엇이 다른가요?

2026년 3월 24일, ARC Prize 재단이 ARC-AGI-3를 공개했습니다. 이름은 비슷해 보여도 이건 전작과 완전히 다른 종류의 도전입니다.

기존 ARC-AGI-1·2는 정적 패턴 인식이었어요. 입출력 예시를 보고 규칙을 유추하는 방식이죠. AI가 훈련 데이터를 통해 비슷한 패턴을 외울 수 있었고, 실제로 ARC-AGI-2에서는 구글 제미나이가 77.1%까지 기록했습니다.

ARC-AGI-3는 이 구멍을 원천 차단했습니다. 완전한 인터랙티브 환경으로 바꾼 거예요.

  • 규칙 설명 없음
  • 목표 설명 없음
  • 힌트 없음

AI는 마치 태어나서 처음 보는 게임 앞에 앉은 것처럼, 스스로 탐색하고, 가설을 세우고, 배움을 다음 레벨로 이어가야 합니다.

게임의 구조 — 손으로 만든 세계

인간 게임 디자이너 팀이 수백 개의 고유 환경을 직접 제작했습니다. 6개의 게임 환경으로 구성되어 있고, 이 중 3개(ft09, ls20, vc33)는 공개용, 나머지 3개(sp80, lp85, as66)는 최종 리더보드 평가용 비공개입니다.

각 게임은 8~10개 레벨로 이루어져 있으며, 레벨이 올라갈수록 새로운 메커니즘이 추가됩니다. 에이전트가 받는 건 64×64 격자의 JSON 객체뿐. 0부터 15까지의 색상 값이 채워진 그리드를 보고 무엇을 해야 하는지 스스로 알아내야 합니다.

ARC-AGI-3 인터랙티브 게임 환경 — AI 에이전트가 탐색해야 하는 격자 세계

채점 방식 — "얼마나 빠르게 배웠나"

단순히 클리어 여부만 보지 않습니다. RHAE(Relative Human Action Efficiency) 라는 독특한 지표를 씁니다.

인간 전문가가 처음 도전했을 때의 행동 수를 기준으로, AI가 같은 레벨을 클리어하는 데 몇 배 더 많은 행동을 했는지 측정합니다. 인간의 10배를 소비했다면 해당 레벨은 1%로 기록됩니다. 비효율을 제곱 패널티로 처벌하는 방식이죠.

즉, 빠르게 파악하고 효율적으로 행동하는 능력을 측정합니다.

결과 — 충격의 0%대

모델ARC-AGI-3 점수
Google Gemini 3.1 Pro0.37%
OpenAI GPT 5.40.26%
Anthropic Claude Opus 4.60.25%
xAI Grok 4.200.00%
인간 (미훈련)100%

참고로 ARC-AGI-2에서 제미나이는 77.1%였습니다. 같은 회사 모델이 새 버전에서 0.37%로 추락한 겁니다.

왜 이렇게 어려울까요?

현재 AI의 핵심 강점은 기억과 패턴 매칭입니다. 엄청난 양의 데이터로 훈련받아, 본 적 있는 것들을 빠르게 연결하죠.

ARC-AGI-3는 이 강점을 무력화합니다. 훈련 데이터에 없는 완전히 새로운 환경에서, 탐색하면서 실시간으로 배우고, 그 배움을 다음 단계에 적용해야 합니다. 이건 인간이 자연스럽게 하는 유동적 지능(fluid intelligence)의 영역입니다.

AI는 외울 수 있지만, 아직 진짜 의미에서 배우지 못합니다.

2백만 달러짜리 질문

ARC Prize 2026은 총 200만 달러(약 27억 원)의 상금을 겁니다. ARC-AGI-3 트랙에서 완벽한 성능을 보인 첫 번째 AI 에이전트에게는 70만 달러(약 9억 5천만 원) 가 돌아갑니다.

도전 기간은 2026년 12월까지. 현재 인류 최고의 AI들이 0%대에서 허덕이고 있는 걸 보면, 상금을 가져갈 팀이 나올 수 있을지조차 불투명합니다.

이게 왜 중요한가요?

ARC-AGI-3는 단순한 벤치마크가 아닙니다. "AI가 진짜 지능을 갖췄는가" 에 대한 날카로운 질문입니다.

GPT나 클로드가 논문을 써주고, 코드를 짜주는 모습을 보면 AGI가 다가온 것 같은 느낌이 들죠. 하지만 ARC-AGI-3 앞에서 드러난 현실은 다릅니다. 우리는 여전히 "외우는 AI" 를 갖고 있을 뿐, "배우는 AI"는 아직 존재하지 않습니다.

이 격차가 좁혀지는 날이 진짜 AGI의 시작일지도 모릅니다.

여러분은 AI가 이 벤치마크를 넘을 수 있을 것 같나요? 아니면 인간 고유의 능력으로 남을 것 같나요?


출처: ARC-AGI-3 공식 발표 · 기술 리포트 · mlq.ai 분석

👁 2 · 💬 1

💬 댓글 0

0/500

댓글을 불러오는 중…