Claude Sonnet 5 가격·벤치마크 분석 — 에이전트 실행 비용 반값 시대의 진짜 의미
Claude Sonnet 5는 에이전트 코딩 벤치마크 63.2%로 세대를 건너뛴 성능에, 8월 31일까지 입력 $2·출력 $10/M 프로모션 가격을 붙였다. 에이전트 실행 비용이 왜 반값이 됐는지, 무엇을 준비해야 하는지 분석한다.
그동안 AI 에이전트를 실제 업무에 붙여 보려다 비용 계산기 앞에서 멈춰 선 적, 한 번쯤 있으셨죠? "성능 좋은 모델은 너무 비싸고, 싼 모델은 중간에 일을 놓친다"는 딜레마 때문에 실전 도입을 미뤄 온 분들이 많습니다.
그런데 2026년 6월 30일, Anthropic이 내놓은 Claude Sonnet 5가 바로 그 지점을 정면으로 겨냥했습니다. 핵심은 단순한 성능 향상이 아니라 "비싼 모델이 하던 일을 싼 모델이 하도록" 판을 바꿨다는 데 있습니다.

세대를 건너뛴 벤치마크, 무엇이 달라졌나
가장 먼저 눈에 띄는 건 성능 도약의 크기입니다. Sonnet 5의 에이전트 코딩 벤치마크 점수는 63.2%. 직전 세대인 Sonnet 4.6이 58.1%였으니 한 세대 만에 5%포인트 넘게 뛴 셈입니다.
이게 왜 중요할까요? 같은 회사의 최상위 모델 Opus 4.8이 69.2%라는 점과 비교해 보면 답이 나옵니다. Sonnet 5는 중간 등급 모델이면서도 최상위 모델과의 격차를 6%포인트 안쪽으로 좁혔습니다. 심지어 지식 작업 벤치마크에서는 Opus 4.8을 근소하게 앞서기까지 했습니다.
Anthropic은 이렇게 설명합니다.
"Opus 4.8은 여전히 최고 정확도가 필요한 작업의 선택지지만, Sonnet 5는 개발자에게 이전보다 훨씬 높은 품질의 저가 옵션을 제공한다."
즉, 정밀함이 생명인 작업은 Opus로, 나머지 대부분의 자동화는 Sonnet 5로 나눠 돌리는 그림이 현실적으로 가능해진 것입니다.
"중간에 멈추던 에이전트"가 끝까지 가기 시작했다
벤치마크 숫자보다 더 와닿는 건 실사용 후기입니다. 에이전트를 써 본 분들이 가장 답답해하던 지점이 바로 "작업 중간에 멈춰 버리는" 문제인데요.
Zapier의 선임 엔지니어 Daniel Shepard는 두 단계로 이어지는 작업, 즉 Salesforce 계정 등급을 업데이트하고 그 결과를 엔터프라이즈 연락처에게 출시 공지로 보내는 일을 Sonnet 5에게 맡겼습니다. 결과는 이랬습니다.
"끝까지 완료했다. 이전 모델이었다면 중간에 멈췄을 것이다."
Anthropic은 Sonnet 5의 강점을 "계획을 세우고, 브라우저와 터미널 같은 도구를 사용하며, 몇 개월 전만 해도 더 크고 비싼 모델이 필요했던 수준을 자율적으로 실행한다"고 정리합니다. 실무자 입장에서 이 문장을 번역하면 이렇습니다 — 이제 자잘한 자동화 때문에 굳이 비싼 모델을 붙이지 않아도 된다.

안전성도 함께 올라갔다 — 그런데 예외가 하나
에이전트를 실제 업무 시스템에 붙일 때 가장 무서운 건 "엉뚱한 요청을 그대로 실행해 버리는" 상황입니다. 이 부분에서도 Sonnet 5는 개선점을 보였습니다.
Sonnet 4.6과 비교해 오용 협력, 기만, 할루시네이션, 아첨성 행동이 모두 줄었고, 악의적 요청 거부와 프롬프트 인젝션 저항이 강화됐습니다. Lovable 공동창립자 Fabian Hedin의 평가가 인상적입니다.
"안전하지 않은 요청을 깨끗하고 일관되게 거부한다."
다만 한 가지 짚어야 할 예외가 있습니다. 위험한 사이버보안 작업을 수행하는 능력은 Opus 4.8보다 낮게 유지됩니다. 이는 성능 부족이라기보다, 저가·범용 모델이 위험 작업에 오남용되지 않도록 의도적으로 설계된 안전장치에 가깝습니다.
진짜 뉴스는 '가격표'다
성능이 세대를 건너뛰었어도, 이 소식의 핵심은 결국 가격입니다. 정리하면 이렇습니다.
| 구분 | 입력 (1M 토큰) | 출력 (1M 토큰) |
|---|---|---|
| 프로모션 (~2026-08-31) | $2 | $10 |
| 정가 (2026-09-01~) | $3 | $15 |
프로모션 기간 동안에는 입력 100만 토큰당 2달러, 출력 100만 토큰당 10달러입니다. 에이전트는 도구 호출과 중간 추론 때문에 토큰을 많이 쓰는데, 바로 그 "많이 쓰는" 워크로드의 단가가 내려간 겁니다. 성능은 상위 모델급에 다가섰는데 실행 비용은 반대로 낮아졌으니, 그동안 비용 때문에 미뤄 둔 자동화를 다시 검토할 이유가 생긴 셈이죠.
여기에 1M 토큰 컨텍스트와, Claude 무료·Pro 요금제의 기본 모델 배정까지 더해졌습니다. 개발자뿐 아니라 일반 사용자도 별도 설정 없이 이 성능을 만나게 된다는 뜻입니다.
업계 전체의 신호이기도 하다
Sonnet 5의 출시는 Anthropic 혼자만의 움직임이 아닙니다. OpenAI의 GPT-5.6 Sol, Google의 Gemini 3.5 Flash 등 경쟁사들도 비슷한 시점에 유사한 전략을 폈습니다. 공통점은 하나입니다 — 에이전트 기능이 이제 프리미엄 옵션이 아니라 기본 기대치가 됐다는 것.
참고로 Anthropic의 최근 출시 흐름을 보면 속도가 체감됩니다. Sonnet 4.6이 2026년 2월, Opus 4.8이 5월, 그리고 Sonnet 5가 6월 말입니다. 몇 달 단위로 "더 싸고 더 유능한" 모델이 갈아 끼워지고 있는 것이죠.
정리하며
Claude Sonnet 5는 두 가지를 동시에 해냈습니다. 벤치마크상 상위 모델과의 격차를 좁혔고, 동시에 에이전트를 돌리는 실행 단가를 프로모션 기준 반값 수준으로 낮췄습니다. "성능이냐 비용이냐"의 오래된 저울질이, 적어도 중간 규모 자동화에서는 상당히 기울어진 셈입니다.
그렇다면 질문은 이렇게 바뀝니다. 비용 때문에 접어 뒀던 그 자동화, 이번엔 다시 꺼내 볼 때가 된 걸까요? 여러분의 업무에서 가장 먼저 에이전트에게 맡겨 보고 싶은 반복 작업은 무엇인가요? 댓글로 함께 이야기 나눠 봐요.
📎 출처: 원문 보기
🔗 관련글 이어 보기
같은 주제를 다른 형식으로 풀어낸 글이에요.
💬 댓글 0
댓글을 불러오는 중…