벤치마크2026-06-24

2026년 6월 AI 모델 총정리: Claude Fable 5의 충격, GPT-5.6 연기, 중국 4강 경쟁

2026년 6월 개요

2026년 6월은 대규모 언어 모델(LLM) 역사상 개발이 가장 집중된 달이었습니다. Anthropic, OpenAI, Google, Meta, NVIDIA, 그리고 중국의 프론티어 기업들까지, 주요 개발 연구소가 2주 이내에 앞다퉈 새 모델을 발표했습니다. 본문에서는 6월에 출시된 모든 주요 모델을 포괄적으로 분석하고, 향후 AI 산업에 미칠 영향을 살펴봅니다.

2026년 6월 출시 로드맵

모델	개발사	유형	출시일	핵심 포인트
Claude Fable 5	Anthropic	Mythos 클래스	6월 9일	SWE-Bench Verified 95.0%, SWE-Bench Pro 80.3%
Claude Mythos 5	Anthropic	Mythos 클래스	6월 9일	사이버 보안 특화, 제한 공개
Claude Opus 4.8	Anthropic	메인스트림	5월 28일	현행 프론티어 플래그십
GPT-5.6	OpenAI	클로즈드	7월 중순 연기	카나리 테스트 진행 중, 150만 토큰 컨텍스트
Gemini 3.2	Google	클로즈드	6월 초	롱 컨텍스트 검색 강화
Gemini 3.5 Pro	Google	클로즈드	연기	DeepMind, 품질 불만으로 이번 달 출시 없음
Nemotron 3 Ultra	NVIDIA	오픈소스	6월 4일	550B 파라미터(55B 활성), MoE
Gemma 4 12B	Google	오픈소스	6월 3일	인코더 없는 멀티모달, QAT 지원
Qwen 3.7	Alibaba	오픈소스+클로즈드	6월 초	에이전트 특화, 3모델 배포
Llama 4	Meta	오픈소스	4월 5일	멀티모달, 에이전트 대응
DeepSeek V4 Pro	DeepSeek	오픈소스+클로즈드	4월 24일	16조 파라미터, 100만 토큰
Mistral Medium 3	Mistral AI	클로즈드+셀프호스팅	6월 초	EU 다국어 미드티어
Hy3 Preview (Hunyuan 3)	Tencent	오픈소스	4월 23일	MoE 295B, 에이전트 대응
ERNIE 5.1	Baidu	클로즈드	6월 초	Baidu 검색 통합
Doubao	ByteDance	클로즈드	미확인	공식 발표 없음
GLM-5.2	Zhipu AI	오픈소스	6월 16일	100만 토큰, MIT 라이선스, MoE

Claude Fable 5: Mythos 클래스의 충격

Anthropic은 6월 9일, Claude Fable 5를 발표했습니다. 이는 'Mythos 클래스'로 명명된 새 티어의 최초 공개 모델로, 기존 Opus를 상회하는 최상위 모델군에 위치합니다.

벤치마크 성능

Fable 5의 성능은 압도적입니다.

SWE-Bench Verified: 95.0% — 거의 완벽한 점수
SWE-Bench Pro: 80.3% — Opus 4.8의 69.2%를 16%p 상회, GPT-5.5의 58.6%에서 38%p 앞섬
GDP.pdf (문서 추론): 29.8% — GPT-5.5의 24.9%를 초과
컨텍스트 윈도우: 100만 토큰 (최대 출력 128K)

Stripe사는 5,000만 줄의 Ruby 코드베이스에서 테스트하여, 수동으로 2개월이 걸리는 대규모 마이그레이션을 1일 만에 완료했습니다. Cursor의 Michael Truell 씨는 "CursorBench에서 최첨단 모델"이라고 평가했습니다.

가격 정책

Fable 5의 가격은 다음과 같습니다.

입력: $10 / 100만 토큰
출력: $50 / 100만 토큰

이는 Opus 4.8의 약 2배에 해당합니다. Pro, Max, Team 플랜에서는 6월 22일까지 무료로 이용할 수 있었습니다.

제한과 안전성

주의할 점도 있습니다. 민감한 생물학 및 사이버 보안 관련 질문에서는 더 약한 모델로 라우팅됩니다. 제한 없는 형제 모델 'Mythos 5'는 사이버 보안 담당자 및 인프라 제공업체에 한정 공개되어, BioMysteryBench에서 46.1%의 점수를 기록했습니다.

OpenAI GPT-5.6: 연기와 새로운 전개

7월 중순으로 연기

OpenAI는 당초 6월 30일경 출시를 예정했던 GPT-5.6을 7월 중순으로 연기했습니다. 6월 23일 유출 정보에 따르면, 카나리 테스트는 진행 중이지만 추가적인 포스트 트레이닝이 필요하다는 보고가 있습니다.

예측 시장 Polymarket에서는 6월 30일까지의 출시 확률을 89%로 예측했으나, 연기가 확정되었습니다.

기술적 특징

GPT-5.6은 다음과 같은 점에서 주목됩니다.

추론 깊이: 기존 모델보다 깊은 추론 능력
토큰 효율: 멀티스텝 작업에서의 토큰 소비 최적화
150만 토큰 컨텍스트: 롱 컨텍스트 대응 강화
Bidi (새 음성 모델): 양방향 음성 대응, 중간에 끼어들기 및 실시간 번역 가능

Codex 26.609의 진화

6월 11-12일 출시된 Codex 26.609는 OpenAI의 데스크톱 IDE로 진화하여, 브라우저 디버깅 기능을 탑재했습니다. Developer 모드를 통해 더 고도화된 개발 워크플로우가 가능해졌습니다.

Google Gemini: 성공과 지연

Gemini 3.2: 롱 컨텍스트 검색 강화

Google은 Gemini 3.2를 6월 초에 출시했습니다. 이는 멀티모달 리프레시로서, 롱 컨텍스트 검색 능력의 대폭적인 개선을 실현했습니다.

Gemini 3.5 Pro: 품질 문제로 연기

한편, Google DeepMind는 Gemini 3.5 Pro의 품질에 불만을 표명하고 이번 달 출시를 보류했습니다. 당초 6월 말 출시가 예정되었으나, 현재는 7월 이후가 될 전망입니다.

Gemini 3.5 Flash: 4배 고속화

Google I/O에서 Gemini 3.5 Flash가 GA(General Availability) 출시되어, 기존 대비 4배의 속도를 실현했습니다. 기본 모델로의 채택을 고려할 가치가 있습니다.

오픈소스 프론티어

NVIDIA Nemotron 3 Ultra

NVIDIA가 6월 4일 발표한 Nemotron 3 Ultra는 550B 파라미터(55B 활성)의 MoE (Mixture-of-Experts) 모델입니다. Mamba-2와 Transformer의 하이브리드 아키텍처를 채택하여, 장시간 작동하는 에이전트용으로 설계되었습니다.

아키텍처: LatentMoE (Mamba-2 + Transformer)
활성 파라미터: 55B (전체 550B의 10%)
특징: 에이전트 추론에 최적화, 에너지 효율 중시

Google Gemma 4 12B

6월 3일 출시된 Gemma 4 12B는 인코더 없는 통합 멀티모달 모델입니다. 6월 5일에는 QAT (Quantization-Aware Training) 버전도 공개되어, 모바일이나 노트북에서의 효율적인 추론이 가능해졌습니다.

Alibaba Qwen 3.7 시리즈

Alibaba는 Qwen 3.7을 3가지 변형으로 배포합니다.

Qwen3.7-Max: 플래그십. 장시간 에이전트 작업에 최적.
Qwen3.7-Plus: 멀티모달 추론·코딩·소프트웨어 실행 통합.
Qwen3.7-Turbo: 고속·저비용 버전.

Qwen 3.7-Plus는 GUI 에이전트 기능을 탑재하여, 빌드·테스트·배포 일련의 워크플로우를 자율적으로 실행할 수 있습니다.

Meta Llama 4

Meta의 Llama 4는 4월에 출시되어, 멀티모달 대응과 에이전트 워크플로우 강화를 특징으로 합니다.

Mistral Medium 3

Mistral AI는 EU 시장을 위한 다국어 미드티어 모델을 출시했습니다. 셀프호스팅 옵션도 제공하여, 유럽 기업의 프라이버시 요구사항에 대응합니다.

중국 프론티어의 경쟁 격화

2026년 6월 가장 주목할 동향 중 하나는 중국 프론티어 모델 간의 급속한 경쟁 격화입니다. DeepSeek V4가 4월에 확립한 가격 성능 기준에 대해, Alibaba, Tencent, Baidu, Zhipu AI가 단기간에 앞다퉈 대항 모델을 발표했습니다.

DeepSeek V4 Pro

DeepSeek V4 Pro는 16조 파라미터와 100만 토큰의 컨텍스트 윈도우를 갖춘 프론티어 모델입니다. 4월에 출시된 V4 시리즈의 최신판으로, 비용 효율 면에서 계속 리더십을 유지하고 있습니다.

Tencent Hy3 Preview (Hunyuan 3)

Tencent는 4월에 Hy3 Preview (Hunyuan 3)를 오픈소스로 공개했습니다. MoE 295B 파라미터 구성으로, 에이전트 대응을 강화했습니다.

Baidu ERNIE 5.1

Baidu 검색과의 통합으로, 검색 결과 요약을 AI가 직접 생성하는 경험을 실현했습니다.

ByteDance Doubao

ByteDance는 Doubao 모델을 배포하고 있지만, 6월 시점에서의 공식 발표는 확인되지 않았습니다.

Zhipu AI GLM-5.2

6월 16일 출시된 GLM-5.2는 Zhipu AI의 최신 플래그십입니다. 100만 토큰의 컨텍스트 윈도우, MIT 라이선스, MoE 아키텍처를 채택하여, 롱 호라이즌 태스크에 특화되어 있습니다.

3가지 거대 전환

1. 안전성 프론티어의 일반 공개

Claude Mythos 5의 GA 출시는 사이버 보안 특화 추론 능력이 기업 조달 프로세스에 통합됨을 의미합니다. 취약성을 인식하는 추론이 벤더 리스크 평가의 일부가 되는 시대가 왔습니다.

2. 중국 프론티어의 수렴

Qwen, DeepSeek, Hunyuan, GLM의 4개사가 단기간에 연이어 출시한 것은 우연이 아닙니다. DeepSeek V4가 확립한 가격 성능 기준에 대한 경쟁적 응답입니다. 중국의 소비자·기업 시장에서 브랜드 가시성을 높이는 움직임이 급속히 확산되고 있습니다.

3. 유스케이스별 모델 패밀리

Claude Fable 5의 출시는 프론티어 연구소가 스케일 티어뿐만 아니라, 유스케이스별 아키타입에 기반하여 모델 패밀리를 세그먼테이션하기 시작했음을 시사합니다. 창작형 (Fable), 보안형 (Mythos), 범용형 (Opus)과 같은 분화가 진행되고 있습니다.

실용적인 선택 가이드

코딩 에이전트 개발자용

최우선: Claude Fable 5 (SWE-Bench Pro 80.3%, Stripe에서의 실적 있음)
비용 중시: Qwen 3.7-Plus (GUI 에이전트 대응, 중국 시장용)
셀프호스팅: Nemotron 3 Ultra (55B 활성, 에너지 효율 중시)

엔터프라이즈용

범용: Claude Opus 4.8 (현행 플래그십, 안정적 공급)
Google 에코시스템: Gemini 3.5 Flash GA (4배 고속화)
EU 규제 대응: Mistral Medium 3 (셀프호스팅, 프라이버시 중시)

중국 시장용

플래그십: Qwen 3.7-Max
비용 효율: DeepSeek V4 Pro
소비자 통합: Hy3 Preview (WeChat)

결론

Claude Fable 5가 코딩 능력의 새 기준을 확립했고, 중국 프론티어 간의 경쟁 격화가 산업의 재편을 가속화했으며, GPT-5.6과 Gemini 3.5 Pro의 연기는 개발의 복잡성을 부각시켰습니다.

향후 주목해야 할 점은 다음과 같습니다.

7월 중순의 GPT-5.6 출시 — OpenAI의 반격이 본격화됩니다
Gemini 3.5 Pro의 품질 — Google이 지각을 만회할 수 있을지
중국 모델의 에코시스템 전개 — 오픈소스 vs 클로즈드의 행방
모델 패밀리의 분화 — 유스케이스별 최적화가 가속화됩니다

프론티어 모델의 경쟁은 단순한 성능 비교에서 에코시스템, 가격 정책, 안전성을 둘러싼 다차원의 경쟁으로 이행하고 있습니다. 개발자는 단일 모델에 대한 의존을 피하고, 태스크에 맞는 모델 선택 전략을 갖추는 것이 점점 더 중요해지고 있습니다.

공유:X Hatena

로딩 중...

블로그 목록으로