모델 목록으로
Google Deep Mind독점
Gemini 2.5 Flash Native Audio - 2512
Gemini 2.5 Flash Native Audio - 2512는 Google DeepMind가 개발한 음성 중심의 AI 모델입니다. 고급 음성 처리를 달성하기 위해 128K 컨텍스트 윈도우를 탑재한 기반 모델로 설계되었습니다.
파라미터
Undisclosed
컨텍스트
128K
라이선스
Proprietary
출시일
2025-12-10
API 가격
이 모델의 API 가격 정보는 현재 공개되지 않았습니다
강점
- ・고급 오디오 처리 기능
- ・128K 토큰의 넓은 컨텍스트 윈도우
- ・Google DeepMind 개발
약점
- ・비오픈소스 라이선스
- ・제한된 공개 정보
- ・닫힌 사용 모델
활용 사례
- ・고급 음성 인식
- ・오디오 데이터 분석
- ・실시간 오디오 처리
심층 분석
Model Type
Native Audio / Live Voice Agent
Context Window
Up to 128K tokens
Output
Audio and text
Languages
70+ for translation
Architecture Base
Gemini 2.5 Flash
Latest Update
December 2025
강점
- ・Native audio processing without separate transcription/synthesis
- ・Low-latency real-time voice interactions via Live API
- ・Improved function calling and instruction following
- ・Live speech translation in 70+ languages
- ・Deployed in Gemini Live, Search Live, and Vertex AI
약점
- ・Flash-tier model, less capable than Pro for complex reasoning
- ・Audio quality may not match dedicated TTS models
- ・Requires Live API integration for real-time use
- ・Limited to Google ecosystem (AI Studio, Vertex AI)
- ・May have occasional hallucinations in long conversations
경쟁사 비교
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| OpenAI GPT-4o Audio | N/A | N/A | N/A | $5/1M input tokens |
| Anthropic Claude Voice | N/A | N/A | N/A | Not publicly available |
| Microsoft Copilot Voice | N/A | N/A | N/A | Bundled with M365 |
| Amazon Nova Sonic | N/A | N/A | N/A | $0.032/min |
Gemini 2.5 Flash Native Audio is Google's real-time voice interaction model, enabling natural conversations with native audio processing. The December 2025 update improved function calling, instruction following, and conversation smoothness. It powers Gemini Live, Search Live, and enterprise voice agents via the Live API.
출처
분석 생성일: 2026-05-24