모델 목록으로
Google Deep Mind독점

Gemini 2.5 Flash Native Audio - 2512

Gemini 2.5 Flash Native Audio - 2512는 Google DeepMind가 개발한 음성 중심의 AI 모델입니다. 고급 음성 처리를 달성하기 위해 128K 컨텍스트 윈도우를 탑재한 기반 모델로 설계되었습니다.

파라미터

Undisclosed

컨텍스트

128K

라이선스

Proprietary

출시일

2025-12-10

API 가격

이 모델의 API 가격 정보는 현재 공개되지 않았습니다

강점

  • 고급 오디오 처리 기능
  • 128K 토큰의 넓은 컨텍스트 윈도우
  • Google DeepMind 개발

약점

  • 비오픈소스 라이선스
  • 제한된 공개 정보
  • 닫힌 사용 모델

활용 사례

  • 고급 음성 인식
  • 오디오 데이터 분석
  • 실시간 오디오 처리

심층 분석

Model Type

Native Audio / Live Voice Agent

Context Window

Up to 128K tokens

Output

Audio and text

Languages

70+ for translation

Architecture Base

Gemini 2.5 Flash

Latest Update

December 2025

강점

  • Native audio processing without separate transcription/synthesis
  • Low-latency real-time voice interactions via Live API
  • Improved function calling and instruction following
  • Live speech translation in 70+ languages
  • Deployed in Gemini Live, Search Live, and Vertex AI

약점

  • Flash-tier model, less capable than Pro for complex reasoning
  • Audio quality may not match dedicated TTS models
  • Requires Live API integration for real-time use
  • Limited to Google ecosystem (AI Studio, Vertex AI)
  • May have occasional hallucinations in long conversations

경쟁사 비교

ModelArenaSWEGPQAPrice
OpenAI GPT-4o AudioN/AN/AN/A$5/1M input tokens
Anthropic Claude VoiceN/AN/AN/ANot publicly available
Microsoft Copilot VoiceN/AN/AN/ABundled with M365
Amazon Nova SonicN/AN/AN/A$0.032/min

Gemini 2.5 Flash Native Audio is Google's real-time voice interaction model, enabling natural conversations with native audio processing. The December 2025 update improved function calling, instruction following, and conversation smoothness. It powers Gemini Live, Search Live, and enterprise voice agents via the Live API.

분석 생성일: 2026-05-24