모델 목록으로
Google Deep Mind독점

Gemini 3.1 Flash TTS (preview)

Gemini 3.1 Flash TTS (preview)는 Google DeepMind가 개발한 음성 기반 모델입니다. 8K 컨텍스트 윈도우를 특징으로 하며 효율적인 음성 생성을 가능하게 합니다.

파라미터

Undisclosed

컨텍스트

8K

라이선스

Proprietary

출시일

2026-04-16

API 가격

이 모델의 API 가격 정보는 현재 공개되지 않았습니다

강점

  • 빠른 음성 생성
  • Google DeepMind가 개발
  • 효율적인 처리 능력

약점

  • 오픈 소스가 아님
  • 8K의 짧은 컨텍스트 길이
  • 프리뷰 버전의 불안정성

활용 사례

  • 실시간 음성 합성
  • 자동 텍스트 음성 변환(TTS) 리딩
  • 음성 어시스턴트 개발

심층 분석

Model Type

Text-to-Speech (TTS)

Input Token Limit

8,192

Output Token Limit

16,384

Latest Update

April 2026

Knowledge Cutoff

January 2025

Architecture Base

Gemini 3 Pro

강점

  • Expressive audio tags for granular control over style, pace, and tone
  • Low-latency speech generation with natural outputs
  • Multi-speaker generation from a single text input
  • Multilingual support with steerable prompts
  • Available across Google AI Studio, Gemini API, and Vertex AI

약점

  • Preview status means API may change without notice
  • No function calling, grounding, or structured outputs supported
  • No Live API support for real-time streaming
  • Limited to text input only (no multimodal input)
  • Knowledge cutoff is January 2025, limiting current event awareness

경쟁사 비교

ModelArenaSWEGPQAPrice
OpenAI TTS-1 HDN/AN/AN/A$15/1M characters
ElevenLabs Turbo v2.5N/AN/AN/A$0.30/1K characters
Google Cloud TTS (WaveNet)N/AN/AN/A$16/1M characters
Microsoft Azure TTSN/AN/AN/A$15/1M characters

Gemini 3.1 Flash TTS Preview is Google's newest text-to-speech model built on Gemini 3 Pro architecture, offering expressive audio tags for granular narration control. It enables multi-speaker conversations, immersive storytelling, and multilingual speech generation with low latency. Released in April 2026, it represents a significant step forward in controllable AI speech synthesis.

분석 생성일: 2026-05-24