モデル一覧に戻る
Google Deep Mindプロプライエタリ

Gemini 3.1 Flash TTS (preview)

Gemini 3.1 Flash TTS (preview) は、Google DeepMindが開発した音声基盤モデルです。8Kのコンテキストウィンドウを備え、効率的な音声生成を実現します。

パラメータ

非公開

コンテキスト長

8K

ライセンス

プロプライエタリ

リリース日

2026-04-16

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 迅速な音声生成
  • Google DeepMind製
  • 効率的な処理能力

弱み

  • 非オープンソース
  • コンテキスト長が8K
  • プレビュー版の不安定さ

活用例

  • リアルタイム音声合成
  • 自動音声読み上げ
  • 音声アシスタント開発

深度分析

モデルタイプ

Text-to-Speech (TTS)

入力トークン上限

8,192

出力トークン制限

16,384

最新の更新

April 2026

知識カットオフ

January 2025

基本アーキテクチャ

Gemini 3 Pro

強み

  • スタイル、ペース、トーンのきめ細かな制御が可能な表現力豊かなオーディオタグ
  • 自然な出力を伴う低レイテンシー音声生成
  • 単一のテキスト入力からの複数話者生成
  • ステアラブルなプロンプトによる多言語サポート
  • Google AI Studio、Gemini API、およびVertex AIで利用可能

弱み

  • プレビュー状態のため、APIが予告なく変更される可能性がある
  • 関数呼び出し、グラウンディング、構造化出力に非対応
  • リアルタイムストリーミングのLive APIに非対応
  • テキスト入力のみ対応(マルチモーダル入力不可)
  • ナレッジカットオフが2025年1月のため、最新時事への認識が限定的

競合比較

ModelArenaSWEGPQAPrice
OpenAI TTS-1 HDN/AN/AN/A$15/1M characters
ElevenLabs Turbo v2.5N/AN/AN/A$0.30/1K characters
Google Cloud TTS (WaveNet)N/AN/AN/A$16/1M characters
Microsoft Azure TTSN/AN/AN/A$15/1M characters

Gemini 3.1 Flash TTS Previewは、Gemini 3 Proアーキテクチャをベースに構築されたGoogleの最新のテキスト読み上げモデルであり、きめ細かなナレーション制御のための表現力豊かなオーディオタグを提供します。複数話者による会話、没入感のあるストーリーテリング、および低レイテンシーの多言語音声生成を可能にします。2026年4月にリリースされ、制御可能なAI音声合成において大きな進歩を示しています。

分析生成日: 2026-05-30