モデル一覧に戻る
Google Deep Mindプロプライエタリ
Gemini 2.5 Flash Native Audio - 2512
Gemini 2.5 Flash Native Audio - 2512は、Google DeepMindが開発した音声特化のAIモデルです。128Kのコンテキストウィンドウを備え、高度な音声処理を実現する基盤モデルとして設計されています。
パラメータ
非公開
コンテキスト長
128K
ライセンス
プロプライエタリ
リリース日
2025-12-10
API料金
このモデルのAPI料金情報は現在未公開です
強み
- ・高度な音声処理能力
- ・128Kの広いコンテキスト
- ・Google DeepMindによる開発
弱み
- ・非オープンソースのライセンス
- ・限定的な公開情報
- ・クローズドな利用形態
活用例
- ・高度な音声認識
- ・音声データの解析
- ・リアルタイム音声処理
深度分析
モデルタイプ
Native Audio / Live Voice Agent
コンテキストウィンドウ
Up to 128K tokens
出力
Audio and text
言語
70+ for translation
アーキテクチャベース
Gemini 2.5 Flash
最新アップデート
December 2025
強み
- ・個別の文字起こし・合成を必要としないネイティブ音声処理
- ・Live APIによる低遅延のリアルタイム音声対話
- ・関数呼び出しと指示追従の向上
- ・70以上の言語でのライブ音声翻訳
- ・Gemini Live、Search Live、およびVertex AIへのデプロイ
弱み
- ・Flash-tierモデルであり、複雑な推論ではProモデルに劣る
- ・音声品質が専用のTTSモデルに及ばない場合がある
- ・リアルタイム利用にはLive APIの統合が必要
- ・Googleのエコシステム(AI Studio、Vertex AI)に限定される
- ・長時間の会話で時々ハルシネーション(幻覚)が発生する可能性がある
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| OpenAI GPT-4o Audio | N/A | N/A | N/A | $5/1M input tokens |
| Anthropic Claude Voice | N/A | N/A | N/A | Not publicly available |
| Microsoft Copilot Voice | N/A | N/A | N/A | Bundled with M365 |
| Amazon Nova Sonic | N/A | N/A | N/A | $0.032/min |
モデル:gemini-2-5-flash-native-audio-2512 フィールド:概要
Gemini 2.5 Flash Native Audioは、Googleのリアルタイム音声インタラクションモデルであり、ネイティブな音声処理による自然な会話を可能にします。2025年12月のアップデートでは、関数呼び出し、指示追従、および会話の滑らかさが改善されました。Gemini Live、Search Live、およびLive APIを介したエンタープライズ音声エージェントを支えています。
出典
分析生成日: 2026-05-30