モデル一覧に戻る
Google Deep Mindプロプライエタリ

Gemini 2.5 Flash Native Audio - 2512

Gemini 2.5 Flash Native Audio - 2512は、Google DeepMindが開発した音声特化のAIモデルです。128Kのコンテキストウィンドウを備え、高度な音声処理を実現する基盤モデルとして設計されています。

パラメータ

非公開

コンテキスト長

128K

ライセンス

プロプライエタリ

リリース日

2025-12-10

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 高度な音声処理能力
  • 128Kの広いコンテキスト
  • Google DeepMindによる開発

弱み

  • 非オープンソースのライセンス
  • 限定的な公開情報
  • クローズドな利用形態

活用例

  • 高度な音声認識
  • 音声データの解析
  • リアルタイム音声処理

深度分析

モデルタイプ

Native Audio / Live Voice Agent

コンテキストウィンドウ

Up to 128K tokens

出力

Audio and text

言語

70+ for translation

アーキテクチャベース

Gemini 2.5 Flash

最新アップデート

December 2025

強み

  • 個別の文字起こし・合成を必要としないネイティブ音声処理
  • Live APIによる低遅延のリアルタイム音声対話
  • 関数呼び出しと指示追従の向上
  • 70以上の言語でのライブ音声翻訳
  • Gemini Live、Search Live、およびVertex AIへのデプロイ

弱み

  • Flash-tierモデルであり、複雑な推論ではProモデルに劣る
  • 音声品質が専用のTTSモデルに及ばない場合がある
  • リアルタイム利用にはLive APIの統合が必要
  • Googleのエコシステム(AI Studio、Vertex AI)に限定される
  • 長時間の会話で時々ハルシネーション(幻覚)が発生する可能性がある

競合比較

ModelArenaSWEGPQAPrice
OpenAI GPT-4o AudioN/AN/AN/A$5/1M input tokens
Anthropic Claude VoiceN/AN/AN/ANot publicly available
Microsoft Copilot VoiceN/AN/AN/ABundled with M365
Amazon Nova SonicN/AN/AN/A$0.032/min

モデル:gemini-2-5-flash-native-audio-2512 フィールド:概要

Gemini 2.5 Flash Native Audioは、Googleのリアルタイム音声インタラクションモデルであり、ネイティブな音声処理による自然な会話を可能にします。2025年12月のアップデートでは、関数呼び出し、指示追従、および会話の滑らかさが改善されました。Gemini Live、Search Live、およびLive APIを介したエンタープライズ音声エージェントを支えています。

分析生成日: 2026-05-30