このモデルの強みは何ですか？

大規模なパラメータ数音声処理への特化 Apache 2.0の開放性

このモデルの弱みは何ですか？

モデルファイルが巨大高い計算リソースが必要コンテキスト長は中規模

どんな用途に最適ですか？

高度な音声認識音声データの解析音声ベースのAI構築

モデル一覧に戻る

MistralAIオープンソース

Voxtral-Small-24B-2507

Name: Voxtral-Small-24B-2507
Author: MistralAI

Voxtral-Small-24B-2507は、MistralAIが開発した音声特化の基盤モデルです。約240Bのパラメータ規模を持ち、32Kのコンテキストウィンドウに対応しています。

パラメータ

240.0B

コンテキスト長

32K

ライセンス

Apache 2.0

リリース日

2025-07-15

API料金

このモデルのAPI料金情報は現在未公開です

強み

・大規模なパラメータ数
・音声処理への特化
・Apache 2.0の開放性

弱み

・モデルファイルが巨大
・高い計算リソースが必要
・コンテキスト長は中規模

活用例

・高度な音声認識
・音声データの解析
・音声ベースのAI構築

深度分析

モデル: voxtral-small-24b-2507 分野: ラベル翻訳するテキスト: アーキテクチャ

Multimodal Audio Chat (24B)

Based on Mistral Small 24B backbone

モデル: voxtral-small-24b-2507 フィールド: ラベル翻訳するテキスト: コンテキストウィンドウ

32K tokens

Up to 40 min for understanding

リリース日

July 15, 2025

モデル: voxtral-small-24b-2507 分野: ラベル翻訳するテキスト: ライセンス

Apache 2.0

**Modalities**

Audio + Text

Speech understanding and transcription

モデル: voxtral-small-24b-2507 分野: ラベル翻訳するテキスト: 言語

8+ languages

Multilingual with auto-detection

強み

・本番規模の音声理解
・Apache 2.0 オープンソース
・40分の音声理解能力
・音声からの関数呼び出し
・ネイティブ多言語対応
・Mistral Small 3.1のテキスト理解を保持

弱み

・より大きなモデルはより多くの計算リソースを必要とする
・32Kコンテキストウィンドウ
・視覚モダリティなし

競合比較

Model	Arena	SWE	GPQA	Price
Voxtral Mini 3B	-	-	-	Lower
GPT-4o Audio	-	-	-	Higher
Google Gemini Audio	-	-	-	Comparable

概要

Model: voxtral-small-24b-2507 Field: summary Voxtral Small 24Bは、Mistral社による本番規模のオープンソース音声理解モデルです。2025年7月にApache 2.0ライセンスで公開され、最大40分の音声を処理可能で、音声からのQ&A、要約、関数呼び出し機能を内蔵しています。

ベンチマーク＆性能

Model: voxtral-small-24b-2507 分野: パフォーマンス複雑な音声タスクにおいて、Voxtral Miniよりも高い精度を実現。最先端の多言語文字起こし。音声推論と要約に優れています。

詳細比較

モデル: voxtral-small-24b-2507 分野: 比較同等のクローズドAPIの半分以下のコストで、プロダクションレベルの音声インテリジェンスを提供します。文字起こしと意味理解を組み合わせています。

コミュニティ評価

HuggingFaceおよびMistral APIで利用可能。MistralのマルチモーダルAIへの取り組みの一環。

ユースケース

生産用音声アシスタント、エンタープライズ向け文字起こし、音声コンテンツ分析、音声駆動型自動化、および多言語音声アプリケーション。