このモデルの強みは何ですか？

音声処理に特化した設計 32Kの広いコンテキスト長 Apache 2.0のオープンライセンス

このモデルの弱みは何ですか？

小規模モデル比で高い計算資源が必要テキスト特化モデルとの性能差モデルサイズによるメモリ消費

どんな用途に最適ですか？

高度な音声データの解析長文音声のコンテキスト理解オープンソースベースの音声開発

モデル一覧に戻る

MistralAIオープンソース

Voxtral-Mini-3B-2507

Name: Voxtral-Mini-3B-2507
Author: MistralAI

Voxtral-Mini-3B-2507は、MistralAIによって開発された音声特化の基盤モデルです。30.0Bのパラメータ規模を持ち、最大32Kのコンテキスト長に対応しています。

パラメータ

30.0B

コンテキスト長

32K

ライセンス

Apache 2.0

リリース日

2025-07-15

API料金

このモデルのAPI料金情報は現在未公開です

強み

・音声処理に特化した設計
・32Kの広いコンテキスト長
・Apache 2.0のオープンライセンス

弱み

・小規模モデル比で高い計算資源が必要
・テキスト特化モデルとの性能差
・モデルサイズによるメモリ消費

活用例

・高度な音声データの解析
・長文音声のコンテキスト理解
・オープンソースベースの音声開発

深度分析

モデル: voxtral-mini-3b-2507 分野: ラベル翻訳するテキスト: アーキテクチャ

Multimodal Audio Chat (3B)

Based on Mistral Small 3.1 backbone

モデル: voxtral-mini-3b-2507 フィールド: label 翻訳するテキスト: コンテキストウィンドウ

32K tokens

Up to 30 min transcription

モデル: voxtral-mini-3b-2507 フィールド: ラベル翻訳するテキスト: リリース日

July 15, 2025

モデル: voxtral-mini-3b-2507 分野: ラベル翻訳するテキスト: ライセンス

Apache 2.0

**Modalities**

Audio + Text

Speech understanding and transcription

モデル: voxtral-mini-3b-2507 分野: ラベル翻訳するテキスト: 言語

8+ languages

EN, FR, DE, ES, IT, PT, NL, HI

強み

・オープンソースの音声理解モデル
・Apache 2.0ライセンス
・自動言語検出対応の多言語モデル
・音声入力からの関数呼び出し
・エッジ展開向けの軽量3Bモデル
・コスト効率の良い文字起こし

弱み

・32Kコンテキスト制限による長時間音声処理
・小型モデルのためニュアンスを見逃す可能性あり
・画像/動画モダリティなし

競合比較

Model	Arena	SWE	GPQA	Price
Voxtral Small 24B	-	-	-	Higher
OpenAI Whisper	-	-	-	Comparable
GPT-4o Audio	-	-	-	Higher

概要

Model: voxtral-mini-3b-2507 Field: summary Voxtral Mini 3Bは、Mistral社による軽量なオープンソース音声理解モデルです。2025年7月にApache 2.0ライセンスで公開され、音声からの文字起こし、質疑応答、要約、関数呼び出しを、同等のAPIの半額以下で提供します。

ベンチマーク＆性能

最先端のサイズに対する転写精度。強力な多言語音声認識。最大30分の音声を処理可能。

詳細比較

モデル: voxtral-mini-3b-2507 分野: 比較オープンソースASR（高いエラー率）とクローズドなプロプライエタリAPI（高コスト）のギャップを埋める。Whisperにはないネイティブな意味理解を提供する。

コミュニティ評価

HuggingFaceおよびMistral APIで利用可能。ローンチ時には包括的なドキュメントが提供されました。

ユースケース

音声駆動アプリケーション、多言語文字起こし、音声からアクションへのワークフロー、エッジ音声処理、およびコスト重視の本番ASR。