このモデルの強みは何ですか？

最先端の音声処理能力智谱AIによる高度な設計最新のモデルアーキテクチャ

このモデルの弱みは何ですか？

非オープンソースのライセンス内部構造の不透明さ利用制限の可能性

どんな用途に最適ですか？

高度な音声認識タスク音声データの解析と処理次世代音声AIの開発

モデル一覧に戻る

Zhipu AIプロプライエタリ

GLM-ASR-2512

Name: GLM-ASR-2512
Author: Zhipu AI

GLM-ASR-2512は、智谱AIによって開発された音声大模型です。高度な音声処理能力を備えたクローズドソースのモデルとして提供されています。

パラメータ

非公開

コンテキスト長

ライセンス

プロプライエタリ

リリース日

2025-12-10

API料金

このモデルのAPI料金情報は現在未公開です

強み

・最先端の音声処理能力
・智谱AIによる高度な設計
・最新のモデルアーキテクチャ

弱み

・非オープンソースのライセンス
・内部構造の不透明さ
・利用制限の可能性

活用例

・高度な音声認識タスク
・音声データの解析と処理
・次世代音声AIの開発

深度分析

モデルタイプ

Automatic Speech Recognition (ASR)

パラメータ

1.5B (Nano variant)

文字誤り率

0.0717 (industry-leading)

言語

17 (WER ≤ 20%)

音声長制限

≤ 30 seconds

ファイルサイズ制限

≤ 25 MB

強み

・業界トップクラスのCER 0.0717
・広東語を含む優れた方言対応
・小音量音声（囁き声・静かな音声）への頑健性
・複数のベンチマークでOpenAI Whisper V3を上回る性能
・専門用語向けの効率的なカスタム辞書

弱み

・リクエストごとに30秒の音声時間制限
・25MBのファイルサイズ制限
・主に中国語・英語市場向けに最適化
・クローズドソースAPI（Nanoバリアントはオープンソース）
・長い音声ファイルでは複数回のリクエストが必要になる場合がある

競合比較

Model	Arena	SWE	GPQA	Price
OpenAI Whisper V3 Large	N/A	N/A	N/A	$0.006/min
Google Cloud Speech-to-Text V2	N/A	N/A	N/A	$0.016/min
Azure Speech to Text	N/A	N/A	N/A	$1/hour
AssemblyAI Universal-2	N/A	N/A	N/A	$0.015/min

概要

GLM-ASR-2512はZhipu AIの次世代音声認識モデルで、文字誤り率0.0717を達成し、国際的に最先端の水準に到達しています。中国語、英語、広東語の認識に優れ、騒音環境や小音量の音声シナリオでも堅牢な性能を発揮します。API版は会議、カスタマーサービス、文書入力などのリアルタイム文字起こしをサポートしています。

ベンチマーク＆性能

モデル: glm-asr-2512 分野: 性能 CER 0.0717は世界トップクラスの音声認識モデルに匹敵します。比較可能なオープンソースモデルの中で最も低い平均誤り率（4.10）を記録しています。中国語のベンチマーク（Wenet Meeting、Aishell-1）において顕著な優位性を示します。中英混在表現、コマンドベースのテキスト、業界特有の専門用語において優れた性能を発揮します。

詳細比較

OpenAI Whisper V3を複数のベンチマークで上回り、特に中国語および方言認識において優れる。精度においてGoogle Cloud STTおよびAzure Speechと競合する。主な利点は方言対応と低声量音声に対する頑健性である。トレードオフは、競合他社の長時間音声サポートに対する30秒の長さ制限である。

コミュニティ評価

Model: glm-asr-2512 Field: community 中国市場では会議録音の文字起こしや顧客対応で強い採用が見られる。GitHubリポジトリのスター数は806。開発者は方言サポートとカスタム辞書機能を高く評価している。一部は長尺音声に対し30秒の制限が制約だと指摘している。

ユースケース

リアルタイムの会議文字起こし、カスタマーサービスの品質管理、ライブ動画の字幕生成、音声による文書入力、医療記録の入力、および多言語コミュニケーションに最適です。カスタム辞書機能は専門的な業界で特に価値があります。短尺音声の処理に最適です。