モデル一覧に戻る
Zhipu AIプロプライエタリ

GLM-ASR-2512

GLM-ASR-2512は、智谱AIによって開発された音声大模型です。高度な音声処理能力を備えたクローズドソースのモデルとして提供されています。

パラメータ

非公開

コンテキスト長

ライセンス

プロプライエタリ

リリース日

2025-12-10

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 最先端の音声処理能力
  • 智谱AIによる高度な設計
  • 最新のモデルアーキテクチャ

弱み

  • 非オープンソースのライセンス
  • 内部構造の不透明さ
  • 利用制限の可能性

活用例

  • 高度な音声認識タスク
  • 音声データの解析と処理
  • 次世代音声AIの開発

深度分析

モデルタイプ

Automatic Speech Recognition (ASR)

パラメータ

1.5B (Nano variant)

文字誤り率

0.0717 (industry-leading)

言語

17 (WER ≤ 20%)

音声長制限

≤ 30 seconds

ファイルサイズ制限

≤ 25 MB

強み

  • 業界トップクラスのCER 0.0717
  • 広東語を含む優れた方言対応
  • 小音量音声(囁き声・静かな音声)への頑健性
  • 複数のベンチマークでOpenAI Whisper V3を上回る性能
  • 専門用語向けの効率的なカスタム辞書

弱み

  • リクエストごとに30秒の音声時間制限
  • 25MBのファイルサイズ制限
  • 主に中国語・英語市場向けに最適化
  • クローズドソースAPI(Nanoバリアントはオープンソース)
  • 長い音声ファイルでは複数回のリクエストが必要になる場合がある

競合比較

ModelArenaSWEGPQAPrice
OpenAI Whisper V3 LargeN/AN/AN/A$0.006/min
Google Cloud Speech-to-Text V2N/AN/AN/A$0.016/min
Azure Speech to TextN/AN/AN/A$1/hour
AssemblyAI Universal-2N/AN/AN/A$0.015/min

GLM-ASR-2512はZhipu AIの次世代音声認識モデルで、文字誤り率0.0717を達成し、国際的に最先端の水準に到達しています。中国語、英語、広東語の認識に優れ、騒音環境や小音量の音声シナリオでも堅牢な性能を発揮します。API版は会議、カスタマーサービス、文書入力などのリアルタイム文字起こしをサポートしています。

分析生成日: 2026-05-30