モデル一覧に戻る
Zhipu AIオープンソース

GLM-ASR-Nano-2512

GLM-ASR-Nano-2512は、智谱AIによって開発された音声大模型です。約20.0Bのパラメータ規模を持ち、Apache 2.0ライセンスの下で公開されています。

パラメータ

20.0B

コンテキスト長

ライセンス

Apache 2.0

リリース日

2025-12-10

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 20.0Bの十分なパラメータ規模
  • Apache 2.0によるオープン利用
  • 効率的なモデルファイルサイズ

弱み

  • 特化した機能の詳細が不明
  • 運用コストの具体的指標が欠如
  • 多言語対応範囲の記載なし

活用例

  • 高度な音声認識システムの構築
  • 音声データのテキスト化処理
  • オープンソースの音声AI開発

深度分析

モデルタイプ

Automatic Speech Recognition (ASR)

パラメータ

1.5B

平均エラー率

4.10 (lowest among comparable models)

言語

17 (WER ≤ 20%)

Model: glm-asr-nano-2512 Field: label ライセンス

Apache 2.0

GitHub スター

806

強み

  • Apache 2.0ライセンスのオープンソース
  • エッジデプロイメントに適したコンパクトな1.5Bパラメータモデル
  • 中国語ベンチマークでWhisper V3を上回る性能
  • 優れた広東語および方言認識
  • 静かな環境での低音声に対する頑健性

弱み

  • 15億パラメータはエッジデバイスにとって依然として大きな計算負荷を必要とする
  • 主に中国語系に最適化されている
  • 英語の性能は英語特化モデルに劣る可能性がある
  • 最良の結果を得るにはTransformers 5.0.0をソースからインストールする必要がある
  • 2025年12月27日以降、モデルウェイトのフォーマットが変更された

競合比較

ModelArenaSWEGPQAPrice
OpenAI Whisper V3 LargeN/AN/AN/AOpen source
Whisper V3 SmallN/AN/AN/AOpen source
Moonshine ASRN/AN/AN/AOpen source
NVIDIA Canary 1BN/AN/AN/AOpen source

GLM-ASR-Nano-2512はZhipu AIのオープンソース音声認識モデルで、15億パラメータを持ち、同等のオープンソースモデル中で最低の平均エラー率(4.10)を達成しています。Apache 2.0ライセンスで公開されており、中国語、英語、広東語の認識に優れ、独自の低音量音声に対する頑健性を備えています。Hugging FaceおよびModelScopeで利用可能です。

分析生成日: 2026-05-30