このモデルの強みは何ですか？

20.0Bの十分なパラメータ規模 Apache 2.0によるオープン利用効率的なモデルファイルサイズ

このモデルの弱みは何ですか？

特化した機能の詳細が不明運用コストの具体的指標が欠如多言語対応範囲の記載なし

どんな用途に最適ですか？

高度な音声認識システムの構築音声データのテキスト化処理オープンソースの音声AI開発

モデル一覧に戻る

Zhipu AIオープンソース

GLM-ASR-Nano-2512

Name: GLM-ASR-Nano-2512
Author: Zhipu AI

GLM-ASR-Nano-2512は、智谱AIによって開発された音声大模型です。約20.0Bのパラメータ規模を持ち、Apache 2.0ライセンスの下で公開されています。

パラメータ

20.0B

コンテキスト長

ライセンス

Apache 2.0

リリース日

2025-12-10

API料金

このモデルのAPI料金情報は現在未公開です

強み

・20.0Bの十分なパラメータ規模
・Apache 2.0によるオープン利用
・効率的なモデルファイルサイズ

弱み

・特化した機能の詳細が不明
・運用コストの具体的指標が欠如
・多言語対応範囲の記載なし

活用例

・高度な音声認識システムの構築
・音声データのテキスト化処理
・オープンソースの音声AI開発

深度分析

モデルタイプ

Automatic Speech Recognition (ASR)

パラメータ

1.5B

平均エラー率

4.10 (lowest among comparable models)

言語

17 (WER ≤ 20%)

Model: glm-asr-nano-2512 Field: label ライセンス

Apache 2.0

GitHub スター

806

強み

・Apache 2.0ライセンスのオープンソース
・エッジデプロイメントに適したコンパクトな1.5Bパラメータモデル
・中国語ベンチマークでWhisper V3を上回る性能
・優れた広東語および方言認識
・静かな環境での低音声に対する頑健性

弱み

・15億パラメータはエッジデバイスにとって依然として大きな計算負荷を必要とする
・主に中国語系に最適化されている
・英語の性能は英語特化モデルに劣る可能性がある
・最良の結果を得るにはTransformers 5.0.0をソースからインストールする必要がある
・2025年12月27日以降、モデルウェイトのフォーマットが変更された

競合比較

Model	Arena	SWE	GPQA	Price
OpenAI Whisper V3 Large	N/A	N/A	N/A	Open source
Whisper V3 Small	N/A	N/A	N/A	Open source
Moonshine ASR	N/A	N/A	N/A	Open source
NVIDIA Canary 1B	N/A	N/A	N/A	Open source

概要

GLM-ASR-Nano-2512はZhipu AIのオープンソース音声認識モデルで、15億パラメータを持ち、同等のオープンソースモデル中で最低の平均エラー率（4.10）を達成しています。Apache 2.0ライセンスで公開されており、中国語、英語、広東語の認識に優れ、独自の低音量音声に対する頑健性を備えています。Hugging FaceおよびModelScopeで利用可能です。

ベンチマーク＆性能

モデル: glm-asr-nano-2512 分野: 性能類似のオープンソースモデル中で最低となる平均エラーレート4.10。中国語ベンチマーク（Wenet Meeting、Aishell-1）において顕著な優位性。コンパクトな1.5Bサイズを維持しながら、複数のベンチマークでOpenAI Whisper V3を上回る性能。ノイズや重なり合う音声を含む実世界の複雑な状況に対応する設計。

詳細比較

モデル: glm-asr-nano-2512 分野: 比較 Whisper V3 Largeと直接競合（1.5B vs 1.5B）。中国語および方言のベンチマークで優れ、英語では同等。NVIDIA Canary 1Bよりコンパクト。主な利点は方言サポートと低音量音声の処理。トレードオフは英語中心の性能差。

コミュニティ評価

806のGitHubスターを獲得し、活発な開発が行われている。コミュニティはオープンソース化とApache 2.0ライセンスを評価している。AutoGLMおよびZhipu AI Input Method製品で使用されている。開発者はモデルウェイト形式の変更を移行時の懸念事項として指摘している。

ユースケース

デバイス内音声認識、中国語アプリケーション、方言対応の文字起こし、静かな環境での録音、およびエッジAI展開に最適です。オープンソースの性質により、特定のドメイン向けのカスタマイズとファインチューニングが可能です。コンパクトなモデルサイズが重要な中国語中心のアプリケーションに最適です。