このモデルの強みは何ですか？

視覚認識に特化した設計 90億規模の十分なパラメータオープンライセンスで利用可能

このモデルの弱みは何ですか？

コンテキスト長が8Kと限定的特化型のため汎用性は未知数メモリ消費が一定数必要

どんな用途に最適ですか？

高度な画像内文字認識視覚情報のデジタルデータ化ドキュメント解析の自動化

モデル一覧に戻る

Zhipu AIオープンソース

GLM-OCR

Name: GLM-OCR
Author: Zhipu AI

GLM-OCRは、智谱AIが開発した視覚大模型です。約90億パラメータの規模を持ち、Apache 2.0ライセンスで公開されているオープンなマルチモーダルモデルです。

パラメータ

9.0B

コンテキスト長

ライセンス

Apache 2.0

リリース日

2026-02-03

API料金

このモデルのAPI料金情報は現在未公開です

強み

・視覚認識に特化した設計
・90億規模の十分なパラメータ
・オープンライセンスで利用可能

弱み

・コンテキスト長が8Kと限定的
・特化型のため汎用性は未知数
・メモリ消費が一定数必要

活用例

・高度な画像内文字認識
・視覚情報のデジタルデータ化
・ドキュメント解析の自動化

深度分析

入力価格

$0.20/1M

低コスト

出力価格

$0.80/1M

低コスト

コンテキスト

32Kトークン

OCR向け

強み

・Zhipu AIのOCR特化モデル
・テキスト認識で高性能
・コスト効率が良い
・中国語テキスト認識に優秀

弱み

・OCR特化のため汎用性が低い
・API利用が限定的
・ドキュメントが限定的

競合比較

Model	Price
PaddleOCR-VL-1.5	N/A
MinerU2.5	N/A
DeepSeek-OCR	N/A

概要

GLM-OCRは0.9Bパラメータのモデルで、OmniDocBench v1.5（94.62）においてSOTAを達成し、235Bモデルを上回っています。~$0.03/1Mトークン、8言語対応。

ベンチマーク＆性能

94.62 OmniDocBench (#1), 94.0 OCRBench, 96.5 UniMERNet. 50% throughput via Multi-Token Prediction.

詳細比較

Matches PaddleOCR-VL-1.5 at similar size. 10x cheaper than traditional OCR.

コミュニティ評価

Positive for SOTA at 0.9B. Edge deployment capability highlighted.

ユースケース

Document OCR, table parsing, KIE, batch processing for RAG pipelines.