モデル一覧に戻る
バイドゥオープンソース
PaddleOCR-VL-1.5
PaddleOCR-VL-1.5は、百度が開発した多模态大模型です。パラメータ規模は約0.9Bで、Apache 2.0ライセンスの下で公開されています。
パラメータ
0.9B
コンテキスト長
ライセンス
Apache 2.0
リリース日
2026-01-29
API料金
このモデルのAPI料金情報は現在未公開です
強み
- ・軽量な0.9Bパラメータ
- ・オープンな利用ライセンス
- ・効率的な多モーダル処理
弱み
- ・モデル規模が比較的小さい
- ・特定用途への特化傾向
- ・汎用的な推論能力の限界
活用例
- ・多モーダルデータの解析
- ・OCR機能の統合実装
- ・エッジ端での視覚処理
深度分析
アーキテクチャ
VLM (0.9B)
Ultra-compact document parsing model
精度
94.5% on OmniDocBench v1.5
SOTA for document parsing
ライセンス
Open-source
リリース日
January 2026
専門化
OCR + Document Parsing
Multi-task VLM
主な特徴
Seal recognition, text spotting
New capabilities in v1.5
強み
- ・OmniDocBench v1.5で94.5%のSOTA精度
- ・0.9Bパラメータの超コンパクト設計
- ・スキャン・傾き・歪みなど実世界の歪みに頑健
- ・印章認識とテキスト検出
- ・チベット語・ベンガル語を含む多言語対応
- ・ページをまたぐ表の結合
弱み
- ・文書解析のみに特化
- ・汎用言語モデルではない
- ・OCR関連タスクに限定される
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| PaddleOCR-VL (v1) | - | - | - | Free |
| Surya OCR | - | - | - | Free |
| Google Document AI | - | - | - | Paid |
PaddleOCR-VL-1.5は、百度による文書解析向けの超コンパクトな0.9B VLMで、OmniDocBench v1.5において94.5%のSOTA精度を達成しています。実世界での歪み、印鑑認識、テキストスポッティング、およびチベット語やベンガル語を含む多言語OCRに対応します。
分析生成日: 2026-05-30