モデル一覧に戻る
バイドゥオープンソース

PaddleOCR-VL-1.5

PaddleOCR-VL-1.5は、百度が開発した多模态大模型です。パラメータ規模は約0.9Bで、Apache 2.0ライセンスの下で公開されています。

パラメータ

0.9B

コンテキスト長

ライセンス

Apache 2.0

リリース日

2026-01-29

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 軽量な0.9Bパラメータ
  • オープンな利用ライセンス
  • 効率的な多モーダル処理

弱み

  • モデル規模が比較的小さい
  • 特定用途への特化傾向
  • 汎用的な推論能力の限界

活用例

  • 多モーダルデータの解析
  • OCR機能の統合実装
  • エッジ端での視覚処理

深度分析

アーキテクチャ

VLM (0.9B)

Ultra-compact document parsing model

精度

94.5% on OmniDocBench v1.5

SOTA for document parsing

ライセンス

Open-source

リリース日

January 2026

専門化

OCR + Document Parsing

Multi-task VLM

主な特徴

Seal recognition, text spotting

New capabilities in v1.5

強み

  • OmniDocBench v1.5で94.5%のSOTA精度
  • 0.9Bパラメータの超コンパクト設計
  • スキャン・傾き・歪みなど実世界の歪みに頑健
  • 印章認識とテキスト検出
  • チベット語・ベンガル語を含む多言語対応
  • ページをまたぐ表の結合

弱み

  • 文書解析のみに特化
  • 汎用言語モデルではない
  • OCR関連タスクに限定される

競合比較

ModelArenaSWEGPQAPrice
PaddleOCR-VL (v1)---Free
Surya OCR---Free
Google Document AI---Paid

PaddleOCR-VL-1.5は、百度による文書解析向けの超コンパクトな0.9B VLMで、OmniDocBench v1.5において94.5%のSOTA精度を達成しています。実世界での歪み、印鑑認識、テキストスポッティング、およびチベット語やベンガル語を含む多言語OCRに対応します。

分析生成日: 2026-05-30