모델 목록으로
バイドゥ오픈소스
PaddleOCR-VL-1.5
PaddleOCR-VL-1.5는 바이두가 개발한 멀티모달 대형 모델입니다. 약 0.9B 파라미터 규모를 가지며, Apache 2.0 라이선스 하에 출시되었습니다.
파라미터
0.9B
컨텍스트
라이선스
Apache 2.0
출시일
2026-01-29
API 가격
이 모델의 API 가격 정보는 현재 공개되지 않았습니다
강점
- ・경량화된 0.9B 파라미터
- ・개방된 사용 라이선스
- ・효율적인 멀티모달 처리
약점
- ・상대적으로 작은 모델 규모
- ・특정 애플리케이션에 치중하는 경향
- ・제한된 일반 추론 능력
활용 사례
- ・멀티모달 데이터 분석
- ・OCR 기능 통합
- ・엣지 장치에서의 시각 처리
심층 분석
Architecture
VLM (0.9B)
Ultra-compact document parsing model
Accuracy
94.5% on OmniDocBench v1.5
SOTA for document parsing
License
Open-source
Release Date
January 2026
Specialization
OCR + Document Parsing
Multi-task VLM
Key Features
Seal recognition, text spotting
New capabilities in v1.5
강점
- ・94.5% SOTA accuracy on OmniDocBench v1.5
- ・Ultra-compact 0.9B parameters
- ・Robust against real-world distortions (scanning, skew, warping)
- ・Seal recognition and text spotting
- ・Multilingual including Tibetan and Bengali
- ・Cross-page table merging
약점
- ・Specialized for document parsing only
- ・Not a general-purpose language model
- ・Limited to OCR-related tasks
경쟁사 비교
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| PaddleOCR-VL (v1) | - | - | - | Free |
| Surya OCR | - | - | - | Free |
| Google Document AI | - | - | - | Paid |
PaddleOCR-VL-1.5 is Baidu's ultra-compact 0.9B VLM for document parsing, achieving 94.5% SOTA accuracy on OmniDocBench v1.5. It handles real-world distortions, seal recognition, text spotting, and multilingual OCR including Tibetan and Bengali.
분석 생성일: 2026-05-24