이 모델의 강점은 무엇인가요?

300억 파라미터 스케일 개방된 라이선스 하에서 이용 가능 고급 시각 정보 처리

이 모델의 약점은 무엇인가요?

특정 작업을 위한 전문화 운영을 위한 연산 자원 요구 범용 대화 능력 부족

어떤 용도에 가장 적합한가요?

이미지에서의 광학 문자 인식 시각 데이터 분석 문서 디지털화

모델 목록으로

DeepSeek오픈소스

DeepSeek-OCR

Name: DeepSeek-OCR
Author: DeepSeek

DeepSeek-OCR는 DeepSeek-AI가 개발한 시각 대형 모델입니다. 약 30.0B 파라미터 스케일을 가지며, MIT 라이선스로 출시되었습니다.

파라미터

30.0B

컨텍스트

라이선스

MIT

출시일

2025-10-20

API 가격

이 모델의 API 가격 정보는 현재 공개되지 않았습니다

강점

・300억 파라미터 스케일
・개방된 라이선스 하에서 이용 가능
・고급 시각 정보 처리

약점

・특정 작업을 위한 전문화
・운영을 위한 연산 자원 요구
・범용 대화 능력 부족

활용 사례

・이미지에서의 광학 문자 인식
・시각 데이터 분석
・문서 디지털화

심층 분석

OCR Precision

97% at <10x compression

Vision Tokens

64-1853 per page

Production Speed

200k+ pages/day (single A100)

Languages

~100

License

Apache 2.0

Release Date

October 20, 2025

강점

・Revolutionary compression (97% at 10x)
・200k+ pages/day on single GPU
・~100 language support
・Deep parsing (charts, formulas)

약점

・Not a general VLM
・Degrades at 20x compression
・No SFT stage (not a chatbot)

경쟁사 비교

Model
GOT-OCR2.0
MinerU2.0

개요

DeepSeek-OCR pioneers optical compression: 97% precision at 10x compression. 200k+ pages/day on single A100, ~100 languages.

벤치마크 및 성능

SOTA on OmniDocBench with fewest vision tokens. 60x more efficient than MinerU2.0.

상세 비교

Unique value is extreme token efficiency for large-scale processing.

커뮤니티 평가

Highly impressed by compression ratios. Novel research direction.

활용 사례

Online OCR for LLMs, batch PDF processing for pretraining data.