混元OCR模型核心技术揭秘：统一框架、真端到端

发布者：　发布时间：2025-11-30 12:30

腾讯混元大模型团队正式发布并开源HunyuanOCR模型！

这是一款商业级、开源且轻量（1B参数）

的OCR专用视觉语言模型，模型采用原生ViT和轻量LLM结合的架构。

具体而言，其感知能力（文本检测和识别、复杂文档解析）优于所有公开方案；语义能力（信息抽取、文字图像翻译）表现出色，荣获ICDAR 2025 DIMT挑战赛（小模型赛道）冠军，并在OCRBench上取得3B以下模型SOTA成绩。

目前，该模型在抱抱脸（Hugging Face）趋势榜排名前四，GitHub标星超过700，并在Day 0被vllm官方团队接入。