返回AI项目和框架

GLM-OCR：智谱AI开源轻量级多模态OCR模型0.9B参数登顶OmniDocBench SOTA

349 ℃

GLM-OCR是智谱AI开源的轻量级多模态OCR模型，仅0.9B参数即在OmniDocBench V1.5榜单以94.6分登顶SOTA。模型基于GLM-V架构打造，集成智谱自研CogViT视觉编码器与轻量跨模态连接层，创新引入多Token预测损失和强化学习训练策略，在手写体、复杂表格、代码文档、印章、多语言混排等高难识别场景表现卓越。同时支持HTML表格、JSON结构化输出，推理速度达1.86页/秒，兼容vLLM/SGLang/Ollama主流框架部署，可高效适配文档解析、票据提取、RAG等多类商业场景，兼顾识别精度、推理效率与落地灵活性。

GLM-OCR：智谱AI开源轻量级多模态OCR模型0.9B参数登顶OmniDocBench SOTA

GLM-OCR功能亮点：

1、全场景通用文本识别：

全面支持照片、截图、扫描件、PDF等多格式文件，精准识别印刷体、手写体、印章、代码等各类特殊文字，覆盖日常与专业级识别需求。

2、复杂表格智能解析：

可精准理解合并单元格、多层表头等高复杂表格结构，直接输出可复用HTML代码，无需人工二次制表，大幅提升表格处理效率。

3、结构化信息精准提取：

从卡证、票据、表格、合同等文档中智能提取关键字段，输出标准化JSON格式，可直接对接企业业务系统，实现数据无缝流转。

4、专业内容高效识别：

针对数学公式、多编程语言代码等专业技术内容做专项优化，识别准确率高，适配科研、开发等专业场景需求。

5、复杂版式灵活处理：

完美支持竖排文字、多语言混排、多栏布局、图文混排等复杂文档版式，解决传统OCR的版式适配痛点。

6、大批量文档高效处理：

支持海量文档批量识别与规整化输出，可生成高质量结构化数据，为RAG、知识库构建等场景提供稳定数据基础。

GLM-OCR技术原理：

1、三层核心架构设计：

由400M参数的自研CogViT视觉编码器、轻量跨模态连接层、GLM-0.5B语言解码器组成，各模块分工协同，在保证轻量化的同时兼顾识别能力。

2、强化视觉编码能力：

CogViT视觉编码器基于数十亿级图文对数据，引入CLIP对比学习策略大规模预训练，具备超强的文字检测与版面语义理解能力，可高效处理旋转文字、图文混排、多栏布局等复杂场景。

3、高效跨模态融合：

定制轻量跨模态连接层，融合SwiGLU激活机制与4倍下采样策略，精准筛选关键视觉Token，实现视觉与语言信息的高效压缩与融合，保障识别精度的同时提升推理效率。

4、创新训练优化策略：

率先将多Token预测损失（MTP）引入OCR模型训练，增强损失信号密度，提升模型学习效率；结合全任务强化学习训练，进一步优化复杂场景识别精度与跨领域泛化能力。

5、两阶段高效推理流程：

采用版面分析→并行识别技术范式，基于PP-DocLayout-V3完成文本、表格、图片等区域精准定位，再并行执行OCR识别，实现复杂文档场景下稳定、高质量、高效率的解析输出。

GLM-OCR应用场景：

1、教育科研场景：

精准识别手写笔记、数学公式、学术论文、教材扫描件，高效处理多语言、复杂排版的文献资料，助力科研人员与师生实现知识快速整理、数字化归档与高效检索。

2、企业办公场景：

自动解析合同、发票、报销单、会议纪要等各类办公文档，实现纸质文件快速数字化归档，替代人工信息录入，大幅提升企业办公自动化效率。

3、金融保险场景：

智能提取银行卡、身份证、保单、各类票据中的关键字段，输出标准化JSON数据，无缝对接金融核心业务系统，降低人工审核成本，提升业务办理效率。

4、物流海关场景：

快速识别报关单、运单、装箱单等专业单据，精准提取商品信息、收发货人、金额、物流编号等核心数据，加速通关审核与物流结算流程。

5、软件开发场景：

准确识别代码截图、技术文档、API手册，支持Python、Java、C++等多类编程语言，方便开发者快速整理代码片段、构建技术知识库，提升开发效率。

6、RAG与知识库构建：

为企业级RAG系统、智能知识库、数字图书馆等场景提供高质量结构化数据，通过批量文档解析与信息提取，夯实数据基础，提升大模型应用效果。

相关阅读文章

daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

InternVL-U模型使用入口，4B参数轻量化统一多模态模型

AIReel官网使用入口，一站式AI影片生成器文字、图片即刻转影片

AutoClaw官网使用入口，智谱出品·本地一键部署OpenClaw

Steerling-8B模型使用入口，80亿参数规模，在1.35万亿Token语料上训练完成

标签： GitHub仓库 OCR模型多模态AI模型智谱AI

上面是“GLM-OCR：智谱AI开源轻量级多模态OCR模型0.9B参数登顶OmniDocBench SOTA”的全面内容，想了解更多关于 AI项目和框架 内容，请继续关注web建站教程。

当前网址：https://ipkd.cn/webs_29925.html

声明：本站提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请发送到邮箱：admin@ipkd.cn，我们会在看到邮件的第一时间内为您处理！

当前位置： 首页 > AI项目和框架

GLM-OCR 官网

https://github.com/zai-org/GLM-OCR

Trae：新一代免费的AI编程工具

即梦AI网页版

支持多图参考 · 生成高质量图像及视频！！

豆包网页版

支持AI聊天，AI图片生成，AI漫画生成，AI写作等……

最新文章

: DeepSeek-V4模型 - 包含deepseek-v4-pro和deepseek-v4-flash两个版本，拥有百万字超长上下文窗口

: Qwen3.6-Plus编程模型 - 阿里通义重磅Agent编程模型，百万上下文+超强编码智能体

: 京东JoyMed医疗大模型 - 里程碑级医疗多模态大模型，重新定义AI诊疗新范式

: 小米OmniVoice官网 - 小米K2-Fsa重磅TTS模型，600+语言+极速克隆

: TimelessHome.AI官网 - 一款AI室内设计与虚拟家居布置平台

精选热门文章

: 豆包网页版：支持AI聊天，AI图片生成，AI漫画生成，AI写作等

GrabCAD：一款3D打印模型库资源网站，可以找到并下载各种3D模型

: AgentCPM-Explore：清华等联合研发的轻量级开源智能体模型

: LFM2-24B-A2B模型使用入口，LiquidAI正式发布的LFM2家族模型

aiuni建模：只需上传一张2D图片，30秒内自动转换为高质量的3D模型

: 华为云码道（CodeArts）代码智能体官网使用入口

日历：

上一篇：daVinci-MagiHuman音视频生成模型 - 模型采用150亿参数的单流Transformer架构

下一篇：智谱CoCo：智谱清言AI平台推出的首个企业级超级助手Agent

x

打工人ai神器

x

扫一扫打开藏历小程序

打开微信“扫一扫”查看今日藏历！