Loading...

IBM 发布轻量级视觉语言 AI 模型 Granite-Docling-258M:用于文件转换、支持中文

GoodNav 报道,IBM 今日发布了轻量级视觉语言模型 Granite-Docling-258M,专为端到端文件转换设计,参数量为 2.58 亿。该模型基于 Apache 2.0 开源协议,已在 Hugging Face 上线(点此访问).

该模型参数量为 2.58 亿,针对文档和表格优化,能够完整保留版面、表格、公式、列表和代码等结构,识别准确率高于传统 OCR 软件。

IBM 研发团队介绍,Granite-Docling 的核心是 DocTags,一套用于描述文件结构的通用标记语言。DocTags 精确标记页面元素类型、坐标、阅读顺序及跨元素关系,实现内容与版面分离,先识别元素再进行 OCR 识别。转换后,DocTags 可将内容导出为 Markdown、JSON、HTML 等格式,并可进一步在 Docling 库中处理。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...