一款智能转换扫描书籍PDF为Markdown/EPUB的AI工具—

PDF-Craft是一个开源项目，专注于处理扫描书籍的PDF文件。它通过先进的AI模型提取正文内容，过滤掉页眉、页脚、脚注、页码等元素，并将PDF文件转换为Markdown或EPUB格式。

1、智能内容提取：

– 逐页读取与处理：逐页读取 PDF 文件，使用 DocLayout-YOLO 模型结合自研算法提取正文内容，过滤非正文元素。

– 跨页处理：在处理跨页内容时，使用算法判断前后文的顺接问题，确保生成的文本语义通顺。

– 文本识别：使用 OnnxOCR 进行文本识别，确保高精度的文字提取。

– 阅读顺序优化：通过 layoutreader 确定符合人类阅读习惯的顺序，提升阅读体验。

2、格式转换：

– Markdown 格式：可以将 PDF 文件转换为 Markdown 格式，适用于论文或小书本。转换过程中，所有内容均在本地执行，使用本地显卡设备加速 AI 模型的运行。

– EPUB 格式：对于页数较多的书籍（一般超过 100 页），推荐将其转换为 EPUB 格式。在转换过程中，会将本地 OCR 识别出的数据传输给 LLM（大型语言模型），并通过特定信息（如目录等）构建书本的结构，最终生成带目录、分章节的 EPUB 文件。

3、错误矫正与注释处理：

– OCR 错误矫正：LLM 能够在一定程度上矫正 OCR 的错误，提升文本的准确性和可读性。

– 注释和引用处理：LLM 会读取每页的注释和引用信息，并在 EPUB 文件中以新的格式呈现，确保信息的完整性和准确性。

4、插图与表格处理：

– 插图保存：如果原 PDF 中包含插图（或表格、公式），会在生成的 Markdown 文件同级创建一个 `assets` 文件夹，用于保存图片。

– 相对地址引用：Markdown 文件中会以相对地址的形式引用 `assets` 文件夹中的图片，确保文件的完整性和可移植性。

5、本地执行的 AI 模型：

– DocLayout-YOLO：用于提取书页中的正文内容。

– OnnxOCR：用于进行文本识别。

– layoutreader：用于确定符合人类阅读习惯的顺序。

6、LLM 服务：

在转换为 EPUB 格式时，需要配置 LLM 服务。推荐使用 DeepSeek，Prompt 基于 V3 模型调试。

1、学术研究：

将扫描的学术论文转换为 Markdown 或 EPUB 格式，便于编辑和阅读。

2、电子书制作：

将扫描书籍转换为 EPUB 格式，生成带目录和章节的电子书。

3、文档存档：

将纸质文档或 PDF 文件转换为 Markdown 或 EPUB 格式，便于长期存档和检索。

4、教育资料整理：

将扫描的教材或讲义转换为可编辑格式，方便教师整理和学生学习。

5、个人学习：

将扫描的书籍或资料转换为 Markdown 格式，方便个人笔记整理和复习。

一款智能转换扫描书籍PDF为Markdown/EPUB的AI工具——PDF-Craft