选择PDF解析器

为您的PDF文件选择一个视觉模型进行解析。

RAGFlow 并不是一刀切的解决方案。它是为了灵活性而构建，并支持更深层次的定制化，以适应更复杂的使用场景。从 v0.17.0 版本开始，RAGFlow 将 DeepDoc 特定的数据提取任务与分块方法分离（仅针对PDF文件）。这种分离使您可以自主选择 OCR（光学字符识别）、TSR（表格结构识别）和 DLR（文档布局识别）等任务的视觉模型，在速度和性能之间找到平衡以适应您的具体需求。如果您的PDF文件只包含纯文本，您可以通过选择 Naive 选项来跳过这些任务，从而减少整体解析时间。

数据提取

前提条件

PDF解析器下拉菜单仅在选择了与PDF兼容的分块方法时显示，包括：
- 通用
- 手动
- 论文
- 书籍
- 法律文件
- 演示文稿
- 单一
若要使用第三方视觉模型来解析PDF，请确保您已在设置默认模型页面的模型提供者部分设置了默认的img2txt模型。

操作步骤

在您的知识库的配置页面中，选择一个分块方法，例如通用。 PDF解析器下拉菜单出现。
选择最适合您场景的选项：
- DeepDoc：（默认）这是默认执行OCR、TSR和DLR任务的视觉模型，默认情况下可能会比较耗时。
- Naive：如果所有您的PDF文件都是纯文本，则可以跳过这些任务，以减少解析时间。
- 特定第三方提供的视觉模型。

警告

第三方视觉模型被标记为实验性，因为我们尚未对这些模型进行全面的数据提取测试。

常见问题

我应该在什么情况下选择DeepDoc或第三方视觉模型作为PDF解析器？

如果您的PDF文件包含格式化文本或基于图像的文本（而不是纯文本），则应使用视觉模型来提取数据。DeepDoc 是默认的视觉模型，但可能较为耗时。您可以根据需要和硬件能力选择轻量级或高性能的img2txt模型。

我可以为我的DOCX文件选择一个视觉模型进行解析吗？

不可以。此下拉菜单仅适用于PDF文件。要使用该功能，请先将您的DOCX文件转换成PDF格式。

选择PDF解析器

前提条件​

操作步骤​

常见问题​

我应该在什么情况下选择DeepDoc或第三方视觉模型作为PDF解析器？​

我可以为我的DOCX文件选择一个视觉模型进行解析吗？​

前提条件

操作步骤

常见问题

我应该在什么情况下选择DeepDoc或第三方视觉模型作为PDF解析器？

我可以为我的DOCX文件选择一个视觉模型进行解析吗？