跳到主要内容

选择PDF解析器

为您的PDF文件选择一个视觉模型进行解析。


RAGFlow 并不是一刀切的解决方案。它是为了灵活性而构建,并支持更深层次的定制化,以适应更复杂的使用场景。从 v0.17.0 版本开始,RAGFlow 将 DeepDoc 特定的数据提取任务与分块方法分离(仅针对PDF文件)。这种分离使您可以自主选择 OCR(光学字符识别)、TSR(表格结构识别)和 DLR(文档布局识别)等任务的视觉模型,在速度和性能之间找到平衡以适应您的具体需求。如果您的PDF文件只包含纯文本,您可以通过选择 Naive 选项来跳过这些任务,从而减少整体解析时间。

数据提取

前提条件

  • PDF解析器下拉菜单仅在选择了与PDF兼容的分块方法时显示,包括:
    • 通用
    • 手动
    • 论文
    • 书籍
    • 法律文件
    • 演示文稿
    • 单一
  • 若要使用第三方视觉模型来解析PDF,请确保您已在设置默认模型页面的模型提供者部分设置了默认的img2txt模型。

操作步骤

  1. 在您的知识库的配置页面中,选择一个分块方法,例如通用PDF解析器下拉菜单出现。

  2. 选择最适合您场景的选项:

    • DeepDoc:(默认)这是默认执行OCR、TSR和DLR任务的视觉模型,默认情况下可能会比较耗时。
    • Naive:如果所有您的PDF文件都是纯文本,则可以跳过这些任务,以减少解析时间。
    • 特定第三方提供的视觉模型。
警告

第三方视觉模型被标记为实验性,因为我们尚未对这些模型进行全面的数据提取测试。

常见问题

我应该在什么情况下选择DeepDoc或第三方视觉模型作为PDF解析器?

如果您的PDF文件包含格式化文本或基于图像的文本(而不是纯文本),则应使用视觉模型来提取数据。DeepDoc 是默认的视觉模型,但可能较为耗时。您可以根据需要和硬件能力选择轻量级或高性能的img2txt模型。

我可以为我的DOCX文件选择一个视觉模型进行解析吗?

不可以。此下拉菜单仅适用于PDF文件。要使用该功能,请先将您的DOCX文件转换成PDF格式。