跳到主要内容

启用RAPTOR

一种用于长文本知识检索和摘要的递归抽象方法,在广泛语义理解和细节处理之间保持平衡。


RAPTOR(Recursive Abstractive Processing for Tree Organized Retrieval)是一种增强型文档预处理技术,首次在一篇2024年的论文中被提出。它旨在解决多跳问答问题,并通过递归聚类和摘要生成文档片段的层次化树结构来实现这一目标。这使得在长文本中的上下文感知检索变得更加容易。RAGFlow v0.6.0 在数据提取与索引之间引入了RAPTOR进行文档聚类,具体如下图所示。

document_clustering

我们对该新方法的测试表明,在需要复杂多步推理的问题回答任务中,它可以取得最先进的(SOTA)结果。通过结合RAPTOR检索与内置分块方法及其他检索增强生成(RAG)方法,可以进一步提高问题回答的准确性。

警告

启用RAPTOR需要大量内存、计算资源和令牌。

基本原理

在将原始文档分割成片段之后,这些片段会根据语义相似性而不是原文顺序进行聚类。然后使用系统的默认聊天模型对这些集群进行摘要处理生成更高层次的片段。这个过程是递归应用的,从底部向上形成具有各种层级汇总的树状结构。如图所示,初始片段构成叶节点(显示为蓝色),并被递归地总结成根节点(显示为橙色)。

raptor

递归聚类和摘要处理可以捕捉到由根节点提供广泛的理解,以及叶节点提供的细节,这对于多跳问题回答是必要的。

场景

对于涉及复杂、多步骤推理的多跳问答任务,通常会在问题和答案之间存在一个语义鸿沟。因此,通过提问进行搜索往往无法检索出有助于正确答案的相关片段。RAPTOR通过为聊天模型提供更丰富、更具上下文感知性和相关性的摘要处理片段来解决这个问题,从而实现整体理解而不失去细节。

提示

知识图谱也可以用于多跳问题回答任务。详见构建知识图。您可以选择单独使用或同时使用这两种方法,请确保了解它们所需的内存、计算和令牌成本。

前提条件

系统的默认聊天模型被用来对聚类内容进行摘要处理。在继续之前,确保您已经正确配置了一个聊天模型:

Image

配置

RAPTOR特性默认是关闭的。要启用它,请在您的知识库的“配置”页面上手动切换开启 使用RAPTOR增强检索 开关。

提示

以下提示将在集群摘要处理过程中递归地应用,{cluster_content}作为内部参数传递。我们建议您目前保留此设置不变。设计将适时更新。

请总结如下段落... 段落如下:
{cluster_content}
以上是需要你概括的内容。

最大令牌数

每个生成的摘要片段的最大令牌数量,默认值为256,最大限制为2048。

阈值

在RAPTOR中,文档被按照语义相似性进行聚类。阈值参数设置了片段可以组合在一起所需的最小相似度。

默认值为0.1,最大限制为1。较高的阈值意味着每个集群中的片段较少,较低的则较多。

最大集群数

创建的最大集群数量,默认值为64,最大限制为1024。

随机种子

一个随机种子。点击 + 更改种子值。