运行检索测试
对您的知识库进行检索测试以检查目标片段是否能够被正确检索。
在上传并解析文件之后,建议您在配置聊天助手之前先运行一次检索测试。这并不是一个多余的步骤!就像微调精密仪器一样,RAGFlow 需要精细调整才能达到最佳的问答性能。您的知识库设置、聊天助手配置以及指定的大模型和小模型都会显著影响最终结果。通过运行检索测试,您可以验证目标片段是否能够被正确检索出来,并快速定位需要改进的地方或解决问题所在。例如,在调试问答系统时,如果知道正确的片段可以被检索到,则可以把注意力放在其他方面进行排查。例如在问题 #5627 中发现的问题是由于大模型的限制所导致的。
在检索测试中,使用混合搜索从您指定的分块方法创建的片段会被检索出来。这种搜索结合了加权关键词相似度与根据设置的不同情况选择加权向量余弦相似度或加权重排序评分:
- 如果没有选择重排序模型,则将采用加权关键词相似度和加权向量余弦相似度相结合的方式。
- 如果选择了重排序模型,将会使用加权关键词相似度结合加权向量重排序评分。
相比之下,在基于知识图谱创建的片段仅通过向量余弦相似度进行检索。
前提条件
- 在运行检索测试之前需要确保文件已成功上传并解析。
- 启用“使用知识图谱”前必须先成功构建好一个知识图谱。
配置选项
相似度阈值
设置用于检索片段的标准:低于该阈值的相似性将会被过滤掉。默认情况下,阈值设为 0.2,这意味着只有混合相似得分达到 20 或以上才会被检索出来。
关键词相似度权重
设置在组合相似度分数中关键词相似度所占的比例,在与向量余弦相似度或重排序评分结合使用时有效。默认情况下,这个比例设为 0.7,意味着其他部分的权重是 0.3(1 - 0.7)。
重排序模型
- 如果为空,则 RAGFlow 将采用加权关键词相似度与加权向量余弦相似度相结合的方式。
- 如果选择了某个重排序模型,则将使用加权关键词相似度结合加权向量重排序评分的方式进行检索。
选择一个重排序模型会显著增加收到响应的时间。
使用知识图谱
在知识图谱中,实体描述、关系描述或社区报告各自作为一个独立的片段存在。此开关指示是否将这些片段添加到检索中。
默认情况下开关是关闭状态。当启用时,在进行检索测试期间 RAGFlow 将执行以下操作:
- 使用大模型从您的查询中提取实体和实体类型。
- 根据所提取的实体类型通过 PageRank 值从图谱中获取排名前 N 的实体。
- 使用所提取查询实体的嵌入在图谱中查找相似实体及其 N 跳关系。
- 使用查询嵌入从图谱中检索相似的关系。
- 通过对每个实体和关系的 PageRank 值与其查询相似度评分相乘进行排名,并返回前 n 项作为最终检索结果。
- 检索包含最终检索结果中最多个实体的社区报告。
将检索到的实体描述、关系描述以及该社区的顶级报告发送给大模型以生成内容
在检索测试中使用知识图谱会显著增加收到响应的时间。
跨语言搜索
为了执行跨语言搜索,请从下拉菜单中选择一种或多种目标语言。系统默认的聊天模型将把您在“测试文本”字段中输入的查询翻译成所选的目标语言之一,以确保不同语言之间的语义匹配准确无误,并且能够检索到相关的结果而不管语言差异。
- 请确保所选的语言存在于知识库中,这样才能保证搜索的有效性。
- 如果没有选择目标语言,则系统只会在一个查询语言内进行搜索,这可能会导致其他语言的相关信息被遗漏。
测试文本
在此字段中输入您的测试查询。
操作步骤
-
导航到知识库的检索测试页面,在测试文本中输入您的查询并点击测试以运行测试。
-
如果结果不满意,请调整配置部分中的选项,然后重新运行测试。
以下是一个未使用知识图谱进行检索测试的截图。它展示了结合加权关键词相似度和加权向量余弦相似度的混合搜索。总体混合相似度得分为28.56,计算公式为:25.17(术语相似性得分)× 0.7 + 36.49(向量相似性得分)× 0.3:
以下是一个使用知识图谱进行检索测试的截图。它显示仅对从知识图谱生成的数据块使用向量相似度:
如果您调整了默认设置,例如关键词相似度权重或相似度阈值以获得最佳效果,请注意这些更改不会自动保存。您必须将它们应用于您的聊天助手设置或检索代理组件的设置中。
常见问题
当启用使用知识图谱开关时,是否使用了LLM?
是的,在分析查询并从知识图谱中提取相关实体和关系时会用到您的LLM。这也解释了为什么会产生额外的令牌和时间消耗。