跳到主要内容

自动关键词和自动问题生成

使用聊天模型从知识库中的每个片段中生成关键词或问题。


在选择分块方法时,您还可以启用自动关键词或自动问题生成功能以提高检索率。此功能利用一个聊天模型为每个创建的片段产生指定数量的关键词和问题,从而生成“额外的信息层”,丰富原始内容。

注意

启用此特性会增加文档索引时间,并使用额外的令牌,因为所有创建的片段都会被发送到聊天模型进行关键词或问题生成。

什么是自动关键词?

自动关键词是指RAGFlow中的自动关键词生成功能。它利用一个聊天模型从每个片段中生成一组关键词或同义词以纠正错误并提高检索准确性。此功能在知识库的配置页面上作为Page rank下的滑块实现。

值范围

  • 0:(默认)禁用。
  • 3到5(包括):推荐用于每个片段大约1,000字符的情况。
  • 最大值为30
提示
  • 如果您的分块大小增加,您可以相应地调整该值。请注意,随着值的增大,边际效益会减少。
  • 自动关键词值必须是整数。如果您设置非整数值(如1.7),则会被向下取整到最接近的整数,在这种情况下就是1。

什么是自动问题?

自动问题是RAGFlow的一项功能,它利用聊天模型从数据片段中自动生成问题(例如“谁”、“什么”和“为什么”等)。这些问题也有助于纠正错误并改进用户查询匹配。此功能通常与涉及产品手册或政策文件的FAQ检索场景一起使用,并且您可以在知识库配置页面上的Page rank下找到此功能,作为滑块实现。

值范围

  • 0:(默认)禁用。
  • 1或2:推荐用于每个片段大约1,000字符的情况。
  • 最大值为10
提示
  • 如果您的分块大小增加,您可以相应地调整该值。请注意,随着值的增大,边际效益会减少。
  • 自动问题值必须是整数。如果您设置非整数值(如1.7),则会被向下取整到最接近的整数,在这种情况下就是1。

社区建议

自动关键词或自动问题的值与您知识库中的分块大小密切相关。然而,如果您对这个特性还不熟悉,并不确定从哪个值开始,请参考我们社区收集的一些初始设置建议(尽管不一定准确)。它们至少可以提供一个起点。

使用场景或典型情况文档数量/长度自动关键词 (0-30)自动问题 (0-10)
员工手册内部流程指南小,少于10页00
客户服务FAQ中等大小,10-100页3-71-3
技术白皮书:开发标准、协议细节大型,超过100页2-41-2
合同/法规/法律条款检索大型,超过50页2-50-1
多库分层新文档 + 存档很多按需调整按需调整
社交媒体评论池:多语言且拼写混合非常大的短文本数量8-120
故障排查操作日志非常大的短文本数量3-60
营销资产库:多语言产品描述中等大小6-101-2
培训课程 / 电子书大型2-51-2
维护手册:设备图示 + 步骤中等大小3-71-2