跳到主要内容

使用标签集

使用标签集对数据集中的一段进行自动标记。


检索准确性是生产就绪的RAG框架的重要标准。除了增强检索的方法(如自动生成关键词、自动生成问题和知识图谱)外,RAGFlow还引入了自动标记功能来解决语义差距的问题。该自动标记功能可以根据与每个片段的相关性将用户定义标签集中的标签映射到您的知识库中相关的片段上。这种自动化机制允许您为现有的数据集添加额外的“层级”的特定领域知识,特别是在处理大量片段时尤为有用。

要使用此功能,请确保至少有一个正确配置的标签集,并在知识库(数据集)的设置页面中指定标签集(或多个),然后重新解析文档以启动自动标记过程。在此过程中,您的数据集中每个片段都将与指定的标签集中每一条目进行比较,并基于相似性自动添加相应的标签。

场景

当片段之间极其相似以至于难以区分时,自动标记功能就会派上用场。例如,在有一小部分关于iPhone的内容和大部分内容是关于iPhone外壳或配件的情况下,如果没有额外的信息,则很难检索到这些有关iPhone的片段。

1. 创建标签集

可以将标签集视为一个封闭集合,并且附加到数据集中(知识库)片段上的标签必须是您在指定标签集中定义的。使用标签集来“告知”RAGFlow要标记哪些片段以及应用哪些标签。

准备标签表文件

标签集可包含一个或多个XLSX、CSV或TXT格式的表格文件,每个表文件中包含两列:描述标签

  • 第一列表示第二列中列出的标签的说明。这些说明可以是片段实例或查询实例。此列中的每项与数据集中每一个片段之间的相似度将被计算。
  • 标签列表包括要与描述条目配对的标签,多个标签之间用逗号(,)分隔。
注意

通常建议在您的标签表中包含以下内容:

  • 预期片段及其对应标签的说明。
  • 使用其他方法无法检索到正确响应的用户查询,以确保这些查询的标签与数据集中的预期片段相匹配。

创建标签集

重要提示

标签集不涉及文档索引或检索。在配置聊天助手或代理时,请不要指定标签集。

  1. 点击**+创建知识库**以创建一个知识库。
  2. 导航到已创建的知识库的设置页面,并选择标记作为默认的片段划分方法。
  3. 转到数据集页面,上传并解析XLSX、CSV或TXT格式的表文件。
    在标签视图部分下方将显示一个标签云,表示已成功创建标签集:
    Image
  4. 单击表格选项卡以查看标签频率表:
    Image

2. 标记片段

创建标签集后,可以将其应用于数据集中:

  1. 导航到知识库(数据集)的设置页面。
  2. 标签集合下拉菜单中选择标签集,并点击保存以确认。
注意

如果在下拉列表中未显示标签集,请检查是否已正确创建或配置了它。

  1. 重新解析文档,开始自动标记过程。
    在一个使用自动生成的数据集的AI聊天场景中,每次查询都会根据相应的标签集合进行标记,带有这些标签的片段有更高的概率被检索到。

3. 更新标签集

创建一个标签集并不是一次性的操作。很多时候,您可能需要更新或删除现有标签或者添加新条目。

  • 您可以在标签频率表中更新现有的标签集。
  • 要添加新的条目,请添加并解析新的XLSX、CSV或TXT格式的表格文件。

在标签频率表中更新标签集

  1. 导航到您的标签集中的设置页面。
  2. 点击标签视图下的表格选项卡,查看标签频次表,在这里您可以更新标签名称或者删除标签。
重要提示

当标签集被更新时,必须重新解析数据集中的文档以使它们的标签相应地进行更新。

添加新的表格文件

  1. 转到标签集中的配置页面。
  2. 转到数据集页面,并上传和解析您的XLSX、CSV或TXT格式的表格文件。
重要提示

如果您在标签集中添加新表文件,自行决定是否重新解析您数据集中的文档。

常见问题

我可以引用多个标签集吗?

可以。通常一个标签集就足够了。当使用多个标签集时,请确保它们彼此独立;否则请考虑合并您的标签集。

标签集和标准知识库有什么区别?

标准知识库是一个数据集,它会被RAGFlow的文档引擎搜索,并将检索到的内容提供给大语言模型(LLM)。相比之下,标签集仅用于为数据集中的一段内容添加标签。它不会直接参与检索过程,在选择聊天助手或代理的数据集时请不要选择标签集。

自动标记和自动关键字有何区别?

这两个功能都增强了RAGFlow的检索能力。自动关键字特性依赖于大语言模型(LLM)并消耗大量令牌,而自动标记特性基于向量相似性和预定义的标签集。可以将自动关键字特性的关键词视为一个开放集合,因为它们由LLM生成。相比之下,标签集可以被视为用户定义的封闭集合,在使用之前需要上传指定格式的标签集。