如何使用少量示例改进您的评估器
当您无法以编程方式评估系统时,使用 LLM 作为评判评估器可能非常有用。但是,它们的有效性取决于它们的质量以及它们与人工审核员反馈的一致性程度。 LangSmith 提供了使用人工修正来提高 LLM 作为评判评估器与人类偏好对齐的能力。
人工修正会使用少量示例自动插入到您的评估器提示中。少量示例是一种受少量提示启发的技巧,它使用一些高质量的示例来指导模型的输出。
本指南介绍了如何设置少量示例作为 LLM 作为评判评估器的一部分,以及如何将修正应用于反馈分数。
少量示例的工作原理
- 少量示例使用
{{Few-shot examples}}
变量添加到您的评估器提示中 - 创建带有少量示例的评估器将自动为您创建一个数据集,一旦您开始进行修正,该数据集将自动填充少量示例
- 在运行时,这些示例将插入到评估器中,作为其输出的指南 - 这将帮助评估器更好地与人类偏好对齐
配置您的评估器
LLM 作为评判评估器当前不支持少量示例,这些评估器使用提示中心,并且仅与使用 mustache 格式的提示兼容。
在启用少量示例之前,请设置您的 LLM 作为评判评估器。如果您尚未执行此操作,请按照LLM 作为评判评估器指南中的步骤操作。
1. 配置变量映射
每个少量示例都根据配置中指定的变量映射进行格式化。少量示例的变量映射应包含与您的主提示相同的变量,外加一个 few_shot_explanation
变量和一个 score
变量,该变量应与您的反馈键同名。
例如,如果您的主提示具有变量 question
和 response
,并且您的评估器输出 correctness
分数,则您的少量提示应具有变量 question
、response
、few_shot_explanation
和 correctness
。
2. 指定要使用的少量示例的数量
您还可以指定要使用的少量示例的数量。默认值为 5。如果您的示例非常长,您可能希望将此数字设置得较低以节省 token - 而如果您的示例往往很短,您可以设置较高的数字,以便为您的评估器提供更多示例进行学习。如果您的数据集中示例多于此数量,我们将随机为您选择它们。
如果您正在使用少量示例,LangSmith 提供了一项 beta 功能,该功能可以在运行时动态选择最相关的示例,从而可能提高评估器性能。访问动态少量示例了解更多信息。
进行修正
当您开始记录跟踪或运行实验时,您可能会不同意评估器给出的一些分数。当您对这些分数进行修正时,您将开始在修正数据集中看到填充的示例。当您进行修正时,请务必附上解释 - 这些解释将填充到您的评估器提示中,以代替 few_shot_explanation
变量。
少量示例的输入将是来自链/数据集的输入、输出和参考(如果这是离线评估器)的相关字段。输出将是修正后的评估器分数以及您在留下修正时创建的解释。随意编辑这些内容以符合您的喜好。以下是修正数据集中少量示例的示例
请注意,修正可能需要一两分钟才能填充到您的少量示例数据集中。一旦它们在那里,您评估器的未来运行将在提示中包含它们!
查看您的修正数据集
为了查看您的修正数据集
- 在线评估器:选择您的运行规则,然后单击编辑规则
- 离线评估器:选择您的评估器,然后单击编辑评估器
前往使用少量示例提高评估器准确性部分中链接的修正数据集。您可以在数据集中查看和更新您的少量示例。