如何设置多轮评估
LangSmith 使在 Playground 中评估多轮对话变得容易。这允许您评估更改系统提示、模型可用的工具或输出模式如何影响包含多条消息的对话。
本操作指南将引导您了解在 Playground 中设置多轮评估的各种方法,这将允许您测试不同的工具配置和系统提示,以查看它们如何影响您的系统。
从现有运行
首先,确保您已正确跟踪了多轮对话,然后导航到您的跟踪项目。进入跟踪项目后,只需打开运行,选择 LLM 调用,然后按如下方式在 Playground 中打开它
然后,您可以编辑系统提示,调整工具和/或输出模式,并观察多轮对话的输出如何变化。
从数据集
在开始之前,请确保您已设置了数据集。由于您要评估多轮对话,请确保您的输入中有一个键包含消息列表。
创建数据集后,前往 Playground 并加载您的数据集以进行评估。
然后,将消息列表变量添加到您的提示中,确保将其命名为与输入中包含消息列表的键相同
当您运行提示时,每个示例中的消息将作为列表添加到“消息列表”变量的位置。
手动
有两种手动创建多轮对话的方法。第一种方法是简单地将消息附加到提示
这对于快速迭代很有帮助,但由于多轮对话是硬编码的,因此很僵化。相反,如果您希望您的提示适用于任何多轮对话,您可以添加一个“消息列表”变量,并在其中添加您的多轮对话
这允许您仅调整系统提示或工具,同时允许任何多轮对话代替 Messages List
变量,从而允许您在各种评估中重复使用此提示。
下一步
现在您已经知道如何设置多轮评估,您可以手动检查和判断输出,或者您可以添加评估器以获得可重复的定量结果。
您还可以阅读这些操作指南,以了解有关如何使用 Playground 运行评估的更多信息。