如何设置多轮评估

LangSmith 使在 Playground 中评估多轮对话变得容易。这允许您评估更改系统提示、模型可用的工具或输出模式如何影响包含多条消息的对话。

本操作指南将引导您了解在 Playground 中设置多轮评估的各种方法，这将允许您测试不同的工具配置和系统提示，以查看它们如何影响您的系统。

从现有运行

首先，确保您已正确跟踪了多轮对话，然后导航到您的跟踪项目。进入跟踪项目后，只需打开运行，选择 LLM 调用，然后按如下方式在 Playground 中打开它

然后，您可以编辑系统提示，调整工具和/或输出模式，并观察多轮对话的输出如何变化。

在开始之前，请确保您已设置了数据集。由于您要评估多轮对话，请确保您的输入中有一个键包含消息列表。

创建数据集后，前往 Playground 并加载您的数据集以进行评估。

然后，将消息列表变量添加到您的提示中，确保将其命名为与输入中包含消息列表的键相同

当您运行提示时，每个示例中的消息将作为列表添加到“消息列表”变量的位置。

有两种手动创建多轮对话的方法。第一种方法是简单地将消息附加到提示

这对于快速迭代很有帮助，但由于多轮对话是硬编码的，因此很僵化。相反，如果您希望您的提示适用于任何多轮对话，您可以添加一个“消息列表”变量，并在其中添加您的多轮对话

这允许您仅调整系统提示或工具，同时允许任何多轮对话代替 Messages List 变量，从而允许您在各种评估中重复使用此提示。

现在您已经知道如何设置多轮评估，您可以手动检查和判断输出，或者您可以添加评估器以获得可重复的定量结果。

您还可以阅读这些操作指南，以了解有关如何使用 Playground 运行评估的更多信息。