跳到主要内容

在提示词游乐场中运行评估

LangSmith 允许您直接在提示词游乐场中运行评估。提示词游乐场让您可以通过一系列输入测试您的提示词和/或模型配置，从而了解它在不同上下文或场景中的得分情况，而无需编写任何代码。

在运行评估之前，您需要有一个现有数据集。了解如何从 UI 创建数据集。

如果您更喜欢通过代码运行实验，请访问使用 SDK 运行评估。

在提示词游乐场中创建实验

通过点击侧边栏中的游乐场，导航到游乐场。
添加提示词：选择一个现有已保存的提示词或创建一个新的。
从在数据集上测试下拉菜单中选择数据集

请注意，数据集输入中的键必须与提示词的输入变量匹配。例如，在上面的视频中，所选数据集的输入键为“blog”，这与提示词的输入变量正确匹配。
提示词游乐场中最多允许 15 个输入变量。

开始实验：点击开始或 CMD+Enter。这将在数据集中所有示例上运行提示词，并在数据集详情页面为该实验创建一个条目。我们建议在开始实验之前将提示词提交到提示词中心，以便以后在查看实验时可以轻松引用。
查看完整结果：点击查看完整实验。这将带您进入实验详情页面，您可以在其中查看实验结果。

为实验添加评估分数

通过添加评估器来根据特定标准评估您的实验。在游乐场中，使用+评估器按钮添加“LLM 即评判者”或自定义代码评估器。

要了解更多关于通过 UI 添加评估器，请访问如何定义“LLM 即评判者”评估器。

此页面有帮助吗？

您可以留下详细反馈在 GitHub 上.

在提示词游乐场中创建实验
为实验添加评估分数