跳到主要内容

从 Prompt Playground 运行评估

LangSmith 允许您直接在 prompt playground 中运行评估。prompt playground 允许您在一系列输入上测试您的 prompt 和/或模型配置,以查看其在不同上下文或场景中的得分情况,而无需编写任何代码。

在运行评估之前,您需要拥有一个现有的数据集。了解如何从 UI 创建数据集。

如果您更喜欢在代码中运行实验,请访问 使用 SDK 运行评估。

在 Prompt Playground 中创建实验

  1. 通过点击侧边栏中的 Playground 导航到 playground。
  2. 通过选择现有的已保存 prompt 或创建新的 prompt 来添加 prompt。
  3. 从 Test over dataset 下拉列表中选择一个数据集
  • 请注意,数据集输入中的键必须与 prompt 的输入变量匹配。例如,在上面的视频中,所选数据集的输入键为“blog”,这与 prompt 的输入变量正确匹配。
  • prompt playground 中最多允许 15 个输入变量。
  1. 通过点击 Start 或 CMD+Enter 启动实验。这将在数据集中的所有示例上运行 prompt,并在数据集详细信息页面中为实验创建一个条目。我们建议在开始实验之前将 prompt 提交到 prompt hub,以便在稍后审查实验时可以轻松引用它。
  2. 通过点击 View full experiment 查看完整结果。这将带您进入实验详细信息页面,您可以在其中查看实验结果。

向实验添加评估分数

通过添加评估器,根据特定标准评估您的实验。在 playground 中使用 +Evaluator 按钮添加 LLM-as-a-judge 或自定义代码评估器。

要了解有关通过 UI 添加评估器的更多信息,请访问 如何定义 LLM-as-a-judge 评估器。


此页面对您有帮助吗?


您可以留下详细的反馈 在 GitHub 上.