跳到主要内容

分析单个实验

运行实验后,您可以使用 LangSmith 的实验视图分析结果并得出实验表现的洞察。

本指南将引导您查看实验结果,并重点介绍实验视图中可用的功能。

打开实验视图

要打开实验视图,请从“数据集与实验”页面选择相关数据集,然后选择您要查看的实验。

Open experiment view

查看实验结果

此表显示您的实验结果。这包括数据集中每个示例的输入、输出和参考输出。它还在单独的列中显示每个配置的反馈键及其对应的反馈分数。

开箱即用的指标(延迟、状态、成本和令牌计数)也将显示在单独的列中。

在列下拉菜单中,您可以选择要隐藏和显示的列。

Experiment view

热力图视图

实验视图默认是热力图视图,其中每个运行的反馈分数都以颜色高亮显示。红色表示分数较低,绿色表示分数较高。热力图可视化使得识别模式、发现异常值以及一目了然地理解整个数据集的分数分布变得容易。

Heatmap view

排序和过滤

要对反馈分数进行排序或过滤,您可以使用列标题中的操作。

Sort and filter

表格视图

根据对您的分析最有用的视图,您可以通过在紧凑视图、完整视图和差异视图之间切换来更改表格的格式。

  • 紧凑视图将每个运行显示为一行,以便一目了然地比较分数。
  • 完整视图显示每个运行的完整输出,以便深入了解单个运行的详细信息。
  • 差异视图显示每个运行的参考输出和输出之间的文本差异。

Diff view

查看追踪

将鼠标悬停在任何输出单元格上,然后单击追踪图标以查看该运行的追踪。这将在侧面板中打开一个追踪。

要查看整个追踪项目,请点击标题右上角的“查看项目”按钮。

View trace

查看评估器运行

对于评估器分数,您可以通过将鼠标悬停在评估器分数单元格上并单击箭头图标来查看源运行。这将在侧面板中打开一个追踪。如果您正在运行 LLM 作为判官评估器,您可以在此运行中查看用于评估器的提示。如果您的实验有重复,您可以点击汇总平均分数以查找所有单个运行的链接。

View evaluator runs

按元数据分组结果

您可以为示例添加元数据以对其进行分类和组织。例如,如果您正在评估问答数据集中的事实准确性,元数据可能包括每个问题所属的主题领域。元数据可以通过UISDK添加。

要按元数据分析结果,请使用实验视图右上角的“分组依据”下拉菜单并选择您想要的元数据键。这将显示每个元数据组的平均反馈分数、延迟、总令牌和成本。

信息

您只能对 2025 年 2 月 20 日之后创建的实验按示例元数据进行分组。在此日期之前的任何实验仍可以按元数据分组,但前提是元数据存在于实验追踪本身上。

Group by

重复

如果您已运行带有重复的实验,输出结果列中将有箭头,以便您可以在表格中查看输出。要查看重复中的每个运行,请将鼠标悬停在输出单元格上并单击展开视图。

当您运行带有重复的实验时,LangSmith 会在表格中显示每个反馈分数的平均值。点击反馈分数以查看单个运行的反馈分数,或查看重复的标准偏差。

Repetitions

与另一个实验比较

在实验视图的右上角,您可以选择另一个实验进行比较。这将打开一个比较视图,您可以在其中查看两个实验的比较情况。要了解有关比较视图的更多信息,请参阅如何比较实验结果

Compare


此页面有帮助吗?


您可以在 GitHub 上 留下详细反馈。.