分析单个实验
运行实验后,您可以使用 LangSmith 的实验视图来分析结果,并深入了解实验的执行情况。
本指南将引导您查看实验结果,并重点介绍实验视图中可用的功能。
打开实验视图
要打开实验视图,请从“数据集 & 实验”页面中选择相关数据集,然后选择要查看的实验。
查看实验结果
此表显示您的实验结果。其中包括数据集中每个 示例 的输入、输出和参考输出。它还在单独的列中显示每个配置的反馈键及其对应的反馈分数。
开箱即用的指标(延迟、状态、成本和令牌计数)也将显示在单独的列中。
在列下拉列表中,您可以选择要隐藏和显示的列。
热图视图
实验视图默认为热图视图,其中每次运行的反馈分数都以颜色突出显示。红色表示较低的分数,而绿色表示较高的分数。热图可视化使您可以轻松地一目了然地识别模式、发现异常值并了解整个数据集的分数分布。
排序和筛选
要排序或筛选反馈分数,您可以使用列标题中的操作。
表格视图
根据最适合您分析的视图,您可以通过在紧凑视图、完整视图和差异视图之间切换来更改表格的格式。
紧凑
视图将每次运行显示为单行,以便轻松一目了然地比较分数。完整
视图显示每次运行的完整输出,以便深入研究各个运行的详细信息。差异
视图显示参考输出与每次运行的输出之间的文本差异。
查看跟踪
将鼠标悬停在任何输出单元格上,然后单击跟踪图标以查看该运行的跟踪。这将在侧面板中打开跟踪。
要查看整个跟踪项目,请单击标题右上角的“查看项目”按钮。
查看评估器运行
对于评估器分数,您可以通过将鼠标悬停在评估器分数单元格上并单击箭头图标来查看源运行。这将在侧面板中打开跟踪。如果您正在运行 LLM-as-a-judge 评估器,则可以在此运行中查看用于评估器的 prompt。如果您的实验有重复项,您可以单击聚合平均分数以查找指向所有单独运行的链接。
按元数据对结果进行分组
您可以向示例添加元数据以对其进行分类和组织。例如,如果您正在评估问题解答数据集的事实准确性,则元数据可能包括每个问题所属的主题领域。可以通过 UI 或 SDK 添加元数据。
要按元数据分析结果,请使用实验视图右上角的“分组依据”下拉列表,然后选择所需的元数据键。这将显示每个元数据组的平均反馈分数、延迟、总令牌数和成本。
您只能按 2025 年 2 月 20 日之后创建的实验中的示例元数据进行分组。该日期之前的任何实验仍然可以按元数据分组,但前提是元数据位于实验跟踪本身上。
重复项
如果您已使用重复项运行实验,则输出结果列中将有箭头,以便您可以在表格中查看输出。要查看每次重复运行的结果,请将鼠标悬停在输出单元格上,然后单击展开视图。
当您使用重复项运行实验时,LangSmith 会在表格中显示每个反馈分数的平均值。单击反馈分数可查看来自单个运行的反馈分数,或查看重复项的标准偏差。
与另一个实验比较
在实验视图的右上角,您可以选择另一个要比较的实验。这将打开一个比较视图,您可以在其中查看两个实验的比较情况。要了解有关比较视图的更多信息,请参阅如何比较实验结果。