如何比较实验结果
通常,当您迭代 LLM 应用程序(例如更改模型或提示词)时,您会希望比较不同实验的结果。
LangSmith 支持强大的比较视图,让您能够深入了解不同实验之间的关键差异、退步和改进。
打开比较视图
要打开实验比较视图,请点击数据集与实验页面,选择相关数据集,在“实验”选项卡上选择两个或更多实验,然后点击“比较”。
调整表格显示
您可以通过点击页面顶部的“完整”或“紧凑”来切换不同视图。
切换“完整文本”将显示每次运行的输入、输出和参考输出的完整文本。如果参考输出太长无法在表格中显示,您可以点击“展开”以查看完整内容。
您还可以在显示设置下拉菜单中选择和隐藏单个反馈键或单个指标,以隔离您想要查看的信息。
查看退步和改进
在 LangSmith 比较视图中,与您的基准实验相比,在指定反馈键上退步的运行将以红色突出显示,而改进的运行将以绿色突出显示。在每列的顶部,您可以看到该实验中有多少次运行优于您的基准实验,有多少次运行差于您的基准实验。
筛选退步或改进
点击每列顶部的“退步”或“改进”按钮,以筛选出该特定实验中退步或改进的运行。
更新基准实验和指标
为了跟踪退步,您需要
- 选择一个基准实验进行比较以及一个要衡量的指标。默认情况下,最新的实验被选为基准。
- 选择您想要重点比较的反馈键(评估指标)。默认会分配一个,但您可以根据需要进行调整。
- 配置所选反馈键是否分数越高越好。此偏好设置将被存储。
打开跟踪
如果您正在评估的示例来自已摄入的运行,您可以将鼠标悬停在输出单元格上,然后点击跟踪图标以打开该运行的跟踪视图。这将在侧面板中打开一个跟踪。
展开详细视图
从任何单元格,您可以点击悬停状态下的展开图标,以打开该特定示例输入上所有实验结果的详细视图,以及反馈键和分数。
查看汇总图表
您还可以通过点击页面顶部的“图表”选项卡来查看汇总图表。
使用实验元数据作为图表标签
您可以根据实验元数据配置图表的 x 轴标签。
选择一个元数据键以更改图表的 x 轴标签。