跳到主要内容

评估操作指南

这些指南回答“我该如何做……？”格式的问题。它们以目标为导向且具体，旨在帮助您完成特定任务。有关概念解释，请参阅概念指南。有关端到端演练，请参阅教程。有关每个类和函数的全面描述，请参阅API 参考。

主要功能

使用 SDK 或从 UI 创建数据集
使用 SDK 或从 UI 运行离线评估
使用 LLM 作为评判者和自定义代码评估器运行在线评估
在 UI 中分析评估结果
从您的应用记录用户反馈
使用注释队列记录专家反馈

离线评估

在部署应用程序之前对其进行评估和改进。

运行评估

定义评估器

配置评估数据

配置评估作业

向数据集添加默认评估器

设置评估器，使其针对数据集的所有实验自动运行。

测试集成

使用您最喜欢的测试工具运行评估。

在线评估

评估和监控您的系统在生产数据上的实时性能。

分析实验结果

使用 UI 和 API 来理解您的实验结果。

数据集管理

管理 LangSmith 中用于评估的数据集。

注释队列和人工反馈

收集主题专家和用户的反馈，以改进您的应用程序。

此页是否对您有帮助？

您可以留下详细的反馈在 GitHub 上.

主要功能
离线评估
测试集成
在线评估
分析实验结果
数据集管理
注释队列和人工反馈