评估操作指南
这些指南回答“我该如何做……?”格式的问题。它们以目标为导向且具体,旨在帮助您完成特定任务。有关概念解释,请参阅概念指南。有关端到端演练,请参阅教程。有关每个类和函数的全面描述,请参阅API 参考。
主要功能
- 使用 SDK 或 从 UI 创建数据集
- 使用 SDK 或 从 UI 运行离线评估
- 使用 LLM 作为评判者 和 自定义代码 评估器运行在线评估
- 在 UI 中分析评估结果
- 从您的应用记录用户反馈
- 使用 注释队列 记录专家反馈
离线评估
在部署应用程序之前对其进行评估和改进。
运行评估
- 定义要评估的目标函数
- 使用 SDK 运行评估
- 异步运行评估
- 运行比较两个实验的评估
- 评估
langchain
runnable - 评估
langgraph
graph - 评估现有实验(仅限 Python)
- 从 UI 运行评估
- 通过 REST API 运行评估
- 使用大型文件输入运行评估
- 设置多轮评估
定义评估器
配置评估数据
配置评估作业
向数据集添加默认评估器
设置评估器,使其针对数据集的所有实验自动运行。
测试集成
使用您最喜欢的测试工具运行评估。
在线评估
评估和监控您的系统在生产数据上的实时性能。
分析实验结果
使用 UI 和 API 来理解您的实验结果。
- 分析单个实验
- 使用比较视图比较实验
- 过滤实验
- 查看成对实验
- 在 SDK 中获取实验结果
- 使用 REST API 上传在 LangSmith 外部运行的实验
- 将实验结果下载为 CSV
- 审计和更正评估器分数
- 重命名实验
数据集管理
管理 LangSmith 中用于评估的数据集。
- 从 UI 创建数据集
- 从 UI 导出数据集
- 从 UI 创建数据集拆分
- 从 UI 过滤示例
- 使用 SDK 创建数据集
- 使用 SDK 获取数据集
- 使用 SDK 更新数据集
- 对数据集进行版本控制
- 公开共享/取消共享数据集
- 将实验中过滤的跟踪导出到数据集
注释队列和人工反馈
收集主题专家和用户的反馈,以改进您的应用程序。