评估操作指南
这些指南回答“我该如何…?”格式的问题。它们以目标为导向,具体实用,旨在帮助您完成特定任务。有关概念性解释,请参阅概念指南。有关端到端演练,请参阅教程。有关每个类和函数的详细说明,请参阅API 参考。
主要功能
- 创建数据集:使用 SDK 或 通过用户界面
- 运行离线评估:使用 SDK 或 通过用户界面
- 使用LLM-as-a-judge 和 自定义代码评估器运行在线评估
- 在用户界面中分析评估结果
- 从您的应用中记录用户反馈
- 使用标注队列记录专家反馈
离线评估
在部署应用程序之前对其进行评估和改进。
运行评估
- 定义要评估的目标函数
- 使用 SDK 运行评估
- 异步运行评估
- 运行比较两个实验的评估
- 评估
langchain
可运行对象 - 评估
langgraph
图 - 评估现有实验(仅限 Python)
- 从用户界面运行评估
- 通过 REST API 运行评估
- 运行多模态内容评估
- 模拟多轮交互
定义评估器
配置评估数据
配置评估任务
向数据集添加默认评估器
设置自动评估器,使其针对数据集对所有实验自动运行。
测试集成
使用您喜欢的测试工具运行评估。
在线评估
评估和监控您的系统在生产数据上的实时性能。
分析实验结果
使用用户界面和 API 了解您的实验结果。
- 分析单个实验
- 使用比较视图比较实验
- 过滤实验
- 查看成对实验
- 在 SDK 中获取实验结果
- 使用 REST API 上传在 LangSmith 之外运行的实验
- 将实验结果下载为 CSV
- 审计和纠正评估器分数
- 重命名实验
数据集管理
管理您的评估在 LangSmith 中使用的数据集。
- 从用户界面创建数据集
- 从用户界面导出数据集
- 从用户界面创建数据集拆分
- 从用户界面过滤示例
- 使用 SDK 创建数据集
- 使用 SDK 获取数据集
- 使用 SDK 更新数据集
- 对数据集进行版本控制
- 数据集共享
- 将过滤后的跟踪从实验导出到数据集
标注队列和人工反馈
收集主题专家和用户的反馈以改进您的应用程序。