LangSmith 中的告警
自托管版本要求
访问告警功能需要 Helm Chart 版本 0.10.3 或更高。
概述
LLM 应用程序的有效可观测性需要主动检测故障、性能退化和回归。LangSmith 的告警功能有助于识别关键问题,例如
- 来自模型提供商的 API 速率限制违规
- 应用程序延迟增加
- 影响反映最终用户体验的反馈分数的应用程序更改
LangSmith 中的告警是项目范围的,每个受监控的项目都需要单独配置。
配置告警
步骤 1:导航到创建告警
首先导航到您希望配置告警的追踪项目。点击页面右上角的 + 新建告警 以设置告警。
步骤 2:选择指标类型
LangSmith 提供基于阈值的告警,针对三个核心指标
指标类型 | 描述 | 用例 |
---|---|---|
错误运行 | 追踪错误状态的运行 | 监控应用程序中的故障。 |
反馈分数 | 衡量平均反馈分数 | 追踪来自最终用户的反馈或在线评估结果,以便在出现回归时发出告警。 |
延迟 | 衡量平均运行执行时间 | 追踪应用程序的延迟,以便在出现峰值和性能瓶颈时发出告警。 |
此外,对于错误运行和运行延迟,您可以定义过滤器来缩小触发告警的运行范围。例如,您可以为所有标记为 support_agent
且遇到 RateLimitExceeded
错误的 llm
运行创建错误告警过滤器。
步骤 2:定义告警条件
告警条件包含几个组成部分
- 聚合方法:平均值、百分比或计数
- 比较运算符:
>=
、<=
或超出阈值 - 阈值:触发告警的数值
- 聚合窗口:指标计算的时间段(目前可在 5 分钟或 15 分钟之间选择)
- 反馈键(仅限反馈分数告警):要监控的特定反馈指标
示例: 上述配置将在过去 5 分钟内超过 5% 的运行出现错误时生成告警。
您可以预览历史时间窗口上的告警行为,以了解在选定阈值(以红色指示)下有多少数据点以及哪些数据点会触发告警。例如,为项目设置 60 秒的平均延迟阈值,可以帮助您可视化潜在的告警,如下图所示。
步骤 3:配置通知渠道
LangSmith 支持以下通知渠道
选择适当的渠道,确保通知送达负责的团队成员。
最佳实践
- 根据应用程序关键性调整灵敏度
- 从更宽松的阈值开始,并根据观察到的模式进行优化
- 确保告警路由送达适当的轮班人员