跳到主要内容

LangSmith 中的告警

自托管版本要求

访问告警功能需要 Helm Chart 版本 0.10.3 或更高。

概述

LLM 应用程序的有效可观测性需要主动检测故障、性能退化和回归。LangSmith 的告警功能有助于识别关键问题,例如

  • 来自模型提供商的 API 速率限制违规
  • 应用程序延迟增加
  • 影响反映最终用户体验的反馈分数的应用程序更改

LangSmith 中的告警是项目范围的,每个受监控的项目都需要单独配置。

配置告警

步骤 1:导航到创建告警

首先导航到您希望配置告警的追踪项目。点击页面右上角的 + 新建告警 以设置告警。

步骤 2:选择指标类型


Alert Metrics

LangSmith 提供基于阈值的告警,针对三个核心指标

指标类型描述用例
错误运行追踪错误状态的运行监控应用程序中的故障。
反馈分数衡量平均反馈分数追踪来自最终用户的反馈在线评估结果,以便在出现回归时发出告警。
延迟衡量平均运行执行时间追踪应用程序的延迟,以便在出现峰值和性能瓶颈时发出告警。

此外,对于错误运行运行延迟,您可以定义过滤器来缩小触发告警的运行范围。例如,您可以为所有标记为 support_agent 且遇到 RateLimitExceeded 错误的 llm 运行创建错误告警过滤器。

Alert Metrics

步骤 2:定义告警条件

告警条件包含几个组成部分

  • 聚合方法:平均值、百分比或计数
  • 比较运算符>=<= 或超出阈值
  • 阈值:触发告警的数值
  • 聚合窗口:指标计算的时间段(目前可在 5 分钟或 15 分钟之间选择)
  • 反馈键(仅限反馈分数告警):要监控的特定反馈指标

Alert Condition Configuration

示例: 上述配置将在过去 5 分钟内超过 5% 的运行出现错误时生成告警。

您可以预览历史时间窗口上的告警行为,以了解在选定阈值(以红色指示)下有多少数据点以及哪些数据点会触发告警。例如,为项目设置 60 秒的平均延迟阈值,可以帮助您可视化潜在的告警,如下图所示。

Alert Metrics

步骤 3:配置通知渠道

LangSmith 支持以下通知渠道

  1. PagerDuty 集成
  2. Webhook 通知

选择适当的渠道,确保通知送达负责的团队成员。

最佳实践

  • 根据应用程序关键性调整灵敏度
  • 从更宽松的阈值开始,并根据观察到的模式进行优化
  • 确保告警路由送达适当的轮班人员

本页内容有帮助吗?


您可以留下详细反馈 在 GitHub 上.