LangSmith 中的告警

自托管版本要求

访问告警功能需要 Helm Chart 版本 0.10.3 或更高。

概述

LLM 应用程序的有效可观测性需要主动检测故障、性能退化和回归。LangSmith 的告警功能有助于识别关键问题，例如

来自模型提供商的 API 速率限制违规
应用程序延迟增加
影响反映最终用户体验的反馈分数的应用程序更改

LangSmith 中的告警是项目范围的，每个受监控的项目都需要单独配置。

配置告警

步骤 1：导航到创建告警

首先导航到您希望配置告警的追踪项目。点击页面右上角的 + 新建告警 以设置告警。

步骤 2：选择指标类型

Alert Metrics

LangSmith 提供基于阈值的告警，针对三个核心指标

指标类型	描述	用例
错误运行	追踪错误状态的运行	监控应用程序中的故障。
反馈分数	衡量平均反馈分数	追踪来自最终用户的反馈或在线评估结果，以便在出现回归时发出告警。
延迟	衡量平均运行执行时间	追踪应用程序的延迟，以便在出现峰值和性能瓶颈时发出告警。

此外，对于错误运行和运行延迟，您可以定义过滤器来缩小触发告警的运行范围。例如，您可以为所有标记为 support_agent 且遇到 RateLimitExceeded 错误的 llm 运行创建错误告警过滤器。

Alert Metrics

步骤 2：定义告警条件

告警条件包含几个组成部分

聚合方法：平均值、百分比或计数
比较运算符：>=、<= 或超出阈值
阈值：触发告警的数值
聚合窗口：指标计算的时间段（目前可在 5 分钟或 15 分钟之间选择）
反馈键（仅限反馈分数告警）：要监控的特定反馈指标

Alert Condition Configuration

示例： 上述配置将在过去 5 分钟内超过 5% 的运行出现错误时生成告警。

您可以预览历史时间窗口上的告警行为，以了解在选定阈值（以红色指示）下有多少数据点以及哪些数据点会触发告警。例如，为项目设置 60 秒的平均延迟阈值，可以帮助您可视化潜在的告警，如下图所示。

Alert Metrics

步骤 3：配置通知渠道

LangSmith 支持以下通知渠道

选择适当的渠道，确保通知送达负责的团队成员。

最佳实践

根据应用程序关键性调整灵敏度
从更宽松的阈值开始，并根据观察到的模式进行优化
确保告警路由送达适当的轮班人员

LangSmith 中的告警

概述

配置告警

步骤 1：导航到创建告警

步骤 2：选择指标类型

步骤 2：定义告警条件

步骤 3：配置通知渠道

最佳实践

本页内容有帮助吗？

您可以留下详细反馈在 GitHub 上.

概述​

配置告警​

步骤 1：导航到创建告警​

步骤 2：选择指标类型​

步骤 2：定义告警条件​

步骤 3：配置通知渠道​

最佳实践​

本页内容有帮助吗？

您可以留下详细反馈 在 GitHub 上.

概述

配置告警

步骤 1：导航到创建告警

步骤 2：选择指标类型

步骤 2：定义告警条件

步骤 3：配置通知渠道

最佳实践

您可以留下详细反馈在 GitHub 上.