跳到主要内容

如何审核评估器评分

LLM-as-a-judge 评估器并不总是能做出正确的判断。因此,人工手动审核评估器给出的分数并在必要时进行更正通常很有用。LangSmith 允许您在 UI 或 SDK 中对评估器分数进行更正。

在比较视图中

在比较视图中,您可以单击任何反馈标签以显示反馈详细信息。从那里,单击右侧的“编辑”图标以显示更正视图。然后,您可以在“进行更正”下的文本框中键入您期望的分数。如果您愿意,您还可以为您的更正附加解释。如果您正在使用少样本评估器,这将非常有用,并将自动插入到您的少样本示例中,以代替 few_shot_explanation 提示变量。

Audit Evaluator Comparison View

在运行表中

在运行表中,找到“反馈”列并单击反馈标签以显示反馈详细信息。同样,单击右侧的“编辑”图标以显示更正视图。

Audit Evaluator Runs Table

在 SDK 中

可以通过 SDK 的 update_feedback 函数和 correction 字典进行更正。您必须指定一个 score 键,该键对应于一个数字,以便在 UI 中呈现。

import langsmith

client = langsmith.Client()
client.update_feedback(
my_feedback_id,
correction={
"score": 1,
},
)

此页是否对您有帮助?


您可以留下详细的反馈 在 GitHub 上.