如何审核评估器评分
LLM-as-a-judge 评估器并不总是能做出正确的判断。因此,人工手动审核评估器给出的分数并在必要时进行更正通常很有用。LangSmith 允许您在 UI 或 SDK 中对评估器分数进行更正。
在比较视图中
在比较视图中,您可以单击任何反馈标签以显示反馈详细信息。从那里,单击右侧的“编辑”图标以显示更正视图。然后,您可以在“进行更正”下的文本框中键入您期望的分数。如果您愿意,您还可以为您的更正附加解释。如果您正在使用少样本评估器,这将非常有用,并将自动插入到您的少样本示例中,以代替 few_shot_explanation
提示变量。
在运行表中
在运行表中,找到“反馈”列并单击反馈标签以显示反馈详细信息。同样,单击右侧的“编辑”图标以显示更正视图。
在 SDK 中
可以通过 SDK 的 update_feedback
函数和 correction
字典进行更正。您必须指定一个 score
键,该键对应于一个数字,以便在 UI 中呈现。
- Python
- TypeScript
import langsmith
client = langsmith.Client()
client.update_feedback(
my_feedback_id,
correction={
"score": 1,
},
)
import { Client } from 'langsmith';
const client = new Client();
await client.updateFeedback(
myFeedbackId,
{
correction: {
score: 1,
}
}
)