如何在 UI 中筛选实验
LangSmith 允许您通过反馈分数和元数据筛选以前的实验,以便轻松找到您关心的实验。
背景:为您的实验添加元数据
当您在 SDK 中运行实验时,您可以附加元数据,以便更轻松地在 UI 中进行筛选。如果您知道在运行实验时要深入研究哪些方面,这将很有帮助。
在我们的示例中,我们将围绕使用的模型、模型提供商和 Prompt 的已知 ID 将元数据附加到我们的实验中
- Python
models = {
"openai-gpt-4o": ChatOpenAI(model="gpt-4o", temperature=0),
"openai-gpt-4o-mini": ChatOpenAI(model="gpt-4o-mini", temperature=0),
"anthropic-claude-3-sonnet-20240229": ChatAnthropic(temperature=0, model_name="claude-3-sonnet-20240229")
}
prompts = {
"singleminded": "always answer questions with the word banana.",
"fruitminded": "always discuss fruit in your answers.",
"basic": "you are a chatbot."
}
def answer_evaluator(run, example) -> dict:
llm = ChatOpenAI(model="gpt-4o", temperature=0)
answer_grader = hub.pull("langchain-ai/rag-answer-vs-reference") | llm
score = answer_grader.invoke(
{
"question": example.inputs["question"],
"correct_answer": example.outputs["answer"],
"student_answer": run.outputs,
}
)
return {"key": "correctness", "score": score["Score"]}
dataset_name = "Filterable Dataset"
for model_type, model in models.items():
for prompt_type, prompt in prompts.items():
def predict(example):
return model.invoke(
[("system", prompt), ("user", example["question"])]
)
model_provider = model_type.split("-")[0]
model_name = model_type[len(model_provider) + 1:]
evaluate(
predict,
data=dataset_name,
evaluators=[answer_evaluator],
# ADD IN METADATA HERE!!
metadata={
"model_provider": model_provider,
"model_name": model_name,
"prompt_id": prompt_type
}
)
在 UI 中筛选实验
在 UI 中,我们默认看到所有已运行的实验。
例如,如果我们偏好 openai 模型,我们可以轻松地进行筛选,首先只查看 openai 模型中的分数
我们可以堆叠筛选器,从而筛选掉正确性方面的低分,以确保我们只比较相关的实验
最后,我们可以清除和重置筛选器。例如,如果我们看到使用 singleminded
prompt 明显有一个胜出者,我们可以更改筛选设置,看看是否有其他模型提供商的模型也同样有效