如何对数据集进行版本控制

在 LangSmith 中，数据集是经过版本控制的。这意味着每当您在数据集中添加、更新或删除示例时，都会创建一个新的数据集版本。

创建数据集的新版本

每当您添加、更新或删除数据集中的示例时，都会创建一个新的数据集版本。这使您能够跟踪数据集随时间的变化，并了解数据集的演变过程。

默认情况下，版本由更改的时间戳定义。当您在“示例”选项卡中点击数据集的特定版本（按时间戳）时，可以看到该时间点数据集的状态。

Version Datasets

请注意，查看数据集的旧版本时，示例是只读的。您还会看到此版本数据集与“最新”版本数据集之间的操作。此外，默认情况下，最新版本的数据集显示在“示例”选项卡中，而所有版本的实验都显示在“测试”选项卡中。

在“测试”选项卡中，您可以查看在不同版本数据集上运行的测试结果。

Version Datasets

标记版本

您还可以标记数据集的版本，为它们赋予更具可读性的名称。这对于标记数据历史中的重要里程碑非常有用。

例如，您可以将数据集的一个版本标记为“prod”，并用它来针对您的 LLM 管道运行测试。

可以在 UI 中通过点击“示例”选项卡中的“+ 标记此版本”来完成标记。

Tagging Datasets

您也可以使用 SDK 标记数据集版本。以下是使用 Python SDK 标记数据集版本的示例：

from langsmith import Client
from  datetime import datetime

client = Client()

initial_time = datetime(2024, 1, 1, 0, 0, 0) # The timestamp of the version you want to tag

# You can tag a specific dataset version with a semantic name, like "prod"
client.update_dataset_tag(
    dataset_name=toxic_dataset_name, as_of=initial_time, tag="prod"
)

要在数据集的特定标记版本上运行评估，您可以遵循本指南。

如何对数据集进行版本控制

创建数据集的新版本

标记版本

此页面有帮助吗？

您可以在 GitHub 上留下详细反馈.

创建数据集的新版本​

标记版本​

此页面有帮助吗？

您可以在 GitHub 上留下详细反馈.

创建数据集的新版本

标记版本