如何对数据集进行版本控制
在 LangSmith 中,数据集是版本化的。这意味着每次您在数据集中添加、更新或删除示例时,都会创建数据集的新版本。
创建数据集的新版本
任何时候您在数据集中添加、更新或删除示例,都会创建数据集的新版本。这使您可以跟踪数据集随时间的变化,并了解数据集是如何演变的。
默认情况下,版本由更改的时间戳定义。当您在“示例”选项卡中单击数据集的特定版本(按时间戳)时,您可以看到该时间点数据集的状态。
请注意,当查看数据集的过去版本时,示例是只读的。您还将看到此数据集版本和数据集“最新”版本之间的操作。此外,默认情况下,“示例”选项卡中显示数据集的最新版本,而 “测试”选项卡中显示所有版本的实验。
在“测试”选项卡中,您可以看到在不同版本的数据集上运行的测试结果。
标记版本
您还可以标记数据集的版本,以便为它们提供更易于理解的名称。这对于标记数据集历史中的重要里程碑非常有用。
例如,您可以将数据集的某个版本标记为“prod”,并使用它对您的 LLM 管道运行测试。
可以在 UI 中完成标记,方法是在“示例”选项卡中单击“+ 标记此版本”。
您还可以使用 SDK 标记数据集的版本。以下是如何使用 Python SDK 标记数据集版本的示例
from langsmith import Client
from datetime import datetime
client = Client()
initial_time = datetime(2024, 1, 1, 0, 0, 0) # The timestamp of the version you want to tag
# You can tag a specific dataset version with a semantic name, like "prod"
client.update_dataset_tag(
dataset_name=toxic_dataset_name, as_of=initial_time, tag="prod"
)
要在数据集的特定标记版本上运行评估,您可以按照本指南进行操作。