本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用图像创建训练和测试数据集
<a name="md-create-dataset"></a>

可以从具有单个数据集的项目或者具有单独的训练和测试数据集的项目开始。如果从单个数据集开始，Amazon Rekognition Custom Labels 会在训练期间拆分该数据集，来为项目创建训练数据集 (80%) 和测试数据集 (%20)。如果想让 Amazon Rekognition Custom Labels 决定使用哪些图像进行训练和哪些图像进行测试，请从单个数据集开始。为了能够完全控制训练、测试和性能调整，建议您使用单独的训练数据集和测试数据集开始您的项目。

可以通过从以下位置之一导入图像来为项目创建训练和测试数据集：
+ [从 Amazon S3 存储桶导入图像](md-create-dataset-s3.md)
+ [从本地计算机导入图像](md-create-dataset-computer.md)
+ [使用清单文件导入图像](md-create-dataset-ground-truth.md)
+ [复制现有数据集的内容](md-create-dataset-existing-dataset.md)

如果使用单独的训练和测试数据集来开始项目，可以为每个数据集使用不同的源位置。

根据导入图像的方式，您的图像可能没有标签。例如，从本地计算机导入的图像就没有标签。从 Amazon A SageMaker I Ground Truth 清单文件导入的图像已贴上标签。您可以使用 Amazon Rekognition Custom Labels 控制台添加、更改和分配标签。有关更多信息，请参阅 [标注图像](md-labeling-images.md)。

如果上传图像时出现错误、图像丢失或图像中缺少标签，请阅读[调试失败的模型训练](tm-debugging.md)。

有关数据集的更多信息，请参阅[管理数据集](managing-dataset.md)。

## 创建训练和测试数据集 (SDK)
<a name="cd-create-dataset-sdk"></a>

您可以使用 AWS SDK 创建训练和测试数据集。

`CreateDataset` 操作允许您在创建新数据集时选择性地指定标签，以便对资源进行分类和管理。

### 训练数据集
<a name="cd-create-training-dataset"></a>

您可以通过以下方式使用 AWS SDK 创建训练数据集。
+ [CreateDataset](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_CreateDataset)与您提供的 Amazon Sagemaker 格式清单文件一起使用。有关更多信息，请参阅 [创建清单文件](md-create-manifest-file.md)。有关示例代码，请参阅[使用 SageMaker AI Ground Truth 清单文件 (SDK) 创建数据集](md-create-dataset-ground-truth.md#md-create-dataset-ground-truth-sdk)。
+ 使用 `CreateDataset` 复制现有的 Amazon Rekognition Custom Labels 数据集。有关示例代码，请参阅[使用现有数据集创建数据集 (SDK)](md-create-dataset-existing-dataset-sdk.md)。
+ 使用 `CreateDataset` 创建一个空数据集，稍后使用 [UpdateDatasetEntries](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_UpdateDatasetEntries) 添加数据集条目。要创建空数据集，请参阅[向项目添加数据集](md-add-dataset.md)。要向数据集中添加图像，请参阅[添加更多图像 (SDK)](md-add-images.md#md-add-images-sdk)。需要先添加数据集条目，然后才能训练模型。

### 测试数据集
<a name="cd-create-test-dataset"></a>

您可以通过以下方式使用 AWS SDK 创建测试数据集：
+ [CreateDataset](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_CreateDataset)与您提供的 Amazon Sagemaker 格式清单文件一起使用。有关更多信息，请参阅 [创建清单文件](md-create-manifest-file.md)。有关示例代码，请参阅[使用 SageMaker AI Ground Truth 清单文件 (SDK) 创建数据集](md-create-dataset-ground-truth.md#md-create-dataset-ground-truth-sdk)。
+ 使用 `CreateDataset` 复制现有的 Amazon Rekognition Custom Labels 数据集。有关示例代码，请参阅[使用现有数据集创建数据集 (SDK)](md-create-dataset-existing-dataset-sdk.md)。
+ 使用 `CreateDataset` 创建一个空数据集，稍后使用 `UpdateDatasetEntries` 添加数据集条目。要创建空数据集，请参阅[向项目添加数据集](md-add-dataset.md)。要向数据集中添加图像，请参阅[添加更多图像 (SDK)](md-add-images.md#md-add-images-sdk)。需要先添加数据集条目，然后才能训练模型。
+ 将训练数据集拆分为单独的训练数据集和测试数据集。先使用 `CreateDataset` 创建一个空的测试数据集。然后通过调用，将 20% 的训练数据集条目移到测试数据集中[DistributeDatasetEntries](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_DistributeDatasetEntries)。要创建空数据集，请参阅[向项目添加数据集 (SDK)](md-add-dataset.md#md-add-dataset-sdk)。要拆分训练数据集，请参阅[分配训练数据集 (SDK)](md-distributing-datasets.md)。