

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建立包含影像的訓練和測試資料集
<a name="md-create-dataset"></a>

您可以從具有單一資料集的專案開始，或具有不同訓練和測試資料集的專案開始。如果您從單一資料集開始，Amazon Rekognition 自訂標籤會在培訓期間分割您的資料集，以便為您的專案建立培訓資料集 (80%) 和測試資料集 (20%)。如果您希望 Amazon Rekognition 自訂標籤決定影像用於訓練和測試的位置，請從單一資料集開始。為了完全控制培訓、測試和效能調整，我們建議您使用個別的培訓和測試資料集來啟動專案。

從下列其中一個位置匯入影像，即可為專案建立訓練和測試資料集：
+ [從 Amazon S3 儲存貯體匯入映像](md-create-dataset-s3.md)
+ [從本機電腦匯入映像](md-create-dataset-computer.md)
+ [使用資訊清單檔案匯入映像](md-create-dataset-ground-truth.md)
+ [從現有資料集複製內容](md-create-dataset-existing-dataset.md)

如果您使用不同的訓練和測試資料集啟動專案，即可針對每個資料集使用不同的來源位置。

依據您匯入影像的位置而定，您的影像可能沒有標記。例如，從本機電腦匯入的影像即沒有標記。從 Amazon SageMaker AI Ground Truth 資訊清單檔案匯入的影像會加上標籤。您可以使用 Amazon Rekognition 自訂標籤主控台來新增、變更和分配標籤。如需詳細資訊，請參閱[標記檔案](md-labeling-images.md)。

如果上傳的影像有錯誤、影像遺失或影像缺少標籤，請閱讀 [偵錯失敗的模型訓練](tm-debugging.md)。

如需資料集的詳細資訊，請參閱 [管理資料集](managing-dataset.md)。

## 建立訓練和測試資料集 (SDK)
<a name="cd-create-dataset-sdk"></a>

您可以使用 AWS SDK 來建立訓練和測試資料集。

`CreateDataset` 操作可讓您在建立新資料集時選擇性地指定標籤，以便分類和管理 資源。

### 訓練資料集
<a name="cd-create-training-dataset"></a>

您可以使用 AWS SDK 以下列方式建立訓練資料集。
+ 將 [CreateDataset](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_CreateDataset) 與您提供的 Amazon Sagemaker 格式清單檔案搭配使用。如需詳細資訊，請參閱[建立清單檔案](md-create-manifest-file.md)。如需範例程式碼，請參閱 [使用 SageMaker AI Ground Truth 資訊清單檔案 (SDK) 建立資料集](md-create-dataset-ground-truth.md#md-create-dataset-ground-truth-sdk)。
+ 使用 `CreateDataset` 複製現有的 Amazon Rekognition 自訂標籤資料集。如需範例程式碼，請參閱 [使用現有的資料集建立資料集 (SDK)](md-create-dataset-existing-dataset-sdk.md)。
+ 使用 `CreateDataset` 建立空白資料集，並在稍後使用 [UpdateDatasetEntries](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_UpdateDatasetEntries) 新增資料集項目。若要建立空白資料集，請參閱 [將資料集新增至專案](md-add-dataset.md)。若要新增影像至資料集，請參閱 [新增更多圖像 (SDK)](md-add-images.md#md-add-images-sdk)。您需要先新增資料集項目，才能訓練模型。

### 測試資料集
<a name="cd-create-test-dataset"></a>

您可以使用 AWS SDK 以下列方式建立測試資料集：
+ 將 [CreateDataset](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_CreateDataset) 與您提供的 Amazon Sagemaker 格式清單檔案搭配使用。如需詳細資訊，請參閱[建立清單檔案](md-create-manifest-file.md)。如需範例程式碼，請參閱 [使用 SageMaker AI Ground Truth 資訊清單檔案 (SDK) 建立資料集](md-create-dataset-ground-truth.md#md-create-dataset-ground-truth-sdk)。
+ 使用 `CreateDataset` 複製現有的 Amazon Rekognition 自訂標籤資料集。如需範例程式碼，請參閱 [使用現有的資料集建立資料集 (SDK)](md-create-dataset-existing-dataset-sdk.md)。
+ 使用 `CreateDataset` 建立空白資料集，並在稍後使用 `UpdateDatasetEntries` 新增資料集項目。若要建立空白資料集，請參閱 [將資料集新增至專案](md-add-dataset.md)。若要新增影像至資料集，請參閱 [新增更多圖像 (SDK)](md-add-images.md#md-add-images-sdk)。您需要先新增資料集項目，才能訓練模型。
+ 將訓練資料集分割為不同的訓練和測試資料集。首先使用 `CreateDataset` 建立空白測試資料集。接著，呼叫 [DistributeDatasetEntries](https://docs.aws.amazon.com/rekognition/latest/APIReference/API_DistributeDatasetEntries)，將 20% 的訓練資料集項目移至測試資料集。若要建立空白資料集，請參閱 [將資料集新增至專案（SDK）](md-add-dataset.md#md-add-dataset-sdk)。若要分割訓練資料集，請參閱[分配培訓資料集 (SDK)](md-distributing-datasets.md)。