

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengkonfigurasi dataset
<a name="datasets-config"></a>

Untuk menambahkan data pelatihan atau pengujian berlabel ke flywheel, gunakan konsol Amazon Comprehend atau API untuk membuat kumpulan data. 

Anda mengonfigurasi setiap kumpulan data sebagai data pelatihan atau data pengujian. Anda mengaitkan kumpulan data dengan roda gaya dan model khusus tertentu. Saat Anda membuat kumpulan data, Amazon Comprehend mengunggah data ke data lake flywheel. Untuk detail tentang format file untuk data pelatihan, lihat [Mempersiapkan data pelatihan pengklasifikasi](prep-classifier-data.md) atau[Mempersiapkan data pelatihan pengenal entitas](prep-training-data-cer.md). 

Saat Anda menghapus flywheel, Amazon Comprehend menghapus kumpulan data. Data yang diunggah tetap tersedia di danau data.

## Membuat kumpulan data (konsol)
<a name="datasets-create-console"></a>

**Buat kumpulan data**

1. Masuk ke Konsol Manajemen AWS dan buka konsol [Amazon Comprehend](https://console.aws.amazon.com/comprehend/).

1. Dari menu kiri, pilih **Flywheels** dan pilih flywheel tempat Anda ingin menambahkan data.

1. Pilih tab **Datasets**.

1. **Dalam tabel **kumpulan data pelatihan** atau **Test dataset, pilih Buat** dataset.** 

1. Di bawah **Detail Dataset**, masukkan nama untuk kumpulan data dan deskripsi opsional. 

1. Di bawah **Spesifikasi data**, pilih **format Data** dan bidang konfigurasi **tipe Dataset**.

1. (Opsional) Di bawah **format Input**, pilih format dokumen input. 

1. Di bawah **Lokasi anotasi di S3**, masukkan lokasi Amazon S3 dari file anotasi. 

1. Di bawah **Lokasi data pelatihan di S3**, masukkan lokasi Amazon S3 dari file dokumen.

1. Pilih **Buat**. 

## Membuat kumpulan data (API)
<a name="datasets-api-create"></a>

Anda dapat menggunakan [CreateDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDataset.html)operasi untuk membuat kumpulan data. 

**Example**  

```
aws comprehend create-dataset \
    --flywheel-arn "myFlywheel2" \
    --dataset-name "my-training-dataset"
    --dataset-type "TRAIN"
    --description "my training dataset"
    --cli-input-json file://inputConfig.json 
}
```
`inputConfig.json`File berisi konten berikut.  

```
{
    "DataFormat": "COMPREHEND_CSV",
    "DocumentClassifierInputDataConfig": {
        "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv"
    }
}
```

Untuk menambah atau menghapus tag pada dataset, gunakan [TagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_TagResource.html)dan [UntagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_UntagResource.html)operasi.

## Jelaskan kumpulan data
<a name="datasets-api-desc"></a>

Gunakan operasi [DescribeDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDataset.html)Amazon Comprehend untuk mengambil informasi yang dikonfigurasi tentang flywheel. 

```
aws comprehend describe-dataset \
    --dataset-arn  "datasetARN"
```

Tanggapan berisi konten berikut.

```
{
   "DatasetProperties": {
      "DatasetArn": "arn:aws::comprehend:{{aws-region}}:111122223333:flywheel/myTestFlywheel/dataset/train-dataset",
      "DatasetName": "train-dataset",
      "DatasetType": "TRAIN",
      "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z",
      "Description": "Good Dataset",
      "Status": "COMPLETED",
      "NumberOfDocuments": 90,
      "CreationTime": 1659383324.297
  }
}
```