

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Configurar conjuntos de dados
<a name="datasets-config"></a>

Para adicionar dados de treinamento ou teste rotulados a um flywheel, use o console ou a API do Amazon Comprehend para criar um conjunto de dados. 

Configure cada conjunto de dados como dados de treinamento ou dados de teste. Associe o conjunto de dados a um flywheel específico e a um modelo personalizado. Ao criar um conjunto de dados, o Amazon Comprehend carrega os dados para o data lake do flywheel. Para obter detalhes sobre formatos de arquivo para os dados de treinamento, consulte [Preparar dados de treinamento do classificador](prep-classifier-data.md) ou [Preparando dados de treinamento do reconhecedor de entidades](prep-training-data-cer.md). 

Quando você exclui o flywheel, o Amazon Comprehend exclui os conjuntos de dados. Os dados enviados permanecem disponíveis no data lake.

## Criar um conjunto de dados (console)
<a name="datasets-create-console"></a>

**Criar um conjunto de dados**

1. Faça login no Console de gerenciamento da AWS e abra o console do [Amazon Comprehend](https://console.aws.amazon.com/comprehend/).

1. No menu à esquerda, escolha **Flywheels** e escolha o flywheel em que você deseja adicionar os dados.

1. Escolha a guia **Conjuntos de dados**.

1. Na tabela **Conjuntos de dados de treinamento** ou **Conjuntos de dados de teste**, escolha **Criar conjunto de dados**. 

1. Em **Detalhes do conjunto de dados**, insira um nome para o conjunto de dados e uma descrição opcional. 

1. Em **Especificações de dados**, escolha os campos de configuração **Formato de dados** e **Tipo de conjunto de dados**.

1. (Opcional) Em **Formato de entrada**, escolha o formato dos documentos de entrada. 

1. Em **Local da anotação no S3**, insira a localização do arquivo de anotações do Amazon S3. 

1. Em **Local dos dados de treinamento no S3**, insira a localização dos arquivos de documentos do Amazon S3.

1. Escolha **Criar**. 

## Criar um conjunto de dados (API)
<a name="datasets-api-create"></a>

Você pode usar a [CreateDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDataset.html)operação para criar um conjunto de dados. 

**Example**  

```
aws comprehend create-dataset \
    --flywheel-arn "myFlywheel2" \
    --dataset-name "my-training-dataset"
    --dataset-type "TRAIN"
    --description "my training dataset"
    --cli-input-json file://inputConfig.json 
}
```
O arquivo `inputConfig.json` contém o conteúdo a seguir.  

```
{
    "DataFormat": "COMPREHEND_CSV",
    "DocumentClassifierInputDataConfig": {
        "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv"
    }
}
```

Para adicionar ou remover tags no conjunto de dados, use as [UntagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_UntagResource.html)operações [TagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_TagResource.html)e.

## Descrever um conjunto de dados
<a name="datasets-api-desc"></a>

Use a operação Amazon [DescribeDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDataset.html)Comprehend para recuperar informações configuradas sobre um volante. 

```
aws comprehend describe-dataset \
    --dataset-arn  "datasetARN"
```

A resposta tem o conteúdo a seguir.

```
{
   "DatasetProperties": {
      "DatasetArn": "arn:aws::comprehend:{{aws-region}}:111122223333:flywheel/myTestFlywheel/dataset/train-dataset",
      "DatasetName": "train-dataset",
      "DatasetType": "TRAIN",
      "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z",
      "Description": "Good Dataset",
      "Status": "COMPLETED",
      "NumberOfDocuments": 90,
      "CreationTime": 1659383324.297
  }
}
```