

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Configuration des ensembles de données
<a name="datasets-config"></a>

Pour ajouter des données d'entraînement ou de test étiquetées à un volant, utilisez la console ou l'API Amazon Comprehend pour créer un ensemble de données. 

Vous configurez chaque ensemble de données en tant que données d'entraînement ou données de test. Vous associez le jeu de données à un volant spécifique et à un modèle personnalisé. Lorsque vous créez un ensemble de données, Amazon Comprehend télécharge les données dans le lac de données du volant. Pour plus de détails sur les formats de fichier pour les données d'entraînement, voir [Préparation des données d'entraînement du classificateur](prep-classifier-data.md) ou[Préparation des données de formation du système de reconnaissance d'entités](prep-training-data-cer.md). 

Lorsque vous supprimez le volant, Amazon Comprehend supprime les ensembles de données. Les données téléchargées restent disponibles dans le lac de données.

## Création d'un jeu de données (console)
<a name="datasets-create-console"></a>

**Création d’un jeu de données**

1. Connectez-vous à la console [Amazon Comprehend AWS Management Console](https://console.aws.amazon.com/comprehend/) et ouvrez-la.

1. Dans le menu de gauche, choisissez **Volants** et choisissez le volant dans lequel vous souhaitez ajouter les données.

1. Choisissez l'onglet **Ensembles de données**.

1. Dans le tableau **Ensembles de données d'entraînement** ou **Ensembles de données de test**, sélectionnez **Créer un** ensemble de données. 

1. Sous **Détails du jeu** de données, entrez un nom pour le jeu de données et une description facultative. 

1. Sous **Spécifications des données**, choisissez les champs de configuration du **format** des **données et du type d'ensemble** de données.

1. (Facultatif) Sous **Format d'entrée**, choisissez le format des documents d'entrée. 

1. Sous **Emplacement des annotations sur S3**, entrez l'emplacement du fichier d'annotations sur Amazon S3. 

1. Sous **Emplacement des données d'entraînement sur S3**, entrez l'emplacement des fichiers de documents sur Amazon S3.

1. Choisissez **Créer**. 

## Création d'un jeu de données (API)
<a name="datasets-api-create"></a>

Vous pouvez utiliser cette [CreateDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDataset.html)opération pour créer un ensemble de données. 

**Example**  

```
aws comprehend create-dataset \
    --flywheel-arn "myFlywheel2" \
    --dataset-name "my-training-dataset"
    --dataset-type "TRAIN"
    --description "my training dataset"
    --cli-input-json file://inputConfig.json 
}
```
Le fichier `inputConfig.json` contient le contenu suivant.  

```
{
    "DataFormat": "COMPREHEND_CSV",
    "DocumentClassifierInputDataConfig": {
        "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv"
    }
}
```

Pour ajouter ou supprimer des balises dans le jeu de données, utilisez les [UntagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_UntagResource.html)opérations [TagResource](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_TagResource.html)et.

## Décrire un ensemble de données
<a name="datasets-api-desc"></a>

Utilisez l'[DescribeDataset](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDataset.html)opération Amazon Comprehend pour récupérer les informations configurées concernant un volant d'inertie. 

```
aws comprehend describe-dataset \
    --dataset-arn  "datasetARN"
```

La réponse contient le contenu suivant.

```
{
   "DatasetProperties": {
      "DatasetArn": "arn:aws::comprehend:{{aws-region}}:111122223333:flywheel/myTestFlywheel/dataset/train-dataset",
      "DatasetName": "train-dataset",
      "DatasetType": "TRAIN",
      "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z",
      "Description": "Good Dataset",
      "Status": "COMPLETED",
      "NumberOfDocuments": 90,
      "CreationTime": 1659383324.297
  }
}
```