

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d’une tâche AutoML pour la classification de texte à l’aide de l’API
<a name="autopilot-create-experiment-text-classification"></a>

Les instructions suivantes montrent comment créer une tâche Amazon SageMaker Autopilot en tant qu'expérience pilote pour les types de problèmes de classification de texte à l'aide de SageMaker [API](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html) Reference.

**Note**  
Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’[API REST AutoML](autopilot-reference.md). Si le langage de votre choix est Python, vous pouvez vous référer [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)directement à [MLV2 l'objet Auto](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du SDK Amazon SageMaker Python.  
Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Vous pouvez créer un test de classification de texte sur pilote automatique par programmation en appelant l'action [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API dans n'importe quel langage pris en charge par Amazon SageMaker Autopilot ou le. AWS CLI

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section [Voir aussi](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) de `CreateAutoMLJobV2` et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` dans le kit AWS SDK pour Python (Boto3).

Vous trouverez ci-dessous un ensemble de paramètres de demande d'entrée obligatoires et facultatifs pour l'action d'API `CreateAutoMLJobV2` utilisée dans la classification de texte.

## Paramètres requis
<a name="text-classification-api-required-params"></a>

Lorsque vous appelez `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` pour créer une expérience Autopilot de classification de texte, vous devez fournir les valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` pour spécifier le nom de votre tâche.
+ Au moins un paramètre `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` dans `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` pour spécifier votre source de données.
+ Un paramètre `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)` de type `[TextClassificationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextClassificationJobConfig.html)`. 
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

Tous les autres paramètres sont facultatifs.

## Paramètres facultatifs
<a name="text-classification-api-optional-params"></a>

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche AutoML de classification de texte.

### Comment spécifier les jeux de données d'entraînement et de validation d'une tâche AutoML
<a name="text-classification-data-training-or-validation"></a>

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

Chaque [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)objet (voir le paramètre obligatoire [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)) possède un`ChannelType`, qui peut être défini sur l'une `training` ou l'autre des `validation` valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. 

Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation. Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données. 

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.
+ Si vous n'avez qu'**une source de données**, `ChannelType` est défini sur `training` par défaut et doit avoir cette valeur.
  + Si la valeur `ValidationFraction` de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut. 
  + Si `ValidationFraction` est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
+ Si vous disposez de **deux sources de données**, le `ChannelType` de l'un des objets `AutoMLJobChannel` doit être défini sur `training` (valeur par défaut). Le `ChannelType` de l'autre source de données doit être défini sur `validation`. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de `ValidationFraction` dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

### Comment spécifier la configuration de déploiement automatique du modèle pour une tâche AutoML
<a name="text-classification-auto-model-deployment"></a>

Pour activer le déploiement automatique pour le meilleur modèle candidat d'une tâche AutoML, incluez un élément `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans la demande de tâche AutoML. Cela permettra de déployer le meilleur modèle sur un terminal d' SageMaker IA. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.
+ Pour permettre à Autopilot de générer le nom du point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)` sur `True`.
+ Pour fournir votre propre nom pour le point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents) to False and provide a name of your choice in [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)`.

# Format des jeux de données et métrique d'objectif pour la classification de texte
<a name="text-classification-data-format-and-metric"></a>

Dans cette section, nous découvrons les formats disponibles pour les jeux de données utilisés dans la classification de texte ainsi que la métrique utilisée pour évaluer la qualité prédictive des modèles candidats de machine learning. Les métriques calculées pour les candidats sont spécifiées à l'aide d'un tableau de types [MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html).

## Formats des jeux de données
<a name="text-classification-data-format"></a>

Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou de fichiers Parquet. Pour les données tabulaires, chaque colonne contient une ressource avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.
+ **CSV** (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
+ **Parquet** est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Les **types de données** acceptés pour les colonnes incluent les types numériques, catégoriels et textuels.

Le pilote automatique permet de créer des modèles d'apprentissage automatique sur de grands ensembles de données allant jusqu'à des centaines de. GBs Pour en savoir plus sur les limites de ressources par défaut pour les ensembles de données d'entrée et sur la manière de les augmenter, consultez les quotas [Amazon SageMaker Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-quotas.html).

## Métrique d’objectif
<a name="text-classification-objective-metric"></a>

La liste suivante contient les noms des métriques qui sont actuellement disponibles pour mesurer les performances des modèles pour la classification de texte.

**`Accuracy`**  
 Rapport entre le nombre d’éléments correctement classés et le nombre total d’éléments classés (correctement ou non). La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). La valeur 1 indique une précision parfaite et 0 indique une imprécision parfaite.

# Déploiement de modèles Autopilot pour l’inférence en temps réel
<a name="text-classification-deploy-models"></a>

Après avoir entraîné vos modèles Amazon SageMaker Autopilot, vous pouvez configurer un point de terminaison et obtenir des prédictions de manière interactive. La section suivante décrit les étapes à suivre pour déployer votre modèle sur un point de terminaison d'inférence en temps réel basé sur l' SageMaker IA afin d'obtenir des prédictions à partir de votre modèle.

## Inférence en temps réel
<a name="autopilot-deploy-models-text-image-classification-realtime"></a>

L’inférence en temps réel est idéale pour les charges de travail d’inférence où vous avez des exigences en temps réel, interactives et à faible latence. Cette section montre comment vous pouvez utiliser l’inférence en temps réel pour obtenir des prévisions interactives à partir de votre modèle.

Vous pouvez l'utiliser SageMaker APIs pour déployer manuellement le modèle qui a produit la meilleure métrique de validation dans une expérience de pilote automatique comme suit.

Vous pouvez également choisir l'option de déploiement automatique lors de la création de votre expérience Autopilot. Pour en savoir plus sur la configuration du déploiement automatique de modèles, consultez `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans les paramètres de demande de `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestParameters)`. Cela crée automatiquement un point de terminaison.

**Note**  
Pour éviter des frais inutiles, vous pouvez supprimer le point de terminaison inutile et les ressources créées dans le cadre du déploiement de modèle. Pour plus d'informations sur la tarification des instances par région, consultez [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

1. **Obtention des définitions de conteneurs candidats**

   Obtenez les définitions des conteneurs candidats auprès de [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers). Une définition de conteneur pour l'inférence fait référence à l'environnement conteneurisé conçu pour déployer et exécuter votre modèle d' SageMaker IA entraîné afin de faire des prédictions. 

   L'exemple de AWS CLI commande suivant utilise l'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) pour obtenir les définitions du meilleur modèle candidat.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. **Liste des candidats**

   L'exemple de AWS CLI commande suivant utilise l'[ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API pour répertorier tous les modèles candidats.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Création d'un modèle d' SageMaker IA**

   Utilisez les définitions de conteneur des étapes précédentes et un candidat de votre choix pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker create-model --model-name '<your-candidate-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Créer une configuration de point de terminaison**

   L'exemple de AWS CLI commande suivant utilise l'[CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API pour créer une configuration de point de terminaison.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' \
                       --region '<region>'
   ```

1. **Créer le point de terminaison** 

   L' AWS CLI exemple suivant utilise l'[CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API pour créer le point de terminaison.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Vérifiez la progression du déploiement de votre terminal à l'aide de l'[DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

1. **Appeler le point de terminaison** 

   La structure de commande suivante appelle le point de terminaison pour une inférence en temps réel.

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-data>' [--content-type] '<content-type>' <outfile>
   ```

# Rapport d'explicabilité
<a name="text-classification-explainability-report"></a>

Amazon SageMaker Autopilot fournit un rapport explicatif pour expliquer comment le meilleur modèle candidat fait des prédictions en cas de problèmes de classification de texte. Ce rapport peut aider les ingénieurs ML, les chefs de produit et d'autres intervenants internes à comprendre les caractéristiques du modèle. Les consommateurs et les régulateurs s'appuient sur la transparence du machine learning pour approuver et interpréter les décisions prises sur la base des prédictions du modèle. Vous pouvez utiliser ces explications pour auditer et appliquer les exigences réglementaires, renforcer la confiance dans le modèle, soutenir la prise de décisions humaines, ainsi que déboguer et améliorer les performances du modèle.

La fonctionnalité explicative d'Autopilot pour la classification de texte utilise la méthode d'attribution axiomatique des *gradients intégrés*. Cette approche repose sur une implémentation d'une [attribution axiomatique pour les réseaux profonds](https://arxiv.org/pdf/1703.01365.pdf) (langue française non garantie).

Autopilot génère le rapport d'explicabilité sous la forme d'un fichier JSON. Le rapport inclut des détails d'analyse basés sur le jeu de données de validation. Chaque échantillon utilisé pour générer le rapport contient les informations suivantes :
+ `text` : contenu du texte d'entrée expliqué.
+ `token_scores` : liste des scores pour chaque jeton dans le texte.
+ 
  + `attribution` : score illustrant l'importance du jeton.
  + `description.partial_text` : sous-chaîne partielle qui représente le jeton.
+ `predicted_label` : classe d'étiquettes prédite par le meilleur modèle candidat.
+ `probability` : confiance avec laquelle l'étiquette `predicted_label` a été prédite.

Vous trouverez le préfixe Amazon S3 des artefacts d'explicabilité générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.Explainability](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-Explainability)`.

Voici un exemple de contenu d'analyse que vous pouvez trouver dans les artefacts d'explicabilité.

```
{
    "text": "It was a fantastic movie!",
    "predicted_label": 2,
    "probability": 0.9984835,
    "token_scores": [
        {
            "attribution": 0,
            "description": {
                "partial_text": "It"
            }
        },
        {
            "attribution": -0.022447118861679088,
            "description": {
                "partial_text": "was"
            }
        },
        {
            "attribution": -0.2164326456817965,
            "description": {
                "partial_text": "a"
            }
        },
        {
            "attribution": 0.675,
            "description": {
                "partial_text": "fantastic"
            }
        },
        {
            "attribution": 0.416,
            "description": {
                "partial_text": "movie!"
            }
        }
    ]
}
```

Dans cet échantillon du rapport JSON, la fonctionnalité explicative évalue le texte `It was a fantastic movie!` et note la contribution de chacun de ses jetons à l'étiquette prédite globale. L'étiquette prédite est `2`, ce qui correspond à un fort sentiment positif, avec une probabilité de 99,85 %. L'échantillon JSON détaille ensuite la contribution de chaque jeton individuel à cette prédiction. Par exemple, le jeton `fantastic` a une attribution plus forte que le jeton `was`. C'est le jeton qui a le plus contribué à la prédiction finale.

# Rapport de performances d'un modèle
<a name="text-classification-model-performance-report"></a>

Un rapport sur la qualité du modèle Amazon SageMaker AI (également appelé rapport de performance) fournit des informations et des informations de qualité sur le meilleur modèle candidat généré par une tâche AutoML. Cela inclut des informations sur les détails de la tâche, le type de problème du modèle, la fonction objectif et diverses métriques. Cette section détaille le contenu d'un rapport de performances pour les problèmes de classification de texte et explique comment accéder aux métriques en tant que données brutes dans un fichier JSON.

Vous trouverez le préfixe Amazon S3 des artefacts du rapport de qualité du modèle générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.ModelInsights](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-ModelInsights)`.

Le rapport de performances contient deux sections :
+ La première section contient des détails sur la tâche Autopilot qui a produit le modèle.
+  La seconde section contient un rapport de qualité du modèle avec différentes métriques de performances.

## Détails de la tâche Autopilot
<a name="text-classification-performance-report-jobdetails"></a>

La première section du rapport fournit des informations générales sur la tâche Autopilot qui a produit le modèle. Ces détails incluent les informations suivantes :
+ Nom du candidat Autopilot : nom du meilleur modèle candidat.
+ Nom de la tâche Autopilot : nom de la tâche.
+ Type de problème : le type de problème. Dans notre cas, *classification de texte*.
+ Métrique d'objectif : métrique d'objectif utilisée pour optimiser les performances du modèle. Dans notre cas, la *précision*.
+ Direction de l'optimisation : indique s'il faut minimiser ou maximiser la métrique d'objectif.

## Rapport de qualité du modèle
<a name="text-classification-performance-report-modelquality"></a>

Des informations sur la qualité du modèle sont générées par les analyses du modèle Autopilot. Le contenu du rapport généré dépend du type de problème pris en compte. Le rapport spécifie le nombre de lignes incluses dans le jeu de données d’évaluation et le moment auquel l’évaluation a eu lieu.

### Tableaux de métriques
<a name="text-classification-model-quality-report-metrics"></a>

La première partie du rapport sur la qualité du modèle contient des tableaux de métriques. Ils sont adaptés au type de problème traité par le modèle.

L'image suivante est un exemple de table de métriques générée par Autopilot pour un problème de classification d'image ou de texte. Il indique le nom, la valeur et l'écart type de la métrique.

![\[Exemple de rapport de statistiques de classification d'images ou de textes d'Amazon SageMaker Autopilot Model Insights.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-multiclass-metrics-report.png)


### Informations graphiques sur les performances du modèle
<a name="text-classification-model-quality-report-graphs"></a>

La deuxième partie du rapport sur la qualité du modèle contient des informations graphiques qui vous aident à évaluer les performances du modèle. Le contenu de cette section dépend du type de problème sélectionné.

#### Matrice Confusion
<a name="text-classification--model-insights-confusion-matrix"></a>

Une matrice de confusion permet de visualiser la précision des prédictions faites par un modèle de classification binaire et multi-classes pour différents problèmes.

Un résumé des composantes du graphe relatives au **taux de faux positifs** (FPR) et au **taux de vrais positifs** (TPR) est défini comme suit.
+ Prédictions correctes
  + **Vrai positif** (TP, True Positive) : la valeur prédite est 1, et la valeur observée est 1.
  + **Vrai négatif** (TN, True Negative) : la valeur prédite est 0, et la valeur observée est 0.
+ Prédictions erronées
  + **Faux positif** (FP) : la valeur prédite est 1, mais la valeur observée est 0.
  + **Faux négatif** (FN) : la valeur prédite est 0, mais la valeur observée est 1.

La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ Le nombre et le pourcentage de prédictions correctes et incorrectes pour les étiquettes réelles
+ Le nombre et le pourcentage de prédictions exactes sur la diagonale, du coin supérieur gauche au coin inférieur droit
+ Le nombre et le pourcentage de prédictions inexactes sur la diagonale, du coin supérieur droit au coin inférieur gauche

Les prédictions incorrectes d’une matrice de confusion sont les valeurs de confusion.

Le diagramme suivant est un exemple de matrice de confusion pour un problème de classification multi-classes. La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ L’axe vertical est divisé en trois rangées contenant trois étiquettes réelles différentes.
+ L’axe horizontal est divisé en trois colonnes contenant des étiquettes prédites par le modèle.
+ La barre de couleur attribue une tonalité plus foncée à un plus grand nombre d'échantillons afin d'indiquer visuellement le nombre de valeurs classées dans chaque catégorie.

Dans l’exemple ci-dessous, le modèle a correctement prédit 354 valeurs réelles pour l’étiquette **f**, 1094 valeurs pour l’étiquette **i** et 852 valeurs pour l’étiquette **m**. La différence de tonalité indique que le jeu de données n’est pas équilibré, car il existe beaucoup plus d’étiquettes pour la valeur **i** que pour **f** ou **m**.

![\[Exemple de matrice de confusion multiclasse Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-multiclass.png)


La matrice de confusion du rapport sur la qualité du modèle fourni peut prendre en charge un maximum de 15 étiquettes pour les types de problèmes de classification multi-classes. Si une ligne correspondant à une étiquette affiche une valeur `Nan`, cela signifie que le jeu de données de validation utilisé pour vérifier les prédictions modélisées ne contient pas de données portant cette étiquette.