Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# SageMaker Pilote automatique
<a name="autopilot-automate-model-development"></a>

**Important**  
Depuis le 30 novembre 2023, l'interface utilisateur d'Autopilot migre vers [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html) dans le cadre de la mise à jour de l'expérience [Amazon SageMaker ](studio-updated.md) Studio. SageMaker Canvas fournit aux analystes et aux scientifiques des données citoyens des fonctionnalités sans code pour des tâches telles que la préparation des données, l'ingénierie des fonctionnalités, la sélection d'algorithmes, la formation et le réglage, l'inférence, etc. Les utilisateurs peuvent tirer parti des visualisations intégrées et des analyses hypothétiques pour explorer leurs données et différents scénarios, grâce à des prédictions automatisées qui leur permettent de produire facilement leurs modèles. Canvas prend en charge divers cas d’utilisation, notamment la vision par ordinateur, la prévision de la demande, la recherche intelligente et l’IA générative.  
 Les utilisateurs d'[Amazon SageMaker Studio Classic, version](studio.md) précédente de [Studio](studio-updated.md), peuvent continuer à utiliser l'interface utilisateur du pilote automatique dans Studio Classic. Les utilisateurs expérimentés en codage peuvent continuer à utiliser toutes les [Références des API](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html) de tous les kits SDK pris en charge pour la mise en œuvre technique.  
Si vous avez utilisé le pilote automatique dans Studio Classic jusqu'à présent et que vous souhaitez migrer vers SageMaker Canvas, vous devrez peut-être accorder des autorisations supplémentaires à votre profil utilisateur ou à votre rôle IAM afin de pouvoir créer et utiliser l' SageMaker application Canvas. Pour de plus amples informations, veuillez consulter [(Facultatif) Migrer du pilote automatique dans Studio Classic vers Canvas SageMaker](studio-updated-migrate-ui.md#studio-updated-migrate-autopilot).  
[Toutes les instructions relatives à l'interface utilisateur contenues dans ce guide concernent les fonctionnalités autonomes d'Autopilot avant la migration vers Amazon Canvas. SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html) Les utilisateurs qui suivent ces instructions doivent utiliser [Studio Classic](studio.md).

Amazon SageMaker Autopilot est un ensemble de fonctionnalités qui simplifie et accélère les différentes étapes du flux de travail d'apprentissage automatique en automatisant le processus de création et de déploiement de modèles d'apprentissage automatique (AutoML). La page suivante explique les informations clés concernant Amazon SageMaker Autopilot.

Autopilot effectue les tâches clés suivantes que vous pouvez utiliser en mode de pilotage automatique ou avec différents degrés d’assistance humaine :
+ **Analyse des données et prétraitement :** Autopilot identifie votre type de problème spécifique, gère les valeurs manquantes, normalise vos données, sélectionne les caractéristiques et prépare globalement les données d’entraînement des modèles.
+ **Sélection de modèle :** Autopilot explore divers algorithmes et utilise une technique de rééchantillonnage par validation croisée pour générer des métriques qui évaluent la qualité prédictive des algorithmes sur la base de métriques d’objectif prédéfinies.
+ **Optimisation des hyperparamètres :** Autopilot automatise la recherche de configurations d’hyperparamètres optimales.
+ **Entraînement et évaluation des modèles :** Autopilot automatise le processus d’entraînement et d’évaluation des différents modèles candidats. Il divise les données en jeux d’entraînement et de validation, entraîne les modèles candidats sélectionnés à l’aide des données d’entraînement et évalue leurs performances sur la base des données invisibles du jeu de validation. Enfin, il classe les modèles candidats optimisés en fonction de leurs performances et identifie le modèle le plus performant.
+ **Déploiement de modèle :** une fois qu’Autopilot a identifié le modèle le plus performant, il offre la possibilité de le déployer automatiquement en générant les artefacts de modèle et le point de terminaison exposant une API. Les applications externes peuvent envoyer des données au point de terminaison et recevoir les prédictions ou inférences correspondantes.

Le pilote automatique permet de créer des modèles d'apprentissage automatique sur de grands ensembles de données allant jusqu'à des centaines de. GBs

Le diagramme suivant illustre les tâches du processus AutoML géré par Autopilot.

![\[Présentation du processus SageMaker AutoML d'Amazon Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/Autopilot-process-graphic-1.png)


Selon votre niveau de confort avec le processus de machine learning et votre expérience de codage, vous pouvez utiliser Autopilot de différentes manières :
+ **Via l’interface utilisateur de Studio Classic**, les utilisateurs peuvent choisir entre une expérience sans programmation ou un certain niveau d’intervention humaine.
**Note**  
Seules les expériences créées à partir de données tabulaires pour des types de problèmes tels que la régression ou la classification sont disponibles via l’interface utilisateur de Studio Classic.
+ **À l'aide de l'API AutoML**, les utilisateurs expérimentés en codage peuvent utiliser Available SDKs pour créer des tâches AutoML. Cette approche offre une plus grande flexibilité et des options de personnalisation, et est disponible pour tous les types de problèmes.

Autopilot prend actuellement en charge les types de problèmes suivants :

**Note**  
Pour les problèmes de régression ou de classification impliquant des données tabulaires, les utilisateurs peuvent choisir entre deux options : utiliser l’interface utilisateur de Studio Classic ou la [Référence des API](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html).  
Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’[API REST AutoML](autopilot-reference.md). Si le langage de votre choix est Python, vous pouvez vous référer [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)directement à [MLV2 l'objet Auto](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du SDK Amazon SageMaker Python.  
Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.
+ **Classification de type régression, binaire ou multi-classes** avec données tabulaires sous forme de fichiers CSV ou Parquet dans lesquels chaque colonne contient une fonctionnalité avec un type de données spécifique et où chaque ligne contient une observation. Les types de données acceptés pour les colonnes incluent numérique, catégorie, texte et séries temporelles constituées de chaînes de nombres séparés par des virgules.
  + Pour créer une tâche de pilote automatique en tant qu'expérience pilote à l'aide de la référence d' SageMaker API, voir. [Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML](autopilot-automate-model-development-create-experiment.md)
  + Pour créer une tâche Autopilot en tant qu’expérience pilote à l’aide de l’interface utilisateur Studio Classic, consultez [Création d’une expérience de régression ou de classification Autopilot pour des données tabulaires à l’aide de l’interface utilisateur Studio Classic](autopilot-automate-model-development-create-experiment-ui.md).
  + Si vous êtes un administrateur qui souhaite préconfigurer les paramètres d’infrastructure, de réseau ou de sécurité par défaut des expériences Autopilot dans l’interface utilisateur de Studio Classic, consultez [Configuration des paramètres par défaut d'une expérience Autopilot (pour les administrateurs)](autopilot-set-default-parameters-create-experiment.md). 
+ **Classification de texte** avec des données formatées sous forme de fichiers CSV ou Parquet dans lesquels une colonne fournit les phrases à classer, tandis qu’une autre colonne doit fournir l’étiquette de classe correspondante. Consultez [Création d’une tâche AutoML pour la classification de texte à l’aide de l’API](autopilot-create-experiment-text-classification.md).
+ **Classification d’images** avec des formats d’images tels que PNG, JPEG ou une combinaison des deux. Consultez [Création d’une tâche de classification d’images à l’aide de l’API AutoML](autopilot-create-experiment-image-classification.md).
+ **Prévisions de séries temporelles** avec des données de séries temporelles sous forme de fichiers CSV ou Parquet. Consultez [Création d’une tâche AutoML pour les prévisions de séries temporelles à l’aide de l’API](autopilot-create-experiment-timeseries-forecasting.md).
+ Réglage précis de grands modèles linguistiques (LLMs) pour la **génération de texte** avec des données formatées sous forme de fichiers CSV ou Parquet.Voir. [Création d’une tâche AutoML pour optimiser les modèles de génération de texte à l’aide de l’API](autopilot-create-experiment-finetune-llms.md)

En outre, Autopilot aide les utilisateurs à comprendre comment les modèles font des prédictions en générant automatiquement des rapports qui montrent l’importance de chaque caractéristique individuelle. Cela fournit de la transparence et des renseignements sur les facteurs influençant les prédictions, qui peuvent être utilisés par les équipes chargées des risques et de la conformité et les régulateurs externes. Autopilot fournit également un rapport de performances de modèle, qui comprend un résumé des métriques d’évaluation, une matrice de confusion, diverses visualisations telles que les courbes caractéristiques de fonctionnement du récepteur et les courbes de rappel de précision, etc. Le contenu spécifique de chaque rapport varie en fonction du type de problème de l’expérience Autopilot.

Les rapports d’explicabilité et de performances d’Autopilot pour le meilleur modèle candidat dans une expérience Autopilot sont disponibles pour les types de problèmes liés à la classification du texte, des images et des données tabulaires.

Pour les cas d’utilisation de données tabulaires tels que la régression ou la classification, Autopilot offre une visibilité supplémentaire sur la manière dont les données ont été traitées et dont les modèles candidats ont été sélectionnés, entraînés et réglés, en générant des blocs-notes contenant le code utilisé pour explorer les données et trouver le modèle le plus performant. Ces blocs-notes fournissent un environnement interactif et exploratoire pour vous aider à découvrir l’impact des diverses entrées ou les compromis effectués dans les expériences. Vous pouvez réaliser d’autres expériences avec le modèle candidat le plus performant en apportant vos propres modifications aux blocs-notes d’exploration des données et de définition des candidats fournis par Autopilot. 

Avec Amazon SageMaker AI, vous ne payez que pour ce que vous utilisez. Vous payez pour les ressources de calcul et de stockage sous-jacentes au sein de l' SageMaker IA ou d'autres AWS services, en fonction de votre utilisation. Pour plus d'informations sur le coût d'utilisation de l' SageMaker IA, consultez [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing).

**Topics**
+ [

# Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML
](autopilot-automate-model-development-create-experiment.md)
+ [

# Création d’une tâche de classification d’images à l’aide de l’API AutoML
](autopilot-create-experiment-image-classification.md)
+ [

# Création d’une tâche AutoML pour la classification de texte à l’aide de l’API
](autopilot-create-experiment-text-classification.md)
+ [

# Création d’une tâche AutoML pour les prévisions de séries temporelles à l’aide de l’API
](autopilot-create-experiment-timeseries-forecasting.md)
+ [

# Création d’une tâche AutoML pour optimiser les modèles de génération de texte à l’aide de l’API
](autopilot-create-experiment-finetune-llms.md)
+ [

# Création d’une expérience de régression ou de classification Autopilot pour des données tabulaires à l’aide de l’interface utilisateur Studio Classic
](autopilot-automate-model-development-create-experiment-ui.md)
+ [

# Exemples de blocs-notes sur Amazon SageMaker Autopilot
](autopilot-example-notebooks.md)
+ [

# Vidéos : utilisation d’Autopilot pour automatiser et explorer le processus de machine learning
](autopilot-videos.md)
+ [

# Quotas Autopilot
](autopilot-quotas.md)
+ [

# Guide de référence des API pour Autopilot
](autopilot-reference.md)

# Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML
<a name="autopilot-automate-model-development-create-experiment"></a>

Vous pouvez créer une tâche Autopilot de régression ou de classification pour les données tabulaires par programmation en appelant l’action d’API [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html) dans n’importe quel langage pris en charge par Autopilot ou par l’ AWS CLI. Vous trouverez ci-dessous un ensemble de paramètres de demande d’entrée obligatoires ou facultatifs pour l’action d’API `CreateAutoMLJobV2`. Vous pouvez trouver les informations alternatives pour la version précédente de cette action, `CreateAutoMLJob`. Toutefois, nous vous recommandons d'utiliser `CreateAutoMLJobV2`. 

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section [Voir aussi](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) de `CreateAutoMLJobV2` et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` dans le kit AWS SDK pour Python (Boto3).

**Note**  
[CreateAutoMLJobLes versions [DescribeAutoMLJobV2 et V2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) sont de nouvelles versions de [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)et [DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)offrent une rétrocompatibilité.](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)  
Nous vous recommandons d’utiliser `CreateAutoMLJobV2`. `CreateAutoMLJobV2` peut gérer des types de problèmes tabulaires identiques à ceux de sa version précédente `CreateAutoMLJob`, ainsi que des types de problèmes non tabulaires, tels que la classification d’images ou de texte, et les prédictions de séries temporelles.

Au minimum, toutes les expériences sur des données tabulaires nécessitent de spécifier le nom de l’expérience, de fournir des emplacements pour les données d’entrée et de sortie, et de spécifier les données cibles à prédire. Facultatif : Vous pouvez également spécifier le type de problème que vous souhaitez résoudre (régression, classification, classification multi-classes), choisir votre stratégie de modélisation (*ensembles empilés* ou *optimisation des hyperparamètres*), sélectionner la liste des algorithmes utilisés par la tâche Autopilot pour entraîner les données, etc. 

 Après l’exécution de l’expérience, vous pouvez comparer les essais et examiner en détail les étapes de prétraitement, les algorithmes et les plages d’hyperparamètres de chaque modèle. Vous avez également la possibilité de télécharger leurs rapports d’[explicabilité](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-explainability.html) et de [performance](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-insights.html). Utilisez les [blocs-notes](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-notebook-output.html ) fournis pour voir les résultats de l’exploration automatique des données ou les définitions de modèles candidats.

Trouvez les instructions indiquant comment migrer `CreateAutoMLJob` vers `CreateAutoMLJobV2` dans [Migrer de a CreateAuto MLJob vers la CreateAuto MLJob V2](#autopilot-create-experiment-api-migrate-v1-v2).

## Paramètres requis
<a name="autopilot-create-experiment-api-required-params"></a>

------
#### [ CreateAutoMLJobV2 ]

Lorsque vous appelez `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` pour créer une expérience Autopilot pour des données tabulaires, vous devez fournir les valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` pour spécifier le nom de votre tâche.
+ Au moins un paramètre `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` dans `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` pour spécifier votre source de données.
+ À la fois une métrique `[AutoMLJobObjective](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobObjective)` et le type de problème d’apprentissage supervisé que vous avez choisi (classification binaire, classification multi-classes, régression) dans `AutoMLProblemTypeConfig`, ou aucun des deux. Pour les données tabulaires, vous devez choisir `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` comme type de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`. Vous définissez le problème d’apprentissage supervisé dans l’attribut `ProblemType` de `TabularJobConfig`.
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

------
#### [ CreateAutoMLJob ]

Lorsque vous appelez `[CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)` pour créer une expérience AutoML, vous devez fournir les quatre valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-AutoMLJobName)` pour spécifier le nom de votre tâche.
+ Au moins un paramètre `[AutoMLChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)` dans `[InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-InputDataConfig)` pour spécifier votre source de données.
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

------

Tous les autres paramètres sont facultatifs.

## Paramètres facultatifs
<a name="autopilot-create-experiment-api-optional-params"></a>

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre action d’API `CreateAutoMLJobV2` lorsque vous utilisez des données tabulaires. Vous pouvez trouver les informations alternatives pour la version précédente de cette action, `CreateAutoMLJob`. Toutefois, nous vous recommandons d'utiliser `CreateAutoMLJobV2`.

### Comment définir le mode d’entraînement d’une tâche AutoML
<a name="autopilot-set-training-mode"></a>

Pour les données tabulaires, l’ensemble d’algorithmes exécutés sur vos données pour entraîner vos modèles candidats dépend de votre stratégie de modélisation (`ENSEMBLING` ou `HYPERPARAMETER_TUNING`). Vous trouverez ci-dessous des informations sur la façon de définir ce mode d’entraînement.

Si vous laissez le champ vide (ou `null`), le `Mode` est déduit en fonction de la taille de votre jeu de données.

Pour en savoir plus sur les méthodes d’entraînement d’Autopilot par *ensembles empilés* et par *optimisation des hyperparamètres*, consultez [Modes d’entraînement et prise en charge des algorithmes](autopilot-model-support-validation.md).

------
#### [ CreateAutoMLJobV2 ]

Pour les données tabulaires, vous devez choisir `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` comme type de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Vous pouvez définir la [méthode d’entraînement](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html) d’une tâche AutoML V2 à l’aide du paramètre `[TabularJobConfig.Mode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)`.

------
#### [ CreateAutoMLJob ]

Vous pouvez définir la [méthode d’entraînement](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html) d’une tâche AutoML à l’aide du paramètre `[AutoMLJobConfig.Mode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-Mode)`.

------

### Comment sélectionner des caractéristiques et des algorithmes pour l’entraînement d’une tâche AutoML
<a name="autopilot-feature-selection"></a>

#### Sélection des fonctionnalités
<a name="autopilot-automl-job-feature-selection-api"></a>

Autopilot fournit des étapes de prétraitement automatique des données, notamment la sélection et l’extraction des caractéristiques. Toutefois, vous pouvez fournir manuellement les caractéristiques à utiliser lors de l’entraînement avec l’attribut `FeatureSpecificatioS3Uri`.

Les fonctionnalités sélectionnées doivent être contenues dans un fichier JSON au format suivant :

```
{ "FeatureAttributeNames":["col1", "col2", ...] }
```

Les valeurs répertoriées dans `["col1", "col2", ...]` ne sont pas sensibles à la casse. Il doit s’agir d’une liste de chaînes contenant des valeurs uniques qui sont des sous-ensembles des noms de colonnes dans les données d’entrée.

**Note**  
La liste des colonnes fournies en tant que fonctionnalités ne peut pas inclure la colonne cible.

------
#### [ CreateAutoMLJobV2 ]

Pour les données tabulaires, vous devez choisir `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` comme type de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Vous pouvez définir l’URL sur les caractéristiques que vous avez sélectionnées à l’aide du paramètre `[TabularJobConfig.FeatureSpecificationS3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)`.

------
#### [ CreateAutoMLJob ]

Vous pouvez définir l'`FeatureSpecificatioS3Uri`attribut [Auto MLCandidate GenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html) dans l'[CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)API au format suivant :

```
{
    "[AutoMLJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-AutoMLJobConfig)": {
        "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-CandidateGenerationConfig)": {
            "[FeatureSpecificationS3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html#sagemaker-Type-AutoMLCandidateGenerationConfig-FeatureSpecificationS3Uri)":"string"
            },
       }
  }
```

------

#### Sélection des algorithmes
<a name="autopilot-automl-job-algorithms-selection-api"></a>

Par défaut, votre tâche Autopilot exécute une liste prédéfinie d’algorithmes sur votre jeu de données afin d’entraîner les modèles candidats. La liste des algorithmes dépend du mode d’entraînement (`ENSEMBLING` ou `HYPERPARAMETER_TUNING`) utilisé par la tâche.

Vous pouvez fournir un sous-ensemble de la sélection par défaut d’algorithmes.

------
#### [ CreateAutoMLJobV2 ]

Pour les données tabulaires, vous devez choisir `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` comme type de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Vous pouvez spécifier un tableau de sélectionnés `AutoMLAlgorithms` dans l'`AlgorithmsConfig`attribut de [CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html).

Voici un exemple d'attribut `AlgorithmsConfig` répertoriant exactement trois algorithmes (« xgboost », « fastai », « catboost ») dans son champ `AutoMLAlgorithms` pour le mode d'entraînement ensembliste.

```
{
   "[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)": {
        "[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)": {
          "[Mode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)": "ENSEMBLING",
          "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html)": {
            "[AlgorithmsConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html#sagemaker-Type-CandidateGenerationConfig-AlgorithmsConfig)":[
               {"[AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html)":["xgboost", "fastai", "catboost"]}
            ]
         },
       },
     },
  }
```

------
#### [ CreateAutoMLJob ]

Vous pouvez spécifier un tableau de sélectionnés `AutoMLAlgorithms` dans l'`AlgorithmsConfig`attribut [Auto MLCandidate GenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html).

Voici un exemple d'attribut `AlgorithmsConfig` répertoriant exactement trois algorithmes (« xgboost », « fastai », « catboost ») dans son champ `AutoMLAlgorithms` pour le mode d'entraînement ensembliste.

```
{
   "[AutoMLJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-AutoMLJobConfig)": {
        "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-CandidateGenerationConfig)": {
            "[AlgorithmsConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html#sagemaker-Type-AutoMLCandidateGenerationConfig-AlgorithmsConfig)":[
               {"[AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms)":["xgboost", "fastai", "catboost"]}
            ]
         },
     "Mode": "ENSEMBLING" 
  }
```

------

Pour obtenir la liste des algorithmes disponibles par `Mode` d’entraînement, consultez [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms). Pour plus d'informations sur chaque algorithme, consultez [Modes d’entraînement et prise en charge des algorithmes](autopilot-model-support-validation.md).

### Comment spécifier les jeux de données d’entraînement et de validation d’une tâche AutoML
<a name="autopilot-data-sources-training-or-validation"></a>

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

------
#### [ CreateAutoMLJobV2 ]

Chaque [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)objet (voir le paramètre obligatoire [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)) possède un`ChannelType`, qui peut être défini sur l'une `training` ou l'autre des `validation` valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation.

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.
+ Si vous n'avez qu'**une source de données**, `ChannelType` est défini sur `training` par défaut et doit avoir cette valeur.
  + Si la valeur `ValidationFraction` de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut. 
  + Si `ValidationFraction` est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
+ Si vous disposez de **deux sources de données**, le `ChannelType` de l'un des objets `AutoMLJobChannel` doit être défini sur `training` (valeur par défaut). Le `ChannelType` de l'autre source de données doit être défini sur `validation`. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de `ValidationFraction` dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

------
#### [ CreateAutoMLJob ]

Chaque [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)objet (voir le paramètre requis [InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-InputDataConfig)) possède un`ChannelType`, qui peut être défini sur l'une `training` ou l'autre des `validation` valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation.

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.
+ Si vous n'avez qu'**une source de données**, `ChannelType` est défini sur `training` par défaut et doit avoir cette valeur.
  + Si la valeur `ValidationFraction` de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut. 
  + Si `ValidationFraction` est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
+ Si vous disposez de **deux sources de données**, le `ChannelType` de l'un des objets `AutoMLChannel` doit être défini sur `training` (valeur par défaut). Le `ChannelType` de l'autre source de données doit être défini sur `validation`. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de `ValidationFraction` dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

------

Pour en savoir plus sur la répartition et la validation croisée dans Autopilot, consultez [Validation croisée dans Autopilot](autopilot-metrics-validation.md#autopilot-cross-validation).

### Comment définir le type de problème d’une tâche AutoML
<a name="autopilot-set-problem-type-api"></a>

------
#### [ CreateAutoMLJobV2 ]

Pour les données tabulaires, vous devez choisir `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` comme type de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Vous pouvez également spécifier le type de problème d’apprentissage supervisé (classification binaire, classification multi-classes, régression) disponible pour les modèles candidats de votre tâche AutoML V2 à l’aide du paramètre `[TabularJobConfig.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)`.

------
#### [ CreateAutoMLJob ]

Vous pouvez définir le [type de problème](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-datasets-problem-types.html#autopilot-problem-types) sur une tâche AutoML avec le paramètre `[CreateAutoPilot.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-ProblemType)`. Cela limite le type de prétraitement et les algorithmes essayés par Autopilot. Une fois la tâche terminée, si vous aviez défini l’élément `[CreateAutoPilot.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-ProblemType)`, l’élément `[ResolvedAttribute.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ResolvedAttributes.html)` correspond au `ProblemType` que vous avez défini. Si vous le laissez vide (ou `null`), le `ProblemType` est déduit à votre place. 

------

**Note**  
Dans certains cas, lorsque Autopilot ne peut pas inférer le `ProblemType` avec une fiabilité suffisante, vous devez fournir cette valeur pour que la tâche réussisse.

### Comment ajouter des poids d’échantillons à une tâche AutoML
<a name="autopilot-add-sample-weights-api"></a>

Vous pouvez ajouter une colonne de poids d’échantillons à votre jeu de données tabulaire, puis la transmettre à votre tâche AutoML pour demander à ce que les lignes du jeu de données soient pondérées pendant l’entraînement et l’évaluation.

La prise en charge des poids d’échantillons est disponible en [mode ensembliste](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html#autopilot-training-mode) uniquement. Vos poids doivent être numériques et non négatifs. Les points de données sans valeur de poids ou avec une valeur de poids non valide sont exclus. Pour plus d’informations sur les métriques d’objectif disponibles, consultez [Métriques pondérées Autopilot](autopilot-metrics-validation.md#autopilot-weighted-metrics).

------
#### [ CreateAutoMLJobV2 ]

Pour les données tabulaires, vous devez choisir `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` comme type de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Pour définir les poids d'échantillon lors de la création d'une expérience (voir [CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)), vous pouvez transmettre le nom de votre colonne de poids d'échantillon dans l'`SampleWeightAttributeName`attribut de l'`TabularJobConfig`objet. Cela garantit que votre métrique d'objectif utilisera les poids pour l'entraînement, l'évaluation et la sélection des modèles candidats.

------
#### [ CreateAutoMLJob ]

Pour définir les poids d'échantillon lors de la création d'une expérience (voir [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)), vous pouvez transmettre le nom de votre colonne de poids d'échantillon dans l'`SampleWeightAttributeName`attribut de l'MLChannelobjet [Auto](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html). Cela garantit que votre métrique d'objectif utilisera les poids pour l'entraînement, l'évaluation et la sélection des modèles candidats.

------

### Comment configurer AutoML afin de lancer une tâche distante sur EMR sans serveur pour des jeux de données volumineux
<a name="autopilot-set-emr-serverless-api-tabular"></a>

Vous pouvez configurer votre tâche AutoML V2 afin de lancer automatiquement une tâche distante sur Amazon EMR sans serveur lorsque des ressources de calcul supplémentaires sont nécessaires pour traiter des jeux de données volumineux. Grâce à une transition fluide vers EMR sans serveur lorsque cela est nécessaire, la tâche AutoML peut gérer des jeux de données qui dépasseraient autrement les ressources initialement provisionnées, sans aucune intervention manuelle de votre part. EMR sans serveur est disponible pour les types de problèmes de données tabulaires et de séries temporelles. Nous recommandons de configurer cette option pour les jeux de données tabulaires de plus de 5 Go.

Pour permettre à votre tâche AutoML V2 de basculer automatiquement vers EMR sans serveur pour les jeux de données volumineux, vous devez fournir un objet `EmrServerlessComputeConfig`, comprenant un champ `ExecutionRoleARN`, à la classe `AutoMLComputeConfig` de la demande d’entrée de la tâche AutoML V2.

`ExecutionRoleARN` est l’ARN du rôle IAM octroyant à la tâche AutoML V2 les autorisations nécessaires pour exécuter des tâches EMR sans serveur.

Ce rôle doit avoir la relation d’approbation suivante :

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "emr-serverless.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}
```

------

Et octroyer les autorisations pour :
+ créer, répertorier et mettre à jour des applications EMR sans serveur ;
+ démarrer, répertorier, obtenir ou annuler des tâches exécutées sur une application EMR sans serveur ;
+ baliser les ressources EMR sans serveur ;
+ transmettre un rôle IAM au service EMR sans serveur pour l’exécution.

  En octroyant l’autorisation `iam:PassRole`, la tâche AutoML V2 peut assumer temporairement le rôle `EMRServerlessRuntimeRole-*` et le transmettre au service EMR sans serveur. Il s'agit des rôles IAM utilisés par les environnements d'exécution de tâches EMR sans serveur pour accéder à AWS d'autres services et ressources nécessaires pendant l'exécution, tels qu'Amazon S3 pour l'accès aux données, pour la journalisation CloudWatch , l'accès au catalogue de données ou à AWS Glue d'autres services en fonction de vos exigences en matière de charge de travail.

  Consultez [Rôles d’exécution des tâches pour Amazon EMR sans serveur](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-iam-runtime-role.html) pour plus de détails sur les autorisations associées à ces rôles.

La politique IAM définie dans le document JSON fourni accorde les autorisations suivantes :

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [{
            "Sid": "EMRServerlessCreateApplicationOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:CreateApplication",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessListApplicationOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:ListApplications",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessApplicationOperations",
            "Effect": "Allow",
            "Action": [
                "emr-serverless:UpdateApplication",
                "emr-serverless:GetApplication"
            ],
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessStartJobRunOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:StartJobRun",
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessListJobRunOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:ListJobRuns",
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessJobRunOperations",
            "Effect": "Allow",
            "Action": [
                "emr-serverless:GetJobRun",
                "emr-serverless:CancelJobRun"
            ],
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessTagResourceOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:TagResource",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "IAMPassOperationForEMRServerless",
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*",
            "Condition": {
                "StringEquals": {
                    "iam:PassedToService": "emr-serverless.amazonaws.com",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
         }
    ]
}
```

------

## Migrer de a CreateAuto MLJob vers la CreateAuto MLJob V2
<a name="autopilot-create-experiment-api-migrate-v1-v2"></a>

Nous recommandons aux utilisateurs de l’action `CreateAutoMLJob` de migrer vers l’action `CreateAutoMLJobV2`.

Cette section explique les différences entre les paramètres d'entrée [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#API_CreateAutoMLJob_RequestSyntax)et [CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax) en mettant en évidence les changements de position, de nom ou de structure des objets et des attributs de la demande d'entrée entre les deux versions.
+ **Attributs de demande qui n’ont pas changé entre les versions.**

  ```
  {
     "AutoMLJobName": "string",
     "AutoMLJobObjective": { 
        "MetricName": "string"
     },
     "ModelDeployConfig": { 
        "AutoGenerateEndpointName": boolean,
        "EndpointName": "string"
     },
     "OutputDataConfig": { 
        "KmsKeyId": "string",
        "S3OutputPath": "string"
     },
     "RoleArn": "string",
     "Tags": [ 
        { 
           "Key": "string",
           "Value": "string"
        }
     ]
  }
  ```
+ **Attributs de demande qui ont changé de position et de structure entre les versions.**

  Les attributs suivants ont changé de position : `DataSplitConfig`, `Security Config`, `CompletionCriteria`, `Mode`, `FeatureSpecificationS3Uri`, `SampleWeightAttributeName`, `TargetAttributeName`.

------
#### [ CreateAutoMLJob ]

  ```
  { 
      "AutoMLJobConfig": { 
          "Mode": "string",
          "CompletionCriteria": { 
              "MaxAutoMLJobRuntimeInSeconds": number,
              "MaxCandidates": number,
              "MaxRuntimePerTrainingJobInSeconds": number
          },
          "DataSplitConfig": { 
              "ValidationFraction": number
          },
          "SecurityConfig": { 
              "EnableInterContainerTrafficEncryption": boolean,
              "VolumeKmsKeyId": "string",
              "VpcConfig": { 
              "SecurityGroupIds": [ "string" ],
              "Subnets": [ "string" ]
              }
          },
          "CandidateGenerationConfig": { 
              "FeatureSpecificationS3Uri": "string"
          }
      },
      "GenerateCandidateDefinitionsOnly": boolean,
      "ProblemType": "string"
  }
  ```

------
#### [ CreateAutoMLJobV2 ]

  ```
  {       
      "AutoMLProblemTypeConfig": {
          "TabularJobConfig": {
              "Mode": "string",
              "ProblemType": "string",
              "GenerateCandidateDefinitionsOnly": boolean,
              "CompletionCriteria": { 
                  "MaxAutoMLJobRuntimeInSeconds": number,
                  "MaxCandidates": number,
                  "MaxRuntimePerTrainingJobInSeconds": number
              },
              "FeatureSpecificationS3Uri": "string",
              "SampleWeightAttributeName": "string",
              "TargetAttributeName": "string"
          }
      },
      "DataSplitConfig": { 
          "ValidationFraction": number
      },
      "SecurityConfig": { 
          "EnableInterContainerTrafficEncryption": boolean,
          "VolumeKmsKeyId": "string",
          "VpcConfig": { 
              "SecurityGroupIds": [ "string" ],
              "Subnets": [ "string" ]
          }
      }
  }
  ```

------
+ **Les attributs suivants ont changé de position et de structure entre les versions.**

  Le JSON suivant illustre le mode [Auto MLJob Config. CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-CandidateGenerationConfig)de type [Auto MLCandidate GenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html) déplacé vers [Auto MLProblemTypeConfig. TabularJobConfig. CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)de type [CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html)V2.

------
#### [ CreateAutoMLJob ]

  ```
  {
     "AutoMLJobConfig": { 
        "CandidateGenerationConfig": { 
           "AlgorithmsConfig": [ 
              { 
                 "AutoMLAlgorithms": [ "string" ]
              }
           ],
           "FeatureSpecificationS3Uri": "string"
        }
  }
  ```

------
#### [ CreateAutoMLJobV2 ]

  ```
  {
      "AutoMLProblemTypeConfig": {
          "TabularJobConfig": {
              "CandidateGenerationConfig": { 
                  "AlgorithmsConfig": [ 
                      { 
                      "AutoMLAlgorithms": [ "string" ]
                      }
                  ],
              },
          }
      },
  }
  ```

------
+ **Attributs de demande dont le nom et la structure ont changé.**

  Le JSON suivant illustre comment [InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-InputDataConfig)(un tableau de [Auto MLChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)) est devenu [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig) (un tableau de [MLJobcanaux automatiques](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)) dans la version V2. Notez que les attributs `SampleWeightAttributeName` et `TargetAttributeName` sortent de `InputDataConfig` et sont placés dans `AutoMLProblemTypeConfig`.

------
#### [ CreateAutoMLJob ]

  ```
  {    
      "InputDataConfig": [ 
          { 
              "ChannelType": "string",
              "CompressionType": "string",
              "ContentType": "string",
              "DataSource": { 
                  "S3DataSource": { 
                      "S3DataType": "string",
                      "S3Uri": "string"
                  }
              },
              "SampleWeightAttributeName": "string",
              "TargetAttributeName": "string"
          }
      ]
  }
  ```

------
#### [ CreateAutoMLJobV2 ]

  ```
  {    
      "AutoMLJobInputDataConfig": [ 
          { 
              "ChannelType": "string",
              "CompressionType": "string",
              "ContentType": "string",
              "DataSource": { 
                  "S3DataSource": { 
                      "S3DataType": "string",
                      "S3Uri": "string"
                  }
              }
          }
      ]
  }
  ```

------

# Jeux de données et types de problèmes Autopilot
<a name="autopilot-datasets-problem-types"></a>

Pour des données tabulaires (c’est-à-dire des données dans lesquelles chaque colonne contient une caractéristique avec un type de données spécifique et où chaque ligne contient une observation), Autopilot vous permet de spécifier le type de problème d’apprentissage supervisé disponible pour les modèles candidats de la tâche AutoML, tel que la classification binaire ou la régression, ou de le détecter à votre place en fonction des données que vous fournissez. Autopilot prend également en charge plusieurs formats et types de données.

**Topics**
+ [

## Jeux de données, types de données et formats Autopilot
](#autopilot-datasets)
+ [

## Types de problèmes Autopilot
](#autopilot-problem-types)

## Jeux de données, types de données et formats Autopilot
<a name="autopilot-datasets"></a>

Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou Parquet : chaque colonne contient une fonctionnalité avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.
+ **CSV** (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
+ **Parquet** est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Les **types de données** acceptés pour les colonnes incluent les types numériques, catégoriels et textuels, ainsi que les séries temporelles constituées de chaînes de nombres séparés par des virgules. Si Autopilot détecte qu’il traite des séquences de **séries temporelles**, il les traite par le biais de transformeurs de caractéristiques spécialisés fournis par la bibliothèque [tsfresh](https://tsfresh.readthedocs.io/en/latest/text/list_of_features.html). Cette bibliothèque prend la série temporelle en entrée et produit une caractéristique telle que la valeur absolue la plus élevée de la série temporelle ou des statistiques descriptives sur l’autocorrélation. Ces ressources générées sont ensuite utilisées comme entrées pour l’un des trois types de problèmes.

Le pilote automatique permet de créer des modèles d'apprentissage automatique sur de grands ensembles de données allant jusqu'à des centaines de. GBs Pour plus d’informations sur les limites des ressources par défaut des jeux de données d’entrée et sur la manière de les augmenter, consultez [Quotas Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-quotas.html).

## Types de problèmes Autopilot
<a name="autopilot-problem-types"></a>

Pour les données tabulaires, vous spécifiez également le type de problèmes d’apprentissage supervisé disponible pour les modèles candidats comme suit :

### Régression
<a name="autopilot-automate-model-development-problem-types-regression"></a>

La régression estime les valeurs d’une variable cible dépendante en fonction d’une ou de plusieurs autres variables ou attributs en corrélation avec elle. Exemple de prédiction des prix des maisons à l’aide de caractéristiques telles que le nombre de salles de bains et de chambres à coucher, la superficie de la maison et du jardin. L’analyse de régression peut créer un modèle qui prend en entrée une ou plusieurs de ces fonctions et prédit le prix d’une maison.

### Classification binaire
<a name="autopilot-automate-model-development-problem-types-binary-classification"></a>

La classification binaire est un type d’apprentissage supervisé qui assigne une personne à l’une des deux classes prédéfinies et mutuellement exclusives en fonction d’attributs. Elle est supervisée parce que les modèles sont entraînés à l’aide d’exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple de classification binaire : diagnostic de maladie basé sur les résultats des tests de diagnostic.

### Classification multi-classes
<a name="autopilot-automate-model-development-problem-types-multiclass-classification"></a>

La classification multi-classes est un type d’apprentissage supervisé qui assigne une personne à une classe parmi plusieurs classes prédéfinies en fonction d’attributs. Elle est supervisée parce que les modèles sont entraînés à l’aide d’exemples dans lesquels les attributs sont fournis avec des objets correctement étiquetés. Exemple : la prédiction de la rubrique la plus pertinente pour un document texte. Un document peut être classé comme portant sur la religion, la stratégie ou les finances, ou sur une classe parmi plusieurs classes de sujets prédéfinis.

# Modes d’entraînement et prise en charge des algorithmes
<a name="autopilot-model-support-validation"></a>

Autopilot prend en charge différents modes et algorithmes d’entraînement pour résoudre les problèmes de machine learning, établir des rapports sur la qualité et les métriques d’objectif, et utiliser automatiquement la validation croisée, si nécessaire.

## Modes d’entraînement
<a name="autopilot-training-mode"></a>

SageMaker Le pilote automatique peut sélectionner automatiquement la méthode d'entraînement en fonction de la taille du jeu de données, ou vous pouvez la sélectionner manuellement. Les options sont les suivantes :
+ **Assemblage** — Le pilote automatique utilise la [AutoGluon](https://auto.gluon.ai/scoredebugweight/tutorials/tabular_prediction/index.html)bibliothèque pour entraîner plusieurs modèles de base. Pour trouver la meilleure combinaison pour votre jeu de données, le mode Assemblage exécute 10 essais avec différentes valeurs de modèle et de méta-paramètres. Autopilot combine ensuite ces modèles à l’aide d’une méthode ensembliste par empilement pour créer un modèle prédictif optimal. Pour obtenir la liste des algorithmes pris en charge par Autopilot en mode ensembliste pour les données tabulaires, consultez la section **Prise en charge des algorithmes** suivante.
+ **Hyperparameter optimization (HPO)** (Optimisation des hyperparamètres (HPO)) : Autopilot identifie la meilleure version d’un modèle en ajustant les hyperparamètres à l’aide de l’optimisation bayésienne ou de l’optimisation multifidélité tout en exécutant des tâches d’entraînement sur votre jeu de données. Le mode HPO sélectionne les algorithmes les plus pertinents pour votre jeu de données et la meilleure gamme d’hyperparamètres pour ajuster vos modèles. Pour ajuster vos modèles, le mode HPO exécute jusqu’à 100 essais (par défaut) afin de trouver les valeurs d’hyperparamètres optimales dans la plage sélectionnée. Si la taille de votre jeu de données est inférieure à 100 Mo, Autopilot utilise l’optimisation bayésienne. Autopilot choisit l’optimisation multifidélité si la taille de votre jeu de données est supérieure à 100 Mo.

  Dans le cadre de l’optimisation multifidélité, des métriques sont émises en continu à partir des conteneurs d’entraînement. Un essai dont les performances sont médiocres par rapport à une métrique objective sélectionnée est arrêté prématurément. Plus de ressources sont allouées à un essai dont les performances sont bonnes. 

  Pour obtenir la liste des algorithmes pris en charge par Autopilot en mode HPO, consultez la section **Prise en charge des algorithmes** suivante. 
+ **Auto** (Automatique) : Autopilot choisit automatiquement le mode Ensembling (Assemblage) ou le mode HPO en fonction de la taille de votre jeu de données. Si la taille de votre jeu de données est supérieure à 100 Mo, Autopilot choisit HPO. Dans le cas contraire, il choisit le mode Assemblage. Autopilot peut ne pas parvenir à lire la taille de votre jeu de données dans les cas suivants.
  + Si vous activez le mode cloud privé virtuel (VPC) pour une tâche AutoML, le compartiment S3 contenant le jeu de données autorise uniquement l’accès à partir du VPC.
  + L'entrée [S3 DataType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLS3DataSource.html#sagemaker-Type-AutoMLS3DataSource-S3DataType) de votre ensemble de données est un`ManifestFile`.
  + L’entrée [S3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLS3DataSource.html#sagemaker-Type-AutoMLS3DataSource-S3Uri) contient plus de 1 000 éléments.

  Si Autopilot ne parvient pas à lire la taille de votre jeu de données, il choisit par défaut le mode HPO.

**Note**  
Pour une exécution et des performances optimales, utilisez le mode d’entraînement par assemblage pour les jeux de données de moins de 100 Mo.

## Prise en charge des algorithmes
<a name="autopilot-algorithm-support"></a>

En **mode HPO**, Autopilot prend en charge les types d’algorithmes de machine learning suivants :
+  [Apprentissage linéaire](https://docs.aws.amazon.com/sagemaker/latest/dg/linear-learner.html) : algorithme d’apprentissage supervisé pouvant résoudre des problèmes de classification ou de régression.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html) : un algorithme d'apprentissage supervisé qui tente de prédire avec précision une variable cible en combinant un ensemble d'estimations à partir d'un jeu de modèles plus simples et plus faibles.
+ Algorithme de deep learning : perceptron multicouche (MLP) et réseau neuronal artificiel à action directe. Cet algorithme traite les données qui ne sont pas linéairement séparables.

**Note**  
Vous ne devez pas nécessairement spécifier un algorithme pour résoudre votre problème de machine learning. Autopilot sélectionne automatiquement l’algorithme qu’il convient d’entraîner. 

En **mode ensembliste**, Autopilot prend en charge les types d’algorithmes de machine learning suivants :
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) : framework optimisé qui utilise des algorithmes arborescents avec renforcement de gradient. Cet algorithme utilise des arborescences qui se développent en largeur plutôt qu’en profondeur, et est hautement optimisé en termes de vitesse.
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html)— Un framework qui utilise des algorithmes basés sur des arbres avec augmentation du gradient. Optimisé pour la gestion des variables catégorielles.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Un framework qui utilise des algorithmes basés sur des arbres avec une augmentation du gradient qui augmente en profondeur plutôt qu'en largeur. 
+ [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) (Forêt aléatoire) : algorithme arborescent qui utilise plusieurs arbres de décision sur des sous-échantillons aléatoires des données avec remplacement. Les arbres sont divisés en nœuds optimaux à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d’éviter tout surajustement et d’améliorer les prédictions.
+ [Extra Trees](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) (Arbres supplémentaires) : algorithme arborescent qui utilise plusieurs arbres de décision sur l’ensemble du jeu de données. Les arbres sont divisés aléatoirement à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d’éviter tout surajustement et d’améliorer les prédictions. Les arbres supplémentaires ajoutent un degré de randomisation par rapport à l’algorithme Random Forest (Forêt aléatoire).
+ [Linear Models](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) (Modèles linéaires) : framework qui utilise une équation linéaire pour modéliser la relation entre deux variables dans les données observées.
+ Neural network torch (Réseau neuronal torch) : modèle de réseau neuronal implémenté à l’aide de [Pytorch](https://pytorch.org/).
+ Neural network fast.ai (Réseau neuronal fast.ai) : modèle de réseau neuronal implémenté à l’aide de [fast.ai](https://www.fast.ai/).

# Métriques et validation
<a name="autopilot-metrics-validation"></a>

Ce guide présente les métriques et les techniques de validation que vous pouvez utiliser pour mesurer les performances des modèles de machine learning. Amazon SageMaker Autopilot produit des métriques qui mesurent la qualité prédictive des modèles d'apprentissage automatique candidats. Les métriques calculées pour les candidats sont spécifiées à l'aide d'un tableau de types [MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html).

## Métriques Autopilot
<a name="autopilot-metrics"></a>

Voici la liste des noms des métriques qui sont actuellement disponibles pour mesurer les performances du modèle dans Autopilot.

**Note**  
Autopilot prend en charge les poids des échantillons. Pour en savoir plus sur les poids d’échantillons et les métriques d’objectif disponibles, consultez [Métriques pondérées Autopilot](#autopilot-weighted-metrics).

Les métriques suivantes sont disponibles.

**`Accuracy`**  
 Rapport entre le nombre d’éléments correctement classés et le nombre total d’éléments classés (correctement ou non). Elle est utilisée pour la classification binaire et multi-classes. La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). La valeur 1 indique une précision parfaite et 0 indique une imprécision parfaite.

**`AUC`**  
 La métrique de zone sous la courbe (AUC, Area Under the Curve) est utilisée pour comparer et évaluer la classification binaire par des algorithmes qui renvoient des probabilités, comme la régression logistique. Pour mapper les probabilités en classifications, les probabilités sont comparées à une valeur de seuil.   
La courbe pertinente est la courbe caractéristique de fonctionnement du récepteur. Cette courbe représente le taux de vrais positifs (TPR, True Positive Rate) des prédictions (ou rappels) par rapport au taux de faux positifs (FPR, False Positive Rate) en fonction de la valeur seuil, au-dessus de laquelle une prédiction est considérée positive. L’augmentation du seuil entraîne moins de faux positifs, mais plus de faux négatifs.   
L’AUC est la zone située sous cette courbe caractéristique de fonctionnement du récepteur. Ainsi, l’AUC fournit une métrique regroupée des performances du modèle sur tous les seuils de classification possibles. Les scores de l’AUC varient entre 0 et 1. Un score de 1 indique une précision parfaite, et un score de la moitié (0,5) indique que la prédiction n’est pas meilleure qu’un classificateur aléatoire. 

**`BalancedAccuracy`**  
`BalancedAccuracy` est une métrique qui mesure la proportion des prédictions exactes dans l’ensemble des prédictions. Ce rapport est calculé après avoir normalisé les vrais positifs (TP) et les vrais négatifs (TN) par le nombre total de valeurs positives (P) et négatives (N). Il est utilisé à la fois dans la classification binaire et multiclasse et est défini comme suit : 0,5\$1 ((TP/P)\$1(TN/N)), avec des valeurs comprises entre 0 et 1. `BalancedAccuracy`fournit une meilleure mesure de précision lorsque le nombre de points positifs ou négatifs est très différent les uns des autres dans un ensemble de données déséquilibré, par exemple lorsque seulement 1 % des e-mails sont des spams. 

**`F1`**  
Le score `F1` représente la moyenne harmonique de la précision et du rappel, définie comme suit : F1 = 2 \$1 (précision \$1 rappel)/(précision \$1 rappel). Il est utilisé pour la classification binaire en classes traditionnellement appelées positives et négatives. On dit que les prédictions sont vraies lorsqu’elles correspondent à leur classe réelle (correcte) et fausse lorsqu’elles n’y correspondent pas.   
La précision désigne le rapport entre les prédictions positives réelles et toutes les prédictions positives. Elle inclut aussi les faux positifs d’un jeu de données. La précision mesure la qualité de la prédiction lorsqu’elle prédit la classe positive.   
Le rappel (ou sensibilité) désigne le rapport entre les prédictions positives réelles et toutes les instances positives réelles. Le rappel mesure le degré de précision avec lequel un modèle prédit les membres réels de la classe dans un jeu de données.   
Les scores de F1 varient entre 0 et 1. Un score de 1 indique la meilleure performance possible et 0 indique la pire.

**`F1macro`**  
Le score `F1macro` applique le score F1 aux problèmes de classification multi-classes. Pour ce faire, la précision et le rappel sont calculés, puis leur moyenne harmonique est utilisée pour calculer le score F1 pour chaque classe. Enfin, `F1macro` calcule la moyenne des scores individuels pour obtenir le score `F1macro`. Les scores `F1macro` varient entre 0 et 1. Un score de 1 indique la meilleure performance possible et 0 indique la pire.

**`InferenceLatency`**  
La latence d’inférence est le temps approximatif qui s’écoule entre la formulation d’une demande de prédiction modélisée et sa réception à partir d’un point de terminaison en temps réel sur lequel le modèle est déployé. Cette métrique est mesurée en secondes et n’est disponible qu’en mode Ensembling (Assemblage).

**`LogLoss`**  
La perte de journaux, également appelée perte d’entropie croisée, est une métrique utilisée pour évaluer la qualité des sorties de probabilité, plutôt que les sorties elles-mêmes. Elle est utilisée pour la classification binaire et multi-classes, ainsi que dans les réseaux neuronaux. C’est également la fonction de coût pour la régression logistique. La perte logistique est une métrique importante pour indiquer quand un modèle fait des prédictions incorrectes avec des probabilités élevées. Les valeurs vont de 0 à l’infini. Une valeur de 0 représente un modèle qui prédit parfaitement les données.

**`MAE`**  
L’erreur absolue moyenne (MAE, Mean Absolute Error) est une mesure de la moyenne des différences entre les valeurs prédites et les valeurs réelles, moyenne calculée sur toutes les valeurs. Elle est couramment utilisée dans l’analyse de régression pour comprendre l’erreur de prédiction modélisée. En cas de régression linéaire, la MAE représente la distance moyenne entre une ligne prédite et la valeur réelle. La MAE est définie comme la somme des erreurs absolues divisée par le nombre d’observations. Les valeurs sont comprises entre 0 et l’infini, les plus petits nombres indiquant une meilleure adéquation du modèle aux données.

**`MSE`**  
L’erreur quadratique moyenne (MSE, Mean Squarred Error) est la moyenne des différences au carré entre les valeurs prédites et réelles. Elle est utilisée pour la régression. Les valeurs MSE sont toujours positives. Plus un modèle est capable de prédire les valeurs réelles, plus la valeur MSE est faible.

**`Precision`**  
La précision mesure l’efficacité avec laquelle un algorithme prédit les vrais positifs (TP) parmi tous les positifs qu’il identifie. Elle est définie comme suit : précision = TP/(TP\$1FP), avec des valeurs allant de zéro (0) à un (1), et est utilisée dans la classification binaire. La précision est une métrique importante lorsque le coût d’un faux positif est élevé. Par exemple, le coût d’un faux positif est très élevé si le système de sécurité d’un avion est considéré à tort comme sûr pour le vol. Un faux positif (FP) reflète une prédiction positive qui est en fait négative dans les données.

**`PrecisionMacro`**  
La macro précision calcule la précision pour les problèmes de classification multi-classes. Pour ce faire, la précision de chaque classe et la moyenne des scores sont calculées pour obtenir la précision de plusieurs classes. Les scores `PrecisionMacro` sont compris entre zéro (0) et un (1). Des scores plus élevés reflètent la capacité du modèle à prédire les vrais positifs (TP) parmi tous les positifs qu’il identifie, en calculant la moyenne sur plusieurs classes.

**`R2`**  
R2, également connu sous le nom de coefficient de détermination, est utilisé en régression pour quantifier dans quelle mesure un modèle peut expliquer l’écart d’une variable dépendante. Les valeurs sont comprises entre un (1) et moins un (-1). Des nombres plus élevés indiquent une fraction plus importante de la variabilité expliquée. Des valeurs `R2` proches de zéro (0) indiquent qu’une faible part de la variable dépendante peut être expliquée par le modèle. Les valeurs négatives indiquent un mauvais ajustement et un dépassement du modèle par une fonction constante. Pour une régression linéaire, il s’agit d’une ligne horizontale.

**`Recall`**  
Le rappel évalue la capacité d’un algorithme à prédire correctement tous les vrais positifs (TP) dans un jeu de données. Un vrai positif est une prédiction positive qui correspond également à une valeur positive réelle dans les données. Le rappel est défini comme suit : rappel = TP/(TP\$1FN), avec des valeurs allant de 0 à 1. Des scores plus élevés reflètent une meilleure capacité du modèle à prédire les vrais positifs (TP) dans les données. Ils sont utilisés dans la classification binaire.   
Le rappel est important lors du dépistage du cancer, car c’est utilisé pour trouver tous les vrais positifs. Un faux négatif (FN) reflète une prédiction négative qui est en fait positive dans les données. Il est souvent insuffisant de mesurer uniquement le rappel, car prédire chaque sortie comme un vrai positif donnera un score de rappel parfait.

**`RecallMacro`**  
La métrique `RecallMacro` calcule le rappel pour les problèmes de classification multi-classes en calculant le rappel pour chaque classe et en faisant la moyenne des scores pour obtenir le rappel pour plusieurs classes. Les scores `RecallMacro` vont de 0 à 1. Des scores plus élevés reflètent la capacité du modèle à prédire les vrais positifs (TP) dans un jeu de données, tandis qu’un vrai positif reflète une prédiction positive qui est également une valeur positive réelle dans les données. Il est souvent insuffisant de mesurer uniquement le rappel, car prédire chaque sortie comme un vrai positif donnera un score de rappel parfait.

**`RMSE`**  
La racine de l’erreur quadratique moyenne (RMSE, Root Mean Squared Error) mesure la racine carrée de la différence au carré entre les valeurs prédites et réelles, moyennée sur l’ensemble des valeurs. Elle est utilisée dans l’analyse de régression pour comprendre l’erreur de prédiction modélisée. Cette métrique est importante pour indiquer la présence d'erreurs et de valeurs aberrantes dans les modèles volumineux. Les valeurs vont de zéro (0) à l'infini, les plus petits nombres indiquant une meilleure adéquation du modèle aux données. La RMSE dépend de l'échelle, et ne doit pas être utilisée pour comparer des jeux de données de tailles différentes.

Les métriques calculées automatiquement pour un modèle candidat sont déterminées par le type de problème à résoudre.

Consultez la [documentation de référence de SageMaker l'API Amazon](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html) pour obtenir la liste des métriques disponibles prises en charge par Autopilot.

## Métriques pondérées Autopilot
<a name="autopilot-weighted-metrics"></a>

**Note**  
Autopilot prend en charge les poids des échantillons en mode ensembliste uniquement pour toutes les [métriques disponibles](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html#autopilot-metrics), à l’exception de `Balanced Accuracy` et `InferenceLatency`. `BalanceAccuracy` est doté de son propre schéma de pondération pour les jeux de données déséquilibrés qui ne nécessite pas de poids d’échantillons. `InferenceLatency` ne prend pas en charge les poids des échantillons. Les métriques d’objectif `Balanced Accuracy` et `InferenceLatency` ignorent tous les poids d’échantillon existants lors de l’entraînement et de l’évaluation d’un modèle.

Les utilisateurs peuvent ajouter une colonne de poids d’échantillons à leurs données pour s’assurer que chaque observation utilisée pour entraîner un modèle de machine learning reçoit un poids correspondant à son importance perçue pour le modèle. Cela est particulièrement utile dans les scénarios où les observations du jeu de données ont des degrés d’importance différents, ou dans lesquels un jeu de données contient un nombre disproportionné d’échantillons d’une classe par rapport aux autres. L’attribution d’un poids à chaque observation en fonction de son importance ou de son importance accrue pour une classe minoritaire peut améliorer la performance globale d’un modèle ou garantir qu’un modèle n’est pas biaisé du côté de la classe majoritaire.

Pour en savoir plus sur la façon de transmettre des poids d’échantillons lors de la création d’une expérience dans l’interface utilisateur Studio Classic, reportez-vous à l’*étape 7* dans [Création d’une expérience Autopilot à l’aide de Studio Classic](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html). 

Pour en savoir plus sur la façon de transmettre des poids d’échantillons par programmation lors de la création d’une expérience Autopilot à l’aide de l’API, consultez la section *Comment ajouter des poids d’échantillons à une tâche AutoML* dans [Création d’une expérience Autopilot par programmation](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html).

## Validation croisée dans Autopilot
<a name="autopilot-cross-validation"></a>

La validation croisée permet de réduire le surajustement et le biais dans la sélection des modèles. Elle est également utilisée pour évaluer dans quelle mesure un modèle peut prédire les valeurs d’un jeu de données de validation invisible, si ce dernier est extrait de la même population. Cette méthode est particulièrement importante lors de l’entraînement sur des jeux de données ayant un nombre limité d’instances d’entraînement. 

Autopilot utilise la validation croisée pour créer des modèles en mode d’optimisation des hyperparamètres (HPO) et d’entraînement d’ensemble. La première étape du processus de validation croisée d’Autopilot consiste à diviser les données en k-folds.

### Division en k-folds
<a name="autopilot-cross-validation-kfold"></a>

La division en k-folds est une méthode qui permet de séparer un jeu de données d’entraînement d’entrée en plusieurs jeux de données d’entraînement et de validation. Le jeu de données est divisé en sous-échantillons `k` de taille égale nommés folds. Les modèles sont ensuite entraînés sur `k-1` folds et testés par rapport au ke fold restant, qui sert de jeu de données de validation. Le processus est répété `k` fois en utilisant un jeu de données différent pour la validation. 

L’image suivante montre une division en k-folds avec k = 4 folds. Chaque fold est représenté par une ligne. Les cases foncées représentent les parties des données utilisées lors de l'entraînement. Les cases claires restantes indiquent les jeux de données de validation. 

![\[Répartition à k blocs avec 4 blocs affichés en tant que cases : foncées pour les données utilisées et claires pour les jeux de données de validation.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-metrics-kfold-splits.png)


Autopilot utilise la validation croisée k-fold pour le mode d’optimisation des hyperparamètres (HPO) et le mode assemblage.

Vous pouvez déployer des modèles de pilote automatique conçus à l'aide de la validation croisée, comme vous le feriez avec n'importe quel autre modèle de pilote automatique ou d'IA. SageMaker 

### Mode HPO
<a name="autopilot-cross-validation-hpo"></a>

La validation croisée k-fold utilise la méthode de divison k-fold pour la validation croisée. En mode HPO, Autopilot met automatiquement en œuvre une validation croisée k-fold pour les petits jeux de données, comportant 50 000 instances d’entraînement ou moins. La validation croisée est particulièrement importante lors de l’entraînement sur de petits jeux de données, car elle protège contre le surajustement et les biais de sélection. 

Le mode HPO utilise une valeur *k* de 5 sur les algorithmes candidats utilisés pour modéliser le jeu de données. Plusieurs modèles sont entraînés sur différentes divisions et les modèles sont stockés séparément. Lorsque l’entraînement est terminé, la moyenne des métriques de validation de chacun des modèles est calculée pour produire une seule métrique d’estimation. Enfin, Autopilot combine les modèles de l’essai ayant la meilleure métrique de validation pour former un modèle d’ensemble. Autopilot utilise ce modèle d’ensemble pour faire des prédictions.

La métrique de validation des modèles entraînés par Autopilot est présentée comme la métrique objective dans le leaderboard du modèle. Sauf indication contraire, Autopilot utilise la métrique de validation par défaut pour chaque type de problème qu’il gère. Pour obtenir la liste de toutes les métriques utilisées par Autopilot, consultez [Métriques Autopilot](#autopilot-metrics).

Par exemple, le [jeu de données Boston Housing](http://lib.stat.cmu.edu/datasets/boston) ne contient que 861 échantillons. Si vous créez un modèle pour prédire les prix de vente des maisons à l’aide de ce jeu de données sans validation croisée, vous risquez de vous entraîner sur un jeu de données qui n’est pas représentatif du parc immobilier de Boston. Si vous ne divisez les données qu’une seule fois en sous-ensembles d’entraînement et de validation, il se peut que le bloc d’entraînement ne contienne que des données provenant principalement de banlieue. Par conséquent, vous vous entraînerez sur des données qui ne sont pas représentatives du reste de la ville. Dans cet exemple, votre modèle serait probablement trop ajusté par rapport à cette sélection biaisée. La validation croisée k-fold réduit ce risque d’erreur en utilisant pleinement et de façon aléatoire les données disponibles à des fins d’entraînement et de validation.

La validation croisée peut augmenter les temps de formation de 20 % en moyenne. Les temps de formation peuvent également augmenter de manière significative pour les jeux de données complexes.

**Note**  
En mode HPO, vous pouvez consulter les indicateurs de formation et de validation de chaque volet dans vos `/aws/sagemaker/TrainingJobs` CloudWatch journaux. Pour plus d'informations sur CloudWatch les journaux, consultez[CloudWatch Journaux pour Amazon SageMaker AI](logging-cloudwatch.md). 

### Mode d’assemblage
<a name="autopilot-cross-validation-ensemble"></a>

**Note**  
Autopilot prend en charge les poids d’échantillons en mode ensembliste. Pour obtenir la liste des métriques disponibles prenant en charge les poids d’échantillons, consultez [Métriques Autopilot](#autopilot-metrics).

En mode ensembliste, la validation croisée est effectuée quelle que soit la taille du jeu de données. Les clients peuvent soit fournir leur propre jeu de données de validation et un ratio de répartition des données personnalisé, soit laisser Autopilot diviser automatiquement le jeu de données en un ratio de répartition 80-20 %. Les données d'entraînement sont ensuite divisées en plusieurs `k` fois pour une validation croisée, la valeur de `k` étant déterminée par le AutoGluon moteur. Un ensemble se compose de plusieurs modèles de machine learning, chaque modèle étant nommé modèle de base. Un modèle de base unique est entraîné sur (`k`-1) plis et fait des out-of-fold prédictions sur le pli restant. Ce processus est répété pour tous les `k` plis, et les prédictions out-of-fold (OOF) sont concaténées pour former un seul ensemble de prédictions. Tous les modèles de base de l’ensemble suivent le même processus de génération de prédictions OOF.

L’image suivante montre une validation en k-fold avec `k` = 4 folds. Chaque fold est représenté par une ligne. Les cases foncées représentent les parties des données utilisées lors de l'entraînement. Les cases claires restantes indiquent les jeux de données de validation. 

Dans la partie supérieure de l’image, à chaque fold, le premier modèle de base fait des prédictions sur le jeu de données de validation après un entraînement sur les jeux de données d’entraînement. À chaque fold suivant, les jeux de données changent de rôle. Un jeu de données qui était auparavant utilisé pour la formation est désormais utilisé pour la validation, et vice versa. À la fin des `k` plis, toutes les prédictions sont concaténées pour former un seul ensemble de prédictions appelé prédiction out-of-fold (OOF). Ce processus est répété pour chaque modèle de base `n`.

![\[Validation k-fold : quatre rangées de cases représentent 4 folds qui génèrent une ligne de prédictions OOF.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-metrics-kfold.PNG)


Les prédictions OOF pour chaque modèle de base sont ensuite utilisées comme caractéristiques pour entraîner un modèle d’empilement. Le modèle d’empilement apprend les poids d’importance pour chaque modèle de base. Ces pondérations sont utilisées pour combiner les prédictions OOF afin de former la prédiction finale. Les performances du jeu de données de validation déterminent quel modèle de base ou d’empilement est le meilleur, et ce modèle est renvoyé en tant que modèle final.

En mode ensemble, vous pouvez soit fournir votre propre jeu de données de validation, soit laisser Autopilot diviser automatiquement le jeu de données d’entrée en jeux de données d’entraînement à 80 % et de validation à 20 %. Les données d’apprentissage sont ensuite divisées en `k` folds à des fins de validation croisée et produisent une prédiction OOF et un modèle de base pour chaque fold.

Ces prédictions OOF sont utilisées comme caractéristiques pour entraîner un modèle d’empilement, qui apprend simultanément les poids de chaque modèle de base. Ces pondérations sont utilisées pour combiner les prédictions OOF afin de former la prédiction finale. Les jeux de données de validation pour chaque fold sont utilisés pour le réglage des hyperparamètres de tous les modèles de base et du modèle d’empilement. Les performances du jeu de données de validation déterminent quel modèle de base ou d’empilement est le meilleur, et ce modèle est renvoyé en tant que modèle final.

# Déploiement et prédiction des modèles Autopilot
<a name="autopilot-deploy-models"></a>

Ce guide Amazon SageMaker Autopilot décrit les étapes relatives au déploiement du modèle, à la configuration de l'inférence en temps réel et à l'exécution de l'inférence avec des tâches par lots. 

Après avoir entraîné vos modèles Autopilot, vous pouvez les déployer pour obtenir des prédictions de deux manières différentes :

1. Utilisez [Déploiement de modèles pour l’inférence en temps réel](autopilot-deploy-models-realtime.md) pour configurer un point de terminaison et obtenir des prévisions de manière interactive. L’inférence en temps réel est idéale pour les charges de travail d’inférence où vous avez des exigences en temps réel, interactives et à faible latence.

1. Utilisez [Exécution des tâches d’inférence par lots](autopilot-deploy-models-batch.md) pour faire des prévisions en parallèle sur des lots d’observations sur l’ensemble d’un jeu de données. L'inférence par lots est une bonne option pour les grands jeux de données, ou si vous n'avez pas besoin d'une réponse immédiate à une demande de prédiction de modèle.

**Note**  
Pour éviter des frais inutiles, lorsque vous n’avez plus besoin des points de terminaison et des ressources créés lors du déploiement du modèle, vous pouvez les supprimer. Pour plus d'informations sur la tarification des instances par région, consultez [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

# Déploiement de modèles pour l’inférence en temps réel
<a name="autopilot-deploy-models-realtime"></a>

L’inférence en temps réel est idéale pour les charges de travail d’inférence où vous avez des exigences en temps réel, interactives et à faible latence. Cette section montre comment vous pouvez utiliser l’inférence en temps réel pour obtenir des prévisions interactives à partir de votre modèle.

Plusieurs options s’offrent à vous pour déployer le modèle qui a produit la meilleure métrique de validation dans une expérience Autopilot. Par exemple, lorsque vous utilisez le pilote automatique dans SageMaker Studio Classic, vous pouvez déployer le modèle automatiquement ou manuellement. Vous pouvez également l'utiliser SageMaker APIs pour déployer manuellement un modèle de pilote automatique. 

Les onglets suivants présentent trois options pour déployer votre modèle. Ces instructions supposent que vous avez déjà créé un modèle dans Autopilot. Si vous ne disposez pas de modèle, consultez [Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML](autopilot-automate-model-development-create-experiment.md). Pour voir des exemples de chaque option, ouvrez chaque onglet.

## Déploiement à l’aide de l’interface utilisateur (UI) d’Autopilot
<a name="autopilot-deploy-models-realtime-ui"></a>

L'interface utilisateur d'Autopilot contient des menus déroulants utiles, des boutons, des infobulles et bien plus encore, pour vous aider à parcours le déploiement du modèle. Vous pouvez déployer à l’aide de l’une des procédures suivantes : automatique ou manuelle.
+ **Déploiement automatique** : pour déployer automatiquement le meilleur modèle, d’une expérience Autopilot vers un point de terminaison

  1. [Créez un test](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html) dans SageMaker Studio Classic. 

  1. Basculez la valeur **Auto deploy** (Déploiement automatique) sur **Yes** (Oui).
**Note**  
**Le déploiement automatique échoue si le quota de ressources par défaut ou votre quota client pour les instances de point de terminaison dans une région est trop limité.** En mode d’optimisation des hyperparamètres (HPO), vous devez avoir au moins deux instances ml.m5.2xlarge. En mode d’assemblage, vous devez avoir au moins une instance ml.m5.12xlarge. Si vous rencontrez un échec lié aux quotas, vous pouvez [demander une augmentation de la limite de service](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) pour les instances de point de terminaison SageMaker AI.
+ **Déploiement manuel** : pour déployer manuellement le meilleur modèle, d’une expérience Autopilot vers un point de terminaison

  1. [Créez un test](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html) dans SageMaker Studio Classic. 

  1. Basculez la valeur **Auto deploy** (Déploiement automatique) sur **No** (Non). 

  1. Sélectionnez le modèle que vous voulez déployer sous **Model name** (Nom du modèle).

  1. Sélectionnez le bouton orange **Deployment and advanced settings** (Déploiement et paramètres avancés) situé à droite du classement. Un nouvel onglet s'ouvre.

  1. Configurez le nom du point de terminaison, le type d’instance et d’autres informations facultatives.

  1.  Sélectionnez le bouton orange **Deploy model** (Déployer le modèle) pour déployer vers un point de terminaison.

  1. Vérifiez la progression du processus de création du point de terminaison en [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)accédant à la section Points de terminaison. Cette section se trouve dans le menu déroulant **Inference** (Inférence) du panneau de navigation. 

  1. Une fois que le statut du point de terminaison est passé de **Creating** à **InService**, comme indiqué ci-dessous, revenez à Studio Classic et appelez le point de terminaison.  
![\[SageMaker Console AI : page Endpoints pour créer un point de terminaison ou vérifier l'état du point de terminaison.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-check-progress.PNG)

## Déployez en utilisant SageMaker APIs
<a name="autopilot-deploy-models-api"></a>

Vous pouvez également obtenir une inférence en temps réel en déployant votre modèle à l’aide d’**appels d’API**. Cette section présente les cinq étapes de ce processus à l'aide d'extraits de code AWS Command Line Interface (AWS CLI). 

Pour obtenir des exemples de code complets pour les AWS CLI commandes et le AWS SDK pour Python (boto3), ouvrez les onglets directement en suivant ces étapes.

1. **Obtenir les définitions des candidats**

   Obtenez les définitions des conteneurs candidats auprès de [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers). Ces définitions de candidats sont utilisées pour créer un modèle d' SageMaker IA. 

   L'exemple suivant utilise l'[DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)API pour obtenir les définitions du meilleur modèle candidat. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Liste des candidats**

   L'exemple suivant utilise l'[ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API pour répertorier tous les candidats. La commande AWS CLI suivante constitue un exemple.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Création d'un modèle d' SageMaker IA**

   Utilisez les définitions de conteneur des étapes précédentes pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker create-model --model-name '<your-custom-model-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Créer une configuration de point de terminaison** 

   L'exemple suivant utilise l'[CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API pour créer une configuration de point de terminaison. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-custom-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' \
                       --region '<region>'
   ```

1. **Créer le point de terminaison** 

   L' AWS CLI exemple suivant utilise l'[CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API pour créer le point de terminaison.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-custom-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Vérifiez la progression du déploiement de votre terminal à l'aide de l'[DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

1. **Appeler le point de terminaison** 

   La structure de commande suivante appelle le point de terminaison pour une inférence en temps réel.

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-data>' [--content-type] '<content-type>' <outfile>
   ```

Les onglets suivants contiennent des exemples de code complets pour déployer un modèle avec le kit AWS SDK pour Python (boto3) ou AWS CLI.

------
#### [ AWS SDK for Python (boto3) ]

1. **Obtenez les définitions des candidats** à l'aide de l'exemple de code suivant.

   ```
   import sagemaker 
   import boto3
   
   session = sagemaker.session.Session()
   
   sagemaker_client = boto3.client('sagemaker', region_name='us-west-2')
   job_name = 'test-auto-ml-job'
   
   describe_response = sm_client.describe_auto_ml_job(AutoMLJobName=job_name)
   # extract the best candidate definition from DescribeAutoMLJob response
   best_candidate = describe_response['BestCandidate']
   # extract the InferenceContainers definition from the caandidate definition
   inference_containers = best_candidate['InferenceContainers']
   ```

1. **Créez le modèle** à l'aide de l'exemple de code suivant.

   ```
   # Create Model
   model_name = 'test-model' 
   sagemaker_role = 'arn:aws:iam:444455556666:role/sagemaker-execution-role'
   create_model_response = sagemaker_client.create_model(
      ModelName = model_name,
      ExecutionRoleArn = sagemaker_role,
      Containers = inference_containers 
   )
   ```

1. **Créez la configuration du point de terminaison** à l’aide de l’exemple de code suivant.

   ```
   endpoint_config_name = 'test-endpoint-config'
                                                           
   instance_type = 'ml.m5.2xlarge' 
   # for all supported instance types, see 
   # https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html#sagemaker-Type-ProductionVariant-InstanceType    # Create endpoint config
   
   endpoint_config_response = sagemaker_client.create_endpoint_config(
      EndpointConfigName=endpoint_config_name, 
      ProductionVariants=[
          {
              "VariantName": "variant1",
              "ModelName": model_name, 
              "InstanceType": instance_type,
              "InitialInstanceCount": 1
          }
      ]
   )
   
   print(f"Created EndpointConfig: {endpoint_config_response['EndpointConfigArn']}")
   ```

1. **Créez le point de terminaison** et déployez le modèle à l’aide de l’exemple de code suivant.

   ```
   # create endpoint and deploy the model
   endpoint_name = 'test-endpoint'
   create_endpoint_response = sagemaker_client.create_endpoint(
                                               EndpointName=endpoint_name, 
                                               EndpointConfigName=endpoint_config_name)
   print(create_endpoint_response)
   ```

   **Vérifiez l’état de création du point de terminaison** à l’aide de l’exemple de code suivant.

   ```
   # describe endpoint creation status
   status = sagemaker_client.describe_endpoint(EndpointName=endpoint_name)["EndpointStatus"]
   ```

1. **Appelez le point de terminaison** pour une inférence en temps réel en utilisant la structure de commande suivante.

   ```
   # once endpoint status is InService, you can invoke the endpoint for inferencing
   if status == "InService":
     sm_runtime = boto3.Session().client('sagemaker-runtime')
     inference_result = sm_runtime.invoke_endpoint(EndpointName='test-endpoint', ContentType='text/csv', Body='1,2,3,4,class')
   ```

------
#### [ AWS Command Line Interface (AWS CLI) ]

1. **Obtenez les définitions des candidats** à l'aide de l'exemple de code suivant.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name 'test-automl-job' --region us-west-2
   ```

1. **Créez le modèle** à l’aide de l’exemple de code suivant.

   ```
   aws sagemaker create-model --model-name 'test-sagemaker-model'
   --containers '[{
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", amzn-s3-demo-bucket1
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/output/model.tar.gz",
       "Environment": {
           "AUTOML_SPARSE_ENCODE_RECORDIO_PROTOBUF": "1",
           "AUTOML_TRANSFORM_MODE": "feature-transform",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "application/x-recordio-protobuf",
           "SAGEMAKER_PROGRAM": "sagemaker_serve",
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.3-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/output/model.tar.gz",
       "Environment": {
           "MAX_CONTENT_LENGTH": "20971520",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv",
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,probabilities" 
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", aws-region
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/output/model.tar.gz", 
       "Environment": { 
           "AUTOML_TRANSFORM_MODE": "inverse-label-transform", 
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv", 
           "SAGEMAKER_INFERENCE_INPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,labels,probabilities", 
           "SAGEMAKER_PROGRAM": "sagemaker_serve", 
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       } 
   }]' \
   --execution-role-arn 'arn:aws:iam::1234567890:role/sagemaker-execution-role' \ 
   --region 'us-west-2'
   ```

   Pour plus de détails, consultez [Création d’un modèle](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker/create-model.html).

   La commande `create model` renvoie une réponse au format suivant.

   ```
   {
       "ModelArn": "arn:aws:sagemaker:us-west-2:1234567890:model/test-sagemaker-model"
   }
   ```

1. **Créez une configuration du point de terminaison** à l’aide de l’exemple de code suivant.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name 'test-endpoint-config' \
   --production-variants '[{"VariantName": "variant1", 
                           "ModelName": "test-sagemaker-model",
                           "InitialInstanceCount": 1,
                           "InstanceType": "ml.m5.2xlarge"
                          }]' \
   --region us-west-2
   ```

   La commande de configuration `create endpoint` renvoie une réponse au format suivant.

   ```
   {
       "EndpointConfigArn": "arn:aws:sagemaker:us-west-2:1234567890:endpoint-config/test-endpoint-config"
   }
   ```

1. **Créez un point de terminaison** à l’aide de l’exemple de code suivant.

   ```
   aws sagemaker create-endpoint --endpoint-name 'test-endpoint' \    
   --endpoint-config-name 'test-endpoint-config' \                 
   --region us-west-2
   ```

   La commande `create endpoint` renvoie une réponse au format suivant.

   ```
   {
       "EndpointArn": "arn:aws:sagemaker:us-west-2:1234567890:endpoint/test-endpoint"
   }
   ```

   Vérifiez la progression du déploiement du point de terminaison à l’aide de l’exemple de code CLI [describe-endpoint](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/describe-endpoint.html) suivant.

   ```
   aws sagemaker describe-endpoint --endpoint-name 'test-endpoint' --region us-west-2
   ```

   La précédente vérification de progression renvoie une réponse au format suivant.

   ```
   {
       "EndpointName": "test-endpoint",
       "EndpointArn": "arn:aws:sagemaker:us-west-2:1234567890:endpoint/test-endpoint",
       "EndpointConfigName": "test-endpoint-config",
       "EndpointStatus": "Creating",
       "CreationTime": 1660251167.595,
       "LastModifiedTime": 1660251167.595
   }
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé dans l’inférence en temps réel.

1. **Appelez le point de terminaison** pour une inférence en temps réel en utilisant la structure de commande suivante.

   ```
   aws sagemaker-runtime invoke-endpoint --endpoint-name 'test-endpoint' \
   --region 'us-west-2' \
   --body '1,51,3.5,1.4,0.2' \
   --content-type 'text/csv' \
   '/tmp/inference_output'
   ```

   Pour plus d’options, consultez [Invocation d’un point de terminaison](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker-runtime/invoke-endpoint.html).

------

## Déployez des modèles à partir de différents comptes
<a name="autopilot-deploy-models-realtime-across-accounts"></a>

Vous pouvez déployer un modèle Autopilot à partir d’un compte différent du compte d’origine dans lequel le modèle a été généré. Pour implémenter le déploiement de modèles multicomptes, cette section explique comment procéder comme suit :   Accordez l’autorisation d’assumer le rôle au compte à partir duquel vous souhaitez effectuer le déploiement (le compte générateur).    Appelez `DescribeAutoMLJob` depuis le compte de déploiement pour obtenir des informations sur le modèle.    Accordez des droits d’accès aux artefacts du modèle à partir du compte générateur.    

1. **Accorder l’autorisation au compte de déploiement** 

   Pour assumer le rôle dans le compte générateur, vous devez accorder l’autorisation au compte à partir duquel vous souhaitez effectuer le déploiement. Cela permet au compte de déploiement de décrire les tâches Autopilot dans le compte générateur.

   L’exemple suivant utilise un compte générateur avec une entité `sagemaker-role` de confiance. L’exemple montre comment autoriser un compte de déploiement portant l’ID 111122223333 à assumer le rôle du compte générateur.

   ```
   "Statement": [
           {
               "Effect": "Allow",
               "Principal": {
                   "Service": [
                       "sagemaker.amazonaws.com"
                   ],
                   "AWS": [ "111122223333"]
               },
               "Action": "sts:AssumeRole"
           }
   ```

   Le nouveau compte portant l’ID 111122223333 peut désormais assumer le rôle du compte générateur. 

   Appelez ensuite l’API `DescribeAutoMLJob` à partir du compte de déploiement pour obtenir une description de la tâche créée par le compte générateur. 

   L’exemple de code suivant décrit le modèle issu du compte de déploiement.

   ```
   import sagemaker 
   import boto3
   session = sagemaker.session.Session()
   
   sts_client = boto3.client('sts')
   sts_client.assume_role
   
   role = 'arn:aws:iam::111122223333:role/sagemaker-role'
   role_session_name = "role-session-name"
   _assumed_role = sts_client.assume_role(RoleArn=role, RoleSessionName=role_session_name)
   
   credentials = _assumed_role["Credentials"]
   access_key = credentials["AccessKeyId"]
   secret_key = credentials["SecretAccessKey"]
   session_token = credentials["SessionToken"]
   
   session = boto3.session.Session()
           
   sm_client = session.client('sagemaker', region_name='us-west-2', 
                              aws_access_key_id=access_key,
                               aws_secret_access_key=secret_key,
                               aws_session_token=session_token)
   
   # now you can call describe automl job created in account A 
   
   job_name = "test-job"
   response= sm_client.describe_auto_ml_job(AutoMLJobName=job_name)
   ```

1. **Accordez l’accès au compte de déploiement** aux artefacts du modèle du compte de génération.

   Le compte de déploiement a simplement besoin d’accéder aux artefacts du modèle dans le compte de génération pour le déployer. Ils se trouvent dans le [S3 OutputPath](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html#sagemaker-Type-AutoMLOutputDataConfig-S3OutputPath) qui a été spécifié dans l'appel d'`CreateAutoMLJob`API d'origine lors de la génération du modèle.

   Pour donner au compte de déploiement l’accès aux artefacts du modèle, choisissez l’une des options suivantes :

   1. [Donnez accès](https://aws.amazon.com/premiumsupport/knowledge-center/cross-account-access-s3/) au `ModelDataUrl` à partir du compte générateur vers le compte de déploiement.

      Ensuite, vous devez autoriser le compte de déploiement à assumer le rôle. Suivez les [étapes d’inférence en temps réel](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-deploy-models.html#autopilot-deploy-models-realtime) pour le déploiement. 

   1. [Copiez les artefacts du modèle](https://aws.amazon.com/premiumsupport/knowledge-center/copy-s3-objects-account/) depuis le [S3](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html#sagemaker-Type-AutoMLOutputDataConfig-S3OutputPath) d'origine du compte générateur OutputPath vers le compte générateur.

      Pour autoriser l’accès aux artefacts du modèle, vous devez définir un modèle `best_candidate` et réattribuer des conteneurs de modèle au nouveau compte. 

      L’exemple suivant illustre la façon de définir un modèle `best_candidate` et de réaffecter le `ModelDataUrl`.

      ```
      best_candidate = automl.describe_auto_ml_job()['BestCandidate']
      
      # reassigning ModelDataUrl for best_candidate containers below
      new_model_locations = ['new-container-1-ModelDataUrl', 'new-container-2-ModelDataUrl', 'new-container-3-ModelDataUrl']
      new_model_locations_index = 0
      for container in best_candidate['InferenceContainers']:
          container['ModelDataUrl'] = new_model_locations[new_model_locations_index++]
      ```

      Après cette attribution de conteneurs, suivez les étapes décrites dans [Déployez en utilisant SageMaker APIs](#autopilot-deploy-models-api) pour le déploiement.

Pour créer des données utiles dans l’inférence en temps réel, consultez l’exemple du bloc-notes pour [définir les données utiles de test](https://aws.amazon.com/getting-started/hands-on/machine-learning-tutorial-automatically-create-models). Pour créer les données utiles à partir d’un fichier CSV et invoquer un point de terminaison, consultez la section **Prédire avec votre modèle** dans [Créer automatiquement un modèle de machine learning](https://aws.amazon.com/getting-started/hands-on/create-machine-learning-model-automatically-sagemaker-autopilot/#autopilot-cr-room).

# Exécution des tâches d’inférence par lots
<a name="autopilot-deploy-models-batch"></a>

L’inférence par lots, également appelée inférence hors ligne, génère des prédictions modélisées sur un lot d’observations. L'inférence par lots est une bonne option pour les grands jeux de données, ou si vous n'avez pas besoin d'une réponse immédiate à une demande de prédiction de modèle. En revanche, l’inférence en ligne ([inférence en temps réel](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-deploy-models.html#autopilot-deploy-models-realtime)) génère des prédictions en temps réel. Vous pouvez effectuer des inférences par lots à partir d'un modèle de pilote automatique à l'aide du [SDK SageMaker Python](https://sagemaker.readthedocs.io/en/stable/), de l'interface utilisateur (UI) du pilote automatique, du SDK [AWS pour Python (boto3) ou du ()](https://aws.amazon.com/sdk-for-python/). AWS Command Line Interface [AWS CLI](https://docs.aws.amazon.com/cli/)

Les onglets suivants présentent trois options pour déployer votre modèle : Utilisation APIs, interface utilisateur du pilote automatique ou utilisation pour le déploiement APIs à partir de différents comptes. Ces instructions supposent que vous avez déjà créé un modèle dans Autopilot. Si vous ne disposez pas de modèle, consultez [Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML](autopilot-automate-model-development-create-experiment.md). Pour voir des exemples de chaque option, ouvrez chaque onglet.

## Déployer un modèle à l’aide de l’interface utilisateur d’Autopilot
<a name="autopilot-deploy-models-batch-ui"></a>

L'interface utilisateur d'Autopilot contient des menus déroulants utiles, des boutons, des infobulles et bien plus encore, pour vous aider à parcours le déploiement du modèle.

Les étapes suivantes montrent comment déployer un modèle à partir d’une expérience Autopilot pour des prédictions par lots. 

1. Connectez-vous à [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)et sélectionnez **Studio** dans le volet de navigation.

1. Dans le panneau de navigation de gauche, choisissez **Studio**.

1. Sous **Commencer**, sélectionnez le domaine dans lequel vous souhaitez lancer l’application Studio. Si votre profil utilisateur n’appartient qu’à un seul domaine, l’option permettant de sélectionner un domaine ne s’affiche pas.

1. Sélectionnez le profil utilisateur pour lequel vous souhaitez lancer l’application Studio Classic. S’il n’existe aucun profil utilisateur dans le domaine, choisissez **Créer un profil utilisateur**. Pour plus d’informations, consultez [Ajout de profils utilisateur](https://docs.aws.amazon.com/sagemaker/latest/dg/domain-user-profile-add.html).

1. Choisissez **Launch Studio** (Lancer Studio). Si le profil utilisateur appartient à un espace partagé, choisissez **Open Spaces**. 

1. Lorsque la console SageMaker Studio Classic s'ouvre, cliquez sur le bouton **Launch SageMaker Studio**.

1. Sélectionnez **AutoML** dans le panneau de navigation de gauche.

1. Sous **Nom**, sélectionnez l’expérience Autopilot correspondant au modèle que vous souhaitez déployer. Ceci ouvre un nouvel onglet **AUTOPILOT JOB** (TÂCHE AUTOPILOT).

1. Dans la section **Model name** (Nom du modèle), sélectionnez le modèle que vous voulez déployer.

1. Choisissez **Deploy model (Déployer le modèle)**. Un nouvel onglet s'ouvre.

1. En haut de la page, choisissez **Make batch predictions** (Créer des prédictions par lots).

1. Pour **Configuration des tâches de transformation par lots**, renseignez **Type d’instance**, **Nombre d’instances** et d’autres informations facultatives.

1. Dans la section **Configuration des données d’entrée**, ouvrez le menu déroulant. 

   1. Pour le **type de données S3**, choisissez **ManifestFile**ou **S3Prefix**.

   1. **Pour le **type Split**, choisissez **Line**, **Recordio **TFRecord****ou None.**

   1. Pour **Compression**, choisissez **Gzip** ou **None** (Aucun). 

1. Pour **Emplacement S3**, entrez l’emplacement du compartiment Amazon S3 contenant les données d’entrée et d’autres informations facultatives.

1. Sous **Output data configuration** (Configuration des données de sortie), entrez le compartiment S3 pour les données de sortie et choisissez comment [assembler la sortie](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TransformOutput.html#sagemaker-Type-TransformOutput-AssembleWith) de votre tâche. 

   1. Pour **Additional configuration (optional)** (Configuration supplémentaire (facultative), vous pouvez saisir un type MIME et une clé de cryptage S3 (**S3 encryption key**).

1. Pour le **filtrage des entrées/sorties et les jointures de données (facultatif)**, vous entrez une JSONpath expression pour filtrer vos données d'entrée, vous joignez les données de la source d'entrée à vos données de sortie et vous entrez une JSONpath expression pour filtrer vos données de sortie. 

   1. Pour des exemples pour chaque type de filtre, consultez l'[DataProcessing API](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DataProcessing.html#sagemaker-Type-DataProcessing-InputFilter).

1. Pour effectuer des prédictions par lots sur votre jeu de données d’entrée, sélectionnez **Créer une tâche de transformation par lots**. Un nouvel onglet **Tâches de transformation par lots** s’affiche.

1. Dans l’onglet **Tâches de transformation par lots**, recherchez le nom de votre tâche dans la section **État**. Ensuite, vérifiez l’état d’avancement de la tâche. 

## Déployez en utilisant SageMaker APIs
<a name="autopilot-deploy-models-batch-steps"></a>

Pour utiliser le SageMaker APIs pour l'inférence par lots, il faut suivre trois étapes :

1. **Obtenir les définitions des candidats** 

   Les définitions des candidats provenant de [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers)sont utilisées pour créer un modèle d' SageMaker IA. 

   L'exemple suivant montre comment utiliser l'[DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)API pour obtenir des définitions de candidats pour le meilleur modèle candidat. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

   Utilisez l'[ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API pour répertorier tous les candidats. La commande AWS CLI suivante constitue un exemple.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Création d'un modèle d' SageMaker IA**

   Pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API, utilisez les définitions de conteneur des étapes précédentes. La commande AWS CLI suivante constitue un exemple.

   ```
   aws sagemaker create-model --model-name '<your-custom-model-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Créez une tâche de transformation SageMaker basée sur l'IA** 

   L'exemple suivant crée une tâche de transformation basée sur l' SageMaker IA avec l'[CreateTransformJob](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-transform-job.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker create-transform-job --transform-job-name '<your-custom-transform-job-name>' --model-name '<your-custom-model-name-from-last-step>'\
   --transform-input '{
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix", 
                   "S3Uri": "<your-input-data>" 
               }
           },
           "ContentType": "text/csv",
           "SplitType": "Line"
       }'\
   --transform-output '{
           "S3OutputPath": "<your-output-path>",
           "AssembleWith": "Line" 
       }'\
   --transform-resources '{
           "InstanceType": "<instance-type>", 
           "InstanceCount": 1
       }' --region '<region>'
   ```

Vérifiez la progression de votre travail de transformation à l'aide de l'[DescribeTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTransformJob.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

```
aws sagemaker describe-transform-job --transform-job-name '<your-custom-transform-job-name>' --region <region>
```

Une fois le travail terminé, le résultat prévu sera disponible dans `<your-output-path>`. 

Le nom du fichier de sortie possède le format suivant : `<input_data_file_name>.out`. Par exemple, si votre fichier d'entrée est `text_x.csv`, le nom de sortie sera `text_x.csv.out`.

Les onglets suivants présentent des exemples de code pour le SDK SageMaker Python, le AWS SDK pour Python (boto3) et le. AWS CLI

------
#### [ SageMaker Python SDK ]

L'exemple suivant utilise le **[SDK SageMaker Python](https://sagemaker.readthedocs.io/en/stable/overview.html)** pour effectuer des prédictions par lots.

```
from sagemaker import AutoML

sagemaker_session= sagemaker.session.Session()

job_name = 'test-auto-ml-job' # your autopilot job name
automl = AutoML.attach(auto_ml_job_name=job_name)
output_path = 's3://test-auto-ml-job/output'
input_data = 's3://test-auto-ml-job/test_X.csv'

# call DescribeAutoMLJob API to get the best candidate definition
best_candidate = automl.describe_auto_ml_job()['BestCandidate']
best_candidate_name = best_candidate['CandidateName']

# create model
model = automl.create_model(name=best_candidate_name, 
               candidate=best_candidate)

# create transformer
transformer = model.transformer(instance_count=1, 
    instance_type='ml.m5.2xlarge',
    assemble_with='Line',
    output_path=output_path)

# do batch transform
transformer.transform(data=input_data,
                      split_type='Line',
                       content_type='text/csv',
                       wait=True)
```

------
#### [ AWS SDK for Python (boto3) ]

 L'exemple suivant utilise le **kit AWS SDK pour Python (boto3)** pour effectuer des prédictions par lots.

```
import sagemaker 
import boto3

session = sagemaker.session.Session()

sm_client = boto3.client('sagemaker', region_name='us-west-2')
role = 'arn:aws:iam::1234567890:role/sagemaker-execution-role'
output_path = 's3://test-auto-ml-job/output'
input_data = 's3://test-auto-ml-job/test_X.csv'

best_candidate = sm_client.describe_auto_ml_job(AutoMLJobName=job_name)['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

# create model
reponse = sm_client.create_model(
    ModelName = best_candidate_name,
    ExecutionRoleArn = role,
    Containers = best_candidate_containers 
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName=f'{best_candidate_name}-transform-job',
    ModelName=model_name,
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/csv",
        'SplitType': 'Line'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m5.2xlarge',
        'InstanceCount': 1,
    },
)
```

La tâche d'inférence par lots renvoie une réponse au format suivant.

```
{'TransformJobArn': 'arn:aws:sagemaker:us-west-2:1234567890:transform-job/test-transform-job',
 'ResponseMetadata': {'RequestId': '659f97fc-28c4-440b-b957-a49733f7c2f2',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amzn-requestid': '659f97fc-28c4-440b-b957-a49733f7c2f2',
   'content-type': 'application/x-amz-json-1.1',
   'content-length': '96',
   'date': 'Thu, 11 Aug 2022 22:23:49 GMT'},
  'RetryAttempts': 0}}
```

------
#### [ AWS Command Line Interface (AWS CLI) ]

1. **Obtenez les définitions des candidats** à l’aide de l’exemple de code suivant.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name 'test-automl-job' --region us-west-2
   ```

1. **Créez le modèle** à l'aide de l'exemple de code suivant.

   ```
   aws sagemaker create-model --model-name 'test-sagemaker-model'
   --containers '[{
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/data-processor-models/test-job1-dpp0-1-e569ff7ad77f4e55a7e549a/output/model.tar.gz",
       "Environment": {
           "AUTOML_SPARSE_ENCODE_RECORDIO_PROTOBUF": "1",
           "AUTOML_TRANSFORM_MODE": "feature-transform",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "application/x-recordio-protobuf",
           "SAGEMAKER_PROGRAM": "sagemaker_serve",
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.3-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/tuning/flicdf10v2-dpp0-xgb/test-job1E9-244-7490a1c0/output/model.tar.gz",
       "Environment": {
           "MAX_CONTENT_LENGTH": "20971520",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv",
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,probabilities" 
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", 
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/data-processor-models/test-job1-dpp0-1-e569ff7ad77f4e55a7e549a/output/model.tar.gz", 
       "Environment": { 
           "AUTOML_TRANSFORM_MODE": "inverse-label-transform", 
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv", 
           "SAGEMAKER_INFERENCE_INPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,labels,probabilities", 
           "SAGEMAKER_PROGRAM": "sagemaker_serve", 
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code" 
       } 
   }]' \
   --execution-role-arn 'arn:aws:iam::1234567890:role/sagemaker-execution-role' \
   --region 'us-west-2'
   ```

1. **Créez la tâche de transformation** à l’aide de l’exemple de code suivant.

   ```
   aws sagemaker create-transform-job --transform-job-name 'test-tranform-job'\
    --model-name 'test-sagemaker-model'\
   --transform-input '{
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix",
                   "S3Uri": "s3://amzn-s3-demo-bucket/data.csv"
               }
           },
           "ContentType": "text/csv",
           "SplitType": "Line"
       }'\
   --transform-output '{
           "S3OutputPath": "s3://amzn-s3-demo-bucket/output/",
           "AssembleWith": "Line"
       }'\
   --transform-resources '{
           "InstanceType": "ml.m5.2xlarge",
           "InstanceCount": 1
       }'\
   --region 'us-west-2'
   ```

1. **Vérifiez la progression de la tâche de transformation** à l’aide de l’exemple de code suivant. 

   ```
   aws sagemaker describe-transform-job --transform-job-name  'test-tranform-job' --region us-west-2
   ```

   Voici la réponse de la tâche de transformation.

   ```
   {
       "TransformJobName": "test-tranform-job",
       "TransformJobArn": "arn:aws:sagemaker:us-west-2:1234567890:transform-job/test-tranform-job",
       "TransformJobStatus": "InProgress",
       "ModelName": "test-model",
       "TransformInput": {
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix",
                   "S3Uri": "s3://amzn-s3-demo-bucket/data.csv"
               }
           },
           "ContentType": "text/csv",
           "CompressionType": "None",
           "SplitType": "Line"
       },
       "TransformOutput": {
           "S3OutputPath": "s3://amzn-s3-demo-bucket/output/",
           "AssembleWith": "Line",
           "KmsKeyId": ""
       },
       "TransformResources": {
           "InstanceType": "ml.m5.2xlarge",
           "InstanceCount": 1
       },
       "CreationTime": 1662495635.679,
       "TransformStartTime": 1662495847.496,
       "DataProcessing": {
           "InputFilter": "$",
           "OutputFilter": "$",
           "JoinSource": "None"
       }
   }
   ```

   Une fois les modifications `TransformJobStatus` apportées à `Completed`, vous pouvez vérifier le résultat de l'inférence dans le `S3OutputPath`.

------

## Déployez des modèles à partir de différents comptes
<a name="autopilot-deploy-models-batch-across-accounts"></a>

Pour créer une tâche d’inférence par lots dans un compte différent de celui dans lequel le modèle a été généré, suivez les instructions figurant dans [Déployez des modèles à partir de différents comptes](autopilot-deploy-models-realtime.md#autopilot-deploy-models-realtime-across-accounts). Vous pouvez ensuite créer des modèles et transformer des tâches en suivant les [Déployez en utilisant SageMaker APIs](#autopilot-deploy-models-batch-steps).

# Afficher les détails des modèles
<a name="autopilot-models-details"></a>

Autopilot génère des informations sur les modèles candidats que vous pouvez obtenir. Ces détails incluent les suivants :
+ Un tracé des valeurs SHAP agrégées qui indique l'importance de chaque fonction. Cela permet d'expliquer les prédictions de vos modèles.
+ Un résumé des statistiques relatives à diverses métriques d'entraînement et de validation, notamment la métrique objective.
+ Une liste des hyperparamètres utilisés pour entraîner et régler le modèle.

Pour afficher les détails du modèle après avoir exécuté une tâche Autopilot, procédez comme suit :

1. Cliquez sur l'icône **Accueil** (![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/icons/house.png)) dans le volet de navigation de gauche pour afficher le menu de navigation supérieur d'**Amazon SageMaker Studio Classic**.

1. Sélectionnez la carte **AutoML** dans la zone de travail principale. Ceci ouvre un nouvel onglet **Autopilot**.

1. Dans la section **Name** (Nom), sélectionnez la tâche Autopilot qui contient les détails que vous souhaitez examiner. Ceci ouvre un nouvel onglet de **Tâche Autopilot**.

1. Le panneau **Autopilot job** (Tâche Autopilot) répertorie les valeurs de métriques, y compris la métrique **Objective** (Objectif) pour chaque modèle sous **Model name** (Nom du modèle). Le meilleur modèle, **Best model**, est répertorié en haut de la liste sous **Model name** (Nom du modèle) et est également surligné dans l'onglet **Models** (Modèles).

   1. Pour consulter les détails du modèle, sélectionnez le modèle qui vous intéresse et sélectionnez **View model details** (Afficher les détails du modèle). Ceci ouvre un nouvel onglet **Détails du modèle**.

1. L'onglet **Model Details** (Détails du modèle) est divisé en quatre sous-sections.

   1. Le haut de l'onglet **Explainability** (Explicabilité) contient un plan de valeurs agrégées SHAP qui indiquent l'importance de chaque caractéristique. Après cela, vous trouverez les métriques et les valeurs des hyperparamètres pour ce modèle. 

   1. L'onglet **Performance** (Performances) contient des statistiques de métriques et une matrice de confusion. 

   1. L'onglet **Artifacts** (Artefacts) contient des informations sur les entrées, les sorties et les résultats intermédiaires du modèle.

   1. L'onglet **Réseau** récapitule vos choix en matière d'isolation et de chiffrement du réseau.
**Note**  
L'importance des fonctionnalités et les informations dans **Performances** sont uniquement générés pour le **Meilleur modèle**.

   Pour plus d'informations sur la façon dont les valeurs SHAP aident à expliquer les prédictions basées sur l'importance de la fonction, consultez le livre blanc [Understanding the model explainability](https://pages.awscloud.com/rs/112-TZM-766/images/Amazon.AI.Fairness.and.Explainability.Whitepaper.pdf) (Comprendre l'explicabilité du modèle). Des informations supplémentaires sont également disponibles dans la [Explicabilité du modèle](clarify-model-explainability.md) rubrique du Guide du développeur d' SageMaker IA. 

# Affichage d’un rapport de performances du modèle Autopilot
<a name="autopilot-model-insights"></a>

Un rapport sur la qualité du modèle Amazon SageMaker AI (également appelé rapport de performance) fournit des informations et des informations de qualité sur le meilleur modèle candidat généré par une tâche AutoML. Cela inclut des informations sur les détails de la tâche, le type de problème du modèle, la fonction objective et d’autres informations relatives au type de problème. Ce guide explique comment afficher graphiquement les indicateurs de performance d'Amazon SageMaker Autopilot ou les afficher sous forme de données brutes dans un fichier JSON.

Par exemple, dans les problèmes de classification, le rapport de qualité du modèle inclut les éléments suivants :
+ Matrice Confusion
+ Aire située sous la courbe ROC (AUC)
+ Informations pour comprendre les faux positifs et les faux négatifs
+ Compromis entre les vrais positifs et les faux positifs
+ Compromis entre la précision et le rappel

Autopilot fournit également des métriques de performance pour tous vos modèles candidats. Ces métriques sont calculées à l’aide de toutes les données d’entraînement et sont utilisées pour estimer les performances du modèle. La zone de travail principale inclut ces métriques par défaut. Le type de métrique est déterminé par le type de problème à résoudre.

Consultez la [documentation de référence de SageMaker l'API Amazon](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html) pour obtenir la liste des métriques disponibles prises en charge par Autopilot.

Vous pouvez trier vos modèles candidats par la métrique appropriée pour vous aider à sélectionner et à déployer le modèle qui répond aux besoins de votre entreprise. Pour connaître les définitions de ces métriques, consultez la rubrique [Métriques des candidats Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html#autopilot-metrics).

Pour consulter un rapport de performances provenant d’une tâche Autopilot, procédez comme suit :

1. Cliquez sur l'icône **Accueil** (![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/icons/house.png)) dans le volet de navigation de gauche pour afficher le menu de navigation supérieur d'**Amazon SageMaker Studio Classic**.

1. Sélectionnez la carte **AutoML** dans la zone de travail principale. Ceci ouvre un nouvel onglet **Autopilot**.

1. Dans la section **Name** (Nom), sélectionnez la tâche Autopilot qui contient les détails que vous souhaitez examiner. Ceci ouvre un nouvel onglet de **Tâche Autopilot**.

1. Le panneau **Autopilot job** (Tâche Autopilot) répertorie les valeurs de métriques, y compris la métrique **Objective** (Objectif) pour chaque modèle sous **Model name** (Nom du modèle). Le **Best model** (Meilleur modèle) est répertorié en haut de la liste sous **Model name** (Nom du modèle) et est également mis en évidence dans l’onglet **Models** (Modèles).

   1. Pour consulter les détails du modèle, sélectionnez le modèle qui vous intéresse et sélectionnez **View model details** (Afficher les détails du modèle). Ceci ouvre un nouvel onglet **Détails du modèle**.

1. Choisissez l’onglet **Performances** entre l’onglet **Explicabilité** et l’onglet **Artefacts**.

   1. Dans la partie supérieure droite de l’onglet, sélectionnez la flèche déroulante sur le bouton **Download Performance Reports** (Télécharger les rapports de performance). 

   1. La flèche vers le bas propose deux options pour afficher les métriques de performances Autopilot :

      1. Vous pouvez télécharger le rapport de performances au format PDF pour visualiser les métriques sous forme graphique.

      1. Vous pouvez afficher les métriques en tant que données brutes et les télécharger sous la forme d’un fichier JSON.

Pour obtenir des instructions sur la création et l'exécution d'une tâche AutoML dans SageMaker Studio Classic, consultez. [Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML](autopilot-automate-model-development-create-experiment.md) 

Le rapport de performances contient deux sections. La première contient des détails sur la tâche Autopilot qui a produit le modèle. La deuxième contient un rapport sur la qualité du modèle.

## Détails de la tâche Autopilot
<a name="autopilot-model-insights-details-and-metrics-table"></a>

La première section du rapport fournit des informations générales sur la tâche Autopilot qui a produit le modèle. Ces détails de tâche incluent les informations suivantes :
+ Nom du candidat Autopilot
+ Nom de la tâche Autopilot
+ Type de problème
+ Métrique d’objectif
+ Direction de l’optimisation

## Rapport de qualité du modèle
<a name="autopilot-model-quality-report"></a>

Des informations sur la qualité du modèle sont générées par les analyses du modèle Autopilot. Le contenu du rapport généré dépend du type de problème résolu : régression, classification binaire ou classification multi-classes. Le rapport spécifie le nombre de lignes incluses dans le jeu de données d’évaluation et le moment auquel l’évaluation a eu lieu.

### Tableaux de métriques
<a name="autopilot-model-quality-report-metrics"></a>

La première partie du rapport sur la qualité du modèle contient des tableaux de métriques. Ils sont adaptés au type de problème traité par le modèle.

L’image suivante est un exemple de tableau de métriques généré par Autopilot pour un problème de régression. Il indique le nom, la valeur et l'écart type de la métrique.

![\[Exemple de rapport sur les mesures de régression du modèle Amazon SageMaker Autopilot Insights.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-regression-metrics.png)


L’image suivante est un exemple de tableau de métriques généré par Autopilot pour un problème de classification multi-classes. Il indique le nom, la valeur et l'écart type de la métrique.

![\[Exemple de rapport sur les mesures de classification multiclasses du modèle Amazon SageMaker Autopilot Insights.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-multiclass-metrics-report.png)


### Informations graphiques sur les performances du modèle
<a name="autopilot-model-quality-report-graphs"></a>

 La deuxième partie du rapport sur la qualité du modèle contient des informations graphiques qui vous aident à évaluer les performances du modèle. Le contenu de cette section dépend du type de problème utilisé dans la modélisation.

#### La zone située sous la courbe ROC.
<a name="autopilot-model-insights-auc-roc"></a>

L’aire sous la courbe caractéristique de fonctionnement du récepteur représente le compromis entre les taux de vrais positifs et de faux positifs. Il s’agit d’une métrique de précision conforme aux normes du secteur, utilisée pour les modèles de classification binaire. L’aire sous la courbe (AUC) mesure l’aptitude du modèle à prédire un score plus élevé pour les exemples de positifs, par rapport aux exemples de négatifs. La métrique AUC fournit une métrique regroupée des performances du modèle sur tous les seuils de classification possibles.

Elle renvoie une valeur décimale comprise entre 0 et 1. Les valeurs AUC proches de 1 indiquent que le modèle de machine learning est très précis. Les valeurs proches de 0,5 indiquent que le modèle n’est pas meilleur que de deviner au hasard. Les valeurs AUC proches de 0 indiquent que le modèle a appris les bonnes tendances, mais effectue des prédictions aussi imprécises que possible. Les valeurs proches de zéro peuvent indiquer un problème lié aux données. Pour plus d’informations sur la métrique AUC, accédez à l’article [Courbe ROC](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) sur Wikipédia.

Voici un exemple de graphe d’aire sous la courbe caractéristique de fonctionnement du récepteur permettant d’évaluer les prédictions effectuées par un modèle de classification binaire. La fine ligne pointillée représente la zone située sous la courbe des caractéristiques de fonctionnement du récepteur à laquelle un modèle qui classe les no-better-than-random suppositions obtiendrait un score, avec un score AUC de 0,5. Les courbes de modèles de classification plus précise se situent au-dessus de cette ligne de base aléatoire, où le taux de vrais positifs dépasse le taux de faux positifs. L’aire sous la courbe caractéristique de fonctionnement du récepteur représentant la performance du modèle de classification binaire correspond à la ligne épaisse continue. 

![\[Exemple de courbe caractéristique de fonctionnement SageMaker de la zone Amazon Autopilot située sous le récepteur.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-receiver-operating-characteristic-curve.png)


Un résumé des composantes du graphe relatives au **taux de faux positifs** (FPR) et au **taux de vrais positifs** (TPR) est défini comme suit.
+ Prédictions correctes
  + **Vrai positif** (TP, True Positive) : la valeur prédite est 1, et la valeur observée est 1.
  + **Vrai négatif** (TN, True Negative) : la valeur prédite est 0, et la valeur observée est 0.
+ Prédictions erronées
  + **Faux positif** (FP) : la valeur prédite est 1, mais la valeur observée est 0.
  + **Faux négatif** (FN) : la valeur prédite est 0, mais la valeur observée est 1.

Le **taux de faux positifs** (FPR) mesure la fraction de vrais négatifs (TN) faussement prédits comme positifs (FP), par rapport à la somme des FP et des TN. La plage est comprise entre 0 et 1. Plus la valeur est petite et meilleure est la précision prédictive. 
+ TFP = FP/(FP\$1TN)

Le **taux de vrais positifs** (TPR) mesure la fraction de vrais positifs correctement prédits comme positifs (TP), par rapport à la somme des TP et des faux négatifs (FN). La plage est comprise entre 0 et 1. Plus la valeur est grande et meilleure est la précision prédictive.
+ TPR = TP/(TP\$1FN)

#### Matrice Confusion
<a name="autopilot-model-insights-confusion-matrix"></a>

Une matrice de confusion permet de visualiser la précision des prédictions faites par un modèle de classification binaire et multi-classes pour différents problèmes. La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ Le nombre et le pourcentage de prédictions correctes et incorrectes pour les étiquettes réelles
+ Le nombre et le pourcentage de prédictions exactes sur la diagonale, du coin supérieur gauche au coin inférieur droit
+ Le nombre et le pourcentage de prédictions inexactes sur la diagonale, du coin supérieur droit au coin inférieur gauche

Les prédictions incorrectes d’une matrice de confusion sont les valeurs de confusion.

Le diagramme suivant est un exemple de matrice de confusion pour un problème de classification binaire. Elle contient les informations suivantes :
+ L’axe vertical est divisé en deux rangées contenant des étiquettes réelles vraies et fausses.
+ L’axe horizontal est divisé en deux colonnes contenant des étiquettes vraies et fausses prédites par le modèle.
+ La barre de couleur attribue une tonalité plus foncée à un plus grand nombre d'échantillons afin d'indiquer visuellement le nombre de valeurs classées dans chaque catégorie.

Dans cet exemple, le modèle a prédit correctement 2 817 valeurs fausses réelles et 353 valeurs vraies réelles. Le modèle a prédit incorrectement que 130 valeurs vraies réelles étaient fausses et que 33 valeurs fausses réelles étaient vraies. La différence de tonalité indique que le jeu de données n’est pas équilibré. Le déséquilibre est dû au fait qu’il y a beaucoup plus d’étiquettes fausses réelles que d’étiquettes vraies réelles.

![\[Exemple de matrice de confusion binaire Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-binary.png)


Le diagramme suivant est un exemple de matrice de confusion pour un problème de classification multi-classes. La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ L’axe vertical est divisé en trois rangées contenant trois étiquettes réelles différentes.
+ L’axe horizontal est divisé en trois colonnes contenant des étiquettes prédites par le modèle.
+ La barre de couleur attribue une tonalité plus foncée à un plus grand nombre d'échantillons afin d'indiquer visuellement le nombre de valeurs classées dans chaque catégorie.

Dans l’exemple ci-dessous, le modèle a correctement prédit 354 valeurs réelles pour l’étiquette **f**, 1094 valeurs pour l’étiquette **i** et 852 valeurs pour l’étiquette **m**. La différence de tonalité indique que le jeu de données n’est pas équilibré, car il existe beaucoup plus d’étiquettes pour la valeur **i** que pour **f** ou **m**. 

![\[Exemple de matrice de confusion multiclasse Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-multiclass.png)


La matrice de confusion du rapport sur la qualité du modèle fourni peut prendre en charge un maximum de 15 étiquettes pour les types de problèmes de classification multi-classes. Si une ligne correspondant à une étiquette affiche une valeur `Nan`, cela signifie que le jeu de données de validation utilisé pour vérifier les prédictions modélisées ne contient pas de données portant cette étiquette.

#### Courbe de gain
<a name="autopilot-model-insights-precision-gain-curve"></a>

Dans la classification binaire, une courbe de gain prédit l’avantage cumulé de l’utilisation d’un pourcentage du jeu de données pour trouver une étiquette positive. La valeur du gain est calculée pendant l’entraînement en divisant le nombre cumulé d’observations positives par le nombre total d’observations positives dans les données, à chaque décile. Si le modèle de classification créé pendant l’entraînement est représentatif des données invisibles, vous pouvez utiliser la courbe de gain pour prédire le pourcentage de données que vous devez cibler pour obtenir un pourcentage d’étiquettes positives. Plus le pourcentage du jeu de données utilisé est élevé, plus le pourcentage d’étiquettes positives trouvées est élevé.

Dans l’exemple de graphe suivant, la courbe de gain est la ligne dont la pente change. La ligne droite correspond au pourcentage d’étiquettes positives trouvées en sélectionnant au hasard un pourcentage de données dans le jeu de données. En ciblant 20 % du jeu de données, vous pouvez vous attendre à trouver plus de 40 % d’étiquettes positives. À titre d’exemple, vous pouvez envisager d’utiliser une courbe de gain pour déterminer vos efforts dans le cadre d’une campagne marketing. En utilisant notre exemple de courbe de gain, pour que 83 % des habitants d’un quartier achètent des cookies, vous enverriez une publicité à environ 60 % de la population du quartier.

![\[Exemple de courbe de gain Amazon SageMaker Autopilot avec pourcentage et valeur de gain.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-gain-curve.png)


#### Courbe de Lift
<a name="autopilot-model-insights-lift-curve"></a>

En classification binaire, la courbe de Lift illustre l’amélioration apportée par l’utilisation d’un modèle entraîné pour prédire la probabilité de trouver une étiquette positive par rapport à une estimation aléatoire. La valeur de Lift est calculée pendant l’entraînement en utilisant le ratio du pourcentage de gain par rapport au ratio d’étiquettes positives à chaque décile. Si le modèle créé pendant l’entraînement est représentatif des données invisibles, utilisez la courbe de Lift pour prédire l’avantage à utiliser le modèle par rapport à des suppositions aléatoires.

Dans l’exemple de graphe suivant, la courbe de Lift est la ligne dont la pente change. La ligne droite est la courbe de Lift associée à la sélection aléatoire du pourcentage correspondant dans le jeu de données. Si vous ciblez 40 % du jeu de données avec les étiquettes de classification de votre modèle, vous pouvez vous attendre à trouver environ 1,7 fois plus d’étiquettes positives que vous auriez trouvées en sélectionnant au hasard 40 % des données invisibles.

![\[Exemple de courbe de levage Amazon SageMaker Autopilot avec pourcentage et valeur de portance.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-lift-curve.png)


#### Courbe de rappel de précision
<a name="autopilot-model-insights-precision-recall-curve"></a>

La courbe de précision-rappel représente le compromis entre précision et rappel pour les problèmes de classification binaire. 

La **précision** mesure la fraction de positifs réels qui sont prédits comme positifs (TP) parmi l’ensemble des prédictions positives (TP et faux positifs). La plage est comprise entre 0 et 1. Plus la valeur est grande et meilleure est la précision des valeurs prédites.
+ Précision = TP/(TP\$1FP)

Le **rappel** mesure la fraction de positifs réels qui sont prédits comme positifs (TP) parmi l’ensemble des prédictions positives (TP et faux négatifs). Ceci est également connu sous le nom de taux de sensibilité ou de vrais positifs. La plage est comprise entre 0 et 1. Une valeur plus élevée indique une meilleure détection des valeurs positives de l’exemple. 
+ Rappel = TP/(TP\$1FN)

L’objectif d’un problème de classification est d’étiqueter correctement autant d’éléments que possible. Un système avec un rappel élevé, mais une faible précision, renvoie un pourcentage élevé de faux positifs. 

Le graphe suivant illustre un filtre de courrier indésirable qui marque chaque e-mail comme courrier indésirable. Son rappel est élevé, mais sa précision est faible, car le rappel ne mesure pas les faux positifs. 

Accordez plus de poids au rappel qu’à la précision si votre problème a une faible pénalité pour les valeurs de faux positifs, mais une pénalité élevée pour le fait de manquer un résultat vrai positif. Par exemple, la détection d’une collision imminente dans un véhicule autonome.

![\[Exemple Autopilot d’un système à rappel élevé et faible précision, modélisant tous les échantillons comme des positifs.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-high-recall-low-precision.PNG)


En revanche, un système avec précision élevée, mais faible rappel, renvoie un pourcentage élevé de faux négatifs. Un filtre de courrier indésirable qui marque chaque e-mail comme souhaitable (et non comme courrier indésirable) a une précision élevée et un faible rappel, car la précision ne mesure pas les faux négatifs. 

Si votre problème a une faible pénalité pour les valeurs de faux négatifs, mais une pénalité élevée pour le fait de manquer des résultats de vrais négatifs, accordez plus de poids à la précision qu’au rappel. Par exemple, le signalement d’un filtre suspect pour un contrôle fiscal.

Le graphe suivant représente un filtre de courrier indésirable à précision élevée, mais faible rappel, car la précision ne mesure pas les faux négatifs. 

![\[Exemple Autopilot d’un système à précision élevée et à faible rappel, modélisant tous les échantillons comme des négatifs.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-high-precision-low-recall.PNG)


Un modèle qui réalise des prédictions avec à la fois une précision élevée et un rappel élevé produit un grand nombre de résultats correctement étiquetés. Pour en savoir plus, consultez [Précision et rappel](https://en.wikipedia.org/wiki/Precision_and_recall) dans Wikipédia.

#### Aire sous la courbe précision-rappel (AUPRC)
<a name="autopilot-model-insights-area-under-precision-recall-curve"></a>

Pour les problèmes de classification binaire, Amazon SageMaker Autopilot inclut un graphique de la zone située sous la courbe de rappel de précision (AUPRC). La métrique AUPRC fournit une mesure agrégée des performances du modèle sur tous les seuils de classification possibles et utilise à la fois la précision et le rappel. La courbe AUPRC ne prend pas en compte le nombre de vrais négatifs. Il peut donc être utile d’évaluer les performances du modèle dans les cas où les données contiennent un grand nombre de vrais négatifs. Par exemple, pour modéliser un gène contenant une mutation rare.

Le graphique suivant est un exemple de graphe AUPRC. La précision à sa valeur la plus élevée est de 1 et le rappel est de 0. Dans le coin inférieur droit du graphe, le rappel est sa valeur la plus élevée (1) et la précision est 0. Entre ces deux points, la courbe AUPRC illustre le compromis entre la précision et le rappel à différents seuils.

![\[La courbe précision-rappel illustre le compromis entre précision et rappel à différents seuils.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-binary-precision-recall.png)


#### Tracé des valeurs réelles par rapport aux prédictions
<a name="autopilot-model-insights-actual-vs-predicted-plot"></a>

Le tracé des valeurs réelles par rapport aux prédictions montre la différence entre les valeurs réelles et les valeurs prédites du modèle. Dans l’exemple de graphe suivant, la ligne continue est une droite de meilleur ajustement. Si le modèle était précis à 100 %, chaque point prédit serait égal à son point réel correspondant et se situerait sur cette droite de meilleur ajustement. La distance par rapport à la droite de meilleur ajustement est une indication visuelle de l’erreur du modèle. Plus la distance par rapport à la droite de meilleur ajustement est grande, plus l’erreur du modèle est importante.

![\[Exemple avec droite de meilleur ajustement, différenciant le tracé réel du tracé prédit et indiquant l’erreur du modèle.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-actual-vs-predicted-plot.png)


#### Tracé résiduel normalisé
<a name="autopilot-model-insights-standardized-residual"></a>

Un tracé résiduel normalisé intègre les termes statistiques suivants :

**`residual`**  
Un résiduel (brut) indique la différence entre les valeurs réelles et les valeurs prédites par votre modèle. Plus la différence est importante, plus la valeur résiduelle est importante.

**`standard deviation`**  
L’écart type est une mesure de la façon dont les valeurs varient par rapport à une valeur moyenne. Un écart type élevé indique que de nombreuses valeurs sont très différentes de leur valeur moyenne. Un écart type faible indique que de nombreuses valeurs sont proches de leur valeur moyenne.

**`standardized residual`**  
Un résiduel normalisé divise les résiduels bruts par leur écart type. Les résiduels normalisés comportent des unités d’écart type et sont utiles pour identifier les valeurs aberrantes dans les données, quelle que soit la différence d’échelle des résiduels bruts. Si un résiduel normalisé est beaucoup plus petit ou plus grand que les autres résiduels normalisés, cela indique que le modèle ne correspond pas bien à ces observations.

Le tracé résiduel normalisé mesure la force de la différence entre les valeurs observées et attendues. La valeur réelle prédite est affichée sur l’axe X. Un point dont la valeur est supérieure à la valeur absolue de 3 est généralement considéré comme une valeur aberrante.

L’exemple de graphe suivant montre qu’un grand nombre de résiduels normalisés sont regroupés autour de 0 sur l’axe horizontal. Les valeurs proches de zéro indiquent que le modèle correspond bien à ces points. Les points situés en haut et en bas du tracé ne sont pas bien prédits par le modèle.

![\[Exemple de diagramme des valeurs résiduelles standardisées Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-standardized-residual.png)


#### Histogramme résiduel
<a name="autopilot-model-insights-residual-histogram"></a>

Un histogramme résiduel intègre les termes statistiques suivants :

**`residual`**  
Un résiduel (brut) indique la différence entre les valeurs réelles et les valeurs prédites par votre modèle. Plus la différence est importante, plus la valeur résiduelle est importante.

**`standard deviation`**  
L’écart type est une mesure du degré de variation des valeurs par rapport à une valeur moyenne. Un écart type élevé indique que de nombreuses valeurs sont très différentes de leur valeur moyenne. Un écart type faible indique que de nombreuses valeurs sont proches de leur valeur moyenne.

**`standardized residual`**  
Un résiduel normalisé divise les résiduels bruts par leur écart type. Les résiduels normalisés ont des unités d’écart type. Ils sont utiles pour identifier les valeurs aberrantes dans les données, quelle que soit la différence d’échelle des résiduels bruts. Si un résiduel normalisé est beaucoup plus petit ou plus grand que les autres résiduels normalisés, cela indique que le modèle ne correspond pas bien à ces observations.

**`histogram`**  
Un histogramme est un graphe qui indique la fréquence d’apparition d’une valeur.

L’histogramme résiduel montre la distribution des valeurs résiduelles normalisées. Un histogramme distribué en forme de cloche centrée sur zéro indique que le modèle ne prédit pas systématiquement trop haut ou trop bas une plage particulière de valeurs cibles.

Dans le graphique suivant, les valeurs résiduelles normalisées indiquent que le modèle correspond bien aux données. Si le graphe montrait des valeurs très éloignées de la valeur centrale, cela indiquerait que ces valeurs ne correspondent pas bien au modèle.

![\[Valeur résiduelle normalisée proche de zéro, indiquant que le modèle correspond bien aux données.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-residual-histogram.png)


# Bloc-notes Autopilot générés pour gérer les tâches AutoML
<a name="autopilot-automate-model-development-notebook-output"></a>

Amazon SageMaker Autopilot gère les tâches clés d'un processus d'apprentissage automatique (AutoML) à l'aide d'une tâche AutoML. La tâche AutoML crée deux rapports basés sur des blocs-notes qui décrivent le plan suivi par Autopilot pour générer des modèles candidats.

Un modèle candidat se compose d’une paire (pipeline, algorithme). Premièrement, un bloc-notes d’**exploration de données** décrit ce qu’Autopilot a appris sur les données que vous avez fournies. Deuxièmement, un bloc-notes de **définition de candidats **utilise ces informations sur les données pour générer des candidats. Troisièmement, un rapport d’**analyse de modèle** qui peut aider à détailler les caractéristiques de performance du meilleur modèle dans le classement d’une expérience Autopilot.

**Topics**
+ [

# Rapport Autopilot d’exploration de données
](autopilot-data-exploration-report.md)
+ [

# Recherche et exécution du bloc-notes de définition des candidats
](autopilot-candidate-generation-notebook.md)

Vous pouvez exécuter ces blocs-notes dans Amazon SageMaker AI, ou localement, si vous avez installé le [SDK Amazon SageMaker Python](https://sagemaker.readthedocs.io/en/stable). Vous pouvez partager les blocs-notes comme n'importe quel autre bloc-notes SageMaker Studio Classic. Les carnets sont créés pour que vous puissiez effectuer des expériences. Par exemple, vous pouvez modifier les éléments suivants dans les blocs-notes :
+ Préprocesseurs utilisés sur les données 
+ Nombre d’exécutions d’optimisation des hyperparamètres et leur parallélisme
+ Algorithmes à essayer
+ Types d’instance utilisés pour les tâches d’optimisation des hyperparamètres
+ Plages des hyperparamètres

Les modifications du bloc-notes de définition des candidats sont encouragées en tant qu’outil d’apprentissage. Grâce à cette capacité, vous apprenez comment les décisions prises au cours du processus de machine learning influencent vos résultats. 

**Note**  
Lorsque vous exécutez les blocs-notes dans votre instance par défaut, vous payez des coûts de référence. Cependant, lorsque vous exécutez des tâches HPO à partir du bloc-notes des candidats, ces tâches utilisent des ressources de calcul supplémentaires qui entraînent des coûts supplémentaires. 

# Rapport Autopilot d’exploration de données
<a name="autopilot-data-exploration-report"></a>

Amazon SageMaker Autopilot nettoie et prétraite automatiquement votre ensemble de données. La qualité élevée des données améliore l’efficacité du machine learning et produit des modèles dont les prédictions sont plus précises. 

Il existe des problèmes avec des jeux de données fournis par le client qui ne peuvent pas être résolus automatiquement sans une certaine connaissance du domaine. Par exemples, les valeurs aberrantes importantes dans la colonne cible pour les problèmes de régression peuvent entraîner des prédictions sous-optimales pour les valeurs non aberrantes. Certaines valeurs aberrantes doivent être supprimées selon l’objectif de modélisation. Si une colonne cible est incluse par accident comme l’une des ressources d’entrée, le modèle final sera bien validé, mais n’aura que peu de valeur pour les prédictions à venir. 

Pour aider les clients à déceler ce genre de problèmes, Autopilot fournit un rapport d’exploration des données qui contient des informations sur les problèmes potentiels de leurs données. Le rapport suggère également la manière de traiter les problèmes.

Un bloc-notes d’exploration de données contenant le rapport est généré pour chaque tâche Autopilot. Le rapport est stocké dans un compartiment S3 et est accessible depuis votre chemin de sortie. Le chemin du rapport d’exploration de données correspond généralement au schéma suivant.

```
[s3 output path]/[name of the automl job]/sagemaker-automl-candidates/[name of processing job used for data analysis]/notebooks/SageMaker AIAutopilotDataExplorationNotebook.ipynb
```

L'emplacement du carnet d'exploration des données peut être obtenu à partir de l'API Autopilot à l'aide de la réponse à l'[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)opération, qui est stockée dans. [DataExplorationNotebookLocation](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobArtifacts.html#sagemaker-Type-AutoMLJobArtifacts-DataExplorationNotebookLocation) 

Lorsque vous exécutez le pilote automatique depuis SageMaker Studio Classic, vous pouvez ouvrir le rapport d'exploration des données en procédant comme suit :

1. Cliquez sur l'icône **Accueil** dans le *volet ![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/icons/house.png) de navigation de gauche* pour afficher le menu de navigation supérieur d'**Amazon SageMaker Studio Classic**.

1. Sélectionnez la carte **AutoML** dans la zone de travail principale. Ceci ouvre un nouvel onglet **Autopilot**.

1. Dans la section **Name** (Nom), sélectionnez la tâche Autopilot qui contient le bloc-notes d’exploration des données que vous souhaitez examiner. Ceci ouvre un nouvel onglet de **Tâche Autopilot**.

1. Sélectionnez **Open data exploration notebook** (Ouvrir le bloc-notes d’exploration de données) dans la section supérieure droite de l’onglet **Autopilot job** (Tâche Autopilot).

Le rapport d’exploration de données est généré à partir de vos données avant le début du processus d’entraînement. Cela vous permet d’arrêter les tâches Autopilot susceptibles d’entraîner des résultats dénués de sens. De même, vous pouvez résoudre l’ensemble des problèmes ou améliorations liés à votre jeu de données avant de réexécuter Autopilot. Vous pouvez ainsi utiliser savoir-faire dans votre domaine pour améliorer manuellement la qualité des données avant d’entraîner un modèle sur un jeu de données mieux organisé.

Le rapport de données ne contient qu’une syntaxe statique et peut être ouvert dans n’importe quel environnement Jupyter. Le bloc-notes contenant le rapport peut être converti en d’autres formats, tels que PDF ou HTML. Pour plus d’informations sur les conversions, consultez [Utilisation du script nbconvert pour convertir les blocs-notes Jupyter vers d’autres formats](https://nbconvert.readthedocs.io/en/latest/usage.html ).

**Topics**
+ [

## Récapitulatif du jeu de données
](#autopilot-data-exploration-report-dataset-summary)
+ [

## Analyse de la cible
](#autopilot-data-exploration-report-target-analysis)
+ [

## Échantillon de données
](#autopilot-data-exploration-report-data-sample)
+ [

## Lignes dupliquées.
](#autopilot-data-exploration-report-duplicate-rows)
+ [

## Corrélations croisées de colonnes
](#autopilot-data-exploration-report-cross-column-correlations)
+ [

## Lignes anormales
](#autopilot-data-exploration-report-cross-anomolous-rows)
+ [

## Valeurs manquantes, cardinalité et statistiques descriptives
](#autopilot-data-exploration-report-description-statistics-and-values)

## Récapitulatif du jeu de données
<a name="autopilot-data-exploration-report-dataset-summary"></a>

Ce **Dataset Summary** (Récapitulatif du jeu de données) fournit des statistiques clés caractérisant votre jeu de données, notamment le nombre de lignes, le nombre de colonnes, le pourcentage de lignes dupliquées et les valeurs cibles manquantes. Il est destiné à vous fournir une alerte rapide en cas de problème avec votre ensemble de données détecté par Amazon SageMaker Autopilot et susceptible de nécessiter votre intervention. Ces informations sont présentées sous forme d’avertissements classés comme étant de gravité « élevée » ou « faible ». La classification dépend du niveau de confiance dans le fait que le problème aura un impact négatif sur la performance du modèle.

Les informations sur la gravité élevée et faible apparaissent dans le résumé sous forme de fenêtres contextuelles. Dans la plupart des cas, des recommandations sont proposées pour confirmer qu’il existe un problème avec le jeu de données qui requiert votre attention. Des propositions sont également formulées sur la manière de résoudre les problèmes.

Autopilot fournit d’autres statistiques sur les valeurs cibles manquantes ou non valides dans notre jeu de données pour vous aider à détecter d’autres problèmes qui peuvent ne pas être détectés par des informations de gravité élevée. Un nombre inattendu de colonnes d’un type particulier peut indiquer que certaines colonnes que vous souhaitez utiliser sont peut-être absentes du jeu de données. Cela pourrait également indiquer qu’il y a eu un problème dans la façon dont les données ont été préparées ou stockées. La résolution de ces problèmes de données portés à votre attention par Autopilot peut améliorer les performances des modèles de machine learning entraînés sur vos données. 

Les informations de gravité élevée sont présentés dans la section récapitulative et dans d’autres sections pertinentes du rapport. Des exemples d’informations de gravité élevée et faible sont généralement donnés en fonction de la section du rapport de données.

## Analyse de la cible
<a name="autopilot-data-exploration-report-target-analysis"></a>

Diverses informations de gravité élevée et faible sont présentées dans cette section concernant la distribution des valeurs dans la colonne cible. Vérifiez que la colonne cible contient les bonnes valeurs. Des valeurs incorrectes dans la colonne cible donneront probablement lieu à un modèle de machine learning qui ne servira pas l’objectif commercial visé. Plusieurs informations de données de gravité élevée et faible figurent dans cette section. Voici quelques exemples.
+ **Valeurs cibles aberrantes** : distribution des cibles asymétriques ou inhabituelles pour la régression, comme les cibles à ailes lourdes.
+ **Cardinalité de cible élevée ou faible** : nombre peu fréquent d’étiquettes de classe ou grand nombre de classes uniques pour la classification.

Pour les types de problèmes de régression et de classification, des valeurs non valides telles que l’infinité numérique, `NaN` ou un espace vide apparaissent dans la colonne cible. Selon le type de problème, différentes statistiques de jeux de données sont présentées. Une distribution de valeurs de colonne cible pour un problème de régression vous permet de vérifier si la distribution correspond à vos attentes. 

La capture d’écran suivante montre un rapport de données Autopilot, qui inclut des statistiques telles que la moyenne, la médiane, le minimum, le maximum et le pourcentage de valeurs aberrantes dans votre jeu de données. La capture d’écran inclut également un histogramme montrant la distribution des étiquettes dans la colonne cible. L’histogramme montre **Valeurs de colonne cible** sur l’axe horizontal et **Nombre** sur l’axe vertical. Un encadré met en évidence la section **Pourcentage de valeurs aberrantes** de la capture d’écran pour indiquer où cette statistique apparaît.

![\[Rapport de données Autopilot sur la distribution des valeurs des colonnes cibles.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-target-analysis.png)


Plusieurs statistiques sont affichées concernant les valeurs cibles et leur distribution. Si l’une des valeurs aberrantes, des valeurs non valides ou des pourcentages manquants est supérieure à zéro, ces valeurs sont mises en évidence afin que vous puissiez étudier pourquoi vos données contiennent des valeurs cibles inutilisables. Certaines valeurs cibles inutilisables sont mises en évidence par un avertissement de faible gravité. 

Dans la capture d’écran suivante, un symbole ` a été ajouté par erreur à la colonne cible, ce qui a empêché l’analyse de la valeur numérique de la cible. Un avertissement **Information de faible gravité : « Valeurs cibles non valides »** s’affiche. Dans cet exemple, l’avertissement indique que « 0,14 % des étiquettes de la colonne cible n’ont pas pu être converties en valeurs numériques. Les valeurs non numériques les plus courantes sont : [« -3,8e-05 »,« -9-05 »,« -4,7e-05 »,« -1,4999999999999999e-05 »,« -4,3e-05 »]. Cela indique généralement qu’il existe des problèmes de collecte ou de traitement des données. Amazon SageMaker Autopilot ignore toutes les observations dont l'étiquette cible n'est pas valide. »

![\[Les données Autopilot transmettent un avertissement de faible gravité concernant des valeurs cibles non valides.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-target-analysis-invalid-target-values.png)


Autopilot fournit également un histogramme indiquant la distribution des étiquettes à des fins de classification. 

La capture d’écran suivante montre un exemple de statistiques fournies pour votre colonne cible, notamment le nombre de classes, les valeurs manquantes ou non valides. Un histogramme avec **Étiquette cible** sur l’axe horizontal et **Fréquence** sur l’axe vertical montre la distribution de chaque catégorie d’étiquettes.

![\[Les données Autopilot signalent une cardinalité élevée pour la classification.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-target-analysis-invalid-classification.png)


**Note**  
Vous trouverez des définitions de tous les termes présentés dans cette section et dans d’autres sections dans la section **Définitions** au bas du bloc-notes du rapport.

## Échantillon de données
<a name="autopilot-data-exploration-report-data-sample"></a>

Autopilot présente un échantillon réel de vos données pour vous aider à identifier les problèmes liés à votre jeu de données. La table d’échantillon défile horizontalement. Inspectez les données de l’échantillon pour vérifier que toutes les colonnes nécessaires sont présentes dans le jeu de données. 

Autopilot calcule également une mesure du pouvoir prédictif, qui peut être utilisée pour identifier une relation linéaire ou non linéaire entre une caractéristique et la variable cible. La valeur `0` indique que la caractéristique n’a aucune valeur prédictive dans la prédiction de la variable cible. La valeur `1` indique le pouvoir prédictif le plus élevé pour la variable cible. Pour plus d’informations sur le pouvoir prédictif, consultez **Définitions**. 

**Note**  
Il n’est pas recommandé d’utiliser le pouvoir prédictif comme substitut à l’importance d’une caractéristique. Ne l’utilisez que si vous êtes certain que le pouvoir prédictif est une mesure appropriée pour votre cas d’utilisation.

La capture d’écran suivante montre un exemple d’échantillon de données. La ligne du haut contient le pouvoir prédictif de chaque colonne dans votre jeu de données. La deuxième ligne contient le type de données de colonne. Les lignes suivantes contiennent les étiquettes. Les colonnes contiennent la colonne cible suivie de chaque colonne de caractéristique. Un pouvoir prédictif est associé à chaque colonne de caractéristique, encadré dans cette capture d’écran. Dans cet exemple, la colonne contenant la caractéristique `x51` a un pouvoir prédictif de `0.68` pour la variable cible `y`. La caractéristique `x55` est légèrement moins prédictive avec un pouvoir prédictif de `0.59`.

![\[Pouvoir de prédiction des échantillons de données du rapport Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-sample-prediction.png)


## Lignes dupliquées.
<a name="autopilot-data-exploration-report-duplicate-rows"></a>

Si des lignes dupliquées sont présentes dans l'ensemble de données, Amazon SageMaker Autopilot en affiche un échantillon.

**Note**  
Il n’est pas recommandé d’équilibrer un jeu de données par sur-échantillonnage avant de le fournir à Autopilot. Cela peut entraîner des scores de validation inexacts pour les modèles entraînés par Autopilot, et les modèles produits peuvent être inutilisables.

## Corrélations croisées de colonnes
<a name="autopilot-data-exploration-report-cross-column-correlations"></a>

Autopilot utilise le coefficient de corrélation de Pearson, une mesure de la corrélation linéaire entre deux caractéristiques, pour remplir une matrice de corrélation. Dans cette matrice de corrélation, les caractéristiques numériques sont tracées sur les axes horizontal et vertical, avec le coefficient de corrélation de Pearson tracé à leurs intersections. Plus la corrélation entre deux caractéristiques est élevée, plus le coefficient est élevé, avec une valeur maximale de `|1|`.
+ La valeur `-1` indique que les caractéristiques présente une parfaite corrélation négative.
+ La valeur `1`, qui apparaît lorsqu’une caractéristique est corrélée à elle-même, indique une parfaite corrélation positive.

Vous pouvez utiliser les informations de la matrice de corrélation pour supprimer les caractéristiques fortement corrélées. Un nombre réduit de ressources diminue les risques de surajustement d’un modèle et peut baisser les coûts de production de deux manières. Cela raccourcit le temps d’exécution d’Autopilot et, pour certaines applications, peut réduire le coût des procédures de collecte de données. 

La capture d’écran suivante montre un exemple de matrice de corrélation entre `7` caractéristiques. Chaque caractéristique est affichée dans une matrice sur les axes horizontal et vertical. Le coefficient de corrélation de Pearson est affiché à l’intersection de deux caractéristiques. Une tonalité de couleur est associée à chaque intersection de caractéristiques. Plus la corrélation est élevée, plus la tonalité est foncée. Les tonalités les plus foncées occupent la diagonale de la matrice, où chaque caractéristique est corrélée à elle-même, ce qui représente une parfaite corrélation.

![\[Matrice de corrélation croisée des données du rapport Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-cross-column-statistics.png)


## Lignes anormales
<a name="autopilot-data-exploration-report-cross-anomolous-rows"></a>

Amazon SageMaker Autopilot détecte les lignes de votre ensemble de données susceptibles de présenter des anomalies. Il attribue ensuite un score d’anomalie à chaque ligne. Les lignes présentant un score d’anomalie négatif sont considérées comme anormales. 

La capture d’écran suivante montre le résultat d’une analyse Autopilot pour les lignes contenant des anomalies. Une colonne contenant un score anormal apparaît à côté des colonnes du jeu de données pour chaque ligne.

![\[Jeu de données Autopilot avec des lignes anormales, affichant des scores d’anomalie négatifs.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-anomalous-rows.png)


## Valeurs manquantes, cardinalité et statistiques descriptives
<a name="autopilot-data-exploration-report-description-statistics-and-values"></a>

Amazon SageMaker Autopilot examine et génère des rapports sur les propriétés des différentes colonnes de votre ensemble de données. Dans chaque section du rapport de données qui présente cette analyse, le contenu est classé dans l’ordre. Cela vous permet de vérifier en priorité les valeurs les plus « suspectes ». Grâce à ces statistiques, vous pouvez améliorer le contenu des colonnes individuelles et améliorer la qualité du modèle produit par Autopilot.

Autopilot calcule plusieurs statistiques sur les valeurs catégoriques des colonnes qui les contiennent. Celles-ci incluent notamment le nombre d’entrées uniques et, pour le texte, le nombre de mots uniques.

Autopilot calcule plusieurs statistiques standard sur les valeurs numériques des colonnes qui les contiennent. L’image suivante illustre ces statistiques, notamment les valeurs moyennes, médianes, minimales et maximales, ainsi que les pourcentages de types numériques et de valeurs aberrantes. 

![\[Les données Autopilot présentent les statistiques sur des colonnes avec des valeurs numériques.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-descriptive-statistics.png)


# Recherche et exécution du bloc-notes de définition des candidats
<a name="autopilot-candidate-generation-notebook"></a>

Le bloc-notes de définition de candidats contient des suggestions sur chaque étape de prétraitement, algorithme et plages d’hyperparamètres. 

Vous pouvez choisir le candidat à entraîner et à ajuster de deux manières. La première, en exécutant des sections du bloc-notes. La seconde, en exécutant l’intégralité du bloc-notes pour optimiser tous les candidats afin d’identifier le meilleur candidat. Si vous exécutez l’ensemble du bloc-notes, seul le meilleur candidat s’affiche une fois la tâche terminée. 

Pour exécuter le pilote automatique à partir de SageMaker Studio Classic, ouvrez le bloc-notes de définition des candidats en procédant comme suit :

1. Cliquez sur l'icône **Accueil** dans le volet ![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/icons/house.png) de navigation de gauche pour afficher le menu de navigation supérieur d'**Amazon SageMaker Studio Classic**.

1. Sélectionnez la carte **AutoML** dans la zone de travail principale. Ceci ouvre un nouvel onglet **Autopilot**.

1. Dans la section **Name** (Nom), sélectionnez la tâche Autopilot qui contient le bloc-notes de définition des candidats que vous souhaitez examiner. Ceci ouvre un nouvel onglet de **Tâche Autopilot**.

1. Choisissez **Ouvrir le bloc-notes de génération des candidats** dans la section supérieure droite de l’onglet **Tâche Autopilot**. Cela ouvre un nouvel aperçu en lecture seule du bloc-notes de définition des candidats **Amazon SageMaker Autopilot.**

Pour exécuter le bloc-notes de définition des candidats, procédez comme suit :

1. Choisissez **Importer un bloc-notes** en haut à droite de l'onglet **Amazon SageMaker Autopilot Candidate Definition Notebook**. Cela ouvre un onglet permettant de configurer un nouvel environnement de bloc-notes pour exécuter celui-ci.

1. Sélectionnez une SageMaker **image** existante ou utilisez une **image personnalisée**. 

1. Sélectionnez un **Noyau**, un **Type d’instance** et un **Script de démarrage** facultatif.

Vous pouvez désormais exécuter le bloc-notes dans ce nouvel environnement.

# Configuration de la sortie d’inférence dans les conteneurs générés
<a name="autopilot-automate-model-development-container-output"></a>

Autopilot génère une liste [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ContainerDefinition.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ContainerDefinition.html) ordonnée. Elle peut être utilisée pour créer un modèle à déployer dans un pipeline de machine learning. Ce modèle peut être utilisé pour l’hébergement en ligne et l’inférence. 

Les clients peuvent répertorier les définitions des conteneurs d’inférence à l’aide de l’API [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidateForAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidateForAutoMLJob.html). La liste des définitions des conteneurs d’inférence représentant le meilleur candidat est également disponible dans la réponse [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html).

## Définitions des conteneurs d’inférence pour les types de problèmes de régression et de classification
<a name="autopilot-problem-type-container-output"></a>

Autopilot génère des conteneurs d’inférence spécifiques au [mode d’entraînement](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html#autopilot-training-mode) et au [type de problèmes](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-datasets-problem-types.html#autopilot-problem-types) de la tâche.

### Définitions de conteneurs pour le mode d’optimisation des hyperparamètres (HPO)
<a name="autopilot-problem-type-container-output-hpo"></a>
+ **Régression** : HPO génère deux conteneurs :

  1. Un conteneur d’ingénierie des caractéristiques qui transforme les caractéristiques d’origine en caractéristiques sur lesquelles les algorithmes de régression peuvent s’entraîner.

  1. Un conteneur d’algorithme qui transforme les caractéristiques et génère un score de régression pour le jeu de données.
+ **Classification** : HPO génère trois conteneurs :

  1. Un conteneur d’ingénierie des caractéristiques qui transforme les caractéristiques d’origine en caractéristiques sur lesquelles les algorithmes de classification peuvent s’entraîner.

  1. Un conteneur d’algorithme qui génère l’étiquette `predicted_label` qui présente la plus forte probabilité. Ce conteneur peut également générer les différentes probabilités associées aux résultats de la classification dans la réponse d’inférence.

  1. Un conteneur d’ingénierie des caractéristiques qui effectue le post-traitement de la prédiction de l’algorithme. Par exemple, il peut effectuer une transformation inverse sur l’étiquette prédite et la remplacer par l’étiquette d’origine. 

### Définitions de conteneur pour le mode Assemblage
<a name="autopilot-problem-type-container-output-ensemble"></a>

En mode Assemblage, les types de problèmes de régression et de classification n’ont qu’un seul conteneur d’inférence. Ce conteneur d’inférence transforme les caractéristiques et génère les prédictions en fonction du type de problème. 

## Réponses d’inférence par type de problèmes
<a name="autopilot-problem-type-inference-response"></a>

### Réponses d’inférence pour les modèles de classification
<a name="autopilot-problem-type-inference-response-classification"></a>

Pour les conteneurs d’inférence de classification, vous pouvez sélectionner le contenu de la réponse d’inférence à l’aide de quatre clés prédéfinies :
+ `predicted_label` : étiquette présentant la probabilité la plus élevée de prédire l’étiquette correcte, telle que déterminée par Autopilot.
+ `probability`: 
  + **Modèles HPO :** probabilité de la classe `True` pour la classification binaire. La probabilité de l’étiquette `predicted_label` pour la classification multi-classes.
  + **Modèles ensemblistes :** probabilité de l’élément `predicted_label` pour la classification binaire et multi-classes.
+ `probabilities` : liste des probabilités pour toutes les classes correspondantes.
+ `labels` : liste de toutes les étiquettes.

Par exemple, pour un problème de classification binaire, si vous transmettez les clés de réponse d’inférence `['predicted_label', 'probability', 'probabilities', 'labels']` et que la réponse de sortie apparaît sous la forme `[1, 0.1, "[0.9, 0.1]", "['1', '0']"]`, vous devez l’interpréter comme suit :

1. La clé `predicted_label` est égale à `1` parce que l’étiquette « 1 » a une probabilité plus élevée (`0.9` dans ce cas).

1. Pour les modèles HPO, la clé `probability` est égale à `0.1` qui est la probabilité de l’élément `positive_class` (`0` dans ce cas) sélectionné par Autopilot.

   Pour les modèles ensemblistes, la clé `probability` est égale à `0.9` qui est la probabilité de l’étiquette `predicted_label`.

1. La clé `probabilities` répertorie la clé `probability` de chaque étiquette dans `labels`.

1. Les éléments `labels` sont les étiquettes uniques du jeu de données, où la deuxième étiquette (« 0 » dans ce cas) est l’élément `positive_class` sélectionné par Autopilot.

Par défaut, les conteneurs d’inférence sont configurés pour générer uniquement les étiquettes `predicted_label`. Pour sélectionner du contenu d’inférence supplémentaire, vous pouvez mettre à jour le paramètre `inference_response_keys` afin d’inclure jusqu’à ces trois variables d’environnement :
+ `SAGEMAKER_INFERENCE_SUPPORTED` : est définie pour vous fournir des conseils sur le contenu pris en charge par chaque conteneur.
+ `SAGEMAKER_INFERENCE_INPUT` : doit être définie sur les clés que le conteneur attend dans les données utiles d’entrée.
+ `SAGEMAKER_INFERENCE_OUTPUT` : doit être renseignée avec le jeu de clés que le conteneur délivre en sortie.

### Réponses d’inférence pour les modèles de classification en mode HPO
<a name="autopilot-problem-type-inference-response-classification-hpo"></a>

Cette section explique comment configurer la réponse d’inférence à partir de modèles de classification à l’aide du mode d’optimisation des hyperparamètres (HPO).

Pour choisir le contenu de la réponse d’inférence en mode HPO : ajoutez les variables `SAGEMAKER_INFERENCE_INPUT` et `SAGEMAKER_INFERENCE_OUTPUT` aux deuxième et troisième conteneurs générés en mode HPO pour les problèmes de classification.

Les clés prises en charge par le deuxième conteneur (algorithme) sont predicted\$1label, probabilité et probabilités. Notez que `labels` n’est délibérément pas ajouté à `SAGEMAKER_INFERENCE_SUPPORTED`.

Les clés prises en charge par le troisième conteneur de modèle de classification sont `predicted_label`, `labels`, `probability` et `probabilities`. Par conséquent, l’environnement `SAGEMAKER_INFERENCE_SUPPORTED` inclut les noms de ces clés.

Pour mettre à jour la définition des conteneurs d’inférence afin de recevoir `predicted_label` et `probability`, utilisez l’exemple de code suivant.

```
containers[1]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_INPUT': 'predicted_label, probability'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
```

L’exemple de code suivant met à jour la définition des conteneurs d’inférence afin de recevoir `predicted_label`, `probabilities` et `labels`. Ne passez pas l’étiquette `labels` au deuxième conteneur (conteneur d’algorithme), car elle peut être générée par le troisième conteneur indépendamment. 

```
containers[1]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label,probabilities'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_INPUT': 'predicted_label,probabilities'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probabilities,labels'})
```

Les sections démontables suivantes fournissent des exemples de code pour AWS SDK pour Python (Boto3) et pour le SageMaker SDK pour Python. Chaque section montre comment sélectionner le contenu des réponses d’inférence en mode HPO pour l’exemple de code correspondant.

#### AWS SDK pour Python (Boto3)
<a name="autopilot-problem-type-inference-response-classification-hpo-boto3"></a>

```
import boto3

sm_client = boto3.client('sagemaker', region_name='<Region>')

role = '<IAM role>'
input_data = '<S3 input uri>'
output_path = '<S3 output uri>'

best_candidate = sm_client.describe_auto_ml_job(AutoMLJobName='<AutoML Job Name>')['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

best_candidate_containers[1]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
best_candidate_containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_INPUT': 'predicted_label, probability'})
best_candidate_containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})

# create model
reponse = sm_client.create_model(
    ModelName = '<Model Name>',
    ExecutionRoleArn = role,
    Containers = best_candidate_containers
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName='<Transform Job Name>',
    ModelName='<Model Name>',
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/CSV",
        'SplitType': 'Line'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m4.xlarge',
        'InstanceCount': 1,
    },
)
```

#### SageMaker SDK pour Python
<a name="autopilot-problem-type-inference-response-classification-hpo-sdk"></a>

```
from sagemaker import AutoML

aml = AutoML.attach(auto_ml_job_name='<AutoML Job Name>')
aml_best_model = aml.create_model(name='<Model Name>',
                                  candidate=None,
                                  inference_response_keys**=['probabilities', 'labels'])

aml_transformer = aml_best_model.transformer(accept='text/csv',
                                            assemble_with='Line',
                                            instance_type='ml.m5.xlarge',
                                            instance_count=1,)

aml_transformer.transform('<S3 input uri>',
                          content_type='text/csv',
                          split_type='Line',
                          job_name='<Transform Job Name>',
                          wait=True)
```

### Réponses d’inférence pour les modèles de classification en mode Assemblage
<a name="autopilot-problem-type-inference-response-classification-ensemble"></a>

Cette section explique comment configurer la réponse d’inférence à partir de modèles de classification à l’aide du mode Assemblage. 

En **mode Assemblage**, pour choisir le contenu de la réponse d’inférence, mettez à jour la variable d’environnement `SAGEMAKER_INFERENCE_OUTPUT`.

Les clés prises en charge par le conteneur de modèle de classification sont `predicted_label`, `labels`, `probability` et `probabilities`. Ces clés sont incluses dans l’environnement `SAGEMAKER_INFERENCE_SUPPORTED`.

Pour mettre à jour la définition des conteneurs d’inférence afin de recevoir `predicted_label` et `probability`, consultez l’exemple de code suivant.

```
containers[0]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
```

La section réductible suivante fournit un exemple de code permettant de sélectionner le contenu des réponses d’inférence en mode Assemblage. L'exemple utilise AWS SDK pour Python (Boto3).

#### AWS SDK pour Python (Boto3)
<a name="autopilot-problem-type-inference-response-classification-ensembling-boto3"></a>

```
import boto3
sm_client = boto3.client('sagemaker', region_name='<Region>')

role = '<IAM role>'
input_data = '<S3 input uri>'
output_path = '<S3 output uri>' 

best_candidate = sm_client.describe_auto_ml_job(AutoMLJobName='<AutoML Job Name>')['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

*best_candidate_containers[0]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
*
# create model
reponse = sm_client.create_model(
    ModelName = '<Model Name>',
    ExecutionRoleArn = role,
    Containers = best_candidate_containers
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName='<Transform Job Name>',
    ModelName='<Model Name>',
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/CSV",
        'SplitType': 'Line'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m4.xlarge',
        'InstanceCount': 1,
    },
)
```

La section démontable suivante fournit un exemple de code identique à l'exemple du SageMaker SDK pour Python pour HPO. Ces informations sont incluses à titre indicatif.

#### SageMaker SDK pour Python
<a name="autopilot-problem-type-inference-response-classification-ensembling-sdk"></a>

L'exemple de code HPO suivant utilise le SageMaker SDK pour Python.

```
from sagemaker import AutoML

aml = AutoML.attach(auto_ml_job_name='<AutoML Job Name>')
aml_best_model = aml.create_model(name='<Model Name>',
                                  candidate=None,
                                  *inference_response_keys**=['probabilities', 'labels'])*

aml_transformer = aml_best_model.transformer(accept='text/csv',
                                            assemble_with='Line',
                                            instance_type='ml.m5.xlarge',
                                            instance_count=1,)

aml_transformer.transform('<S3 input uri>',
                          content_type='text/csv',
                          split_type='Line',
                          job_name='<Transform Job Name>',
                          wait=True)
```

# Création d’une tâche de classification d’images à l’aide de l’API AutoML
<a name="autopilot-create-experiment-image-classification"></a>

Les instructions suivantes montrent comment créer une tâche Amazon SageMaker Autopilot en tant qu'expérience pilote pour les types de problèmes de classification d'images à l'aide d' SageMaker [API](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html) Reference.

**Note**  
Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’[API REST AutoML](autopilot-reference.md). Si le langage de votre choix est Python, vous pouvez vous référer [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)directement à [MLV2 l'objet Auto](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du SDK Amazon SageMaker Python.  
Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Vous pouvez créer une expérience de classification d'images sur pilote automatique par programmation en appelant l'action [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API dans n'importe quel langage pris en charge par Amazon SageMaker Autopilot ou le. AWS CLI

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section [Voir aussi](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) de `CreateAutoMLJobV2` et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` dans le kit AWS SDK pour Python (Boto3).

Vous trouverez ci-dessous un ensemble de paramètres de demande d'entrée obligatoires et facultatifs pour l'action d'API `CreateAutoMLJobV2` utilisée dans la classification d'image.

## Paramètres requis
<a name="image-classification-api-required-params"></a>

Lorsque vous appelez `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` pour créer une expérience Autopilot de classification d'image, vous devez fournir les valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` pour spécifier le nom de votre tâche.
+ Au moins un paramètre `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` dans `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` pour spécifier votre source de données.
+ Un paramètre `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)` de type `[ImageClassificationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ImageClassificationJobConfig.html)`. 
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

Tous les autres paramètres sont facultatifs.

## Paramètres facultatifs
<a name="image-classification-api-optional-params"></a>

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche AutoML de classification d'image.

### Comment spécifier les jeux de données d'entraînement et de validation d'une tâche AutoML
<a name="image-classification-data-training-or-validation"></a>

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

Chaque [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)objet (voir le paramètre obligatoire [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)) possède un`ChannelType`, qui peut être défini sur l'une `training` ou l'autre des `validation` valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. 

Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation. Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données. 

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.
+ Si vous n'avez qu'**une source de données**, `ChannelType` est défini sur `training` par défaut et doit avoir cette valeur.
  + Si la valeur `ValidationFraction` de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut. 
  + Si `ValidationFraction` est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
+ Si vous disposez de **deux sources de données**, le `ChannelType` de l'un des objets `AutoMLJobChannel` doit être défini sur `training` (valeur par défaut). Le `ChannelType` de l'autre source de données doit être défini sur `validation`. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de `ValidationFraction` dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

### Comment spécifier la configuration de déploiement automatique du modèle pour une tâche AutoML
<a name="image-classification-auto-model-deployment"></a>

Pour activer le déploiement automatique pour le meilleur modèle candidat d'une tâche AutoML, incluez un élément `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans la demande de tâche AutoML. Cela permettra de déployer le meilleur modèle sur un point de terminaison basé sur SageMaker l'IA. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.
+ Pour permettre à Autopilot de générer le nom du point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)` sur `True`.
+ Pour fournir votre propre nom pour le point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents) to False and provide a name of your choice in [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)`.

# Format des jeux de données et métrique d'objectif pour la classification d'image
<a name="image-classification-data-format-and-metric"></a>

Dans cette section, nous découvrons les formats disponibles pour les jeux de données utilisés dans la classification d'image ainsi que la métrique d'objectif utilisée pour évaluer la qualité prédictive des modèles candidats de machine learning. Les métriques calculées pour les candidats sont spécifiées à l'aide d'un tableau de types [MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html).

## Formats des jeux de données
<a name="image-classification-data-format"></a>

Autopilot prend en charge les formats d'image .png, .jpg et .jpeg. Si votre jeu de données contient uniquement des images .png, utilisez `image/png` ; s'il contient uniquement des images .jpg ou .jpeg, utilisez `image/jpeg`, et si votre jeu de données contient divers formats d'image, utilisez `image/*`.

## Métrique d’objectif
<a name="image-classification-objective-metric"></a>

La liste suivante contient les noms des métriques qui sont actuellement disponibles pour mesurer les performances des modèles pour la classification d'image.

**`Accuracy`**  
 Rapport entre le nombre d’éléments correctement classés et le nombre total d’éléments classés (correctement ou non). La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). La valeur 1 indique une précision parfaite et 0 indique une imprécision parfaite.

# Déploiement de modèles Autopilot pour l’inférence en temps réel
<a name="image-classification-deploy-models"></a>

Après avoir entraîné vos modèles Amazon SageMaker Autopilot, vous pouvez configurer un point de terminaison et obtenir des prédictions de manière interactive. La section suivante décrit les étapes à suivre pour déployer votre modèle sur un point de terminaison d'inférence en temps réel basé sur l' SageMaker IA afin d'obtenir des prédictions à partir de votre modèle.

## Inférence en temps réel
<a name="autopilot-deploy-models-text-image-classification-realtime"></a>

L’inférence en temps réel est idéale pour les charges de travail d’inférence où vous avez des exigences en temps réel, interactives et à faible latence. Cette section montre comment vous pouvez utiliser l’inférence en temps réel pour obtenir des prévisions interactives à partir de votre modèle.

Vous pouvez l'utiliser SageMaker APIs pour déployer manuellement le modèle qui a produit la meilleure métrique de validation dans une expérience de pilote automatique comme suit.

Vous pouvez également choisir l'option de déploiement automatique lors de la création de votre expérience Autopilot. Pour en savoir plus sur la configuration du déploiement automatique de modèles, consultez `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans les paramètres de demande de `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestParameters)`. Cela crée automatiquement un point de terminaison.

**Note**  
Pour éviter des frais inutiles, vous pouvez supprimer le point de terminaison inutile et les ressources créées dans le cadre du déploiement de modèle. Pour plus d'informations sur la tarification des instances par région, consultez [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

1. **Obtention des définitions de conteneurs candidats**

   Obtenez les définitions des conteneurs candidats auprès de [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers). Une définition de conteneur pour l'inférence fait référence à l'environnement conteneurisé conçu pour déployer et exécuter votre modèle d' SageMaker IA entraîné afin de faire des prédictions. 

   L'exemple de AWS CLI commande suivant utilise l'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) pour obtenir des définitions de candidats pour le meilleur modèle candidat.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. **Liste des candidats**

   L'exemple de AWS CLI commande suivant utilise l'[ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API pour répertorier tous les modèles candidats.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Création d'un modèle d' SageMaker IA**

   Utilisez les définitions de conteneur des étapes précédentes et un candidat de votre choix pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker create-model --model-name '<your-candidate-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Créer une configuration de point de terminaison**

   L'exemple de AWS CLI commande suivant utilise l'[CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API pour créer une configuration de point de terminaison.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' \
                       --region '<region>'
   ```

1. **Créer le point de terminaison** 

   L' AWS CLI exemple suivant utilise l'[CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API pour créer le point de terminaison.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Vérifiez la progression du déploiement de votre terminal à l'aide de l'[DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

1. **Appeler le point de terminaison** 

   La structure de commande suivante appelle le point de terminaison pour une inférence en temps réel.

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-data>' [--content-type] '<content-type>' <outfile>
   ```

# Rapport d'explicabilité
<a name="image-classification-explainability-report"></a>

Amazon SageMaker Autopilot fournit un rapport explicatif pour expliquer comment le meilleur modèle candidat fait des prédictions en cas de problèmes de classification d'images. Ce rapport peut aider les ingénieurs ML, les chefs de produit et d'autres intervenants internes à comprendre les caractéristiques du modèle. Les consommateurs et les régulateurs s'appuient sur la transparence du machine learning pour approuver et interpréter les décisions prises sur la base des prédictions du modèle. Vous pouvez utiliser ces explications pour auditer et appliquer les exigences réglementaires, renforcer la confiance dans le modèle, soutenir la prise de décisions humaines, ainsi que déboguer et améliorer les performances du modèle.

La fonctionnalité explicative d'Autopilot pour la classification d'image utilise une approche visuelle de cartographie par activation de classe (CAM) qui génère une carte thermique dans laquelle la distribution et l'intensité de chaque couleur mettent en évidence les zones d'une image qui contribuent le plus à une prédiction spécifique. Cette approche repose sur les composantes principales dérivées d'une implémentation d'[Eigen-CAM](https://arxiv.org/ftp/arxiv/papers/2008/2008.00299.pdf).

Autopilot génère le rapport d'explicabilité sous la forme d'un fichier JSON. Le rapport inclut des détails d'analyse basés sur le jeu de données de validation. Chaque image utilisée pour générer le rapport contient les informations suivantes :
+ `input_image_uri` : URI Amazon S3 de l'image d'entrée prise comme entrée pour la carte thermique. 
+ `heatmap_image_uri` : URI Amazon S3 de l'image de carte thermique générée par Autopilot. 
+ `predicted_label` : classe d'étiquettes prédite par le meilleur modèle entraîné par Autopilot. 
+ `probability` : confiance avec laquelle l'étiquette `predicted_label` est prédite.

Vous trouverez le préfixe Amazon S3 des artefacts d'explicabilité générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.Explainability](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-Explainability)`.

Les exemples suivants illustrent des cartes thermiques pour quelques échantillons du jeu de données d'animaux domestiques [Oxford-IIIT Pet Dataset](https://www.robots.ox.ac.uk/~vgg/data/pets/). L'image de carte thermique affiche des dégradés de couleurs qui indiquent l'importance relative des différentes fonctionnalités dans l'image. La couleur rouge représente les régions qui jouent un rôle plus important dans la prédiction de l'étiquette « predicted\$1label » de l'image d'entrée par rapport aux fonctionnalités représentées par la couleur bleue.


****  

| Image d'entrée | Image de carte thermique | 
| --- | --- | 
|  ![\[Image originale d'un chien.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-image-classification-explainability-img1-input.png)  |  ![\[Carte thermique de l’image d’un chien mettant en évidence les régions ayant le plus contribué à l’étiquette prédite.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-image-classification-explainability-img1-output.png)  | 
|  ![\[Image originale d'un chat.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-image-classification-explainability-img2-input.png)  |  ![\[Carte thermique de l’image d’un chat mettant en évidence les régions ayant le plus contribué à l’étiquette prédite.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-image-classification-explainability-img2-output.png)  | 

# Rapport de performances d'un modèle
<a name="image-classification-model-performance-report"></a>

Un rapport sur la qualité du modèle Amazon SageMaker AI (également appelé rapport de performance) fournit des informations et des informations de qualité sur le meilleur modèle candidat généré par une tâche AutoML. Cela inclut des informations sur les détails de la tâche, le type de problème du modèle, la fonction objectif et diverses métriques. Cette section détaille le contenu d'un rapport de performances pour les problèmes de classification d'image et explique comment accéder aux métriques en tant que données brutes dans un fichier JSON.

Vous trouverez le préfixe Amazon S3 des artefacts du rapport de qualité du modèle générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.ModelInsights](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-ModelInsights)`.

Le rapport de performances contient deux sections :
+ La première section contient des détails sur la tâche Autopilot qui a produit le modèle.
+  La seconde section contient un rapport de qualité du modèle avec différentes métriques de performances.

## Détails de la tâche Autopilot
<a name="image-classification-performance-report-jobdetails"></a>

La première section du rapport fournit des informations générales sur la tâche Autopilot qui a produit le modèle. Ces détails incluent les informations suivantes :
+ Nom du candidat Autopilot : nom du meilleur modèle candidat.
+ Nom de la tâche Autopilot : nom de la tâche.
+ Type de problème : le type de problème. Dans notre cas, *classification d'image*.
+ Métrique d'objectif : métrique d'objectif utilisée pour optimiser les performances du modèle. Dans notre cas, la *précision*.
+ Direction de l'optimisation : indique s'il faut minimiser ou maximiser la métrique d'objectif.

## Rapport de qualité du modèle
<a name="image-classification-performance-report-modelquality"></a>

Des informations sur la qualité du modèle sont générées par les analyses du modèle Autopilot. Le contenu du rapport généré dépend du type de problème pris en compte. Le rapport spécifie le nombre de lignes incluses dans le jeu de données d’évaluation et le moment auquel l’évaluation a eu lieu.

### Tableaux de métriques
<a name="image-classification-model-quality-report-metrics"></a>

La première partie du rapport sur la qualité du modèle contient des tableaux de métriques. Ils sont adaptés au type de problème traité par le modèle.

L'image suivante est un exemple de table de métriques générée par Autopilot pour un problème de classification d'image ou de texte. Il indique le nom, la valeur et l'écart type de la métrique.

![\[Exemple de rapport de statistiques de classification d'images ou de textes d'Amazon SageMaker Autopilot Model Insights.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-multiclass-metrics-report.png)


### Informations graphiques sur les performances du modèle
<a name="image-classification-model-quality-report-graphs"></a>

La deuxième partie du rapport sur la qualité du modèle contient des informations graphiques qui vous aident à évaluer les performances du modèle. Le contenu de cette section dépend du type de problème sélectionné.

#### Matrice Confusion
<a name="image-classification-model-insights-confusion-matrix"></a>

Une matrice de confusion permet de visualiser la précision des prédictions faites par un modèle de classification binaire et multi-classes pour différents problèmes.

Un résumé des composantes du graphe relatives au **taux de faux positifs** (FPR) et au **taux de vrais positifs** (TPR) est défini comme suit.
+ Prédictions correctes
  + **Vrai positif** (TP, True Positive) : la valeur prédite est 1, et la valeur observée est 1.
  + **Vrai négatif** (TN, True Negative) : la valeur prédite est 0, et la valeur observée est 0.
+ Prédictions erronées
  + **Faux positif** (FP) : la valeur prédite est 1, mais la valeur observée est 0.
  + **Faux négatif** (FN) : la valeur prédite est 0, mais la valeur observée est 1.

La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ Le nombre et le pourcentage de prédictions correctes et incorrectes pour les étiquettes réelles
+ Le nombre et le pourcentage de prédictions exactes sur la diagonale, du coin supérieur gauche au coin inférieur droit
+ Le nombre et le pourcentage de prédictions inexactes sur la diagonale, du coin supérieur droit au coin inférieur gauche

Les prédictions incorrectes d’une matrice de confusion sont les valeurs de confusion.

Le diagramme suivant est un exemple de matrice de confusion pour un problème de classification multi-classes. La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ L’axe vertical est divisé en trois rangées contenant trois étiquettes réelles différentes.
+ L’axe horizontal est divisé en trois colonnes contenant des étiquettes prédites par le modèle.
+ La barre de couleur attribue une tonalité plus foncée à un plus grand nombre d'échantillons afin d'indiquer visuellement le nombre de valeurs classées dans chaque catégorie.

Dans l’exemple ci-dessous, le modèle a correctement prédit 354 valeurs réelles pour l’étiquette **f**, 1094 valeurs pour l’étiquette **i** et 852 valeurs pour l’étiquette **m**. La différence de tonalité indique que le jeu de données n’est pas équilibré, car il existe beaucoup plus d’étiquettes pour la valeur **i** que pour **f** ou **m**.

![\[Exemple de matrice de confusion multiclasse Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-multiclass.png)


La matrice de confusion du rapport sur la qualité du modèle fourni peut prendre en charge un maximum de 15 étiquettes pour les types de problèmes de classification multi-classes. Si une ligne correspondant à une étiquette affiche une valeur `Nan`, cela signifie que le jeu de données de validation utilisé pour vérifier les prédictions modélisées ne contient pas de données portant cette étiquette.

# Création d’une tâche AutoML pour la classification de texte à l’aide de l’API
<a name="autopilot-create-experiment-text-classification"></a>

Les instructions suivantes montrent comment créer une tâche Amazon SageMaker Autopilot en tant qu'expérience pilote pour les types de problèmes de classification de texte à l'aide de SageMaker [API](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html) Reference.

**Note**  
Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’[API REST AutoML](autopilot-reference.md). Si le langage de votre choix est Python, vous pouvez vous référer [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)directement à [MLV2 l'objet Auto](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du SDK Amazon SageMaker Python.  
Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Vous pouvez créer un test de classification de texte sur pilote automatique par programmation en appelant l'action [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API dans n'importe quel langage pris en charge par Amazon SageMaker Autopilot ou le. AWS CLI

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section [Voir aussi](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) de `CreateAutoMLJobV2` et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` dans le kit AWS SDK pour Python (Boto3).

Vous trouverez ci-dessous un ensemble de paramètres de demande d'entrée obligatoires et facultatifs pour l'action d'API `CreateAutoMLJobV2` utilisée dans la classification de texte.

## Paramètres requis
<a name="text-classification-api-required-params"></a>

Lorsque vous appelez `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` pour créer une expérience Autopilot de classification de texte, vous devez fournir les valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` pour spécifier le nom de votre tâche.
+ Au moins un paramètre `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` dans `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` pour spécifier votre source de données.
+ Un paramètre `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)` de type `[TextClassificationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextClassificationJobConfig.html)`. 
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

Tous les autres paramètres sont facultatifs.

## Paramètres facultatifs
<a name="text-classification-api-optional-params"></a>

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche AutoML de classification de texte.

### Comment spécifier les jeux de données d'entraînement et de validation d'une tâche AutoML
<a name="text-classification-data-training-or-validation"></a>

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

Chaque [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)objet (voir le paramètre obligatoire [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)) possède un`ChannelType`, qui peut être défini sur l'une `training` ou l'autre des `validation` valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique. 

Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation. Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données. 

Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données.
+ Si vous n'avez qu'**une source de données**, `ChannelType` est défini sur `training` par défaut et doit avoir cette valeur.
  + Si la valeur `ValidationFraction` de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut. 
  + Si `ValidationFraction` est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
+ Si vous disposez de **deux sources de données**, le `ChannelType` de l'un des objets `AutoMLJobChannel` doit être défini sur `training` (valeur par défaut). Le `ChannelType` de l'autre source de données doit être défini sur `validation`. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de `ValidationFraction` dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

### Comment spécifier la configuration de déploiement automatique du modèle pour une tâche AutoML
<a name="text-classification-auto-model-deployment"></a>

Pour activer le déploiement automatique pour le meilleur modèle candidat d'une tâche AutoML, incluez un élément `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans la demande de tâche AutoML. Cela permettra de déployer le meilleur modèle sur un terminal d' SageMaker IA. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.
+ Pour permettre à Autopilot de générer le nom du point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)` sur `True`.
+ Pour fournir votre propre nom pour le point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents) to False and provide a name of your choice in [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)`.

# Format des jeux de données et métrique d'objectif pour la classification de texte
<a name="text-classification-data-format-and-metric"></a>

Dans cette section, nous découvrons les formats disponibles pour les jeux de données utilisés dans la classification de texte ainsi que la métrique utilisée pour évaluer la qualité prédictive des modèles candidats de machine learning. Les métriques calculées pour les candidats sont spécifiées à l'aide d'un tableau de types [MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html).

## Formats des jeux de données
<a name="text-classification-data-format"></a>

Autopilot prend en charge les données tabulaires sous forme de fichiers CSV ou de fichiers Parquet. Pour les données tabulaires, chaque colonne contient une ressource avec un type de données spécifique et chaque ligne contient une observation. Les propriétés de ces deux formats de fichiers diffèrent considérablement.
+ **CSV** (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
+ **Parquet** est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Les **types de données** acceptés pour les colonnes incluent les types numériques, catégoriels et textuels.

Le pilote automatique permet de créer des modèles d'apprentissage automatique sur de grands ensembles de données allant jusqu'à des centaines de. GBs Pour en savoir plus sur les limites de ressources par défaut pour les ensembles de données d'entrée et sur la manière de les augmenter, consultez les quotas [Amazon SageMaker Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-quotas.html).

## Métrique d’objectif
<a name="text-classification-objective-metric"></a>

La liste suivante contient les noms des métriques qui sont actuellement disponibles pour mesurer les performances des modèles pour la classification de texte.

**`Accuracy`**  
 Rapport entre le nombre d’éléments correctement classés et le nombre total d’éléments classés (correctement ou non). La précision mesure à quel point les valeurs de classe prédites sont proches des valeurs réelles. Les valeurs des métriques de précision varient entre zéro (0) et un (1). La valeur 1 indique une précision parfaite et 0 indique une imprécision parfaite.

# Déploiement de modèles Autopilot pour l’inférence en temps réel
<a name="text-classification-deploy-models"></a>

Après avoir entraîné vos modèles Amazon SageMaker Autopilot, vous pouvez configurer un point de terminaison et obtenir des prédictions de manière interactive. La section suivante décrit les étapes à suivre pour déployer votre modèle sur un point de terminaison d'inférence en temps réel basé sur l' SageMaker IA afin d'obtenir des prédictions à partir de votre modèle.

## Inférence en temps réel
<a name="autopilot-deploy-models-text-image-classification-realtime"></a>

L’inférence en temps réel est idéale pour les charges de travail d’inférence où vous avez des exigences en temps réel, interactives et à faible latence. Cette section montre comment vous pouvez utiliser l’inférence en temps réel pour obtenir des prévisions interactives à partir de votre modèle.

Vous pouvez l'utiliser SageMaker APIs pour déployer manuellement le modèle qui a produit la meilleure métrique de validation dans une expérience de pilote automatique comme suit.

Vous pouvez également choisir l'option de déploiement automatique lors de la création de votre expérience Autopilot. Pour en savoir plus sur la configuration du déploiement automatique de modèles, consultez `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans les paramètres de demande de `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestParameters)`. Cela crée automatiquement un point de terminaison.

**Note**  
Pour éviter des frais inutiles, vous pouvez supprimer le point de terminaison inutile et les ressources créées dans le cadre du déploiement de modèle. Pour plus d'informations sur la tarification des instances par région, consultez [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

1. **Obtention des définitions de conteneurs candidats**

   Obtenez les définitions des conteneurs candidats auprès de [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers). Une définition de conteneur pour l'inférence fait référence à l'environnement conteneurisé conçu pour déployer et exécuter votre modèle d' SageMaker IA entraîné afin de faire des prédictions. 

   L'exemple de AWS CLI commande suivant utilise l'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) pour obtenir les définitions du meilleur modèle candidat.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. **Liste des candidats**

   L'exemple de AWS CLI commande suivant utilise l'[ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API pour répertorier tous les modèles candidats.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Création d'un modèle d' SageMaker IA**

   Utilisez les définitions de conteneur des étapes précédentes et un candidat de votre choix pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker create-model --model-name '<your-candidate-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Créer une configuration de point de terminaison**

   L'exemple de AWS CLI commande suivant utilise l'[CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API pour créer une configuration de point de terminaison.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' \
                       --region '<region>'
   ```

1. **Créer le point de terminaison** 

   L' AWS CLI exemple suivant utilise l'[CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API pour créer le point de terminaison.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Vérifiez la progression du déploiement de votre terminal à l'aide de l'[DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

1. **Appeler le point de terminaison** 

   La structure de commande suivante appelle le point de terminaison pour une inférence en temps réel.

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-data>' [--content-type] '<content-type>' <outfile>
   ```

# Rapport d'explicabilité
<a name="text-classification-explainability-report"></a>

Amazon SageMaker Autopilot fournit un rapport explicatif pour expliquer comment le meilleur modèle candidat fait des prédictions en cas de problèmes de classification de texte. Ce rapport peut aider les ingénieurs ML, les chefs de produit et d'autres intervenants internes à comprendre les caractéristiques du modèle. Les consommateurs et les régulateurs s'appuient sur la transparence du machine learning pour approuver et interpréter les décisions prises sur la base des prédictions du modèle. Vous pouvez utiliser ces explications pour auditer et appliquer les exigences réglementaires, renforcer la confiance dans le modèle, soutenir la prise de décisions humaines, ainsi que déboguer et améliorer les performances du modèle.

La fonctionnalité explicative d'Autopilot pour la classification de texte utilise la méthode d'attribution axiomatique des *gradients intégrés*. Cette approche repose sur une implémentation d'une [attribution axiomatique pour les réseaux profonds](https://arxiv.org/pdf/1703.01365.pdf) (langue française non garantie).

Autopilot génère le rapport d'explicabilité sous la forme d'un fichier JSON. Le rapport inclut des détails d'analyse basés sur le jeu de données de validation. Chaque échantillon utilisé pour générer le rapport contient les informations suivantes :
+ `text` : contenu du texte d'entrée expliqué.
+ `token_scores` : liste des scores pour chaque jeton dans le texte.
+ 
  + `attribution` : score illustrant l'importance du jeton.
  + `description.partial_text` : sous-chaîne partielle qui représente le jeton.
+ `predicted_label` : classe d'étiquettes prédite par le meilleur modèle candidat.
+ `probability` : confiance avec laquelle l'étiquette `predicted_label` a été prédite.

Vous trouverez le préfixe Amazon S3 des artefacts d'explicabilité générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.Explainability](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-Explainability)`.

Voici un exemple de contenu d'analyse que vous pouvez trouver dans les artefacts d'explicabilité.

```
{
    "text": "It was a fantastic movie!",
    "predicted_label": 2,
    "probability": 0.9984835,
    "token_scores": [
        {
            "attribution": 0,
            "description": {
                "partial_text": "It"
            }
        },
        {
            "attribution": -0.022447118861679088,
            "description": {
                "partial_text": "was"
            }
        },
        {
            "attribution": -0.2164326456817965,
            "description": {
                "partial_text": "a"
            }
        },
        {
            "attribution": 0.675,
            "description": {
                "partial_text": "fantastic"
            }
        },
        {
            "attribution": 0.416,
            "description": {
                "partial_text": "movie!"
            }
        }
    ]
}
```

Dans cet échantillon du rapport JSON, la fonctionnalité explicative évalue le texte `It was a fantastic movie!` et note la contribution de chacun de ses jetons à l'étiquette prédite globale. L'étiquette prédite est `2`, ce qui correspond à un fort sentiment positif, avec une probabilité de 99,85 %. L'échantillon JSON détaille ensuite la contribution de chaque jeton individuel à cette prédiction. Par exemple, le jeton `fantastic` a une attribution plus forte que le jeton `was`. C'est le jeton qui a le plus contribué à la prédiction finale.

# Rapport de performances d'un modèle
<a name="text-classification-model-performance-report"></a>

Un rapport sur la qualité du modèle Amazon SageMaker AI (également appelé rapport de performance) fournit des informations et des informations de qualité sur le meilleur modèle candidat généré par une tâche AutoML. Cela inclut des informations sur les détails de la tâche, le type de problème du modèle, la fonction objectif et diverses métriques. Cette section détaille le contenu d'un rapport de performances pour les problèmes de classification de texte et explique comment accéder aux métriques en tant que données brutes dans un fichier JSON.

Vous trouverez le préfixe Amazon S3 des artefacts du rapport de qualité du modèle générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.ModelInsights](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-ModelInsights)`.

Le rapport de performances contient deux sections :
+ La première section contient des détails sur la tâche Autopilot qui a produit le modèle.
+  La seconde section contient un rapport de qualité du modèle avec différentes métriques de performances.

## Détails de la tâche Autopilot
<a name="text-classification-performance-report-jobdetails"></a>

La première section du rapport fournit des informations générales sur la tâche Autopilot qui a produit le modèle. Ces détails incluent les informations suivantes :
+ Nom du candidat Autopilot : nom du meilleur modèle candidat.
+ Nom de la tâche Autopilot : nom de la tâche.
+ Type de problème : le type de problème. Dans notre cas, *classification de texte*.
+ Métrique d'objectif : métrique d'objectif utilisée pour optimiser les performances du modèle. Dans notre cas, la *précision*.
+ Direction de l'optimisation : indique s'il faut minimiser ou maximiser la métrique d'objectif.

## Rapport de qualité du modèle
<a name="text-classification-performance-report-modelquality"></a>

Des informations sur la qualité du modèle sont générées par les analyses du modèle Autopilot. Le contenu du rapport généré dépend du type de problème pris en compte. Le rapport spécifie le nombre de lignes incluses dans le jeu de données d’évaluation et le moment auquel l’évaluation a eu lieu.

### Tableaux de métriques
<a name="text-classification-model-quality-report-metrics"></a>

La première partie du rapport sur la qualité du modèle contient des tableaux de métriques. Ils sont adaptés au type de problème traité par le modèle.

L'image suivante est un exemple de table de métriques générée par Autopilot pour un problème de classification d'image ou de texte. Il indique le nom, la valeur et l'écart type de la métrique.

![\[Exemple de rapport de statistiques de classification d'images ou de textes d'Amazon SageMaker Autopilot Model Insights.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-multiclass-metrics-report.png)


### Informations graphiques sur les performances du modèle
<a name="text-classification-model-quality-report-graphs"></a>

La deuxième partie du rapport sur la qualité du modèle contient des informations graphiques qui vous aident à évaluer les performances du modèle. Le contenu de cette section dépend du type de problème sélectionné.

#### Matrice Confusion
<a name="text-classification--model-insights-confusion-matrix"></a>

Une matrice de confusion permet de visualiser la précision des prédictions faites par un modèle de classification binaire et multi-classes pour différents problèmes.

Un résumé des composantes du graphe relatives au **taux de faux positifs** (FPR) et au **taux de vrais positifs** (TPR) est défini comme suit.
+ Prédictions correctes
  + **Vrai positif** (TP, True Positive) : la valeur prédite est 1, et la valeur observée est 1.
  + **Vrai négatif** (TN, True Negative) : la valeur prédite est 0, et la valeur observée est 0.
+ Prédictions erronées
  + **Faux positif** (FP) : la valeur prédite est 1, mais la valeur observée est 0.
  + **Faux négatif** (FN) : la valeur prédite est 0, mais la valeur observée est 1.

La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ Le nombre et le pourcentage de prédictions correctes et incorrectes pour les étiquettes réelles
+ Le nombre et le pourcentage de prédictions exactes sur la diagonale, du coin supérieur gauche au coin inférieur droit
+ Le nombre et le pourcentage de prédictions inexactes sur la diagonale, du coin supérieur droit au coin inférieur gauche

Les prédictions incorrectes d’une matrice de confusion sont les valeurs de confusion.

Le diagramme suivant est un exemple de matrice de confusion pour un problème de classification multi-classes. La matrice de confusion du rapport sur la qualité du modèle contient les éléments suivants.
+ L’axe vertical est divisé en trois rangées contenant trois étiquettes réelles différentes.
+ L’axe horizontal est divisé en trois colonnes contenant des étiquettes prédites par le modèle.
+ La barre de couleur attribue une tonalité plus foncée à un plus grand nombre d'échantillons afin d'indiquer visuellement le nombre de valeurs classées dans chaque catégorie.

Dans l’exemple ci-dessous, le modèle a correctement prédit 354 valeurs réelles pour l’étiquette **f**, 1094 valeurs pour l’étiquette **i** et 852 valeurs pour l’étiquette **m**. La différence de tonalité indique que le jeu de données n’est pas équilibré, car il existe beaucoup plus d’étiquettes pour la valeur **i** que pour **f** ou **m**.

![\[Exemple de matrice de confusion multiclasse Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-multiclass.png)


La matrice de confusion du rapport sur la qualité du modèle fourni peut prendre en charge un maximum de 15 étiquettes pour les types de problèmes de classification multi-classes. Si une ligne correspondant à une étiquette affiche une valeur `Nan`, cela signifie que le jeu de données de validation utilisé pour vérifier les prédictions modélisées ne contient pas de données portant cette étiquette.

# Création d’une tâche AutoML pour les prévisions de séries temporelles à l’aide de l’API
<a name="autopilot-create-experiment-timeseries-forecasting"></a>

La prévision en machine learning fait référence au processus de prédiction de résultats ou de tendances futurs sur la base de schémas et de données historiques. En analysant les données de séries temporelles passées et en identifiant les schémas sous-jacents, les algorithmes de machine learning peuvent effectuer des prédictions et fournir des renseignements précieux sur les comportements futurs. En matière de prévision, l’objectif est de développer des modèles capables de saisir avec précision la relation entre les variables d’entrée et la variable cible au fil du temps. Cela implique l’examen de divers facteurs tels que les tendances, la saisonnalité et d’autres schémas pertinents au sein des données. Les informations collectées sont ensuite utilisées pour entraîner un modèle de machine learning. Le modèle entraîné est capable de générer des prédictions en prenant de nouvelles données d’entrée et en appliquant les schémas et les relations appris. Il peut fournir des prévisions pour un large éventail de cas d’utilisation, tels que des prévisions de ventes, des tendances boursières, des prévisions météorologiques, des prévisions de la demande, etc.

[Les instructions suivantes montrent comment créer une tâche Amazon SageMaker Autopilot en tant qu'expérience pilote pour les types de problèmes de prévision de séries chronologiques à l'aide SageMaker d'API Reference.](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html)

**Note**  
Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’[API REST AutoML](autopilot-reference.md). Si le langage de votre choix est Python, vous pouvez vous référer [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)directement à [MLV2 l'objet Auto](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du SDK Amazon SageMaker Python.  
Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Vous pouvez créer une expérience de prévision de séries chronologiques sur pilote automatique par programmation en appelant l'[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API dans n'importe quel langage pris en charge par Amazon Autopilot ou le. SageMaker AWS CLI

Pour en savoir plus sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section [Voir aussi](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) de `CreateAutoMLJobV2` et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` dans le kit AWS SDK pour Python (Boto3).

Autopilot entraîne plusieurs modèles candidats avec vos séries temporelles cibles, puis sélectionne un modèle de prévision optimal pour une métrique d’objectif donnée. Lorsque vos modèles candidats ont été entraînés, vous pouvez trouver les meilleures métriques de candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateProperties.html#sagemaker-Type-CandidateProperties-CandidateMetrics)`.

Les sections suivantes définissent les paramètres de demande d’entrée obligatoires et facultatifs pour l’API `CreateAutoMLJobV2` utilisée dans les prévisions de séries temporelles.

**Note**  
Reportez-vous au carnet de [prévisions de séries chronologiques avec Amazon SageMaker Autopilot](https://github.com/aws/amazon-sagemaker-examples/blob/main/autopilot/autopilot_time_series.ipynb) pour un exemple pratique et concret de prévisions de séries chronologiques. Dans ce bloc-notes, vous utilisez Amazon SageMaker Autopilot pour entraîner un modèle de série chronologique et produire des prédictions à l'aide du modèle entraîné. Le bloc-notes fournit des instructions pour extraire un jeu de données prêt à l’emploi de données historiques tabulaires sur Amazon S3.

## Conditions préalables
<a name="autopilot-timeseries-forecasting-prerequisites"></a>

Avant d'utiliser le pilote automatique pour créer une expérience de prévision de séries chronologiques dans l' SageMaker IA, assurez-vous de :
+ Préparez votre jeu de données de séries temporelles. La préparation d’un jeu de données implique de collecter les données pertinentes provenant de diverses sources, de les nettoyer et de les filtrer pour éliminer le bruit et les incohérences, et de les organiser dans un format structuré. Consultez [Format des jeux de données de séries temporelles et méthodes de remplissage des valeurs manquantes](timeseries-forecasting-data-format.md) pour en apprendre davantage sur les exigences relatives aux formats de séries temporelles dans Autopilot. Vous pouvez éventuellement compléter votre jeu de données avec le calendrier des jours fériés du pays de votre choix afin de capturer les schémas associés. Pour plus d’informations sur les calendriers des jours fériés, consultez [Calendriers des fêtes nationales](autopilot-timeseries-forecasting-holiday-calendars.md).
**Note**  
Nous vous recommandons de fournir au moins 3 à 5 points de données historiques pour chaque futur point de données que vous souhaitez prévoir. Par exemple, pour prévoir 7 jours à l’avance (horizon d’une semaine) sur la base de données quotidiennes, entraînez votre modèle sur un minimum de 21 à 35 jours de données historiques. Assurez-vous de fournir suffisamment de données pour saisir les modèles saisonniers et récurrents. 
+ Placez vos données de séries temporelles dans un compartiment Amazon S3.
+ Accordez un accès complet au compartiment Amazon S3 contenant vos données d'entrée pour le rôle d'exécution de l' SageMaker IA utilisé pour exécuter votre expérience. Après cela, vous pouvez utiliser l’ARN de ce rôle d’exécution dans les demandes d’API Autopilot.
  + Pour plus d'informations sur la récupération de votre rôle d'exécution SageMaker AI, consultez[Obtention de votre rôle d’exécution](sagemaker-roles.md#sagemaker-roles-get-execution-role).
  + Pour plus d'informations sur l'octroi à votre rôle d'exécution SageMaker AI des autorisations pour accéder à un ou plusieurs compartiments spécifiques dans Amazon S3, consultez *Ajouter des autorisations Amazon S3 supplémentaires à un rôle d'exécution SageMaker AI* dans[Créer un rôle d’exécution](sagemaker-roles.md#sagemaker-roles-create-execution-role).

## Paramètres requis
<a name="timeseries-forecasting-api-required-params"></a>

Lorsque vous appelez `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` pour créer une expérience Autopilot de prévision de séries temporelles, vous devez fournir les valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` pour spécifier le nom de votre tâche. Le nom doit être de type `string` et doit avoir une longueur minimale de 1 caractère et une longueur maximale de 32.
+ Au moins un élément `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` dans `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` dans lequel vous spécifiez le nom du compartiment Amazon S3 qui contient vos données. Vous pouvez éventuellement spécifier le contenu (fichiers CSV ou Parquet) et les types de compression (GZip).
+ Un élément `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)` de type `[TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html)` pour configurer les paramètres de votre tâche de prévision de séries temporelles. Vous devez notamment spécifier :
  + La **fréquence** des prédictions, qui fait référence à la granularité souhaitée (horaire, quotidienne, mensuelle, etc.) de vos prévisions.

    Les intervalles valides sont un entier suivi de `Y` (année), `M` (mois), `W` (semaine), `D` (jour), `H` (heure) et `min` (minute). Par exemple, `1D` indique chaque jour et `15min` indique toutes les 15 minutes. La valeur d’une fréquence ne doit pas chevaucher la fréquence supérieure suivante. Par exemple, vous devez utiliser une fréquence de `1H` à la place de `60min`.

    Les valeurs valides pour chaque fréquence sont les suivantes :
    + Minute : 1 à 59
    + Heure : 1 à 23
    + Jour : 1 à 6
    + Semaine : 1 à 4
    + Mois : 1 à 11
    + Année : 1
  + L’**horizon** des prédictions de votre prévision, qui fait référence au nombre de pas temporels prédits par le modèle. L’horizon de prévision est également appelé longueur de prédiction. L’horizon de prévision maximal est le moins élevé des 500 pas temporels ou 1/4 des pas temporels figurant dans le jeu de données.
  + A [TimeSeriesConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesConfig.html)dans lequel vous définissez le schéma de votre jeu de données pour mapper les en-têtes de colonne à vos prévisions en spécifiant :
    + Un élément `TargetAttributeName` : colonne contenant les données historiques du champ cible à prévoir.
    + Un élément `TimestampAttributeName` : colonne qui contient un point dans le temps auquel la valeur cible d’un élément donné est enregistrée.
    + Un élément `ItemIdentifierAttributeName` : colonne qui contient les identificateurs d’articles pour lesquels vous souhaitez prédire la valeur cible.

  Voici un exemple de ces paramètres de demande. Dans cet exemple, vous configurez une prévision quotidienne de la quantité attendue ou du niveau de demande attendu d’articles spécifiques sur une période de 20 jours.

  ```
  "AutoMLProblemTypeConfig": { 
          "ForecastFrequency": "D",
          "ForecastHorizon": 20,
          "TimeSeriesConfig": {
              "TargetAttributeName": "demand",
              "TimestampAttributeName": "timestamp",
              "ItemIdentifierAttributeName": "item_id"
          },
  ```
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données. Vous pouvez utiliser l’ARN du rôle d’exécution auquel vous avez accordé l’accès à vos données.

Tous les autres paramètres sont facultatifs. Par exemple, vous pouvez définir des quantiles de prévision spécifiques, choisir une méthode de remplissage des valeurs manquantes dans le jeu de données ou définir comment agréger les données qui ne sont pas alignées sur la fréquence des prévisions. Pour découvrir comment définir ces paramètres supplémentaires, consultez [Paramètres facultatifs](#timeseries-forecasting-api-optional-params).

## Paramètres facultatifs
<a name="timeseries-forecasting-api-optional-params"></a>

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche AutoML de prévision de séries temporelles.

### Spécification d’algorithmes
<a name="timeseries-forecasting-algorithms-selection"></a>

Par défaut, votre tâche Autopilot entraîne une liste prédéfinie d’algorithmes sur votre jeu de données. Vous pouvez cependant fournir un sous-ensemble de la sélection par défaut d’algorithmes.

Pour les prévisions de séries temporelles, vous devez choisir `[TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html)` comme type d’élément `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Ensuite, vous pouvez spécifier un tableau de sélectionnés `AutoMLAlgorithms` dans l'`AlgorithmsConfig`attribut de [CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html).

Voici un exemple d’attribut `AlgorithmsConfig` répertoriant exactement trois algorithmes (« cnn-qr », « prophet », « arima ») dans son champ `AutoMLAlgorithms`.

```
{
   "[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)": {
        "[TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html)": {
          "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html)": {
            "[AlgorithmsConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html#sagemaker-Type-CandidateGenerationConfig-AlgorithmsConfig)":[
               {"[AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html)":["cnn-qr", "prophet", "arima"]}
            ]
         },
       },
     },
  }
```

Afin d’obtenir la liste des algorithmes disponibles pour les prévisions de séries temporelles, consultez [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms). Pour plus d'informations sur chaque algorithme, consultez [Prise en charge des algorithmes pour les prévisions de séries temporelles](timeseries-forecasting-algorithms.md).

### Comment spécifier des quantiles personnalisés
<a name="timeseries-forecasting-custom-quantiles"></a>

Autopilot entraîne 6 modèles candidats avec vos séries temporelles cibles, puis combine ces modèles à l’aide d’une méthode ensembliste par empilement pour créer un modèle de prévision optimal pour une métrique d’objectif donnée. Chaque modèle de prévision Autopilot génère une prévision probabiliste en produisant des prévisions aux quantiles compris entre P1 et P99. Ces quantiles sont utilisés pour tenir compte de l’incertitude des prévisions. Par défaut, des prévisions seront générées pour les valeurs 0,1 (`p10`), 0,5 (`p50`) et 0,9 (`p90`). Vous pouvez choisir de spécifier vos propres quantiles. 

Dans Autopilot, vous pouvez spécifier jusqu'à cinq quantiles de prévision compris entre 0,01 (`p1`) et 0,99 (`p99`), par incréments de 0,01 ou plus dans l'attribut de. `ForecastQuantiles` [TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html)

Dans l’exemple suivant, vous configurez une prévision quotidienne des 10e, 25e, 50e, 75e et 90e percentiles pour la quantité attendue ou le niveau de demande attendu d’articles spécifiques sur une période de 20 jours.

```
"AutoMLProblemTypeConfig": { 
        "ForecastFrequency": "D",
        "ForecastHorizon": 20,
        "ForecastQuantiles": ["p10", "p25", "p50", "p75", "p90"],
        "TimeSeriesConfig": {
            "TargetAttributeName": "demand",
            "TimestampAttributeName": "timestamp",
            "ItemIdentifierAttributeName": "item_id"
        },
```

### Comment agréger les données pour différentes fréquences de prévision
<a name="timeseries-forecasting-aggregation"></a>

Pour créer un modèle de prévision (également appelé meilleur modèle candidat issu de votre expérience), vous devez spécifier une fréquence de prévision. La fréquence de prévision détermine la fréquence des prédictions figurant dans vos prévisions. Par exemple, les prévisions de ventes mensuelles. Le meilleur modèle Autopilot peut générer des prévisions pour des fréquences de données supérieures à la fréquence à laquelle vos données sont enregistrées.

Pendant l’entraînement, Autopilot agrège toutes les données qui ne s’alignent pas sur la fréquence de prévision que vous spécifiez. Par exemple, vous pouvez disposer de certaines données quotidiennes mais spécifier une fréquence de prévision hebdomadaire. Autopilot aligne les données quotidiennes en fonction de la semaine à laquelle elles appartiennent. Autopilot les combine ensuite en un seul enregistrement pour chaque semaine.

Lors de l’agrégation, la méthode de transformation par défaut consiste à additionner les données. Vous pouvez configurer l'agrégation lorsque vous créez votre tâche AutoML dans l'`Transformations`attribut de. [TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html) Les méthodes d’agrégation prises en charge sont `sum` (par défaut) `avg`, `first`, `min`, `max`. L’agrégation n’est prise en charge que pour la colonne cible.

Dans l’exemple suivant, vous configurez l’agrégation pour calculer la moyenne des prévisions promotionnelles individuelles afin de fournir les valeurs de prévision agrégées finales.

```
"Transformations": {
            "Aggregation": {
                "promo": "avg"
            }
        }
```

### Comment gérer les valeurs manquantes de vos jeux de données sources.
<a name="timeseries-forecasting-fill-missing-values"></a>

Autopilot propose diverses méthodes de remplissage pour gérer les valeurs manquantes dans la colonne cible et les autres colonnes numériques de vos jeux de données de séries temporelles. Pour en savoir plus sur la liste des méthodes de remplissage prises en charge et leur logique de remplissage disponible, consultez [Gestion des valeurs manquantes](timeseries-forecasting-data-format.md#timeseries-missing-values).

Vous configurez votre stratégie de remplissage dans l'`Transformations`attribut de [TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html)lors de la création de votre tâche AutoML.

Pour définir une méthode de remplissage, vous devez fournir une paire clé-valeur :
+ La clé est le nom de la colonne pour laquelle vous souhaitez spécifier la méthode de remplissage.
+ La valeur associée à la clé est un objet qui définit la stratégie de remplissage pour cette colonne.

Vous pouvez définir plusieurs méthodes de remplissage pour une seule colonne.

Pour définir une valeur spécifique pour la méthode de remplissage, vous devez définir le paramètre de remplissage sur la valeur de méthode de remplissage souhaitée (par exemple `"backfill" : "value"`) et définir la valeur de remplissage réelle dans un paramètre supplémentaire suffixé par « \$1value ». Par exemple, pour définir `backfill` sur une valeur de `2`, vous devez inclure deux paramètres : `"backfill": "value"` et `"backfill_value":"2"`.

Dans l’exemple suivant, vous spécifiez la stratégie de remplissage pour la colonne de données incomplète, « price », correspondant aux prix, comme suit : toutes les valeurs manquantes entre le premier point de données d’un article et le dernier sont définies sur `0`, après quoi toutes les valeurs manquantes sont remplies avec la valeur `2` jusqu’à la date de fin du jeu de données.

```
"Transformations": {
            "Filling": {
                "price": {
                        "middlefill" : "zero",
                        "backfill" : "value",
                        "backfill_value": "2"
                }
            }
        }
```

### Comment spécifier une métrique d’objectif
<a name="timeseries-forecasting-set-objective-metric"></a>

Autopilot produit des métriques de précision pour évaluer les modèles candidats et vous aider à choisir lequel utiliser pour générer des prévisions. Lorsque vous exécutez une expérience de prévision de séries temporelles, vous pouvez choisir AutoML pour laisser Autopilot optimiser le prédicteur pour vous ou choisir manuellement un algorithme pour votre prédicteur.

Par défaut, Autopilot utilise la perte quantile pondérée moyenne. Cependant, vous pouvez configurer la métrique objective lorsque vous créez votre tâche AutoML dans l'`MetricName`attribut [Auto MLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html) Objective.

Pour obtenir la liste des algorithmes disponibles, consultez [Prise en charge des algorithmes pour les prévisions de séries temporelles](timeseries-forecasting-algorithms.md).

### Comment intégrer les informations relatives aux fêtes nationales à votre jeu de données
<a name="timeseries-forecasting-add-holiday-calendar"></a>

Dans Autopilot, vous pouvez incorporer à vos séries temporelles un jeu de données obtenu par ingénierie des caractéristiques d’informations sur les fêtes nationales. Autopilot fournit un support natif pour les calendriers des jours fériés de plus de 250 pays. Une fois que vous avez choisi un pays, Autopilot applique le calendrier des jours fériés de ce pays à chaque élément de votre jeu de données pendant l’entraînement. Cela permet au modèle d’identifier les schémas associés à des jours fériés spécifiques.

Vous pouvez activer la fonctionnalité de vacances lorsque vous créez votre tâche AutoML en passant [HolidayConfigAttributes](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_HolidayConfigAttributes.html)un objet à `HolidayConfig` l'attribut de. [TimeSeriesForecastingJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html) L’objet `HolidayConfigAttributes` contient l’attribut `CountryCode` à deux lettres qui détermine le pays du calendrier des fêtes nationales utilisé pour compléter votre jeu de données de séries temporelles.

Reportez-vous à [Codes pays](autopilot-timeseries-forecasting-holiday-calendars.md#holiday-country-codes) pour consulter la liste des calendriers pris en charge et leur code pays correspondant.

### Comment activer le déploiement automatique
<a name="timeseries-forecasting-auto-model-deployment"></a>

Autopilot vous permet de déployer automatiquement votre modèle de prévision sur un point de terminaison. Pour activer le déploiement automatique pour le meilleur modèle candidat d’une tâche AutoML, incluez un élément `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans la demande de tâche AutoML. Cela permet de déployer le meilleur modèle sur un point de terminaison d' SageMaker IA. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.
+ Pour permettre à Autopilot de générer le nom du point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)` sur `True`.
+ Pour fournir votre propre nom pour le point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents) to False and provide a name of your choice in [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)`.

### Comment configurer AutoML afin de lancer une tâche distante sur EMR sans serveur pour des jeux de données volumineux
<a name="autopilot-set-emr-serverless-api-forecasting"></a>

Vous pouvez configurer votre tâche AutoML V2 afin de lancer automatiquement une tâche distante sur Amazon EMR sans serveur lorsque des ressources de calcul supplémentaires sont nécessaires pour traiter des jeux de données volumineux. Grâce à une transition fluide vers EMR sans serveur lorsque cela est nécessaire, la tâche AutoML peut gérer des jeux de données qui dépasseraient autrement les ressources initialement provisionnées, sans aucune intervention manuelle de votre part. EMR sans serveur est disponible pour les types de problèmes de données tabulaires et de séries temporelles. Nous recommandons de configurer cette option pour les jeux de données des séries temporelles de plus de 30 Go.

Pour permettre à votre tâche AutoML V2 de basculer automatiquement vers EMR sans serveur pour les jeux de données volumineux, vous devez fournir un objet `EmrServerlessComputeConfig`, comprenant un champ `ExecutionRoleARN`, à la classe `AutoMLComputeConfig` de la demande d’entrée de la tâche AutoML V2.

`ExecutionRoleARN` est l’ARN du rôle IAM octroyant à la tâche AutoML V2 les autorisations nécessaires pour exécuter des tâches EMR sans serveur.

Ce rôle doit avoir la relation d’approbation suivante :

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "emr-serverless.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}
```

------

Et octroyer les autorisations pour :
+ créer, répertorier et mettre à jour des applications EMR sans serveur ;
+ démarrer, répertorier, obtenir ou annuler des tâches exécutées sur une application EMR sans serveur ;
+ baliser les ressources EMR sans serveur ;
+ transmettre un rôle IAM au service EMR sans serveur pour l’exécution.

  En octroyant l’autorisation `iam:PassRole`, la tâche AutoML V2 peut assumer temporairement le rôle `EMRServerlessRuntimeRole-*` et le transmettre au service EMR sans serveur. Il s'agit des rôles IAM utilisés par les environnements d'exécution de tâches EMR sans serveur pour accéder à AWS d'autres services et ressources nécessaires pendant l'exécution, tels qu'Amazon S3 pour l'accès aux données, pour la journalisation CloudWatch , l'accès au catalogue de données ou à AWS Glue d'autres services en fonction de vos exigences en matière de charge de travail.

  Consultez [Rôles d’exécution des tâches pour Amazon EMR sans serveur](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-iam-runtime-role.html) pour plus de détails sur les autorisations associées à ces rôles.

La politique IAM définie dans le document JSON fourni accorde les autorisations suivantes :

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [{
           "Sid": "EMRServerlessCreateApplicationOperation",
           "Effect": "Allow",
           "Action": "emr-serverless:CreateApplication",
           "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessListApplicationOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:ListApplications",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessApplicationOperations",
            "Effect": "Allow",
            "Action": [
                "emr-serverless:UpdateApplication",
                "emr-serverless:GetApplication"
            ],
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessStartJobRunOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:StartJobRun",
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessListJobRunOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:ListJobRuns",
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessJobRunOperations",
            "Effect": "Allow",
            "Action": [
                "emr-serverless:GetJobRun",
                "emr-serverless:CancelJobRun"
            ],
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessTagResourceOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:TagResource",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "IAMPassOperationForEMRServerless",
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*",
            "Condition": {
                "StringEquals": {
                    "iam:PassedToService": "emr-serverless.amazonaws.com",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
         }
    ]
}
```

------

# Format des jeux de données de séries temporelles et méthodes de remplissage des valeurs manquantes
<a name="timeseries-forecasting-data-format"></a>

Les données de séries temporelles font référence à un ensemble d’observations ou de mesures enregistrées à intervalles réguliers. Dans ce type de données, chaque observation est associée à un horodatage ou à une période spécifique, ce qui crée une séquence de points de données classés par ordre chronologique.

Les colonnes spécifiques que vous incluez dans votre jeu de données de séries temporelles dépendent des objectifs de votre analyse et des données dont vous disposez. Au minimum, les données de séries temporelles sont composées d’une table à 3 colonnes dans laquelle :
+ Une colonne contient des identifiants uniques attribués à des articles individuels pour faire référence à leur valeur à un moment précis.
+ Une autre colonne représente la point-in-time valeur ou la **cible** pour enregistrer la valeur d'un élément donné à un moment précis. Une fois que le modèle a été entraîné sur ces valeurs cibles, cette colonne cible contient les valeurs que le modèle prédit à une fréquence spécifiée dans un horizon défini.
+ Et une colonne d’horodatage est incluse pour enregistrer la date et l’heure de la mesure de la valeur.
+ Des colonnes supplémentaires peuvent contenir d’autres facteurs susceptibles d’influer sur les performances de prévision. Par exemple, dans un jeu de données de séries temporelles de commerce de détail dont la cible correspond aux ventes ou au chiffre d’affaires, vous pouvez inclure des caractéristiques fournissant des informations sur les unités vendues, l’identifiant du produit, l’emplacement du magasin, le nombre de clients, les niveaux de stock, ainsi que des indicateurs de covariation, tels que des données météorologiques ou des informations démographiques.

**Note**  
Vous pouvez ajouter à vos séries temporelles un jeu de données obtenu par ingénierie des caractéristiques d’informations sur les fêtes nationales. En incluant les jours fériés dans votre modèle de séries temporelles, vous pouvez capturer les schémas périodiques créés par les jours fériés. Cela permet à vos prévisions de mieux refléter la saisonnalité sous-jacente de vos données. Pour en savoir plus sur les calendriers disponibles par pays, consultez [Calendriers des fêtes nationales](autopilot-timeseries-forecasting-holiday-calendars.md)

## Format des jeux de données pour les prévisions de séries temporelles
<a name="timeseries-format"></a>

Autopilot prend en charge les types de données numériques, catégoriels, textuels et datetime. Le type de données de la colonne cible doit être numérique.

Autopilot prend en charge les données de séries temporelles sous forme de fichiers CSV (par défaut) ou de fichiers Parquet.
+ **CSV** (comma-separated-values) est un format de fichier basé sur des lignes qui stocke les données en texte clair lisible par l'homme. C'est un choix populaire pour l'échange de données car il est pris en charge par un large éventail d'applications.
+ **Parquet** est un format de fichier basé sur les colonnes dans lequel les données sont stockées et traitées plus efficacement que les formats de fichiers basés sur les lignes. Cela en fait une meilleure option pour les problèmes de big data.

Pour plus d’informations sur les limites de ressources applicables aux jeux de données de séries temporelles pour la prévision dans Autopilot, consultez [Limites des ressources de prévision des séries temporelles pour Autopilot](timeseries-forecasting-limits.md).

## Gestion des valeurs manquantes
<a name="timeseries-missing-values"></a>

Un problème courant dans les données de prévision chronologiques est la présence de valeurs manquantes. Vos données peuvent contenir des valeurs manquantes pour un certain nombre de raisons, notamment des échecs de mesure, des problèmes de formatage, des erreurs humaines ou un manque d’informations à enregistrer. Par exemple, si vous prévoyez la demande d’un produit pour un magasin de vente au détail et qu’un article est épuisé ou indisponible, il n’y aura pas de données de vente à enregistrer tant que cet article sera en rupture de stock. Si elles sont suffisamment importantes, les valeurs manquantes peuvent avoir un impact significatif sur la précision d’un modèle.

Autopilot propose un certain nombre de méthodes de remplissage pour gérer les valeurs manquantes, avec des approches distinctes pour la colonne cible et d’autres colonnes supplémentaires. Le remplissage consiste à ajouter des valeurs normalisées aux entrées manquantes dans votre ensemble de données.

Reportez-vous à [Comment gérer les valeurs manquantes de vos jeux de données sources.](autopilot-create-experiment-timeseries-forecasting.md#timeseries-forecasting-fill-missing-values) pour découvrir comment définir la méthode de remplissage des valeurs manquantes dans votre jeu de données de séries temporelles.

Autopilot prend en charge les méthodes de remplissage suivantes :
+ **Remplissage avant :** remplit toutes les valeurs manquantes entre le point de données enregistré le plus tôt parmi tous les éléments et le point de départ de chaque élément (chaque élément peut commencer à un moment différent). Cela garantit que les données de chaque élément sont complètes et s’étendent du point de données enregistré le plus tôt à son point de départ respectif.
+ **Remplissage intermédiaire :** remplit toutes les valeurs manquantes entre la date de début et la date de fin des éléments figurant dans le jeu de données.
+ **Remplissage arrière :** remplit toutes les valeurs manquantes entre le dernier point de données de chaque élément (chaque élément peut s’arrêter à un moment différent) et le dernier point de données enregistré parmi tous les éléments.
+ **Remplissage futur :** remplit toutes les valeurs manquantes entre le dernier point de données enregistré parmi tous les éléments et la fin de l’horizon de prévision.

L’image suivante fournit une représentation visuelle des différentes méthodes de remplissage.

![\[Les différentes méthodes de remplissage pour les prévisions de séries chronologiques dans Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/autopilot/autopilot-forecast-filling-methods.png)


### Choix d'une logique de remplissage
<a name="filling-logic"></a>

Lorsque vous choisissez une logique de remplissage, vous devez prendre en considération la manière dont la logique sera interprétée par votre modèle. Par exemple, dans un scénario de vente au détail, l’enregistrement de 0 vente d’un article disponible est différent de l’enregistrement de 0 vente d’un article non disponible, car ce dernier n’implique pas un manque d’intérêt du client pour l’article. Pour cette raison, le remplissage par `0` dans la colonne cible de la série temporelle peut entraîner une sous-estimation du biais du prédicteur dans ses prédictions, tandis que le remplissage par `NaN` peut ignorer les occurrences réelles de vente de 0 article disponible et entraîner une surestimation du biais du prédicteur.

### Logique de remplissage
<a name="filling-restrictions"></a>

Vous pouvez effectuer le remplissage de la colonne cible et des autres colonnes numériques de vos jeux de données. Les directives et restrictions de remplissage des colonnes cibles sont différentes de celles des autres colonnes numériques.

Instructions de remplissage


| Type de colonne | Remplissage par défaut ? | Méthodes de remplissage prises en charge | Logique de remplissage par défaut | Logique de remplissage acceptée | 
| --- | --- | --- | --- | --- | 
| Colonne cible | Oui | Remplissage intermédiaire et en amont | 0 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/timeseries-forecasting-data-format.html)  | 
| Autres colonnes numériques | Non | Remplissage intermédiaire, en amont et en aval | Pas de valeur par défaut |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/timeseries-forecasting-data-format.html)  | 

**Note**  
Pour la colonne cible et les autres colonnes numériques, `mean`, `median`, `min` et `max` sont calculés sur la base d'une fenêtre mobile des 64 entrées de données les plus récentes avant les valeurs manquantes.

# Calendriers des fêtes nationales
<a name="autopilot-timeseries-forecasting-holiday-calendars"></a>

Autopilot prend en charge un jeu de données obtenu par ingénierie des caractéristiques d’informations sur les fêtes nationales qui donne accès aux calendriers des fêtes de plus de 250 pays. Les fonctionnalités des calendriers des fêtes sont particulièrement utiles dans le domaine de la vente au détail, où les jours fériés peuvent avoir une incidence significative sur la demande. La section suivante répertorie les codes pays que vous pouvez utiliser pour accéder aux calendriers des jours fériés de chaque pays pris en charge.

Consultez [Comment intégrer les informations relatives aux fêtes nationales à votre jeu de données](autopilot-create-experiment-timeseries-forecasting.md#timeseries-forecasting-add-holiday-calendar) pour découvrir comment ajouter un calendrier à votre jeu de données.

## Codes pays
<a name="holiday-country-codes"></a>

Autopilot fournit une prise en charge native pour les calendriers des jours fériés des pays suivants. Utilisez le **code pays** lorsque vous spécifiez un pays avec l’API.


| Country | Code pays | 
| --- | --- | 
|   Afghanistan   |   AF   | 
|   Îles Åland   |   AX   | 
|   Albanie   |   AL   | 
|   Algérie   |   DZ   | 
|   Samoa américaines   |   AS   | 
|   Andorre   |   AD   | 
|   Angola   |   AO   | 
|   Anguilla   |   AI   | 
|   Antarctique   |   AQ   | 
|   Antigua et Barbuda   |   AG   | 
|   Argentine   |   AR   | 
|   Arménie   |   AM   | 
|   Aruba   |   AW   | 
|   Australie   |   AU   | 
|   Autriche   |   AT   | 
|   Azerbaïdjan   |   AZ   | 
|   Bahamas   |   BS   | 
|   Bahreïn   |   BH   | 
|   Bangladesh   |   BD   | 
|   Barbade   |   BB   | 
|   Biélorussie   |   BY   | 
|   Belgique   |   BE   | 
|   Belize   |   BZ   | 
|   Bénin   |   BJ   | 
|   Bermudes   |   BM   | 
|   Bhoutan   |   BT   | 
|   Bolivie   |   BO   | 
|   Bosnie-Herzégovine   |   BA   | 
|   Botswana   |   BW   | 
|   Île Bouvet   |   BV   | 
|   Brésil   |   BR   | 
|   Territoire Britannique de l’Océan Indien   |   IO   | 
|   Îles Vierges Britanniques   |   VG   | 
|   Brunéi Darussalam   |   BN   | 
|   Bulgarie   |   BG   | 
|   Burkina Faso   |   BF   | 
|   Burundi   |   BI   | 
|   Cambodge   |   KH   | 
|   Cameroun   |   CM   | 
|   Canada   |   CA   | 
|   Cap-Vert   |   CV   | 
|   Pays-Bas caribéens   |   BQ   | 
|   Iles Caïmans   |   KY   | 
|   République centrafricaine   |   CF   | 
|   Tchad   |   TD   | 
|   Chili   |   CL   | 
|   Chine   |   CN   | 
|   Île Christmas   |   CX   | 
|   Îles Cocos (Keeling)   |   CC   | 
|   Colombie   |   CO   | 
|   Comores   |   KM   | 
|   Iles Cook   |   CK   | 
|   Costa Rica   |   CR   | 
|   Croatie   |   HR   | 
|   Cuba   |   CU   | 
|   Curaçao   |   CW   | 
|   Chypre   |   CY   | 
|   Tchéquie   |   CZ   | 
|   République démocratique du Congo   |   CD   | 
|   Danemark   |   DK   | 
|   Djibouti   |   DJ   | 
|   Dominique   |   DM   | 
|   République Dominicaine   |   DO   | 
|   Equateur   |   EC   | 
|   Egypte   |   EG   | 
|   El Salvador   |   SV   | 
|   Guinée équatoriale   |   GQ   | 
|   Érythrée   |   ER   | 
|   Estonie   |   EE   | 
|   Eswatini   |   SZ   | 
|   Ethiopie   |   ET   | 
|   Îles Malouines   |   FK   | 
|   Iles Féroé   |   FO   | 
|   Fidji   |   FJ   | 
|   Finlande   |   FI   | 
|   France   |   FR   | 
|   Guyane française   |   GF   | 
|   Polynésie française   |   PF   | 
|   Terres australes et antarctiques françaises   |   TF   | 
|   Gabon   |   GA   | 
|   Gambie   |   GM   | 
|   Géorgie   |   GE   | 
|   Allemagne   |   DE   | 
|   Ghana   |   GH   | 
|   Gibraltar   |   GI   | 
|   Grèce   |   GR   | 
|   Groenland   |   GL   | 
|   Grenade   |   GD   | 
|   Guadeloupe   |   GP   | 
|   Guam   |   GU   | 
|   Guatemala   |   GT   | 
|   Guernesey   |   GG   | 
|   Guinée   |   GN   | 
|   Guinée-Bissau   |   GW   | 
|   Guyane   |   GY   | 
|   Haïti   |   HT   | 
|   Île Heard et McDonald îles   |   HM   | 
|   Honduras   |   HN   | 
|   Hong Kong   |   HK   | 
|   Hongrie   |   HU   | 
|   Islande   |   IS   | 
|   Inde   |   IN   | 
|   Indonésie   |   ID   | 
|   Iran   |   IR   | 
|   Irak   |   IQ   | 
|   Irlande   |   IE   | 
|   Île de Man   |   IM   | 
|   Israël   |   IL   | 
|   Italie   |   IT   | 
|   Côte d’Ivoire   |   CI   | 
|   Jamaïque   |   JM   | 
|   Japon   |   JP   | 
|   Jersey   |   JE   | 
|   Jordanie   |   JO   | 
|   Kazakhstan   |   KZ   | 
|   Kenya   |   KE   | 
|   Kiribati   |   KI   | 
|   Kosovo   |   XK   | 
|   Koweït   |   KW   | 
|   Kirghizstan   |   KG   | 
|   Laos   |   LA   | 
|   Lettonie   |   LV   | 
|   Liban   |   LB   | 
|   Lesotho   |   LS   | 
|   Liberia   |   LR   | 
|   Libye   |   LY   | 
|   Liechtenstein   |   LI   | 
|   Lituanie   |   LT   | 
|   Luxembourg   |   LU   | 
|   Macao   |   MO   | 
|   Madagascar   |   MG   | 
|   Malawi   |   MW   | 
|   Malaisie   |   MY   | 
|   Maldives   |   MV   | 
|   Mali   |   ML   | 
|   Malte   |   MT   | 
|   Îles Marshall   |   MH   | 
|   Martinique   |   MQ   | 
|   Mauritanie   |   MR   | 
|   Maurice   |   MU   | 
|   Mayotte   |   YT   | 
|   Mexique   |   MX   | 
|   Micronésie   |   FM   | 
|   Moldavie   |   MD   | 
|   Monaco   |   MC   | 
|   Mongolie   |   MN   | 
|   Monténégro   |   ME   | 
|   Montserrat   |   MS   | 
|   Maroc   |   MA   | 
|   Mozambique   |   MZ   | 
|   Birmanie   |   MM   | 
|   Namibie   |   NA   | 
|   Nauru   |   NR   | 
|   Népal   |   NP   | 
|   Pays-Bas   |   NL   | 
|   Nouvelle-Calédonie   |   NC   | 
|   Nouvelle-Zélande   |   NZ   | 
|   Nicaragua   |   NI   | 
|   Niger   |   NE   | 
|   Nigeria   |   NG   | 
|   Niué   |   NU   | 
|   Île Norfolk   |   NF   | 
|   Corée du Nord   |   KP   | 
|   Macédoine du Nord   |   MK   | 
|   Îles Mariannes du Nord   |   MP   | 
|   Norvège   |   NO   | 
|   Oman   |   OM   | 
|   Pakistan   |   PK   | 
|   Palaos   |   PW   | 
|   Palestine   |   PS   | 
|   Panama   |   PA   | 
|   Papouasie-Nouvelle-Guinée   |   PG   | 
|   Paraguay   |   PY   | 
|   Pérou   |   PE   | 
|   Philippines   |   PH   | 
|   Îles Pitcairn   |   PN   | 
|   Pologne   |   PL   | 
|   Portugal   |   PT   | 
|   Porto Rico   |   PR   | 
|   Qatar   |   QA   | 
|   République du Congo   |   CG   | 
|   La Réunion   |   RE   | 
|   Roumanie   |   RO   | 
|   Fédération de Russie   |   RU   | 
|   Rwanda   |   RW   | 
|   Saint-Barthélemy   |   BL   | 
|   « Sainte-Hélène, Ascension et Tristan da Cunha »   |   SH   | 
|   Saint Kitts et Nevis   |   KN   | 
|   Sainte-Lucie   |   LC   | 
|   Saint-Martin   |   MF   | 
|   Saint-Pierre-et-Miquelon   |   PM   | 
|   Saint-Vincent-et-les-Grenadines   |   VC   | 
|   Samoa   |   WS   | 
|   Saint-Marin   |   SM   | 
|   Sao Tomé et Principe   |   ST   | 
|   Arabie saoudite   |   SA   | 
|   Sénégal   |   SN   | 
|   Serbie   |   RS   | 
|   Seychelles   |   SC   | 
|   Sierra Leone   |   SL   | 
|   Singapour   |   SG   | 
|   Sint Maarten   |   SX   | 
|   Slovaquie   |   SK   | 
|   Slovénie   |   SI   | 
|   Iles Salomon   |   SB   | 
|   Somalie   |   SO   | 
|   Afrique du Sud   |   ZA   | 
|   Géorgie du Sud et îles Sandwich du Sud   |   GS   | 
|   Corée du Sud   |   KR   | 
|   Soudan du Sud   |   SS   | 
|   Espagne   |   ES   | 
|   Sri Lanka   |   LK   | 
|   Soudan   |   SD   | 
|   Suriname   |   SR   | 
|   Svalbard et Île Jan Mayen   |   SJ   | 
|   Suède   |   SE   | 
|   Suisse   |   CH   | 
|   République arabe syrienne   |   SY   | 
|   Taïwan   |   TW   | 
|   Tadjikistan   |   TJ   | 
|   Tanzanie   |   TZ   | 
|   Thaïlande   |   TH   | 
|   Timor-Leste   |   TL   | 
|   Togo   |   TG   | 
|   Tokélaou   |   TK   | 
|   Tonga   |   TO   | 
|   Trinidad et Tobago   |   TT   | 
|   Tunisie   |   TN   | 
|   Turquie   |   TR   | 
|   Turkménistan   |   TM   | 
|   Iles Turks et Caicos   |   TC   | 
|   Tuvalu   |   TV   | 
|   Ouganda   |   UG   | 
|   Ukraine   |   UA   | 
|   Emirats arabes unis   |   AE   | 
|   Royaume-Uni   |   UK   | 
|   Nations Unies   |   UN   | 
|   États-Unis   |   US   | 
|   Îles mineures éloignées des États-Unis   |   UM   | 
|   Îles Vierges des États-Unis   |   VI   | 
|   Uruguay   |   UY   | 
|   Ouzbékistan   |   UZ   | 
|   Vanuatu   |   VU   | 
|   Cité du Vatican   |   VA   | 
|   Venezuela   |   VE   | 
|   Vietnam   |   VN   | 
|   Wallis et Futuna   |   WF   | 
|   Sahara occidental   |   EH   | 
|   Yémen   |   YE   | 
|   Zambie   |   ZM   | 
|   Zimbabwe   |   ZW   | 

# Métriques d'objectif
<a name="timeseries-objective-metric"></a>

Autopilot produit des métriques de précision pour évaluer les modèles candidats et vous aider à choisir lequel utiliser pour générer des prévisions. Vous pouvez laisser Autopilot optimiser le prédicteur pour vous ou vous pouvez choisir manuellement un algorithme pour votre prédicteur. Par défaut, Autopilot utilise la perte quantile pondérée moyenne.

La liste suivante contient les noms des métriques qui sont actuellement disponibles pour mesurer les performances des modèles pour la prévision des séries temporelles.

**`RMSE`**  
Racine de l’erreur quadratique moyenne (RMSE, Root Mean Squared Error) : mesure la racine carrée de la différence au carré entre les valeurs prédites et réelles, moyennée sur l’ensemble des valeurs. Cette métrique est importante pour indiquer la présence d'erreurs et de valeurs aberrantes dans les modèles volumineux. Les valeurs vont de zéro (0) à l'infini, les plus petits nombres indiquant une meilleure adéquation du modèle aux données. La RMSE dépend de l'échelle, et ne doit pas être utilisée pour comparer des jeux de données de tailles différentes.

**`wQL`**  
Perte quantile pondérée (wQL) : évaluez la précision de la prévision en mesurant les différences absolues pondérées entre les quantiles P10, P50 et P90 prédits et réels, des valeurs plus faibles indiquant une meilleure performance.

**`Average wQL (default)`**  
Perte quantile pondérée moyenne (wQL moyen) : évalue la prévision en faisant la moyenne de la précision au niveau des quantiles P10, P50 et P90. Une valeur faible indique un modèle plus précis.

**`MASE`**  
Erreur moyenne à l’échelle absolue (MASE) : erreur absolue moyenne de la prédiction normalisée par l’erreur absolue moyenne d’une méthode de prédiction de référence simple. Une valeur inférieure indique un modèle plus précis, où MASE < 1 est estimé comme étant meilleur que la valeur de référence et MASE > 1 est estimé comme étant pire que la valeur de référence.

**`MAPE`**  
Erreur moyenne en pourcentage absolu (MAPE) : erreur en pourcentage (différence en pourcentage de la valeur moyenne prévue par rapport à la valeur réelle) calculée sur tous les points temporels. Une valeur inférieure indique un modèle plus précis, où MAPE = 0 est un modèle sans erreur.

**`WAPE`**  
Erreur moyenne en pourcentage absolu (WAPE) : somme de l’erreur absolue normalisée par la somme de la cible absolue, qui mesure l’écart global entre les valeurs prédites et les valeurs observées. Une valeur faible indique un modèle plus précis.

# Prise en charge des algorithmes pour les prévisions de séries temporelles
<a name="timeseries-forecasting-algorithms"></a>

Autopilot entraîne les six algorithmes intégrés suivants avec vos séries temporelles cibles. Ensuite, en utilisant une méthode ensembliste par empilement, il combine ces modèles candidats pour créer un modèle de prévision optimal pour une métrique d’objectif donnée.
+ **Réseau neuronal convolutif - Régression quantile (CNN-QR) — Le CNN-QR** est un algorithme d'apprentissage automatique propriétaire permettant de prévoir des séries chronologiques à l'aide de réseaux neuronaux convolutifs causaux (). CNNs CNN-QR fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles.
+ **DeepAr\$1** — DeepAr\$1 est un algorithme d'apprentissage automatique propriétaire permettant de prévoir des séries chronologiques à l'aide de réseaux neuronaux récurrents (). RNNs DeepAR\$1 fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles de fonctionnalités.
+ **Prophet** : [Prophet](https://facebook.github.io/prophet/) est un modèle structurel de séries temporelles bayésien local populaire basé sur un modèle additif dans lequel les tendances non linéaires sont adaptées à la saisonnalité annuelle, hebdomadaire et quotidienne. L’algorithme Prophet d’Autopilot utilise la [classe Prophet](https://facebook.github.io/prophet/docs/quick_start.html#python-ap) de l’implémentation Python de Prophet. Il fonctionne de façon optimale avec des séries temporelles présentant de forts effets saisonniers et plusieurs saisons de données historiques. 
+ **Séries temporelles non paramétriques (NPTS)** : l’algorithme propriétaire NPTS est un prédicteur évolutif de base de référence probabiliste. Il prévoit la distribution future des valeurs d’une série temporelle donnée par échantillonnage à partir d’observations passées. NPTS est particulièrement utile lorsque vous travaillez avec des séries temporelles fragmentées ou intermittentes. 
+ **Moyenne mobile autorégressive intégrée (ARIMA)** : ARIMA est un algorithme de statistiques couramment utilisé pour les prévisions de séries temporelles. Cet algorithme capture les structures temporelles standard (schémas d’organisation temporelle) dans le jeu de données d’entrée. Il est particulièrement utile pour les jeux de données simples comportant moins de 100 séries temporelles. 
+ **Lissage exponentiel (ETS)** : ETS est un algorithme de statistiques couramment utilisé pour les prévisions de séries temporelles. Cet algorithme est particulièrement utile pour les jeux de données simples contenant moins de 100 séries temporelles et les jeux de données présentant des schémas de saisonnalité. ETS calcule une moyenne pondérée sur toutes les observations du jeu de données des séries temporelles comme prédiction, avec des poids diminuant de façon exponentielle au fil du temps.

# Prévision d’un modèle Autopilot déployé
<a name="timeseries-forecasting-deploy-models"></a>

Après avoir entraîné vos modèles à l’aide de l’API AutoML, vous pouvez les déployer pour des prévisions en temps réel ou par lots. 

L’API AutoML entraîne plusieurs modèles candidats pour vos données de séries temporelles, puis sélectionne un modèle de prévision optimal basé sur votre métrique d’objectif cible. Une fois que vos candidats modèles ont été formés, vous pouvez trouver le meilleur candidat dans la réponse [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) à l'adresse [BestCandidate](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-CandidateName).

Pour obtenir des prévisions à l’aide de ce modèle le plus performant, vous pouvez soit configurer un point de terminaison pour obtenir des prévisions de manière interactive, soit utiliser des prévisions par lots pour établir des prévisions sur un lot d’observations.

**Considérations**
+ Lorsque vous fournissez des données d’entrée pour les prévisions, le schéma de vos données doit rester le même que celui utilisé pour entraîner votre modèle, y compris le nombre de colonnes, les en-têtes de colonne et les types de données. Vous pouvez prévoir un article existant ou nouveau IDs dans une plage d'horodatage identique ou différente pour une période différente.
+ Les modèles de prévision établissent des prévisions pour les points de l’horizon de prévision futurs spécifiés dans la demande d’entrée lors de l’entraînement, c’est-à-dire entre la *date de fin cible* et la *date de fin cible \$1 horizon de prévision*. Pour utiliser le modèle pour prédire des dates spécifiques, vous devez fournir les données dans le même format que les données d’entrée d’origine, jusqu’à une *date de fin cible* spécifiée. Dans ce scénario, le modèle commencera à prédire à partir de la nouvelle date de fin cible.

  Par exemple, si votre jeu de données contenait des données mensuelles de janvier à juin avec un horizon de prévision de 2, le modèle prédirait la valeur cible pour les 2 prochains mois, à savoir juillet et août. Si, en août, vous souhaitez effectuer des prévisions pour les deux prochains mois, cette fois, vos données d’entrée devraient être de janvier à août et le modèle effectuera des prévisions pour les 2 prochains mois (septembre et octobre).
+ Lors de la prévision des futurs points de données, il n’existe pas de minimum de données historiques à fournir. Incluez suffisamment de données pour saisir les modèles saisonniers et récurrents de vos séries temporelles.

**Topics**
+ [

# Prévisions en temps réel
](timeseries-forecasting-realtime.md)
+ [

# Prévisions par lots
](timeseries-forecasting-batch.md)

# Prévisions en temps réel
<a name="timeseries-forecasting-realtime"></a>

Les prévisions en temps réel sont utiles lorsque vous devez générer des prédictions on-the-fly, par exemple pour les applications qui nécessitent des réponses immédiates ou lorsque vous faites des prévisions pour des points de données individuels.

En déployant votre modèle AutoML en tant que point de terminaison en temps réel, vous pouvez générer des prévisions à la demande et minimiser le temps de latence entre la réception de nouvelles données et l’obtention de prévisions. Les prévisions en temps réel conviennent donc parfaitement aux applications qui nécessitent des capacités de prévision immédiates, personnalisées ou basées sur des événements.

Pour les prévisions en temps réel, le jeu de données doit être un sous-ensemble du jeu de données en entrée. Le point de terminaison en temps réel a une taille de données d’entrée d’environ 6 Mo et un délai de réponse limité à 60 secondes. Nous vous recommandons d’introduire un ou plusieurs articles à la fois.

Vous pouvez l'utiliser SageMaker APIs pour récupérer le meilleur candidat pour une tâche AutoML, puis créer un point de terminaison d' SageMaker IA en utilisant ce candidat.

Vous pouvez également choisir l’option de déploiement automatique lors de la création de votre expérience Autopilot. Pour en savoir plus sur la configuration du déploiement automatique des modèles, consultez [Comment activer le déploiement automatique](autopilot-create-experiment-timeseries-forecasting.md#timeseries-forecasting-auto-model-deployment).

**Pour créer un point de terminaison d' SageMaker IA à l'aide de votre meilleur modèle candidat :**

1. 

**Extrayez les détails de la tâche AutoML.**

   L'exemple de AWS CLI commande suivant utilise l'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) pour obtenir des informations détaillées sur la tâche AutoML, notamment des informations sur le meilleur modèle candidat.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. 

**Extrayez la définition du conteneur [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers)pour trouver le meilleur modèle candidat.**

   Une définition de conteneur est l'environnement conteneurisé utilisé pour héberger le modèle d' SageMaker IA entraîné pour effectuer des prédictions.

   ```
   BEST_CANDIDATE=$(aws sagemaker describe-auto-ml-job-v2 \
     --auto-ml-job-name job-name 
     --region region \
     --query 'BestCandidate.InferenceContainers[0]' \
     --output json
   ```

   Cette commande extrait la définition de conteneur pour le meilleur modèle candidat et la stocke dans la variable `BEST_CANDIDATE`.

1. 

**Créez un modèle d' SageMaker IA à l'aide de la meilleure définition de conteneur candidat.**

   Utilisez les définitions de conteneur des étapes précédentes pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API.

   ```
   aws sagemaker create-model \
               --model-name 'your-candidate-name>' \
               --primary-container "$BEST_CANDIDATE"
               --execution-role-arn 'execution-role-arn>' \
               --region 'region>
   ```

   Le `--execution-role-arn` paramètre indique le rôle IAM assumé par l' SageMaker IA lors de l'utilisation du modèle à des fins d'inférence. Pour plus de détails sur les autorisations requises pour ce rôle, voir [CreateModel API : Autorisations du rôle d'exécution](https://docs.aws.amazon.com/).

1. 

**Créez une configuration de point de terminaison SageMaker AI à l'aide du modèle.**

   La AWS CLI commande suivante utilise l'[CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API pour créer une configuration de point de terminaison.

   ```
   aws sagemaker create-endpoint-config \
     --production-variants file://production-variants.json \
     --region 'region'
   ```

   Où le fichier `production-variants.json` contient la configuration du modèle, y compris le nom de ce dernier et le type d’instance.
**Note**  
Nous recommandons d’utiliser des instances [m5.12xlarge](https://aws.amazon.com/ec2/instance-types/m5/) pour les prévisions en temps réel.

   ```
   [
       {
         "VariantName": "variant-name",
         "ModelName": "model-name",
         "InitialInstanceCount": 1,
         "InstanceType": "m5.12xlarge"
       }
     ]
   }
   ```

1. 

**Créez le point de terminaison SageMaker AI à l'aide de la configuration du point de terminaison.**

   L' AWS CLI exemple suivant utilise l'[CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API pour créer le point de terminaison.

   ```
   aws sagemaker create-endpoint \
               --endpoint-name 'endpoint-name>' \
               --endpoint-config-name 'endpoint-config-name' \
               --region 'region'
   ```

   Vérifiez la progression du déploiement de votre point de terminaison d'inférence en temps réel à l'aide de l'[DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-endpoint \
               --endpoint-name 'endpoint-name' \
               --region 'region'
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

1. 

**Invoquez le point de terminaison SageMaker AI pour faire des prédictions.**

   ```
   aws sagemaker invoke-endpoint \
               --endpoint-name 'endpoint-name' \ 
               --region 'region' \
               --body file://input-data-in-bytes.json \
               --content-type 'application/json' outfile
   ```

   Où le fichier `input-data-in-bytes.json` contient les données d’entrée pour la prédiction.

# Prévisions par lots
<a name="timeseries-forecasting-batch"></a>

La prévision par lots, également appelée inférence hors connexion, génère des prédictions modélisées sur un lot d’observations. L'inférence par lots est une bonne option pour les grands jeux de données, ou si vous n'avez pas besoin d'une réponse immédiate à une demande de prédiction de modèle.

En revanche, l’inférence en ligne (inférence en temps réel) génère des prédictions en temps réel. 

Vous pouvez l'utiliser SageMaker APIs pour récupérer le meilleur candidat pour une tâche AutoML, puis soumettre un lot de données d'entrée à des fins d'inférence à l'aide de ce candidat.

1. 

**Extrayez les détails de la tâche AutoML.**

   L'exemple de AWS CLI commande suivant utilise l'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) pour obtenir des informations détaillées sur la tâche AutoML, notamment des informations sur le meilleur modèle candidat.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. 

**Extrayez la définition du conteneur [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers)pour trouver le meilleur modèle candidat.**

   Une définition de conteneur est l'environnement conteneurisé utilisé pour héberger le modèle d' SageMaker IA entraîné pour effectuer des prédictions.

   ```
   BEST_CANDIDATE=$(aws sagemaker describe-auto-ml-job-v2 \
         --auto-ml-job-name job-name 
         --region region \
         --query 'BestCandidate.InferenceContainers[0]' \
         --output json
   ```

   Cette commande extrait la définition de conteneur pour le meilleur modèle candidat et la stocke dans la variable `BEST_CANDIDATE`.

1. 

**Créez un modèle d' SageMaker IA à l'aide de la meilleure définition de conteneur candidat.**

   Utilisez les définitions de conteneur des étapes précédentes pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API.

   ```
   aws sagemaker create-model \
         --model-name 'model-name' \
         --primary-container "$BEST_CANDIDATE"
         --execution-role-arn 'execution-role-arn>' \
         --region 'region>
   ```

   Le `--execution-role-arn` paramètre indique le rôle IAM assumé par l' SageMaker IA lors de l'utilisation du modèle à des fins d'inférence. Pour plus de détails sur les autorisations requises pour ce rôle, voir [CreateModel API : Autorisations du rôle d'exécution](https://docs.aws.amazon.com/).

1. 

**Créez une tâche de transformation par lots.**

   L'exemple suivant crée une tâche de transformation à l'aide de l'[CreateTransformJob](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-transform-job.html)API. 

   ```
   aws sagemaker create-transform-job \ 
          --transform-job-name 'transform-job-name' \
          --model-name 'model-name'\
          --transform-input file://transform-input.json \
          --transform-output file://transform-output.json \
          --transform-resources file://transform-resources.json \
          --region 'region'
   ```

   Les informations liées aux entrées, sorties et ressources sont définies dans des fichiers JSON distincts :
   + `transform-input.json`:

     ```
     {
       "DataSource": {
         "S3DataSource": {
           "S3DataType": "S3Prefix",
           "S3Uri": "s3://my-input-data-bucket/path/to/input/data"
         }
       },
       "ContentType": "text/csv",
       "SplitType": "None"
     }
     ```
   + `transform-output.json`:

     ```
     {
       "S3OutputPath": "s3://my-output-bucket/path/to/output",
       "AssembleWith": "Line"
     }
     ```
   + `transform-resources.json`:
**Note**  
Nous vous recommandons d’utiliser des instances [m5.12xlarge](https://aws.amazon.com/ec2/instance-types/m5/) pour les charges de travail polyvalentes et des instances `m5.24xlarge` pour les tâches de prévision du big data.

     ```
     {
       "InstanceType": "instance-type",
       "InstanceCount": 1
     }
     ```

1. 

**Surveillez la progression de votre travail de transformation à l'aide de l'[DescribeTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTransformJob.html)API.**

   Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-transform-job \
         --transform-job-name 'transform-job-name' \
         --region region
   ```

1. 

**Extrayez le résultat de la transformation par lots.**

   Une fois la tâche terminée, le résultat prédit est disponible dans `S3OutputPath`. 

   Le nom du fichier de sortie possède le format suivant : `input_data_file_name.out`. Par exemple, si votre fichier d'entrée est `text_x.csv`, le nom de sortie sera `text_x.csv.out`.

   ```
   aws s3 ls s3://my-output-bucket/path/to/output/
   ```

Les exemples de code suivants illustrent l'utilisation du AWS SDK pour Python (boto3) et AWS CLI pour les prévisions par lots.

------
#### [ AWS SDK for Python (boto3) ]

 L'exemple suivant utilise le **kit AWS SDK pour Python (boto3)** pour effectuer des prédictions par lots.

```
import sagemaker 
import boto3

session = sagemaker.session.Session()

sm_client = boto3.client('sagemaker', region_name='us-west-2')
role = 'arn:aws:iam::1234567890:role/sagemaker-execution-role'
output_path = 's3://test-auto-ml-job/output'
input_data = 's3://test-auto-ml-job/test_X.csv'

best_candidate = sm_client.describe_auto_ml_job_v2(AutoMLJobName=job_name)['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

# create model
reponse = sm_client.create_model(
    ModelName = best_candidate_name,
    ExecutionRoleArn = role,
    Containers = best_candidate_containers 
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName=f'{best_candidate_name}-transform-job',
    ModelName=model_name,
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/csv",
        'SplitType': 'None'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m5.2xlarge',
        'InstanceCount': 1,
    },
)
```

La tâche d'inférence par lots renvoie une réponse au format suivant.

```
{'TransformJobArn': 'arn:aws:sagemaker:us-west-2:1234567890:transform-job/test-transform-job',
 'ResponseMetadata': {'RequestId': '659f97fc-28c4-440b-b957-a49733f7c2f2',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amzn-requestid': '659f97fc-28c4-440b-b957-a49733f7c2f2',
   'content-type': 'application/x-amz-json-1.1',
   'content-length': '96',
   'date': 'Thu, 11 Aug 2022 22:23:49 GMT'},
  'RetryAttempts': 0}}
```

------
#### [ AWS Command Line Interface (AWS CLI) ]

1. **Obtention des définitions de conteneurs des meilleurs candidats**.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name 'test-automl-job' --region us-west-2
   ```

1. **Créez le modèle**.

   ```
   aws sagemaker create-model --model-name 'test-sagemaker-model'
   --containers '[{
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/data-processor-models/test-job1-dpp0-1-e569ff7ad77f4e55a7e549a/output/model.tar.gz",
       "Environment": {
           "AUTOML_SPARSE_ENCODE_RECORDIO_PROTOBUF": "1",
           "AUTOML_TRANSFORM_MODE": "feature-transform",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "application/x-recordio-protobuf",
           "SAGEMAKER_PROGRAM": "sagemaker_serve",
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.3-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/tuning/flicdf10v2-dpp0-xgb/test-job1E9-244-7490a1c0/output/model.tar.gz",
       "Environment": {
           "MAX_CONTENT_LENGTH": "20971520",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv",
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,probabilities" 
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", 
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/data-processor-models/test-job1-dpp0-1-e569ff7ad77f4e55a7e549a/output/model.tar.gz", 
       "Environment": { 
           "AUTOML_TRANSFORM_MODE": "inverse-label-transform", 
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv", 
           "SAGEMAKER_INFERENCE_INPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,labels,probabilities", 
           "SAGEMAKER_PROGRAM": "sagemaker_serve", 
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code" 
       } 
   }]' \
   --execution-role-arn 'arn:aws:iam::1234567890:role/sagemaker-execution-role' \
   --region 'us-west-2'
   ```

1. **Créez une tâche de transformation**.

   ```
   aws sagemaker create-transform-job --transform-job-name 'test-tranform-job'\
    --model-name 'test-sagemaker-model'\
    --transform-input '{
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix",
                   "S3Uri": "s3://amzn-s3-demo-bucket/data.csv"
               }
           },
           "ContentType": "text/csv",
           "SplitType": "None"
       }'\
   --transform-output '{
           "S3OutputPath": "s3://amzn-s3-demo-bucket/output/",
           "AssembleWith": "Line"
       }'\
   --transform-resources '{
           "InstanceType": "ml.m5.2xlarge",
           "InstanceCount": 1
       }'\
   --region 'us-west-2'
   ```

1. **Vérifiez la progression de la tâche de transformation**. 

   ```
   aws sagemaker describe-transform-job --transform-job-name  'test-tranform-job' --region us-west-2
   ```

   Voici la réponse de la tâche de transformation.

   ```
   {
       "TransformJobName": "test-tranform-job",
       "TransformJobArn": "arn:aws:sagemaker:us-west-2:1234567890:transform-job/test-tranform-job",
       "TransformJobStatus": "InProgress",
       "ModelName": "test-model",
       "TransformInput": {
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix",
                   "S3Uri": "s3://amzn-s3-demo-bucket/data.csv"
               }
           },
           "ContentType": "text/csv",
           "CompressionType": "None",
           "SplitType": "None"
       },
       "TransformOutput": {
           "S3OutputPath": "s3://amzn-s3-demo-bucket/output/",
           "AssembleWith": "Line",
           "KmsKeyId": ""
       },
       "TransformResources": {
           "InstanceType": "ml.m5.2xlarge",
           "InstanceCount": 1
       },
       "CreationTime": 1662495635.679,
       "TransformStartTime": 1662495847.496,
       "DataProcessing": {
           "InputFilter": "$",
           "OutputFilter": "$",
           "JoinSource": "None"
       }
   }
   ```

   Une fois les modifications `TransformJobStatus` apportées à `Completed`, vous pouvez vérifier le résultat de l'inférence dans le `S3OutputPath`.

------

# Carnet d'exploration des données Amazon SageMaker Autopilot
<a name="timeseries-forecasting-data-exploration-notebook"></a>

Amazon SageMaker Autopilot nettoie et prétraite automatiquement votre ensemble de données. Pour aider les utilisateurs à comprendre leurs données et à découvrir des modèles, des relations et des anomalies concernant les séries chronologiques, Amazon SageMaker Autopilot génère un rapport statique d'**exploration des données** sous la forme d'un carnet que les utilisateurs peuvent consulter.

Le bloc-notes d’exploration de données est généré pour chaque tâche Autopilot. Ce rapport est stocké dans un compartiment Amazon S3 et est accessible depuis le chemin de sortie de la tâche.

Vous trouverez le préfixe Amazon S3 du bloc-notes d’exploration des données dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[AutoMLJobArtifacts.DataExplorationNotebookLocation](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html#sagemaker-DescribeAutoMLJobV2-response-AutoMLJobArtifacts)`.

# Rapports générés par Amazon SageMaker Autopilot
<a name="timeseries-forecasting-reports"></a>

Outre le bloc-notes d’exploration des données, Autopilot génère divers rapports pour le meilleur modèle candidat de chaque expérience.
+ Un rapport d’explicabilité fournit des informations sur la manière dont le modèle établit des prévisions. 
+ Un rapport de performances fournit une évaluation quantitative des capacités de prévision du modèle.
+ Un rapport sur les résultats du rétro-test est généré après le test des performances du modèle sur des données historiques. 

## Rapport d'explicabilité
<a name="timeseries-forecasting-explainability-report"></a>

Le rapport d’explicabilité d’Autopilot vous aide à mieux comprendre l’impact des attributs de vos jeux de données sur les prévisions pour des séries temporelles (combinaisons d’éléments et de dimensions) et des points temporels spécifiques. Autopilot utilise une métrique appelée *scores d’impact* pour quantifier l’impact relatif de chaque attribut et déterminer s’ils augmentent ou diminuent les valeurs de prévision.

Imaginons, par exemple, un scénario de prévisions dans lequel la cible est `sales` (ventes), associée à deux attributs : `price` (prix) et `color` (couleur). Autopilot peut constater que la couleur de l’élément a un impact important sur les ventes de certains articles, mais un effet négligeable pour d’autres articles. Il peut également constater qu’une promotion en été a un impact important sur les ventes, mais qu’une promotion en hiver a peu d’effet.

Le rapport d’explicabilité est généré uniquement lorsque :
+ Le jeu de données de séries temporelles inclut des colonnes de fonctionnalités supplémentaires ou est associé à un calendrier des jours fériés.
+ Les modèles de base CNN-QR et DeepAR\$1 sont inclus dans l’ensemble final.

### Interprétation des scores d’impact
<a name="timeseries-forecasting-explainability-impact-scores"></a>

Les scores d’impact mesurent l’impact relatif des attributs sur les valeurs des prévisions. Par exemple, si le score d’impact de l’attribut `price` est deux fois supérieur à celui de l’attribut `store location`, vous pouvez en conclure que le prix d’un article a un impact deux fois plus important sur les valeurs des prévisions que l’emplacement du magasin.

Les scores d’impact fournissent également des informations indiquant si les attributs augmentent ou diminuent les valeurs des prévisions.

Les scores d’impact vont de -1 à 1, le signe indiquant la direction de l’impact. Un score de 0 indique une absence d’impact, tandis que des scores proches de 1 ou de -1 indiquent un impact significatif.

Il est important de noter que les scores d’impact mesurent l’impact relatif des attributs, et non l’impact absolu. Par conséquent, les scores d’impact ne peuvent pas être utilisés pour déterminer si des attributs particuliers améliorent la précision du modèle. Si un attribut a un faible score d’impact, cela ne signifie pas nécessairement qu’il a un faible impact sur les valeurs des prévisions ; cela signifie qu’il a un impact plus faible sur les valeurs des prévisions que les autres attributs utilisés par le prédicteur.

### Recherche du rapport d’explicabilité
<a name="timeseries-forecasting-explainability-report-location"></a>

Vous trouverez le préfixe Amazon S3 des artefacts d’explicabilité générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.Explainability](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-Explainability)`.

## Rapport de performances d'un modèle
<a name="timeseries-forecasting-model-performance-report"></a>

Le rapport de qualité du modèle Autopilot (également appelé rapport de performances) fournit des renseignements et des informations de qualité pour le meilleur modèle candidat (meilleur prédicteur) généré par une tâche AutoML. Cela inclut des informations sur les détails de la tâche, la fonction objectif et les métriques de précision (`wQL`, `MAPE`, `WAPE`, `RMSE`, `MASE`).

Vous trouverez le préfixe Amazon S3 des artefacts du rapport de qualité du modèle générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.ModelInsights](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-ModelInsights)`.

## Rapport sur les résultats des rétro-tests
<a name="timeseries-forecasting-model-backtest-report"></a>

Les résultats des rétro-tests fournissent des renseignements sur les performances d’un modèle de prévision de séries temporelles en évaluant sa précision et sa fiabilité prédictives. Ils aident les analystes et les scientifiques des données à évaluer les performances du modèle sur les données historiques et à comprendre ses performances potentielles sur de futures données inédites.

Autopilot utilise les rétro-tests pour ajuster les paramètres et générer des métriques de précision. Lors de rétro-tests, Autopilot divise automatiquement vos données de séries temporelles en deux ensembles, un ensemble d’entraînement et un ensemble de test. L’ensemble d’entraînement est utilisé pour entraîner un modèle qui est ensuite utilisé pour générer des prévisions pour les points de données dans l’ensemble de test. Autopilot utilise ce jeu de données de test pour évaluer la précision du modèle en comparant les valeurs prévues aux valeurs observées dans l’ensemble de test.

Vous trouverez le préfixe Amazon S3 des artefacts du rapport de qualité du modèle générés pour le meilleur candidat dans la réponse à `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`, dans `[BestCandidate.CandidateProperties.CandidateArtifactLocations.BacktestResults](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html#sagemaker-Type-CandidateArtifactLocations-BacktestResults)`.

# Limites des ressources de prévision des séries temporelles pour Autopilot
<a name="timeseries-forecasting-limits"></a>

Le tableau suivant répertorie les limites de ressources pour les tâches de prévision de séries chronologiques dans Amazon SageMaker Autopilot et indique si vous pouvez ou non ajuster chaque limite.


| **Limites des ressources** | **Limite par défaut** | **Ajustable** | 
| --- | --- | --- | 
|  Taille du jeu de données en entrée  |  30 Go  |  Oui  | 
|  Taille d’un fichier Parquet individuel  |  2 Go  |  Non  | 
|  Nombre maximum d’ensembles de lignes dans un jeu de données  |  3 milliards  |  Oui  | 
|  Nombre maximal de colonnes de groupement  |  5  |  Non  | 
|  Nombre maximal de fonctionnalités numériques  |  13  |  Non  | 
|  Nombre maximal de fonctionnalités catégorielles  |  10  |  Non  | 
|  Nombre maximal de séries temporelles (combinaisons uniques de colonnes d’éléments et de groupement) par jeu de données  |  5 000 000  |  Oui  | 
|  Horizon de prévision maximal  |  500  |  Oui  | 

# Création d’une tâche AutoML pour optimiser les modèles de génération de texte à l’aide de l’API
<a name="autopilot-create-experiment-finetune-llms"></a>

Les grands modèles linguistiques (LLMs) excellent dans de nombreuses tâches génératives, notamment la génération de texte, la synthèse, la complétion, la réponse aux questions, etc. Leur performance peut être attribuée à leur taille importante et à leur entraînement approfondi sur divers jeux de données et différentes tâches. Cependant, des domaines spécifiques, tels que les soins de santé et les services financiers, peuvent nécessiter un peaufinage personnalisé pour s’adapter à des données et à des cas d’utilisation uniques. En adaptant leur formation à leur domaine particulier, ils LLMs peuvent améliorer leurs performances et fournir des résultats plus précis pour des applications ciblées.

Autopilot permet d’optimiser une sélection de modèles de texte génératifs pré-entraînés. En particulier, Autopilot prend en charge le **réglage fin basé sur des instructions d'**une sélection de grands modèles de langage à usage général () alimentés par. LLMs JumpStart

**Note**  
Les modèles de génération de texte qui permettent un réglage précis dans Autopilot sont actuellement accessibles exclusivement dans les régions prises en charge par Canvas. SageMaker Consultez la documentation de SageMaker Canvas pour obtenir la [liste complète des régions prises en charge](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html).

Le peaufinage d’un modèle pré-entraîné nécessite un jeu de données spécifique contenant des instructions claires qui indiquent au modèle comment générer des sorties ou se comporter pour cette tâche. Le modèle apprend du jeu de données et ajuste ses paramètres conformément aux instructions fournies. Le peaufinage sur instructions implique l’utilisation d’exemples étiquetés au format de paires invite-réponse et formulés sous forme d’instructions. Pour plus d’informations sur le peaufinage, consultez [Peaufinage d’un modèle de fondation](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-fine-tuning.html).

[Les directives suivantes décrivent le processus de création d'une tâche Amazon SageMaker Autopilot dans le cadre d'une expérience pilote visant à affiner la génération de texte à LLMs l'aide de l' SageMaker API Reference.](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html)

**Note**  
Les tâches telles que la classification d’images et de texte, les prévisions de séries temporelles et le peaufinage des grands modèles de langage sont exclusivement disponibles via la version 2 de l’[API REST AutoML](autopilot-reference.md). Si le langage de votre choix est Python, vous pouvez vous référer [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker/client/create_auto_ml_job_v2.html)directement à [MLV2 l'objet Auto](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du SDK Amazon SageMaker Python.  
Les utilisateurs qui préfèrent la commodité d'une interface utilisateur peuvent utiliser [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) pour accéder à des modèles préentraînés et à des modèles de base d'IA génératifs, ou créer des modèles personnalisés adaptés à des textes spécifiques, à une classification d'images, à des besoins de prévision ou à une IA générative.

Pour créer une expérience de pilote automatique par programmation afin de peaufiner un LLM, vous pouvez appeler l'[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API dans n'importe quel langage pris en charge par Amazon Autopilot ou le. SageMaker AWS CLI

Pour plus d’informations sur la façon dont cette action d’API se traduit par une fonction dans le langage de votre choix, consultez la section [Voir aussi](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) de `CreateAutoMLJobV2`, et choisissez un kit SDK. À titre d'exemple, pour les utilisateurs de Python, consultez la syntaxe complète des demandes de `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` dans le kit AWS SDK pour Python (Boto3).

**Note**  
Autopilot optimise les grands modèles de langage sans nécessiter l’entraînement et l’évaluation de plusieurs candidats. Au lieu de cela, à l’aide de votre jeu de données, Autopilot optimise directement votre modèle cible pour améliorer une métrique objective par défaut : la perte d’entropie croisée. Le peaufinage de modèles de langages dans Autopilot ne nécessite pas de définir le champ `AutoMLJobObjective`.

Une fois votre LLM peaufiné, vous pouvez évaluer ses performances en accédant aux différents scores ROUGE via le `[BestCandidate](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateProperties.html#sagemaker-Type-CandidateProperties-CandidateMetrics)` lors d’un appel d’API `[DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)`. Le modèle fournit également des informations sur sa perte d’entraînement et de validation ainsi que sur sa perplexité. Pour une liste complète des métriques permettant d’évaluer la qualité du texte généré par les modèles peaufinés, consultez [Métriques de peaufinage des grands modèles de langage dans Autopilot](autopilot-llms-finetuning-metrics.md).

## Conditions préalables
<a name="autopilot-llms-finetuning-api-prerequisites"></a>

Avant d'utiliser le pilote automatique pour créer une expérience de réglage précis dans l' SageMaker IA, assurez-vous de suivre les étapes suivantes :
+ (Facultatif) Choisissez le modèle pré-entraîné que vous souhaitez optimiser.

  Pour consulter la liste des modèles préentraînés disponibles pour un réglage précis dans Amazon SageMaker Autopilot, consultez. [Grands modèles de langage pris en charge pour le peaufinage](autopilot-llms-finetuning-models.md) *La sélection d'un modèle n'est pas obligatoire ; si aucun modèle n'est spécifié, le pilote automatique utilise automatiquement par défaut le modèle Falcon7. BInstruct*
+ Créez un jeu de données d’instructions. Consultez [Types de fichiers de jeux de données et format des données d’entrée](autopilot-llms-finetuning-data-format.md) pour en savoir plus sur les exigences de format concernant votre jeu de données basé sur des instructions.
+ Placez votre jeu de données dans un compartiment Amazon S3.
+ Accordez un accès complet au compartiment Amazon S3 contenant vos données d'entrée pour le rôle d'exécution de l' SageMaker IA utilisé pour exécuter votre expérience.
  + Pour plus d'informations sur la récupération de votre rôle d'exécution SageMaker AI, consultez[Obtention de votre rôle d’exécution](sagemaker-roles.md#sagemaker-roles-get-execution-role).
  + Pour plus d'informations sur l'octroi à votre rôle d'exécution SageMaker AI des autorisations pour accéder à un ou plusieurs compartiments spécifiques dans Amazon S3, consultez *Ajouter des autorisations Amazon S3 supplémentaires à un rôle d'exécution SageMaker AI* dans[Créer un rôle d’exécution](sagemaker-roles.md#sagemaker-roles-create-execution-role).
+ En outre, vous devez fournir à votre rôle d'exécution les autorisations nécessaires pour accéder au compartiment de stockage par défaut utilisé par Amazon S3 JumpStart. Cet accès est requis pour stocker et récupérer des artefacts de modèles préentraînés dans. JumpStart Pour octroyer l’accès à ce compartiment Amazon S3, vous devez créer une nouvelle politique personnalisée intégrée à votre rôle d’exécution.

  Voici un exemple de politique que vous pouvez utiliser dans votre éditeur JSON lorsque vous configurez des tâches de peaufinage AutoML dans `us-west-2` :

  *JumpStartles noms de bucket suivent un schéma prédéterminé qui dépend du Régions AWS. Vous devez ajuster le nom du compartiment en conséquence.* 

  ```
  {
      "Sid": "Statement1",
      "Effect": "Allow",
      "Action": [
          "s3:GetObject",
          "s3:PutObject",
          "s3:ListBucket"
      ],
      "Resource": [
          "arn:aws:s3:::jumpstart-cache-prod-us-west-2",
          "arn:aws:s3:::jumpstart-cache-prod-us-west-2/*"
      ]
  }
  ```

Après cela, vous pouvez utiliser l’ARN de ce rôle d’exécution dans les demandes d’API Autopilot.

## Paramètres requis
<a name="autopilot-llms-finetuning-api-required-params"></a>

Lorsque vous appelez `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` pour créer une expérience Autopilot de peaufinage des LLM, vous devez fournir les valeurs suivantes :
+ Un paramètre `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` pour spécifier le nom de votre tâche. Le nom doit être de type `string` et doit avoir une longueur minimale de 1 caractère et une longueur maximale de 32.
+ Au moins un `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` de type `training` dans `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)`. Ce canal indique le nom du compartiment Amazon S3 dans lequel votre jeu de données de peaufinage est situé. Vous avez la possibilité de définir un canal de `validation`. Si aucun canal de validation n’est fourni et qu’une `ValidationFraction` est configurée dans [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html), cette fraction est utilisée pour diviser aléatoirement le jeu de données d’entraînement en jeux de données d’entraînement et de validation. En outre, vous pouvez spécifier le type de contenu (fichiers CSV ou Parquet) pour le jeu de données.
+ Une `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)` de type `[TextGenerationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationJobConfig.html)` pour configurer les paramètres de votre tâche d’entraînement.

  Vous pouvez notamment spécifier le nom du modèle de base à optimiser dans le champ `BaseModelName`. Pour consulter la liste des modèles préentraînés disponibles pour un réglage précis dans Amazon SageMaker Autopilot, consultez. [Grands modèles de langage pris en charge pour le peaufinage](autopilot-llms-finetuning-models.md)
+ Un élément `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)` pour spécifier le chemin de sortie Amazon S3 pour stocker les artefacts de votre tâche AutoML.
+ Un élément `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` pour spécifier l'ARN du rôle utilisé pour accéder à vos données.

Voici un exemple du format complet d’une demande utilisée lors d’un appel d’API vers `CreateAutoMLJobV2` pour le peaufinage d’un modèle (`Falcon7BInstruct`).

```
{
   "AutoMLJobName": "<job_name>",
   "AutoMLJobInputDataConfig": [ 
      { 
         "ChannelType": "training",
         "CompressionType": "None",
         "ContentType": "text/csv", 
         "DataSource": { 
            "S3DataSource": { 
               "S3DataType": "S3Prefix",
               "S3Uri": "s3://<bucket_name>/<input_data>.csv"
            }
         }
      }
   ],
  "OutputDataConfig": {
      "S3OutputPath": "s3://<bucket_name>/output",
      "KmsKeyId": "arn:aws:kms:<region>:<account_id>:key/<key_value>"
   },
   "RoleArn":"arn:aws:iam::<account_id>:role/<sagemaker_execution_role_name>",
   "AutoMLProblemTypeConfig": {
        "TextGenerationJobConfig": {
            "BaseModelName": "Falcon7BInstruct"
       }
   }
}
```

Tous les autres paramètres sont facultatifs.

## Paramètres facultatifs
<a name="autopilot-llms-finetuning-api-optional-params"></a>

Les sections suivantes fournissent des détails sur certains paramètres facultatifs que vous pouvez transmettre à votre tâche de peaufinage AutoML.

### Comment spécifier les jeux de données d’entraînement et de validation d’une tâche AutoML
<a name="autopilot-llms-finetuning-data-training-or-validation"></a>

Vous pouvez fournir votre propre jeu de données de validation et un rapport de répartition des données personnalisé, ou laisser Autopilot répartir automatiquement le jeu de données.

Chaque [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)objet (voir le paramètre obligatoire [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)) possède un`ChannelType`, qui peut être défini sur l'une `training` ou l'autre des `validation` valeurs spécifiant la manière dont les données doivent être utilisées lors de la création d'un modèle d'apprentissage automatique.

Au moins une source de données doit être fournie et deux sources de données maximum sont autorisées : une pour les données d'entraînement et l'autre pour les données de validation. Le fractionnement des données en jeux de données d'entraînement et de validation varie selon que vous disposiez d'une ou de deux sources de données. 
+ Si vous n'avez qu'**une source de données**, `ChannelType` est défini sur `training` par défaut et doit avoir cette valeur.
  + Si la valeur `ValidationFraction` de [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html) n'est pas définie, 0,2 (20 %) des données de cette source sont utilisées pour la validation par défaut. 
  + Si `ValidationFraction` est défini sur une valeur comprise entre 0 et 1, le jeu de données est divisé en fonction de la valeur spécifiée, où la valeur spécifie la fraction du jeu de données utilisé pour la validation.
+ Si vous disposez de **deux sources de données**, le `ChannelType` de l'un des objets `AutoMLJobChannel` doit être défini sur `training` (valeur par défaut). Le `ChannelType` de l'autre source de données doit être défini sur `validation`. Les deux sources de données doivent avoir le même format, CSV ou Parquet, et le même schéma. Vous ne devez pas définir la valeur de `ValidationFraction` dans ce cas, car toutes les données de chaque source sont utilisées à des fins d'entraînement ou de validation. La définition de cette valeur provoque une erreur.

### Comment activer le déploiement automatique
<a name="autopilot-llms-finetuning-auto-model-deployment"></a>

Avec Autopilot, vous pouvez déployer automatiquement votre modèle peaufiné sur un point de terminaison. Pour activer le déploiement automatique de votre modèle peaufiné, incluez le paramètre `[ModelDeployConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-ModelDeployConfig)` dans la demande de tâche AutoML. Cela permet le déploiement de votre modèle affiné sur un point de terminaison d' SageMaker IA. Vous trouverez ci-dessous les configurations disponibles pour la personnalisation.
+ Pour permettre à Autopilot de générer le nom du point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)` sur `True`.
+ Pour fournir votre propre nom pour le point de terminaison, définissez `[AutoGenerateEndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents) to False and provide a name of your choice in [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html#API_ModelDeployConfig_Contents)`.

### Comment définir l’acceptation du CLUF lors du peaufinage d’un modèle à l’aide de l’API AutoML
<a name="autopilot-llms-finetuning-set-eula"></a>

Pour les modèles nécessitant l’acceptation d’un contrat de licence utilisateur final (CLUF) avant le peaufinage, vous pouvez accepter le CLUF en définissant l’attribut `AcceptEula` du paramètre `[ModelAccessConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelAccessConfig.html)` sur `True` dans `[TextGenerationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationJobConfig.html)` lors de la configuration de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

### Comment définir les hyperparamètres pour optimiser le processus d’apprentissage d’un modèle
<a name="autopilot-llms-finetuning-set-hyperparameters"></a>

Vous pouvez optimiser le processus d’apprentissage de votre modèle de génération de texte en définissant des valeurs d’hyperparamètres dans l’attribut `TextGenerationHyperParameters` du paramètre `[TextGenerationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationJobConfig.html)` lors de la configuration de `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`.

Autopilot permet de définir quatre hyperparamètres communs à tous les modèles.
+ `epochCount` : sa valeur doit être une chaîne contenant un nombre entier compris entre `1` et `10`.
+ `batchSize` : sa valeur doit être une chaîne contenant un nombre entier compris entre `1` et `64`.
+ `learningRate` : sa valeur doit être une chaîne contenant une valeur à virgule flottante comprise entre `0` et `1`.
+ `learningRateWarmupSteps` : sa valeur doit être une chaîne contenant un nombre entier compris entre `0` et `250`.

Pour plus de détails sur chaque hyperparamètre, consultez [Hyperparamètres d’optimisation du processus d’apprentissage de vos modèles de génération de texte](autopilot-llms-finetuning-hyperparameters.md).

L'exemple JSON suivant montre un `TextGenerationHyperParameters` champ transmis au TextGenerationJobConfig où les quatre hyperparamètres sont configurés.

```
"AutoMLProblemTypeConfig": {
  "TextGenerationJobConfig": {
    "BaseModelName": "Falcon7B",
    "TextGenerationHyperParameters": {"epochCount":"5", "learningRate":"0.000001", "batchSize": "32", "learningRateWarmupSteps": "10"}
  }
}
```

# Grands modèles de langage pris en charge pour le peaufinage
<a name="autopilot-llms-finetuning-models"></a>

À l'aide de l'API Autopilot, les utilisateurs peuvent affiner les grands modèles de langage (LLMs) développés par Amazon. SageMaker JumpStart

**Note**  
Pour le peaufinage des modèles qui nécessitent l’acceptation d’un contrat de licence d’utilisateur final, vous devez déclarer explicitement l’acceptation du CLUF lors de ma création de votre tâche AutoML. Notez qu’après peaufinage d’un modèle pré-entraîné, les poids du modèle d’origine sont modifiés. Vous n’avez donc pas besoin d’accepter un CLUF ultérieurement lors du déploiement du modèle peaufiné.  
Pour en savoir plus sur la façon d’accepter le CLUF lors de la création d’une tâche de peaufinage à l’aide de l’API AutoML, consultez [Comment définir l’acceptation du CLUF lors du peaufinage d’un modèle à l’aide de l’API AutoML](autopilot-create-experiment-finetune-llms.md#autopilot-llms-finetuning-set-eula).

Vous pouvez trouver tous les détails de chaque modèle en recherchant votre **numéro de JumpStart modèle** dans le [tableau des modèles](https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table) suivant, puis en suivant le lien dans la colonne **Source**. Ces informations peuvent inclure les langages pris en charge par le modèle, les biais qu’il peut présenter, les jeux de données utilisés pour le peaufinage, etc.

Le tableau suivant répertorie les JumpStart modèles pris en charge que vous pouvez affiner à l'aide d'une tâche AutoML.


| JumpStart ID du modèle | `BaseModelName` dans la demande d’API | Description | 
| --- | --- | --- | 
| huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B |  Dolly 3B est un grand modèle de langage à 2,8 milliards de paramètres, basé sur [pythia-2.8b](https://huggingface.co/EleutherAI/pythia-2.8b#pythia-28b) et conçu pour suivre des instructions. Il est formé à l'utilisation du jeu de instruction/response données [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et la synthèse.  | 
| huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B |  Dolly 7B est un grand modèle de langage à 6,9 milliards de paramètres, basé sur [pythia-6.9b](https://huggingface.co/EleutherAI/pythia-6.9b) et conçu pour suivre des instructions. Il est formé à l'utilisation du jeu de instruction/response données [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et la synthèse.  | 
| huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B |  Dolly 12B est un grand modèle de langage à 12 milliards de paramètres, basé sur [pythia-12b](https://huggingface.co/EleutherAI/pythia-12b) et conçu pour suivre des instructions. Il est formé à l'utilisation du jeu de instruction/response données [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) et peut effectuer des tâches telles que le brainstorming, la classification, les questions et réponses, la génération de texte, l'extraction d'informations et la synthèse.  | 
| huggingface-llm-falcon-7b-bf16 | Falcon7B |  Falcon 7B est un grand modèle de langage causal à 7 milliards de paramètres, entraîné sur 1 500 milliards de jetons et enrichi par des corpus sélectionnés. Falcon 7B est formé uniquement à partir de données en anglais et en français, et ne répond pas de manière appropriée aux autres langues. Le modèle ayant été entraîné sur de grandes quantités de données Web, il reprend les stéréotypes et les préjugés courants qu’on peut trouver en ligne.  | 
| huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct |  Falcon7B Instruct est un grand modèle de langage causal à 7 milliards de paramètres construit sur Falcon7B et affiné sur un mélange de 250 millions de jetons d'ensembles de données. chat/instruct Falcon 7B Instruct est formé principalement à partir de données en anglais, et ne répond pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus à grande échelle représentatifs du web, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.  | 
| huggingface-llm-falcon-40b-bf16 | Falcon40B |  Falcon 40B est un grand modèle de langage causal à 40 milliards de paramètres, entraîné sur 1 000 milliards de jetons et enrichi par des corpus sélectionnés. Il est formé principalement en anglais, allemand, espagnol et français, avec des capacités limitées en italien, portugais, polonais, néerlandais, roumain, tchèque et suédois. Il ne répond pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus à grande échelle représentatifs du web, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.  | 
| huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct |  Falcon40B Instruct est un grand modèle de langage causal à 40 milliards de paramètres, construit sur Falcon40B et peaufiné sur un mélange jeux de données Baize. Il est formé principalement à partir de données en anglais et en français, et ne répond pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus à grande échelle représentatifs du web, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.   | 
| huggingface-text2text-flan-t5-large | FlanT5L |  La famille de modèles [https://huggingface.co/docs/transformers/model_doc/t5](https://huggingface.co/docs/transformers/model_doc/t5) est un ensemble de grands modèles de langage peaufinés pour de multiples tâches et dont l’entraînement peut être poussé. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthétisation ou la réponse à des questions. Flan T5 L est un grand modèle de langage à 780 millions de paramètres, entraîné dans de nombreuses langues. Vous trouverez la liste des langues prises en charge par le Flan T5 L dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des [modèles](https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table).  | 
| huggingface-text2text-flan-t5-xl | FlanT5XL |  La famille de modèles [https://huggingface.co/docs/transformers/model_doc/t5](https://huggingface.co/docs/transformers/model_doc/t5) est un ensemble de grands modèles de langage peaufinés pour de multiples tâches et dont l’entraînement peut être poussé. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthétisation ou la réponse à des questions. Flan T5 XL est un grand modèle de langage à 3 milliards de paramètres, entraîné dans de nombreuses langues. Vous trouverez la liste des langues prises en charge par le Flan T5 XL dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des [modèles](https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table).  | 
| huggingface-text2text-flan-t5-xxll | FlanT5XXL |  La famille de modèles [https://huggingface.co/docs/transformers/model_doc/t5](https://huggingface.co/docs/transformers/model_doc/t5) est un ensemble de grands modèles de langage peaufinés pour de multiples tâches et dont l’entraînement peut être poussé. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthétisation ou la réponse à des questions. Le Flan T5 XXL est un modèle à 11 milliards de paramètres. [Vous trouverez la liste des langues prises en charge par le Flan T5 XXL dans les détails du modèle extraits de votre recherche par numéro de modèle dans JumpStart le tableau des modèles.](https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table)  | 
| meta-textgeneration-llama-2-7b | Llama2-7B |  Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-7B est le modèle à 7 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.  | 
| meta-textgeneration-llama-2-7b-f | Llama2-7BChat |  Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-7B est le modèle de chat à 7 milliards de paramètres, optimisé pour les cas d’utilisation de dialogues.  | 
| meta-textgeneration-llama-2-13b | Llama2-13B |  Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-13B est le modèle à 13 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.  | 
| meta-textgeneration-llama-2-13b-f | Llama2-13BChat |  Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-13B est le modèle de chat à 13 milliards de paramètres, optimisé pour les cas d’utilisation de dialogues.  | 
| huggingface-llm-mistral-7b | Mistral7B |  Mistral 7B bénéficie d’un code à 7 milliards de paramètres et est un modèle de génération de texte anglais à usage général. Il peut être utilisé dans divers cas d’utilisation, notamment pour la synthétisation de texte, la classification, la complétion de texte ou la complétion de code.  | 
| huggingface-llm-mistral-7b-instruct | Mistral7BInstruct |  Mistral 7B Instruct est la version peaufinée de Mistral 7B pour les cas d’utilisation conversationnels. Il a été spécialisé à l’aide de divers jeux de données de conversation en anglais accessibles au public.  | 
| huggingface-textgeneration1-mpt-7b-bf16 | MPT7B |  MPT 7B est un grand modèle de langage de type décodeur (transformeur) à 6,7 milliards de paramètres, pré-entraîné à partir de zéro sur 1 billion de jetons de code et de texte en anglais. Il est préparé pour gérer d’importantes longueurs de contexte.  | 
| huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct |  MPT 7B Instruct est un modèle destiné aux tâches d’exécution d’instructions courtes. Il est construit en peaufinant le modèle MPT 7B sur un jeu de données dérivé des jeux de données [databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) et [Anthropic Helpful and Harmless (HH-RLHF)](https://huggingface.co/datasets/Anthropic/hh-rlhf).  | 

# Types de fichiers de jeux de données et format des données d’entrée
<a name="autopilot-llms-finetuning-data-format"></a>

Le réglage précis basé sur les instructions utilise des ensembles de données étiquetés pour améliorer les performances des tâches de traitement du langage naturel ( LLMs NLP) préentraînées. Les exemples étiquetés sont présentés sous forme de paires invite-réponse et formulés comme des instructions.


Pour en savoir plus sur les types de fichiers de jeux de données pris en charge, consultez [Types de fichiers de jeu de données pris en charge](#autopilot-llms-finetuning-dataset-format).

Pour en savoir plus sur le format des données d’entrée, consultez [Format des données d’entrée pour le peaufinage sur instructions](#autopilot-llms-finetuning-input-format).

## Types de fichiers de jeu de données pris en charge
<a name="autopilot-llms-finetuning-dataset-format"></a>

Autopilot prend en charge les jeux de données de peaufinage sur instructions au format de fichiers CSV (par défaut) ou de fichiers Parquet.
+ **CSV** (valeurs séparées par des virgules) est un format de fichier basé sur les lignes qui stocke les données en texte brut lisible par l’utilisateur, un choix populaire pour l’échange de données, car il est pris en charge par un large éventail d’applications.
+ **Parquet** est un format de fichier binaire basé sur des colonnes, dans lequel les données sont stockées et traitées plus efficacement que dans les formats de fichiers basés sur des lignes, comme CSV. Il s’agit d’un meilleure option pour les problèmes de big data.

**Note**  
Le jeu de données peut être composé de plusieurs fichiers, dont chacun doit respecter un modèle spécifique. Pour en savoir plus sur la façon de formater vos données d’entrée, consultez [Format des données d’entrée pour le peaufinage sur instructions](#autopilot-llms-finetuning-input-format).

## Format des données d’entrée pour le peaufinage sur instructions
<a name="autopilot-llms-finetuning-input-format"></a>

Chaque fichier du jeu de données doit respecter le format suivant :
+ Le jeu de données doit contenir exactement deux colonnes nommées et séparées par des virgules, `input` et `output`. Autopilot n’autorise aucune colonne supplémentaire. 
+ La colonne `input` contient les invites, et la colonne `output` correspondante contient la réponse attendue. Les colonnes `input` et `output` sont toutes deux au format chaîne.

L’exemple suivant illustre le format des données d’entrée pour le peaufinage sur instructions dans Autopilot.

```
input,output
"<prompt text>","<expected generated text>"
```

**Note**  
Nous recommandons d’utiliser de jeux de données d’un minimum de 1 000 lignes pour garantir un apprentissage efficace et des performances optimales du modèle.

En outre, Autopilot définit une limite maximale du nombre de lignes dans le jeu de données et de la longueur du contexte en fonction du type de modèle utilisé.
+ Les limites du nombre de lignes d’un jeu de données s’appliquent au nombre cumulé de lignes dans tous les fichiers du jeu de données, même quand il y a plusieurs fichiers. Si deux [types de canaux](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html) sont définis (un pour l’entraînement et un pour la validation), la limite s’applique au nombre total de lignes de l’ensemble des jeux de données des deux canaux. Lorsque le nombre de lignes dépasse le seuil, la tâche échoue avec une erreur de validation.
+ Lorsque la longueur de l’entrée ou de la sortie d’une ligne du jeu de données dépasse la limite définie dans le contexte du modèle de langage, elle est automatiquement tronquée. Si plus de 60 % des lignes du jeu de données sont tronquées, que ce soit en entrée ou en sortie, Autopilot met la tâche en échec avec une erreur de validation.

Le tableau suivant présente ces limites pour chaque modèle.


| JumpStart ID du modèle | `BaseModelName` dans la demande d’API | Limite de ligne | Limite de longueur du contexte | 
| --- | --- | --- | --- | 
| huggingface-textgeneration-dolly-v2-3b-bf16 | Dolly3B | 10 000 lignes | 1 024 jetons | 
| huggingface-textgeneration-dolly-v2-7b-bf16 | Dolly7B | 10 000 lignes | 1 024 jetons | 
| huggingface-textgeneration-dolly-v2-12b-bf16 | Dolly12B | 10 000 lignes | 1 024 jetons | 
| huggingface-llm-falcon-7b-bf16 | Falcon7B | 1 000 lignes | 1 024 jetons | 
| huggingface-llm-falcon-7b-instruct-bf16 | Falcon7BInstruct | 1 000 lignes | 1 024 jetons | 
| huggingface-llm-falcon-40b-bf16 | Falcon40B | 10 000 lignes | 1 024 jetons | 
| huggingface-llm-falcon-40b-instruct-bf16 | Falcon40BInstruct | 10 000 lignes | 1 024 jetons | 
| huggingface-text2text-flan-t5-large | FlanT5L | 10 000 lignes | 1 024 jetons | 
| huggingface-text2text-flan-t5-xl | FlanT5XL | 10 000 lignes | 1 024 jetons | 
| huggingface-text2text-flan-t5-xxll | FlanT5XXL | 10 000 lignes | 1 024 jetons | 
| meta-textgeneration-llama-2-7b | Llama2-7B | 10 000 lignes | 2 048 jetons | 
| meta-textgeneration-llama-2-7b-f | Llama2-7BChat | 10 000 lignes | 2 048 jetons | 
| meta-textgeneration-llama-2-13b | Llama2-13B | 7 000 lignes | 2 048 jetons | 
| meta-textgeneration-llama-2-13b-f | Llama2-13BChat | 7 000 lignes | 2 048 jetons | 
| huggingface-llm-mistral-7b | Mistral7B | 10 000 lignes | 2 048 jetons | 
| huggingface-llm-mistral-7b-instruct | Mistral7BInstruct | 10 000 lignes | 2 048 jetons | 
| huggingface-textgeneration1-mpt-7b-bf16 | MPT7B | 10 000 lignes | 1 024 jetons | 
| huggingface-textgeneration1-mpt-7b-instruct-bf16 | MPT7BInstruct | 10 000 lignes | 1 024 jetons | 

# Hyperparamètres d’optimisation du processus d’apprentissage de vos modèles de génération de texte
<a name="autopilot-llms-finetuning-hyperparameters"></a>

Vous pouvez optimiser le processus d’apprentissage de votre modèle de base en ajustant n’importe quelle combinaison des hyperparamètres suivants. Ces paramètres sont disponibles pour tous les modèles.
+ **Nombre d’époques** : l’hyperparamètre `epochCount` détermine le nombre de fois que le modèle parcourt le jeu de données d’entraînement dans son intégralité. Il influence la durée de l’entraînement et peut empêcher le surajustement lorsqu’il est réglé de façon appropriée. Un grand nombre d’époques peut augmenter le temps d’exécution global des tâches de peaufinage. Nous vous recommandons de définir une grande valeur `MaxAutoMLJobRuntimeInSeconds` pour `CompletionCriteria` dans `[TextGenerationJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationJobConfig.html)` afin d’éviter que les tâches de peaufinage ne s’arrêtent prématurément.
+ **Taille du lot** : l’hyperparamètre `batchSize` définit le nombre d’exemples de données utilisés lors de chaque itération d’entraînement. Il peut affecter la vitesse de convergence et l’utilisation de la mémoire. Lorsque la taille des lots est importante, le risque d’erreurs liées au manque de mémoire (OOM) augmente, ce qui peut se traduire par une erreur interne du serveur dans Autopilot. Pour détecter une telle erreur, consultez le groupe de journaux `/aws/sagemaker/TrainingJobs` des tâches d’entraînement lancées par votre tâche Autopilot. Vous pouvez accéder à ces connexions CloudWatch depuis la console AWS de gestion. Choisissez **Journaux**, puis le **groupe de journaux** `/aws/sagemaker/TrainingJobs`. Pour corriger les erreurs OOM, réduisez la taille du lot.

  Nous vous recommandons de commencer par une taille de lot de 1, puis de l’augmenter progressivement jusqu’à ce qu’une erreur de mémoire insuffisante se produise. À titre de référence, le traitement complet de 10 époques prend généralement jusqu’à 72 heures.
+ **Taux d’apprentissage** : l’hyperparamètre `learningRate` contrôle la taille de l’étape à laquelle les paramètres d’un modèle sont mis à jour pendant l’entraînement. Il détermine la rapidité ou la lenteur avec laquelle les paramètres du modèle sont mis à jour pendant l’entraînement. Un taux d’apprentissage élevé signifie que les paramètres sont mis à jour par étapes importantes, ce qui peut accélérer la convergence, mais aussi entraîner le dépassement de la solution optimale et l’instabilité du processus d’optimisation. Un faible taux d’apprentissage signifie que les paramètres sont mis à jour par petites étapes, ce qui peut conduire à une convergence plus stable, mais au prix d’un apprentissage plus lent.
+ **Étapes d’échauffement du taux d’apprentissage** : l’hyperparamètre `learningRateWarmupSteps` indique le nombre d’étapes d’entraînement au cours desquelles le taux d’apprentissage augmente progressivement avant d’atteindre sa valeur cible ou maximale. Cela permet au modèle de converger plus efficacement et d’éviter les problèmes tels que la divergence ou la lenteur de convergence, qui peuvent survenir avec un taux d’apprentissage initialement élevé.

Pour savoir comment ajuster les hyperparamètres pour votre expérience de peaufinage dans Autopilot et découvrir leurs valeurs possibles, consultez [Comment définir les hyperparamètres pour optimiser le processus d’apprentissage d’un modèle](autopilot-create-experiment-finetune-llms.md#autopilot-llms-finetuning-set-hyperparameters).

# Métriques de peaufinage des grands modèles de langage dans Autopilot
<a name="autopilot-llms-finetuning-metrics"></a>

La section suivante décrit les indicateurs que vous pouvez utiliser pour comprendre vos grands modèles linguistiques affinés (LLMs). À l’aide de votre jeu de données, Autopilot optimise directement un modèle LLM cible pour améliorer une métrique objective par défaut : la perte d’entropie croisée.

La perte d’entropie croisée est une métrique largement utilisée pour évaluer la dissemblance entre la distribution de probabilité prévue et la distribution réelle des mots dans les données d’entraînement. En minimisant la perte d’entropie croisée, le modèle apprend à faire des prédictions plus précises et pertinentes contextuellement, en particulier dans les tâches liées à la génération de texte.

Après avoir peaufiné un LLM, vous pouvez évaluer la qualité du texte généré à l’aide d’une gamme de scores ROUGE. De plus, vous pouvez analyser la perplexité et les pertes d’entropie croisée de l’entraînement et de la validation dans le cadre du processus d’évaluation.
+ La perte de perplexité mesure la capacité du modèle à prédire le mot suivant dans une séquence de texte, les valeurs les plus faibles indiquant une meilleure compréhension du langage et du contexte. 
+ Recall-Oriented Understudy for Gisting Evaluation (ROUGE) est un ensemble de métriques utilisé dans le domaine du traitement du langage naturel (NLP) et du machine learning pour évaluer la qualité du texte généré par la machine, tel que la génération ou la synthétisation de texte. Il évalue principalement les similitudes entre le texte généré et le texte de référence (écrit par des humains) d’un jeu de données de validation. Les mesures ROUGE sont conçues pour évaluer divers aspects de la similitude des textes, notamment la précision et le rappel des n-grammes (séquences contiguës de mots) dans les textes générés par le système et les textes de référence. L’objectif est d’évaluer dans quelle mesure un modèle capture les informations présentes dans le texte de référence.

  Il existe plusieurs variantes de métriques ROUGE, en fonction du type de n-grammes utilisé et des aspects spécifiques de la qualité du texte évalué.

  La liste suivante contient le nom et la description des métriques ROUGE disponibles après le peaufinage de grands modèles de langage dans Autopilot.  
**`ROUGE-1`, `ROUGE-2`**  
ROUGE-N, la métrique ROUGE principale, mesure le chevauchement des n-grammes entre les textes générés par le système et les textes de référence. ROUGE-N peut être ajustée à différentes valeurs de `n` (ici `1` ou `2`) pour évaluer dans quelle mesure le texte généré par le système capture les n-grammes du texte de référence.  
**`ROUGE-L`**  
ROUGE-L (Sous-séquence commune ROUGE-Longest) calcule la plus longue sous-séquence commune entre le texte généré par le système et le texte de référence. Cette variante prend en compte l’ordre des mots en plus du chevauchement du contenu.  
**`ROUGE-L-Sum`**  
ROUGE-L-SUM (Sous-séquence commune la plus longue pour la synthétisation) est conçue pour l’évaluation des systèmes de synthétisation de texte. Elle se concentre sur la mesure de la sous-séquence commune la plus longue entre le résumé généré par la machine et le résumé de référence. ROUGE-L-SUM prend en compte l’ordre des mots dans le texte, ce qui est important dans les tâches de synthétisation de texte.

# Déploiement et prédictions des modèles Autopilot
<a name="autopilot-llms-finetuning-deploy-models"></a>

Après avoir peaufiné un grand modèle de langage (LLM), vous pouvez le déployer pour générer du texte en temps réel en configurant un point de terminaison afin d’obtenir des prédictions interactives.

**Note**  
Pour de meilleures performances, nous vous recommandons d’exécuter des tâches d’inférence en temps réel sur `ml.g5.12xlarge`. Sinon, les instances `ml.g5.8xlarge` conviennent également pour les tâches de génération de texte Falcon-7B-Instruct et MPT-7B-Instruct.  
Découvrez les spécificités de ces instances dans la catégorie [Calcul accéléré](https://aws.amazon.com/ec2/instance-types/) de la sélection de types d’instances proposée par Amazon EC2.

## Génération de texte en temps réel
<a name="autopilot-llms-finetuning-realtime"></a>

Vous pouvez l'utiliser SageMaker APIs pour déployer manuellement votre modèle affiné sur un point de [terminaison d'inférence en temps réel](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html) d' SageMaker AI Hosting, puis commencer à faire des prédictions en invoquant le point de terminaison comme suit.

**Note**  
Vous pouvez également choisir l’option de déploiement automatique lors de la création de votre expérience de peaufinage dans Autopilot. Pour en savoir plus sur la configuration du déploiement automatique des modèles, consultez [Comment activer le déploiement automatique](autopilot-create-experiment-finetune-llms.md#autopilot-llms-finetuning-auto-model-deployment).   
Vous pouvez également utiliser le SDK SageMaker Python et la `JumpStartModel` classe pour effectuer des inférences avec des modèles affinés par Autopilot. Cela peut être fait en spécifiant un emplacement personnalisé pour l’artefact du modèle dans Amazon S3. Pour plus d'informations sur la définition de votre modèle en tant que JumpStart modèle et sur le déploiement de votre modèle à des fins d'inférence, consultez la section [Déploiement à faible code avec la JumpStartModel classe](https://sagemaker.readthedocs.io/en/stable/overview.html#deploy-a-pre-trained-model-directly-to-a-sagemaker-endpoint).

1. **Obtention des définitions de conteneurs d’inférence candidats**

   Vous pouvez le trouver `InferenceContainerDefinitions` dans l'`BestCandidate`objet extrait de la réponse à l'appel d'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html#API_DescribeAutoMLJobV2_ResponseSyntax). Une définition de conteneur pour l’inférence fait référence à l’environnement conteneurisé conçu pour déployer et exécuter votre modèle entraîné afin d’effectuer des prédictions.

   L'exemple de AWS CLI commande suivant utilise l'API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) pour obtenir les définitions de conteneur recommandées pour le nom de votre tâche.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. **Création d'un modèle d' SageMaker IA**

   Utilisez les définitions de conteneur de l'étape précédente pour créer un modèle d' SageMaker IA à l'aide de l'[CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Consultez la AWS CLI commande suivante à titre d'exemple. Utilisez `CandidateName` pour le nom de votre modèle.

   ```
   aws sagemaker create-model --model-name '<your-candidate-name>' \
                       --primary-container '<container-definition' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Créer une configuration de point de terminaison**

   L'exemple de AWS CLI commande suivant utilise l'[CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API pour créer une configuration de point de terminaison.
**Note**  
Pour éviter que la création du point de terminaison n’expire en raison d’un long téléchargement du modèle, nous vous recommandons de définir `ModelDataDownloadTimeoutInSeconds = 3600` et `ContainerStartupHealthCheckTimeoutInSeconds = 3600`.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' ModelDataDownloadTimeoutInSeconds=3600 ContainerStartupHealthCheckTimeoutInSeconds=3600 \
                       --region '<region>'
   ```

1. **Créer le point de terminaison** 

   L' AWS CLI exemple suivant utilise l'[CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API pour créer le point de terminaison.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Vérifiez la progression du déploiement de votre terminal à l'aide de l'[DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html)API. Consultez la AWS CLI commande suivante à titre d'exemple.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Lorsque `EndpointStatus` devient `InService`, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

1. **Appeler le point de terminaison** 

   La commande suivante invoque le point de terminaison pour une inférence en temps réel. Votre invite doit être codée en octets.
**Note**  
Le format de votre invite d’entrée dépend du modèle de langage. Pour plus d’informations sur le format des invites de génération de texte, consultez [Format de demande pour l’inférence en temps réel des modèles de génération de texte](#autopilot-llms-finetuning-realtime-prompt-examples). 

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-promt-in-bytes>' [--content-type] 'application/json' <outfile>
   ```

## Format de demande pour l’inférence en temps réel des modèles de génération de texte
<a name="autopilot-llms-finetuning-realtime-prompt-examples"></a>

Différents grands modèles de langage (LLMs) peuvent avoir des dépendances logicielles, des environnements d'exécution et des exigences matérielles spécifiques qui influencent le conteneur recommandé par Autopilot pour héberger le modèle à des fins d'inférence. De plus, chaque modèle dicte le format de données d’entrée requis et le format attendu pour les prédictions et les sorties.

Voici des exemples d’entrées pour certains modèles et conteneurs recommandés.
+ Pour les modèles Falcon avec le conteneur recommandé `huggingface-pytorch-tgi-inference:2.0.1-tgi1.0.3-gpu-py39-cu118-ubuntu20.04` :

  ```
  payload = {
      "inputs": "Large language model fine-tuning is defined as",
      "parameters": {
          "do_sample": false,
          "top_p": 0.9,
          "temperature": 0.1,
          "max_new_tokens": 128,
          "stop": ["<|endoftext|>", "</s>"]
      }
  }
  ```
+ Pour les autres modèles avec le conteneur recommandé `djl-inference:0.22.1-fastertransformer5.3.0-cu118` :

  ```
  payload= {
      "text_inputs": "Large language model fine-tuning is defined as"
  }
  ```

# Création d’une expérience de régression ou de classification Autopilot pour des données tabulaires à l’aide de l’interface utilisateur Studio Classic
<a name="autopilot-automate-model-development-create-experiment-ui"></a>

**Important**  
Depuis le 30 novembre 2023, l'interface utilisateur d'Autopilot migre vers [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html) dans le cadre de la mise à jour de l'expérience [Amazon SageMaker ](studio-updated.md) Studio. SageMaker Canvas fournit aux analystes et aux scientifiques des données citoyens des fonctionnalités sans code pour des tâches telles que la préparation des données, l'ingénierie des fonctionnalités, la sélection d'algorithmes, la formation et le réglage, l'inférence, etc. Les utilisateurs peuvent tirer parti des visualisations intégrées et des analyses hypothétiques pour explorer leurs données et différents scénarios, grâce à des prédictions automatisées qui leur permettent de produire facilement leurs modèles. Canvas prend en charge divers cas d’utilisation, notamment la vision par ordinateur, la prévision de la demande, la recherche intelligente et l’IA générative.  
 Les utilisateurs d'[Amazon SageMaker Studio Classic, version](studio.md) précédente de [Studio](studio-updated.md), peuvent continuer à utiliser l'interface utilisateur du pilote automatique dans Studio Classic. Les utilisateurs expérimentés en codage peuvent continuer à utiliser toutes les [Références des API](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-reference.html) de tous les kits SDK pris en charge pour la mise en œuvre technique.  
Si vous avez utilisé le pilote automatique dans Studio Classic jusqu'à présent et que vous souhaitez migrer vers SageMaker Canvas, vous devrez peut-être accorder des autorisations supplémentaires à votre profil utilisateur ou à votre rôle IAM afin de pouvoir créer et utiliser l' SageMaker application Canvas. Pour de plus amples informations, veuillez consulter [(Facultatif) Migrer du pilote automatique dans Studio Classic vers Canvas SageMaker](studio-updated-migrate-ui.md#studio-updated-migrate-autopilot).  
[Toutes les instructions relatives à l'interface utilisateur contenues dans ce guide concernent les fonctionnalités autonomes d'Autopilot avant la migration vers Amazon Canvas. SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html) Les utilisateurs qui suivent ces instructions doivent utiliser [Studio Classic](studio.md).

Vous pouvez utiliser l'interface utilisateur Amazon SageMaker Studio Classic pour créer des expériences de pilote automatique pour des problèmes de classification ou de régression sur des données tabulaires. L’interface utilisateur vous permet de nommer votre expérience, de fournir des emplacements pour les données d’entrée et de sortie, et de spécifier les données cibles à prédire. Facultatif : Vous pouvez également spécifier le type de problème que vous souhaitez résoudre (régression, classification, classification multi-classes), choisir votre stratégie de modélisation (*ensembles empilés* ou *optimisation des hyperparamètres*), sélectionner la liste des algorithmes utilisés par la tâche Autopilot pour entraîner les données, etc. 

L'interface utilisateur contient des descriptions, des boutons à bascule, des menus déroulants, des cases d'options et bien plus encore pour vous aider à créer vos modèles candidats. Après l’exécution de l’expérience, vous pouvez comparer les essais et examiner en détail les étapes de prétraitement, les algorithmes et les plages d’hyperparamètres de chaque modèle. Facultatif : Vous pouvez aussi télécharger leurs rapports d’[explicabilité](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-explainability.html) et de [performance](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-insights.html). Utilisez les [blocs-notes](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-notebook-output.html ) fournis pour voir les résultats de l’exploration automatique des données ou les définitions de modèles candidats.

 Facultatif : Vous avez également la possibilité d’utiliser l’API AutoML Autopilot dans [Création de tâches de régression ou de classification pour les données tabulaires à l’aide de l’API AutoML](autopilot-automate-model-development-create-experiment.md).

# Configuration des paramètres par défaut d'une expérience Autopilot (pour les administrateurs)
<a name="autopilot-set-default-parameters-create-experiment"></a>

Le pilote automatique prend en charge la définition de valeurs par défaut afin de simplifier la configuration d'Amazon SageMaker Autopilot lorsque vous créez une expérience de pilote automatique à l'aide de l'interface utilisateur de Studio Classic. Les administrateurs peuvent utiliser les [configurations de cycle de vie](studio-lcc.md) (LCC) Studio Classic pour définir les valeurs d’infrastructure, de réseau et de sécurité dans les fichiers de configuration, et préremplir les [paramètres avancés](autopilot-automate-model-development-create-experiment-ui.md#advanced-settings) des tâches `AutoML`.

Ce faisant, ils peuvent contrôler entièrement la connectivité réseau et les autorisations d'accès aux ressources associées à Amazon SageMaker Studio Classic, notamment les instances d' SageMaker IA, les sources de données, les données de sortie et les autres services connexes. Plus précisément, les administrateurs peuvent configurer une architecture réseau souhaitée, telle qu’Amazon VPC, les sous-réseaux et les groupes de sécurité, pour un domaine Studio Classic ou des profils utilisateur individuels. Les scientifiques des données peuvent se concentrer sur des paramètres spécifiques à la science des données lorsqu’ils créent leurs expériences Autopilot à l’aide de l’interface utilisateur Studio Classic. En outre, les administrateurs peuvent gérer le chiffrement des données sur l'instance dans laquelle les expériences Autopilot sont exécutées en définissant des clés de chiffrement par défaut.

**Note**  
Cette fonctionnalité n'est actuellement pas disponible dans les régions d'adhésion Asie-Pacifique (Hong Kong) et Moyen-Orient (Bahreïn).

Dans les sections suivantes, vous trouverez la liste complète des paramètres permettant de définir des valeurs par défaut lors de la création d’une expérience Autopilot à l’aide de l’interface utilisateur Studio Classic, et vous découvrirez comment définir ces valeurs par défaut.

**Topics**
+ [

## Liste des paramètres par défaut pris en charge
](#autopilot-list-default-parameters-create-experiment)
+ [

## Définition des paramètres d'expérience Autopilot par défaut
](#autopilot-set-default-parameters-create-experiment-howto)

## Liste des paramètres par défaut pris en charge
<a name="autopilot-list-default-parameters-create-experiment"></a>

Les paramètres suivants permettent de définir des valeurs par défaut avec un fichier de configuration pour créer une expérience Autopilot à l’aide de l’interface utilisateur Studio Classic. Une fois définies, ces valeurs remplissent automatiquement leurs champs correspondants dans l’onglet **Créer une expérience** d’Autopilot dans l’interface utilisateur Studio Classic. Consultez [Paramètres avancés (facultatif)](autopilot-automate-model-development-create-experiment-ui.md#advanced-settings) pour une description complète de chaque champ.
+ **Sécurité :** Amazon VPC, sous-réseaux et groupes de sécurité.
+ **Accès :** rôle AWS ARNs IAM.
+ **Chiffrement :** AWS KMS clé IDs.
+ **Tags :** paires clé-valeur utilisées pour étiqueter et organiser les ressources d' SageMaker IA.

## Définition des paramètres d'expérience Autopilot par défaut
<a name="autopilot-set-default-parameters-create-experiment-howto"></a>

Les administrateurs peuvent définir des valeurs par défaut dans un fichier de configuration, puis placer manuellement ce fichier dans un emplacement recommandé de l’environnement Studio Classic d’utilisateurs spécifiques, ou ils peuvent transmettre le fichier à un script de configuration du cycle de vie (LCC) afin d’automatiser la personnalisation de l’environnement Studio Classic pour un domaine ou un profil utilisateur donné.
+ Pour configurer le fichier de configuration, commencez par renseigner ses paramètres par défaut.

  Pour configurer l'une ou l'ensemble des valeurs par défaut répertoriées dans [Liste des paramètres par défaut pris en charge](#autopilot-list-default-parameters-create-experiment), les administrateurs peuvent créer un fichier de configuration nommé `config.yaml`, dont la structure doit être conforme à cet [exemple de fichier de configuration](https://sagemaker.readthedocs.io/en/stable/overview.html#configuration-file-structure). L'extrait suivant montre un exemple de fichier de configuration avec tous les paramètres `AutoML` pris en charge. Pour plus d'informations sur le format de ce fichier, reportez-vous au [schéma complet](https://github.com/aws/sagemaker-python-sdk/blob/master/src/sagemaker/config/config_schema.py).

  ```
  SchemaVersion: '1.0'
  SageMaker:
    AutoMLJob:
      # https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html
      AutoMLJobConfig:
        SecurityConfig:
          EnableInterContainerTrafficEncryption: true
          VolumeKmsKeyId: 'kms-key-id'
          VpcConfig:
            SecurityGroupIds:
              - 'security-group-id-1'
              - 'security-group-id-2'
            Subnets:
              - 'subnet-1'
              - 'subnet-2'
      OutputDataConfig:
        KmsKeyId: 'kms-key-id'
      RoleArn: 'arn:aws:iam::111222333444:role/Admin'
      Tags:
      - Key: 'tag_key'
        Value: 'tag_value'
  ```
+ Placez ensuite le fichier de configuration à l'emplacement recommandé en [le copiant manuellement](#autopilot-intelligent-defaults-manual-setup) dans les chemins recommandés ou en utilisant une [configuration de cycle de vie](#autopilot-intelligent-defaults-lcc-setup) (LCC).

  Le fichier de configuration doit être présent dans au moins l’un des emplacements suivants dans l’environnement Studio Classic de l’utilisateur. Par défaut, SageMaker AI recherche un fichier de configuration à deux emplacements :
  + Tout d'abord, dans `/etc/xdg/sagemaker/config.yaml`. Nous appelons ce fichier le *fichier de configuration de l'administrateur*.
  + Ensuite, dans `/root/.config/sagemaker/config.yaml`. Nous appelons ce fichier le *fichier de configuration de l'utilisateur*.

  À l'aide du fichier de configuration de l'*administrateur*, les administrateurs peuvent définir un ensemble de valeurs par défaut. En option, ils peuvent utiliser le fichier de configuration de l'*utilisateur* pour remplacer les valeurs définies dans le fichier de configuration de l'*administrateur* ou définir des valeurs de paramètres par défaut supplémentaires.

  L’extrait suivant montre un exemple de script qui écrit le fichier de configuration des paramètres par défaut dans l’emplacement de l’*administrateur* dans l’environnement Studio Classic de l’utilisateur. Vous pouvez remplacer `/etc/xdg/sagemaker` par `/root/.config/sagemaker` pour écrire le fichier à l'emplacement de l'*utilisateur*.

  ```
  ## Sample script with AutoML intelligent defaults
  #!/bin/bash
  
  sudo mkdir -p /etc/xdg/sagemaker
  
  echo "SchemaVersion: '1.0'
  CustomParameters:
    AnyStringKey: 'AnyStringValue'
  SageMaker:
    AutoMLJob:
      # https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html
      AutoMLJobConfig:
        SecurityConfig:
          EnableInterContainerTrafficEncryption: true
          VolumeKmsKeyId: 'kms-key-id'
          VpcConfig:
            SecurityGroupIds:
              - 'security-group-id-1'
              - 'security-group-id-2'
            Subnets:
              - 'subnet-1'
              - 'subnet-2'
      OutputDataConfig:
        KmsKeyId: 'kms-key-id'
      RoleArn: 'arn:aws:iam::111222333444:role/Admin'
      Tags:
      - Key: 'tag_key'
        Value: 'tag_value'
  " | sudo tee /etc/xdg/sagemaker/config.yaml
  ```
  + **Copier les fichiers manuellement** : pour copier les fichiers de configuration manuellement, exécutez le [script](#autopilot-intelligent-defaults-manual-setup) créé à l’étape précédente à partir d’un terminal Studio Classic. Dans ce cas, le profil utilisateur qui a exécuté le script peut créer des expériences Autopilot avec les valeurs par défaut applicables uniquement à ces expériences.
  + **Créez une configuration du cycle de vie de l' SageMaker IA** : vous pouvez également utiliser une [configuration du cycle](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc.html) de vie (LCC) pour automatiser la personnalisation de votre environnement Studio Classic. Les LCC sont des scripts shell déclenchés par des événements du cycle de vie d'Amazon SageMaker Studio Classic, tels que le démarrage d'une application Studio Classic. Cette personnalisation inclut l'installation de packages personnalisés, la configuration d'extensions de bloc-notes, le préchargement de jeux de données, la configuration de référentiels de code source ou, dans notre cas, le préremplissage de paramètres par défaut. Les administrateurs peuvent attacher la LCC à un domaine Studio Classic afin d’automatiser la configuration des valeurs par défaut pour chaque profil utilisateur au sein de ce domaine.

    Les sections suivantes expliquent en détail comment créer une configuration de cycle de vie afin que les utilisateurs puissent charger automatiquement les paramètres par défaut Autopilot au lancement de Studio Classic. Vous pouvez choisir de créer un LCC à l'aide de la console SageMaker AI ou du AWS CLI.

------
#### [ Create a LCC from the SageMaker AI Console ]

    Suivez les étapes ci-dessous pour créer une LCC contenant vos paramètres par défaut, associer la LCC à un domaine ou à un profil utilisateur, puis lancer une application Studio Classic préremplie avec les paramètres par défaut définis par la LCC à l'aide de l'AI Console. SageMaker 
    + **Pour créer une configuration du cycle de vie qui exécute le [script](#autopilot-intelligent-defaults-script) contenant vos valeurs par défaut à l'aide de l' SageMaker AI Console**
      + Ouvrez la console SageMaker AI à l'adresse[https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).
      + Sur le côté gauche, accédez à **Configurations d’administrateur**, puis à **Configurations de cycle de vie**.
      + Sur la page **Configurations de cycle de vie**, accédez à l’onglet Studio Classic, puis choisissez **Créer une configuration**.
      + Dans **Nom**, saisissez un nom en utilisant des caractères alphanumériques et « - », mais pas d’espaces. Le nom peut comporter un maximum de 63 caractères.
      + Collez votre [script](#autopilot-intelligent-defaults-script) dans la section **Scripts**.
      + Choisissez **Configuration de cycle de vie** pour créer la configuration. Cela crée une LCC de type `Kernel gateway app`.
    +  **Pour attacher la configuration de cycle de vie à un domaine Studio Classic, à un espace ou à un profil utilisateur**

      Suivez les étapes décrites dans [Attacher la configuration de cycle de vie à un domaine ou à un profil utilisateur](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc-create-console.html#studio-lcc-create-console-step2) pour attacher la LCC à un domaine Studio Classic ou à un profil utilisateur spécifique.
    +  **Pour lancer l’application Studio Classic avec la configuration de cycle de vie**

      Une fois la LCC attachée à un domaine ou à un profil utilisateur, les utilisateurs concernés peuvent démarrer une application Studio Classic depuis la page de destination Studio Classic dans Studio afin de récupérer les valeurs par défaut définies automatiquement par la LCC. Cela remplit automatiquement l’interface utilisateur Studio Classic lors de la création d’une expérience Autopilot.

------
#### [ Create a LCC from the AWS CLI ]

    Utilisez les extraits suivants pour lancer une application Studio Classic qui exécute votre [script](#autopilot-intelligent-defaults-manual-setup) à l’aide de l’ AWS CLI. Notez que `lifecycle_config.sh` est le nom donné à votre script dans cet exemple.

    Avant de commencer :
    + Assurez-vous d'avoir effectué la mise à jour et la configuration AWS CLI en remplissant les conditions préalables décrites dans [Créer une configuration de cycle de vie à partir du AWS CLI](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc-create-cli.html).
    + Installez la documentation [OpenSSL](https://www.openssl.org/source/). La AWS CLI commande utilise la bibliothèque open source *OpenSSL* pour encoder votre script au format Base64. Cette exigence évite les erreurs dues à l’encodage des espacements et des sauts de ligne.

    Vous pouvez désormais suivre les trois étapes suivantes :
    +  **Création d’une nouvelle configuration de cycle de vie faisant référence au script de configuration `lifecycle_config.sh`**

      ```
      LCC_CONTENT=`openssl base64 -A -in lifecycle_config.sh`
      
      ## Create a new lifecycle config 
      aws sagemaker create-studio-lifecycle-config --region region \
      --studio-lifecycle-config-name lcc-name \
      --studio-lifecycle-config-content $LCC_CONTENT \
      --studio-lifecycle-config-app-type default
      ```

      Notez l'ARN de la configuration de cycle de vie nouvellement créée qui est renvoyée. Cet ARN est requis pour attacher la configuration du cycle de vie à votre application.
    +  **Attachez la configuration de cycle de vie à `JupyterServerApp`.**

      L'exemple suivant montre comment créer un nouveau profil utilisateur auquel une configuration de cycle de vie est attachée. Pour mettre à jour un profil utilisateur existant, utilisez la AWS CLI [update-user-profile](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker/update-user-profile.html)commande. Pour créer ou mettre à jour un domaine, consultez [create-domain](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker/create-domain.html) et [update-domain](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker/update-domain.html). Ajoutez l'ARN de la configuration de cycle de vie de l'étape précédente aux paramètres du type d'application `JupyterServerAppSettings`. Vous pouvez ajouter plusieurs configurations de cycle de vie à la fois en utilisant une liste de configurations de cycle de vie.

      ```
      # Create a new UserProfile
      aws sagemaker create-user-profile --domain-id domain-id \
      --user-profile-name user-profile-name \
      --region region \
      --user-settings '{
      "JupyterServerAppSettings": {
        "LifecycleConfigArns":
          ["lifecycle-configuration-arn"]
        }
      }'
      ```

      Une fois que le LCC est associé à un domaine ou à un profil utilisateur, les utilisateurs concernés peuvent fermer et mettre à jour leur application Studio Classic existante en suivant les étapes décrites dans [Arrêter et mettre à jour Amazon SageMaker Studio Classic](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-tasks-update-studio.html), ou démarrer une nouvelle application Studio Classic depuis la AWS console pour récupérer automatiquement les valeurs par défaut définies par le LCC. Cela remplit automatiquement l’interface utilisateur Studio Classic lors de la création d’une expérience Autopilot. Ils peuvent également lancer une nouvelle application Studio Classic en procédant AWS CLI comme suit.
    +  **Lancez votre application Studio Classic avec la configuration du cycle de vie à l'aide du AWS CLI**

      ```
      # Create a Jupyter Server application
      aws sagemaker create-app --domain-id domain-id \
      --user-profile-name user-profile-name \
      --region region \
      --app-type JupyterServer \
      --resource-spec LifecycleConfigArn=lifecycle-configuration-arn \
      --app-name default
      ```

      Pour plus d'informations sur la création d'une configuration de cycle de vie à l'aide d' AWS CLI, consultez [Création d'une configuration de cycle de vie à partir d' AWS CLI](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc-create-cli.html).

------

**Pour créer une expérience Autopilot à l’aide de l’interface utilisateur Studio Classic**

1. Connectez-vous à [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/), choisissez **Studio** dans le volet de navigation de gauche, sélectionnez votre domaine et votre profil utilisateur, puis **Ouvrez Studio**.

1. Dans Studio, cliquez sur l’icône Studio Classic dans le panneau de navigation situé en haut à gauche. Cela ouvre une application Studio Classic.

1. Exécutez ou ouvrez une application Studio Classic depuis l’espace de votre choix, ou **créez un espace Studio Classic**. Dans l'onglet **Accueil**, choisissez la carte **AutoML**. Ceci ouvre un nouvel onglet **AutoML**.

1. Choisissez **Créer une expérience AutoML**. Cela ouvre un nouvel onglet **Créer une expérience**.

1. Dans la section **Détails de l'expérience et des données**, entrez les informations suivantes :

   1. **Nom de l'expérience** — Il doit être unique à votre compte actuel Région AWS et contenir un maximum de 63 caractères alphanumériques. Peut inclure des traits d'union (-), mais pas d'espaces.

   1. **Données d'entrée** : indiquez l'emplacement du compartiment Amazon Simple Storage Service (Amazon S3) où se trouvent vos données d'entrée. Ce compartiment S3 doit se trouver dans votre Région AWS actuelle. L'URL doit être dans un `s3://` format dans lequel Amazon SageMaker AI dispose d'autorisations d'écriture. Le fichier doit être au format CSV ou Parquet, et contenir au moins 500 lignes. Sélectionnez **Parcourir** pour parcourir les chemins disponibles et **Aperçu** pour voir un échantillon de vos données d'entrée.

   1. **Is your S3 input a manifest file?** (Votre entrée S3 est-elle un fichier manifeste ?) : un fichier manifeste inclut des métadonnées avec vos données d'entrée. Les métadonnées spécifient l'emplacement de vos données dans Amazon S3. Elles indiquent également comment les données sont formatées et les attributs du jeu de données à utiliser pour entraîner votre modèle. Vous pouvez utiliser un fichier manifeste comme alternative au prétraitement lorsque vos données étiquetées sont en cours de diffusion en mode `Pipe`.

   1. **Auto split data?** (Fractionner automatiquement les données ?) : Autopilot peut fractionner vos données et affecter une répartition 80-20 % pour les données d'entraînement et de validation. Si vous préférez un fractionnement personnalisé, vous pouvez choisir **Specify split ratio** (Spécifier le rapport de fractionnement). Pour utiliser un jeu de données personnalisé pour la validation, choisissez **Provide a validation set** (Fournir un ensemble de validation).

   1. **Output data location (S3 bucket)** (Emplacement des données de sortie (compartiment S3)) : nom de l'emplacement du compartiment S3 où vous souhaitez stocker les données de sortie. L'URL de ce compartiment doit être au format Amazon S3 dans lequel Amazon SageMaker AI dispose d'autorisations d'écriture. Le compartiment S3 doit se trouver dans la Région AWS actuelle. Autopilot peut également le créer pour vous au même endroit que vos données d'entrée. 

1. Choisissez **Suivant : Cible et fonctionnalités**. L'onglet **Target and features** (Cible et fonctionnalités) s'ouvre.

1. Dans la section **Cible et fonctionnalités** :
   + Sélectionnez une colonne à définir comme cible pour les prédictions de modèle.
   + Vous pouvez éventuellement transmettre le nom d'une colonne de poids d'échantillons dans la section **Poids d'échantillon** pour demander que les lignes de votre jeu de données soient pondérées pendant l'entraînement et l'évaluation. Pour plus d'informations sur les métriques d'objectif disponibles, consultez [Métriques pondérées Autopilot](autopilot-metrics-validation.md#autopilot-weighted-metrics).
**Note**  
La prise en charge des poids d'échantillons est disponible en [mode ensembliste](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html#autopilot-training-mode) uniquement.
   + Vous pouvez également sélectionner des fonctionnalités pour l'entraînement et modifier leur type de données. Les types de données suivants sont disponibles : `Text`, `Numerical`, `Categorical`, `Datetime`, `Sequence` et `Auto`. Toutes les fonctionnalités sont sélectionnées par défaut.

1. Choisissez **Next: Training method** (Suivant : méthode d'entraînement). L'onglet **Training method** (Méthode d'entraînement) s'ouvre.

1. Dans la section **Méthode d'entraînement**, sélectionnez votre option d'entraînement : **Ensembliste**, **Optimisation des hyperparamètres (HPO)** ou **Auto** pour laisser Autopilot choisir la méthode d'entraînement automatiquement en fonction de la taille du jeu de données. Chaque mode d'entraînement exécute un ensemble prédéfini d'algorithmes sur votre jeu de données pour entraîner les modèles candidats. Par défaut, Autopilot présélectionne tous les algorithmes disponibles pour le mode d'entraînement donné. Vous pouvez exécuter une expérience d'entraînement Autopilot avec tous les algorithmes ou choisir votre propre sous-ensemble.

   Pour plus d'informations sur les modes d'entraînement et les algorithmes disponibles, consultez la section **Modes d'entraînement Autopilot** dans la page [Modes d'entraînement et algorithmes](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html).

1. Choisissez **Suivant : Déploiement et paramètres avancés** pour ouvrir l'onglet **Déploiement et paramètres avancés**. Ces paramètres incluent l'affichage automatique du nom du point de terminaison, le type de problème de machine learning et des choix supplémentaires d'exécution de votre expérience.

   1. **Deployment settings** (Paramètres de déploiement) : Autopilot peut créer automatiquement un point de terminaison et déployer votre modèle pour vous.

      Pour déployer automatiquement sur un point de terminaison généré automatiquement ou pour fournir un nom de point de terminaison pour un déploiement personnalisé, réglez le bouton bascule sur **Oui** sous **Déployer automatiquement ?**. Si vous importez des données depuis Amazon SageMaker Data Wrangler, vous disposez d'options supplémentaires pour déployer automatiquement le meilleur modèle avec ou sans les transformations de Data Wrangler.
**Note**  
Si votre flux Data Wrangler contient des opérations sur plusieurs lignes, telles que `groupby`, `join` ou `concatenate`, vous ne pouvez pas effectuer de déploiement automatique avec ces transformations. Pour plus d'informations, consultez [Entraînement automatique des modèles sur votre flux de données](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-autopilot.html).

   1. **Paramètres avancés (facultatif)** : Autopilot fournit des contrôles supplémentaires pour définir manuellement les paramètres expérimentaux, tels que la définition de votre type de problème, les contraintes de temps relatives à votre tâche Autopilot et à vos essais, ainsi que les paramètres de sécurité et de chiffrement.
**Note**  
Autopilot prend en charge la définition de valeurs par défaut afin de simplifier la configuration des expériences Autopilot à l’aide de l’interface utilisateur Studio Classic. Les administrateurs peuvent utiliser les [configurations de cycle de vie](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc.html) (LCC) Studio Classic pour définir les valeurs d’infrastructure, de réseau et de sécurité dans les fichiers de configuration, et préremplir les *paramètres avancés* des tâches `AutoML`.  
Pour découvrir comment les administrateurs peuvent automatiser la personnalisation d'une expérience Autopilot, consultez [Configuration des paramètres par défaut d'une expérience Autopilot (pour les administrateurs)](autopilot-set-default-parameters-create-experiment.md).

      1. **Type de problème de machine learning** : Autopilot peut déduire automatiquement le type de problème d'apprentissage supervisé de votre jeu de données. Si vous préférez le choisir manuellement, vous pouvez utiliser le menu déroulant **Sélectionner le type de problème de machine learning**. Notez que la valeur par défaut est **Auto**. Dans certains cas, l' SageMaker IA est incapable de déduire avec précision. Lorsque cela se produit, vous devez fournir la valeur pour que la tâche réussisse. En particulier, vous pouvez choisir parmi les types suivants :
         + **Classification binaire** : la classification binaire affecte les données d'entrée à l'une des deux classes prédéfinies et mutuellement exclusives, en fonction de leurs attributs, tels qu'un diagnostic médical basé sur les résultats de tests de diagnostic qui déterminent si une personne souffre d'une maladie.
         + **Régression** : la régression établit une relation entre les variables d'entrée (également appelées variables indépendantes ou fonctionnalités) et la variable cible (également appelée variable dépendante). Cette relation est capturée par le biais d'une fonction ou d'un modèle mathématique qui mappe les variables d'entrée à une sortie continue. Elle est couramment utilisée pour des tâches telles que la prédiction des prix des maisons en fonction de fonctionnalités telles que la superficie et le nombre de salles de bains, des tendances boursières ou l'estimation de chiffres de vente.
         + **Classification multi-classes** : la classification multi-classes affecte les données d'entrée à l'une des différentes classes en fonction de leurs attributs, tels que la prédiction du sujet le plus pertinent d'un document texte, tel que la politique, la finance ou la philosophie.

      1. **Durée d'exécution** : vous pouvez définir une limite de temps maximale. Lorsque la limite de temps est atteinte, les essais et les tâches qui dépassent la contrainte de temps s'arrêtent automatiquement.

      1. **Accès** : vous pouvez choisir le rôle qu'Amazon SageMaker Studio Classic assume pour obtenir un accès temporaire Services AWS (en particulier, SageMaker AI et Amazon S3) en votre nom. Si aucun rôle n'est défini explicitement, Studio Classic utilise automatiquement le rôle d'exécution SageMaker AI par défaut associé à votre profil utilisateur.

      1. **Chiffrement** : pour renforcer la sécurité de vos données au repos et les protéger contre tout accès non autorisé, vous pouvez spécifier des clés de chiffrement pour chiffrer les données dans vos compartiments Amazon S3 et dans le volume Amazon Elastic Block Store (Amazon EBS) attaché à votre domaine Studio Classic.

      1. **Sécurité** — Vous pouvez choisir le cloud privé virtuel (Amazon VPC) dans lequel s'exécute votre tâche d' SageMaker IA. Assurez-vous que le réseau Amazon VPC a accès à vos compartiments Amazon S3 d'entrée et de sortie.

      1. **Projet** — Spécifiez le nom du projet d' SageMaker IA à associer à cette expérience de pilote automatique et aux sorties du modèle. Lorsque vous spécifiez un projet, Autopilot associe le projet à une expérience. Cela vous permet de savoir quelles sorties de modèle sont associées à ce projet.

      1. **Balises** : les balises sont un tableau de paires clé-valeur. Utilisez des balises pour classer vos ressources Services AWS, par exemple leur objectif, leur propriétaire ou leur environnement.

   1. Choisissez **Suivant : Vérification et création** pour obtenir un résumé de votre expérience Autopilot avant sa création. 

1. Sélectionnez **Créer une expérience**. La création de l'expérience lance une tâche de pilote automatique dans SageMaker AI. Autopilot fournit le statut de l'expérience, des informations sur le processus d'exploration des données et les modèles candidats dans des blocs-notes, une liste des modèles générés et leurs rapports, ainsi que le profil de tâche utilisé pour les créer.

   Pour en savoir plus sur les blocs-notes générés par une tâche Autopilot, consultez [Bloc-notes Autopilot générés pour gérer les tâches AutoML](autopilot-automate-model-development-notebook-output.md). Pour en savoir plus sur les détails de chaque modèle candidat et ses rapports, consultez [Afficher les détails des modèles](autopilot-models-details.md) et [Affichage d’un rapport de performances du modèle Autopilot](autopilot-model-insights.md).

**Note**  
Pour éviter des frais inutiles : si vous déployez un modèle qui n'est plus nécessaire, supprimez les points de terminaison et les ressources créées pendant ce déploiement. Les informations relatives aux instances de tarification par région sont disponibles sur [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

# Exemples de blocs-notes sur Amazon SageMaker Autopilot
<a name="autopilot-example-notebooks"></a>

Les blocs-notes suivants sont des exemples pratiques qui abordent différents cas d'utilisation d'Autopilot.

Vous trouverez tous les blocs-notes d’Autopilot dans le répertoire [https://github.com/aws/amazon-sagemaker-examples/tree/main/autopilot](https://github.com/aws/amazon-sagemaker-examples/tree/main/autopilot) du référentiel d’exemples GitHub de SageMaker AI.

Nous recommandons de cloner l’intégralité du référentiel Git dans Studio Classic pour accéder aux blocs-notes et les exécuter directement. Pour en savoir plus sur la manière de cloner un référentiel Git dans Studio Classic, consultez [Cloner un dépôt Git dans Amazon SageMaker Studio Classic](studio-tasks-git.md).


| **Cas d'utilisation** | **Description** | 
| --- | --- | 
| [Inférence sans serveur](https://github.com/aws/amazon-sagemaker-examples/tree/main/autopilot/autopilot-serverless-inference) |  Par défaut, Autopilot permet de déployer les modèles générés sur des points de terminaison d'inférence en temps réel. Dans ce référentiel, le bloc-notes explique comment déployer des modèles Autopilot entraînés avec les modes `ENSEMBLING` et `HYPERPARAMETER OPTIMIZATION (HPO)` sur des points de terminaison sans serveur. Les points de terminaison sans serveur lancent automatiquement les ressources de calcul et les mettent à l’échelle en fonction du trafic, éliminant ainsi le besoin de choisir des types d’instances ou de gérer des politiques de mise à l’échelle.  | 
|  [Sélection de fonctionnalités personnalisées](https://github.com/aws/amazon-sagemaker-examples/tree/main/autopilot/custom-feature-selection)  |  Autopilot inspecte votre jeu de données et exécute un certain nombre de candidats pour déterminer la combinaison optimale d'étapes de prétraitement des données, d'algorithmes de machine learning et d'hyperparamètres. Vous pouvez aisément effectuer un déploiement sur un point de terminaison en temps réel ou pour un traitement par lots. Dans certains cas, vous voudrez peut-être avoir la possibilité d'intégrer à Autopilot un code de traitement des données personnalisé. Par exemple, vos jeux de données peuvent contenir un grand nombre de variables indépendantes et vous souhaiterez peut-être incorporer une étape de sélection de fonctionnalité personnalisée afin de supprimer d'abord les variables non pertinentes. Le jeu de données plus petit qui en résulte peut ensuite être utilisé pour lancer une tâche Autopilot. En fin de compte, vous souhaiterez également inclure à la fois le code de traitement personnalisé et les modèles provenant d'Autopilot pour le traitement en temps réel ou par lots.  | 
|  [Exemple de pipeline](https://github.com/aws/amazon-sagemaker-examples/tree/main/autopilot/sagemaker-autopilot-pipelines)  |  Alors qu'Autopilot rationalise le processus de création de modèles de ML, les ingénieurs MLOps restent responsables de la création, de l'automatisation et de la gestion des flux de travail ML de bout en bout en production. SageMaker Pipelines peut aider à automatiser diverses étapes du cycle de vie de machine learning, telles que le prétraitement des données, l'entraînement des modèles, le réglage des hyperparamètres, l'évaluation des modèles et le déploiement. Ce bloc-notes montre comment incorporer Autopilot dans un flux de travail d'entraînement AutoML de bout en bout de SageMaker Pipelines. Pour lancer une expérience Autopilot dans Pipelines, vous devez créer un flux de travail de création de modèles en écrivant un code d'intégration personnalisé à l'aide de Pipelines [Lambda](https://docs.aws.amazon.com/sagemaker/latest/dg/build-and-manage-steps.html#step-type-lambda) ou d'étapes de [traitement](https://docs.aws.amazon.com/sagemaker/latest/dg/build-and-manage-steps.html#step-type-processing). Pour plus d'informations, reportez-vous à [Move Amazon SageMaker Autopilot ML models from experimentation to production using Amazon SageMaker Pipelines](https://aws.amazon.com/blogs/machine-learning/move-amazon-sagemaker-autopilot-ml-models-from-experimentation-to-production-using-amazon-sagemaker-pipelines/). Si vous utilisez Autopilot en [mode ensembliste](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html), vous pouvez vous référer à l'exemple de bloc-notes qui montre comment utiliser l'étape AutoML native dans l'[étape AutoML native de SageMaker Pipelines](https://github.com/aws/amazon-sagemaker-examples/blob/main/autopilot/sagemaker-autopilot-pipelines/autopilot_pipelines_demo_notebook.ipynb). Autopilot étant pris en charge en tant qu'étape native dans Pipelines, vous pouvez désormais ajouter une étape d'entraînement automatique ([AutoMLStep](https://docs.aws.amazon.com/sagemaker/latest/dg/build-and-manage-steps.html#step-type-automl)) à vos pipelines et invoquer une expérience Autopilot en mode ensembliste.  | 
| [Direct marketing with Amazon SageMaker Autopilot](https://sagemaker-examples.readthedocs.io/en/latest/autopilot/sagemaker_autopilot_direct_marketing.html) |  Ce bloc-notes montre comment le [jeu de données Bank Marketing](https://archive.ics.uci.edu/ml/datasets/bank+marketing) est utilisé pour prédire si un client va réaliser un dépôt à terme dans une banque. Vous pouvez utiliser Autopilot sur ce jeu de données pour obtenir le pipeline ML le plus précis en explorant les options contenues dans divers pipelines candidats. Autopilot génère chaque candidat selon une procédure en deux étapes. La première étape effectue une ingénierie de fonctionnalité automatisée sur le jeu de données. La deuxième étape entraîne et règle un algorithme pour produire un modèle. Le bloc-notes contient des instructions sur la façon d'entraîner le modèle et de le déployer pour effectuer une inférence par lots à l'aide du meilleur candidat.  | 
| [Customer Churn Prediction with Amazon SageMaker Autopilot](https://sagemaker-examples.readthedocs.io/en/latest/autopilot/autopilot_customer_churn.html) |  Ce bloc-notes décrit l’utilisation du machine learning pour l’identification automatisée des clients mécontents, également connue sous le nom de prédiction de perte de clients. Cet exemple montre comment analyser un jeu de données accessible au public et mener une ingénierie des fonctionnalités dessus. Il montre ensuite comment régler un modèle en sélectionnant le pipeline le plus performant ainsi que les hyperparamètres optimaux pour l'algorithme d'entraînement. Il montre enfin comment déployer le modèle sur un point de terminaison hébergé et comment évaluer ses prédictions par rapport à la vérité du terrain. Cependant, les modèles ML fournissent rarement des prédictions parfaites. C'est pourquoi ce cahier montre également comment intégrer les coûts relatifs des erreurs de prédiction lors de la détermination du résultat financier de l'utilisation de ML.  | 
| [Top Candidates Customer Churn Prediction with Amazon SageMaker Autopilot and Batch Transform (Python SDK)](https://sagemaker-examples.readthedocs.io/en/latest/autopilot/autopilot_customer_churn_high_level_with_evaluation.html) |  Ce bloc-notes décrit aussi l’utilisation du machine learning pour l’identification automatisée des clients mécontents, également connue sous le nom de prédiction de perte de clients. Ce bloc-notes montre comment configurer le modèle pour obtenir la probabilité d'inférence, sélectionner les N modèles principaux, et réaliser une transformation par lots sur un jeu de test retenu pour évaluation.   Ce bloc-notes fonctionne avec le kit SDK SageMaker Python >= 1.65.1 publié le 19/6/2020.   | 
| [Bringing your own data processing code to Amazon SageMaker Autopilot](https://sagemaker-examples.readthedocs.io/en/latest/autopilot/custom-feature-selection/Feature_selection_autopilot.html) |  Ce bloc-notes explique comment incorporer et déployer un code de traitement de données personnalisé lors de l’utilisation d’Amazon SageMaker Autopilot. Il ajoute une étape de sélection de fonctions personnalisée pour supprimer des variables non pertinentes d'une tâche Autopilot. Il montre ensuite comment déployer à la fois le code de traitement personnalisé et les modèles générés par Autopilot sur un point de terminaison en temps réel ou pour un traitement par lots.   | 
| Blocs-notes supplémentaires | Vous trouverez d'autres blocs-notes illustrant d'autres cas d'utilisation tels que la [transformation par lots](https://github.com/aws/amazon-sagemaker-examples/blob/main/autopilot/ap-batch-transform.ipynb), les [prévisions de séries temporelles](https://github.com/aws/amazon-sagemaker-examples/blob/main/autopilot/autopilot_time_series.ipynb), etc., dans le répertoire racine. | 

# Vidéos : utilisation d’Autopilot pour automatiser et explorer le processus de machine learning
<a name="autopilot-videos"></a>

Voici une série de vidéos présentant les fonctionnalités d'Amazon SageMaker Autopilot à l'aide de Studio Classic. Elles montrent comment démarrer une tâche AutoML, analyser et prétraiter les données, comment réaliser l’ingénierie des caractéristiques et l’optimisation des hyperparamètres sur les modèles candidats, et comment visualiser et comparer les métriques du modèle obtenues.

**Topics**
+ [

## Démarrez une tâche AutoML avec Amazon Autopilot SageMaker
](#autopilot-video-start-automl-job)
+ [

## Passez en revue l’exploration des données et l’ingénierie des caractéristiques automatisées dans Autopilot.
](#autopilot-video-generated-notebooks)
+ [

## Réglez les modèles pour optimiser les performances
](#autopilot-video-optimizing-model-performance)
+ [

## Choisissez et déployez le meilleur modèle
](#autopilot-video-choose-and-deploy-the-best-model)
+ [

## Tutoriel Amazon SageMaker Autopilot
](#autopilot-walkthrough)

## Démarrez une tâche AutoML avec Amazon Autopilot SageMaker
<a name="autopilot-video-start-automl-job"></a>

Cette vidéo vous montre comment démarrer une tâche AutoML avec Autopilot. (Durée : 8:41)

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/qMEtqJPhqpA/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/qMEtqJPhqpA)


## Passez en revue l’exploration des données et l’ingénierie des caractéristiques automatisées dans Autopilot.
<a name="autopilot-video-generated-notebooks"></a>

Cette vidéo explique comment consulter les carnets d'exploration des données et de définition des candidats générés par Amazon SageMaker Autopilot. (Durée : 10:04)

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/WsfRAeGzgm8/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/WsfRAeGzgm8)


## Réglez les modèles pour optimiser les performances
<a name="autopilot-video-optimizing-model-performance"></a>

Cette vidéo vous montre comment optimiser les performances du modèle lors de l’entraînement à l’aide du réglage de l’hyperparamètre. (Durée : 4:59)

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/KZSTsWrDGXs/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/KZSTsWrDGXs)


## Choisissez et déployez le meilleur modèle
<a name="autopilot-video-choose-and-deploy-the-best-model"></a>

Cette vidéo montre comment utiliser les métriques de la tâche pour choisir le meilleur modèle, puis comment le déployer. (Durée : 5:20)

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/vRHyX3kDstI/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/vRHyX3kDstI)


## Tutoriel Amazon SageMaker Autopilot
<a name="autopilot-walkthrough"></a>

Cette vidéo vous présente une démonstration de bout en bout dans laquelle nous créons d'abord un modèle de classification binaire automatiquement avec Amazon SageMaker Autopilot. Nous voyons comment les modèles candidats ont été créés et optimisés à l’aide de blocs-notres générés automatiquement. Nous examinons également les meilleurs candidats avec Amazon SageMaker Experiments. Enfin, nous déployons le meilleur candidat (sur la base de XGBoost) et configurons la capture des données avec SageMaker Model Monitor.

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/DRjOOaR2prQ/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/DRjOOaR2prQ)


# Quotas Autopilot
<a name="autopilot-quotas"></a>

Certains quotas limitent les ressources disponibles lorsque vous utilisez Amazon SageMaker Autopilot. Certaines de ces limites peuvent être augmentées, mais d'autres ne le peuvent pas. 

**Note**  
Les quotas de ressources documentés dans les sections suivantes sont valides pour les versions d’Amazon SageMaker Studio 3.22.2 et supérieures. Pour en savoir plus sur la mise à jour de votre version de SageMaker Studio Classic, consultez [Arrêter et mettre à jour Amazon SageMaker Studio Classic et ses applications](studio-tasks-update.md).

**Topics**
+ [

## Les quotas que vous pouvez augmenter
](#autopilot-quotas-limits-increasable)
+ [

## Quotas de ressources
](#autopilot-quotas-resource-limits)

## Les quotas que vous pouvez augmenter
<a name="autopilot-quotas-limits-increasable"></a>

Le tableau suivant indique les limites de ressources pour les quotas que vous pouvez augmenter :


| Ressource | Régions | Limites par défaut | Peut être augmentée jusqu'à | 
| --- | --- | --- | --- | 
| Taille du jeu de données d'entrée | Tous | 100 Go | Centaines de Gb | 
| Taille d'un seul fichier Parquet\$1 | Tous | 2 Go | N/A | 
| Taille du jeu de données cible pour le sous-échantillonnage\$1\$1 | Tous | 5 Go | Centaines de Gb | 
| Nombre de tâches Autopilot simultanées | us-east-1, us-east-2,us-west-2, ap-northeast-1, eu-west-1, eu-central-1 | 4 | Centaines | 
| Nombre de tâches Autopilot simultanées | ap-northeast-2, ap-southeast-2, eu-west-2, ap-southeast-1 | 2 | Centaines | 
| Nombre de tâches Autopilot simultanées | Toutes les autres régions | 1 | Dizaines | 

**Note**  
\$1Cette taille limite de 2 Go s'applique à un seul fichier Parquet compressé. Vous pouvez fournir un jeu de données Parquet qui inclut plusieurs fichiers Parquet compressés, dans la limite de la taille maximale autorisée pour le jeu de données d’entrée. Une fois les fichiers décompressés, ils peuvent atteindre une taille supérieure.  
\$1\$1Autopilot sous-échantillonne automatiquement les jeux de données d'entrée supérieurs à la taille du jeu de données cible tout en tenant compte du déséquilibre de classe et en préservant les étiquettes de classes rares.

**Pour demander une augmentation de quota :**

1. Ouvrez la [console Service Quotas](https://console.aws.amazon.com/servicequotas/home/services/sagemaker/quotas).

1. Sélectionnez l’augmentation de quota souhaitées, puis choisissez **Demander une augmentation au niveau du compte**.

1. Dans le champ **Augmenter la valeur du quota**, entrez la nouvelle valeur limite que vous demandez.

1. Choisissez **Request** (Demander).

## Quotas de ressources
<a name="autopilot-quotas-resource-limits"></a>

Le tableau suivant contient les limites de ressources d'exécution pour une tâche Amazon SageMaker Autopilot dans une Région AWS.


| Ressource | Limite par tâche Autopilot | 
| --- | --- | 
| Durée d'exécution maximale pour une tâche Autopilot | 30 jours | 

# Guide de référence des API pour Autopilot
<a name="autopilot-reference"></a>

Cette section fournit un sous-ensemble d’interfaces API REST du service HTTP pour la création et la gestion de ressources Amazon SageMaker Autopilot (tâches AutoML) par programmation.

Si le langage de votre choix est Python, vous pouvez également vous référer directement au kit [AWS SDK pour Python (Boto3)](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html) ou à l’[objet AutoMLV2](https://sagemaker.readthedocs.io/en/stable/api/training/automlv2.html#sagemaker.automl.automlv2.AutoMLV2) du kit Amazon SageMaker Python SDK.

## Actions d’API AutoML
<a name="autopilot-api-actions"></a>

Cette liste détaille les opérations disponibles dans la référence des API pour gérer les tâches AutoML par programmation.
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListAutoMLJobs.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListAutoMLJobs.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopAutoMLJob.html)

**Note**  
[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html) et [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) sont de nouvelles versions de [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html) et [DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html) qui offrent une rétrocompatibilité.  
Nous vous recommandons d'utiliser `CreateAutoMLJobV2`. `CreateAutoMLJobV2` peut gérer des types de problèmes tabulaires identiques à ceux de sa version précédente `CreateAutoMLJob`, ainsi que des types de problèmes non tabulaires, tels que la classification d'image ou de texte, et les prédictions de séries temporelles.  
Recherchez des instructions sur la façon de migrer une action `CreateAutoMLJob` vers une action `CreateAutoMLJobV2` dans [Migration d'une action CreateAutoMLJob en action CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html#autopilot-create-experiment-api-migrate-v1-v2).

## Types de données de l’API AutoML
<a name="autopilot-api-data-types"></a>

Cette liste détaille les objets d'API AutoML utilisés par les actions ci-dessus en tant que demandes entrantes ou réponses sortantes.
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateStep.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateStep.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLContainerDefinition.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLContainerDefinition.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSource.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSource.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLInferenceContainerDefinitions.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLInferenceContainerDefinitions.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobArtifacts.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobArtifacts.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobCompletionCriteria.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobCompletionCriteria.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobInputDataConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobInputDataConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobStepMetadata.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobStepMetadata.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobSummary.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobSummary.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLProblemTypeConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLProblemTypeConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobCompletionCriteria.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobCompletionCriteria.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobSummary.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobSummary.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLPartialFailureReason.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLPartialFailureReason.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLProblemTypeConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLProblemTypeConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLProblemTypeResolvedAttributes.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLProblemTypeResolvedAttributes.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLResolvedAttributes.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLResolvedAttributes.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLSecurityConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLSecurityConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLS3DataSource.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLS3DataSource.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateArtifactLocations.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateProperties.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateProperties.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_FinalAutoMLJobObjectiveMetric.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_FinalAutoMLJobObjectiveMetric.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_HolidayConfigAttributes.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_HolidayConfigAttributes.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ImageClassificationJobConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ImageClassificationJobConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployConfig.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployResult.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ModelDeployResult.html) 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ResolvedAttributes.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ResolvedAttributes.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularResolvedAttributes.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularResolvedAttributes.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationJobConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationJobConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationResolvedAttribute.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TextGenerationResolvedAttribute.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesForecastingJobConfig.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesTransformations.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TimeSeriesTransformations.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TuningJobCompletionCriteria.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TuningJobCompletionCriteria.html)