Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Fonctionnement des modèles personnalisés
<a name="canvas-build-model"></a>

Utilisez Amazon SageMaker Canvas pour créer un modèle personnalisé à partir du jeu de données que vous avez importé. Utilisez le modèle que vous avez créé pour faire des prédictions sur de nouvelles données. SageMaker Canvas utilise les informations contenues dans le jeu de données pour créer jusqu'à 250 modèles et choisir celui qui fonctionne le mieux.

Lorsque vous commencez à créer un modèle, Canvas recommande automatiquement un ou plusieurs *types de modèles*. Les types de modèles appartiennent à l’une des catégories suivantes :
+ **Prédiction numérique** : également appelée *régression* en machine learning Utilisez le type de modèle de prédiction numérique lorsque vous souhaitez effectuer des prédictions pour des données numériques. Par exemple, vous souhaiterez peut-être prédire le prix de maisons sur la base de fonctionnalités telles que la superficie des maisons.
+ **Prédiction catégorielle** : également appelée *classification* en machine learning. Lorsque vous souhaitez classer les données en groupes, utilisez les types de modèles de prédiction catégorielle :
  + **Prédiction à 2 catégories** : utilisez le type de modèle de prédiction à 2 catégories (également appelé *classification binaire* en machine learning) lorsque vous souhaitez prédire deux catégories pour vos données. Par exemple, vous souhaiterez peut-être déterminer si un client est susceptible de se désister.
  + **Prédiction à 3 catégories et plus** : utilisez le type de modèle de prédiction à 3 catégories et plus (également appelé *classification multi-classe* en machine learning) lorsque vous souhaitez prédire trois catégories ou plus pour vos données. Vous pouvez par exemple prédire le statut du prêt d'un client sur la base de fonctionnalités telles que les paiements précédents.
+ **Prévisions de séries temporelles** : utilisez ces prévisions lorsque vous souhaitez effectuer des prédictions sur une période. Par exemple, vous souhaiterez peut-être prédire le nombre d'articles que vous allez vendre au cours du prochain trimestre. Pour plus d'informations sur les prévisions de séries chronologiques, consultez la section [Prévisions de séries chronologiques dans Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html).
+ **Prédiction d'image** : utilisez le type de modèle de prédiction d'image à étiquette unique (également connu sous le nom de *classification d'image à étiquette unique* en machine learning) lorsque vous souhaitez attribuer des étiquettes à des images. Vous pouvez par exemple classer différents types de défauts de fabrication dans les images de votre produit.
+ **Prédiction de texte** : utilisez le type de modèle de prédiction de texte multi-catégories (également appelé *classification de texte multi-classe* en machine learning) lorsque vous souhaitez attribuer des étiquettes à des passages de texte. Par exemple, si vous disposez d'un jeu de données d'avis clients sur un produit, vous pouvez déterminer si les clients ont aimé le produit ou non. Votre modèle peut prédire si un passage de texte donné est `Positive`, `Negative` ou `Neutral`.

Pour obtenir un tableau des types de données d'entrée pris en charge pour chaque type de modèle, consultez [Modèles personnalisés](canvas-custom-models.md).

Pour chaque modèle de données tabulaire que vous créez (qui inclut des modèles de prédiction numérique ou catégorielle, de prévision de séries temporelles ou de prédiction de texte), vous choisissez la **Colonne cible**. La **Target column** (Colonne cible) est la colonne qui contient les informations que vous souhaitez prédire. Par exemple, si vous créez un modèle pour prédire si des personnes ont annulé leurs abonnements, la **Colonne cible** contient des points de données `yes` ou `no` concernant le statut d'annulation d'une personne.

Pour les modèles de prédiction d'image, vous créez le modèle à partir d'un jeu de données d'images auxquelles des étiquettes ont été attribuées. Pour les images non étiquetées que vous fournissez, le modèle prédit une étiquette. Par exemple, si vous créez un modèle pour prédire si une image est un chat ou un chien, vous fournissez des images portant l'étiquette chat ou chien lors de la création du modèle. Le modèle peut ensuite accepter des images non étiquetées et les prédire comme étant des chats ou des chiens.

**Que se passe-t-il lorsque vous créez un modèle**

Pour créer votre modèle, vous pouvez choisir entre une **Quick build (Création rapide)** ou une **Standard build (Création standard)**. Les modèles de type **Création rapide** ont un délai de création plus court, mais les modèles de type **Création standard** sont généralement plus précis.

Pour les modèles de prévision tabulaire et de séries temporelles, Canvas utilise le *sous-échantillonnage* pour réduire la taille des jeux de données supérieurs à 5 Go ou 30 Go, respectivement. Canvas sous-échantillonne à l’aide de la méthode d’échantillonnage stratifié. Le tableau ci-dessous répertorie la taille du sous-échantillon par type de modèle. Pour contrôler le processus d’échantillonnage, vous pouvez utiliser Data Wrangler dans Canvas pour échantillonner en utilisant votre technique d’échantillonnage préférée. Pour les données de séries temporelles, vous pouvez rééchantillonner pour agréger des points de données. Pour plus d’informations sur l’échantillonnage, consultez [Echantillonnage](canvas-transform.md#canvas-transform-sampling). Pour plus d’informations sur le rééchantillonnage de données de séries temporelles, consultez [Rééchantillonner les données de séries temporelles](canvas-transform.md#canvas-resample-time-series).

Si vous choisissez d’effectuer une **génération rapide** sur un jeu de données de plus de 50 000 lignes, Canvas échantillonne vos données jusqu’à 50 000 lignes pour réduire le temps d’entraînement des modèles.

Le tableau suivant résume les principales caractéristiques du processus de génération de modèles, notamment les délais de génération moyens pour chaque type de modèle et de génération, la taille du sous-échantillon lors de la génération de modèles avec de grands jeux de données et les nombres minimal et maximal de points de données que vous devez avoir pour chaque type de génération.


| Limite | Prédiction numérique et catégorielle | Prédiction de séries temporelles | Prédiction d'image | Prédiction de texte | 
| --- | --- | --- | --- | --- | 
| Délai de **génération rapide** | 2 à 20 minutes | 2 à 20 minutes | 15 à 30 minutes | 15 à 30 minutes | 
| Délai de **génération standard** | 2 à 4 heures | 2 à 4 heures | 2 à 5 heures | 2 à 5 heures | 
| Taille du sous-échantillon (taille réduite d’un grand jeu de données après le sous-échantillonnage par Canvas) | 5 Go | 30 Go | N/A | N/A | 
| Nombre minimal d’entrées (lignes) pour les **créations rapides** |  Catégorie 2 : 500 lignes 3 catégories et plus, numérique, de séries temporelles : N/A  | N/A | N/A | N/A | 
| Nombre minimal d'entrées (lignes, images ou documents) pour les **créations standard** | 250 | 50 | 50 | N/A | 
| Nombre maximal d’entrées (lignes, images ou documents) pour les **créations rapides** | N/A | N/A | 5000 | 7500 | 
| Nombre maximal d’entrées (lignes, images ou documents) pour les **créations standard** | N/A | 150 000 | 180 000 | N/A | 
| Nombre maximal de colonnes | 1 000 | 1 000 | N/A | N/A | 

Canvas prédit les valeurs à partir des informations du reste du jeu de données, en fonction du type de modèle :
+ Pour une prédiction catégorielle, Canvas place chaque ligne dans l'une des catégories répertoriées dans la **Colonne cible**.
+ Pour la prédiction numérique, Canvas utilise les informations contenues dans le jeu de données pour prédire les valeurs numériques dans la **Colonne cible**.
+ Pour les prévisions de séries temporelles, Canvas utilise des données historiques pour prédire les valeurs futures de la **Colonne cible**.
+ Pour la prédiction d'image, Canvas utilise des images auxquelles des étiquettes ont été attribuées afin de prédire les étiquettes des images non étiquetées.
+ Pour la prédiction de texte, Canvas analyse les données texte auxquelles des étiquettes ont été attribuées afin de prédire les étiquettes des passages de texte non étiquetés.

**Fonctionnalités supplémentaires pour faciliter la création de votre modèle**

Avant de générer votre modèle, vous pouvez utiliser Data Wrangler dans Canvas pour préparer vos données à l’aide de plus de 300 transformations et opérateurs intégrés. Data Wrangler prend en charge les transformations pour les jeux de données tabulaires et d’images. En outre, vous pouvez vous connecter à des sources de données extérieures à Canvas, créer des tâches pour appliquer des transformations à l’intégralité de votre jeu de données et exporter vos données entièrement préparées et nettoyées afin de les utiliser dans des flux de travail ML en dehors de Canvas. Pour de plus amples informations, veuillez consulter [Préparation des données](canvas-data-prep.md).

Pour consulter les visualisations et l’analytique afin d’explorer vos données et de déterminer les caractéristiques à inclure dans votre modèle, vous pouvez utiliser les analyses intégrées de Data Wrangler. Vous pouvez également accéder à un **rapport d’informations et de qualité des données** mettant en évidence les problèmes potentiels liés à votre jeu de données et fournissant des recommandations pour les résoudre. Pour de plus amples informations, veuillez consulter [Réalisation d’une analyse exploratoire des données (EDA)](canvas-analyses.md).

Outre les fonctionnalités plus avancées de préparation et d’exploration des données fournies via Data Wrangler, Canvas fournit certaines fonctionnalités de base que vous pouvez utiliser :
+ Pour filtrer vos données et accéder à un ensemble de transformations de données de base, consultez [Préparation des données pour la génération du modèle](canvas-prepare-data.md).
+ Pour accéder à une analytique et des visualisations simples permettant d’explorer les caractéristiques, consultez [Exploration et analyse de données](canvas-explore-data.md).
+ Pour en savoir plus sur les fonctionnalités supplémentaires telles que la prévisualisation de votre modèle, la validation de votre jeu de données et la modification de la taille de l’échantillon aléatoire utilisé pour créer votre modèle, consultez [Prévisualisation de votre modèle](canvas-preview-model.md).

Pour les jeux de données tabulaires comportant plusieurs colonnes (tels que les jeux de données destinés à créer des types de modèles de prédiction catégorielle ou numérique ou de prévision de séries temporelles), des points de données peuvent être manquants sur certaines lignes. Pendant que Canvas crée le modèle, il ajoute automatiquement les valeurs manquantes. Canvas utilise les valeurs de votre jeu de données pour effectuer une approximation mathématique des valeurs manquantes. Pour atteindre la meilleure prédiction de modèle possible, nous vous recommandons d’ajouter les données manquantes si vous les trouvez. Notez que la fonctionnalité de données manquantes n'est pas prise en charge pour les modèles de prédiction de texte ou d'image.

**Mise en route**

Pour commencer à créer un modèle personnalisé, consultez [Créer un modèle](canvas-build-model-how-to.md) et suivez la procédure correspondant au type de modèle que vous souhaitez créer.

# Prévisualisation de votre modèle
<a name="canvas-preview-model"></a>

**Note**  
Les fonctionnalités suivantes ne sont disponibles que pour les modèles personnalisés générés à partir de jeux de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

SageMaker Canvas met à votre disposition un outil pour prévisualiser votre modèle avant de commencer à le construire. Cela vous donne un score d’exactitude estimé et vous donne également une idée préliminaire de l’impact possible de chaque colonne sur le modèle. 

Pour prévisualiser le score du modèle, lorsque vous êtes dans l’onglet **Générer** de votre modèle, choisissez **Prévisualiser le modèle**.

L’aperçu du modèle génère une prédiction **Exactitude estimée** de la qualité selon laquelle le modèle pourrait analyser vos données. La précision d’une **Quick build (Création rapide)** ou d’une **Standard build (Création standard)** représente la performance du modèle sur les données réelles et est généralement supérieure à la valeur **Estimated accuracy (Précision estimée)**.

L’aperçu du modèle vous fournit également les scores d’**impact des colonnes**, qui peuvent indiquer l’importance de chaque colonne pour les prédictions du modèle.

La capture d’écran suivante illustre un aperçu de modèle dans l’application Canvas.

![\[Capture d’écran de l’onglet Création d’un modèle dans Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-build/canvas-build-preview-model.png)


Amazon SageMaker Canvas gère automatiquement les valeurs manquantes dans votre ensemble de données lors de la création du modèle. Il déduit les valeurs manquantes à l’aide des valeurs adjacentes présentes dans le jeu de données.

Si vous êtes satisfait de l’aperçu de votre modèle et souhaitez passer à la génération d’un modèle, consultez [Créer un modèle](canvas-build-model-how-to.md).

# Validation des données
<a name="canvas-dataset-validation"></a>

Avant de créer votre modèle, SageMaker Canvas vérifie que votre jeu de données ne présente aucun problème susceptible d'entraîner l'échec de votre génération. Si SageMaker Canvas détecte des problèmes, il vous avertit sur la page **Créer** avant de tenter de créer un modèle.

Vous pouvez choisir **Validate data** (Valider les données) pour consulter la liste des problèmes liés à votre jeu de données. Vous pouvez ensuite utiliser les [fonctionnalités de préparation des données de SageMaker Canvas Data Wrangler](canvas-data-prep.md), ou vos propres outils, pour corriger votre ensemble de données avant de commencer une construction. Si vous ne résolvez pas les problèmes liés à votre jeu de données, la création échoue.

Si vous apportez des modifications à votre jeu de données pour résoudre les problèmes, vous avez la possibilité de revalider votre jeu de données avant de tenter une génération. Nous vous recommandons de revalider votre jeu de données avant d'effectuer la génération.

Le tableau suivant indique les problèmes détectés par SageMaker Canvas dans votre ensemble de données et explique comment les résoudre.


| Problème | Résolution | 
| --- | --- | 
|  Type de modèle incorrect pour vos données  |  Essayez un autre type de modèle ou utilisez un autre jeu de données.  | 
|  Valeurs manquantes dans votre colonne cible  |  Remplacez les valeurs manquantes, supprimez les lignes présentant des valeurs manquantes ou utilisez un autre jeu de données.  | 
|  Trop d'étiquettes uniques dans votre colonne cible  |  Vérifiez que vous avez utilisé la bonne colonne comme colonne cible ou utilisez un autre jeu de données.  | 
|  Trop de valeurs non numériques dans votre colonne cible  |  Choisissez une autre colonne cible, sélectionnez un autre type de modèle ou utilisez un autre jeu de données.  | 
|  Un ou plusieurs noms de colonne contiennent des doubles traits de soulignement  |  Renommez les colonnes pour supprimer tous les doubles traits de soulignement et réessayez.  | 
|  Aucune des lignes de votre jeu de données n'est complète  |  Remplacez les valeurs manquantes ou utilisez un autre jeu de données.  | 
|  Trop d'étiquettes uniques par rapport au nombre de lignes dans vos données  |  Vérifiez que vous utilisez la bonne colonne cible, augmentez le nombre de lignes dans votre jeu de données, consolidez des étiquettes similaires ou utilisez un jeu de données différent.  | 

# Échantillon aléatoire
<a name="canvas-random-sample"></a>

SageMaker Canvas utilise la méthode d'échantillonnage aléatoire pour échantillonner votre ensemble de données. La méthode d'échantillonnage aléatoire signifie que toutes les lignes ont la même chance d'être sélectionnées pour l'échantillon. Vous pouvez cliquer sur une colonne de la prévisualisation pour obtenir des statistiques récapitulatives de l’échantillon aléatoire, telles que la moyenne et le mode.

Par défaut, SageMaker Canvas utilise un échantillon aléatoire de 20 000 lignes de votre jeu de données pour les ensembles de données de plus de 20 000 lignes. Pour les jeux de données de moins de 20 000 lignes, la taille d’échantillon par défaut est le nombre de lignes de votre jeu de données. Vous pouvez augmenter ou diminuer la taille de l'échantillon en choisissant **Échantillon aléatoire** dans l'onglet **Créer** de l'application SageMaker Canvas. Vous pouvez utiliser le curseur pour sélectionner la taille d’échantillon souhaitée, puis choisir **Update** (Mettre à jour) pour changer la taille de l’échantillon. La taille d'échantillon maximale que vous pouvez choisir pour un jeu de données est de 40 000 lignes et la taille d'échantillon minimale est de 500 lignes. Si vous choisissez une grande taille d'échantillon, le rechargement de l'aperçu du jeu de données et des statistiques récapitulatives peut prendre quelques instants.

La page **Build** (Génération) affiche un aperçu de 100 lignes de votre jeu de données. Si la taille de l'échantillon est identique à celle de votre jeu de données, l'aperçu utilise les 100 premières lignes de votre jeu de données. Dans le cas contraire, l’aperçu utilise les 100 premières lignes de l’échantillon aléatoire.

# Créer un modèle
<a name="canvas-build-model-how-to"></a>

Les sections suivantes expliquent comment créer un modèle pour les principaux types de modèles personnalisés.
+ Pour créer des modèles de prédiction numérique, de prédiction à 2 catégories ou de prédiction à 3 catégories et plus, consultez [Création d'un modèle de prédiction numérique ou catégorielle personnalisé](#canvas-build-model-numeric-categorical).
+ Pour créer des modèles de prédiction d'image à étiquette unique, consultez [Création d'un modèle de prédiction d'image personnalisé](#canvas-build-model-image).
+ Pour créer des modèles de prédiction de texte multi-catégories, consultez [Création d'un modèle de prédiction de texte personnalisé](#canvas-build-model-text).
+ Pour générer des modèles de prévision de séries temporelles, consultez [Génération d’un modèle de prévision de séries temporelles](#canvas-build-model-forecasting).

**Note**  
Si vous rencontrez une erreur lors de l’analyse post-création qui vous indique d’augmenter votre quota pour les instances `ml.m5.2xlarge`, consultez [Demande d’augmentation de quota](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-requesting-quota-increases.html).

## Création d'un modèle de prédiction numérique ou catégorielle personnalisé
<a name="canvas-build-model-numeric-categorical"></a>

Les modèles de prédiction numérique et catégorielle prennent en charge la **Création rapide** et la **Création standard**.

Pour créer un modèle de prédiction numérique ou catégorielle, procédez comme suit :

1. Ouvrez l'application SageMaker Canvas.

1. Dans le panneau de navigation de gauche, choisissez **Mes modèles**.

1. Choisissez **Nouveau modèle**.

1. Dans la boîte de dialogue **Créer un modèle**, procédez comme suit :

   1. Entrez un nom dans le champ **Nom du modèle**.

   1. Sélectionnez le type de problème **Analyse prédictive**.

   1. Choisissez **Créer**.

1. Pour **Sélectionner un jeu de données**, sélectionnez votre jeu de données dans la liste. Si vous n'avez pas encore importé vos données, choisissez **Importer** et suivez les instructions du flux de travail d'importation de données.

1. Lorsque vous êtes prêt à créer votre modèle, choisissez **Sélectionner un jeu de données**.

1. Dans l'onglet **Créer**, dans la liste déroulante **Colonne cible**, sélectionnez la cible que vous souhaitez prédire pour votre modèle.

1. Pour **Type de modèle**, Canvas détecte automatiquement le type de problème. Si vous souhaitez modifier le type ou configurer les paramètres de modèle avancés, choisissez **Configurer le modèle**.

   Lorsque la boîte de dialogue **Configurer le modèle** s’affiche, procédez comme suit :

   1. Pour **Type de modèle**, choisissez le type de modèle que vous souhaitez générer.

   1. Une fois que vous avez choisi le type de modèle, des **paramètres avancés** supplémentaires sont disponibles. Pour plus d’informations sur chacun des paramètres avancés, consultez [Configurations avancées de génération de modèle](canvas-advanced-settings.md). Pour configurer les paramètres avancés, procédez comme suit :

      1. (Facultatif) Dans le menu déroulant **Métrique d’objectif**, sélectionnez la métrique que Canvas doit optimiser lors de la création de votre modèle. Si vous ne sélectionnez aucune métrique, Canvas en choisit une pour vous par défaut. Pour obtenir des descriptions des métriques disponibles, consultez [Référence des métriques](canvas-metrics.md).

      1. Pour **Méthode d’entraînement**, choisissez le mode **Auto**, **Ensemble** ou **Optimisation des hyperparamètres (HPO)**.

      1. Pour **Algorithmes**, sélectionnez les algorithmes que vous souhaitez inclure pour générer des modèles candidats.

      1. Pour **Partage des données**, indiquez en pourcentages comment vous souhaitez répartir vos données entre le **jeu d’entraînement** et le **jeu de validation**. Le jeu d’entraînement est utilisé pour générer le modèle, tandis que le jeu de validation sert à tester l’exactitude des modèles candidats.

      1. Pour **Maximum de candidats et de temps d’exécution**, procédez comme suit :

         1. Définissez la valeur **Maximum de candidats**, à savoir le nombre maximum de modèles candidats que Canvas peut générer. Notez que **Maximum de candidats** est disponible uniquement en mode HPO.

         1. Définissez les valeurs des heures et des minutes pour **Durée maximale d’exécution des tâches**, à savoir le temps maximal que Canvas peut consacrer à la génération de votre modèle. Après le délai maximum, Canvas arrête la génération et sélectionne le meilleur modèle candidat.

   1. Après avoir configuré les paramètres avancés, choisissez **Enregistrer**.

1. Sélectionnez ou désélectionnez des colonnes dans vos données pour les inclure ou les retirer de votre création.
**Note**  
Si vous effectuez des prédictions par lots avec votre modèle après sa création, Canvas ajoute les colonnes retirées à vos résultats de prédiction. Toutefois, Canvas n'ajoute pas les colonnes retirées à vos prédictions par lots pour les modèles de séries temporelles.

1. (Facultatif) Utilisez les outils de visualisation et d'analyse fournis par Canvas pour visualiser vos données et déterminer les fonctionnalités que vous souhaitez inclure dans votre modèle. Pour plus d'informations, consultez [Exploration et analyse de vos données](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html) (langue française non garantie).

1. (Facultatif) Utilisez les transformations de données pour nettoyer, transformer et préparer vos données pour la création de modèle. Pour plus d'informations, consultez [Préparation de vos données avec des transformations avancées](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html) (langue française non garantie). Vous pouvez afficher et retirer vos transformations en choisissant **Recette de modèle** pour ouvrir le panneau latéral **Recette de modèle**.

1. (Facultatif) Pour les fonctionnalités supplémentaires telles que la prévisualisation de la précision de votre modèle, la validation de votre jeu de données et la modification de la taille de l'échantillon aléatoire prélevé par Canvas à partir de votre ensemble de données, consultez [Prévisualisation de votre modèle](canvas-preview-model.md).

1. Après avoir examiné vos données et apporté des modifications à votre jeu de données, choisissez **Création rapide** ou **Création standard** pour commencer la création de votre modèle. La capture d'écran suivante illustre la page **Création** ainsi que les options **Création rapide** et **Création standard**.  
![\[Page Création d'un modèle à 2 catégories qui illustre les options Création rapide et Création standard.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/build-page-tabular-quick-standard-options.png)

Une fois que la création de votre modèle a commencé, vous pouvez quitter la page. Lorsque le modèle indique **Prêt** sur la page **Mes modèles**, il est prêt pour l'analyse et les prédictions.

## Création d'un modèle de prédiction d'image personnalisé
<a name="canvas-build-model-image"></a>

Les modèles de prédiction d'image à étiquette unique prennent en charge la **Création rapide** et la **Création standard**.

Pour créer un modèle de prédiction d'image à étiquette unique, procédez comme suit :

1. Ouvrez l'application SageMaker Canvas.

1. Dans le panneau de navigation de gauche, choisissez **Mes modèles**.

1. Choisissez **Nouveau modèle**.

1. Dans la boîte de dialogue **Créer un modèle**, procédez comme suit :

   1. Entrez un nom dans le champ **Nom du modèle**.

   1. Sélectionnez le type de problème **Analyse d'image**.

   1. Choisissez **Créer**.

1. Pour **Sélectionner un jeu de données**, sélectionnez votre jeu de données dans la liste. Si vous n'avez pas encore importé vos données, choisissez **Importer** et suivez les instructions du flux de travail d'importation de données.

1. Lorsque vous êtes prêt à créer votre modèle, choisissez **Sélectionner un jeu de données**.

1. L'onglet **Création** affiche la **Distribution des étiquettes** pour les images de votre jeu de données. Le **Type de modèle** est défini sur **Prédiction d'image à étiquette unique**.

1. Sur cette page, vous pouvez prévisualiser vos images et modifier le jeu de données. Si vous avez des images non étiquetées, choisissez **Modifier le jeu de données** et [Attribuer des étiquettes à des images non étiquetées](canvas-edit-image.md#canvas-edit-image-assign). Vous pouvez également effectuer d'autres tâches dans le cadre de l'opération [Modification d’un jeu de données d’image](canvas-edit-image.md), telles que le changement de nom des étiquettes et l'ajout d'images au jeu de données.

1. Après avoir examiné vos données et apporté des modifications à votre jeu de données, choisissez **Création rapide** ou **Création standard** pour commencer la création de votre modèle. La capture d'écran suivante illustre la page **Création** d'un modèle de prédiction d'image prêt à être créé.  
![\[Page Création d'un modèle de prédiction d'image à étiquette unique.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/build-page-image-model.png)

Une fois que la création de votre modèle a commencé, vous pouvez quitter la page. Lorsque le modèle indique **Prêt** sur la page **Mes modèles**, il est prêt pour l'analyse et les prédictions.

## Création d'un modèle de prédiction de texte personnalisé
<a name="canvas-build-model-text"></a>

Les modèles de prédiction de texte multi-catégories prennent en charge la **Création rapide** et la **Création standard**.

Pour créer un modèle de prédiction de texte, procédez comme suit :

1. Ouvrez l'application SageMaker Canvas.

1. Dans le panneau de navigation de gauche, choisissez **Mes modèles**.

1. Choisissez **Nouveau modèle**.

1. Dans la boîte de dialogue **Créer un modèle**, procédez comme suit :

   1. Entrez un nom dans le champ **Nom du modèle**.

   1. Sélectionnez le type de problème **Analyse de texte**.

   1. Choisissez **Créer**.

1. Pour **Sélectionner un jeu de données**, sélectionnez votre jeu de données dans la liste. Si vous n'avez pas encore importé vos données, choisissez **Importer** et suivez les instructions du flux de travail d'importation de données.

1. Lorsque vous êtes prêt à créer votre modèle, choisissez **Sélectionner un jeu de données**.

1. Dans l'onglet **Créer**, dans la liste déroulante **Colonne cible**, sélectionnez la cible que vous souhaitez prédire pour votre modèle. La colonne cible doit avoir un type de données binaire ou catégoriel. Elle doit également comporter au moins 25 entrées (ou lignes de données) pour chaque étiquette unique.

1. Vérifiez que le **Type de modèle** est automatiquement défini sur **Prédiction de texte multi-catégories**.

1. Pour la colonne d'entraînement, sélectionnez votre colonne source de données texte. Il doit s'agir de la colonne contenant le texte que vous souhaitez analyser.

1. Choisissez **Création rapide** ou **Création standard** pour commencer à créer votre modèle. La capture d'écran suivante illustre la page **Création** d'un modèle de prédiction de texte prêt à être créé.  
![\[Page Création d'un modèle de prédiction de texte multi-catégories.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/build-page-text-model.png)

Une fois que la création de votre modèle a commencé, vous pouvez quitter la page. Lorsque le modèle indique **Prêt** sur la page **Mes modèles**, il est prêt pour l’analyse et les prédictions.

## Génération d’un modèle de prévision de séries temporelles
<a name="canvas-build-model-forecasting"></a>

Les modèles de prévision de séries temporelles prennent en charge à la fois les **générations rapides** et les **générations standard**.

Pour générer un modèle de prévision de séries temporelles, utilisez la procédure suivante :

1. Ouvrez l'application SageMaker Canvas.

1. Dans le panneau de navigation de gauche, choisissez **Mes modèles**.

1. Choisissez **Nouveau modèle**.

1. Dans la boîte de dialogue **Créer un modèle**, procédez comme suit :

   1. Entrez un nom dans le champ **Nom du modèle**.

   1. Sélectionnez le type de problème **Prévision de séries temporelles**.

   1. Choisissez **Créer**.

1. Pour **Sélectionner un jeu de données**, sélectionnez votre jeu de données dans la liste. Si vous n'avez pas encore importé vos données, choisissez **Importer** et suivez les instructions du flux de travail d'importation de données.

1. Lorsque vous êtes prêt à créer votre modèle, choisissez **Sélectionner un jeu de données**.

1. Dans l’onglet **Créer**, dans la liste déroulante **Colonne cible**, sélectionnez la cible que vous souhaitez prédire pour votre modèle.

1. Dans la section **Type de modèle**, choisissez **Configurer le modèle**.

1. La boîte de dialogue **Configurer le modèle** s’ouvre. Pour la section **Configuration des séries temporelles**, renseignez les champs suivants :

   1. Pour **Colonne ID d’élément**, choisissez une colonne de votre jeu de données qui identifie de manière unique chaque ligne. La colonne devrait avoir le type de données `Text`.

   1. (Facultatif) Pour **Colonne de groupe**, choisissez une ou plusieurs colonnes catégorielles (avec un type de données de `Text`) que vous souhaitez utiliser pour regrouper vos valeurs de prévision.

   1. Pour **Colonne d’horodatage**, sélectionnez la colonne avec les horodatages (dans un format de date/heure). Pour plus d’informations sur les formats de date/heure acceptés, consultez [Prévisions de séries chronologiques dans Amazon SageMaker Canvas](canvas-time-series.md).

   1. Dans le champ **Durée des prévisions**, entrez la période pour laquelle vous souhaitez prévoir les valeurs. Canvas détecte automatiquement les unités de temps présentes dans vos données.

   1. (Facultatif) Activez le bouton **Utiliser le calendrier des jours fériés** pour sélectionner un calendrier de vacances dans différents pays et rendre vos prévisions concernant des données de vacances plus précises.

1. Dans la zone **Configurer le modèle**, vous trouverez des paramètres supplémentaires dans la section **Avancé**. Pour plus d’informations sur chacun des paramètres avancés, consultez [Configurations avancées de génération de modèle](canvas-advanced-settings.md). Pour configurer les paramètres **Avancés**, procédez comme suit :

   1. Pour le menu déroulant **Métrique d’objectif**, sélectionnez la métrique que Canvas doit optimiser lors de la génération de votre modèle. Si vous ne sélectionnez aucune métrique, Canvas en choisit une pour vous par défaut. Pour obtenir des descriptions des métriques disponibles, consultez [Référence des métriques](canvas-metrics.md).

   1. Si vous exécutez une génération standard, vous verrez la section **Algorithmes**. Cette section permet de sélectionner les algorithmes de prévision de séries temporelles que vous souhaitez utiliser pour générer votre modèle. Vous pouvez sélectionner un sous-ensemble des algorithmes disponibles, ou vous pouvez tous les sélectionner si vous ne savez pas lesquels essayer.

      Lorsque vous exécutez votre génération standard, Canvas génère un modèle d’ensemble qui combine tous les algorithmes afin d’optimiser l’exactitude des prédictions.
**Note**  
Si vous exécutez une génération rapide, Canvas utilise un algorithme d’apprentissage arborescent unique pour entraîner votre modèle, et vous n’avez pas à sélectionner d’algorithmes.

   1. Pour **Quantiles de prévision**, saisissez jusqu’à 5 valeurs de quantiles séparées par des virgules pour spécifier les limites supérieure et inférieure de votre prévision.

   1. Après avoir configuré les paramètres **Avancés**, choisissez **Enregistrer**.

1. Sélectionnez ou désélectionnez des colonnes dans vos données pour les inclure ou les retirer de votre création.
**Note**  
Si vous effectuez des prédictions par lots avec votre modèle après sa création, Canvas ajoute les colonnes retirées à vos résultats de prédiction. Toutefois, Canvas n'ajoute pas les colonnes retirées à vos prédictions par lots pour les modèles de séries temporelles.

1. (Facultatif) Utilisez les outils de visualisation et d'analyse fournis par Canvas pour visualiser vos données et déterminer les fonctionnalités que vous souhaitez inclure dans votre modèle. Pour plus d'informations, consultez [Exploration et analyse de vos données](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html) (langue française non garantie).

1. (Facultatif) Utilisez les transformations de données pour nettoyer, transformer et préparer vos données pour la création de modèle. Pour plus d'informations, consultez [Préparation de vos données avec des transformations avancées](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html) (langue française non garantie). Vous pouvez afficher et retirer vos transformations en choisissant **Recette de modèle** pour ouvrir le panneau latéral **Recette de modèle**.

1. (Facultatif) Pour les fonctionnalités supplémentaires telles que la prévisualisation de la précision de votre modèle, la validation de votre jeu de données et la modification de la taille de l'échantillon aléatoire prélevé par Canvas à partir de votre ensemble de données, consultez [Prévisualisation de votre modèle](canvas-preview-model.md).

1. Après avoir examiné vos données et apporté des modifications à votre jeu de données, choisissez **Création rapide** ou **Création standard** pour commencer la création de votre modèle.

Une fois que la création de votre modèle a commencé, vous pouvez quitter la page. Lorsque le modèle indique **Prêt** sur la page **Mes modèles**, il est prêt pour l’analyse et les prédictions.

# Configurations avancées de génération de modèle
<a name="canvas-advanced-settings"></a>

Amazon SageMaker Canvas prend en charge différents paramètres avancés que vous pouvez configurer lors de la création d'un modèle. La page suivante répertorie tous les paramètres avancés ainsi que des informations supplémentaires sur leurs options et configurations.

**Note**  
Les paramètres avancés suivants ne sont actuellement pris en charge que pour les types de modèles de prévision numériques, catégoriels et de séries temporelles.

## Paramètres avancés de modèle de prédiction numérique et catégoriel
<a name="canvas-advanced-settings-predictive"></a>

Canvas prend en charge les paramètres avancés suivants pour les types de modèles de prédiction numériques et catégoriels.

### Métrique d’objectif
<a name="canvas-advanced-settings-predictive-obj-metric"></a>

La métrique d’objectif est la métrique que vous voulez que Canvas optimise lors de la génération de votre modèle. Si vous ne sélectionnez aucune métrique, Canvas en choisit une pour vous par défaut. Pour une description des métriques disponibles, consultez [Référence des métriques](canvas-metrics.md).

### Méthode d’entraînement
<a name="canvas-advanced-settings-predictive-method"></a>

Canvas peut sélectionner automatiquement la méthode d’entraînement en fonction de la taille du jeu de données. Vous pouvez également la sélectionner manuellement. Vous pouvez choisir parmi les méthodes d’entraînement suivantes :
+ **Assemblage** — SageMaker L'IA utilise la AutoGluon bibliothèque pour entraîner plusieurs modèles de base. Pour trouver la meilleure combinaison pour votre jeu de données, le mode ensembliste exécute entre 5 et 10 essais avec différentes valeurs de modèle et de méta-paramètres. Ensuite, ces modèles sont combinés à l’aide d’une méthode ensembliste par empilement pour créer un modèle prédictif optimal. Pour obtenir la liste des algorithmes pris en charge par le mode ensembliste pour les données tabulaires, consultez la section [Algorithmes](#canvas-advanced-settings-predictive-algos) suivante.
+ **Optimisation des hyperparamètres (HPO)** : l' SageMaker IA trouve la meilleure version d'un modèle en ajustant les hyperparamètres à l'aide de l'optimisation bayésienne ou de l'optimisation multifidélité lors de l'exécution de tâches d'entraînement sur votre ensemble de données. Le mode HPO sélectionne les algorithmes les plus pertinents pour votre jeu de données et la meilleure gamme d’hyperparamètres pour ajuster vos modèles. Pour ajuster vos modèles, le mode HPO exécute jusqu’à 100 essais (par défaut) afin de trouver les valeurs d’hyperparamètres optimales dans la plage sélectionnée. Si la taille de votre jeu de données est inférieure à 100 Mo, l' SageMaker IA utilise l'optimisation bayésienne. SageMaker L'IA choisit l'optimisation multifidélité si votre ensemble de données est supérieur à 100 Mo.

  Pour obtenir la liste des algorithmes pris en charge par le mode HPO pour les données tabulaires, consultez la section [Algorithmes](#canvas-advanced-settings-predictive-algos) suivante.
+ **Auto** — SageMaker L'IA choisit automatiquement le mode d'assemblage ou le mode HPO en fonction de la taille de votre jeu de données. Si votre jeu de données est supérieur à 100 Mo, SageMaker AI choisit le mode HPO. Dans le cas contraire, il choisit le mode Assemblage.

### Algorithmes
<a name="canvas-advanced-settings-predictive-algos"></a>

En mode **Assemblage**, Canvas prend en charge les algorithmes de machine learning suivants :
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) : framework optimisé qui utilise des algorithmes arborescents avec renforcement de gradient. Cet algorithme utilise des arborescences qui se développent en largeur plutôt qu’en profondeur, et est hautement optimisé en termes de vitesse.
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html)— Un framework qui utilise des algorithmes basés sur des arbres avec augmentation du gradient. Optimisé pour la gestion des variables catégorielles.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Un framework qui utilise des algorithmes basés sur des arbres avec une augmentation du gradient qui augmente en profondeur plutôt qu'en largeur.
+ [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) (Forêt aléatoire) : algorithme arborescent qui utilise plusieurs arbres de décision sur des sous-échantillons aléatoires des données avec remplacement. Les arbres sont divisés en nœuds optimaux à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d’éviter tout surajustement et d’améliorer les prédictions.
+ [Extra Trees](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) (Arbres supplémentaires) : algorithme arborescent qui utilise plusieurs arbres de décision sur l’ensemble du jeu de données. Les arbres sont divisés aléatoirement à chaque niveau. La moyenne des décisions de chaque arbre est calculée afin d’éviter tout surajustement et d’améliorer les prédictions. Les arbres supplémentaires ajoutent un degré de randomisation par rapport à l’algorithme Random Forest (Forêt aléatoire).
+ [Linear Models](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) (Modèles linéaires) : framework qui utilise une équation linéaire pour modéliser la relation entre deux variables dans les données observées.
+ Neural network torch (Réseau neuronal torch) : modèle de réseau neuronal implémenté à l’aide de [Pytorch](https://pytorch.org/).
+ Neural network fast.ai (Réseau neuronal fast.ai) : modèle de réseau neuronal implémenté à l’aide de [fast.ai](https://www.fast.ai/).

En **mode HPO**, Canvas prend en charge les algorithmes de machine learning suivants :
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html) : un algorithme d'apprentissage supervisé qui tente de prédire avec précision une variable cible en combinant un ensemble d'estimations à partir d'un jeu de modèles plus simples et plus faibles.
+ Algorithme de deep learning : perceptron multicouche (MLP) et réseau neuronal artificiel à action directe. Cet algorithme traite les données qui ne sont pas linéairement séparables.

### Fractionnement des données
<a name="canvas-advanced-settings-predictive-split"></a>

Vous avez la possibilité de spécifier comment vous souhaitez répartir votre jeu de données entre le jeu d’entraînement (la partie de votre jeu de données utilisée pour générer le modèle) et le jeu de validation (la partie de votre jeu de données utilisée pour vérifier l’exactitude du modèle). Par exemple, un rapport de fractionnement courant prévoit 80 % pour l’entraînement et 20 % pour la validation, 80 % de vos données étant utilisées pour générer le modèle tandis que 20 % sont enregistrées pour mesurer les performances du modèle. Si vous ne spécifiez pas de rapport personnalisé, Canvas divise automatiquement votre jeu de données.

### Nombre maximal de candidats
<a name="canvas-advanced-settings-predictive-candidates"></a>

**Note**  
Cette fonctionnalité est disponible uniquement en mode d’entraînement HPO.

Vous pouvez spécifier le nombre maximal de modèles candidats que Canvas génère lors de la génération de votre modèle. Nous vous recommandons d’utiliser le nombre par défaut de candidats, à savoir 100, pour générer les modèles les plus précis. Le nombre maximal que vous pouvez spécifier est 250. La diminution du nombre de modèles candidats peut avoir un impact sur l’exactitude de votre modèle.

### Durée maximale d’exécution
<a name="canvas-advanced-settings-predictive-runtime"></a>

Vous pouvez spécifier la durée d’exécution maximale des tâches ou le temps maximal que Canvas passe à générer votre modèle. Passé le délai imparti, Canvas arrête la génération et sélectionne le meilleur modèle candidat.

La durée maximale que vous pouvez spécifier est de 720 heures. Nous vous recommandons vivement de maintenir la durée d’exécution maximale des tâches au-dessus de 30 minutes pour veiller à ce que Canvas dispose de suffisamment de temps pour générer des modèles candidats et terminer la génération de votre modèle.

## Paramètres avancés du modèle de prévision de séries temporelles
<a name="canvas-advanced-settings-time-series"></a>

Pour les modèles de prévision de séries temporelles, Canvas prend en charge la métrique d’objectif, répertoriée dans la section précédente.

Les modèles de prévision de séries temporelles prennent également en charge le paramètre avancé suivant :

### Sélection d’algorithmes
<a name="canvas-advanced-settings-time-series-algos"></a>

Lorsque vous générez un modèle de prévision de séries temporelles, Canvas utilise un *ensemble* (ou une combinaison) d’algorithmes statistiques et de machine learning pour fournir des prédictions de séries temporelles très précises. Par défaut, Canvas sélectionne la combinaison optimale de tous les algorithmes disponibles en fonction des séries temporelles figurant dans votre jeu de données. Vous avez toutefois la possibilité de spécifier un ou plusieurs algorithmes à utiliser pour votre modèle de prévision. Dans ce cas, Canvas détermine la combinaison optimale en utilisant uniquement les algorithmes que vous avez sélectionnés. Si vous ne savez pas quel algorithme sélectionner pour entraîner votre modèle, nous vous recommandons de choisir tous les algorithmes disponibles.

**Note**  
La sélection d’algorithmes n’est prise en charge que pour les générations standard. Si vous ne sélectionnez aucun algorithme dans les paramètres avancés, l' SageMaker IA exécute par défaut une génération rapide et forme les candidats modèles à l'aide d'un seul algorithme d'apprentissage basé sur des arbres. Pour plus d’informations sur la différence entre les générations rapides et les générations standard, consultez [Fonctionnement des modèles personnalisés](canvas-build-model.md).

Canvas prend en charge les algorithmes de prévision de séries temporelles suivants :
+ [ARIMA (Autoregressive Integrated Moving Average)](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average) : modèle de séries temporelles stochastique simple qui utilise l’analyse statistique pour interpréter les données et effectuer des prédictions futures. Cet algorithme est utile pour les jeux de données simples comportant moins de 100 séries temporelles.
+ [CNN-QR (Convolutional Neural Network - Quantile Regression)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-algo-cnnqr.html) : algorithme d’apprentissage supervisé propriétaire qui entraîne un modèle global unique à partir d’une vaste collection de séries temporelles et utilise un décodeur quantile pour effectuer des prédictions. CNN-QR fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles.
+ [DeepAR\$1](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-deeparplus.html) — Algorithme d'apprentissage supervisé propriétaire permettant de prévoir des séries chronologiques scalaires à l'aide de réseaux neuronaux récurrents (RNNs) pour entraîner conjointement un seul modèle sur l'ensemble des séries chronologiques. DeepAR\$1 fonctionne de façon optimale avec de grands jeux de données contenant des centaines de séries temporelles de caractéristiques.
+ [NPTS (Non-Parametric Time Series)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-npts.html) : prédicteur évolutif de base probabiliste qui prédit la distribution future des valeurs d’une série temporelle donnée par échantillonnage à partir d’observations passées. NPTS est utile lorsque vous travaillez avec des séries temporelles éparses ou intermittentes (par exemple, pour prévoir la demande pour des articles individuels lorsque la série temporelle comporte de nombreux 0 ou des valeurs faibles).
+ [Lissage exponentiel (ETS)](https://en.wikipedia.org/wiki/Exponential_smoothing) : méthode de prévision qui produit des prévisions qui sont des moyennes pondérées d’observations passées, le poids des anciennes observations diminuant de façon exponentielle. Cet algorithme est utile pour les jeux de données simples contenant moins de 100 séries temporelles et les jeux de données présentant des motifs saisonniers.
+ [Prophet](https://facebook.github.io/prophet/) : modèle de régression additive qui fonctionne de façon optimale avec des séries temporelles présentant de forts effets saisonniers et plusieurs saisons de données historiques. L’algorithme est utile pour les jeux de données présentant des tendances de croissance non linéaires proches d’une limite.

### Quantiles de prévision
<a name="canvas-advanced-settings-time-series-quantiles"></a>

Pour la prévision des séries chronologiques, l' SageMaker IA forme 6 modèles candidats avec vos séries chronologiques cibles. SageMaker L'IA combine ensuite ces modèles à l'aide d'une méthode d'empilement d'ensembles afin de créer un modèle de prévision optimal pour une métrique objective donnée. Chaque modèle de prévision génère une prévision probabiliste en produisant des prévisions aux quantiles compris entre P1 et P99. Ces quantiles sont utilisés pour tenir compte de l’incertitude des prévisions. Par défaut, les prévisions sont générées pour 0,1 (`p10`), 0,5 (`p50`) et 0,9 (`p90`). Vous pouvez choisir de spécifier jusqu’à cinq de vos propres quantiles de 0,01 (`p1`) jusqu’à 0,99 (`p99`), par incréments de 0,01 ou plus.

# Modification d’un jeu de données d’image
<a name="canvas-edit-image"></a>

Dans Amazon SageMaker Canvas, vous pouvez modifier vos ensembles de données d'images et revoir vos étiquettes avant de créer un modèle. Vous souhaiterez peut-être effectuer des tâches telles que l'attribution d'étiquettes à des images non étiquetées ou l'ajout d'images au jeu de données. Ces tâches peuvent toutes être effectuées dans l'application Canvas, ce qui vous permet de modifier votre jeu de données et de créer un modèle au même endroit.

**Note**  
Avant de créer un modèle, vous devez attribuer des étiquettes à toutes les images de votre jeu de données. Vous devez également avoir au moins 25 images par étiquette et au moins deux étiquettes. Pour plus d'informations sur l'attribution d'étiquettes, consultez la section de cette page intitulée **Attribution d'étiquettes à des images non étiquetées**. Si vous ne parvenez pas à définir l'étiquette d'une image, vous devez la supprimer de votre jeu de données. Pour plus d'informations sur la suppression d'images, consultez [Ajouter ou supprimer des images dans le jeu de données](#canvas-edit-image-add-delete) sur cette page.

Pour commencer à modifier votre jeu de données d'image, vous devez accéder à l'onglet **Création** lorsque vous créez votre modèle de prédiction d'image à étiquette unique.

Une nouvelle page s'ouvre et affiche les images de votre jeu de données ainsi que leurs étiquettes. Cette page classe votre jeu de données d'image en trois catégories : **Nombre total d'images**, **Images étiquetées** et **Images non étiquetées**. Vous pouvez également consulter le **guide de préparation des jeux de données** pour connaître les bonnes pratiques en matière de création d'un modèle de prédiction d'image plus précis.

La capture d'écran suivante illustre la page de modification de votre jeu de données d'image.

![\[Capture d'écran de la page de gestion du jeu de données d'image dans Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/dataset-management-page.png)


À partir de cette page, vous pouvez effectuer les actions suivantes.

## Afficher les propriétés de chaque image (étiquette, taille, dimensions)
<a name="canvas-edit-image-view"></a>

Pour afficher une image individuelle, vous pouvez la rechercher par son nom de fichier dans la barre de recherche. Choisissez ensuite l'image pour ouvrir la vue complète. Vous pouvez afficher les propriétés de l'image et réattribuer son étiquette. Choisissez **Enregistrer** lorsque vous avez terminé de visionner l'image.

## Ajouter, renommer ou supprimer des étiquettes dans le jeu de données
<a name="canvas-edit-image-labels"></a>

Canvas répertorie les étiquettes de votre jeu de données dans le panneau de navigation de gauche. Vous pouvez ajouter de nouvelles étiquettes au jeu de données en entrant une étiquette dans le champ de texte **Ajouter une étiquette**.

Pour renommer ou supprimer une étiquette de votre jeu de données, choisissez l'icône **Plus d'options** (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)) en regard de l'étiquette et sélectionnez **Renommer** ou **Supprimer**. Si vous renommez l'étiquette, vous pouvez entrer un nouveau nom pour l'étiquette et choisir **Confirmer**. Si vous supprimez l’étiquette, elle est retirée de toutes les images de votre jeu de données qui portent cette étiquette. Toutes les images dotées de cette étiquette seront laissées non étiquetées.

## Attribuer des étiquettes à des images non étiquetées
<a name="canvas-edit-image-assign"></a>

Pour afficher les images non étiquetées de votre jeu de données, choisissez **Sans étiquette** dans le panneau de navigation de gauche. Pour chaque image, sélectionnez-la, ouvrez l'étiquette intitulée **Sans étiquette** et sélectionnez une étiquette à attribuer à l'image dans la liste déroulante. Vous pouvez également sélectionner plusieurs images et effectuer cette action. Toutes les images sélectionnées se verront attribuer l'étiquette que vous avez choisie.

## Réattribuer des étiquettes aux images
<a name="canvas-edit-image-reassign"></a>

Vous pouvez réattribuer des étiquettes aux images en sélectionnant l'image (ou plusieurs images à la fois) et en ouvrant le menu déroulant portant le nom de l'étiquette en question. Sélectionnez l'étiquette de votre choix et l'image ou les images sont mises à jour avec la nouvelle étiquette.

## Trier vos images par étiquette
<a name="canvas-edit-image-sort"></a>

Vous pouvez afficher toutes les images d'une étiquette donnée en choisissant l'étiquette dans le panneau de navigation de gauche.

## Ajouter ou supprimer des images dans le jeu de données
<a name="canvas-edit-image-add-delete"></a>

Vous pouvez ajouter d'autres images à votre jeu de données en choisissant **Ajouter des images** dans le panneau de navigation supérieur. Vous serez guidé à travers le flux de travail d'importation d'images. Les images que vous importez sont ajoutées à votre jeu de données existant.

Vous pouvez supprimer des images de votre jeu de données en les sélectionnant, puis en choisissant **Supprimer** dans le panneau de navigation supérieur.

**Note**  
Après avoir apporté des modifications à votre jeu de données, choisissez **Enregistrer le jeu de données** pour vous assurer de ne pas perdre vos modifications.

# Exploration et analyse de données
<a name="canvas-explore-data"></a>

**Note**  
Vous ne pouvez utiliser les visualisations et les analyses SageMaker Canvas que pour les modèles basés sur des ensembles de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

Dans Amazon SageMaker Canvas, vous pouvez explorer les variables de votre ensemble de données à l'aide de visualisations et d'analyses, et créer des visualisations et des analyses intégrées à l'application. Vous pouvez utiliser ces explorations pour découvrir les relations entre vos variables avant de créer votre modèle.

Pour plus d'informations sur les techniques de visualisation dans Canvas, consultez [Exploration de vos données à l’aide de techniques de visualisation](canvas-explore-data-visualization.md).

Pour plus d'informations sur les analyses dans Canvas, consultez [Exploration de vos données à l’aide de l’analytique](canvas-explore-data-analytics.md).

# Exploration de vos données à l’aide de techniques de visualisation
<a name="canvas-explore-data-visualization"></a>

**Note**  
Vous ne pouvez utiliser les visualisations SageMaker Canvas que pour les modèles basés sur des jeux de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

Avec Amazon SageMaker Canvas, vous pouvez explorer et visualiser vos données pour obtenir des informations avancées sur vos données avant de créer vos modèles de machine learning. Vous pouvez les visualiser à l’aide de nuages de points, de diagrammes à barres et de diagrammes de quartiles, ce qui peut vous aider à comprendre vos données et à découvrir les relations entre les caractéristiques susceptibles d’affecter la précision du modèle.

Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Data visualizer** pour commencer à créer vos visualisations.

Vous pouvez modifier la taille de l’échantillon de visualisation pour régler la taille de l’échantillon aléatoire prélevé dans votre jeu de données. Une trop grande taille d'échantillon peut affecter les performances de vos visualisations de données. Nous vous recommandons donc de choisir une taille d'échantillon appropriée. Pour modifier la taille de l'échantillon, utilisez la procédure suivante.

1. Choisissez **Visualization sample** (Échantillon de visualisation).

1. Utilisez le curseur pour sélectionner la taille d'échantillon souhaitée.

1. Choisissez **Update** (Mettre à jour) pour confirmer la modification de votre taille d'échantillon.

**Note**  
Certaines techniques de visualisation nécessitent des colonnes d'un type de données spécifique. Par exemple, vous pouvez utiliser uniquement des colonnes numériques pour les axes x et y des nuages de points.

## Diagramme à points
<a name="canvas-explore-data-scatterplot"></a>

Pour créer un nuage de points avec votre jeu de données, choisissez **Scatter plot** (Nuage de points) dans le volet **Visualization** (Visualisation). Choisissez les fonctionnalités que vous souhaitez tracer sur les axes x et y à partir de la section **Colonnes**. Vous pouvez faire glisser les colonnes sur les axes ou, une fois qu’un axe a été déposé, vous pouvez choisir une colonne dans la liste des colonnes prises en charge.

Vous pouvez utiliser **Color by** (Couleur par) pour colorer les points de données du graphique avec une troisième caractéristique. Vous pouvez également utiliser **Group by** (Grouper par) pour regrouper les données dans des graphiques distincts en fonction d'une quatrième caractéristique.

L'image suivante illustre un nuage de points qui utilise **Color by** (Couleur par) et **Group by** (Grouper par). Dans cet exemple, chaque point de données est coloré par la caractéristique `MaritalStatus` et le regroupement par la caractéristique `Department` génère un nuage de points pour les points de données de chaque service.

![\[Capture d'écran d'un nuage de points dans la vue Visualiseur de données de l'application Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-eda-scatter-plot.png)


## Diagramme à barres
<a name="canvas-explore-data-barchart"></a>

Pour créer un diagramme à barres avec votre jeu de données, choisissez **Bar chart** (Diagramme à barres) dans le volet **Visualization** (Visualisation). Choisissez les fonctionnalités que vous souhaitez tracer sur les axes x et y à partir de la section **Colonnes**. Vous pouvez faire glisser les colonnes sur les axes ou, une fois qu’un axe a été déposé, vous pouvez choisir une colonne dans la liste des colonnes prises en charge.

Vous pouvez utiliser **Group by** (Grouper par) pour regrouper le graphique à barres en fonction d’une troisième caractéristique. Vous pouvez utiliser **Stack by** (Empiler par) pour ombrer verticalement chaque barre en fonction des valeurs uniques d'une quatrième caractéristique.

L'image suivante montre un graphique à barres qui utilise **Group by** (Grouper par) et **Stack by** (Empiler par). Dans cet exemple, le graphique à barres est groupé par la caractéristique `MaritalStatus` et empilé par la caractéristique `JobLevel`. Pour chaque `JobRole` sur l’axe x, il existe une barre distincte pour les catégories uniques dans la caractéristique `MaritalStatus` et chaque barre est empilée verticalement par la caractéristique `JobLevel`.

![\[Capture d'écran d'un graphique à barres dans la vue Visualiseur de données de l'application Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-eda-bar-chart.png)


## Diagramme de quartiles
<a name="canvas-explore-data-boxplot"></a>

Pour créer un diagramme de quartiles avec votre jeu de données, choisissez **Box plot** (Diagramme de quartiles) dans le volet **Visualization** (Visualisation). Choisissez les fonctionnalités que vous souhaitez tracer sur les axes x et y à partir de la section **Colonnes**. Vous pouvez faire glisser les colonnes sur les axes ou, une fois qu’un axe a été déposé, vous pouvez choisir une colonne dans la liste des colonnes prises en charge.

Vous pouvez utiliser **Group by** (Grouper par) pour regrouper les diagrammes de quartiles en fonction d’une troisième caractéristique.

L'image suivante montre un diagramme de quartiles qui utilise **Group by** (Grouper par). Dans cet exemple, les axes x et y montrent `JobLevel` et `JobSatisfaction`, respectivement, et les diagrammes de quartiles colorés sont regroupés selon la caractéristique `Department`.

![\[Capture d'écran d'un diagramme de quartiles dans la vue Visualiseur de données de l'application Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-eda-box-plot.png)


# Exploration de vos données à l’aide de l’analytique
<a name="canvas-explore-data-analytics"></a>

**Note**  
Vous ne pouvez utiliser les analyses SageMaker Canvas que pour les modèles basés sur des ensembles de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

Grâce aux analyses d'Amazon SageMaker Canvas, vous pouvez explorer votre ensemble de données et obtenir des informations sur toutes vos variables avant de créer un modèle. Vous pouvez déterminer les relations entre les fonctions de votre jeu de données à l'aide de matrices de corrélation. Vous pouvez utiliser cette technique pour résumer votre jeu de données dans une matrice qui montre les corrélations entre deux valeurs ou plus. Cela vous permet d'identifier et de visualiser des modèles dans un jeu de données donné pour une analyse avancée des données.

La matrice montre la corrélation entre chaque caractéristique sous forme positive, négative ou neutre. Vous souhaiterez peut-être inclure des fonctions présentant une forte corrélation entre elles lors de la création de votre modèle. Les fonctions qui n'ont que peu ou pas de corrélation peuvent ne pas être pertinentes pour votre modèle et vous pouvez supprimer ces fonctions lors de la création de votre modèle.

Pour commencer à utiliser les matrices de corrélation dans SageMaker Canvas, consultez la section suivante.

## Créer une matrice de corrélation
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

Vous pouvez créer une matrice de corrélation lorsque vous vous préparez à créer un modèle dans l'onglet **Créer** de l'application SageMaker Canvas.

Pour obtenir des instructions sur les premières étapes de création d'un modèle, consultez [Créer un modèle](canvas-build-model-how-to.md).

Après avoir commencé à préparer un modèle dans l'application SageMaker Canvas, procédez comme suit :

1. Dans l'onglet **Build** (Créer), choisissez **Data visualizer** (Visualiseur de données).

1. Choisissez **Analytics** (Analytique).

1. Choisissez **Correlation matrix** (Matrice de corrélation).

Vous devriez voir une visualisation similaire à la capture d'écran suivante, qui montre jusqu'à 15 colonnes du jeu de données organisées dans une matrice de corrélation.

![\[Capture d'écran d'une matrice de corrélation dans l'application Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


Une fois que vous avez créé la matrice de corrélation, vous pouvez la personnaliser en procédant comme suit :

### 1. Choisir vos colonnes
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

Pour **Columns** (Colonnes), vous pouvez sélectionner les colonnes que vous souhaitez inclure dans la matrice. Vous pouvez comparer jusqu'à 15 colonnes de votre jeu de données.

**Note**  
Vous pouvez utiliser des types de colonnes numériques, catégoriels ou binaires pour une matrice de corrélation. La matrice de corrélation ne prend pas en charge les types de colonne de données date/heure ou texte.

Pour ajouter ou supprimer des colonnes de la matrice de corrélation, sélectionnez et désélectionnez des colonnes dans le panneau **Columns** (Colonnes). Vous pouvez également glisser-déposer des colonnes du panneau directement sur la matrice. Si votre jeu de données comporte de nombreuses colonnes, vous pouvez rechercher les colonnes souhaitées dans la barre **Search columns** (Rechercher des colonnes).

Pour filtrer les colonnes par type de données, choisissez la liste déroulante et sélectionnez **Tous**, **Numérique** ou **Catégoriel**. En sélectionnant **All** (Tout), vous pouvez voir toutes les colonnes de votre jeu de données, tandis que les filtres **Numeric** (Numérique) et **Categorical** (Categorical (catégorie)) ne vous montrent que les colonnes numériques ou catégorielles de votre jeu de données. Notez que les types de colonnes binaires sont inclus dans les filtres numériques ou catégoriels.

Pour obtenir les meilleures informations sur les données, incluez votre colonne cible dans la matrice de corrélation. Lorsque vous incluez votre colonne cible dans la matrice de corrélation, elle apparaît comme la dernière fonction de la matrice avec un symbole cible.

### 2. Choisir votre type de corrélation
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas prend en charge différents *types de corrélation* ou méthodes de calcul de la corrélation entre vos colonnes.

Pour modifier le type de corrélation, utilisez le filtre **Columns** (Colonnes) mentionné dans la section précédente afin de filtrer le type de colonne et les colonnes souhaités. Vous devriez voir le **Correlation type** (Type de corrélation) dans le panneau latéral. Pour les comparaisons numériques, vous pouvez sélectionner **Pearson** ou **Spearman**. Pour les comparaisons catégorielles, le type de corrélation est défini sur **MI**. Pour les comparaisons catégorielles et mixtes, le type de corrélation est défini sur **Spearman & MI**.

Pour les matrices qui ne comparent que des colonnes numériques, le type de corrélation est Pearson ou Spearman. La mesure de Pearson évalue la relation linéaire entre deux variables continues. La mesure de Spearman évalue la relation monotone entre deux variables. Pour Pearson et Spearman, l'échelle de corrélation va de -1 à 1, chaque extrémité de l'échelle indiquant une corrélation parfaite (une relation directe de 1:1) et 0 indiquant l'absence de corrélation. Vous pouvez vouloir sélectionner Pearson si vos données présentent davantage de relations linéaires (comme le montre une [visualisation par nuage de points](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)). Si vos données ne sont pas linéaires ou contiennent un mélange de relations linéaires et monotones, vous pouvez sélectionner Spearman.

Pour les matrices qui ne comparent que des colonnes catégorielles, le type de corrélation est défini sur Mutual Information Classification (MI). La valeur MI est une mesure de la dépendance mutuelle entre deux variables aléatoires. La mesure de MI est sur une échelle de 0 à 1, 0 indiquant l'absence de corrélation et 1 indiquant une corrélation parfaite.

Pour les matrices qui comparent un mélange de colonnes numériques et catégorielles, le type de corrélation **Spearman & MI** est une combinaison des types de corrélation Spearman et MI. Pour les corrélations entre deux colonnes numériques, la matrice indique la valeur de Spearman. Pour les corrélations entre une colonne numérique et une colonne catégorielle ou deux colonnes catégorielles, la matrice indique la valeur MI.

Enfin, n'oubliez pas que la corrélation n'indique pas nécessairement un lien de causalité. Une forte valeur de corrélation indique uniquement qu'il existe une relation entre deux variables, mais les variables peuvent ne pas avoir de relation causale. Passez en revue attentivement les colonnes qui vous intéressent afin d'éviter tout biais lors de la création de votre modèle.

### 3. Filtrer vos corrélations
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

Dans le panneau latéral, vous pouvez utiliser la fonction **Filter correlations** (Filtrer les corrélations) pour filtrer la plage de valeurs de corrélation que vous souhaitez inclure dans la matrice. Par exemple, si vous souhaitez filtrer les fonctions qui n'ont qu'une corrélation positive ou neutre, vous pouvez définir **Min** sur 0 et **Max** sur 1 (les valeurs valides sont comprises entre -1 et 1).

Pour les comparaisons entre Spearman et Pearson, vous pouvez définir la plage **Filter correlations** (Filtrer les corrélations) comprise entre -1 et 1, 0 signifiant qu'il n'y a aucune corrélation. -1 et 1 signifient que les variables présentent une forte corrélation négative ou positive, respectivement.

Pour les comparaisons MI, la plage de corrélation va uniquement de 0 à 1, 0 signifiant qu'il n'y a pas de corrélation et 1 signifie que les variables ont une forte corrélation, positive ou négative.

Chaque fonction possède une corrélation parfaite (1) avec elle-même. Par conséquent, vous remarquerez peut-être que la ligne supérieure de la matrice de corrélation est toujours 1. Si vous souhaitez exclure ces valeurs, vous pouvez utiliser le filtre pour définir **Max** inférieur à 1.

N'oubliez pas que si votre matrice compare un mélange de colonnes numériques et catégorielles et utilise le type de corrélation **Spearman & MI**, les corrélations *catégorielles x numériques* et *catégorielles x catégorielles* (qui utilisent la mesure MI) se situent sur une échelle de 0 à 1, alors que les corrélations *numériques x numériques* (qui utilisent la mesure Spearman) sont sur une échelle de -1 à 1. Examinez attentivement les corrélations qui vous intéressent pour vous assurer de connaître le type de corrélation utilisé pour calculer chaque valeur.

### 4. Choisir la méthode de visualisation
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

Dans le panneau latéral, vous pouvez utiliser **Visualize by** (Visualiser par) pour modifier la méthode de visualisation de la matrice. Choisissez la méthode de visualisation **Numérique** pour montrer la valeur de corrélation (Pearson, Spearman ou MI), ou choisissez la méthode de visualisation **Taille** pour visualiser la corrélation avec des points de tailles et de couleurs différentes. Si vous choisissez **Size** (Taille), vous pouvez survoler un point spécifique de la matrice pour voir la valeur de corrélation réelle.

### 5. Choisir une palette de couleurs
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

Dans le panneau latéral, vous pouvez utiliser **Color selection** (Sélection de couleurs) pour modifier la palette de couleurs utilisée pour l'échelle de corrélation négative à positive dans la matrice. Sélectionnez l’une des palettes de couleurs alternatives pour modifier les couleurs utilisées dans la matrice.

# Préparation des données pour la génération du modèle
<a name="canvas-prepare-data"></a>

**Note**  
Vous pouvez désormais effectuer une préparation avancée des données dans SageMaker Canvas avec Data Wrangler, qui vous fournit une interface en langage naturel et plus de 300 transformations intégrées. Pour de plus amples informations, veuillez consulter [Préparation des données](canvas-data-prep.md).

Votre jeu de données de machine learning peut nécessiter une préparation des données avant de créer votre modèle. Vous pourriez vouloir nettoyer vos données en raison de divers problèmes, notamment des valeurs manquantes ou aberrantes, et effectuer une ingénierie des fonctionnalités pour améliorer la précision de votre modèle. Amazon SageMaker Canvas fournit des transformations de données ML grâce auxquelles vous pouvez nettoyer, transformer et préparer vos données pour la création de modèles. Vous pouvez utiliser ces transformations sur vos ensembles de données sans aucun code. SageMaker Canvas ajoute les transformations que vous utilisez à la **recette du modèle**, qui est un enregistrement de la préparation des données effectuée sur vos données avant de créer le modèle. Les transformations de données que vous utilisez ne modifient que les données d’entrée pour la création du modèle et ne modifient pas votre source de données d’origine.

L’aperçu de votre jeu de données montre les 100 premières lignes du jeu de données. Si votre jeu de données comporte plus de 20 000 lignes, Canvas prend un échantillon aléatoire de 20 000 lignes et affiche un aperçu des 100 premières lignes de cet échantillon. Vous ne pouvez rechercher et spécifier que les valeurs des lignes prévisualisées, et la fonctionnalité de filtrage ne filtre que les lignes prévisualisées et non l’ensemble du jeu de données.

Les transformations suivantes sont disponibles dans SageMaker Canvas pour vous permettre de préparer vos données en vue de leur création.

**Note**  
Vous pouvez uniquement utiliser des transformations avancées pour les modèles basés sur des jeux de données tabulaires. Les modèles de prédiction de texte multi-catégories sont également exclus.

## Supprimer des colonnes
<a name="canvas-prepare-data-drop"></a>

Vous pouvez exclure une colonne de la génération de votre modèle en la déposant dans l'onglet **Construire** de l'application SageMaker Canvas. Désélectionnez la colonne que vous voulez supprimer et elle ne sera pas incluse dans la création du modèle.

**Note**  
Si vous supprimez des colonnes puis effectuez des [prédictions par lots](canvas-make-predictions.md) avec votre modèle, SageMaker Canvas réajoute les colonnes supprimées au jeu de données de sortie que vous pouvez télécharger. Cependant, SageMaker Canvas ne réajoute pas les colonnes supprimées pour les modèles de séries chronologiques.

## Filtrer les lignes
<a name="canvas-prepare-data-filter"></a>

La fonctionnalité de filtrage permet de filtrer les lignes visualisées (les 100 premières lignes de votre jeu de données) en fonction des conditions que vous spécifiez. Le filtrage des lignes crée un aperçu temporaire des données et n'a pas d'impact sur la création du modèle. Vous pouvez filtrer pour prévisualiser les lignes qui présentent des valeurs manquantes, contiennent des valeurs aberrantes ou répondent à des conditions personnalisées dans une colonne que vous choisissez.

### Filtrer les lignes par valeurs manquantes
<a name="canvas-prepare-data-filter-missing"></a>

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning. Si vous avez des lignes avec des valeurs nulles ou vides dans certaines colonnes, vous pourriez vouloir filtrer et prévisualiser ces lignes.

Pour filtrer les valeurs manquantes de vos données prévisualisées, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Filtrer par lignes** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Choisissez la **Column** (Colonne) dans laquelle vous voulez vérifier les valeurs manquantes.

1. Pour **Operation** (Opération), choisissez **Is missing** (Est manquant).

SageMaker Le canevas filtre les lignes qui contiennent des valeurs manquantes dans la **colonne** que vous avez sélectionnée et fournit un aperçu des lignes filtrées.

![\[Capture d'écran de l'opération de filtrage par valeurs manquantes dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-filter-missing.png)


### Filtrer les lignes par valeurs aberrantes
<a name="canvas-prepare-data-filter-outliers"></a>

Les valeurs aberrantes, ou valeurs rares dans la distribution et la plage de vos données, peuvent avoir un impact négatif sur la précision du modèle et allonger les temps de construction. SageMaker Canvas vous permet de détecter et de filtrer les lignes contenant des valeurs aberrantes dans des colonnes numériques. Vous pouvez choisir de définir les valeurs aberrantes avec des écarts types ou une plage personnalisée.

Pour filtrer les valeurs aberrantes dans vos données, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Filtrer par lignes** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Choisissez la **Column** (Colonne) que vous voulez vérifier pour les valeurs aberrantes.

1. Pour **Operation** (Opération), choisissez **Is outlier** (Est aberrante).

1. Définissez la valeur **Outlier range** (Plage de valeurs aberrantes) sur **Standard deviation** (Écart type) ou **Custom range** (Plage personnalisée).

1. Si vous choisissez **Standard deviation** (Écart type), spécifiez une valeur **SD** (écart type) comprise entre 1 et 3. Si vous choisissez **Custom range** (Plage personnalisée), sélectionnez soit le **Percentile**, soit la valeur **Number** (Nombre), puis spécifiez les valeurs **Min** et **Max**.

L'option **Standard deviation** (Écart type) détecte et filtre les valeurs aberrantes dans les colonnes numériques en utilisant la moyenne et l'écart type. Vous spécifiez le nombre d'écarts-types qu'une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous spécifiez `3` pour **SD**, une valeur doit se situer à plus de trois écarts types de la moyenne pour être considérée comme une aberration.

L'option **Custom range** (Plage personnalisée) détecte et filtre les valeurs aberrantes dans les colonnes numériques à l'aide des valeurs minimum et maximum. Utilisez cette méthode si vous connaissez vos valeurs seuils qui délimitent les valeurs aberrantes. Vous pouvez définir le **Type** de la fourchette comme étant un **Percentile** ou un **Number** (Nombre). Si vous choisissez **Percentile**, les valeurs **Min** et **Max** doivent correspondre au minimum et au maximum de la plage de percentiles (0-100) que vous souhaitez autoriser. Si vous choisissez **Number** (Nombre), les valeurs **Min** et **Max** doivent correspondre aux valeurs numériques minimales et maximales que vous souhaitez filtrer dans les données.

![\[Capture d'écran du fonctionnement du filtre par valeurs aberrantes dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-filter-outlier.png)


### Filtrer les lignes par des valeurs personnalisées
<a name="canvas-prepare-data-filter-custom"></a>

Vous pouvez filtrer les lignes dont les valeurs répondent à des conditions personnalisées. Par exemple, vous pourriez vouloir prévisualiser les lignes dont la valeur du prix est supérieure à 100 avant de les supprimer. Grâce à cette fonctionnalité, vous pouvez filtrer les lignes qui dépassent le seuil que vous avez défini et prévisualiser les données filtrées.

Pour utiliser la fonctionnalité de filtre personnalisé, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Filtrer par lignes** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Choisissez la **Column** (Colonne) que vous voulez vérifier.

1. Sélectionnez le type d'**Opération** que vous souhaitez utiliser, puis spécifiez les valeurs pour la condition sélectionnée.

Pour **Opération**, vous pouvez choisir l’une des options suivantes. Notez que les opérations disponibles dépendent du type de données de la colonne que vous choisissez. Par exemple, vous ne pouvez pas créer une opération `is greater than` pour une colonne contenant des valeurs de texte.


| Opération | Type de données pris en charge | Type de fonctionnalité pris en charge | Fonction | 
| --- | --- | --- | --- | 
|  Est égal à  |  Numérique, Texte  | Binaire, Catégoriel |  Filtre les lignes dont la valeur dans **Column** (Colonne) est égale aux valeurs que vous spécifiez.  | 
|  N’est pas égal à  |  Numérique, Texte  | Binaire, Catégoriel |  Filtre les lignes dont la valeur dans **Column** (Colonne) n’est pas égale aux valeurs que vous spécifiez.  | 
|  Est inférieur à  |  Numérique  | N/A |  Filtre les lignes dont la valeur dans **Column** (Colonne) est inférieure à la valeur que vous spécifiez.  | 
|  Inférieur ou égal à  |  Numérique  | N/A |  Filtre les lignes dont la valeur dans **Column** (Colonne) est inférieure ou égale à la valeur que vous spécifiez.  | 
|  Est supérieur à  |  Numérique  | N/A |  Filtre les lignes dont la valeur dans **Column** (Colonne) est supérieure à la valeur que vous spécifiez.  | 
|  Supérieur ou égal à  |  Numérique  | N/A |  Filtre les lignes dont la valeur dans **Column** (Colonne) est supérieure ou égale à la valeur que vous spécifiez.  | 
|  Est comprise entre  |  Numérique  | N/A |  Filtre les lignes dont la valeur dans **Column** (Colonne) est comprise entre ou égale à deux valeurs que vous spécifiez.  | 
|  Contains  |  Texte  | Categorical (catégorie) |  Filtre les lignes dont la valeur dans **Column** (Colonne) contient une valeur que vous spécifiez.  | 
|  Starts with  |  Texte  | Categorical (catégorie) |  Filtre les lignes dont la valeur dans **Column** (Colonne) commence par une valeur que vous spécifiez.  | 
|  Termine par  |  Categorical (catégorie)  | Categorical (catégorie) |  Filtre les lignes dont la valeur dans **Column** (Colonne) se termine par une valeur que vous spécifiez.  | 

Après avoir défini l'opération de filtrage, SageMaker Canvas met à jour l'aperçu du jeu de données pour afficher les données filtrées.

![\[Capture d'écran de l'opération de filtrage par valeurs personnalisées dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-filter-custom.png)


## Fonctions et opérateurs
<a name="canvas-prepare-data-custom-formula"></a>

Vous pouvez utiliser des fonctions et des opérateurs mathématiques pour explorer et distribuer vos données. Vous pouvez utiliser les fonctions prises en charge par SageMaker Canvas ou créer votre propre formule avec vos données existantes et créer une nouvelle colonne avec le résultat de la formule. Par exemple, vous pouvez ajouter les valeurs correspondantes de deux colonnes et enregistrer le résultat dans une nouvelle colonne.

Vous pouvez imbriquer des instructions pour créer des fonctions plus complexes. Voici quelques exemples de fonctions imbriquées que vous pouvez utiliser.
+ Pour calculer l'IMC, vous pouvez utiliser la fonction `weight / (height ^ 2)`.
+ Pour classer les âges, vous pouvez utiliser la fonction `Case(age < 18, 'child', age < 65, 'adult', 'senior')`.

Vous pouvez spécifier des fonctions lors de la phase de préparation des données avant de créer votre modèle. Pour utiliser une fonction, procédez comme suit.
+ Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Afficher tout**, puis **Formule personnalisée** pour ouvrir le panneau **Formule personnalisée**.
+ Dans le volet **Formule personnalisée**, choisissez une **Formule** à ajouter à votre **Recette de modèle**. Chaque formule est appliquée à toutes les valeurs des colonnes que vous spécifiez. Pour les formules qui acceptent deux colonnes ou plus comme arguments, utilisez des colonnes avec des types de données correspondants ; sinon, vous obtenez une erreur ou des valeurs `null` dans la nouvelle colonne. 
+ Après avoir spécifié une **formule**, ajoutez un nom de colonne dans le champ **Nouveau nom de colonne**. SageMaker Canvas utilise ce nom pour la nouvelle colonne créée.
+ (Facultatif) Choisissez **Prévisualiser** pour prévisualiser votre transformation.
+ Pour ajouter la fonction à votre **Recette de modèle**, choisissez **Ajouter**.

SageMaker Canvas enregistre le résultat de votre fonction dans une nouvelle colonne en utilisant le nom que vous avez spécifié dans **Nouveau nom de colonne**. Vous pouvez afficher ou supprimer des fonctions dans le volet **Model recipe** (Recette du modèle).

SageMaker Canvas prend en charge les opérateurs suivants pour les fonctions. Vous pouvez utiliser le format texte ou en ligne pour spécifier votre fonction.


| Opérateur | Description | Types de données pris en charge | Format texte | Format en ligne | 
| --- | --- | --- | --- | --- | 
|  Addition  |  Renvoie la somme des valeurs  |  Numérique  | Add(sales1, sales2) | sales1 \$1 sales2 | 
|  Soustraction  |  Renvoie la différence entre les valeurs  |  Numérique  | Subtract(sales1, sales2) | sales1 ‐ sales2 | 
|  Multiplication  |  Renvoie le produit des valeurs  |  Numérique  | Multiply(sales1, sales2) | sales1 \$1 sales2 | 
|  Division  |  Renvoie le quotient des valeurs  |  Numérique  | Divide(sales1, sales2) | sales1 / sales2 | 
|  Mod  |  Renvoie le résultat de l'opérateur modulo (le reste après division des deux valeurs)  |  Numérique  | Mod(sales1, sales2) | sales1 % sales2 | 
|  Abs  | Renvoie la valeur absolue de la valeur |  Numérique  | Abs(sales1) | N/A | 
|  Négatif  | Renvoie le négatif de la valeur |  Numérique  | Negate(c1) | ‐c1 | 
|  Exp  |  Renvoie e (nombre d'Euler) élevé à la puissance de la valeur  |  Numérique  | Exp(sales1) | N/A | 
|  Journal  |  Renvoie le logarithme (base 10) de la valeur  |  Numérique  | Log(sales1) | N/A | 
|  Ln  |  Renvoie le logarithme naturel (base e) de la valeur  |  Numérique  | Ln(sales1) | N/A | 
|  Pow  |  Renvoie la valeur élevée à une puissance  |  Numérique  | Pow(sales1, 2) | sales1 ^ 2 | 
|  If  |  Renvoie une étiquette « true » ou « false » en fonction d'une condition que vous spécifiez  |  Booléen, Numérique, Texte  | If(sales1>7000, 'truelabel, 'falselabel') | N/A | 
|  Or  |  Renvoie une valeur booléenne indiquant si l’une des valeurs ou conditions spécifiées est true ou non  |  Booléen  | Or(fullprice, discount) | fullprice \$1\$1 discount | 
|  And  |  Renvoie une valeur booléenne indiquant si deux des valeurs ou conditions spécifiées sont true ou non  |  Booléen  | And(sales1,sales2) | sales1 && sales2 | 
|  Pas  |  Renvoie une valeur booléenne opposée à la valeur ou aux conditions spécifiées  |  Booléen  | Not(sales1) | \$1sales1 | 
|  Cas  |  Renvoie une valeur booléenne basée sur des instructions conditionnelles (renvoie c1 si cond1 est true, renvoie c2 si cond2 est true, sinon renvoie c3)  |  Booléen, Numérique, Texte  | Case(cond1, c1, cond2, c2, c3) | N/A | 
|  Égal à  |  Renvoie une valeur booléenne indiquant si deux valeurs sont égales  |  Booléen, Numérique, Texte  | N/A | c1 = c2c1 == c2 | 
|  Non égal à  |  Renvoie une valeur booléenne indiquant si deux valeurs ne sont pas égales  |  Booléen, Numérique, Texte  | N/A | c1 \$1= c2 | 
|  Inférieur à  |  Renvoie une valeur booléenne indiquant si c1 est inférieur à c2  |  Booléen, Numérique, Texte  | N/A | c1 < c2 | 
|  Supérieur à  |  Renvoie une valeur booléenne indiquant si c1 est supérieur à c2  |  Booléen, Numérique, Texte  | N/A | c1 > c2 | 
|  Inférieur ou égal à  |  Renvoie une valeur booléenne indiquant si c1 est inférieur ou égal à c2  |  Booléen, Numérique, Texte  | N/A | c1 <= c2 | 
|  Supérieur ou égal à  |  Renvoie une valeur booléenne indiquant si c1 est supérieur ou égal à c2  |  Booléen, Numérique, Texte  | N/A | c1 >= c2 | 

SageMaker Canvas prend également en charge les opérateurs d'agrégation, qui peuvent effectuer des opérations telles que le calcul de la somme de toutes les valeurs ou la recherche de la valeur minimale dans une colonne. Vous pouvez utiliser des opérateurs d'agrégation en combinaison avec des opérateurs standard dans vos fonctions. Par exemple, pour calculer la différence entre les valeurs et la moyenne, vous pouvez utiliser la fonction`Abs(height – avg(height))`. SageMaker Canvas prend en charge les opérateurs d'agrégation suivants.


| Opérateur d'agrégation | Description | Format | Exemple | 
| --- | --- | --- | --- | 
|  sum  |  Renvoie la somme de toutes les valeurs d'une colonne  | sum | sum(c1) | 
|  minimum  |  Renvoie la valeur minimale d'une colonne  | min | min(c2) | 
|  maximum  |  Renvoie la valeur maximale d'une colonne  | max | max(c3) | 
|  average  |  Renvoie la valeur moyenne d'une colonne  | avg | avg(c4) | 
|  std  | Renvoie l'écart type de l'échantillon d'une colonne | std | std(c1) | 
|  stddev  | Renvoie l'écart type des valeurs d'une colonne | stddev | stddev(c1) | 
|  variance  | Renvoie la variance sans décalage des valeurs d'une colonne | variance | variance(c1) | 
|  approx\$1count\$1distinct  | Renvoie le nombre approximatif d'éléments distincts dans une colonne | approx\$1count\$1distinct | approx\$1count\$1distinct(c1) | 
|  count  | Renvoie le nombre d'éléments dans une colonne | count | count(c1) | 
|  first  |  Renvoie la première valeur d'une colonne  | first | first(c1) | 
|  last  |  Renvoie la dernière valeur d'une colonne  | last | last(c1) | 
|  stddev\$1pop  | Renvoie l'écart type de population d'une colonne | stddev\$1pop | stddev\$1pop(c1) | 
|  variance\$1pop  |  Renvoie la variance de population des valeurs d'une colonne  | variance\$1pop | variance\$1pop(c1) | 

## Gestion des lignes
<a name="canvas-prepare-data-manage"></a>

La transformation Gérer les lignes vous permet d'effectuer un tri ou une réorganisation aléatoire et de supprimer des lignes de données du jeu de données.

### Tri des lignes
<a name="canvas-prepare-data-manage-sort"></a>

Pour trier les lignes d'un jeu de données selon une colonne donnée, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les lignes**, puis **Trier les lignes**.

1. Pour **Colonne de tri**, choisissez la colonne selon laquelle vous souhaitez effectuer le tri.

1. Pour **Ordre de tri**, choisissez **Croissant** ou **Décroissant**.

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

### Réorganisation des lignes
<a name="canvas-prepare-data-manage-shuffle"></a>

Pour réorganiser de manière aléatoire les lignes d'un jeu de données, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les lignes**, puis sélectionnez Mélanger **les lignes.**

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

### Suppression des lignes en double
<a name="canvas-prepare-data-manage-drop-duplicate"></a>

Pour supprimer les lignes en double d'un jeu de données, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les lignes**, puis Supprimer les **lignes dupliquées**.

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

### Supprimer les lignes par valeurs manquantes
<a name="canvas-prepare-data-remove-missing"></a>

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning et peuvent avoir un impact sur la précision des modèles. Utilisez cette transformation si vous voulez supprimer les lignes avec des valeurs nulles ou vides dans certaines colonnes.

Pour supprimer les lignes qui contiennent des valeurs manquantes dans une colonne spécifiée, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les lignes**.

1. Choisissez **Supprimer les lignes par valeurs manquantes**.

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

SageMaker Canvas supprime les lignes contenant des valeurs manquantes dans la **colonne** que vous avez sélectionnée. Après avoir supprimé les lignes du jeu de données, SageMaker Canvas ajoute la transformation dans la section **Modèle de recette**. Si vous supprimez la transformation de la section **Model recipe** (Recette du modèle), les lignes reviennent dans votre jeu de données.

![\[Capture d'écran de l'opération de suppression de lignes en cas de valeurs manquantes dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-remove-missing.png)


### Suppression des lignes contenant des valeurs aberrantes
<a name="canvas-prepare-data-remove-outliers"></a>

Les valeurs aberrantes, ou valeurs rares dans la distribution et la plage de vos données, peuvent avoir un impact négatif sur la précision du modèle et entraîner des temps de création plus longs. Avec SageMaker Canvas, vous pouvez détecter et supprimer les lignes contenant des valeurs aberrantes dans les colonnes numériques. Vous pouvez choisir de définir les valeurs aberrantes avec des écarts types ou une plage personnalisée.

Pour supprimer les valeurs aberrantes de vos données, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les lignes**.

1. Choisissez **Supprimer les lignes par valeurs aberrantes**.

1. Choisissez la **Column** (Colonne) que vous voulez vérifier pour les valeurs aberrantes.

1. Définissez **Opérateur** sur **Écart type**, **Plage numérique personnalisée** ou **Plage de quantiles personnalisée**.

1. Si vous choisissez **Écart type**, spécifiez une valeur pour **Écarts-types** comprise entre 1 et 3. Si vous choisissez **Plage numérique personnalisée** ou **Plage de quantiles personnalisé**, spécifiez les valeurs **Min** et **Max** (en nombres pour les plages numériques ou en centiles compris entre 0 et 100 % pour les plages de quantiles).

1. Choisissez **Add** (Ajouter) pour ajouter la transformation à la **Model recipe** (Recette du modèle).

L'option **Standard deviation** (Écart type) détecte et supprime les valeurs aberrantes dans les colonnes numériques en utilisant la moyenne et l'écart type. Vous spécifiez le nombre d’écarts-types qu’une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous définissez **Écarts-types** sur `3`, une valeur doit s'écarter de plus de 3 écarts-types de la moyenne pour être considérée comme aberrante.

Les options **Plage numérique personnalisée** et **Plage de quantiles personnalisée** détectent et suppriment les valeurs aberrantes dans les colonnes numériques en utilisant les valeurs minimale et maximale. Utilisez cette méthode si vous connaissez vos valeurs seuils qui délimitent les valeurs aberrantes. Si vous choisissez une plage numérique, les valeurs **Min** et **Max** doivent correspondre aux valeurs numériques minimales et maximales que vous souhaitez autoriser dans les données. Si vous choisissez une plage de quantiles, les valeurs **Min** et **Max** doivent correspondre au minimum et au maximum de la plage de centiles (0 à 100) que vous souhaitez autoriser.

Après avoir supprimé les lignes du jeu de données, SageMaker Canvas ajoute la transformation dans la section **Modèle de recette**. Si vous supprimez la transformation de la section **Model recipe** (Recette du modèle), les lignes reviennent dans votre jeu de données.

![\[Capture d'écran de l'opération de suppression de lignes par valeurs aberrantes dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-remove-outlier.png)


### Supprimer des lignes par des valeurs personnalisées
<a name="canvas-prepare-data-remove-custom"></a>

Vous pouvez supprimer les lignes dont les valeurs répondent à des conditions personnalisées. Par exemple, vous pourriez vouloir exclure toutes les lignes dont la valeur du prix est supérieure à 100 lors de la création de votre modèle. Avec cette transformation, vous pouvez créer une règle qui supprime toutes les lignes qui dépassent le seuil que vous avez défini.

Pour utiliser la transformation de suppression personnalisée, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les lignes**.

1. Choisissez **Supprimer les lignes par formule**.

1. Choisissez la **Column** (Colonne) que vous voulez vérifier.

1. Sélectionnez le type d'**Opération** que vous souhaitez utiliser, puis spécifiez les valeurs pour la condition sélectionnée.

1. Choisissez **Add** (Ajouter) pour ajouter la transformation à la **Model recipe** (Recette du modèle).

Pour **Operation** (Opération), vous pouvez choisir l'une des options suivantes. Notez que les opérations disponibles dépendent du type de données de la colonne que vous choisissez. Par exemple, vous ne pouvez pas créer une opération `is greater than` pour une colonne contenant des valeurs de texte.


| Opération | Type de données pris en charge | Type de fonctionnalité pris en charge | Fonction | 
| --- | --- | --- | --- | 
|  Est égal à  |  Numérique, Texte  |  Binaire, Catégoriel  |  Supprime les lignes dont la valeur dans **Column** (Colonne) est égale aux valeurs que vous spécifiez.  | 
|  N’est pas égal à  |  Numérique, Texte  |  Binaire, Catégoriel  |  Supprime les lignes dont la valeur dans **Column** (Colonne) n’est pas égale aux valeurs que vous spécifiez.  | 
|  Est inférieur à  |  Numérique  | N/A |  Supprime les lignes dont la valeur dans **Column** (Colonne) est inférieure à la valeur que vous spécifiez.  | 
|  Inférieur ou égal à  |  Numérique  | N/A |  Supprime les lignes dont la valeur dans **Column** (Colonne) est inférieure ou égale à la valeur que vous spécifiez.  | 
|  Est supérieur à  |  Numérique  | N/A |  Supprime les lignes dont la valeur dans **Column** (Colonne) est supérieure à la valeur que vous spécifiez.  | 
|  Supérieur ou égal à  | Numérique | N/A |  Supprime les lignes dont la valeur dans **Column** (Colonne) est supérieure ou égale à la valeur que vous spécifiez.  | 
|  Est comprise entre  | Numérique | N/A |  Supprime les lignes dont la valeur dans **Column** (Colonne) est comprise entre ou égale à deux valeurs que vous spécifiez.  | 
|  Contains  |  Texte  | Categorical (catégorie) |  Supprime les lignes dont la valeur dans **Column** (Colonne) contient une valeur que vous spécifiez.  | 
|  Starts with  |  Texte  | Categorical (catégorie) |  Supprime les lignes dont la valeur dans **Column** (Colonne) commence par une valeur que vous spécifiez.  | 
|  Termine par  |  Texte  | Categorical (catégorie) |  Supprime les lignes dont la valeur dans **Column** (Colonne) se termine par une valeur que vous spécifiez.  | 

Après avoir supprimé les lignes du jeu de données, SageMaker Canvas ajoute la transformation dans la section **Modèle de recette**. Si vous supprimez la transformation de la section **Model recipe** (Recette du modèle), les lignes reviennent dans votre jeu de données.

![\[Capture d'écran de l'opération de suppression de lignes par valeurs personnalisées dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-remove-custom.png)


## Changement de nom de colonne
<a name="canvas-prepare-data-rename"></a>

Avec la transformation Rename columns (Renommer les colonnes), vous pouvez renommer les colonnes dans vos données. Lorsque vous renommez une colonne, SageMaker Canvas change le nom de la colonne dans l'entrée du modèle.

Vous pouvez renommer une colonne de votre ensemble de données en double-cliquant sur le nom de la colonne dans l'onglet **Créer** de l'application SageMaker Canvas et en saisissant un nouveau nom. En appuyant sur la touche **Entrée**, vous soumettez la modification, et en cliquant n'importe où en dehors de l'entrée, vous annulez la modification. Vous pouvez également renommer une colonne en cliquant sur l'icône **More options** (Plus d'options) (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)), située à la fin de la ligne en vue liste ou à la fin de la cellule d'en-tête en vue grille, et en choisissant **Rename** (Renommer).

Le nom de votre colonne ne peut pas dépasser 32 caractères, ni comporter de doubles traits de soulignement (\$1\$1), et vous ne pouvez pas renommer une colonne avec le même nom qu'une autre colonne. Vous ne pouvez pas non plus renommer une colonne supprimée.

La capture d'écran suivante montre comment renommer une colonne en double-cliquant sur le nom de la colonne.

![\[Capture d'écran montrant comment renommer une colonne à l'aide de la méthode du double-clic dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-rename-column.png)


Lorsque vous renommez une colonne, SageMaker Canvas ajoute la transformation dans la section **Modèle de recette**. Si vous supprimez la transformation de la section **Model recipe** (Recette du modèle), la colonne reprend son nom d’origine.

## Gestion des colonnes
<a name="canvas-prepare-data-manage-cols"></a>

Les transformations suivantes vous permettent de modifier le type de données des colonnes et de remplacer les valeurs manquantes ou les valeurs aberrantes pour des colonnes spécifiques. SageMaker Canvas utilise les types de données ou les valeurs mis à jour lors de la création de votre modèle, mais ne modifie pas votre jeu de données d'origine. Notez que si vous avez supprimé une colonne de votre jeu de données à l’aide de [Supprimer des colonnes](#canvas-prepare-data-drop) transformer, vous ne pouvez pas remplacer les valeurs de cette colonne.

### Remplacer les valeurs manquantes
<a name="canvas-prepare-data-replace-missing"></a>

Les valeurs manquantes sont fréquentes dans les jeux de données de machine learning et peuvent avoir un impact sur la précision des modèles. Vous pouvez choisir de supprimer les lignes contenant des valeurs manquantes, mais votre modèle est plus précis si vous choisissez de remplacer les valeurs manquantes à la place. Avec cette transformation, vous pouvez remplacer les valeurs manquantes dans les colonnes numériques par la moyenne ou la médiane des données d'une colonne, ou vous pouvez également spécifier une valeur personnalisée pour remplacer les valeurs manquantes. Pour les colonnes non numériques, vous pouvez remplacer les valeurs manquantes par le mode (valeur la plus courante) de la colonne ou par une valeur personnalisée.

Utilisez cette transformation si vous voulez supprimer les lignes avec des valeurs nulles ou vides dans certaines colonnes. Pour supprimer les lignes qui contiennent des valeurs manquantes dans une colonne spécifiée, procédez comme suit. 

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les colonnes**.

1. Choisissez **Remplacer les valeurs manquantes**.

1. Choisissez la **Colonne** dans laquelle vous voulez vérifier les valeurs manquantes.

1. Définissez **Mode** sur **Manuel** pour remplacer les valeurs manquantes par des valeurs que vous spécifiez. Avec le paramètre **Automatique (par défaut)**, SageMaker Canvas remplace les valeurs manquantes par des valeurs imputées qui correspondent le mieux à vos données. Cette méthode d'imputation est effectuée automatiquement pour chaque création de modèle, sauf si vous spécifiez le mode **Manuel**.

1. Définissez la valeur **Remplacer par** :
   + Si votre colonne est numérique, sélectionnez **Moyenne**, **Médiane**, ou **Personnalisée**. **Moyenne** remplace les valeurs manquantes par la moyenne de la colonne, et**Médiane** remplace les valeurs manquantes par la médiane de la colonne. Si vous choisissez **Personnalisée**, vous devez spécifier une valeur personnalisée que vous souhaitez utiliser pour remplacer les valeurs manquantes.
   + Si votre colonne n'est pas numérique, sélectionnez **Mode** ou **Personnalisée**. **Mode** remplace les valeurs manquantes par le mode, ou la valeur la plus courante de la colonne. Pour **Personnalisée**, spécifiez une valeur personnalisée que vous souhaitez utiliser pour remplacer les valeurs manquantes.

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

Après avoir remplacé les valeurs manquantes dans le jeu de données, SageMaker Canvas ajoute la transformation dans la section **Modèle de recette**. Si vous supprimez la transformation de la section **Recette du modèle**, les lignes reviennent dans votre jeu de données.

![\[Capture d'écran de l'opération de remplacement des valeurs manquantes dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-replace-missing.png)


### Remplacer les valeurs aberrantes
<a name="canvas-prepare-data-replace-outliers"></a>

Les valeurs aberrantes, ou valeurs rares dans la distribution et la plage de vos données, peuvent avoir un impact négatif sur la précision du modèle et allonger les temps de construction. SageMaker Canvas vous permet de détecter les valeurs aberrantes dans des colonnes numériques et de les remplacer par des valeurs comprises dans une plage acceptée dans vos données. Vous pouvez choisir de définir les valeurs aberrantes avec des écarts types ou une plage personnalisée, et vous pouvez remplacer les valeurs aberrantes par les valeurs minimales et maximales de la plage acceptée.

Pour supprimer les valeurs aberrantes de vos données, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, choisissez **Gérer les colonnes**.

1. Choisissez **Remplacer les valeurs aberrantes**.

1. Choisissez la **Colonne** que vous voulez vérifier pour les valeurs aberrantes.

1. Pour **Définir les valeurs aberrantes**, choisissez **Écart type**, **Plage numérique personnalisée** ou **Plage de quantiles personnalisée**.

1. Si vous choisissez **Écart type**, spécifiez une valeur pour **Écarts-types** comprise entre 1 et 3. Si vous choisissez **Plage numérique personnalisée** ou **Plage de quantiles personnalisé**, spécifiez les valeurs **Min** et **Max** (en nombres pour les plages numériques ou en centiles compris entre 0 et 100 % pour les plages de quantiles).

1. Pour **Remplacer par**, sélectionnez la **Plage minimale/maximale**.

1. Choisissez **Ajouter** pour ajouter la transformation à la **Recette du modèle**.

L'option **Écart type** détecte et supprime les valeurs aberrantes dans les colonnes numériques en utilisant la moyenne et l'écart type. Vous spécifiez le nombre d’écarts-types qu’une valeur doit avoir par rapport à la moyenne pour être considérée comme une valeur aberrante. Par exemple, si vous spécifiez 3 pour les **écarts types**, une valeur doit être inférieure à plus de 3 écarts types par rapport à la moyenne pour être considérée comme une valeur aberrante. SageMaker Canvas remplace les valeurs aberrantes par la valeur minimale ou maximale comprise dans la plage acceptée. Par exemple, si vous configurez les écarts types pour inclure uniquement les valeurs comprises entre 200 et 300, SageMaker Canvas change une valeur de 198 à 200 (valeur minimale).

Les options **Plage numérique personnalisée** et **Plage de quantiles personnalisée** détectent les valeurs aberrantes dans les colonnes numériques en utilisant les valeurs minimale et maximale. Utilisez cette méthode si vous connaissez vos valeurs seuils qui délimitent les valeurs aberrantes. Si vous choisissez une plage numérique, les valeurs **minimale** et **maximale** doivent être les valeurs numériques minimale et maximale que vous souhaitez autoriser. SageMaker Canvas remplace toutes les valeurs situées en dehors des valeurs minimale et maximale par les valeurs minimale et maximale. Par exemple, si votre plage n'autorise que des valeurs comprises entre 1 et 100, SageMaker Canvas change une valeur comprise entre 102 et 100 (valeur maximale). Si vous choisissez une plage de quantiles, les valeurs **Min** et **Max** doivent correspondre au minimum et au maximum de la plage de centiles (0 à 100) que vous souhaitez autoriser.

Après avoir remplacé les valeurs du jeu de données, SageMaker Canvas ajoute la transformation dans la section **Modèle de recette**. Si vous supprimez la transformation de la section **Recette du modèle**, les valeurs reviennent dans votre jeu de données.

![\[Capture d'écran de l'opération de remplacement des valeurs aberrantes dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-replace-outlier.png)


### Modifier le type de données
<a name="canvas-prepare-data-change-type"></a>

SageMaker Canvas vous permet de modifier le *type de données* de vos colonnes entre numérique, texte et date/heure, tout en affichant le type de *fonctionnalité associé à ce type* de données. Un *type de données* fait référence au format des données et à leur mode de stockage, tandis que le *type de fonctionnalité* fait référence aux caractéristiques des données utilisées dans les algorithmes de machine learning, telles que les données binaires ou catégorielles. Vous pouvez ainsi modifier manuellement le type de données dans vos colonnes en fonction des fonctionnalités. La possibilité de choisir le type de données approprié garantit l'intégrité et la précision des données avant de créer des modèles. Ces types de données sont utilisés lors de la création de modèles.

**Note**  
Actuellement, la modification du type de fonctionnalité (par exemple, de binaire à catégoriel) n'est pas prise en charge.

Le tableau suivant répertorie tous les types de données pris en charge dans Canvas.


| Type de données | Description | Exemple | 
| --- | --- | --- | 
| Numérique | Les données numériques représentent des valeurs numériques | 1, 2, 31,1, 1,2. 1.3 | 
| Texte | Les données texte représentent des séquences de caractères, comme des noms ou des descriptions | A, B, C, Dpomme, banane, orange1A\$1, 2A\$1, 3A\$1 | 
| Datetime | Les données de date/heure représentent des dates et des heures au format d'horodatage | 2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00 | 

Le tableau suivant répertorie tous les types de fonctionnalités pris en charge dans Canvas.


| Type de fonction | Description | Exemple | 
| --- | --- | --- | 
| Binaire | Les fonctionnalités binaires représentent deux valeurs possibles | 0, 1, 0, 1, 0 (2 valeurs distinctes)true, false, true (2 valeurs distinctes) | 
| Categorical (catégorie) | Les fonctionnalités catégorielles représentent des catégories ou des groupes distincts | pomme, banane, orange, pomme (3 valeurs distinctes)A, B, C, D, E, A, D, C (5 valeurs distinctes) | 

Pour modifier le type de données d'une colonne dans un jeu de données, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, accédez à la **vue en colonnes** ou à la **vue en grille** et sélectionnez le menu déroulant **Type de données** pour la colonne en question.

1. Dans le menu déroulant **Type de données**, choisissez le type de données à convertir. La capture d’écran suivante illustre le menu déroulant.  
![\[Menu déroulant de conversion du type de données pour une colonne, affiché dans l’onglet Générer.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-change.png)

1. Pour **Colonne**, choisissez ou vérifiez la colonne dont vous souhaitez modifier le type de données.

1. Pour **Nouveau type de données**, choisissez ou vérifiez le nouveau type de données vers lequel vous souhaitez effectuer la conversion.

1. Si le **Nouveau type de données** est `Datetime` ou `Numeric`, choisissez l'une des options suivantes sous **Gérer les valeurs non valides** :

   1. **Remplacer par une valeur vide** : les valeurs non valides sont remplacées par une valeur vide

   1. **Supprimer les lignes** : les lignes comportant une valeur non valide sont supprimées du jeu de données

   1. **Remplacer par une valeur personnalisée** : les valeurs non valides sont remplacées par la **Valeur personnalisée** que vous spécifiez.

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

Le type de données de votre colonne doit maintenant être mis à jour.

## Préparation des données de séries temporelles
<a name="canvas-prepare-data-timeseries"></a>

Utilisez les fonctionnalités suivantes pour préparer vos données de séries temporelles à la création de modèles de prévision de séries temporelles.

### Rééchantillonnage des données de séries temporelles
<a name="canvas-prepare-data-resample"></a>

En rééchantillonnant les données de séries temporelles, vous pouvez établir des intervalles réguliers pour les observations dans votre jeu de données de séries temporelles. Ce processus s'avère particulièrement utile lorsque vous travaillez avec des données de séries temporelles contenant des observations espacées de manière irrégulière. Par exemple, vous pouvez utiliser le rééchantillonnage pour transformer un jeu de données contenant des observations enregistrées toutes les heures, toutes les deux heures et toutes les trois heures en un intervalle régulier d'une heure entre les observations. Les algorithmes de prévision exigent que les observations soient effectuées à intervalles réguliers.

Pour rééchantillonner les données de séries temporelles, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, sélectionnez **Série chronologique**.

1. Choisissez **Rééchantillonner**.

1. Pour **Colonne d'horodatage**, choisissez la colonne à laquelle vous souhaitez appliquer la transformation. Vous ne pouvez sélectionner que des colonnes de type **Date/heure**.

1. Dans la section **Paramètres de fréquence**, choisissez une **Fréquence** et une **Vitesse**. La **Fréquence** est l'unité de fréquence et la **Vitesse** est l'intervalle de l'unité de fréquence à appliquer à la colonne. Par exemple, en choisissant `Calendar Day` pour **Fréquence** et `1` pour **Vitesse**, l'intervalle augmente tous les jours calendaires ; par exemple `2023-03-26 00:00:00`, `2023-03-27 00:00:00`, `2023-03-28 00:00:00`. Consultez le tableau suivant cette procédure pour obtenir la liste complète des **valeurs de fréquence**. 

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

Le tableau suivant répertorie tous les types de **Fréquence** que vous pouvez sélectionner lors du rééchantillonnage des données de séries temporelles.


| Frequency (Fréquence) | Description | Exemples de valeurs (en supposant que la Vitesse est définie sur 1) | 
| --- | --- | --- | 
|  Jour ouvrable  |  Rééchantillonner les observations dans la colonne de date/heure les 5 jours ouvrables de la semaine (lundi, mardi, mercredi, jeudi, vendredi)  |  24/24 00:00:00 27 00:00:00 28/02 00:00:00 29/30 00:00:00 30 00:00:00 31/03 00:00:00 03/04/2023 00:00:00  | 
|  Jour calendaire  |  Rééchantillonner les observations dans la colonne de date/heure les 7 jours de la semaine (lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche)  |  06/26 00:00:00 27 00:00:00 28/02 00:00:00 29/30 00:00:00 30 00:00:00 31/03 00:00:00 01/04/2023 00:00:00  | 
|  semaine  |  Rééchantillonner les observations dans la colonne de date/heure le premier jour de chaque semaine  |  13 00:00:00 20 00:00:00 27 00:00:00 03/04/2023 00:00:00  | 
|  Mois  |  Rééchantillonner les observations dans la colonne de date/heure le premier jour de chaque mois  |  01/01 00:00:00 01/04/2023 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00  | 
|  Trimestre annuel  |  Rééchantillonner les observations dans la colonne de date/heure le dernier jour de chaque trimestre  |  31/03 00:00:00 23-06-30 00:00:00 23-09-30 00:00:00 23/12-31 00:00:00  | 
|  Année  |  Rééchantillonner les observations dans la colonne de date/heure le dernier jour de chaque année  |  05.12-31 0:00:00 23/12-31 00:00:00 31/12/2024 00:00:00  | 
|  Heure  |  Rééchantillonner les observations dans la colonne de date/heure toutes les heures, tous les jours  |  24/24 00:00:00 24 juillet 01:00:00 24 juillet 02:00:00 24/03 03:00:00  | 
|  Minute  |  Rééchantillonner les observations dans la colonne de date/heure toutes les minutes, toutes les heures  |  24/24 00:00:00 24/24 00:01:00 24/24 00:02:00 24/24 00:03:00  | 
|  Seconde  |  Rééchantillonner les observations dans la colonne de date/heure toutes les secondes, toutes les minutes  |  24/24 00:00:00 24 heures-24 00:00:01 24 heures-24 00:00:02 24 heures-24 00:00:03  | 

Lorsque vous appliquez la transformation de rééchantillonnage, vous pouvez utiliser l'option **Avancé** pour spécifier la façon dont les valeurs résultantes des autres colonnes (autres que la colonne d'horodatage) de votre jeu de données sont modifiées. Pour ce faire, vous pouvez spécifier la méthodologie de rééchantillonnage, qui peut être un sous-échantillonnage ou un suréchantillonnage pour les colonnes numériques et non numériques.

Le *sous-échantillonnage* augmente l'intervalle entre les observations dans le jeu de données. Par exemple, si vous sous-échantillonnez les observations qui sont effectuées toutes les heures ou toutes les deux heures, chaque observation de votre jeu de données est effectuée toutes les deux heures. Les valeurs des autres colonnes d'observations horaires sont agrégées en une seule valeur en utilisant une méthode de combinaison. Les tableaux ci-dessous fournissent un exemple de sous-échantillonnage des données de séries temporelles en utilisant la moyenne comme méthode de combinaison. Les données sont sous-échantillonnées toutes les deux heures à toutes les heures.

Le tableau suivant fournit les relevés de températures horaires plus d'un jour avant le sous-échantillonnage.


| Horodatage | Température (Celsius) | 
| --- | --- | 
| 12:00 | 30 | 
| 1:00 | 32 | 
| 2:00 | 35 | 
| 3:00 | 32 | 
| 4:00 | 30 | 

Le tableau suivant indique les relevés de température après le sous-échantillonnage toutes les deux heures.


| Horodatage | Température (Celsius) | 
| --- | --- | 
| 12:00 | 30 | 
| 2:00 | 33,5 | 
| 2:00 | 35 | 
| 4:00 | 32,5 | 

Pour sous-échantillonner les données de séries temporelles, procédez comme suit :

1. Développez la section **Avancé** sous la transformation **Rééchantillonner**.

1. Choisissez **Combinaison non numérique** pour spécifier la méthode de combinaison des colonnes non numériques. Consultez le tableau ci-dessous pour obtenir la liste complète des méthodes de combinaison.

1. Choisissez **Combinaison numérique** pour spécifier la méthode de combinaison des colonnes numériques. Consultez le tableau ci-dessous pour obtenir la liste complète des méthodes de combinaison.

Si vous ne spécifiez aucune méthode de combinaison, les valeurs par défaut sont `Most Common` pour **Combinaison non numérique** et `Mean` pour **Combinaison numérique**. Le tableau suivant répertorie les méthodes de combinaison numérique et non numérique.


| Méthodologie de sous-échantillonnage | Méthode de combinaison | Description | 
| --- | --- | --- | 
| Combinaison non numérique | La plus courante | Agréger les valeurs de la colonne non numérique par la valeur la plus courante | 
| Combinaison non numérique | La dernière | Agréger les valeurs de la colonne non numérique par la dernière valeur de la colonne | 
| Combinaison non numérique | La première | Agréger les valeurs de la colonne non numérique par la première valeur de la colonne | 
| Combinaison numérique | Mean | Agréger les valeurs de la colonne numérique en prenant la moyenne de toutes les valeurs de la colonne | 
| Combinaison numérique | Médiane | Agréger les valeurs de la colonne numérique en prenant la médiane de toutes les valeurs de la colonne | 
| Combinaison numérique | Min | Agréger les valeurs de la colonne numérique en prenant le minimum de toutes les valeurs de la colonne | 
| Combinaison numérique | Max | Agréger les valeurs de la colonne numérique en prenant le maximum de toutes les valeurs de la colonne | 
| Combinaison numérique | Somme | Agréger les valeurs de la colonne numérique en ajoutant toutes les valeurs de la colonne | 
| Combinaison numérique | Quantile | Agréger les valeurs de la colonne numérique en prenant le quantile de toutes les valeurs de la colonne | 

Le *suréchantillonnage* réduit l'intervalle entre les observations dans le jeu de données. Par exemple, si vous suréchantillonnez les observations effectuées toutes les deux heures en observations horaires, les valeurs des autres colonnes des observations horaires sont interpolées à partir de celles qui ont été effectuées toutes les deux heures.

Pour suréchantillonner les données de séries temporelles, procédez comme suit :

1. Développez la section **Avancé** sous la transformation **Rééchantillonner**.

1. Choisissez **Estimation non numérique** pour spécifier la méthode d'estimation pour les colonnes non numériques. Consultez le tableau suivant cette procédure pour obtenir la liste complète des méthodes.

1. Choisissez **Estimation numérique** pour spécifier la méthode d'estimation pour les colonnes numériques. Consultez le tableau ci-dessous pour obtenir la liste complète des méthodes.

1. (Facultatif) Choisissez la **colonne ID** pour spécifier la IDs colonne contenant les observations de la série chronologique. Spécifiez cette option si votre jeu de données comporte deux séries temporelles. Si vous avez une colonne qui représente une seule série temporelle, ne spécifiez pas de valeur pour ce champ. Par exemple, vous pouvez avoir un jeu de données comportant les colonnes `id` et `purchase`. La colonne `id` comporte les valeurs suivantes : `[1, 2, 2, 1]`. La colonne `purchase` comporte les valeurs suivantes : `[$2, $3, $4, $1]`. Par conséquent, le jeu de données comporte deux séries temporelles : `1: [$2, $1]` et `2: [$3, $4]`.

Si vous ne spécifiez aucune méthode d'estimation, les valeurs par défaut sont `Forward Fill` pour **Estimation non numérique** et `Linear` pour **Estimation numérique**. Le tableau suivant répertorie les méthodes d'estimation.


| Méthodologie de suréchantillonnage | Méthode d'estimation | Description | 
| --- | --- | --- | 
| Estimation non numérique | Remplissage avant | Interpolez les valeurs de la colonne non numérique en prenant les valeurs consécutives après toutes les valeurs de la colonne | 
| Estimation non numérique | Remplissage arrière | Interpolez les valeurs de la colonne non numérique en prenant les valeurs consécutives avant toutes les valeurs de la colonne | 
| Estimation non numérique | Conserver les valeurs manquantes | Interpoler les valeurs de la colonne non numérique en affichant les valeurs vides | 
| Estimation numérique | Linéaire, Temps, Index, Zéro, Linéaire en S, Le plus proche, Quadratique, Cubique, Barycentrique, Polynomial, Krogh, Polynomial sous forme de fragments, Spline, P-chip, Akima, Spline cubique, À partir de dérivées | Interpolez les valeurs de la colonne numérique à l'aide de l'interpolateur spécifié. Pour plus d'informations sur les méthodes d'interpolation, voir [pandas. DataFrame.interpolate dans la documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) sur les pandas. | 

La capture d’écran suivante illustre les paramètres **Avancé** avec les champs de sous-échantillonnage et de suréchantillonnage remplis.

![\[Application Canvas, avec le panneau latéral de rééchantillonnage de séries temporelles qui affiche les options avancées.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-resampling.png)


### Utilisation de l’extraction de la date/heure
<a name="canvas-prepare-data-datetime"></a>

Avec la transformation d’extraction datetime, vous pouvez extraire les valeurs d’une colonne datetime vers une colonne séparée. Par exemple, si vous disposez d'une colonne contenant les dates des achats, vous pouvez extraire la valeur du mois dans une colonne distincte et utiliser la nouvelle colonne lors de la création de votre modèle. Vous pouvez également extraire plusieurs valeurs vers des colonnes distinctes avec une seule transformation.

Votre colonne datetime doit utiliser un format d'horodatage pris en charge. Pour obtenir la liste des formats pris en charge par SageMaker Canvas, consultez[Prévisions de séries chronologiques dans Amazon SageMaker Canvas](canvas-time-series.md). Si votre jeu de données n'utilise aucun des formats pris en charge, mettez-le à jour pour utiliser un format d'horodatage compatible et réimportez-le dans Amazon SageMaker Canvas avant de créer votre modèle.

Pour effectuer une extraction datetime, procédez comme suit.

1. Dans l'onglet **Créer** de l'application SageMaker Canvas, dans la barre des transformations, choisissez **Afficher tout**.

1. Choisissez **Extract features** (Extraire des ressources).

1. Choisissez la **Colonne d'horodatage** dont vous voulez extraire les valeurs.

1. Pour **Valeurs**, sélectionnez une ou plusieurs valeurs à extraire de la colonne. Les valeurs que vous pouvez extraire d’une colonne d’horodatage sont **Année**, **Mois**, **Jour**, **Heure**, **Semaine de l’année**, **Jour de l’année** et **Trimestre**.

1. (Facultatif) Choisissez **Prévisualiser** pour prévisualiser les résultats de la transformation.

1. Choisissez **Ajouter** pour ajouter la transformation à la **recette du modèle **.

SageMaker Canvas crée une nouvelle colonne dans le jeu de données pour chacune des valeurs que vous extrayez. À l'exception des valeurs **annuelles**, SageMaker Canvas utilise un codage basé sur 0 pour les valeurs extraites. Par exemple, si vous extrayez la valeur **Month** (Mois), janvier est extrait en tant que 0, et février est extrait en tant que 1.

![\[Capture d'écran de la zone d'extraction de la date et de l'heure dans l'application SageMaker Canvas.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/studio/canvas/canvas-datetime-extract.png)


Vous pouvez voir la transformation répertoriée dans la section **Model recipe** (Recette du modèle). Si vous supprimez la transformation de la section **Model recipe** (Recette du modèle), les nouvelles colonnes sont supprimées du jeu de données.