

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Fonctionnement du traitement des données dans Data Wrangler
<a name="canvas-data-processing"></a>

Lorsque vous travaillez avec des données de manière interactive dans un flux de SageMaker données Amazon Data Wrangler, Amazon SageMaker Canvas applique les transformations uniquement à un exemple de jeu de données pour que vous puissiez le prévisualiser. Après avoir terminé votre flux de données dans SageMaker Canvas, vous pouvez traiter toutes vos données et les enregistrer dans un emplacement adapté à vos flux de travail d'apprentissage automatique.

Il existe plusieurs options pour procéder une fois que vous avez fini de transformer vos données dans Data Wrangler :
+ [Créez un modèle](canvas-processing-export-model.md). Vous pouvez créer un modèle Canvas, dans lequel vous pouvez directement commencer à créer un modèle avec les données que vous avez préparées. Vous pouvez créer un modèle soit après avoir traité l’intégralité de votre jeu de données, soit en exportant uniquement les exemples de données que vous avez utilisés dans Data Wrangler. Canvas enregistre les données que vous avez traitées (soit le jeu de données complet, soit les exemples de données) en tant que jeu de données Canvas.

  Nous vous recommandons d’utiliser vos exemples de données pour des itérations rapides, mais d’utiliser l’intégralité de vos données lorsque vous souhaitez entraîner votre modèle final. Lors de la génération de modèles tabulaires, les jeux de données supérieurs à 5 Go sont automatiquement sous-échantillonnés à 5 Go, et pour les modèles de prévision de séries temporelles, les jeux de données supérieurs à 30 Go sont sous-échantillonnés à 30 Go.

  Pour en savoir plus sur la création d’un modèle, consultez [Fonctionnement des modèles personnalisés](canvas-build-model.md).
+ [Exportez les données](canvas-export-data.md). Vous pouvez exporter vos données pour les utiliser dans des flux de travail de machine learning. Lorsque vous choisissez d’exporter vos données, plusieurs options s’offrent à vous :
  + Vous pouvez enregistrer vos données dans l’application Canvas sous la forme d’un jeu de données. Pour plus d’informations sur les types de fichiers pris en charge pour les jeux de données Canvas et sur les exigences supplémentaires relatives à l’importation de données dans Canvas, consultez [Création d’un jeu de données](canvas-import-dataset.md).
  + Vous pouvez enregistrer vos données dans Amazon S3. En fonction de la disponibilité de la mémoire Canvas, vos données sont traitées dans l’application puis exportées vers Amazon S3. Si la taille de votre jeu de données dépasse ce que Canvas peut traiter, Canvas utilise par défaut une tâche EMR sans serveur pour effectuer une mise à l’échelle vers plusieurs instances de calcul, traiter votre jeu de données complet et l’exporter vers Amazon S3. Vous pouvez également configurer manuellement une tâche de SageMaker traitement afin de contrôler de manière plus précise les ressources informatiques utilisées pour traiter vos données.
+ [Exportez un flux de données](canvas-export-data-flow.md). Vous souhaiterez peut-être enregistrer le code de votre flux de données afin de pouvoir modifier ou exécuter vos transformations en dehors de Canvas. Canvas vous offre la possibilité d’enregistrer vos transformations de flux de données sous forme de code Python dans un bloc-notes Jupyter, que vous pouvez ensuite exporter vers Amazon S3 pour les utiliser ailleurs dans vos flux de travail de machine learning.

Lorsque vous exportez vos données depuis un flux de données et que vous les enregistrez sous forme de jeu de données Canvas ou dans Amazon S3, Canvas crée un nouveau nœud de destination dans votre flux de données, qui est un nœud final qui vous indique où sont stockées vos données traitées. Vous pouvez ajouter des nœuds de destination supplémentaires à votre flux si vous souhaitez effectuer plusieurs opérations d’exportation. Par exemple, vous pouvez exporter les données à partir de différents points de votre flux de données pour n’appliquer que certaines transformations, ou vous pouvez exporter les données transformées vers différents emplacements Amazon S3. Pour plus d’informations sur l’ajout ou la modification d’un nœud de destination, consultez [Ajout de nœuds de destination](canvas-destination-nodes-add.md) et [Modification d’un nœud de destination](canvas-destination-nodes-edit.md).

Pour plus d'informations sur la configuration d'un calendrier avec Amazon EventBridge afin de traiter et d'exporter automatiquement vos données selon un calendrier, consultez[Création d’une planification pour traiter automatiquement les nouvelles données](canvas-data-export-schedule-job.md).

# Exportation pour créer un modèle
<a name="canvas-processing-export-model"></a>

En quelques clics seulement depuis votre flux de données, vous pouvez exporter vos données transformées et commencer à créer un modèle ML dans Canvas. Canvas enregistre vos données sous la forme d’un jeu de données Canvas, et vous êtes redirigé vers la page de configuration de génération de modèle pour un nouveau modèle.

Pour créer un modèle Canvas avec vos données transformées :

1. Accédez à votre flux de données.

1. Choisissez l’icône représentant des points de suspension en regard du nœud que vous exportez.

1. Dans le menu contextuel, choisissez **Créer un modèle**.

1. Dans le panneau latéral **Exporter pour créer un modèle**, saisissez le **nom du jeu de données** pour le nouveau jeu de données.

1. Laissez l’option **Traiter le jeu de données complet** sélectionnée pour traiter et exporter l’intégralité de votre jeu de données avant de procéder à la génération d’un modèle. Désactivez cette option pour entraîner votre modèle à l’aide des exemples de données interactifs avec lesquels vous travaillez dans votre flux de données.

1. Entrez un **nom de modèle** pour nommer le nouveau modèle.

1. Sélectionnez un **type de problème** ou le type de modèle que vous souhaitez générer. Pour plus d'informations sur les types de modèles pris en charge dans SageMaker Canvas, consultez[Fonctionnement des modèles personnalisés](canvas-build-model.md).

1. Sélectionnez la **colonne cible** ou la valeur que vous souhaitez que le modèle prédise.

1. Choisissez **Exporter et créer un modèle**.

L’onglet **Créer** d’un nouveau modèle Canvas devrait s’ouvrir et vous pouvez terminer la configuration et l’entraînement de votre modèle. Pour plus d’informations sur la manière de générer un modèle, consultez [Créer un modèle](canvas-build-model-how-to.md).

# Exporter les données
<a name="canvas-export-data"></a>

Exportez les données pour appliquer les transformations de votre flux de données au jeu de données importé dans son intégralité. Vous pouvez exporter n’importe quel nœud de votre flux de données vers les emplacements suivants :
+ SageMaker Ensemble de données Canvas
+ Amazon S3

Si vous souhaitez entraîner des modèles dans Canvas, vous pouvez exporter votre jeu de données transformé complet en tant que jeu de données Canvas. Si vous souhaitez utiliser vos données transformées dans des flux de travail d'apprentissage automatique externes à SageMaker Canvas, vous pouvez exporter votre ensemble de données vers Amazon S3.

## Exportation vers un jeu de données Canvas
<a name="canvas-export-data-canvas"></a>

Utilisez la procédure suivante pour exporter un jeu de données SageMaker Canvas depuis un nœud de votre flux de données.

**Pour exporter un nœud de votre flux en tant que jeu de données SageMaker Canvas**

1. Accédez à votre flux de données.

1. Choisissez l’icône représentant des points de suspension en regard du nœud que vous exportez.

1. Dans le menu contextuel, passez la souris sur **Exporter**, puis sélectionnez **Exporter les données vers un jeu de données Canvas**.

1. Dans le panneau latéral **Exporter vers un jeu de données Canvas**, saisissez un **nom de jeu de données** pour le nouveau jeu de données.

1. Laissez l'option **Traiter l'ensemble de données** sélectionnée si vous souhaitez que SageMaker Canvas traite et enregistre l'ensemble de données complet. Désactivez cette option pour appliquer les transformations aux exemples de données avec lesquels vous travaillez dans votre flux de données.

1. Cliquez sur **Exporter**.

Vous devriez maintenant pouvoir accéder à la page **Jeux de données** de l’application Canvas et voir votre nouveau jeu de données.

## Exporter vers Amazon S3
<a name="canvas-export-data-s3"></a>

Lorsque vous exportez vos données vers Amazon S3, vous pouvez effectuer une mise à l’échelle pour transformer et traiter des données de toute taille. Canvas traite automatiquement vos données localement si la mémoire de l’application peut gérer la taille de votre jeu de données. Si la taille de votre jeu de données dépasse la capacité de mémoire locale de 5 Go, Canvas lance une tâche à distance en votre nom afin de provisionner des ressources informatiques supplémentaires et de traiter les données plus rapidement. Par défaut, Canvas utilise Amazon EMR sans serveur pour exécuter ces tâches à distance. Cependant, vous pouvez configurer manuellement Canvas pour utiliser soit une tâche EMR sans serveur, soit une tâche de SageMaker traitement avec vos propres paramètres.

**Note**  
Lors de l’exécution d’une tâche EMR sans serveur, la tâche hérite par défaut du rôle IAM, des paramètres clés KMS et des balises de votre application Canvas.

Vous trouverez ci-dessous un résumé des options pour les tâches à distance dans Canvas :
+ **EMR sans serveur** : il s’agit de l’option par défaut utilisée par Canvas pour les tâches à distance. EMR sans serveur provisionne et met à l’échelle automatiquement les ressources informatiques pour traiter vos données afin que vous n’ayez pas à vous soucier de choisir les ressources informatiques appropriées pour votre charge de travail. Pour plus d’informations sur EMR sans serveur, consultez le [Guide de l’utilisateur EMR sans serveur](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html).
+ **SageMaker Traitement** : les tâches de SageMaker traitement offrent des options plus avancées et un contrôle précis des ressources informatiques utilisées pour traiter vos données. Par exemple, vous pouvez spécifier le type et le nombre d’instances informatiques, configurer la tâche dans votre propre VPC et contrôler l’accès au réseau, automatiser les tâches de traitement, etc. Pour plus d’informations sur l’automatisation des tâches de traitement, consultez [Création d’une planification pour traiter automatiquement les nouvelles données](canvas-data-export-schedule-job.md). Pour des informations plus générales sur les tâches de SageMaker traitement, consultez[Charges de travail de transformation des données avec Processing SageMaker](processing-job.md).

Les types de fichiers suivants sont pris en charge lors de l’exportation vers Amazon S3 :
+ CSV
+ Parquet

Pour commencer, consultez les conditions préalables suivantes.

### Prérequis pour les tâches EMR sans serveur
<a name="canvas-export-data-emr-prereqs"></a>

Pour créer une tâche à distance utilisant les ressources EMR sans serveur, vous devez disposer des autorisations nécessaires. Vous pouvez accorder des autorisations via le domaine Amazon SageMaker AI ou les paramètres du profil utilisateur, ou vous pouvez configurer manuellement le rôle AWS IAM de votre utilisateur. Pour obtenir des instructions sur la façon d’accorder aux utilisateurs les autorisations d’effectuer un traitement de données volumineuses, consultez [Octroi aux utilisateurs d’autorisations pour utiliser des données volumineuses tout au long du cycle de vie du machine learning](canvas-large-data-permissions.md).

Si vous ne souhaitez pas configurer ces politiques mais que vous devez tout de même traiter de grands ensembles de données via Data Wrangler, vous pouvez également utiliser une SageMaker tâche de traitement.

Utilisez les procédures suivantes pour exporter vos données vers Amazon S3. Pour configurer une tâche à distance, suivez les étapes avancées facultatives.

**Pour exporter un nœud de votre flux vers Amazon S3**

1. Accédez à votre flux de données.

1. Choisissez l’icône représentant des points de suspension en regard du nœud que vous exportez.

1. Dans le menu contextuel, passez le curseur sur **Exporter**, puis sélectionnez **Exporter les données vers Amazon S3**.

1. Dans le panneau latéral **Exporter vers Amazon S3**, vous pouvez modifier le **nom du jeu de données** pour le nouveau jeu de données.

1. Pour **Emplacement S3**, saisissez l’emplacement Amazon S3 vers lequel vous souhaitez exporter le jeu de données. Vous pouvez saisir l’URI, l’alias ou l’ARN S3 de l’emplacement S3 ou du point d’accès S3. Pour plus d’informations sur les points d’accès, consultez [Gestion de l’accès aux données avec les points d’accès Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html) dans le *Guide de l’utilisateur Amazon S3*.

1. (Facultatif) Pour **Paramètres avancés**, spécifiez les valeurs des champs suivants :

   1. **Type de fichier** : format de fichier de vos données exportées.

   1. **Délimiteur** : délimiteur utilisé pour séparer les valeurs dans le fichier.

   1. **Compression** : méthode de compression utilisée pour réduire la taille du fichier.

   1. **Nombre de partitions** : nombre de fichiers de jeu de données que Canvas écrit en sortie de la tâche.

   1. **Choisir des colonnes** : vous pouvez choisir un sous-ensemble de colonnes parmi les données à inclure dans les partitions.

1. Laissez l’option **Traiter le jeu de données complet** sélectionnée si vous souhaitez que Canvas applique vos transformations de flux de données à l’intégralité de votre jeu de données et exporte le résultat. Si vous désélectionnez cette option, Canvas applique les transformations uniquement à l’échantillon de votre jeu de données utilisé dans le flux de données Data Wrangler interactif.
**Note**  
Si vous n’exportez qu’un échantillon de vos données, Canvas traite vos données dans l’application et ne crée pas de tâche à distance pour vous.

1. Laissez l’option **Configuration automatique des tâches** sélectionnée si vous souhaitez que Canvas détermine automatiquement s’il faut exécuter la tâche en utilisant la mémoire de l’application Canvas ou une tâche EMR sans serveur. Si vous désélectionnez cette option et configurez manuellement votre tâche, vous pouvez choisir d'utiliser une tâche EMR sans serveur ou SageMaker une tâche de traitement. Pour obtenir des instructions sur la configuration d'une tâche EMR sans serveur ou de SageMaker traitement, consultez la section qui suit cette procédure avant d'exporter vos données.

1. Cliquez sur **Exporter**.

Les procédures suivantes montrent comment configurer manuellement les paramètres des tâches distantes pour EMR Serverless ou SageMaker Processing lors de l'exportation de votre ensemble de données complet vers Amazon S3.

------
#### [ EMR Serverless ]

Pour configurer une tâche EMR sans serveur lors de l’exportation vers Amazon S3, procédez comme suit :

1. Dans le panneau latéral Exporter vers Amazon S3, désactivez l’option **Configuration automatique des tâches**.

1. Sélectionnez **EMR sans serveur**.

1. Pour **Nom de la tâche**, saisissez un nom pour votre tâche EMR sans serveur. Le nom peut contenir des lettres, des chiffres, des traits d’union et des traits de soulignement.

1. Pour **Rôle IAM**, saisissez le rôle d’exécution IAM de l’utilisateur. Ce rôle doit disposer des autorisations nécessaires pour exécuter des applications EMR sans serveur. Pour de plus amples informations, veuillez consulter [Octroi aux utilisateurs d’autorisations pour utiliser des données volumineuses tout au long du cycle de vie du machine learning](canvas-large-data-permissions.md).

1. (Facultatif) Pour la **clé KMS**, spécifiez l'ID de clé ou l'ARN d'un AWS KMS key pour chiffrer les journaux des tâches. Si vous ne spécifiez pas de clé, Canvas utilise une clé par défaut pour EMR sans serveur.

1. (Facultatif) Pour la **configuration de la surveillance**, entrez le nom du groupe de CloudWatch journaux Amazon Logs dans lequel vous souhaitez publier vos journaux.

1. (Facultatif) Pour **Balises**, ajoutez des balises de métadonnées à la tâche EMR sans serveur composées de paires clé-valeur. Ces balises peuvent être utilisées pour catégoriser et rechercher des tâches.

1. Choisissez **Export** pour démarrer la tâche.

------
#### [ SageMaker Processing ]

Pour configurer une tâche SageMaker de traitement lors de l'exportation vers Amazon S3, procédez comme suit :

1. Dans le panneau latéral **Exporter vers Amazon S3**, désactivez l’option **Configuration automatique des tâches**.

1. Sélectionnez **SageMaker Traitement**.

1. Dans **Nom de la tâche**, entrez le nom de votre tâche de traitement SageMaker AI.

1. Pour **Type d’instance**, sélectionnez le type d’instance de calcul pour exécuter la tâche de traitement.

1. Pour **Nombre d’instances**, spécifiez le nombre d’instances de calcul à lancer.

1. Pour **Rôle IAM**, saisissez le rôle d’exécution IAM de l’utilisateur. Ce rôle doit disposer des autorisations requises pour que l' SageMaker IA puisse créer et exécuter des tâches de traitement en votre nom. Ces autorisations sont accordées si la [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)politique est attachée à votre rôle IAM.

1. Pour **Taille du volume**, entrez la taille de stockage en Go pour le volume de stockage ML attaché à chaque instance de traitement. Choisissez la taille en fonction de la taille attendue des données d’entrée et de sortie.

1. (Facultatif) Pour **Clé KMS du volume**, spécifiez une clé KMS pour chiffrer le volume de stockage. Si vous ne spécifiez pas de clé, la clé de chiffrement Amazon EBS par défaut est utilisée.

1. (Facultatif) Pour **Clé KMS**, spécifiez une clé KMS pour chiffrer les sources de données Amazon S3 en entrée et en sortie utilisées par la tâche de traitement.

1. (Facultatif) Pour **Configuration de mémoire Spark**, procédez comme suit :

   1. Saisissez **Mémoire du pilote en Mo** pour le nœud du pilote Spark qui gère la coordination et la planification des tâches.

   1. Saisissez **Mémoire de l’exécuteur en Mo** pour les nœuds de l’exécuteur Spark qui exécutent les tâches individuelles de la tâche.

1. (Facultatif) Pour **Configuration du réseau**, procédez comme suit :

   1. Pour la **configuration des sous-réseaux**, entrez IDs les sous-réseaux VPC dans lesquels les instances de traitement seront lancées. Par défaut, la tâche utilise les paramètres de votre VPC par défaut.

   1. Pour **la configuration des groupes de sécurité**, entrez les groupes IDs de sécurité pour contrôler les règles de connectivité entrantes et sortantes.

   1. Activez l’option **Activer le chiffrement du trafic entre les conteneurs** pour chiffrer les communications réseau entre les conteneurs de traitement pendant la tâche.

1. (Facultatif) Pour **les plannings associés**, vous pouvez choisir de créer un EventBridge planning Amazon pour que la tâche de traitement soit exécutée à intervalles récurrents. Choisissez **Créer une nouvelle planification** et remplissez la boîte de dialogue. Pour plus d’informations sur le remplissage de cette section et l’exécution des tâches de traitement selon une planification, consultez [Création d’une planification pour traiter automatiquement les nouvelles données](canvas-data-export-schedule-job.md).

1. (Facultatif) Ajoutez des **balises** sous forme de paires clé-valeur afin de pouvoir catégoriser et rechercher des tâches de traitement.

1. Choisissez **Exporter** pour démarrer la tâche de traitement.

------

Après avoir exporté vos données, vous devriez trouver le jeu de données entièrement traité à l’emplacement Amazon S3 spécifié.

# Exportation d’un flux de données
<a name="canvas-export-data-flow"></a>

L’exportation de votre flux de données traduit les opérations que vous avez effectuées dans Data Wrangler et les exporte dans un bloc-notes Jupyter de code Python que vous pouvez modifier et exécuter. Cela peut être utile pour intégrer le code de vos transformations de données dans vos pipelines de machine learning.

Vous pouvez choisir n’importe quel nœud de données dans votre flux de données et l’exporter. L’exportation du nœud de données exporte la transformation que le nœud représente et les transformations qui la précèdent.

**Pour exporter un flux de données sous forme de bloc-notes Jupyter**

1. Accédez à votre flux de données.

1. Choisissez l’icône représentant des points de suspension en regard du nœud que vous souhaitez exporter.

1. Dans le menu contextuel, passez la souris sur **Exporter**, puis sur **Exporter via le bloc-notes Jupyter**.

1. Sélectionnez l’une des méthodes suivantes :
   + **SageMaker Pipelines**
   + **Amazon S3**
   + **SageMaker Pipeline d'inférence par IA**
   + **SageMaker Boutique de fonctionnalités d'IA**
   + **Code Python**

1. La boîte de dialogue **Exporter le flux de données sous forme de bloc-notes** s’ouvre. Sélectionnez l’un des éléments suivants :
   + **Télécharger une copie locale**
   + **Exporter vers un emplacement S3**

1. Si vous avez sélectionné **Exporter vers un emplacement S3**, entrez l’emplacement Amazon S3 vers lequel vous souhaitez exporter le bloc-notes.

1. Cliquez sur **Exporter**.

Votre bloc-notes Jupyter doit être téléchargé sur votre ordinateur local ou vous pouvez le trouver enregistré dans l’emplacement Amazon S3 que vous avez spécifié.

# Ajout de nœuds de destination
<a name="canvas-destination-nodes-add"></a>

Un nœud de destination dans SageMaker Canvas indique où stocker vos données traitées et transformées. Lorsque vous choisissez d’exporter vos données transformées vers Amazon S3, Canvas utilise l’emplacement du nœud de destination spécifié et applique toutes les transformations que vous avez configurées dans votre flux de données. Pour plus d’informations sur les tâches d’exportation vers Amazon S3, consultez la section précédente [Exporter vers Amazon S3](canvas-export-data.md#canvas-export-data-s3).

Par défaut, choisir d’exporter vos données vers Amazon S3 ajoute un nœud de destination à votre flux de données. Toutefois, vous pouvez ajouter plusieurs nœuds de destination à votre flux, ce qui vous permet d’exporter simultanément différents ensembles de transformations ou de variations de vos données vers différents emplacements Amazon S3. Par exemple, vous pouvez créer un nœud de destination qui exporte les données après avoir appliqué toutes les transformations, et un autre nœud de destination qui exporte les données uniquement après certaines transformations initiales, telles qu’une opération de jointure. Cette flexibilité vous permet d’exporter et de stocker différentes versions ou différents sous-ensembles de vos données transformées dans des emplacements S3 distincts pour différents cas d’utilisation.

Utilisez la procédure suivante pour ajouter un nœud de destination à votre flux de données.

**Pour ajouter un nœud de destination**

1. Accédez à votre flux de données.

1. Choisissez l’icône représentant des points de suspension à côté du nœud où vous souhaitez placer le nœud de destination.

1. Dans le menu contextuel, passez la souris sur **Exporter**, puis sélectionnez **Ajouter une destination.**

1. Dans le panneau latéral **Exporter la destination**, entrez un **nom de jeu de données** pour nommer la sortie.

1. Pour **Emplacement Amazon S3**, entrez l’emplacement Amazon S3 vers lequel vous souhaitez exporter la sortie. Vous pouvez saisir l’URI, l’alias ou l’ARN S3 de l’emplacement S3 ou du point d’accès S3. Pour plus d’informations sur les points d’accès, consultez [Gestion de l’accès aux données avec les points d’accès Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html) dans le *Guide de l’utilisateur Amazon S3*.

1. Pour **Paramètres d’exportation**, spécifiez les champs suivants :

   1. **Type de fichier** : format de fichier des données exportées.

   1. **Délimiteur** : délimiteur utilisé pour séparer les valeurs dans le fichier.

   1. **Compression** : méthode de compression utilisée pour réduire la taille du fichier.

1. Pour **Partitionnement**, spécifiez les champs suivants :

   1. **Nombre de partitions** : nombre de fichiers d'ensemble de données que SageMaker Canvas écrit en sortie de la tâche.

   1. **Choisir des colonnes** : vous pouvez choisir un sous-ensemble de colonnes parmi les données à inclure dans les partitions.

1. Choisissez **Ajouter** si vous souhaitez simplement ajouter un nœud de destination à votre flux de données, ou choisissez **Ajouter** puis **Exporter** si vous souhaitez ajouter le nœud et lancer une tâche d’exportation.

Vous devriez maintenant voir apparaître un nouveau nœud de destination dans votre flux.

# Modification d’un nœud de destination
<a name="canvas-destination-nodes-edit"></a>

Un *nœud de destination* dans un flux de données Amazon SageMaker Canvas indique l'emplacement Amazon S3 où sont stockées vos données traitées et transformées, en appliquant toutes les transformations configurées dans votre flux de données. Vous pouvez modifier la configuration d’un nœud de destination existant, puis choisir de réexécuter la tâche pour remplacer les données dans l’emplacement Amazon S3 spécifié. Pour plus d’informations sur l’ajout d’un nouveau nœud de destination, consultez [Ajout de nœuds de destination](canvas-destination-nodes-add.md).

Utilisez la procédure suivante pour modifier un nœud de destination dans votre flux de données et lancer une tâche d’exportation.

**Pour modifier un nœud de destination**

1. Accédez à votre flux de données.

1. Choisissez l’icône représentant des points de suspension en regard du nœud de destination que vous souhaitez modifier.

1. Dans le menu contextuel, choisissez **Modifier**.

1. Le panneau latéral **Modifier la destination** s’ouvre. À partir de ce panneau, vous pouvez modifier des informations telles que le nom du jeu de données, l’emplacement Amazon S3 et les paramètres d’exportation et de partitionnement.

1. (Facultatif) Dans **Nœuds supplémentaires à exporter**, vous pouvez sélectionner d’autres nœuds de destination à traiter lorsque vous exécutez la tâche d’exportation.

1. Laissez l’option **Traiter le jeu de données complet** sélectionnée si vous souhaitez que Canvas applique vos transformations de flux de données à l’intégralité de votre jeu de données et exporte le résultat. Si vous désélectionnez cette option, Canvas applique les transformations uniquement à l’échantillon de votre jeu de données utilisé dans le flux de données Data Wrangler interactif.

1. Laissez l’option **Configuration automatique des tâches** sélectionnée si vous souhaitez que Canvas détermine automatiquement s’il faut exécuter la tâche en utilisant la mémoire de l’application Canvas ou une tâche EMR sans serveur. Si vous désélectionnez cette option et configurez manuellement votre tâche, vous pouvez choisir d'utiliser une tâche EMR sans serveur ou SageMaker une tâche de traitement. Pour obtenir des instructions sur la configuration d'une tâche EMR sans serveur ou de SageMaker traitement, consultez la section précédente. [Exporter vers Amazon S3](canvas-export-data.md#canvas-export-data-s3)

1. Une fois les modifications terminées, choisissez **Mettre à jour**.

L’enregistrement des modifications apportées à la configuration de votre nœud de destination ne réexécute pas automatiquement une tâche ni ne remplace les données déjà traitées et exportées. Exportez à nouveau vos données pour exécuter une tâche avec la nouvelle configuration. Si vous décidez d’exporter à nouveau vos données avec une tâche, Canvas utilise la configuration du nœud de destination mise à jour pour transformer et sortir les données à l’emplacement spécifié, en remplaçant toutes les données existantes.

# Création d’une planification pour traiter automatiquement les nouvelles données
<a name="canvas-data-export-schedule-job"></a>

**Note**  
La section suivante s'applique uniquement aux tâches SageMaker de traitement. Si vous avez utilisé les paramètres Canvas par défaut ou EMR sans serveur pour créer une tâche à distance afin d’appliquer des transformations à l’intégralité de votre jeu de données, cette section ne s’applique pas.

Si vous traitez des données régulièrement, vous pouvez créer une planification pour exécuter automatiquement la tâche de traitement. Par exemple, vous créez une planification qui exécute automatiquement une tâche de traitement lorsque vous recevez de nouvelles données. Pour plus d’informations sur les tâches de traitement, consultez [Exporter vers Amazon S3](canvas-export-data.md#canvas-export-data-s3).

Lorsque vous créez une tâche, vous devez spécifier un rôle IAM autorisé à la créer. Vous pouvez utiliser cette [AmazonSageMakerCanvasDataPrepFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasDataPrepFullAccess.html)politique pour ajouter des autorisations.

Ajoutez la politique de confiance suivante au rôle pour EventBridge permettre de l'assumer.

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}
```

**Important**  
Lorsque vous créez un planning, Data Wrangler crée un `eventRule` in. EventBridge Des frais vous sont facturés à la fois pour les règles d'événement que vous créez et pour les instances utilisées pour exécuter la tâche de traitement.  
Pour plus d'informations sur EventBridge les tarifs, consultez [ EventBridge les tarifs Amazon](https://aws.amazon.com/eventbridge/pricing/). Pour plus d'informations sur le traitement des tarifs des offres d'emploi, consultez [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

Vous pouvez définir une planification à l'aide d'une des méthodes suivantes :
+ [Expressions CRON](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**Note**  
Data Wrangler ne prend pas en charge les expressions suivantes :  
LW\$1
Abréviations pour les jours
Abréviations pour les jours
+ [Expressions RATE](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ Récurrent : définissez un intervalle horaire ou quotidien pour exécuter la tâche.
+ Heure spécifique : définissez des jours et heures spécifiques pour exécuter la tâche.

Les sections suivantes décrivent les procédures relatives à la planification des tâches lors du remplissage des paramètres des tâches de traitement par SageMaker IA lors de [l'exportation de vos données vers Amazon S3](canvas-export-data.md#canvas-export-data-s3). Toutes les instructions suivantes commencent dans la section **Associer les plannings** des paramètres des tâches de SageMaker traitement.

------
#### [ CRON ]

Utilisez la procédure suivante pour créer un calendrier à l’aide d’une expression CRON.

1. Dans le panneau latéral **Exporter vers Amazon S3**, assurez-vous que vous avez désactivé le bouton de **configuration automatique des tâches** et que l'option **SageMaker Traitement** est sélectionnée.

1. Dans les paramètres de la tâche de **SageMaker traitement**, ouvrez la section **Associer les plannings** et choisissez **Create new schedule**.

1. La boîte de dialogue **Créer une nouvelle planification** s’ouvre. Dans le champ **Nom de la planification**, indiquez le nom de la planification.

1. Pour **Fréquence d’exécution**, choisissez **CRON**.

1. Pour chacun des champs **Minutes**, **Heures**, **Jours du mois**, **Mois** et **Jour de la semaine**, entrez des valeurs d’expression CRON valides.

1. Choisissez **Créer**.

1. (Facultatif) Choisissez **Add another schedule** (Ajouter une autre planification) pour exécuter la tâche selon une autre planification.
**Note**  
Vous pouvez associer un maximum de deux planifications. Les planifications sont indépendantes et ne s'influencent pas mutuellement, sauf si les heures se chevauchent.

1. Sélectionnez l’une des méthodes suivantes :
   + **Planifier et exécuter maintenant** : la tâche s’exécute immédiatement et s’exécute ensuite selon les planifications.
   + **Planifier uniquement** : la tâche s’exécute uniquement selon les planifications que vous spécifiez.

1. Choisissez **Exporter** après avoir renseigné les autres paramètres de la tâche d’exportation.

------
#### [ RATE ]

Utilisez la procédure suivante pour créer un calendrier à l’aide d’une valeur de déclenchement.

1. Dans le panneau latéral **Exporter vers Amazon S3**, assurez-vous que vous avez désactivé le bouton de **configuration automatique des tâches** et que l'option **SageMaker Traitement** est sélectionnée.

1. Dans les paramètres de la tâche de **SageMaker traitement**, ouvrez la section **Associer les plannings** et choisissez **Create new schedule**.

1. La boîte de dialogue **Créer une nouvelle planification** s’ouvre. Dans le champ **Nom de la planification**, indiquez le nom de la planification.

1. Pour **Run Frequency** (Fréquence d'exécution), choisissez **Rate** (Taux).

1. Pour **Value** (Valeur), spécifiez un entier.

1. Pour **Unit** (Unité), sélectionnez l'une des options suivantes :
   + **Minutes**
   + **Heures**
   + **Jours**

1. Choisissez **Créer**.

1. (Facultatif) Choisissez **Add another schedule** (Ajouter une autre planification) pour exécuter la tâche selon une autre planification.
**Note**  
Vous pouvez associer un maximum de deux planifications. Les planifications sont indépendantes et ne s'influencent pas mutuellement, sauf si les heures se chevauchent.

1. Sélectionnez l’une des méthodes suivantes :
   + **Planifier et exécuter maintenant** : la tâche s’exécute immédiatement et s’exécute ensuite selon les planifications.
   + **Planifier uniquement** : la tâche s’exécute uniquement selon les planifications que vous spécifiez.

1. Choisissez **Exporter** après avoir renseigné les autres paramètres de la tâche d’exportation.

------
#### [ Recurring ]

Utilisez la procédure suivante pour créer une planification qui exécute une tâche de manière récurrente.

1. Dans le panneau latéral **Exporter vers Amazon S3**, assurez-vous que vous avez désactivé le bouton de **configuration automatique des tâches** et que l'option **SageMaker Traitement** est sélectionnée.

1. Dans les paramètres de la tâche de **SageMaker traitement**, ouvrez la section **Associer les plannings** et choisissez **Create new schedule**.

1. La boîte de dialogue **Créer une nouvelle planification** s’ouvre. Dans le champ **Nom de la planification**, indiquez le nom de la planification.

1. Pour **Fréquence d’exécution**, choisissez **Récurrent**.

1. Dans le champ **Toutes les x heures**, spécifiez la fréquence horaire à laquelle la tâche s’exécute au cours de la journée. Les valeurs valides sont des nombres entiers compris entre **1** et **23**.

1. Pour **On days** (Journées), choisissez l'une des options suivantes :
   + **Every Day** (Tous les jours)
   + **Weekends** (Le week-end)
   + **Weekdays** (Jours de la semaine)
   + **Select Days** (Certains jours)

   1. (Facultatif) Si vous avez sélectionné **Select Days** (Certains jours), choisissez les jours de la semaine où la tâche doit s'exécuter.
**Note**  
La planification est réinitialisée tous les jours. Si vous planifiez une tâche pour qu'elle s'exécute toutes les cinq heures, elle s'exécute aux heures suivantes au cours de la journée :  
00:00
05:00
10 h 00
15h00
20h00

1. Choisissez **Créer**.

1. (Facultatif) Choisissez **Add another schedule** (Ajouter une autre planification) pour exécuter la tâche selon une autre planification.
**Note**  
Vous pouvez associer un maximum de deux planifications. Les planifications sont indépendantes et ne s'influencent pas mutuellement, sauf si les heures se chevauchent.

1. Sélectionnez l’une des méthodes suivantes :
   + **Planifier et exécuter maintenant** : la tâche s’exécute immédiatement et s’exécute ensuite selon les planifications.
   + **Planifier uniquement** : la tâche s’exécute uniquement selon les planifications que vous spécifiez.

1. Choisissez **Exporter** après avoir renseigné les autres paramètres de la tâche d’exportation.

------
#### [ Specific time ]

Utilisez la procédure suivante pour créer une planification qui exécute une tâche à des heures spécifiques.

1. Dans le panneau latéral **Exporter vers Amazon S3**, assurez-vous que vous avez désactivé le bouton de **configuration automatique des tâches** et que l'option **SageMaker Traitement** est sélectionnée.

1. Dans les paramètres de la tâche de **SageMaker traitement**, ouvrez la section **Associer les plannings** et choisissez **Create new schedule**.

1. La boîte de dialogue **Créer une nouvelle planification** s’ouvre. Dans le champ **Nom de la planification**, indiquez le nom de la planification.

1. Pour **Fréquence d’exécution**, choisissez **Heure de début**.

1. Pour **Heure de début**, entrez une heure au format UTC (par exemple, **09:00**). L’heure de début correspond par défaut au fuseau horaire dans lequel vous vous trouvez.

1. Pour **Journées**, choisissez l’une des options suivantes :
   + **Every Day** (Tous les jours)
   + **Weekends** (Le week-end)
   + **Weekdays** (Jours de la semaine)
   + **Select Days** (Certains jours)

   1. (Facultatif) Si vous avez sélectionné **Certains jours**, choisissez les jours de la semaine où la tâche doit s’exécuter.

1. Choisissez **Créer**.

1. (Facultatif) Choisissez **Add another schedule** (Ajouter une autre planification) pour exécuter la tâche selon une autre planification.
**Note**  
Vous pouvez associer un maximum de deux planifications. Les planifications sont indépendantes et ne s'influencent pas mutuellement, sauf si les heures se chevauchent.

1. Sélectionnez l’une des méthodes suivantes :
   + **Planifier et exécuter maintenant** : la tâche s’exécute immédiatement et s’exécute ensuite selon les planifications.
   + **Planifier uniquement** : la tâche s’exécute uniquement selon les planifications que vous spécifiez.

1. Choisissez **Exporter** après avoir renseigné les autres paramètres de la tâche d’exportation.

------

Vous pouvez utiliser l' SageMaker IA AWS Management Console pour afficher les tâches dont l'exécution est planifiée. Vos tâches de traitement s’exécutent dans Pipelines. Chaque tâche de traitement possède son propre pipeline. Elle s'exécute en tant qu'étape de traitement dans le pipeline. Vous pouvez consulter les planifications que vous avez créées dans un pipeline. Pour plus d’informations sur l’affichage d’un pipeline, consultez [Affichage des détails d’un pipeline](pipelines-studio-list.md).

Utilisez la procédure suivante pour afficher les tâches que vous avez planifiées.

Pour afficher les tâches que vous avez planifiées, procédez comme suit.

1. Ouvrez Amazon SageMaker Studio Classic.

1. Ouvrez Pipelines.

1. Consultez les pipelines des tâches que vous avez créées.

   Le pipeline qui exécute la tâche utilise le nom de la tâche en tant que préfixe. Par exemple, si vous avez créé une tâche nommée `housing-data-feature-enginnering`, le nom du pipeline est `canvas-data-prep-housing-data-feature-engineering`.

1. Choisissez le pipeline contenant votre tâche.

1. Consultez l'état des pipelines. Les pipelines dont le champ **Status** (État) indique **Succeeded** (Réussi) ont correctement exécuté la tâche de traitement.

Pour arrêter l'exécution de la tâche de traitement, procédez comme suit :

Pour arrêter l'exécution d'une tâche de traitement, supprimez la règle d'événement qui spécifie la planification. La suppression d'une règle d'événement arrête l'exécution de toutes les tâches associées à la planification. Pour plus d'informations sur la suppression d'une règle, consultez la section [Désactivation ou suppression d'une EventBridge règle Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html).

Vous pouvez également arrêter et supprimer les pipelines associés aux planifications. Pour plus d'informations sur l'arrêt d'un pipeline, consultez [StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html). Pour plus d'informations sur la suppression d'un pipeline, consultez [DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax).