

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d’un flux de données
<a name="canvas-data-flow"></a>

Utilisez un flux Data Wrangler dans SageMaker Canvas, ou *flux de données*, pour créer et modifier un pipeline de préparation des données. Nous vous recommandons d’utiliser Data Wrangler pour les jeux de données supérieurs à 5 Go.

Pour commencer, suivez la procédure ci-dessous pour importer vos données dans un flux de données.

1. Ouvrez SageMaker Canvas.

1. Dans le volet de navigation de gauche, choisissez **Data Wrangler**.

1. Choisissez **Importer et préparer**.

1. Dans le menu déroulant, choisissez **Tabulaire** ou **Image**.

1. Pour **Sélectionner une source de données**, choisissez votre source de données et sélectionnez les données que vous souhaitez importer. Vous avez la possibilité de sélectionner jusqu’à 30 fichiers ou un dossier. Si vous avez déjà importé un jeu de données dans Canvas, choisissez **Jeu de données Canvas** comme source. Sinon, connectez-vous à une source de données telle qu’Amazon S3 ou Snowflake et parcourez vos données. Pour en savoir plus sur la connexion à une source de données ou l’importation de données, consultez les pages suivantes :
   + [Importation de données](canvas-importing-data.md)
   + [Connexion aux sources de données](canvas-connecting-external.md)

1. Après avoir sélectionné les données que vous souhaitez importer, choisissez **Suivant**.

1. (Facultatif) Pour la section **Paramètres d’importation** lors de l’importation d’un jeu de données tabulaire, développez le menu déroulant **Avancé**. Vous pouvez spécifier les paramètres avancés suivants pour les importations de flux de données :
   + **Méthode d’échantillonnage** : sélectionnez la méthode d’échantillonnage et la taille de l’échantillon que vous souhaitez utiliser. Pour plus d’informations sur la façon de modifier votre échantillon, consultez la section [Modification de la configuration d’échantillonnage du flux de données](canvas-data-flow-edit-sampling.md).
   + **Encodage de fichier (CSV)** : sélectionnez l’encodage du fichier de votre jeu de données. `UTF-8` est la valeur par défaut.
   + **Ignorer les premières lignes** : entrez le nombre de lignes que vous souhaitez ignorer d’importer si vous avez des lignes redondantes au début de votre jeu de données.
   + **Délimiteur** : sélectionnez le délimiteur qui sépare chaque élément dans vos données. Vous pouvez également spécifier un délimiteur personnalisé.
   + **Détection multiligne** : sélectionnez cette option si vous souhaitez que Canvas analyse manuellement l’intégralité de votre jeu de données pour détecter les cellules multilignes. Canvas détermine s’il convient ou non d’utiliser le support multiligne en prélevant un échantillon de vos données, mais Canvas risque de ne détecter aucune cellule multiligne dans l’échantillon. Dans ce cas, nous vous recommandons de sélectionner l’option **Détection multiligne** pour forcer Canvas à vérifier la présence de cellules multilignes dans l’intégralité de votre jeu de données.

1. Choisissez **Importer**.

Vous devriez maintenant disposer d’un nouveau flux de données, et vous pouvez commencer à ajouter des étapes de transformation et des analyses.