

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Sources de données et ingestion
<a name="feature-store-ingest-data"></a>

Les enregistrements sont ajoutés à vos groupes de caractéristiques par ingestion. Selon le cas d’utilisation que vous souhaitez, les enregistrements ingérés peuvent être conservés dans le groupe de caractéristiques ou non. Cela dépend de la configuration du stockage, si votre groupe de caractéristiques utilise le magasin en ligne ou hors ligne. Le magasin hors ligne est utilisé comme base de données d’historique, généralement utilisée pour l’exploration des données, l’entraînement des modèles de machine learning (ML) et l’inférence par lots. Le magasin en ligne est utilisé pour rechercher des enregistrements en temps réel, généralement utilisé pour le service de modèles ML. Pour plus d’informations sur les concepts de Feature Store et l’ingestion, consultez [Concepts liés à Feature Store](feature-store-concepts.md).

Il existe plusieurs manières d'importer vos données dans Amazon SageMaker Feature Store. Feature Store propose un appel d’API unique pour l’ingestion de données, appelé `PutRecord`, grâce auquel vous pouvez intégrer des données par lots ou à partir de sources de streaming. Vous pouvez utiliser Amazon SageMaker Data Wrangler pour concevoir des fonctionnalités, puis les intégrer dans votre Feature Store. Vous pouvez également utiliser Amazon EMR pour l’ingestion de données par lots via un connecteur Spark.

Dans les rubriques suivantes, nous aborderons la différence entre 

**Topics**
+ [Ingestion de flux](#feature-store-ingest-data-stream)
+ [Data Wrangler avec Feature Store](#feature-store-data-wrangler-integration)
+ [Ingestion par lots avec Amazon SageMaker Feature Store Spark](batch-ingestion-spark-connector-setup.md)

## Ingestion de flux
<a name="feature-store-ingest-data-stream"></a>

Vous pouvez utiliser des sources de streaming, telles que Kafka ou Kinesis, comme source de données. Les enregistrements qui en sont extraits sont transmis directement au magasin en ligne pour l’entraînement, l’inférence ou la création de caractéristiques. Les enregistrements peuvent être ingérés dans votre groupe de caractéristiques envoyés en utilisant l’appel d’API `PutRecord` synchrone. Comme il s’agit d’un appel d’API synchrone, vous pouvez envoyer de petits lots de mises à jour dans un seul appel d’API. Vous pouvez ainsi actualiser les valeurs de fonctions régulièrement et les publier dès qu'une mise à jour est détectée. Celles-ci sont également appelées fonctions de *streaming*. 

## Data Wrangler avec Feature Store
<a name="feature-store-data-wrangler-integration"></a>

Data Wrangler est une fonctionnalité de Studio Classic qui fournit une end-to-end solution pour importer, préparer, transformer, présenter et analyser des données. Data Wrangler vous permet de concevoir vos caractéristiques et de les ingérer dans les groupes de caractéristiques de votre magasin en ligne ou hors ligne.

Les instructions suivantes exportent un bloc-notes Jupyter qui contient tout le code source nécessaire pour créer un groupe de caractéristiques Feature Store, qui ajoute vos caractéristiques de Data Wrangler à un magasin de caractéristiques en ligne ou hors ligne.

Les instructions relatives à l’exportation de votre flux de données Data Wrangler vers Feature Store sur la console varient selon que vous avez activé [Amazon SageMaker Studio](studio-updated.md) ou [Amazon SageMaker Studio classique](studio.md) comme expérience par défaut.

### Exportation de votre flux de données Data Wrangler vers Feature Store si Studio est votre expérience par défaut (console)
<a name="feature-store-ingest-data-wrangler-integration-with-studio-updated"></a>

1. Ouvrez la console Studio en suivant les instructions figurant dans [Lancez Amazon SageMaker Studio](studio-updated-launch.md).

1. Choisissez **Données** dans le volet de gauche pour développer la liste déroulante.

1. Dans la liste déroulante, choisissez **Data Wrangler**.

1. Si une instance d'Amazon SageMaker Canvas est déjà en cours d'exécution, choisissez **Open Canvas**.

   Si aucune instance de SageMaker Canvas n'est en cours d'exécution, choisissez **Exécuter dans Canvas**.

1. Sur la console SageMaker Canvas, choisissez **Data Wrangler** dans le volet de navigation de gauche.

1. Choisissez **Flux de données** pour visualiser vos flux de données.

1. Choisissez **\$1** pour développer la liste déroulante.

1. Choisissez **Exporter le flux de données** pour développer la liste déroulante.

1. Choisissez **Enregistrer dans le SageMaker Feature Store (via JupyterLab Notebook)**.

1. Sous **Exporter le flux de données sous forme de bloc-notes**, choisissez l’une des options suivantes :
   + **Télécharger une copie locale** pour télécharger le flux de données sur votre ordinateur local.
   + **Exporter vers un emplacement S3** pour télécharger le flux de données vers un emplacement Amazon Simple Storage Service et entrer l’emplacement Amazon S3 ou choisissez **Parcourir** pour rechercher votre emplacement Amazon S3.

1. Cliquez sur **Exporter**.

 Une fois le groupe de caractéristiques créé, vous pouvez sélectionner et joindre des données entre plusieurs groupes de caractéristiques pour créer de nouvelles caractéristiques techniques dans Data Wrangler, puis exporter votre jeu de données dans un compartiment Amazon S3. 

Pour plus d'informations sur la façon d'exporter vers Feature Store, voir [Exporter vers SageMaker AI Feature Store](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-data-export.html#data-wrangler-data-export-feature-store). 