Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Sources de données et ingestion
Les enregistrements sont ajoutés à vos groupes de caractéristiques par ingestion. Selon le cas d’utilisation que vous souhaitez, les enregistrements ingérés peuvent être conservés dans le groupe de caractéristiques ou non. Cela dépend de la configuration du stockage, si votre groupe de caractéristiques utilise le magasin en ligne ou hors ligne. Le magasin hors ligne est utilisé comme base de données d’historique, généralement utilisée pour l’exploration des données, l’entraînement des modèles de machine learning (ML) et l’inférence par lots. Le magasin en ligne est utilisé pour rechercher des enregistrements en temps réel, généralement utilisé pour le service de modèles ML. Pour plus d’informations sur les concepts de Feature Store et l’ingestion, consultez Concepts liés à Feature Store.
Il existe plusieurs manières d'importer vos données dans Amazon SageMaker Feature Store. Feature Store propose un appel d’API unique pour l’ingestion de données, appelé PutRecord, grâce auquel vous pouvez intégrer des données par lots ou à partir de sources de streaming. Vous pouvez utiliser Amazon SageMaker Data Wrangler pour concevoir des fonctionnalités, puis les intégrer dans votre Feature Store. Vous pouvez également utiliser Amazon EMR pour l’ingestion de données par lots via un connecteur Spark.
Dans les rubriques suivantes, nous aborderons la différence entre
Rubriques
Ingestion de flux
Vous pouvez utiliser des sources de streaming, telles que Kafka ou Kinesis, comme source de données. Les enregistrements qui en sont extraits sont transmis directement au magasin en ligne pour l’entraînement, l’inférence ou la création de caractéristiques. Les enregistrements peuvent être ingérés dans votre groupe de caractéristiques envoyés en utilisant l’appel d’API PutRecord synchrone. Comme il s’agit d’un appel d’API synchrone, vous pouvez envoyer de petits lots de mises à jour dans un seul appel d’API. Vous pouvez ainsi actualiser les valeurs de fonctions régulièrement et les publier dès qu'une mise à jour est détectée. Celles-ci sont également appelées fonctions de streaming.
Data Wrangler avec Feature Store
Data Wrangler est une fonctionnalité de Studio Classic qui fournit une end-to-end solution pour importer, préparer, transformer, présenter et analyser des données. Data Wrangler vous permet de concevoir vos caractéristiques et de les ingérer dans les groupes de caractéristiques de votre magasin en ligne ou hors ligne.
Les instructions suivantes exportent un bloc-notes Jupyter qui contient tout le code source nécessaire pour créer un groupe de caractéristiques Feature Store, qui ajoute vos caractéristiques de Data Wrangler à un magasin de caractéristiques en ligne ou hors ligne.
Les instructions relatives à l’exportation de votre flux de données Data Wrangler vers Feature Store sur la console varient selon que vous avez activé Amazon SageMaker Studio ou Amazon SageMaker Studio classique comme expérience par défaut.
-
Ouvrez la console Studio en suivant les instructions figurant dans Lancez Amazon SageMaker Studio.
-
Choisissez Données dans le volet de gauche pour développer la liste déroulante.
-
Dans la liste déroulante, choisissez Data Wrangler.
-
Si une instance d'Amazon SageMaker Canvas est déjà en cours d'exécution, choisissez Open Canvas.
Si aucune instance de SageMaker Canvas n'est en cours d'exécution, choisissez Exécuter dans Canvas.
-
Sur la console SageMaker Canvas, choisissez Data Wrangler dans le volet de navigation de gauche.
-
Choisissez Flux de données pour visualiser vos flux de données.
-
Choisissez + pour développer la liste déroulante.
-
Choisissez Exporter le flux de données pour développer la liste déroulante.
-
Choisissez Enregistrer dans le SageMaker Feature Store (via JupyterLab Notebook).
-
Sous Exporter le flux de données sous forme de bloc-notes, choisissez l’une des options suivantes :
-
Télécharger une copie locale pour télécharger le flux de données sur votre ordinateur local.
-
Exporter vers un emplacement S3 pour télécharger le flux de données vers un emplacement Amazon Simple Storage Service et entrer l’emplacement Amazon S3 ou choisissez Parcourir pour rechercher votre emplacement Amazon S3.
-
-
Cliquez sur Exporter.
Une fois le groupe de caractéristiques créé, vous pouvez sélectionner et joindre des données entre plusieurs groupes de caractéristiques pour créer de nouvelles caractéristiques techniques dans Data Wrangler, puis exporter votre jeu de données dans un compartiment Amazon S3.
Pour plus d'informations sur la façon d'exporter vers Feature Store, voir Exporter vers SageMaker AI Feature Store.