Magasin hors ligne - Amazon SageMaker AI

Magasin hors ligne

Le magasin hors connexion est utilisé pour les données historiques lorsqu'il n'est pas nécessaire de les récupérer en moins d'une seconde. Il est généralement utilisé pour l'exploration des données, l'entraînement de modèles et l'inférence par lots.

Lorsque vous activez les magasins en ligne et hors connexion pour votre groupe de fonctionnalités, les deux magasins sont synchronisés afin d'éviter les divergences entre les données d'entraînement et les données de service. Notez qu’un groupe de caractéristiques d’un magasin en ligne dont le type de stockage InMemory est activé ne prend actuellement pas en charge un groupe de caractéristiques correspondant dans le magasin hors ligne (pas de réplication du magasin en ligne vers le magasin hors ligne). Pour plus d’informations sur le modèle ML en service dans Amazon SageMaker Feature Store, consultez Magasin en ligne.

Le magasin hors connexion contient les options TableFormat suivantes. Pour en savoir plus sur le contenu des magasins hors ligne, consultez OfflineStoreConfig dans la Référence des API Amazon SageMaker.

Format de table Glue

Le format Glue (par défaut) est un format de table de type Hive standard pour AWS Glue. Avec AWS Glue, vous pouvez découvrir, préparer, déplacer et intégrer des données de plusieurs sources. Il inclut également des outils de productivité et d’exploitation des données supplémentaires pour la création, l’exécution de tâches et la mise en œuvre de flux de travail. Pour plus d’informations sur AWS Glue, consultez Qu’est-ce que AWS Glue ?

Format de table Iceberg

Le format Iceberg (recommandé) est un format de table ouvert pour les tables analytiques de très grande taille. Avec Iceberg, vous pouvez compacter les petits fichiers de données en un plus petit nombre de grands fichiers dans la partition, ce qui accélère considérablement les requêtes. Cette opération de compactage est simultanée et n’affecte pas les opérations de lecture et d’écriture en cours sur le groupe de caractéristiques. Pour plus d’informations sur l’optimisation des tables Iceberg, consultez les guides de l’utilisateur Amazon Athena et AWS Lake Formation.

Iceberg gère de grandes collections de fichiers sous forme de tables et prend en charge les opérations modernes de lac de données analytiques. Si vous choisissez l’option Iceberg lors de la création de nouveaux groupes de caractéristiques, Amazon SageMaker Feature Store crée les tables Iceberg au format de fichier Parquet et les enregistre avec le AWS Glue Data Catalog. Pour plus d’informations sur les formats des tables Iceberg, consultez Utilisation des tables Apache Iceberg.

Important

Notez que pour les groupes de caractéristiques au format de table Iceberg, vous devez spécifier String comme type de caractéristique pour l’heure d’événement. Si vous spécifiez un autre type, vous ne pourrez pas créer le groupe de caractéristiques correctement.