Utilisation des ressources (guide de l’utilisateur) - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation des ressources (guide de l’utilisateur)

Utilisez SageMaker Assets pour collaborer en toute simplicité sur des projets de machine learning avec d'autres membres de votre organisation. Avec SageMaker Assets, vous et vos collaborateurs créez et partagez des modèles et des tables de données entre vous. Dans SageMaker Assets, ces modèles et tables de données sont appelés actifs.

SageMaker Assets est une fonctionnalité d'Amazon SageMaker Studio. Vous ou votre administrateur créez un environnement Studio au sein d'un DataZone projet Amazon. Pour plus d'informations sur la configuration d'Amazon DataZone, consultezConfiguration SageMaker des actifs (guide de l'administrateur).

Les ressources sont des ressources ML ou des ressources de données. Les ressources ML sont des métadonnées qui pointent vers les éléments suivants :

  • Groupes de caractéristiques Feature Store

  • SageMaker Groupes de modèles d'IA

Les groupes de modèles et les groupes de caractéristiques sous-jacents sont les sources des données. Si vous mettez à jour un groupe de caractéristiques ou un groupe de modèles, la ressource associée au groupe de modèles ou au groupe de caractéristiques est mise à jour dans la journée.

Les ressources de données sont des métadonnées qui pointent vers les éléments suivants :

  • Tables Amazon Redshift

  • AWS Gluetables

Pour les ressources de données, la source de données est le mécanisme qui extrait les métadonnées des tables AWS Glue et des tables Amazon Redshift pour les placer dans la ressource. Par exemple, une source de données extrait les métadonnées d'une AWS Glue table dans la ressource associée à cette table.

Vous pouvez rendre une ressource visible par tous les membres de votre organisation en la publiant. Les utilisateurs individuels peuvent visualiser les métadonnées figurant dans la ressource et en demander l’accès. Si vous leur accordez cet accès, ils obtiennent l’accès à la source de données ou à la table de machine learning sous-jacente.

Votre administrateur vous a probablement donné accès aux groupes de caractéristiques, aux groupes de modèles et aux tables. Si ce n’est pas le cas, consultez les informations dans Configuration SageMaker des actifs (guide de l'administrateur) qui vous aideront à démarrer.

Les sections suivantes fournissent des informations de référence sur les groupes de caractéristiques et les groupes de modèles.

Amazon SageMaker Feature Store fournit un emplacement centralisé pour vous aider à stocker et à gérer vos fonctionnalités. Il s’agit d’un référentiel très performant que vous pouvez utiliser pour l’ingénierie des caractéristiques.

Dans Feature Store, les caractéristiques sont stockées dans un groupe de caractéristiques. Un groupe de caractéristiques désigne une collection de caractéristiques associées à un projet sur lequel vous travaillez. Par exemple, si vous travaillez sur un projet de prédiction des prix des logements, un groupe de caractéristiques peut inclure des caractéristiques telles que l’emplacement ou le nombre de chambres.

Pour plus d’informations sur la manière dont vous pouvez utiliser les groupes de caractéristiques pour rationaliser le processus d’ingénierie des caractéristiques, consultez Création, stockage et partage de caractéristiques avec Feature Store.

Vous pouvez utiliser les groupes de modèles d' SageMaker IA au sein du SageMaker Model Registry pour organiser et gérer les différentes versions de vos modèles. Vous pouvez comparer les différentes versions des modèles pour déterminer celle qui convient le mieux à votre cas d’utilisation. Pour plus d'informations sur le SageMaker Model Registry, consultezDéploiement de l’enregistrement de modèles à l’aide du registre de modèles.

Vous trouverez ci-dessous des informations contextuelles sur Amazon Redshift et AWS Glue.

Amazon Redshift est un service d’entreposage de données à grande échelle qui fournit des performances de requête rapides sur de grands jeux de données. Pour plus d’informations sur Amazon Redshift, consultez Amazon Redshift sans serveur.

AWS Glueest un service d'extraction, de transformation et de chargement (ETL) que vous pouvez utiliser pour simplifier le processus de préparation des données. Pour plus d'informationsAWS Glue, voir Qu'est-ce que c'est AWS Glue ?

Vous pouvez utiliser l'éditeur SQL pour connecter AWS Glue des bases de données Amazon Redshift et exécuter des requêtes. Vous pouvez partager toutes les tables que vous créez dans l'éditeur dans SageMaker Assets. Pour de plus amples informations, veuillez consulter Préparation des données avec SQL dans Studio.

Terminologie et concepts

Avant de commencer à utiliser SageMaker Assets, il est utile de vous familiariser avec la terminologie et les concepts suivants :

  • Ressource : métadonnées qui pointent vers les modèles ou les tables de données que vous partagez. Vous pouvez demander l’accès à une ressource appartenant à quelqu’un d’autre ou partager votre ressource avec d’autres personnes. Vous et les membres de votre équipe accédez à la ressource et au modèle ou à la table de données sous-jacent(e) qui lui est associé(e).

  • Ressources abonnées : pour demander l’accès à une ressource, vous devez soumettre une demande d’abonnement. Si votre demande est approuvée, la ressource apparaît sous les ressources que vous avez souscrites.

  • Ressources détenues : les ressources que vous avez partagées avec vos collègues.

  • Catalogue de ressources : les ressources que vous avez partagées au sein de votre organisation.

Étape 1 : Accès aux SageMaker actifs

Accédez aux SageMaker actifs pour consulter vos actifs et les partager avec d'autres personnes. Utilisez les informations suivantes pour commencer à les utiliser.

Vous accédez à SageMaker Assets depuis un projet au sein d'un DataZone domaine Amazon. Un projet est une collaboration entre vous et les membres de votre équipe. Au sein de ce projet, vous et les autres membres de votre projet avez accès aux ressources que vous et les autres membres de votre équipe créez dans le catalogue d’inventaire. Vous pouvez publier les ressources dans le catalogue publié pour les rendre visibles aux autres membres de votre organisation.

Ces personnes peuvent demander l’accès à votre ressource. Si vous leur fournissez cet accès, ils peuvent accéder à la source de données mise à jour. Par exemple, si une personne s'abonne à une AWS Glue table que vous mettez à jour, elle peut accéder à la AWS Glue table mise à jour en temps réel.

Pour accéder aux SageMaker ressources, procédez comme suit.

Pour accéder aux SageMaker actifs
  1. Ouvrez la DataZone console Amazon.

  2. Choisissez Afficher les domaines.

  3. À côté du domaine contenant votre projet, choisissez Portail de données ouvertes.

  4. Sous Outils d'analyse, choisissez SageMaker AI Studio.

  5. Choisissez Open Amazon SageMaker AI.

  6. Choisissez Assets.

Les ressources qui ont été partagées avec vous se trouvent sous Ressources abonnées. Les ressources que vous et les membres de votre projet créez se trouvent sous Ressources détenues. Les ressources que vous et les autres membres de votre organisation avez publiées figurent dans le catalogue des ressources.

Étape 2 : Partage des ressources et gestion de leur accès

Après avoir créé des modèles de machine learning, des groupes de caractéristiques ou des tables de données, vous pouvez les rendre visibles aux personnes qui collaborent avec vous sur votre projet ou, plus largement, dans votre organisation. Vous pouvez répondre aux demandes d’accès à la ressource. Si vous approuvez la demande d’un utilisateur, celui-ci peut modifier la source de données sous-jacente de la ressource.

Lorsque vous partagez une ressource, deux options s’offrent à vous :

  • Publier dans le catalogue des ressources : rendez la ressource visible à tous dans votre organisation.

  • Publier dans l’inventaire : rendez la ressource visible à tous ceux qui travaillent sur votre projet.

Si vous avez publié votre ressource dans le catalogue des ressources, les membres de votre organisation peuvent le trouver dans le catalogue des ressources. Ils peuvent visualiser les métadonnées de votre ressource et décider s’ils souhaitent en demander l’accès. Si vous approuvez leur demande, ils obtiennent l’accès à la source de données sous-jacente.

Si vous publiez dans l’inventaire, vous et les autres membres de votre projet pouvez accéder à la ressource sans aucune action supplémentaire.

Les ressources publiées dans l’inventaire apparaissent uniquement sous Ressources détenues. Les ressources publiées dans le catalogue apparaissent sous Ressources détenues et Catalogue des ressources.

Lorsque vous publiez une table de données, vous devez créer une source de données qui extrait les métadonnées de la AWS Glue table sous-jacente ou de la table Amazon Redshift vers la ressource. Utilisez les procédures suivantes pour publier une table AWS Glue ou une table Amazon Redshift.

Publish anAWS Gluetable

Pour publier un actif pour une AWS Glue table, vous devez créer une source de données pour celui-ci et le publier. Une source de données est le mécanisme qui extrait les métadonnées de la AWS Glue table vers la ressource.

Pour publier un AWS Glue tableau, procédez comme suit.

Pour publier un AWS Glue tableau
  1. Accédez à la page SageMaker d'accueil des actifs.

  2. Sélectionnez Ressources détenues.

  3. Choisissez Afficher les sources de données.

  4. Choisissez Create data source.

  5. Pour Nom, spécifiez un nom pour la source de données.

  6. Pour Description, fournissez une description.

  7. Pour Type, sélectionnez AWS Glue.

  8. Pour la sélection des données, sélectionnez la base de données contenant la AWS Glue table.

  9. Pour Critères de sélection des tables, spécifiez le nom de la table.

    Note

    Même si vous pouvez spécifier plusieurs tables, nous vous conseillons vivement de fournir un seul nom de table.

  10. Choisissez Suivant.

    • Pour Publier une ressource dans le catalogue, sélectionnez Oui pour publier dans le catalogue des ressources.

    • Pour Publier une ressource dans le catalogue, sélectionnez Non pour publier dans le catalogue des ressources.

  11. Choisissez Suivant.

  12. Sous Détails de ressource, choisissez Exécuter selon une planification ou Exécuter à la demande pour déterminer comment les métadonnées de la table AWS Glue sont extraites et placées dans la ressource.

  13. (Facultatif) Si vous choisissez Exécuter selon une planification, spécifiez la planification qui extrait les métadonnées et les place dans la ressource.

  14. Choisissez Suivant.

  15. Choisissez Créer.

  16. (Facultatif) Si vous n’avez pas créé de planification, choisissez Exécuter pour déplacer les métadonnées de la table AWS Glue vers la ressource.

Publish an Amazon Redshift table

Pour publier une ressource pour une table Amazon Redshift, vous devez créer une source de données pour celle-ci et la publier. Une source de données est le mécanisme qui extrait les métadonnées de la table Amazon Redshift pour les placer dans la ressource.

Utilisez la procédure suivante pour publier une table Amazon Redshift.

Pour publier une table Amazon Redshift
  1. Accédez à la page SageMaker d'accueil des actifs.

  2. Sélectionnez Ressources détenues.

  3. Choisissez Afficher les sources de données.

  4. Choisissez Create data source.

  5. Pour Nom, spécifiez un nom pour la source de données.

  6. Pour Description, fournissez une description.

  7. Pour Type, sélectionnez Amazon Redshift.

    • Sélectionnez Cluster Redshift.

      1. Pour Cluster Redshift, spécifiez le nom du cluster Amazon Redshift contenant la base de données pour la table.

      2. Pour Secret, spécifiez le nom du AWS Secrets Manager secret contenant les informations d'identification du cluster.

    • Sélectionnez Redshift sans serveur.

      1. Pour Groupe de travail Redshift, spécifiez le nom du groupe de travail Amazon Redshift contenant la base de données pour la table.

      2. Pour Secret, spécifiez le nom du AWS Secrets Manager secret contenant les informations d'identification du groupe de travail.

  8. Pour Sélection de la source de publication, sélectionnez la base de données contenant la table Amazon Redshift.

  9. Pour Critères de sélection des tables, spécifiez le nom de la table.

    Note

    Même si vous pouvez spécifier plusieurs tables, nous vous conseillons vivement de fournir un seul nom de table.

  10. Choisissez Suivant.

    • Pour Publier une ressource dans le catalogue, sélectionnez Oui pour publier dans le catalogue des ressources.

    • Pour Publier une ressource dans le catalogue, sélectionnez Non pour publier dans le catalogue des ressources.

  11. Choisissez Suivant.

  12. Sous Détails de ressource, choisissez Exécuter selon une planification ou Exécuter à la demande pour déterminer comment les métadonnées de la table Amazon Redshift sont extraites et placées dans la ressource.

  13. (Facultatif) Si vous choisissez Exécuter selon une planification, spécifiez la planification qui extrait les métadonnées et les place dans la ressource.

  14. Choisissez Suivant.

  15. Choisissez Créer.

  16. (Facultatif) Si vous n’avez pas créé de planification, choisissez Exécuter pour déplacer les métadonnées de la table Amazon Redshift vers la ressource.

Utilisez les procédures suivantes pour publier une ressource pour un groupe de caractéristiques ou un groupe de packages de modèle.

Publish a feature group

Utilisez la procédure suivante pour accéder à un groupe de caractéristiques que vous avez créé et le publier dans vos ressources détenues ou dans le catalogue des ressources.

Pour publier le groupe de caractéristiques dans vos ressources détenues ou dans le catalogue des ressources
  1. Dans Studio, sélectionnez Données dans le menu de navigation de gauche.

  2. Sélectionnez le groupe de caractéristiques que vous publiez.

  3. Choisissez l’icône Three dots next to the feature group. .

    • Sélectionnez Publier dans le catalogue des ressources pour publier dans le catalogue des ressources.

    • Sélectionnez Publier dans l’inventaire pour publier dans les ressources détenues de votre groupe.

Publish a model group

Utilisez la procédure suivante pour accéder à un groupe de modèles que vous avez créé et le publier dans vos ressources détenues ou dans le catalogue des ressources.

Pour publier le groupe de modèles dans vos ressources détenues ou dans le catalogue des ressources
  1. Dans Studio, sélectionnez Modèles dans le menu de navigation de gauche.

  2. Sélectionnez le groupe de modèles que vous publiez.

  3. Choisissez l’icône Three dots next to the model group. .

    • Sélectionnez Publier dans le catalogue des ressources pour publier dans le catalogue des ressources.

    • Sélectionnez Publier dans l’inventaire pour publier dans les ressources détenues de votre groupe.

Utilisez la procédure suivante pour publier une ressource à partir de vos ressources détenues dans le catalogue des ressources.

Pour publier un actif depuis la page SageMaker Ressources
  1. Dans Studio, accédez à Ressources.

  2. Sélectionnez Ressources détenues.

  3. Spécifiez le nom de votre ressource dans la barre de recherche.

  4. Choisissez la ressource.

  5. Choisissez Publier.

Vous pouvez utiliser le code du SDK SageMaker Python suivant pour publier un groupe de fonctionnalités ou un groupe de packages de modèles. Le code part du principe que vous avez déjà créé le groupe de caractéristiques ou le groupe de packages de modèle.

from sagemaker.asset import AssetManager publisher = AssetPublisher() publisher.publish_to_catalog(name-of-your-feature-group-or-model-package)

Étape 3 : Gestion des demandes d’accès

Une fois que vous avez publié une ressource, des utilisateurs extérieurs à votre projet souhaiteront peut-être y accéder. Vous pouvez fournir, rejeter ou révoquer des demandes d’accès. Vous pouvez également supprimer des ressources pour que la source de données sous-jacente ne soit disponible que pour vous-même.

Utilisez la procédure suivante pour répondre aux demandes d’abonnement.

Pour approuver les demandes d’abonnement
  1. Accédez à la page SageMaker Ressources.

  2. Choisissez Gérer les ressources.

  3. Sélectionnez Demandes d’abonnement entrantes.

    • (Facultatif) Choisissez Approuver et indiquez le motif.

    • (Facultatif) Choisissez Rejeter.

Vous pouvez révoquer un accès à une ressource que vous avez précédemment approuvé. Si vous choisissez de révoquer un accès, les utilisateurs perdent l’accès à la fois à la ressource et à la source sous-jacente de la ressource. Utilisez la procédure suivante pour révoquer un accès.

Pour révoquer un accès
  1. Accédez à la page SageMaker Ressources.

  2. Choisissez Gérer les ressources.

  3. Sélectionnez Demandes d’abonnement entrantes.

  4. Sélectionnez l’onglet Approuvé.

  5. Choisissez Révoquer à côté de la ressource.

Vous pouvez également annuler la publication de ressources pour qu’elles apparaissent uniquement en tant que ressources détenues. Les ressources ne seront pas visibles dans le catalogue des ressources, mais les personnes dont vous avez approuvé les demandes d’abonnement pourront toujours y accéder.

Pour annuler la publication d’une ressource
  1. Accédez à la page SageMaker Ressources.

  2. Sous Ressources détenues, sélectionnez la ressource dont vous souhaitez annuler la publication.

  3. Choisissez Unpublish (Annuler la publication).

Vous pouvez également supprimer des ressources depuis la même page où vous annulez leur publication. La suppression d’une ressource n’entraîne pas la suppression de la source des données. La suppression d’une ressource ne fait que la rendre invisible aux autres membres de votre projet ou de votre organisation.

Étape 4 : Recherche de ressources et demande d’accès à ces ressources

Vous pouvez demander l’accès aux ressources que d’autres utilisateurs ont publiées dans le catalogue des ressources. S’ils approuvent la demande d’abonnement, vous obtenez l’accès à la source sous-jacente des données.

En haut de la page SageMaker Ressources, vous pouvez définir une requête de recherche pour trouver les ressources publiées par d'autres utilisateurs de votre organisation. Vous pouvez également sélectionner un type de ressource pour visualiser toutes les ressources publiées de ce type. Par exemple, vous pouvez sélectionner Table Glue pour visualiser toutes les tables AWS Glue publiées.

Vous pouvez également afficher le type de ressource directement sous le nom de la ressource. Voici les noms disponibles pour les types de ressources :

  • Table Redshift

  • Table Glue

  • Modèles  

  • Groupe de caractéristiques

Note

Les groupes de caractéristiques des magasins suivants ont le type Table Glue :

  • Hors connexion

  • Hors connexion et en ligne

Pour effectuer une demande d’abonnement
  1. Accédez à la page SageMaker Ressources.

    • Dans la barre de recherche, spécifiez le nom de la ressource et choisissez Rechercher.

    • Pour Types, sélectionnez le type de ressource et recherchez une ressource à laquelle vous accédez dans le catalogue des ressources.

  2. Choisissez la ressource.

  3. Choisissez Abonner.

  4. Indiquez le motif de la demande.

  5. Sélectionnez Soumettre.

Votre demande d’abonnement apparaît sous Demandes d’abonnement sortantes, sous Gérer les demandes de ressources. Si le diffuseur de publication de la ressource approuve votre demande, elle apparaît sous Ressources abonnées. Vous pouvez désormais utiliser la source de données Amazon Redshift, AWS Glue table ou ML dans vos flux de travail d'apprentissage automatique.

Étape 5 : Utilisation d’une ressource partagée dans vos flux de travail de machine learning

Si votre demande d’abonnement à une ressource est approuvée, vous pouvez l’utiliser dans vos flux de travail de machine learning.

Les groupes de caractéristiques auxquels vous avez obtenu l’accès apparaissent dans votre liste de groupes de caractéristiques dans Studio.

Les groupes de modèles auxquels vous avez obtenu l’accès apparaissent dans votre liste de groupes de modèles dans Studio. Vous pouvez ouvrir votre groupe de modèles dans le registre des modèles depuis SageMaker Assets. Utilisez la procédure suivante pour ouvrir le groupe de modèles dans le registre de modèles. Ressources abonnées.

Pour ouvrir un groupe de modèles depuis SageMaker Assets
  1. Sélectionnez le groupe de modèles.

  2. Choisissez Ouverture dans le registre des modèles.

Vous pouvez accéder aux AWS Glue tables Amazon Redshift dans Data Wrangler dans Canvas. SageMaker SageMaker Canvas est une application qui permet d'effectuer une analyse exploratoire des données (EDA) et d'entraîner des modèles sans code. Pour plus d'informations sur SageMaker Canvas, consultezAmazon SageMaker Canvas.

Vous pouvez également importer les données de vos tables AWS Glue ou d'Amazon Redshift dans vos blocs-notes Jupyter à l'aide de l'extension SQL. Vous pouvez convertir vos données en dataframes Pandas pour vos flux de travail de machine learning. Pour de plus amples informations, veuillez consulter Préparation des données avec SQL dans Studio.