Préparation des données avec SQL dans Studio

Amazon SageMaker Studio fournit une extension SQL intégrée. Cette extension permet aux data scientists d'effectuer des tâches telles que l'échantillonnage, l'analyse exploratoire et l'ingénierie des fonctionnalités directement dans leurs JupyterLab ordinateurs portables. Il tire parti des AWS Glue connexions pour gérer un catalogue de sources de données centralisé. Ce catalogue stocke les métadonnées relatives aux différentes sources de données. Grâce à cet environnement SQL, les scientifiques des données peuvent parcourir les catalogues de données, explorer leurs données, créer des requêtes SQL complexes et traiter ensuite les résultats dans Python.

Cette section vous guide pour configurer l’extension SQL dans Studio. Il décrit les fonctionnalités activées par cette intégration SQL et fournit des instructions pour exécuter des requêtes SQL dans des JupyterLab blocs-notes.

Pour activer l'analyse des données SQL, les administrateurs doivent d'abord configurer AWS Glue les connexions aux sources de données pertinentes. Ces connexions permettent aux data scientists d'accéder facilement aux ensembles de données autorisés depuis l'intérieur JupyterLab.

Outre les AWS Glue connexions configurées par l'administrateur, l'extension SQL permet aux data scientists individuels de créer leurs propres connexions aux sources de données. Ces connexions créées par l’utilisateur peuvent être gérées indépendamment et adaptées au profil de l’utilisateur grâce à des politiques de contrôle d’accès basées sur des balises. Ce modèle de connexion à deux niveaux, avec des connexions configurées par l’administrateur et d’autres créées par l’utilisateur, permet aux scientifiques des données d’accéder plus largement aux données dont ils ont besoin pour leurs tâches d’analyse et de modélisation. Les utilisateurs peuvent configurer les connexions nécessaires à leurs propres sources de données dans l'interface utilisateur (UI) de JupyterLab l'environnement, sans se fier uniquement aux connexions centralisées établies par l'administrateur.

Important

La fonctionnalité de création de connexions définies par l’utilisateur est disponible sous la forme d’un ensemble de bibliothèques autonomes dans PyPI. Pour utiliser cette fonctionnalité, vous devez installer les bibliothèques suivantes dans votre JupyterLab environnement :

Vous pouvez installer ces bibliothèques en exécutant les commandes suivantes dans votre JupyterLab terminal :


pip install amazon-sagemaker-sql-editor>=0.1.13
pip install amazon-sagemaker-sql-execution>=0.1.6
pip install amazon-sagemaker-sql-magic>=0.1.3

Après avoir installé les bibliothèques, vous devez redémarrer le JupyterLab serveur pour que les modifications soient prises en compte.


restart-jupyter-server

Une fois l'accès configuré, JupyterLab les utilisateurs peuvent :

afficher et parcourir les sources de données préconfigurées ;
rechercher, filtrer et inspecter les éléments d’information de base de données tels que les tables, les schémas et les colonnes ;
Auto-generate les paramètres de connexion à une source de données.
créer des requêtes SQL complexes à l’aide des fonctionnalités de coloration syntaxique, de saisie automatique et de mise en forme SQL de l’éditeur SQL de l’extension ;
Exécutez des instructions SQL à partir de cellules du JupyterLab bloc-notes.
Récupérez les résultats des requêtes SQL pandas DataFrames pour le traitement ultérieur, la visualisation et d'autres tâches d'apprentissage automatique.

Vous pouvez accéder à l'extension en choisissant l'icône de l'extension SQL ( ) dans le volet de navigation gauche de votre JupyterLab application dans Studio. Pointer sur cette icône permet d’afficher l’info-bulle Découverte des données.

Important

L' JupyterLab image dans SageMaker Studio contient l'extension SQL par défaut, à partir de SageMaker AI Distribution 1.6. L'extension fonctionne uniquement avec Python et SparkMagic les noyaux.
L'interface utilisateur de l'extension permettant d'explorer les connexions et les données n'est disponible que JupyterLab dans Studio. Elle est compatible avec Amazon Redshift, Amazon Athena et Snowflake.

Si vous êtes administrateur et que vous souhaitez créer des connexions génériques aux sources de données pour l’extension SQL, procédez comme suit :
1. Activez la communication réseau entre votre domaine Studio et les sources de données auxquelles vous souhaitez vous connecter. Pour découvrir les exigences de mise en réseau, consultez Configuration de l’accès réseau entre Studio et les sources de données (pour les administrateurs).
2. Consultez les propriétés et les instructions de connexion pour créer un secret pour votre source de données dans Création de secrets pour les informations d’identification et d’accès à la base de données dans Secrets Manager.
3. Créez les AWS Glue connexions à vos sources de données dansCréer AWS Glue connexions (pour les administrateurs).
4. Accordez au rôle d'exécution de votre SageMaker domaine ou de vos profils utilisateur les autorisations requises dansConfiguration des autorisations IAM pour accéder aux sources de données (pour les administrateurs).
Si vous êtes un scientifique des données et que vous souhaitez créer vos propres connexions aux sources de données pour l’extension SQL, procédez comme suit :
1. Demandez à votre administrateur d’effectuer les opérations suivantes :
  - Activez la communication réseau entre votre domaine Studio et les sources de données auxquelles vous souhaitez vous connecter. Pour découvrir les exigences de mise en réseau, consultez Configuration de l’accès réseau entre Studio et les sources de données (pour les administrateurs).
  - Accordez au rôle d'exécution de votre SageMaker domaine ou de vos profils utilisateur les autorisations requises dansConfiguration des autorisations IAM pour accéder aux sources de données (pour les administrateurs).
    
    Note
    Les administrateurs peuvent restreindre l'accès des utilisateurs aux connexions créées dans l' JupyterLab application en configurant le contrôle d'accès basé sur des balises dans le rôle d'exécution.
2. Consultez les propriétés et les instructions de connexion pour créer un secret pour votre source de données dans Création de secrets pour les informations d’identification et d’accès à la base de données dans Secrets Manager.
3. Créez votre connexion dans l' JupyterLab interface utilisateur en suivant les instructions deCréer défini par l'utilisateur AWS Glue connexions.
Si vous êtes un scientifique des données et que vous souhaitez parcourir et interroger vos sources de données à l’aide de l’extension SQL, assurez-vous que vous ou votre administrateur avez préalablement configuré les connexions à vos sources de données. Ensuite, procédez comme suit :
1. Créez un espace privé pour lancer votre JupyterLab application dans Studio à l'aide de l'image de SageMaker distribution version 1.6 ou supérieure.
2. Si vous utilisez la version 1.6 de l'image de SageMaker distribution, chargez l'extension SQL dans un JupyterLab bloc-notes en l'exécutant %load_ext amazon_sagemaker_sql_magic dans une cellule du bloc-notes.
  
  Pour les utilisateurs des versions 1.7 et ultérieures de l'image de SageMaker distribution, aucune action n'est nécessaire, l'extension SQL se charge automatiquement.
3. Familiarisez-vous avec les fonctionnalités de l’extension SQL dans Fonctionnalités et utilisation de l’extension SQL.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparation des données

Démarrage rapide : interrogation des données dans Amazon S3

Préparation des données avec SQL dans Studio

Important

Important

Note

Rubriques