Propagation d’identité fiable avec AWS Glue ETL - AWS Glue

Propagation d’identité fiable avec AWS Glue ETL

Avec IAM Identity Center, vous pouvez vous connecter aux fournisseurs d’identité (IdP) et gérer de manière centralisée l’accès des utilisateurs et des groupes à travers les services d’analytique AWS. Vous pouvez intégrer des fournisseurs d’identité tels qu’Okta, Ping et Microsoft Entra ID (anciennement Azure Active Directory) à IAM Identity Center pour que les utilisateurs de votre organisation puissent accéder aux données via une expérience d’authentification unique. IAM Identity Center prend également en charge la connexion à d’autres fournisseurs d’identité tiers.

Avec AWS Glue versions 5.0 et ultérieures, vous pouvez propager les identités des utilisateurs depuis IAM Identity Center vers des sessions interactives AWS Glue. Les sessions interactives AWS Glue permettront de propager davantage l’identité fournie aux services en aval tels que les autorisations d’accès Amazon S3, AWS Lake Formation et Amazon Redshift, permettant ainsi un accès sécurisé aux données via l’identité des utilisateurs dans ces services en aval.

Présentation

Identity Center est l’approche recommandée pour l’authentification et l’autorisation du personnel sur AWS pour les organisations de toute taille et de tout type. Avec Identity Center, vous pouvez créer et gérer les identités des utilisateurs dans AWS ou connecter votre source d’identité existante, notamment Microsoft Active Directory, Okta, Ping Identity, JumpCloud, Google Workspace et Microsoft Entra ID (anciennement Azure AD).

La propagation d’identité fiable est une fonctionnalité IAM Identity Center que les administrateurs des services AWS connectés peuvent utiliser pour accorder et auditer l’accès aux données des services. L’accès à ces données est basé sur les attributs de l’utilisateur, tels que les associations de groupes. La configuration de la propagation d’identité fiable nécessite une collaboration entre les administrateurs des services AWS connectés et les administrateurs d’IAM Identity Center.

Fonctionnalités et avantages

L’intégration des sessions interactives AWS Glue à la propagation d’identité fiable d’IAM Identity Center offre les avantages suivants :

  • Vous avez la possibilité d’appliquer des autorisations au niveau des tables et un contrôle d’accès précis avec les identités Identity Center sur les tables du catalogue de données AWS Glue gérées par Lake Formation.

  • Vous avez la possibilité d’appliquer des autorisations avec les identités Identity Center sur les clusters Amazon Redshift.

  • Permet le suivi de bout en bout des actions des utilisateurs à des fins d’audit.

  • Vous avez la possibilité d’appliquer l’autorisation au niveau du préfixe Amazon S3 avec les identités Identity Center aux préfixes Amazon S3 gérés par les autorisations d’accès Amazon S3.

Cas d’utilisation

Exploration et analyse interactives des données

Les ingénieurs de données utilisent leur identité d’entreprise pour accéder aux données de plusieurs comptes AWS et les analyser facilement. Grâce à SageMaker Studio, ils lancent des sessions Spark interactives via AWS Glue ETL, en se connectant à diverses sources de données, notamment Amazon S3 et le catalogue de données AWS Glue. Lorsque les ingénieurs explorent les jeux de données, Spark applique des contrôle précis des accès définis dans Lake Formation en fonction de leur identité, garantissant ainsi qu’ils ne peuvent consulter que les données autorisées. Toutes les requêtes et transformations de données sont enregistrées avec l’identité de l’utilisateur, ce qui crée une piste d’audit claire. Cette approche rationalisée permet le prototypage rapide de nouveaux produits d’analytique tout en maintenant une gouvernance des données stricte dans les environnements client.

Préparation des données et ingénierie des fonctionnalités

Les scientifiques des données de plusieurs équipes de recherche collaborent sur des projets complexes en s’aidant d’une plateforme de données unifiée. Ils se connectent à SageMaker Studio à l’aide de leurs informations d’identification d’entreprise et accèdent immédiatement à un vaste lac de données partagé qui couvre plusieurs comptes AWS. Alors qu’ils commencent à concevoir des fonctionnalités pour de nouveaux modèles de machine learning, les sessions Spark lancées via AWS Glue ETL appliquent les politiques de sécurité au niveau des colonnes et des lignes de Lake Formation en fonction de leurs identités propagées. Les scientifiques peuvent préparer efficacement les données et concevoir des fonctionnalités à l’aide d’outils bien connus, tandis que les équipes de conformité ont l’assurance que chaque interaction avec les données est automatiquement suivie et auditée. Cet environnement sécurisé et collaboratif accélère les pipelines de recherche tout en respectant les normes strictes de protection des données requises dans les secteurs réglementés.

Fonctionnement

Schéma d’architecture illustrant le flux de travail des sessions interactives AWS Glue. Un utilisateur se connecte à des applications orientées client (SageMaker Unified Studio ou applications personnalisées) via IAM Identity Center. L’identité de l’utilisateur est transmise à AWS Glue Interactive Sessions, qui se connecte aux services de contrôle d’accès, tels que IAM Identity Center, AWS Lake Formation, le catalogue de données AWS Glue et les autorisations d’accès Amazon S3, avant d’accéder enfin au stockage S3.

Un utilisateur se connecte à des applications orientées client (SageMaker AI ou applications personnalisées) à l’aide de son identité d’entreprise via IAM Identity Center. Cette identité est ensuite propagée via l’ensemble du pipeline d’accès aux données.

L’utilisateur authentifié lance des sessions interactives AWS AWS Glue, qui servent de moteur de calcul pour le traitement des données. Ces sessions conservent le contexte d’identité de l’utilisateur tout au long du flux de travail.

AWS Lake Formation et le Catalogue de données AWS Glue fonctionnent de concert pour appliquer des contrôles précis des accès. Lake Formation applique des politiques de sécurité basées sur l’identité propagée de l’utilisateur, tandis que les autorisations d’accès Amazon S3 fournissent des couches d’autorisation supplémentaires, garantissant que les utilisateurs ne peuvent accéder qu’aux données qu’ils sont autorisés à consulter.

Enfin, le système se connecte au stockage Amazon S3 où résident les données réelles. Tous les accès sont régis par les politiques de sécurité combinées, ce qui permet d’assurer la gouvernance des données tout en permettant une exploration et une analyse interactives des données. Cette architecture permet un accès aux données sécurisé et basé sur l’identité à travers plusieurs services AWS tout en garantissant une expérience utilisateur fluide aux scientifiques et aux ingénieurs des données travaillant avec de grands jeux de données.

Intégrations

Environnement de développement géré par AWS

Les applications gérées par AWS orientées client suivantes prennent en charge la propagation d’identité fiable grâce à des sessions interactives AWS Glue :

Sagemaker Unified Studio

Pour utiliser la propagation d’identité fiable avec Sagemaker Unified Studio :

  1. Configurez le projet Sagemaker Unified Studio avec la propagation d’identité fiable activée en tant qu’environnement de développement orienté client.

  2. Configurez Lake Formation pour permettre un contrôle précis des accès aux tables AWS Glue en fonction de l’utilisateur ou du groupe dans IAM Identity Center.

  3. Configurez les autorisations d’accès Amazon S3 pour permettre un accès temporaire aux emplacements de données sous-jacents dans Amazon S3.

  4. Ouvrez l’espace Sagemaker Unified Studio JupyterLab IDE et sélectionnez AWS Glue comme calcul pour l’exécution du bloc-notes.

Environnement de bloc-notes auto-hébergé géré par le client

Pour permettre la propagation d’identité fiable pour les utilisateurs d’applications développées sur mesure, consultez Access AWS services programmatically using trusted identity propagation sur AWS Security Blog.