Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'intégrations Aurora Zero-ETL avec un lakehouse Amazon SageMaker
Lorsque vous créez une intégration Aurora Zero-ETL avec un Amazon SageMaker Lakehouse, vous spécifiez le cluster de DB source et le catalogue géré cible. AWS Glue Vous pouvez également personnaliser les paramètres de chiffrement et ajouter des balises. Aurora crée une intégration entre le cluster de source et sa cible. Une fois l'intégration active, toutes les données que vous insérez dans le cluster source seront répliquées dans la cible configurée.
Prérequis
Avant de créer une intégration zéro ETL avec un Amazon SageMaker Lakehouse, vous devez créer un cluster de source et un catalogue géré cible AWS Glue . Vous devez également autoriser la réplication dans le catalogue en ajoutant le cluster en tant que source d'intégration autorisée.
Pour obtenir des instructions sur la réalisation de chacune de ces étapes, consultez Démarrez avec les intégrations Aurora Zero-ETL.
Autorisations requises
Certaines autorisations IAM sont requises pour créer une intégration zéro ETL avec un Amazon SageMaker lakehouse. Vous avez au moins besoin des autorisations requises pour effectuer les actions suivantes :
Créez des intégrations zéro ETL pour le cluster source.
Afficher et supprimer toutes les intégrations zéro ETL.
Créez des intégrations entrantes dans le catalogue AWS Glue géré cible.
Accédez aux compartiments Amazon S3 utilisés par le catalogue AWS Glue géré.
Utilisez AWS KMS des clés pour le chiffrement si le chiffrement personnalisé est configuré.
Enregistrez des ressources auprès de Lake Formation.
Appliquez une politique de ressources au catalogue AWS Glue géré pour autoriser les intégrations entrantes.
L'exemple de politique suivant illustre les autorisations de moindre privilège requises pour créer et gérer des intégrations avec un Amazon SageMaker lakehouse. Il se peut que vous n'ayez pas besoin de ces autorisations exactes si votre utilisateur ou votre rôle dispose d'autorisations plus étendues, telles qu'une politique AdministratorAccess
gérée.
En outre, vous devez configurer une politique de ressources sur le catalogue AWS Glue géré cible afin d'autoriser les intégrations entrantes. Utilisez la AWS CLI commande suivante pour appliquer la politique de ressources.
aws glue put-resource-policy \ --policy-in-json '{ "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": [ "glue:AuthorizeInboundIntegration" ], "Resource": ["arn:aws:glue:
region
:account_id
:catalog/catalog_name
"], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:rds:region
:account_id
:db:source_name
" } } }, { "Effect": "Allow", "Principal": { "AWS": "account_id
" }, "Action": ["glue:CreateInboundIntegration"], "Resource": ["arn:aws:glue:region
:account_id
:catalog/catalog_name
"] } ] }' \ --regionregion
Note
Les noms de ressources Amazon du catalogue Glue (ARNs) ont le format suivant :
-
Catalogue Glue —
arn:aws:glue:{region}:{account-id}:catalog/
catalog-name
Choix d'un catalogue AWS Glue géré cible dans un autre compte
Si vous envisagez de spécifier un catalogue AWS Glue géré cible qui se trouve dans un autre Compte AWS, vous devez créer un rôle permettant aux utilisateurs du compte courant d'accéder aux ressources du compte cible. Pour plus d'informations, consultez la section Fournir un accès à un utilisateur IAM dans un autre utilisateur Compte AWS dont vous êtes le propriétaire.
Le rôle doit disposer des autorisations suivantes, qui permettent à l'utilisateur de consulter les AWS Glue catalogues disponibles dans le compte cible.
{ "Version":"2012-10-17", "Statement":[ { "Effect":"Allow", "Action":[ "glue:GetCatalog" ], "Resource":[ "*" ] } ] }
Le rôle doit respecter la politique d'approbation suivante, qui spécifie l'ID du compte cible.
{ "Version":"2012-10-17", "Statement":[ { "Effect":"Allow", "Principal":{ "AWS": "arn:aws:iam::
{external-account-id}
:root" }, "Action":"sts:AssumeRole" } ] }
Pour obtenir des instructions quant à la création du rôle, consultez Création d'un rôle à l'aide de politiques d'approbation personnalisées.
Création d'intégrations sans ETL avec un lakehouse Amazon SageMaker
Vous pouvez créer une intégration zéro ETL avec un Amazon SageMaker lakehouse à l'aide de l'API AWS Management Console, de AWS CLI, ou de l'API RDS.
Important
Les intégrations sans ETL avec un Amazon SageMaker Lakehouse ne prennent pas en charge les opérations d'actualisation ou de resynchronisation. Si vous rencontrez des problèmes avec une intégration après sa création, vous devez la supprimer et en créer une nouvelle.
Pour créer une intégration zéro ETL avec un lakehouse Amazon SageMaker
Connectez-vous à la console Amazon RDS AWS Management Console et ouvrez-la à https://console.aws.amazon.com/rds/
l'adresse. -
Dans le panneau de navigation de gauche, choisissez Intégrations Zero-ETL.
-
Choisissez Créer une intégration Zero-ETL.
-
Dans Identifiant d'intégration, saisissez un nom pour l'intégration. Ce nom peut comporter jusqu'à 63 caractères alphanumériques et peut inclure des traits d'union.
-
Choisissez Suivant.
Pour Source, sélectionnez le cluster de Aurora DB d'où proviendront les données.
Note
RDS vous avertit si les paramètres du cluster de base de données ne sont pas configurés correctement. Si vous recevez ce message, vous pouvez soit choisir Fix it for me, soit les configurer manuellement. Pour obtenir des instructions pour les corriger manuellement, reportez-vous à Étape 1 : Créer un groupe de paramètres de cluster de base de données personnalisé.
La modification des paramètres du cluster de base de données nécessite un redémarrage. Avant de créer l'intégration, le redémarrage doit être terminé et les nouvelles valeurs de paramètres doivent être correctement appliquées au cluster de .
-
(Facultatif) Sélectionnez Personnaliser les options de filtrage des données et ajoutez des filtres de données à votre intégration. Vous pouvez utiliser des filtres de données pour définir l'étendue de la réplication vers le Amazon SageMaker lakehouse cible. Pour de plus amples informations, veuillez consulter Filtrage des données pour les Aurora Zero-ETL.
-
Une fois que le cluster source est correctement configuré, choisissez Next.
Pour Cible, procédez comme suit :
(Facultatif) Pour utiliser un autre Compte AWS compte pour la cible Amazon SageMaker Lakehouse, choisissez Spécifier un autre compte. Entrez ensuite l'ARN d'un rôle IAM autorisé à afficher vos AWS Glue catalogues. Pour obtenir des instructions sur la création du rôle IAM, consultez Choix d'un catalogue AWS Glue géré cible dans un autre compte.
Pour le AWS Glue catalogue, sélectionnez la cible pour les données répliquées à partir du cluster de source. Vous pouvez choisir un catalogue AWS Glue géré existant comme cible.
Le rôle IAM cible doit décrire les autorisations sur le catalogue cible et doit disposer des autorisations suivantes :
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "glue:GetCatalog", "Resource": [ "arn:aws:glue:
region
:account-id
:catalog/*", "arn:aws:glue:region
:account-id
:catalog" ] } ] }Le rôle IAM cible doit avoir la relation de confiance suivante :
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
Vous devez accorder au rôle IAM cible des autorisations de description pour le catalogue AWS Glue géré cible avec le rôle d'administrateur de Lake Formation créé dansÉtape 3b : Création d'un AWS Glue catalogue pour une intégration Amazon SageMaker sans ETL.
Note
RDS vous avertit si la politique de ressources ou les paramètres de configuration du catalogue AWS Glue géré spécifié ne sont pas correctement configurés. Si vous recevez ce message, vous pouvez soit choisir Fix it for me, soit les configurer manuellement.
Si la source et la cible que vous avez sélectionnées se trouvent dans des Comptes AWS différents, Amazon RDS ne peut pas corriger ces paramètres pour vous. Vous devez accéder à l'autre compte et les corriger manuellementSageMaker Unified Studio.
-
Une fois que votre catalogue AWS Glue géré cible est correctement configuré, choisissez Next.
-
(Facultatif) Pour Balises, ajoutez une ou plusieurs balises à l'intégration. Pour de plus amples informations, veuillez consulter Marquage d'Amazon Aurora et des ressources Amazon RDS.
-
Pour Chiffrement, spécifiez la manière dont vous souhaitez que votre intégration soit chiffrée. Par défaut, RDS chiffre toutes les intégrations avec un. Clé détenue par AWS Pour choisir plutôt une clé gérée par le client, activez Personnaliser les paramètres de chiffrement et choisissez une clé KMS à utiliser pour le chiffrement. Pour de plus amples informations, veuillez consulter Chiffrement des ressources Amazon Aurora.
Ajoutez éventuellement un contexte de chiffrement. Consultez Contexte de chiffrement dans le AWS Key Management Service guide du développeur pour en savoir plus.
Note
Amazon RDS ajoute les paires de contextes de chiffrement suivantes en plus de celles que vous ajoutez :
-
aws:glue:integration:arn
-IntegrationArn
-
aws:servicename:id
-glue
Cela réduit le nombre total de paires que vous pouvez ajouter de 8 à 6 et contribue à la limite de caractères globale de la contrainte de subvention. Pour plus d'informations, consultez la section Utilisation des contraintes de subvention dans le Guide du AWS Key Management Service développeur.
-
-
Choisissez Suivant.
Vérifiez vos paramètres d'intégration et choisissez Créer une intégration zéro ETL.
Si la création échoue, consultez Résolution des problèmes liés aux Aurora Zero-ETL pour obtenir les étapes de résolution des problèmes.
L'intégration a un statut Creating
pendant sa création, et le Amazon SageMaker lakehouse cible a un statut de. Modifying
Pendant ce temps, vous ne pouvez pas interroger le catalogue ni y apporter de modifications de configuration.
Lorsque l'intégration est créée avec succès, le statut de l'intégration et celui du Amazon SageMaker lakehouse cible passent tous deux à. Active
Pour préparer un catalogue AWS Glue géré cible pour une intégration zéro ETL à l'aide de AWS CLI, vous devez d'abord utiliser la create-integration-resource-propertycommande avec les options suivantes :
-
--resource-arn
— Spécifiez l'ARN du catalogue AWS Glue géré qui sera la cible de l'intégration. -
--target-processing-properties
— Spécifiez l'ARN du rôle IAM pour accéder au catalogue AWS Glue géré cible
aws glue create-integration-resource-property --region us-east-1 --resource-arn arn:aws:glue:
region
:account_id
:catalog/catalog_name
\ --target-processing-properties '{"RoleArn" : "arn:aws:iam::account_id
:role/TargetIamRole"}'
Pour créer une intégration zéro ETL avec un Amazon SageMaker lakehouse à l'aide de AWS CLI, utilisez la commande create-integration avec les options suivantes :
-
--integration-name
: spécifiez le nom de l'intégration. -
--source-arn
— Spécifiez l'ARN du cluster de Aurora DB qui sera la source de l'intégration. -
--target-arn
— Spécifiez l'ARN du catalogue AWS Glue géré qui sera la cible de l'intégration.
Pour LinuxmacOS, ou Unix :
aws rds create-integration \ --integration-name
my-sagemaker-integration
\ --source-arn arn:aws:rds:{region}
:{account-id}
:my-db
\ --target-arn arn:aws:glue:{region}
:{account-id}
:catalog/catalog-name
Dans Windows :
aws rds create-integration ^ --integration-name
my-sagemaker-integration
^ --source-arn arn:aws:rds:{region}
:{account-id}
:my-db
^ --target-arn arn:aws:glue:{region}
:{account-id}
:catalog/catalog-name
Pour créer une intégration zéro ETL à Amazon SageMaker l'aide de l'API Amazon RDS, utilisez l'CreateIntegration
opération avec les paramètres suivants :
Note
Les noms de catalogue sont limités à 19 caractères. Assurez-vous que votre IntegrationName paramètre répond à cette exigence s'il doit être utilisé comme nom de catalogue.
-
IntegrationName
: spécifiez le nom de l'intégration. -
SourceArn
— Spécifiez l'ARN du cluster de Aurora DB qui sera la source de l'intégration. -
TargetArn
— Spécifiez l'ARN du catalogue AWS Glue géré qui sera la cible de l'intégration.
Chiffrer les intégrations à l'aide d'une clé gérée par le client
Si vous spécifiez une clé KMS personnalisée plutôt qu'une clé Clé détenue par AWS lorsque vous créez une intégrationAmazon SageMaker, la politique de clé doit fournir au SageMaker Unified Studio service principal un accès à l'CreateGrant
action. En outre, il doit autoriser l'utilisateur actuel à effectuer les CreateGrant
actions DescribeKey
et.
L'exemple de politique suivant montre comment fournir les autorisations requises dans la politique clé. Il inclut des clés contextuelles pour réduire davantage la portée des autorisations.
{ "Version": "2012-10-17", "Id": "Key policy", "Statement": [ { "Sid": "Enables IAM user permissions", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::
{account-ID}
:root" }, "Action": "kms:*", "Resource": "*" }, { "Sid": "Allows the Glue service principal to add a grant to an AWS KMS key", "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "kms:CreateGrant", "Resource": "*", "Condition": { "StringEquals": { "kms:EncryptionContext:{context-key}
":"{context-value}
" }, "ForAllValues:StringEquals": { "kms:GrantOperations": [ "Decrypt", "GenerateDataKey", "CreateGrant" ] } } }, { "Sid": "Allows the current user or role to add a grant to a KMS key", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::{account-ID}
:role/{role-name}
" }, "Action": "kms:CreateGrant", "Resource": "*", "Condition": { "StringEquals": { "kms:EncryptionContext:{context-key}
":"{context-value}
", "kms:ViaService": "rds.us-east-1.amazonaws.com" }, "ForAllValues:StringEquals": { "kms:GrantOperations": [ "Decrypt", "GenerateDataKey", "CreateGrant" ] } } }, { "Sid": "Allows the current uer or role to retrieve information about a KMS key", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::{account-ID}
:role/{role-name}
" }, "Action": "kms:DescribeKey", "Resource": "*" } ] }
Pour plus d'informations, consultez Création d'une stratégie de clé dans le Guide du développeur AWS Key Management Service .
Étapes suivantes
Une fois que vous avez créé avec succès une intégration Zero-ETL avecAmazon SageMaker, vous pouvez commencer à ajouter des données au cluster Aurora DB source et à les interroger dans votre Lakehouse. Amazon SageMaker Les données seront automatiquement répliquées et mises à disposition pour les charges de travail d'analyse et d'apprentissage automatique.