Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Démarrez avec les intégrations Aurora Zero-ETL
Avant de créer une intégration zéro ETL, configurez votre cluster de base de données DB et votre entrepôt de données avec les paramètres et autorisations requis. Au cours de la configuration, vous allez suivre les étapes suivantes :
Une fois ces tâches terminées, passez à Création d'intégrations zéro ETL d'Aurora à Amazon Redshift ouCréation d'intégrations Aurora Zero-ETL avec un lakehouse Amazon SageMaker.
Vous pouvez utiliser le AWS SDKs pour automatiser le processus de configuration pour vous. Pour de plus amples informations, veuillez consulter Configurez une intégration à l'aide du AWS SDKs.
Astuce
Vous pouvez demander à RDS d'effectuer ces étapes de configuration pour vous pendant que vous créez l'intégration, plutôt que de les exécuter manuellement. Pour commencer immédiatement la création d'une intégration, consultez Création d'intégrations zéro ETL d'Aurora à Amazon Redshift.
Pour l'étape 3, vous pouvez choisir de créer un entrepôt de données cible (étape 3a) ou un lakehouse cible (étape 3b) en fonction de vos besoins :
-
Choisissez un entrepôt de données si vous avez besoin de fonctionnalités d'entreposage de données traditionnelles avec des analyses basées sur SQL.
-
Choisissez un Amazon SageMaker Lakehouse si vous avez besoin de fonctionnalités d'apprentissage automatique et si vous souhaitez utiliser les fonctionnalités de Lakehouse pour la science des données et les flux de travail ML.
Étape 1 : Créer un groupe de paramètres de cluster de base de données personnalisé
Les intégrations Aurora Zero-ETL nécessitent des valeurs spécifiques pour les paramètres du cluster de base de données qui contrôlent la réplication. Plus précisément, Aurora MySQL nécessite un binlog (aurora_enhanced_binlog
) amélioré, et Aurora PostgreSQL nécessite une réplication logique améliorée (). aurora.enhanced_logical_replication
Pour configurer la journalisation binaire ou la réplication logique, vous devez d'abord créer un groupe de paramètres de cluster de base de données personnalisé, puis l'associer au cluster de base de données source.
Aurora MySQL (famille aurora-mysql8.0) :
-
aurora_enhanced_binlog=1
-
binlog_backup=0
-
binlog_format=ROW
-
binlog_replication_globaldb=0
-
binlog_row_image=full
-
binlog_row_metadata=full
Assurez-vous également que le paramètre binlog_transaction_compression
n'est pas défini sur ON
et que le paramètre binlog_row_value_options
n'est pas défini sur PARTIAL_JSON
.
Pour plus d'informations sur le journal binaire amélioré d'Aurora MySQL, consultezConfiguration d'un journal binaire amélioré pour Aurora MySQL.
Aurora PostgreSQL (famille aurora-postgresql16) :
-
rds.logical_replication=1
-
aurora.enhanced_logical_replication=1
-
aurora.logical_replication_backup=0
-
aurora.logical_replication_globaldb=0
L'activation de la réplication logique améliorée (aurora.enhanced_logical_replication
) écrira toujours toutes les valeurs des colonnes dans le journal d'écriture anticipée (WAL), même si elle REPLICA IDENTITY FULL
n'est pas activée. Cela peut augmenter les IOPS pour votre cluster de base de données source.
Important
Si vous activez ou désactivez le paramètre de aurora.enhanced_logical_replication
cluster de base de données, l'instance de base de données principale invalide tous les emplacements de réplication logiques. Cela arrête la réplication de la source vers la cible, et vous devez recréer des emplacements de réplication sur l'instance de base de données principale. Pour éviter les interruptions, veillez à ce que l'état des paramètres reste cohérent pendant la réplication.
Étape 2 : sélectionner ou créer un cluster source
Après avoir créé un groupe de paramètres de cluster de base de données personnalisé, choisissez ou créez un cluster de base de données Aurora . Ce cluster de données sera la source de réplication des données vers l'entrepôt de données cible. Vous pouvez spécifier un cluster de base de données qui utilise des instances de base de données provisionnées ou des Aurora Serverless v2 instances de base de données comme source. Pour obtenir des instructions sur la création d'un cluster de base de données d'instance , consultez Création d'un cluster de base de données Amazon Auroraou. Création d'un cluster de base de données qui utilise Aurora Serverless v2
La base de données doit exécuter une version du moteur de base de données prise en charge. Pour une liste de versions prises en charge, consultez Régions prises en charge et moteurs de base de données Aurora pour les intégrations sans ETL.
Lorsque vous créez la base de données, sous Configuration supplémentaire, remplacez le groupe de paramètres du cluster de base de données par défaut par le groupe de paramètres personnalisé que vous avez créé à l'étape précédente.
Note
Si vous associez le groupe de paramètres au cluster de de une fois que celui-ci a déjà été créé, vous devez redémarrer l'instance de principale du cluster pour appliquer les modifications avant de pouvoir créer une intégration zéro ETL. Pour obtenir des instructions, consultez Redémarrage d'un cluster de bases de données Amazon Aurora ou d'une instance de base de données Amazon Aurora.
Étape 3a : Création d'un entrepôt de données cible
Après avoir créé votre cluster source, vous devez créer et configurer un entrepôt de données cible. L'entrepôt de données doit respecter les exigences suivantes :
-
En utilisant un type de RA3 nœud avec au moins deux nœuds, ou Redshift Serverless.
-
Chiffré (si vous utilisez un cluster provisionné). Pour plus d’informations, consultez Chiffrement de base de données Amazon Redshift.
Pour obtenir des instructions sur la création d'un entrepôt des données, consultez Création d'un cluster pour les clusters provisionnés ou Création d'un groupe de travail avec un espace de noms pour Redshift sans serveur.
Activer la sensibilité à la casse sur l'entrepôt des données
Pour que l'intégration réussisse, le paramètre de sensibilité à la casse (enable_case_sensitive_identifier
) doit être activé pour l'entrepôt des données. Par défaut, la sensibilité à la casse est désactivée sur tous les clusters provisionnés et les groupes de travail Redshift sans serveur.
Pour activer la sensibilité à la casse, effectuez les étapes suivantes en fonction du type de votre entrepôt des données :
-
Cluster provisionné : pour activer la sensibilité à la casse sur un cluster provisionné, créez un groupe de paramètres personnalisé en activant le paramètre
enable_case_sensitive_identifier
. Associez ensuite le groupe de paramètres au cluster. Pour obtenir des instructions, consultez Gestion des groupes de paramètres à l'aide de la console ou Configuration des valeurs des paramètres à l'aide de l' AWS CLI.Note
N'oubliez pas de redémarrer le cluster après lui avoir associé le groupe de paramètres personnalisé.
-
Groupe de travail sans serveur : pour activer la sensibilité à la casse sur un groupe de travail Redshift sans serveur, vous devez utiliser l' AWS CLI. La console Amazon Redshift ne prend actuellement pas en charge la modification des valeurs des paramètres Redshift sans serveur. Envoyez la demande de mise à jour du groupe de travail suivante :
aws redshift-serverless update-workgroup \ --workgroup-name
target-workgroup
\ --config-parameters parameterKey=enable_case_sensitive_identifier,parameterValue=trueVous n'avez pas besoin de redémarrer un groupe de travail après avoir modifié ses valeurs de paramètres.
Configuration de l'autorisation pour l'entrepôt des données
Après avoir créé un entrepôt de données, vous devez configurer le cluster Aurora DB de la source en tant que source d'intégration autorisée. Pour obtenir des instructions, consultez Configuration de l'autorisation pour votre entrepôt des données Amazon Redshift.
Configurez une intégration à l'aide du AWS SDKs
Plutôt que de configurer chaque ressource manuellement, vous pouvez exécuter le script Python suivant pour configurer automatiquement les ressources requises pour vous. L'exemple de code utilise le AWS SDK pour Python (Boto3)
Pour installer les dépendances requises, exécutez les commandes suivantes :
pip install boto3 pip install time
Dans le script, modifiez éventuellement les noms de la source, de la cible et des groupes de paramètres. La fonction finale crée une intégration nommée d'my-integration
après la configuration des ressources.
Étape 3b : Création d'un AWS Glue catalogue pour une intégration Amazon SageMaker sans ETL
Lorsque vous créez une intégration zéro ETL avec un Amazon SageMaker lakehouse, vous devez créer un catalogue AWS Glue géré dans. AWS Lake Formation Le catalogue cible doit être un catalogue géré par Amazon Redshift. Pour créer un catalogue géré Amazon Redshift, créez d'abord le rôle lié à un AWSServiceRoleForRedshift
service. Dans la console Lake Formation, ajoutez le AWSServiceRoleForRedshift
en tant qu'administrateur en lecture seule.
Pour plus d'informations sur les tâches précédentes, consultez les rubriques suivantes.
Pour plus d'informations sur la création d'un catalogue géré Amazon Redshift, consultez la section Création d'un catalogue géré Amazon Redshift dans AWS Glue Data CatalogAWS Lake Formation le manuel du développeur.
Pour plus d'informations sur le rôle lié à un service pour Amazon Redshift, consultez la section Utilisation des rôles liés à un service pour Amazon Redshift dans le guide de gestion Amazon Redshift.
Pour plus d'informations sur les autorisations d'administrateur en lecture seule pour Lake Formation, consultez les références relatives aux personas de Lake Formation et aux autorisations IAM dans le Guide du développeur.AWS Lake Formation
Configurer les autorisations pour le AWS Glue catalogue cible
Avant de créer un catalogue cible pour une intégration Zero-ETL, vous devez créer le rôle de création de cible Lake Formation et le rôle de transfert de AWS Glue données. Utilisez le rôle de création de cibles Lake Formation pour créer le catalogue cible. Lors de la création du catalogue cible, entrez le rôle de transfert de données Glue dans le champ Rôle IAM de la section Accès depuis les moteurs.
Le rôle de création de la cible doit être un administrateur de Lake Formation et nécessite les autorisations suivantes.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "lakeformation:RegisterResource", "Resource": "*" }, { "Sid": "VisualEditor1", "Effect": "Allow", "Action": [ "s3:PutEncryptionConfiguration", "iam:PassRole", "glue:CreateCatalog", "glue:GetCatalog", "s3:PutBucketTagging", "s3:PutLifecycleConfiguration", "s3:PutBucketPolicy", "s3:CreateBucket", "redshift-serverless:CreateNamespace", "s3:DeleteBucket", "s3:PutBucketVersioning", "redshift-serverless:CreateWorkgroup" ], "Resource": [ "arn:aws:glue:*:
account-id
:catalog", "arn:aws:glue:*:account-id
:catalog/*", "arn:aws:s3:::*", "arn:aws:redshift-serverless:*:account-id
:workgroup/*", "arn:aws:redshift-serverless:*:account-id
:namespace/*", "arn:aws:iam::account-id
:role/GlueDataCatalogDataTransferRole" ] } ] }
Le rôle de création de la cible doit avoir la relation de confiance suivante.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::
account-id
:user/Username" }, "Action": "sts:AssumeRole" } ] }
Le rôle de transfert de données Glue est requis pour les opérations du catalogue MySQL et doit disposer des autorisations suivantes.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "DataTransferRolePolicy", "Effect": "Allow", "Action": [ "kms:GenerateDataKey", "kms:Decrypt", "glue:GetCatalog", "glue:GetDatabase" ], "Resource": [ "*" ] } ] }
Le rôle de transfert de données Glue doit avoir la relation de confiance suivante.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "glue.amazonaws.com", "redshift.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
Étapes suivantes
Avec un cluster de Aurora DB source et un entrepôt de données cible Amazon Redshift Amazon SageMaker ou un Lakehouse, vous pouvez créer une intégration zéro ETL et répliquer les données. Pour obtenir des instructions, veuillez consulter Création d'intégrations zéro ETL d'Aurora à Amazon Redshift.