Requisitos previos de Aurora PostgreSQL Paso 1: configurar el rol de canalización Paso 2: crear la canalización Coherencia de datos Asignación de tipos de datos Limitaciones Alarmas recomendadas CloudWatch

Aurora PostgreSQL

Complete los siguientes pasos para configurar una canalización OpenSearch de ingestión con Amazon Aurora para Aurora PostgreSQL.

Temas

Requisitos previos de Aurora PostgreSQL
Paso 1: configurar el rol de canalización
Paso 2: crear la canalización
Coherencia de datos
Asignación de tipos de datos
Limitaciones
Alarmas recomendadas CloudWatch

Requisitos previos de Aurora PostgreSQL

Antes de crear su canalización de OpenSearch ingestión, lleve a cabo los siguientes pasos:

Cree un grupo de parámetros de clúster de base de datos personalizado en Amazon Aurora para configurar la replicación lógica.


rds.logical_replication=1
    aurora.enhanced_logical_replication=1
    aurora.logical_replication_backup=0
    aurora.logical_replication_globaldb=0

Seleccione o cree un clúster de base de datos Aurora PostgreSQL y asocie el grupo de parámetros creado en el paso 1 al clúster de base de datos.
Configure la autenticación con nombre de usuario y contraseña en su clúster de Amazon Aurora mediante la administración de contraseñas con Aurora y AWS Secrets Manager. También puedes crear una username/password combinación creando un secreto de Secrets Manager.

Si utiliza la función de instantáneas iniciales completa, cree una función de IAM AWS KMS key y una función de IAM para exportar datos de Amazon Aurora a Amazon S3.

El rol de IAM debe tener la siguiente política de permisos:

El rol también debe tener las siguientes relaciones de confianza:

Seleccione o cree un dominio OpenSearch de servicio o una colección OpenSearch sin servidor. Para obtener más información, consulte Creación de dominios OpenSearch de servicio y Creación de colecciones.
Adjunte una política basada en recursos al dominio o una política de acceso a datos a la colección. Estas políticas de acceso permiten a OpenSearch Ingestion escribir datos de su clúster de base de datos de Amazon Aurora en su dominio o colección.

Paso 1: configurar el rol de canalización

Una vez establecidos los requisitos previos de la canalización de Amazon Aurora, configure la función de canalización que se utilizará en la configuración de la canalización. Añada también los siguientes permisos para la fuente de Amazon Aurora al rol:

JSON


{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
    {
    "Sid": "allowReadingFromS3Buckets",
    "Effect": "Allow",
    "Action": [
    "s3:GetObject",
    "s3:DeleteObject",
    "s3:GetBucketLocation",
    "s3:ListBucket",
    "s3:PutObject"
    ],
    "Resource": [
    "arn:aws:s3:::s3_bucket",
    "arn:aws:s3:::s3_bucket/*"
    ]
    },
    {
    "Sid": "allowNetworkInterfacesActions",
    "Effect": "Allow",
    "Action": [
    "ec2:AttachNetworkInterface",
    "ec2:CreateNetworkInterface",
    "ec2:CreateNetworkInterfacePermission",
    "ec2:DeleteNetworkInterface",
    "ec2:DeleteNetworkInterfacePermission",
    "ec2:DetachNetworkInterface",
    "ec2:DescribeNetworkInterfaces"
    ],
    "Resource": [
    "arn:aws:ec2:*:111122223333:network-interface/*",
    "arn:aws:ec2:*:111122223333:subnet/*",
    "arn:aws:ec2:*:111122223333:security-group/*"
    ]
    },
    {
    "Sid": "allowDescribeEC2",
    "Effect": "Allow",
    "Action": [
    "ec2:Describe*"
    ],
    "Resource": "*"
    },
    {
    "Sid": "allowTagCreation",
    "Effect": "Allow",
    "Action": [
    "ec2:CreateTags"
    ],
    "Resource": "arn:aws:ec2:*:111122223333:network-interface/*",
    "Condition": {
    "StringEquals": {
    "aws:RequestTag/OSISManaged": "true"
    }
    }
    },
    {
    "Sid": "AllowDescribeInstances",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeDBInstances"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:db:*"
    ]
    },
    {
    "Sid": "AllowDescribeClusters",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeDBClusters"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:cluster:DB-id"
    ]
    },
    {
    "Sid": "AllowSnapshots",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeDBClusterSnapshots",
    "rds:CreateDBClusterSnapshot",
    "rds:AddTagsToResource"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:cluster:DB-id",
    "arn:aws:rds:us-east-2:111122223333:cluster-snapshot:DB-id*"
    ]
    },
    {
    "Sid": "AllowExport",
    "Effect": "Allow",
    "Action": [
    "rds:StartExportTask"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:cluster:DB-id",
    "arn:aws:rds:us-east-2:111122223333:cluster-snapshot:DB-id*"
    ]
    },
    {
    "Sid": "AllowDescribeExports",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeExportTasks"
    ],
    "Resource": "*",
    "Condition": {
    "StringEquals": {
    "aws:RequestedRegion": "us-east-2",
    "aws:ResourceAccount": "111122223333"
    }
    }
    },
    {
    "Sid": "AllowAccessToKmsForExport",
    "Effect": "Allow",
    "Action": [
    "kms:Decrypt",
    "kms:Encrypt",
    "kms:DescribeKey",
    "kms:RetireGrant",
    "kms:CreateGrant",
    "kms:ReEncrypt*",
    "kms:GenerateDataKey*"
    ],
    "Resource": [
    "arn:aws:kms:us-east-2:111122223333:key/export-key-id"
    ]
    },
    {
    "Sid": "AllowPassingExportRole",
    "Effect": "Allow",
    "Action": "iam:PassRole",
    "Resource": [
    "arn:aws:iam::111122223333:role/export-role"
    ]
    },
    {
    "Sid": "SecretsManagerReadAccess",
    "Effect": "Allow",
    "Action": [
    "secretsmanager:GetSecretValue"
    ],
    "Resource": [
    "arn:aws:secretsmanager:*:111122223333:secret:*"
    ]
    }
    ]
    }

Paso 2: crear la canalización

Configure una canalización de OpenSearch ingestión como la siguiente, que especifique el clúster de Aurora PostgreSQL como origen.


version: "2"
aurora-postgres-pipeline:
  source:
    rds:
      db_identifier: "cluster-id"
      engine: aurora-postgresql
      database: "database-name"
      tables:
        include:
          - "schema1.table1"
          - "schema2.table2"
      s3_bucket: "bucket-name"
      s3_region: "bucket-region"
      s3_prefix: "prefix-name"
      export:
        kms_key_id: "kms-key-id"
        iam_role_arn: "export-role-arn"
      stream: true
      aws:
        sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
        region: "us-east-1"
      authentication:
        username: ${{aws_secrets:secret:username}}
        password: ${{aws_secrets:secret:password}}
  sink:
    - opensearch:
        hosts: ["https://search-mydomain.us-east-1.es.amazonaws.com"]
        index: "${getMetadata(\"table_name\")}"
        index_type: custom
        document_id: "${getMetadata(\"primary_key\")}"
        action: "${getMetadata(\"opensearch_action\")}"
        document_version: "${getMetadata(\"document_version\")}"
        document_version_type: "external"
        aws:
          sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
          region: "us-east-1"
extension:
  aws:
    secrets:
      secret:
        secret_id: "rds-secret-id"
        region: "us-east-1"
        sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
        refresh_interval: PT1H

nota

Puede usar un blueprint de Amazon Aurora preconfigurado para crear esta canalización. Para obtener más información, consulte ¿Trabajando con planos.

Para utilizar Amazon Aurora como fuente, debe configurar el acceso a la VPC para la canalización. La VPC que elija debe ser la misma que usa su fuente de Amazon Aurora. A continuación, elija una o más subredes y uno o más grupos de seguridad de VPC. Tenga en cuenta que la canalización necesita acceso de red a una base de datos Aurora MySQL, por lo que también debe comprobar que el clúster de Aurora esté configurado con un grupo de seguridad de VPC que permita el tráfico entrante desde el grupo de seguridad de VPC de la canalización al puerto de la base de datos. Para obtener más información, consulte Controlar el acceso con grupos de seguridad.

Si utiliza la AWS Management Console para crear su canalización, también debe adjuntarla a la VPC para poder utilizar Amazon Aurora como fuente. Para ello, busque la sección de configuración de red, elija Adjuntar a la VPC y elija su CIDR de una de las opciones predeterminadas proporcionadas, o seleccione la suya propia. Puede usar cualquier CIDR de un espacio de direcciones privado, tal como se define en RFC 1918 Best Current Practice.

Para proporcionar un CIDR personalizado, seleccione Otros en el menú desplegable. Para evitar una colisión en las direcciones IP entre OpenSearch Ingestión y Amazon Aurora, asegúrese de que el CIDR de VPC de Amazon Aurora sea diferente del CIDR de Ingestión. OpenSearch

Para obtener más información, consulte Configuring VPC access for a pipeline.

Coherencia de datos

La canalización garantiza la coherencia de los datos mediante el sondeo continuo o la recepción de cambios del clúster de Amazon Aurora y la actualización de los documentos correspondientes del OpenSearch índice.

OpenSearch La ingestión apoya el end-to-end reconocimiento para garantizar la durabilidad de los datos. Cuando una canalización lee instantáneas o transmisiones, crea particiones de forma dinámica para el procesamiento paralelo. La canalización marca una partición como completa cuando recibe un acuse de recibo después de ingerir todos los registros del dominio o la OpenSearch colección. Si quieres incorporarlos a una colección de búsquedas OpenSearch sin servidor, puedes generar un identificador de documento en la canalización. Si quieres incorporarlo a una colección de series temporales OpenSearch sin servidor, ten en cuenta que la canalización no genera un identificador de documento, por lo que debes omitirlo document_id: "${getMetadata(\"primary_key\")}" en la configuración del colector de canalizaciones.

Una canalización OpenSearch de ingestión también asigna las acciones de los eventos entrantes a las correspondientes acciones de indexación masiva para facilitar la ingesta de documentos. Esto mantiene la coherencia de los datos, de modo que cada cambio de datos en Amazon Aurora se concilia con los cambios en OpenSearch los documentos correspondientes.

Asignación de tipos de datos

OpenSearch La canalización de ingestión asigna los tipos de datos de Aurora PostgreSQL a representaciones que son adecuadas OpenSearch para el consumo de los dominios o colecciones de servicios. Si no hay ninguna plantilla de mapeo definida OpenSearch, determine OpenSearch automáticamente los tipos de campo con un mapeo dinámico basado en el primer documento enviado. También puede definir de forma explícita los tipos de campo que mejor se adapten a sus necesidades OpenSearch mediante una plantilla de mapeo.

La siguiente tabla muestra los tipos de datos de Aurora PostgreSQL y OpenSearch los tipos de campo correspondientes. La columna Tipo de OpenSearch campo predeterminado muestra el tipo de campo correspondiente OpenSearch si no se ha definido un mapeo explícito. En este caso, determina OpenSearch automáticamente los tipos de campo con un mapeo dinámico. La columna Tipo de OpenSearch campo recomendado es el tipo de campo que se recomienda especificar de forma explícita en una plantilla de mapeo. Estos tipos de campos están más alineados con los tipos de datos de Aurora PostgreSQL y, por lo general, pueden habilitar mejores funciones de búsqueda disponibles en. OpenSearch

Tipo de datos de Aurora PostgreSQL	Tipo de campo predeterminado OpenSearch	Tipo OpenSearch de campo recomendado
smallint	long	short
entero	long	entero
bigint	long	long
decimal	texto	doble o palabra clave
numérico [(p, s)]	texto	doble o palabra clave
real	float	float
double precision	float	double
smallserial	long	short
serial	long	entero
bigserial	long	long
money	objeto	objeto
character varying(n)	texto	texto
varchar(n)	texto	texto
character(n)	texto	texto
char(n)	texto	texto
bpchar (n)	texto	texto
bpchar	texto	texto
texto	texto	texto
enum	texto	texto
bytea	texto	binario
marca de tiempo [(p)] [sin zona horaria]	largo (en milisegundos de época)	date
marca de tiempo [(p)] con zona horaria	largo (en milisegundos de época)	date
date	largo (en milisegundos de época)	date
time [ (p) ] [ sin zona horaria ]	largo (en milisegundos de época)	date
hora [(p)] con zona horaria	largo (en milisegundos de época)	date
intervalo [campos] [(p)]	texto (formato ISO86 01)	texto
booleano	booleano	booleano
point	texto (en formato WKT)	geo_shape
línea	texto (en formato WKT)	geo_shape
pierna	texto (en formato WKT)	geo_shape
caja	texto (en formato WKT)	geo_shape
path	texto (en formato WKT)	geo_shape
polígono	texto (en formato WKT)	geo_shape
círculo	objeto	objeto
cidr	texto	texto
inet	texto	texto
macaddr	texto	texto
macaddr8	texto	texto
bit(n)	long	byte, corto, entero o largo (según el número de bits)
bit varying(n)	long	byte, corto, entero o largo (según el número de bits)
json	objeto	objeto
jsonb	objeto	objeto
jsonpath	texto	texto

Te recomendamos que configures la cola de mensajes muertos (DLQ) en tu canal de ingestión. OpenSearch Si has configurado la cola, el OpenSearch servicio envía a la cola todos los documentos fallidos que no se puedan ingerir debido a errores de mapeo dinámico.

En caso de que las asignaciones automáticos fallen, puede usar template_type y template_content en su configuración de canalización para definir reglas de asignación explícitas. Como alternativa, puede crear plantillas de asignación directamente en su dominio o colección de búsqueda antes de iniciar la canalización.

Limitaciones

Tenga en cuenta las siguientes limitaciones al configurar una canalización de OpenSearch ingestión para Aurora PostgreSQL:

La integración solo admite una base de datos PostgreSQL de Aurora por canalización.
Actualmente, la integración no admite la ingesta de datos entre regiones; el clúster y el OpenSearch dominio de Amazon Aurora deben estar en el mismo lugar. Región de AWS
Actualmente, la integración no admite la ingesta de datos entre cuentas; el clúster de Amazon Aurora y la canalización de OpenSearch ingestión deben estar en el mismo lugar. Cuenta de AWS
Asegúrese de que el clúster de Amazon Aurora tenga habilitada la autenticación mediante AWS Secrets Manager, que es el único mecanismo de autenticación compatible.
La configuración de canalización existente no se puede actualizar para ingerir datos de una base de datos diferente o de and/or una tabla diferente. Para actualizar la base de datos o el nombre de la tabla de una canalización, debes detener la canalización y reiniciarla con una configuración actualizada, o bien crear una canalización nueva.
Por lo general, no se admiten las sentencias del lenguaje de definición de datos (DDL). La coherencia de los datos no se mantendrá si:
- Se cambian las claves principales (add/delete/rename).
- Las tablas se eliminan o se truncan.
- Se cambian los nombres de las columnas o los tipos de datos.
Si las tablas de PostgreSQL de Aurora que se van a sincronizar no tienen definidas las claves principales, no se garantiza la coherencia de los datos. Tendrá que definir correctamente la document_id opción OpenSearch y la configuración del receptor para poder updates/deletes sincronizarlas. OpenSearch
Versiones compatibles: Aurora PostgreSQL versión 16.4 y superior.

Alarmas recomendadas CloudWatch

Se recomiendan las siguientes CloudWatch métricas para supervisar el rendimiento del proceso de ingestión. Estas métricas pueden ayudarte a identificar la cantidad de datos procesados a partir de las exportaciones, la cantidad de eventos procesados a partir de las transmisiones, los errores al procesar las exportaciones y los eventos de transmisión y la cantidad de documentos escritos en el destino. Puede configurar CloudWatch alarmas para realizar una acción cuando una de estas métricas supere un valor específico durante un período de tiempo específico.

Métrica	Descripción
`pipeline-name`.RDS. Se han modificado las credenciales	Esta métrica indica la frecuencia con la que se rotan los secretos. AWS
`pipeline-name`.rds. executorRefreshErrors	Esta métrica indica errores al actualizar AWS los secretos.
`pipeline-name`.rds. exportRecordsTotal	Esta métrica indica el número de registros exportados desde Amazon Aurora.
`pipeline-name`.rds. exportRecordsProcessed	Esta métrica indica la cantidad de registros procesados por la canalización OpenSearch de ingestión.
`pipeline-name`.rds. exportRecordProcessingErrores	Esta métrica indica el número de errores de procesamiento en una canalización de OpenSearch ingestión al leer los datos de un clúster de Amazon Aurora.
`pipeline-name`.rds. exportRecordsSuccessTotal	Esta métrica indica el número total de registros de exportación procesados correctamente.
`pipeline-name`.rds. exportRecordsFailedTotal	Esta métrica indica el número total de registros que no se han podido procesar.
`pipeline-name`.RDS. Bytes recibidos	Esta métrica indica el número total de bytes recibidos por una canalización de ingestión. OpenSearch
`pipeline-name`.rds.bytes procesados	Esta métrica indica el número total de bytes procesados por una canalización de ingestión. OpenSearch
`pipeline-name`.rds. streamRecordsSuccessTotal	Esta métrica indica el número de registros del flujo procesados correctamente.
`pipeline-name`.rds. streamRecordsFailedTotal	Esta métrica indica el número total de registros del flujo que no se han podido procesar.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Aurora MySQL

Amazon DynamoDB