Aurora PostgreSQL prasyarat Langkah 1: Konfigurasikan peran pipeline Langkah 2: Buat pipa Konsistensi data Pemetaan tipe data Batasan CloudWatch Alarm yang Direkomendasikan

Aurora PostgreSQL

Selesaikan langkah-langkah berikut untuk mengonfigurasi pipeline OpenSearch Ingestion dengan Amazon Aurora untuk Aurora PostgreSQL.

Aurora PostgreSQL prasyarat

Sebelum Anda membuat pipeline OpenSearch Ingestion, lakukan langkah-langkah berikut:

Buat grup parameter cluster DB kustom di Amazon Aurora untuk mengonfigurasi replikasi logis.


rds.logical_replication=1
    aurora.enhanced_logical_replication=1
    aurora.logical_replication_backup=0
    aurora.logical_replication_globaldb=0

Pilih atau buat cluster DB PostgreSQL Aurora dan kaitkan grup parameter yang dibuat pada langkah 1 dengan cluster DB.
Siapkan otentikasi nama pengguna dan kata sandi di klaster Amazon Aurora Anda menggunakan manajemen kata sandi dengan Aurora dan. AWS Secrets Manager Anda juga dapat membuat username/password kombinasi dengan membuat rahasia Secrets Manager.

Jika Anda menggunakan fitur snapshot awal lengkap, buat peran AWS KMS key dan IAM untuk mengekspor data dari Amazon Aurora ke Amazon S3.

Peran IAM harus memiliki kebijakan izin berikut:

Peran tersebut juga harus memiliki hubungan kepercayaan berikut:

Pilih atau buat domain OpenSearch Layanan atau koleksi OpenSearch Tanpa Server. Untuk informasi selengkapnya, lihat Membuat domain OpenSearch Layanan dan Membuat koleksi.
Lampirkan kebijakan berbasis sumber daya ke domain Anda atau kebijakan akses data ke koleksi Anda. Kebijakan akses ini memungkinkan OpenSearch Ingestion untuk menulis data dari klaster DB Amazon Aurora Anda ke domain atau koleksi Anda.

Langkah 1: Konfigurasikan peran pipeline

Setelah Anda menyiapkan prasyarat pipeline Amazon Aurora, konfigurasikan peran pipeline yang akan digunakan dalam konfigurasi pipeline Anda. Tambahkan juga izin berikut untuk sumber Amazon Aurora ke peran:

JSON


{
    "Version":"2012-10-17",
    "Statement": [
    {
    "Sid": "allowReadingFromS3Buckets",
    "Effect": "Allow",
    "Action": [
    "s3:GetObject",
    "s3:DeleteObject",
    "s3:GetBucketLocation",
    "s3:ListBucket",
    "s3:PutObject"
    ],
    "Resource": [
    "arn:aws:s3:::s3_bucket",
    "arn:aws:s3:::s3_bucket/*"
    ]
    },
    {
    "Sid": "allowNetworkInterfacesActions",
    "Effect": "Allow",
    "Action": [
    "ec2:AttachNetworkInterface",
    "ec2:CreateNetworkInterface",
    "ec2:CreateNetworkInterfacePermission",
    "ec2:DeleteNetworkInterface",
    "ec2:DeleteNetworkInterfacePermission",
    "ec2:DetachNetworkInterface",
    "ec2:DescribeNetworkInterfaces"
    ],
    "Resource": [
    "arn:aws:ec2:*:111122223333:network-interface/*",
    "arn:aws:ec2:*:111122223333:subnet/*",
    "arn:aws:ec2:*:111122223333:security-group/*"
    ]
    },
    {
    "Sid": "allowDescribeEC2",
    "Effect": "Allow",
    "Action": [
    "ec2:Describe*"
    ],
    "Resource": "*"
    },
    {
    "Sid": "allowTagCreation",
    "Effect": "Allow",
    "Action": [
    "ec2:CreateTags"
    ],
    "Resource": "arn:aws:ec2:*:111122223333:network-interface/*",
    "Condition": {
    "StringEquals": {
    "aws:RequestTag/OSISManaged": "true"
    }
    }
    },
    {
    "Sid": "AllowDescribeInstances",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeDBInstances"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:db:*"
    ]
    },
    {
    "Sid": "AllowDescribeClusters",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeDBClusters"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:cluster:DB-id"
    ]
    },
    {
    "Sid": "AllowSnapshots",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeDBClusterSnapshots",
    "rds:CreateDBClusterSnapshot",
    "rds:AddTagsToResource"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:cluster:DB-id",
    "arn:aws:rds:us-east-2:111122223333:cluster-snapshot:DB-id*"
    ]
    },
    {
    "Sid": "AllowExport",
    "Effect": "Allow",
    "Action": [
    "rds:StartExportTask"
    ],
    "Resource": [
    "arn:aws:rds:us-east-2:111122223333:cluster:DB-id",
    "arn:aws:rds:us-east-2:111122223333:cluster-snapshot:DB-id*"
    ]
    },
    {
    "Sid": "AllowDescribeExports",
    "Effect": "Allow",
    "Action": [
    "rds:DescribeExportTasks"
    ],
    "Resource": "*",
    "Condition": {
    "StringEquals": {
    "aws:RequestedRegion": "us-east-2",
    "aws:ResourceAccount": "111122223333"
    }
    }
    },
    {
    "Sid": "AllowAccessToKmsForExport",
    "Effect": "Allow",
    "Action": [
    "kms:Decrypt",
    "kms:Encrypt",
    "kms:DescribeKey",
    "kms:RetireGrant",
    "kms:CreateGrant",
    "kms:ReEncrypt*",
    "kms:GenerateDataKey*"
    ],
    "Resource": [
    "arn:aws:kms:us-east-2:111122223333:key/export-key-id"
    ]
    },
    {
    "Sid": "AllowPassingExportRole",
    "Effect": "Allow",
    "Action": "iam:PassRole",
    "Resource": [
    "arn:aws:iam::111122223333:role/export-role"
    ]
    },
    {
    "Sid": "SecretsManagerReadAccess",
    "Effect": "Allow",
    "Action": [
    "secretsmanager:GetSecretValue"
    ],
    "Resource": [
    "arn:aws:secretsmanager:*:111122223333:secret:*"
    ]
    }
    ]
    }

Langkah 2: Buat pipa

Konfigurasikan pipeline OpenSearch Ingestion seperti berikut ini, yang menentukan cluster Aurora PostgreSQL sebagai sumbernya.


version: "2"
aurora-postgres-pipeline:
  source:
    rds:
      db_identifier: "cluster-id"
      engine: aurora-postgresql
      database: "database-name"
      tables:
        include:
          - "schema1.table1"
          - "schema2.table2"
      s3_bucket: "bucket-name"
      s3_region: "bucket-region"
      s3_prefix: "prefix-name"
      export:
        kms_key_id: "kms-key-id"
        iam_role_arn: "export-role-arn"
      stream: true
      aws:
        sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
        region: "us-east-1"
      authentication:
        username: ${{aws_secrets:secret:username}}
        password: ${{aws_secrets:secret:password}}
  sink:
    - opensearch:
        hosts: ["https://search-mydomain.us-east-1.es.amazonaws.com"]
        index: "${getMetadata(\"table_name\")}"
        index_type: custom
        document_id: "${getMetadata(\"primary_key\")}"
        action: "${getMetadata(\"opensearch_action\")}"
        document_version: "${getMetadata(\"document_version\")}"
        document_version_type: "external"
        aws:
          sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
          region: "us-east-1"
extension:
  aws:
    secrets:
      secret:
        secret_id: "rds-secret-id"
        region: "us-east-1"
        sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
        refresh_interval: PT1H

catatan

Anda dapat menggunakan cetak biru Amazon Aurora yang telah dikonfigurasi sebelumnya untuk membuat pipeline ini. Untuk informasi selengkapnya, lihat Bekerja dengan cetak biru.

Untuk menggunakan Amazon Aurora sebagai sumber, Anda perlu mengonfigurasi akses VPC untuk pipeline. VPC yang Anda pilih harus VPC yang sama dengan yang digunakan sumber Amazon Aurora Anda. Kemudian pilih satu atau lebih subnet dan satu atau lebih grup keamanan VPC. Perhatikan bahwa pipeline memerlukan akses jaringan ke database MySQL Aurora, jadi Anda juga harus memverifikasi bahwa cluster Aurora Anda dikonfigurasi dengan grup keamanan VPC yang memungkinkan lalu lintas masuk dari grup keamanan VPC pipeline ke port database. Untuk informasi selengkapnya, lihat Mengontrol akses dengan grup keamanan.

Jika Anda menggunakan Konsol Manajemen AWS untuk membuat pipeline, Anda juga harus melampirkan pipeline ke VPC agar dapat menggunakan Amazon Aurora sebagai sumber. Untuk melakukan ini, cari bagian Konfigurasi jaringan, pilih Lampirkan ke VPC, dan pilih CIDR Anda dari salah satu opsi default yang disediakan, atau pilih sendiri. Blok CIDR harus menggunakan panjang awalan /24. Anda dapat menggunakan CIDR /24 apa pun dari ruang alamat pribadi seperti yang didefinisikan dalam Praktik Terkini Terbaik RFC 1918.

Untuk menyediakan CIDR khusus, pilih Lainnya dari menu tarik-turun. Untuk menghindari tabrakan di alamat IP antara OpenSearch Ingestion dan Amazon Aurora, pastikan bahwa CIDR VPC Amazon Aurora berbeda dari CIDR untuk Ingestion. OpenSearch

Untuk informasi selengkapnya, lihat Mengonfigurasi akses VPC untuk pipeline.

Konsistensi data

Pipeline memastikan konsistensi data dengan terus melakukan polling atau menerima perubahan dari klaster Amazon Aurora dan memperbarui dokumen terkait dalam OpenSearch indeks.

OpenSearch Ingestion mendukung pengakuan ujung ke ujung untuk memastikan daya tahan data. Ketika pipeline membaca snapshot atau stream, ia secara dinamis membuat partisi untuk pemrosesan paralel. Pipeline menandai partisi sebagai lengkap ketika menerima pengakuan setelah menelan semua catatan dalam OpenSearch domain atau koleksi. Jika Anda ingin memasukkan ke dalam koleksi pencarian OpenSearch Tanpa Server, Anda dapat membuat ID dokumen di pipeline. Jika Anda ingin memasukkan koleksi deret waktu OpenSearch Tanpa Server, perhatikan bahwa pipeline tidak menghasilkan ID dokumen, jadi Anda harus menghilangkan document_id: "${getMetadata(\"primary_key\")}" konfigurasi sink pipeline Anda.

Pipeline OpenSearch Ingestion juga memetakan tindakan peristiwa yang masuk ke dalam tindakan pengindeksan massal yang sesuai untuk membantu menyerap dokumen. Ini membuat data tetap konsisten, sehingga setiap perubahan data di Amazon Aurora direkonsiliasi dengan perubahan dokumen terkait. OpenSearch

Pemetaan tipe data

OpenSearch Pipa konsumsi memetakan tipe data PostgreSQL Aurora ke representasi yang cocok untuk domain atau koleksi Layanan untuk dikonsumsi. OpenSearch Jika tidak ada templat pemetaan yang ditentukan OpenSearch, secara OpenSearch otomatis menentukan jenis bidang dengan pemetaan dinamis berdasarkan dokumen terkirim pertama. Anda juga dapat secara eksplisit menentukan jenis bidang yang paling sesuai untuk Anda OpenSearch melalui templat pemetaan.

Tabel di bawah ini mencantumkan tipe data Aurora PostgreSQL dan jenis bidang yang sesuai. OpenSearch Kolom Jenis OpenSearch Bidang Default menunjukkan jenis bidang yang sesuai OpenSearch jika tidak ada pemetaan eksplisit yang ditentukan. Dalam hal ini, OpenSearch secara otomatis menentukan jenis bidang dengan pemetaan dinamis. Kolom Jenis OpenSearch Bidang yang Direkomendasikan adalah jenis bidang yang direkomendasikan yang sesuai untuk ditentukan secara eksplisit dalam templat pemetaan. Jenis bidang ini lebih selaras dengan tipe data di Aurora PostgreSQL dan biasanya dapat mengaktifkan fitur pencarian yang lebih baik yang tersedia di. OpenSearch

Tipe Data Aurora PostgreSQL	Jenis OpenSearch Bidang Default	Jenis OpenSearch Bidang yang Direkomendasikan
smallint	long	pendek
integer	long	integer
bigint	long	long
desimal	text	ganda atau kata kunci
numerik [(p, s)]	text	ganda atau kata kunci
real	float	float
double precision	float	double
smallserial	long	pendek
serial	long	integer
bigserial	long	long
money	object	object
character varying(n)	text	text
varchar (n)	text	text
character(n)	text	text
arang (n)	text	text
bpchar (n)	text	text
bpchar	text	text
text	text	text
enum	text	text
bytea	text	biner
stempel waktu [(p)] [tanpa zona waktu]	panjang (dalam milidetik zaman)	date
stempel waktu [(p)] dengan zona waktu	panjang (dalam milidetik zaman)	date
date	panjang (dalam milidetik zaman)	date
time [ (p) ] [ without time zone ]	panjang (dalam milidetik zaman)	date
waktu [(p)] dengan zona waktu	panjang (dalam milidetik zaman)	date
interval [bidang] [(p)]	teks (format ISO8601)	text
boolean	boolean	boolean
titik	teks (dalam format WKT)	geo_shape
lini	teks (dalam format WKT)	geo_shape
lseg	teks (dalam format WKT)	geo_shape
kotak	teks (dalam format WKT)	geo_shape
path	teks (dalam format WKT)	geo_shape
poligon	teks (dalam format WKT)	geo_shape
lingkaran	object	object
cidr	text	text
inet	text	text
macaddr	text	text
macaddr8	text	text
bit(n)	long	byte, pendek, integer, atau panjang (tergantung pada jumlah bit)
bit varying(n)	long	byte, pendek, integer, atau panjang (tergantung pada jumlah bit)
json	object	object
jsonb	object	object
jsonpath	text	text

Kami menyarankan Anda mengonfigurasi antrian huruf mati (DLQ) di pipeline Ingestion Anda. OpenSearch Jika Anda telah mengonfigurasi antrian, OpenSearch Layanan mengirimkan semua dokumen gagal yang tidak dapat dicerna karena kegagalan pemetaan dinamis ke antrian.

Jika pemetaan otomatis gagal, Anda dapat menggunakan template_type dan template_content dalam konfigurasi pipeline untuk menentukan aturan pemetaan eksplisit. Atau, Anda dapat membuat templat pemetaan langsung di domain atau koleksi penelusuran sebelum memulai pipeline.

Batasan

Pertimbangkan batasan berikut saat Anda menyiapkan pipeline OpenSearch Ingestion untuk Aurora PostgreSQL:

Integrasi hanya mendukung satu database Aurora PostgreSQL per pipeline.
Integrasi saat ini tidak mendukung konsumsi data lintas wilayah; klaster dan OpenSearch domain Amazon Aurora Anda harus sama. Wilayah AWS
Integrasi saat ini tidak mendukung konsumsi data lintas akun; cluster Amazon Aurora dan pipeline OpenSearch Ingestion Anda harus sama. Akun AWS
Pastikan klaster Amazon Aurora mengaktifkan autentikasi AWS Secrets Manager, yang merupakan satu-satunya mekanisme autentikasi yang didukung.
Konfigurasi pipeline yang ada tidak dapat diperbarui untuk menyerap data dari database yang berbeda dengan tabel and/or yang berbeda. Untuk memperbarui nama and/or tabel database pipeline, Anda harus menghentikan pipeline dan memulai ulang dengan konfigurasi yang diperbarui, atau membuat pipeline baru.
Pernyataan Data Definition Language (DDL) umumnya tidak didukung. Konsistensi data tidak akan dipertahankan jika:
- Kunci utama diubah (add/delete/ganti nama).
- Tabel adalah dropped/truncated.
- Nama kolom atau tipe data diubah.
Jika tabel PostgreSQL Aurora untuk disinkronkan tidak memiliki kunci utama yang ditentukan, konsistensi data tidak dijamin. Anda perlu menentukan kustom document_id opsi dalam OpenSearch dan konfigurasi sink dengan benar agar dapat updates/deletes disinkronkan OpenSearch.
Versi yang didukung: Aurora PostgreSQL Versi 16.4 dan lebih tinggi.

CloudWatch Alarm yang Direkomendasikan

CloudWatch Metrik berikut direkomendasikan untuk memantau kinerja saluran konsumsi Anda. Metrik ini dapat membantu Anda mengidentifikasi jumlah data yang diproses dari ekspor, jumlah peristiwa yang diproses dari aliran, kesalahan dalam memproses ekspor dan peristiwa streaming, dan jumlah dokumen yang ditulis ke tujuan. Anda dapat mengatur CloudWatch alarm untuk melakukan tindakan ketika salah satu metrik ini melebihi nilai yang ditentukan untuk jangka waktu tertentu.

Metrik	Deskripsi
`pipeline-name`.rds.CredentialsBerubah	Metrik ini menunjukkan seberapa sering AWS rahasia diputar.
`pipeline-name`.rds.pelaksana RefreshErrors	Metrik ini menunjukkan kegagalan untuk menyegarkan AWS rahasia.
`pipeline-name`.rds.ekspor RecordsTotal	Metrik ini menunjukkan jumlah catatan yang diekspor dari Amazon Aurora.
`pipeline-name`.rds.ekspor RecordsProcessed	Metrik ini menunjukkan jumlah catatan yang diproses oleh pipa OpenSearch Ingestion.
`pipeline-name`.rds.ekspor RecordProcessingErrors	Metrik ini menunjukkan jumlah kesalahan pemrosesan dalam pipeline OpenSearch Ingestion saat membaca data dari cluster Amazon Aurora.
`pipeline-name`.rds.ekspor RecordsSuccessTotal	Metrik ini menunjukkan jumlah total catatan ekspor yang berhasil diproses.
`pipeline-name`.rds.ekspor RecordsFailedTotal	Metrik ini menunjukkan jumlah total catatan ekspor yang gagal diproses.
`pipeline-name`.rds.bytesDiterima	Metrik ini menunjukkan jumlah total byte yang diterima oleh pipeline OpenSearch Ingestion.
`pipeline-name`.rds.bytesDiproses	Metrik ini menunjukkan jumlah total byte yang diproses oleh pipeline OpenSearch Ingestion.
`pipeline-name`.rds.aliran RecordsSuccessTotal	Metrik ini menunjukkan jumlah catatan yang berhasil diproses dari aliran.
`pipeline-name`.rds.aliran RecordsFailedTotal	Metrik ini menunjukkan jumlah total rekaman yang gagal diproses dari aliran.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Aurora MySQL

Amazon DynamoDB