Amazon Timestream for LiveAnalytics tidak lagi terbuka untuk pelanggan baru mulai 20 Juni 2025. Jika Anda ingin menggunakan Amazon Timestream untuk LiveAnalytics, daftar sebelum tanggal tersebut. Pelanggan yang sudah ada dapat terus menggunakan layanan seperti biasa. Untuk informasi selengkapnya, lihat Amazon Timestream untuk perubahan LiveAnalytics ketersediaan.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Aurora/RDS Postgres sebagai target
Bagian ini menjelaskan pengambilan data deret waktu bertahap S3 ke Amazon RDS/Aurora PostgreSQL. Proses konsumsi terutama akan fokus pada file CSV yang dihasilkan dari alat ekspor Timestream untuk masuk ke Postgres. Kami merekomendasikan merancang skema dan tabel PostgreSQL dengan strategi pengindeksan yang tepat untuk kueri berbasis waktu. Gunakan proses ETL apa pun untuk mengubah struktur khusus Timestream menjadi tabel relasional yang dioptimalkan untuk kebutuhan spesifik Anda. Saat memigrasikan data Timestream ke database relasional, susun skema Anda dengan kolom stempel waktu sebagai indeks waktu utama, kolom pengidentifikasi pengukuran yang berasal dari ukuran Timestam, dan kolom dimensi dari dimensi Timestam dan ukuran aktual Anda. Buat indeks strategis pada rentang waktu dan kombinasi dimensi yang sering ditanyakan untuk mengoptimalkan kinerja selama proses transformasi dan pemuatan data. Saat memigrasikan data deret waktu ke PostgreSQL, ukuran instans yang tepat sangat penting untuk menjaga kinerja kueri dalam skala besar. Pertimbangkan volume data yang diharapkan, kompleksitas kueri, dan persyaratan konkurensi saat memilih kelas instance, dengan perhatian khusus pada alokasi memori untuk beban kerja agregasi deret waktu. Untuk kumpulan data yang melebihi puluhan juta baris, manfaatkan kemampuan partisi asli PostgreSQL dan strategi pengindeksan lanjutan untuk mengoptimalkan pola akses deret waktu.
Sebaiknya lakukan pengujian fungsional dan kinerja untuk memilih instance yang tepat dan menyetel database PostgreSQL Anda untuk mengatasi hambatan kinerja apa pun. Melakukan pemeriksaan integritas data yang ketat melalui perbandingan kueri sampel antara database Timestream sumber Anda dan sistem target sangat penting untuk memastikan keberhasilan migrasi dan mempertahankan kebenaran kueri. Dengan mengeksekusi kueri identik terhadap kedua sistem dan membandingkan hasil — termasuk jumlah catatan, agregasi, dan nilai outlier — Anda dapat mengidentifikasi perbedaan apa pun yang mungkin menunjukkan kesalahan transformasi, kehilangan data, atau perbedaan semantik dalam interpretasi kueri. Proses verifikasi ini memvalidasi bahwa data Anda mempertahankan nilai analitisnya setelah migrasi, membangun kepercayaan pada sistem baru di antara para pemangku kepentingan yang mengandalkan wawasan ini, membantu mengidentifikasi penyesuaian kueri yang diperlukan untuk mengakomodasi sintaks atau perbedaan fungsional antar platform, dan menetapkan garis dasar yang dapat diukur untuk menentukan kapan migrasi dapat dianggap lengkap dan berhasil. Tanpa pemeriksaan sistematis ini, inkonsistensi data yang halus mungkin tetap tidak terdeteksi, berpotensi menyebabkan keputusan bisnis yang salah atau merusak kepercayaan pada seluruh proyek migrasi.
Tertelan
Sebaiknya gunakan AWS Database Migration Service (DMS) dengan sumber sebagai S3 (CSV dan Parket didukung) dengan PostgreSQL sebagai target. Untuk skenario di mana AWS DMS mungkin tidak sesuai dengan kebutuhan spesifik Anda, kami menyediakan utilitas berbasis Python tambahan (PostgreSQL CSV Ingestion Tool) untuk memigrasikan data CSV dari S3 ke PostgreSQL
Ikhtisar alat konsumsi PostgreSQL CSV
PostgreSQL CSV Ingestion Tool, adalah utilitas berkinerja tinggi yang dirancang untuk memuat file CSV secara efisien ke dalam database PostgreSQL. Ini memanfaatkan multi-threading dan penyatuan koneksi untuk memproses beberapa file secara paralel, secara signifikan mengurangi waktu pemuatan data. Kami merekomendasikan untuk menjalankan skrip ini menggunakan EC2 instance. Pertimbangkan untuk menggunakan jenis instance yang dioptimalkan untuk operasi jaringan, seperti C5N.
Fitur utama
-
Pemrosesan Multi-Threaded: Memuat beberapa file CSV secara bersamaan.
-
Connection Pooling: Mengelola koneksi database secara efisien.
-
Deteksi Kolom Otomatis: Secara dinamis mengekstrak nama kolom dari header CSV.
-
Coba lagi Logika: Menangani kesalahan sementara dengan backoff eksponensial.
-
Manajemen File; Memindahkan file yang diproses ke direktori yang ditunjuk sehingga mencoba kembali dilanjutkan tetapi tidak dimulai ulang.
-
Pencatatan Komprehensif: Log terperinci untuk pemantauan dan pemecahan masalah.
-
Pemberitahuan Kesalahan: Pemberitahuan SNS opsional untuk kegagalan.
-
Secure Credentials: Mengambil kata sandi database dari Secrets Manager AWS .
Prasyarat dan instalasi
Lihat prasyarat dan instalasi di PostgreSQL CSV Ingestion Tool Readme di.
Penggunaan
python copy_postgres.py \ --database 'postgres_testing' \ --table 'demolarge_restored' \ --csv-files-dir '/data/csv_files/*partition*/*.csv' \ --host database-1.cluster-xxxxxxxx.us-east-1.rds.amazonaws.com \ --secret-arn 'arn:aws:secretsmanager:<region>:<account_id>:secret:rds!cluster-xxxxx-xx-xx-xx-xxxxxxxx-xxxxx' \ --sns-topic-arn 'arn:aws:sns:<region>:<account_id>:<topic_name>'
Validasi
Anda dapat menggunakan DynamoDB untuk baris atau log yang diekspor yang dihasilkan oleh alat ekspor Timestream dan membandingkannya dengan baris yang dicerna dari log otomatisasi PostgreSQL Ingestion. Anda dapat melakukan jumlah pilih terhadap tabel sumber dan target dengan waktu ekspor dan impor yang konsisten, jika data terus dicerna selama proses migrasi, jumlah akan bervariasi sehingga rekomendasinya adalah membandingkan baris yang diekspor dan baris penting dari pencatatan.
Pembersihan
-
Pembersihan membongkar data yang dibuat sebagai bagian dari Timestream untuk LiveAnalytics alat ekspor.
-
Hapus data yang diunduh dan log on EC2 untuk merebut kembali ruang.
-
Hapus tabel DynamoDB jika digunakan untuk logging sebagai bagian dari LiveAnalytics Timestream untuk alat ekspor.