Mengekspor data Timestream ke Amazon S3 - Amazon Timestream

Untuk kemampuan serupa dengan Amazon Timestream LiveAnalytics, pertimbangkan Amazon Timestream untuk InfluxDB. Ini menawarkan konsumsi data yang disederhanakan dan waktu respons kueri milidetik satu digit untuk analitik waktu nyata. Pelajari lebih lanjut di sini.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengekspor data Timestream ke Amazon S3

Terlepas dari layanan target untuk migrasi, sebaiknya ikuti praktik terbaik di bawah ini untuk mengekspor Timestream Anda untuk LiveAnalytics data ke Amazon S3, menciptakan lapisan penyimpanan perantara yang tahan lama yang berfungsi sebagai dasar untuk konsumsi khusus database berikutnya.

Untuk mengekspor data dengan andal dari Timestream untuk LiveAnalytics tabel ke Amazon S3, sebaiknya gunakan alat Timestream LiveAnalytics untuk ekspor, yang menggunakan fitur Unload Timestream — yang dirancang untuk ekspor data skala besar.

Timestream untuk alat LiveAnalytics ekspor

Strategi chunking berbasis waktu

Chunking berbasis waktu sangat penting saat memigrasikan volume besar data deret waktu. Pendekatan ini memecah proses ekspor menjadi unit yang dapat dikelola yang dapat diproses secara independen dan dicoba kembali pada kegagalan, secara signifikan mengurangi risiko migrasi. Ini menciptakan pos pemeriksaan untuk melacak kemajuan yang lebih mudah dan menambahkan kemampuan untuk melanjutkan setelah interupsi. Untuk organisasi dengan konsumsi data berkelanjutan, ini memungkinkan data yang lebih baru untuk diekspor dalam potongan waktu terpisah, memungkinkan koordinasi yang lebih baik antara operasi yang sedang berlangsung dan migrasi. Alat ini menggunakan chunking berbasis hari, menyimpan data setiap hari dengan awalan bucket S3 untuk manajemen yang efisien. Selain itu, chunking dapat didasarkan pada jam, hari, bulan, atau tahun.

Pemantauan migrasi

Alat ini menyediakan opsi untuk menangkap statistik migrasi dalam tabel DynamoDB, melacak metrik seperti konfigurasi yang digunakan, catatan yang diekspor, dan titik data lainnya untuk memvalidasi kelengkapan migrasi Anda. Kami merekomendasikan untuk memantau metrik ini dengan cermat selama migrasi dan validasi Anda. Anda juga dapat menggunakan logging yang disediakan dalam skrip orkestrasi Anda, menangkap cap waktu eksekusi, batas potongan, dan kondisi kesalahan apa pun yang ditemui. Alat ini juga menyediakan pemberitahuan SNS jika Anda ingin mengintegrasikan sistem hilir Anda untuk mengambil tindakan atas kegagalan.

Rekomendasi dan praktik terbaik

Alat Timestream untuk LiveAnalytics ekspor menyediakan solusi yang fleksibel dan kuat untuk mengekspor data ke S3 dengan berbagai opsi konfigurasi yang disesuaikan dengan persyaratan sistem target Anda. Jika target Anda adalah Timestream untuk InfluxDB, gunakan format Parket tanpa kompresi untuk memastikan kompatibilitas dengan skrip konsumsi. Untuk pelacakan dan pemantauan yang optimal, aktifkan pencatatan DynamoDB dan konfigurasikan notifikasi SNS untuk menerima peringatan tentang kegagalan atau penyelesaian ekspor.

Alat ini memanfaatkan fitur Timestream for LiveAnalytics UNLOAD sambil mengatasi partisinya untuk batasan kueri dengan secara otomatis mengekspor data dalam batch berdasarkan rentang waktu yang Anda tentukan. Anda dapat menyesuaikan partisi data berdasarkan jam, hari, bulan, atau tahun, hari menjadi default. Setiap partisi harus tetap di bawah sekitar 350 GB untuk menghindari kesalahan terkait memori, seperti perhitungan kueri melebihi memori maksimum yang tersedia. Misalnya, jika data tahunan Anda melebihi 350 GB, pertimbangkan untuk menggunakan partisi bulanan atau bahkan opsi yang lebih terperinci seperti partisi harian atau per jam. Jika Anda memilih per jam dan masih mendapatkan kesalahan “Perhitungan kueri melebihi memori maksimum yang tersedia”, Anda dapat mengurangi jumlah partisi, memastikan ekspor Anda berhasil.

Alat ini menawarkan fleksibilitas dalam lingkup ekspor, memungkinkan Anda untuk mengekspor satu tabel, seluruh database, atau semua database di akun Anda. Untuk persyaratan yang lebih khusus, seperti mengekspor beberapa database tertentu, Anda dapat membuat pembungkus khusus di sekitar otomatisasi ini. Selain itu, Anda dapat memilih untuk mengekspor data terbaru terlebih dahulu dengan mengaktifkan opsi urutan kronologis terbalik. Saat memulai ulang setelah kegagalan, Anda dapat melanjutkan dengan tag migrasi yang sama untuk menyimpan semua file di bawah awalan S3 yang sama atau menghilangkan tag untuk membuat file di bawah awalan baru. Saat alat mengekspor data dalam batch, jika Anda mengalami kegagalan, kami sarankan memulai dari batch yang gagal daripada memulai ulang dari waktu mulai asli. Jika Anda tidak menentukan stempel waktu akhir, alat ini secara otomatis menggunakan stempel waktu saat ini (UTC) untuk memastikan ekspor dan validasi yang konsisten.

Perintah dasar

contoh : Ekspor tabel dengan logging DynamoDB diaktifkan
python3.9 unload.py \ --export-table \ --database Demo \ --table Demo \ --start-time '2020-03-26 17:24:38' \ --enable-dynamodb_logger true
contoh : Ekspor seluruh database
python3.9 unload.py \ --export-database \ --database Demo \ --start-time '2020-03-26 17:24:38'
contoh : Ekspor semua database
python3.9 unload.py \ --export-all_databases \ --start-time '2020-03-26 17:24:38'
contoh : Ekspor lanjutan dengan lebih banyak opsi
python unload.py \ --export-table \ --database MyDB \ --table MyTable \ --start-time '2024-05-14 00:00:00' \ --end-time '2025-05-14 00:00:00' \ --partition month \ --export-format PARQUET \ --compression GZIP \ --region us-east-1 \ --s3-uri s3://my-bucket \ --enable-dynamodb_logger \ --sns-topic_arn arn:aws:sns:region:account-id:topic-name

Untuk informasi selengkapnya, lihat README skrip bongkar muat.