Praktik terbaik penyimpanan untuk data besar Praktik terbaik teknis

Praktik terbaik

Kami menyarankan Anda mengikuti praktik terbaik penyimpanan dan teknis. Praktik terbaik ini dapat membantu Anda mendapatkan hasil maksimal dari arsitektur data-sentris Anda.

Praktik terbaik penyimpanan untuk data besar

Tabel berikut menjelaskan praktik terbaik umum untuk menyimpan file untuk beban pemrosesan data besar di Amazon S3. Kolom terakhir adalah contoh kebijakan siklus hidup yang dapat Anda atur. Jika Amazon S3 Intelligent-Tiering diaktifkan (yang memberikan penghematan biaya penyimpanan otomatis saat pola akses data berubah secara otomatis), Anda tidak perlu menyetel kebijakan secara manual.

Nama lapisan data	Deskripsi	Contoh strategi kebijakan siklus hidup
Mentah	Berisi data mentah yang belum diproses Catatan: Untuk sumber data eksternal, lapisan data mentah biasanya merupakan salinan 1:1 dari data, tetapi pada AWS data dapat dipartisi oleh kunci berdasarkan AWS Region atau tanggal selama proses konsumsi.	Setelah satu tahun, pindahkan file ke kelas penyimpanan IA standar S3. Setelah dua tahun di S3 Standard-IA, arsipkan file di Amazon Simple Storage Service Glacier (Amazon S3 Glacier). Amazon Glacier (layanan berbasis brankas mandiri asli) tidak akan lagi menerima pelanggan baru mulai 15 Desember 2025, tanpa berdampak pada pelanggan yang sudah ada. Amazon Glacier adalah layanan mandiri dengan miliknya APIs sendiri yang menyimpan data di brankas dan berbeda dari Amazon S3 dan kelas penyimpanan Amazon S3 Glacier. Data Anda yang ada akan tetap aman dan dapat diakses di Amazon Glacier tanpa batas waktu. Tidak diperlukan migrasi. Untuk penyimpanan arsip jangka panjang berbiaya rendah, AWS rekomendasikan kelas penyimpanan Amazon S3 Glacier, yang memberikan pengalaman pelanggan yang unggul dengan APIs berbasis ember S3, ketersediaan penuh, biaya lebih rendah, AWS Region dan integrasi layanan. AWS Jika Anda ingin meningkatkan kemampuan, pertimbangkan untuk bermigrasi ke kelas penyimpanan Amazon S3 Glacier dengan menggunakan Panduan Solusi AWS kami untuk mentransfer data dari kubah Amazon S3 ke kelas penyimpanan Amazon S3 Glacier.
Stage	Berisi data olahan menengah yang dioptimalkan untuk konsumsi Contoh: CSV ke Apache Parquet mengonversi file mentah atau transformasi data	Anda dapat menghapus data setelah periode waktu yang ditentukan atau sesuai dengan persyaratan organisasi Anda. Anda dapat menghapus beberapa turunan data (misalnya, transformasi Apache Avro dari format JSON asli) dari data lake setelah waktu yang lebih singkat (misalnya, setelah 90 hari).
Analitik	Berisi data agregat untuk kasus penggunaan spesifik Anda dalam format siap konsumsi Contoh: Apache Parquet	Anda dapat memindahkan data ke IA Standar S3, lalu menghapus data setelah periode waktu yang ditentukan atau sesuai dengan persyaratan organisasi Anda.

Diagram berikut menunjukkan contoh strategi partisi (sesuai dengan satu folder/awalan S3) yang dapat Anda gunakan di semua lapisan data. Kami menyarankan Anda memilih strategi partisi berdasarkan bagaimana data Anda digunakan di hilir. Misalnya, jika laporan dibuat berdasarkan data Anda (di mana kueri paling umum pada laporan memfilter hasil berdasarkan wilayah dan tanggal), pastikan untuk menyertakan wilayah dan tanggal sebagai partisi untuk meningkatkan kinerja kueri dan runtime.

Praktik terbaik teknis

Praktik terbaik teknis bergantung pada teknologi spesifik Layanan AWS dan pemrosesan yang Anda gunakan untuk merancang arsitektur data-sentris Anda. Namun, kami menyarankan Anda untuk mengingat praktik terbaik berikut. Praktik terbaik ini berlaku untuk kasus penggunaan pemrosesan data yang khas.

Luas	Praktik terbaik
SQL	Kurangi jumlah data yang harus ditanyakan dengan memproyeksikan atribut pada data Anda. Alih-alih mengurai seluruh tabel, Anda dapat menggunakan proyeksi data untuk memindai dan mengembalikan hanya kolom tertentu yang diperlukan dalam tabel. Hindari gabungan besar jika memungkinkan karena gabungan antara beberapa tabel dapat secara signifikan mempengaruhi kinerja karena tuntutan sumber daya mereka yang intensif.
Apache Spark	Optimalkan aplikasi Spark dengan partisi beban kerja di AWS Glue (blog AWS Big Data). Optimalkan manajemen memori di AWS Glue (blog AWS Big Data).
Desain basis data	Ikuti Praktik Terbaik Arsitektur untuk Database (Pusat AWS Arsitektur).
Pemangkasan data	Gunakan pemangkasan partisi sisi server dengan. `catalogPartitionPredicate`
Penskalaan	Memahami dan menerapkan penskalaan horizontal.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Otomatisasi dan kontrol akses

Pertanyaan yang Sering Diajukan