Langkah 7: Periksa data masukan untuk klaster EMR Amazon - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah 7: Periksa data masukan untuk klaster EMR Amazon

Lihatlah data input Anda. Apakah data terdistribusi secara merata di antara nilai-nilai kunci Anda? Jika data Anda sangat condong ke arah satu atau beberapa nilai kunci, beban pemrosesan dapat dipetakan ke sejumlah kecil simpul, sementara simpul lain menganggur. Distribusi pekerjaan yang tidak seimbang ini dapat mengakibatkan waktu pemrosesan yang lebih lambat.

Contoh himpunan data yang tidak seimbang adalah menjalankan klaster untuk mengurutkan kata-kata menurut abjad, tetapi memiliki himpunan data yang berisi kata-kata yang dimulai dengan huruf “a” saja. Ketika pekerjaan dipetakan, nilai pemrosesan simpul yang dimulai dengan “a” akan kewalahan, sementara simpul yang memproses kata-kata yang dimulai dengan huruf lain akan menganggur.