Ikhtisar Jenis pekerja yang tersedia Tabel spesifikasi tipe pekerja Pertimbangan penting Memilih jenis pekerja yang tepat Pertimbangan Optimalisasi Biaya Praktik terbaik

AWS Glue jenis pekerja

Ikhtisar

AWS Glue menyediakan beberapa jenis pekerja untuk mengakomodasi kebutuhan beban kerja yang berbeda, mulai dari pekerjaan streaming kecil hingga tugas pemrosesan data skala besar dan intensif memori. Bagian ini memberikan informasi lengkap tentang semua jenis pekerja yang tersedia, spesifikasinya, dan rekomendasi penggunaannya.

Kategori tipe pekerja

AWS Glue menawarkan dua kategori utama jenis pekerja:

Jenis Pekerja G: Pekerja komputasi tujuan umum yang dioptimalkan untuk beban kerja ETL standar
Jenis R Worker: Pekerja yang dioptimalkan untuk memori yang dirancang untuk aplikasi Spark intensif memori

Unit Pengolahan Data (DPUs)

Sumber daya yang tersedia pada AWS Glue pekerja diukur dalam DPUs. DPU adalah ukuran relatif daya pemrosesan yang terdiri dari 4 v CPUs kapasitas komputasi dan memori 16 GB.

Memory-Optimized DPUs (M-DPUs): Pekerja tipe R menggunakan M-DPUs, yang menyediakan alokasi memori dua kali lipat untuk ukuran tertentu dibandingkan dengan standar. DPUs Ini berarti bahwa sementara DPU standar menyediakan 16 GB memori, M-DPU pada pekerja tipe R menyediakan memori 32GB yang dioptimalkan untuk aplikasi Spark intensif memori.

Jenis pekerja yang tersedia

G.1X

DPU: 1 DPU (4 vCPUs, memori 16 GB)
Penyimpanan: 94GB disk (sekitar 44GB gratis)
Kasus Penggunaan: Data mengubah, bergabung, dan kueri - skalabel dan hemat biaya untuk sebagian besar pekerjaan

G.2X

DPU: 2 DPU (8 vCPUs, memori 32 GB)
Penyimpanan: 138GB disk (sekitar 78GB gratis)
Kasus Penggunaan: Data mengubah, bergabung, dan kueri - skalabel dan hemat biaya untuk sebagian besar pekerjaan

G.4X

DPU: 4 DPU (16 vCPUs, memori 64 GB)
Penyimpanan: 256GB disk (sekitar 230GB gratis)
Kasus Penggunaan: Menuntut transformasi, agregasi, gabungan, dan kueri

G.8X

DPU: 8 DPU (memori 32 vCPUs, 128 GB)
Penyimpanan: 512GB disk (sekitar 485GB gratis)
Kasus Penggunaan: Menuntut transformasi, agregasi, gabungan, dan kueri

G.12X

DPU: 12 DPU (48 vCPUs, memori 192 GB)
Penyimpanan: 768GB disk (sekitar 741GB gratis)
Kasus Penggunaan: Beban kerja yang sangat besar dan padat sumber daya yang membutuhkan kapasitas komputasi yang signifikan

G.16X

DPU: 16 DPU (64 vCPUs, memori 256 GB)
Penyimpanan: 1024GB disk (sekitar 996GB gratis)
Kasus Penggunaan: Beban kerja terbesar dan paling intensif sumber daya yang membutuhkan kapasitas komputasi maksimum

R.1X - Memori-Dioptimalkan*

DPU: 1 M-DPU (4 vCPUs, memori 32 GB)
Kasus Penggunaan: Beban kerja intensif memori dengan out-of-memory kesalahan yang sering terjadi atau persyaratan rasio tinggi memory-to-CPU

R.2X - Memori-Dioptimalkan*

DPU: 2 M-DPU (memori 8 vCPUs, 64 GB)
Kasus Penggunaan: Beban kerja intensif memori dengan out-of-memory kesalahan yang sering terjadi atau persyaratan rasio tinggi memory-to-CPU

R.4X - Memori-Dioptimalkan*

DPU: 4 M-DPU (memori 16 vCPUs, 128 GB)
Kasus Penggunaan: Beban kerja intensif memori besar dengan out-of-memory kesalahan yang sering terjadi atau persyaratan rasio tinggi memory-to-CPU

R.8X - Memori-Dioptimalkan*

DPU: 8 M-DPU (memori 32 vCPUs, 256 GB)
Kasus Penggunaan: Beban kerja intensif memori yang sangat besar dengan out-of-memory kesalahan yang sering terjadi atau persyaratan rasio tinggi memory-to-CPU

* Anda mungkin mengalami latensi startup yang lebih tinggi dengan para pekerja ini. Untuk mengatasi masalah ini, coba lakukan hal berikut:

Tunggu beberapa menit dan kemudian kirimkan pekerjaan Anda lagi.
Kirim pekerjaan baru dengan jumlah pekerja yang berkurang.
Kirim pekerjaan baru menggunakan jenis atau ukuran pekerja yang berbeda.

Tabel spesifikasi tipe pekerja

Spesifikasi Jenis Pekerja
Jenis Pekerja	DPU per Node	vCPU	Memori (GB)	Disk (GB)	Perkiraan Ruang Disk Bebas (GB)	Pelaksana Spark untuk Node
G.1X	1	4	16	94	44	1
G.2X	2	8	32	138	78	1
G.4X	4	16	64	256	230	1
G.8X	8	32	128	512	485	1
G.12X	12	48	192	768	741	1
G.16X	16	64	256	1024	996	1
R.1X	1	4	32	94	44	1
R.2X	2	8	64	138	78	1
R.4X	4	16	128	256	230	1
R.8X	8	32	256	512	485	1

Catatan: Jenis pekerja R memiliki konfigurasi yang dioptimalkan untuk memori dengan spesifikasi yang dioptimalkan untuk beban kerja intensif memori.

Pertimbangan penting

Latensi startup

penting

Jenis pekerja G.12X dan G.16X, serta semua tipe pekerja R (R.1X hingga R.8X), mungkin mengalami latensi startup yang lebih tinggi. Untuk mengatasi masalah ini, coba lakukan hal berikut:

Tunggu beberapa menit dan kemudian kirimkan pekerjaan Anda lagi.
Kirim pekerjaan baru dengan jumlah pekerja yang berkurang.
Kirim pekerjaan baru menggunakan jenis dan ukuran pekerja yang berbeda.

Memilih jenis pekerja yang tepat

Untuk beban kerja ETL standar

G.1X atau G.2X: Paling hemat biaya untuk transformasi, penggabungan, dan kueri data tipikal
G.4X atau G.8X: Untuk beban kerja yang lebih menuntut dengan kumpulan data yang lebih besar

Untuk beban kerja skala besar

G.12X: Kumpulan data yang sangat besar yang membutuhkan sumber daya komputasi yang signifikan
G.16X: Kapasitas komputasi maksimum untuk beban kerja yang paling menuntut

Untuk beban kerja intensif memori

R.1X atau R.2X: Pekerjaan intensif memori kecil hingga menengah
R.4X atau R.8X: Beban kerja intensif memori besar dengan kesalahan OOM yang sering

Pertimbangan Optimalisasi Biaya

Pekerja G standar: Menyediakan keseimbangan sumber daya komputasi, memori, dan jaringan, dan dapat digunakan untuk berbagai beban kerja yang beragam dengan biaya lebih rendah
Pekerja R: Khusus untuk tugas intensif memori dengan kinerja cepat untuk beban kerja yang memproses kumpulan data besar dalam memori

Praktik terbaik

Pedoman pemilihan pekerja

Mulailah dengan pekerja standar (G.1X, G.2X) untuk sebagian besar beban kerja
Gunakan pekerja R saat sering mengalami out-of-memory kesalahan atau beban kerja dengan operasi intensif memori seperti caching, shuffling, dan agregasi
Pertimbangkan G.12X/G.16X untuk beban kerja intensif komputasi yang membutuhkan sumber daya maksimum
Memperhitungkan kendala kapasitas saat menggunakan tipe pekerja baru dalam alur kerja yang sensitif terhadap waktu

Optimalisasi kinerja

Pantau CloudWatch metrik untuk memahami pemanfaatan sumber daya
Gunakan jumlah pekerja yang sesuai berdasarkan ukuran dan kompleksitas data
Pertimbangkan strategi partisi data untuk mengoptimalkan efisiensi pekerja

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan tampilan terwujud

Lowongan kerja Streaming ETL