Konfigurasikan pencatatan dan debugging cluster EMR Amazon EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Konfigurasikan pencatatan dan debugging cluster EMR Amazon EMR

Salah satu hal yang harus diputuskan saat Anda merencanakan klaster adalah seberapa banyak dukungan debugging yang ingin Anda sediakan. Saat pertama kali mengembangkan aplikasi pemrosesan data, sebaiknya uji aplikasi pada klaster yang memproses sebagian kecil, namun mewakili data Anda. Jika Anda melakukan ini, Anda mungkin ingin memanfaatkan semua alat debugging yang ditawarkan Amazon EMR, seperti pengarsipan berkas log ke Amazon S3.

Setelah Anda menyelesaikan pengembangan dan memasukkan aplikasi pemrosesan data ke produksi penuh, Anda dapat memilih untuk mengurangi skala debugging. Melakukannya dapat menghemat biaya penyimpanan arsip berkas log di Amazon S3 dan mengurangi beban pemrosesan pada klaster karena tidak perlu lagi menulis status ke Amazon S3. Keuntungannya, tentu saja, adalah jika terjadi kesalahan, Anda hanya membutuhkan lebih sedikit alat untuk menyelidiki masalah tersebut.

berkas log default

Secara default, setiap cluster menulis file log pada semua node. Ini ditulis untuk direktori /mnt/var/log/. Anda dapat mengaksesnya dengan menggunakan SSH untuk terhubung ke salah satu node seperti yang dijelaskan dalamConnect ke node primer Amazon EMR cluster menggunakan SSH. Amazon EMR mengumpulkan log sistem dan aplikasi tertentu yang dihasilkan oleh daemon EMR Amazon dan proses EMR Amazon lainnya untuk memastikan operasi layanan yang efektif.

catatan

Jika Anda menggunakan Amazon EMR release 6.8.0 atau versi lebih lama, file log tidak disimpan ke Amazon S3 selama penghentian klaster, sehingga Anda tidak dapat mengakses file log setelah node berakhir. Amazon EMR merilis 6.9.0 dan log arsip yang lebih baru ke Amazon S3 selama penskalaan cluster, sehingga file log yang dihasilkan di cluster tetap ada bahkan setelah node dihentikan.

Anda tidak perlu mengaktifkan apa pun untuk memiliki file log yang ditulis di semua node. Ini adalah perilaku default Amazon EMR dan Hadoop.

Amazon EMR menangkap tiga kategori log untuk logging S3:

  • Log sistem: log daemon EMR

  • Log aplikasi: Log kerangka kerja dari Hadoop, Spark, Hive, dan aplikasi lain yang berjalan di cluster

  • Log UI persisten: Log diperlukan untuk aplikasi persisten UIs seperti Spark History Server dan Tez UI

Pada sistem file lokal, sebuah cluster menghasilkan beberapa jenis file log/mnt/var/log, termasuk:

  • Langkah log — Log ini dihasilkan oleh layanan Amazon EMR dan berisi informasi tentang klaster dan hasil dari setiap langkah. File log disimpan dalam /mnt/var/log/hadoop/steps/ direktori pada node utama. Setiap langkah mencatat hasilnya dalam subdirektori bernomor terpisah: /mnt/var/log/hadoop/steps/s-stepId1/ untuk langkah pertama, /mnt/var/log/hadoop/steps/s-stepId2/, untuk langkah kedua, dan seterusnya. Pengidentifikasi langkah 13 karakter (misalnya stepId1, stepId2) unik untuk sebuah klaster.

  • Log komponen Hadoop dan YARN — Log untuk komponen yang terkait dengan Apache YARN dan MapReduce, misalnya, terkandung dalam folder terpisah di semua node/mnt/var/log. Lokasi berkas log untuk komponen Hadoop di bawah /mnt/var/log adalah sebagai berikut: hadoop-hdfs, hadoop-mapreduce, hadoop-httpfs, dan hadoop-yarn. hadoop-state-pusher Direktori adalah untuk output dari proses pendorong status Hadoop.

  • Log tindakan bootstrap — Jika tugas Anda menggunakan tindakan bootstrap, hasil dari tindakan tersebut akan dicatat. File log disimpan di/mnt/var/log/bootstrap-actions/ pada semua node. Setiap tindakan bootstrap mencatat hasilnya di subdirektori bernomor terpisah: /mnt/var/log/bootstrap-actions/1/ untuk tindakan bootstrap pertama, /mnt/var/log/bootstrap-actions/2/, untuk tindakan bootstrap kedua, dan seterusnya.

  • Log status instans- Log ini memberikan informasi tentang CPU, status memori, dan utas pengumpul sampah dari simpul. File log disimpan /mnt/var/log/instance-state/ di semua node.

Arsipkan berkas log ke Amazon S3

catatan

Saat ini Anda tidak dapat menggunakan agregasi log ke Amazon S3 dengan utilitas yarn logs.

Amazon EMR merilis 6.9.0 dan log arsip yang lebih baru ke Amazon S3 selama penskalaan cluster, sehingga file log yang dihasilkan di cluster tetap ada bahkan setelah node dihentikan. Perilaku ini diaktifkan secara otomatis, jadi Anda tidak perlu melakukan apa pun untuk menyalakannya. Untuk Amazon EMR rilis 6.8.0 dan yang lebih lama, Anda dapat mengonfigurasi cluster untuk mengarsipkan file log yang disimpan di semua node secara berkala ke Amazon S3. Hal ini memastikan bahwa berkas log tersedia setelah klaster berakhir, baik melalui pematian normal atau karena kesalahan. Amazon EMR arsip berkas log ke Amazon S3 dengan interval 5 menit.

Agar file log diarsipkan ke Amazon S3 untuk Amazon EMR rilis 6.8.0 dan yang lebih lama, Anda harus mengaktifkan fitur ini saat meluncurkan cluster. Anda dapat melakukannya dengan menggunakan konsol, CLI, atau API. Secara default, klaster diluncurkan dengan menggunakan konsol yang telah mengaktifkan pengarsipan log. Untuk klaster yang diluncurkan menggunakan CLI atau API, log ke Amazon S3 harus diaktifkan secara manual.

Console
Untuk mengarsipkan file log ke Amazon S3 dengan konsol baru
  1. Masuk ke Konsol Manajemen AWS, dan buka konsol EMR Amazon di https://console.aws.amazon.com /emr.

  2. Di bawah EMR pada EC2 di panel navigasi kiri, pilih Clusters, lalu pilih Create cluster.

  3. Di bawah Log klaster, pilih kotak centang Publikasikan log khusus klaster ke Amazon S3.

  4. Di bidang lokasi Amazon S3, ketik (atau telusuri ke) jalur Amazon S3 untuk menyimpan log Anda. Jika Anda mengetik nama folder yang tidak ada di bucket, Amazon S3 membuatnya.

    Saat Anda menetapkan nilai ini, Amazon EMR menyalin file log dari instans EC2 di cluster ke Amazon S3. Ini mencegah file log hilang saat cluster berakhir dan EC2 menghentikan instance yang menghosting cluster. Log ini berguna untuk tujuan pemecahan masalah. Untuk informasi lebih lanjut tentang format berkas log, lihat Tampilkan berkas log.

  5. Secara opsional, pilih kotak centang Encrypt cluster-specific logs. Kemudian, pilih AWS KMS kunci dari daftar, masukkan kunci ARN, atau buat kunci baru. Opsi ini hanya tersedia dengan Amazon EMR versi 5.30.0 dan yang lebih baru, tidak termasuk versi 6.0.0. Untuk menggunakan opsi ini, tambahkan izin AWS KMS untuk profil instans EC2 Anda dan peran Amazon EMR. Untuk informasi selengkapnya, lihat Untuk mengenkripsi file log yang disimpan di Amazon S3 dengan kunci AWS yang dikelola pelanggan KMS.

  6. Pilih opsi lain yang berlaku untuk cluster Anda.

  7. Untuk meluncurkan cluster Anda, pilih Create cluster.

CLI
Untuk mengarsipkan file log ke Amazon S3 dengan AWS CLI

Untuk mengarsipkan file log ke Amazon S3 menggunakan AWS CLI, ketik create-cluster perintah dan tentukan jalur log Amazon S3 menggunakan parameter. --log-uri

  1. Untuk mencatat file ke Amazon S3 ketik perintah berikut dan ganti myKey dengan nama key pair EC2 Anda.

    aws emr create-cluster --name "Test cluster" --release-label emr-7.12.0 --log-uri s3://DOC-EXAMPLE-BUCKET/logs --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3
  2. Saat Anda menentukan jumlah instance tanpa menggunakan --instance-groups parameter, satu node primer diluncurkan, dan instance yang tersisa diluncurkan sebagai node inti. Semua simpul akan menggunakan tipe instans yang ditentukan dalam perintah.

    catatan

    Jika sebelumnya Anda belum membuat peran layanan EMR Amazon default dan profil instans EC2, masukkan aws emr create-default-roles untuk membuatnya sebelum mengetik subperintah. create-cluster

Untuk mengenkripsi file log yang disimpan di Amazon S3 dengan kunci AWS yang dikelola pelanggan KMS

Dengan Amazon EMR versi 5.30.0 dan yang lebih baru (kecuali Amazon EMR 6.0.0), Anda dapat mengenkripsi file log yang disimpan di Amazon S3 dengan kunci yang dikelola pelanggan KMS. AWS Untuk mengaktifkan opsi ini di konsol, ikuti langkah-langkah di Arsipkan berkas log ke Amazon S3. Profil instans Amazon EC2 dan peran Amazon EMR Anda harus memenuhi prasyarat berikut:

  • Profil instans Amazon EC2 yang digunakan untuk klaster Anda harus memiliki izin untuk menggunakan kms:GenerateDataKey.

  • Peran Amazon EMR yang digunakan untuk klaster Anda harus memiliki izin untuk menggunakan kms:DescribeKey.

  • Profil instans Amazon EC2 dan peran EMR Amazon harus ditambahkan ke daftar pengguna kunci untuk kunci terkelola pelanggan AWS KMS yang ditentukan, seperti yang ditunjukkan oleh langkah-langkah berikut:

    1. Buka konsol AWS Key Management Service (AWS KMS) di https://console.aws.amazon.com/kms.

    2. Untuk mengubah AWS Region, gunakan pemilih Region di sudut kanan atas halaman.

    3. Pilih alias tombol KMS untuk memodifikasi.

    4. Pada halaman detail kunci di bawah Pengguna Kunci, pilih Tambahkan.

    5. Di kotak dialog Tambahkan pengguna kunci, pilih profil instans Amazon EC2 dan peran Amazon EMR.

    6. Pilih Tambahkan.

  • Anda juga harus mengkonfigurasi kunci KMS untuk mengizinkan persistentappui.elasticmapreduce.amazonaws.com dan Prinsipal elasticmapreduce.amazonaws.com Layanan untuk, dan. kms:GenerateDataKey kms:GenerateDataKeyWithoutPlaintext kms:Decrypt Ini memungkinkan EMR untuk membaca dan menulis log yang dienkripsi dengan kunci KMS ke penyimpanan terkelola. Peran IAM Pengguna harus memiliki izin untuk menggunakan kms:GenerateDataKey dankms:Decrypt.

    { "Sid": "Allow User Role to use KMS key", "Effect": "Allow", "Principal": { "AWS": "User Role" }, "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*", "Condition": { "StringLike": { "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*", "kms:ViaService": "elasticmapreduce.region.amazonaws.com" } } }, { "Sid": "Allow Persistent APP UI to validate KMS key for write", "Effect": "Allow", "Principal":{ "Service": [ "elasticmapreduce.amazonaws.com" ] }, "Action": [ "kms:GenerateDataKeyWithoutPlaintext" ], "Resource": "*", "Condition": { "StringLike": { "aws:SourceArn": "arn:aws:elasticmapreduce:region:account:cluster/j-*", "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*" } } }, { "Sid": "Allow Persistent APP UI to Write/Read Logs", "Effect": "Allow", "Principal":{ "Service": [ "persistentappui.elasticmapreduce.amazonaws.com", "elasticmapreduce.amazonaws.com" ] }, "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*", "Condition": { "StringLike": { "aws:SourceArn": "arn:aws:elasticmapreduce:region:account:cluster/j-*", "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*", "kms:ViaService": "s3.region.amazonaws.com" } } }

    Sebagai praktik terbaik keamanan, kami menyarankan Anda menambahkan kms:EncryptionContext dan aws:SourceArn ketentuan. Kondisi ini membantu memastikan kunci hanya digunakan oleh Amazon EMR di EC2 dan hanya digunakan untuk log yang dihasilkan dari pekerjaan yang berjalan di klaster tertentu.

Untuk informasi selengkapnya, lihat peran layanan IAM yang digunakan oleh Amazon EMR, dan Menggunakan kebijakan utama dalam panduan AWS pengembang Layanan Manajemen Kunci.

Untuk menggabungkan log di Amazon S3 menggunakan AWS CLI

catatan

Saat ini Anda tidak dapat menggunakan agregasi log dengan utilitas yarn logs. Anda hanya dapat menggunakan agregasi yang didukung oleh prosedur ini.

Agregasi log (Hadoop 2.x) mengkompilasi log dari semua kontainer untuk aplikasi individual ke dalam satu file. Untuk mengaktifkan agregasi log ke Amazon S3 menggunakan AWS CLI, Anda menggunakan tindakan bootstrap saat peluncuran klaster untuk mengaktifkan agregasi log dan menentukan bucket untuk menyimpan log.

  • Untuk mengaktifkan agregasi log, buat file konfigurasi berikut myConfig.json yang disebut yang berisi berikut ini:

    [ { "Classification": "yarn-site", "Properties": { "yarn.log-aggregation-enable": "true", "yarn.log-aggregation.retain-seconds": "-1", "yarn.nodemanager.remote-app-log-dir": "s3:\/\/DOC-EXAMPLE-BUCKET\/logs" } } ]

    Ketik perintah berikut dan ganti myKey dengan nama key pair EC2 Anda. Anda juga dapat mengganti salah satu teks merah dengan konfigurasi Anda sendiri.

    aws emr create-cluster --name "Test cluster" \ --release-label emr-7.12.0 \ --applications Name=Hadoop \ --use-default-roles \ --ec2-attributes KeyName=myKey \ --instance-type m5.xlarge \ --instance-count 3 \ --configurations file://./myConfig.json

    Saat Anda menentukan jumlah instance tanpa menggunakan --instance-groups parameter, satu node primer diluncurkan, dan instance yang tersisa diluncurkan sebagai node inti. Semua simpul akan menggunakan tipe instans yang ditentukan dalam perintah.

    catatan

    Jika sebelumnya Anda belum membuat peran layanan EMR default dan profil instans EC2, jalankan aws emr create-default-roles untuk membuatnya sebelum menjalankan subperintah. create-cluster

Untuk informasi selengkapnya tentang penggunaan perintah EMR Amazon di AWS CLI, lihat Referensi AWS CLI Perintah.

Alat diagnostik mandiri dan pemecahan masalah Amazon EMR

Runbook ini membantu mengidentifikasi kesalahan saat menjalankan pekerjaan di klaster EMR Amazon. Runbook menganalisis daftar log yang ditentukan pada sistem file dan mencari daftar kata kunci yang telah ditentukan. Entri log ini digunakan untuk membuat CloudWatch peristiwa Amazon Events sehingga Anda dapat mengambil tindakan apa pun yang diperlukan berdasarkan peristiwa. Secara opsional, runbook menerbitkan entri log ke grup CloudWatch log Amazon Logs yang Anda pilih. AWSSupport-AnalyzeEMRLogs.

Runbook ini membantu mendiagnosis log EMR Amazon di S3 menggunakan Amazon Athena dalam integrasi AWS dengan Katalog Data Glue. Amazon Athena digunakan untuk menanyakan file log EMR Amazon untuk wadah, log node, atau keduanya, dengan parameter opsional untuk rentang tanggal tertentu atau pencarian berbasis kata kunci. Runbook ini menyediakan daftar semua kesalahan dan pengecualian yang sering terjadi yang ditemukan di log klaster EMR Amazon, bersama dengan lokasi log S3 yang sesuai. Ini juga memberikan ringkasan pengecualian unik yang diketahui yang cocok di log EMR Amazon, bersama dengan resolusi yang direkomendasikan dan artikel Pusat Pengetahuan/re: posting untuk membantu dalam pemecahan masalah. AWSSupport-DiagnoseEMRLogsWithAthena

Log lokasi

Daftar berikut mencakup semua jenis log dan lokasinya di Amazon S3. Anda dapat menggunakan ini untuk memecahkan masalah Amazon EMR.

Log langkah

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/steps/<step-id>/

Log aplikasi

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/containers/

Lokasi ini termasuk kontainer stderr dan stdoutdirectory.info,prelaunch.out,, dan launch_container.sh log.

Log manajer sumber daya

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/applications/hadoop-yarn/

Hadoop HDFS

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/applications/hadoop-hdfs/

Lokasi ini termasuk NameNode, DataNode, dan TimelineServer log YARN.

Log manajer simpul

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/applications/hadoop-yarn/

Log instance-state

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/daemons/instance-state/

Log penyediaan EMR Amazon

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/provision-node/*

Log sarang

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/applications/hive/*

  • Untuk menemukan log Hive di cluster Anda, hapus tanda bintang (*) dan tambahkan /var/log/hive/ ke tautan di atas.

  • Untuk menemukan HiveServer 2 log, hapus tanda bintang (*) dan tambahkan var/log/hive/hiveserver2.log ke tautan di atas.

  • Untuk menemukan log HiveCli, hapus tanda bintang (*) dan tambahkan /var/log/hive/user/hadoop/hive.log ke tautan di atas.

  • Untuk menemukan log Hive Metastore Server, hapus tanda bintang (*) dan tambahkan ke tautan di atas. /var/log/hive/user/hive/hive.log

Jika kegagalan Anda berada di simpul utama atau tugas aplikasi Tez Anda, berikan log dari wadah Hadoop yang sesuai.

Kontrol perilaku logging S3 (Amazon EMR 7.13.0 dan yang lebih baru)

Dimulai dengan Amazon EMR 7.13.0, Anda dapat mengontrol perilaku upload melalui fitur S3. LoggingConfiguration Ini memungkinkan Anda menentukan kebijakan unggahan yang berbeda untuk jenis log yang berbeda: log sistem, log aplikasi, dan log UI persisten.

Kebijakan unggahan

Untuk setiap jenis log, Anda dapat menentukan salah satu kebijakan unggahan berikut. Jenis log yang tidak ditentukan akan default ke perilaku standar (emr-managed):

emr-managed (Default)

Perilaku standar. Log diunggah ke Amazon S3 sebagaimana dikonfigurasi di LogUri Anda, dengan log tertentu disimpan oleh layanan untuk tujuan dukungan operasional dan pemecahan masalah.

on-customer-s3hanya

Hanya penyimpanan yang dikelola pelanggan. Log hanya diunggah ke bucket S3 yang ditentukan pelanggan. Ini mengharuskan Anda untuk menentukan LogUri saat membuat cluster. Persistent-ui-logstidak dapat memiliki kebijakan on-customer-s 3only. Kebijakan yang diizinkan untuk persistent-ui-logs dikelola emr dan dinonaktifkan.

dinonaktifkan

Tidak ada unggahan S3 untuk jenis log ini.

Contoh konfigurasi

Anda dapat mengonfigurasi logging S3 saat membuat cluster EMR Amazon baru melalui, atau AWS CLI. AWS SDKs Konfigurasi ditentukan melalui MonitoringConfiguration parameter.

Contoh: Perilaku default

Jika Anda tidak menentukan S3LoggingConfiguration, semua jenis log default ke perilaku yang dikelola emr:

aws emr create-cluster \ --name "MyCluster" \ --release-label emr-7.13.0 \ --instance-type m5.xlarge \ --instance-count 3 \ --log-uri s3://my-bucket/logs/ \ --use-default-roles
Contoh: Konfigurasi logging S3 kustom

Contoh ini menunjukkan cara mengonfigurasi kebijakan unggahan yang berbeda untuk setiap jenis log:

aws emr create-cluster \ --name "MyCluster" \ --release-label emr-7.13.0 \ --instance-type m5.xlarge \ --instance-count 3 \ --log-uri s3://my-bucket/logs/ \ --use-default-roles \ --monitoring-configuration '{ "S3LoggingConfiguration": { "LogTypeUploadPolicy": { "application-logs": "on-customer-s3only", "persistent-ui-logs": "disabled" } } }'

Konfigurasi ini mengunggah log aplikasi hanya ke bucket S3 pelanggan, dan menonaktifkan unggahan log UI persisten sepenuhnya. Jenis log yang tidak ditentukan (log sistem) mengikuti perilaku default (emr-managed).

Pertimbangan-pertimbangan

  • Konfigurasi logging S3 hanya dapat diatur pada waktu pembuatan cluster dan tidak dapat dimodifikasi untuk menjalankan cluster.

  • Persistent-ui-logs tidak dapat memiliki kebijakan on-customer-s 3only. Kebijakan yang diizinkan untuk persistent-ui-logs dikelola emr dan dinonaktifkan.

  • LogUri Persyaratan: Saat menggunakan kebijakan on-customer-s 3only untuk system-logs atau application-logs, Anda harus menentukan parameter. LogUri Tanpa LogUri, pembuatan cluster akan gagal.

  • Perilaku Default: Jika S3 tidak LoggingConfiguration ditentukan, semua jenis log default ke perilaku yang dikelola emr.