

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pemantauan AWS ParallelCluster dan log
<a name="monitoring-overview"></a>

Pemantauan adalah bagian penting dari menjaga keandalan, ketersediaan, dan kinerja AWS ParallelCluster dan AWS solusi Anda yang lain. AWS menyediakan alat pemantauan berikut untuk menonton AWS ParallelCluster, melaporkan ketika ada sesuatu yang salah, dan mengambil tindakan otomatis bila perlu:
+ *Amazon CloudWatch* memantau AWS sumber daya Anda dan aplikasi yang Anda jalankan AWS secara real time. Anda dapat mengumpulkan dan melacak metrik, membuat dasbor yang disesuaikan, dan mengatur alarm yang memberi tahu Anda atau mengambil tindakan saat metrik tertentu mencapai ambang batas yang ditentukan. Misalnya, Anda dapat CloudWatch melacak penggunaan CPU atau metrik lain dari EC2 instans Amazon Anda dan secara otomatis meluncurkan instans baru bila diperlukan. Untuk informasi selengkapnya, lihat [Panduan CloudWatch Pengguna Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/).
+ *Amazon CloudWatch Logs* memungkinkan Anda memantau, menyimpan, dan mengakses file log Anda dari EC2 instans Amazon CloudTrail, dan sumber lainnya. CloudWatch Log dapat memantau informasi dalam file log dan memberi tahu Anda ketika ambang batas tertentu terpenuhi. Anda juga dapat mengarsipkan data log dalam penyimpanan yang sangat durabel. Untuk informasi selengkapnya, lihat [Panduan Pengguna Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/).
+ *AWS CloudTrail* merekam panggilan API dan kejadian terkait yang dilakukan oleh atau atas Akun AWS Anda dan mengirimkan berkas log ke bucket Amazon S3 yang Anda tentukan. Anda dapat mengidentifikasi pengguna dan akun yang memanggil AWS, alamat IP asal panggilan dilakukan, dan waktu panggilan terjadi. Untuk informasi selengkapnya, lihat [Panduan Pengguna AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/).
+ *Amazon EventBridge* adalah layanan bus acara tanpa server yang memudahkan untuk menghubungkan aplikasi Anda dengan data dari berbagai sumber. EventBridge mengirimkan aliran data real-time dari aplikasi Anda sendiri, aplikasi Software-as-a-Service (SaaS), AWS dan layanan dan rute data tersebut ke target seperti Lambda. Hal ini memungkinkan Anda memantau kejadian yang terjadi dalam layanan, dan membangun arsitektur yang didorong kejadian. Untuk informasi selengkapnya, lihat [Panduan EventBridge Pengguna Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/).

**Topics**
+ [Integrasi dengan Amazon CloudWatch Logs](cloudwatch-logs-v3.md)
+ [CloudWatch Dasbor Amazon](cloudwatch-dashboard-v3.md)
+ [CloudWatch Alarm Amazon untuk metrik klaster](cloudwatch-alarms-v3.md)
+ [AWS ParallelCluster rotasi log yang dikonfigurasi](log-rotation-v3.md)
+ [`pcluster`Log CLI](troubleshooting-v3-pc-cli-logs.md)
+ [Log keluaran EC2 konsol Amazon](console-logs-v3.md)
+ [Ambil PCUI dan log runtime AWS ParallelCluster](troubleshooting-v3-get-runtime-logs.md)
+ [Mengambil dan melestarikan log](troubleshooting-v3-get-logs.md)

# Integrasi dengan Amazon CloudWatch Logs
<a name="cloudwatch-logs-v3"></a>

Untuk informasi selengkapnya tentang CloudWatch Log, lihat [Panduan Pengguna Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/). Untuk mengonfigurasi integrasi CloudWatch Log, lihat [`Monitoring`](Monitoring-v3.md)bagian. Untuk mempelajari cara menambahkan log kustom ke CloudWatch konfigurasi menggunakan`append-config`, lihat [Beberapa file konfigurasi CloudWatch agen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-common-scenarios.html#CloudWatch-Agent-multiple-config-files) di *Panduan CloudWatch Pengguna Amazon*.

## CloudWatch Log klaster Amazon Logs
<a name="cloudwatch-logs-clusters"></a>

Grup log dibuat untuk setiap cluster dengan nama, `/aws/parallelcluster/cluster-name-<timestamp>` (misalnya,`/aws/parallelcluster/testCluster-202202050215`). Setiap log (atau kumpulan log jika jalur berisi a`*`) pada setiap node memiliki aliran log bernama`{hostname}.{instance_id}.{logIdentifier}`. (Misalnya`ip-172-31-10-46.i-02587cf29cc3048f3.nodewatcher`.) Data log dikirim CloudWatch oleh [CloudWatch agen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html), yang berjalan seperti `root` pada semua instance cluster.

 CloudWatch Dasbor Amazon dibuat saat cluster dibuat. Dasbor ini memberi Anda kemampuan untuk meninjau log yang disimpan di CloudWatch Log. Untuk informasi selengkapnya, lihat [CloudWatch Dasbor Amazon](cloudwatch-dashboard-v3.md).

Daftar ini berisi *logIdentifier* dan jalur untuk aliran log yang tersedia untuk platform, penjadwal, dan node.


**Aliran log tersedia untuk platform, penjadwal, dan node**  

| Platform | Penjadwal | Simpul | Pengaliran Log | 
| --- | --- | --- | --- | 
|  amazon redhat ubuntu  |  awsbatch slurm  |  HeadNode  |  dcv-autentikator: `/var/log/parallelcluster/pcluster_dcv_authenticator.log` dcv-ext-authenticator: `/var/log/parallelcluster/pcluster_dcv_connect.log` dcv-agen: `/var/log/dcv/agent.*.log` dcv-xsesi: `/var/log/dcv/dcv-xsession.*.log` dcv-server: `/var/log/dcv/server.log` dcv-session-launcher: `/var/log/dcv/sessionlauncher.log` XDCV: `/var/log/dcv/Xdcv.*.log` cfn-init: `/var/log/cfn-init.log` koki-klien: `/var/log/chef-client.log`  | 
|  amazon redhat ubuntu  |  awsbatch slurm  |  ComputeFleet HeadNode  |  cloud-init: `/var/log/cloud-init.log` pengawas: `/var/log/supervisord.log`  | 
|  amazon redhat ubuntu  |  slurm  |  ComputeFleet  |  cloud-init-output: `/var/log/cloud-init-output.log` komputemgtd: `/var/log/parallelcluster/computemgtd` slurmd: `/var/log/slurmd.log` slurm\$1prolog\$1epilog: `/var/log/parallelcluster/slurm_prolog_epilog.log`  | 
|  amazon redhat ubuntu  |  slurm  |  HeadNode  |  sssd: `/var/log/sssd/sssd.log` sssd\$1domain\$1default: `/var/log/sssd/sssd_default.log` pam\$1ssh\$1key\$1generator: `/var/log/parallelcluster/pam_ssh_key_generator.log` clusterstatusmgtd: `/var/log/parallelcluster/clusterstatusmgtd` clustermgtd: `/var/log/parallelcluster/clustermgtd` compute\$1console\$1output: `/var/log/parallelcluster/compute_console_output` slurm\$1resume: `/var/log/parallelcluster/slurm_resume.log` slurm\$1menangguhkan: `/var/log/parallelcluster/slurm_suspend.log` slurmctld: `/var/log/slurmctld.log` slurm\$1fleet\$1status\$1manager: `/var/log/parallelcluster/slurm_fleet_status_manager.log`  | 
|  amazon redhat  |  awsbatch slurm  |  ComputeFleet HeadNode  |  pesan-sistem: `/var/log/messages`  | 
|  ubuntu  |  awsbatch slurm  |  ComputeFleet HeadNode  |  syslog: `/var/log/syslog`  | 

Pekerjaan dalam kelompok yang menggunakan AWS Batch menyimpan output pekerjaan yang mencapai status`RUNNING`,`SUCCEEDED`, atau `FAILED` di CloudWatch Log. Grup log adalah`/aws/batch/job`, dan format nama aliran log adalah`jobDefinitionName/default/ecs_task_id`. Secara default, log ini diatur agar tidak kedaluwarsa, tetapi Anda dapat mengubah periode retensi. Untuk informasi selengkapnya, lihat [Mengubah penyimpanan data CloudWatch log di Log](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/SettingLogRetention.html) di *Panduan Pengguna CloudWatch Log Amazon*.

## Amazon CloudWatch Logs membangun log gambar
<a name="cloudwatch-logs-build-images"></a>

Grup log dibuat untuk setiap image build kustom dengan nama,`/aws/imagebuilder/ParallelClusterImage-<image-id>`. Aliran log unik dengan nama, *\$1pcluster-version\$1* /1 berisi output dari proses image build.

Anda dapat mengakses log dengan menggunakan perintah [`pcluster`](pcluster-v3.md)gambar. Lihat informasi yang lebih lengkap di [AWS ParallelCluster Kustomisasi AMI](custom-ami-v3.md).

# CloudWatch Dasbor Amazon
<a name="cloudwatch-dashboard-v3"></a>

 CloudWatch Dasbor Amazon dibuat saat cluster dibuat. Hal ini memudahkan untuk memantau node di cluster Anda, dan untuk melihat log yang disimpan di Amazon CloudWatch Logs. Nama dasbornya adalah`ClusterName-Region`. *ClusterName*adalah nama cluster Anda dan *Region* apakah cluster berada di. Wilayah AWS Anda dapat mengakses dasbor di konsol, atau dengan membuka`https://console.aws.amazon.com/cloudwatch/home?region=Region#dashboards:name=ClusterName-Region`.

Gambar berikut menunjukkan contoh CloudWatch dasbor untuk sebuah cluster.

 ![\[Dashboard graphs of the status of cluster resources.\]](http://docs.aws.amazon.com/id_id/parallelcluster/latest/ug/images/CW-dashboard.png) 

**Metrik Instance Node Kepala**

Bagian pertama dasbor menampilkan grafik EC2 metrik Amazon node kepala.

Jika klaster Anda memiliki penyimpanan bersama, bagian selanjutnya akan menampilkan metrik penyimpanan bersama.

**Metrik Kesehatan Cluster**

Jika klaster Anda menggunakan Slurm untuk penjadwalan, grafik metrik kesehatan cluster menunjukkan kesalahan node komputasi cluster waktu nyata. Untuk informasi selengkapnya, lihat [Memecahkan masalah metrik kesehatan klaster](troubleshooting-v3-cluster-health-metrics.md). Metrik kesehatan cluster ditambahkan ke dasbor dimulai dengan AWS ParallelCluster versi 3.6.0.

**Log Node Kepala**

Bagian terakhir mencantumkan log node kepala yang dikelompokkan berdasarkan AWS ParallelCluster log, log Scheduler, log integrasi Amazon DCV, dan log Sistem.

Untuk informasi selengkapnya tentang CloudWatch dasbor Amazon, lihat [Menggunakan CloudWatch dasbor Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) di * CloudWatch Panduan Pengguna Amazon*.

Jika Anda tidak ingin membuat CloudWatch dasbor Amazon, Anda dapat mematikannya dengan menyetel [`Monitoring`](Monitoring-v3.md)/[`Dashboards`](Monitoring-v3.md#yaml-Monitoring-Dashboards)/[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch)/[`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)ke`false`.

**catatan**  
Jika Anda menonaktifkan pembuatan CloudWatch dasbor Amazon, Anda juga menonaktifkan Amazon CloudWatch `disk_used_percent` dan `memory_used_percent` alarm untuk cluster Anda. Untuk informasi selengkapnya, lihat [CloudWatch Alarm Amazon untuk metrik klaster](cloudwatch-alarms-v3.md).  
`memory_used_percent`Alarm `disk_used_percent` dan ditambahkan dimulai dengan AWS ParallelCluster versi 3.6.

# CloudWatch Alarm Amazon untuk metrik klaster
<a name="cloudwatch-alarms-v3"></a>

AWS ParallelCluster mengonfigurasi CloudWatch alarm Amazon untuk memantau kesehatan dan pemanfaatan sumber daya dari node kepala. Alarm diberi nama`cluster-name-HeadNode-metric`, di *cluster-name* mana nama cluster Anda dan *metric* mengidentifikasi metrik yang sedang dipantau.

Akses alarm di CloudWatch konsol dengan memilih **Alarm** di panel navigasi.

Alarm komposit bernama `cluster-name-HeadNode` memasuki `ALARM` status ketika salah satu alarm node kepala individu dipicu.

## Alarm disk dan memori
<a name="cloudwatch-alarms-v3-disk-mem"></a>

Dimulai dengan AWS ParallelCluster versi 3.6.0, CloudWatch alarm berikut dibuat:
+ `cluster-name-HeadNode-Disk`— Memantau `disk_used_percent` metrik volume root. Memasuki `ALARM` status ketika penggunaan disk lebih besar dari 90% untuk 1 titik data dalam periode 1 menit.
+ `cluster-name-HeadNode-Mem`— Memantau `mem_used_percent` metrik. Memasuki `ALARM` status ketika penggunaan memori lebih besar dari 90% untuk 1 titik data dalam periode 1 menit.

Untuk informasi selengkapnya, lihat [Metrik yang dikumpulkan oleh CloudWatch agen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html) di *Panduan CloudWatch Pengguna Amazon*.

## Pemeriksaan Kesehatan dan Alarm CPU
<a name="cloudwatch-alarms-v3-health-cpu"></a>

Dimulai dengan AWS ParallelCluster versi 3.8.0, CloudWatch alarm berikut dibuat:
+ `cluster-name-HeadNode-Health`— Memantau metrik Amazon EC2`StatusCheckFailed`. Memasuki `ALARM` keadaan ketika nilainya lebih besar dari 0 untuk 1 titik data dalam periode 1 menit.
+ `cluster-name-HeadNode-Cpu`— Memantau metrik Amazon EC2`CPUUtilization`. Memasuki `ALARM` keadaan ketika pemanfaatan CPU lebih besar dari 90% untuk 1 titik data dalam periode 1 menit.

## Alarm detak jantung daemon manajemen cluster
<a name="cloudwatch-alarms-v3-clustermgtd"></a>

Dimulai dengan AWS ParallelCluster versi 3.15.0, CloudWatch saat pencatatan Amazon diaktifkan dan Slurm penjadwal digunakan, alarm berikut dibuat:
+ `cluster-name-HeadNode-ClustermgtdHeartbeat`— Memantau `ClustermgtdHeartbeat` metrik di `ParallelCluster` namespace. Alarm memasuki `ALARM` keadaan ketika kurang dari 1 detak jantung diterima selama 10 titik data berturut-turut dalam periode 1 menit. Data yang hilang diperlakukan sebagai pelanggaran.

**catatan**  
Semua alarm pulih secara simetris: titik data dan periode evaluasi yang sama yang memicu alarm juga mengatur pemulihan. Misalnya, alarm dengan 1 titik data pulih setelah 1 titik data yang baik dalam periode pengamatan yang sama, demikian pula `ClustermgtdHeartbeat` alarm membutuhkan 10 titik data baik berturut-turut (10 menit) untuk kembali ke. `OK`

**catatan**  
AWS ParallelCluster tidak mengonfigurasi tindakan alarm. Untuk informasi tentang cara mengatur tindakan alarm, seperti mengirim notifikasi, lihat [Tindakan alarm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). Untuk informasi selengkapnya tentang CloudWatch alarm Amazon, lihat [Menggunakan CloudWatch alarm Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) di * CloudWatch Panduan Pengguna Amazon*.  
Untuk AWS ParallelCluster versi 3.8.0 dan yang lebih baru, nonaktifkan alarm dengan menyetel [`Monitoring`](Monitoring-v3.md)/[`Alarms`](Monitoring-v3.md#yaml-Monitoring-Alarms)/[`Enabled`](Monitoring-v3.md#yaml-Monitoring-Alarms-Enabled)ke `false` dalam konfigurasi cluster Anda.  
Untuk AWS ParallelCluster versi sebelum 3.8.0, nonaktifkan alarm dengan menyetel [`Monitoring`](Monitoring-v3.md)//[`Dashboards`[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch)](Monitoring-v3.md#yaml-Monitoring-Dashboards)/[`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)ke `false` dalam konfigurasi cluster Anda. Perhatikan bahwa pengaturan ini juga menonaktifkan CloudWatch dasbor Amazon. Lihat [CloudWatch Dasbor Amazon](cloudwatch-dashboard-v3.md) untuk detail tambahan.

# AWS ParallelCluster rotasi log yang dikonfigurasi
<a name="log-rotation-v3"></a>

Konfigurasi rotasi AWS ParallelCluster log terletak di `/etc/logrotate.d/parallelcluster_*_log_rotation` file. Saat log yang dikonfigurasi berputar, konten log saat ini disimpan dalam satu cadangan dan log yang dikosongkan melanjutkan pencatatan.

Hanya 1 cadangan yang dipertahankan untuk setiap log yang dikonfigurasi.

AWS ParallelCluster mengonfigurasi log yang tumbuh cepat untuk diputar ketika ukurannya mencapai 50 MB. Log yang tumbuh cepat terkait dengan penskalaan dan Slurm, termasuk`/var/log/parallelcluster/clustermgtd`,`/var/log/parallelcluster/slurm_resume.log`, dan`/var/log/slurmctld.log`.

AWS ParallelCluster mengonfigurasi log yang tumbuh lambat untuk diputar ketika ukurannya mencapai 10 MB.

Anda dapat melihat log sebelumnya yang dipertahankan untuk jumlah hari yang ditentukan dalam [`RetentionInDays`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch-RetentionInDays)pengaturan konfigurasi klaster [`Logs`](Monitoring-v3.md#yaml-Monitoring-Logs)/[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch)/dengan CloudFormation logging diaktifkan. Periksa `RetentionInDays` pengaturan untuk melihat apakah jumlah hari perlu ditingkatkan untuk kasus penggunaan Anda.

AWS ParallelCluster mengkonfigurasi dan memutar log berikut:

**Log simpul kepala**

```
/var/log/cloud-init.log
/var/log/supervisord.log
/var/log/cfn-init.log
/var/log/chef-client.log
/var/log/dcv/server.log
/var/log/dcv/sessionlauncher.log
/var/log/dcv/agent.*.log
/var/log/dcv/dcv-xsession.*.log
/var/log/dcv/Xdcv.*.log
/var/log/parallelcluster/pam_ssh_key_generator.log
/var/log/parallelcluster/clustermgtd
/var/log/parallelcluster/clusterstatusmgtd
/var/log/parallelcluster/slurm_fleet_status_manager.log
/var/log/parallelcluster/slurm_resume.log
/var/log/parallelcluster/slurm_suspend.log
/var/log/slurmctld.log
/var/log/slurmdbd.log
/var/log/parallelcluster/compute_console_output.log
```

**Hitung log simpul**

```
/var/log/cloud-init.log
/var/log/supervisord.log
/var/log/cloud-init-output.log
/var/log/parallelcluster/computemgtd
/var/log/slurmd.log
```

**Log simpul masuk**

```
/var/log/cloud-init.log
/var/log/cloud-init.log
/var/log/cloud-init-output.log
/var/log/supervisord.log
/var/log/parallelcluster/pam_ssh_key_generator.log
```

# `pcluster`Log CLI
<a name="troubleshooting-v3-pc-cli-logs"></a>

`pcluster`CLI menulis log perintah Anda ke `pcluster.log.#` file di. `/home/user/.parallelcluster/`

Untuk setiap perintah, log umumnya menyertakan perintah dengan input, salinan versi CLI API yang digunakan untuk membuat perintah, respons, dan info dan pesan kesalahan. Untuk perintah create dan build, log juga menyertakan file konfigurasi, operasi validasi file konfigurasi, CloudFormation template, dan perintah stack.

Anda dapat menggunakan log ini untuk memverifikasi kesalahan, input, versi, dan perintah `pcluster` CLI. Mereka juga dapat berfungsi sebagai catatan kapan perintah dibuat.

# Log keluaran EC2 konsol Amazon
<a name="console-logs-v3"></a>

Saat AWS ParallelCluster mendeteksi bahwa instance node komputasi statis berakhir secara tidak terduga, instans tersebut mencoba mengambil output EC2 konsol Amazon dari instance node yang dihentikan setelah periode waktu berlalu. Dengan cara ini, jika node komputasi tidak dapat berkomunikasi dengan Amazon CloudWatch, informasi pemecahan masalah yang berguna tentang mengapa node dihentikan mungkin masih diambil dari output konsol. Output konsol ini direkam dalam `/var/log/parallelcluster/compute_console_output` log pada node kepala. Untuk informasi selengkapnya tentang keluaran EC2 konsol Amazon, lihat [Output konsol instans](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-console.html#instance-console-console-output) di *Panduan EC2 Pengguna Amazon untuk Instans Linux*.

Secara default, AWS ParallelCluster hanya mengambil output konsol dari subset sampel node yang dihentikan. Ini mencegah node kepala cluster kewalahan dengan beberapa permintaan keluaran konsol yang disebabkan oleh sejumlah besar penghentian. Secara default, AWS ParallelCluster tunggu 5 menit antara deteksi terminasi dan pengambilan keluaran konsol untuk memberi Amazon EC2 waktu untuk mengambil output konsol akhir dari node.

Anda dapat mengedit ukuran sampel dan nilai parameter waktu tunggu dalam `/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf` file pada node kepala.

Fitur ini ditambahkan dalam AWS ParallelCluster versi 3.5.0.

## Parameter keluaran EC2 konsol Amazon
<a name="console-logs-parameters-v3"></a>

Anda dapat mengedit nilai parameter keluaran EC2 konsol Amazon berikut dalam `/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf` file di node kepala.

### `compute_console_logging_enabled`
<a name="console-logs-enable-v3"></a>

Untuk menonaktifkan koleksi log keluaran konsol, setel `compute_console_logging_enabled` ke`false`. Nilai default-nya `true`.

Anda dapat memperbarui parameter ini kapan saja, tanpa menghentikan armada komputasi.

### `compute_console_logging_max_sample_size`
<a name="console-logs-max-sample-size-v3"></a>

`compute_console_logging_max_sample_size`menetapkan jumlah maksimum node komputasi dari mana AWS ParallelCluster mengumpulkan output konsol setiap kali mendeteksi penghentian yang tidak terduga. Jika nilai ini kurang dari`1`, AWS ParallelCluster mengambil output konsol dari semua node yang dihentikan. Nilai default-nya adalah `1`.

Anda dapat memperbarui parameter ini kapan saja, tanpa menghentikan armada komputasi.

### `compute_console_wait_time`
<a name="console-logs-wait-time-v3"></a>

`compute_console_wait_time`mengatur waktu, dalam detik, yang AWS ParallelCluster menunggu antara mendeteksi kegagalan node dan mengumpulkan output konsol dari node itu. Anda dapat meningkatkan waktu tunggu jika Anda menentukan bahwa Amazon EC2 membutuhkan lebih banyak waktu untuk mengumpulkan hasil akhir dari node yang dihentikan. Nilai default adalah 300 detik (5 menit).

Anda dapat memperbarui parameter ini kapan saja, tanpa menghentikan armada komputasi.

# Ambil PCUI dan log runtime AWS ParallelCluster
<a name="troubleshooting-v3-get-runtime-logs"></a>

Pelajari cara mengambil PCUI dan log AWS ParallelCluster runtime untuk pemecahan masalah. Untuk memulai, temukan nama PCUI dan AWS ParallelCluster tumpukan yang relevan. Gunakan nama tumpukan untuk menemukan grup log instalasi. Untuk menyelesaikannya, ekspor log. Log ini khusus untuk AWS ParallelCluster runtime. Untuk log klaster, lihat[Mengambil dan melestarikan log](troubleshooting-v3-get-logs.md).

**Prasyarat**
+  AWS CLI Terinstal.
+ Anda memiliki kredensi untuk menjalankan AWS CLI perintah di mana Akun AWS PCUI aktif.
+ Anda dapat mengakses CloudWatch konsol Amazon di tempat Akun AWS PCUI aktif.

## Langkah 1: Temukan nama tumpukan untuk tumpukan yang relevan
<a name="pcui-install-logs-v3-step-1"></a>

Dalam contoh berikut, ganti teks merah yang disorot dengan nilai aktual Anda.

Daftar tumpukan, menggunakan Wilayah AWS tempat Anda menginstal PCUI:

```
$ aws cloudformation list-stacks --region aws-region-id
```

Perhatikan nama tumpukan untuk tumpukan berikut:
+ Nama tumpukan yang menyebarkan PCUI di akun Anda. Anda memasukkan nama ini ketika Anda menginstal PCUI; misalnya,. `pcluster-ui`
+  AWS ParallelCluster Tumpukan yang diawali dengan nama tumpukan yang Anda masukkan; misalnya,`pcluster-ui-ParallelClusterApi-ABCD1234EFGH`.

## Langkah 2: Temukan grup log
<a name="pcui-install-logs-v3-step-2"></a>

Daftar grup log dari tumpukan PCUI, seperti yang ditunjukkan pada contoh berikut:

```
$ aws cloudformation describe-stack-resources \
   --region aws-region-id \
   --stack-name pcluster-ui \
   --query "StackResources[?ResourceType == 'AWS::Logs::LogGroup' && (LogicalResourceId == 'ApiGatewayAccessLog' || LogicalResourceId == 'ParallelClusterUILambdaLogGroup')].PhysicalResourceId" \
   --output text
```

Buat daftar grup log dari tumpukan AWS ParallelCluster API, seperti yang ditunjukkan pada contoh berikut:

```
$ aws cloudformation describe-stack-resources \
   --region aws-region-id \
   --stack-name pcluster-ui-ParallelCluster-Api-ABCD1234EFGH \
   --query "StackResources[?ResourceType == 'AWS::Logs::LogGroup' && LogicalResourceId == 'ParallelClusterFunctionLogGroup'].PhysicalResourceId" \
   --output text
```

Perhatikan daftar grup log untuk digunakan pada langkah berikutnya.

## Langkah 3: Ekspor log
<a name="pcui-install-logs-v3-step-3"></a>

Gunakan langkah-langkah berikut untuk mengumpulkan dan mengekspor log:

1. Masuk ke Konsol Manajemen AWS, lalu navigasikan ke CloudWatch konsol [Amazon](https://console.aws.amazon.com/cloudwatch/) di tempat Akun AWS PCUI aktif.

1. Pilih **Log****, Wawasan Log** di panel navigasi.

1. Pilih semua grup log yang tercantum pada langkah sebelumnya.

1. Pilih rentang waktu, seperti 12 jam.

1. Jalankan kueri berikut:

   ```
   $ fields @timestamp, @message
   | sort @timestamp desc
   | limit 10000
   ```

1. Pilih **Ekspor hasil**, **Unduh tabel (JSON)**.

# Mengambil dan melestarikan log
<a name="troubleshooting-v3-get-logs"></a>

AWS ParallelCluster membuat EC2 metrik Amazon untuk HeadNode dan Menghitung instans dan penyimpanan. Anda dapat melihat metrik di **Dasbor Kustom CloudWatch ** konsol. AWS ParallelCluster juga membuat aliran CloudWatch log cluster di grup log. Anda dapat melihat log ini di CloudWatch konsol **Dasbor Kustom** atau **grup Log**. Bagian konfigurasi cluster [Monitoring](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch) menjelaskan bagaimana Anda dapat memodifikasi CloudWatch log klaster dan dasbor. Untuk informasi selengkapnya, lihat [Integrasi dengan Amazon CloudWatch Logs](cloudwatch-logs-v3.md) dan [CloudWatch Dasbor Amazon](cloudwatch-dashboard-v3.md).

Log adalah sumber daya yang berguna untuk memecahkan masalah. Misalnya, jika Anda ingin menghapus klaster yang gagal, mungkin berguna untuk terlebih dahulu membuat arsip log cluster. Ikuti langkah-langkah [Log arsip](#troubleshooting-v3-get-logs-archive) untuk membuat arsip.

**Topics**
+ [Log klaster tidak tersedia di CloudWatch](#troubleshooting-v3-get-logs-unavailable)
+ [Log arsip](#troubleshooting-v3-get-logs-archive)
+ [Log yang diawetkan](#troubleshooting-v3-get-logs-preserve)
+ [Log simpul yang dihentikan](#troubleshooting-v3-get-logs-terminated-node)

## Log klaster tidak tersedia di CloudWatch
<a name="troubleshooting-v3-get-logs-unavailable"></a>

Jika log klaster tidak tersedia CloudWatch, periksa untuk memastikan Anda belum menimpa konfigurasi AWS ParallelCluster CloudWatch log saat menambahkan log khusus ke konfigurasi.

Untuk menambahkan log kustom ke CloudWatch konfigurasi, pastikan Anda menambahkan ke konfigurasi daripada mengambil dan menimpa. Untuk informasi selengkapnya tentang `fetch-config` dan`append-config`, lihat [Beberapa file konfigurasi CloudWatch agen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-common-scenarios.html#CloudWatch-Agent-multiple-config-files) di *Panduan CloudWatch Pengguna*.

Untuk mengembalikan konfigurasi AWS ParallelCluster CloudWatch log, Anda dapat menjalankan perintah berikut di dalam sebuah AWS ParallelCluster node:

```
$ PLATFORM="$(ohai platform | jq -r ".[]")"
LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")"
SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")"
NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")"
CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json"
/opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s
```

## Log arsip
<a name="troubleshooting-v3-get-logs-archive"></a>

Anda dapat mengarsipkan log di Amazon S3 atau dalam file lokal (tergantung pada `--output-file` parameternya).

**catatan**  
Dimulai dengan AWS ParallelCluster 3.12.0, Anda dapat mengekspor log ke bucket default AWS ParallelCluster . Dalam hal ini Anda tidak perlu menyetel izin bucket. 

**catatan**  
Tambahkan izin ke kebijakan bucket Amazon S3 untuk CloudWatch memberikan akses. Untuk informasi selengkapnya, lihat [Menetapkan izin pada bucket Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3ExportTasks.html#S3Permissions) di CloudWatch Panduan Pengguna *Log*.

```
$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \
  --bucket bucketname --bucket-prefix logs
{
  "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..."
}

# use the --output-file parameter to save the logs locally
$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \
  --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz
{
  "path": "/tmp/archive.tar.gz"
}
```

Arsip berisi aliran Amazon CloudWatch Logs dan peristiwa CloudFormation tumpukan dari node kepala dan node komputasi selama 14 hari terakhir, kecuali ditentukan secara eksplisit dalam konfigurasi atau dalam parameter untuk perintah. `export-cluster-logs` Waktu yang dibutuhkan untuk menyelesaikan perintah tergantung pada jumlah node di cluster dan jumlah aliran log yang tersedia di CloudWatch Log. Untuk informasi selengkapnya tentang aliran log yang tersedia, lihat[Integrasi dengan Amazon CloudWatch Logs](cloudwatch-logs-v3.md).

## Log yang diawetkan
<a name="troubleshooting-v3-get-logs-preserve"></a>

Mulai dari versi 3.0.0, AWS ParallelCluster mempertahankan CloudWatch Log secara default saat cluster dihapus. Jika Anda ingin menghapus klaster dan mempertahankan lognya, pastikan [`Monitoring`](Monitoring-v3.md)//[`Logs`](Monitoring-v3.md#yaml-Monitoring-Logs)/[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch)/[`DeletionPolicy`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch-DeletionPolicy)tidak disetel ke `Delete` dalam konfigurasi cluster. Jika tidak, ubah nilai untuk bidang ini menjadi`Retain`, dan jalankan `pcluster update-cluster` perintah. Kemudian, jalankan `pcluster delete-cluster --cluster-name <cluster_name>` untuk menghapus cluster, tetapi pertahankan grup log yang disimpan di Amazon CloudWatch.

## Log simpul yang dihentikan
<a name="troubleshooting-v3-get-logs-terminated-node"></a>

Jika node komputasi statis tiba-tiba berakhir dan tidak CloudWatch memiliki log untuk itu, periksa apakah AWS ParallelCluster telah merekam output konsol untuk node komputasi tersebut pada node kepala di log. `/var/log/parallelcluster/compute_console_output` Untuk informasi selengkapnya, lihat [Log kunci untuk debugging](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-key-logs).

Jika `/var/log/parallelcluster/compute_console_output` log tidak tersedia atau tidak berisi output untuk node, gunakan AWS CLI untuk mengambil output konsol dari node yang gagal. Masuk ke node kepala cluster dan dapatkan node yang gagal `instance-id` dari `/var/log/parallelcluster/slurm_resume.log` file. 

Ambil output konsol dengan menggunakan perintah berikut dengan: `instance-id`

```
$ aws ec2 get-console-output --instance-id i-abcdef01234567890
```

Jika node komputasi dinamis berhenti sendiri setelah diluncurkan dan tidak CloudWatch memiliki log untuk itu, kirimkan pekerjaan yang mengaktifkan tindakan penskalaan klaster. Tunggu instance gagal dan ambil log konsol instance.

Masuk ke node kepala cluster dan dapatkan node komputasi `instance-id` dari `/var/log/parallelcluster/slurm_resume.log` file.

Untuk mengambil log konsol instance, gunakan perintah berikut:

```
$ aws ec2 get-console-output --instance-id i-abcdef01234567890
```

Log keluaran konsol dapat membantu Anda men-debug akar penyebab kegagalan node komputasi saat log node komputasi tidak tersedia.