Mengaktifkan perbaikan simpul otomatis dan menyelidiki masalah kesehatan simpul - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengaktifkan perbaikan simpul otomatis dan menyelidiki masalah kesehatan simpul

Kesehatan node mengacu pada status operasional dan kemampuan node untuk menjalankan beban kerja secara efektif. Node yang sehat mempertahankan konektivitas yang diharapkan, memiliki sumber daya yang cukup, dan dapat berhasil menjalankan Pod tanpa gangguan. Untuk informasi tentang mendapatkan detail tentang node Anda, lihat Lihat status kesehatan node Anda danMengambil log node untuk node terkelola menggunakan kubectl dan S3.

Untuk membantu menjaga node yang sehat, Amazon EKS menawarkan agen pemantauan node dan perbaikan otomatis node.

penting

Agen pemantauan node dan perbaikan otomatis node hanya tersedia di Linux. Fitur-fitur ini tidak tersedia di Windows.

Agen pemantauan simpul

Agen pemantauan node secara otomatis membaca log node untuk mendeteksi masalah kesehatan tertentu. Ini mem-parsing melalui log node untuk mendeteksi kegagalan dan memunculkan berbagai informasi status tentang node pekerja. Dedicated NodeCondition diterapkan pada node pekerja untuk setiap kategori masalah yang terdeteksi, seperti masalah penyimpanan dan jaringan. Deskripsi masalah kesehatan yang terdeteksi tersedia di dasbor observabilitas. Untuk informasi selengkapnya, lihat Masalah kesehatan simpul.

Agen pemantauan node disertakan sebagai kemampuan untuk semua kluster Mode Otomatis Amazon EKS. Untuk jenis cluster lainnya, Anda dapat menambahkan agen pemantauan sebagai add-on Amazon EKS. Untuk informasi selengkapnya, lihat Buat add-on Amazon EKS.

Perbaikan simpul otomatis

Node auto repair adalah fitur tambahan yang terus memantau kesehatan node, secara otomatis bereaksi terhadap masalah yang terdeteksi dan mengganti node bila memungkinkan. Ini membantu ketersediaan cluster secara keseluruhan dengan intervensi manual minimal. Jika pemeriksaan kesehatan gagal, node akan ditutup secara otomatis sehingga tidak ada Pod baru yang dijadwalkan pada node.

Dengan sendirinya, perbaikan otomatis simpul dapat bereaksi terhadap kondisi Ready dari kubelet dan objek simpul apa pun yang dihapus secara manual. Ketika dipasangkan dengan agen pemantauan node, perbaikan otomatis node dapat bereaksi terhadap lebih banyak kondisi yang tidak akan terdeteksi sebaliknya. Kondisi tambahan ini meliputi KernelReady, NetworkingReady, dan StorageReady.

Pemulihan simpul otomatis ini secara otomatis mengatasi masalah simpul intermiten seperti kegagalan untuk bergabung dengan klaster, kubelet yang tidak responsif, dan peningkatan kesalahan akselerator (perangkat). Peningkatan keandalan membantu mengurangi waktu henti aplikasi dan meningkatkan operasi klaster. Node auto repair tidak dapat menangani masalah tertentu yang dilaporkan sepertiDiskPressure,MemoryPressure, danPIDPressure. Amazon EKS menunggu 10 menit sebelum bertindak AcceleratedHardwareReadyNodeConditions, dan 30 menit untuk semua kondisi lainnya.

Grup node terkelola juga akan secara otomatis menonaktifkan perbaikan node untuk alasan keamanan di bawah dua skenario. Setiap operasi perbaikan yang sebelumnya sedang berlangsung akan berlanjut untuk kedua situasi.

  • Jika pergeseran zona untuk klaster Anda telah dipicu melalui Application Recovery Controller (ARC), semua operasi perbaikan berikutnya dihentikan.

  • Jika grup node Anda memiliki lebih dari lima node dan lebih dari 20% node dalam grup node Anda berada dalam keadaan tidak sehat, operasi perbaikan dihentikan.

Anda dapat mengaktifkan perbaikan otomatis node saat membuat atau mengedit grup node terkelola.

Amazon EKS memberikan kontrol yang lebih terperinci atas perilaku perbaikan otomatis node melalui hal-hal berikut:

  • maxUnhealthyNodeThresholdCount dan maxUnhealthyNodeThresholdPercentage

    • Bidang ini memungkinkan Anda menentukan ambang batas hitungan atau persentase node yang tidak sehat, di atasnya tindakan perbaikan otomatis node akan berhenti. Ini memberikan kontrol lebih besar atas “radius ledakan” perbaikan otomatis node.

    • Anda dapat mengatur jumlah absolut atau persentase, tetapi tidak keduanya.

  • maxParallelNodesRepairedCount dan maxParallelNodesRepairedPercentage

    • Bidang ini memungkinkan Anda untuk menentukan jumlah maksimum node yang dapat diperbaiki secara bersamaan atau paralel, dinyatakan sebagai hitungan atau persentase dari semua node yang tidak sehat. Ini memberi Anda kontrol yang lebih halus atas kecepatan penggantian node.

    • Seperti halnya ambang simpul yang tidak sehat, Anda dapat mengatur jumlah absolut atau persentase, tetapi tidak keduanya.

  • nodeRepairConfigOverrides

    • Ini adalah struktur kompleks yang memungkinkan Anda mengatur penggantian granular untuk tindakan perbaikan tertentu. Penggantian ini mengontrol tindakan perbaikan dan waktu tunda perbaikan sebelum node dianggap memenuhi syarat untuk diperbaiki.

    • Bidang spesifik dalam struktur ini adalah:

      • nodeMonitoringCondition: Kondisi tidak sehat yang dilaporkan oleh agen pemantau simpul.

      • nodeUnhealthyReason: Alasan mengapa agen pemantauan node mengidentifikasi node sebagai tidak sehat.

      • minRepairWaitTimeMins: Waktu minimum (dalam menit) bahwa kondisi perbaikan dan alasan tidak sehat harus bertahan sebelum node memenuhi syarat untuk diperbaiki.

      • repairAction: Tindakan yang harus dilakukan sistem perbaikan ketika kondisi di atas terpenuhi.

    • Jika Anda menggunakan bidang ini, Anda harus menentukan semua bidang dalam struktur. Anda juga dapat memberikan daftar penggantian ini.

    • Input teks manual nodeMonitoringCondition dan nodeUnhealthyReason merupakan input teks manual yang Anda tetapkan untuk menunjukkan bahwa Anda ingin menyimpang dari perilaku default sistem.

    • repairActionBidang minRepairWaitTimeMins dan memungkinkan Anda menentukan penyimpangan dari perilaku default sistem.

Masalah kesehatan simpul

Tabel berikut menjelaskan masalah kesehatan simpul yang dapat dideteksi oleh agen pemantauan node. Ada dua jenis masalah:

  • Kondisi — Masalah terminal yang menjamin tindakan remediasi seperti penggantian instance atau reboot. Ketika perbaikan otomatis diaktifkan, Amazon EKS akan melakukan tindakan perbaikan, baik sebagai penggantian node atau reboot. Untuk informasi selengkapnya, lihat Kondisi simpul.

  • Event — Masalah sementara atau konfigurasi node sub-optimal. Tidak ada tindakan perbaikan otomatis yang akan terjadi. Untuk informasi selengkapnya, lihat Peristiwa simpul.

AcceleratedHardware masalah kesehatan simpul

Kondisi pemantauan adalah AcceleratedHardwareReady untuk masalah dalam tabel berikut yang memiliki tingkat keparahan “Kondisi”.

Jika perbaikan otomatis diaktifkan, tindakan perbaikan yang tercantum mulai 10 menit setelah masalah terdeteksi. Untuk informasi selengkapnya tentang kesalahan XID, lihat Kesalahan Xid di Deployment GPU NVIDIA dan Dokumentasi Manajemen. Untuk informasi selengkapnya tentang pesan XID individual, lihat Memahami Pesan Xid di Dokumentasi Penerapan dan Manajemen GPU NVIDIA.

Nama Kepelikan Deskripsi

DCGMDiagnosticKegagalan

Kondisi

Kasus uji dari rangkaian uji diagnostik aktif DCGM gagal.

DCGMError

Kondisi

Koneksi ke proses host DCGM terputus atau tidak dapat dibuat.

DCGMFieldKesalahan [Kode]

Peristiwa

DCGM mendeteksi degredasi GPU melalui pengenal bidang.

DCGMHealthKode [Kode]

Peristiwa

Pemeriksaan kesehatan DCGM gagal dengan cara yang tidak fatal.

DCGMHealthKode [Kode]

Kondisi

Pemeriksaan kesehatan DCGM gagal secara fatal.

Neuron DMAError

Kondisi

Mesin DMA mengalami kesalahan yang tidak dapat dipulihkan.

HBMUncorrectableKesalahan Neuron

Kondisi

HBM mengalami kesalahan yang tidak dapat diperbaiki dan menghasilkan hasil yang salah.

NCUncorrectableKesalahan Neuron

Kondisi

Kesalahan memori Neuron Core yang tidak dapat diperbaiki terdeteksi.

SRAMUncorrectableKesalahan Neuron

Kondisi

SRAM on-chip mengalami kesalahan paritas dan menghasilkan hasil yang salah.

NvidiaDeviceCountMismatch

Peristiwa

Jumlah yang GPUs terlihat melalui NVMLtidak konsisten dengan jumlah perangkat NVIDIA pada sistem file.

NvidiaDoubleBitError

Kondisi

Kesalahan bit ganda dihasilkan oleh driver GPU.

Nvidia NCCLError

Peristiwa

Segfault terjadi di perpustakaan NVIDIA Collective Communications (libnccl).

NVLinkKesalahan Nvidia

Kondisi

NVLink kesalahan dilaporkan oleh driver GPU.

PCIeKesalahan Nvidia

Peristiwa

PCIe tayangan ulang dipicu untuk pulih dari kesalahan transmisi.

NvidiaPageRetirement

Peristiwa

Pengemudi GPU telah menandai halaman memori untuk pensiun. Ini dapat terjadi jika ada kesalahan bit ganda tunggal atau dua kesalahan bit tunggal ditemui di alamat yang sama.

NvidiaPowerError

Peristiwa

Pemanfaatan daya GPUs melanggar ambang batas yang diizinkan.

NvidiaThermalError

Peristiwa

Status termal GPUs melanggar ambang batas yang diizinkan.

Kesalahan NvidiaXid [Kode]

Kondisi

Terjadi kesalahan GPU kritis.

Peringatan NvidiaXid [Kode]

Peristiwa

Terjadi kesalahan GPU non-kritis.

ContainerRuntime masalah kesehatan simpul

Kondisi pemantauan adalah ContainerRuntimeReady untuk masalah dalam tabel berikut yang memiliki tingkat keparahan “Kondisi”.

Nama Kepelikan Deskripsi

ContainerRuntimeFailed

Peristiwa

Runtime container gagal membuat container, kemungkinan terkait dengan masalah yang dilaporkan jika terjadi berulang kali.

DeprecatedContainerdConfiguration

Peristiwa

Gambar kontainer menggunakan manifes gambar usang versi 2, skema 1 baru-baru ini ditarik ke node melalui. containerd

KubeletFailed

Peristiwa

Kubelet memasuki keadaan gagal.

LivenessProbeFailures

Peristiwa

Kegagalan probe keaktifan terdeteksi, berpotensi menunjukkan masalah kode aplikasi atau nilai batas waktu yang tidak mencukupi jika terjadi berulang kali.

PodStuckTerminating

Kondisi

Sebuah Pod sedang atau macet terminating untuk waktu yang berlebihan, yang dapat disebabkan oleh kesalahan CRI yang mencegah perkembangan status pod.

ReadinessProbeFailures

Peristiwa

Kegagalan probe kesiapan terdeteksi, berpotensi menunjukkan masalah kode aplikasi atau nilai batas waktu yang tidak mencukupi jika terjadi berulang kali.

[Nama] RepeatedRestart

Peristiwa

Unit systemd sering restart.

ServiceFailedToStart

Peristiwa

Unit systemd gagal memulai.

Masalah kesehatan simpul kernel

Kondisi pemantauan adalah KernelReady untuk masalah dalam tabel berikut yang memiliki tingkat keparahan “Kondisi”.

Nama Kepelikan Deskripsi

AppBlocked

Peristiwa

Tugas telah diblokir untuk jangka waktu yang lama dari penjadwalan, biasanya disebabkan oleh diblokir pada input atau output.

AppCrash

Peristiwa

Aplikasi pada node telah crash.

ApproachingKernelPidMax

Peristiwa

Jumlah proses mendekati jumlah maksimum PIDs yang tersedia per kernel.pid_max pengaturan saat ini, setelah itu tidak ada lagi proses yang dapat diluncurkan.

ApproachingMaxOpenFiles

Peristiwa

Jumlah file yang terbuka mendekati jumlah maksimum file terbuka yang mungkin diberikan pengaturan kernel saat ini, setelah itu membuka file baru akan gagal.

ConntrackExceededKernel

Peristiwa

Pelacakan koneksi melebihi maksimum untuk kernel dan koneksi baru tidak dapat dibuat, yang dapat mengakibatkan hilangnya paket.

ExcessiveZombieProcesses

Peristiwa

Proses yang tidak dapat sepenuhnya direklamasi terakumulasi dalam jumlah besar, yang menunjukkan masalah aplikasi dan dapat menyebabkan mencapai batas proses sistem.

ForkFailedOutOfPIDs

Kondisi

Panggilan fork atau exec gagal karena sistem kehabisan proses IDs atau memori, yang mungkin disebabkan oleh proses zombie atau kelelahan memori fisik.

KernelBug

Peristiwa

Bug kernel terdeteksi dan dilaporkan oleh kernel Linux itu sendiri, meskipun ini kadang-kadang disebabkan oleh node dengan CPU tinggi atau penggunaan memori yang menyebabkan pemrosesan peristiwa tertunda.

LargeEnvironment

Peristiwa

Jumlah variabel lingkungan untuk proses ini lebih besar dari yang diharapkan, berpotensi disebabkan oleh banyak layanan dengan enableServiceLinks set ke true, yang dapat menyebabkan masalah kinerja.

RapidCron

Peristiwa

Pekerjaan cron berjalan lebih cepat daripada setiap lima menit pada node ini, yang dapat memengaruhi kinerja jika pekerjaan tersebut menghabiskan sumber daya yang signifikan.

SoftLockup

Peristiwa

CPU terhenti untuk jangka waktu tertentu.

Masalah kesehatan simpul jaringan

Kondisi pemantauan adalah NetworkingReady untuk masalah dalam tabel berikut yang memiliki tingkat keparahan “Kondisi”.

Nama Kepelikan Deskripsi

BandwidthInExceeded

Peristiwa

Paket telah diantrian atau dijatuhkan karena bandwidth agregat masuk melebihi maksimum untuk instance.

BandwidthOutExceeded

Peristiwa

Paket telah diantrian atau dijatuhkan karena bandwidth agregat keluar melebihi maksimum untuk instance.

ConntrackExceeded

Peristiwa

Pelacakan koneksi melebihi maksimum untuk instance dan koneksi baru tidak dapat dibuat, yang dapat mengakibatkan hilangnya paket.

IPAMDInconsistentNegara

Peristiwa

Status pos pemeriksaan IPAMD pada disk tidak mencerminkan runtime IPs dalam container.

IPAMDNoIPs

Peristiwa

IPAMD kehabisan alamat IP.

IPAMDNotSiap

Kondisi

IPAMD gagal terhubung ke server API.

IPAMDNotBerlari

Kondisi

Proses Amazon VPC CNI tidak ditemukan berjalan.

IPAMDRepeatedlyMulai ulang

Peristiwa

Beberapa restart dalam layanan IPAMD telah terjadi.

InterfaceNotRunning

Kondisi

Antarmuka ini tampaknya tidak berjalan atau ada masalah jaringan.

InterfaceNotUp

Kondisi

Antarmuka ini tampaknya tidak aktif atau ada masalah jaringan.

KubeProxyNotReady

Peristiwa

Kube-proxy gagal menonton atau mencantumkan sumber daya.

LinkLocalExceeded

Peristiwa

Paket dijatuhkan karena PPS lalu lintas ke layanan proxy lokal melebihi maksimum antarmuka jaringan.

MACAddressPolicyMisconfigured

Peristiwa

Konfigurasi tautan systemd-networkd memiliki nilai yang salah. MACAddressPolicy

MissingDefaultRoutes

Peristiwa

Ada aturan rute default yang hilang.

Hilang IPRoutes

Peristiwa

Ada rute yang hilang untuk Pod IPs.

Hilang IPRules

Peristiwa

Ada aturan yang hilang untuk Pod IPs.

MissingLoopbackInterface

Kondisi

Antarmuka loopback hilang dari instance ini, menyebabkan kegagalan layanan tergantung pada konektivitas lokal.

NetworkSysctl

Peristiwa

sysctlPengaturan jaringan node ini berpotensi salah.

PPSExceeded

Peristiwa

Paket telah diantrian atau dijatuhkan karena PPS dua arah melebihi maksimum untuk instance.

PortConflict

Peristiwa

Jika sebuah Pod menggunakan HostPort, ia dapat menulis iptables aturan yang mengganti port host yang sudah terikat, yang berpotensi mencegah akses server API. kubelet

UnexpectedRejectRule

Peristiwa

Sebuah tak terduga REJECT atau DROP aturan ditemukan diiptables, berpotensi memblokir lalu lintas yang diharapkan.

Masalah kesehatan simpul penyimpanan

Kondisi pemantauan adalah StorageReady untuk masalah dalam tabel berikut yang memiliki tingkat keparahan “Kondisi”.

Nama Kepelikan Deskripsi

EBSInstanceIOPSExceeded

Peristiwa

IOPS maksimum untuk instance terlampaui.

EBSInstanceThroughputExceeded

Peristiwa

Throughput Maksimum untuk instance terlampaui.

EBSVolumeIOPSExceeded

Peristiwa

IOPS maksimum untuk Volume EBS tertentu terlampaui.

EBSVolumeThroughputExceeded

Peristiwa

Throughput Maksimum untuk volume Amazon EBS tertentu terlampaui.

EtcHostsMountFailed

Peristiwa

Pemasangan kubelet yang dihasilkan /etc/hosts gagal karena /var/lib/kubelet/pods remounting data pengguna selama operasi. kubelet-container

IODelays

Peristiwa

Penundaan input atau output terdeteksi dalam suatu proses, berpotensi menunjukkan penyediaan input-output yang tidak mencukupi jika berlebihan.

KubeletDiskUsageSlow

Peristiwa

kubeletIni melaporkan penggunaan disk yang lambat saat mencoba mengakses sistem file. Ini berpotensi menunjukkan masalah input-output atau sistem file disk yang tidak mencukupi.

XFSSmallAverageClusterSize

Peristiwa

Ukuran XFS Average Cluster kecil, menunjukkan fragmentasi ruang kosong yang berlebihan. Ini dapat mencegah pembuatan file meskipun ada inode atau ruang kosong yang tersedia.