Strategi coba lagi pekerjaan layanan di AWS Batch - AWS Batch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Strategi coba lagi pekerjaan layanan di AWS Batch

Strategi coba lagi pekerjaan layanan memungkinkan AWS Batch untuk secara otomatis mencoba kembali pekerjaan layanan yang gagal dalam kondisi tertentu.

Pekerjaan layanan mungkin memerlukan beberapa upaya karena beberapa alasan:

  • Masalah layanan sementara: Kesalahan layanan internal, pembatasan, atau pemadaman sementara dapat menyebabkan pekerjaan gagal selama pengiriman atau eksekusi.

  • Kegagalan inisialisasi pelatihan: Masalah selama startup pekerjaan, seperti masalah penarikan gambar atau kesalahan inisialisasi, dapat diselesaikan saat mencoba lagi.

Dengan mengonfigurasi strategi coba ulang yang tepat, Anda dapat meningkatkan tingkat keberhasilan pekerjaan dan mengurangi kebutuhan akan intervensi manual, terutama untuk beban kerja pelatihan yang berjalan lama.

catatan

Pekerjaan layanan secara otomatis mencoba kembali jenis kegagalan tertentu, seperti kesalahan kapasitas yang tidak mencukupi, tanpa menghabiskan upaya percobaan ulang yang dikonfigurasi. Strategi coba ulang Anda terutama menangani jenis kegagalan lain seperti kesalahan algoritme atau masalah layanan.

Mengkonfigurasi strategi coba lagi

Strategi coba lagi pekerjaan layanan dikonfigurasi menggunakan ServiceJobRetryStrategy, yang mendukung penghitungan coba lagi sederhana dan logika coba lagi bersyarat.

Coba lagi konfigurasi

Strategi coba lagi yang paling sederhana menentukan jumlah upaya coba lagi yang harus dilakukan jika pekerjaan layanan gagal:

{ "retryStrategy": { "attempts": 3 } }

Konfigurasi ini memungkinkan pekerjaan layanan dicoba ulang hingga 3 kali jika gagal.

penting

attemptsNilai mewakili jumlah total kali pekerjaan dapat ditempatkan di RUNNABLE negara bagian, termasuk upaya awal. Nilai 3 berarti pekerjaan akan dicoba sekali pada awalnya, kemudian dicoba lagi hingga 2 kali tambahan jika gagal.

Coba lagi konfigurasi dengan evaluateOnExit

Anda dapat menggunakan evaluateOnExit parameter untuk menentukan kondisi di mana pekerjaan harus dicoba ulang atau dibiarkan gagal. Ini berguna ketika berbagai jenis kegagalan memerlukan penanganan yang berbeda.

evaluateOnExitArray dapat berisi hingga 5 strategi coba lagi, masing-masing menentukan tindakan (RETRYatauEXIT) dan kondisi berdasarkan alasan status:

{ "retryStrategy": { "attempts": 5, "evaluateOnExit": [ { "action": "RETRY", "onStatusReason": "Received status from SageMaker: InternalServerError*" }, { "action": "EXIT", "onStatusReason": "Received status from SageMaker: ValidationException*" }, { "action": "EXIT", "onStatusReason": "*" } ] } }

Konfigurasi ini:

  • Mencoba ulang pekerjaan yang gagal karena kesalahan server internal SageMaker AI

  • Segera gagal pekerjaan yang menemukan pengecualian validasi (kesalahan klien yang tidak akan diselesaikan dengan mencoba lagi)

  • Termasuk aturan catch-all untuk keluar untuk jenis kegagalan lainnya

Pencocokan pola alasan status

onStatusReasonParameter mendukung pencocokan pola hingga 512 karakter. Pola dapat menggunakan wildcard (*) dan cocok dengan alasan status yang dikembalikan oleh SageMaker AI.

Untuk pekerjaan layanan, pesan status dari SageMaker AI diawali dengan “Status diterima dari SageMaker:" untuk membedakannya dari pesan AWS Batch yang dihasilkan. Pola umum meliputi:

  • Received status from SageMaker: InternalServerError*- Cocokkan kesalahan layanan internal

  • Received status from SageMaker: ValidationException*- Cocokkan kesalahan validasi klien

  • Received status from SageMaker: ResourceLimitExceeded*- Kesalahan batas sumber daya yang cocok

  • *CapacityError*- Kegagalan terkait kapasitas yang cocok

Tip

Gunakan pencocokan pola tertentu untuk menangani jenis kesalahan yang berbeda dengan tepat. Misalnya, coba lagi kesalahan server internal tetapi segera gagal pada kesalahan validasi yang menunjukkan masalah dengan parameter pekerjaan.