Observabilitas - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Observabilitas

Pemantauan Kubernetes Standar

Anda dapat memantau Spaces menggunakan alat Kubernetes standar seperti kubectl describe dan log. kubectl

Memantau Status Ruang

# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>

Melihat Log Ruang

# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f

Memahami Kondisi Ruang

Spasi melaporkan empat jenis kondisi dalam statusnya:

  • Tersedia: True ketika Space siap digunakan. Semua sumber daya yang diperlukan (pod, layanan, penyimpanan) berjalan dan sehat.

  • Kemajuan: True ketika Space sedang dibuat, diperbarui, atau direkonsiliasi. Transisi ke False sekali stabil.

  • Terdegradasi: True ketika kesalahan terdeteksi dengan sumber daya Space. Periksa pesan kondisi untuk detailnya.

  • Berhenti: True ketika status Spasi yang diinginkan disetel keStopped. Pod dihentikan tetapi penyimpanan dan konfigurasi dipertahankan.

CloudWatch Integrasi Log

Anda dapat menginstal add-on CloudWatch logging untuk mengirim log Space ke Amazon CloudWatch Logs untuk pengelolaan dan retensi log terpusat. Ini memungkinkan agregasi log di beberapa cluster dan integrasi dengan CloudWatch Wawasan untuk kueri dan analisis. Semua kubectl log yang tersedia di atas dapat ditanyakan CloudWatch dengan plugin ini.

Referensi: https://docs.aws.amazon.com/sagemaker/ latest/dg/sagemaker- hyperpod-eks-cluster-observability - cluster-cloudwatch-ci .html.

HyperPod Pengaya Observabilitas

Add-on SageMaker HyperPod observabilitas menyediakan dasbor komprehensif untuk memantau pemanfaatan sumber daya Ruang. Setelah menginstal add-on, Anda dapat melihat Memori ruang dan penggunaan CPU di tab Tugas HyperPod konsol, yang menampilkan metrik di dasbor Grafana Terkelola Amazon.

Referensi: https://docs.aws.amazon.com/sagemaker/ latest/dg/sagemaker- hyperpod-observability-addon .html

Metrik kunci tersedia:

  • Pemanfaatan CPU dan memori per Space

  • Metrik GPU (jika ada)