Esecuzione di lavori utilizzando la SageMaker HyperPod CLI - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di lavori utilizzando la SageMaker HyperPod CLI

Per eseguire i processi, assicurati di aver installato Kubeflow Training Operator nei cluster EKS. Per ulteriori informazioni, consulta Installazione di pacchetti sul cluster Amazon EKS con Helm.

Esegui il hyperpod get-cluster comando per ottenere l'elenco dei cluster disponibili. HyperPod

hyperpod get-clusters

Esegui hyperpod connect-cluster per configurare la SageMaker HyperPod CLI con il cluster EKS che orchestra il cluster. HyperPod

hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

Utilizza il comando hyperpod start-job per eseguire un processo. Il comando seguente mostra il comando con le opzioni richieste.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

Il comando hyperpod start-job include anche varie opzioni come la ripresa automatica e la pianificazione dei processi.

Abilitazione della ripresa automatica del processo

Il comando hyperpod start-job include anche le opzioni seguenti per specificare la ripresa automatica del processo. Per abilitare la ripresa automatica del processo in modo che funzioni con le funzionalità di resilienza del SageMaker HyperPod nodo, è necessario impostare il valore dell'opzione su. restart-policy OnFailure Il processo deve essere eseguito nel namespace kubeflow o in uno dei namespace con il prefisso hyperpod.

  • [--auto-resume <bool>] #Facoltativo: abilita la ripresa automatica del processo in caso di errore. L’impostazione predefinita è false.

  • [--max-retry <int>] #Facoltativo: se la ripresa automatica è impostata su true, il valore predefinito di max-retry è 1, se non specificato.

  • <enum>[--restart-policy] #Optional, politica di riavvio. PyTorchJob I valori disponibili sono Always, OnFailure, Never o ExitCode. Il valore predefinito è OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Esecuzione di processi con opzioni di pianificazione

Il comando hyperpod start-job offre le seguenti opzioni per configurare il processo con meccanismi di accodamento.

Nota

È necessario che Kueue sia installato nel cluster EKS. Se non è installato, segui le istruzioni in Configurazione per la governance SageMaker HyperPod delle attività.

  • [--scheduler-type <enum>] #Facoltativo: specifica il tipo di scheduler. Il valore predefinito è Kueue.

  • [--queue-name <string>] #Facoltativo: specifica il nome della coda locale o della coda del cluster da inviare insieme al processo. La coda deve essere creata dagli amministratori del cluster utilizzando CreateComputeQuota.

  • [--priority <string>] #Facoltativo: specifica il nome della classe di priorità del carico di lavoro, che deve essere creata dagli amministratori del cluster.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Esecuzione dei processi da un file di configurazione

In alternativa, puoi creare un file di configurazione del processo che contenga tutti i parametri richiesti dal processo, quindi passarlo al comando hyperpod start-job utilizzando l’opzione --config-file. In questo caso:

  1. Crea il file di configurazione del processo con i parametri richiesti. Fate riferimento al file di configurazione del lavoro nell' GitHub archivio SageMaker HyperPod CLI per un file di configurazione di base.

  2. Avvia il processo utilizzando il file di configurazione come segue.

    hyperpod start-job --config-file /path/to/test_job.yaml
Suggerimento

Per un elenco completo dei parametri del hyperpod start-job comando, consultate la sezione Invio di un Job nel README.md repository SageMaker HyperPod GitHub CLI.