Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione di lavori utilizzando la SageMaker HyperPod CLI
Per eseguire i processi, assicurati di aver installato Kubeflow Training Operator nei cluster EKS. Per ulteriori informazioni, consulta Installazione di pacchetti sul cluster Amazon EKS con Helm.
Esegui il hyperpod get-cluster comando per ottenere l'elenco dei cluster disponibili. HyperPod
hyperpod get-clusters
Esegui hyperpod connect-cluster per configurare la SageMaker HyperPod CLI con il cluster EKS che orchestra il cluster. HyperPod
hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>
Utilizza il comando hyperpod start-job per eseguire un processo. Il comando seguente mostra il comando con le opzioni richieste.
hyperpod start-job \ --job-name<job-name>--image<docker-image-uri>--entry-script<entrypoint-script>--instance-type<ml.instance.type>--node-count<integer>
Il comando hyperpod start-job include anche varie opzioni come la ripresa automatica e la pianificazione dei processi.
Abilitazione della ripresa automatica del processo
Il comando hyperpod start-job include anche le opzioni seguenti per specificare la ripresa automatica del processo. Per abilitare la ripresa automatica del processo in modo che funzioni con le funzionalità di resilienza del SageMaker HyperPod nodo, è necessario impostare il valore dell'opzione su. restart-policy OnFailure Il processo deve essere eseguito nel namespace kubeflow o in uno dei namespace con il prefisso hyperpod.
-
[--auto-resume <bool>] #Facoltativo: abilita la ripresa automatica del processo in caso di errore. L’impostazione predefinita è false.
-
[--max-retry <int>] #Facoltativo: se la ripresa automatica è impostata su true, il valore predefinito di max-retry è 1, se non specificato.
-
<enum>[--restart-policy] #Optional, politica di riavvio. PyTorchJob I valori disponibili sono
Always,OnFailure,NeveroExitCode. Il valore predefinito èOnFailure.
hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure
Esecuzione di processi con opzioni di pianificazione
Il comando hyperpod start-job offre le seguenti opzioni per configurare il processo con meccanismi di accodamento.
Nota
È necessario che Kueue
-
[--scheduler-type <enum>] #Facoltativo: specifica il tipo di scheduler. Il valore predefinito è
Kueue. -
[--queue-name <string>] #Facoltativo: specifica il nome della coda locale
o della coda del cluster da inviare insieme al processo. La coda deve essere creata dagli amministratori del cluster utilizzando CreateComputeQuota. -
[--priority <string>] #Facoltativo: specifica il nome della classe di priorità del carico di lavoro
, che deve essere creata dagli amministratori del cluster.
hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high
Esecuzione dei processi da un file di configurazione
In alternativa, puoi creare un file di configurazione del processo che contenga tutti i parametri richiesti dal processo, quindi passarlo al comando hyperpod
start-job utilizzando l’opzione --config-file. In questo caso:
-
Crea il file di configurazione del processo con i parametri richiesti. Fate riferimento al file di configurazione del lavoro nell' GitHub archivio SageMaker HyperPod CLI per un file di configurazione di base.
-
Avvia il processo utilizzando il file di configurazione come segue.
hyperpod start-job --config-file/path/to/test_job.yaml
Suggerimento
Per un elenco completo dei parametri del hyperpod start-job comando, consultate la sezione Invio di un JobREADME.md repository SageMaker HyperPod GitHub CLI.