Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker Guida alla risoluzione dei problemi di Python SDK
Puoi utilizzare l'SDK SageMaker Python per interagire con Amazon SageMaker AI all'interno dei tuoi script Python o dei notebook Jupyter. Nonostante l’SDK fornisca un flusso di lavoro semplificato, potresti riscontrare diverse eccezioni o errori. Questa guida alla risoluzione dei problemi ha lo scopo di aiutarti a comprendere e risolvere i problemi più comuni che potrebbero sorgere quando lavori con SageMaker Python SDK. Copre scenari relativi alla creazione di job di addestramento, processi di elaborazione ed endpoint, nonché pratiche generali di gestione delle eccezioni. Seguendo le indicazioni fornite nelle sezioni seguenti, puoi diagnosticare e risolvere in modo efficace i problemi più comuni.
L'SDK SageMaker Python funge da wrapper per le operazioni API di basso livello. SageMaker Il ruolo IAM che stai utilizzando per accedere all’SDK deve poter accedere alle operazioni sottostanti. Aggiungere l' SageMaker AI Full Access Policy al tuo ruolo IAM è il modo più semplice per assicurarti di avere le autorizzazioni per utilizzare l'SDK Python SageMaker . Per ulteriori informazioni sull' SageMaker AI Full Access Policy, consulta Amazon SageMaker AI Full Access.
Pur essendo meno conveniente, la scelta di fornire autorizzazioni più granulari è un approccio sicuro all’uso dell’SDK. Ciascuna delle sezioni seguenti contiene informazioni sulle autorizzazioni richieste.
Creazione di un job di addestramento
Importante
Se non stai aggiungendo la policy SageMaker AI Full Access al tuo ruolo IAM, deve disporre delle autorizzazioni per chiamare le DescribeTrainingJoboperazioni CreateTrainingJoband.
Richiede inoltre le autorizzazioni per:
-
Accedi ai input/output dati in S3
-
Esegui EC2 istanze Amazon
-
Parametri dei log CloudWatch
Se il tuo processo di SageMaker formazione deve accedere alle risorse in un Amazon Virtual Private Cloud (Amazon VPC), assicurati di configurare le impostazioni VPC e i gruppi di sicurezza necessari quando crei il processo di elaborazione.
Quando crei un job di addestramento, potresti imbatterti in eccezioni botocore.exceptions.ClientError o ValueError.
Aggiornamento di un job di addestramento.
Importante
Se non stai aggiungendo l' SageMaker AI Managed Policy al tuo ruolo IAM, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:
-
s3:GetObject: fornisce le autorizzazioni per leggere gli artefatti del modello dai bucket Amazon S3 -
s3:PutObject: se applicabile, fornisce le autorizzazioni per scrivere aggiornamenti negli artefatti del modello -
iam:GetRole: fornisce le autorizzazioni per ottenere informazioni sul ruolo IAM necessario per eseguire il job di addestramento. -
sagemaker:UpdateTrainingJob— Fornisce le autorizzazioni per modificare i lavori di formazione utilizzando l'UpdateTrainingJoboperazione. -
logs:PutLogEvents— Fornisce le autorizzazioni per scrivere log nei log di Amazon durante il CloudWatch processo di aggiornamento.
Quando aggiorni un job di addestramento, potresti imbatterti in eccezioni botocore.exceptions.ParamValidationError o botocore.exceptions.ClientError.
Creazione un processo di elaborazione
Importante
Se non stai aggiungendo l' SageMaker AI Managed Policy al tuo ruolo IAM, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:
-
sagemaker:CreateProcessingJob: fornisce le autorizzazioni per creare un processo di elaborazione -
sagemaker:DescribeProcessingJob: fornisce le autorizzazioni per ottenere informazioni su un processo di elaborazione -
s3:GetObject: fornisce le autorizzazioni per leggere gli artefatti del modello dai bucket Amazon S3 -
s3:PutObject: se applicabile, fornisce le autorizzazioni per scrivere aggiornamenti negli artefatti del modello -
logs:PutLogEvents— Fornisce le autorizzazioni per scrivere i log nei log di Amazon durante il CloudWatch processo di aggiornamento.
Se il processo di elaborazione deve accedere a risorse all’interno di un Amazon Virtual Private Cloud, devi specificarne security_group_ids e subnets quando crei lo strumento di stima. Per un esempio di come accedere alle risorse all’interno di un Amazon VPC, consulta Secure Training and Inference with VPC
Quando crei un processo di elaborazione, potresti imbatterti in errori ValueError, UnexpectedStatusException o botocore.exceptions.ClientError.
Creazione di un endpoint
Importante
Se non stai aggiungendo l' SageMaker AI Managed Policy al tuo ruolo IAM, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:
-
sagemaker:CreateModel: fornisce le autorizzazioni per creare il modello che stai implementando sull’endpoint -
sagemaker:CreateEndpointConfig: fornisce le autorizzazioni per creare una configurazione dell’endpoint che definisce il comportamento dell’endpoint, ad esempio il tipo e il numero di istanze -
sagemaker:CreateEndpoint: fornisce le autorizzazioni per creare la configurazione dell’endpoint utilizzando l’endpoint specificato
Inoltre, sono necessarie le autorizzazioni per descrivere ed elencare i modelli, gli endpoint e le configurazioni degli endpoint.
Quando crei un endpoint, potresti imbatterti in un errore UnexpectedStatusException o botocore.exceptions.ClientError.
Di seguito è riportato un esempio di UnexpectedStatusException:
UnexpectedStatusException: Error hosting endpoint gpt2-large-2024-07-03-15-28-20-448: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint.. Try changing the instance type or reference the troubleshooting page https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-troubleshooting.html
Il messaggio di errore ti dice di controllare i CloudWatch log di Amazon. Utilizza la procedura seguente per controllare i log.
Per controllare i log CloudWatch
-
Passa alla console Amazon SageMaker AI
. -
Nel riquadro di navigazione a sinistra, scegli Endpoint.
-
Seleziona l’endpoint in cui si è verificato l’errore.
-
Nella pagina dei dettagli dell'endpoint, scegli Visualizza accessi. CloudWatch
Dopo aver trovato i log, cerca il problema specifico. Di seguito è riportato un esempio di registro: CloudWatch
NotImplementedError: gptq quantization is not supported for AutoModel, you can try to quantize it with text-generation-server quantize ORIGINAL_MODEL_ID NEW_MODEL_ID
Per informazioni sulla risoluzione di botocore.exceptions.ClientError, consulta Guida alla gestione delle eccezioni.
Aggiornamento di un endpoint
Importante
Se non stai aggiungendo l' SageMaker AI Managed Policy al tuo ruolo IAM, devi concedere al ruolo l'accesso alle seguenti autorizzazioni:
-
sagemaker:UpdateEndpoint: fornisce le autorizzazioni per aggiornare un endpoint esistente, ad esempio per modificare il tipo o il numero delle istanze dell’endpoint -
sagemaker:UpdateEndpointWeightsAndCapacities: fornisce le autorizzazioni per creare una configurazione dell’endpoint che definisce il comportamento dell’endpoint, ad esempio il tipo e il numero di istanze -
sagemaker:DescribeEndpoint: fornisce le autorizzazioni per descrivere la configurazione corrente dell’endpoint, spesso richiesta prima dell’aggiornamento
Inoltre, potrebbero essere necessarie le autorizzazioni per descrivere ed elencare gli endpoint e le configurazioni degli endpoint.
Puoi imbatterti in un errore ValueError come il seguente:
ValueError: Endpoint with name 'abc' does not exist; please use an existing endpoint name
L'errore indica che il nome dell'endpoint specificato non corrisponde a nessun endpoint esistente nel tuo account. AWS Utilizza la procedura seguente per risolvere l’errore:
Per risolvere un errore di valore
-
Utilizza questo codice per elencare tutti gli endpoint:
import sagemaker sagemaker_session = sagemaker.Session() # List all endpoints endpoints = sagemaker_session.sagemaker_client.list_endpoints() print(endpoints) -
Verifica che l’endpoint che hai specificato per la funzione
update_endpointsia nell’elenco. -
Assicurati di operare nella regione corretta AWS . SageMaker Gli endpoint AI sono specifici della regione.
-
Assicurati che il ruolo IAM che stai utilizzando disponga delle autorizzazioni per elencare, descrivere o aggiornare gli endpoint.
Guida alla gestione delle eccezioni
Se non riesci a trovare informazioni che ti aiutino a risolvere un problema specifico, gli esempi di codice seguenti potrebbero darti qualche idea su come gestire le eccezioni.
Di seguito è riportato un esempio generico che puoi utilizzare per rilevare la maggior parte delle eccezioni.
import sagemaker from botocore.exceptions import ParamValidationError, ClientError try: sagemaker.some_api_call(SomeParam='some_param') except ClientError as error: # Put your error handling logic here raise error except ParamValidationError as error: raise ValueError('The parameters you provided are incorrect: {}'.format(error)) except ValueError as error: # Catch generic ValueError exceptions
Esistono due categorie principali di errori:
-
Errori specifici dell'SDK SageMaker Python
-
Errori specifici del servizio sottostante AWS
Gli errori specifici del AWS servizio sottostante sono sempre botocore.exceptions.ClientError eccezioni. botocore.exceptions.ClientError ha un oggetto Error e un oggetto ResponseMetadata. Di seguito viene mostrato il modello di un errore del client:
{ 'Error': { 'Code': 'SomeServiceException', 'Message': 'Details/context around the exception or error' }, 'ResponseMetadata': { 'RequestId': '1234567890ABCDEF', 'HostId': 'host ID data will appear here as a hash', 'HTTPStatusCode': 400, 'HTTPHeaders': {'header metadata key/values will appear here'}, 'RetryAttempts': 0 } }
Di seguito è riportato un esempio della gestione specifica degli errori che puoi eseguire con botocore.exceptions.ClientError:
try: sagemaker.some_api_call(SomeParam='some_param') except botocore.exceptions.ClientError as err: if err.response['Error']['Code'] == 'InternalError': # Generic error # We grab the message, request ID, and HTTP code to give to customer support print('Error Message: {}'.format(err.response['Error']['Message'])) print('Request ID: {}'.format(err.response['ResponseMetadata']['RequestId'])) print('Http code: {}'.format(err.response['ResponseMetadata']['HTTPStatusCode'])) raise err else if err.response['Error']['Code'] == 'ValidationException': raise ValueError(err.response['Error']['Message'])
Per ulteriori informazioni su come gestire le ClientError eccezioni, consulta Analisi delle risposte agli errori e rilevamento delle eccezioni da. Servizi AWS