Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Richiamo di un endpoint serverless
Per eseguire l'inferenza utilizzando un endpoint serverless, è necessario inviare una richiesta HTTP all'endpoint. Puoi utilizzare l'InvokeEndpointAPI o AWS CLI, che effettuano una POST richiesta per richiamare il tuo endpoint. Il numero massimo di richieste e le dimensioni payload della risposta per le chiamate serverless è di 4 MB. Per gli endpoint serverless:
Il modello deve essere scaricato e il server deve rispondere correttamente a
/pingentro 3 minuti.Il timeout a cui il container deve rispondere alle richieste di inferenza su
/invocationsè di 1 minuto.
Per richiamare un endpoint
L'esempio seguente utilizza l'AWS SDK for Python (Boto3) per chiamare l'InvokeEndpoint, devi usare SageMaker Runtime Runtime come client. Specifica i seguenti valori:
-
Per
endpoint_name, usare il nome dell'endpoint serverless in servizio che si desidera richiamare. -
Per
content_type, specificare il tipo MIME dei dati di input nel corpo della richiesta (ad esempio,application/json). -
Per
payload, usare il payload di richiesta per l'inferenza. Il payload deve essere in byte o un oggetto simile a un file.
runtime = boto3.client("sagemaker-runtime") endpoint_name = "<your-endpoint-name>" content_type = "<request-mime-type>" payload =<your-request-body>response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )