

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Parametri degli endpoint di SageMaker AI per l’inferenza di modelli di grandi dimensioni
<a name="large-model-inference-hosting"></a>

 Puoi personalizzare i seguenti parametri per facilitare l’inferenza di modelli di grandi dimensioni (LMI) a bassa latenza con SageMaker AI: 
+  **Dimensione massima del volume Amazon EBS sull'istanza (`VolumeSizeInGB`)**: se la dimensione del modello è superiore a 30 GB e stai utilizzando un'istanza senza un disco locale, devi aumentare questo parametro in modo che sia leggermente superiore alla dimensione del tuo modello. 
+  **Quota di timeout del controllo dell’integrità (`ContainerStartupHealthCheckTimeoutInSeconds`)**: se il container è configurato correttamente e i log di CloudWatch indicano un timeout per il controllo dell’integrità, devi aumentare questa quota in modo che il container abbia abbastanza tempo per rispondere ai controlli dell’integrità. 
+  **Quota di timeout per il download del modello (`ModelDataDownloadTimeoutInSeconds`)**: se la dimensione del modello è superiore a 40 GB, devi aumentare questa quota per avere tempo sufficiente per scaricare il modello da Amazon S3 sull’istanza. 

Il seguente frammento di codice mostra come configurare in modo programmatico i parametri sopra menzionati. Sostituisci il {{testo segnaposto in corsivo}} nell’esempio con le tue informazioni. 

```
import boto3

aws_region = "{{aws-region}}"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "{{endpoint-name}}"

# Create an endpoint config name.
endpoint_config_name = "{{endpoint-config-name}}"

# The name of the model that you want to host.
model_name = "{{the-name-of-your-model}}"

instance_type = "{{instance-type}}"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "{{variant1}}", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": {{1}}, # Number of instances to launch initially.
            "VolumeSizeInGB": {{256}}, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": {{1800}}, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": {{1800}}, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)
```

 Per ulteriori informazioni sulle chiavi per `ProductionVariants`, consulta [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html). 

Per esempi che dimostrano come ottenere un’inferenza a bassa latenza con modelli di grandi dimensioni, consulta [Generative AI Inference Examples on Amazon SageMaker AI](https://github.com/aws-samples/sagemaker-genai-hosting-examples/tree/main) nel repository GitHub aws-samples. 