

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Opzioni di inferenza in Amazon SageMaker AI
<a name="deploy-model-options"></a>

SageMaker L'intelligenza artificiale offre diverse opzioni di inferenza in modo da poter scegliere l'opzione più adatta al tuo carico di lavoro:
+ [Inferenza in tempo reale](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html): *l'inferenza in tempo reale* è ideale per inferenze online che hanno requisiti di bassa latenza o di elevati di throughput. Utilizza l'inferenza in tempo reale per un endpoint persistente e completamente gestito (API REST) in grado di gestire un traffico sostenuto, supportato dal tipo di istanza che preferisci. L’inferenza in tempo reale può supportare payload di dimensioni fino a 25 MB e tempi di elaborazione di 60 secondi per le risposte normali e di 8 minuti per le risposte in streaming.
+ Inferenza [senza server: l'inferenza](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html) *serverless è ideale quando si hanno modelli di traffico* intermittenti o imprevedibili. SageMaker L'intelligenza artificiale gestisce tutta l'infrastruttura sottostante, quindi non è necessario gestire istanze o politiche di scalabilità. Verrà effettuato l'addebito solo per l'uso effettivo e non per il tempo di inattività. Può supportare payload di dimensioni fino a 4 MB e tempi di elaborazione fino a 60 secondi.
+ [Trasformazione in batch](https://docs.aws.amazon.com/sagemaker/latest/dg/batch-transform.html): la *trasformazione in batch* è adatta per l'elaborazione offline quando sono disponibili in anticipo grandi quantità di dati e non è necessario un endpoint persistente. Inoltre puoi utilizzare la trasformazione in batch per la pre-elaborazione dei set di dati. Può supportare set di dati di grandi dimensioni e con tempi GBs di elaborazione di giorni.
+ [Inferenza asincrona](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference.html): *l'inferenza asincrona* è ideale quando si desidera mettere in coda le richieste e disporre di payload di grandi dimensioni con tempi di elaborazione lunghi. L'inferenza asincrona può supportare payload fino a 1 GB e tempi di elaborazione lunghi fino a un'ora. Inoltre puoi ridimensionare l'endpoint a 0 quando non ci sono richieste da elaborare.