Opzioni di inferenza in Amazon SageMaker AI - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni di inferenza in Amazon SageMaker AI

Grazie alle diverse opzioni di inferenza offerte, SageMaker AI consente di trovare quella più adatta al proprio carico di lavoro.

  • Inferenza in tempo reale: l'inferenza in tempo reale è ideale per inferenze online che hanno requisiti di bassa latenza o di elevati di throughput. Utilizza l'inferenza in tempo reale per un endpoint persistente e completamente gestito (API REST) in grado di gestire un traffico sostenuto, supportato dal tipo di istanza che preferisci. L’inferenza in tempo reale può supportare payload di dimensioni fino a 25 MB e tempi di elaborazione di 60 secondi per le risposte normali e di 8 minuti per le risposte in streaming.

  • Inferenza serverless: l'inferenza serverless è ideale quando si hanno modelli di traffico intermittenti o imprevedibili. SageMaker AI gestisce tutta l’infrastruttura sottostante, quindi non è necessario gestire istanze o policy di dimensionamento. Verrà effettuato l'addebito solo per l'uso effettivo e non per il tempo di inattività. Può supportare payload di dimensioni fino a 4 MB e tempi di elaborazione fino a 60 secondi.

  • Trasformazione in batch: la trasformazione in batch è adatta per l'elaborazione offline quando sono disponibili in anticipo grandi quantità di dati e non è necessario un endpoint persistente. Inoltre puoi utilizzare la trasformazione in batch per la pre-elaborazione dei set di dati. Può supportare set di dati di grandi dimensioni di GB e tempi di elaborazione di giorni.

  • Inferenza asincrona: l'inferenza asincrona è ideale quando si desidera mettere in coda le richieste e disporre di payload di grandi dimensioni con tempi di elaborazione lunghi. L'inferenza asincrona può supportare payload fino a 1 GB e tempi di elaborazione lunghi fino a un'ora. Inoltre puoi ridimensionare l'endpoint a 0 quando non ci sono richieste da elaborare.