Elaborazione di più prompt con l’inferenza in batch
L’inferenza in batch consente di inviare più richieste e generare risposte in modo asincrono. Aiuta inoltre a elaborare con efficienza un gran numero di richieste, inviando una singola richiesta e generando le risposte in un bucket Amazon S3. Dopo aver definito gli input del modello nei file creati, i file verranno caricati in un bucket S3. A questo punto, invia una richiesta di inferenza in batch e specifica il bucket S3. Al termine del processo, puoi recuperare i file di output da S3. Puoi utilizzare l'inferenza in batch per migliorare le prestazioni dell'inferenza del modello su set di dati di grandi dimensioni.
Nota
L’inferenza in batch non è supportata per i modelli con provisioning.
Per informazioni generali sull’inferenza in batch, consulta le seguenti risorse:
-
Per verificare i costi dell’inferenza in batch, consulta Prezzi di Amazon Bedrock
. -
Per visualizzare le quote per l’inferenza in batch, consulta Endpoint e quote di Amazon Bedrock in Riferimenti generali di AWS.