Elaborazione di più prompt con l’inferenza in batch - Amazon Bedrock

Elaborazione di più prompt con l’inferenza in batch

L’inferenza in batch consente di inviare più richieste e generare risposte in modo asincrono. Aiuta inoltre a elaborare con efficienza un gran numero di richieste, inviando una singola richiesta e generando le risposte in un bucket Amazon S3. Dopo aver definito gli input del modello nei file creati, i file verranno caricati in un bucket S3. A questo punto, invia una richiesta di inferenza in batch e specifica il bucket S3. Al termine del processo, puoi recuperare i file di output da S3. Puoi utilizzare l'inferenza in batch per migliorare le prestazioni dell'inferenza del modello su set di dati di grandi dimensioni.

Nota

L’inferenza in batch non è supportata per i modelli con provisioning.

Per informazioni generali sull’inferenza in batch, consulta le seguenti risorse: