Elaborazione di più prompt con l’inferenza in batch

L’inferenza in batch consente di inviare più richieste e generare risposte in modo asincrono. Aiuta inoltre a elaborare con efficienza un gran numero di richieste, inviando una singola richiesta e generando le risposte in un bucket Amazon S3. Dopo aver definito gli input del modello nei file creati, i file verranno caricati in un bucket S3. A questo punto, invia una richiesta di inferenza in batch e specifica il bucket S3. Al termine del processo, puoi recuperare i file di output da S3. Puoi utilizzare l'inferenza in batch per migliorare le prestazioni dell'inferenza del modello su set di dati di grandi dimensioni.

Nota

L’inferenza in batch non è supportata per i modelli con provisioning.

Per informazioni generali sull’inferenza in batch, consulta le seguenti risorse:

Per verificare i costi dell’inferenza in batch, consulta Prezzi di Amazon Bedrock.
Per visualizzare le quote per l’inferenza in batch, consulta Endpoint e quote di Amazon Bedrock in Riferimenti generali di AWS.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Genera risposte utilizzando OpenAI APIs

Regioni e modelli supportati