Vantaggi Utilizzo dell'inferenza su richiesta Prezzi Quote e limiti

Inferenza on demand

L'inferenza su richiesta fornisce l'accesso senza server ai modelli Amazon Nova senza richiedere capacità predisposta. Questa modalità si ridimensiona automaticamente per gestire il carico di lavoro e gli addebiti in base all'utilizzo.

Vantaggi

L'inferenza su richiesta offre diversi vantaggi:

Nessuna pianificazione della capacità: scalabilità automatica per soddisfare la domanda
Pagamento in base all'utilizzo: viene addebitato solo per i token elaborati
Disponibilità immediata: non è richiesto alcun tempo di approvvigionamento o riscaldamento
Conveniente: ideale per carichi di lavoro variabili o imprevedibili

Utilizzo dell'inferenza su richiesta

L'inferenza su richiesta è la modalità predefinita per i modelli Amazon Nova. È sufficiente specificare l'ID del modello quando si effettuano chiamate API:


import boto3

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

response = bedrock.converse(
    modelId='us.amazon.nova-2-lite-v1:0',
    messages=[
        {
            'role': 'user',
            'content': [{'text': 'Hello, Nova!'}]
        }
    ]
)

# Print the response text
content_list = response["output"]["message"]["content"]
text = next((item["text"] for item in content_list if "text" in item), None)
if text is not None:
    print(text)

Prezzi

L'inferenza su richiesta viene fatturata in base al numero di token di input e output elaborati. Per informazioni sui prezzi correnti, consulta i prezzi di Amazon Bedrock.

Quote e limiti

L'inferenza su richiesta ha quote predefinite che variano in base al modello e alla regione. Per richiedere aumenti delle quote, usa la console Service Quotas.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo degli incorporamenti Amazon Nova

Utilizzo delle funzionalità Nova