View a markdown version of this page

Inferenza on demand - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Inferenza on demand

L'inferenza su richiesta fornisce l'accesso senza server ai modelli Amazon Nova senza richiedere capacità predisposta. Questa modalità si ridimensiona automaticamente per gestire il carico di lavoro e gli addebiti in base all'utilizzo.

Vantaggi

L'inferenza su richiesta offre diversi vantaggi:

  • Nessuna pianificazione della capacità: scalabilità automatica per soddisfare la domanda

  • Pagamento in base all'utilizzo: viene addebitato solo per i token elaborati

  • Disponibilità immediata: non è richiesto alcun tempo di approvvigionamento o riscaldamento

  • Conveniente: ideale per carichi di lavoro variabili o imprevedibili

Utilizzo dell'inferenza su richiesta

L'inferenza su richiesta è la modalità predefinita per i modelli Amazon Nova. È sufficiente specificare l'ID del modello quando si effettuano chiamate API:

import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)

Prezzi

L'inferenza su richiesta viene fatturata in base al numero di token di input e output elaborati. Per informazioni sui prezzi correnti, consulta i prezzi di Amazon Bedrock.

Quote e limiti

L'inferenza su richiesta ha quote predefinite che variano in base al modello e alla regione. Per richiedere aumenti delle quote, usa la console Service Quotas.