Inferenza on demand su modelli personalizzati
L’inferenza su richiesta (on-demand, OD) ti consente di eseguire inferenze sui tuoi modelli Amazon Nova personalizzati senza mantenere gli endpoint di throughput forniti. Questo ti aiuta a ottimizzare i costi e a scalare in modo efficiente. Con l’inferenza on demand, i costi vengono addebitati in base all’utilizzo, misurato in token, sia in entrata che in uscita.
Requisiti di compatibilità
Si applicano i seguenti requisiti di compatibilità:
-
L’inferenza OD è supportata per i modelli di comprensione personalizzati Amazon Nova Pro, Lite e Micro. L’inferenza OD non è supportata per i modelli di generazione di contenuti personalizzati di Nova.
-
L’inferenza OD è supportata per i modelli di comprensione personalizzati di Amazon Nova addestrati dopo il 16 luglio 2025. I modelli personalizzati addestrati prima del 16 luglio 2025 non sono compatibili con l’inferenza OD.
-
Personalizzazione di Amazon Bedrock: l’inferenza OD è supportata per i modelli personalizzati con la personalizzazione di Amazon Bedrock e per i modelli studente che sono stati distillati da un modello insegnante con Amazon Bedrock.
-
Personalizzazione di SageMaker AI: per i modelli personalizzati in SageMaker AI, l’inferenza OD è supportata solo per i modelli ottimizzati con fine-tuning efficienti in termini di parametri (PEFT) quando il modello è ospitato su Amazon Bedrock. Ciò include l’ottimizzazione diretta delle preferenze più PEFT. L’inferenza OD non è supportata per i modelli con fine-tuning completo.
Addestramento dei modelli e inferenza
Quando addestri un nuovo modello Amazon Nova Pro, Lite o Micro personalizzato su Amazon Bedrock o SageMaker AI utilizzando PEFT dopo il 16 luglio 2025, il modello sarà automaticamente compatibile con le opzioni di inferenza fornite e on demand. Puoi selezionare il metodo di inferenza preferito quando implementi il modello.
Per utilizzare l’inferenza OD con un modello addestrato dopo il 16 luglio 2025, completa i seguenti passaggi:
-
Crea un nuovo processo di fine-tuning con l’API di personalizzazione Amazon Bedrock o l’API di personalizzazione di SageMaker AI.
-
Implementa il modello appena addestrato su Amazon Bedrock utilizzando l’API CreateCustomModel.
-
Implementa per l’inferenza on demand utilizzando l’API CustomModelDeployment.
Limiti di frequenza
I seguenti limiti di richieste al minuto (RPM) e token al minuto (TPM) si applicano alle richieste di inferenza on demand:
| Base Model for Custom Model | RPM per Custom Model Deployment | TPM per Custom Model Deployment |
|---|---|---|
| Amazon Nova Micro | 2,000 | 4,000,000 |
| Amazon Nova Lite | 2,000 | 4,000,000 |
| Amazon Nova Pro | 200 | 800,000 |
Per saperne di più sulle quote disponibili per Amazon Nova, consulta Quote per Amazon Nova.
Latenza
Puoi aspettarti una differenza di latenza end-to-end (ovvero, tempo al primo token [Time To First Token, TTFT]) del 20-55% tra l’invocazione del modello di base e l’adattatore. Il valore esatto di latenza varia in base alle dimensioni del modello ed è in linea con gli standard del settore.