Inferenza on demand su modelli personalizzati - Amazon Nova

Inferenza on demand su modelli personalizzati

L’inferenza su richiesta (on-demand, OD) ti consente di eseguire inferenze sui tuoi modelli Amazon Nova personalizzati senza mantenere gli endpoint di throughput forniti. Questo ti aiuta a ottimizzare i costi e a scalare in modo efficiente. Con l’inferenza on demand, i costi vengono addebitati in base all’utilizzo, misurato in token, sia in entrata che in uscita.

Requisiti di compatibilità

Si applicano i seguenti requisiti di compatibilità:

  • L’inferenza OD è supportata per i modelli di comprensione personalizzati Amazon Nova Pro, Lite e Micro. L’inferenza OD non è supportata per i modelli di generazione di contenuti personalizzati di Nova.

  • L’inferenza OD è supportata per i modelli di comprensione personalizzati di Amazon Nova addestrati dopo il 16 luglio 2025. I modelli personalizzati addestrati prima del 16 luglio 2025 non sono compatibili con l’inferenza OD.

  • Personalizzazione di Amazon Bedrock: l’inferenza OD è supportata per i modelli personalizzati con la personalizzazione di Amazon Bedrock e per i modelli studente che sono stati distillati da un modello insegnante con Amazon Bedrock.

  • Personalizzazione di SageMaker AI: per i modelli personalizzati in SageMaker AI, l’inferenza OD è supportata solo per i modelli ottimizzati con fine-tuning efficienti in termini di parametri (PEFT) quando il modello è ospitato su Amazon Bedrock. Ciò include l’ottimizzazione diretta delle preferenze più PEFT. L’inferenza OD non è supportata per i modelli con fine-tuning completo.

Addestramento dei modelli e inferenza

Quando addestri un nuovo modello Amazon Nova Pro, Lite o Micro personalizzato su Amazon Bedrock o SageMaker AI utilizzando PEFT dopo il 16 luglio 2025, il modello sarà automaticamente compatibile con le opzioni di inferenza fornite e on demand. Puoi selezionare il metodo di inferenza preferito quando implementi il modello.

Per utilizzare l’inferenza OD con un modello addestrato dopo il 16 luglio 2025, completa i seguenti passaggi:

  1. Crea un nuovo processo di fine-tuning con l’API di personalizzazione Amazon Bedrock o l’API di personalizzazione di SageMaker AI.

  2. Implementa il modello appena addestrato su Amazon Bedrock utilizzando l’API CreateCustomModel.

  3. Implementa per l’inferenza on demand utilizzando l’API CustomModelDeployment.

Limiti di frequenza

I seguenti limiti di richieste al minuto (RPM) e token al minuto (TPM) si applicano alle richieste di inferenza on demand:

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 2,000 4,000,000
Amazon Nova Lite 2,000 4,000,000
Amazon Nova Pro 200 800,000

Per saperne di più sulle quote disponibili per Amazon Nova, consulta Quote per Amazon Nova.

Latenza

Puoi aspettarti una differenza di latenza end-to-end (ovvero, tempo al primo token [Time To First Token, TTFT]) del 20-55% tra l’invocazione del modello di base e l’adattatore. Il valore esatto di latenza varia in base alle dimensioni del modello ed è in linea con gli standard del settore.