Funzionalità Modelli e istanze supportati Componenti di inferenza AWS Regioni supportate Immagini dei container supportate Best practice Supporto

SageMaker Inferenza

I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.

SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker

Importante

Nell'inferenza sono supportati solo modelli e LoRA-merged modelli personalizzati completi. SageMaker Per i modelli LoRa e i modelli base non uniti, usa Amazon Bedrock.

Funzionalità

Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:

Funzionalità del modello

Generazione di testo

Implementazione e scalabilità

Real-time endpoint con selezione personalizzata dell'istanza
Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta Automately Scale Amazon SageMaker Models.
Supporto API di streaming per la generazione di token in tempo reale

Monitoraggio e ottimizzazione

CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi
Ottimizzazione Zone-aware della latenza di disponibilità tramite configurazione VPC

Strumenti di sviluppo

AWS CLI supporto: per ulteriori informazioni, consulta AWS CLI Command Reference for. SageMaker
Integrazione con i notebook tramite supporto SDK

Modelli e istanze supportati

Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. CONTEXT_LENGTH MAX_CONCURRENCY

CONTEXT_LENGTH— Lunghezza totale massima del token (ingresso+output) per richiesta
MAX_CONCURRENCY— Numero massimo di richieste simultanee che l'endpoint servirà

La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT_LENGTH:

Modello	Tipo di istanza	Configurazioni supportate	Quantizzazione FP8 richiesta
Amazon Nova Micro	ml.g5.12xlarge	LUNGHEZZA_CONTESTO: 4000, CONCORRENZA MASSIMA: 12 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6	No
	ml.g5.24xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8	No
	ml.g6e.xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2	No
	ml.g6e.2xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2	No
	ml.g6e.4xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 4	No
	ml.g6.12xlarge	LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 12 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6	No
	ml.g6.24xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8	No
	ml.g6.48xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 12	No
	ml.p5.48xlarge	LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128 LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8	No
Amazon Nova Lite	ml.g6.12xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2	Sì: abilitato per impostazione predefinita
	ml.g6.24xlarge	LUNGHEZZA DEL CONTESTO: 8000, CONCORRENZA MASSIMA: 4	Sì: abilitato per impostazione predefinita
	ml.g6.48xlarge	LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 16 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8	No
	ml.p5.48xlarge	LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128 LUNGHEZZA_CONTESTO: 60000, CONCORRENZA MASSIMA: 8	No
Nova 2 Lite	ml.g6.48xlarge	LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8	Sì: abilitato per impostazione predefinita
Nova 2 Lite	ml.p5.48xlarge	LUNGHEZZA DEL CONTESTO: 16000, CONCORRENZA MASSIMA: 128 LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8 LUNGHEZZA_CONTESTO: 256000, CONCORRENZA MASSIMA: 2	No

Nota

Nei casi in cui è richiesta la quantizzazione FP8, sarà abilitata per impostazione predefinita.

I valori MAX_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker

Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:

CONTEXT_LENGTH=2000MAX_CONCURRENCY=12, → Valido
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rifiutato (il limite di concorrenza è 6 alla lunghezza del contesto 8000)
CONTEXT_LENGTH=8000, → Valido MAX_CONCURRENCY=4
CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Valido
CONTEXT_LENGTH=10000→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)

Componenti di inferenza

Puoi distribuire modelli Amazon Nova utilizzando componenti di SageMaker inferenza, che consentono di ospitare più modelli su un unico endpoint e ottimizzare l'utilizzo delle risorse. I componenti di inferenza consentono di specificare le risorse di calcolo (CPU, memoria, GPU) necessarie per ciascun modello, abilitando un hosting multimodello efficiente su un'infrastruttura condivisa.

La tabella seguente elenca i requisiti minimi di risorse di calcolo per ogni modello Amazon Nova quando si utilizzano componenti di inferenza:

Modello	Principali core della CPU	Memoria minima (MB)	Numero minimo di GPU
Amazon Nova Micro	15	25000	4
Amazon Nova Lite	20	35000	4
Nova 2 Lite	20	100000	4

Nota

I ComputeResourceRequirements valori devono soddisfare o superare i requisiti minimi elencati nella tabella precedente per il modello che si sta distribuendo. L'utilizzo di valori inferiori ai minimi impedirà la creazione del componente di inferenza.

È possibile distribuire più componenti di inferenza sullo stesso endpoint, purché il fabbisogno totale di risorse non superi la capacità dell'istanza.

Il numero di componenti di inferenza che è possibile ospitare su un singolo endpoint dipende dalle risorse disponibili del tipo di istanza e dai requisiti minimi di ogni modello. Ad esempio, su un ml.p5.48xlarge (8 GPU, 192 vCPU, ~1 TB di memoria):

1 componente di inferenza Amazon Nova Micro (4 GPU, 15 core CPU, 25000 MB) → Valido
2 componenti di inferenza Amazon Nova Micro (8 GPU in totale, 30 core CPU, 50000 MB) → Valido (rientra nella capacità dell'istanza)
1 componente di inferenza Nova 2 Lite (4 GPU, 20 core CPU, 100000 MB) → Valido
2 componenti di inferenza Nova 2 Lite (8 GPU in totale, 40 core CPU, 200000 MB) → Valido
3 componenti di inferenza Amazon Nova Micro (12 GPU in totale) → Rifiutato (supera le 8 GPU disponibili)

AWS Regioni supportate

La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:

Nome della regione	Codice regione	Disponibilità
Stati Uniti orientali (Virginia settentrionale)	us-east-1	Disponibilità
Stati Uniti occidentali (Oregon)	us-west-2	Disponibilità

Immagini dei container supportate

La tabella seguente elenca gli URI dell'immagine del contenitore per i modelli Amazon Nova in base all' SageMaker inferenza per regione. Il SM-Inference-latest tag attualmente punta a. v1.4

Region	URI dell'immagine del contenitore
us-east-1	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest`
us-west-2	`176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest`

Best practice

Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta Best Practices for. SageMaker

Supporto

Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Formazione iterativa

Nozioni di base