View a markdown version of this page

SageMaker Inferenza - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker Inferenza

I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.

SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker

Importante

Nell'inferenza sono supportati solo i modelli personalizzati completi e i modelli uniti con LoRA. SageMaker Per modelli LoRa e modelli base non uniti, usa Amazon Bedrock.

Funzionalità

Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:

Funzionalità del modello

  • Generazione di testo

Implementazione e scalabilità

  • Endpoint in tempo reale con selezione personalizzata delle istanze

  • Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta Automately Scale Amazon SageMaker Models.

  • Supporto API di streaming per la generazione di token in tempo reale

Monitoraggio e ottimizzazione

  • CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi

  • Disponibilità Ottimizzazione della latenza con riconoscimento della zona tramite configurazione VPC

Strumenti di sviluppo

  • AWS CLI supporto: per ulteriori informazioni, consulta AWS CLI Command Reference for. SageMaker

  • Integrazione con i notebook tramite supporto SDK

Modelli e istanze supportati

Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. CONTEXT_LENGTH MAX_CONCURRENCY

  • CONTEXT_LENGTH— Lunghezza totale massima del token (ingresso+output) per richiesta

  • MAX_CONCURRENCY— Numero massimo di richieste simultanee che l'endpoint servirà

La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT_LENGTH:

Modello Tipo di istanza Configurazioni supportate FP8 Quantizzazione richiesta
Amazon Nova Micro ml.g5.12xlarge

LUNGHEZZA_CONTESTO: 4000, CONCORRENZA MASSIMA: 12

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6

No
ml.g5.24xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 No
ml.g6e.xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2

No
ml.g6e.2xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2

No
ml.g6e.4xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 4

No
ml.g6.12xlarge

LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 12

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6

No
ml.g6.24xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 No
ml.g6.48xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 12 No
ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128

LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8

No
Amazon Nova Lite ml.g6.12xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2

Sì: abilitato per impostazione predefinita
ml.g6.24xlarge

LUNGHEZZA DEL CONTESTO: 8000, CONCORRENZA MASSIMA: 4

Sì: abilitato per impostazione predefinita
ml.g6.48xlarge

LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 16

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8

No
ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128

LUNGHEZZA_CONTESTO: 60000, CONCORRENZA MASSIMA: 8

No
Nova 2 Lite ml.g6.48xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8

Sì: abilitato per impostazione predefinita
ml.p5.48xlarge

LUNGHEZZA DEL CONTESTO: 16000, CONCORRENZA MASSIMA: 128

LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8

No
Nota

Nei casi in cui è richiesta la FP8 quantizzazione, sarà abilitata per impostazione predefinita.

I valori MAX_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker

Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000MAX_CONCURRENCY=12, → Valido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rifiutato (il limite di concorrenza è 6 alla lunghezza del contesto 8000)

  • CONTEXT_LENGTH=8000, → Valido MAX_CONCURRENCY=4

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Valido

  • CONTEXT_LENGTH=10000→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)

Regioni supportate AWS

La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:

Nome della regione Codice regione Disponibilità
Stati Uniti orientali (Virginia settentrionale) us-east-1 Disponibilità
Stati Uniti occidentali (Oregon) us-west-2 Disponibilità

Immagini dei container supportate

La tabella seguente elenca l'immagine del contenitore URIs per i modelli Amazon Nova sull' SageMaker inferenza per regione.

Region Immagine del contenitore URIs
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Best practice

Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta Best Practices for SageMaker.

Supporto

Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.