SageMaker Inferenza - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker Inferenza

I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.

SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker

Importante

Nell'inferenza sono supportati solo i modelli personalizzati completi e i modelli uniti con LoRA. SageMaker Per i modelli LoRa e i modelli base non uniti, usa Amazon Bedrock.

Funzionalità

Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:

Funzionalità del modello

  • Generazione di testo

Implementazione e scalabilità

  • Endpoint in tempo reale con selezione personalizzata delle istanze

  • Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta Automately Scale Amazon SageMaker Models.

  • Supporto API di streaming per la generazione di token in tempo reale

Monitoraggio e ottimizzazione

  • CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi

  • Disponibilità Ottimizzazione della latenza con riconoscimento della zona tramite configurazione VPC

Strumenti di sviluppo

  • AWS CLI supporto: per ulteriori informazioni, consulta AWS CLI Command Reference for. SageMaker

  • Integrazione con i notebook tramite supporto SDK

Modelli e istanze supportati

Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. CONTEXT_LENGTH MAX_CONCURRENCY

  • CONTEXT_LENGTH— Lunghezza totale massima del token (ingresso+output) per richiesta

  • MAX_CONCURRENCY— Numero massimo di richieste simultanee che l'endpoint servirà

La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT_LENGTH:

Modello Tipo di istanza Configurazioni supportate
Amazon Nova Micro ml.g5.12xlarge

LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 16

ml.g5.24xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32
ml.g6.12xlarge

LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 16

ml.g6.24xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32
ml.g6.48xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32
ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 2

LUNGHEZZA_CONTESTO: 24000, CONCORRENZA MASSIMA: 1

Amazon Nova Lite ml.g6.48xlarge

LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 16

ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 2

LUNGHEZZA_CONTESTO: 24000, CONCORRENZA MASSIMA: 1

Nova 2 Lite ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 2

LUNGHEZZA_CONTESTO: 24000, CONCORRENZA MASSIMA: 1

Nota

I valori MAX_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker

Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000MAX_CONCURRENCY=32, → Valido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=32 → Rifiutato (il limite di concorrenza è 16 alla lunghezza del contesto 8000)

  • CONTEXT_LENGTH=8000, → Valido MAX_CONCURRENCY=4

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=16 → Valido

  • CONTEXT_LENGTH=10000→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)

Regioni supportate AWS

La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:

Nome della regione Codice regione Disponibilità
Stati Uniti orientali (Virginia settentrionale) us-east-1 Disponibilità
Stati Uniti occidentali (Oregon) us-west-2 Disponibilità

Immagini dei container supportate

La tabella seguente elenca l'immagine del contenitore URIs per i modelli Amazon Nova sull' SageMaker inferenza per regione. Sono disponibili due tag di immagine per ogni regione: un tag con versione (v1.0.0) e un tag più recente (SM-Inference-latest). Per le implementazioni di produzione, consigliamo di utilizzare il tag versioned.

Region Immagine del contenitore URIs
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Best practice

Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta Best Practices for SageMaker.

Supporto

Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.