Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker Inferenza
I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.
SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker
Importante
Nell'inferenza sono supportati solo i modelli personalizzati completi e i modelli uniti con LoRA. SageMaker Per i modelli LoRa e i modelli base non uniti, usa Amazon Bedrock.
Funzionalità
Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:
Funzionalità del modello
-
Generazione di testo
Implementazione e scalabilità
-
Endpoint in tempo reale con selezione personalizzata delle istanze
-
Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta Automately Scale Amazon SageMaker Models.
-
Supporto API di streaming per la generazione di token in tempo reale
Monitoraggio e ottimizzazione
-
CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi
-
Disponibilità Ottimizzazione della latenza con riconoscimento della zona tramite configurazione VPC
Strumenti di sviluppo
-
AWS CLI supporto: per ulteriori informazioni, consulta AWS CLI Command Reference for. SageMaker
-
Integrazione con i notebook tramite supporto SDK
Modelli e istanze supportati
Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. CONTEXT_LENGTH MAX_CONCURRENCY
-
CONTEXT_LENGTH— Lunghezza totale massima del token (ingresso+output) per richiesta -
MAX_CONCURRENCY— Numero massimo di richieste simultanee che l'endpoint servirà
La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT_LENGTH:
| Modello | Tipo di istanza | Configurazioni supportate |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 16 |
| ml.g5.24xlarge | LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32 | |
| ml.g6.12xlarge |
LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 16 |
|
| ml.g6.24xlarge | LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32 | |
| ml.g6.48xlarge | LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32 | |
| ml.p5.48xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 2 LUNGHEZZA_CONTESTO: 24000, CONCORRENZA MASSIMA: 1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 16 |
| ml.p5.48xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 2 LUNGHEZZA_CONTESTO: 24000, CONCORRENZA MASSIMA: 1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 2 LUNGHEZZA_CONTESTO: 24000, CONCORRENZA MASSIMA: 1 |
Nota
I valori MAX_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker
Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:
-
CONTEXT_LENGTH=2000MAX_CONCURRENCY=32, → Valido -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=32→ Rifiutato (il limite di concorrenza è 16 alla lunghezza del contesto 8000) -
CONTEXT_LENGTH=8000, → ValidoMAX_CONCURRENCY=4 -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=16→ Valido -
CONTEXT_LENGTH=10000→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)
Regioni supportate AWS
La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:
| Nome della regione | Codice regione | Disponibilità |
|---|---|---|
| Stati Uniti orientali (Virginia settentrionale) | us-east-1 | Disponibilità |
| Stati Uniti occidentali (Oregon) | us-west-2 | Disponibilità |
Immagini dei container supportate
La tabella seguente elenca l'immagine del contenitore URIs per i modelli Amazon Nova sull' SageMaker inferenza per regione. Sono disponibili due tag di immagine per ogni regione: un tag con versione (v1.0.0) e un tag più recente (SM-Inference-latest). Per le implementazioni di produzione, consigliamo di utilizzare il tag versioned.
| Region | Immagine del contenitore URIs |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
Best practice
Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta Best Practices for SageMaker.
Supporto
Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.