

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# SageMaker Inferenza
<a name="nova-model-sagemaker-inference"></a>

I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.

SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. [Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker ](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)

**Importante**  
Nell'inferenza sono supportati solo i modelli personalizzati completi e i modelli uniti con LoRA. SageMaker Per modelli LoRa e modelli base non uniti, usa Amazon Bedrock.

## Funzionalità
<a name="nova-sagemaker-inference-features"></a>

Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:

**Funzionalità del modello**
+ Generazione di testo

**Implementazione e scalabilità**
+ Endpoint in tempo reale con selezione personalizzata delle istanze
+ Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta [Automately Scale Amazon SageMaker Models](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html).
+ Supporto API di streaming per la generazione di token in tempo reale

**Monitoraggio e ottimizzazione**
+  CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi
+ Disponibilità Ottimizzazione della latenza con riconoscimento della zona tramite configurazione VPC

**Strumenti di sviluppo**
+ AWS CLI supporto: per ulteriori informazioni, consulta [AWS CLI Command Reference](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/) for. SageMaker
+  Integrazione con i notebook tramite supporto SDK

## Modelli e istanze supportati
<a name="nova-sagemaker-inference-supported"></a>

Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. `CONTEXT_LENGTH` `MAX_CONCURRENCY`
+ `CONTEXT_LENGTH`— Lunghezza totale massima del token (ingresso\$1output) per richiesta
+ `MAX_CONCURRENCY`— Numero massimo di richieste simultanee che l'endpoint servirà

La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX\$1CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT\$1LENGTH:


****  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/nova/latest/nova2-userguide/nova-model-sagemaker-inference.html)

**Nota**  
Nei casi in cui è richiesta la FP8 quantizzazione, sarà abilitata per impostazione predefinita.  
I valori MAX\$1CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT\$1LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker   
Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000``MAX_CONCURRENCY=12`, → Valido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=12` → Rifiutato (il limite di concorrenza è 6 alla lunghezza del contesto 8000)
`CONTEXT_LENGTH=8000`, → Valido `MAX_CONCURRENCY=4`
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=6` → Valido
`CONTEXT_LENGTH=10000`→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)

## Regioni supportate AWS
<a name="nova-sagemaker-inference-regions"></a>

La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:


****  

| Nome della regione | Codice regione | Disponibilità | 
| --- | --- | --- | 
| Stati Uniti orientali (Virginia settentrionale) | us-east-1 | Disponibilità | 
| Stati Uniti occidentali (Oregon) | us-west-2 | Disponibilità | 

## Immagini dei container supportate
<a name="nova-sagemaker-inference-container-images"></a>

La tabella seguente elenca l'immagine del contenitore URIs per i modelli Amazon Nova sull' SageMaker inferenza per regione.


****  

| Region | Immagine del contenitore URIs | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Best practice
<a name="nova-sagemaker-inference-best-practices"></a>

Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta [Best Practices for SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Supporto
<a name="nova-sagemaker-inference-support"></a>

Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.

**Topics**
+ [Funzionalità](#nova-sagemaker-inference-features)
+ [Modelli e istanze supportati](#nova-sagemaker-inference-supported)
+ [Regioni supportate AWS](#nova-sagemaker-inference-regions)
+ [Immagini dei container supportate](#nova-sagemaker-inference-container-images)
+ [Best practice](#nova-sagemaker-inference-best-practices)
+ [Supporto](#nova-sagemaker-inference-support)
+ [Nozioni di base](nova-sagemaker-inference-getting-started.md)
+ [Documentazione di riferimento delle API](nova-sagemaker-inference-api-reference.md)
+ [Valuta i modelli ospitati su SageMaker Inference](nova-eval-on-sagemaker-inference.md)
+ [Implementazione di modelli Amazon Nova Forge nel rilevamento degli abusi di Amazon SageMaker Inference](nova-sagemaker-inference-abuse-detection.md)