Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Raccomandazioni di inferenza AI generativa ottimizzate
<a name="generative-ai-inference-recommendations"></a>

Amazon SageMaker AI ora supporta i consigli di inferenza, una funzionalità che elimina l'ottimizzazione manuale e il benchmarking per offrire prestazioni di inferenza ottimali. Invece di testare manualmente combinazioni di tipi di istanze GPU, contenitori di server, strategie di parallelismo e tecniche di ottimizzazione, fornisci i requisiti del modello e del carico di lavoro e l' SageMaker IA restituisce configurazioni convalidate e pronte per l'implementazione con metriche prestazionali reali.

Le raccomandazioni sull'inferenza analizzano l'architettura del modello, restringono lo spazio di configurazione e applicano ottimizzazioni in linea con gli obiettivi, come la decodifica speculativa per il throughput e l'ottimizzazione del kernel per la latenza. Valutando più tipi di istanze, puoi selezionare l'opzione con il miglior rapporto prezzo/prestazioni per il tuo carico di lavoro. Esegue il benchmark di ogni configurazione su un'infrastruttura GPU reale, in modo da poter implementare con sicurezza e dimensionare correttamente la spesa per l'inferenza.

## Come funziona
<a name="generative-ai-inference-recommendations-how-it-works"></a>

Iniziare con i consigli di inferenza è semplice, tramite AI Studio o le API AI. SageMaker SageMaker I passaggi seguenti descrivono il flusso di lavoro.

1. **Prepara il tuo modello.** Fai riferimento agli artefatti del modello in Amazon S3 o nell'AI SageMaker Model Registry. I consigli di inferenza supportano il formato HuggingFace checkpoint con SafeTensor pesi, inclusi modelli base e modelli personalizzati o ottimizzati.

1. **Definisci il tuo carico di lavoro.** Descrivi i modelli di traffico previsti, comprese le distribuzioni di token di input e output e i livelli di concorrenza. Puoi utilizzare specifiche in linea o un set di dati rappresentativo di Amazon S3.

1. **Stabilisci il tuo obiettivo.** Scegli un unico obiettivo prestazionale: ottimizzazione dei costi, riduzione al minimo della latenza o massimizzazione del throughput. Seleziona fino a tre tipi di istanze da confrontare.

1. **Esamina i risultati.** SageMaker L'intelligenza artificiale restituisce configurazioni convalidate con metriche prestazionali reali: Time to First Token (TTFT), latenza tra token, latenza delle richieste, throughput e costo per configurazione. P50/P90/P99 Ogni configurazione è pronta per l'implementazione.

1. **Implementazione.** Implementa la configurazione scelta su un endpoint di inferenza SageMaker AI con una singola azione da SageMaker AI Studio o programmaticamente tramite l'API.

Puoi anche confrontare gli endpoint di produzione esistenti per convalidare le prestazioni attuali o confrontarle con nuove configurazioni.

## Casi d’uso
<a name="generative-ai-inference-recommendations-use-cases"></a>

Di seguito sono riportati casi d'uso comuni per i consigli di inferenza.
+ **Pre-deployment convalida.** Ottimizza e confronta un nuovo modello prima di impegnarti in un'implementazione di produzione. Verifica le prestazioni del modello prima di investire nella sua scalabilità.
+ **Test di regressione dopo gli aggiornamenti.** Convalida le prestazioni dopo un aggiornamento del contenitore, un aggiornamento del framework o il rilascio della libreria in corso. Verifica che la configurazione sia ancora ottimale prima di passare alla produzione.
+ **Right-sizing quando le condizioni cambiano.** Quando i modelli di traffico cambiano o diventano disponibili nuovi tipi di istanze, esegui nuovamente i consigli di inferenza in poche ore anziché riavviare un processo manuale di settimane.
+ **Confronto tra modelli.** Confronta le prestazioni e il costo delle diverse varianti di modello tra i diversi tipi di istanza per effettuare una selezione informata prima dell'implementazione in produzione.
+ **Ottimizzazione dei costi.** Effettua un benchmark degli endpoint di produzione esistenti per identificare l'infrastruttura con un approvvigionamento eccessivo. Usa i risultati per ridimensionare correttamente e ridurre le spese di inferenza ricorrenti.

## Prezzi
<a name="generative-ai-inference-recommendations-pricing"></a>

I consigli di inferenza non hanno costi di servizio aggiuntivi. È possibile utilizzare le prenotazioni ML esistenti (piani di formazione flessibili) senza costi di elaborazione aggiuntivi oppure utilizzare l'elaborazione su richiesta che viene fornita automaticamente.

## Regioni supportate
<a name="generative-ai-inference-recommendations-regions"></a>

I consigli di inferenza sono disponibili nelle seguenti regioni: AWS 
+ Stati Uniti orientali (Virginia settentrionale)
+ Stati Uniti orientali (Ohio)
+ Stati Uniti occidentali (Oregon)
+ Asia Pacifico (Singapore)
+ Asia Pacifico (Tokyo)
+ Europa (Francoforte)
+ Europa (Irlanda)