

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Valutazione delle prestazioni dei modelli ottimizzati
<a name="model-optimize-evaluate"></a>

Dopo aver utilizzato un processo di ottimizzazione per creare un modello ottimizzato, è possibile eseguire una valutazione delle prestazioni del modello. Questa valutazione fornisce metriche relative a latenza, throughput e prezzo. Utilizza queste metriche per determinare se il modello ottimizzato soddisfa le esigenze del tuo caso d’uso o se richiede un’ulteriore ottimizzazione.

È possibile eseguire valutazioni delle prestazioni solo utilizzando Studio. Questa funzionalità non è fornita tramite l'API Amazon SageMaker AI o l'SDK Python.

## Prima di iniziare
<a name="eval-prereqs"></a>

Prima di poter creare una valutazione delle prestazioni, è necessario ottimizzare un modello creando un processo di ottimizzazione dell’inferenza. In Studio, è possibile valutare solo i modelli creati con questi processi.

## Creazione della valutazione delle prestazioni
<a name="create-perf-eval"></a>

Completa la seguente procedura in Studio per creare una valutazione delle prestazioni per un modello ottimizzato.

1. Nel menu di navigazione di Studio, in **Processi**, scegli **Ottimizzazione dell’inferenza**.

1. Scegli il nome del processo che ha creato il modello ottimizzato che desideri valutare.

1. Nella pagina dei dettagli del processo, scegli **Valuta le prestazioni**.

1. Nella pagina **Evaluate performance**, alcuni JumpStart modelli richiedono la firma di un contratto di licenza con l'utente finale (EULA) prima di procedere. Se richiesto, consulta i termini di licenza nella sezione **Contratto di licenza**. Se i termini sono accettabili per il caso d’uso specifico, seleziona la casella di controllo **Accetto l’EULA e leggi i termini e le condizioni.**

1. In **Seleziona un modello per il tokenizzatore**, accetta l’impostazione predefinita o scegli un modello specifico che funga da tokenizer per la tua valutazione.

1. Per **Set di dati di input**, scegli se: 
   + Utilizza i set di dati di esempio predefiniti di AI. SageMaker 
   + Fornisci un URI S3 che rimandi ai tuoi set di dati di esempio.

1. In **URI S3 per i risultati delle prestazioni**, fornisci un URI che rimandi alla posizione in Amazon S3 in cui desideri archiviare i risultati della valutazione.

1. Scegli **Valuta**.

   Studio mostra la pagina **Valutazioni delle prestazioni**, in cui il processo di valutazione viene mostrato nella tabella. La colonna **Stato** mostra lo stato della valutazione.

1. Quando lo stato è **Completato**, scegli il nome del processo per visualizzare i risultati della valutazione.

La pagina dei dettagli della valutazione mostra le tabelle che forniscono le metriche delle prestazioni relative a latenza, throughput e prezzo. Per ulteriori informazioni sulle singole metriche, consulta [Riferimento alle metriche per le valutazioni delle prestazioni di inferenza](#performance-eval-metrics-reference).

## Riferimento alle metriche per le valutazioni delle prestazioni di inferenza
<a name="performance-eval-metrics-reference"></a>

Una volta conclusa correttamente la valutazione delle prestazioni di un modello ottimizzato, la pagina dei dettagli della valutazione in Studio mostra le seguenti metriche.

### Metriche di latenza
<a name="latency-metrics"></a>

La sezione **Latenza** mostra le metriche indicate di seguito.

**Concurrency (Simultaneità)**  
Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.

**Tempo per il primo token (ms)**  
Il tempo trascorso tra l’invio della richiesta e la ricezione del primo token di una risposta in streaming.

**Latenza inter-token (ms)**  
Il tempo necessario per generare un token di output per ogni richiesta.

**Latenza del client (ms)**  
La latenza della richiesta dal momento in cui questa viene inviata al momento della ricezione dell’intera risposta.

**Input tokens/sec (conteggio)**  
Il numero totale di token di input generati, in tutte le richieste, diviso per la durata totale in secondi della simultaneità.

**Uscita tokens/sec (conteggio)**  
Il numero totale di token di output generati, in tutte le richieste, diviso per la durata totale in secondi della simultaneità.

**Invocazioni del client (numero)**  
Il numero totale di richieste di inferenza inviate all’endpoint da tutti gli utenti contemporaneamente.

**Errori di invocazione client (numero)**  
Il numero totale di richieste di inferenza inviate all’endpoint da tutti gli utenti in un determinato momento simultaneo con un conseguente errore di invocazione.

**Errore del tokenizzatore (numero)**  
Il numero totale di richieste di inferenza in cui il tokenizzatore non è riuscito ad analizzare la richiesta o la risposta.

**Risposta di inferenza vuota (numero)**  
Il numero totale di richieste di inferenza che hanno portato a zero token di output o alla mancata analisi della risposta da parte del tokenizzatore.

### Metriche di throughput
<a name="throughput-metrics"></a>

La sezione **Throughput** mostra le metriche indicate di seguito.

**Concurrency (Simultaneità)**  
Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.

**Ingresso tokens/sec/req (conteggio)**  
Il numero totale di token di input generati al secondo per richiesta.

**Uscita tokens/sec/req (conteggio)**  
Il numero totale di token di output generati al secondo per richiesta.

**Token di input (numero)**  
Il numero totale di token di input generati per richiesta.

**Token di output (numero)**  
Il numero totale di token di output generati per richiesta.

### Metriche di prezzo
<a name="price-metrics"></a>

La sezione **Prezzo** mostra le metriche indicate di seguito.

**Concurrency (Simultaneità)**  
Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.

**Prezzo per milione di token di input**  
Costo di elaborazione di 1 milione di token di input.

**Prezzo per milione di token di output**  
Costo della generazione di 1 milione di token di output.