Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Valutazione delle prestazioni dei modelli ottimizzati
Dopo aver utilizzato un processo di ottimizzazione per creare un modello ottimizzato, è possibile eseguire una valutazione delle prestazioni del modello. Questa valutazione fornisce metriche relative a latenza, throughput e prezzo. Utilizza queste metriche per determinare se il modello ottimizzato soddisfa le esigenze del tuo caso d’uso o se richiede un’ulteriore ottimizzazione.
È possibile eseguire valutazioni delle prestazioni solo utilizzando Studio. Questa funzionalità non è fornita tramite l’API Amazon SageMaker AI o Python SDK.
Prima di iniziare
Prima di poter creare una valutazione delle prestazioni, è necessario ottimizzare un modello creando un processo di ottimizzazione dell’inferenza. In Studio, è possibile valutare solo i modelli creati con questi processi.
Creazione della valutazione delle prestazioni
Completa la seguente procedura in Studio per creare una valutazione delle prestazioni per un modello ottimizzato.
-
Nel menu di navigazione di Studio, in Processi, scegli Ottimizzazione dell’inferenza.
-
Scegli il nome del processo che ha creato il modello ottimizzato che desideri valutare.
-
Nella pagina dei dettagli del processo, scegli Valuta le prestazioni.
-
Nella pagina Valutazione delle prestazioni alcuni modelli di JumpStart richiedono la firma di un contratto di licenza con l’utente finale (End User License Agreement, EULA) prima di procedere. Se richiesto, consulta i termini di licenza nella sezione Contratto di licenza. Se i termini sono accettabili per il caso d’uso specifico, seleziona la casella di controllo Accetto l’EULA e leggi i termini e le condizioni.
-
In Seleziona un modello per il tokenizzatore, accetta l’impostazione predefinita o scegli un modello specifico che funga da tokenizer per la tua valutazione.
-
Per Set di dati di input, scegli se:
-
Utilizza i set di dati di esempio predefiniti di SageMaker AI.
-
Fornisci un URI S3 che rimandi ai tuoi set di dati di esempio.
-
-
In URI S3 per i risultati delle prestazioni, fornisci un URI che rimandi alla posizione in Amazon S3 in cui desideri archiviare i risultati della valutazione.
-
Scegli Valuta.
Studio mostra la pagina Valutazioni delle prestazioni, in cui il processo di valutazione viene mostrato nella tabella. La colonna Stato mostra lo stato della valutazione.
-
Quando lo stato è Completato, scegli il nome del processo per visualizzare i risultati della valutazione.
La pagina dei dettagli della valutazione mostra le tabelle che forniscono le metriche delle prestazioni relative a latenza, throughput e prezzo. Per ulteriori informazioni sulle singole metriche, consulta Riferimento alle metriche per le valutazioni delle prestazioni di inferenza.
Riferimento alle metriche per le valutazioni delle prestazioni di inferenza
Una volta conclusa correttamente la valutazione delle prestazioni di un modello ottimizzato, la pagina dei dettagli della valutazione in Studio mostra le seguenti metriche.
Metriche di latenza
La sezione Latenza mostra le metriche indicate di seguito.
- Simultaneità
-
Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.
- Tempo per il primo token (ms)
-
Il tempo trascorso tra l’invio della richiesta e la ricezione del primo token di una risposta in streaming.
- Latenza inter-token (ms)
-
Il tempo necessario per generare un token di output per ogni richiesta.
- Latenza del client (ms)
-
La latenza della richiesta dal momento in cui questa viene inviata al momento della ricezione dell’intera risposta.
- Token di input/sec (numero)
-
Il numero totale di token di input generati, in tutte le richieste, diviso per la durata totale in secondi della simultaneità.
- Token di output/sec (numero)
-
Il numero totale di token di output generati, in tutte le richieste, diviso per la durata totale in secondi della simultaneità.
- Invocazioni del client (numero)
-
Il numero totale di richieste di inferenza inviate all’endpoint da tutti gli utenti contemporaneamente.
- Errori di invocazione client (numero)
-
Il numero totale di richieste di inferenza inviate all’endpoint da tutti gli utenti in un determinato momento simultaneo con un conseguente errore di invocazione.
- Errore del tokenizzatore (numero)
-
Il numero totale di richieste di inferenza in cui il tokenizzatore non è riuscito ad analizzare la richiesta o la risposta.
- Risposta di inferenza vuota (numero)
-
Il numero totale di richieste di inferenza che hanno portato a zero token di output o alla mancata analisi della risposta da parte del tokenizzatore.
Metriche di throughput
La sezione Throughput mostra le metriche indicate di seguito.
- Simultaneità
-
Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.
- Token di input/sec/rich. (numero)
-
Il numero totale di token di input generati al secondo per richiesta.
- Token di input /sec/rich. (numero)
-
Il numero totale di token di output generati al secondo per richiesta.
- Token di input (numero)
-
Il numero totale di token di input generati per richiesta.
- Token di output (numero)
-
Il numero totale di token di output generati per richiesta.
Metriche di prezzo
La sezione Prezzo mostra le metriche indicate di seguito.
- Simultaneità
-
Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.
- Prezzo per milione di token di input
-
Costo di elaborazione di 1 milione di token di input.
- Prezzo per milione di token di output
-
Costo della generazione di 1 milione di token di output.