Prima di iniziare Creazione della valutazione delle prestazioni Riferimento per le metriche

Valutazione delle prestazioni dei modelli ottimizzati

Dopo aver utilizzato un processo di ottimizzazione per creare un modello ottimizzato, è possibile eseguire una valutazione delle prestazioni del modello. Questa valutazione fornisce metriche relative a latenza, throughput e prezzo. Utilizza queste metriche per determinare se il modello ottimizzato soddisfa le esigenze del tuo caso d’uso o se richiede un’ulteriore ottimizzazione.

È possibile eseguire valutazioni delle prestazioni solo utilizzando Studio. Questa funzionalità non è fornita tramite l'API Amazon SageMaker AI o l'SDK Python.

Prima di iniziare

Prima di poter creare una valutazione delle prestazioni, è necessario ottimizzare un modello creando un processo di ottimizzazione dell’inferenza. In Studio, è possibile valutare solo i modelli creati con questi processi.

Creazione della valutazione delle prestazioni

Completa la seguente procedura in Studio per creare una valutazione delle prestazioni per un modello ottimizzato.

Nel menu di navigazione di Studio, in Processi, scegli Ottimizzazione dell’inferenza.
Scegli il nome del processo che ha creato il modello ottimizzato che desideri valutare.
Nella pagina dei dettagli del processo, scegli Valuta le prestazioni.
Nella pagina Evaluate performance, alcuni JumpStart modelli richiedono la firma di un contratto di licenza con l'utente finale (EULA) prima di procedere. Se richiesto, consulta i termini di licenza nella sezione Contratto di licenza. Se i termini sono accettabili per il caso d’uso specifico, seleziona la casella di controllo Accetto l’EULA e leggi i termini e le condizioni.
In Seleziona un modello per il tokenizzatore, accetta l’impostazione predefinita o scegli un modello specifico che funga da tokenizer per la tua valutazione.
Per Set di dati di input, scegli se:
- Utilizza i set di dati di esempio predefiniti di AI. SageMaker
- Fornisci un URI S3 che rimandi ai tuoi set di dati di esempio.
In URI S3 per i risultati delle prestazioni, fornisci un URI che rimandi alla posizione in Amazon S3 in cui desideri archiviare i risultati della valutazione.
Scegli Valuta.

Studio mostra la pagina Valutazioni delle prestazioni, in cui il processo di valutazione viene mostrato nella tabella. La colonna Stato mostra lo stato della valutazione.
Quando lo stato è Completato, scegli il nome del processo per visualizzare i risultati della valutazione.

La pagina dei dettagli della valutazione mostra le tabelle che forniscono le metriche delle prestazioni relative a latenza, throughput e prezzo. Per ulteriori informazioni sulle singole metriche, consulta Riferimento alle metriche per le valutazioni delle prestazioni di inferenza.

Riferimento alle metriche per le valutazioni delle prestazioni di inferenza

Una volta conclusa correttamente la valutazione delle prestazioni di un modello ottimizzato, la pagina dei dettagli della valutazione in Studio mostra le seguenti metriche.

Metriche di latenza

La sezione Latenza mostra le metriche indicate di seguito.

Concurrency (Simultaneità): Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.
Tempo per il primo token (ms): Il tempo trascorso tra l’invio della richiesta e la ricezione del primo token di una risposta in streaming.
Latenza inter-token (ms): Il tempo necessario per generare un token di output per ogni richiesta.
Latenza del client (ms): La latenza della richiesta dal momento in cui questa viene inviata al momento della ricezione dell’intera risposta.
Input tokens/sec (conteggio): Il numero totale di token di input generati, in tutte le richieste, diviso per la durata totale in secondi della simultaneità.
Uscita tokens/sec (conteggio): Il numero totale di token di output generati, in tutte le richieste, diviso per la durata totale in secondi della simultaneità.
Invocazioni del client (numero): Il numero totale di richieste di inferenza inviate all’endpoint da tutti gli utenti contemporaneamente.
Errori di invocazione client (numero): Il numero totale di richieste di inferenza inviate all’endpoint da tutti gli utenti in un determinato momento simultaneo con un conseguente errore di invocazione.
Errore del tokenizzatore (numero): Il numero totale di richieste di inferenza in cui il tokenizzatore non è riuscito ad analizzare la richiesta o la risposta.
Risposta di inferenza vuota (numero): Il numero totale di richieste di inferenza che hanno portato a zero token di output o alla mancata analisi della risposta da parte del tokenizzatore.

Metriche di throughput

La sezione Throughput mostra le metriche indicate di seguito.

Concurrency (Simultaneità): Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.
Ingresso tokens/sec/req (conteggio): Il numero totale di token di input generati al secondo per richiesta.
Uscita tokens/sec/req (conteggio): Il numero totale di token di output generati al secondo per richiesta.
Token di input (numero): Il numero totale di token di input generati per richiesta.
Token di output (numero): Il numero totale di token di output generati per richiesta.

Metriche di prezzo

La sezione Prezzo mostra le metriche indicate di seguito.

Concurrency (Simultaneità): Il numero di utenti simultanei simulati dalla valutazione per invocare l’endpoint contemporaneamente.
Prezzo per milione di token di input: Costo di elaborazione di 1 milione di token di input.
Prezzo per milione di token di output: Costo della generazione di 1 milione di token di output.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Visualizzazione dei risultati del processo di ottimizzazione

Riferimento sui modelli supportati