Valutazione di un modello di fondazione per la generazione di testo in Studio

Nota

Foundation Model Evaluations (FMEval) è disponibile in anteprima per Amazon SageMaker Clarify ed è soggetto a modifiche.

Importante

Per utilizzare SageMaker Clarify Foundation Model Evaluations, è necessario eseguire l'aggiornamento alla nuova esperienza Studio. A partire dal 30 novembre 2023, la precedente esperienza Amazon SageMaker Studio è ora denominata Amazon SageMaker Studio Classic. La funzionalità di valutazione dei modelli di fondazione può essere utilizzata solo nell’esperienza aggiornata. Per informazioni su come aggiornare Studio, consulta Migrazione da Amazon SageMaker Studio Classic. Per informazioni sull’utilizzo dell’applicazione Studio Classic, consulta Amazon SageMaker Studio Classic.

Amazon SageMaker JumpStart dispone di integrazioni con SageMaker Clarify Foundation Model Evaluations (FMEval) in Studio. Se un JumpStart modello dispone di funzionalità di valutazione integrate, puoi scegliere Evaluate nell'angolo in alto a destra della pagina di dettaglio del modello nell'interfaccia utente di JumpStart Studio. Per ulteriori informazioni sulla navigazione nell'interfaccia utente di JumpStart Studio, consultaApri in Studio JumpStart,

Usa Amazon SageMaker JumpStart per valutare modelli di base basati su testo con. FMEval Puoi utilizzare queste valutazioni dei modelli per confrontare le metriche di qualità e responsabilità dei modelli per un modello, tra due modelli o tra diverse versioni dello stesso modello, per aiutarti a quantificare i rischi del modello. FMEval può valutare modelli basati su testo che svolgono le seguenti attività:

Generazione aperta: la produzione di risposte umane naturali a un testo privo di una struttura predefinita.
Sintesi testuale: generazione di una sintesi concisa e condensata che mantiene il significato e le informazioni chiave contenuti in un testo più esteso.
Risposta a domande: generazione di una risposta in linguaggio naturale a una domanda.
Classificazione: assegnazione di una classe, ad esempio positive anziché negative, a un passaggio di testo in base al suo contenuto.

È possibile utilizzarlo FMEval per valutare automaticamente le risposte del modello in base a benchmark specifici. È inoltre possibile valutare le risposte del modello in base ai propri criteri utilizzando set di dati personalizzati. FMEval fornisce un'interfaccia utente (UI) che guida l'utente nella configurazione e configurazione di un processo di valutazione. Puoi anche usare la FMEval libreria all'interno del tuo codice.

Ogni valutazione richiede una quota per due istanze:

Istanza di hosting: un’istanza che ospita e implementa un LLM.
Istanza di valutazione: un’istanza utilizzata per richiedere ed eseguire una valutazione di un LLM sull’istanza di hosting.

Se il tuo LLM è già distribuito, fornisci l'endpoint e SageMaker AI utilizzerà la tua istanza di hosting per ospitare e distribuire il LLM.

Se state valutando un JumpStart modello che non è ancora stato implementato nel vostro account, FMEval create per voi un'istanza di hosting temporanea nel vostro account e la mantiene implementata solo per la durata della valutazione. FMEval utilizza l'istanza predefinita JumpStart consigliata per il LLM scelto come istanza di hosting. Per questa istanza raccomandata è necessario disporre di una quota sufficiente.

Ogni valutazione utilizza anche un’istanza di valutazione per fornire prompt e assegnare un punteggio alle risposte del modello LLM. È inoltre necessario disporre di una quota e di una memoria sufficienti per eseguire gli algoritmi di valutazione. I requisiti di quota e memoria dell’istanza di valutazione sono generalmente inferiori a quelli richiesti per un’istanza di hosting. Si consiglia di selezionare l’istanza ml.m5.2xlarge. Per ulteriori informazioni su quota e memoria, consulta Risolvi gli errori durante la creazione di un processo di valutazione del modello in Amazon SageMaker AI.

Le valutazioni automatiche possono essere utilizzate per ottenere punteggi LLMs nelle seguenti dimensioni:

Precisione: per la sintesi testuale, la risposta alle domande e la classificazione del testo
Robustezza semantica: per attività di generazione aperta, sintesi testuale e classificazione del testo
Conoscenza effettiva: per la generazione aperta
Stereotipia dei prompt: per la generazione aperta
Tossicità: per la generazione aperta, la sintesi testuale e la risposta alle domande

È inoltre possibile utilizzare le valutazioni umane per valutare manualmente le risposte dei modelli. L' FMEval interfaccia utente guida l'utente attraverso un flusso di lavoro che prevede la selezione di uno o più modelli, la fornitura di risorse e la stesura di istruzioni e il contatto con la forza lavoro umana. Una volta completata la valutazione umana, i risultati vengono visualizzati in. FMEval

È possibile accedere alla valutazione del modello tramite la pagina di JumpStart destinazione di Studio selezionando un modello da valutare e quindi scegliendo Evaluate. Tieni presente che non tutti i JumpStart modelli dispongono di funzionalità di valutazione. Per ulteriori informazioni su come configurare, fornire ed eseguire FMEval, vedi Cosa sono le valutazioni dei modelli Foundation?

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Generazione potenziata da recupero dati

Notebook di esempio