Cosa sono le valutazioni dei modelli di fondazione?
FMEval può aiutarti a quantificare i rischi dei modelli, come contenuti imprecisi, tossici o di parte. La valutazione del tuo LLM ti aiuta a rispettare le linee guida internazionali sull’IA generativa responsabile, come lo standard ISO 42001
Le sezioni seguenti offrono un’ampia panoramica sui metodi supportati per creare valutazioni dei modelli, visualizzare i risultati di un processo di valutazione del modello e analizzare i risultati.
Attività di valutazione del modello
In un processo di valutazione del modello, un'attività di valutazione è un'attività che si desidera che il modello esegua in base alle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.
Tipi di attività supportati nei processi di valutazione del modello
-
Generazione aperta: la produzione di risposte umane naturali a un testo privo di una struttura predefinita.
-
Sintesi testuale: generazione di una sintesi concisa e condensata che conserva il significato e le informazioni chiave contenuti in un testo più esteso.
-
Risposta alle domande: generazione di una risposta pertinente e accurata a un prompt.
-
Classificazione: assegnazione di una categoria, ad esempio un’etichetta o un punteggio, al testo in base al suo contenuto.
-
Personalizzato: consente di definire dimensioni di valutazione personalizzate per il processo di valutazione del modello.
A ogni tipo di attività sono associate metriche specifiche che puoi utilizzare nei processi di valutazione del modello automatici. Per ulteriori informazioni sulle metriche associate ai processi di valutazione automatica del modello e ai processi di valutazione del modello che utilizzano lavoratori umani, consulta Utilizzo dei set di dati dei prompt e delle dimensioni di valutazione disponibili nei processi di valutazione del modello .
Aggiornamento dei parametri di inferenza
I parametri di inferenza sono un modo per influire sull’output di un modello senza dover riaddestrare o eseguire il fine-tuning del modello.
Nel processo di valutazione automatica del modello, puoi modificare i nuovi token Temperature, Top P e Max del modello.
Temperatura
Modifica il grado di casualità nelle risposte del modello. Abbassa la temperatura predefinita per diminuire il grado di casualità e la aumenta per incrementarlo.
Top P
Durante l’inferenza, il modello genera testo e sceglie da un elenco di parole per inserire la parola successiva. L’aggiornamento di Top P modifica il numero di parole nell’elenco in base a una percentuale. Diminuendo Top P si ottengono campioni più deterministici, mentre un valore più alto produce una maggiore variabilità e creatività nel testo generato.
Numero massimo di nuovi token
Modifica la lunghezza della risposta che il modello può fornire.
Puoi aggiornare i parametri di inferenza in Studio dopo aver aggiunto il modello al processo di valutazione del modello.
Processi di valutazione del modello automatica
I processi di valutazione automatica del modello utilizzano metriche basate su benchmark per misurare le risposte tossiche, dannose o comunque inadeguate per i clienti. Le risposte dei modelli vengono valutate utilizzando set di dati integrati specifici per l’attività oppure puoi specificare un set di dati dei prompt personalizzato.
Per creare un processo di valutazione automatica del modello, puoi utilizzare Studio o la libreria fmeval
In alternativa, puoi implementare la libreria fmeval nella tua codebase e personalizzare il processo di valutazione del modello per i tuoi casi d’uso.
Per comprendere meglio i risultati, utilizza il report generato. Il report include visualizzazioni ed esempi. Sono visualizzati anche i risultati salvati nel bucket Amazon S3 specificato durante la creazione del processo. Per ulteriori informazioni sulla struttura dei risultati, consulta Informazioni sui risultati di un processo di valutazione automatica.
Per utilizzare un modello non disponibile pubblicamente in JumpStart, devi eseguire il processo di valutazione automatica del modello con la libreria fmeval. Per un elenco dei modelli JumpStart, consulta Modelli di fondazione disponibili.
Modelli di prompt
Per garantire che il modello JumpStart selezionato risponda bene a tutti i prompt, SageMaker Clarify potenzia automaticamente i prompt di input in un formato più efficace per il modello e le dimensioni di valutazione selezionate. Per visualizzare il modello di prompt predefinito fornito da Clarify, scegli Modello di prompt nella scheda per le dimensioni di valutazione. Se selezioni, ad esempio, il tipo di attività Sintesi testuale nell’interfaccia utente, Clarify visualizza per impostazione predefinita una scheda per ciascuna delle dimensioni di valutazione associate, in questo caso Accuratezza, Tossicità e Robustezza semantica. In queste schede, puoi configurare i set di dati e i modelli di prompt utilizzati da Clarify per misurare le dimensioni di valutazione. Puoi anche rimuovere tutte le dimensioni che non intendi utilizzare.
Modelli di prompt predefiniti
Clarify fornisce una selezione di set di dati che puoi utilizzare per misurare ogni dimensione di valutazione. Puoi scegliere di utilizzare uno o più di questi set di dati oppure fornire un set di dati personalizzato. Se utilizzi i set di dati forniti da Clarify, puoi anche utilizzare i modelli di prompt inseriti da Clarify come predefiniti. Questi prompt predefiniti derivano dall’analisi del formato di risposta in ogni set di dati e dalla determinazione del potenziamento delle query necessario per ottenere lo stesso formato di risposta.
Il modello di prompt fornito da Clarify dipende anche dal modello selezionato. Puoi scegliere un modello ottimizzato con fine-tuning che prevede istruzioni in punti specifici del prompt. Ad esempio, scegliendo il modello meta-textgenerationneuron-llama-2-7b, il tipo di attività Sintesi testuale e il set di dati Gigaword, viene visualizzato un modello di prompt predefinito di quanto segue:
Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...
La scelta del modello di chat llama meta-textgenerationneuron-llama-2-7b-f, d’altra parte, prevede il seguente modello di prompt predefinito:
[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]
Modelli di prompt personalizzati
Nella finestra di dialogo del modello di prompt, puoi attivare o disattivare il supporto automatico dei modelli di prompt fornito da SageMaker Clarify. Se disattivi la creazione automatica dei modelli di prompt, Clarify fornisce il prompt predefinito (come baseline per tutti i set di dati all’interno della stessa dimensione di valutazione) che puoi modificare. Ad esempio, se il modello di prompt predefinito include l’istruzione Riassumi quanto segue in una frase, puoi cambiarlo in Riassumi quanto segue in meno di 100 parole o qualsiasi altra istruzione che intendi utilizzare.
Inoltre, se modifichi un prompt per una dimensione di valutazione, lo stesso prompt viene applicato a tutti i set di dati che utilizzano la stessa dimensione. Quindi, se scegli di applicare il prompt Riassumi il testo seguente in 17 frasi al set di dati Gigaword per misurare la tossicità, la stessa istruzione viene utilizzata per lo stesso scopo nel set di dati Government report. Per applicare un prompt diverso a un set di dati diverso (con lo stesso tipo di attività e la stessa dimensione di valutazione), puoi utilizzare i pacchetti Python forniti da FMEval. Per informazioni dettagliate, consultare Personalizzazione del flusso di lavoro con la libreria fmeval.
Esempio di modello di prompt aggiornato con Modello di prompt.
Immagina uno scenario semplice con un set di dati di base composto da solo due prompt, che desideri valutare con meta-textgenerationneuron-llama-2-7b-f.
{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }
Poiché i prompt sono coppie domanda-risposta, scegli il tipo di attività Risposta alle domande.
Scegliendo Modello di prompt in Studio, puoi vedere in che modo SageMaker Clarify formatta i prompt affinché soddisfino i requisiti del modello JumpStart meta-textgenerationneuron-llama-2-7b-f.
[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]
Per questo modello, SageMaker Clarify aggiunge i tag [INST] e <<SYS>> ai prompt affinché contengano il formato corretto. Potenzia inoltre la richiesta iniziale aggiungendo Respond to the following
question. Valid answers are "True" or "False". per aiutare il modello a rispondere meglio.
Il testo fornito da SageMaker Clarify potrebbe non essere adatto al tuo caso d’uso. Per disattivare i modelli di prompt predefiniti, imposta l’interruttore Modelli di prompt predefiniti del set di dati su Disattivato.
Puoi modificare il modello di prompt per adattarlo al tuo caso d’uso. Ad esempio, puoi richiedere una risposta breve invece di un formato di risposta Vero/Falso, come illustrato nella riga seguente:
[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]
Ora tutti i set di dati dei prompt integrati o personalizzati nella dimensione di valutazione specificata utilizzeranno il modello di prompt specificato.
Processi di valutazione del modello che utilizzano lavoratori umani
Puoi anche impiegare lavoratori umani per valutare manualmente le risposte del modello per dimensioni più soggettive, come la utilità o lo stile. Per creare un processo di valutazione del modello con lavoratori umani, devi utilizzare Studio.
In un processo di valutazione del modello con lavoratori umani, puoi confrontare le risposte di un massimo di due modelli JumpStart. Facoltativamente, puoi anche specificare risposte da modelli esterni ad AWS. Tutti i processi di valutazione del modello che utilizzano lavoratori umani richiedono la creazione di un set di dati dei prompt personalizzato e l’archiviazione in Amazon S3. Per ulteriori informazioni su come creare i dati di un prompt personalizzato, consulta Creazione di un processo di valutazione del modello che utilizza lavoratori umani.
In Studio, puoi definire i criteri utilizzati dalla forza lavoro umana per valutare le risposte dei modelli. Puoi anche documentare le istruzioni di valutazione utilizzando un modello disponibile in Studio. Inoltre, puoi creare un team di lavoro in Studio. Il team di lavoro è composto da persone che vuoi che partecipino al tuo processo di valutazione del modello.