Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Valuta un JumpStart modello per una rapida stereotipizzazione
Puoi utilizzare un ModelRunner wrapper di alto livello per valutare un SageMaker JumpStart modello Amazon per una rapida stereotipizzazione. L'algoritmo di stereotipizzazione rapida misura la probabilità che il modello codifichi distorsioni nella sua risposta. Questi pregiudizi includono quelli relativi a razza, genere, orientamento sessuale, religione, età, nazionalità, disabilità, aspetto fisico e status socioeconomico.
Questo tutorial mostra come caricare il modello Falcon 7-B
Le sezioni di questo tutorial mostrano come eseguire le seguenti operazioni:
-
Configurazione dell'ambiente
-
Esegui la valutazione del modello.
-
Visualizza i risultati dell'analisi.
Configurazione dell'ambiente
Prerequisiti
-
Usa un ambiente kernel di base Python 3.10 e un'istanza
ml.g4dn.2xlargeAmazon Elastic Compute Cloud (Amazon EC2) prima di iniziare questo tutorial.Per ulteriori informazioni sui tipi di istanze e sui relativi casi d'uso consigliati, consulta. Tipi di istanze disponibili per l'uso con Studio Classic
Installa le librerie richieste
-
Installa l' SageMaker intelligenza artificiale e le altre librerie richieste nel codice come segue:
fmeval!pip3 install sagemaker !pip3 install -U pyarrow !pip3 install -U accelerate !pip3 install "ipywidgets>=8" !pip3 install jsonlines !pip install fmeval !pip3 install boto3==1.28.65 import sagemaker -
Scarica il
JSON Linesset di dati di esempio crows-pairs_sample.jsonlnella tua directory di lavoro corrente. -
Verifica che il tuo ambiente contenga il file di input di esempio utilizzando il codice seguente:
import glob # Check for fmeval wheel and built-in dataset if not glob.glob("crows-pairs_sample.jsonl"): print("ERROR - please make sure file exists: crows-pairs_sample.jsonl") -
Definite un JumpStart modello come segue:
from sagemaker.jumpstart.model import JumpStartModel model_id, model_version, = ( "huggingface-llm-falcon-7b-instruct-bf16", "*", ) -
Implementate il JumpStart modello e create un endpoint come segue:
my_model = JumpStartModel(model_id=model_id) predictor = my_model.deploy() endpoint_name = predictor.endpoint_name -
Definite un prompt e il formato della richiesta del modello, o payload, come segue:
prompt = "London is the capital of" payload = { "inputs": prompt, "parameters": { "do_sample": True, "top_p": 0.9, "temperature": 0.8, "max_new_tokens": 1024, "decoder_input_details" : True, "details" : True }, }Nell'esempio di codice precedente, nella richiesta del modello sono inclusi i seguenti parametri:
-
do_sample— Indica al modello di campionare i risultati del modello grezzo (prima della normalizzazione) durante l'inferenza del modello per introdurre diversità e creatività nelle risposte del modello. L'impostazione predefinita èFalse. Se si imposta sudo_sampleTrue, è necessario specificare un valore per uno dei seguenti parametri:temperature,,top_ko.top_ptypical_p -
top_p— Controlla la casualità limitando il set di token da considerare nella generazione del token successivo. Valori più alti ditop_pallow per un set contenente un vocabolario più ampio. I valori più bassi limitano l'insieme di token a parole più probabili. Gli intervalli pertop_psono maggiori0e minori di.1 -
temperature— Controlla la casualità del testo generato. I valori più elevati ditemperatureindicano al modello di generare risposte più casuali e diversificate. I valori più bassi generano risposte più prevedibili. I valori ditemperaturedevono essere positivi. -
max_new_tokens— Limita la lunghezza della risposta limitando il numero di token restituiti dal modello. L'impostazione predefinita è20. -
decoder_input_details— Restituisce informazioni sulle probabilità di registro assegnate dal modello a ciascun potenziale token successivo e al token corrispondente. IDs Sedecoder_input_detailsè impostato suTrue, è necessariodetailsimpostarloTrueanche per ricevere i dettagli richiesti. L'impostazione predefinita èFalse.
Per ulteriori informazioni sui parametri di questo
Hugging Facemodello, vedete types.py. -
Inviare un esempio di richiesta di inferenza
Per testare il modello, invia una richiesta di esempio al modello e stampa la risposta del modello come segue:
response = predictor.predict(payload) print(response[0]["generated_text"])
Nell'esempio di codice precedente, se il modello ha fornito la risposta[{"response": "this is the output"}], viene restituita l'printistruzionethis is the
output.
Configurare FMEval
-
Carica le librerie richieste per eseguirle FMEval come segue:
import fmeval from fmeval.data_loaders.data_config import DataConfig from fmeval.model_runners.sm_jumpstart_model_runner import JumpStartModelRunner from fmeval.constants import MIME_TYPE_JSONLINES from fmeval.eval_algorithms.prompt_stereotyping import PromptStereotyping, PROMPT_STEREOTYPING from fmeval.eval_algorithms import EvalAlgorithm -
Imposta la configurazione dei dati per il tuo set di dati di input.
Se non utilizzi un set di dati integrato, la configurazione dei dati deve identificare la colonna che contiene più distorsioni.
sent_more_input_locationÈ inoltre necessario identificare la colonna che contiene meno distorsioni.sent_less_input_locationSe si utilizza un set di dati integrato da JumpStart, questi parametri vengono passati FMEval automaticamente tramite i metadati del modello.Specificate le
sent_less_input_locationcolonnesent_more_input_locatione per un'attività di stereotipizzazione rapida, il nome, l'URI (Uniform Resource Identifier) e il tipo.MIMEconfig = DataConfig( dataset_name="crows-pairs_sample", dataset_uri="crows-pairs_sample.jsonl", dataset_mime_type=MIME_TYPE_JSONLINES, sent_more_input_location="sent_more", sent_less_input_location="sent_less", category_location="bias_type", )Per ulteriori informazioni sulle informazioni sulle colonne richieste da altre attività, consulta la sezione Utilizzare un set di dati di input personalizzato in. Usa un set di dati di input personalizzato
-
Imposta una personalizzazione
ModelRunnercome illustrato nel seguente esempio di codice:js_model_runner = JumpStartModelRunner( endpoint_name=endpoint_name, model_id=model_id, model_version=model_version, output='[0].generated_text', log_probability='[0].details.prefill[*].logprob', content_template='{"inputs": $prompt, "parameters": {"do_sample": true, "top_p": 0.9, "temperature": 0.8, "max_new_tokens": 1024, "decoder_input_details": true,"details": true}}', )L'esempio di codice precedente specifica quanto segue:
-
endpoint_name— Il nome dell'endpoint creato nel passaggio precedente di installazione delle librerie richieste. -
model_id— L'id utilizzato per specificare il modello. Questo parametro è stato specificato al momento della definizione del JumpStart modello. -
model_version— La versione del modello utilizzata per specificare il modello. Questo parametro è stato specificato al momento della definizione del JumpStart modello. -
output— Cattura l'output del modello Falcon 7b, che restituisce la risposta in una chiave. generated_textSe il modello ha fornito la risposta[{"generated_text": "this is the output"}], restituisce.[0].generated_textthis is the output -
log_probability— Cattura la probabilità logaritmica restituita da questo JumpStart modello. -
content_template— specifica in che modo il modello interagisce con le richieste. Il modello di configurazione di esempio è dettagliato esclusivamente per spiegare l'esempio precedente e non è obbligatorio. I parametri nel modello di contenuto sono gli stessi per cui sono dichiaratipayload. Per ulteriori informazioni sui parametri di questoHugging Facemodello, vedete types.py.
-
-
Configura il rapporto di valutazione e salvalo in una directory come mostrato nel seguente codice di esempio:
import os eval_dir = "results-eval-prompt-stereotyping" curr_dir = os.getcwd() eval_results_path = os.path.join(curr_dir, eval_dir) + "/" os.environ["EVAL_RESULTS_PATH"] = eval_results_path if os.path.exists(eval_results_path): print(f"Directory '{eval_results_path}' exists.") else: os.mkdir(eval_results_path) -
Imposta un fattore di parallelizzazione come segue:
os.environ["PARALLELIZATION_FACTOR"] = "1"A
PARALLELIZATION_FACTORè un moltiplicatore per il numero di batch simultanei inviati all'istanza di calcolo. Se l'hardware consente la parallelizzazione, è possibile impostare questo numero per moltiplicare il numero di chiamate per il processo di valutazione. Ad esempio, se si dispone di100chiamate edPARALLELIZATION_FACTORè impostato su, il job eseguirà le chiamate2.200È possibile aumentarePARALLELIZATION_FACTORfino a o rimuovere10completamente la variabile. Per leggere un blog sull'utilizzo di AWS Lambda,PARALLELIZATION_FACTORconsulta Nuovi controlli di scalabilità AWS Lambda per le sorgenti di eventi Kinesise DynamoDB.
Esegui la valutazione del tuo modello
-
Definisci il tuo algoritmo di valutazione. L'esempio seguente mostra come definire un
PromptStereotypingalgoritmo:eval_algo = PromptStereotyping()Per esempi di algoritmi che calcolano le metriche per altre attività di valutazione, consulta Evaluate your model in. Usa la fmeval libreria per eseguire una valutazione automatica
-
Esegui il tuo algoritmo di valutazione. Il seguente esempio di codice utilizza il modello e la configurazione dei dati precedentemente definiti e un
prompt_templateche utilizzafeatureper passare il prompt al modello nel modo seguente:eval_output = eval_algo.evaluate(model=js_model_runner, dataset_config=config, prompt_template="$feature", save=True)L'output del modello potrebbe essere diverso dall'output di esempio precedente.
Visualizzate i risultati dell'analisi
-
Analizza un rapporto di valutazione dall'
eval_outputoggetto restituito dall'algoritmo di valutazione come segue:import json print(json.dumps(eval_output, default=vars, indent=4))Il comando precedente restituisce il seguente output (condensato per brevità):
[ { "eval_name": "prompt_stereotyping", "dataset_name": "crows-pairs_sample", "dataset_scores": [ { "name": "prompt_stereotyping", "value": 0.6666666666666666 } ], "prompt_template": "$feature", "category_scores": [ { "name": "disability", "scores": [ { "name": "prompt_stereotyping", "value": 0.5 } ] }, ... ], "output_path": "/home/sagemaker-user/results-eval-prompt-stereotyping/prompt_stereotyping_crows-pairs_sample.jsonl", "error": null } ]L'output di esempio precedente mostra un punteggio complessivo per il set di dati seguente.
"name": prompt_stereotypingQuesto punteggio è la differenza normalizzata nelle probabilità logaritmiche tra la risposta del modello che fornisce un numero maggiore di distorsioni rispetto a una minore. Se il punteggio è maggiore di0.5, significa che è più probabile che la risposta del modello restituisca una risposta contenente più distorsioni. Se il punteggio è inferiore a0.5, è più probabile che il modello restituisca una risposta con meno distorsioni. Se il punteggio è0.5, la risposta del modello non contiene distorsioni misurate dal set di dati di input. Utilizzerai iloutput_pathper creare unPandasDataFramenel passaggio successivo. -
Importa i risultati e leggili in un
DataFramefile e allega i punteggi di stereotipizzazione del prompt all'input del modello, all'output del modello e all'output di destinazione come segue:import pandas as pd data = [] with open(os.path.join(eval_results_path, "prompt_stereotyping_crows-pairs_sample.jsonl"), "r") as file: for line in file: data.append(json.loads(line)) df = pd.DataFrame(data) df['eval_algo'] = df['scores'].apply(lambda x: x[0]['name']) df['eval_score'] = df['scores'].apply(lambda x: x[0]['value']) df