Built-in set di dati rapidi Set di dati dei prompt personalizzati

Utilizzare set di dati di prompt per una valutazione dei modelli in Amazon Bedrock

Per creare un processo di valutazione automatica dei modelli, è necessario specificare un set di dati di prompt. I prompt vengono quindi utilizzati durante l’inferenza con il modello selezionato per la valutazione. Amazon Bedrock fornisce set di dati integrati che possono essere utilizzati nelle valutazioni del modello automatiche, oppure puoi portare il tuo set di dati dei prompt.

Utilizza le seguenti sezioni per saperne di più sui set di dati dei prompt integrati disponibili e sulla creazione di set di dati dei prompt personalizzati.

Utilizzare set di dati di prompt integrati per la valutazione automatica dei modelli in Amazon Bedrock

Amazon Bedrock fornisce set di dati dei prompt integrati che possono essere utilizzati nelle valutazioni del modello automatiche, oppure puoi portare il tuo set di dati dei prompt. Ogni set di dati integrato è basato su un set di dati open source. Abbiamo sottoposto a downsampling casuale ogni set di dati open source per includere solo 100 prompt.

Quando crei un processo di valutazione del modello automatica e scegli un Tipo di attività, Amazon Bedrock ti fornisce un elenco di metriche consigliate. Per ogni metrica, Amazon Bedrock fornisce anche set di dati integrati consigliati. Per ulteriori informazioni sui tipi di attività disponibili, consulta Tipi di attività di valutazione del modello in Amazon Bedrock.

Bias nel set di dati per la generazione di Open-ended linguaggi (BOLD): Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l'equità nella generazione generale di testi, concentrandosi su cinque domini: professione, genere, razza, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.
RealToxicityPrompts: RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.
T-Rex : Un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX): TREX è un set di dati composto da Knowledge Base Triples (KBT) estratti da Wikipedia. I KBT sono un tipo di struttura dati utilizzata nell’elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l’oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è “George Washington era il presidente degli Stati Uniti”. Il soggetto è “George Washington”, il predicato è “era il presidente degli” e l’oggetto è “gli Stati Uniti”.
WikiText2: WikiText2 è un HuggingFace set di dati che contiene i prompt utilizzati nella generazione generale di testo.
Gigaword: Il set di dati Gigaword è costituito da titoli di articoli di notizie. Questo set di dati viene utilizzato nelle attività di sintesi testuale.
BoolQ: BoolQ è un set di dati composto da coppie di domande e risposte. yes/no Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l’uso con tipi di attività di domanda e risposta.
Natural questions: Natural question è un set di dati composto da domande reali degli utenti inviate alla ricerca Google.
TriviaQA: TriviaQA è un set di dati che contiene oltre 650.000 question-answer-evidence-triples. Questo set di dati viene utilizzato nelle attività di domanda e risposta.
Recensioni di abbigliamento femminile E-Commerce: Women's E-Commerce Clothing Reviews è un set di dati che contiene recensioni di abbigliamento scritte dai clienti. Questo set di dati viene utilizzato nelle attività di classificazione del testo.

Nella tabella seguente, puoi vedere l'elenco dei set di dati disponibili raggruppati per tipo di attività. Per ulteriori informazioni su come vengono calcolate le metriche automatiche, consulta Esaminare le metriche per un processo di valutazione automatizzata dei modelli in Amazon Bedrock (console).

Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock
Tipo di attività	Metrica	Built-in set di dati	Metrica calcolata
Generazione di testo generale	Accuratezza	TREX	Punteggio RWK (conoscenza del mondo reale)
	Robustezza	BOLD	Percentuale di errore di Word
		TREX
		WikiText2
	Tossicità	RealToxicityPrompts	Tossicità
	Tossicità	BOLD	Tossicità
Riepilogo del testo	Accuratezza	Gigaword	BERTScore
	Tossicità	Gigaword	Tossicità
	Robustezza	Gigaword	BERTScore e deltaBERTScore
Domanda e risposta	Accuratezza	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustezza	BoolQ	F1 e deltaF1
		NaturalQuestions
		TriviaQA
	Tossicità	BoolQ	Tossicità
		NaturalQuestions
		TriviaQA
Classificazione del testo	Accuratezza	Women's Ecommerce Clothing Reviews	Accuratezza (accuratezza binaria da classification_accuracy_score)
Classificazione del testo	Robustezza	Women's Ecommerce Clothing Reviews	classification_accuracy_score e delta_classification_accuracy_score

Per ulteriori informazioni sui requisiti per la creazione ed esempi di set di dati dei prompt personalizzati, consulta Utilizzare set di dati di prompt personalizzati per la valutazione dei modelli in Amazon Bedrock.

Utilizzare set di dati di prompt personalizzati per la valutazione dei modelli in Amazon Bedrock

Puoi creare un set di dati di prompt personalizzato nei processi di valutazione automatica dei modelli. I set di dati dei prompt personalizzati devono essere archiviati in Amazon S3, utilizzare il formato di riga JSON e utilizzare l’estensione del file .jsonl. Ogni riga deve essere un oggetto JSON valido. Nel set di dati possono essere presenti fino a 1.000 prompt per processo di valutazione automatica.

La configurazione CORS non è richiesta per i lavori di valutazione automatizzata dei modelli. Per i lavori di valutazione basati sull'uomo, è richiesto CORS sul bucket di output S3. Per ulteriori informazioni, consulta Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3.

È necessario utilizzare le seguenti coppie chiave-valore in un set di dati personalizzato.

prompt: necessario per indicare l'input per le seguenti attività:
- Il prompt a cui il modello deve rispondere nella generazione di testo generale.
- La domanda a cui il modello deve rispondere nel tipo di attività domande e risposte.
- Il testo che il modello deve riepilogare nell'attività di riepilogo del testo.
- Il testo che il modello deve classificare nelle attività di classificazione.
referenceResponse: per indicare la risposta di verità fondamentale rispetto alla quale il modello viene valutato per i seguenti tipi di attività:
- La risposta a tutti i prompt nelle attività di domande e risposte.
- La risposta a tutte le valutazioni di accuratezza e robustezza.
category: (opzionale) genera punteggi di valutazione riportati per ogni categoria.

Ad esempio, l’accuratezza richiede la domanda da porre e una risposta da confrontare con la risposta del modello. In questo esempio si utilizza la chiave prompt con il valore contenuto nella domanda e la chiave referenceResponse con il valore contenuto nella risposta come segue.


{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}

L'esempio precedente è una singola riga di un file di input JSON che verrà inviato al modello come richiesta di inferenza. Il modello verrà richiamato per ogni record di questo tipo nel set di dati JSON. Il seguente esempio di input di dati riguarda un'attività di risposta a domande che utilizza una chiave category opzionale per la valutazione.


{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Classificazione del testo

Creazione del processo