Tipos de tarefa de avaliação de modelo no Amazon Bedrock

Em um trabalho de avaliação de modelo, um tipo de tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts. É possível escolher um tipo de tarefa por trabalho de avaliação de modelo.

A tabela a seguir resume os tipos de tarefa disponíveis para avaliações de modelo automáticas, conjuntos de dados integrados e métricas relevantes de cada tipo de tarefa.

Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock
Tipo de tarefa	Métrica	Built-in conjuntos de dados	Métrica computada
Geração de texto geral	Precisão	TREX	Pontuação de conhecimento do mundo real (RWK)
	Robustez	BOLD	Taxa de palavras erradas
		TREX
		WikiText2
	Toxicidade	RealToxicityPrompts	Toxicidade
	Toxicidade	BOLD	Toxicidade
Resumo de texto	Precisão	Gigaword	BERTScore
	Toxicidade	Gigaword	Toxicidade
	Robustez	Gigaword	BERTScore e deltaBERTScore
Pergunta e resposta	Precisão	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustez	BoolQ	F1 e deltaF1
		NaturalQuestions
		TriviaQA
	Toxicidade	BoolQ	Toxicidade
		NaturalQuestions
		TriviaQA
Classificação de texto	Precisão	Women's Ecommerce Clothing Reviews	Precisão (precisão binária de classification_accuracy_score)
Classificação de texto	Robustez	Women's Ecommerce Clothing Reviews	classification_accuracy_score e delta_classification_accuracy_score

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pré-requisitos

Geração de texto geral