As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tipos de tarefa de avaliação de modelo no Amazon Bedrock
Em um trabalho de avaliação de modelo, um tipo de tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts. É possível escolher um tipo de tarefa por trabalho de avaliação de modelo.
A tabela a seguir resume os tipos de tarefa disponíveis para avaliações de modelo automáticas, conjuntos de dados integrados e métricas relevantes de cada tipo de tarefa.
| Tipo de tarefa | Métrica | Conjuntos de dados integrados | Métrica computada |
|---|---|---|---|
| Geração de texto geral | Precisão | TREX |
Pontuação de conhecimento do mundo real (RWK) |
| Robustez | Taxa de palavras erradas | ||
| TREX |
|||
| WikiText2 |
|||
| Toxicidade | Toxicidade | ||
| BOLD |
|||
| Resumo de texto | Precisão | Gigaword |
BERTScore |
| Toxicidade | Gigaword |
Toxicidade | |
| Robustez | Gigaword |
BERTScore e delta BERTScore | |
| Pergunta e resposta | Precisão | BoolQ |
NLP-F1 |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Robustez | BoolQ |
F1 e deltaF1 | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Toxicidade | BoolQ |
Toxicidade | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Classificação de texto | Precisão | Women's Ecommerce Clothing Reviews |
Precisão (precisão binária de classification_accuracy_score) |
| Robustez | Women's Ecommerce Clothing Reviews |
classification_accuracy_score e delta_classification_accuracy_score |