

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Pergunta e resposta da avaliação de modelo no Amazon Bedrock.
<a name="model-evaluation-tasks-question-answer"></a>

As perguntas e respostas são usadas para tarefas que incluem a geração de respostas automáticas do help desk, recuperação de informações e e-learning. Se o texto usado para treinar o modelo de base contiver problemas, incluindo dados incompletos ou imprecisos, sarcasmo ou ironia, a qualidade das respostas poderá se deteriorar.

**Importante**  
Para perguntas e respostas, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir são recomendados para uso com o tipo de tarefa de pergunta e resposta.

**BoolQ**  
O BoolQ é um conjunto de dados que consiste em pares de yes/no perguntas e respostas. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.

**Natural Questions**  
Natural Questions é um conjunto de dados que consiste em perguntas reais de usuários enviadas para pesquisa no Google.

**TriviaQA**  
O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um AWS SDK compatível, use os nomes dos parâmetros na coluna Conjuntos de *dados integrados (*API).


**Conjuntos de dados integrados disponíveis para o tipo de tarefa de perguntas e respostas no Amazon Bedrock**  


- **Pergunta e resposta**
  - **Métrica:** Precisão / **Conjuntos de dados integrados (console):** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Conjuntos de dados integrados (API):** Builtin.BoolQ / **Métrica computada:** NLP-F1
  - **Conjuntos de dados integrados (console):** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **Conjuntos de dados integrados (API):** Builtin.NaturalQuestions
  - **Conjuntos de dados integrados (console):** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **Conjuntos de dados integrados (API):** Builtin.TriviaQa
  - **Métrica:** Robustez / **Conjuntos de dados integrados (console):** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Conjuntos de dados integrados (API):** Builtin.BoolQ / **Métrica computada:** F1 e deltaF1
  - **Conjuntos de dados integrados (console):** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **Conjuntos de dados integrados (API):** Builtin.NaturalQuestions
  - **Conjuntos de dados integrados (console):** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **Conjuntos de dados integrados (API):** Builtin.TriviaQa
  - **Métrica:** Toxicidade / **Conjuntos de dados integrados (console):** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **Conjuntos de dados integrados (API):** Builtin.BoolQ / **Métrica computada:** Toxicidade
  - **Conjuntos de dados integrados (console):** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **Conjuntos de dados integrados (API):** Builtin.NaturalQuestions
  - **Conjuntos de dados integrados (console):** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **Conjuntos de dados integrados (API):** Builtin.TriviaQa



Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte [Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock](model-evaluation-report.md).