

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon Bedrock 中用于模型评测的问答
<a name="model-evaluation-tasks-question-answer"></a>

问答用于自动帮助中心响应、信息检索和在线学习的生成等任务。如果用于训练根基模型的文本包含数据不完整或不准确、讽刺或反讽等问题，响应的质量可能会受到影响。

**重要**  
对于问答，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

建议将以下内置数据集用于问答任务类型。

**BoolQ**  
BoolQ 是一个由 yes/no 问答对组成的数据集。提示包含一小段内容，然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。

**自然问题**  
自然问题是由提交给 Google 搜索的真实用户问题组成的数据集。

**TriviaQA**  
TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。

下表汇总了计算指标和推荐的内置数据集。要使用或支持的 AWS SDK 成功指定可用的内置数据集 AWS CLI，请使用*内置数据集 (API)* 列中的参数名称。


**Amazon Bedrock 中可用于问答任务类型的内置数据集**  


- **问答**
  - **指标:** 准确性 / **内置数据集（控制台）:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **内置数据集（API）:** Builtin.BoolQ / **计算指标:** NLP-F1
  - **内置数据集（控制台）:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **内置数据集（API）:** Builtin.NaturalQuestions
  - **内置数据集（控制台）:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **内置数据集（API）:** Builtin.TriviaQa
  - **指标:** 稳健性 / **内置数据集（控制台）:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **内置数据集（API）:** Builtin.BoolQ / **计算指标:** F1 和 deltaF1
  - **内置数据集（控制台）:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **内置数据集（API）:** Builtin.NaturalQuestions
  - **内置数据集（控制台）:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **内置数据集（API）:** Builtin.TriviaQa
  - **指标:** 毒性 / **内置数据集（控制台）:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **内置数据集（API）:** Builtin.BoolQ / **计算指标:** 毒性
  - **内置数据集（控制台）:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **内置数据集（API）:** Builtin.NaturalQuestions
  - **内置数据集（控制台）:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **内置数据集（API）:** Builtin.TriviaQa



要详细了解每个内置数据集的计算指标的计算方法，请参阅 [在 Amazon Bedrock 中查看模型评测作业报告和指标](model-evaluation-report.md)。