

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon Bedrock 中的模型评测任务类型
<a name="model-evaluation-tasks"></a>

在模型评测作业中，评测任务类型是指您希望模型根据提示中的信息执行的任务。您可以为每个模型评估作业选择一种任务类型。

下表汇总了自动模型评测的可用任务类型、内置数据集以及每种任务类型的相关指标。


**Amazon Bedrock 中可用于自动模型评测作业的内置数据集**  


- **一般文本生成 **
  - **指标:** 准确性  / **内置数据集:** [TREX](https://hadyelsahar.github.io/t-rex/) / **计算指标:** 现实世界知识 (RWK) 得分
  - **指标:** 稳健性 / **内置数据集:** [BOLD](https://github.com/amazon-science/bold) / **计算指标:** 字词错误率
  - **内置数据集:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **内置数据集:** [WikiText2](https://huggingface.co/datasets/wikitext)
  - **指标:** 毒性 / **内置数据集:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **计算指标:** 毒性 
  - **内置数据集:** [BOLD](https://github.com/amazon-science/bold)

- **文本摘要**
  - **指标:** 准确性  / **内置数据集:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **计算指标:** BERTScore
  - **指标:** 毒性 / **内置数据集:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **计算指标:** 毒性 
  - **指标:**  稳健性  / **内置数据集:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **计算指标:** BERTScore 和 deltaBERTScore

- **问答**
  - **指标:** 准确性 / **内置数据集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **计算指标:** NLP-F1
  - **内置数据集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **内置数据集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **指标:** 稳健性 / **内置数据集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **计算指标:** F1 和 deltaF1 
  - **内置数据集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **内置数据集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **指标:** 毒性 / **内置数据集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **计算指标:** 毒性 
  - **内置数据集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **内置数据集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **文本分类**
  - **指标:** 准确性  / **内置数据集:** [女性电子商务服装评论](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **计算指标:** 准确性（来自 classification\_accuracy\_score 的二元准确性）
  - **指标:** 稳健性  / **内置数据集:** [女性电子商务服装评论](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **计算指标:** classification\_accuracy\_score 和 delta\_classification\_accuracy\_score



**Topics**
+ [在 Amazon Bedrock 中用于模型评测的一般文本生成](model-evaluation-tasks-general-text.md)
+ [Amazon Bedrock 中用于模型评测的文本摘要](model-evaluation-tasks-text-summary.md)
+ [Amazon Bedrock 中用于模型评测的问答](model-evaluation-tasks-question-answer.md)
+ [Amazon Bedrock 中用于模型评测的文本分类](model-evaluation-text-classification.md)