

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Bedrock의 모델 평가 작업 유형
<a name="model-evaluation-tasks"></a>

모델 평가 작업에서 평가 작업 유형은 프롬프트의 정보를 기반으로 모델이 수행하기를 원하는 작업입니다. 모델 평가 작업당 하나의 작업 유형을 선택할 수 있습니다.

다음 테이블에는 자동 모델 평가, 기본 제공 데이터세트 및 각 작업 유형에 대한 관련 지표에 사용할 수 있는 작업 유형이 요약되어 있습니다.


**Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트**  


- **일반 텍스트 생성 **
  - **지표:** 정확도  / **기본 제공 데이터 세트:** [TREX](https://hadyelsahar.github.io/t-rex/) / **계산된 지표:** 실제 지식(RWK) 점수
  - **지표:** 견고성 / **기본 제공 데이터 세트:** [BOLD](https://github.com/amazon-science/bold) / **계산된 지표:** 단어 오류 발생률
  - **기본 제공 데이터 세트:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **기본 제공 데이터 세트:** [WikiText2](https://huggingface.co/datasets/wikitext)
  - **지표:** 유해성 / **기본 제공 데이터 세트:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **계산된 지표:** 유해성 
  - **기본 제공 데이터 세트:** [BOLD](https://github.com/amazon-science/bold)

- **텍스트 요약**
  - **지표:** 정확도  / **기본 제공 데이터 세트:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **계산된 지표:** BERTScore
  - **지표:** 유해성 / **기본 제공 데이터 세트:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **계산된 지표:** 유해성 
  - **지표:**  견고성  / **기본 제공 데이터 세트:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **계산된 지표:** BERTScore 및 deltaBERTScore

- **질문 및 답변**
  - **지표:** 정확도 / **기본 제공 데이터 세트:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **계산된 지표:** NLP-F1
  - **기본 제공 데이터 세트:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **기본 제공 데이터 세트:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **지표:** 견고성 / **기본 제공 데이터 세트:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **계산된 지표:** F1 및 deltaF1 
  - **기본 제공 데이터 세트:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **기본 제공 데이터 세트:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **지표:** 유해성 / **기본 제공 데이터 세트:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **계산된 지표:** 유해성 
  - **기본 제공 데이터 세트:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **기본 제공 데이터 세트:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **텍스트 분류**
  - **지표:** 정확도  / **기본 제공 데이터 세트:** [전자 상거래에서 여성용 의류 리뷰](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **계산된 지표:** 정확도(classification\_accuracy\_score에 따른 이진 정확도)
  - **지표:** 견고성  / **기본 제공 데이터 세트:** [전자 상거래에서 여성용 의류 리뷰](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **계산된 지표:** classification\_accuracy\_score 및 delta\_classification\_accuracy\_score



**Topics**
+ [Amazon Bedrock에서 모델 평가를 위한 일반 텍스트 생성](model-evaluation-tasks-general-text.md)
+ [Amazon Bedrock에서의 모델 평가를 위한 텍스트 요약](model-evaluation-tasks-text-summary.md)
+ [Amazon Bedrock에서의 모델 평가를 위한 질문 및 답변](model-evaluation-tasks-question-answer.md)
+ [Amazon Bedrock의 모델 평가를 위한 텍스트 분류](model-evaluation-text-classification.md)