

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Bedrock에서 자동 모델 평가 작업 생성
<a name="evaluation-automatic"></a>

이 주제에서는 자동 모델 평가 작업을 생성하기 위한 세부 지침을 제공합니다.

**Topics**
+ [첫 번째 자동 모델 평가 작업을 생성하기 전에 필요한 단계](model-evaluation-type-automatic.md)
+ [Amazon Bedrock의 모델 평가 작업 유형](model-evaluation-tasks.md)
+ [Amazon Bedrock의 모델 평가에 프롬프트 데이터세트 사용](model-evaluation-prompt-datasets.md)
+ [Amazon Bedrock에서 자동 모델 평가 작업 시작](model-evaluation-jobs-management-create.md)
+ [Amazon Bedrock에서 자동 모델 평가 작업 나열](model-evaluation-jobs-management-list.md)
+ [Amazon Bedrock에서 모델 평가 작업 중지](model-evaluation-jobs-management-stop.md)
+ [Amazon Bedrock에서 모델 평가 작업 삭제](model-evaluation-jobs-management-delete.md)

# 첫 번째 자동 모델 평가 작업을 생성하기 전에 필요한 단계
<a name="model-evaluation-type-automatic"></a>

자동 모델 평가 작업을 수행하려면 다음 서비스 수준 리소스에 액세스해야 합니다. 연결된 주제를 사용하여 설정 방법에 대해 자세히 알아봅니다.

**Cross Origin Resource Sharing(CORS) 권한 요구 사항**  
모든 콘솔 기반 모델 평가 작업은 모델 평가 작업에 지정된 모든 Amazon S3 버킷에서 Cross Origin Resource Sharing(CORS) 권한을 활성화해야 합니다. 자세한 내용은 [S3 버킷에 대한 필수 Cross Origin Resource Sharing(CORS) 권한](model-evaluation-security-cors.md) 섹션을 참조하세요.

**자동 모델 평가 작업을 시작하는 데 필요한 서비스 수준 리소스**

1. 자동 모델 평가 작업을 시작하려면 최소 하나 이상의 Amazon Bedrock 기초 모델에 대한 액세스 권한이 필요합니다. 자세한 내용은 [Amazon Bedrock 파운데이션 모델 액세스](model-access.md)를 참조하세요.

1. 자동 모델 평가 작업을 생성하려면 [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/), AWS Command Line Interface또는 지원되는 AWS SDK에 액세스해야 합니다. 필요한 IAM 작업 및 리소스에 대한 자세한 내용은 [자동 모델 평가 작업을 생성하는 데 필요한 콘솔 권한](#base-for-automatic) 섹션을 참조하세요.

1. 모델 평가 작업이 시작되면 서비스 역할이 사용자를 대신하여 작업을 수행하는 데 사용됩니다. 필요한 IAM 작업 및 신뢰 정책 요구 사항에 대한 자세한 내용은 [자동 모델 평가 작업의 서비스 역할 요구 사항](automatic-service-roles.md) 섹션을 참조하세요.

1. Amazon Simple Storage Service - 사용 및 생성된 모든 데이터는 자동 모델 평가 작업에서 동일한에 있는 Amazon S3 버킷 AWS 리전 에 배치해야 합니다.

1. CORS(Cross Origin Resource Sharing) - Amazon Bedrock 콘솔을 사용하여 생성된 자동 모델 평가 작업을 사용하려면 S3 버킷에 CORS 구성을 지정해야 합니다. 자세한 내용은 [S3 버킷에 대한 필수 Cross Origin Resource Sharing(CORS) 권한](model-evaluation-security-cors.md) 섹션을 참조하세요.

1. IAM 서비스 역할 - 자동 모델 평가 작업을 실행하려면 서비스 역할을 생성해야 합니다. 서비스 역할을 통해 Amazon Bedrock은 AWS 계정에서 사용자를 대신하여 작업을 수행할 수 있습니다. 자세한 내용은 [자동 모델 평가 작업의 서비스 역할 요구 사항](automatic-service-roles.md)를 참조하세요.

## 자동 모델 평가 작업을 생성하는 데 필요한 콘솔 권한
<a name="base-for-automatic"></a>

다음 정책에는 Amazon Bedrock 콘솔을 사용하여 *자동* 모델 평가 작업을 만드는 데 필요한 Amazon Bedrock 및 Amazon S3의 최소 IAM 작업 및 리소스 집합이 포함되어 있습니다.

정책에서는 IAM JSON 정책 요소 [리소스](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html)를 사용하여 IAM 사용자, 그룹 또는 역할에 필요한 모델 및 버킷으로만 액세스를 제한하는 것이 좋습니다.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Amazon Bedrock의 모델 평가 작업 유형
<a name="model-evaluation-tasks"></a>

모델 평가 작업에서 평가 작업 유형은 프롬프트의 정보를 기반으로 모델이 수행하기를 원하는 작업입니다. 모델 평가 작업당 하나의 작업 유형을 선택할 수 있습니다.

다음 테이블에는 자동 모델 평가, 기본 제공 데이터세트 및 각 작업 유형에 대한 관련 지표에 사용할 수 있는 작업 유형이 요약되어 있습니다.


**Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Amazon Bedrock에서 모델 평가를 위한 일반 텍스트 생성](model-evaluation-tasks-general-text.md)
+ [Amazon Bedrock에서의 모델 평가를 위한 텍스트 요약](model-evaluation-tasks-text-summary.md)
+ [Amazon Bedrock에서의 모델 평가를 위한 질문 및 답변](model-evaluation-tasks-question-answer.md)
+ [Amazon Bedrock의 모델 평가를 위한 텍스트 분류](model-evaluation-text-classification.md)

# Amazon Bedrock에서 모델 평가를 위한 일반 텍스트 생성
<a name="model-evaluation-tasks-general-text"></a>

일반 텍스트 생성은 챗봇이 포함된 애플리케이션에서 사용하는 작업입니다. 모델에서 생성되는 일반적인 질문에 대한 응답은 모델 훈련에 사용된 텍스트에 포함된 정확성, 관련성 및 편향의 영향을 받습니다.

**중요**  
일반 텍스트 생성의 경우, Cohere 모델이 유해성 평가를 성공적으로 완료하지 못하게 하는 시스템 문제가 알려져 있습니다.

다음의 기본 제공 데이터 세트에는 일반 텍스트 생성 작업에 사용하기 적합한 프롬프트가 포함되어 있습니다.

**개방형 언어 생성 데이터 세트(BOLD)의 편향**  
개방형 언어 생성 데이터 세트(BOLD)의 편향은 직업, 성별, 인종, 종교 이념, 정치 이념 등 5가지 도메인에 초점을 맞춰 일반 텍스트 생성의 공정성을 평가하는 데이터 세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

**RealToxicityPrompts**  
RealToxicityPrompts는 유해성을 평가하는 데이터 세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

**T-Rex: 자연어와 지식 기반 트리플(TREX)의 대규모 연계**  
TREX는 Wikipedia에서 추출한 지식 기반 트리플(KBT)로 구성된 데이터 세트입니다. KBT는 자연어 처리(NLP) 및 지식 표현에 사용되는 일종의 데이터 구조입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT) 의 예로는 ‘조지 워싱턴은 미국 대통령이었습니다’를 들 수 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.

**WikiText2**  
WikiText2는 일반적인 텍스트 생성에 사용되는 프롬프트를 포함하는 HuggingFace 데이터 세트입니다.

다음 표에는 자동 모델 평가 작업에 사용할 수 있는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. AWS CLI 또는 지원되는 AWS SDK를 사용하여 사용 가능한 기본 제공 데이터세트를 성공적으로 지정하려면, *기본 제공 데이터세트(API)* 열의 파라미터 이름을 사용합니다.


**Amazon Bedrock에서 일반 텍스트 생성을 위해 사용할 수 있는 기본 제공 데이터 세트**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 [Amazon Bedrock에서 모델 평가 작업 보고서 및 지표 검토](model-evaluation-report.md) 섹션을 참조하세요.

# Amazon Bedrock에서의 모델 평가를 위한 텍스트 요약
<a name="model-evaluation-tasks-text-summary"></a>

텍스트 요약은 뉴스, 법률 문서, 학술 논문, 콘텐츠 미리 보기, 콘텐츠 큐레이션 요약 작성 등의 작업에 사용됩니다. 모델 훈련에 사용된 텍스트의 모호성, 일관성, 편견, 유창성, 정보 손실, 정확성, 관련성 또는 문맥 불일치는 응답 품질에 영향을 미칠 수 있습니다.

**중요**  
텍스트 요약의 경우, Cohere 모델은 유해성 평가를 성공적으로 완료하지 못하게 하는 시스템 문제가 있는 것으로 알려져 있습니다.

텍스트 요약 작업 유형에는 다음의 기본 제공 데이터세트를 사용하는 것이 좋습니다.

**Gigaword**  
Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성됩니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.

다음 표에는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. AWS CLI 또는 지원되는 AWS SDK를 사용하여 사용 가능한 기본 제공 데이터세트를 성공적으로 지정하려면, *기본 제공 데이터세트(API)* 열의 파라미터 이름을 사용합니다.


**Amazon Bedrock에서 텍스트 생성을 위해 사용할 수 있는 기본 제공 데이터 세트**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 [Amazon Bedrock에서 모델 평가 작업 보고서 및 지표 검토](model-evaluation-report.md) 섹션을 참조하세요.

# Amazon Bedrock에서의 모델 평가를 위한 질문 및 답변
<a name="model-evaluation-tasks-question-answer"></a>

질문 및 답변은 자동 헬프데스크 응답 생성, 정보 검색, e-러닝 등의 작업에 사용됩니다. 파운데이션 모델을 훈련하는 데 사용되는 텍스트에 불완전하거나 부정확한 데이터, 풍자 또는 아이러니 등의 문제가 포함되어 있으면 응답 품질이 저하될 수 있습니다.

**중요**  
질문 및 답변의 경우, Cohere 모델이 유해성 평가를 성공적으로 완료하지 못하게 하는 시스템 문제가 있는 것으로 알려져 있습니다.

질문 및 답변 작업 유형에는 다음의 기본 제공 데이터세트를 사용하는 것이 좋습니다.

**BoolQ**  
BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터세트는 질문 및 답변 태스크 유형과 함께 사용하는 것이 좋습니다.

**자연어 질문**  
자연어 질문은 Google 검색에 제출된 실제 사용자 질문으로 구성된 데이터 세트입니다.

**TriviaQA**  
Trivia QA는 650,000개 이상의 질문-답변-근거 자료가 포함된 데이터세트입니다. 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.

다음 표에는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. AWS CLI또는 지원되는 AWS SDK를 사용하여 사용 가능한 기본 제공 데이터 세트를 성공적으로 지정하려면 열의 파라미터 이름인 *기본 제공 데이터 세트(API)를* 사용합니다.


**Amazon Bedrock의 질문 및 답변 작업 유형에 사용할 수 있는 기본 제공 데이터 세트**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 [Amazon Bedrock에서 모델 평가 작업 보고서 및 지표 검토](model-evaluation-report.md) 섹션을 참조하세요.

# Amazon Bedrock의 모델 평가를 위한 텍스트 분류
<a name="model-evaluation-text-classification"></a>

텍스트를 미리 정의된 범주로 분류하려면 텍스트 분류를 사용합니다. 텍스트 분류를 사용하는 애플리케이션에는 콘텐츠 추천, 스팸 탐지, 언어 식별 및 소셜 미디어의 추세 분석이 포함됩니다. 불균형 클래스, 모호한 데이터, 잡음이 많은 데이터, 레이블링의 편향 등은 텍스트 분류에서 오류를 일으킬 수 있는 몇 가지 문제입니다.

**중요**  
텍스트 분류의 경우, Cohere 모델은 유해성 평가를 성공적으로 완료하지 못하게 하는 시스템 문제가 있는 것으로 알려져 있습니다.

텍스트 분류 작업 유형에는 다음의 기본 제공 데이터 세트를 사용하는 것이 좋습니다.

**전자 상거래에서 여성용 의류 리뷰**  
전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.

다음 표에는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. AWS CLI 또는 지원되는 AWS SDK를 사용하여 사용 가능한 기본 제공 데이터세트를 성공적으로 지정하려면, *기본 제공 데이터세트(API)* 열의 파라미터 이름을 사용합니다.




**Amazon Bedrock에서 사용할 수 있는 기본 제공 데이터 세트**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/model-evaluation-text-classification.html)

각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 [Amazon Bedrock에서 모델 평가 작업 보고서 및 지표 검토](model-evaluation-report.md) 섹션을 참조하세요.

# Amazon Bedrock의 모델 평가에 프롬프트 데이터세트 사용
<a name="model-evaluation-prompt-datasets"></a>

자동 모델 평가 작업을 생성하려면 프롬프트 데이터세트를 지정해야 합니다. 그런 다음 평가하도록 선택한 모델을 사용하여 추론 중에 프롬프트가 사용됩니다. Amazon Bedrock은 자동 모델 평가에 사용할 수 있는 기본 제공 데이터세트를 제공하거나 자체 프롬프트 데이터세트를 가져올 수 있습니다.

다음 섹션을 통해 사용 가능한 기본 제공 프롬프트 데이터세트와 사용자 지정 프롬프트 데이터세트를 만드는 방법에 대해 자세히 알아보세요.

## Amazon Bedrock의 자동 모델 평가에 기본 제공 프롬프트 데이터세트 사용
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터세트를 제공합니다. 각 기본 제공 데이터세트는 오픈 소스 데이터세트를 기반으로 합니다. 각 오픈 소스 데이터세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.

자동 모델 평가 작업을 생성하고 **작업 유형**을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 [Amazon Bedrock의 모델 평가 작업 유형](model-evaluation-tasks.md) 섹션을 참조하세요.

**개방형 언어 생성 데이터세트(BOLD)의 편향**  
개방형 언어 생성 데이터세트(BOLD)의 편향은 직업, 성별, 인종, 종교 이념, 정치 이념 등 5가지 도메인에 초점을 맞춰 일반 텍스트 생성의 공정성을 평가하는 데이터세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

**RealToxicityPrompts**  
RealToxicityPrompts는 유해성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

**T-Rex: 자연어와 지식 기반 트리플(TREX)의 대규모 연계**  
TREX는 Wikipedia에서 추출한 지식 기반 트리플(KBT)로 구성된 데이터세트입니다. KBT는 자연어 처리(NLP) 및 지식 표현에 사용되는 일종의 데이터 구조입니다. 주제, 술어, 목적어로 구성되며 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT) 의 예로는 ‘조지 워싱턴은 미국 대통령이었습니다’를 들 수 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.

**WikiText2**  
WikiText2는 일반적인 텍스트 생성에 사용되는 프롬프트를 포함하는 HuggingFace 데이터세트입니다.

**Gigaword**  
Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성됩니다. 이 데이터세트는 텍스트 요약 태스크에 사용됩니다.

**BoolQ**  
BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터세트는 질문 및 답변 태스크 유형과 함께 사용하는 것이 좋습니다.

**자연어 질문 **  
자연어 질문은 Google 검색에 제출된 실제 사용자 질문으로 구성된 데이터세트입니다.

**TriviaQA**  
Trivia QA는 650,000개 이상의 질문-답변-근거 자료가 포함된 데이터세트입니다. 이 데이터세트는 질문 및 답변 태스크에 사용됩니다.

**전자 상거래 여성용 의류 리뷰**  
전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터세트입니다. 이 데이터세트는 텍스트 분류 태스크에 사용됩니다.

다음 표에는 태스크 유형별로 그룹화된 사용 가능한 데이터세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 [Amazon Bedrock에서 자동화된 모델 평가 작업에 대한 지표 검토(콘솔)](model-evaluation-report-programmatic.md) 섹션을 참조하세요.


**Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터세트**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

사용자 지정 프롬프트 데이터세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 [Amazon Bedrock의 모델 평가에 사용자 지정 프롬프트 데이터세트 사용](#model-evaluation-prompt-datasets-custom) 섹션을 참조하세요.

## Amazon Bedrock의 모델 평가에 사용자 지정 프롬프트 데이터세트 사용
<a name="model-evaluation-prompt-datasets-custom"></a>

모델 평가 작업에서 사용자 지정 프롬프트 데이터세트를 사용할 수 있습니다. 사용자 지정 프롬프트 데이터세트는 Amazon S3에 저장해야 하며 JSON 라인 형식을 사용하고 `.jsonl` 파일 확장자를 사용해야 합니다. 각 줄은 유효한 JSON 객체여야 합니다. 자동 평가 작업당 데이터세트에 최대 1,000개의 프롬프트가 있을 수 있습니다.

콘솔을 사용하여 생성한 작업의 경우 S3 버킷에서 Cross Origin Resource Sharing(CORS) 구성을 업데이트해야 합니다. 필수 CORS 권한에 대해 알아보려면 [S3 버킷에 대한 필수 Cross Origin Resource Sharing(CORS) 권한](model-evaluation-security-cors.md) 섹션을 참조하세요.

사용자 지정 데이터세트에는 다음 키 값 쌍을 사용해야 합니다.
+ `prompt` - 다음 작업에 대한 입력을 나타내는 데 필요합니다.
  + 모델이 응답해야 하는 프롬프트(일반적으로 텍스트 생성)입니다.
  + 질문 및 답변 작업 유형에서 모델이 답변해야 하는 질문입니다.
  + 모델이 텍스트 요약 작업에서 요약해야 하는 텍스트입니다.
  + 모델이 분류 작업에서 분류해야 하는 텍스트입니다.
+ `referenceResponse` - 다음 작업 유형에 대해 모델을 평가할 때 실측 응답을 나타내는 데 필요합니다.
  + 질문 및 답변 작업의 모든 프롬프트에 대한 답변입니다.
  + 모든 정확성 및 견고성 평가에 대한 답변입니다.
+ `category` - (선택 사항) 각 범주에 대해 보고된 평가 점수를 생성합니다.

예를 들어, 정확도를 평가하기 위해서는 제시된 질문과, 모델의 답변을 검증할 기준이 되는 정답이 모두 필요합니다. 이 예제에서는 다음과 같이 질문에 포함된 값이 있는 `prompt` 키를 사용하고 답변에 포함된 값을 가진 `referenceResponse` 키를 사용합니다.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

이전 예제는 모델에 추론 요청으로 전송되는 JSON 라인 입력 파일의 한 라인입니다. 모델은 JSON 라인 데이터세트에 있는 모든 레코드에서 간접적으로 호출됩니다. 다음 데이터 입력 예제는 평가를 위해 필요에 따라 `category` 키를 사용하는 질문 및 답변 작업에 해당하는 내용입니다.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Amazon Bedrock에서 자동 모델 평가 작업 시작
<a name="model-evaluation-jobs-management-create"></a>

 AWS Management Console AWS CLI또는 지원되는 AWS SDK를 사용하여 자동 모델 평가 작업을 생성할 수 있습니다. 자동 모델 평가 작업에서 선택한 모델은 지원되는 기본 제공 데이터세트의 프롬프트 또는 사용자 지정 프롬프트 데이터세트를 사용하여 추론을 수행합니다. 또한 각 작업을 수행하려면 태스크 유형을 선택해야 합니다. 태스크 유형은 몇 가지 권장 지표와 기본 제공 프롬프트 데이터세트를 제공합니다. 사용 가능한 태스크 유형과 지표에 대한 자세한 내용은 [Amazon Bedrock의 모델 평가 작업 유형](model-evaluation-tasks.md) 섹션을 참조하세요.

다음 예제에서는 Amazon Bedrock 콘솔 AWS CLI, SDK for Python을 사용하여 자동 모델 평가 작업을 생성하는 방법을 보여줍니다.

모든 자동 모델 평가 작업을 수행하려면 IAM 서비스 역할을 만들어야 합니다. 모델 평가 작업을 설정하기 위한 IAM 요구 사항에 대한 자세한 내용은 [모델 평가 작업의 서비스 역할 요구 사항](model-evaluation-security-service-roles.md) 섹션을 참조하세요.

다음 예제에서는 자동 모델 평가 작업을 만드는 방법을 보여줍니다. API에서는 `modelIdentifier` 필드에 ARN을 지정하여 작업에 [추론 프로파일](cross-region-inference.md)을 포함할 수도 있습니다.

------
#### [ Amazon Bedrock console ]

Amazon Bedrock 콘솔을 사용하여 모델 평가 작업을 검토하려면 다음 절차를 사용합니다. 이 절차를 성공적으로 완료하려면 IAM 사용자, 그룹 또는 역할에 콘솔에 액세스할 수 있는 충분한 권한이 있어야 합니다. 자세한 내용은 [자동 모델 평가 작업을 생성하는 데 필요한 콘솔 권한](model-evaluation-type-automatic.md#base-for-automatic) 섹션을 참조하세요.

또한, 모델 평가 작업에서 지정하려는 사용자 지정 프롬프트 데이터세트에는 Amazon S3 버킷에 필요한 CORS 권한이 추가되어 있어야 합니다. 필수 CORS 권한을 추가하는 방법을 알아보려면 [S3 버킷에 대한 필수 Cross Origin Resource Sharing(CORS) 권한](model-evaluation-security-cors.md) 섹션을 참조하세요.

**자동 모델 평가 작업을 만드는 방법**

1. [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)에서 Amazon Bedrock 콘솔을 엽니다

1. 탐색 창에서 **모델 평가**를 선택합니다.

1. **평가 작성하기** 카드의 **자동**에서 **자동 평가 생성**을 선택합니다.

1. **자동 평가 생성** 페이지에서 다음 정보를 입력합니다

   1. **평가 이름** - 모델 평가 작업에 작업을 설명하는 이름을 지정합니다. 이 이름이 모델 평가 작업 목록에 표시됩니다. 이름은 AWS 리전리전의 계정 내에서 중복되지 않아야 합니다.

   1. **설명**(선택 사항) - 필요에 따라 설명을 입력합니다.

   1. **모델** - 모델 평가 작업에 사용하려는 모델을 선택합니다.

      Amazon Bedrock에서 사용 가능한 모델과 액세스 방법에 대해 알아보려면 [Amazon Bedrock 파운데이션 모델 액세스](model-access.md) 섹션을 참조하세요.

   1. (선택 사항) 추론 구성을 변경하려면 **업데이트**를 선택합니다.

      추론 구성을 변경하면 선택한 모델에서 생성된 응답이 변경됩니다. 사용 가능한 추론 파라미터에 대한 자세한 내용은 [파운데이션 모델의 추론 요청 파라미터 및 응답 필드](model-parameters.md) 섹션을 참조하세요.

   1. **작업 유형** - 모델 평가 작업 중에 모델이 수행하려고 시도할 작업 유형을 선택합니다.

   1. **지표 및 데이터세트** - 사용 가능한 지표 및 내장형 프롬프트 데이터세트 목록은 선택한 태스크에 따라 달라집니다. **사용 가능한 기본 제공 데이터세트** 목록에서 선택하거나 **자체 프롬프트 데이터세트** 사용을 선택할 수 있습니다. 자체 프롬프트 데이터세트를 사용하도록 선택한 경우, 프롬프트 데이터세트 파일의 정확한 S3 URI를 입력하거나 **S3 찾아보기**를 선택하여 프롬프트 데이터세트를 검색합니다.

   1. **평가 결과** - 결과를 저장하려는 디렉터리의 S3 URI를 지정해야 합니다. **S3 찾아보기**를 선택하여 Amazon S3 위치를 검색합니다.

   1. (선택 사항) 고객 관리형 키를 사용하려면 **암호화 설정 사용자 지정(고급)**을 선택합니다. 그런 다음, 사용하려는 AWS KMS 키의 ARN을 제공합니다.

   1. **Amazon Bedrock IAM 역할** - **기존 역할 사용**을 선택하여 필요한 권한이 이미 있는 IAM 서비스 역할을 사용하거나, **새 역할 생성**을 선택하여 새 IAM 서비스 역할을 만듭니다.

1. 그다음에 **생성**을 선택합니다.

상태가 **완료됨**으로 변경되면 작업의 보고서 카드를 확인할 수 있습니다.

------
#### [ SDK for Python ]

다음 예제에서는 Python을 사용하여 자동 평가 작업을 만듭니다.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

에서 `help` 명령을 사용하여에서 지정할 때 필요한 파라미터와 선택 사항인 파라미터를 확인할 AWS CLI수 `create-evaluation-job` 있습니다 AWS CLI.

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Amazon Bedrock에서 자동 모델 평가 작업 나열
<a name="model-evaluation-jobs-management-list"></a>

AWS CLI 또는 지원되는 AWS SDK를 사용하여 이전에 만든 현재 자동 모델 평가 작업을 나열할 수 있습니다. Amazon Bedrock 콘솔에서 현재 모델 평가 작업이 포함된 테이블을 볼 수도 있습니다.

다음 예제에서는 AWS Management Console, AWS CLI 및 SDK for Python을 사용하여 모델 평가 작업을 찾는 방법을 보여줍니다.

------
#### [ Amazon Bedrock console ]

1. [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)에서 Amazon Bedrock 콘솔을 엽니다.

1. 탐색 창에서 **모델 평가**를 선택합니다.

1. **모델 평가 작업** 카드에서 이전에 만든 모델 평가 작업이 나열된 테이블을 찾을 수 있습니다.

------
#### [ AWS CLI ]

AWS CLI에서 `help` 명령을 사용하여 `list-evaluation-jobs`을 사용할 때 필요한 필수 파라미터와 선택 파라미터가 무엇인지 확인할 수 있습니다.

```
aws bedrock list-evaluation-jobs help
```

다음은 `list-evaluation-jobs`를 사용하고 최대 5개의 작업이 반환되도록 지정하는 예입니다. 기본적으로 작업은 시작된 시점부터 내림차순으로 반환됩니다.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

다음 예제에서는 AWS SDK for Python을 사용하여 이전에 만든 모델 평가 작업을 찾는 방법을 보여줍니다.

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Amazon Bedrock에서 모델 평가 작업 중지
<a name="model-evaluation-jobs-management-stop"></a>

AWS Management Console, AWS CLI 또는 지원되는 AWS SDK를 사용하여 현재 처리 중인 모델 평가 작업을 중지할 수 있습니다.

다음 예제에서는 AWS Management Console, AWS CLI 및 SDK for Python을 사용하여 모델 평가 작업을 중지하는 방법을 보여줍니다.

------
#### [ Amazon Bedrock console ]

다음 예제에서는 AWS Management Console을 사용하여 모델 평가 작업을 중지하는 방법을 보여줍니다.

1. [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)에서 Amazon Bedrock 콘솔을 엽니다.

1. 탐색 창에서 **모델 평가**를 선택합니다.

1. **모델 평가 작업** 카드에서 이전에 만든 모델 평가 작업이 나열된 테이블을 찾을 수 있습니다.

1. 작업 이름 옆의 라디오 버튼을 선택합니다.

1. 그런 다음 **평가 중지**를 선택합니다.

------
#### [ SDK for Python ]

다음 예제에서는 SDK for Python을 사용하여 모델 평가 작업을 중지하는 방법을 보여줍니다.

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

AWS CLI에서 `help` 명령을 사용하여 AWS CLI에서 `add-something`을 지정할 때 필요한 필수 파라미터와 선택 사항인 파라미터를 확인할 수 있습니다.

```
aws bedrock create-evaluation-job help
```

다음 예제에서는 AWS CLI을 사용하여 모델 평가 작업을 중지하는 방법을 보여줍니다.

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Amazon Bedrock에서 모델 평가 작업 삭제
<a name="model-evaluation-jobs-management-delete"></a>

Amazon Bedrock 콘솔을 사용하거나, AWS CLI 또는 지원되는 AWS SDK와 함께 [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) 작업을 사용하여 모델 평가 작업을 삭제할 수 있습니다.

모델 평가 작업을 삭제하려면 먼저 작업 상태가 `FAILED`, `COMPLETED` 또는 `STOPPED`여야 합니다. Amazon Bedrock 콘솔에서 또는 [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html)를 직접적으로 호출하여 작업의 현재 상태를 가져올 수 있습니다. 자세한 내용은 [Amazon Bedrock에서 자동 모델 평가 작업 나열Amazon Bedrock에서 인간 작업자를 사용하는 모델 평가 작업 나열](model-evaluation-jobs-management-list.md) 섹션을 참조하세요.

콘솔 및 `BatchDeleteEvaluationJob` 작업을 사용하여 한 번에 최대 25개의 모델 평가 작업을 삭제할 수 있습니다. 더 많은 작업을 삭제해야 하는 경우, 콘솔 절차 또는 `BatchDeleteEvaluationJob` 직접 호출을 반복합니다.

`BatchDeleteEvaluationJob` 작업으로 모델 평가 작업을 삭제하는 경우, 삭제하려는 모델의 Amazon 리소스 이름(ARN)이 필요합니다. 모델의 ARN을 가져오는 방법에 대한 자세한 내용은 [Amazon Bedrock에서 자동 모델 평가 작업 나열Amazon Bedrock에서 인간 작업자를 사용하는 모델 평가 작업 나열](model-evaluation-jobs-management-list.md) 섹션을 참조하세요.

모델 평가 작업을 삭제하면 Amazon Bedrock 및 Amazon SageMaker AI의 모든 리소스가 제거됩니다. Amazon S3 버킷에 저장된 모든 모델 평가 작업은 변경되지 않습니다. 또한 사람 작업자를 사용하는 모델 평가 작업의 경우, 모델 평가 작업을 삭제해도 Amazon Cognito 또는 SageMaker AI에서 구성한 인력 또는 작업팀은 삭제되지 않습니다.

다음 섹션을 사용하여 모델 평가 작업을 삭제하는 방법의 예제를 확인하세요.

------
#### [ Amazon Bedrock console ]

Amazon Bedrock 콘솔을 사용하여 모델 평가 작업을 삭제하려면 다음 절차를 사용합니다. 이 절차를 성공적으로 완료하려면 IAM 사용자, 그룹 또는 역할에 콘솔에 액세스할 수 있는 충분한 권한이 있어야 합니다. 자세한 내용은 [자동 모델 평가 작업을 생성하는 데 필요한 콘솔 권한](model-evaluation-type-automatic.md#base-for-automatic) 섹션을 참조하세요.

**여러 모델 평가 작업을 삭제하는 방법.**

1. [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)에서 Amazon Bedrock 콘솔을 엽니다

1. 탐색 창에서 **모델 평가**를 선택합니다.

1. **모델 평가 작업** 카드에서 테이블을 사용하여 삭제할 모델 평가 작업을 찾고, 작업 이름 옆의 확인란을 사용하여 선택합니다. 최대 25개까지 선택할 수 있습니다.

1. **삭제**를 선택하여 모델 평가 작업을 삭제합니다.

1. 모델 평가 작업을 더 삭제해야 하는 경우 3단계와 4단계를 반복합니다.

------
#### [ AWS CLI ]

AWS CLI에서 `help` 명령을 사용하여 `batch-delete-evaluation-job`을 사용할 때 필요한 필수 파라미터와 선택 파라미터가 무엇인지 확인할 수 있습니다.

```
aws bedrock batch-delete-evaluation-job help
```

다음은 `batch-delete-evaluation-job`을 사용하고 2개의 모델 평가 작업을 삭제하도록 지정하는 예제입니다. `job-identifiers` 파라미터를 사용하여 삭제하려는 모델 평가 작업에 대한 ARN 목록을 지정합니다. `batch-delete-evaluation-job`에 대한 단일 직접 호출에서 최대 25개의 모델 평가 작업을 삭제할 수 있습니다. 작업을 더 삭제해야 하는 경우 `batch-delete-evaluation-job`에 대한 직접 호출을 더 수행합니다.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

제출 후 다음과 같은 응답을 받게 됩니다.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

다음 예제에서는 AWS SDK for Python을 사용하여 모델 평가 작업을 삭제하는 방법을 보여줍니다. `jobIdentifiers` 파라미터를 사용하여 삭제하려는 모델 평가 작업에 대한 ARN 목록을 지정합니다. `BatchDeleteEvaluationJob`에 대한 단일 직접 호출에서 최대 25개의 모델 평가 작업을 삭제할 수 있습니다. 작업을 더 삭제해야 하는 경우 `BatchDeleteEvaluationJob`에 대한 직접 호출을 더 수행합니다.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------