기본 제공 지표를 사용하여 모델 평가 작업 생성 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기본 제공 지표를 사용하여 모델 평가 작업 생성

다음 지침에 따라 작업을 생성하려면 프롬프트 데이터 세트가 필요합니다. 아직 생성하지 않은 경우 섹션을 참조하세요모델을 판사로 사용하는 모델 평가 작업에 대한 프롬프트 데이터 세트 생성.

Console
  1. Amazon Bedrock 콘솔을 엽니다.

  2. 왼쪽 창의 추론 및 평가에서 평가를 선택합니다.

  3. 모델 평가 창에서 생성을 선택하고 자동: 모델을 판사로 선택합니다.

  4. 다음을 수행하여 모델 평가 세부 정보를 입력합니다.

    1. 모델 평가 세부 정보 창의 평가 이름 아래에 평가 작업의 이름을 입력합니다. 선택한 이름은 내에서 고유해야 합니다 AWS 리전.

    2. 선택적으로 설명 - 선택 사항에서 평가 작업에 대한 설명을 입력합니다.

    3. 평가자 모델에서 모델 선택을 선택하고 평가를 수행할 판단 모델을 선택합니다.

  5. 평가 작업의 추론 소스를 입력합니다. Amazon Bedrock 모델 평가를 사용하면 프롬프트 데이터 세트에 자체 추론 응답 데이터를 제공하여 Amazon Bedrock 모델 또는 다른 모델의 성능을 평가할 수 있습니다. Amazon Bedrock 모델을 선택하려면 다음을 수행합니다.

    1. 추론 소스 창의 소스 선택에서 Bedrock 모델을 선택합니다.

    2. 모델 선택에서 모델 선택을 선택합니다.

    3. 팝업에서 평가할 모델을 선택하고 적용을 선택합니다.

    4. (선택 사항) 모델의 추론 파라미터를 변경하려면 추론 구성에서 업데이트를 선택합니다.

  6. 자체 추론 응답 데이터를 가져오려면 다음을 수행합니다.

    1. 추론 소스 창의 소스 선택에서 자체 추론 응답 가져오기를 선택합니다.

    2. 소스 이름에 응답 데이터를 생성하는 데 사용한 모델의 이름을 입력합니다. 입력하는 이름은 프롬프트 데이터 세트modelIdentifier 파라미터와 일치해야 합니다.

  7. 지표 창에서 지표를 하나 이상 선택하여 평가기 모델이 생성기 모델의 응답 점수를 매길 기본 제공 지표를 선택합니다.

  8. 다음을 수행하여 데이터 세트 및 결과의 입력 및 출력 위치를 정의합니다.

    1. 데이터세트 창의 프롬프트 데이터세트 선택에서 프롬프트 데이터세트의 Amazon S3 URI를 입력하거나 S3 찾아보기를 선택하고 파일을 선택합니다. Modelmodel-as-a-judge 평가 작업에 필요한 프롬프트 데이터 세트 형식의 정의를 보려면 섹션을 참조하세요모델을 판사로 사용하는 모델 평가 작업에 대한 프롬프트 데이터 세트 생성.

    2. 평가 결과에서 Amazon Bedrock의 Amazon S3 위치를 입력하여 결과를 저장하거나 S3 찾아보기를 선택하여 위치를 선택합니다.

  9. Amazon Bedrock IAM 역할 - 권한에서 새 서비스 역할 생성 및 사용을 선택하여 Amazon Bedrock이 평가 작업에 대한 새 IAM 역할을 생성하도록 하거나 기존 서비스 역할 사용을 선택하여 기존 IAM 역할을 선택합니다. 평가 작업을 생성하고 실행하는 데 필요한 권한 목록은 섹션을 참조하세요사전 조건.

  10. (선택 사항) 자체 KMS 키를 사용하여 평가 데이터를 암호화하려면 KMSkey - 선택 사항에서 암호화 설정 사용자 지정(고급)을 선택하고 AWS KMS 키를 선택합니다. 기본적으로 Amazon Bedrock은 AWS소유 KMS 키를 사용하여 평가 작업 데이터를 암호화합니다.

  11. 생성을 선택하여 평가 작업 생성을 완료합니다.

AWS CLI
  • 예 AWS CLI Amazon Bedrock 모델에 대한 평가 작업을 생성하기 위한 명령 및 JSON 파일
    aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
    { "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "applicationType": "ModelEvaluation", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output_data/" } }
    예 AWS CLI 자체 추론 응답 데이터를 제공하는 평가 작업을 생성하는 명령 및 JSON 파일
    aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
    { "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "precomputedInferenceSource": { "inferenceSourceIdentifier": "my_model" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output/" } }