

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Buat pekerjaan evaluasi model berbasis manusia
<a name="model-evaluation-jobs-management-create-human"></a>

Contoh berikut menunjukkan cara membuat pekerjaan evaluasi model yang menggunakan pekerja manusia.

**Konsol**

**Untuk membuat pekerjaan evaluasi model yang menggunakan pekerja manusia**

1. Buka [konsol Amazon Bedrock](https://console.aws.amazon.com/bedrock/).

1. **Di panel navigasi, di bawah **Inferensi dan Penilaian**, pilih Evaluasi.**

1. Di panel **evaluasi Model**, di bawah **Manusia**, pilih **Buat** dan pilih **Manusia: Bawa tim kerja Anda sendiri**.

1. Pada halaman **Tentukan detail pekerjaan** berikan yang berikut ini.

   1. **Nama evaluasi** — Berikan nama pekerjaan evaluasi model yang menggambarkan pekerjaan. Nama ini ditampilkan dalam daftar pekerjaan evaluasi model Anda. Nama harus unik di akun Anda di file AWS Region. 

   1. **Deskripsi** (Opsional) - Berikan deskripsi opsional.

   1. Pilih **Berikutnya**.

1. Pada halaman **Siapkan evaluasi**, di bawah **Sumber inferensi**, pilih sumber untuk evaluasi model Anda. Anda dapat mengevaluasi kinerja model Amazon Bedrock, atau model lain dengan menyediakan data respons inferensi Anda sendiri dalam kumpulan data prompt Anda. Anda dapat memilih hingga dua sumber inferensi. Untuk pekerjaan dengan dua sumber, Anda tidak harus memilih jenis yang sama untuk kedua sumber; Anda dapat memilih satu model Amazon Bedrock, dan memberikan data respons inferensi Anda sendiri untuk sumber kedua. Untuk mengevaluasi model Amazon Bedrock, lakukan hal berikut:

   1. Di bawah **Pilih sumber**, pilih **Model batuan dasar**.

   1. Pilih **Pilih model** untuk memilih model yang ingin Anda evaluasi.

   1. Untuk memilih model kedua, pilih **Tambah model** dan ulangi langkah sebelumnya.

1. Untuk membawa data respons inferensi Anda sendiri, lakukan hal berikut:

   1. Di bawah **Pilih sumber**, pilih **Bawa tanggapan inferensi Anda sendiri**.

   1. Untuk **Nama Sumber**, masukkan nama untuk model yang Anda gunakan untuk membuat data respons. Nama yang Anda masukkan harus cocok dengan `modelIdentifier` parameter dalam [kumpulan data prompt](model-evaluation-prompt-datasets-custom-human.md#model-evaluation-prompt-datasets-custom-human-byoir) Anda.

   1. Untuk menambahkan sumber kedua, pilih **Tambah model** dan ulangi langkah sebelumnya.

1. Untuk **jenis Tugas**, pilih jenis tugas yang ingin dilakukan model selama pekerjaan evaluasi model. Semua instruksi untuk model harus dimasukkan dalam petunjuknya sendiri. Jenis tugas tidak mengontrol respons model.

1. Di panel **Datasets**, berikan yang berikut ini.

   1. Di bawah **Pilih kumpulan data prompt**, tentukan URI S3 dari file kumpulan data prompt Anda atau pilih **Jelajahi S3 untuk melihat bucket S3** yang tersedia. Anda dapat memiliki maksimum 1000 prompt dalam kumpulan data prompt khusus.

   1. Di bawah **Tujuan hasil evaluasi**, tentukan URI S3 direktori tempat Anda ingin hasil pekerjaan evaluasi model disimpan, atau pilih **Jelajahi S3 untuk melihat bucket S3** yang tersedia.

1. (Opsional) Di bawah **kunci KMS - Opsional**, berikan ARN kunci terkelola pelanggan yang ingin Anda gunakan untuk mengenkripsi pekerjaan evaluasi model Anda.

1. Dalam **peran Amazon Bedrock IAM — panel Izin**, lakukan hal berikut. Untuk mempelajari lebih lanjut tentang izin yang diperlukan untuk evaluasi model, lihat. [Persyaratan peran layanan untuk pekerjaan evaluasi model](model-evaluation-security-service-roles.md)

   1. Untuk menggunakan peran layanan Amazon Bedrock yang ada, pilih **Gunakan peran yang ada**. Jika tidak, gunakan **Buat peran baru** untuk menentukan detail peran layanan IAM baru Anda.

   1. Di **nama peran Layanan**, tentukan nama peran layanan IAM Anda.

   1. Saat siap, pilih **Buat peran** untuk membuat peran layanan IAM baru. 

1. Pilih **Berikutnya**.

1. Di bawah **Tim kerja**, gunakan menu tarik-turun **Pilih tim** untuk memilih tim yang sudah ada, atau buat tim baru dengan melakukan hal berikut:

   1. Di bawah **Nama tim**, masukkan nama untuk tim Anda.

   1. Di bawah **Alamat email**, masukkan alamat email pekerja manusia di tim Anda.

   1. Di bawah **Jumlah pekerja per prompt**, pilih jumlah pekerja yang mengevaluasi setiap prompt. Setelah tanggapan untuk setiap prompt ditinjau oleh jumlah pekerja yang Anda pilih, prompt dan tanggapannya akan dikeluarkan dari sirkulasi dari tim kerja. Laporan hasil akhir akan mencakup semua peringkat dari setiap pekerja.
**penting**  
Model bahasa besar diketahui kadang-kadang berhalusinasi dan menghasilkan konten beracun atau ofensif. Pekerja Anda mungkin diperlihatkan bahan beracun atau ofensif selama evaluasi ini. Pastikan Anda mengambil langkah-langkah yang tepat untuk melatih dan memberi tahu mereka sebelum mereka mengerjakan evaluasi. Mereka dapat menolak dan melepaskan tugas atau beristirahat selama evaluasi saat mengakses alat evaluasi manusia.

1. Di bawah **Peran IAM alur kerja manusia - Izin**, pilih peran yang ada, atau pilih **Buat** peran baru.

1. Pilih **Berikutnya**.

1. Di bawah **instruksi Evaluasi**, berikan instruksi untuk menyelesaikan tugas. Anda dapat melihat pratinjau UI evaluasi yang digunakan tim kerja Anda untuk mengevaluasi tanggapan, termasuk metrik, metode penilaian, dan instruksi Anda. Pratinjau ini didasarkan pada konfigurasi yang telah Anda buat untuk pekerjaan ini.

1. Pilih **Berikutnya**.

1. Tinjau konfigurasi Anda dan pilih **Buat** untuk membuat pekerjaan.
**catatan**  
Setelah pekerjaan berhasil dimulai, status berubah menjadi **Sedang berlangsung**. Ketika pekerjaan telah selesai, status berubah menjadi **Selesai**. Sementara pekerjaan evaluasi model masih **Dalam proses**, Anda dapat memilih untuk menghentikan pekerjaan sebelum semua tanggapan model dievaluasi oleh tim kerja Anda. Untuk melakukannya, pilih **Hentikan evaluasi** pada halaman arahan evaluasi model. Ini akan mengubah **Status** pekerjaan evaluasi model menjadi **Berhenti**. Setelah pekerjaan evaluasi model berhasil dihentikan, Anda dapat menghapus pekerjaan evaluasi model.

**API dan AWS CLI**

Saat membuat pekerjaan evaluasi model berbasis manusia di luar konsol Amazon Bedrock, Anda perlu membuat ARN definisi aliran SageMaker AI Amazon.

Definisi aliran ARN adalah tempat alur kerja pekerjaan evaluasi model didefinisikan. Definisi alur digunakan untuk menentukan antarmuka pekerja dan tim kerja yang ingin Anda tetapkan ke tugas, dan menghubungkan ke Amazon Bedrock.

Untuk pekerjaan evaluasi model yang dimulai menggunakan operasi Amazon Bedrock API, Anda *harus* membuat ARN definisi alur menggunakan atau SDK AWS CLI yang AWS didukung. Untuk mempelajari lebih lanjut tentang cara kerja definisi alur, dan membuatnya secara terprogram, lihat [Membuat Alur Kerja Tinjauan Manusia (API) di Panduan Pengembang SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/a2i-create-flow-definition.html#a2i-create-human-review-api) *AI*.

Dalam [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateFlowDefinition.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateFlowDefinition.html)Anda harus menentukan `AWS/Bedrock/Evaluation` sebagai masukan ke`AwsManagedHumanLoopRequestSource`. Peran layanan Amazon Bedrock juga harus memiliki izin untuk mengakses bucket keluaran definisi aliran.

Berikut ini adalah contoh permintaan menggunakan AWS CLI. Dalam permintaan tersebut, ARN `HumanTaskUiArn` adalah ARN milik SageMaker AI. Di ARN, Anda hanya dapat memodifikasi file. AWS Region

```
aws sagemaker create-flow-definition --cli-input-json '
{
	"FlowDefinitionName": "human-evaluation-task01",
	"HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },
    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:AWS Region:111122223333:workteam/private-crowd/my-workteam",
		## The Task UI ARN is provided by the service team, you can only modify the AWS Region.
		"HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation"
		"TaskTitle": "Human review tasks",
		"TaskDescription": "Provide a real good answer",
		"TaskCount": 1,
		"TaskAvailabilityLifetimeInSeconds": 864000,
		"TaskTimeLimitInSeconds": 3600,
		"TaskKeywords": [
		    "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://amzn-s3-demo-destination-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'
```

Setelah membuat ARN definisi alur Anda, gunakan contoh berikut untuk membuat pekerjaan evaluasi model berbasis manusia menggunakan SDK AWS CLI atau yang didukung. AWS 

------
#### [ AWS CLI ]

Contoh perintah berikut dan file JSON menunjukkan cara membuat pekerjaan evaluasi model menggunakan pekerja manusia di mana Anda memberikan data respons inferensi Anda sendiri. Untuk mempelajari cara menentukan dataset cepat untuk pekerjaan evaluasi model dengan pekerja manusia, lihat[Buat kumpulan data prompt khusus untuk pekerjaan evaluasi model yang menggunakan pekerja manusia](model-evaluation-prompt-datasets-custom-human.md).

**Example AWS CLI perintah dan file JSON untuk membuat pekerjaan evaluasi menggunakan data respons inferensi Anda sendiri**  

```
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
```

```
{
    "jobName": {{"model-eval-llama-vs-my-other-model"}},
    "roleArn": {{"arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-20250218T223671"}},
    "evaluationConfig": {
        "human": {
            "customMetrics": [
                {
                    "description": "Measures the organization and structure of a generated text.",
                    "name": "Coherence",
                    "ratingMethod": "ThumbsUpDown"
                },
                {
                    "description": "Indicates the accuracy of a generated text.",
                    "name": "Accuracy",
                    "ratingMethod": "ComparisonChoice"
                }
            ],
            "datasetMetricConfigs": [
                {
                    "dataset": {
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoir-2-models.jsonl"
                        },
                        "name": "dataset1"
                    },
                    "metricNames": [
                        "Coherence",
                        "Accuracy"
                    ],
                    "taskType": "Generation"
                }
            ],
            "humanWorkflowConfig": {
                "flowDefinitionArn": {{"arn:aws:sagemaker:us-east-1:111122223333:flow-definition/bedrock-fitness-human-byoir"}},
                "instructions": "<h3>The following are the metrics and their descriptions for this evaluation</h3>\n<p><strong>Coherence</strong>: Measures the organization and structure of a generated text. - <em>Thumbs up/down</em>\n<strong>Accuracy</strong>: Indicates the accuracy of a generated text. - <em>Choice buttons</em></p>\n<h3>Instructions for how to use the evaluation tool</h3>\n<p>The evaluation creator should use this space to write detailed descriptions for every rating method so your evaluators know how to properly rate the responses with the buttons on their screen.</p>\n<h4>For example:</h4>\n<p>If using <strong>Likert scale - individual</strong>, define the 1 and 5 of the 5 point Likert scale for each metric so your evaluators know if 1 or 5 means favorable/acceptable/preferable.\nIf using <strong>Likert scale - comparison</strong>, describe what the evaluator is looking for to determine their preference between two responses.\nIf using <strong>Choice buttons</strong>, describe what is preferred according to your metric and its description.\nIf using <strong>Ordinal ranking</strong>, define what should receive a #1 ranking according to your metric and its description.\nIf using <strong>Thumbs up/down</strong>, define what makes an acceptable response according to your metric and its description.</p>\n<h3>Describing your ground truth responses if applicable to your dataset</h3>\n<p>Describe the purpose of your ground truth responses that will be shown on screen next to each model response. Note that the ground truth responses you provide are not rated/scored by the evaluators - they are meant to be a reference standard for comparison against the model responses.</p>"
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "llama-3-1-80b"
                }
            },
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_other_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}
```

------
#### [ SDK for Python ]

Contoh kode berikut menunjukkan cara membuat pekerjaan evaluasi model yang menggunakan pekerja manusia melalui SDK untuk SDK untuk Python.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                }
            }
        ]
    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)
```

------