

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Membuat pekerjaan evaluasi model otomatis di Amazon Bedrock
Pekerjaan evaluasi model otomatis

Topik ini memberikan petunjuk detail untuk membuat pekerjaan evaluasi model otomatis.

**Topics**
+ [

# Langkah-langkah yang diperlukan sebelum membuat pekerjaan evaluasi model otomatis pertama Anda
](model-evaluation-type-automatic.md)
+ [

# Jenis tugas evaluasi model di Amazon Bedrock
](model-evaluation-tasks.md)
+ [

# Gunakan kumpulan data yang cepat untuk evaluasi model di Amazon Bedrock
](model-evaluation-prompt-datasets.md)
+ [

# Memulai pekerjaan evaluasi model otomatis di Amazon Bedrock
](model-evaluation-jobs-management-create.md)
+ [

# Buat daftar pekerjaan evaluasi model otomatis di Amazon Bedrock
](model-evaluation-jobs-management-list.md)
+ [

# Hentikan pekerjaan evaluasi model di Amazon Bedrock
](model-evaluation-jobs-management-stop.md)
+ [

# Hapus pekerjaan evaluasi model di Amazon Bedrock
](model-evaluation-jobs-management-delete.md)

# Langkah-langkah yang diperlukan sebelum membuat pekerjaan evaluasi model otomatis pertama Anda
Prasyarat

Pekerjaan evaluasi model otomatis memerlukan akses ke sumber daya tingkat layanan berikut. Gunakan topik yang ditautkan untuk mempelajari lebih lanjut tentang menyiapkan.

**Persyaratan izin Cross Origin Resource Sharing (CORS)**  
Semua pekerjaan evaluasi model berbasis konsol memerlukan izin Cross Origin Resource Sharing (CORS) untuk diaktifkan di bucket Amazon S3 apa pun yang ditentukan dalam pekerjaan evaluasi model. Untuk mempelajari selengkapnya, lihat [Izin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3](model-evaluation-security-cors.md)

**Sumber daya tingkat layanan yang diperlukan untuk memulai pekerjaan evaluasi model otomatis**

1. Untuk memulai pekerjaan evaluasi model otomatis, Anda memerlukan akses ke setidaknya satu model fondasi Amazon Bedrock. Untuk mempelajari selengkapnya, lihat [Akses model fondasi Amazon Bedrock](model-access.md).

1. Untuk membuat pekerjaan evaluasi model otomatis, Anda memerlukan akses ke [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/), AWS Command Line Interface, atau AWS SDK yang didukung. Untuk mempelajari lebih lanjut tentang tindakan dan sumber daya IAM yang diperlukan, lihat[Izin konsol yang diperlukan untuk membuat pekerjaan evaluasi model otomatis](#base-for-automatic).

1. Ketika pekerjaan evaluasi model dimulai, peran layanan digunakan untuk melakukan tindakan atas nama Anda. Untuk mempelajari lebih lanjut tentang tindakan IAM yang diperlukan dan persyaratan kebijakan kepercayaan, lihat[Persyaratan peran layanan untuk pekerjaan evaluasi model otomatis](automatic-service-roles.md).

1. Amazon Simple Storage Service — Semua data yang digunakan dan dihasilkan harus ditempatkan di bucket Amazon S3 yang sama AWS Region dalam pekerjaan evaluasi model otomatis.

1. Cross Origin Resource Sharing (CORS) — Pekerjaan evaluasi model otomatis yang dibuat menggunakan konsol Amazon Bedrock mengharuskan Anda menentukan konfigurasi CORS pada bucket S3. Untuk mempelajari selengkapnya, lihat [Izin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3](model-evaluation-security-cors.md).

1. Peran layanan IAM - Untuk menjalankan pekerjaan evaluasi model otomatis, Anda harus membuat peran layanan. Peran layanan memungkinkan Amazon Bedrock untuk melakukan tindakan atas nama Anda di AWS akun Anda. Untuk mempelajari selengkapnya, lihat [Persyaratan peran layanan untuk pekerjaan evaluasi model otomatis](automatic-service-roles.md). 

## Izin konsol yang diperlukan untuk membuat pekerjaan evaluasi model otomatis
Izin konsol untuk pekerjaan evaluasi model otomatis

Kebijakan berikut berisi kumpulan minimum tindakan dan sumber daya IAM di Amazon Bedrock dan Amazon S3 yang diperlukan untuk membuat pekerjaan evaluasi model *otomatis* menggunakan konsol Amazon Bedrock.

Dalam kebijakan tersebut, sebaiknya gunakan [Sumber daya](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) elemen kebijakan IAM JSON untuk membatasi akses hanya ke model dan bucket yang diperlukan untuk pengguna, grup, atau peran IAM.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Jenis tugas evaluasi model di Amazon Bedrock
Jenis tugas evaluasi model

Dalam pekerjaan evaluasi model, jenis tugas evaluasi adalah tugas yang Anda ingin model lakukan berdasarkan informasi dalam petunjuk Anda. Anda dapat memilih satu jenis tugas per pekerjaan evaluasi model.

Tabel berikut merangkum jenis tugas yang tersedia untuk evaluasi model otomatis, kumpulan data bawaan, dan metrik yang relevan untuk setiap jenis tugas.


**Set data bawaan yang tersedia untuk pekerjaan evaluasi model otomatis di Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [

# Pembuatan teks umum untuk evaluasi model di Amazon Bedrock
](model-evaluation-tasks-general-text.md)
+ [

# Ringkasan teks untuk evaluasi model di Amazon Bedrock
](model-evaluation-tasks-text-summary.md)
+ [

# Pertanyaan dan jawaban untuk evaluasi model di Amazon Bedrock
](model-evaluation-tasks-question-answer.md)
+ [

# Klasifikasi teks untuk evaluasi model di Amazon Bedrock
](model-evaluation-text-classification.md)

# Pembuatan teks umum untuk evaluasi model di Amazon Bedrock
Generasi teks umum

General text generation adalah tugas yang digunakan oleh aplikasi yang menyertakan chatbots. Tanggapan yang dihasilkan oleh model terhadap pertanyaan umum dipengaruhi oleh kebenaran, relevansi, dan bias yang terkandung dalam teks yang digunakan untuk melatih model.

**penting**  
Untuk pembuatan teks umum, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut berisi petunjuk yang cocok untuk digunakan dalam tugas pembuatan teks umum.

**Bias dalam Dataset Pembuatan Bahasa Terbuka (BOLD)**  
Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, gender, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.

**RealToxicityPrompts**  
RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.

**T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Triple Basis Pengetahuan (TREX)**  
TREX adalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBTs adalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.

**WikiText2**  
WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan yang tersedia untuk pekerjaan evaluasi model otomatis. Agar berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau AWS SDK yang didukung, gunakan nama parameter di kolom, *Kumpulan data bawaan* (API).


**Set data bawaan yang tersedia untuk pembuatan teks umum di Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat [Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock](model-evaluation-report.md)

# Ringkasan teks untuk evaluasi model di Amazon Bedrock
Ringkasan teks

Ringkasan teks digunakan untuk tugas-tugas termasuk membuat ringkasan berita, dokumen hukum, makalah akademik, pratinjau konten, dan kurasi konten. Ambiguitas, koherensi, bias, dan kefasihan teks yang digunakan untuk melatih model serta kehilangan informasi, akurasi, relevansi, atau ketidakcocokan konteks dapat mempengaruhi kualitas tanggapan.

**penting**  
Untuk ringkasan teks, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Dataset bawaan berikut didukung untuk digunakan dengan jenis tugas ringkasan tugas.

**Gigaword**  
Dataset Gigaword terdiri dari berita utama artikel. Dataset ini digunakan dalam tugas ringkasan teks.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan. Agar berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau AWS SDK yang didukung, gunakan nama parameter di kolom, *Kumpulan data bawaan* (API).


**Set data bawaan yang tersedia untuk ringkasan teks di Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat [Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock](model-evaluation-report.md)

# Pertanyaan dan jawaban untuk evaluasi model di Amazon Bedrock
Pertanyaan dan jawaban

Pertanyaan dan jawaban digunakan untuk tugas-tugas termasuk menghasilkan respons meja bantuan otomatis, pengambilan informasi, dan e-learning. Jika teks yang digunakan untuk melatih model pondasi berisi masalah termasuk data yang tidak lengkap atau tidak akurat, sarkasme atau ironi, kualitas tanggapan dapat memburuk.

**penting**  
Untuk pertanyaan dan jawaban, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut direkomendasikan untuk digunakan dengan tipe tugas pertanyaan dang jawaban.

**BoolQ**  
BoolQ adalah kumpulan data yang terdiri dari pasangan yes/no tanya jawab. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.

**Pertanyaan Alami**  
Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan untuk Google dicari.

**TriviaQA**  
TriviaQA adalah kumpulan data yang berisi lebih dari 650K. question-answer-evidence-triples Dataset ini digunakan dalam tugas tanya jawab.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan. Agar berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau AWS SDK yang didukung, gunakan nama parameter di kolom, *Kumpulan data bawaan* (API).


**Set data bawaan yang tersedia untuk jenis tugas tanya jawab di Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat [Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock](model-evaluation-report.md)

# Klasifikasi teks untuk evaluasi model di Amazon Bedrock
Klasifikasi teks

Klasifikasi teks digunakan untuk mengkategorikan teks ke dalam kategori yang telah ditentukan sebelumnya. Aplikasi yang menggunakan klasifikasi teks meliputi rekomendasi konten, deteksi spam, identifikasi bahasa dan analisis tren di media sosial. Kelas yang tidak seimbang, data ambigu, data bising, dan bias dalam pelabelan adalah beberapa masalah yang dapat menyebabkan kesalahan dalam klasifikasi teks.

**penting**  
Untuk klasifikasi teks, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut direkomendasikan untuk digunakan dengan jenis tugas klasifikasi teks.

**Ulasan Pakaian E-Commerce Wanita**  
Ulasan Pakaian E-Commerce Wanita adalah kumpulan data yang berisi ulasan pakaian yang ditulis oleh pelanggan. Dataset ini digunakan dalam tugas klasifikasi teks. 

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan. Agar berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau AWS SDK yang didukung, gunakan nama parameter di kolom, *Kumpulan data bawaan* (API).




**Set data bawaan yang tersedia di Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/model-evaluation-text-classification.html)

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat [Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock](model-evaluation-report.md)

# Gunakan kumpulan data yang cepat untuk evaluasi model di Amazon Bedrock
Kumpulan data yang cepat

Untuk membuat pekerjaan evaluasi model otomatis, Anda harus menentukan kumpulan data yang cepat. Petunjuk kemudian digunakan selama inferensi dengan model yang Anda pilih untuk dievaluasi. Amazon Bedrock menyediakan kumpulan data bawaan yang dapat digunakan dalam evaluasi model otomatis, atau Anda dapat membawa kumpulan data prompt Anda sendiri.

Gunakan bagian berikut untuk mempelajari lebih lanjut tentang kumpulan data prompt bawaan yang tersedia dan membuat kumpulan data prompt kustom Anda.

## Gunakan kumpulan data prompt bawaan untuk evaluasi model otomatis di Amazon Bedrock
Kumpulan data prompt bawaan

Amazon Bedrock menyediakan beberapa kumpulan data prompt bawaan yang dapat Anda gunakan dalam pekerjaan evaluasi model otomatis. Setiap kumpulan data bawaan didasarkan pada kumpulan data sumber terbuka. Kami telah secara acak mengambil sampel setiap kumpulan data sumber terbuka untuk menyertakan hanya 100 petunjuk.

Saat Anda membuat pekerjaan evaluasi model otomatis dan memilih **jenis Tugas** Amazon Bedrock memberi Anda daftar metrik yang direkomendasikan. Untuk setiap metrik, Amazon Bedrock juga menyediakan kumpulan data bawaan yang direkomendasikan. Untuk mempelajari lebih lanjut tentang jenis tugas yang tersedia, lihat[Jenis tugas evaluasi model di Amazon Bedrock](model-evaluation-tasks.md).

**Bias dalam Dataset Pembuatan Bahasa Terbuka (BOLD)**  
Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, gender, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.

**RealToxicityPrompts**  
RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.

**T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Triple Basis Pengetahuan (TREX)**  
TREX adalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBTs adalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.

**WikiText2**  
WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.

**Gigaword**  
Dataset Gigaword terdiri dari berita utama artikel. Dataset ini digunakan dalam tugas ringkasan teks.

**BoolQ**  
BoolQ adalah kumpulan data yang terdiri dari pasangan yes/no tanya jawab. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.

**Pertanyaan Alami **  
Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan untuk Google dicari.

**TriviaQA**  
TriviaQA adalah kumpulan data yang berisi lebih dari 650K. question-answer-evidence-triples Dataset ini digunakan dalam tugas tanya jawab.

**Ulasan Pakaian E-Commerce Wanita**  
Ulasan Pakaian E-Commerce Wanita adalah kumpulan data yang berisi ulasan pakaian yang ditulis oleh pelanggan. Dataset ini digunakan dalam tugas klasifikasi teks. 

Dalam tabel berikut, Anda dapat melihat daftar kumpulan data yang tersedia dikelompokkan jenis tugas. Untuk mempelajari lebih lanjut tentang cara metrik otomatis dihitung, lihat. [Tinjau metrik untuk pekerjaan evaluasi model otomatis di Amazon Bedrock (konsol)](model-evaluation-report-programmatic.md) 


**Set data bawaan yang tersedia untuk pekerjaan evaluasi model otomatis di Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

Untuk mempelajari lebih lanjut tentang persyaratan pembuatan dan contoh kumpulan data prompt kustom, lihat. [Gunakan kumpulan data prompt khusus untuk evaluasi model di Amazon Bedrock](#model-evaluation-prompt-datasets-custom)

## Gunakan kumpulan data prompt khusus untuk evaluasi model di Amazon Bedrock
Kumpulan data prompt khusus

Anda dapat membuat kumpulan data prompt khusus dalam pekerjaan evaluasi model otomatis. Kumpulan data prompt khusus harus disimpan di Amazon S3, dan gunakan format baris JSON dan gunakan ekstensi file. `.jsonl` Setiap baris harus berupa objek JSON yang valid. Mungkin ada hingga 1000 petunjuk dalam kumpulan data Anda per pekerjaan evaluasi otomatis.

Untuk pekerjaan yang dibuat menggunakan konsol, Anda harus memperbarui konfigurasi Cross Origin Resource Sharing (CORS) pada bucket S3. Untuk mempelajari lebih lanjut tentang izin CORS yang diperlukan, lihat. [Izin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3](model-evaluation-security-cors.md) 

Anda harus menggunakan pasangan nilai kunci berikut dalam kumpulan data khusus.
+ `prompt`— diperlukan untuk menunjukkan masukan untuk tugas-tugas berikut:
  + Permintaan yang harus ditanggapi oleh model Anda, dalam pembuatan teks umum.
  + Pertanyaan yang harus dijawab model Anda dalam jenis tugas tanya jawab.
  + Teks yang harus diringkas oleh model Anda dalam tugas ringkasan teks.
  + Teks yang harus diklasifikasikan oleh model Anda dalam tugas klasifikasi.
+ `referenceResponse`— diperlukan untuk menunjukkan respons kebenaran dasar yang menjadi dasar model Anda dievaluasi untuk jenis tugas berikut:
  + Jawaban untuk semua petunjuk dalam tugas tanya jawab.
  + Jawaban untuk semua akurasi, dan evaluasi ketahanan.
+ `category`— (opsional) menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori. 

Sebagai contoh, akurasi membutuhkan pertanyaan yang diajukan, dan jawaban untuk memeriksa respons model terhadap. Dalam contoh ini, gunakan kunci `prompt` dengan nilai yang terkandung dalam pertanyaan, dan kunci `referenceResponse` dengan nilai yang terkandung dalam jawaban sebagai berikut.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

Contoh sebelumnya adalah satu baris file input baris JSON yang akan dikirim ke model Anda sebagai permintaan inferensi. Model akan dipanggil untuk setiap catatan tersebut di kumpulan data baris JSON Anda. Contoh input data berikut adalah untuk tugas jawaban pertanyaan yang menggunakan `category` kunci opsional untuk evaluasi.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Memulai pekerjaan evaluasi model otomatis di Amazon Bedrock
Membuat tugas

Anda dapat membuat pekerjaan evaluasi model otomatis menggunakan Konsol Manajemen AWS, AWS CLI, atau AWS SDK yang didukung. Dalam pekerjaan evaluasi model otomatis, model yang Anda pilih melakukan inferensi menggunakan petunjuk dari kumpulan data bawaan yang didukung atau kumpulan data prompt kustom Anda sendiri. Setiap pekerjaan juga mengharuskan Anda untuk memilih jenis tugas. Jenis tugas memberi Anda beberapa metrik yang direkomendasikan, dan kumpulan data prompt bawaan. Untuk mempelajari lebih lanjut tentang jenis dan metrik tugas yang tersedia, lihat[Jenis tugas evaluasi model di Amazon Bedrock](model-evaluation-tasks.md).

Contoh berikut menunjukkan cara membuat pekerjaan evaluasi model otomatis menggunakan konsol Amazon Bedrock AWS CLI, SDK untuk Python.

Semua pekerjaan evaluasi model otomatis mengharuskan Anda membuat peran layanan IAM. Untuk mempelajari lebih lanjut tentang persyaratan IAM untuk menyiapkan pekerjaan evaluasi model, lihat[Persyaratan peran layanan untuk pekerjaan evaluasi model](model-evaluation-security-service-roles.md).

Contoh berikut menunjukkan cara membuat pekerjaan evaluasi model otomatis. Di API, Anda juga dapat menyertakan [profil inferensi](cross-region-inference.md) dalam pekerjaan dengan menentukan ARN di lapangan. `modelIdentifier`

------
#### [ Amazon Bedrock console ]

Gunakan prosedur berikut untuk membuat pekerjaan evaluasi model menggunakan konsol Amazon Bedrock. Agar berhasil menyelesaikan prosedur ini, pastikan bahwa pengguna, grup, atau peran IAM Anda memiliki izin yang cukup untuk mengakses konsol. Untuk mempelajari selengkapnya, lihat [Izin konsol yang diperlukan untuk membuat pekerjaan evaluasi model otomatis](model-evaluation-type-automatic.md#base-for-automatic). 

Selain itu, kumpulan data prompt kustom apa pun yang ingin Anda tentukan dalam pekerjaan evaluasi model harus memiliki izin CORS yang diperlukan yang ditambahkan ke bucket Amazon S3. Untuk mempelajari selengkapnya tentang menambahkan izin CORS yang diperlukan, lihat,. [Izin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3](model-evaluation-security-cors.md)

**Untuk membuat pekerjaan evaluasi model otomatis**

1. Buka konsol Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Di panel navigasi, pilih **Evaluasi model**.

1. Dalam **Buat kartu evaluasi**, di bawah **Otomatis** pilih **Buat evaluasi otomatis**.

1. Pada halaman **Buat evaluasi otomatis**, berikan informasi berikut

   1. **Nama evaluasi** — Berikan nama pekerjaan evaluasi model yang menggambarkan pekerjaan. Nama ini ditampilkan dalam daftar pekerjaan evaluasi model Anda. Nama harus unik di akun Anda di file AWS Region.

   1. **Deskripsi** (Opsional) - Berikan deskripsi opsional.

   1. **Model** — Pilih model yang ingin Anda gunakan dalam pekerjaan evaluasi model.

      Untuk mempelajari lebih lanjut tentang model yang tersedia dan mengaksesnya di Amazon Bedrock, lihat. [Akses model fondasi Amazon Bedrock](model-access.md)

   1. (Opsional) Untuk mengubah konfigurasi inferensi pilih **perbarui**.

      Mengubah konfigurasi inferensi mengubah respons yang dihasilkan oleh model yang dipilih. Untuk mempelajari lebih lanjut tentang parameter inferensi yang tersedia, lihat[Parameter permintaan inferensi dan bidang respons untuk model dasar](model-parameters.md).

   1. **Jenis tugas** — Pilih jenis tugas yang Anda ingin model coba lakukan selama pekerjaan evaluasi model.

   1. **Metrik dan kumpulan data** — Daftar metrik yang tersedia dan kumpulan data prompt bawaan berubah berdasarkan tugas yang Anda pilih. Anda dapat memilih dari daftar kumpulan **data bawaan yang tersedia atau Anda dapat memilih Gunakan kumpulan data** **prompt Anda sendiri**. Jika Anda memilih untuk menggunakan kumpulan data prompt Anda sendiri, masukkan URI S3 yang tepat dari file kumpulan data prompt Anda atau pilih **Browse S3** untuk mencari kumpulan data prompt Anda.

   1. **Hasil evaluasi** —Tentukan URI S3 dari direktori tempat Anda ingin hasil disimpan. Pilih **Jelajahi S3** untuk mencari lokasi di Amazon S3.

   1. (Opsional) Untuk mengaktifkan penggunaan kunci yang dikelola pelanggan Pilih **Sesuaikan pengaturan enkripsi (lanjutan)**. Kemudian, berikan ARN AWS KMS kunci yang ingin Anda gunakan.

   1. **Peran Amazon Bedrock IAM** — Pilih **Gunakan peran yang ada** untuk menggunakan peran layanan IAM yang sudah memiliki izin yang diperlukan, atau pilih **Buat peran baru untuk membuat peran** layanan IAM baru.

1. Kemudian, pilih **Buat**.

Setelah status berubah **Selesai**, Anda dapat melihat kartu laporan pekerjaan.

------
#### [ SDK for Python ]

Contoh berikut membuat pekerjaan evaluasi otomatis menggunakanPython.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

Dalam AWS CLI, Anda dapat menggunakan `help` perintah untuk melihat parameter mana yang diperlukan, dan parameter mana yang opsional saat menentukan `create-evaluation-job` dalam AWS CLI.

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Buat daftar pekerjaan evaluasi model otomatis di Amazon Bedrock
Daftar pekerjaan

Anda dapat mencantumkan pekerjaan evaluasi model otomatis saat ini yang telah Anda buat menggunakan AWS CLI, atau AWS SDK yang didukung. Di konsol Amazon Bedrock, Anda juga dapat melihat tabel yang berisi pekerjaan evaluasi model saat ini.

Contoh berikut menunjukkan cara menemukan pekerjaan evaluasi model Anda menggunakan Konsol Manajemen AWS, AWS CLI dan SDK untuk Python.

------
#### [ Amazon Bedrock console ]

1. Buka konsol Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Di panel navigasi, pilih **Evaluasi model**.

1. Dalam kartu **Pekerjaan Evaluasi Model**, Anda dapat menemukan tabel yang mencantumkan pekerjaan evaluasi model yang telah Anda buat.

------
#### [ AWS CLI ]

Di AWS CLI, Anda dapat menggunakan `help` perintah untuk melihat parameter yang diperlukan, dan parameter mana yang opsional saat menggunakan`list-evaluation-jobs`.

```
aws bedrock list-evaluation-jobs help
```

Berikut ini adalah contoh penggunaan `list-evaluation-jobs` dan menentukan bahwa maksimal 5 pekerjaan dikembalikan. Secara default, pekerjaan dikembalikan dalam urutan menurun sejak saat dimulai.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

Contoh berikut menunjukkan cara menggunakan AWS SDK untuk Python untuk menemukan pekerjaan evaluasi model yang telah Anda buat sebelumnya. 

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Hentikan pekerjaan evaluasi model di Amazon Bedrock
Hentikan pekerjaan

Anda dapat menghentikan pekerjaan evaluasi model yang saat ini sedang diproses menggunakan Konsol Manajemen AWS, AWS CLI, atau AWS SDK yang didukung.

Contoh berikut menunjukkan cara menghentikan pekerjaan evaluasi model menggunakan Konsol Manajemen AWS, AWS CLI, dan SDK untuk Python

------
#### [ Amazon Bedrock console ]

Contoh berikut menunjukkan cara menghentikan pekerjaan evaluasi model menggunakan Konsol Manajemen AWS

1. Buka konsol Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Di panel navigasi, pilih **Evaluasi model**.

1. Dalam kartu **Pekerjaan Evaluasi Model**, Anda dapat menemukan tabel yang mencantumkan pekerjaan evaluasi model yang telah Anda buat.

1. Pilih tombol radio di sebelah nama pekerjaan Anda.

1. Kemudian, pilih **Hentikan evaluasi**.

------
#### [ SDK for Python ]

Contoh berikut menunjukkan cara menghentikan pekerjaan evaluasi model menggunakan SDK untuk Python

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

Dalam AWS CLI, Anda dapat menggunakan `help` perintah untuk melihat parameter mana yang diperlukan, dan parameter mana yang opsional saat menentukan `add-something` dalam AWS CLI.

```
aws bedrock create-evaluation-job help
```

Contoh berikut menunjukkan cara menghentikan pekerjaan evaluasi model menggunakan AWS CLI

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Hapus pekerjaan evaluasi model di Amazon Bedrock
Hapus pekerjaan

Anda dapat menghapus tugas evaluasi model menggunakan konsol Amazon Bedrock, atau dengan menggunakan [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html)operasi dengan AWS CLI, atau AWS SDK yang didukung. 

Sebelum Anda dapat menghapus pekerjaan evaluasi model, status pekerjaan harus`FAILED`,`COMPLETED`, atau`STOPPED`. Anda bisa mendapatkan status saat ini untuk pekerjaan dari konsol Amazon Bedrock atau dengan menelepon. [ ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html) Untuk informasi selengkapnya, lihat [Buat daftar pekerjaan evaluasi model otomatis di Amazon BedrockDaftar pekerjaan evaluasi model yang menggunakan pekerja manusia di Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Anda dapat menghapus hingga 25 pekerjaan evaluasi model sekaligus dengan konsol dan dengan `BatchDeleteEvaluationJob` operasi. Jika Anda perlu menghapus lebih banyak pekerjaan, ulangi prosedur konsol atau `BatchDeleteEvaluationJob` panggilan.

Jika Anda menghapus pekerjaan evaluasi model dengan `BatchDeleteEvaluationJob` operasi, Anda memerlukan Amazon Resource Names (ARNs) dari model yang ingin Anda hapus. Untuk informasi tentang mendapatkan ARN untuk model, lihat. [Buat daftar pekerjaan evaluasi model otomatis di Amazon BedrockDaftar pekerjaan evaluasi model yang menggunakan pekerja manusia di Amazon Bedrock](model-evaluation-jobs-management-list.md) 

Saat Anda menghapus pekerjaan evaluasi model, semua sumber daya di Amazon Bedrock dan Amazon SageMaker AI akan dihapus. Pekerjaan evaluasi model apa pun yang disimpan di bucket Amazon S3 dibiarkan tidak berubah. Selain itu, untuk pekerjaan evaluasi model yang menggunakan pekerja manusia, menghapus pekerjaan evaluasi model tidak akan menghapus tenaga kerja atau tim kerja yang telah Anda konfigurasi di Amazon Cognito atau AI. SageMaker 

Gunakan bagian berikut untuk melihat contoh cara menghapus pekerjaan evaluasi model.

------
#### [ Amazon Bedrock console ]

Gunakan prosedur berikut untuk menghapus pekerjaan evaluasi model menggunakan konsol Amazon Bedrock. Agar berhasil menyelesaikan prosedur ini, pastikan bahwa pengguna, grup, atau peran IAM Anda memiliki izin yang cukup untuk mengakses konsol. Untuk mempelajari selengkapnya, lihat [Izin konsol yang diperlukan untuk membuat pekerjaan evaluasi model otomatis](model-evaluation-type-automatic.md#base-for-automatic).

**Untuk menghapus beberapa pekerjaan evaluasi model.**

1. Buka konsol Amazon Bedrock: [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)

1. Di panel navigasi, pilih **Evaluasi model**.

1. Dalam kartu **Pekerjaan Evaluasi Model**, gunakan tabel untuk menemukan pekerjaan evaluasi model yang ingin Anda hapus, pilih mereka menggunakan kotak centang di sebelah nama pekerjaan. Anda dapat memilih hingga 25 pekerjaan.

1. Pilih **Hapus** untuk menghapus pekerjaan evaluasi model.

1. Jika Anda perlu menghapus lebih banyak pekerjaan evaluasi model, ulangi langkah 3 dan 4.

------
#### [ AWS CLI ]

Di AWS CLI, Anda dapat menggunakan `help` perintah untuk melihat parameter yang diperlukan, dan parameter mana yang opsional saat menggunakan`batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job help
```

Berikut ini adalah contoh penggunaan `batch-delete-evaluation-job` dan menentukan bahwa 2 pekerjaan evaluasi model akan dihapus. Anda menggunakan `job-identifiers` parameter untuk menentukan daftar ARNS untuk pekerjaan evaluasi model yang ingin Anda hapus. Anda dapat menghapus hingga 25 pekerjaan evaluasi model dalam satu panggilan ke`batch-delete-evaluation-job`. Jika Anda perlu menghapus lebih banyak pekerjaan, lakukan panggilan lebih lanjut ke`batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

Setelah mengirimkan Anda akan mendapatkan tanggapan berikut.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

Contoh berikut menunjukkan cara menggunakan AWS SDK untuk Python untuk menghapus pekerjaan evaluasi model. Gunakan `jobIdentifiers` parameter untuk menentukan daftar ARNS untuk pekerjaan evaluasi model yang ingin Anda hapus. Anda dapat menghapus hingga 25 pekerjaan evaluasi model dalam satu panggilan ke`BatchDeleteEvaluationJob`. Jika Anda perlu menghapus lebih banyak pekerjaan, lakukan panggilan lebih lanjut ke`BatchDeleteEvaluationJob`.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------