

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Membuat pekerjaan evaluasi RAG pengambilan dan hasilkan menggunakan metrik khusus
<a name="knowledge-base-evaluation-create-randg-custom"></a>

Untuk membuat pekerjaan evaluasi yang menggunakan metrik khusus, Anda perlu menyediakan yang berikut:
+ Prompt yang berisi instruksi terperinci untuk digunakan model hakim
+ Model evaluator yang ingin Anda gunakan untuk metrik kustom Anda

Anda juga dapat menentukan skala penilaian (skema keluaran) yang dapat digunakan model hakim untuk menilai respons model generator.

Anda dapat membuat tugas evaluasi dengan metrik kustom menggunakan Konsol Manajemen AWS, AWS Command Line Interface (AWS CLI), atau menggunakan Amazon Bedrock API. Gunakan instruksi berikut untuk membuat pekerjaan evaluasi Anda. Untuk petunjuk dan panduan cara membuat prompt untuk metrik Anda dan menentukan skala peringkat yang Anda tentukan selama pembuatan, lihat[Buat prompt untuk metrik kustom](kb-evaluation-custom-metrics-prompt-formats.md).

Saat Anda membuat pekerjaan evaluasi dengan satu atau beberapa metrik kustom, Amazon Bedrock menyimpan definisi metrik Anda sebagai file JSON di bucket output S3 yang Anda tentukan. Anda dapat mengakses file-file ini dengan menavigasi ke. `s3://{{S3-output-bucket-name}}/{{job-name}}/{{job-uuid}}/custom_metrics` Untuk melihat format definisi JSON dari metrik kustom, lihat. [Membuat file JSON untuk membuat metrik khusus](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-json)

Untuk membuat pekerjaan menggunakan instruksi berikut, Anda juga memerlukan kumpulan data yang cepat. Jika Anda belum membuatnya, lihat[Buat kumpulan data cepat untuk evaluasi RAG di Amazon Bedrock](knowledge-base-evaluation-prompt.md).

Untuk daftar model evaluator yang didukung, lihat[Model yang didukung](evaluation-kb.md#evaluation-kb-supported).

------
#### [ Console ]

1. Buka [konsol Amazon Bedrock](https://console.aws.amazon.com/bedrock/home).

1. **Di panel sebelah kiri di bawah **Inferensi dan penilaian**, pilih Evaluasi.**

1. **Di panel **evaluasi RAG**, pilih Buat.**

1. Masukkan detail evaluasi RAG Anda dengan melakukan hal berikut:

   1. Di panel **Detail evaluasi** di bawah **Nama evaluasi**, masukkan nama untuk pekerjaan evaluasi Anda. Nama yang Anda pilih harus unik di dalam diri Anda AWS Region.

   1. Secara opsional, di bawah **Deskripsi - *opsional***, masukkan deskripsi untuk pekerjaan evaluasi Anda.

   1. Di bawah **model Evaluator**, **pilih Pilih model** dan pilih model evaluator yang ingin Anda lakukan evaluasi.

1. Masukkan sumber inferensi untuk pekerjaan evaluasi Anda. [Dengan evaluasi Amazon Bedrock RAG, Anda dapat mengevaluasi kinerja Pangkalan Pengetahuan Amazon Bedrock, atau sumber RAG lainnya dengan menyediakan data respons inferensi Anda sendiri dalam kumpulan data yang cepat.](knowledge-base-evaluation-prompt.md) Untuk memilih Basis Pengetahuan Amazon Bedrock, lakukan hal berikut:

   1. Di panel **Sumber inferensi**, di bawah **Pilih sumber pilih** Basis Pengetahuan **Batuan Dasar**.

   1. Di bawah **Pilih Basis Pengetahuan**, pilih Basis Pengetahuan menggunakan daftar dropdown.

1. Untuk membawa data respons inferensi Anda sendiri, lakukan hal berikut:

   1. Di panel **Sumber inferensi**, di bawah **Pilih sumber pilih** **Bawa tanggapan inferensi Anda sendiri**.

   1. Untuk **nama Sumber**, masukkan nama untuk sumber RAG yang Anda gunakan untuk membuat data respons. Nama yang Anda masukkan harus cocok dengan `knowledgeBaseIdentifier` parameter dalam [kumpulan data prompt](knowledge-base-evaluation-prompt.md) Anda.

1. Di panel **Sumber inferensi**, di bawah **Jenis evaluasi**, pilih **Pengambilan dan** generasi respons.

1. Pilih metrik bawaan yang ingin digunakan model evaluator dengan memilihnya di panel **Metrik**.

1. Untuk menambahkan satu metrik kustom lagi, mulailah dengan memilih model evaluator yang ingin Anda gunakan untuk mengevaluasi metrik Anda. Di panel **Metrik kustom**, lakukan hal berikut:

   1. Pilih **Pilih model**.

   1. Di pop-up, pilih model yang ingin Anda gunakan.

   1. Pilih **Terapkan**.

1. Di bawah **Nama metrik**, masukkan nama untuk metrik Anda.

1. Anda dapat mengonfigurasi metrik Anda dengan tiga cara: dengan menyediakan file JSON yang menentukan metrik, dengan mengedit prompt metrik bawaan yang ada dari templat, atau dengan memasukkan prompt langsung di konsol untuk digunakan model evaluator.

   Untuk membuat metrik dari file JSON, lakukan hal berikut:

   1. Di bawah **Pilih jenis metrik**, pilih **Impor file JSON**.

   1. Di bawah **Impor file JSON**, pilih **Pilih file**.

   1. **Menggunakan pemilih file, pilih file JSON dengan definisi metrik khusus Anda dan pilih Buka.** Untuk mempelajari skema untuk menentukan metrik kustom menggunakan file JSON, dan untuk melihat beberapa contoh file, lihat. [Membuat file JSON untuk membuat metrik khusus](kb-evaluation-custom-metrics-prompt-formats.md#kb-evaluation-custom-metrics-prompt-formats-json)

   1. (Opsional) untuk membuat metrik lain, pilih **Tambahkan metrik khusus**. Anda dapat membuat hingga 10 metrik khusus untuk pekerjaan evaluasi.

      Setelah selesai membuat metrik kustom, lanjutkan ke langkah 14 untuk mengonfigurasi kumpulan data Anda untuk pekerjaan evaluasi.

1. Untuk membuat metrik kustom dari templat bawaan, lakukan hal berikut:

   1. Di bawah **Pilih jenis metrik**, pilih **Gunakan templat**.

   1. Di bawah **Pilih templat**, gunakan daftar tarik-turun untuk memilih prompt metrik bawaan yang ada untuk digunakan sebagai titik awal untuk metrik kustom Anda.

   1. Di bawah **Instruksi** edit prompt yang Anda pilih agar sesuai dengan kasus penggunaan Anda sendiri. Untuk praktik terbaik dan daftar elemen yang diperlukan saat membuat prompt metrik kustom, lihat[Buat prompt untuk metrik kustom](kb-evaluation-custom-metrics-prompt-formats.md).

   1. Jika Anda ingin pekerjaan evaluasi Anda menghasilkan output terstruktur dengan skor peringkat, biarkan **skema Output diaktifkan (disarankan)** dicentang. Konfigurasi metrik Anda tidak perlu menyertakan skema keluaran, tetapi sebaiknya Anda mendefinisikannya. Jika Anda tidak menggunakan skema, hasil yang Anda lihat hanya akan menyertakan penjelasan tanpa skor atau visualisasi data.

   1. Di bawah **Jenis skala**, pilih **Numerik** atau **String** sesuai dengan kasus penggunaan Anda, dan masukkan definisi skala dan deskripsi Anda di kotak teks. Untuk panduan dan praktik terbaik dalam menentukan skala keluaran, lihat[Menentukan skema keluaran (skala penilaian)](kb-evaluation-custom-metrics-prompt-formats.md#kb-evaluation-custom-metrics-prompt-formats-schema).

   1. (Opsional) untuk membuat metrik lain, pilih **Tambahkan metrik khusus**. Anda dapat membuat hingga 10 metrik khusus untuk pekerjaan evaluasi.

      Setelah selesai membuat metrik kustom, lanjutkan ke langkah 14 untuk mengonfigurasi kumpulan data Anda untuk pekerjaan evaluasi.

1. Untuk membuat metrik khusus dari awal di konsol, lakukan hal berikut:

   1. Di bawah **Pilih jenis metrik**, pilih **Kustom**.

   1. Di bawah **Instruksi**, masukkan prompt untuk metrik kustom Anda langsung di kotak teks. Untuk praktik terbaik dan daftar elemen yang diperlukan saat membuat prompt metrik kustom, lihat[Konstruksi yang cepat dan praktik terbaik](kb-evaluation-custom-metrics-prompt-formats.md#kb-evaluation-custom-metrics-prompt-formats-create).

   1. Jika Anda ingin pekerjaan evaluasi Anda menghasilkan output terstruktur dengan skor peringkat, biarkan **skema Output diaktifkan (disarankan)** dicentang. Konfigurasi metrik Anda tidak perlu menyertakan skema keluaran, tetapi sebaiknya Anda mendefinisikannya. Jika Anda tidak menggunakan skema, hasil yang Anda lihat hanya akan menyertakan penjelasan tanpa skor atau visualisasi data.

   1. Di bawah **Jenis skala**, pilih **numerik** atau **String** sesuai dengan kasus penggunaan Anda, dan masukkan definisi skala dan deskripsi Anda di kotak teks. Untuk panduan dan praktik terbaik dalam menentukan skala keluaran, lihat[Menentukan skema keluaran (skala penilaian)](kb-evaluation-custom-metrics-prompt-formats.md#kb-evaluation-custom-metrics-prompt-formats-schema).

   1. (Opsional) untuk membuat yang lain, pilih **Tambahkan metrik khusus**. Anda dapat membuat hingga 10 metrik khusus untuk pekerjaan evaluasi.

      Setelah selesai membuat metrik kustom, lanjutkan ke langkah berikutnya untuk mengonfigurasi kumpulan data Anda untuk pekerjaan evaluasi.

1. Tentukan lokasi input dan output untuk dataset dan hasil Anda dengan melakukan hal berikut:

   1. **Di panel **Datasets** di bawah **Pilih kumpulan data prompt, masukkan URI Amazon S3 untuk kumpulan data** prompt Anda, atau pilih Jelajahi S3 dan pilih file Anda.** Untuk melihat definisi format kumpulan data prompt yang diperlukan untuk pekerjaan evaluasi khusus pengambilan, lihat. [Buat kumpulan data cepat untuk pekerjaan evaluasi RAG khusus pengambilan](knowledge-base-evaluation-prompt-retrieve.md)

   1. Di bawah **Hasil evaluasi**, masukkan lokasi Amazon S3 untuk Amazon Bedrock untuk menyimpan hasil Anda, atau pilih **Jelajahi S3** untuk memilih lokasi.

1. Di bawah **peran Amazon Bedrock IAM - Izin**, pilih **Buat dan gunakan peran layanan baru** agar Amazon Bedrock membuat peran IAM baru untuk pekerjaan evaluasi, atau pilih **Gunakan peran layanan yang ada untuk memilih peran IAM yang ada**. Untuk daftar izin yang diperlukan untuk membuat dan menjalankan pekerjaan evaluasi, lihat[Prasyarat](knowledge-base-evaluation-create.md#knowledge-base-evaluation-create-prereqs).

1. (Opsional) untuk menggunakan kunci KMS Anda sendiri untuk mengenkripsi data evaluasi Anda, di bawah **KMSKey - *Opsional*, periksa **Sesuaikan pengaturan enkripsi (lanjutan)** dan pilih kunci** Anda. AWS KMS Secara default, Amazon Bedrock mengenkripsi data pekerjaan evaluasi Anda dengan kunci KMS yang AWS dimiliki.

1. Pilih **Buat** untuk menyelesaikan pembuatan pekerjaan evaluasi Anda.

------
#### [ AWS CLI ]

**Buat pekerjaan evaluasi pengambilan dan hasilkan untuk Basis Pengetahuan Amazon Bedrock**
+ Jalankan AWS CLI perintah berikut menggunakan contoh file JSON.

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": "my_rag_eval",
      "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-Custom-Metric",
      "applicationType": "RagEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.ContextCoverage",
                          "Builtin.ContextRelevance",
                          "CustomMetric-Correctness-FloatRatingScale"
                      ]
                  }
              ],
              "customMetricConfig": {
                  "customMetrics": [
                      {
                          "customMetricDefinition": {
                              "name": "CustomMetric-Correctness-FloatRatingScale",
                              "instructions": "{{<Your complete custom metric prompt including at least one {{input variable}}>}}",
                              "ratingScale": [
                                  {
                                      "definition": "Not at all",
                                      "value": {
                                          "floatValue": 0
                                      }
                                  },
                                  {
                                      "definition": "Somewhat",
                                      "value": {
                                          "floatValue": 1
                                      }
                                  },
                                  {
                                      "definition": "Mostly",
                                      "value": {
                                          "floatValue": 2
                                      }
                                  }
                              ]
                          }
                      }
                  ],
                  "evaluatorModelConfig": {
                      "bedrockEvaluatorModels": [
                          {
                              "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                          }
                      ]
                  }
              },
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "mistral.mistral-large-2402-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "ragConfigs": [
              {
                  "knowledgeBaseConfig": {
                      "retrieveAndGenerateConfig": {
                          "type": "KNOWLEDGE_BASE",
                          "knowledgeBaseConfiguration": {
                              "knowledgeBaseId": {{"<Your Knowledge Base ID>"}},
                              "modelArn": "mistral.mistral-large-2402-v1:0",
                              "generationConfiguration": {
                                  "promptTemplate": {
                                      "textPromptTemplate": "$search_results$ hello world template"
                                  }
                              },
                              "orchestrationConfiguration": {
                                  "queryTransformationConfiguration": {
                                      "type": "QUERY_DECOMPOSITION"
                                  }
                               }
                          }
                      }
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```
**catatan**  
Contoh file JSON berisi dua `evaluatorModelConfig` objek. Yang di dalam `customMetricConfig` objek menentukan model evaluator yang akan digunakan dengan metrik kustom. Contoh lain menentukan model yang akan digunakan untuk metrik bawaan. Berhati-hatilah untuk menentukan kedua objek ini dengan benar.

**Buat pekerjaan evaluasi pengambilan dan hasilkan dengan data respons inferensi Anda sendiri**
+ Jalankan AWS CLI perintah berikut menggunakan contoh file JSON.

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": "my_rag_eval",
      "roleArn": "arn:aws:iam::{{111122223333}}:role/service-role/Amazon-Bedrock-Custom-Metric",
      "applicationType": "RagEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.ContextCoverage",
                          "Builtin.ContextRelevance",
                          "CustomMetric-Correctness-FloatRatingScale"
                      ]
                  }
              ],
              "customMetricConfig": {
                  "customMetrics": [
                      {
                          "customMetricDefinition": {
                              "name": "CustomMetric-Correctness-FloatRatingScale",
                              "instructions": "{{<Your complete custom metric prompt including at least one {{input variable}}>}}",
                              "ratingScale": [
                                  {
                                      "definition": "Not at all",
                                      "value": {
                                          "floatValue": 0
                                      }
                                  },
                                  {
                                      "definition": "Somewhat",
                                      "value": {
                                          "floatValue": 1
                                      }
                                  },
                                  {
                                      "definition": "Mostly",
                                      "value": {
                                          "floatValue": 2
                                      }
                                  }
                              ]
                          }
                      }
                  ],
                  "evaluatorModelConfig": {
                      "bedrockEvaluatorModels": [
                          {
                              "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                          }
                      ]
                  }
              },
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "mistral.mistral-large-2402-v1:0"
                      }
                  ]
              }
          }
      },
     "inferenceConfig": {
          "ragConfigs": [
              {
                  "precomputedRagSourceConfig": {
                      "retrieveAndGenerateSourceConfig": {
                          "ragSourceIdentifier": {{"my_rag_source"}}
                      }
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```
**catatan**  
Contoh file JSON berisi dua `evaluatorModelConfig` objek. Yang di dalam `customMetricConfig` objek menentukan model evaluator yang akan digunakan dengan metrik kustom. Contoh lain menentukan model yang akan digunakan untuk metrik bawaan. Berhati-hatilah untuk menentukan kedua objek ini dengan benar.

------