

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Buat pekerjaan evaluasi model otomatis di Studio
<a name="clarify-foundation-model-evaluate-auto-ui"></a>

 Wizard yang tersedia di Studio memandu Anda dalam memilih model untuk dievaluasi, memilih jenis tugas, memilih metrik dan kumpulan data, serta mengonfigurasi sumber daya yang diperlukan. Topik berikut menunjukkan cara memformat kumpulan data input kustom opsional, mengatur lingkungan, dan membuat pekerjaan evaluasi model di Studio.

## Format dataset masukan Anda
<a name="clarify-foundation-model-evaluate-auto-ui-format-input"></a>

Untuk menggunakan dataset prompt kustom Anda sendiri, itu harus berupa `jsonlines` file, di mana setiap baris adalah objek JSON yang valid. Setiap objek JSON *harus* berisi satu prompt. 

Untuk membantu memastikan bahwa JumpStart model yang Anda pilih berkinerja baik, SageMaker Clarify secara otomatis memformat semua kumpulan data prompt agar dalam format yang paling sesuai untuk **dimensi Evaluasi** **Model** yang Anda pilih. Untuk kumpulan data prompt bawaan, SageMaker Clarify juga akan menambah prompt Anda dengan teks instruksional tambahan. Untuk melihat bagaimana SageMaker Clarify akan memodifikasi petunjuknya, pilih **templat prompt** di bawah **dimensi Evaluasi** yang telah Anda tambahkan ke pekerjaan evaluasi model. Untuk melihat contoh bagaimana Anda dapat memodifikasi template prompt, lihat [Contoh template Prompt](clarify-foundation-model-evaluate-whatis.md#clarify-prompt-template).

Toggle memungkinkan Anda untuk mematikan atau mengaktifkan dukungan template prompt otomatis yang disediakan SageMaker Clarify untuk kumpulan data bawaan. Mematikan template prompt otomatis memungkinkan, Anda untuk menentukan template prompt kustom Anda sendiri yang akan diterapkan ke semua prompt dalam dataset Anda. 

Untuk mempelajari kunci mana yang tersedia untuk kumpulan data kustom di UI, lihat daftar tugas berikut.
+ `model_input`— Diperlukan untuk menunjukkan input untuk tugas-tugas berikut.
  + **Permintaan** yang harus ditanggapi oleh model Anda dalam tugas **generasi terbuka**, **toksisitas**, dan **akurasi**.
  + **Pertanyaan** yang harus dijawab model Anda dalam **menjawab pertanyaan**, dan tugas **pengetahuan faktual**.
  + **Teks** yang harus diringkas oleh model Anda dalam tugas **ringkasan teks**.
  + **Teks** yang harus diklasifikasikan oleh model Anda dalam tugas **klasifikasi**.
  + **Teks** yang Anda ingin model Anda terganggu dalam tugas ketahanan **semantik**.
+ `target_output`— Diperlukan untuk menunjukkan respons terhadap model Anda yang dievaluasi untuk tugas-tugas berikut.
  + **Jawaban** ****untuk **menjawab** **pertanyaan**, **akurasi**, **ketahanan** **semantik**, dan tugas evaluasi faktual.**** 
  + Untuk **akurasi**, dan tugas **ketahanan** **semantik**, pisahkan jawaban yang dapat diterima dengan file. `<OR>` Evaluasi menerima salah satu jawaban yang dipisahkan oleh koma sebagai benar. Sebagai contoh, gunakan`target_output="UK<OR>England<OR>United Kingdom"`, jika Anda ingin menerima salah satu `UK` atau `England` atau `United Kingdom` sebagai jawaban yang dapat diterima.
+ (Opsional) `category` - Menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori.
+ `sent_less_input`— Diperlukan untuk menunjukkan prompt yang mengandung **lebih sedikit** bias untuk tugas stereotip yang cepat.
+ `sent_more_input`— Diperlukan untuk menunjukkan prompt yang berisi **lebih banyak** bias untuk tugas stereotip yang cepat.

Evaluasi pengetahuan faktual membutuhkan pertanyaan untuk diajukan dan jawaban untuk memeriksa respons model. Gunakan kunci `model_input` dengan nilai yang terkandung dalam pertanyaan, dan kunci `target_output` dengan nilai yang terkandung dalam jawaban sebagai berikut:

```
{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}
```

Contoh sebelumnya adalah objek JSON yang valid tunggal yang membentuk satu catatan dalam file `jsonlines` input. Setiap objek JSON dikirim ke model Anda sebagai permintaan. Untuk membuat beberapa permintaan, sertakan beberapa baris. Contoh input data berikut adalah untuk tugas jawaban pertanyaan yang menggunakan `category` kunci opsional untuk evaluasi.

```
{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}
```

Jika Anda mengevaluasi algoritme di UI, default berikut akan ditetapkan untuk kumpulan data input Anda:
+ Jumlah catatan yang digunakan evaluasi adalah tetap. Algoritma mengambil sampel jumlah permintaan ini secara acak dari dataset input Anda.
  + **Untuk mengubah nomor ini:** Gunakan `fmeval` pustaka seperti yang dijelaskan dalam **Sesuaikan alur kerja Anda menggunakan `fmeval` pustaka**, dan atur parameter `num_records` ke jumlah sampel yang Anda inginkan, atau `-1` untuk menentukan seluruh kumpulan data. Jumlah default catatan yang dievaluasi adalah `100` untuk akurasi, stereotip cepat, toksisitas, klasifikasi, dan tugas ketahanan semantik. Jumlah default catatan untuk tugas pengetahuan faktual adalah`300`.
+ Pembatas keluaran target seperti yang dijelaskan sebelumnya dalam `target_output` parameter diatur ke `<OR>` UI.
  + **Untuk memisahkan jawaban yang dapat diterima menggunakan pembatas lain:** Gunakan `fmeval` pustaka seperti yang dijelaskan dalam **Sesuaikan alur kerja Anda menggunakan `fmeval` pustaka**, dan atur parameter `target_output_delimiter` ke pembatas yang Anda inginkan.
+ Anda harus menggunakan model JumpStart bahasa berbasis teks yang tersedia untuk evaluasi model. Model-model ini memiliki beberapa parameter konfigurasi input data yang diteruskan secara otomatis ke dalam FMeval proses.
  + **Untuk menggunakan jenis model lain:** Gunakan `fmeval` pustaka untuk menentukan konfigurasi data untuk dataset input Anda.

## Siapkan lingkungan Anda
<a name="clarify-foundation-model-evaluate-auto-ui-setup"></a>

Untuk menjalankan evaluasi otomatis untuk model bahasa besar (LLM) Anda, Anda harus mengatur lingkungan Anda untuk memiliki izin yang benar untuk menjalankan evaluasi. Kemudian, Anda dapat menggunakan UI untuk memandu Anda melalui langkah-langkah dalam alur kerja, dan menjalankan evaluasi. Bagian berikut menunjukkan cara menggunakan UI untuk menjalankan evaluasi otomatis.

**Prasyarat**
+ Untuk menjalankan evaluasi model di UI Studio, peran AWS Identity and Access Management (IAM) Anda dan kumpulan data input apa pun harus memiliki izin yang benar. Jika Anda tidak memiliki peran Domain SageMaker AI atau IAM, ikuti langkah-langkahnya. [Panduan untuk mengatur dengan Amazon SageMaker AI](gs.md)

**Untuk menyetel izin untuk bucket S3 Anda**

Setelah domain dan peran Anda dibuat, gunakan langkah-langkah berikut untuk menambahkan izin yang diperlukan untuk mengevaluasi model Anda.

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Di panel navigasi, masuk **S3** ke bilah pencarian di bagian atas halaman.

1. Pilih **S3** di bawah **Layanan**.

1. Pilih **Bucket** dari panel navigasi.

1. Di bagian **Bucket tujuan umum**, di bawah **Nama**, pilih nama bucket Amazon S3 yang ingin Anda gunakan untuk menyimpan kumpulan data prompt kustom, dan tempat Anda ingin hasil pekerjaan evaluasi model disimpan. Bucket Amazon S3 Anda harus Wilayah AWS sama dengan instans Studio Anda. Jika Anda tidak memiliki bucket Amazon S3, lakukan hal berikut.

   1. Pilih **Buat ember** untuk membuka halaman **Bucket Buat** baru.

   1. Di bagian **Konfigurasi umum**, di bawah **AWS Wilayah**, pilih AWS wilayah tempat model pondasi Anda berada.

   1. Beri nama bucket S3 Anda di kotak input di bawah **nama Bucket**.

   1. Terima semua pilihan default.

   1. Pilih **Buat ember**.

   1. Di bagian **Bucket tujuan umum**, di bawah **Nama**, pilih nama bucket S3 yang Anda buat.

1. Pilih tab **Izin**.

1. Gulir ke bagian **Cross-Origin Resource Sharing (CORS)** di bagian bawah jendela. Pilih **Edit**.

1. Untuk menambahkan izin CORS ke bucket, salin kode berikut ke dalam kotak input. 

   ```
   [
   {
       "AllowedHeaders": [
           "*"
       ],
       "AllowedMethods": [
           "GET",
           "PUT",
           "POST",
           "DELETE"
       ],
       "AllowedOrigins": [
           "*"
       ],
       "ExposeHeaders": [
           "Access-Control-Allow-Origin"
       ]
   }
   ]
   ```

1. Pilih **Simpan perubahan**.

**Untuk menambahkan izin ke kebijakan IAM Anda**

1. Di bilah pencarian di bagian atas halaman, masukkan**IAM**.

1. Di bawah **Layanan**, pilih **Identity and Access Management (IAM).**

1. Pilih **Kebijakan** dari panel navigasi.

1. Pilih **Buat kebijakan**. Saat **editor Kebijakan** terbuka, pilih **JSON**.

1. Pilih **Berikutnya**.

1. Pastikan izin berikut muncul di **editor Kebijakan**. Anda juga dapat menyalin dan menempelkan yang berikut ini ke **editor Kebijakan**.

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Action": [
               "cloudwatch:PutMetricData",
               "logs:CreateLogStream",
               "logs:PutLogEvents",
               "logs:CreateLogGroup",
               "logs:DescribeLogStreams",
               "s3:GetObject",
               "s3:PutObject",
               "s3:ListBucket",
               "ecr:GetAuthorizationToken",
               "ecr:BatchCheckLayerAvailability",
               "ecr:GetDownloadUrlForLayer",
               "ecr:BatchGetImage"
            ],
               "Resource": "*"
       },
       {
               "Effect": "Allow",
               "Action": [
                   "sagemaker:Search",
                   "sagemaker:CreateProcessingJob",
                   "sagemaker:DescribeProcessingJob"
                ],
                "Resource": "*"
       }
   ]
   }
   ```

------

1. Pilih **Berikutnya**.

1. Masukkan nama kebijakan di bagian **Detail kebijakan**, di bawah **Nama kebijakan**. Anda juga dapat memasukkan deskripsi opsional. Anda akan mencari nama kebijakan ini saat Anda menetapkannya ke peran.

1. Pilih **Buat kebijakan**.

**Untuk menambahkan izin ke peran IAM Anda**

1. Pilih **Peran** di panel navigasi. Masukkan nama peran yang ingin Anda gunakan.

1. Pilih nama peran di bawah **Nama peran**. Jendela utama berubah untuk menampilkan informasi tentang peran Anda.

1. Di bagian Kebijakan **izin**, pilih panah bawah di sebelah **Tambahkan izin**.

1. Dari opsi yang muncul, pilih **Lampirkan kebijakan**.

1. Dari daftar kebijakan yang muncul, cari kebijakan yang Anda buat di Langkah 5. Pilih centang kotak di samping nama kebijakan Anda.

1. Pilih panah bawah di sebelah **Tindakan**.

1. Dari opsi yang muncul, pilih **Lampirkan**.

1. Cari nama peran yang Anda buat. Pilih kotak centang di sebelah nama.

1. Pilih **Tambahkan izin**. Spanduk di bagian atas halaman harus menyatakan **Kebijakan berhasil dilampirkan ke peran**.
+ .

## Buat pekerjaan evaluasi model otomatis di Studio
<a name="clarify-foundation-model-evaluate-auto-ui-run"></a>

 Saat membuat pekerjaan evaluasi model otomatis, Anda dapat memilih dari JumpStart model berbasis teks yang tersedia atau Anda dapat menggunakan JumpStart model berbasis teks yang sebelumnya Anda gunakan ke titik akhir.

Untuk membuat pekerjaan evaluasi model otomatis menggunakan prosedur berikut.

**Untuk meluncurkan pekerjaan evaluasi model otomatis di Studio.**

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Di bilah pencarian di bagian atas halaman, masukkan**SageMaker AI**.

1. Di bawah **Layanan**, pilih **Amazon SageMaker AI**.

1. Pilih **Studio** dari panel navigasi.

1. Pilih domain Anda dari bagian **Memulai**, setelah memperluas panah bawah di bawah **Pilih Domain**.

1. Pilih profil pengguna Anda dari bagian **Memulai** setelah memperluas panah bawah di bawah **Pilih profil pengguna**.

1. Pilih **Open Studio** untuk membuka landing page Studio.

1. Pilih **Pekerjaan** dari panel navigasi utama.

1. Kemudian, pilih **Evaluasi model**.

**Untuk mengatur pekerjaan evaluasi**

1. Selanjutnya, pilih **Evaluasi model,**.

1. Pada **Langkah 1: Tentukan detail pekerjaan** lakukan hal berikut:

   1.  Masukkan **Nama** evaluasi model Anda. Nama ini membantu Anda mengidentifikasi pekerjaan evaluasi model Anda setelah diserahkan.

   1. Masukkan **Deskripsi** untuk menambahkan lebih banyak konteks ke nama.

   1. Pilih **Berikutnya**.

1. Pada **Langkah 2: Mengatur evaluasi** lakukan hal berikut:

   1. Di bawah **Jenis evaluasi** pilih **Otomatis**.

   1. Kemudian, pilih **Tambahkan model ke evaluasi**

   1. **Dalam modal **model Add**, Anda dapat memilih untuk menggunakan **model foundation Jumpstart Pra-terlatih** atau SageMaker titik akhir AI.** Jika Anda sudah menerapkan JumpStart model, pilih **titik akhir SageMaker AI** jika tidak, pilih Model fondasi **Jumpstart yang telah dilatih sebelumnya**.

   1. Lalu, pilih **Simpan**.

   1.  (*Opsional*) Setelah menambahkan model Anda pilih **template Prompt** untuk melihat format input yang diharapkan untuk prompt berdasarkan model yang Anda pilih. Untuk informasi tentang cara mengonfigurasi templat prompt untuk kumpulan data, lihat[Templat cepat](clarify-foundation-model-evaluate-whatis.md#clarify-automatic-jobs-summary-prompt-templates).
      + Untuk menggunakan templat prompt default, selesaikan langkah-langkah berikut:

        1. Aktifkan **Gunakan templat prompt default yang disediakan oleh kumpulan data.**

        1. (Opsional) Untuk setiap kumpulan data, tinjau prompt yang disediakan oleh Clarify.

        1. Pilih **Simpan**.
      + Untuk menggunakan templat prompt khusus, selesaikan langkah-langkah berikut:

        1. Matikan **Gunakan templat prompt default yang disediakan oleh kumpulan data.**

        1. Jika Clarify menampilkan prompt default, Anda dapat menyesuaikannya atau menghapusnya dan memasok milik Anda sendiri. Anda harus menyertakan `$model_input` variabel dalam template prompt.

        1. Pilih **Simpan**.

   1. Kemudian, di bawah **Jenis tugas** pilih jenis tugas.

      Untuk informasi selengkapnya tentang jenis tugas dan dimensi evaluasi terkait, lihat **Evaluasi otomatis** di **[Menggunakan kumpulan data yang cepat dan dimensi evaluasi yang tersedia dalam pekerjaan evaluasi model](clarify-foundation-model-evaluate-overview.md)**.

   1. Di bagian **Metrik evaluasi**, pilih **dimensi Evaluasi**. Kotak teks di bawah **Deskripsi** berisi konteks tambahan tentang dimensi.

      Setelah Anda memilih tugas, metrik yang terkait dengan tugas akan muncul di bawah **Metrik**. Di bagian ini, lakukan hal berikut.

   1. Pilih dimensi evaluasi dari panah bawah di bawah **Dimensi evaluasi**.

   1. Pilih dataset evaluasi. Anda dapat memilih untuk menggunakan dataset Anda sendiri atau menggunakan dataset bawaan. Jika Anda ingin menggunakan kumpulan data Anda sendiri untuk mengevaluasi model, itu harus diformat dengan cara yang FMEval dapat digunakan. Itu juga harus ditempatkan di bucket S3 yang memiliki izin CORS yang direferensikan di bagian sebelumnya. [Siapkan lingkungan Anda](#clarify-foundation-model-evaluate-auto-ui-setup) Untuk informasi selengkapnya tentang cara memformat kumpulan data kustom, lihat[Menggunakan dataset masukan kustom](clarify-foundation-model-evaluate-auto-lib-custom.md#clarify-foundation-model-evaluate-auto-lib-custom-input). 

   1. Masukkan lokasi bucket S3 tempat Anda ingin menyimpan hasil evaluasi keluaran. File ini dalam format jsonlines (.jsonl).

   1. Konfigurasikan prosesor Anda di bagian **Konfigurasi prosesor** menggunakan parameter berikut:
      + Gunakan **hitungan Instance** untuk menentukan jumlah instance komputasi yang ingin Anda gunakan untuk menjalankan model Anda. Jika Anda menggunakan lebih dari `1` instance, model Anda dijalankan dalam instance paralel.
      + Gunakan **tipe Instance** untuk memilih jenis instance komputasi yang ingin Anda gunakan untuk menjalankan model Anda. Untuk informasi selengkapnya tentang jenis instance, lihat[Jenis Instance Tersedia untuk Digunakan Dengan Notebook Amazon SageMaker Studio Classic](notebooks-available-instance-types.md).
      + Gunakan tombol **Volume KMS** untuk menentukan kunci enkripsi AWS Key Management Service (AWS KMS) Anda. SageMaker AI menggunakan AWS KMS kunci Anda untuk mengenkripsi lalu lintas masuk dari model dan bucket Amazon S3 Anda. Untuk informasi selengkapnya tentang kunci, lihat [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).
      + Gunakan tombol **Output KMS untuk menentukan kunci** AWS KMS enkripsi Anda untuk lalu lintas keluar.
      + Gunakan **Peran IAM** untuk menentukan akses dan izin untuk prosesor default. Masukkan peran IAM yang Anda atur [Siapkan lingkungan Anda](#clarify-foundation-model-evaluate-auto-ui-setup)

   1. Setelah Anda menentukan model dan kriteria Anda, pilih **Berikutnya**. Jendela utama melompat ke **Langkah 5 Tinjau dan Simpan**.

**Tinjau dan jalankan pekerjaan evaluasi Anda**

1. Tinjau semua parameter, model, dan data yang Anda pilih untuk evaluasi Anda.

1. Pilih **Buat sumber daya** untuk menjalankan evaluasi Anda.

1. Untuk memeriksa status pekerjaan Anda, buka bagian atas **Evaluasi Model** di halaman.